Lowpower Parallel Supercomputing for 99USD



  • Hi,

    bitte um Feedback zum Parallella Project:
    http://www.youtube.com/watch?v=L3M80fHk1zU
    http://www.kickstarter.com/projects/adapteva/parallella-a-supercomputer-for-everyone

    "Once completed, the 64-core version of the Parallella computer would deliver over 90 GFLOPS of performance and would have the the horse power comparable to a theoretical 45 GHz CPU [64 CPU cores * 700MHz] on a board the size of a credit card while consuming only 5 Watts under typical work loads"

    "The Parallela, however, can run up to 90 gigaflops and it only costs $100."

    welche applicationen sind damit denkbar und warum soll man nicht eine normale mutlicore CPU oder GPU nehmen?



  • welche applicationen sind damit denkbar und warum soll man nicht eine normale mutlicore CPU oder GPU nehmen?

    Also denkbar sind eigentlich alle Anwendungen die komplexe Berechnungen durchführen - wenn sich diese gut parallelisieren lassen.

    Wobei ich glaube dass das eher nur für eigene Anwendungen geeignet ist (zumindest solange das noch nicht Standard ist), denn welcher Enduser kauft sich sowas schon solange es recht unbekannt ist?

    und warum soll man nicht eine normale mutlicore CPU oder GPU nehmen?

    Ja das frag ich mich grad auch ^^

    Vielleicht weil diese Hardware spezieller und damit schneller ist - wobei moderne GPUs eigentlich auch so 1,5 TFlops/s schaffen.

    Diese Zahl allein ist natürlich nicht sonderlich aussagekräftig, aber ich denke schon dass die GPU da mithält. Wobei ich mich natürlich auch nicht wirklich auskenne wie es da mit Speicherzugriffsgeschwindigkeit etc. ist, die spielen da ja auch mit rein.

    Bei CPUs siehts dann schon anderes aus, die werden in Sachen Parallelberechnung ja schon von einer GPU abgehängt.



  • Also 90GFlops überzeugt mich nicht so richtig, wenn man mal bedenkt dass eine GTX 660 Ti so ~2500 GFlops schafft. Für vergleichbare Leistung bräuchte man dann etwa 28 dieser Dinger, ~$2800 gegen ~$300. Bleibt noch der Stromverbrauch: 28x5W = 140W vs 150W, okay knapp gewonnen. Wobei sich noch fragt wie der Stromverbrauch bei Vollast aussieht. Hinzu kommt dann noch der ganze Netzwerk-Kram. Hm. Ne, mir scheinen Grafikkarten doch irgendwie besser zu sein.



  • cooky451 schrieb:

    Also 90GFlops überzeugt mich nicht so richtig, wenn man mal bedenkt dass eine GTX 660 Ti so ~2500 GFlops schafft. Für vergleichbare Leistung bräuchte man dann etwa 28 dieser Dinger, ~$2800 gegen ~$300. Bleibt noch der Stromverbrauch: 28x5W = 140W vs 150W, okay knapp gewonnen. Wobei sich noch fragt wie der Stromverbrauch bei Vollast aussieht. Hinzu kommt dann noch der ganze Netzwerk-Kram. Hm. Ne, mir scheinen Grafikkarten doch irgendwie besser zu sein.

    Wenn du einen Workload hast der sinnvoll mit SIMT funktioniert und wo es nicht schadet wenn ein paar bits umgekippt sind (sonst Tesla oder Quadro). Und wer will schon Rekursion in seinem Programm nutzen? Dynamisches Speichermanagement hatten wir damals in Fortran auch nicht; neumodischer scheiß den niemand braucht!

    Desweiteren ist es super auf dem CPU erstmal alle Daten die man einließt zu Serialisieren und dann auf der GPU nur auf serialisierten Daten zu arbeiten, weil man kein Unified Memory hat und direkt auf der GPU nicht wirklich sinnvoll komplexe Datenstrukturen bauen kann. Das fühlt sich an wie eine SQL-Datenbank nur leider ohne SQL.

    Sorry, aber eine GPU und einen CPU-Cluster nur an der GFlop Zahl zu vergeleichen ist doch leicht unrealistisch.

    Der Benchmark auf der Kickstarter Seite war doch leicht Zweifelhaft. Für einen komplexten Out-of-Order Prozessor mit gigantischen Caches, Prefetching und SIMD optimiert man doch etwas anders als für die simplen Parallella Core's. Würde mich ernsthaft wundern wenn man auf einem Desktop nicht noch einen Faktor 5-10 rausholen kann und scheinbar benutzten sie auf dem PC sowieso nur einen Core...



  • @DarkShadow44
    The Epiphany chips are much smaller high end CPUs and GPUs. The 64-core Epiphany chip only occupies 10mm^2, about 1/30th the size of modern GPUs and CPUs. If we would scale up our chips to the same die size, the Epiphany chips would win in terms of raw performance. Still, that's not really the point. For a 5 Watt power envelop, it's energy efficiency that matters.



  • If we would scale up our chips to the same die size, the Epiphany chips would win in terms of raw performance

    Wag ich mal zu bezweifeln.
    Wenn das so einfach wäre - warum haben Intel und AMD dann nicht längst schon so effiziente Prozessoren ? 😉

    Ich bin immer noch der Meinung das GPU ausreicht - wozu zusätzliche Hardware wenn ich auch die vorhanden Nutzen kann - und zusätzlich davon ausgehen kann dass andere sie auch haben ?



  • DarkShadow44 schrieb:

    Wenn das so einfach wäre - warum haben Intel und AMD dann nicht längst schon so effiziente Prozessoren ? 😉

    mit einer hochgezüchteten auf einen einzelnen spezialbereich fokusierten technologie lassen sich schon andere ergebnisse erreichen als mit generalisierten cpus - das ist für mich kein wunder sondern täglich erlebte realität!

    wiki FPGA schrieb:

    Moderne Prozessoren mit SIMD-Befehlen wie zum Beispiel der Intel i7-3930K verarbeiten bis zu 96 Gleitkomma-Befehle parallel (48 Additionen + 48 Multiplikationen), der erreichbare Durchsatz liegt bei 3,2 GHz bei theoretisch etwa 300 GFlops, von denen 250 GFlops bei praxisrelevanten Aufgaben erreichbar sind. Aktuelle FPGA können zehntausende Festkomma-Additionen (bis 48 bit) und tausende Festkomma-Multiplikationen (bis 18x25 bit) bei Taktfrequenzen von 500 MHz zur gleichen Zeit ausführen. Damit sind für Verarbeitungsaufgaben, die sich mit Festkommaarithmetik bearbeiten lassen, um den Faktor 2 bis 3 höhere Verarbeitungsleistung bei deutlich geringerer Leistungsaufnahme möglich.

    @edit: noch besser wird es dann mit

    wiki ASIC schrieb:

    Die bekannten CPUs (Intel Pentium, AMD Athlon, etc.) sind hingegen universelle integrierte Schaltungen, die eine Vielzahl verschiedener Aufgaben bewältigen können. Das hat jedoch den Nachteil, dass diese Aufgaben nicht optimal abgearbeitet werden: Energieverbrauch, Datendurchsatz, Chip-Fläche, Taktfrequenz und andere Zielparameter sind in bestimmten Anwendungen höher als bei einem spezialisierten Baustein.

    in den genuss kommt man aber eher selten 😞



  • crispin kenton:
    The i7-3930K is a fair bit more frugal with its power consumption than the i7-3960X, drawing a noticable 47W





  • @DarkShadow44:
    siehe arm cortex prozessoren...sind um einiges mehr energy effizient als intel...





  • eig. ist die ganze diskussion sinnfrei, weil die finanzierung schon abgeschlossen ist. sowas hätte man wenn überhaupt vorher machen sollen. jetzt wird geliefert, oder eben nicht 👍



  • geri1 schrieb:

    @DarkShadow44:
    siehe arm cortex prozessoren...sind um einiges mehr energy effizient als intel...

    sind sie leider nicht, ist nur eine milchmaedchenrechnung bei der linearitaet von verbrauch und erbrachter leistung angenommen wird. wenn du einen ARM auf die leistung eines Atoms bringst, verbraucht der ploetzlich mehr.
    z.b.

    http://www.heise.de/mobil/meldung/ARM-Cortex-A15-schlaegt-Intel-Atom-1742691.html schrieb:

    Alles in allem – und angesichts weiterer Benchmarks von Anandtech.com – zeigt sich, dass der Cortex-A15 bei ähnlicher Taktfrequenz pro Kern deutlich mehr Rechenleistung liefert als ein Atom der 32-nm-Generation. Laut Anandtech beträgt aber die Leistungsaufnahme unter Volllast beim Chromebook mit Exynos 5 rund 75 Prozent dessen, was jenes mit Atom N570 dann schluckt; für letzteren nennt Intel 8,5 Watt TDP. Der Atom Z2760 könnte mit 1,7 Watt TDP sogar sparsamer sein als der Exynos 5.



  • blard schrieb:

    cooky451 schrieb:

    Also 90GFlops überzeugt mich nicht so richtig, wenn man mal bedenkt dass eine GTX 660 Ti so ~2500 GFlops schafft. Für vergleichbare Leistung bräuchte man dann etwa 28 dieser Dinger, ~$2800 gegen ~$300. Bleibt noch der Stromverbrauch: 28x5W = 140W vs 150W, okay knapp gewonnen. Wobei sich noch fragt wie der Stromverbrauch bei Vollast aussieht. Hinzu kommt dann noch der ganze Netzwerk-Kram. Hm. Ne, mir scheinen Grafikkarten doch irgendwie besser zu sein.

    Wenn du einen Workload hast der sinnvoll mit SIMT funktioniert

    tjo, wenn das nicht funktioniert, endest du auf einer GPU in etwa auf 1/32 der leistung, also etwa 80GFlops, wegen der 10% in ganz seltenen faellen den anderen prozessor kaufen? klingt nicht so optimal.

    und wo es nicht schadet wenn ein paar bits umgekippt sind

    http://www.nvidia.de/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf schrieb:

    Kepler retains the full IEEE 754-2008 compliant single- and double-precision arithmetic introduced in Fermi, including the fused multiply-add

    kippt nicht mehr/weniger als im standard definiert und von anderen GPUs und CPUs eingehalten wird. oft ist es sogar so, dass diese 'spezialprozessoren' nicht ganz IEEE754 konform sind, da kleinste special cases wie z.b. denorm handling massiv performance kosten wuerden.

    Und wer will schon Rekursion in seinem Programm nutzen?

    ach, ich finde das recht praktisch in cuda, sowohl funktionsweise wie auch auf job ebene.

    Dynamisches Speichermanagement hatten wir damals in Fortran auch nicht;

    nicht? ich allokiere hunderte von MB pro sekunde auf meiner GTX460.

    Desweiteren ist es super auf dem CPU erstmal alle Daten die man einließt zu Serialisieren und dann auf der GPU nur auf serialisierten Daten zu arbeiten, weil man kein Unified Memory hat und direkt auf der GPU nicht wirklich sinnvoll komplexe Datenstrukturen bauen kann.

    wieso sollte das nicht gehen? eigentlich erstellt man sehr komplexe datenstrukturen auf GPUs, besonders durch die parallelitaet wird es komplex, da du waitfree und dennoch effizient arbeiten moechtest, wobei du zudem eine komplexe architektur baendigen willst.

    Das fühlt sich an wie eine SQL-Datenbank nur leider ohne SQL.

    macht auf GPU ebenfalls sehr spass:
    http://pbbakkum.com/db/bakkum.sql.db.gpu.pdf
    auch nett ist winrar kompression auf gpu, oder ein antiv virus der auf GPU laeuft, z.b. von Kaspersky 🙂

    Sorry, aber eine GPU und einen CPU-Cluster nur an der GFlop Zahl zu vergeleichen ist doch leicht unrealistisch.

    wenn jemand nicht will dass man diese daten als grundlage zum vergleich heranzieht, wieso veroeffentlich man diese ueberhaupt? wieso veroeffentlichen die nicht die wirklich vorteilhaften daten statt sowas? wenn GFlops angegeben werden, vergleicht man die natuerlich, falls andere dinge herausragend waeren, wuerde man diese vergleichen.

    Der Benchmark auf der Kickstarter Seite war doch leicht Zweifelhaft. Für einen komplexten Out-of-Order Prozessor mit gigantischen Caches, Prefetching und SIMD optimiert man doch etwas anders als für die simplen Parallella Core's. Würde mich ernsthaft wundern wenn man auf einem Desktop nicht noch einen Faktor 5-10 rausholen kann und scheinbar benutzten sie auf dem PC sowieso nur einen Core...

    denk ich auch, es ist am ende einfach nur ein geek spielzeug mit dem man ziemlich viel spass haben kann. es ist nicht wirklich nuetzlich in der jetzigen form. die ersten gfx beschleuniger waren auch nicht schneller als CPUs und weit entfernt von guter qualitaet und dennoch war es spassig die zu nutzen.



  • Frage zur Architektur:
    Zischen dem ZYNQ7010 board welches den 1GB RAM speicher hat und dem EPIPHANY multicore chip ist ein bus mit nur 1.6GB/sec
    http://www.parallella.org/board/

    From data sheet: eLinks operate at divided system clock (max 800MHz)
    The link clock is half of the core clock.
    The links run DDR.
    The 1.6GB/s per link is the total bandwidth (in and out) :
    2 (in/out) x 0.4GHz clock x 2bits/cycle(ddr)

    Sind die 1.6GB/s nicht eine massive einschränkung welches das system langsam macht? welche busanbundung haben GPUs üblich?



  • GPUs haben bis 300GB/s
    kommt drauf an was du damit machst, wie gross die caches bzw lokalen speicher sind.

    PS3 hat auch 'nur' 20GB/s am CELL, aber jede SPU hat 256KB speicher der mit 16byte/cycle laeuft -> 51.2GB/s und bei 8SPUs hast du entsprechend >400GB/s

    GPUs haben bei L1 cache auch akkumuliert mehr als 4TB/s, externer speicher muss nicht soviel sagen.

    wobei es tatsaechlich nicht unmengen sind, ein Galaxy S3 hat glaube ich 12GB/s trotz LD-DDR3 ram


Anmelden zum Antworten