Integrierter speicher Controller & Cachesize

Gregor

rapso schrieb:

btw. wie waere es mit einem screen deines volumetracings im screenshot forum?

Habe gerade nen Screenshot gepostet. Ist aber schon älter und den hatte ich hier auch schonmal gezeigt.

hustbaer

lol
Irgendwie witzig wie hier versucht wird die Vorteile eines grossen Caches wegzudiskutieren.

rapso

hustbaer schrieb:

lol
Irgendwie witzig wie hier versucht wird die Vorteile eines grossen Caches wegzudiskutieren.

und dein nuetzlicher beitrag zur diskusion ist?

Gregor

BTW: Wenn man sagt, dass ein großer Cache gegenüber dem IMC bezüglich der Rechenleistung eine Verschwendung von Die-Fläche darstellt, dann nimmt man ja implizit an, dass die AMD-Prozessoren pro Fläche eine deutlich höhere Rechenleistung als Intel-Prozessoren aufweisen. ...zumindest bei gleichen Strukturgrößen.

Da sind mal ein paar Die-Fotos und Größenangaben und so:

http://chip-architect.com/news/2007_02_19_Various_Images.html

Was man da an Die-Größe und Fertigungstechnik momentan wohl am ehesten vergleichen kann, ist der Merom-Prozessor mit dem Brisbane-Prozessor. Brisbane hat einen IMC, Merom einen großen Cache. Und die Größen sind mehr oder weniger ähnlich. ...mir ist in dem Zusammenhang nicht bekannt, dass der Brisbane-Prozessor dem Merom-Prozessor deutlich überlegen ist.

rapso

Gregor schrieb:

BTW: Wenn man sagt, dass ein großer Cache gegenüber dem IMC bezüglich der Rechenleistung eine Verschwendung von Die-Fläche darstellt, dann nimmt man ja implizit an, dass die AMD-Prozessoren pro Fläche eine deutlich höhere Rechenleistung als Intel-Prozessoren aufweisen. ...zumindest bei gleichen Strukturgrößen.

das ist deine interpretation. man sagt eher, dass intel weniger entwickelte logic hat und das mit massig cache kompensiert, weil sie es fertigen koennen und es wenig 'hirnschmalz' verbraucht.

http://www.trustedreviews.com/cpu-memory/review/2006/08/28/Intel-Core-2-Duo-Merom-Notebooks/p2 schrieb:

These are virtually the same as that as for Core Duo so what then are the differences between the mobile versions of the Core Duo and Core 2 Duo?

In a nutshell though the biggest difference over the Core Duo is the increase in Level 2 cache from 2MB to 4MB, which accounts for the transistor count increasing from 151 million to 291 million.

Da sind mal ein paar Die-Fotos und Größenangaben und so:

http://chip-architect.com/news/2007_02_19_Various_Images.html

Was man da an Die-Größe und Fertigungstechnik momentan wohl am ehesten vergleichen kann, ist der Merom-Prozessor mit dem Brisbane-Prozessor. Brisbane hat einen IMC, Merom einen großen Cache. Und die Größen sind mehr oder weniger ähnlich. ...mir ist in dem Zusammenhang nicht bekannt, dass der Brisbane-Prozessor dem Merom-Prozessor deutlich überlegen ist.

der vergleich haengt aber etwas, Merom ist fuer mobile. er hat 291MTransistoren waehrend der Brisbane 'nur' 221MTransistoren hat. waehrend AMD an allen ecken transistoren spart um im desktop noch schnell genug zu sein, baut intel unmengen von cache ein und verdoppelt fast den transistorcount beim mobile. dabei takten beide recht gleich (ich glaube 2.6ghz beim meron und 2.7 bei brisbane), wobei AMDs desktop cpus bestenfalls 65Watt ziehen, der merom zieht sicherlich nur die haelfte davon. du siehst, intel setzt rein auf die herstellungs-tech.
und performance? naja, du vergleichst eine K8 mit einer core architektur, der core vom k8 ist weit unterlegen. wenn du das mit der gleichen generation vergleichen willst, such dir nen P4 und nen K8 raus. ansonsten kannst du ja jetzt auch nen P5 mit nem k10 vergleichen.

Gregor

@rapso: Natürlich haben Prozessoren mit einem großen Cache eine deutlich höhere Transistordichte als Prozessoren ohne einen solchen Cache. Der Cache stellt halt eine derart regelmäßige Struktur dar, dass man die Größen der einzelnen Bitzellen massiv optimiert. Aber letztendlich geht es ja nicht um die Anzahl der Transistoren, sondern um die Die-Fläche. Da unterscheiden sich Brisbane und Merom nicht sooo sehr: 10% oder so. Und beide haben 65nm Strukturen, insofern weiß ich nicht genau, was Du in diesem Zusammenhang mit mit dem Hinweis auf Intels bessere Prozesstechnologie meinst.

BTW: Ich glaube, die Desktopprozessoren unterscheiden sich bei Intel nicht besonders stark von den Mobilprozessoren. ...wenn man von der Taktung und ein paar weiteren Kleinigkeiten absieht. Die Daten, die da für den Merom stehen, werden in etwa auch für die Desktopvariante stimmen.

rapso schrieb:

man sagt eher, dass intel weniger entwickelte logic hat und das mit massig cache kompensiert

Du stellst das hier als allgemeinen Fakt dar, aber IMHO ist das doch eine sehr subjektive Sichtweise. Wer ist eigentlich "man"? Zur P4-Zeit hätte ich Dir hier zugestimmt, aber momentan sieht es IMHO anders aus. Das Design des Core2 ist wirklich gut. Was soll denn da bei AMD die bessere Logik sein? Der integrierte Speichercontroller? Und das war es dann? Du redest da über einen ganz kleinen Teil des Prozessors. Und IMHO stellt der auch keine wirkliche Herausforderung bezüglich dem Design dar. "Speichercontroller" sind ja nichts neues: Das einzig neue am integrierten Speichercontroller ist letztendlich, dass man sich dazu entscheidet, diesen Teil des Gesamtsystems in den Prozessor zu integrieren. Bei Intel ist er halt bisher in der Northbridge anzutreffen. ...die auch von Intel hergestellt wird, insofern hat Intel das Know-How für Speichercontroller durchaus. Wo man ihn jetzt platziert, das ist einfach nur eine Frage des Designs.

groovemaster

Gregor schrieb:

BTW: Wenn man sagt, dass ein großer Cache gegenüber dem IMC bezüglich der Rechenleistung eine Verschwendung von Die-Fläche darstellt, dann nimmt man ja implizit an, dass die AMD-Prozessoren pro Fläche eine deutlich höhere Rechenleistung als Intel-Prozessoren aufweisen. ...zumindest bei gleichen Strukturgrößen.

Irgendwie verstehe ich nicht so ganz, wie du zu diesem Schluss kommst.

Gregor schrieb:

Was man da an Die-Größe und Fertigungstechnik momentan wohl am ehesten vergleichen kann, ist der Merom-Prozessor mit dem Brisbane-Prozessor. Brisbane hat einen IMC, Merom einen großen Cache. Und die Größen sind mehr oder weniger ähnlich. ...mir ist in dem Zusammenhang nicht bekannt, dass der Brisbane-Prozessor dem Merom-Prozessor deutlich überlegen ist.

Ausschlaggebend für die Leistung ist letztendlich immer noch die eigentliche Architektur. Und der K8 ist immerhin 3 Jahre älter. Vor allem sollte man auch bedenken, dass die Vorteile eines IMC und Hypertransport vor allem bei Multisockelsystemen zum tragen kommen. Die helfen Intel auch grosse Caches nichts mehr.

Gregor schrieb:

@rapso: Natürlich haben Prozessoren mit einem großen Cache eine deutlich höhere Transistordichte als Prozessoren ohne einen solchen Cache. Der Cache stellt halt eine derart regelmäßige Struktur dar, dass man die Größen der einzelnen Bitzellen massiv optimiert. Aber letztendlich geht es ja nicht um die Anzahl der Transistoren, sondern um die Die-Fläche. Da unterscheiden sich Brisbane und Merom nicht sooo sehr: 10% oder so. Und beide haben 65nm Strukturen, insofern weiß ich nicht genau, was Du in diesem Zusammenhang mit mit dem Hinweis auf Intels bessere Prozesstechnologie meinst.

Fertigungsprozess ist nicht gleich Fertigungsprozess. Nur weil beide Unternehmen momentan CPUs in 65nm Strukturbreite auf dem Markt haben, heisst das noch lange nicht, dass diese auch die gleichen Merkmale aufweisen.

Gregor schrieb:

Du stellst das hier als allgemeinen Fakt dar, aber IMHO ist das doch eine sehr subjektive Sichtweise. Wer ist eigentlich "man"? Zur P4-Zeit hätte ich Dir hier zugestimmt, aber momentan sieht es IMHO anders aus. Das Design des Core2 ist wirklich gut. Was soll denn da bei AMD die bessere Logik sein? Der integrierte Speichercontroller?

Plus Hypertransport. Für dich ist der Unterschied vielleicht kaum relevant, und das mag für den Desktop- und Mobilbereich sogar fast stimmen, wenn wir aber Richtung Multisockelsystemen oder gar HPC gehen, ist das ein entscheidender Vorteil, da die Skalierung deutlich besser funktioniert.

Gregor schrieb:

Und das war es dann? Du redest da über einen ganz kleinen Teil des Prozessors. Und IMHO stellt der auch keine wirkliche Herausforderung bezüglich dem Design dar.

Wenn du dich da mal nicht täuschst. Wenn es so einfach wäre, würde Intel wohl nicht erst 5 Jahre nach AMD mit einer vergleichbaren Lösung daherkommen. Ich denke, die Entwicklung ist nicht gerade trivial.

Gregor

groovemaster schrieb:

Wenn du dich da mal nicht täuschst. Wenn es so einfach wäre, würde Intel wohl nicht erst 5 Jahre nach AMD mit einer vergleichbaren Lösung daherkommen. Ich denke, die Entwicklung ist nicht gerade trivial.

Vielleicht ist es ja auch einfach so, dass für Intel der IMC erst jetzt so langsam interessant wird. Du hast ja vorhin zu Recht auch schon darauf hingewiesen, dass die gleiche Strukturgröße nicht automatisch heißt, dass die Prozesstechnologie vergleichbar ist. Man hört ja auch immer wieder von weiteren Unterschieden. ...zum Beispiel hat AMD SOI und Intel nicht, dafür hat Intel demnächst diese "High-k Materialien", die AMD nicht hat. Ein interessanter Punkt, der mir gerade aufgefallen ist, ist allerdings auch, dass Intel bei gleichen Strukturgrößen eine wesentlich höhere Speicherdichte als AMD im Cache realisiert. ...zumindest was den Merom/Brisbane-Vergleich betrifft. Auf der Fläche, die der integrierte Speichercontroller benötigen würde, kann Intel also vermutlich deutlich mehr Cache unterbringen als AMD. ...naja ~50% mehr. Das kann bei der Designentscheidung, ob man nun einen IMC oder doch lieber mehr Cache einbaut, dann durchaus zu unterschiedlichen Ergebnissen führen.

Was den K10 betrifft: Wenn man sich mal anguckt, wie groß das Die von dem ist, dann muss er im Prinzip von seiner Rechenleistung her mindestens 2,5 mal so viel wie der Brisbane liefern. ...wenn man von einer deutlichen Verbesserung der Logik auf dem Chip ausgeht, müsste sogar noch mehr drin sein. Ich weiß nicht, ob die ersten Tests des Barcelonas auf ein solches Leistungspotential hindeuten. Naja, aber warten wir mal ab, was die Desktopvariante von diesem Prozessor bringt.

hustbaer

Ich hab' mal ne ganz doofe Frage zu IMC + "Hypertransport" (ok, mehrere): ist damit gemeint dass jede CPU ihren "eigenen" Speicher hat, und wenn CPU 1 was aus dem Speicher von CPU 2 will, CPU 1 das über "Hypertransport" an CPU 2 signalisiert, CPU 2 fetcht das dann und schickt es über "Hypertransport" an CPU 1 rüber...? Und dauert das dann nicht (deutlich) länger als wenn man nen FSB verwendet?
Anders wüsste ich zumindest nicht wie das funktionieren soll wenn der "MC" eben "I" ist, also der Memory Controller in der CPU sitzt.

Und wenn diese meine Vermutung stimmt, sprechen wir dann hier nicht von einem NUMA System? Ist das nicht ziemlich langsam wenn das OS und die Programme nicht darauf abgestimmt sind?

Und... kann z.B. ein Windows Server 2003 das über die MMU oder sonstwie so hinbiegen dass es automatisch erkennt welcher Thread welchen Speicher verwendet, und diesen dann entsprechend "umschaufelt", damit er lokal zur CPU liegt? Bzw. wenigstens erkennen welchen Speicher der Thread vorzugsweise verwendet und ihn dementsprechend auf der "passenden" CPU schedulen?
Können BSD/Linux/Solaris das?

Und nochwas anderes: wie funktioniert "Hypertransport" - ist das ein Bus System wo einfach alle CPUs draufhocken? Oder ist es so dass jede CPU z.B. 4 Links hat, über die sie mit 4 anderen CPUs kommunizieren kann, und wenn es mehr als 5 CPUs im System gibt muss der Request über eine oder mehrere "Zwischenstationen" weitergeleitet werden?

groovemaster

Gregor schrieb:

Das kann bei der Designentscheidung, ob man nun einen IMC oder doch lieber mehr Cache einbaut, dann durchaus zu unterschiedlichen Ergebnissen führen.

Letztendlich ist entscheidend, was hinten raus kommt. Und mit dem Opteron hat AMD seinerzeit bewiesen, dass ihre Technologie, vor allem im Serverbereich, Intel deutlich überlegen war. Da konnte der P4 nichts entgegensetzen. Erst mit einer besseren Architektur, dem Core 2, konnte Intel wieder aufholen. Und solche Punkte, eben eine effiziente Speicheranbindung, effiziente Kommunikation in Mehrsockelsystemen oder leistungsfähige Recheneinheiten des Kerns selbst, sind deutlich wichtiger als Unmengen an Cache.

Gregor schrieb:

Was den K10 betrifft: Wenn man sich mal anguckt, wie groß das Die von dem ist, dann muss er im Prinzip von seiner Rechenleistung her mindestens 2,5 mal so viel wie der Brisbane liefern.

Ich kenne die Die Grössen ehrlich gesagt nicht, aber alleine die Verdopplung der Kerne bringt theoretisch doppelte Leistung. Aber so einfach kann man das natürlich nicht rechnen. Hinzu kommt, dass der K10 zB einen shared Cache (L3) spendiert bekommen hat. Das vergrössert natürlich auch nochmal die Die Fläche.

Gregor schrieb:

...wenn man von einer deutlichen Verbesserung der Logik auf dem Chip ausgeht, müsste sogar noch mehr drin sein. Ich weiß nicht, ob die ersten Tests des Barcelonas auf ein solches Leistungspotential hindeuten. Naja, aber warten wir mal ab, was die Desktopvariante von diesem Prozessor bringt.

Wie gesagt, nicht jedes zusätzliche Element resultiert in linearem Leistungszuwachs. Und erst recht nicht in allen Szenarien. Du machst da natürlich eine ziemliche Milchmädchenrechnung. ZB wurden neue Stromsparmechanismen integriert, ua CoolCore. Einen Leistungszuwachs wirst du davon natürlich nicht bekommen. Oder die Virtualisierungstechnik wurde aufgebohrt. Davon wirst du auch nur dann profitieren, wenn eine Anwendung diese nutzt. Ich habe mir vom Barca bisher zwar nur speccpu angeschaut, was für Server Workloads wichtig ist, und da macht AMD's Neuer eine gute Figur. Im specfp putzt die 2 GHz Version selbst einen 3 GHz Xeon weg. Nicht so schlecht, wenn du mich fragst.

hustbaer schrieb:

Ich hab' mal ne ganz doofe Frage zu IMC + "Hypertransport" (ok, mehrere): ist damit gemeint dass jede CPU ihren "eigenen" Speicher hat, und wenn CPU 1 was aus dem Speicher von CPU 2 will, CPU 1 das über "Hypertransport" an CPU 2 signalisiert, CPU 2 fetcht das dann und schickt es über "Hypertransport" an CPU 1 rüber...? Und dauert das dann nicht (deutlich) länger als wenn man nen FSB verwendet?

Jede CPU hat ihren eigenen Controller, wenn du das meinst. Bei Mehrsockelsystemen können die verschiedenen CPUs also effektiver RAM beanspruchen. Niemand muss warten, bis ein externer Controller für die eigenen Anforderungen "frei" ist. Und nein, das dauert nicht länger als mit FSB. Ganz im Gegenteil, entscheidend ist Bandbreite und Latenz. Und die sind bei Hypertransport und einem IMC wesentlich besser.

hustbaer schrieb:

Und wenn diese meine Vermutung stimmt, sprechen wir dann hier nicht von einem NUMA System?

Deine Vermutung stimmt nicht und bei AMD sprechen wir von NUMA Systemen.

hustbaer schrieb:

Und... kann z.B. ein Windows Server 2003 das über die MMU oder sonstwie so hinbiegen dass es automatisch erkennt welcher Thread welchen Speicher verwendet, und diesen dann entsprechend "umschaufelt", damit er lokal zur CPU liegt? Bzw. wenigstens erkennen welchen Speicher der Thread vorzugsweise verwendet und ihn dementsprechend auf der "passenden" CPU schedulen?

Ich bin mir nicht sicher, was du hier genau meinst. Welcher Speicher (RAM) zu welchem Thread gehört, ist ja immer noch die Aufgabe des OS. Dem Speichercontroller ist das ziemlich egal. Der Speichercontroller greift davon unabhängig auf den gesamten Speicher zu und verteilt ihn auf den Kern, der ihn anfordert.

hustbaer schrieb:

Und nochwas anderes: wie funktioniert "Hypertransport" - ist das ein Bus System wo einfach alle CPUs draufhocken?

Grob gesagt, Hypertransport ist das, was für Intel der FSB ist. Wie es genau funktioniert, da lies dir am besten mal Wikipedia oder noch besser die Doku von AMD durch. Dort wird es sicherlich besser erklärt, als ich das könnte.

Integrierter speicher Controller &amp; Cachesize

Integrierter speicher Controller & Cachesize