Wieso wird im Rechenzentrum kein Undervolting benutzt?

Ökofreak schrieb:

Also finanziell kann sich das schon lohnen, zumal die Kosten ja nur einmalig am Anfang in den ersten 2 Tagen Testbetrieb anfallen.
Wenn die CPU sauber bezügl. Undervolting ausgelotet wurde, dann wird sie auf ewig richtig rechnen, daß da dann doch mal ein Rechenfehler auftritt ist nämlich sehr sehr unwahrscheinlich.

Die Grenzwerte verschieben sich aber mit der Zeit durch Elektronenmigration. Das ist gerade bei modernen Chips mit kleinen Strukturen ein Problem.

Ökofreak schrieb:

Der Punkt mit von 1000 CPU fällt einer nach 2 Monaten aus ist nicht der Rede wert, denn es ist ja nur eine einzige CPU.
Diese muß man dann einmal neu starten und die Spannung etwas erhöhen und schon rechnet sie wieder richtig.
Der größte Verlust dürfte wohl nur an der Zeit für die Daten liegen, die man nun neuberechnen muß.

Wenn sie einfach mit dieser Rate ausfallen würden und ein großes Schild aufblingt, mit der Aufschrift, "Fehler wegen zu niedriger Betriebsspannung", dann sind die Wartungsvorgänge kein Problem, da die Wartungszeit nur sehr kurz ist. Das ist aber nicht der Fall. Die Systeme können auch einfach Müll produzieren und dann musst du erstmal herausfinden, ob Müll produziert wurde, was den Müll produziert hat und was du tun musst, um die Fehler zu korrigieren. Eventuell musst du Daten von mehreren Tagen Betrieb verwerfen und spätestens dann rechnet es sich nicht mehr mit der Ökobilanz. Mal abgesehen von den Störungen und Verzögerungen im Betriebsablauf, denn die Dinger laufen ja nicht aus Selbstzweck.

Marc++us

50kEUR ist kein Betrag, wegen dem man irgendwelche Rechner außerhalb der Spezifikation betreiben würde. Die Einsparung ist lächerlich. Sie würde nicht einmal das Jahresgehalt des zusätzlichen Technikers kompensieren, den man für diese Optimierung einstellen müßte.

Marc++us schrieb:

50kEUR ist kein Betrag, wegen dem man irgendwelche Rechner außerhalb der Spezifikation betreiben würde. Die Einsparung ist lächerlich. Sie würde nicht einmal das Jahresgehalt des zusätzlichen Technikers kompensieren, den man für diese Optimierung einstellen müßte.

Du brauchst keinen Techniker für das ganze Jahr, sondern nur für die erste Woche fürs ausloten.

Danach tut dann nur das Standardpersonal, das sowieso da ist, diesen einen Rechner von 1000, der mal falsch rechnet neu konfigurieren.
Weitere Wartungskosten fallen nicht an.

Wegen der Elektronnenmigration.
Die Belastung auf die CPU ist durch Undervolting niedriger, da geringere Spannung und weniger Wärme.
D.h. die Elektonenmigration schreitet viel langsamer voran.

@50k ersparnis/Jahr:

Was würde es denn kosten alle rechner so anzupassen? Was kostet es alle rechner zu testen ob die keien falschen ergebnisse liefern? Wer kümmert sich drum?

Ich glaub der Aufwand lohnt sich nicht.

otze

unabhängig davon:

eine CPU rechnet falsch und es kippt ein Bit. 1 Woche später gibt das Programm das Resultat aus und niemand bemerkt den Fehler.

Oops.

nachtfeuer

Es lohnt sich auf jeden Fall, sich über sowas Gedanken zu machen, die HPC-Szene ist doch ein gutes Beispiel dafür. Vor nicht allzulanger Zeit lag der bessere Effizienzwert bei etwa 400 Mflops/Watt, neulich waren es schon über 700 (Roadrunnersystem, mit Sicherheit auch Spannungsmanipulation dabei) dann wieder etwas besser und jetzt sogar 1664 Mflops/Watt, und das ist net schlecht.
( http://www.green500.org/lists/2010/11/top/list.php )
( http://www.bernd-leitenberger.de/benchmark.shtml )

Diese Geschichte ist insofern fesselnd, weil auch neuere Systeme von solcherlei Überlegung profitieren können, z.B. "intelligente" Autos oder tragbare Computer.

Und jetzt mal raus mit der Sprache, wieviel Flops- bzw. Mflops/Watt kann dein/euer Notebook?

otze schrieb:

unabhängig davon:

eine CPU rechnet falsch und es kippt ein Bit. 1 Woche später gibt das Programm das Resultat aus und niemand bemerkt den Fehler.

Oops.

Die Frage ist doch, warum sollte es überhaupt kippen.

Lest euch den WP Artikel durch.
Alle Transistoren haben einen Toleranzbereich, Transistor 1 schaltet also bei einer niedrigeren Spannung als Transistor 2.

Undervolting ausleuten bedeutet aber, die Spannung herauszufinden, bei dem auch der letzte Transistor, also der, der die höchste Spannung benötigt, zuverlässig schaltet.

Wenn dieser also in x Milliarden Fällen zuverlässig schaltet, warum sollte er es dann einmal nicht tun?

Die anderen Transistoren schalten auf alle Fälle, da die ja schon mit einer geringeren Spannung klarkommen, als dieser Transistor.

Stellt euch das also einfach mal physikalisch vor.
Im Prinzip ist die Wahrscheinlichkeit das er mal nicht schaltet so gering, daß er im Hintergrundrauschen von Bitkipps verursacht durch radioaktive Strahlung und Co verschwindet.

[QUOTE=sdfsdfsd ]
@50k ersparnis/Jahr:

Was würde es denn kosten alle rechner so anzupassen? Was kostet es alle rechner zu testen ob die keien falschen ergebnisse liefern? Wer kümmert sich drum?

Ich glaub der Aufwand lohnt sich nicht.
[/QUOTE]

Das kann man automatisieren.
Auf allen CPUs wird ausgehend von der Standardspannung ein Programm gestartet, das anfängt zu rechnen und die Rechnungen auf Fehler mehrfach überprüft. Sobald die Rechnung stimmt, wird die Spannung etwas gesenkt und die Berechnung geht von vorne los.
Und das geht so lange, bis die ersten Rechenfehler gemeldet werden, werden diese erreicht, dann wird die Spannung um 3-4 Stufen, welche als Puffer zur Sicherheit dienen erhöht und die gesuchte Spannung ist gefunden.
Das schöne an Undervolting ist nämlich, daß der erste Rechenfehler noch längst nicht zum Programm oder Rechnerabsturz führt. Die Wahrscheinlichkeit ist hier selbst sehr gering.
Das könnt ihr selber ausprobieren.
Also ich Prime95 so durchlaufen lief, meldete es mir z.b. den Rechenfehler als Rückmeldung und der Rechner war noch so bedienbar als wäre gar nichts gewesen.
D.h. ein kleines Bitkippen führt noch längst nicht zum sofortigen Absturz.

Genau deswegen ist die niedrigste funktionsfähige Spannung durch ein Programm automatisiert auslotbar.

Wenn überhaupt, dann dürfte das herantasten nur bei ganz wenigen CPUs von x Tausend dazu führen, daß das Programm schon bei der ersten zu niedrigen Spannungsstufe abstürzt und zwar genau bei den CPUs, bei denen die Transistoren betroffen sind, die z.B. das Zeigerregister und dergleichen betroffen.
Nur bei solche Rechnern müßte man dann manuel wohl nachhelfen.

Aber wie wahrscheinlich ist das schon, daß von x Milliarden Transistoren in einer CPU, ausgerechnet ein Transistor des Zeigerregisters ausfällt?
IMO ist das sehr unwahrscheinlich.

Deswegen dürfte man 1000 CPU spielend automatisiert ausloten können.
Die Frage wie lange das dauert alle CPUs auszuloten, begrenzt sich also auf die Frage, wieviel Zeit man bei jeder Spannungsstufenabsenkung für die Prüfberechnung aufbringen will.
1 h pro Stufe dürfte, um wirklich alle Transistoren durchzutesten, also genügen.

Ich selbst habe etwa 10 Stufen durchprobiert und die CPU auch nicht so lange berechnen lassen, bei mir war die Berechnungszeit z.b. auch nur 10 Minuten pro Stufe und dann noch mal 2 h für die letzte Stufe für die ich mich dann entschied, aber ich habe auch etwas größere Sprünge gemacht, da ich es ja manuell machte.
Aber da das automatisiert geht, dürften das auch nicht mehr als 30-60 Stufen sein.
Das ganze Prozedere wäre durch ein automatisch laufendes Programm also in sagen wir mal weniger als 3 Tagen zu schaffen und dann sind alle 1000 CPUs durchgetestet.
Einige erreichen das Ziel früher, weil sie schon früher bei hohen Spannungen Fehler melden und andere brauchen etwas länger.
Und von den 1000 CPUs sind es vielleicht gerade mal 2 CPUs, bei denen ausgerechnet die Transistoren von der ersten Fehlspannung betroffen sind, die für einen zuverlässigen weiterbetrieb der CPU notwendig sind.
Nur an diese müßte man dann Manuell ran, sie also neu starten und die letzte noch funktionierende Spannung + Sicherheitspuffer manuell eingeben.

Um alle Programme auf allen CPUs zu starten reicht ein Script.
Das Programm müßte ein Programmierer einmal schreiben und ein einziger Amdin würde es dann in den 3 Tagen auf allen CPUs durchlaufen lassen.

Der Aufwand an Personal und Mannstunden ist also minimal.

Was kostet ne Fachkraft die das dann in 3 Tagen + 2 für nen Puffer durchlaufen läßt?
IMO fast nichts, im Vergleich zu den 50000 €, die man schon im ersten Jahr einspart.

Und das sind jetzt nur 1000 CPUs, bedenkt, mit jeder weiteren CPU spart ihr, wenn wir mal meine CPU als Ausgangsopunkt nehmen 28 W ein.

Bei 100000 CPUs sind es also nicht nur 50000 € die man spart, sondern gleich 5 Millionen Euro.
Der Gewinn bzw. die Ersparnis skaliert nämlich mit der Anzahl der CPU, während der Aufwand für den automatischen Test sich kaum verändert.

Umso mehr CPUs gleicher Bauart, desto lohnender wird es.

Im ürbigen kann man das automatisierte Programm noch etwas intelligenter schreiben.

Z.b. könnte es, sobald die erste niedrigste Spannung gefunden wurde, von der der 1 h Test bestanden wurde und man annimmt, daß die CPU damit stabil läuft, man einen Test der länger dauert nachschalten.

Die Schritte sehen also so aus.

1. Suche die niedrigste Spannung die den ersten 1 h Test noch besteht.
2. Wenn gefunden, schalte 4 Stufen auf eine höhere Spannung als Puffer zurück.
3. Nun mache einen nachgeschaltenen Test, der anstatt 1 h nun z.b. 3 Tage dauert.
Besteht er ihn, dann ist das die gesuchte Spannung, besteht er ihn nicht, dann schalte nichmals 4 Stufen zurück und mache nochmal einen 3 Tage langen Testdurchlauf.

hustbaer

Wenn du glaubst dass sich das rentiert, dann mach mal. Gründe ne Firma, schreib so ein Programm für automatisierte Tests und vermarkte es.

hustbaer schrieb:

Wenn du glaubst dass sich das rentiert, dann mach mal. Gründe ne Firma, schreib so ein Programm für automatisierte Tests und vermarkte es.

Das liese sich sicher als kostenloses Open Source Projekt realisieren, bei dem kommerziellen Produkt steht man als Firma rechtlich gesehen für das Ding gerade.
Das Risiko sollte also besser beim Betreiber des Superrechners liegen, daher Open Source und kostenlos.

Server kosten einiges mehr als normale Desktoprechner, weil sie stabil laufen sollen. Wenn eine Firma stromsparende Server will, dann kauft sie welche, die sicher funktionieren, z.B. von dieser Greenlist. Die kaufen sich sicher nicht erst nen Stromfresser und lassen dann irgendjemand die Spannung "ausloten". Außerdem würde sowas auch nicht in 3 Tagen gehen. Da müssten erst mal Verträge über Garantien usw. aufgesetzt werden, sowas braucht schon länger als 3 Tage. Dann fallen auch noch die Server für ne ganze Weile aus, bis alle umgestellt wären, das kostet wahrscheinlich einiges mehr als 50000. Wieso nicht gleich stromsparende Rechner kaufen?

Ökofreak schrieb:

Das Risiko sollte also besser beim Betreiber des Superrechners liegen, daher Open Source und kostenlos.

Dann macht es keiner.

Gregor

nachtfeuer schrieb:

Es lohnt sich auf jeden Fall, sich über sowas Gedanken zu machen, die HPC-Szene ist doch ein gutes Beispiel dafür. Vor nicht allzulanger Zeit lag der bessere Effizienzwert bei etwa 400 Mflops/Watt, neulich waren es schon über 700 (Roadrunnersystem, mit Sicherheit auch Spannungsmanipulation dabei) dann wieder etwas besser und jetzt sogar 1664 Mflops/Watt, und das ist net schlecht.

Die großen Sprünge in der Energieeffizienz kommen allerdings sehr wahrscheinlich durch Miniaturisierungsschritte bei der Herstellung von Prozessoren. Neuere Computer sind in der Regel deutlich energieeffizienter als Rechner, die ein paar Jahre alt sind. Um diesen Effekt zu kriegen, muss man sich noch keine Gedanken um die Energieeffizienz machen.

Aber es gibt auch Gründe im Design bestimmter Supercomputer, die zu hoher Energieeffizienz führen. Zum Beispiel sind diese BLUEGENE-Architekturen von IBM sehr sparsam. Die zeichnen sich aber unter anderem dadurch aus, dass sie unglaubliche Mengen von Prozessoren nutzen, die alle recht stromsparend sind. Andere Supercomputer kommen mit weniger Prozessoren auf die gleiche Rechenleistung, verbrauchen aber mehr Strom. Diese BLUEGENE-Architekturen sind aber auch nicht unbedingt der Königsweg. Es macht einen Unterschied, ob man sein Programm auf einige zehntausend Prozessoren parallelisieren will oder nur auf einige tausend. Die extreme Parallelisierung, die die BLUEGENE-Systeme erfordern, ist nicht für jede Anwendung realisierbar. Es gibt zumindest eine Menge Anwendungen, die man zwar sinnvoll auf 1000 Prozessoren parallelisieren kann, aber nicht auf 10000.

Marc++us

Ökofreak schrieb:

enn dieser also in x Milliarden Fällen zuverlässig schaltet, warum sollte er es dann einmal nicht tun?

*lol*

Weil dieses Verhalten ganz typisch für Fehlerwahrscheinlichkeiten ist. Das Atomkraftwerk lief 10 Jahre ohne Störung zuverlässig, warum sollte es im 11. Jahr einen Fehler haben?

Dravere

Ökofreak schrieb:

hustbaer schrieb:

Wenn du glaubst dass sich das rentiert, dann mach mal. Gründe ne Firma, schreib so ein Programm für automatisierte Tests und vermarkte es.

Das liese sich sicher als kostenloses Open Source Projekt realisieren, bei dem kommerziellen Produkt steht man als Firma rechtlich gesehen für das Ding gerade.
Das Risiko sollte also besser beim Betreiber des Superrechners liegen, daher Open Source und kostenlos.

Sensationelle Aussage. Du willst das Risiko nicht tragen, aber die Rechenzentren sollen das Risiko tragen. Die werden es aus dem genau gleichen Grund nicht machen, weil sie auch nicht für das Ding gerade stehen wollen, wenn es denn nicht richtig funktioniert. Ein Rechenzentrum probiert Risiken zu vermindern und nicht zu erhöhen.

Nichts gegen Umweltschutz, aber bitte realistische und vernünftige. Schau dir mal die Konzepte der Grünliberalen an. Das ist eine vernünftige Herangehensweise an das Thema Wirtschaft und Ökologie.

Grüssli

Marc++us schrieb:

Ökofreak schrieb:

enn dieser also in x Milliarden Fällen zuverlässig schaltet, warum sollte er es dann einmal nicht tun?

*lol*

Weil dieses Verhalten ganz typisch für Fehlerwahrscheinlichkeiten ist. Das Atomkraftwerk lief 10 Jahre ohne Störung zuverlässig, warum sollte es im 11. Jahr einen Fehler haben?

@Ökofreak
Jo echt, semmel das mal in dein Hirn rein, du Backe!

nman

Ich mach das hier mal zu.

Wenn der Thread ernst gemeint ist, deutet das auf wesentlich mehr mangelnde Erfahrung des OP mit Serverbetrieb und Rechenzentren hin, als sich in einem Thread korrigieren lässt.

Aber für mich riecht das sowieso nur nach Getrolle, das brauche ich gar nicht.