Wie schnell wird ein Wear-Out von 1 bei einer 120GB Intel SSD erreicht

nman schrieb:

Oder ignorierst du einfach Relocated Sectors, Bit Rot uae.?

Guckst du hier, die Daten der beiden alten HDs auf meinem Zweitrechner:

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Maxtor DiamondMax Plus 9
Device Model:     Maxtor 6Y120L0

Firmware Version: YAR41VW0
User Capacity:    122.942.324.736 bytes [122 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Sat Aug 25 21:59:02 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   202   201   063    Pre-fail  Always       -       14268
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       917
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       6
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   250   247   187    Pre-fail  Always       -       55293
  9 Power_On_Minutes        0x0032   232   232   000    Old_age   Always       -       727h+02m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   250   250   000    Old_age   Always       -       1493
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       30
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       1672
196 Reallocated_Event_Count 0x0008   252   252   000    Old_age   Offline      -       1
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       3
198 Offline_Uncorrectable   0x0008   252   252   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x0008   199   199   000    Old_age   Offline      -       0
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   251   000    Old_age   Always       -       18
202 Data_Address_Mark_Errs  0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       11
204 Soft_ECC_Correction     0x000a   252   252   000    Old_age   Always       -       2
205 Thermal_Asperity_Rate   0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   197   197   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       60%      6825         184718846
# 2  Short offline       Completed: read failure       60%      6825         184718846

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
No Errors Logged

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ATA IV
Device Model:     ST380021A

Firmware Version: 3.19
User Capacity:    80.026.361.856 bytes [80,0 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   5
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sat Aug 25 21:59:02 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   077   068   034    Pre-fail  Always       -       109943878
  3 Spin_Up_Time            0x0003   070   070   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1287
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       329873512
  9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       10134
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1621
194 Temperature_Celsius     0x0022   036   049   000    Old_age   Always       -       36
195 Hardware_ECC_Recovered  0x001a   077   067   000    Old_age   Always       -       109943878
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     10134         -
# 2  Short offline       Completed without error       00%     10134         -

smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-29-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
No Errors Logged

Die HDs waren früher, als sie im Erstrechner waren fast jeden Tag ca. 8-12 h im Einsatz, manchmal auch länger, selten auch mal über 24 h.

Der Zweitrechner wird nicht mehr so oft eingeschaltet.
Am Tag kommt es so auf ca. 1-3 h, manchmal auch gar nicht und dann wieder mehrere Wochen am Stück für 8-12 h.

Christoph

Wear-Out schrieb:

Guckst du hier, die Daten der beiden alten HDs auf meinem Zweitrechner:

5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       6
[...]
  9 Power_On_Minutes        0x0032   232   232   000    Old_age   Always       -       727h+02m
[...]
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       3
[...]
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       60%      6825         184718846
# 2  Short offline       Completed: read failure       60%      6825         184718846

Die Festplatte würde ich "kaputt" nennen. Die hat beim Selbsttest Lesefehler, 3 Sektoren sind "pending" (das heißt sie können nicht gelesen werden), und 6 Sektoren wurden schon ausgetauscht.

Die Platte war angeblich insgesamt 727h+02m Stunden an, was nur 60 Tagen entspricht bei 12 Stunden pro Tag. Dieser Wert ist also vielleicht falsch.

Wear-Out schrieb:

9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       10134

Die zweite Festplatte war 10134 Stunden an. Bei 8 Stunden pro Tag sind das ungefähr 1250 Tage, also etwa 3,5 Jahre. Bei 12 Stunden pro Tag sind es nur 2,5 Jahre. Jedenfalls deutlich unter 4 Jahre. Das würde ich nicht besonders alt nennen.

Wear-Out schrieb:

Die HDs waren früher, als sie im Erstrechner waren fast jeden Tag ca. 8-12 h im Einsatz, manchmal auch länger, selten auch mal über 24 h.

Der Zweitrechner wird nicht mehr so oft eingeschaltet.
Am Tag kommt es so auf ca. 1-3 h, manchmal auch gar nicht und dann wieder mehrere Wochen am Stück für 8-12 h.

Den Zahlen oben nach zu urteilen, hast du die Festplatte ein bisschen länger als 2 Jahre im Erstrechner gehabt. Ich würde mir dann keine Sorgen machen, dass die SSD länger als ein paar Jahre schwer benutzt wird.

edit: Die zweite Platte hat auch nur 1621 power-cycles. Das ist auch nicht besonders viel, das entspricht gerade mal 4,5 Jahren, wenn man die Platte einmal pro Tag anschaltet.

nman

Wear-Out schrieb:

Die meisten Festplatten fallen in den ersten 6 Monaten aus, danach ist es nur noch eine Frage der aktiven Kühlung und somit gleichen Temperaturverhältnissen

Das stimmt so nicht ganz; lies mal das hier:
Failure Trends in a Large Disk Drive Population

Die AFR geht nach einer gewissen Betriebszeit auch wieder deutlich rauf.

Daher bin ich da wie ein verbranntes Kind und kühle ab ca. 2001 meine Festplatten aktiv mit Lüftern und seit dem hatte ich diesbezüglich keine Ausfälle mehr.

Alle meine Server stehen in klimatisierten Räumen und sind sehr gut belüftet.

Raucher?

Nein. Ich hoffe, dass sonst auch niemand im Serverraum raucht, sonst wären die Luftfilter keine gute Investition gewesen.

Ausfall heißt bei mir, wenn es Lesefehler gibt, die Festplatte falsch klingt, also klackert oder schlichtweg nichts mehr lesbar ist.

Das wäre dann ein Totalausfall. Wenn dir deine Daten offensichtlich nicht so wichtig sind, warum bist du dann bei SSDs so skeptisch?

"Funktionieren nachweislich" bedeutet für mich, dass du Prüfsummen über deine Daten hast, die nach wie vor in Ordnung sind. Oder zumindest dass sich dein RAID-Controller beim Scrubbing nicht beschwert oä. Jedenfalls nicht nur, dass die Platte keine seltsamen Geräusche von sich gibt oder beim Booten erkannt wird.

Auf deine Smart-Daten ist Christoph ja schon eingegangen. Für mich ist die Disk auch kaputt und wenn ich solche Werte bekomme, nehme ich normalerweise die Disk aus dem Array und lasse sie schleunigst austauschen.

Christoph schrieb:

kellerassel schrieb:

die haben doch nur probleme mit dem löschen einzelner dateien bzw. 'sektoren' aber ein format c geht doch noch immer

Du hast dasselbe Problem mit den relocated sectors wie bei einer Festplatte, nur schlimmer: Wenn ein Flash-Block ausfällt und durch einen Ersatzblock ersetzt wird, wird der alte Block immer noch auslesbar sein, würde ich erwarten. Natürlich nicht mehr direkt über das SATA-Interface, aber die Flash-Bausteine kann man ja auch direkt auslesen auf der Platine. Dass die Blöcke durcheinander liegen ist dabei relativ egal, wenn sensible Daten in einem einzigen Block landen.

Außerdem werden Flash-Blöcke vermutlich häufiger durch Ersatzblöcke ersetzt als Sektoren bei Festplatten.

Ich hab da folgendes Szenario im Sinn.

Man hat einen unverschlüsselten ssh-Key oder ähnliche sensible Daten auf einer SSD.

Der Flash-Block, der die Daten aus 1) enthält, geht kaputt und wird durch einen Ersatzblock ersetzt.

Man löscht alle Blöcke. Der kaputte Flash-Block wird dabei natürlich nicht gelöscht, denn er ist ja kaputt.

Jemand Interessiertes liest den Flash-Chip komplett aus und findet die Daten aus 1) unverschlüsselt.

Wenn man in Schritt 3) keinen secure-erase-Befehl verwendet, sondern einfach alle Sektoren überschreibt, dann werden sogar noch deutlich mehr Daten lesbar bleiben, weil SSDs ständig copy-on-write machen.

Arbeitet ihr als Geheimagenten? Warum sollte sich jemand die Arbeit machen an euren Festplatten rumzumachen und irgendwelche ssh-Keys suchen? Oder habt ihr angst, dass die Polizei eure Raubkopien findet?

also ich für meinen teil, meine festplatte reist regelmäßig mit mir in den urlaub, sonst kann ich einfach nicht in ruhe ausspannen

eig. war es auch eher so ein theorie ding, man muss ja nicht immer gleich alles so ernst nehmen. praxis wird es, wenn ich meinen pc über ebay verkaufen sollte, was ich zwar noch nie gemacht hab, dann würde ich mir schon über sowas gedanken machen!

btw. als ich mir letztens ein handy bestellt hab (gebraucht) war doch tatsächlich noch die diplomarbeit von so einem typen ich schätze vorbesitzer drauf, die er beim orf gemacht hat. so langweilig wie die war, wär mir ein schöner porno lieber gewesen

mal ehrlich schrieb:

Arbeitet ihr als Geheimagenten? Warum sollte sich jemand die Arbeit machen an euren Festplatten rumzumachen und irgendwelche ssh-Keys suchen? Oder habt ihr angst, dass die Polizei eure Raubkopien findet?

Meine Festplatte wird eines Tages von Archäologen gefunden werden und ich will nicht haben, das die wissen, wofür ich mich privat so interessiert habe.

hustbaer

Christoph schrieb:

Wear-Out schrieb:
Guckst du hier, die Daten der beiden alten HDs auf meinem Zweitrechner:
5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       6
[...]
  9 Power_On_Minutes        0x0032   232   232   000    Old_age   Always       -       727h+02m
[...]
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       3
[...]
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       60%      6825         184718846
# 2  Short offline       Completed: read failure       60%      6825         184718846
Die Festplatte würde ich "kaputt" nennen. Die hat beim Selbsttest Lesefehler, 3 Sektoren sind "pending" (das heißt sie können nicht gelesen werden), und 6 Sektoren wurden schon ausgetauscht.

Bedeutet "pending" wirklich dass der Sektor gar nicht gelesen werden konnte? Ich dachte "pending" heisst der Sektor konnte ein paar mal beim 1. Versuch (bzw. den ersten paar Versuchen) nicht gelesen werden, und die Platte hat sich den mal vorgemerkt, damit er reallocated wird wenn er weiter "verdächtig" bleibt.

Was den reallocation-count angeht... also 6 Sektoren schrecken mich da nicht so sehr. Zumindest nicht wenn der Wert konstant bleibt.
OK, meine HDDs melden alle 0, aber ich hatte auch schon defekte Festplatten die immer noch 0 gemeldet haben obwohl sie schon lange hinüber waren. Von daher gehe ich eher davon aus dass die meisten Platten da schummeln.

nman

hustbaer schrieb:

Bedeutet "pending" wirklich dass der Sektor gar nicht gelesen werden konnte? Ich dachte "pending" heisst der Sektor konnte ein paar mal beim 1. Versuch (bzw. den ersten paar Versuchen) nicht gelesen werden, und die Platte hat sich den mal vorgemerkt, damit er reallocated wird wenn er weiter "verdächtig" bleibt.

Ja, so ist es. Aber wenn der Wert laenger != 0 bleibt, ist es uebel.

hustbaer schrieb:

Was den reallocation-count angeht... also 6 Sektoren schrecken mich da nicht so sehr. Zumindest nicht wenn der Wert konstant bleibt.

Klar, da sind Trends interessanter.

Ich habe allerdings die Erfahrung gemacht, dass diese Zahl sehr oft rasant ansteigt, wenn man mal die ganze Platte mit man: badblocks beschreiben laesst. Meistens wird auf den defekten Bereich einfach gerade nicht sehr oft zugegriffen und die Werte bleiben konstant. Wenn du aber mal badblocks laufen laesst und dir die cav-Werte ansiehst, stellst du dann schnell fest, dass die Platte eindeutig hinueber ist.

OK, meine HDDs melden alle 0, aber ich hatte auch schon defekte Festplatten die immer noch 0 gemeldet haben obwohl sie schon lange hinüber waren. Von daher gehe ich eher davon aus dass die meisten Platten da schummeln.

Naja, schon klar: Smart-Selbsttest ok sagt noch lange nicht, dass die Platte ok ist. Smart-Selbsttest nicht ok ist aber in den meisten Faellen recht zuverlaessig nicht mehr ganz ok.

Christoph

hustbaer schrieb:

Bedeutet "pending" wirklich dass der Sektor gar nicht gelesen werden konnte? Ich dachte "pending" heisst der Sektor konnte ein paar mal beim 1. Versuch (bzw. den ersten paar Versuchen) nicht gelesen werden, und die Platte hat sich den mal vorgemerkt, damit er reallocated wird wenn er weiter "verdächtig" bleibt.

Soweit ich weiß bedeutet "pending", dass die Festplatte den Sektor eigentlich schon längst ersetzen möchte, es aber nicht kann, weil noch kein Schreibzugriff kam. Solange nur Leseanfragen auf den Sektor kommen, kann die Festplatte nur einen Lesefehler melden, den Sektor aber nicht austauschen, weil sie nicht weiß, was für Daten drinstehen sollten. Austauschen (stillschweigend, ohne einen Fehler zu melden) kann die Festplatte den Sektor erst beim nächsten Schreibzugriff. Dann wird "pending sectors" um eins sinken und gleichzeitig "reallocated sectors" um eins steigen.

nman

Christoph schrieb:

Austauschen (stillschweigend, ohne einen Fehler zu melden) kann die Festplatte den Sektor erst beim nächsten Schreibzugriff.

Ja, oder wenn der Sektor zufaellig doch irgendwann endlich mal gelesen werden kann. Kommt vor.

In jedem Fall keine sehr beruhigende Aussicht.