Kann die NTFS-Implementierung in Windows XP mit großen Dateien umgehen?
-
Hm, wenn ein paar hundert GB problemlos funktionieren, dann dürfte 1 TB wohl auch in Ordnung gehen.
Wahrscheinlich wird in der Praxis eher RAID 5 eingesetzt, weil die Methode ja erfordert, dass die gesicherten Dateien auf allen Festplatten überwacht werden und dass bei Veränderungen immer gleich die Parität neuberechnet wird.
Für mich ist's aber ganz praktisch, weil ich auf allen Festplatten viele z.T. recht große Dateien habe, die nicht gelöscht und nicht oder nur selten geändert werden.
-
Nanyuki schrieb:
Wahrscheinlich wird in der Praxis eher RAID 5 eingesetzt
Ja, aber für wichtige Backup-Daten ist das eine ziemlich schlechte Idee, da nimmt man eher die Raidlevels 1, 10 oder 6.
Ich glaube, ich habe Deine Frage nicht richtig verstanden, wozu willst Du nochmal so eine einzelne Riesendatei anlegen? (Optimal wäre gleich eine grobe Erklärung der einzelnen Teilschritte beim Backup und was Du Dir davon erhoffst.)
-
Ich dachte an ein simples FAT-artiges Dateisystem. Die große Datei soll einfach die Nutzdaten enthalten. Metadaten und Zuordnungstabellen kommen in Extradateien.
Erster Schritt wäre, auf jeder Festplatte die zu sichernden Dateien auszuwählen, wobei man zwischen veränderlichen und unveränderlichen unterscheidet.
Die unveränderlichen können sich Cluster im Dateisystem mit allen anderen Festplatten teilen, da kommt dann die Parität ins Spiel.
Als veränderlich eingestufte Dateien bekommen eigene, unteilbare Cluster zugewiesen.Klar, das ist nicht die sicherste Methode, dafür aber preiswert und für meine Zwecke ausreichend sicher. Wenn der Blitz einschlägt und mehrere Festplatten wegen Überspannung gleichzeitig aussteigen, hab ich natürlich Pech gehabt.
-
Nanyuki schrieb:
Ich dachte an ein simples FAT-artiges Dateisystem. Die große Datei soll einfach die Nutzdaten enthalten. Metadaten und Zuordnungstabellen kommen in Extradateien.
Was hätte das gegenüber bestehenden Dateisystemen für Vorteile? Bzw. was siehst Du bei einem Dateisystem auf einem Dateisystem für Vorteile?
-
Naja, es gibt ein Problem, wenn ich z.B. von Platte 1 eine 1 GB-Datei und von Platte 2 drei 100 MB-Dateien habe, die sich auf der Paritätsplatte den Platz teilen sollen.
Schreibe ich jetzt die Paritäten von der ersten Datei und einer der 100 MB-Dateien zusammen in eine 1-GB-Datei und verschenke die restlichen 900 MB für die zweite Platte?
Oder schreibe ich alle drei 100 MB-Dateien rein? Aber dann muss ich mir wieder merken, welche Bereiche der Gesamtdatei von welchen Einzeldateien belegt werden => also kann ich auch gleich nur eine Datei verwenden.
-
Wie wäre es mit einem *.7z - *.zip - *.rar -Archiv (mit oder ohne Kompression)?
Zumindest bei rar ist mir bekannt, dass man da auch Wiederherstellunginformationen anlegen konnte.
-
Ja, aber mein Ziel ist ja für eine vollständige Sicherung möglichst wenig Speicherplatz und damit zusätzliche Festplatten zu brauchen. Wenn ich die Datensicherung auf diese Weise mache, brauche ich selbst mit Komprimierung nochmal annähernd so viel Speicherplatz.
Mit Paritäten kann ich aber zehn oder auch mehr 1 TB-Festplatten auf eine einzige weitere 1 TB-Platte sichern.
-
Moment, habe ich das richtig verstanden? Du willst _nur_ Paritätsdaten hin und wieder auf eine Extra-Platte sichern lassen?
Wenn nicht: Erkläre bitte mal Schritt für Schritt, was Du machen möchtest.
-
Nanyuki, wenn dir langweilig ist, und du nicht weinst wenn dein Backup im Ernstfall dann doch nicht funktioniert, dann mach es! Sicher nicht das dümmste Projekt um dazuzulernen.
Sonst nimm lieber RAID.
Ob jetzt RAID 1/5/6/10/50/60/51/61 ... das richtet man dann einfach danach aus was man an Sicherheit braucht und was man bereit ist auszugeben.
nman schrieb:
Nanyuki schrieb:
Wahrscheinlich wird in der Praxis eher RAID 5 eingesetzt
Ja, aber für wichtige Backup-Daten ist das eine ziemlich schlechte Idee, da nimmt man eher die Raidlevels 1, 10 oder 6.
Für wichtige Backups nimmt man Level 11, 51 oder 61, wobei man jeweils zwei Identische RAID 1/5/6 Arrays in getrennten Räumen (idealerweise Gebäuden) stehen hat, und diese übers Netz/Fiber spiegelt.
Denn selbst RAID 6 ist alleine viel zu unsicher. Ist schon viel zu oft vorgekommen, dass durch Spannungsspitzen* mehrere Platten gleichzeitig eingegangen sind. Da hilft nur Getrennte Strom-Netze, getrennte Netzteile und Verbindung über galvanisch entkoppelte Datenleitung (idealerweise eben Fiber).
Genauso können mehrere Disks bzw. der ganze Serverraum durch Feuer/Hochwasser etc. vernichtet werden, womit die Daten dann wieder pfutsch wären.
*: Solche Spannungsspitzen können z.B. entstehen wenn ein Netzteil draufgeht, und das kann auch bei den besten Server-Netzteilen mal vorkommen. D.h. auch supertolle UPSen und Netzfilter helfen da nixe.
-
hustbaer schrieb:
Für wichtige Backups nimmt man Level 11, 51 oder 61, wobei man jeweils zwei Identische RAID 1/5/6 Arrays in getrennten Räumen (idealerweise Gebäuden) stehen hat, und diese übers Netz/Fiber spiegelt.
Die Begriffe RAID 11 und Co. waren mir dafür nicht geläufig, höre ich ehrlich gesagt zum ersten Mal. Allerdings verwende ich hier ohnehin DRBD und habe Offsite-Backups bei rsync.net, insofern...

Da hilft nur Getrennte Strom-Netze, getrennte Netzteile und Verbindung über galvanisch entkoppelte Datenleitung (idealerweise eben Fiber).
Naja, das ist jetzt nicht unbedingt was neues. Ich mag es schon nicht, wenn ich Daten in einen anderen Raum im gleichen Gebäude sichere, einem ehemaligen Arbeitgeber ist mal das komplette Bürogebäude abgebrannt. Wenn dann die Offsite-Backups ein paar Wochen alt sind, tut das natürlich auch nochmal ziemlich weh.
Aber nachdem sich Nanyuki offensichtlich über andere Sachen Gedanken macht (Kosten mehrer Festplatten etc.), glaube ich, dass für ihn schon ein RAID 1 oder RAID 6 ein Fortschritt wäre.
-
nman schrieb:
Moment, habe ich das richtig verstanden? Du willst _nur_ Paritätsdaten hin und wieder auf eine Extra-Platte sichern lassen?
Ja, genau das. Nur Dateien, die sich auf der Originalplatte voraussichtlich oft ändern oder gelöscht werden können, werden "normal" gesichert. Zudem soll ein Client die zu sichernden Datein fortlaufend anhand von Dateigröße und Änderungsdatum (in größeren Abständen auch die Daten selbst nochmal abgleichen) auf jedem Computer überwachen und bei Veränderung sofort den Server (der die Paritätsplatte besitzt) veranlassen, die betroffenen Paritäten neuzuberechnen.
Es handelt sich auch nicht um kritische Firmendaten, ein gewisses (aber doch recht geringes, wie ich meine) Risiko ist also noch akzeptabel. Die wichtigsten Daten sichere ich nach wie vor zusätzlich noch auf anderen Medien.
hustbaer schrieb:
Nanyuki, wenn dir langweilig ist, und du nicht weinst wenn dein Backup im Ernstfall dann doch nicht funktioniert, dann mach es! Sicher nicht das dümmste Projekt um dazuzulernen.
Es war durchaus geplant, eine Art fsck für das ganze System zu machen um die Integrität jederzeit überprüfen zu können. Prüfsummen für einzelne Cluster werden für diesen Zweck ebenfalls gespeichert. Ist sowieso nötig, da ich die Erfahrung gemacht habe, dass gerade Billigplatten gelegentlich Lesefehler machen (tritt scheinbar zufällig auf und es werden immer 512 Bytes falsch gelesen - wenn man dafür sorgt, dass die Daten aus dem Filecache entsorgt werden, klappt's meist beim nächsten Anlauf).
-
nman schrieb:
hustbaer schrieb:
Für wichtige Backups nimmt man Level 11, 51 oder 61, wobei man jeweils zwei Identische RAID 1/5/6 Arrays in getrennten Räumen (idealerweise Gebäuden) stehen hat, und diese übers Netz/Fiber spiegelt.
Die Begriffe RAID 11 und Co. waren mir dafür nicht geläufig, höre ich ehrlich gesagt zum ersten Mal. Allerdings verwende ich hier ohnehin DRBD und habe Offsite-Backups bei rsync.net, insofern...

Ja, 11/51/61 hört man nicht ganz oft, das stimmt schon. Ist aber im Prinzip nix anderes, daher denke ich mir kann man das ruhig so nennen.
Auf drdb.org ist ja auch zu lesen:
www.drbd.org schrieb:
DRBD can be understood as network based raid-1
DRBD kannte ich übrigens nicht, ich kenne das nur als Fertiglösung die man halt einfach einkauft (Hitachi, ...). Wo man dann eben seine VMware Hosts oder was auch immer dranstöpseln kann, über Fiber oder iSCSI.
-
Nanyuki schrieb:
Ist sowieso nötig, da ich die Erfahrung gemacht habe, dass gerade Billigplatten gelegentlich Lesefehler machen (tritt scheinbar zufällig auf und es werden immer 512 Bytes falsch gelesen - wenn man dafür sorgt, dass die Daten aus dem Filecache entsorgt werden, klappt's meist beim nächsten Anlauf).
Hab' ich seit ich SATA verwende ehrlich gesagt nie mehr gesehen. Gut, ich hab' auch keine ExcelStore oder TrekStor Platten, zu denen kann ich nix sagen. Aber selbst bei billigen Seagate/WD/Samsung/Hitachi gibt's sowas nach meiner Erfahrung schon lange nimmer.
Selbst ultrabillig Platten verwenden viele bunte ECC Bits pro Sektor, so dass Fehler oft korrigiert, und wenn nicht, immer noch mit astronomisch hoher Wahrscheinlichkeit erkannt werden können.
Kann es sein dass du vielleicht noch ATA/UltraATA ("UDMA") Platten in Verwendung hast? ATA hat ja bekannterweise überhauptgarkeine Prüfsumme über irgendwas, und UltraATA nur über die Daten, nicht aber über die Commands. (Auf der HDD natürlich schon, aber eben nicht bei der Übertragung über's Kabel) Das führt dazu dass - ganz egal mit welcher Platte - Fehler passieren können, wenn das Kabel zu lang oder grenzwertig ist.
Wenn immer gleich 512 Byte auf einmal falsch sind, klingt das nach einem Übertragungsfehler in der Sektor-Adresse. Also UltraATA mit zu langem Kabel.
Vor allem wenn du sagst dass der Fehler nicht "persistent" ist, also beim nächsten Zugriff der wirklich zur Platte durchgeht dann wieder die richtigen Daten ankommen...