Langzeitarchivierung
-
Hallo
welche Dateiformate und Dateisysteme würdet ihr wählen für die Langzeitarchivierung unter Win32 und *n*x von
a. unformatiertem Text
b. formatiertem Text ??Ich tendiere zu ASCII (möglichst 7-Bit) (.txt) für a. und zu TeX/DVI für b.
Fragen:
Ist reines HTML (ohne Skripts und Features) langfrisitig aussichtsreicher?
Oder gar eine XML-Beschreibung der Dateien?Und überhaupt: Wenn eines Tages alles mit Unicode laufen würde, wären dann
ASCII-Dateien (mit/ohne 8-Bit-Erweiterungen) noch lesbar?Grüße
-
Echte Langzeitarchivierung macht man auf Mikrofilm.
Computersysteme eigenen sich dafür schon deshalb nicht, da sich die Dateisysteme und Speichermedien einfach zu schnell verändern.In 20 Jahren hast du vielleicht schon einen lebenden Organismus mit 70 TB Speicherkapazität in deinem Rechner, eine IDE-Festplatte kennt dann keiner mehr.
-
Hallo Profi
Mikrofilm wäre aber mühsam, wenn ich die Texte in 20 Jahren nicht nur lesen,
sondern verarbeiten will. Da müßte ich alles erst OCR'en oder AbtippenAber trotz deines vollkommen berechtigten Einwands, daß Langzeitarchivierung von
Computerdaten relativ unmöglich ist, will ich die Daten so speichern, daß
die Wahrscheinlichkeit, sie in der Zukunft weiterverarbeiten zu können,
maximiert wird - also die Lösung eines OptimierungsproblemsWenn CD-R zu kurzlebig ist, könnte man die Daten ja alle paar Jahre von einer Festplatte auf die nächste kopieren. So könnte man digitale Archive doch ewig erhalten, selbst wenn man in 20 Jahren anstelle von Festplatten Klebestreifen oder Hologrammwürfel verwendet oder Speichergrößen in Liter organischen Materials mißt.
Deshalb würde ich dennoch gerne wissen, was in dieser Hinsicht besser ist --
ASCII 7-bit/8-bit, Feature-reduziertes HTML, TeX/DVI oder was anderes, vielleicht eine Beschreibung mit XML ?Grüße
-
@Hobbyprogrammierer
ASCII ist ja nur die Kodierung. HTML kann ja auch ASCII sein. Unicode ist übrigens abwärtskompatibel zu ASCII.Ich würde an deiner Stelle Unicode als Kodierung wählen, da du sonst Probleme haben wirst Sonderzeichen abzuspeichern (allein dieser Beitrag ist ja nicht ASCII kompatibel).
Unicode ist ein offener Standard (ISO-Norm), also sollte man auch in 100 Jahren noch nachvollziehen können, wie die Kodierung funktioniert.
Ob du plain-text oder irgend eine Formatierung benutzen sollst, hängt natürlich von dem ab, was du vorhast. DVI ist zum Beispiel ein sehr langlebiges Format gewesen. Bei HTML wäre ich eher vorsichtig, da es sich schneller ändert. Wer weiß vielleicht ist in 10 Jahren schon kein Browser mehr in der Lage HTML 4 zu verarbeiten.
Wenn du Texte wirklich für die Ewigkeit haben willst, dann meissel sie in Stein. Das hält glaube ich am längsten (solange du den richtigen Stein wählst ;)).
-
Hallo
@kingruedi:
Unicode ist ein offener Standard (ISO-Norm), also sollte man auch in 100 Jahren noch<<
Ich habe bisher noch nicht viel mit Unicode zu tun gehabt, aber so, wie
Du es beschreibst, klingt es tatsächlich besser als ASCII mit 8-Bit-Erweiterung,
wie ich Texte bisher speicherte.DVI ist zum Beispiel ein sehr langlebiges Format gewesen<<
Wieso "gewesen" ? Ich dachte, DVI wäre in manchen Bereichen (Publikation
mathematisch/technischer Texte) heute aktueller Standard, bin aber kein
Insider auf diesem Gebiet:
Nimmt man jetzt statt TeX und LaTeX schon so oft PDFTeX und PDFLaTeX,
daß DVI nicht mehr aktuell ist ?Ich speichere jedenfalls bislang erheblich lieber in .dvi als in .pdf, vor allem deshalb, weil das Ansehen von PDFs am Bildschirm so "hakelig" ist - im Gegensatz zu DVI-Viewern wie Yap. PDF kann ich nicht leiden. Scheint mir
auch nicht so zeitinvariant zu sein wie DVI, das jahrzehntelang kaum verändert
wurde.Grüße
-
speicher doch gleich in mehrern formaten, formatierten text auch als jpg (bei der ganzen hardware die mit jpg unterstützung verkauft wurde/wird, wird sich das schon noch ne weile halten)
im worst case kannst du dann immer noch OCR machen (OCR funktioniert doch schon heute gut)