Muß man Platten wipen?

volkard

MisterX schrieb:

Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

...und das zweihundertste mit einer W'keit von 200%!?

Zeus

Nein das Ergeinis ist unabhänig. Ein weiteres zu erkennen hängt nicht vom ersten Ab. Du selbst hast es geschrieben.

Achtung: W'Keit das A und B zu erkennen = 0.43*0.43 = 18%

Wir sind nicht beim Lotto, wo der Menge der Ereignise kleiner wird.

volkard schrieb:

MisterX schrieb:

Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

...und das zweihundertste mit einer W'keit von 200%!?

Nein.

Das erste stimmt mit 99%. Das heißt es geht zu 1-0.99 = 0.01 = 1% schief.
Das zweite stimmt mit 0.99*0.99 = 0.9801. Es geht mit 1- 0.9801 = 1.99 % schief
...

Das 200. stimmt mit 0.99 hoch 200 = 0.133979675.
Es geht also mit 1 - 0.133979675 = 0.866020325% schief.

Diese Folge konvergiert gegen 1 beim schief gehen bzw. 0, dass das Zeichen korrekt ist. Allerdings wird 1 bzw 0 nie erreicht.
Die ersten zahlen sind eben nur nahe an 99 bze 98 und 97 % zu stimmen.
(Daher habe ich auch "ca." geschrieben)

Man bedenke auch dass laut Wiki das deutsche Alphabet eine Entropie von 4 bit/Zeichen hat. Und da ist noch keine übergreifende Struktur (Wörter...) drin.
Das lässt also genug Raum für Rekonstruktionen.

SideWinder

@MisterX: Ich bin ja wirklich kein Genie der Mathematik, aber dazu sag' ich einfach mal: Quatsch. Warum sollte ich ein Zeichen lesen, mit 43% richtig lesen, dann 5 Minuten warten ein weiteres Zeichen lesen und dieses plötzlich nur noch mit weniger großer Wahrscheinlichkeit richtig lesen? Wenn ich die Platte dann meinem Nachbarn gebe hat der dann auch weniger Wahrscheinlichkeit das nächste Byte richtig zu lesen? Nein...

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

MfG SideWinder

Es geht also mit 1 - 0.133979675 = 0.866020325% schief.

Muss natürlich:

Es geht also mit 1 - 0.133979675 = 0.866020325 = 86.6020325% schief.

heißen.

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

Genau das schreibe ich doch auch!

MisterX schrieb:

volkard schrieb:
MisterX schrieb:

Wkeit das A und B und C und D zu erkenne = 0.43*0.43*0.43*0.43 = 3.4%

Ja, klar. Und die Wahrscheinlichkeit, einen 1000 Bytes großen Text vollständig korrekt zu entziffern ist praktisch gleich 0.
Ich nehme mal ein paar Jahre der Magnetoskopentwicklung vorweg und setze die Wahrscheinlichkeit eines Bitumkippers auf 1%.
Bei einem Text mit 1000 Zeichen ist die Volltrefferwahrscheinlichkeit: 0.99^8000=1.2*10-35. Also praktisch 0.
Hier eine Würfelung von 576 Zeichen:
deinen Stachel gegen!alle"Insekten brauchen, um dir Achtwng ju 
verschaffen und um dich zu vertekdigen, Aber wenn du åin warmblütages Ti%r!
stichst oder ear eynen Menschen, so m}ßt du sterfen, weil dein Stqchel in 
ihrer`Haut hängenbleibt und`zerbriclt. Óteche solche Sesen nub im$Famle der 
höchsten!Not, abEr dann tu es íutig und fürchtg den Pod night, denn wir Bieþen 
ferdanken unser`großes Ansehen und die Achtung, die wir übezill genießen, 
unsereí Mut Und unserer Jlugheit. Ujd nun`leb wohl, kleine Oaja, hab Glück in 
der Welt und sei8deinem Volk und deiner Köniwyn treu.+
Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

Wieso? Volkard hat genau das gemacht, was "der Kollege aus dem Datenrettungsunternehmen" gesagt hat: Jedes Bit kann mit einer Wahrscheinlichkeit von 90% korrekt gelesen werden. Das heißt man muss jedes Bit zufällig mit einer Wahrscheinlichkeit von 10% umdrehen. Wieso soltle das 128. Bit denn plötzlich mit einer anderen Wahrscheinlichkeit falsch oder richtig sein? Oder wieso sollten die Bits im 128. Byte eher verdreht sein, als im ersten?

Dass die Gesamtdatei bei zunehmender Anzahl Bits eine geringere Wahrscheinlichkeit hat 100% korrekt zu sein, sollte klar sein. Aber dann wäre auch jedes Buch "unlesbar", weil dort bestimmt irgendwo ein Fehler drin ist. Ein Text in dem 57% der Zeichen korrekt sind, ist relativ einfach zu rekonstruieren, solange es nicht darauf ankommt, dass wirklich jedes Zeichen richtig ist (z.B. passwort).

SideWinder

MisterX schrieb:

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

Genau das schreibe ich doch auch!

Nein, das sagst du nicht. Du sagst, dass volkard jedes Zeichen mit immer höhrerer Wahrscheinlichkeit umkippen lassen muss. Stell dir einfach vor nach jedem Schleifendurchlauf gibt volkard die Platte weiter und es liest jemand anderes wieder ein Zeichen.

Edit: Er ist nicht hergegangen und hat ein gesamtes Wort ausgelesen und dann mit 43% Wahrscheinlichkeit umgekippt (bzw. nicht umgekippt ... was auch immer jetzt 43% war...)

MfG SideWinder

Gregor

Oh, ein Thread, in dem über Stochastik gestritten wird. Das finde ich super.

...Dann muss ich auch mal ne Frage stellen:

Man hat 2 Bit auf einer Festplatte und kann jetzt mit einem spinpolarisierten Rastertunnelmikroskop feststellen, dass eins der Bits eine 1 ist. Wie wahrscheinlich ist es dann, dass das andere Bit auch eine 1 ist.

OK. Das ist komplizierter als gedacht.

Jetzt denke ich, ich könnte auch falsch liegen...

Mal sehen..

3 Zeichen.

W'Keit eines richtig auszulesen = 43%
W'Keit eines falsch auszulesen = 57%

3 Personen lesen eine Zahl aus. Keine weiß von dem Ergebnis des anderen.

SideWinder ließt ein Zeichen aus.
volkard ließ ein zeichen aus.
MisterX ließt ein Zeichen aus.

Es gibt die Folgenden Möglichkeiten für Ergebnisse:
1.
SideWinder richtiges Zeichen
volkard richtiges Zeichen
MisterX richtiges Zeichen
W'keit: 90% *90% *90% = 72.9%

SideWinder falsches Zeichen
volkard richtiges Zeichen
MisterX richtiges Zeichen
W'keit: 10% *90% *90% = 8.1%

SideWinder richtiges Zeichen
volkard falsches Zeichen
MisterX richtiges Zeichen
W'keit: 90% *10% *90% = 8.1%

SideWinder richtiges Zeichen
volkard richtiges Zeichen
MisterX falsches Zeichen
W'keit: 90% *90% *10% = 8.1%

SideWinder falsches Zeichen
volkard falsches Zeichen
MisterX richtiges Zeichen
W'keit: 10% *10% *90% = 0.9%

SideWinder richtig Zeichen
volkard falsches Zeichen
MisterX falsch Zeichen
W'keit: 90% *10% *10% = 0.9%

SideWinder falsches Zeichen
volkard richtiges Zeichen
MisterX falsches Zeichen
W'keit: 10% *90% *10% = 0.9%

SideWinder falsches Zeichen
volkard falsches Zeichen
MisterX falsches Zeichen
W'keit: 10% *10% *10% = 0.1%

Zusammen:
kein richtiges Zeichen:
0.1%

ein richtiges Zeichen:
8.1% + 8.1% + 8.1% = 24-3%

zwei richtige Zeichen:
0.9% + 0.9% + 0.9% = 2.7%

drei richtige Zeichen:
72.9%

Ok was wissen wir noch?
A Wir können nicht sagen welches zeichen ein richtiges oder ein falsches ist.
B Mit 50% Wahrscheinlichkeit bekommen wir mehr als die Hälfte richtig
C Mit 50% Wahrscheinlichkeit bekommen wir weniger als die Hälfte richtig.

Bei der Wahrscheinlichkeit alle richtig zu haben muß man die W'keit abnehmen lassen. (Das war woran ich gedacht habe)

Vorlkards Programm erzeugt Fehler... OK. Die dann das menschliche Gehirn ausgleicht. (Weil man ja wirklich noch was erkennen kann)

OK... ich lag wohl falsch, weil ich nur die Version, dass alles richtig sein muß
betrachtet habe.

Zusammanfassung:
Volkard Programm ist richtig!

Es geht also nur bei Informationen, die einen vom Gehirn erfaßbaren "Sinn" ergeben wie z.B Text, dass man den Text rekonstruieren kann.
(Bilder wohl auch. Wenn jedes 10 Pixel verdreht ist kann man bestimmt noch was erkennen)

Ist aber z.B. eine Geheimzahl codiert und man kommt an den Tresor nur bei richtiger Eingabe, dann nützt das anschauen nichts, weil man nicht weiß ob und wo ein Fehler drinn ist.

Korrektur
B Mit 90% Wahrscheinlichkeit bekommen wir mehr als die Hälfte richtig
C Mit 10% Wahrscheinlichkeit bekommen wir weniger als die Hälfte richtig.

Das Ändert aber nix.

volkard

MisterX schrieb:

Ist aber z.B. eine Geheimzahl codiert und man kommt an den Tresor nur bei richtiger Eingabe, dann nützt das anschauen nichts, weil man nicht weiß ob und wo ein Fehler drinn ist.

Genau. Im obigen Text kann man, denke ich, *alle* Zeichen herausfinden, ohne die Geschichte vorher schon zu kennen, außer vielleicht fast gleichwertige Satzzeichen '.' und '!'.
Aber den wahren Namen der kleinen Biene Oaja, das kann mit diesem Text einfach nicht gehen. Wäre der Text größer und der Name käme öfter vor, könnte man sogar ihn herausfinden.
Von einer fremden Platte könnte man die Rechtsanwaltbriefe gut verarbeiten, die Streitfallschilderung gut nachvollziehen. Aber ausgerechnet bei der so interessanten Steuererklärung kann man bei 25400 einfach nicht ausreichend an die erste Ziffer glauben.

Andreas XXL

Also kann man sagen, dass Text, Bilder, Eventuell auch geräusche wiederherstellbar sind.

Zahlen alleine jedoch nicht, weil man hier keinen Sinn erkennen kann.

Es sei denn man kodiert die Zahlen als z.B Ascii code dann erhält man z.B.

55&&%648

Dann sieht man wo die falschen Stellen sind.
Man hat aber trotzdem keine Chance drauf zu kommen was die richtigen sind.

Bekommt man jedoch eine 2. Festplatte mit den identischen Informationen kann man es nochmal versuchen. Bekommt man nun:

!55676h8

Kann man die Zahl rekonstruieren.

Codiert man die Zahl aber direkt (So dass alle Bitcombinationen nur Zahlen ergeben bekommt man:)

55874648

Hier nützt eine zweite Festplatte anscheinend nichts...
12567658

Hat man aber jedoch sehr viele identische Festplatten könnte man für jede Stelle auswerten, welche Ziffer hier am häufigsten vorkommt. Und kann so auf die richtige Zahl schließen.

Es ist also nicht nur gefährlich, da Text, Bilder Töne etc. wiederhergestellt werden können, sondern es ist noch gefährlicher wenn der "Spion" mehrere identische Festplatten in die Finger bekommt.
(z.B. mehrere einmal überschriebene Sicherheitskopien der selben Datei)

Jetzt weiß ich auch warum so viele Diskussionen hier so ausarten.

Es ist wirklich schwer zuzugeben, dass man bei einem Thema falsch lag, bei dem man sich vorher stark eingesetzt hat...

Zumindest ist es mir so gegangen.

Zeus

volkard hast du dein Programm mit wchar_t probiert?

volkard

Zeus schrieb:

volkard hast du dein Programm mit wchar_t probiert?

Nein. Der Text lag absichtlich in ASCII vor. Unicode hätte die zu zeigende Sache nur verschleiert, aber im Kern keineswegs verändert. Die oberen Bits hätte man einfach per Programm wieder genullt, bevor man es dem Menschen zu lesen gibt.

pferdefreund

Also bei den heutigen Plattenpreisen - Pferdehuf drauf und Ruh is...
Am besten ein Kaltblut nehmen - gibt mehr Druck...