Muß man Platten wipen?

SideWinder

Warum? Die Chance die Zeichenkette als Gesamtes zu erkennen wird kleiner, die Chance auf jedes Byte bleibt natürlich gleich.

MfG SideWinder

volkard

MisterX schrieb:

volkard schrieb:
djasdlfk n schrieb:

MisterX schrieb:

Das wäre bei einem Byte schon 0.9^8 = 0,43%

du meinst 43%? Das ist nicht wenig. wenn man aus einem Text jedes zweite Zeichen löscht ist immmer noch genug da um zu wissen worum es ging.

Ja.
WEr¿re[lg sohsyõTáf5~cp Naq¿t"q¯F└Wknõ? Us yst õmV RiÈÕr(,mv`sahjÕ\áki.`.
Erzeugt mit
#include <iostream>
#include <cstdlib>
using namespace std;

int fehler(){
	int r=0;
	for(int i=0;i!=8;++i)
		if(rand()%100<10)
			r|=(1<<i);
	return r;
}

int main() {
	srand(*****);
	char text[]="*****";
	for(char* p=text;p!=text+sizeof(text);++p)
		cout<<char(*p^fehler());
	cout<<'\n';
}
Hängt natürlich stark vom Zufall ab, ob man den text erkennt.
Diese Würfelung dürfe von manchen schon erkannt werden.
Was`reite| wo"sxýt ftzcj0♀`chtÇUnd$Îind▲)Gw act¬$er`VatÕ mh  se┴nem Kin`.
Die Rechnung stimmt doch nicht!
Man erkennt doch nur 1 !!!!!!! Zeichen mit 43% richtig.
schon das zweite nur noch mit 18%. Und nicht einfach jedes zweite.
Die Wahrscheinlichkeiten multiplizieren sich mit jedem weiteren bit und werden immer kleiner.

Ich habe nur jedes Bit mit einer Wahrscheinlichkeit von 10% umgeschmissen.

SideWinder schrieb:

Warum? Die Chance die Zeichenkette als Gesamtes zu erkennen wird kleiner, die Chance auf jedes Byte bleibt natürlich gleich.

MfG SideWinder

Beispiel:

Text: A B C D E F G H

W'Keit das A zu erkennen: 43%
W'Keit das B zu erkennen: 43%

Achtung: W'Keit das A und B zu erkennen = 0.43*0.43 = 18%

Wkeit das C zu erkennen: 43%
Wkeit das A und B und C zu erkenne = 0.43*0.43*0.43 = 7.9%

W'keit das D zu erkennen: 43%
Wkeit das A und B und C und D zu erkenne = 0.43*0.43*0.43*0.43 = 3.4%

usw.

Das selbe passiert wenn du jedes 2. Zeichen nimmst.

Soweit ich weiß stimmt das mit den einzelnen Bits gar nicht mehr. Es werden immer mehrere Bits zusammengefasst, einem Muster zugeordnet und dann auf die Platte geschrieben. Wird dieses Muster überschrieben läßt sich nur noch sehr schwer rekonstruieren, weil es viele Ausgangsmöglichkeiten gibt warum das aktuelle Muster so verbogen ist wie es.

Stattdessen wird das analoge Signal in Abschnitte zerlegt, diese aufbereitet ("Partial Response") und das Ergebnis mit vorgegebenen Mustern verglichen, um das ähnlichste zu finden ("Maximum Likelihood"). Jedes der vorgegebenen Muster steht für eine bestimmte Bitfolge.

http://de.wikipedia.org/wiki/PRML

Das stimmt was MisterX schreibt.

Man übersieht leicht, das es ja noch mehr Kombinationen gibt.

2 Zeichen: A B

Wahrscheinlichkeit A zu erkennen = 43%
Wahrscheinlichkeit B zu erkennen = 43%

Wahrscheinlichkeit A und nicht B zu erkennen = 0.43 * 0.57 = 0.2451 ca 24 %
Wahrscheinlichkeit nicht A und B zu erkennen = 0.57 * 0.43 = 0.2451 ca 24 %
Wahrscheinlichkeit nicht A und nicht B zu erkennen = 0.57*0.57 = 0.3249 ca 32%
Wahrscheinlichkeit A und B zu erkennen = 0.43 * 0.43 = 0.1849 ca 18 %

(Die % Zahlen weichen zusammen um 2% von 100% wegen des Rundens ab)

volkard

MisterX schrieb:

Wkeit das A und B und C und D zu erkenne = 0.43*0.43*0.43*0.43 = 3.4%

Ja, klar. Und die Wahrscheinlichkeit, einen 1000 Bytes großen Text vollständig korrekt zu entziffern ist praktisch gleich 0.
Ich nehme mal ein paar Jahre der Magnetoskopentwicklung vorweg und setze die Wahrscheinlichkeit eines Bitumkippers auf 1%.
Bei einem Text mit 1000 Zeichen ist die Volltrefferwahrscheinlichkeit: 0.99^8000=1.2*10-35. Also praktisch 0.
Hier eine Würfelung von 576 Zeichen:

deinen Stachel gegen!alle"Insekten brauchen, um dir Achtwng ju 
verschaffen und um dich zu vertekdigen, Aber wenn du åin warmblütages Ti%r!
stichst oder ear eynen Menschen, so m}ßt du sterfen, weil dein Stqchel in 
ihrer`Haut hängenbleibt und`zerbriclt. Óteche solche Sesen nub im$Famle der 
höchsten!Not, abEr dann tu es íutig und fürchtg den Pod night, denn wir Bieþen 
ferdanken unser`großes Ansehen und die Achtung, die wir übezill genießen, 
unsereí Mut Und unserer Jlugheit. Ujd nun`leb wohl, kleine Oaja, hab Glück in 
der Welt und sei8deinem Volk und deiner Köniwyn treu.+

Zeus

Deutsches wörtbuch und Mustererkennung würde wohl helfen, den Text wieder lesbar zu machen =o

Damit kannstde deine platte wippen
http://images.mytoys.com/intershoproot/eCS/Store/de/images/197/03/1970396-n.jpg

volkard schrieb:

MisterX schrieb:

Wkeit das A und B und C und D zu erkenne = 0.43*0.43*0.43*0.43 = 3.4%

Ja, klar. Und die Wahrscheinlichkeit, einen 1000 Bytes großen Text vollständig korrekt zu entziffern ist praktisch gleich 0.
Ich nehme mal ein paar Jahre der Magnetoskopentwicklung vorweg und setze die Wahrscheinlichkeit eines Bitumkippers auf 1%.
Bei einem Text mit 1000 Zeichen ist die Volltrefferwahrscheinlichkeit: 0.99^8000=1.2*10-35. Also praktisch 0.
Hier eine Würfelung von 576 Zeichen:
deinen Stachel gegen!alle"Insekten brauchen, um dir Achtwng ju 
verschaffen und um dich zu vertekdigen, Aber wenn du åin warmblütages Ti%r!
stichst oder ear eynen Menschen, so m}ßt du sterfen, weil dein Stqchel in 
ihrer`Haut hängenbleibt und`zerbriclt. Óteche solche Sesen nub im$Famle der 
höchsten!Not, abEr dann tu es íutig und fürchtg den Pod night, denn wir Bieþen 
ferdanken unser`großes Ansehen und die Achtung, die wir übezill genießen, 
unsereí Mut Und unserer Jlugheit. Ujd nun`leb wohl, kleine Oaja, hab Glück in 
der Welt und sei8deinem Volk und deiner Köniwyn treu.+

Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

volkard

MisterX schrieb:

Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

...und das zweihundertste mit einer W'keit von 200%!?

Zeus

Nein das Ergeinis ist unabhänig. Ein weiteres zu erkennen hängt nicht vom ersten Ab. Du selbst hast es geschrieben.

Achtung: W'Keit das A und B zu erkennen = 0.43*0.43 = 18%

Wir sind nicht beim Lotto, wo der Menge der Ereignise kleiner wird.

volkard schrieb:

MisterX schrieb:

Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

...und das zweihundertste mit einer W'keit von 200%!?

Nein.

Das erste stimmt mit 99%. Das heißt es geht zu 1-0.99 = 0.01 = 1% schief.
Das zweite stimmt mit 0.99*0.99 = 0.9801. Es geht mit 1- 0.9801 = 1.99 % schief
...

Das 200. stimmt mit 0.99 hoch 200 = 0.133979675.
Es geht also mit 1 - 0.133979675 = 0.866020325% schief.

Diese Folge konvergiert gegen 1 beim schief gehen bzw. 0, dass das Zeichen korrekt ist. Allerdings wird 1 bzw 0 nie erreicht.
Die ersten zahlen sind eben nur nahe an 99 bze 98 und 97 % zu stimmen.
(Daher habe ich auch "ca." geschrieben)

Man bedenke auch dass laut Wiki das deutsche Alphabet eine Entropie von 4 bit/Zeichen hat. Und da ist noch keine übergreifende Struktur (Wörter...) drin.
Das lässt also genug Raum für Rekonstruktionen.

SideWinder

@MisterX: Ich bin ja wirklich kein Genie der Mathematik, aber dazu sag' ich einfach mal: Quatsch. Warum sollte ich ein Zeichen lesen, mit 43% richtig lesen, dann 5 Minuten warten ein weiteres Zeichen lesen und dieses plötzlich nur noch mit weniger großer Wahrscheinlichkeit richtig lesen? Wenn ich die Platte dann meinem Nachbarn gebe hat der dann auch weniger Wahrscheinlichkeit das nächste Byte richtig zu lesen? Nein...

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

MfG SideWinder

Es geht also mit 1 - 0.133979675 = 0.866020325% schief.

Muss natürlich:

Es geht also mit 1 - 0.133979675 = 0.866020325 = 86.6020325% schief.

heißen.

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

Genau das schreibe ich doch auch!

MisterX schrieb:

volkard schrieb:
MisterX schrieb:

Wkeit das A und B und C und D zu erkenne = 0.43*0.43*0.43*0.43 = 3.4%

Ja, klar. Und die Wahrscheinlichkeit, einen 1000 Bytes großen Text vollständig korrekt zu entziffern ist praktisch gleich 0.
Ich nehme mal ein paar Jahre der Magnetoskopentwicklung vorweg und setze die Wahrscheinlichkeit eines Bitumkippers auf 1%.
Bei einem Text mit 1000 Zeichen ist die Volltrefferwahrscheinlichkeit: 0.99^8000=1.2*10-35. Also praktisch 0.
Hier eine Würfelung von 576 Zeichen:
deinen Stachel gegen!alle"Insekten brauchen, um dir Achtwng ju 
verschaffen und um dich zu vertekdigen, Aber wenn du åin warmblütages Ti%r!
stichst oder ear eynen Menschen, so m}ßt du sterfen, weil dein Stqchel in 
ihrer`Haut hängenbleibt und`zerbriclt. Óteche solche Sesen nub im$Famle der 
höchsten!Not, abEr dann tu es íutig und fürchtg den Pod night, denn wir Bieþen 
ferdanken unser`großes Ansehen und die Achtung, die wir übezill genießen, 
unsereí Mut Und unserer Jlugheit. Ujd nun`leb wohl, kleine Oaja, hab Glück in 
der Welt und sei8deinem Volk und deiner Köniwyn treu.+
Wenn du den Algorithmus genommen hast jedes Zeichen mit 1% unleserlich zu machen passt das nicht!
Du mußt das erste Byte mit 1% W'keit unleserlich machen. Das zweite mit ca 2%
das dritte mit ca 3 usw. Die W'Keiten es unleserlich zu machen müssen mit jedem weiteren Zeichen ansteigen.

Wieso? Volkard hat genau das gemacht, was "der Kollege aus dem Datenrettungsunternehmen" gesagt hat: Jedes Bit kann mit einer Wahrscheinlichkeit von 90% korrekt gelesen werden. Das heißt man muss jedes Bit zufällig mit einer Wahrscheinlichkeit von 10% umdrehen. Wieso soltle das 128. Bit denn plötzlich mit einer anderen Wahrscheinlichkeit falsch oder richtig sein? Oder wieso sollten die Bits im 128. Byte eher verdreht sein, als im ersten?

Dass die Gesamtdatei bei zunehmender Anzahl Bits eine geringere Wahrscheinlichkeit hat 100% korrekt zu sein, sollte klar sein. Aber dann wäre auch jedes Buch "unlesbar", weil dort bestimmt irgendwo ein Fehler drin ist. Ein Text in dem 57% der Zeichen korrekt sind, ist relativ einfach zu rekonstruieren, solange es nicht darauf ankommt, dass wirklich jedes Zeichen richtig ist (z.B. passwort).

SideWinder

MisterX schrieb:

Nur: Die Wahrscheinlichkeit eine Zeichenkette von n Zeichen als Gesamtes richtig einzulesen wird natürlich immer kleiner umso höher n ist.

Genau das schreibe ich doch auch!

Nein, das sagst du nicht. Du sagst, dass volkard jedes Zeichen mit immer höhrerer Wahrscheinlichkeit umkippen lassen muss. Stell dir einfach vor nach jedem Schleifendurchlauf gibt volkard die Platte weiter und es liest jemand anderes wieder ein Zeichen.

Edit: Er ist nicht hergegangen und hat ein gesamtes Wort ausgelesen und dann mit 43% Wahrscheinlichkeit umgekippt (bzw. nicht umgekippt ... was auch immer jetzt 43% war...)

MfG SideWinder

Gregor

Oh, ein Thread, in dem über Stochastik gestritten wird. Das finde ich super.

...Dann muss ich auch mal ne Frage stellen:

Man hat 2 Bit auf einer Festplatte und kann jetzt mit einem spinpolarisierten Rastertunnelmikroskop feststellen, dass eins der Bits eine 1 ist. Wie wahrscheinlich ist es dann, dass das andere Bit auch eine 1 ist.

OK. Das ist komplizierter als gedacht.

Jetzt denke ich, ich könnte auch falsch liegen...

Mal sehen..

3 Zeichen.

W'Keit eines richtig auszulesen = 43%
W'Keit eines falsch auszulesen = 57%

3 Personen lesen eine Zahl aus. Keine weiß von dem Ergebnis des anderen.

SideWinder ließt ein Zeichen aus.
volkard ließ ein zeichen aus.
MisterX ließt ein Zeichen aus.

Es gibt die Folgenden Möglichkeiten für Ergebnisse:
1.
SideWinder richtiges Zeichen
volkard richtiges Zeichen
MisterX richtiges Zeichen
W'keit: 90% *90% *90% = 72.9%

SideWinder falsches Zeichen
volkard richtiges Zeichen
MisterX richtiges Zeichen
W'keit: 10% *90% *90% = 8.1%

SideWinder richtiges Zeichen
volkard falsches Zeichen
MisterX richtiges Zeichen
W'keit: 90% *10% *90% = 8.1%

SideWinder richtiges Zeichen
volkard richtiges Zeichen
MisterX falsches Zeichen
W'keit: 90% *90% *10% = 8.1%

SideWinder falsches Zeichen
volkard falsches Zeichen
MisterX richtiges Zeichen
W'keit: 10% *10% *90% = 0.9%

SideWinder richtig Zeichen
volkard falsches Zeichen
MisterX falsch Zeichen
W'keit: 90% *10% *10% = 0.9%

SideWinder falsches Zeichen
volkard richtiges Zeichen
MisterX falsches Zeichen
W'keit: 10% *90% *10% = 0.9%

SideWinder falsches Zeichen
volkard falsches Zeichen
MisterX falsches Zeichen
W'keit: 10% *10% *10% = 0.1%

Zusammen:
kein richtiges Zeichen:
0.1%

ein richtiges Zeichen:
8.1% + 8.1% + 8.1% = 24-3%

zwei richtige Zeichen:
0.9% + 0.9% + 0.9% = 2.7%

drei richtige Zeichen:
72.9%

Ok was wissen wir noch?
A Wir können nicht sagen welches zeichen ein richtiges oder ein falsches ist.
B Mit 50% Wahrscheinlichkeit bekommen wir mehr als die Hälfte richtig
C Mit 50% Wahrscheinlichkeit bekommen wir weniger als die Hälfte richtig.

Bei der Wahrscheinlichkeit alle richtig zu haben muß man die W'keit abnehmen lassen. (Das war woran ich gedacht habe)

Vorlkards Programm erzeugt Fehler... OK. Die dann das menschliche Gehirn ausgleicht. (Weil man ja wirklich noch was erkennen kann)

OK... ich lag wohl falsch, weil ich nur die Version, dass alles richtig sein muß
betrachtet habe.

Zusammanfassung:
Volkard Programm ist richtig!

Es geht also nur bei Informationen, die einen vom Gehirn erfaßbaren "Sinn" ergeben wie z.B Text, dass man den Text rekonstruieren kann.
(Bilder wohl auch. Wenn jedes 10 Pixel verdreht ist kann man bestimmt noch was erkennen)

Ist aber z.B. eine Geheimzahl codiert und man kommt an den Tresor nur bei richtiger Eingabe, dann nützt das anschauen nichts, weil man nicht weiß ob und wo ein Fehler drinn ist.