Echte Zufallszahlen keine pseudo ( CryptGenRandom )

DarkShadow44

Das bleibt wohl ewig Ansichts/Definitionssache (was ist "echt", ab welcher Indirektionskomplexität ist es "Zufall").

Mal von der philosphischen Seite abgesehen:
Zufallszahlen die durch einen Algorithmus aus einem Startwert berechnet werden sind kein echter Zufall weil sie reproduzierbar sind. Daten durch Rauschen (durch Hardware wahrgenommen) können nicht reproduziert werden und sind daher echte Zufallszahlen.

Theoretisch könnte man am PC auch echte Zufallszahlen bekommen, sei es durch spezielle Hardware, Zufallszahlengeneratoren im Internet oder was weiß ich was. Theoretisch sollte es reichen z.B. das Rauschen der Soundkarte zu nutzen.

Die Frage ist nur warum es "echte" Zufallszahlen sein müssen ? Pseudozufallszahlen reichen in 99% der Fälle vollkommen aus.

knivil

Hi schrieb:

knivil schrieb:

Rauschen ist keine Information.

Na sicher ist Rauschen auch Information.

Begruendung?

Jodocus

@ Hi: Was bedeutet es für dich, dass eine Nachricht keine Information enthält? Welche Information hast du, wenn du eine Nachricht (Bitfolge) erhälst, die gleichwahrscheinlich und statistisch unabhängig 0en und 1en enthält (also ungefähr gleich viele 0en und 1en)? In dem Fall ist die (Shannon-)Entropie maximal, was ein guter Kandidat für eine Definition von "keine Information" ist.

Echte Zufallszahlen gibt es auf einem System.
Zum Beispiel bei Linux reicht es aus die virtuelle Gerätedatei /dev/urandom auszulesen.
Als Zufall wird dort zb der Zeitintervall zwischen 2 Interrupts von zufälliger Hardware gemessen oder Zeitintervall zwischen 2 oder mehr Tastaturschläge des Users oder anhand der Mausbewegung des Users. Linux kommt ganz ohne spezielle Hardware aus dafür.

Zufall gibt es. Zum Beispiel der zerfallsprozess einer radioaktiven Quelle oder das Hintergrundrauschen des Universums.

Wieso ist Rauschen eine Information ?
Weil du das Rauschen wahrnehmen kannst ist es eine Information

Jodocus

Raven147852 schrieb:

Weil du das Rauschen wahrnehmen kannst ist es eine Information

Aha. Diese Definition lässt sich aber schlecht formalisieren.

knivil

Weil du das Rauschen wahrnehmen kannst ist es eine Information

Nein, das ist die Definition eines Signals .. ich kann es messen. Information muss es trotzdem nicht enthalten.

Bashar

Jodocus schrieb:

In dem Fall ist die (Shannon-)Entropie maximal, was ein guter Kandidat für eine Definition von "keine Information" ist.

Wenn die Entropie maximal ist, und die Entropie ein Maß für den Informationsgehalt ist, dann ist letzterer auch maximal, oder? Mehr praktisch formuliert: Daten aus einer gleichverteilt rauschenden Quelle lassen sich nicht komprimieren.

Ich kenne als Definition von Information die Beseitigung von Unklarheit.
"Funktioniert der Fernseher?" -> Fernseher anschalten -> Nur Rauschen -> "Nein, tut er nicht". Dass der Fernseher rauscht hat Unklarheit beseitigt, also war da 1 Bit Information drin. Andererseits würde ich Rauschen als Signal ohne Information definieren.
Damit hängt es vom Betrachter ab, ob ein Signal Information enthält, je nachdem, ob er daraus schlau wird. Ein Text auf chinesisch enthält für mich keine Information, für einen Chinesen schon. Linux liest auch einfach ein paar Daten aus dem Hauptspeicher irgendwelcher Programme um Zufallszahlen zu generieren. Für das Programm ist es überhaupt nicht zufällig was da steht, für den Rest der Welt schon.

Jodocus

Bashar schrieb:

Wenn die Entropie maximal ist, und die Entropie ein Maß für den Informationsgehalt ist, dann ist letzterer auch maximal, oder?

Ja, aber was heißt das? Der Informationsgehalt eines Zeichens drückt sich darin aus, wie viele Bits man zu dessen Darstellung mindestens benötigt. Wenn der Erwartungswert des Informationsgehaltes (= die Entropie) nun den maximalen Wert (in Abh. der Auftrittswahrscheinlichkeit) annimmt, spricht das nicht gerade für die Extremalanforderung an den Informationsgehalt, so klein zu sein wie nur möglich. Mir scheint das Wort "Informationsgehalt" etwas schlecht gewählt, denn ein Zeichen, was nur wenige Bits zur Darstellung benötigt (also einen geringen Informationsgehalt hat), trägt eine große Information. K.A., ob das englische "self-information" besser langt.

Bashar

Jodocus schrieb:

Bashar schrieb:

Wenn die Entropie maximal ist, und die Entropie ein Maß für den Informationsgehalt ist, dann ist letzterer auch maximal, oder?

Ja, aber was heißt das? Der Informationsgehalt eines Zeichens drückt sich darin aus, wie viele Bits man zu dessen Darstellung mindestens benötigt. Wenn der Erwartungswert des Informationsgehaltes (= die Entropie) nun den maximalen Wert (in Abh. der Auftrittswahrscheinlichkeit) annimmt, spricht das nicht gerade für die Extremalanforderung an den Informationsgehalt, so klein zu sein wie nur möglich.

Woher kommt diese Anforderung?

Mir scheint das Wort "Informationsgehalt" etwas schlecht gewählt, denn ein Zeichen, was nur wenige Bits zur Darstellung benötigt (also einen geringen Informationsgehalt hat), trägt eine große Information. K.A., ob das englische "self-information" besser langt.

OK, dann so. Angenommen, wir haben eine Quelle, die gleichverteilt Zahlen von 0 bis 255 ausspuckt, also Zeichen. Wie hoch ist die self-information von 'A'? Wie hoch die von '\0'? Ich würde mal vermuten, dass sie jeweils 1/256 sind, auch wenn 00000000 nicht nach Rauschen "aussieht". Jedenfalls scheint mir diese Überlegung nicht geeignet, irgendwas darüber auszusagen, ob Rauschen Information ist oder nicht.

Jodocus

Bashar schrieb:

Woher kommt diese Anforderung?

Das ist die Definition. Wozu braucht man mehr Bits als nötig, um ein Zeichen eindeutig darstellen zu können?

Bashar schrieb:

OK, dann so.

Versteh' mich nicht falsch, ich habe nichts gegen den Begriff, nur muss einem klar sein, dass die Bits eines Zeichens bei einem hohen Informationsgehalt eben wenig Information tragen.

Bashar schrieb:

Wie hoch ist die self-information von 'A'? Wie hoch die von '\0'? Ich würde mal vermuten, dass sie jeweils 1/256 sind,

Streng genommen nicht, das sind die relativen Auftreffwahrscheinlichkeiten. Der Informationsgehalt ist jeweils 8 ( $= -\log_2\frac{1}{256}$ ) Bit.

Bashar schrieb:

auch wenn 00000000 nicht nach Rauschen "aussieht".

Was verstehst du formal unter "Rauschen"?

Bashar

Jodocus schrieb:

Bashar schrieb:

Woher kommt diese Anforderung?

Das ist die Definition.

Die Definition wovon?

Wozu braucht man mehr Bits als nötig, um ein Zeichen eindeutig darstellen zu können?

Ich sehe nicht den Zusammenhang.

Bashar schrieb:

Wie hoch ist die self-information von 'A'? Wie hoch die von '\0'? Ich würde mal vermuten, dass sie jeweils 1/256 sind,

Streng genommen nicht, das sind die relativen Auftreffwahrscheinlichkeiten. Der Informationsgehalt ist jeweils 8 ( $= -\log_2\frac{1}{256}$ ) Bit.

Bashar schrieb:

auch wenn 00000000 nicht nach Rauschen "aussieht".

Was verstehst du formal unter "Rauschen"?

Das "" ist meine Markierung für informal. Sorry, falls das nicht klar war. Du musst dich darauf nicht konzentrieren, das ist nur mein Versuch, aus deinem Verweis auf die self-information schlau zu werden.

Jodocus

Bashar schrieb:

Jodocus schrieb:

Bashar schrieb:

Woher kommt diese Anforderung?

Das ist die Definition.

Die Definition wovon?

Na die vom Informationsgehalt. Ziel der Geschichte war doch, die effizienteste (hier kleinste) Möglichkeit der Kodierung eines Zeichens zu finden. Die findet man in der Zahl des Informationsgehaltes.

Bashar schrieb:

Das "" ist meine Markierung für informal. Sorry, falls das nicht klar war. Du musst dich darauf nicht konzentrieren, das ist nur mein Versuch, aus deinem Verweis auf die self-information schlau zu werden.

An der Stelle bringt die Überlegung tatsächlich nichts gescheites, denn ich bin auf die Nomenklatur in der Informationstheorie reingefallen: der Begriff Informationsgehalt ist schon irreführend, aber der Shannon-Begriff der Information noch mehr. Ich dachte bisher immer, dass die sog. "syntaktische"/"Shannon-" und "semantische" Information das gleiche sind und dass die Widersprüche aus meinem Unverständnis resultieren, aber die resultieren viel mehr aus dem Unverständnis von Shannon (bzw. der 40er).

Lösung: Gleichverteiltes Rauschen hat die größte Shannon-Entropie, also nach Shannons Interpretation des Informationsbegriffs die kleinst mögliche Information (bzw. garkeine, wenn man so will, so wie man in der stat. Physik keine über die Mikrozustände hat, und hier gilt ja auch Gleichverteilung und demnach die größtmögliche Shannon-Entropie $\propto \ln\Omega$ ). Eine abweichende Verteilung würde schon mehr Information bedeuten.
Für den unformalen Informationsbegriff können sich Philosophen kümmern, da gibts Argumente dafür, dagegen oder dafür, dass man keine Aussage machen kann, ob Rauschen nun Information enthält oder nicht.

Bashar

Jodocus schrieb:

Bashar schrieb:

Jodocus schrieb:

Bashar schrieb:

Woher kommt diese Anforderung?

Das ist die Definition.

Die Definition wovon?

Na die vom Informationsgehalt. Ziel der Geschichte war doch, die effizienteste (hier kleinste) Möglichkeit der Kodierung eines Zeichens zu finden. Die findet man in der Zahl des Informationsgehaltes.

Und woher kommt jetzt die Anforderung, dass der Informationsgehalt darüber hinaus minimal zu sein hat?

Ich zitiere dich nochmal:

Der Informationsgehalt eines Zeichens drückt sich darin aus, wie viele Bits man zu dessen Darstellung mindestens benötigt. Wenn der Erwartungswert des Informationsgehaltes (= die Entropie) nun den maximalen Wert (in Abh. der Auftrittswahrscheinlichkeit) annimmt, spricht das nicht gerade für die Extremalanforderung an den Informationsgehalt, so klein zu sein wie nur möglich.

Im Falle einer gleichverteilten Zufallsvariable ist die minimale Codierungslänge, also der Informationsgehalt, einfach mal sehr groß. Wo ist denn da der Widerspruch?

An der Stelle bringt die Überlegung tatsächlich nichts gescheites, denn ich bin auf die Nomenklatur in der Informationstheorie reingefallen: der Begriff Informationsgehalt ist schon irreführend, aber der Shannon-Begriff der Information noch mehr. Ich dachte bisher immer, dass die sog. "syntaktische"/"Shannon-" und "semantische" Information das gleiche sind und dass die Widersprüche aus meinem Unverständnis resultieren, aber die resultieren viel mehr aus dem Unverständnis von Shannon (bzw. der 40er).

Da bin ich mir nicht so sicher, dass das Unverständnis auf Seiten Shannons liegt. Der Informationsgehalt einer Nachricht besteht intuitiv darin, dass du etwas erfährst, was du noch nicht wusstest, das passt wunderbar zum Entropiebegriff.

Lösung: Gleichverteiltes Rauschen hat die größte Shannon-Entropie, also nach Shannons Interpretation des Informationsbegriffs die kleinst mögliche Information

Nanu? Ich denke doch, dass es die größtmögliche Information bedeutet.

Aber du sagtest ja auch, dass Shannon das falsch sieht. Wie ist es denn nun richtig?

BTW ich habe keine Zeit, den verlinkten Artikel zu lesen.

volkard

Bashar schrieb:

BTW ich habe keine Zeit, den verlinkten Artikel zu lesen.

Ist auch nicht nötig. Kurzfassung:

Artikel schrieb:

Es ging in diesem Aufsatz nicht darum, was Information ist, sondern um das, was sie nicht ist.

Jodocus

Bashar schrieb:

Jodocus schrieb:

Bashar schrieb:

Jodocus schrieb:

Bashar schrieb:

Woher kommt diese Anforderung?

Das ist die Definition.

Die Definition wovon?

Na die vom Informationsgehalt. Ziel der Geschichte war doch, die effizienteste (hier kleinste) Möglichkeit der Kodierung eines Zeichens zu finden. Die findet man in der Zahl des Informationsgehaltes.

Und woher kommt jetzt die Anforderung, dass der Informationsgehalt darüber hinaus minimal zu sein hat?

Ich zitiere dich nochmal:

Der Informationsgehalt eines Zeichens drückt sich darin aus, wie viele Bits man zu dessen Darstellung mindestens benötigt. Wenn der Erwartungswert des Informationsgehaltes (= die Entropie) nun den maximalen Wert (in Abh. der Auftrittswahrscheinlichkeit) annimmt, spricht das nicht gerade für die Extremalanforderung an den Informationsgehalt, so klein zu sein wie nur möglich.

Im Falle einer gleichverteilten Zufallsvariable ist die minimale Codierungslänge, also der Informationsgehalt, einfach mal sehr groß. Wo ist denn da der Widerspruch?

Nochmal: Bei einer gleichverteilten Zufallsvariable (also mit gleichgroßem Informationsgehalt für jedes Zeichen) trägt ein einzelnes Bit sehr wenig Information, da du sehr viele brauchst, um das Zeichen zu kodieren. Da ist kein Widerspruch (habe ich auch nicht behauptet). Warum hängst du dich jetzt an diesem Begriff so auf?

Bashar schrieb:

An der Stelle bringt die Überlegung tatsächlich nichts gescheites, denn ich bin auf die Nomenklatur in der Informationstheorie reingefallen: der Begriff Informationsgehalt ist schon irreführend, aber der Shannon-Begriff der Information noch mehr. Ich dachte bisher immer, dass die sog. "syntaktische"/"Shannon-" und "semantische" Information das gleiche sind und dass die Widersprüche aus meinem Unverständnis resultieren, aber die resultieren viel mehr aus dem Unverständnis von Shannon (bzw. der 40er).

Da bin ich mir nicht so sicher, dass das Unverständnis auf Seiten Shannons liegt. Der Informationsgehalt einer Nachricht besteht intuitiv darin, dass du etwas erfährst, was du noch nicht wusstest, das passt wunderbar zum Entropiebegriff.

Es gibt keine einheitliche Definition von Information. Erkläre mir erst mal, was du unter Information verstehst, andernfalls bringt das hier nichts. Wenn du die intuitive meinst, dann bist du mit einer Erklärung dieses Informationsbegriffs über die Entropie auf dem Holzweg. Das funktioniert nicht.

Bashar schrieb:

Lösung: Gleichverteiltes Rauschen hat die größte Shannon-Entropie, also nach Shannons Interpretation des Informationsbegriffs die kleinst mögliche Information

Nanu? Ich denke doch, dass es die größtmögliche Information bedeutet.

Nicht nach der üblichen Interpretation. Wenn du z.B. ein physikalisches System im therm. GG hast, ist seine Entropie auch maximal und dabei hast du so gut wie garkeine Information über den Mikrozustand des Systems. Genau so lässt sich eine hohe Entropie durch ein hohes Maß an fehlender Information (und zwar die Intuitive) interpretieren. Das ist nicht formalisierbar, da fehlt einfach eine Definition für Information.

Bashar schrieb:

Aber du sagtest ja auch, dass Shannon das falsch sieht. Wie ist es denn nun richtig?

Shannon's Annahme, Information stamme aus der bestmöglichen Zahl zur Kodierung einer Nachricht, dessen Zeichen aus einer W'keitsverteilung stammen, ist überhaupt nicht konform mit dem geläufigen Verständnis von Information. brennessel und nebeslsrne haben die gleiche W'keitsverteilung/Shannon-Entropie und trotzdem hat letzteres keine Information, das erste hingegen schon. Es gibt keinen Zusammenhang zwischen Shannon-Information und "echter" Information.
Was zu einer Information gehört, ist, wie man sie interpretiert, das ist (bisher) nicht formalisierbar.

Bashar schrieb:

BTW ich habe keine Zeit, den verlinkten Artikel zu lesen.

Ich hab ihn auch nicht durchgelesen. Die ersten 3,4 Seiten beinhalten bereits das Problem, dass der Informationsbegriff nicht klar getrennt wird und fälschlicherweise angenommen wird, dass man mit Shannonentropie irgendeine Aussage machen kann, ob eine Nachricht Informationen trägt oder nur "rauscht".

volkard

Jodocus schrieb:

brennessel und nebeslsrne haben die gleiche W'keitsverteilung/Shannon-Entropie und trotzdem hat letzteres keine Information, das erste hingegen schon.

Kneie Itinaofmron? Nien, dem mchtöe ich wihsrepeecrdn! Igndreiwe elhtnät "nbrenssele" dcoh ncoh rchet veil Iromatiofnn. Zum Biewes vserclülhssee ich deeiss Pistong mit dem Brwvteclufbneheesarür auf http://www.puknoipatm.net/ochehusuteaegntscipn/bastucbehn-msehcir.php und man wrid eeekrnnn, daß im recethn Ketoxnt "nbeesrlnse" ncoh 100% eähtlnt, das Sginal ist hseöcnths wenig vrurshacet zu nnneen.
(Ok, die URL ist ein wneig apslohurcsnvl.)

Jodocus schrieb:

und fälschlicherweise angenommen wird, dass man mit Shannonentropie irgendeine Aussage machen kann, ob eine Nachricht Informationen trägt oder nur "rauscht".

Jo, sobald das Wort "Information" fällt, weiß jeder bescheid, aber evtl nur in seinem Fach
http://de.wikipedia.org/wiki/Information#Der_Begriff_in_verschiedenen_Wissenschaften
Wir sollten mal Profis dazu befragen, die professionell Information verbreiten.
http://blog.fti.de/wp-content/uploads/2014/01/Informationsschild_117950668-880x320.jpg

() hihi, ausgrechnet "aslropscuvnhl" ist ausgerechnet "aslropscuvnhl".

knivil schrieb:

@Hi & determined: http://www.youtube.com/watch?v=5KT2BJzAwbU

nett getrollt.

ich bezog mich explizit auf "echte zufallszahlen". dabei beschränke ich mich nicht auf ein system. echten zufall gibt es nach wie vor nicht im kontext unseres universums, solange einflussfaktoren deterministischer kausalität unterliegen. unterschieden wird hier nur anhand des systems. im praktischen fall also zwischen system "computer" und system "aussenumstand". wenn wir nun für die generierung von zufallswerten hilfe von außen nehmen, also z.b. durch rauschen oder andere dinge, dann sind die zufallszahlen innerhalb des systems "computer" nicht reproduzierbar, da die externe "hilfe" nicht miteinbezogen wird. auch weil der zugriff aus dem system "computer" heraus zum "aussenumstand" nicht wirklich gegeben sein wird. tut man dies aber doch, dann lässt es sich prinzipiell reproduzieren, allerdings ist dieser aufwand natürlich u.U. sehr groß. trotzdem unterliegt der "aussemumstand" auch der d.K. und ist reproduzierbar. aus dem system "computer" heraus wird dies aber wohl keiner praktisch machen. wirklich echter zufall ist also so nicht möglich, nur durch systemabgrenzung beschreibt man zufall als zufall im kontext eines spezifischen systems ohne rücksicht auf die aussenumstände, die, sofern nicht metaphysisch, auch der d.K. unterliegen.

konklusion: es ist prinzipiell IMMER reproduzierbar, sofern man sich die mühe dazu macht. das wort zufall benutzt man dann nur bei der systemabgrenzung. nimmst du beide systeme aber zusammen, dann kannst du es reproduzieren.

mit "echten zufallszahlen" meinte ich durch wirklichen zufall erzeugte werte, also komplett NICHTDETERMINISTISCH!

knivil

lol

Nix lol, wir können nix dafür, dass du beschränkt denkst.