Suche gute Wörterliste

http://quantam.devklog.net/Orthographic Language Identification Using Artificial Neural Networks.pdf

mmazal schrieb:

Hmmm... Versuch mal nicht die Leerzeichen mitzuzählen in Zeile 10. Und schau mal was dann passiert.

Den Text habe ich schon ohne Leerzeichen eingegeben.

Musterknabe schrieb:

http://quantam.devklog.net/Orthographic Language Identification Using Artificial Neural Networks.pdf

Danke, schau ich mir mal an.

So, ich habe den Koninzidenzenindex mal in der Praxis ausprobiert, um aus 50000 Sätzen den Satz mit deutschem Klartext rauszufiltern. Geliefert wurden mit 3000 Ergebnisse (alle Werte zwischen 0.07 und 0.08), bei denen ich mir nicht mal sicher sein kann, dass der deutsche Klartext überhaupt dabei ist. Gibt es da noch andere Methoden?

Musterknabe schrieb:

http://quantam.devklog.net/Orthographic Language Identification Using Artificial Neural Networks.pdf

Ich habe mir den Link mal angeguckt und es scheint, das man damit nur zwischen verschiedenen Sprachen entscheiden kann, aber nicht zwischen totalen Mist und Klartext.

Detailgetreuer schrieb:

Ich habe mir den Link mal angeguckt und es scheint, das man damit nur zwischen verschiedenen Sprachen entscheiden kann, aber nicht zwischen totalen Mist und Klartext.

Was soll totaler Mist sein? Sowas "Fgjrdsh f934hfo43 ncklewjfoelswfe" oder sowas "hund hüpft tasse quark"?
Ersteres dürfte sich leicht trainieren lassen.

muemmel

Hi,

ich werf mal den Begriff "Grundwortschatz" in den Ring:
http://www.gut1.de/grundwortschatz/grundwortschatz_500.html

Gruß Mümmel

Musterknabe schrieb:

Was soll totaler Mist sein? Sowas "Fgjrdsh f934hfo43 ncklewjfoelswfe" oder sowas "hund hüpft tasse quark"?
Ersteres dürfte sich leicht trainieren lassen.

Mit totalen Mist meine ich so etwas wie das erstere nur ohne Zahlen. Also nur Kleinbuchstaben aneinander gepappt. Das Problem an deiner Methode ist, dass sie ziemlich overpowered ist. Allein schon das Training soll laut dem Text 5 Stunden dauern und massiv Speicher schlucken. Und ich habe nur einen kleinen Heim-PC zur verfügung

muemmel schrieb:

ich werf mal den Begriff "Grundwortschatz" in den Ring:
http://www.gut1.de/grundwortschatz/grundwortschatz_500.html

Aber das wäre doch dann wieder ein Wörterbuch, von dem mir hier ja abgeraten wurde.

muemmel

Hi,

nun, was spricht gegen ein Wörterbuch als Feintest. Wenn man von vornherein ausschließen kann, dass es sich um Deutsch handelt oder es nicht weiss, dann macht das wirklich keinen Sinn. Aber wenn die Vermutung auf Deutsch hinweist, dann kann ein Test mit dem Grundwortschatz schon was bringen.
Für einen ersten Test würde ich mich allerdings auf die Zeichen jenseits von a-z konzentrieren. Wenn in einem Text ä,ö,ü und ß in signifikanter Menge vorkommen würde ich mal auf Deutsch tippen. Andere Sonderzeichen stehen für Französisch, Tschechisch oder Dänisch. Und wenns gar keine Sonderzeichen gibt ists vermutlich Englisch.
Neben den Häufigkeiten der einzelnen Zeichen würde ich mir besonders die Selbstlaute ansehen, und wie sie stehen, was bevorzugt davor oder danach steht. Viele "en" innerhalb eines Wortes oder am Ende könnten z.B. auch auf Deutsch hinweisen. Auch Selbstlaut-Kombinationen geben da sicher eine Aussage. Auch eine Betrachtung der Groß-Kleinschreibung (soweit de Text nicht von Prof84 stammt) sowie ihr Stand zu Interpunktionszeichen könnte hilfreich sein.
Insgesamt würde ich sagen, je länger der Text ist, um so selektiver sind statistische Verfahren, dagegen sind für sehr kurze Texte Wörterbücher unerlässlich.

Gruß Mümmel

muemmel schrieb:

nun, was spricht gegen ein Wörterbuch als Feintest. Wenn man von vornherein ausschließen kann, dass es sich um Deutsch handelt oder es nicht weiss, dann macht das wirklich keinen Sinn. Aber wenn die Vermutung auf Deutsch hinweist, dann kann ein Test mit dem Grundwortschatz schon was bringen.
Für einen ersten Test würde ich mich allerdings auf die Zeichen jenseits von a-z konzentrieren. Wenn in einem Text ä,ö,ü und ß in signifikanter Menge vorkommen würde ich mal auf Deutsch tippen. Andere Sonderzeichen stehen für Französisch, Tschechisch oder Dänisch. Und wenns gar keine Sonderzeichen gibt ists vermutlich Englisch.

Ich glaub du verstehst mich falsch entweder ist der Text deutsch oder nur hbafpgnhmdfsapugihbnjkafpsiugoüpoew.

muemmel schrieb:

Neben den Häufigkeiten der einzelnen Zeichen würde ich mir besonders die Selbstlaute ansehen, und wie sie stehen, was bevorzugt davor oder danach steht. Viele "en" innerhalb eines Wortes oder am Ende könnten z.B. auch auf Deutsch hinweisen. Auch Selbstlaut-Kombinationen geben da sicher eine Aussage. Auch eine Betrachtung der Groß-Kleinschreibung (soweit de Text nicht von Prof84 stammt) sowie ihr Stand zu Interpunktionszeichen könnte hilfreich sein.
Insgesamt würde ich sagen, je länger der Text ist, um so selektiver sind statistische Verfahren, dagegen sind für sehr kurze Texte Wörterbücher unerlässlich.

Der komplette Text ist komplett kleingeschrieben und hat keine Leerzeichen. Wenn ich nun einfach bei jedem Satz teste, ob das erste Wort zum deutschen Grundwortschatz gehört, dann bekomme ich wegen Wörtern wie an, in oder es leider viel zu viele Ergebnisse. Und da ich nicht weiß, wie lang das erste Wort ist, kann ich auch nicht auf mehrere überprüfen...
Die Sätze sind im übrigen immer so um die 60 Zeichen lang.
Erst den Index auszurechnen, und dann ein Wörterbuch grüber laufen zu lassen oder umgekehrt bin ich gerade dabei, jedoch dauert das ganze leider lange, mein Programm läuft jetzt schon seit 10 Minuten.

muemmel

Hi,

Detailgetreuer schrieb:

Die Sätze sind im übrigen immer so um die 60 Zeichen lang.

jetzt kommt doch mal so langsam Butter bei die Fische. Du hast also eine Menge von Sätzen, von denen jeder einzelne wahlweise Deutsch oder Unfug ist. Du must also an Hand von ca 60 Zeichen entscheiden ob Deutsch oder nicht. Kommt darauf an wieviele Sätze es insgesamt sind. Ich würde da nicht gucken ob das erste Wort Deutsch ist, sondern ob die einzelnen Worte aus dem deutschen Grundwortschatz drin sind. Eventuell dafür auch den Grundwortschatz 200 nehmen. Und alle Worte die kürzer als 4 Zeichen sind nicht abfragen, weil die keinen Sinn machen. Wenn vorhanden größer 4 dann Deutsch.
Alternativ hätte ich noch einen anderen Vorschlag. Du nimmst das erste Zeichen und ermittelst den Abstand (ASCII-Wert) zum zweiten dann den Abstand vom zweiten zum dritten ...
einfach nur den Absolutwert. Und du hast 24 Variablen, die sich merken wie oft der Abstand vorkommt, die Du am Anfang auf 0 Setzt und bei jedem Vorkommen hochzählst. Bei Deutsch müssten sich signifikante Unterschiede ergeben, bei Unfug müsste ungefähr Gleichverteilung rauskommen.

Gruß Mümmel

Danke, ich werde deine Methoden nochmal ausprobieren.

muemmel

Hi Detailgetreuer,

lass doch mal hören, wie Du nun zu einem Ergebnis gekommen bist und um wieviel Datensätze/Sätze es sich überhaupt dreht.

Gruß Mümmel