Sehr ausführliche Wörterliste gesucht

Wurstinator

Hallo,
ich suche eine Liste, die möglichst alle deutschen Wörter enthält. Bisher habe ich die Rechtschreibkorrektur-Liste von Open Office genutzt, aber da stehen Verben und Adjektive nur in ihrer Grundform, nicht deklariert, drin.
z.B. sollte nicht nur "gehen" drinstehen, sondern auch "gehe", "gehst", "geht", "ging", "gingst", "gingen", "gingt"? und "gegangen".

Gibt es so etwas?

Dobi

Hast du schon geguckt, ob die Dumps von wiktionary nützlich sein könnten?

rüdiger

http://www.j3e.de/ispell/igerman98/

Wenn du Linux (zumindest bei Ubuntu) nutzt und das entsprechende Paket installiert hast, dann findest du die Datei als /usr/share/dict/ngerman .

Wurstinator

@ Dobi: Sind sie vielleicht, aber dann müsste ich erstmal aus dem ganzen XML-Zeug die Wörter extrahieren. Und das würde zu lange dauern.

@ rüdiger: Ich nutze Windows. Kann ich das trotzdem irgendwie nutzen?

Christoph

Wurstinator schrieb:

@ Dobi: Sind sie vielleicht, aber dann müsste ich erstmal aus dem ganzen XML-Zeug die Wörter extrahieren. Und das würde zu lange dauern.

XML-Tags entfernen geht mit XSLT ohne großen Aufwand, auch wenn die Syntax dieser Sprache grauenhaft[1] ist.

[1] Das ist eine Untertreibung.

Dobi

Ich hatte mir damals was mit grep und sed zusammengeschrieben, was mir die da rausgeholt hat.

grep -e "[[" dewiktionary-20110415-pages-articles.xml | sed "s/[[/\n/g" | sed "s/]]/\n/g" | grep -v -e "Datei:" -e "Vorlage:" -e "Kategorie:" -e "MediaWiki:" -e "Hilfe:" -e "Wiktionary" -e "Verzeichnis:" -e "Thesaurus:" -e "WP:" | sed "s/<title>//g" | sed "s/<\/title>//g" | grep -E -v -e "\." -e ":" | iconv -c -t ASCII | sed 's/^ *//g' | sed 's/ *$//g' | sed '/^$/d' | sort | uniq > Words.txt

Hab mir das Ergebnis von damals mal hochgeladen: http://www.megaupload.com/?d=FSEROK48

Christoph

Dobi schrieb:

Ich hatte mir damals was mit grep und sed zusammengeschrieben, was mir die da rausgeholt hat.

Statt mit grep und sed xml-Tags zu parsen, würd ich wirklich XSLT empfehlen. Das Werkzeug ist genau für den Zweck entworfen worden, Daten aus XML zu holen. Das benutzt man auch in der command line.

Normalerweise bin ich ein ganz großer Fan von grep und sed, aber XML ist leider einer der Fälle, in denen diese beiden Programme meiner Meinung nach die falschen Werkzeuge sind. Natürlich kann man irgendwas hinfrickeln, aber es wird nicht besonders gut funktionieren.

grep ist nämlich aus theoretischen Gründen nicht in der Lage, XML zu parsen. Das liegt daran, dass grep nur reguläre Ausdrücke kennt, aber XML keine reguläre Sprache ist. Falls es mit grep also geht, dann nur, weil die XML-Datei mehr Struktur besitzt als besitzen müsste.

Bei sed könnte man auch *fast* sagen, dass es außerstande ist, XML zu parsen, aber das wär nicht ganz korrekt, denn zumindest GNU sed ist turing-vollständig, insofern muss es irgendwie gehen. Aber es geht jedenfalls nicht mit regulären Ausdrücken alleine, man braucht irgendeine Art Kontrollfluss, was sich in sed normalerweise niemand antut, der bei Verstand ist.

Dobi

Stimmt schon, das was ich da gemacht hatte, war ziemliche Frickelei. Aber ich wollte nur eben schnell nen Brückenrätselsolver schreiben.
Wenn ich das nächste mal vor dem Problem steh, Daten aus XML zu holen, werd ich mir XSLT mal angucken. Danke für den Tip.

rüdiger

Wurstinator schrieb:

@ rüdiger: Ich nutze Windows. Kann ich das trotzdem irgendwie nutzen?

Schau auf der Seite, da kannst du die Dateien auch runterladen.

Christoph

Dobi schrieb:

Wenn ich das nächste mal vor dem Problem steh, Daten aus XML zu holen, werd ich mir XSLT mal angucken.

Wobei XSLT wirklich ekelhaft ist, solche Dateien will man eigentlich nicht schreiben. Ich trau mich nichtmal einen Beispiel-Code hier zu posten.

Aber leider ist es das beste mir bekannte Werkzeug um XML mit geringstmöglichem Aufwand in ein Text-Format zu konvertieren. Falls jemand ein besseres Werkzeug kennt, würde mich das auch interessieren.

edit: xmlstarlet ist mir bekannt, aber das command line interface ist leider schon bei manchen einfachen Aufgaben zu beschränkt, sodass man am Ende doch wieder bei XSLT-Code landet.

Wurstinator

@ Christoph: Ich müsste erstmal die Syntax von XSLT lernen, was ich schon als Aufwand bezeichnen würde :p
Wenn es einfach ist, werde ich es mal probieren, ansonsten reicht die Zeit dafür wohl nicht.

@ Dobi: Da sind keine Umlaute dabei und Deutsch-Englisch sind gemischt

@ rüdiger: Tut mir Leid, aber da sind so viele Links und Dateien, welche genau sind es?