gesucht: Reime und Synonyme offline
-
Hallo!
Im Internet gibt es ja Reimmaschinen und sowas, zB 2rhyme.ch oder woerterbuch.info
Ich bin auf der Suche nach sowas, jedoch sollte man das auch offline benutzen können. Kennt ihr da was? Fürs reimen würde ja auch schon ne Wörterliste reichen, die man dann mit regular expressions durchsuchen kann. zB nach *aum suchen, und dann Baum, Schaum usw. finden. Allerdings müssten dann auch konjugierte und deklinierte Wortformen enthalten sein. Hat jemand eine idee?
Gruß, Maxi
-
Selber machen.
- Du besorgst dir eine Datenquelle. Zum Beispiel die deutsche Wikipedia als XML-Dump: http://dumps.wikimedia.org/dewiki/20060803/dewiki-20060803-pages-articles.xml.bz2
- Du entpackst die Daten: bunzip2 dewiki-20060803-pages-articles.xml.bz2
- Du extrahierst die "Wörter": egrep -o '\w+\b' dewiki-20060803-pages-articles.xml > tokens
- Du sortierst die "Wörter" (dauert!) und löschst mehrfache Vorkommen des selben Wortes: sort tokens | uniq -i > woerterliste.txt
- Fertig. Du hast jetzt eine hübsch große Liste mit Wörtern.
Du willst alle Wörter, die auf "aum" enden wissen:
egrep 'aum$' woerterliste.txt
-
hey, cool! sort kann auch nach silben/lauten sortieren
-
danke schön
das is aber unix-syntax, oder?... ich such ma ob ich sowas auch für windows finde, hab nämlich egrep und sort als programme noch nie gehört...
-
es gibt auch fertige wortlisten im internet... da braucht man nicht erst die ganze wikipedia runterladen (wusste gar nicht das sowas geht
)
-
hastn link für sone wortliste?
ich zieh grad die wikipedia. Is das eigentlhc die deutsche version? auf der seite is ja alles in english...
-
zum beispiel http://fmg-www.cs.ucla.edu/geoff/ispell-dictionaries.html
google wordlist...
-
DrGreenthumb schrieb:
zum beispiel http://fmg-www.cs.ucla.edu/geoff/ispell-dictionaries.html
google wordlist...In diesen Lexika sind lediglich die Grundformen direkt auslesbar. Die flektierten Formen muss man anhand der Annotierung erst erstellen.
Du kannst gerne das deutsche ispell-Lexikon runterladen und cat * | egrep 'Häuser\b' probieren. Oder um beim Titel deines Beitrags zu bleiben grep 'Häuser' /usr/share/dict/ogerman.
Gefragt sind aber blöderweise explizit auch die flektierten Formen.Maxi schrieb:
ich zieh grad die wikipedia. Is das eigentlhc die deutsche version? auf der seite is ja alles in english...
Ja, es ist die deutsche Version.
bzip, grep, sort, uniq für Windows:
http://unxutils.sourceforge.net/
-
[~]% grep -i '^häuser' /usr/share/dict/words HÄUSER HÄUSERN Häuserbau Häuserblock Häuserblocks Häuserblöcken Häuserfronten Häuserkante Häusertrümmern Häuserwand Häuserwänden
Warum da jetzt allerdings HÄUSER groß drinsteht weiß ich nicht.
Mit Umlauten aufpassen. Weiß nicht ob das noch geht, wenn die Shell in utf8 ist und die Datei iso-8859-15.
-
ICH MACHE NOCH EINMAL DARAUF AUFMERKSAM, DASS DIE VORGESCHLAGENE METHODE BEI WEITEM NICHT ALLE REIMWÖRTER LIEFERT UND SOMIT SUBOPTIMAL IST.