text mining
-
hallo
ich suche eine Möglichkeit schnell eine grosse Anzahl an englischen
(später auch deutsche) Texte zu bekommen.Die Texte sollten dabei möglichst gut den mittleren englischen
Sprachgebrauch darstellen.
Deshalb fällt z.B. NUR computer-artikel flach.Ich habe schon angefangen, ebooks runterzuladen, nur leider
gibt es bei der Umwandlung von pdf -> txt probleme
(Sonderzeichen werden zu Satzenden usw ...)
und ein wenig müssig ist das auchAm besten wäre eine Sammlung von Tageszeitungen (habe ich aber auch nichts
gefunden)Zielsetzung sind min 100 Millionen Wörter.
Wobei es wichtig wäre, das gross/kleinschreibung gewahrt beleibt, weil
die Satzgrenzenerkennung unter anderem darauf baut.Wie gesagt ich stecke zur Zeit ein wenig fest, und würde mich über Anregungen
freuen.
-
-
wie gesagt, habe ich mich damit schon intensiv beschäftigt, und bin auch
darauf gestossen, nur sind diese Texte zu alt, und man wird zB ziemlich selten
bis nie das Wort "Computer" dort finden.deshalb habe ich diese Möglichkeit erstmal ausgeschlossen, und werde
sie im Notfall als "Füller" in betracht ziehen
-
Deutsch wäre einfacher, da könnt ich dir sofort mit an die 900.000 Token und 50.000 Sätzen aus der Frankfurter Rundschau dienen. Für das Englische fallen mir aber neben dem Gutenberg Project und dem Korpus der EU nur kostenpflichtige Korpora ein. Das EU-Korpus hat zwar einen unglaublich gigantischen Umfang und ist kostenlos, ist aber ganz sicher auch keine Alltagssprache, sondern Juristen- und Politiker-Gerede.
-
Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.
Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?Dieses Posting wurde automatisch erzeugt.
-
Hallo,
Wikipedia wäre noch eine Möglichkeit. Schön ist auch noch die Retuers 21578 Sammlung:
http://www.daviddlewis.com/resources/testcollections/reuters21578/