text mining

hallo

ich suche eine Möglichkeit schnell eine grosse Anzahl an englischen
(später auch deutsche) Texte zu bekommen.

Die Texte sollten dabei möglichst gut den mittleren englischen
Sprachgebrauch darstellen.
Deshalb fällt z.B. NUR computer-artikel flach.

Ich habe schon angefangen, ebooks runterzuladen, nur leider
gibt es bei der Umwandlung von pdf -> txt probleme
(Sonderzeichen werden zu Satzenden usw ...)
und ein wenig müssig ist das auch

Am besten wäre eine Sammlung von Tageszeitungen (habe ich aber auch nichts
gefunden)

Zielsetzung sind min 100 Millionen Wörter.
Wobei es wichtig wäre, das gross/kleinschreibung gewahrt beleibt, weil
die Satzgrenzenerkennung unter anderem darauf baut.

Wie gesagt ich stecke zur Zeit ein wenig fest, und würde mich über Anregungen
freuen.

akari

Hallo

Im Project Gutenberg findest du tausende Texte im reinen Textformat.

bis bald
akari

wie gesagt, habe ich mich damit schon intensiv beschäftigt, und bin auch
darauf gestossen, nur sind diese Texte zu alt, und man wird zB ziemlich selten
bis nie das Wort "Computer" dort finden.

deshalb habe ich diese Möglichkeit erstmal ausgeschlossen, und werde
sie im Notfall als "Füller" in betracht ziehen

minhen

Deutsch wäre einfacher, da könnt ich dir sofort mit an die 900.000 Token und 50.000 Sätzen aus der Frankfurter Rundschau dienen. Für das Englische fallen mir aber neben dem Gutenberg Project und dem Korpus der EU nur kostenpflichtige Korpora ein. Das EU-Korpus hat zwar einen unglaublich gigantischen Umfang und ist kostenlos, ist aber ganz sicher auch keine Alltagssprache, sondern Juristen- und Politiker-Gerede.

C++ Forumbot

Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.

Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?

Dieses Posting wurde automatisch erzeugt.

Headhunter

Hallo,

Wikipedia wäre noch eine Möglichkeit. Schön ist auch noch die Retuers 21578 Sammlung:
http://www.daviddlewis.com/resources/testcollections/reuters21578/