Spracherkennung

offoff

Hi Leutz,
ick wollte wie der Titel schon sagt ne Software für Spracherkennung in C++ schreiben. Das Ziel ist natürlich, dass diese kontinuierlich und sprecherunabhängig ist. Mein Anliegen ist nun, dass ich nach Literartur
(Buch/Internet) fragen wollte, um dies umzusetzen.

Ick bin für jede Antwort dankbar.

Jester

Hm, das ist ein sehr großes Thema. Biste sicher Dir das aufladen zu wollen?

Konkrete Literatur hab ich im Moment keine zur Hand. Aber Du kannst Dich auf jeden Fall schonmal mit folgenden Stichwörtern befassen:

Für den Signalverarbeitungsteil (Features extrahieren)
Signalverarbeitung, FFT, Formandenanalyse etc.

Spracherkennung:
Die meisten Systeme arbeiten heute stochastisch mit einem Wörterbuch und einem Sprachmodell.

Auf jeden Fall ist Bayes-Regel interessant, dazu HMM (Hidden Markov Models) und verschiedene Sprachmodelle (z.B. Bigram, Trigram oder n-Gram oder auch was Wörterbuch/Grammatik-basiertes).

btw.: Du bist im falschen Forum.

C++ Forumbot

Dieser Thread wurde von Moderator/in HumeSikkins aus dem Forum C++ in das Forum Rund um die Programmierung verschoben.

Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?

Dieses Posting wurde automatisch erzeugt.

Korbinian

sprachverarbeitung ist ein riesenfeld, ein fertiges system ist vergleichbar mit einem kleinen betriebssystem.
bücher, die sich mit mustererkennung und sprachverarbeitung befassen:
Niemann: Klassifikation von Mustern
Schukat-Talamazzini: Sprachverarbeitung
beide sind lesenswert und frei verfügbar. es gibt noch ein paar andere bücher, die sich mit den HMMs z.b. befassen.

ich will dich nicht entmutigen, aber ohne entsprechende mathematische vorbildung sowie 1-2 mustererkennungs und sprachverarbeitungsvorlesungen wirst du nicht mal annaehernd an ein funktionierendes system kommen. wie waers mit was kleinerem? aufgenommene samples verschriften? also "einfach" mal das wave einlesen, FFT, merkmale extrahieren, gegen laute matchen, und das ganze als phonem-ansammlung ausgeben? damit hast du schon mal was zum spielen, aber eine sprachverarbeitung ist das alle mal noch nicht

Jester

Das Problem mit dem stochastischen Ansatz ist auch, daß man riesige Mengen an Daten benötigt um das System nachher zu trainieren. Insbesondere wenn es Sprecherunabhängig werden soll brauchst Du viel Sprache von verschiedenen Leuten.