"kleine" Spracherkennung?
-
Hi
Also ich will eigentlich versuchen, nem Microcontroller ne Spracherkennung programmieren.Quasi wäre das
Einlesen der Daten mit ca. 6 KHz, erstellen einer Fourieranalyse, erkennen eines Phonems, heraussuchen des wahrscheinlichsten Wortes aus einer Tabelle (Baum)Mein Problem ist nun, wie ich die Daten nach de Fourieranalyse behandle, dass ich dann das Phonem herausfinden kann...
kann mir da wer weiterhelfen?
-
Hi DocJunioR!
6 kHz ist in der Spracherkennung wenig. Entspricht der Qualität eines Analogtelefons oder Handys. Da bekommst Du mit einen Cluster über 100 Knotes mit den Konfidenzbereich Probleme.
Zum HMM (Selektion):
http://kontext.fraunhofer.de/haenelt/kursfolien.html
http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk34.htm
http://r5.mnd.fh-wiesbaden.de/stud/berger/speech_r.html
http://www.zaik.uni-koeln.de/AFS/publications/annualreports/99-00/html/node32.htmlTool:
http://htk.eng.cam.ac.uk/Zu FFT:
http://dnt.kr.hs-niederrhein.de/DSV_SS02/spracherkennung.pdf
http://www.ims.uni-stuttgart.de/Lehre/teaching/2002-SS/SpracherkennungI/dsp4.pdfTools (4 free):
Speech SDK o. w.
http://www.microsoft.com/speech/
oder
MS Linguistic Sound Editing Tool
http://www.microsoft.com/msagent/downloads/developer.aspIn der FFT - Analyse bin ich leider nicht mehr ganz fit.
Der ernstzunehmende Teil meines Physikstudiums ist 13 Jahre her.
Aber wir haben hier einen anerkannten Experten - Marc++us!
Musste mal ihn fragen, der hat mit Sicherheit 10 x mehr Plan als ich...Mit Micocontrollern habe ich wenig bis gar keine Erfahrungen. Noch ...
cu
P84
-
Hmm.. die Links sind erstmal super, danke
6 KHz reichen übrigens voll aus, da die Menschliche Stimme gerade mal unterhalb 3400 Hz angesiedelt ist. (inclusive Oberwellen)
ergo sind so 6.8K oder eben etwas weniger (besser wäre etwas mehr) Samplingrate voll okay.
Microcontroller sollten nicht so mein Problem sein, da ich schon ne Weile mit denen arbeite.. ob ne Spracherkennung mit denen realisierbar ist, werd ich schauen müssen...
-
DocJunioR schrieb:
[...]6 KHz reichen übrigens voll aus, da die Menschliche Stimme gerade mal unterhalb 3400 Hz angesiedelt ist. (inclusive Oberwellen)
ergo sind so 6.8K oder eben etwas weniger (besser wäre etwas mehr) Samplingrate voll okay [...]
Well, I disagree ...
Wie bereits geasgt bei ca. 100 knoten ist Schluss.Ab da fällt Θ stark ab. Bei 200 liegt es bestimmt schon unter 80 %
Deshalb hallen übliche Headsets von Diktiersystemen bei 15-20 KHz.Der Fequenzbereich wird hier etwas erläutert:
http://homerecording.de/modules/news/print.php?storyid=6
-
naaja,
trotzdem muss ich dazu sagen, dass ich nur 16 MIPS habe und etwas sparsam arbeiten muss...