Spracherkennung

Xqgene

http://www.microsoft.com/downloads/results.aspx?productID=&freetext=speech+sdk&DisplayLang=en

Jester

Korbinian schrieb:

spracherkennung ist ziemlich fortgeschritten. erkennung von lauten und ganzen worten ist mehr oder weniger problemlos

... auf beschränkten Domänen. Meines Wissens sind alle derzeitigen Spracherkenner vom Wortschatz mehr oder weniger eingeschränkt. Einen Spracherkenner der wirklich Wort aus allen möglichen Begriffsfeldern erkennen kann gibt es noch nicht. Außerdem sinkt die Erkennungsrate in der Mensch-Mensch-Kommunikation (zum Beispiel beim mitprotokollieren eines Meetings) gerne mal auf unter 20%.

MfG Jester

Korbinian

das stimmt schon. oft ist es ja sogar für den menschen schwer das problem mit der worterkennung ist in der theorie schon fertig. nur in der praxis ist es aufgrund eingeschränkter rechenkapazitäten einfach nicht möglich 3 millionen wörter sowie daraus resultierende verknüpfungen zu speichern. das problem, mensch-mensch mitzuschneiden, und jeweils zuzuordnen, schätze ich jetzt mal als geringer ein, solange sie nicht gleiche stimmlage haben, und nur gleichzeitig reden. mithilfe moderner filter ist es glaub ich ich schon möglich, stimmen ganz rauszufiltern. find ich eh faszinierende, was mithilfe von filtern auf bild und tonebene alles möglich ist

Jester

Daß man dazu so gewaltige Rechner braucht heißt doch eigentlich nur, daß die Technik noch nicht ausgereift genug ist. Warum große Wortlisten? Das muß auch ohne gehen.

Das Mensch-Mensch Kommunikations-Problem ist doch recht erheblich. Das Problem ist nicht die Unterscheidung der Sprecher, sondern daß Menschen deutlich anders sprechen, wenn sie untereinander kommunizieren, als wenn sie mit Maschinen sprechen. Und das macht allen bis jetzt existierenden Erkennern gewaltige Probleme.

Korbinian

wobei es eigentlich machbar sein sollte. aktuelle verfahren können sich anhand etwa 15 sekunden sprachmaterial an einen spracher anpassen. verfolgt die software jetzt etwa 5 minuten des gesprächs von (z.b.) 3 leuten, so kann folgendes tun: erkennung von 3 unterschiedlichen sprechern + jeweilige adaption. sollte eigentlich gehn, in der theorie

zu den wortlisten: ein zweischneidiges schwert: entweder, man macht die erkennung der einzelenn worte immer genauer, in dem man erstmal kontext der buchstaben innerhalb eines wortes, und dann noch kontext des neuen wortes bzgl vorher gesprochenen, wird es halt immer intensiver. aber allein das hereinbeziehen der statistischen eigenschaften der sprache (also welche wörter wann und wie häufig) zieht diesen speicherbedarf mit. könnte man eine sichere erkennung ohne diese modelle machen, wäre schon viel gewonnen

Jester

Das Problem beim mitschneiden von Diskussionen und so ist vor allem, daß äh man also nicht immer nein also so redet, daß alles wichtige an einem Stück kommt und da kommt der Rechner leicht ins schwitzen, außerdem wird es problematisch wenn einer

... dem andere ins Wort fällt.

Korbinian

i c.
wäre auch mal ne reizvollte studienarbeit, muss ich glatt mal ins spiel bringen

mosta

na, soweit müssen wir ja nicht gleich gehen das der Computer komplett alles versteht was ich sage.
Er soll doch im Entdefekt doch nur "einzelne" Befehle(wie in der Konsole "open test.txt") verstehen. Läuft das schon zurzeit oder weiß da der computer nicht so genau wann er gemeint ist? Den bei Autos haben die ja schon so ne systeme eingebaut. Wo du dagst "radio" und das radio geht an aber das ist nicht sehr zuverlässig gewesen.

F98

Ich entsinne mich an Navi-Systeme im Benz die nur Hochdeutsch verstanden haben. Wenn also ein Bayer oder Schwabe mit starkem Dialekt daherkam, wars aus mit der Sprachsteuerung

Jester

mosta schrieb:

na, soweit müssen wir ja nicht gleich gehen das der Computer komplett alles versteht was ich sage.
Er soll doch im Entdefekt doch nur "einzelne" Befehle(wie in der Konsole "open test.txt") verstehen.

Naja, das ist nicht so einfach, denn manchmal lassen sich bestimmte Sachen einfach nur anhand des Kontexts entschlüsseln:

"euthanasia" vs "youth in asia"
"new diplay" vs "nudist play"?
"This system can recognize speech" vs "This system can wreck a nice beach"?

Ohne eine Betrachtung auf höherer Ebene ist hier im Prinzip keine Unterscheidung möglich.

Außerdem ist noch ein weiteres Problem wann sich der Computer angesprochen fühlen soll. Wenn ich zu ihm sage mach mal die Tür zu, dann soll er nicht nur mitloggen, sondern sollte auch die Tür zu machen. Wenn ich aber gerade mit jemandem darüber rede, daß ich mal wieder ein paar Dateien löschen soll wär's verdammt ungünstig, wenn sich der Rechner im Hintergrund denkt: "Dateien löschen? Okay, prima..."

Aber das ist natürlich eher außerhalb des Bereichs der Spracherkennung und gehört eher in den Bereich Sprache verstehen.

MfG Jester

mosta

also ist das was in auto navi systemenen passiert das zurzeit mögliche?

Korbinian

nope. das zur zeit mögliche findest du nie in supermarktprodukten wenn du state of the art haben willst, musst du an die uni und in die entsprechenden institute/forschungsfirmen

mosta

ich meine aber systeme die auch außerhalb des labors ihrer funktion fröhnen;-)