Wie weit ist die Spracherkennung beim Erkennen von bekanntem Text?

Und welche Verfahren werden dafür angewendet?

Welche sind Standard und welche könnten in Zukunft die Spracherkennung verbessern?

Worin liegen die Probleme und Herausgforderungen?

Spracherkennung schrieb:

Und welche Verfahren werden dafür angewendet?

Welche sind Standard und welche könnten in Zukunft die Spracherkennung verbessern?

Worin liegen die Probleme und Herausgforderungen?

- ich verstehe deine fragen nicht ganz...
- sprach- oder texterkennung? Spracherkennung von bekanntem Text? dir bekanntem text wem bekannt? überhaupt welcher text ich dachte spracherkennung?

- denke mal sicher du willst ins mikro sprechen und dein pc soll es auf konsole ausgeben oder dir antworten oder sowas... also ähnlich beim handy...
oder hab ich dein problem falsch verstanden?

- welches system willst du nutzen bzw. nutzt du?
windows: http://www.microsoft.com/en-us/download/details.aspx?id=10121
(SAPI) -> glaube das ist schon etwas älter... vll gibt es da noch besseres, neueres bzw. weiterentwickeltes...

linux : musst du mal googeln...

- zu dem ganzen thema "Spracherkennung" findest auch sehr viel bei google...
http://lmgtfy.com/?q=c%2B%2B+spracherkennung

MfG schrieb:

Spracherkennung schrieb:

Und welche Verfahren werden dafür angewendet?

Welche sind Standard und welche könnten in Zukunft die Spracherkennung verbessern?

Worin liegen die Probleme und Herausgforderungen?

- ich verstehe deine fragen nicht ganz...
- sprach- oder texterkennung? Spracherkennung von bekanntem Text? dir bekanntem text wem bekannt? überhaupt welcher text ich dachte spracherkennung?

Na Text den man aufsagt.

Hätte ich Texterkennung gemeint, dann hätte ich das geschrieben.
Spracherkennung ist eindeutig.

- denke mal sicher du willst ins mikro sprechen und dein pc soll es auf konsole ausgeben oder dir antworten oder sowas... also ähnlich beim handy...

Nein, natürlich nicht.
Wenn er das nur wiedergibt, wie ich es reingesprochen habe, dann hat das nichts mit Spracherkennung zu tun. Das wäre simples aufzeichnen und wiedergeben.

Was ich meine ist Spracherkennung, guck mal in die Wikipedia. Der Begriff ist gut definiert.

Aber ich erklär dir das mal in Kurz Form.
Wenn du ins Mikro sprichst, dann hat die Spracherkennungssoftware die Aufgabe das Gesprochene zu analysieren und den darin gesprochenen Text zu erfassen und zu erkennen.
Was danach kommt, ist für die Frage unerheblich. Und wenn der Compute den Text dann wieder mit eigenen Worten ausgeben müsste, dann wäre das Sprachsynthese.

oder hab ich dein problem falsch verstanden?

Ja, sieht wohl so aus.

- welches system willst du nutzen bzw. nutzt du?
windows: http://www.microsoft.com/en-us/download/details.aspx?id=10121
(SAPI) -> glaube das ist schon etwas älter... vll gibt es da noch besseres, neueres bzw. weiterentwickeltes...

Das ist für die allgemeingültige Frage unerheblich.

- zu dem ganzen thema "Spracherkennung" findest auch sehr viel bei google...
http://lmgtfy.com/?q=c%2B%2B+spracherkennung

Okay, also oben scheinst du dich wie ein kleines dummerchen Aufzuführen und jetzt bringst du so nen Knaller. Das wäre dann wohl ein klassisches Eigentor.
Ich bezweifle auch, dass du bei dieser Frage irgendeine Kompetenz einbringen könntest. Schreib nächstes mal besser gar nichts, wenn du dich nicht auskennst.

nman

Ich habe mal einen Prototypen für ein System gebaut, das erkennen konnte, wie weit ein Sprecher bei einem vorgegebenen Text gerade ist. Ähnlich wie bei einem Teleprompter, der auf gesprochene Sprache reagiert.

Hast du irgendwelche konkreteren Fragen? Ich glaube nicht, dass das ein 0815-Standard-Problem ist, über das es große Mengen Literatur ist, aber andererseits musst du auch nichts sehr ausgefallenes machen.

Ich habe damals einfach Dynamic Time Warping und MFCC (Mel-frequency cepstral coefficients) verwendet. Nichts aufregendes also, lief aber für einen Prototypen recht brauchbar.

Bemüh dich bei deinen Posts ein bisschen mehr; ich finde die ursprüngliche Frage auch nicht sehr gut verständlich. Der Tonfall deiner Antwort ist nicht angemessen – es ist vollkommen normal im Zweifelsfall bei unklaren Angaben nachzufragen.

nman schrieb:

Hast du irgendwelche konkreteren Fragen? Ich glaube nicht, dass das ein 0815-Standard-Problem ist, über das es große Mengen Literatur ist, aber andererseits musst du auch nichts sehr ausgefallenes machen.

Was ist daran so schwer zu verstehen, wenn ich wissen will, wie gut die Spracherkennung einen Gesprochenen Text erkennen kann (wie wär's mit Prozentwerten vielleicht) und welche Verfahren dafür heutzutage verwendet werden?

Ich habe damals einfach Dynamic Time Warping und MFCC (Mel-frequency cepstral coefficients) verwendet. Nichts aufregendes also, lief aber für einen Prototypen recht brauchbar.

Ja und welche gibt es noch?
Welche sind gut, welche hat man verworfen, da schlecht oder Sackgasse usw.?
Welche versprechen viel, benötigen aber noch Forschungsbedarf?

Genauso hätte ich fragen können, welche Audiokompression ist heute angemessen. Die Frage ist genauso eindeutig, wie die zur Spracherkennung.

Der Tonfall deiner Antwort ist nicht angemessen

Der Tonfall war die angemessene Reaktion auf das Let me Google that for you.
So nen Scheiß braucht er nicht bringen, wenn er sich nicht auskennt. Googlen kann ich auch selber und wenn er nichts beizutragen hat, den Unterschied zwischen Texterkennung und Spracherkennung nicht kennt, dann kann er es auch gleich bleiben lassen, als so nen Rotz zu bringen.

Spracherkennung schrieb:

MfG schrieb:

Spracherkennung schrieb:

Und welche Verfahren werden dafür angewendet?

Welche sind Standard und welche könnten in Zukunft die Spracherkennung verbessern?

Worin liegen die Probleme und Herausgforderungen?

- ich verstehe deine fragen nicht ganz...
- sprach- oder texterkennung? Spracherkennung von bekanntem Text? dir bekanntem text wem bekannt? überhaupt welcher text ich dachte spracherkennung?

Na Text den man aufsagt.

Hätte ich Texterkennung gemeint, dann hätte ich das geschrieben.
Spracherkennung ist eindeutig.

- denke mal sicher du willst ins mikro sprechen und dein pc soll es auf konsole ausgeben oder dir antworten oder sowas... also ähnlich beim handy...

Nein, natürlich nicht.
Wenn er das nur wiedergibt, wie ich es reingesprochen habe, dann hat das nichts mit Spracherkennung zu tun. Das wäre simples aufzeichnen und wiedergeben.

Was ich meine ist Spracherkennung, guck mal in die Wikipedia. Der Begriff ist gut definiert.

Aber ich erklär dir das mal in Kurz Form.
Wenn du ins Mikro sprichst, dann hat die Spracherkennungssoftware die Aufgabe das Gesprochene zu analysieren und den darin gesprochenen Text zu erfassen und zu erkennen.
Was danach kommt, ist für die Frage unerheblich. Und wenn der Compute den Text dann wieder mit eigenen Worten ausgeben müsste, dann wäre das Sprachsynthese.

- aber ich hab dir doch genau auf spracherkennung geantwortet ...

- ich habe nicht geschrieben "er gibt es wieder wie du es rein gesprochen hast?" wie kommst du darauf?
- ich habe geschrieben er gibt es auf der konsole aus oder antwortet dir...!!
--> dazu müsste er vorher "erkennen"
- du hast mich ja sogar zitiert dann lies doch bitte richtig! genau das habe ich gemeint!!

- wikipedia spracherkennung: "Die Spracherkennung ist zu unterscheiden von der Stimm- bzw. Sprechererkennung, einem biometrischen Verfahren zur Personenidentifikation. Allerdings ähneln sich die Realisierungen dieser Verfahren."
http://de.wikipedia.org/wiki/Spracherkennung

- aber ich bin ein kleines dummerchen ohne kompetenz und erfahrung der dir absofort nicht weiterhilft ...

Spracherkennung schrieb:

oder hab ich dein problem falsch verstanden?

Ja, sieht wohl so aus.

- welches system willst du nutzen bzw. nutzt du?
windows: http://www.microsoft.com/en-us/download/details.aspx?id=10121
(SAPI) -> glaube das ist schon etwas älter... vll gibt es da noch besseres, neueres bzw. weiterentwickeltes...

Das ist für die allgemeingültige Frage unerheblich.

- zu dem ganzen thema "Spracherkennung" findest auch sehr viel bei google...
http://lmgtfy.com/?q=c%2B%2B+spracherkennung

Okay, also oben scheinst du dich wie ein kleines dummerchen Aufzuführen und jetzt bringst du so nen Knaller. Das wäre dann wohl ein klassisches Eigentor.
Ich bezweifle auch, dass du bei dieser Frage irgendeine Kompetenz einbringen könntest. Schreib nächstes mal besser gar nichts, wenn du dich nicht auskennst.

- nein habe ich nicht, weiß nicht wie du darauf kommst... hab dir doch konkret auf spracherkennung geantwortet, hast du dir das nichtmal durchgelesen oder was?

- soetwas ist systemabhänig... du fragst nach konrekten lösungsansätzen ...(Verfahren) ich dir ein link zu einem SAPI-SDK was unter Windows zur Spracherkennung benutzt werden kann...!!
- das ist nicht "unerheblich" da gibt es unterschieder der "Verfahren" je System...
hast nichmal den link angeschaut?`
- was für eine "allgemeingültige frage" meinst du? -> ich habe einen teil deiner fragen genau beantwortet!(z.B. siehe SAPI-SDK) die sind auch NICHT allgemeingültig wenn man das überhaupt so sagen kann... :p

- "ein kleines dummerchen", "ohne kompetenz" das dir ab jetzt nicht weiterhilft! :p
- das ist ja eine frechheit hoch 10...
- was denkst du wer du bist...?
- du stellst eine ungenau frage, an der man sieht das du einfach zu faul bist dich selber ins thema einzulesen...
- glaubst du da kau ich dir alles vor... ? und da hab ich dir schon einen riesen knochen hingeworfen... (siehe SAPI-Link)

- du machst für mich eher den eindruck als hättest du keine kompetenzen... ich habe dir konkrete verfahren unter windows geliefert und dir sogar nich ein SDK link, mit doku und allem rausgesuch... aber wenn dir das nicht reicht pech! wa shast du denn erwartet nach deiner ungenauen und einfach anfängerhaft gestellten frage...? und genau dementsprechen werden auch deine programmier oder computer kenntnisse sein...!
und dann noch leuten die dir helfen wollen so antworten... wenn du alles besser weißt machs alleine, auf son klugscheißer hab ich keinen bock...
- ich helf dir auf die tour nicht weiter ,ist ja ne frechheit...

Spracherkennung schrieb:

nman schrieb:

Hast du irgendwelche konkreteren Fragen? Ich glaube nicht, dass das ein 0815-Standard-Problem ist, über das es große Mengen Literatur ist, aber andererseits musst du auch nichts sehr ausgefallenes machen.

Was ist daran so schwer zu verstehen, wenn ich wissen will, wie gut die Spracherkennung einen Gesprochenen Text erkennen kann (wie wär's mit Prozentwerten vielleicht) und welche Verfahren dafür heutzutage verwendet werden?

Ich habe damals einfach Dynamic Time Warping und MFCC (Mel-frequency cepstral coefficients) verwendet. Nichts aufregendes also, lief aber für einen Prototypen recht brauchbar.

Ja und welche gibt es noch?
Welche sind gut, welche hat man verworfen, da schlecht oder Sackgasse usw.?
Welche versprechen viel, benötigen aber noch Forschungsbedarf?

Genauso hätte ich fragen können, welche Audiokompression ist heute angemessen. Die Frage ist genauso eindeutig, wie die zur Spracherkennung.

Der Tonfall deiner Antwort ist nicht angemessen

Der Tonfall war die angemessene Reaktion auf das Let me Google that for you.
So nen Scheiß braucht er nicht bringen, wenn er sich nicht auskennt. Googlen kann ich auch selber und wenn er nichts beizutragen hat, den Unterschied zwischen Texterkennung und Spracherkennung nicht kennt, dann kann er es auch gleich bleiben lassen, als so nen Rotz zu bringen.

- ein spracherkennungsverfahren unter windows -> SAPI (SDK-C++)
- ließ deine gestellte frage danach hast du nicht gefragt! nicht mal richtig fragen kannst du :p

- omg eine "audiokompression" ist was ganz anderes... ich denke mal du hast ja mal 0 ahnung und ließt dich erstmal ins gesamte thema ein...!

- wer von uns beiden kennt sich nicht aus und fragt?
- du oder ich? ich habe dir geantwortet wie ich jetzt feststelle ein fataler fehler... du bist einfach ein troll...
-> ich habe dir auch noch einen link zu einem Spracherkkenungs SDK unter windows mit doku und allem geschickt und deine fragen beantwortet...
- wenn deine fragestellung auf mich den eindruck macht du bist zu faul oder zu blöd zum googeln dann bekommst son link (denke wahrscheinlich beides :p )

- und dann die Leute die dir helfen wollen auch immer so "frech" anzugehen... so werden dir bestimmt nur sehr wenige helfen, wenn überhaupt jemand auf deine ungenau gestellte frage antwortet... beleidigst du ja die leute noch die sich erbarmen...

- ich werde dir ab jetzt nich mehr helfen... du scheinst selber nichtmal zuwissen nach was du fragst... zeugt von enormer kompetenz ...
- aber du weißt ja eh alles besser also mach dein ding
ärgert mich schon das ich überhaupt hier zeit verschwende...

nman

Spracherkennung schrieb:

Was ist daran so schwer zu verstehen, wenn ich wissen will, wie gut die Spracherkennung einen Gesprochenen Text erkennen kann (wie wär's mit Prozentwerten vielleicht) und welche Verfahren dafür heutzutage verwendet werden?

Was ist für dich "bekannter Text"? Hast du nirgends erklärt oder definiert. Prozentwerte… Das ist alles sehr kompliziert, es wird nicht eine Metrik geben, die dir perfekt erklärt, wie gut sowas funktioniert. Klar könnte ich mir jetzt irgendeinen Accuracy-Wert aus den Fingern saugen, den ich irgendwann mal hatte, aber das hängt doch auch vom User, vom Training und vom Text ab.

Ja und welche gibt es noch?
Welche sind gut, welche hat man verworfen, da schlecht oder Sackgasse usw.?
Welche versprechen viel, benötigen aber noch Forschungsbedarf?

Wie wäre es, wenn du dir einfach ein paar Papers zum Thema suchst? Vielleicht irgendein Fachbuch? Das brauchbar zusammenzufassen ist mehr Arbeit, als ich in einen x-beliebigen Thread investieren wollen würde. Mal ganz abgesehen davon, dass es vmtl. auch insgesamt relativ wenige Leute gibt, die dir die Frage seriös beantworten können.

Genauso hätte ich fragen können, welche Audiokompression ist heute angemessen. Die Frage ist genauso eindeutig, wie die zur Spracherkennung.

Ja, weil auch da ziemlich unklar ist, was du machen möchtest. Studioaufnahmen verlustfrei archivieren? Musik auf deinen iPod schieben? Große Mengen von Sitzungsprotokollen ablegen? Audio-Messdaten mit sehr spezifischen Charakteristika und Anforderungen auf Embedded-Hardware verarbeiten?

So nen Scheiß braucht er nicht bringen, wenn er sich nicht auskennt. Googlen kann ich auch selber und wenn er nichts beizutragen hat, den Unterschied zwischen Texterkennung und Spracherkennung nicht kennt, dann kann er es auch gleich bleiben lassen, als so nen Rotz zu bringen.

Nur wird dir auch niemand antworten wollen, der sich gut auskennt, wenn du im Rest des Threads gleich so ausfällig wirst.

randa

man merkt halt den Unwillen der Antwortenden, die Frage verstehen zu wollen und eine halbwegs passende Antwort zu geben. Tipp: "Ist alles sehr komplex" und "hängt vom System ab" gehören nicht dazu.

wenn ihr schon Klugscheißt und so-tut-als-ob habt wenigstens den Anstand ne gute Show hinzulegen. So ein Mist hier.

nman

randa: Wenn du es besser weißt, erklär doch mal, was mit der "Erkennung von _bekanntem_ Text" gemeint ist. Ich habe nämlich ehrlich keine Ahnung. Das ist kein Klugscheißen, sondern eine ganz einfache Feststellung und auf die entsprechende Rückfrage habe ich bis jetzt keine Antwort gesehen.

nman

randa schrieb:

Tipp: "Ist alles sehr komplex" und "hängt vom System ab" gehören nicht dazu.

Btw, wer damit rechnet, dass es eine simple Antwort à la "88.4-92.3% Genauigkeit" gibt, hat schlicht und ergreifend keine Ahnung davon, wie Machine Learning funktioniert.

Wenn der Text bekannt ist, ist die Erkennungsquote 100%.

Spracherkennung schrieb:

Und welche Verfahren werden dafür angewendet?

Welche sind Standard und welche könnten in Zukunft die Spracherkennung verbessern?

Worin liegen die Probleme und Herausgforderungen?

das hört sich wie eine hausaufgabe an.

nman

also... schrieb:

das hört sich wie eine hausaufgabe an.

Ja, wobei der Hausaufgabengeber vmtl. nur ein bisschen mehr Ahnung vom Thema hatte als der OP.

randa schrieb:

man merkt halt den Unwillen der Antwortenden, die Frage verstehen zu wollen und eine halbwegs passende Antwort zu geben. Tipp: "Ist alles sehr komplex" und "hängt vom System ab" gehören nicht dazu.

wenn ihr schon Klugscheißt und so-tut-als-ob habt wenigstens den Anstand ne gute Show hinzulegen. So ein Mist hier.

deine nachricht ist ja nur flame... nicht mal nen hinweis auf das thema...

es ist nun mal betriebssystem abhänig , sofern ich die frage richtig verstanden habe...
ich habe auch richtige links gepostet sogar einen für win-sapi-sdk...
zur erkennung von gesprochenem text...

wenn er sich das nicht mal anschaut bzw. nur trollt was soll ich da noch helfen...?

ich habe soetwas schon umgesetzt... also ich "tue-nicht-als-ob" ...
ist ja eine frechheit hier... man will helfen und wird hier dann auchnoch voll getrollt... von dir kam ja mal gar nix, da wäre ja mal die frage was hat dein post überhaupt mit der frage zu tun? ...

randa

MfG schrieb:

deine nachricht ist ja nur flame

nein. Aber manche der Antworten an OP grenzen an flame. Kenn das Forum seit 2004 und es ist immer derselbe bullshit und nichtmal clever versteckt: Leute die keine vollständige Antwort geben weil sie nicht können oder wollen (schlimmer), fangen an den Fragesteller zu kritisieren und unhöflich zu werden.

randa schrieb:

MfG schrieb:

deine nachricht ist ja nur flame

nein. Aber manche der Antworten an OP grenzen an flame. Kenn das Forum seit 2004 und es ist immer derselbe bullshit und nichtmal clever versteckt: Leute die keine vollständige Antwort geben weil sie nicht können oder wollen (schlimmer), fangen an den Fragesteller zu kritisieren und unhöflich zu werden.

ich habe ihm links und hinweise gegeben , desweiteren habe ich in meinem ersten post gefragt ob ich das thema richtig verstanden habe weil mir seine fragestellung nich ganz klar war...
als antwort kam nur flame "ich hätte keine ahnung.." etc...

ich wollte hier weder unhöflich sein noch was anderes... aber ich setzt mich doch nicht hin und löse ihm hier alles oder sonst was... zumal die frage meiner meinung nach nicht auf das abzielt was er eig. wissen will ...
(aber deswegen hatte ich ja nett gefragt ... *ließ mal die antwort vom "fragesteller"*)

na ja mir egal...
ob ich nun plan habe oder nicht tipps gibt von mir keine mehr und so langsam ist mir die zeit hierfür auch zu schade...

vll erbarmst du dich ja ihm zuhelfen randa...

nochmal an alle:
ich wollte hier niemand beleidigen/kritisieren/anflamen oder sonstiges...
ich wollte nur helfen ...

Wenn man keine Ahnung von Mathematik und Informatik hat, sollten man lieber bei Masken für irgendwelche DB-Abfragen bleiben. Für die interessanten Themen braucht es nun einmal einen gewissen Background, wo der herkommt ist egal, Hauptsache das Wissen ist da.

BackTrack schrieb:

Wenn man keine Ahnung von Mathematik und Informatik hat, sollten man lieber bei Masken für irgendwelche DB-Abfragen bleiben. Für die interessanten Themen braucht es nun einmal einen gewissen Background, wo der herkommt ist egal, Hauptsache das Wissen ist da.

wenn man diese hat sollte man auf die frage antworten oder dies zumindest versuchen, sofern die fragestellung dies zulässt ...

nman

malwasanderes schrieb:

wenn man diese hat sollte man auf die frage antworten oder dies zumindest versuchen, sofern die fragestellung dies zulässt ...

Nochmal: Die Frage lässt es nicht zu.

Ich habe mir die Interpretation ausgesucht, die ich für am wahrscheinlichsten hielt, und darauf eine Antwort gegeben. Die Rückfrage dazu war extrem vage. Wenn sich der OP weniger Mühe beim Stellen der Frage gibt, als ich mir beim Verfassen der Antwort, zahlt es sich für mich einfach nicht aus zu antworten.

Besonders dann nicht, wenn ich weiß, dass ich a) ein paar kleine Romane verfassen müsste, um alle möglichen Fragen abzudecken b) einige Sachen selbst wieder recherchieren müsste (Wie gesagt, ist alles schon einige Zeit her.) und c) damit nur irgendjemandem ein bisschen zumutbare Hausaufgabe abnehmen würde.

Der OP pöbelt lieber herum, statt die Frage zu präzisieren und ein bisschen Eigeninitiative zu zeigen und auch mal selbst nach Grundlagen-Artikeln zu suchen. Das darf man natürlich unterstützen, indem man ihm die Arbeit abnimmt und seine Hausaufgabe macht, ohne ihn selbst nachdenken zu lassen oder seine Frage verstehen zu lassen. Muss man aber nicht.