Eine Audio mit Liveaudioaufnahme vergleichen

M4RC

Hallo miteinander,

wie bereits erwähnt, habe ich ja vor meine eigene Sprachsteuerung zu basteln... Ich habe mir nun die Microsoft und Sphinx Variante genauer angeschaut und festgestellt, dass das nix für mich ist, da diese Bibliotheken einfach nicht ausgereift sind. Trotz Anpassung an Stimme und selbst das beibringen von Wörtern, kann ich nicht die Wörter das Programm erkennen lassen, die es erkennen soll.
Im Endefekt wurde es mir damit zu bunt und ich hab mir Gedacht, ich machs anders

Folgendes:
Erster Gedanke: Ich dachte mir, ich stelle eine Aufnahme eines Commands grafisch (Frequenz?) dar und lasse mein Programm den Input meines Mikrofons ebenfalls grafisch darstellen! Wenn die Grafik des Befehls mit der Liveaufnahme übereinstimmt (natürlich nur grob), dann soll der Command erkannt werden.

Weiterentwicklung:
Ich kann mir vorstellen, dass es sehr Ressourcenfressend ist, eine solche Frequenzwave mit einer Aufnahme eines Commands abzugleichen. Darum habe ich mir überlegt, nehme ich mir ein paar bestimmte Punkte einer Aufnahme und shaue wie nahe sie an der Funktion der Frequenzwave liegen.

Nun, ich hätte dazu gerne mal Ideen/Anregungen oder Tipps!
Ich möchte nicht voll gegen die Wand laufen mit irgendwelchen Fehlern die für mich nicht "ersichtlich" sind (Anfänger was Audio betrifft). Was die Mathematik angeht mache ich mir da aber keine Sorgen
Was sollte ich für libs verwenden? Würde gerne auf Windows ausführen, Linux steht aber auch zur Verfügung!

Wie kann ich solch einen Livestream denn so darstellen und vergleichen? Ich suche noch deutsches Lesematerial in Form von Büchern

Marc

knivil

Ich habe mir nun die Microsoft und Sphinx Variante genauer angeschaut und festgestellt, dass das nix für mich ist, da diese Bibliotheken einfach nicht ausgereift sind

Also du hast nach 3 Tagen nix gebacken bekommen und gibst als totaler Neuling in der Spracherkennung den Bibliotheken die Schuld. Lol.

Ich suche noch deutsches Lesematerial in Form von Büchern

Das ist also das Problem. Tip: Lern Englisch.

Es gibt keine Abkuerzung. Lern programmieren, lern Englisch, lern Mathe, lern Physik! Weniger diskutieren, mehr machen! Weniger aufgeben, mehr durchhalten. http://de.wikipedia.org/wiki/Spracherkennung

hast du dich mal darüber schlau gemacht, was Sprache im Sinne der Signaltechnik überhaupt ist ?

Sprache besteht u.a. aus Vokalen und Konsonanten, wobei die Konsonanten mehr oder weniger ein durch die Mund-Topologie (Zähne, Zungenstellung, Lippen ...) gefiltertes Rauschen sind, die Vokale bestehen aus einer Grundwellen-Form (von den Stimmbändern erzeugt), die dann durch Rachen, Öffnung des Mundes usw gefilert werden. Diese Organe haben eine Filterfunktion, deren Parameter durch die Mundbewegung einstellbar ist. Das nennt man -- wer hätte das gedacht -- "Sprechen"

damit wird auch schon klar, wie man Sprache analysieren könnte: man könnte die Konsonanten von den Vokalen trennen (also Zisch-, Rausch- und Klicklaute einerseits und "tonale" Passagen andererseits), dann das Signal der "tonalen" Passagen trennen in Grundwelle und Filterung ("Formanten").

Auswahl an Stichworten, unter denen du weitere informationen finden kannst: Phoneme, Formanten, Vocoder.

M4RC

knivil schrieb:

du hast nach 3 Tagen nix gebacken bekommen und gibst als totaler Neuling in der Spracherkennung den Bibliotheken die Schuld. Lol.

Ich suche noch deutsches Lesematerial in Form von Büchern

Das ist also das Problem. Tip: Lern Englisch.

Es gibt keine Abkuerzung. Lern programmieren, lern Englisch, lern Mathe, lern Physik! Weniger diskutieren, mehr machen! Weniger aufgeben, mehr durchhalten. http://de.wikipedia.org/wiki/Spracherkennung

Haha ich geb dir ja Recht, in 3 Tagen kann man echt nicht alles kurz so überblicken.
ich habe ja wie bereits im anderen Thread erwähnt schon mit Programmieren eine gewisse Erfahrung Ich weiss dadurch auch, dass ohne Geduld nix geht! Aber ich hab das Standardproblem: Ich bekomme keine Ergebnisse zusehen. Der Grund ist ganz einfach: es gibt keine Script wo ich mir was abschauen könnte Beispielsweise PHP habe ih nur gelernt,indem ich mir Scripts angeschaut und die Funktionen gegoogelt habe...

Sprache besteht u.a. aus Vokalen und Konsonanten, wobei die Konsonanten mehr oder weniger ein durch die Mund-Topologie (Zähne, Zungenstellung, Lippen ...) gefiltertes Rauschen sind, die Vokale bestehen aus einer Grundwellen-Form (von den Stimmbändern erzeugt), die dann durch Rachen, Öffnung des Mundes usw gefilert werden. Diese Organe haben eine Filterfunktion, deren Parameter durch die Mundbewegung einstellbar ist. Das nennt man -- wer hätte das gedacht -- "Sprechen"

Schön und gut, doch wenn ich 2 Aufnahmen vergleiche, so muss kein Wort mehr aus dem Audio gebildet werden! Somit ist das Komplizierte und äußerst Fehlerhafte
"umgangen"...

Phoneme, Formanten, Vocoder

BÄÄÄÄM., sowas such ich Danke! Euch beiden!

DarkShadow44

Ich zietiere mich mal aus deinem letzten Thread:

DarkShadow44 schrieb:

Du willst ne eigene Spracherkennung programmieren, d.h. ohne Bibliothek die dir die Spracherkennung macht ?
Falls ja: Das kannst du so ziemlich vergessen, das wird nichts.

Ansonsten würd ich dir raten erstmal Programmieren zu lernen bevor du dich an sowas machst.

Genau da sind wir jetzt. Du versuchst deine eigene Spracherkennung zu schaffen.
Und glaubst dass du als einzelner Anfänger es besser machen kannst als die Profis die viele Jahre lang an ihren Spracherkennungsbibliotheken gearbeitet haben ?
Tut mir leid dich zu deillusionieren, aber das halte ich für sehr unwahrscheinlich. Und falls du es doch schaffen solltest mach dich schonmal darauf gefasst dass es Jahre dauert.

M4RC

DarkShadow44 schrieb:

Ich zietiere mich mal aus deinem letzten Thread:

DarkShadow44 schrieb:

Du willst ne eigene Spracherkennung programmieren, d.h. ohne Bibliothek die dir die Spracherkennung macht ?
Falls ja: Das kannst du so ziemlich vergessen, das wird nichts.

Ansonsten würd ich dir raten erstmal Programmieren zu lernen bevor du dich an sowas machst.

Genau da sind wir jetzt. Du versuchst deine eigene Spracherkennung zu schaffen.
Und glaubst dass du als einzelner Anfänger es besser machen kannst als die Profis die viele Jahre lang an ihren Spracherkennungsbibliotheken gearbeitet haben ?
Tut mir leid dich zu deillusionieren, aber das halte ich für sehr unwahrscheinlich. Und falls du es doch schaffen solltest mach dich schonmal darauf gefasst dass es Jahre dauert.

Danke für die Aussage Hast du schön formuliert... Ich dursuch das Web jetz mal nach Tutorials oder Beispielcode um Audio in Text umzuwandeln.. Dann seh ma weiter Dann setz ich mich daran an die alte Idee Weil ich finde meine Idee immernoch um Welten besser! (Natürlich nur für eine Sprachsteuerung aus Befehlen)...

Marc

knivil

Weil ich finde meine Idee immernoch um Welten besser!

Ich habe auch so viele Ideen fuer tolle Abenteuergeschichten, dennoch habe ich noch kein Buch geschrieben. Ideen reichen bei weitem nicht aus. Da helfen auch keine Smilies.

M4RC

knivil schrieb:

Weil ich finde meine Idee immernoch um Welten besser!

Ich habe auch so viele Ideen fuer tolle Abenteuergeschichten, dennoch habe ich noch kein Buch geschrieben. Ideen reichen bei weitem nicht aus. Da helfen auch keine Smilies.

True Story...

But

Ich suche mir immer Leute, die mir sagen: Was du machst, ist total bescheuert. Denk noch mal nach. So kommen gute Ideen zustande.
- Bettrand Piccard

knivil

Zitierte Person war naterlich auch totaler Anfaenger und er hat sich bestimmt auch nur 3 Tage auf seine Ballonreise vorbereitet. Natuerlich klappte es auf Anhieb.