Suche dringend guten C++-Programmierer

DocJunioR

Seid mal nich so gemein.
Ne Spracherkennung ist heutzutage auch nicht mehr sooo das Problem.
Man muss sich nur mal nen Kopf über die Architektur des Netzes machen..

geht man beispielsweise davon aus, dass man für ein Wort eine Sekunde baucht,hat man ca 3000 (glaube, das braucht nichtmal soviel) Eingangsneuronen und 50 Ausgänge in nem simplen Perzeptron.
dürfte so kompliziert auch nicht sein...

cYa
DjR

volkard

Original erstellt von DocJunioR:
geht man beispielsweise davon aus, dass man für ein Wort eine Sekunde baucht,hat man ca 3000 (glaube, das braucht nichtmal soviel) Eingangsneuronen und 50 Ausgänge in nem simplen Perzeptron.

Ihgitt, keine Fourier-Analyse, kein ordentliches Netz, einfach wav-dateien lesen.
Aber hast recht. Perzeptron nehmen, auf den simplen Lautstärkenverlauf loslassen, und mal gucken, ob was rauskommt. Na, die 50 Wörter, die man zum lernen benutzt, wird es schon auswendig lernen können.

DocJunioR

eben

Mal abgesehendavon besitzt die menschliche Sprache nur 46 gängige phonems..
Da noch n Suchbaum ran und viel Spaß

RenéG

Was für ein Betriebssystem?
Was für ein Eingang (Datei/Soundkarte)?
Was für eine Abtastrate und Bittiefe ?
Was für neuronale Netze?
Von wieviel Personen?

Zuviele ungeklärte Fragen!

stef

@DocJunioR

Hi klingt interessant was du erzählst. Kennst du gerade einen guten Link wo das genauer erklärt wird. würde mich mal interessieren.

Danke

[ Dieser Beitrag wurde am 03.10.2002 um 19:44 Uhr von stef editiert. ]

DocJunioR

sorry, hab ich nicht. aber schau Dich doch mal bei den ganzen Unis um. Es gibt Tonnenweise Texte dazu.
Zu den Phonems ist noch zu sagen, dass die selten alle die gleiche Länge haben.

Unix-Tom

Selbst so ein Programm schreiben nach der Codererfahrung ?

Was glaubst du wie lange Philips Speech Processing für seine Spracherkennungssoftware gebraucht hat! (SPEECHPERL)

Kann nur ein Scherz sein. Wie lange dauert so eine Schule. 20 Jahre !

Naja, Du vergisst aber, dass das erste Telefon erst nach 5 Jahren funktionierte. Inzwischen baut man eins in 5 Minuten zusammen..

Guenni

Auch ich denke, Nadine_R, daß du deinen Prof. alleine mit der
Beschreibung der technischen Problematik(en) und des wissenschaft-
lichen Background locker über 500 Seiten Papier zusammen schreiben
könntest, ohne auch nur eine einzige Zeile C/C++ gecodet zu haben !

Wie ein Vorredner in diesem Forum bereits sagte:
Wie lange glaubst du, haben Philips Speech, Siemens, IBM und Konsorten
daran getüftelt ???

Bereits ca. 1996 hat IBM mit großem Anfangserfolg ihre Software
"IBM-ViaVoice" auf der CeBit vorgestellt.
Sie ist bereits in mehreren Versionen und Updates für ca. 100 Eier
("EUROs") auf dem Markt, und trotzdem ist bis heute (07.10.2002)
die Eingabe per Sprache noch eher selten. Woran liegt das wohl ?

Habe vor einiger eine Software bei jemanden installiert, die auf dem
Prinzip von ViaVoice aufsetzt, aber das Ganze in Chinesisch (!) er-
ledigt. Ging auch nicht besser oder schlechter als in Deutsch.
(Chinesisch zu schreiben für einen deutschen/europäischen/amerikanischen
Computer ist eh' schon ein Problem ...), aber auch noch "Sprache" ????

Bzw. um zu erkennen, ob der Rechner bzw. die Software die gesprochenen
Sätze auch sauber und KORREKT erkennt. Als Kontrolle dient dann dazu,
daß er die erkannten Worte/Sätze auch auf den Bildschirm schreibt.

Ohne einen "Schnellkurs" für die Software geht da gar nichts:
als Erstes müssen ca. 30 Sätze von einem Menschen gesprochen werden,
damit die Software sich überhaupt zur Zusammenarbeit überreden lässt,
für das "endgültige" Training müssen dann nochmals 150 Sätze SAUBER und DEUTLICH, also ohne irgendwelche Akzente, Sprachbesonderheiten usw. usf. von einem am Bildschirm dargestellten Satz reingesprochen werden.
Und wehe, der User ist etwa ein österreichischer Hinterwäldler,
ein sympathischer Schweizer mit einem schönen Schwyzerdütsch, Franzose mit
leicht frankophilem Akzent, auch ein Ostfriese, Sachse, Hesse (erbarme --
die H. komme), Fraonke oder Schwaaobe haben da gleich ausgespielt und gelooost.

Und dann muß dieses Sprachprofil für jeden User separat angelegt werden!
Glaub bloß nicht, daß dann, wenn ein solches System existiert, und er
ein Profil von einem User XY hat, daß DU dann auch gleich so ohne weiteres
rein sprechen könntest --- neeeeh, meine Liebe, iss nich...

Selbst NACH diesem Training und aller Voraussetzungen bleibt eine Erkennungs-
quote von ca. 95% bis max. 98%; mit anderen Worten: wenigstens 2%, häufig
aber sogar mehr, bis zu 5% (es können auch mal' 10% sein) werden von den
gesprochen Worten NICHT erkannt. Und nun kommst du ...

Denn wenn das Alles sooo einfach wäre, dann wäre heute ja die
Raumschiff Enterprice - Science-Fiction bereits Realität und wir
würden mit Warp-Geschwindigkeit in's All abdüsen ...

Und du möchstest sicherlich auch noch gleich die Sinn-Erkennung der
eingesprochen gelöst wissen, wie ?
Mir scheint, als ob euer "Prof" von Tuten und Blasen keine Ahnung hat!
Wie heißt denn dieser tolle Prof, der sich mit einem solchen Titel
an eurer FH f. Wirtschaft und Technik in Berlin schmücken darf ??
Denn möchte ich nun gerne doch einmal kennen lernen. (Ehrlich)

Bevor du jedoch jetzt ganz verzagst, geb' ich dir mal' 'nen Tipp:
Gehe doch mal' in ein großes Krankenhaus oder Universitätsklinikum
und frage doch einmal die Ärzte, die viele Arztberichte und medizi-
nischen Arbeiten einzugeben, zu diktieren oder zu schreiben haben.
Dort hat sich (aus meiner eigenen Erfahrung) sehr schnell ein Bedarf
nach solchen System(en) herausgestellt. Insbesondere, wenn die Ärzte damit
die Hände frei vom Tippen oder vom Diktiergerät haben, und sich aus-
schließlich der Beschreibung der medizin. Diagnose konzentrieren
können. Hier solltest du die Ärzte nach ihren Erfahrungen fragen, ob
und wenn ja, welche Systeme die Ärzte nutzen bzw. getestet haben,
und wie ihre Erfahrungen mit Spracheingabe-Erkennungs-Systemen sind.

Und du willst diese gesamte Problematik in einem Semester mit
max. 6 Monaten erschlagen und auflösen ("hinkriegen") ?!

P.S Als Trostpflaster darfst du gerne für deine Arbeit/Brief an den
Prof. diesen Text hier mit meiner ausdrücklichen Erlaubnis abtippen
und verwenden.

Gruß, Günni

P.S. Den Namen und die Vorlesungen dieses Profs sind so interessant,
daß ich und vielleicht die ganze Community hier dessen Vorlesungen
zu "Studienzwecken" mal aufsuchen und sich auf dessen wissenschaftliches
Niveau begeben wollen.

Gregor

BTW : http://verbmobil.dfki.de/

...weil es hier gerade ganz gut paßt.

[ Dieser Beitrag wurde am 08.10.2002 um 00:36 Uhr von Gregor editiert. ]