mal wieder ne verrückte idee...

loki1985

hi folks!

muss euch mal wieder mit ner verrückten idee konfrontieren:

also: die idee besteht daraus, ein 3d-modell das mit skelettal animation bewegt wird, mit einer art rudimentären spracherkennung zu kombinieren, um so den kiefer und die lippen etc automatisch zu animieren. ziel: ich füttere dem ganzen eine audio-datei die etwas gesprochenes enthält, und das modell wird so animiert, dass es aussieht, als würde das modell das sprechen.

die spracherkennung wäre insofern rudimentär, dass man keine buchstaben und worte erkennen muss, sondern nur zwischen bestimmten lautformen unterscheiden muss. also das system müsste vokale und umlaute erkennen, sowie zischlaute etc.

gibt es sowas schon, habt ihr sowas ähnliches schonmal gesehen?

und was haltet ihr davon?

gruß,

---loki

golden_jubilee

Wenn du es fertig hast würde ich es mir mal angucken

loki1985

steff3 schrieb:

Wenn du es fertig hast würde ich es mir mal angucken

schon klar
könnte aber noch ein paar dekaden dauern

masterofx32

gibt es sowas schon, habt ihr sowas ähnliches schonmal gesehen?

Für den Microsoft Agent gibt es ein Tool, das das gleiche macht. Damit kann man zu Wavedateien die linguistischen Informationen automatisch oder manuell erstellen lassen, sodass der Agent dann beim Sprechen dieser Wavedatei die Lippen richtig bewegt.

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/msagent/liset_6mgk.asp

Moh

der natural voice reder hat auch so kleine lippen die sich zum vorgelesenen bewegen... weiss aber nicht ob das nur nurn kleines gimmick ist, oder natutgetreu

masterofx32

Moh schrieb:

der natural voice reder hat auch so kleine lippen die sich zum vorgelesenen bewegen... weiss aber nicht ob das nur nurn kleines gimmick ist, oder natutgetreu

Die werden ausgelöst durch die Viseme-Ereignisse, die die Sprachengine selbst auslöst. Allerdings hilft dies ja nicht viel bei der Lauterkennung in Wavestreams, denn die Sprachengine weiß ja schon über die Phoneme bescheid.

FloFri

es kommt darauf an, wie weit du mit den lippen ins detail gehen willst, wenn du als beispiel nur zwei waagerechte linien nimmst, die sich auseinander und zusammen bewegen würde schon die erkennung ob ein ton da ist oder nicht ausreichen (dann währen die linien (=lippen) aus einander, wenn ein ton da ist oder zusammen, wenn keiner da ist (oder die lautstärke unter einem bestimmten schwellwert liegt). Der Vorteil ist, dass es nicht zu schwer sein sollte, so etwas zu realisieren. Der Nachteil ist halt, dass du keine echte lauterkennung hast, da die lippen zum beispiel auch bei einem m aus einander gehen und sich bei einem o nicht vervormen (und so weiter).

gibt es schon in diversen spielen. wird aber wohl so implementiert sein wie FloFri es beschrieben hat.

loki1985

jo, aber meine version ist schon etwas anderes. das mit der lautstärke wäre ja sehr easy.....

BigNeal

loki1985 schrieb:

gibt es sowas schon, habt ihr sowas ähnliches schonmal gesehen?

ungefähr So?
einfach in der mitte auf das Rosadings klicken und Text eingeben

mfg
BigNeal

loki1985

nee, das ist ja doof. das ist vordefiniert durch texteingabe. damit ist das wirklich nicht schwer. die schwierigkeit ist ja, von der stimme auf buchstaben zu schliessen.