Menschliche Stimme ausgeben



  • Hallo,
    ich arbeite gerade an einem Programm, welches Worte
    über einen Lautsprecher ausgeben soll. Ich kann dabei nur
    mit Frequenzen arbeiten, weshalb ich eine Liste mit folgenden
    Tonhöhen habe:

    #define NOTE_B0  31
    #define NOTE_C1  33
    #define NOTE_CS1 35
    #define NOTE_D1  37
    #define NOTE_DS1 39
    #define NOTE_E1  41
    #define NOTE_F1  44
    #define NOTE_FS1 46
    #define NOTE_G1  49
    #define NOTE_GS1 52
    #define NOTE_A1  55
    #define NOTE_AS1 58
    #define NOTE_B1  62
    #define NOTE_C2  65
    #define NOTE_CS2 69
    #define NOTE_D2  73
    #define NOTE_DS2 78
    #define NOTE_E2  82
    #define NOTE_F2  87
    #define NOTE_FS2 93
    #define NOTE_G2  98
    #define NOTE_GS2 104
    #define NOTE_A2  110
    #define NOTE_AS2 117
    #define NOTE_B2  123
    #define NOTE_C3  131
    #define NOTE_CS3 139
    #define NOTE_D3  147
    #define NOTE_DS3 156
    #define NOTE_E3  165
    #define NOTE_F3  175
    #define NOTE_FS3 185
    #define NOTE_G3  196
    #define NOTE_GS3 208
    #define NOTE_A3  220
    #define NOTE_AS3 233
    #define NOTE_B3  247
    #define NOTE_C4  262
    #define NOTE_CS4 277
    #define NOTE_D4  294
    #define NOTE_DS4 311
    #define NOTE_E4  330
    #define NOTE_F4  349
    #define NOTE_FS4 370
    #define NOTE_G4  392
    #define NOTE_GS4 415
    #define NOTE_A4  440
    #define NOTE_AS4 466
    #define NOTE_B4  494
    #define NOTE_C5  523
    #define NOTE_CS5 554
    #define NOTE_D5  587
    #define NOTE_DS5 622
    #define NOTE_E5  659
    #define NOTE_F5  698
    #define NOTE_FS5 740
    #define NOTE_G5  784
    #define NOTE_GS5 831
    #define NOTE_A5  880
    #define NOTE_AS5 932
    #define NOTE_B5  988
    #define NOTE_C6  1047
    #define NOTE_CS6 1109
    #define NOTE_D6  1175
    #define NOTE_DS6 1245
    #define NOTE_E6  1319
    #define NOTE_F6  1397
    #define NOTE_FS6 1480
    #define NOTE_G6  1568
    #define NOTE_GS6 1661
    #define NOTE_A6  1760
    #define NOTE_AS6 1865
    #define NOTE_B6  1976
    #define NOTE_C7  2093
    #define NOTE_CS7 2217
    #define NOTE_D7  2349
    #define NOTE_DS7 2489
    #define NOTE_E7  2637
    #define NOTE_F7  2794
    #define NOTE_FS7 2960
    #define NOTE_G7  3136
    #define NOTE_GS7 3322
    #define NOTE_A7  3520
    #define NOTE_AS7 3729
    #define NOTE_B7  3951
    #define NOTE_C8  4186
    #define NOTE_CS8 4435
    #define NOTE_D8  4699
    #define NOTE_DS8 4978
    

    Gibt es ein Programm oder ähnliches, womit ich einfache Wörter
    über die Tonhöhen ausgeben kann?

    0x0ERROR



  • Meinste den normalen Rechteckwellen-Beeper auf dem Board?
    Kannste mit einer Blockflöte Sprache ausgeben?



  • volkard schrieb:

    Meinste den normalen Rechteckwellen-Beeper auf dem Board?
    Kannste mit einer Blockflöte Sprache ausgeben?

    Das wird auf einer speziellen Hardware entwickelt, hatt also bis auf die
    Frequenzen nicht viel mit dem Computer zu tun.
    Wenn man theoretisch schnell genug die Töne wechselt und die
    richtigen abspielt sollte dies klappen. Gibt es ein Programm was aus
    Text/Sprache die Frequenzen erzeugt?

    0x0ERROR


  • Mod

    Erklärung: Frequenzunterschiede sind nicht (oder nicht nur), wie Klänge entstehen. Wichtig ist die Wellenform. Das siehst du ganz leicht daran, dass ein Mensch ganz einfach verschiedene Vokale mit der gleichen Tonhöhe singen kann.

    Mathematisch kann man dies auch als Mischung verschiedener Tonhöhen auffassen(das geht unter anderem über die berühmte Fouriertransformation). Es bleibt jedoch die wichtige Erkenntnis, dass du über verschiedene Tonhöhen ein und des gleichen Klangs eben immer nur den gleichen Klang in unterschiedlichen Tonhöhen erhältst. Eine Mischung ist nötig. Theoretisch geht auch ein sehr, sehr schneller Wechsel deiner Tonhöhen. Wenn dies jedoch, wie volkard wohl richtig vermutet, sich um den internen Lautsprecher deines PCs dreht, dann sind beide Ansätze unmöglich. Der Piepser hat bloß einen einfachen Sinusgenerator dahinter, dieser kann bloß eine bestimmte Sinuswelle gleichzeitig erzeugen. Mit schnellen Frequenzwechseln kannst du eventuell etwas erreichen, was dann wie eine 1 Bit Aufnahme mit 1000 Hz Samplingrate klingt (d.h. kaum erkennbar). So wie die "Motorengeräusche" und Musik hier:
    http://www.youtube.com/watch?v=wyXBESSgakM
    Solche Klänge sind dann jedoch nicht mehr programmiert, sondern aufgezeichnet und eben in der Qualität auf die Fähigkeiten des PC-Lautsprechers angepasst.



  • 0x0ERROR schrieb:

    Gibt es ein Programm was aus
    Text/Sprache die Frequenzen erzeugt?

    Microsoft SAM, espeak, http://www.youtube.com/watch?v=yLxP3V4veJk
    Aber ich fürchte, die erzeugen nicht Deine Frequenzen, sondern machen aus dem Text erst eine Liste von Lauten und spielen dann die Laute nacheinander als mp3- oder wav-samples ab.



  • 0x0ERROR schrieb:

    ich arbeite gerade an einem Programm, welches Worte
    über einen Lautsprecher ausgeben soll. Ich kann dabei nur
    mit Frequenzen arbeiten, weshalb ich eine Liste mit folgenden
    Tonhöhen habe:

    #define NOTE_B0  31
    #define NOTE_C1  33
    #define NOTE_CS1 35
    [...]
    #define NOTE_CS8 4435
    #define NOTE_D8  4699
    #define NOTE_DS8 4978
    

    Gibt es ein Programm oder ähnliches, womit ich einfache Wörter
    über die Tonhöhen ausgeben kann?

    Was heißt "ich kann dabei nur mit Frequenzen arbeiten" genau?!

    Menschliche Sprache setzt sich eigentlich nur aus zwei Komponenten zusammen. Bei stimmhaften Klängen (z.b. "aaaa", "oooo", ...) gibt es einen Grundton einer bestimmten Frequenz und viele Obertöne. Da die Frequenzen alle ein Vielfaches der Grundtonfrequenz sind, ist das dann ein periodisches Signal, eine sich wiederholende Wellenform. Bei Zischlauten (sch, ß, ch) ist es eher ein Rauschen, da wiederholt sich nichts. Jetzt bleibt eigentlich nur noch die Frage, wie man ein "a" von einem "o" oder ein "sch" von einem "ß" unterscheiden kann. Und hier kommt die "Klangfarbe" ins Spiel. Das ist so ähnlich wie beim Farbsehen auch. Strahlt eine Lichtquelle breitbandig, nehmen wir das als weißes Licht wahr, da sind dann eben tiefe, mittlere und hohe Frequenzen gleich stark enthalten. Bei Klängen kann man auch von Färbungen sprechen. Weißes Rauschen enthält alle Frequenzen gleich stark. Bei Rosa und braunem Rauschen sind die tiefen Frequenzen stärker vertreten Bei blauem Rauschen sind die hohen Frequenzen stärker vertreten. Aber unser Gehör ist da ein bisschen wählerischer als unser Auge. Die Sprach-CoDecs wie LPC10, CELP, Speex verwenden etwa 10 statt nur 3 Parameter um die Klangfarbe zu speichern. Parametrische Sprachsynthese funktioniert jetzt so, dass man ein weißes Rauschen (für Zischlaute) oder "weißes Brummen" (für stimmhafte Teile, der Grundton und die Obertöne haben alle die gleiche Amplitude) generiert und dies dann durch ein Färbungs-Filter schickt, der dem Klang die richtige Farbe verleiht.


Anmelden zum Antworten