Bemerkbarer Qualitätsverlust bei Audio und Video nach Komprimierung?

Antoras

Hallo,

ich frag mich schon länger was eigentlich die Unterschiede in der Qualität von Audio- und Videodaten sind, nachdem diese komprimiert wurden. Kann man da im Vergleich zu unkomprimierten Daten einen Unterschied sehen/hören?

Es gibt z.B. verschiedene Codecs für Blu-ray (was ich gesehen hab wurden bei einem Film einmal ca. 15GB und einmal 50GB verbraucht - bei gleicher Auflösung). Genau das gleiche unter Audiodateien, da gibt es z.B. MP3 und FLAC, wobei letzteres einen immens höheren Speicherverbrauch hat. Laut Wikipedia "bedient sich [MP3] dabei der Psychoakustik mit dem Ziel, nur für den Menschen bewusst hörbare Audiosignale zu speichern", was eigentlich heißen sollte, dass man keine Unterschiede hören sollte.

Dennoch sind unkomprimierte Daten weit verbreitet - aber warum? Bei besonders guten Bildschirmen, Boxen etc., kann man da doch qualitativ größere Unterschiede wahrnehmen?

Minimee

Es gibt halt immer Freaks die behaupten sie würden den Unterschied hören. Das sind dann die Leute die auch 1000€ für ein 3m langes Lautsprecherkabel ausgeben.

zwutz

Solange du keine Anlange im Gegenwert eines Kleinwagens daheim rumstehen hast, wirst du kaum einen Unterschied merken

Fincki

Man muss zwischen verlustbehaftet komprimiert, verlustfrei komprimiert und unkomprimiert unterscheiden.

Unkomprimierte (z. B. WAVE) und verlustfrei komprimierte Musikdateien (z. B. FLAC) eignen sich gut, um daraus immer wieder verlustbehaftete komprimierte Dateien (z. B. MP3, Ogg Vorbis) zu erstellen. Verlustbehaftet komprimierte Dateien eignen sich nicht gut zum erneuten encoden.

volkard

Minimee schrieb:

Es gibt halt immer Freaks die behaupten sie würden den Unterschied hören. Das sind dann die Leute die auch 1000€ für ein 3m langes Lautsprecherkabel ausgeben.

Wenn es bloß das wäre...
Ich nenne mal 500€ für 15m HDMI-Kabel mit goldbeschichteten Kontakten.

Mit dem Komprimieren ist das so eine Sache...
Packt man zum Beispiel zu mp3 mit 128k oder weniger, dann scheppert das bei manchen Stücken schon hörbar bis grausam. Ohne Not, wie ich finde. Man kann den Leuten aber nicht begreiflich machen, daß man zwar gerne packen kann, aber dabei keinesfalls knausern darf und auch keineswegs knausern muß, es ist doch auch bei extrem freizügigen Einstellungen noch viel kleiner als ungepackt. Mit 160k habe ich noch kein Scheppern oder Wummern gehört, glaube ich. Also würde ich defensiv 192 nehmen.

nachtfeuer

Man kann schon dadurch Speicherplatz sparen, in dem man z.B. ein Audiofile einfach in niedriger Bitrate oder Samplingrate übersetzt.

Sagen wir mal, du nimmst mit 16 Bit Datenbreite und 44 khz Abtastrate auf.
Das Ergebnis ist zu groß zum Speichern auf kleinere Datenträger.

Damit es auf kleinere Datenträger draufpasst, rechnest du das File auf 2 Bit Datenbreite und 500 Hz Abtastrate herunter.

Kann man unter diesen Bedingungen nicht in seiner Vorstellung (in etwa) "sehen" bzw. "hören", was hinterher herauskommen könnte?

Ein großes Problem bei Komprimierverfahren sind die Codecs und Algorithmen. Man braucht immer auch Übersetzer, und man kann nie sagen, welches neue Kodierverfahren sich demnächst durchsetzt, oder wie teuer das wird. Es war eine zeitlang z.B. gar nicht so einfach, brauchbaren DVD-Player für unterschiedliche Divx Versionen zu bekommen. Ein Hardwaregerät müsste intelligent herausfinden können, was für ein Format vorliegt, im Internet recherchieren und den Algo nachinstallieren.

Und man kann auf Youtubevideos sehr gut Unterschiede in Bild-und Soundqualität wahrnehmen, selbst auf normalen Notebooks mit normalquali Bildschirmen und Lowlowquali Lautsprechern (Desktoplautsprecher sind in aller Regel auch nicht so toll).
Wenn man Youtubevideos mit Kopfhören anhört, hört man die Unterschiede allerdings wesentlich deutlicher.

Etwas besonders ärgerliches hatte ich mal im Spiel Morrorwind gehört. Es gab einen Sound, der das Anschwappen von Wasserwellen darstellen sollte, aber es gab nur ein Klick. Also statt Schwapp immer (leichtes digitales) Klick.
Klick.....Klick.....Klick....Klick....Klick....Klick, es war aber kein Datenfilefehltklick, vermutlich ein (Herunter-oder wieder und wieder Um-) Verrechnungsfehlerschwappklick).

volkard

nachtfeuer schrieb:

Sagen wir mal, du nimmst mit 16 Bit Datenbreite und 44 khz Abtastrate auf.
Das Ergebnis ist zu groß zum Speichern auf kleinere Datenträger.

Damit es auf kleinere Datenträger draufpasst, rechnest du das File auf 2 Bit Datenbreite und 500 Hz Abtastrate herunter.

Und dabei ist heute gar nicht der 1. April.

Antoras

nachtfeuer schrieb:

Und man kann auf Youtubevideos sehr gut Unterschiede in Bild-und Soundqualität wahrnehmen, selbst auf normalen Notebooks mit normalquali Bildschirmen und Lowlowquali Lautsprechern (Desktoplautsprecher sind in aller Regel auch nicht so toll).
Wenn man Youtubevideos mit Kopfhören anhört, hört man die Unterschiede allerdings wesentlich deutlicher.

Die Videos sind aber auch besonders stark komprimiert. Dass die mit dem Originalmaterial nicht mithalten können ist klar. Mir geht es auch mehr um MP3 ab 200kbps gegenüber FLAC. Hab nämlich erst letztens MP3s mit ca. 220kbps gekauft und war dann auch erst verwundert warum die Bitrate so "niedrig" ist. Nachdem ich sie angehört und daran dann auch nichts auszusetzen hatte wollte ich mir Gewissheit holen ob das wirklich ausreichend ist oder ob meine Ohren/Kopfhörer kaputt sind.

Eine 50GB Blu-ray hab ich noch nie angeguckt aber bei denen mit nur 15GB (und auch deutlich weniger) hat mich die Bildqualität noch nie gestört.

zwutz

nachtfeuer schrieb:

Kann man unter diesen Bedingungen nicht in seiner Vorstellung (in etwa) "sehen" bzw. "hören", was hinterher herauskommen könnte?

ziemlicher Mist.

Bei reiner Sprache kann man noch auf 8 kHz runtergehen, wie es afaik Telefone machen. Für Musik müssen es aber die 44 kHz sein

Und 2 Bit? Damit könntest du nichtmal ein Xylophon abbilden

nachtfeuer

zwutz schrieb:

Und 2 Bit? Damit könntest du nichtmal ein Xylophon abbilden

Man kann Rechtecke und Sinuswellen damit abbilden, und das reicht auch für die Vorstellung. Inwieweit sich hörbare Unterschiede bei unterschiedlichen Kompressionsraten bei Mp3s ergeben, das kann man hier nicht diskutieren, man muß es hören und das kann jeder selbst ausprobieren - hängt nicht zuletzt auch von Quellmaterial, Abhöre und Hörgewohnheiten wie Hörvorlieben usw. ab.

SeppJ

nachtfeuer schrieb:

zwutz schrieb:

Und 2 Bit? Damit könntest du nichtmal ein Xylophon abbilden

Man kann Rechtecke und Sinuswellen damit abbilden, und das reicht auch für die Vorstellung. Inwieweit sich hörbare Unterschiede bei unterschiedlichen Kompressionsraten bei Mp3s ergeben, das kann man hier nicht diskutieren, man muß es hören und das kann jeder selbst ausprobieren - hängt nicht zuletzt auch von Quellmaterial, Abhöre und Hörgewohnheiten wie Hörvorlieben usw. ab.

Eben keine guten Sinuswellen, nur Rechtecke. Extrapolier mal im Kopf das Klangerlebnis von 8-Bit (frühe Spielkonsolen der 80er, z.B. NES, aber nicht mehr SNES) über 4 (erster Gameboy) zu 2 Bit.

edit: Ja, es würde natürlich reichen, um damit alle Töne abspielen zu können, aber das "Instrument" welches man hören würde wäre ähnlich wie dieses (1Bit):
http://en.wikipedia.org/wiki/File:Square_wave_1000.ogg
Und da die Wellenform bei der Sprache wichtig ist, um die Vokale zu unterscheiden, wäre das für Sprache zu wenig.

edit2: Und ich sehe gerade: 500 Hz Abtastfrequenz? Vergiss die obige Bemerkung darüber, dass man alle Töne spielen könnte. Da ist maximale Tonfrequenz 250 Hz. Das reicht noch nicht einmal für Hänschen Klein in c-Dur. Ich glaube, dir beliebt zu scherzen!

audacia

volkard schrieb:

Packt man zum Beispiel zu mp3 mit 128k oder weniger, dann scheppert das bei manchen Stücken schon hörbar bis grausam. Ohne Not, wie ich finde. Man kann den Leuten aber nicht begreiflich machen, daß man zwar gerne packen kann, aber dabei keinesfalls knausern darf und auch keineswegs knausern muß, es ist doch auch bei extrem freizügigen Einstellungen noch viel kleiner als ungepackt. Mit 160k habe ich noch kein Scheppern oder Wummern gehört, glaube ich. Also würde ich defensiv 192 nehmen.

Kann ich so bestätigen. Bei einem modernen Encoder und Bitraten oberhalb von 192kBit/s wirst du Schwierigkeiten haben, irgendwelche Unterschiede zu finden, gleich welcher Codec.

Das heißt natürlich nicht, daß es keine Unterschiede gäbe. Die gängigen Audiocodecs gehen im Prinzip alle so vor: das Signal wird grob in fixe Zeitintervalle ("Frames") unterteilt, die fouriertransformiert und dann im Frequenzraum psychoakustisch "bearbeitet" werden - praktisch eine Short-Time Fourier Transformation, STFT. (Tatsächlich arbeiten die meisten Encoder mit einer modifizierten diskreten Cosinustransformation, MDCT, die auf einfache Art die Stetigkeit des Signals gewährleistet, im Prinzip aber genauso vorgeht.)

Das psychoakustische Modell, das dem Codec zugrundeliegt, sagt etwas darüber aus, wie gut der Mensch bei welchen Frequenzen differenzieren kann, und berücksichtigt Dinge wie den Verdeckungseffekt (grob gesagt: lautes Signal bei Frequenz f macht halb so lautes Signal bei Frequenz 2/3**f* unwahrnehmbar). Es erlaubt dem Encoder also, gewisse Frequenzanteile mit geringerer Genauigkeit zu speichern oder ganz wegzulassen. Das spart schonmal eine Menge Daten. Dann besteht bei Audiodaten natürlich per se eine gewisse Redundanz (was man u.a. daran sieht, daß verlustfreie Encoder wie FLAC in der Regel Kompressionsraten von 50% oder besser erreichen), so daß das Restsignal auch gerne noch durch einen Huffman-Codierer geschickt wird. Der Decoder setzt die Frequenzanteile mittels inverser STFT (bzw. iMDCT) wieder zusammen.

Das Problem ist nun, daß die Fourier-Transformation keine Zeitlokalität besitzt. Das Audiosignal ist eine Funktion Zeit->Amplitude, die Repräsentation im Fourier-Raum allerdings ist eine Frequenz->Amplitude-Zuordnung. Die FT sagt dir, welche Frequenzen im Signal vorkommen, aber nicht wann. Da die Frequenzanteile sich natürlich mit der Zeit ändern, muß man eben zuerst diese Zerstückelung in Frames vornehmen. Damit handelt man sich aber verschiedene Probleme ein. Einerseits hast du innerhalb dieser Frames natürlich keine Zeitlokalität. Andererseits fällt die Wahl der Framegröße pauschal für alle enthaltenen Frequenzen eine Entscheidung über die Auflösung: je kürzer das Intervall, desto geringer ist die Frequenzauflösung, und desto größer die Nebenwirkungen der psychoakustischen Anpassungen.

Das herkömmliche, omnipräsente Audiosignal (die CD speichert es per PCM ab, der Media-Player zeigt es an etc.) ist die einfachstmögliche Beschreibung von Schall: es beschreibt die Bewegung des Lautsprecherkonus und damit praktisch den Verlauf der Luftoszillation. Angenommen also, du hast ein sehr kurzes, präzises Signal, z.B. irgendein Percussion-Instrument. Im Audiosignal siehst du beim Einsetzen des Signals einen steilflankigen Ausschlag. Je nach Raum (-> Echo) mag das Signal etwas weitläufiger abklingen, aber der Anstieg eines kurzen Signals ist immer steilflankig. Steilflankige Signale enthalten fast alle Frequenzen (was du auch daran merkst, daß du den meisten Percussion-Instrumenten keine Tonhöhe zuordnen kannst). Nunn stelle dir vor, du schickst das Signal in einen Encoder, der es einem Frame zuteilt, fouriertransformiert und dann per Psychoakustik gewisse Frequenzen herausnimmt. Das beeinträchtigt natürlich die Steilflankigkeit, und es kann zu einem Effekt namens "Pre-Echo" kommen, also eine Art Echo, die aber schon vor dem Einsetzen des Signals erklingt und den Hörer dadurch irritiert, daß es die Kausalität verletzt.

Dieses Problem ist natürlich derart allgegenwärtig, daß die gängigen Encoder eine variable Framebreite unterstützen - oft nur zwei, den "long mode" und den "short mode" - und für kurze, laute Signale den "short mode", für eher gleichbleibende Signale den "long mode" verwenden. Aber der Auswahlmechanismus läßt sich natürlich austricksen. Dieser Moduswechsel ist etwa schwierig, wenn du Signale beider Qualitäten überlagerst. So wirst du mit etwas Recherche auf ganze Sammlungen von Samples aus Musikstücken stoßen, die dafür bekannt sind, daß die Auswahlmechanismen mancher Encoder an ihnen scheitern; darin können dann bei konzentriertem Hören deutliche Artefakte hörbar sein.

Natürlich schmälert das im Allgemeinen den Musikgenuß nicht, da man nicht an einzelnen Artefakten in einer halbsekündigen Passage, sondern am Gesamtklangbild interessiert ist. Auch gute Encoder generieren Artefakte, aber sie geraten dabei nicht ins Stolpern, so daß man bei normalem Hören schlicht nichts davon merkt.

Das systematische Problem der STFT ließe sich übrigens umgehen, wenn man andere Transformationen verwendet, die sowohl Zeit- als auch Frequenzlokalität besitzen, wie z.B. die Wavelet-Transformation. In der Theorie ermöglicht das eine frequenzspezifische Anpassung der Auflösung und vermeidet damit das Dilemma von oben. In der Praxis büßt man vermutlich zu viel Frequenzauflösung ein, als daß das psychoakustische Modell noch präzise genug anwendbar wäre. Ich kenne jedenfalls keinen Audiocodec, der auf Wavelet-Transformationen basiert. (Für Bilddaten, die nach ähnlichen Prinzipien komprimiert werden, gibt es so etwas, z.B. JPEG 2000.) Allerdings muß man sagen, daß viele Audiocodecs schon auf ähnliche Weise (mit Filterbänken) das Frequenzband grob in mehrere Bereiche zerteilen, die dann individuell quantisiert werden können. MP3 geht hier etwas weit und unterteilt das Signal gleich in 32 Subbänder; soweit ich weiß, ist das auch der Grund, warum MP3 nicht zu den effizientesten Kompressionsverfahren zählt und etwa unterhalb von 128 kBit/s eher unbrauchbare Ergebnisse erzielt.

Persönlich verwende ich meist 292 kBit/s. Preisfrage: welchen Codec verwende ich?

Edit: ä -> ö

volkard

audacia schrieb:

Persänlich verwende ich meist 292 kBit/s. Preisfrage: welchen Codec verwende ich?

Aäh, google schlägt ATRAC vor? Nie davon gehört.
Ich dachte, man sei mit Vorbis zur Zeit gut bedient.

audacia

volkard schrieb:

Aäh, google schlägt ATRAC vor?

Treffer Der Grund dafür besteht in meiner MD-Sammlung, ist damit eher historischer Art und hindert Vorbis natürlich nicht daran, heute eine bessere Alternative zu sein.

nachtfeuer

SeppJ schrieb:

Das reicht noch nicht einmal für Hänschen Klein in c-Dur. Ich glaube, dir beliebt zu scherzen!

Lol...
Man kann sich natürlich fragen, was einige Leute in mein erstes Posting hineininterpolieren, und was der Hintergrund dieser Interpolation sein mag.
Niedrige Interpretationsbitrate?

Letztlich:
Ich hätte auch schreiben können, 12 Bit, 50 kHz, bezweifle aber dass einige Leute diesen Unterschied (im Blindtest, und je nach Material) überhaupt hören können, geschweige denn, sich eine Vorstellung davon machen.

Das 12bit theoretisch schon sehr gut sein müssen, kann man sich anhand eines Laustärkereglers verdeutlichen:
Bei 2 Bit hat man nicht viel Auswahl, nur z.B. aus, leise, mittel, laut oder leise, leiser, laut, lauter. Bei 12 Bit hat man 4096 Stufen - in der heutigen Digitalmedienwelt werden aber bei Reglern schon 128 oder weniger Stufen als "stufenlos" eingestuft.

volkard

nachtfeuer schrieb:

Letztlich:
Ich hätte auch schreiben können, 12 Bit, 50 kHz,

Das wären dann 15% Einsparung und ich hätte Deiner Argumentation auch nicht folgen können, weshalb das große Stück jetzt nicht auf den Datenträger paßt. Und es gibt so viele einfache Verfahren, die normalerweise viel mehr rausholen.

[/quote]Das 12bit theoretisch schon sehr gut sein müssen, kann man sich anhand eines Laustärkereglers verdeutlichen:
Bei 2 Bit hat man nicht viel Auswahl, nur z.B. aus, leise, mittel, laut oder leise, leiser, laut, lauter. Bei 12 Bit hat man 4096 Stufen - in der heutigen Digitalmedienwelt werden aber bei Reglern schon 128 oder weniger Stufen als "stufenlos" eingestuft.[/quote]
Auf dem 64-er hatten wir Musik mit 1 Bit gesampled und man konnte sogar manchmal das Stück erraten.

wir haben mit 0 bit gesampelt, um man konnte es wiedererkennen: das berühmte 4'33" von J. Cage

volkard

!rr!rr_. schrieb:

wir haben mit 0 bit gesampelt, um man konnte es wiedererkennen: das berühmte 4'33" von J. Cage

Nicht schlecht!

Wer es nicht kennt: http://www.youtube.com/watch?v=hUJagb7hL0E

Und hier eine Überarbeitung für's Klavier: http://www.youtube.com/watch?v=gN2zcLBr_VM&feature=related

nachtfeuer

volkard schrieb:

Das wären dann 15% Einsparung und ich hätte Deiner Argumentation auch nicht folgen können, weshalb das große Stück jetzt nicht auf den Datenträger paßt. Und es gibt so viele einfache Verfahren, die normalerweise viel mehr rausholen.

Vorstellungshilfe:
bei 1 MB etwa 2 Sekunden mehr möglich, also ein nettes Tastaturdrumset mehr, bei 4GB passt in etwa ein unkomprimiertes Album mehr drauf.
Meine Arbeitskomprimierrate (Mp3,Lame) für den Hausgebrauch machts genau umgekehrt, Speicherbedarf nur noch 15% ...also in etwa 6 bis 7 Alben mehr bei 4GB + verbesserter Rauschabstand gegenüber 12 Bit.
Leider hatten die Livemucker/Instrumentbetriebssysteme früher (in den 90ern) keine oder kaum solche tolle Komprimiertechnik zur Verfügung (schade eigentlich), so dass in manchen Sessions Wartezeit auf DiskettenSoundkitloading... mit zur Performance gehörte.
Man konnte dem entgegengehen, indem man den Speicher ausbaute (0,5 MB Schritte bis 2-12 MB in etwa, und pro Schritt nicht billig), damit das ganze Livesoundset im Arbeitsspeicher für den Auftritt ausreicht.
Stellen wir uns einen Arbeitsspeicher von 2MB und ...naja, sagen wir mal pessimistisch 4 Samplesets für 5 oder mehr Songs...
-> auf 15% schrumpf: in etwa 30 Samplesets für 30 bis 35 Songs, das wäre Livekomfort total gewesen.

volkard

nachtfeuer schrieb:

volkard schrieb:

Das wären dann 15% Einsparung und ich hätte Deiner Argumentation auch nicht folgen können, weshalb das große Stück jetzt nicht auf den Datenträger paßt. Und es gibt so viele einfache Verfahren, die normalerweise viel mehr rausholen.

Vorstellungshilfe:
bei 1 MB etwa 2 Sekunden mehr möglich, also ein nettes Tastaturdrumset mehr, bei 4GB passt in etwa ein unkomprimiertes Album mehr drauf.
Meine Arbeitskomprimierrate (Mp3,Lame) für den Hausgebrauch machts genau umgekehrt, Speicherbedarf nur noch 15% ...also in etwa 6 bis 7 Alben mehr bei 4GB + verbesserter Rauschabstand gegenüber 12 Bit.
Leider hatten die Livemucker/Instrumentbetriebssysteme früher (in den 90ern) keine oder kaum solche tolle Komprimiertechnik zur Verfügung (schade eigentlich), so dass in manchen Sessions Wartezeit auf DiskettenSoundkitloading... mit zur Performance gehörte.
Man konnte dem entgegengehen, indem man den Speicher ausbaute (0,5 MB Schritte bis 2-12 MB in etwa, und pro Schritt nicht billig), damit das ganze Livesoundset im Arbeitsspeicher für den Auftritt ausreicht.
Stellen wir uns einen Arbeitsspeicher von 2MB und ...naja, sagen wir mal pessimistisch 4 Samplesets für 5 oder mehr Songs...
-> auf 15% schrumpf: in etwa 30 Samplesets für 30 bis 35 Songs, das wäre Livekomfort total gewesen.

15%.