Hörempfindungen
Das Wichtigste in Kürze...
Die sog. Psychoakustik untersucht und beschreibt - in Ergänzung der physikalisch geprägten Akustik - die subjektive Wahrnehmung von Schallsignalen.
Psychoakustik
Frequenz und empfundene Tonhöhe unterscheiden sich. Diese Verhältnistonhöhe wird mit der Bark-Skala beschrieben.
Tonhöhe, Tonheit und die Bedeutung der Frequenzgruppen
Töne mit gleichem Schalldruckpegel, aber unterschiedlicher Frequenz, werden meistens auch als unterschiedlich laut wahrgenommen. Die Definition der Lautstärke beruht auf dem subjektiven Vergleich zweier Schallvorgänge.
Lautstärke und Schalldruckpegel
Die Lautstärke hängt nicht nur von der Tonhöhe, sondern auch von der Art des Schallereignisses ab.
Lautstärkeempfindung
Zwei gleichzeitig gespielte Einzeltöne werden je nach Frequenzunterschied als nur ein Ton, als Schwebung, als Rauhigkeit oder dann als zwei Töne empfunden. Massgebend ist der Frequenzunterschied der beiden Einzeltöne.
Frequenzunterschiede und das Zweitonempfinden
Das frequenzmässige Auflösungsvermögen des Gehörs ist zwar ausserordentlich gut, jedoch nicht unbegrenzt. Reine Töne, deren Frequenzen genug nahe beieinander liegen, werden als ein und derselbe Ton empfunden.
Tonhöhenunterscheidung
Wir hören in Frequenzverhältnissen, nicht in absoluten Frequenzen. Pythagoras hat erkannt, dass angenehme Klänge entstehen, wenn man Saiten anschlägt, deren Längen in ganzzahligen Verhältnissen zueinander stehen. Je komplizierter das Verhältnis der Saitenlängen, desto dissonanter (misstönender) klingt das Intervall.
Tonintervalle
Die Kurven gleicher Lautstärke stellen mit der Hörschwelle und der Schmerzgrenze den maximalen Umfang des hörbaren Bereichs dar. Die alltägliche Geräuschumgebung ist normalerweise in einem kleineren Bereich zu finden.
Die Hörflächen
Die Mithörschwelle ist definiert als die Wahrnehmbarkeitsschwelle für einen Testschall bei (gleichzeitiger) Anwesenheit eines Störschalls (Maskierer) und wird meist in dB angegeben.
Mithörschwelle
Ganz allgemein bezieht sich die Maskierung auf einen Prozess, bei dem ein Schallsignal aufgrund der Anwesenheit eines anderen Schallsignals nicht hörbar ist. Maskierungseffekte tauchen sowohl im Frequenz- als auch im Zeitbereich auf.
Verdeckung von Signalen - die Maskierung
Heutige Verfahren zur Verkleinerung der Dateigrösse von Audiodateien (sog. Encoder) benutzen das Wissen aus der Psychoakustik. Sie funktionieren alle nach dem gleichen Prinzip: Was das Gehör nicht wahrnehmen kann, muss auch nicht gespeichert werden.
MP3 - eine technische Anwendung des Wissens aus der Psychoakustik
Psychoakustik
Die Psychoakustik befasst sich mit der subjektiven Wahrnehmung von Schall (Musik, Klang, Lärm etc.) und der Informations-Verarbeitung des Gehörs. Dabei werden eine Reihe akustischer Täuschungen beobachtet, vergleichbar mit den bekannteren optischen Täuschungen beim Sehen. Die Hörempfindungen sind also ein Teilgebiet der Psychoakustik.
Tonhöhe, Tonheit und die Bedeutung der Frequenzgruppen
Die Tonhöhe wird durch die Frequenz des Schallereignisses bestimmt. Will man den Zusammenhang zwischen den physikalischen Grössen und der Gehörempfindung noch genauer darstellen, muss die Frequenz durch die empfundene (subjektive) Tonhöhe, die sogenannte "Verhältnistonhöhe oder Tonheit", ersetzt werden. Die Einheit für die Verhältinistonhöhe ist [Mel], für die Tonheit ist es [Bark] (1Bark = 100 Mel). Diese Grössen werden jedoch nur in sehr speziellen Anwendungen der Psychoakustik benutzt.
Wahrnehmungsexperimente zeigen, dass das Gehör offensichtlich in eng begrenzten Frequenzbereichen Intensitäten (und damit "Lautstärken") von verschiedenen Schallreizen zusammenfasst. Diese Frequenzbereiche werden als Frequenzgruppen (engl. critical bands) bezeichnet.
Einteilung der Frequenzen von 0 16 kHz in die 24 Frequenzgruppen (critical bands) nach E. Zwicker, mit der Einheit Bark (benannt nach dem Dresdner Akustiker Barkhausen). |
Reiht man über den gesamten Hörbereich alle Frequenzgruppen auf, so ergibt sich eine gehörorientierte Frequenzskala, die als Tonheit bezeichnet wird und die Einheit [Bark] besitzt. Sie umfasst im Frequenzbereich von 0 bis 16 kHz insgesamt 24 Frequenzgruppen. Der eben wahrnehmbare Frequenzunterschied von Sinustönen beträgt etwa 1/25 bis 1/50 der Frequenzgruppenbreite, also ca. 0.03 Bark.
Quelle: Thiede, Thilo (TU Berlin): "Gehörrichtige Qualitätsbewertung von Audiosignalen - Übersicht und Einschätzung der gegenwärtigen Verfahren" |
Skalenvergleich von Frequenz auf Tonheit. Oben mit einer linearen Frequenz-Skala, unten mit einer logarithmischen Skala. |
Wegen der Art der Tonhöhenempfindung wird die Frequenz in [Hz] generell in einem logarithmischen Massstab dargestellt.
Die Lautstärke wird in [phon] angegeben und ist grundsätzlich eine subjektive, nicht messbare Grösse. Gemessen werden kann hingegen der Schalldruckpegel in [dB]. Dabei bezeichnet 0 dB die Hörschwelle, also die Untergrenze des gerade noch hörbaren Schalls. Die Obergrenze stellt eine Art Sättigung im Bereich des maximal verarbeitbaren Reizes dar. Diese Limite liegt bei ca. 130 dB.
Lautstärke und Schalldruckpegel
Zwei Töne mit gleichem Schalldruckpegel, aber unterschiedlicher Frequenz, werden oft auch als unterschiedlich laut wahrgenommen. Die Definition der Lautstärke beruht auf dem subjektiven Vergleich zweier Schallvorgänge. Für diesen Vergleich wurde der 1 kHz Ton als Referenzton gewählt. Die Lautstärkeskala entspricht daher bei 1 kHz genau der Dezibelskala. Um die Lautstärke eines bestimmten Schallereignisses zu bestimmen, vergleicht man das vorhandene Signal mit dem 1000 Hz Referenzton. Die Intensität des Referenztons wird darauf solange verändert, bis er als gleichlaut empfunden wird, wie das vorhandene Signal. Der beim Referenzton ablesbare Schallpegel entspricht dann der Lautstärke des erzeugten Schallvorganges in phon.
Quelle: ISO-Norm 226 (ergänzt) |
International genormte Kurven gleicher Lautstärke reiner Töne. Die orange Linie kennzeichnet die Referenzfrequenz von 1000 Hz, wo Dezibel und phon gleich gross sind. Ein 20 Hz Ton mit 110 dB wird als gleich laut empfunden wie ein 4 kHz Ton mit 70 dB, beidesmal sind es 80 phon. |
Die Kurven gleich empfundener Lautstärke von reinen Tönen wurden anhand zahlreicher Untersuchungen mit normal hörenden Personen im Alter zwischen 18 und 25 Jahren bestimmt. Mehr zu Dezibel, phon und Co. ist unter Akustik erläutert.
Lautstärkeempfindung
Die Lautstärke hängt nicht nur von der Tonhöhe, sondern zusätzlich auch von der Art des Schallereignisses ab. Länger dauernde Töne werden lauter empfunden als impulsartige Schallvorgänge. Dies lässt sich am Beispiel von sogenannten Tonbursts zeigen:
Auslenkungen eines kurzen Schallsignals und resultierende Bewegungen im Innenohr. Die Ein- und Ausschwingzeit des Signals im Ohr haben Einfluss auf den Lautstärke-Eindruck. |
Wegen der Trägheit der Basilarmembran (vgl. Anatomie des Ohres) führen Einschwing- und Ausschwingvorgänge zu einer abgerundeten Auslenkung und damit zu einem schwächeren Reiz.
Frequenzunterschiede und Zweitonempfinden
Wenn zwei verschiedenfarbige, transparente Folien übereinander gelegt werden, entsteht eine dritte Farbe, nämlich deren Mischfarbe. Werden zwei Töne verschiedener Frequenz gleichzeitig abgespielt und damit "gemischt", so entsteht kein dritter Ton mit einer Mischfrequenz. Bei genauem Hinhören lassen sich die einzelnen Töne klar erkennen.
Modell der subtraktiven Farbmischung, das beispielsweise beim Tintenstrahldrucker eingesetzt wird. Die aufgetragene Farbe absorbiert alles Licht ausser z.B. Cyan. Dieser Farbton wird reflektiert und von unserem Auge wahrgenommen. |
Ein Spezialfall besteht dann, wenn die Frequenzen der Töne gleich oder sehr ähnlich sind. Zwei gleichzeitig gespielte Einzeltöne werden je nach Frequenzunterschied als nur ein Ton, als Schwebung, als Rauhigkeit oder dann als zwei Töne empfunden. Massgebend ist der Frequenzunterschied der beiden Einzeltöne.
Tonhöhenunterscheidung
Das frequenzmässige Auflösungsvermögen des Gehörs ist zwar ausserordentlich gut, jedoch nicht unbegrenzt. Reine Töne, deren Frequenzen genug nahe beieinander liegen, werden als ein und derselbe Ton empfunden.
Testen Sie selbst, ab welchem Frequenzunterschied zwei nacheinander gespielte Töne als verschieden empfunden werden.
Der erste der beiden Töne hat immer eine Frequenz von 750 Hz. Die Frequenz des zweiten Tones steigt mit jedem Durchgang um ein Hertz. Startfrequenz des zweiten Tones: 750 Hz, Ende: 765 Hz.
Tonintervalle
Pythagoras hat erkannt, dass angenehme Klänge entstehen, wenn man Saiten anschlägt, deren Längen in ganzzahligen Verhältnissen zueinander stehen. Je komplizierter das Verhältnis der Saitenlängen, desto dissonanter (misstönender) klingt das Intervall. Es sind also die Frequenzverhältnisse entscheidend, ob ein Tonintervall harmonisch klingt, nicht die absoluten Frequenzen.
Verhältnis | Bezeichnung | Hörbeispiel | |
1:2 | Okatave | ||
2:3 | Quinte | ||
3:4 | Quarte | ||
4:5 | Gr. Terz | ||
5:6 | Kl. Terz | ||
8:9 | Gr. Sekund
| | |
15:16 | Kl. Sekunde | ||
Grundton der Beispiele ist jeweils a' (440 Hz) |
Quelle: The Granger Collection, New York City; SuvaPro AUDIO DEMO 3 |
Frequenzverhältnisse und Harmonie oder Dissonanz. Die Töne in diesem Beispiel wurden mit einem Computer erzeugt. Die Grundfrequenz beträgt 440 Hz. Ein um eine Oktave höher liegender Ton hat also eine Frequenz von 880 Hz. |
Eine Oktave entspricht einer Frequenzverdoppelung, egal ob die Grundfrequenz 200 Hz oder 3390 Hz beträgt. Wir hören in Frequenzverhältnissen, nicht in absoluten Frequenzen! Aus diesem Grund werden benachbarte Frequenzen in der Akustik oft in Klassen mit der Breite einer Oktave oder einer grossen Terz zusammengefasst. Diese Klassen heissen Oktavbänder resp. Terzbänder. Dies hat zur Folge, dass das Terzband mit den Frequenzen von 89.1 Hz bis 112 Hz und der Mittelfrequenz 100 Hz gleiches Gewicht hat wie das Terzband von 4467 Hz bis 5623 Hz und der Mittelfrequenz von 5000 Hz. In absoluten Zahlen enthält das zweite Terzband aber 50 mal mehr Frequenzen als das 100 Hz Band!
Die Hörflächen
Die international genormten Kurven gleicher Lautstärke stellen mit der Hörschwelle (Wahrnehmungsgrenze) und der Schmerzgrenze den maximalen Umfang des hörbaren Bereichs dar. Die alltägliche Geräuschumgebung ist normalerweise in einem kleineren Bereich zu finden. Bezüglich Frequenz- und Lautstärkenumfang lassen sich daher Hörflächen für verschiedene Aktivitäten aufzeichnen.
Quelle: "Energieoptimierung für Gebäude", Dr.-Ing. Jürgen Blumenberg, Dr.-Ing. Markus Spinnler, TU München, Fakultät für Architektur, Fakultät für Maschinenwesen |
Frequenz- und Lautstärkenumfang von Musik und Sprache, sog. Hörflächen. |
Mithörschwelle
Die Mithörschwelle ist definiert als die Wahrnehmbarkeitsschwelle für einen Testschall bei (gleichzeitiger) Anwesenheit eines Störschalls (Maskierer) und wird meist in dB angegeben. Mithörschwellen lassen sich für die verschiedensten Konstellationen von Stör- und Testschall messen.
Maskierung - Verdeckung von Signalen
Ganz allgemein bezieht sich die Maskierung auf einen Prozess, bei dem ein Schallsignal aufgrund der Anwesenheit eines anderen Schallsignals nicht hörbar ist, es ist also "verdeckt". Nachfolgend werden jeweils die Maskierungseffekte im Frequenz- und Zeitbereich aufgeführt.
Maskierung im Frequenzbereich
Innerhalb der Frequenzbänder stellt man die Simultanverdeckung im Frequenzbereich fest.
Quelle: E. Zwicker (1982). "Psychoakustik", Springer-Verlag, Berlin. |
Beispiel für die Mithörschwellen (blau) bei einem Schmalbandrauschen mit Mittenfrequenz 1 kHz und verschiedenen Pegeln LG als Maskierer. Ein Testton mit der Frequenz fT ist erst hörbar, wenn dessen Pegel LT oberhalb der blauen Linie liegt. Gestrichelt eingezeichnet ist die Ruhehörschwelle. |
Der Mechanismus, der Maskierungseffekten zugrunde liegt, kann wie folgt beschrieben werden: Die Anwesenheit eines starken Geräusch- oder Tonmaskierers erzeugt eine ausreichend starke Anregung der Basilarmembran am Ort der kritischen Frequenzgruppe. Dadurch wird die Übertragung eines schwächeren Signals auf effektive Art und Weise blockiert. Genauso wird auch die Zwischengruppenmaskierung festgestellt, d.h., dass ein Maskierer, der sich innerhalb eines kritischen Frequenzbandes befindet, einen Effekt auf die Mithörschwellen in anderen kritischen Bändern hat.
Maskierung im Zeitbereich
Nach dem Abschalten eines Maskierers sinkt die Hörschwelle nicht sofort auf die Ruhehörschwelle ab, sondern erreicht diese erst nach etwa 200 ms (Millisekunden). Dieser Effekt wird Nachverdeckung genannt. Stellt man sich die Bewegung einer Schallwelle auf der Basilarmembran vor, die vom Signal aus der Ruhelage ausgelenkt wird, so kann man sich vorstellen, dass es eine kurze Zeitspanne braucht, bis die Basilarmembran wieder in ihrer Grundposition ist. Während dieser Zeit, der Nachverdeckung, können leisere Signale nicht wahrgenommen werden.
Verblüffend ist, dass ein Maskierer den Testton sogar bereits verdeckt, bevor der Maskierer überhaupt eingeschaltet wird. Dies wird als Vorverdeckung bezeichnet. Die Vorverdeckung ist mit einer Dauer von 5 ms allerdings weit geringer ausgeprägt, als die Nachverdeckung.
Quelle: E. Zwicker (1982). "Psychoakustik", Springer-Verlag, Berlin. |
Vor- und Nachverdeckung mit breitbandigem Rauschen als Maskierer und kurzen Tonimpulsen als Testsignale. Die Zeit nach einschalten des Maskierers ist tE, die Zeit nach dem Abschalten tA. Die blaue Linie stellt die Mithörschwelle über der Ruhehörschwelle (0 dB) dar. |
Die genaue Dauer der Vor- und Nachverdeckung hängt von der Stärke und Dauer des Maskierers ab.
Eine Erklärung für die unterschiedlichen Maskierungsdauern besteht darin, dass eine Hörempfindung nicht sofort mit Einschalten des Reizes einsetzt, sondern eine gewisse Zeit benötigt, um sich aufzubauen. Dabei kann die Hörempfindung des Testtones von der später einsetzenden, aber stärkeren Hörempfindung des Maskierers verdeckt werden. Auch nach dem Abschalten des Maskierers klingt sie nicht sofort ab. Die hierfür massgebliche Zeitgrösse liegt offensichtlich bei etwa 200 ms. Sie fällt damit in die Grössenordnung der Dauer von Sprechlauten und ist somit für die Sprachwahrnehmung von Bedeutung.
MP3 - eine technische Anwendung des Wissens aus der Psychoakustik
Heutige Verfahren zur Verkleinerung der Dateigrösse von Audiodateien (sog. Encoder) benutzen das Wissen aus der Psychoakustik. Sie funktionieren alle nach dem gleichen Prinzip: Was das Gehör nicht wahrnehmen kann, muss auch nicht gespeichert werden. Effekte wie die Maskierung im Frequenz- resp. Zeitbereich, können in mathematischen Formeln wiedergegeben werden. Daraus lassen sich Programme entwickeln, welche die unhörbaren Teile herausfiltern und nur die notwendigen Audiodaten verwerten. Aus dem Hörflächendiagramm ist ausserdem ersichtlich, dass Frequenzen oberhalb 16 kHz bei normaler Lautstärke nur schlecht gehört werden. In einigen Verfahren werden die hohen Frequenzen deshalb weggelassen. Unter Berücksichtigung dieser Effekte und weiterer herkömmlicher Komprimierungsmethoden, kann so eine Musikdatei um etwa das 10-fache verkleinert werden - ohne grosse Einbussen in der Hörqualität! Der Erfolg des mp3-Formats spricht dafür. Und es werden ständig neue, bessere und schnellere Codierprogramme entwickelt, die das mp3-Format Qualitativ übertreffen. Mehr zu dieser Technik findet man in der freien online Enzyklopädie Wikipedia.