Gesteigerte Immersion durch binaurales Audio?
Untersuchungen zur Rezeption von Binaural-Audio für Filmton und Musik
Text: Kilian Langenhorst, Malte Schäfer Bilder: Kilian Langenhorst, Malte Schäfer, Timo Jaworr
Text: Kilian Langenhorst, Malte Schäfer Bilder: Kilian Langenhorst, Malte Schäfer, Timo Jaworr
Sowohl Musik als auch Filme werden heute immer häufiger über Kopfhörer konsumiert, während die klassische Stereoanlage oder das Heimkino in den Hintergrund gerät. Besonders im Zusammenhang mit Dolby Atmos oder VR rückt deshalb die Binaural-Technik wieder in den Vordergrund. Wie sich die Wahrnehmung binauraler Fassungen im Vergleich zu Stereo beim Filmton bzw. bei Aufnahmen klassischer Musik verhält, haben wir unabhängig voneinander in unseren Abschlussarbeiten untersucht.
Das Thema Binaural-Audio spielt im Filmton eine untergeordnete Rolle. Warum ist das so? Müsste man nicht mit der Zeit gehen und zusätzliche binaurale Mischungen für Filmproduktionen anbieten, wenn binaurales Audio doch die Wunderwaffe für verbesserte Immersion ist? Um der Sache auf den Grund zu gehen, habe ich (Kilian) im Rahmen meiner Abschlussarbeit eine Studie durchgeführt, in der die Rezeption von binauralem Sounddesign im Film untersucht wird.
Konkret wurden in der Studie die Immersion – also die räumliche Einbindung – und das Involvement – also die emotionale Einbindung – eines binauralen Sounddesigns im Vergleich zu einer Fassung in Stereo evaluiert. Dazu wurde für einen bereits existierenden Kurzfilm ohne Dialog zunächst ein Sounddesign in beiden Varianten produziert. Für eine bessere Vergleichbarkeit sollten sich die beiden Versionen in ihrem Aufbau so wenig wie möglich unterscheiden und eben nur in der Räumlichkeit verschieden sein. Die binaurale Fassung wurde mithilfe des Plug-ins dearVR PRO produziert. Besagte Varianten des Films sind online unter den am Ende des Artikels stehenden Links zu finden.
Die Bewertung der Sounddesign-Versionen wurde in Form von zwei Proband*innentests durchgeführt. Der erste Test bestand aus einem AB-Vergleichsverfahren, bei dem Testpersonen beide Versionen ansahen und anschließend angaben, bei welcher Fassung sie höhere Immersion bzw. größeres Involvement verspürt hatten. Bei der zweiten Versuchsdurchführung wurden die Teilnehmenden in zwei Gruppen aufgeteilt und bewerteten in nur je einer Version die Immersion und das Involvement auf einer Skala von null bis eins. In der Auswertung dieses Versuchs wurden die Durchschnittswerte beider Gruppen in Relation zueinander betrachtet.
Die Ergebnisse der Hörversuche sind ambivalent: 59 % der Teilnehmenden gaben im direkten Vergleich an, die Immersion bei der Stereo-Version zu bevorzugen. Bei der Versuchsdurchführung, bei der jede Gruppe nur eine Version gezeigt bekam, wurde jedoch im Durchschnitt die binaurale Version leicht besser bewertet. Diese Unterschiede sind jedoch statistisch nicht signifikant. Die beiden Ergebnisse lassen deshalb keine eindeutige Aussage zu, welche Version eine größere Immersion erzeugt.
Für das Involvement bevorzugten etwa zwei Drittel der Proband*innen im direkten Vergleich die binaurale Version. Mit der Abfragemethode ohne Direktvergleich ließ sich jedoch auch hier kein signifikanter Unterschied zwischen den Varianten feststellen.
Die Ergebnisse sind also alles andere als eindeutig. Es scheint keineswegs so zu sein, dass ein binaurales Sounddesign eine uneingeschränkte Verbesserung der Einbindung in ein filmisches Werk mit sich bringt. Andererseits ist auch eine Verschlechterung der Einbindung nicht zu erkennen. Das Thema muss also differenzierter betrachtet werden.
Folgend möchte ich einen Erklärungsversuch für die uneindeutigen Ergebnisse liefern. Diese Thesen sind nicht wissenschaftlich belegt, sondern spiegeln meine Gedanken nach der Durchführung der Hörversuche wider.
Binaurales Audio im Filmton scheint kein Allheilmittel zu sein, mit dem jedes Werk eine garantiert verbesserte Rezeptionserfahrung mit sich bringt. Dass ein binaurales Sounddesign dafür sorgen kann, dass einzelne Rezipient*innen tiefer in das Filmgeschehen eintauchen können, steht außer Frage; es hängt jedoch von diversen Faktoren ab, ob dies gelingt. Zum einen nehmen persönliche Vorlieben der Rezipient*innen sowie Modeerscheinungen Einfluss auf die Bewertung eines Sounddesigns. Des Weiteren sind auch nicht alle Rezeptionsbedingungen – wie die Situationen, in denen die Werke betrachtet werden – auf eine erhöhte räumliche Einbindung ausgelegt.
Der wohl kritischste Aspekt ist jedoch, dass bei einem binauralen Sounddesign zu einem Film, dessen Handlung wenig Räumlichkeit transportiert, eine Diskrepanz zwischen den Dimensionen in Bild und Ton entstehen kann. Eine verwandte Studie bestärkt diese These. In dieser wurde ein ähnlicher Versuch durchgeführt; der zugrundeliegende Film war allerdings eine zweidimensionale Animation anstatt, wie in meinem Versuch, ein Realfilm. Bei der Animation wurde die binaurale Version durchgehend leicht schlechter bewertet. Es ist vorstellbar, dass ein Film, dessen Handlung viel mit den Dimensionen des Raumes spielt, durch ein binaurales Sounddesign durchaus aufgewertet wird. Es gilt also, auf die Räumlichkeit im Vergleich von Bild und Ton zu achten. Man sollte für jede Produktion gezielt überlegen, ob durch ein binaurales Sounddesign ein Mehrwert erreicht werden kann. Dies sollte idealerweise bereits in der Pre-Production stattfinden und nicht erst als nachträglicher Wunsch nach dem Dreh geäußert werden. So können bereits während der Konzeption des Films spannende Handlungs- und Schall-Orte gewählt und die Räumlichkeit als Teil der Handlung eingeplant werden.
In Maltes Versuch ging es um die konkrete Anwendung von Binaural-Audio bei Dolby Atmos für Klassik-Aufnahmen. Deshalb waren die binauralen Mischungen in diesem Versuch auch nicht initial binaural gemischt, sondern die Fassungen des Dolby-Renderers, des Apple-Renderers (integriert in Logic Pro) und eine Kunstkopf-Aufnahme der Lautsprecherwiedergabe in 9.1.4. Die Grundlage der Binaural-Fassungen waren die unkomprimierten ADM-Masterfiles. Die Dolby-Version wurde mit dem Dolby Atmos-Renderer ohne Spatial-Coding-Emulation erstellt die Apple-Variante mithilfe des in Logic Pro integrierten Apple-Binaural-Renderers. Dazu diente als Vergleich die separate Stereomischung, nicht der generierte Stereo-Downmix. Außerdem gab es die Stereofassung zusätzlich mit einem Crossfeed. Da diese Variante konstant am schlechtesten bewertet wurde, gehe ich in diesem Artikel nicht genauer darauf ein. Als Beispiele dienten in Dolby Atmos veröffentlichte Aufnahmen klassischer Musik verschiedener Epochen (Händel, Haydn, Schumann, R. Strauss, Schostakowitsch, zeitgenössische Kompositionen und Crossover) in instrumentalen und vokalen Besetzungen (Klavier solo bis Orchester mit Chor). In einigen Aufnahmen war das Ensemble klassisch vorn platziert und vor allem Räumlichkeit auf den hinteren Kanälen, bei anderen waren Teile des Ensembles auch hinter den Hörer*innen positioniert.
Die Hörbeispiele wurden verschiedenen Proband*innen mithilfe des Tools GoListen als MUSHRA-Test zur Verfügung gestellt. Dabei gab es zwei Gruppen: Die Laiengruppe sollte nur eine Gesamtbewertung darüber abgeben, wie gut ihnen die Ausschnitte klanglich gefielen. Die Expertengruppe aus Tonmeisterstudierenden sollte bei den identischen Hörbeispielen allerdings zusätzlich zur Gesamtbewertung noch bestimmte Aspekte bewerten. Diese waren Umhüllung, Lokalisierbarkeit, Natürlichkeit, Durchhörbarkeit, Externalisierungsgrad (Loslösung von der Im-Kopf-Lokalisation). Diese Bewertungskategorien waren dem Spatial Audio Quality Index entnommen.
Aus der Laiengruppe ergaben sich 11 vollständige Datensätze. Die Mehrheit der Versuchspersonen studiert an deutschen Musikhochschulen. Insofern ist in dieser Gruppe auch von einer Hörerfahrung klassischer Musik als Rezipient*innen auszugehen, allerdings ohne eigene Produktions- und Mischerfahrung. Die durchschnittliche Bewertung über alle Beispiele hinweg lag mit ca. 63 Punkten (von 100 Punkten) für Stereo, Dolby und Apple weitestgehend gleichauf. Die Kunstkopfaufnahme mit 9 Punkten klar dahinter. Leicht unterschiedlich werden die Bewertungen, wenn man nach den Aufnahmen mit vorn platzierten Instrumenten und denen mit rundum aufgestellten Instrumenten unterscheidet. In den Stereofassungen war die Platzierung rundherum formatbedingt nicht hörbar. Dolby erreichte mit den Instrumenten rundherum 65,84 Punkte, mit allen Instrumenten vorne nur 59,77. Bei Apple war der Effekt genau andersherum: Die Rundherum-Aufnahmen erreichten nur 60,14 Punkte, während die Positionierung vorne 65,14 Punkte erhielt. Die Stereofassungen unterschieden sich wie erwartet kaum, mit 62 und 63 Punkten. Riesig war hingegen der Unterschied bei der Kunstkopfaufnahme: Die Rundherum-Aufnahmen erreichten 60,43 Punkte, die anderen lediglich 46,50.
Außerdem ließen sich die Datensätze nach unterschiedlichen Kopfhörern unterteilen: 7 Personen benutzten In-Ear-Kopfhörer verschiedener Marken, 4 Personen hingegen Over-Ear-Kopfhörer. Bei Apple und der Kunstkopf-Aufnahme bestand kein signifikanter Unterschied; die kleine Varianz bei den Stereofassungen sollte wegen der geringen Anzahl an Versuchspersonen nicht überbewertet werden. Ein deutlicher Unterschied ergab sich nur bei den Dolby-Fassungen, die auf Over-Ear-Kopfhörern klar besser abschnitten (74,59) als auf den In-Ears (56,07).
In dieser Gruppe gab es 10 vollständige Datensätze. Alle Versuchspersonen nutzen kabelgebundene Over-Ear-Kopfhörer.
Die Umhüllung wurde bei der Kunstkopf-Aufnahme mit 63,19 Punkten am besten bewertet; Stereo und Dolby liegen mit 61,78 Punkten aber fast gleichauf. Der Standardfehler betrug 2,5 Punkte, somit liegt kein klarer Unterschied vor. Mit 51,49 Punkten schnitt Apple allerdings eindeutig schlechter ab.
Die Lokalisierbarkeit wurde bei Stereo mit 66,81 Punkten am besten bewertet, mit etwas Abstand folgt Dolby mit 60,03 Punkten. Noch einmal deutlich dahinter lagen die Kunstkopf-Aufnahme und Apple mit jeweils ca. 52 Punkten. Im Bereich Natürlichkeit lag Dolby und Stereo wieder fast gleichauf, Apple folgte mit 8 Punkten Abstand vor dem Kunstkopf, der 10 Punkte hinter Apple lag.
Die Durchhörbarkeit wurde bei Stereo deutlich am besten bewertet, Dolby lag nur leicht vor Apple und deutlich hinter Stereo. Interessant wurde es beim Externalisierungsgrad: Die Kunstkopf-Aufnahme lag hier eindeutig vorn. Besonders spannend war jedoch, dass Apple und das – nicht einmal binaurale – Stereo gleichauf lagen.
Bei der abschließenden allgemeinen Bewertung ergibt sich wieder ein eindeutiges Bild: Stereo und Dolby liegen fast gleichauf vorn, Apple sowie die Kunstkopf-Aufnahme folgen mit großem Abstand.
Grundsätzlich zeigte sich, dass die binauralen Fassungen gegenüber Stereo nicht präferiert werden, eher sogar schlechtere Bewertungen erzielen. Lediglich die Laiengruppe mit Over-Ear-Kopfhörern bewertete Dolby besser als Stereo; aufgrund der geringen Anzahl an Versuchspersonen ist dieses Ergebnis allerdings von schwacher Aussagekraft. Auffällig ist dabei vor allem auch, dass die gleiche Dolby-Fassung auf In-Ear-Kopfhörern so viel schlechter bewertet wurde. Woran das liegt, lässt sich aufgrund dieses Versuchs nicht klar sagen.
Die Positionierung des Ensembles um die Hörer*innen herum scheint ihren Reiz zu haben; die Binaural-Versionen dieser Beispiele wurden besser bewertet als diejenigen, bei denen das Ensemble ausschließlich vorn platziert war. Trotzdem blieb Stereo auch in den Fällen der Favorit, bei denen die Positionierung nicht hörbar war. Insofern bietet die kreative Arbeit mit der Aufstellung während der Aufnahme – genauer gesagt: der späteren Gestaltung in der Mischung – schon ein großes Potenzial, das jedoch von den klanglichen Problemen der Binauralisierungen zunichtegemacht zu werden scheint.
Interessant ist außerdem, dass die binauralen Fassungen in den Bereichen Lokalisierbarkeit, Natürlichkeit und Durchhörbarkeit nicht besser bewertet wurden als die Stereofassungen. Die zusätzlichen binauralen Informationen scheinen in diesen Aspekten also nicht maßgeblich zu sein, auch wenn grundsätzlich insbesondere die binauralen Informationen bei der Trennung auditorischer Objekte helfen (Cocktailparty-Effekt).
Auffällig ist ebenfalls, dass der Externalisierungsgrad und die Umhüllung nicht mit der Gesamtbewertung korrelieren. Das Gehirn scheint also gut in der Lage zu sein, die eigentlich unnatürliche Im-Kopf-Lokalisation von Stereo zu abstrahieren. Stereo wird gegenüber binauralen Versionen ohne personalisierte HRTFs und ohne Headtracking sogar präferiert. Die Immersion der Hörer*innen in der Musik scheint also nicht zwingenderweise auf binaurale Informationen angewiesen zu sein. Die aktuelle Binauraltechnik von Dolby Atmos lässt hier noch keinen wirklichen Mehrwert erkennen.
Bei der Versuchsdurchführung mit Musikbeispielen muss man beachten, dass die binauralen Versionen aus den unkomprimierten ADM-Masterfiles erstellt wurden. Da Dolby Atmos ja aber vorrangig über Streamingdienste konsumiert wird, erhalten die Consumer-Endgeräte jedoch nicht diese unkomprimierten Fassungen, sondern die stark datenreduzierten Versionen. Das dürfte die Qualität weiter schmälern.
Beide in diesem Artikel vorgestellten Studien fanden ohne Headtracking und ohne personalisierte HRTFs statt. Hier besteht noch Weiterentwicklungspotenzial, da Headtracking in immer mehr Geräte integriert wird. Inwiefern dies die Ergebnisse der Versuche verändern würde, lässt sich nur vermuten. Des Weiteren haben die Versuchspersonen nicht entzerrte Kopfhörer genutzt, deren Frequenzgänge nicht für binaurales Audio optimiert waren.
Unter diesen Bedingungen konnten in beiden Studien unabhängig voneinander keine eindeutige Verbesserung des Rezeptions-Erlebnisses auditiver Werke durch binaurale Gestaltung festgestellt werden.
Malte Schäfer studiert Tonmeister am Erich-Thienhaus-Institut der HfM Detmold und schließt dieses Jahr seinen Master Musikregie (E-Musik) ab. In seiner Bachelorarbeit setze er sich mit den Auswirkungen der Binauralisierung in Dolby Atmos auseinander. Außerdem arbeitet er als freischaffender Tonmeister.
Kilian Langenhorst studierte Medientechnik in Leipzig und Amberg. Im Bachelor-Studium an der HTWK Leipzig wurde er auf binaurales Audio aufmerksam und verfasste seine Bachelorarbeit über die Produktion von binauralen Hörspielen. Im Masterstudium an der OTH Amberg-Weiden konnte er sein Wissen vertiefen und schrieb seine Masterarbeit über die Rezeption von binauralem Audio im Filmton. Er produziert Sounddesigns und Filmmusik für studentische Projekte.