Reicht’s auch mit dem Smartphone?
Welche Rolle spielt die Technik im Bewerbungsprozess für Musiker*innen?
Text & Bilder Caspar Ernst
Text & Bilder Caspar Ernst
In welchem Maße die Wirkung einer Musikaufnahme von produktionstechnischen Entscheidungen abhängt, haben – vermute ich – alle Lesenden dieser Zeitschrift vor Augen. Umso mehr habe ich während der Produktion etlicher Demo-Videos, die ich in meiner Studienzeit für Musikstudierende der klassischen Musik angefertigt habe, über meine Rolle für deren Erfolg nachgedacht. Selbstverständlich möchte ich gute Arbeit machen, aber ist es nicht hochgradig unfair, dass manche Menschen für eine solche Dienstleistung nur eine Mail an unseren Studiengangverteiler schreiben und andere 400 € ausgeben müssen? Mit meiner Bachelorarbeit wollte ich Belege liefern, die die Rolle der Technik im Bewerbungsprozess für Musiker*innen (für Jurys und Bewerbende) nachvollziehbar machen.
Möchte eine klassische Pianistin solistisch erfolgreich sein, braucht sie Referenzen. Für das Studium bei renommierten Persönlichkeiten, für Meisterkurse, Wettbewerbe; in allen Karriereabschnitten muss sie sich bewerben und sich in einem Auswahlprozess gegen andere durchsetzen. Seit es die notwendige Technik dafür gibt, wird oft anhand von eingesendeten Aufnahmen eine erste Vorauswahl getätigt. War dies zu Zeiten von postalisch verschickten CDs noch Sache von einzelnen großen Wettbewerben, ging der Bedarf an Demo-Videos spätestens mit Beginn der Corona-Pandemie sprunghaft nach oben. Gerade in Fächern mit hoher Konkurrenz wie Gesang und Klavier ist der Bedarf groß; häufig darf das Video per Vorgabe auch nicht für einen anderen Wettbewerb oder eine andere Eignungsprüfung verwendet werden. Praktisch, dass Smartphones mittlerweile eine Audio-Video-Aufnahme machen können, die im Durchschnitt den Ansprüchen genügt. Oder doch nicht?
In meiner Bachelorarbeit wollte ich herausfinden, welche Unterschiede es zwischen den verschiedenen typischerweise verwendeten Aufnahmegeräten gibt, und wie sich diese musikalisch auswirken. Den Video-Aspekt habe ich dabei bewusst ausgeklammert – nicht mit dem Gedanken, dass das Video vernachlässigt werden könne, sondern weil – im Gegenteil – einzelne Studien darauf hindeuten, dass gerade in Musikwettbewerbs-Situationen der visuelle, performative Anteil wichtiger ist als das Audio.[1] Der von mir gewünschte Detailgrad der Untersuchung war einerseits schlicht zu groß, als dass Audio und Video hätten gesondert betrachtet werden können. Andererseits hatte ich das (nicht überprüfte) Gefühl, dass die visuellen Differenzen in Demo-Videos bewusster wahrgenommen werden können und daher eine geringere Gefahr für ein unterbewusstes Färben der Beurteilung darstellen als Audio-Unterschiede. Da Bewerbungen zum überwiegenden Teil Demo-Videos enthalten, wurde für die Aufnahme die Videofunktion (Hauptkamera) der Smartphones trotzdem verwendet und das Audio nachträglich extrahiert.
Die messbaren Eigenschaften der Smartphones und anderer Geräte konnte ich in meiner Arbeit nur grob umreißen. Gerade bei Telefoniegeräten ist alles Firmengeheimnis; Annäherungen an Frequenzgang und Übertragungsverhalten konnten lediglich verallgemeinernd formuliert werden und eine Messung von Richtcharakteristik und Frequenzgang im Freifeldraum erschien mir nicht dem Rahmen angemessen. Mikrofone, die extern an das Smartphone angesteckt werden können, konnte ich nicht in die Untersuchung integrieren; und auch die Wiedergabesituation habe ich komplett ausgeklammert, aufgrund der Vermutung, dass sich immerhin diese zwischen verschiedenen Bewerbenden nicht ändert.
Um der Frage auf den Grund zu gehen, auf welche Weise und wie sehr das Aufnahmeequipment die Bewertung eines Demo-Videos beeinflusst, wurde mit Hilfe zweier realitätsnaher Aufnahmesituationen beispielhaft ein Datensatz erstellt, der von musikalischen Expert*innen beurteilt werden sollte. Der Datensatz besteht aus Aufnahmen von zwei Werken für Klavier solo und drei Werken für Gesang mit Klavierbegleitung, von denen jeweils drei Takes mit sechs verschiedenen Geräten aufgenommen wurden (vier Smartphones von Apple, Google, OnePlus und Samsung, ein handlicher Fieldrecorder von Tascam und ein professionelles Stereo-AB-Set-up (Schoeps Kleinmembranmikrofone, 50 cm Basisbreite). Die Solo-Pianistin und die Sängerin waren Studierende der Musikhochschule; aufgenommen wurde in einem kleinen Aufnahmeraum mit Live-Akustik. Die Bedingungen waren also aus tonmeisterlicher Sicht nicht unbedingt ideal, jedoch sehr nah an der Demo-Video-Realität. Eine kleine Überraschung gab es außerdem: Ich hatte vergessen, die ‚Sprachverbesserung‘ beim Google-Smartphone für die Gesangs-Aufnahmen auszuschalten. Trotzdem arbeitete ich mit den Dateien weiter wie geplant, in der Annahme, dass nicht nur mir so etwas passieren würde. Der komplette Datensatz wurde veröffentlicht und kann mitsamt einer ausführlichen Dokumentation auf zenodo.org eingesehen werden [2].
Zeitgleich mit der Datensatz-Produktion führte ich Interviews mit Professor*innen und Dozierenden der Fächer Klavier und Gesang von zwei verschiedenen Musikhochschulen, um mehr über den Umgang mit Demo-Videos und -Aufnahmen – beziehungsweise der dafür verwendeten Aufnahmetechnik insgesamt – zu erfahren. Die erfahrenen Befragten gaben mir einen besonderen Einblick in die Situation der Musikwettbewerbe und Eignungsprüfungen, und nicht zuletzt lernte ich die Dimension und den Druck dahinter einzuschätzen: 100 Videos à 20 Minuten innerhalb von wenigen Tagen bewerten zu müssen, ist demnach wohl keine Seltenheit.
Als der Datensatz erstellt war, wurde es spannend: Ich wollte von den Expert*innen Aussagen über die Performance der Musiker*innen provozieren. Die Hochschullehrenden, die ich teilweise auch schon im ersten Interview kontaktiert hatte, sollten nicht erkennen, dass sich die Aufnahmen wiederholten; ich hatte für den Klavier-Bereich sogar verschwiegen, dass nur eine Person alle Aufnahmen spielte. Aus meinem Datensatz wurden entsprechend den Lehrenden (getrennt in Gesang und Klavier) je fünf fiktive Bewerbungen zusammengestellt, bestehend aus je einer Version jedes Stückes, und mal als unterschiedliche Takes, mal aufgezeichnet mit einem unterschiedlichen Gerät. Ein Beispiel macht es deutlicher: Für die Klavier-Lehrenden habe ich als „1. Bewerbung“ den Take 1 der beiden Stücke in der Aufnahme mit professionellem Gerät verwendet. Die 2. Bewerbung bestand aus Take 2 mit einem OnePlus, dann kam Take 3 mit dem Fieldrecorder, anschließend derselbe Take mit einem Google Smartphone als 4. Bewerbung und zum Schluss Take 2, wieder mit dem professionellen Set-up. Wenn die einzeln Befragten die Pseudo-Bewerbungen der Reihe nach anhörten (wofür ich als Interviewer sorgen konnte), hörten sie also zuerst drei unterschiedlich gespielte Versionen in unterschiedlicher Klanglichkeit, dann aber wiederholten sich die gespielten Takes, und nur die Klanglichkeit änderte sich.
Natürlich wollte ich die Aufnahmen nicht nur Musiker*innen zeigen, sondern auch selbst anhören. Ich wollte alle Geräte gleichberechtigt betrachten und beschreiben, um herauszufinden, was sich am musikalischen Eindruck ändert. Zur Beurteilung verwendete ich Kriterien aus meinem Unterricht (sie fußen auf Publikationen von W. Reichardt, doch konnte ich die richtige nicht finden. Über Hinweise freue ich mich!). Alle Aufnahmen wurden gemäß den Kriterien Raum, Klangfarbe, Lokalisation, Differenzierbarkeit, Dynamik/Lautheit und Artefakte beschrieben, sowohl von mir allein als auch zusammen mit der Tonmeisterin und Professorin Martha de Francisco.
Technisch lassen sich die Aufnahmesysteme trennen in Smartphones (zwei MEMS-Mikrofone, mehr oder weniger symmetrisch, Nachbearbeitung dynamisch und spektral unvermeidbar) und anderes (Kleinmembran-Kondensatormikrofone (KM), keine Nachbearbeitung). Die beiden KM-Systeme lassen sich noch einmal unterteilen in Fieldrecorder (Stereo-XY-System) und Profi (Stereo-AB-System).
Der Hauptunterschied zwischen Smartphones einerseits und den KM-Systemen andererseits besteht im Umgang mit Dynamik. Wie zu erwarten, greift die Software der Geräte deutlich ein, die Art der jeweiligen Einwirkung jedoch ist überraschend unterschiedlich. Attack und Release der eingesetzten Kompressionen waren alles andere als identisch, auch zwischen den verschiedenen Android-Geräten waren diese Parameter mal linear und mal stufenweise, mal schneller und mal langsamer, was auch dazu führen konnte, dass ein Smartphone bei einer Verdi-Arie genau im Takt „mithalf“, dann aber bei einem anderen Stück gegen die Musik arbeitete. Unterschiede in der Marke, dem Modell oder Preis hatten dabei einen verschwindend geringen Einfluss auf die Qualität der dynamischen Nachbearbeitung; lediglich die Begleitartefakte wie Pumpen und Krachen wurden weniger. Die unbearbeitete Dynamik der beiden KM-Systeme empfand ich als überrealistisch oder sprunghaft – besser, aber auch nicht perfekt.
Sowohl der reale Raum als auch die virtuelle Bühne wurden als grenzwertig klein empfunden, und der kleine Hallradius trug sicher auch zur überrealistischen Dynamik bei. Für die KM-Systeme war der Abstand gerade bei Gesang und Klavier zwar zu gering, doch die frühen Reflexionen schon an der Obergrenze; die gerichteteren und abgedunkelten Smartphones konnten das besser kompensieren.
Dies führt zum nächsten großen Unterschied: der Klangfarbe. Naturgemäß fehlten in allen Smartphones und auch beim Fieldrecorder Bassinformationen; manche Smartphones hatten einen deutlichen „Badewannenfilter“ mit zu scharfen Höhen, andere wiederum waren dumpf oder brachten ein „Trichtergefühl“ mit sich. Auch die Lokalisation war heterogen, angefangen mit einer Verschiebung aus der Mitte heraus aufgrund des asymmetrischen Aufbaus mancher Smartphones bis hin zur unterschiedlichen Tiefenstaffelung von Sängerin und Korrepetition.
Alle Smartphones griffen dynamisch deutlich hörbar in das Ursprungssignal ein, doch verhinderte die überrealistische Dynamik und Tiefenstaffelung verbunden mit dem für diese Art von Aufnahmen eher typischen kleinen Raum auch eine optimale Beurteilung der KM-Systeme. Letztere werden immer noch als solche erkannt, dennoch konnten ihre Vorteile wie eine gute Durchhörbarkeit und ein natürlicher Frequenzgang sie (vorrangig im Bereich Gesang) nicht in den Rang einer Aufnahme professionellen Anspruchs erheben.
Der Erfolg meiner Untersuchung hing in beträchtlichem Maße davon ab, dass sich die Befragten auf das Szenario der fiktiven Bewerbungen einlassen mussten. Bei den Klavier-Lehrenden funktionierte das gut; sie merkten im Verfahren höchstens leise Zweifel an und merkten zum Großteil nicht, wie oft sich die Performance eigentlich wiederholte. Im Bereich Gesang hatte ich die Aussagekraft des individuellen sängerischen Timbres unterschätzt; alle Befragten erkannten die Sängerin an ihrer Stimme und bemerkten an sich wiederholenden Eigenheiten in Sprache, Melodieführung und Atemtechnik die Take-Wiederholungen. Sicherlich auch deshalb gab es die spannendsten Aussagen und Verknüpfungen im Bereich Klavier, von denen ich nur drei hier erwähne: Zum ersten die Wahrnehmung von Pausen – selbst als von einer Person ein unnatürliches technisches Beenden von Tönen festgestellt wurde, begründete sie zu lange Pausen mit fehlender Musikalität. Dass lange Pausen mit falschen Tonenden zusammenhängen, wurde nicht gesagt, gleichzeitig wurde bei der Stereo-AB-Aufnahme die ausgezeichnete Agogik gelobt. Wenn man sich in Erinnerung ruft, dass dies das einzige System mit Kugeln und zusätzlich künstlichem Hall ist, wäre es bei dem transientenreichen Klavierklang nur logisch, hier eine Verbindung zu ziehen. Ein anderer überraschender Aspekt war, dass ein Befragter unterbewusst versuchte, seinen Höreindruck mit seinem großen Wissen über Klaviertypen und Bauweisen zu erklären. Er formulierte den Eindruck, dass die Beispiele auf einer ganzen Bandbreite von Instrumenten gespielt wurden, von großen Konzertflügeln bis zum Wohnzimmerklavier. Und für die grundlegende Leitfrage der Arbeit war auch interessant, dass die Gesangs-Lehrenden nicht sagen konnten, ob eine professionelle Aufnahme wirklich am besten geeignet wäre. Der höhere Anteil an hohen Frequenzen wurde für das ohnehin obertonreiche Spektrum der Sängerin eher als wenig zuträglich wahrgenommen, eine Reduktion der Dynamik manchmal als nicht schlecht.
Viele bemerkenswerte Aussagen wurden getroffen, die natürlich alle im Licht der qualitativen Herangehensweise betrachtet werden müssen. Trotzdem geben mir Aussagen über Konzertexamensqualität und Bachelorniveau, von einer weichen Stimme und harten Vokalen, von Unterschieden in Pedalisierung und im Anschlag bei identischer Performance das Gefühl, in der richtigen Richtung unterwegs zu sein. Allein schon das angedeutete Ausmaß ist so enorm, dass ich mich weiter mit diesem Thema beschäftigen möchte.
Es muss gesagt werden, dass mir alle Interviewten versicherten, dass für Eignungsprüfungen im Zweifel immer zum tatsächlichen Vorspiel vor Ort eingeladen wird. Sobald die Aufnahmetechnik unzureichend ist, würden die Bewerbenden direkt gehört werden. Wie zuverlässig qualitativ niederwertige Technik als solche erkannt wird, konnte ich nicht untersuchen; auch die Unterschiede zwischen Eignungsprüfungen und Wettbewerben habe ich nur grob betrachtet. Immerhin ist die Sachlage nicht so eindeutig, dass gesagt werden müsste, alle sollten mit den gleichen Geräten arbeiten. Und eigentlich bin ich auch froh darüber – was würden Studierende mit dem Wissen anfangen, unzureichende Technik zu haben, wenn sie nichts daran ändern können?
Die Frage, die als Überschrift über diesem Artikel und auch meiner Arbeit steht, lässt sich nur bedingt beantworten. Aufgrund von externen Faktoren und der Kulanz der Jurys ist die Möglichkeit vorhanden, dass das Aufnahmegerät in konkreten Fällen nur eine geringe oder keine Rolle spielt. Doch wird es ebenso Situationen geben, in denen das Aufnahmegerät mit Raum und Aufnahmesituation den Unterschied machen kann. Die Probleme, die Musikwettbewerben innewohnen, werden dadurch multipliziert: Der Pianistin aus meiner Einleitung kann man nur wünschen, dass sie neben ihrem Talent über Geld, Zeit, und/oder ein gutes Netzwerk verfügt, um sich entsprechend zu präsentieren.
Für mich persönlich konnte ich viel Erfahrung in der musikalischen Sicht auf Aufnahmetechnik sammeln. Ich erlebe oft, auch an mir selbst, dass aus einem tonmeisterlichen Studium heraus die Gefahr besteht, klangliche Unterschiede rein technisch zu bewerten und nur noch für andere Tonschaffende zu arbeiten. Dabei ist mein Zielpublikum doch eigentlich die Musikbranche, die offensichtlich anders hört. Ich hoffe außerdem, dass ich und andere Menschen meinen Datensatz erweitern können; mit mehr Beispielen und ausführlicheren Analysen desselben könnte noch einiges erfahren werden, was bis jetzt nur angedeutet wurde. Und im Idealfall kann ich mich aus dieser Richtung der alten Frage nähern, wie sehr der Klang einer Aufnahme eine wahrgenommene Interpretation beeinflusst.
[1] Chia-Jung Tsay. “Sight over sound in the judgment of music performance”. In: Proceedings of the National Academy of Sciences of the United States of America, vol. 10 36 (3. Sep. 2013). ISBN: 9781221454117, S. 14580–14585
[2] Ernst, C. Recordings of classical music (voice with piano, piano solo) with smartphones and professional audio equipment. Zenodo (26. Juli 2024). https://doi.org/10.5281/zenodo.12928912
Caspar Ernst ist Tonmeister und Klangregisseur. Aktuell studiert er im Master Musikregie an der Musikhochschule Detmold, zuvor schloss er den dortigen Bachelorstudiengang Musikübertragung (Tonmeister) mit einer wissenschaftlichen Arbeit zum Einfluss von Aufnahmetechnik auf die Bewertung von Musik ab. Er lebt in Göttingen und arbeitet neben seinem Studium als freier Tonmeister.