474 58 188MB
German Pages 1706 [1682] Year 2023
Handbuch der Tonstudiotechnik
Handbuch der Tonstudiotechnik Band 1 9., aktualisierte und erweiterte Auflage Herausgegeben von Michael Dickreiter, Volker Dittel, Wolfgang Hoeg und Martin Wöhr
Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.
ISBN 978-3-11-075970-9 e-ISBN (PDF) 978-3-11-075992-1 e-ISBN (EPUB) 978-3-11-076008-8 Library of Congress Control Number: 2022935904 Bibliographic information published by the Deutsche Nationalbibliothek The Deutsche Nationalbibliothek lists this publication in the Deutsche Nationalbibliografie; detailed bibliographic data are available on the internet at http://dnb.dnb.de. © 2023 Walter de Gruyter GmbH, Berlin/Boston. Satz: Michael Peschke, Berlin Druck und Bindung: CPI books GmbH, Leck www.degruyter.com
Gesamtübersicht Band 1 Vorwort VII Die Herausgeber XI Verzeichnis der Autoren XIII Inhalt XIX 1 Grundlagen der Akustik 1 2 Schallquellen 67 3 Schallwahrnehmung 117 4 Mikrofone und Lautsprecher 139 5 Tonaufnahme und Tonwiedergabe 231 6 Klanggestaltung 427 7 Analoge Tonsignalspeicherung 483 8 Analoge Tonregieanlagen 553 9 Analoge Tonstudiomesstechnik 639 10 Beschallung 685 11 Arbeitssicherheit und Gesundheitsschutz 743
Band 2 Inhalt VII 12 Grundlagen der digitalen Tontechnik 785 13 Audiocodierung 837 14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung 929 15 Digitale Tonsignalspeicherung 969 16 Digitale Betriebstechnik 1067 17 Rundfunksysteme 1229 18 Film- und Fernsehton 1407 19 Qualitätssicherung 1511 Fachwörter und Abkürzungen Englisch - Deutsch 1591 Sachregister 1619
Vorwort In einem Buch nachzuschlagen, welches mit Kenntnis und Sorgfalt entstand, hebt dieses aus der Menge loser und breit gestreuter Fachartikel heraus. So lässt sich die Arbeit von zahlreichen Autorinnen und Autoren, Bearbeitern und Verlagsmitarbeitern und -mitarbeiterinnen zusammenfassen, die an der vorliegenden 9. Auflage des Handbuchs der Tonstudiotechnik mitgewirkt haben. Seit seiner Erstausgabe im Jahr 1976 ist „der Dickreiter“ der Klassiker unter den Fachbüchern für die professionelle Audiotechnik. Einst hervorgegangen aus einer Loseblattsammlung der Schule für Rundfunktechnik (srt) in Nürnberg, entwickelte sich daraus rasch ein Standardwerk für Generationen von Studierenden und Anwendern in der Audiobranche. Bereits ab der 2. Auflage übernahm der K. G. Saur Verlag, München, den Druck und Vertrieb des gesammelten Wissens. Die frühen Auflagen waren geprägt von der analogen Tonstudiotechnik, vom Mikrofon bis zum Mischpult, vom Verstärker bis zum Lautsprecher. Ende der 1970er Jahre wurde der Ton zunehmend digitaler. Erste innovative professionelle Geräte kamen auf den Markt. Forschung, Wissenschaft und Unternehmergeist nahmen sich der neuen Themenvielfalt an. Es war die Ära der sich rasant entwickelnden digitalen Signalverarbeitung, die die Audiowelt revolutionierte. Arbeitsabläufe und Berufsbilder veränderten sich, vernetzte Systeme ließen Ton, Bild und Text näher aneinanderrücken. Die Verbreitungswege der Medienunternehmen, wie auch die Menge der Medieninhalte nahmen drastisch zu. An den Schnittstellen analog-digital-analog wurde das Zusammenspiel alter und neuer Technologien komplexer. Eine 5. Neuauflage des Handbuchs der Tonstudiotechnik folgte dieser Entwicklung, im Jahr 1990 entstand die erste zweibändige Ausgabe. Die nach wie vor geltenden Grundlagen sowie neuestes Wissen wurden damals in bewährter Weise und verständlicher Form zusammengefügt und umfassend erläutert. Die digitale Tontechnik fand ihren ersten Auftritt im Fachbuch. Achtzehn Jahre sollte es dauern, bis eine 7., vollständig neu bearbeitete und wesentlich erweiterte Auflage des Handbuchs der Tonstudiotechnik erschien. Die Neuausrichtung einer sich mehr und mehr verzweigenden, nahezu grenzenlos mobilen digitalen Medienwelt erweiterte sprungartig die technischen und gestalterischen Möglichkeiten. Zahlreiche tradierte Abläufe und Qualitätsparameter standen auf dem Prüfstein, neue internationale Standards entwickelten sich. Es wurde Zeit, dem Anwender im Tonstudio wieder ein kompetentes Nachschlagewerk in die Hand zu geben, welches auf dem neuesten Stand der Technik war. Auf den Weg gebracht wurde das Projekt von den damaligen Hörfunkbetriebsleitern der öffentlich-rechtlichen Rundfunkanstalten in Deutschland. Die Realisierung übernahm das Bearbeiterteam Martin Wöhr (Leitung), Michael Dickreiter, Volker Dittel und Wolfgang Hoeg. Herausgegeben wurden die zwei Bände von der ARD.ZDF medienakademie (ehemals srt), die Veröffentlichung betreute weiterhin der K. G. Saur Verlag (2008). Danach schien die Fortschreibung des Standardwerks wegen sich ändernder Rahmenbedingungen zu Ende zu gehen. Der inzwischen mit dem De Gruyter Verlag, Berlin, fusionierte K. G. Saur Verlag war es schließlich, der fünf Jahre später die Bearbeiter ermunterte, die Tradition und inhaltliche Qualität des Klassikers Handbuch der Tonstudiotechnik weiterzuführen und gleichzeitig auch die verantwortungsvolle Aufgabe als Herausgeber zu übernehmen. Mit https://doi.org/10.1515/9783110759921-201
VIII
Vorwort
der 8. Auflage (2013) folgte das Team diesem Ansinnen und brachte die tontechnische Themenvielfalt auf den damals neuesten Stand. Heute, mehr als 40 Jahre nach dem Erscheinen der 1. Auflage, erleben die Tonschaffenden einen Paradigmenwechsel. Die analoge Audiowelt wandelt sich in IT-gesteuerte Prozesse. Metadaten, Giga- und Terabyte sowie die Gesetze des Internets sind jetzt das Maß der Dinge, auch im Tonstudio. Eine Vielzahl von Formaten und internationalen Standards regelt heute den enormen Datenfluss in einer global vernetzten Medienwelt. Mikrofone und Lautsprecher sind als „Relikte“ die letzten verbleibenden, aber dennoch wichtigen analogen Säulen in einem modernen digitalen Studio. Sie sind Grund genug, die nach wie vor geltenden physikalischen und akustischen Gesetze der Audiotechnik nicht in den Hintergrund zu rücken. Die Neuauflage zeigt nicht nur eine Fortschreibung bewährter Methoden und Erkenntnisse auf. Sie beleuchtet auch, wie technische Prozesse in der Studiotechnik beginnen, sich neu aufzustellen, wobei die Beständigkeit des Fortschritts ungewiss ist. Die Innovationszyklen werden zunehmend kürzer. Im vorliegenden 1. Band der 9. Auflage finden sich die Kapitel mit den physikalisch-technischen Grundlagen des Schalls und des Hörens. Sie sind die Wissensbasis für das Folgende. Insbesondere Kapitel 4 und 5, die sich mit der Aufnahme- und Wiedergabetechnik sowie mit der heutigen Mehrkanaltechnik befassen, sind sorgfältig und ausführlich überarbeitet. Die Kapitel zur analogen Tonsignalspeicherung und Studiotechnik sind in weiten Bereichen aus der 8. Auflage übernommen und dem modernen Stand der Technik angepasst; hinzugekommen sind Erkenntnisse zur Langzeitlagerung von Speichermedien. Auch Kapitel 6, welches die Klanggestaltung zum Thema hat und Kapitel 10, Beschallung, wurden nach jüngsten, praxisnahen Erfahrungen weitergeschrieben. Im Kapitel 11, Arbeitssicherheit und Gesundheitsschutz, wird dem Umstand Rechnung getragen, dass die Verästelungen von Vorschriften, Schutzmaßnahmen und betrieblichen Verantwortlichkeiten sich auf alle Anwender in den tontechnischen Berufen verteilen und von allgemeinem Interesse sind. Der 2. Band widmet sich ausschließlich der digitalen Audiotechnik. Die Grundlagen der digitalen Signalverarbeitung sowie die aktuellen Formate und Verfahren der Audiocodierung sind, wie auch die Studioprozesse, praxisorientiert beschrieben. Das Kapitel der digitalen Signalspeicherung ist durch Informationen zur Restaurierung historischer Tonaufzeichnungen ergänzt. Auch das differenzierte Mastering und die derzeitigen digitalen Verbreitungswege von Audioinhalten wurden aktualisiert, einschließlich der Mehrkanalübertragung im Rundfunk und ergänzt mit Erkenntnissen zum Downmix und zur Programmlautheit. Ein Unterkapitel widmet sich überdies dem wichtigen Thema zur barrierefreien Kommunikation. Die heutige, IT-basierte Betriebstechnik im Hörrundfunk ist in einem neuen Kapitel ausführlich behandelt. Insbesondere die mehrschichtigen Audionetzwerke, die IT-Sicherheit und die Übertragungswege in Datennetzen der Tonstudiotechnik sind umfangreich dargestellt. Die digitalen Rundfunksysteme sowie der Film- und Fernsehton sind umfassend auf den neuesten Stand gebracht. Die Komplexität der modernen Tonstudiotechnik erfordert einen breit gefächerten Wissensstand beim Anwender. Deshalb finden sich in den Kapiteln gelegentlich Begriffe und deren Erklärungen verteilt an mehreren Stellen, wenn sie dort dem besseren Sachverständnis der Zusammenhänge dienen. Dies erhöht die Lesbarkeit, ohne zu viel auf Querverweise hindeuten zu müssen. Die unterstützenden zahlreichen Abbildungen im Text fördern zudem
Vorwort
IX
vorteilhaft das Verständnis beim Lesen. Die ausführlichen Angaben zu Standards und Literatur am Ende eines jeden Kapitels, die alphabetische Auflistung und Erläuterung häufig verwendeter Fachwörter und Abkürzungen (Englisch-Deutsch) sowie ein ausführliches Sachregister, runden die Nutzung des Buchs für den Leser ab. Die Herausgeber danken allen beteiligten Fachautoren aus Forschung, Lehre, Indus trie und Praxis für ihre neuen Beiträge, wie auch für ihre fachkundige Aktualisierung früherer Manuskripte. Einige Autoren aus der 7. und 8. Auflage konnten an dem neuen Werk leider nicht mehr mitarbeiten. Ihnen sei für die Verwendung ihrer früheren Beiträge herzlich gedankt. Dem Verband Deutscher Tonmeister (VDT) wird für die Vermittlung neuer Autoren gedankt, deren Expertise für das Gelingen des Fachbuchs wichtig war. Unser Dank geht schließlich an die Mitarbeiterinnen und Mitarbeiter des De Gruyter Verlags, die uns mit Geduld und Verständnis stets hilfreich zur Seite standen. Er gilt auch Michael Peschke, der mit gewohnter Sorgfalt das neue Layout erstellte sowie Arnd Rüttger für die neuen Abbildungen. Den Leserinnen und Lesern wünschen wir, sie mögen in diesem Handbuch nachhaltige Antworten auf alle Fragen finden, die sich in ihrem Berufsumfeld der Audiotechnik ergeben. Martin Wöhr, im Dezember 2022
Die Herausgeber Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; Studium an der Musikhochschule in Detmold mit dem Abschluss Dipl.-Tonmeister, danach Aufbau eines Studiengangs zum Toningenieur an der Universidad Austral in Chile, anschließend Studium der Musikwissenschaft mit den Nebenfächern Physik und Psychologie an der Universität Heidelberg, Promotion zum Dr. phil., von 1972 bis 2002 Dozent und Fachautor an dem zentralen Aus- und Fortbildungsinstitut der öffentlich-rechtlichen Rundfunkanstalten in Nürnberg – früher srt, heute ARD.ZDF medienakademie, Lehrbeauftragter an der Universität Heidelberg; Mitglied VDT. Buchveröffentlichungen, u. a.: Musikinstrumente, Moderne Instrumente, historische Instrumente, Klangakustik (7. Aufl. 2007), Partiturlesen, (6. Aufl. 2010, auch in Englisch, Japanisch, Chinesisch), MikrofonAufnahme, Aufnahmeräume, Instrumente, Mikrofone, Stereo- und Surroundaufnahme (4. Aufl. 2011). Dittel, Volker, Dipl.-Ing.; Studium der Elektrischen Nachrichtentechnik an der RWTH Aachen, Studienschwerpunkte Halbleitertechnik und Technische Akustik, von 1967 bis 2006 Mitarbeiter des Westdeutschen Rundfunks, Köln, in den Bereichen Hörfunktechnik, Systementwicklung und Schulung, Leiter der Fachabteilung Audiosystemtechnik, Mitglied VDT. Tätigkeitsfelder: Automatisierung von Sendeabläufen, programmbegleitende Systeme für Hörfunk und Fernsehen, digitale Aufzeichnungs-, Produktions- und Sendeeinrichtungen, Qualitätssicherung, langjähriger Vorsitzender des ARD-Arbeitskreises Audiosystemtechnik (AKAS), Lehrauftrag an der Fakultät Informations-, Medien- und Elektrotechnik der Fachhochschule Köln für Rundfunk- und Fernsehtechnik, Autor naturwissenschaftlicher Sendungen über Fernseh- und Satellitentechnik für die Dritten Programme der ARD und Mitautor der zu diesen Sendungen veröffentlichten Begleitbücher. Hoeg, Wolfgang, Dipl.-Ing.; Studium der Nachrichtentechnik/Elektroakustik an der Technischen Hochschule Dresden mit Nebenfach Tonmeister, postgrad. Studium der Automatisierungstechnik. Seit 1959 tätig in Forschung und Entwicklung im Rundfunk- und Fernsehtechnischen Zentralamt (RFZ) der Deutschen Post, ab 1991 im Forschungsinstitut (FI) der Deutschen Telekom, bis 1999 Leiter der Abt. Audiosysteme bei der Deutschen Telekom Berkom Berlin; Mitglied VDT, Fellow Member AES. Tätigkeitsfelder u. a. Psychoakustik, Tonstudiotechnologie, Tonanlagentechnik, Rundfunk-Stereofonie und Mehrkanalton, Beschallungstechnik sowie Digitaler Rundfunk (DAB), Mitarbeit internationale Standardisierung (OIRT, EBU, ITU-R, Eureka147/DAB); Lehrauftrag für Tonmeisterausbildung an der Hochschule für Musik Hanns Eisler Berlin, zahlreiche Fachpublikationen, Mitautor/Herausgeber von Fachbüchern zu Stereofonie, Akustik und Digital Audio Broadcasting. Wöhr, Martin, Dipl.-Ing. (FH); Studium der Nachrichten- und Hochfrequenztechnik an der FH München sowie Studium der Musik am Richard-Strauß-Konservatorium und an der staatl. Musikhochschule, beide in München; von 1968 bis 2005 tätig beim Bayerischen Rundfunk, Hörfunk, München, zunächst als TonmeisterTechnik, ab 1990 Leiter der Abteilung Studioproduktion und Betrieb, von 2005 - 2009 Geschäftsführer des Bildungswerks des Verbandes Deutscher Tonmeister (VDT); Mitglied VDT und Fellow Member AES. Beschäftigt als Tonmeister-Technik überwiegend in der Musikproduktion für Rundfunk und Tonträgerindustrie, Mitarbeit bei Rundfunkprojekten des Instituts für Rundfunktechnik (IRT), ab 1990 Mitarbeit in Arbeitsgruppen und Gremien der ARD und EBU, maßgebliche Mitarbeit bei der Einführung der Mehrkanalübertragung im Hörfunk in der ARD, mehrere Veröffentlichungen in Fachzeitschriften.
https://doi.org/10.1515/9783110759921-202
Verzeichnis der Autoren a Campo, Markus, Dr.-Ing. Elektrotechnik; Studium und Promotion an der RWTH Aachen; seit 1997 freiberufliche Tätigkeit; Berater und Gutachter im Bereich Informationssicherheit; ISO 27001 Lead Auditor; ISO 27001 Lead Implementer; öffentlich bestellter und vereidigter Sachverständiger. Autor des Kapitels 16.4 Arasin, Peter, Dipl.-Ing.; Sennheiser electronic, Wedemark, Ruhestand seit 2018; Produktmanager,1985-1998; Produkttrainer 1998-2018; Veröffentlichungen zur Funkmikrofontechnik, u. a. „The Sennheiser Sound Academy Wireless Handbook”. Autor der Kapitel 4.3, 4.5.2 Baumgartner, Hannah, Dipl.-Ing. Hörtechnik & Audiologie (MSc), Mediengestalterin Bild & Ton; Wissenschaftliche Mitarbeiterin Fraunhofer IDMT, Oldenburg; Mitglied VDT. Autorin des Kapitels 17.7 Bock, Stefan, Tonmeister; Geschäftsführer der msm-studios, München, GmbH & Co.KG; Mitglied VDT, AES Autor des Kapitels 15.2 Camerer, Florian, Ing.-Nachrichtentechnik; Tonmeister ORF-Fernsehen; Seminartätigkeit zu den Themen Surround-Sound und Lautheit; 10 Jahre Ton für Dokumentarfilme; seit 25 Jahren Nachbearbeitung für Neujahrskonzert; Mitglied AES, VdT, ÖTMV, Chairman EBU-Gruppe PLOUD seit 2008. Autor der Kapitel 5.6.5, 19.2, 19.4, 19.6 Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1, 2, 3, 4, 5.3, 5.6.1, 5.6.2, 5.6.3.7, 7, 8, 9 Erk, Alexander, Dipl.-Inf. (FH); ARD-Frequenzmanagement, ARD/Bayerischer Rundfunk, München. Autor des Kapitels 17.5 Färber, Nikolaus, Dr.-Ing.; Abteilungsleiter Embedded Audio, Fraunhofer IIS, Erlangen, seit 2003; Post-Doc in der Multimedia Systems Group, Stanford University, USA, 2000 – 2001; Senior Researcher Speech Processing bei Ericsson Eurolab, Nürnberg, 2001 – 2003; Leiter der 3GPP Video Codec Ad-Hoc Group zur Einführung von H.264/AVC, 2004-2005; Technischer Leiter der Internet Streaming Media Alliance (ISMA), 2004-2008; Sprecher der Open Source Software (OSS) Compliance Beauftragten am Fraunhofer IIS, seit 2021. Autor des Kapitels 17.4 Feiten, Bernhard, Dr.-Ing. Elektrotechnik; Design und Entwicklung Digitaler Musikinstrumente, msye, Berlin; Wissenschaftlicher Assistent in Fachgebieten Kommunikationstechnik und Computermusik an der Technischen Universität Berlin, 1984 – 1995; Projektleiter und Senior-Expert für Audio- / VideoStreaming und Quality of Experience bei Deutsche Telekom, 1996 – 2021; Entwicklung der App „Eternal Machine“, Entwicklung der Standards ITU Rec. BS 1387 und ITU P.1201, P.1203, P.1204; Entwicklung der App „MsyChords“. Autor der Kapitel 12.5, 12.6 Fuchs, Harald, Dipl. Ing.; Abteilungsleiter Mediensysteme und Anwendungen, Fraunhofer IIS, Erlangen. Autor der Kapitel 5.5.2, 13.2.5, 13.4.6 Genuit, Klaus, Prof. Dr.-Ing.; Geschäftsführer, HEAD acoustics GmbH, Herzogenrath; Lehrtätigkeit RWTH Aachen, Psychoakustik und Sound-Engineering; Mitglied AES, DEGA, VDE, VDI, ASA, JAES und JSAE. Autor des Kapitels 4.2.4.6 https://doi.org/10.1515/9783110759921-203
XIV
Verzeichnis der Autoren
Goeres-Petry, Jürgen, Dipl.Ing. Ton- und Bildtechnik, MBA; Programmmanager Deutschlandradio Köln/Berlin; Tonmeister Badisches Staatstheater Karlsruhe, Hessischer Rundfunk, Frankfurt, Deutschlandradio; Mitglied VDT. Autor der Kapitel 3.1, 11.2 Graubner, Maxim, Dipl.-Ing. ETiT, Nachrichten- und Kommunikationstechnik; Stabsstelle Technische Projekte im Ressort Hörfunksysteme der Hörfunkproduktion des Hessischen Rundfunks, Frankfurt; ARD-Hörfunksternpunkt 2016-2020; Trainer bei der ARD.ZDF-Medienakademie für Audio over IP und IT für die Medienproduktion seit 2015. Mitglied VDT, AES, EBU-ACIP. Autor des Kapitels 16.5.6 Graul, Wolfram, Dipl.-Tonmeister; Cheftonmeister und Abteilungsleiter Musikproduktionen, Bayerischer Rundfunk, München, im Ruhestand; Lehrauftrag Tonmeister, UdK, Berlin, 2010-2020. Autor des Kapitels 5.6.3 Grewe, Yannik, Master of Engineering – Audiovisuelle Medien, Ton; Senior Engineer für Next Generation Audio, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Bauer Studios, Ludwigsburg, 2011; Wissenschaftliche Hilfskraft, Fraunhofer IIS, 2013, Toningenieur, Schwerpunkt 3D-Audio, Next Generation Audio und MPEG-H Audio, Fraunhofer IIS, 2015-2020; Mitglied VDT, AES. Autor der Kapitel 5.5.1.1, 5.5.2 Grill, Bernhard, Prof. Dr.-Ing., Elektrotechnik; Institutsleiter am Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen, seit 2016; Honorarprofessor an der Friedrich-Alexander-Universität ErlangenNürnberg (FAU); Mitentwicklung von mp3 und AAC; Deutscher Zukunftspreis des Bundespräsidenten für die Entwicklung von mp3, (gms. mit Karlheinz Brandenburg, Harald Popp), 2000; Mitarbeit bei den ISO-Standardisierungen seit 1988. Autor des Kapitels 13 Herla, Siegbert, Dipl.-Ing.; Ruhestand seit 2013; Leiter des Arbeitsbereichs Tonstudiotechnik und Tonsignalspeicherung am Institut für Rundfunktechnik (IRT), 1983 – 1996; danach Fachreferent der Sachgebiete Aufzeichnung, Archive und Produktionssysteme Fernsehen am Institut für Rundfunktechnik (IRT); Mitarbeit in nationalen und internationalen Rundfunk- und Standardisierungsgremien, Vortragstätigkeit bei ARD/ ZDF-Akademie, Hochschulen und nationalen und internationalen Tagungen; Veröffentlichungen zur Aufzeichnung und Archivierung. Autor des Kapitels 15.1 Hildebrand, Andreas, Dipl.-Ing. Informatik; Senior Produktmanager für RAVENNA, AoIP Evangelist, ALC NetworX, München, seit 2008; Entwicklungsleiter RadioROC bei gtc Film- und Fernsehstudiotechnik, Hamburg, ab 1990; Projektleiter Einführung Nachrichtenverteilsystem bei CNN-SI (Atlanta) für Nexus Informatics, München, ab 1996 ; Produktmanagement DigaSystem bei DAVID GmbH, München ab 1997; Autor der Kapitel 16.3.1, 16.3.6, 16.3.7 Hoeg, Wolfgang, Dipl.-Ing.; siehe Verzeichnis der Herausgeber. Autor der Kapitel 1.3.5, 1.4.2, 8.1, 10,2, 13.5 bis 13.9, 17.2, 17.6, 17.7, 19.1, 19.5, 19.7, 19.8 Kratschmer, Michael, Dipl.-Ing.; Gruppenleiter Audio Metadaten, Fraunhofer-Institut für Integrierte Schaltungen (IIS), Erlangen; Editor des MPEG-D DRC Standards, Mitarbeit in internationalen Standardisierungsgremien (MPEG, SMPTE, ITU-R). Autor der Kapitel 13.2.4, 13.2.5
Verzeichnis der Autoren
XV
Kühn, Manfred, Dr.-Ing.; im Ruhestand; Entwicklungsingenieur, Labor- und Abteilungsleiter, DP Rundfunkund Fernsehtechnisches Zentralamt, 1973 - 1989; Wissenschaftlicher Mitarbeiter DBP, Forschungs- und Technologiezentrum, ab 1991; Gruppenleiter Rundfunk und Breitbandkabel der Telekom, ab 1999; Abteilungsleiter Broadcast Networks & Services der T-Systems Media & Broadcast. Mitarbeit in der OIRT, 1985-1988; Mitarbeit bei der MPEG-Standardisierung (ISO MPEG WG 12), 1991-1993; Mitarbeit bei der DVBStandardisierung im Europäischen DVB-Projekt, Mitglied in der Kammer der Technik, bis 1990; Mitglied FKTG. Autor des Kapitels 17.2.5 Lauterbach, Thomas, Prof. Dr. rer. nat., Dipl.-Phys Univ.; Professor, Technische Hochschule Georg Simon Ohm, Nürnberg; DAB-Entwicklung (Vorausentwicklung, Robert Bosch GmbH), 1992 – 1997. Mitautor der Kapitel 17.1 bis 17.3 Lott, Frank, Dipl.-Ing. Nachrichtentechnik (FH); Hauptabteilungsleiter HA Planung in der Produktions- und Technikdirektion des Bayerischen Rundfunks in München; Referent des technischen Direktors des BR, Leitung Hauptabteilung Produktion und Sendung, Vorsitz Verwaltungsrat und Beirat der ARGE RBT; Mitglied VDT. Autor des Kapitels 16.1 Lutzky, Manfred, Dipl.-Ing. Elektrotechnik; Abteilungsleiter Audio für Kommunikationssysteme, Fraunhofer IIS, Erlangen; Fraunhofer Preisträger für Entwicklung von AAC-ELD. Autor der Kapitel 13.4.10, 13.5 Maempel, Hans-Joachim, Dr. phil., Dipl.-Tonmeister; Leiter der Abteilung Akustik und Musiktechnologie | Studiotechnik und IT, Staatliches Institut für Musikforschung, Berlin; Wissenschaftlicher Mitarbeiter am Fachgebiet Audiokommunikation der TU Berlin 2006-2012; Vorstandsmitglied des VDT 2005-2009, Mitglied VDT. Autor der Kapitel 5.6.4, 6 Maniak, Stephan, Dr. habil., Dr.-Ing., Dipl.-Ing.; Software-Projektleiter bei CGI Deutschland in Bochum, tätig als wissenschaftlicher Mitarbeiter, Visiting Professor und Lehrbeauftragter in Forschung und Lehre in den Bereichen Elektrotechnik und Informatik. Autor des Kapitels 15.3 Meltzer, Stefan, Dipl.-Ing.; Chief Business Development Manager, Fraunhofer IIS, Erlangen. Autor der Kapitel 13.4.7.3, 13.4.7.4, 13.4.8.4 Mielke, Ingmar, B.Eng. Elektrotechnik; ARGE Rundfunk-Betriebstechnik, Nürnberg. Autor des Kapitels 19.3 Nettingsmeier, Jörn, Meister für Veranstaltungstechnik, Studium der Schulmusik, Folkwang Universität der Künste Essen und Universität, Duisburg-Essen; Freischaffender Tonmeister; Technischer Leiter und Live Sound Designer, Amsterdam; Vorstandsmitglied VDT, Mitglied AES. Autor des Kapitels 5.5.3.2 Neuendorf, Max, Dipl.-Ing. Elektro- und Informationstechnik an der TU München; Produktmanager und Gruppenleiter der Gruppe Audio- und Sprachcodierung, Fraunhofer Institut für Integrierte Schaltungen IIS, Erlangen; Projektleiter verschiedener ISO-Standards, u. a. ISO/IEC 23003-3 (MPEG-D USAC) und ISO/IEC 23008-3 (MPEG-H 3D Audio). Autor des Kapitels 13.4.5
XVI
Verzeichnis der Autoren
Nipkow, Lasse, Dipl. El. Ing. HTL, Zürich; Geschäftsführer, Silent Work GmbH, Zürich; Toningenieur, Hochschule der Künste (ZHdK), Zürich; Dozent für Elektrotechnik, Mikrofonierungstechnik und 3D-Audio, SAE Zürich; Wissenschaftlicher Mitarbeiter an der Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, 1998 – 2018; Mitglied VDT (Referatsleitung Musik- und Wortproduktion) und AES (Vorstandsmitglied, Schweiz). Autor der Kapitel 5.4.3, 5.4.5.3, 5.5.6.2, 5.5.6.3 Otto, Helmut, Datentechniker, im Ruhestand seit 2022; VIAVI Solutions Deutschland GmbH, Eningen, 1999-2021; Seminarleiter Netzwerktechnik, Referent bei der ARD-ZDF Medienakademie in Nürnberg und Technischen Akademie, Ostfildern. Autor der Kapitel 16.3.4, 16.3.5 Prosch, Markus, Dipl.-Inf.; Senior Engineer, Fraunhofer IIS, Erlangen; Mitglied WorldDAB Technical Committee; ehemals Chairman Arbeitsgruppen zur Standardisierung MOT und DAB+. Autor der Kapitel 17.1, 17.2, 17.5 Reykers, Heinz Peter, Dipl.-Ing.; Gehobener Ingenieur im WDR, Köln; Trainingspartner der ARD.ZDF medienakademie; Veröffentlichungen zum Mehrkanalton im Hörfunk; Mitglied VDT. Autor der Kapitel 13.4.9, 16 Romahn, Götz, Dr.-Ing., Dipl.-Ing. Nachrichtentechnik, Tonmeister, im Ruhestand; Forschung in den Bereichen Akustik und Telekommunikation; Hauptabteilungsleiter bei RIAS-Berlin/Deutschlandradio; Lehrbeauftragter an der Technischen Universität Berlin; Veröffentlichungen zu Akustik und Telekommunikation. Autor der Kapitel 12.1 bis 12.4, 14.1 Schmidt, Sven, Dipl.- Ing. (FH) Umwelttechnik/Umweltmesstechnik; Sicherheitsingenieur Hessischer Rundfunk, Frankfurt; Fachkraft für Arbeitssicherheit gemäß ASiG, seit 2009. Autor des Kapitels 11.1 Schnell, Markus, Dipl.-Ing.; Gruppenleiter Low Delay Audiocoding, Fraunhofer IIS, Erlangen; Entwicklungsleiter MPEG4 AAC-ELD, 2006-2008; Standardisierung 3GPP EVS, 2008-2014; Entwicklungsleiter LC3 / LC3plus, 2016-2020; Entwicklungsleiter LC3 / LC3plus, 2016-2020. Autor der Kapitel 13.4.10, 13.5, 13.6.3 Slavik, Karl Michael, Ing. Nachrichtentechnik und Elektronik (HTL), Dipl. Päd. für berufsbildende Schulen; Aus- und Weiterbildung in Österreich, Deutschland, England, USA; Audio-, Video und IT-Techniker, seit 1981; Toningenieur und Projektleiter beim Österreichischen Rundfunk 1999–2005, Inhaber ARTECAST Medienund Informationstechnik KG, Wien, seit 2005; Dolby Broadcast Senior Engineer & Consultant, seit 2006; Gastdozent an der ARD-ZDF-Medienakademie und an der Universität Wien; Mitarbeit in internationalen Gremien (EBU); Veröffentlichungen zur Audio- und Videotechnik. Autor des Kapitels 18 Spikofski, Gerhard, Dipl.-Ing. Elektrotechnik; im Ruhestand; Wissenschaftlicher Mitarbeiter am Institut für Rundfunktechnik (IRT), Audiosystemtechnik, 1980-2013; Projektleiter Entwicklung eines nationalen Konzepts für Lautstärke-Messung und Management für ARD und ZDF, 2000-2005; Mitarbeit in nationalen und internationalen Audiostandardisierungsgremien; Mitglied VDT. Autor des Kapitels 5.5.5.1
Verzeichnis der Autoren
XVII
Steuck, Ralf, Dipl.-Ing.; Messtechnik und Planung HF beim Norddeutschen Rundfunk; Projektleitung des ersten digitalen Funkhauses, Schwerin, 1996; Veröffentlichungen zur analogen und digitalen Tonstudiotechnik. Autor des Kapitels 14.2 Theile, Günther, Dr.-Ing.; Leiter des Sachgebiets Audiosystemtechnik am Institut für Rundfunktechnik (IRT), München, im Ruhestand; Forschungen, Entwicklungen und Veröffentlichungen zur Aufnahme- und Wiedergabetechnik, virtuellen Akustik und Datenreduktion. Mitglied VDT, AES, DEGA. Autor der Kapitel 5.1, 5.2, 5.4, 5.4.3, 5.5.3, 5.5.4 Vogt, Paul, Dipl. Ing. (FH), Nachrichten- und Kommunikationstechnik; Systemingenieur, Bayerischer Rundfunk, München; ab 2007 Audiomessingenieur, später Projektingenieur, heute Technolgieentwicklung. Autor der Kapitel 16.2.1 bis 16.2.13 Wallaszkovits, Nadja, Dr., Diplom Tonmeisterin (SAE); Professorin, Staatliche Akademie der bildenden Künste, Stuttgart; Leiterin der Audiotechnik im Phonogrammarchiv der Österr. Akademie der Wissenschaften, 2005-2020; Mitglied AES, Past President, Chair Standard group SC-03-06, Mitglied IASA, Vice Chair Technical Committee. Autorin des Kapitels 7.3 Wöhr, Martin, Dipl.-Ing (FH), Tonmeister; siehe Verzeichnis der Herausgeber. Autor des Kapitels 16.2.14 Zink, Alexander, Dipl.-Ing., MBA; Chief Business Development Manager Digital Radio & Broadcast Applications, Fraunhofer IIS, Erlangen; Aktives Mitglied von WorldDAB, Vice-Chairman DRM Consortium (Digital Radio Mondiale); seit 2008 Co-Präsident DRM Association; seit 2009 Liaison Officer und Technical Liaison Officer für Fraunhofer bei der ABU - Asia-Pacific Broadcasting Union; Verleihung des Joseph-vonFraunhofer-Preises zum Thema Digitalradio, 2016. Autor der Kapitel 17.2, 17.2.6, 17.5 Zuleeg, Ralf; Abgeschlossene Berufsausbildung, 40 Jahre praktische Beschallungserfahrung; 1995 Eintritt bei d&b Audiotechnik AG, seit 2005 d&b audiotechnik GmbH & Co.,Kg., seit 2012 Immersive Audio, Abteilungsleiter Soundscape Enablement. Autor des Kapitels 10
Nachstehende Autoren haben in früheren Auflagen mitgewirkt, ihre Beiträge sind teilweise in die aktuelle Auflage eingeflossen: Nikolaus Büttner, Ernst Dohlus, Klaus Hackbart, Christian Hartmann, Klaus M. Heidrich, Roger Heimann, Gernot Meyer-Schwarzenberger, Klemens Nicklaus, Michael Schäfer, Thomas Schierbaum, Bernhard Schullan, Henrik Schulze und Gerhard Stoll.
Inhalt Vorwort VII Die Herausgeber XI Verzeichnis der Autoren XIII 1 Grundlagen der Akustik 1 1.1 Schallschwingungen 1 1.1.1 Typen von Schallschwingungen 1 1.1.2 Eigenschaften von Schwingungen 4 1.1.2.1 Einfache Schwingungen 4 1.1.2.2 Überlagerung von Schwingungen 5 1.1.2.3 Zusammengesetzte Schwingungen 6 1.2 Schallfelder 7 1.2.1 Schallausbreitung in Luft 9 1.2.1.1 Kugelwelle und ebene Welle 12 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz 13 1.2.1.3 Schalldruckpegel 15 1.2.1.4 Schallleistung und Schallintensität 16 1.2.2 Schallausbreitung im Raum 17 1.2.2.1 Schallreflexion 18 1.2.2.2 Schallbeugung 21 1.2.2.3 Schallbrechung 22 1.2.2.4 Schallabsorption 23 1.2.2.5 Schalldämmung 29 1.3 Raumakustik 30 1.3.1 Zeitlicher Aufbau des Schallfelds 30 1.3.2 Begriffe der Hörakustik 32 1.3.3 Direktschall und erste Reflexionen 33 1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß 35 1.3.4 Hall 35 1.3.4.1 Nachhallzeit 36 1.3.4.2 Hallradius und Hallabstand 40 1.3.5 Diffusität 43 1.4 Akustik von Aufnahmestudios 44 1.4.1 Störgeräuschpegel 44 1.4.2 Raumakustik von Aufnahmestudios und Regieräumen 45 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik 47 1.4.2.2 Schallkabinen 49
XX
Inhalt
1.4.3 Akustik von Regieräumen 50 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume 50 1.4.4 Akustik großer Aufnahmestudios und Konzertsäle 51 Historische Konzertsäle, Opernhäuser und Kirchen 53 1.5 Konzertsäle des 18. Jahrhunderts 53 1.5.1 1.5.2 Konzertsäle des 19. Jahrhunderts 55 1.5.3 Konzertsäle des 20. Jahrhunderts 57 1.5.4 Opernhäuser und Theater 60 1.5.5 Kirchen 62 Standards 64 Literatur 64 2 Schallquellen 67 2.1 Menschliche Stimme 67 2.1.1 Akustische Eigenschaften 67 2.1.1.1 Sprachspektrum 69 2.1.1.2 Sprachschallpegel 71 2.1.1.3 Singstimme 71 2.1.2 Gerichtete Schallabstrahlung 72 2.1.3 Sprachverständlichkeit 73 2.2 Musikinstrumente 74 2.2.1 Akustische Eigenschaften 74 2.2.1.1 Klangeinsatz 77 2.2.1.2 Quasistationärer Klangabschnitt 77 2.2.1.3 Ausklingvorgang 80 2.2.1.4 Musikalische Dynamik 81 2.2.1.5 Stimmung der Instrumente 82 Akustische Instrumente 84 2.2.2 2.2.2.1 Streichinstrumente 85 2.2.2.2 Holzblasinstrumente 87 2.2.2.3 Blechblasinstrumente 93 2.2.2.4 Klavier und Cembalo 94 2.2.2.5 Orgel 95 Akustische Gitarre und E-Gitarre 96 2.2.2.6 2.2.2.7 Schlaginstrumente 98 2.2.3 Schallabstrahlung 99 2.2.3.1 Streichinstrumente 99 2.2.3.2 Holzblasinstrumente 102 2.2.3.3 Blechblasinstrumente 103 2.2.3.4 Konzertflügel 104 2.2.3.5 Kirchen- und Konzertorgel 105 2.2.4 Elektronische Instrumente 105 2.2.4.1 Historische Entwicklung 106 2.2.4.2 Elektronische Klangerzeugung 107
Inhalt
Verfahren der elektronischen Klangveränderung 109 2.2.4.3 2.2.4.4 Klangsteuerung durch MIDI 111 2.2.4.5 Keyboards und Rhythmusgeräte 114 Standards 115 Literatur 115 3 Schallwahrnehmung 117 3.1 Das Gehör 117 3.1.1 Außenohr 117 3.1.2 Mittelohr 118 3.1.3 Innenohr 118 3.2 Schallereignis und Hörereignis 120 3.3 Eigenschaften der Schallwahrnehmung 121 3.3.1 Lautstärkepegel und Lautheit 121 3.3.2 Anpassung und Maskierung 125 3.3.3 Tonhöhe 126 3.3.4 Nichtlineare Verzerrungen 127 3.3.5 Rauheit und Schärfe 127 3.3.6 Subjektive Tondauer 128 3.3.7 Hörbarkeit von Phasenänderungen 128 3.3.8 Psychoakustisches Modell 129 3.4 Räumliches Hören natürlicher Schallquellen 129 3.4.1 Wahrnehmung der Richtung 131 3.4.1.1 Horizontale Ebene 131 3.4.1.2 Vertikale Ebene 133 3.4.2 Wahrnehmung der Entfernung 134 3.4.2.1 Im-Kopf-Lokalisierung 135 Standards 136 Literatur 136 Mikrofone und Lautsprecher 139 4 Physikalische Prinzipien der Schallwandler 139 4.1 4.2 Mikrofone 142 4.2.1 Eigenschaften von Mikrofonen 144 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit 144 4.2.1.2 Übertragungsbereich 144 4.2.1.3 Frequenzgang 145 4.2.1.4 Störpegel 149 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze 151 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz 151 4.2.1.7 Richtcharakteristik 151 4.2.1.8 Bauformen von Mikrofonen 156 4.2.1.9 Wind- und Poppstörungen 166 Störungen durch Körperschall 168 4.2.1.10
XXI
XXII
Inhalt
4.2.2 Kondensatormikrofone 169 4.2.2.1 Spannungsversorgung 169 4.2.2.2 Mikrofon-Vorverstärker mit analogem Ausgang 171 Mikrofon-Vorverstärker mit digitalem Ausgang 173 4.2.2.3 4.2.2.4 Druckempfänger 177 4.2.2.5 Druckgradientenempfänger 178 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik 180 4.2.2.7 Stereomikrofone 181 4.2.3 Dynamische Mikrofone 184 4.2.3.1 Tauchspulmikrofon 185 Bändchenmikrofon 187 4.2.3.2 4.2.4 Spezialmikrofone 188 4.2.4.1 Kardioidebenenmikrofon 188 4.2.4.2 Grenzflächenmikrofon 189 4.2.4.3 Großmembran- und Röhrenmikrofon 191 4.2.4.4 Lavalier-Mikrofon 192 4.2.4.5 Kontaktmikrofon 193 4.2.4.6 Kunstkopf-Mikrofon 193 4.2.5 Mikrofonständer 199 4.3 Einrichtungen für drahtlose Mikrofone 200 4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 201 4.3.1.1 Sender 201 4.3.1.2 Frequenzzuteilung 206 4.3.1.3 Stromversorgung 208 4.3.1.4 Antennen und Wellenausbreitung 208 4.3.1.5 Empfänger 210 4.3.1.6 Diversity-Empfang 211 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung 212 4.3.2 4.4 Lautsprecher 215 4.4.1 Bauformen 216 Dynamische Lautsprecher 216 4.4.1.1 Elektrostatischer Lautsprecher 221 4.4.1.2 Akustischer Kurzschluss und Lautsprecherboxen 222 4.4.1.3 4.4.1.4 Regielautsprecher 224 4.5 Kopfhörer 224 4.5.1 Bauformen von Kopfhörern 225 4.5.2 Einrichtungen für drahtlose Kopfhörer 226 Standards 229 Literatur 229 Tonaufnahme und Tonwiedergabe 231 5 5.1 Prinzipien der räumlichen Tonübertragung 231 5.1.1 Lautsprecher-Stereofonie 232 5.1.2 Synthese des umgebenden Schallfelds 233
Inhalt
XXIII
Binaurale Reproduktion der Ohrsignale 234 5.1.3 5.2 Stereofonie 235 5.2.1 Phantomschallquellen 235 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen 236 Phantomschallquellen bei Zeitdifferenzen 238 5.2.1.2 Phantomschallquellen beim Zusammenwirken von Pegel- und 5.2.1.3 Laufzeitdifferenzen 239 5.2.1.4 Seitliche Phantomschallquellen 240 5.2.1.5 Stereohörzonen 243 5.2.2 Aufnahmewinkel eines Stereomikrofons 245 5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen 246 5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen 247 5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen 248 5.2.2.4 Berechnungswerkzeuge 249 5.2.3 Theorien zur Lokalisierung von Phantomschallquellen 251 5.2.3.1 Summenlokalisierung 251 5.2.3.2 Assoziationsmodell 252 5.2.4 Räumliche stereofone Abbildung 254 5.2.4.1 Prinzipien der Zweikanal-Stereofonie 255 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie 257 5.2.5 Begriffe zur stereofonen Richtungsabbildung 259 5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren 260 5.3 Zweikanal-Stereofonie 262 5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren 262 5.3.2 Intensitätsstereofonie 267 5.3.2.1 XY-Mikrofonverfahren 268 5.3.2.2 MS-Mikrofonverfahren 271 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren 272 5.3.2.4 Praktischer Einsatz von Stereomikrofonen 273 5.3.3 Laufzeitstereofonie 274 5.3.3.1 Klein-AB 275 5.3.3.2 Groß-AB 277 5.3.3.3 Decca-Tree 278 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie 278 5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie 280 5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz 282 5.3.4.2 ORTF-, EBS- und NOS-Verfahren 283 5.3.4.3 Kugelflächenmikrofon 284 5.3.4.4 Andere Trennkörper 287 5.3.5 Stützmikrofonverfahren 288 5.3.5.1 Monostützmikrofone 290 5.3.5.2 Stereostützmikrofone 291 Verzögerte und raumbezogene Stützmikrofone 291 5.3.5.3 5.3.6 Einzelmikrofonverfahren 293
XXIV
Inhalt
5.3.7 Überwachung der Stereosignale 294 5.3.8 Monokompatibilität 297 5.4 Mehrkanal-Stereofonie 299 5.4.1 Mehrkanal-Standard 299 5.4.1.1 3/2-Lautsprecheranordnung 299 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme 301 5.4.1.3 Tieftonwiedergabe 302 5.4.2 Stereofonie in den Sektoren L-C und C-R 304 5.4.2.1 Doppel-Stereoverfahren 305 5.4.2.2 Mehrfach-AB-Verfahren 307 5.4.2.3 Decca-Tree 308 5.4.2.4 OCT-Verfahren 310 5.4.3 Einsatz der Surround-Kanäle 314 5.4.3.1 Surround Sound-Hauptmikrofone 317 5.4.3.2 Raummikrofone 323 5.4.3.3 Reportage und Dokumentation 326 5.4.4 Verwendung von Delay 327 5.4.4.1 Delay bei Einsatz von Hauptmikrofonen 328 5.4.4.2 Delay-Plan 330 5.4.4.3 Digitale Signalverarbeitung 331 5.4.5 Einsatz von Höhenlautsprechern 331 5.4.5.1 Nutzen der Höhenlautsprecher 334 5.4.5.2 Anwendung der Höhenlautsprecher 335 5.4.5.3 Höhenlautsprecher für immersiven Sound 338 5.5 Verfahren der räumlichen Tonübertragung 343 Kanalbasierte Verfahren 343 5.5.1 Nomenklatur und Notation 343 5.5.1.1 Objektbasierte Verfahren 346 5.5.2 5.5.2.1 Grundprinzipien von objektbasierten Verfahren 346 5.5.2.2 Die Aufgaben des Renderers 347 Personalisierung und Interaktion 349 5.5.2.3 5.5.2.4 Metadaten 349 Universelle Übertragung 351 5.5.2.5 Flexible Wiedergabemöglichkeiten 352 5.5.2.6 5.5.3 Schallfeldsynthese 353 5.5.3.1 Wellenfeldsynthese 354 5.5.3.2 Ambisonics 364 5.5.4 Kopfhörerwiedergabe 369 Phantomschallquellen im Kopf 371 5.5.4.1 5.5.4.2 Entzerrung der Kopfhörer 371 5.5.5 Binaurale Verfahren 374 Kopfbezogene Übertragung 374 5.5.5.1 5.5.5.2 Praktische Anwendung 377 5.5.5.3 Lautsprecherwiedergabe 377
Inhalt
5.5.6 Binauralisierung 378 5.5.6.1 Binaurale Raumsynthese 378 5.5.6.2 Externalisierung 380 5.5.6.3 Werkzeuge für Binauralisierung 381 Gestaltung des Klangbilds 383 5.6 Grundsätze klanglicher Gestaltung 384 5.6.1 5.6.2 Klangliche Aspekte von Wortproduktionen 387 5.6.2.1 Sprachaufnahmen 389 5.5.2.2 Gesprächsrunden 392 5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik 393 5.6.3.1 Aufnahmeräume 394 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis 396 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds 401 5.5.3.4 Wiedergabedynamik 402 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie 402 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe 403 5.6.3.7 Historischer Rückblick 404 5.6.4 Klangliche Aspekte bei der Produktion populärer Musik 405 5.6.4.1 Rahmenbedingungen 406 5.6.4.2 Ziele der Klangbildgestaltung 407 5.6.4.3 Mittel der Klangbildgestaltung 408 5.6.4.4 Psychologische Prinzipien 408 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung 409 5.6.4.6 Alltagsbefunde zur Klangbildgestaltung 411 5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen 413 5.6.5.1 Unterhaltung und Show 414 5.6.5.2 Oper 416 5.6.5.3 Sport 417 5.6.5.4 Reportage, Magazin und Dokumentation 418 5.6.5.5 Spielfilm 419 5.6.5.6 Fernsehspiel und Sitcom 420 Standards 420 Literatur 421 6 Klanggestaltung 427 Abbildungsrichtung und Abbildungsbreite 427 6.1 6.1.1 Panorama-Potentiometer und Balanceregler 428 6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer 433 Dynamik und Lautheit 435 6.2 6.2.1 Kompressor und Limiter 435 6.2.1.1 Statisches Verhalten 436 6.2.1.2 Dynamisches Verhalten 438 6.2.1.3 Erweiterte Anwendungen 440
XXV
XXVI
Inhalt
6.2.2 Expander und Gate 442 6.2.2.1 Statisches Verhalten 442 6.2.2.2 Dynamisches Verhalten 444 Erweiterte Anwendungen 444 6.2.2.3 Kombinierte Regelverstärker 444 6.2.3 6.3 Klangfarbe 446 6.3.1 Klassische Filter 446 6.3.1.1 Hochpassfilter 447 6.3.1.2 Tiefpassfilter 448 6.3.1.3 Bandpassfilter 449 6.3.1.4 Bandsperre 449 6.3.1.5 Spezialfilter 450 6.3.2 Equalizer 451 6.3.2.1 Glockenfilter 452 6.3.2.2 Schelf-Filter 453 6.3.3 Verzerrer 454 6.3.4 Enhancer 455 6.4 Tonhöhe und Tondauer 456 6.4.1 Pitch Shifting 456 6.4.2 Time Stretching 457 6.5 Raumeindruck 458 6.5.1 Analoge Hallerzeugung 459 6.5.1.1 Hallplatte 459 6.5.1.2 Hallfolie 460 6.5.1.3 Hallfeder 460 Digitaler algorithmischer Hall 461 6.5.2 Digitaler Faltungshall 463 6.5.3 Komplexe Klangveränderungen 464 6.6 6.6.1 Tremolo und Vibrato 464 6.6.2 Wah-Wah 464 6.6.3 Verzögerungseffekte 465 6.6.4 Phaser 468 6.6.5 Ringmodulator 469 6.6.6 Leslie-Kabinett 470 6.6.7 Vocoder 470 6.6.8 Kombinierte und neue Audiobearbeitungsmittel 472 6.7 Klangästhetische Aspekte 473 Zusammenhang von Reiz- und Wahrnehmungsmerkmalen 473 6.7.1 Klang und Bedeutung 474 6.7.2 6.7.3 Medienästhetische Ideale 475 6.7.4 Die Aufmerksamkeit des Hörers 476 Literatur 477
Inhalt
Analoge Tonsignalspeicherung 483 7 7.1 Magnetische Tonsignalspeicherung 484 7.1.1 Grundlagen des Magnetismus 484 7.1.1.1 Magnetisches Feld 484 Magnetische Induktion 486 7.1.1.2 7.1.1.3 Hysteresisschleife 487 7.1.2 Aufzeichnung mit Magnetton 488 7.1.2.1 Prinzip 489 7.1.2.2 Magnettonbänder 490 7.1.2.3 Aufzeichnungsvorgang 493 7.1.2.4 Elektroakustische Eigenschaften von Magnetbändern 497 7.1.2.5 Wiedergabevorgang 505 7.1.2.6 Entzerrung des Frequenzgangs 506 7.1.2.7 Löschvorgang 511 7.1.3 Systeme zur Rauschverminderung 512 7.1.3.1 Telcom-Verfahren 513 7.1.3.2 Dolby-Verfahren 516 7.1.4 Bandschnitt und Kennbänder 518 7.1.5 Studio-Magnettonanlagen 519 7.1.5.1 Studio-Magnettonlaufwerke 520 7.1.5.2 Magnettonköpfe 523 7.1.5.3 Mehrspur-Magnettonanlagen 524 7.1.5.4 Aufzeichnung von Mono- und Stereosignalen 525 7.2 Mechanische Schallspeicherung 527 7.2.1 Aufzeichnungsverfahren 527 7.2.1.1 Mono- und Stereoaufzeichnung 528 7.2.1.2 Lichtbandbreite 530 7.2.1.3 Schneidkennlinien 530 7.2.2 Schallplattenherstellung 532 7.2.2.1 Lackplatten-Schneidverfahren 532 7.2.2.2 DMM-Schneidverfahren 533 7.2.3 Wiedergabe 533 7.2.3.1 Abtastsysteme 534 7.2.3.2 Tonarm 536 7.2.3.3 Geometrische Abtastverzerrungen 537 7.2.3.4 Laufwerk 539 7.2.3.5 Verstärker 540 7.3 Langzeitlagerung und Datenerhalt von Tonträgern 540 7.3.1 Umgebungseinflüsse 541 7.3.2 Notfallplanung und Katastrophenschutz 548 Standards 550 Literatur 551
XXVII
XXVIII
8 8.1
Inhalt
Analoge Tonregieanlagen 553 Historische Entwicklung von der analogen bis zur digitalen Technik von Tonmischpulten 554 Aufbau einer Tonregieanlage 559 8.2 Leitungsführung und Anpassung 562 8.3 8.3.1 Symmetrie und Erdfreiheit 563 8.3.2 Schirmung 565 8.3.3 Kabellänge und Kabelführung 565 8.3.4 Zusammenschaltung 567 8.3.5 Erdung 568 8.3.6 Anpassung 570 8.4 Leitungsverbindungen 572 8.4.1 Klinkensteckverbindungen 573 8.4.2 Koppelfelder 575 8.4.2.1 Komplexe Koppelfelder 579 8.4.3 Kabelsteckverbindungen 581 8.4.4 Schalter 582 8.5 Mikrofonverstärker 584 8.5.1 Verstärkungseinstellung 586 8.5.2 Frequenzgang 586 8.5.3 Störpegel und Aussteuerungsfestigkeit 588 8.5.4 Mikrofon-Trennverteiler 589 8.5.5 Kommandoverstärker 589 8.6 Anschluss externer Geräte 589 8.6.1 Brummstörungen 590 Brummstörungen bei Verwendung eines Netz-Trenntransformators 591 8.6.1.1 Brummstörungen durch Masseschleifen 592 8.6.1.2 Brummstörungen durch Mehrfacherdung 592 8.6.1.3 8.6.2 DI-Box 593 8.7 Pegelsteller 595 VCA- und Motorpegelsteller 595 8.7.1 8.7.2 Überblendregler 598 Elektronische Blender 598 8.7.3 Richtungsbeeinflussung bei Intensitätsstereofonie 599 8.8 Panorama-Potentiometer oder Pan-Pot 601 8.8.1 8.8.2 Richtungsmischer 602 8.9 Knotenpunkte 605 Knotenpunkte mit Spannungsanpassung 605 8.9.1 Knotenpunkte mit Stromanpassung 606 8.9.2 8.9.2.1 Universalverstärker als Knotenpunktverstärker 608 8.10 Hilfssummen 610 Schaltungen für künstliche Verhallung 613 8.10.1 8.10.2 Schaltungen für Ausspielwege 615
Inhalt
Spezial- und Universalverstärker 616 8.11 8.11.1 Spannungsverstärker 616 8.11.1.1 Aufholverstärker 618 8.11.1.2 Trenn- und Verteilerverstärker 618 8.11.2 Universalverstärker 620 8.11.2.1 Pegelverstärker 621 8.11.2.2 Knotenpunktverstärker 621 8.11.2.3 Trennverstärker 622 8.11.3 Anpassverstärker 623 8.11.4 Leistungsverstärker 624 8.12 Einrichtungen für die akustische Signalüberwachung 624 8.12.1 Einrichtungen und Kontrollpunkte für Abhören 625 8.12.1.1 Abhöreinheit 626 8.12.2 Vorhören, Solo, Mute 631 8.12.3 Mithören 632 8.12.4 Pegeltongenerator 633 8.13 Tonregieanlagen in Kassettentechnik 633 Standards 638 Literatur 638 9 Analoge Tonstudiomesstechnik 639 9.1 Verstärkung und Dämpfung 639 9.1.1 Betriebsgrößen 641 9.1.2 Ein- und Ausgangsscheinwiderstand 642 9.1.3 Symmetrie 642 9.2 Verzerrungen 643 9.2.1 Lineare Verzerrungen 644 9.2.2 Nichtlineare Verzerrungen 646 9.2.2.1 Messverfahren 648 9.3 Störspannungen 652 9.3.1 Unbewertete Störspannungen 652 Bewertete Störspannungen 653 9.3.2 Systemrauschen und Betriebskennlinie 654 9.3.3 9.3.4 Tief- und Hochfrequenzfestigkeit, Knackstörungen 656 9.4 Stereoparameter 656 Pegeldifferenz zwischen Stereokanälen 656 9.4.1 9.4.2 Phasendifferenz zwischen Stereokanälen 657 9.4.3 Übersprechen 659 9.5 Schalldruckpegel 659 9.5.1 Bewertete Schalldruckpegel 660 9.5.2 Lautstärkepegel und Lautheit 661 9.6 Messungen an Mikrofonen 662 9.6.1 Feld-Übertragungsfaktor und Feld-Übertragungsmaß 663 9.6.2 Frequenzgang 663
XXIX
XXX
Inhalt
9.6.3 Gerichteter Schallempfang 664 9.6.3.1 Richtungsfaktor, Richtungsmaß und Richtcharakteristik 664 9.6.3.2 Bündelungsfaktor, Bündelungsgrad und Bündelungsmaß 664 Grenzschalldruck und Klirrfaktor 665 9.6.4 9.6.5 Ersatzgeräuschpegel 666 9.7 Messungen an Lautsprechersystemen 666 9.7.1 Analoge Messmethoden 666 9.7.1.1 Übertragungsmaß und Frequenzgang 666 9.7.1.2 Scheinwiderstand 668 9.7.1.3 Richtcharakteristik 668 9.7.1.4 Kennschalldruckpegel 669 9.7.2 Digitale Messmethoden: MLS-Messungen 669 9.8 Messungen und Einstellungen an Magnettonanlagen 670 9.8.1 Einstellungen und Prüfungen 670 9.8.1.1 Mechanische Funktionen 670 9.8.1.2 Entmagnetisierung 671 9.8.1.3 Wiedergabekanal 672 9.8.1.4 Aufnahmekanal 673 9.9 Messungen an Plattenspielern 675 9.10 Pegel und Pegelmaße 676 9.10.1 Pegel 676 9.10.2 Relativer und absoluter Spannungspegel 677 9.10.3 Funkhauspegel 678 9.10.4 Rechnen mit Pegeln 680 9.10.4.1 Verstärkung und Dämpfung von Pegeln 680 Addition von Spannungen und Pegeln 681 9.10.4.2 9.10.4.3 Pegeldiagramme 683 Standards 683 Literatur 684 10 Beschallung 685 10.1 Raumakustik im Zusammenwirken mit Beschallungsanlagen 686 10.1.1 Reflexionen 686 Erste Reflexionen 686 10.1.2 10.1.3 Fokussierung 687 10.1.4 Stehende Wellen 687 10.1.5 Raumresonanzen 688 10.1.6 Nachhall 688 10.1.7 Hallradius 689 10.2 Grundlegende Beschallungskonzepte 690 10.2.1 Von der zentralen zur dezentralen Beschallung 690 10.2.1.1 Zentrale Beschallung 690 10.2.1.2 Dezentrale Beschallung 691 10.2.2 Überwindung des Hallradius und Nutzung des Diffusfelds 693
Inhalt
10.2.3 Lautsprecherpositionen 694 10.2.3.1 Frontale Beschallung mit horizontaler Position 694 10.2.3.2 Frontalbeschallung mit vertikaler Position 696 10.2.3.3 Einsatz von Delay-Lautsprechern 696 Bühnenrandbeschallung, Nahfeld 698 10.2.3.4 Einsatz und Positionierung von Subwoofer 699 10.2.3.5 10.2.3.6 Centercluster 701 10.3 Richtungsbezogene, objektbasierte Beschallung 701 10.3.1 Lokalisation 702 10.3.2 Verfahren der richtungsbezogenen Beschallung 703 10.3.2.1 Laufzeit- oder Deltastereophonie 703 10.3.2.2 Wellenfeldsynthese 704 10.3.2.3 Vector Based Amplitude Panning 705 10.3.3 Aufbau einer objektbasierten Beschallungsanlage 707 10.3.3.1 Signalfluss und Steuerung 707 10.3.3.2 Frontal- und Surround- und Höhenlautsprecher 708 10.3.4 Vorteile und Grenzen der objektbasierten Beschallung 708 10.4 Künstliche Nachhallsysteme 709 10.4.1 Regenerative Systeme 709 10.4.2 Faltungs- oder Convolver-Systeme 711 10.4.3 Kombinierte Systeme 712 10.5 Beschallungsausrüstung 713 10.5.1 Lautsprecher 713 10.5.1.1 Kennschalldruckpegel und Wirkungsgrad 713 10.5.1.2 Nennleistung 714 10.5.1.3 Spitzenschalldruck 714 10.5.1.4 Frequenzgang 715 10.5.1.5 Phasenlage 716 10.5.1.6 Richtwirkung 716 10.5.1.7 Abstrahlwinkel 718 10.5.1.8 Methoden für Richtwirkung von Lautsprechern 720 10.5.1.9 Arrays 723 10.5.1.10 Line Arrays 725 10.5.1.11 Monitorbeschallung 727 10.5.1.12 In Ear Monitoring 728 10.5.2 Mischpulte 728 10.5.2.1 FOH, Front Of House 728 10.5.2.2 Monitormischpulte 729 10.5.3 Equalizer 729 10.5.3.1 Parametrischer Equalizer 730 10.5.3.2 Grafischer Equalizer 731 10.5.4 Effekte 732 10.5.4.1 Hall 732 10.5.4.2 Delay-Echo 732
XXXI
XXXII
Inhalt
10.5.4.3 Delay-Signallaufzeit 732 10.5.4.4 Kompressor, Limiter, Noise Gate 732 10.5.5 Mikrofone 733 Rückkopplungsempfindlichkeit bei Mikrofonen 733 10.5.5.1 Bühnentauglichkeit und Grenzschalldruck 734 10.5.5.2 10.5.6 Controller 734 10.5.6.1 Frequenzgangkorrektur 734 10.5.6.2 Phasenkorrektur, Alignment 734 10.5.6.3 Schutzschaltung 735 10.5.7 Verstärker 735 Dimensionierung von Verstärkern 735 10.5.7.1 10.5.7.2 Rückwärtsdämpfung 736 10.5.8 Kabel, Querschnitte 737 10.6 Strukturierte Inbetriebnahme 737 10.6.1 Systemanpassung 737 10.6.2 Delayanpassung 738 10.6.3 Raumentzerrung und Hauptequalizer 738 10.6.4 Sonderfall Open Air Beschallung 739 10.7 100 V-Technik 739 10.8 Planungs- und Simulationssoftware für Beschallungsanlagen 740 Literatur 742 11 Arbeitssicherheit und Gesundheitsschutz 743 11.1 Arbeitssicherheit 743 11.1.1 Allgemeines 743 11.1.1.1 Das duale System im Arbeitsschutz 743 11.1.1.2 Staatliche Institutionen im Arbeitsschutz 744 Berufsgenossenschaftlicher Arbeitsschutz 744 11.1.1.3 11.1.1.4 Einfluss der EU 745 11.1.2 Richtlinien und Regelwerke 746 EG-Richtlinie 2003/10/EG „Lärm“ 746 11.1.2.1 11.1.2.2 Sicherheitsvorschriften für Produktionsstätten 746 Das Arbeitsschutzgesetz 748 11.1.2.3 Die Betriebssicherheitsverordnung 748 11.1.2.4 11.1.2.5 Die Musterversammlungsstättenverordnung 748 11.1.2.6 Berufsgenossenschaftliche Vorschriften und Regeln 749 11.1.3 Verantwortlichkeiten 749 Arten der Verantwortung 750 11.1.4 11.1.5 Gefährdungsbeurteilung 753 11.2 Gesundheitsschutz 755 11.2.1 Gehörgefährdung durch elektroakustische Beschallung 755 11.2.2 Hörschädigungen 757 11.2.2.1 Gehörschaden aus arbeitsmedizinischer Sicht 757 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung 758
Inhalt
Fehlender Lautheitsausgleich 758 11.2.2.3 11.2.2.4 Stapediusreflex 759 11.2.2.5 Gehörschäden und Musik 759 11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5 760 11.2.3.1 Verkehrssicherungspflicht 760 Schutzmaßnahmen und Information 761 11.2.3.2 11.2.3.3 DIN-Anhang 762 11.2.4 Messung der Schallimmission 763 11.2.4.1 Konsequenz der DIN 15905-5 765 11.2.4.2 Die Praxis für Veranstaltungen 765 11.2.4.3 Probleme der Norm DIN-15905-5 766 11.2.5 Elektrische Sicherheit 767 11.2.5.1 Produktionsstätten beim Hörfunk 768 11.2.5.2 Kabelverlegung 769 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen 769 11.2.5.4 Gefahren des elektrischen Stroms 769 11.2.5.5 Schutz vor einem elektrischen Schlag 771 11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen 776 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen 776 11.2.7 Verhalten bei Stromunfällen 780 Standards 781 Literatur 782
XXXIII
1 Grundlagen der Akustik
Michael Dickreiter, Wolfgang Hoeg (1.3.5 und 1.4.2)
Der Begriff Schall bezeichnet hörbare mechanische Schwingungen, Wellen und Felder eines elastischen Mediums. Die Akustik ist die Wissenschaft, die sich mit diesen Phänomenen befasst, also nicht nur auf den Bereich des Hörbaren beschränkt ist. Nur in einem Medium aus schwingungsfähiger Materie können sich Schallwellen ausbreiten, das kann Luft (Luftschall), Wasser (Wasserschall) oder ein Festkörper (Körperschall) sein. Vielfach wird Schall als Körperschall erzeugt und dem Ohr oder Mikrofon durch das Medium Luft als Luftschall übermittelt. Liegen diese Schallwellen im Hörbereich, haben sie also Frequenzen zwischen 16 Hz und 20 kHz, so spricht man von Hörschall, liegen ihre Frequenzen unter 16 Hz, spricht man von Infraschall, liegen sie über 20 kHz bis 1 GHz = 1.000 MHz, von Ultraschall. Bei Frequenzen über 1 GHz spricht man von Hyperschall. Schall im alltäglichen Sinn ist nur der hörbare Schall, sog. Hörschall. Eine Schallschwingung wird von einem einzelnen Teilchen eines elastischen Mediums, z. B. einem Luftmolekül, ausgeführt. Hierbei werden zwei Energieformen periodisch abwechselnd ineinander umgewandelt, meist potentielle Energie in kinetische Energie und umgekehrt. Die Schwingungslehre beschreibt die Gesetzmäßigkeiten (Kap. 1.1). Eine Schallwelle ist die Gesamtheit schwingender Teilchen, die sich in einem elastischen Medium mit einer (Saite, Stab), zwei (Platte) oder drei Dimensionen (Körper, Luftraum) von einer Schallquelle ausgehend ausbreiten. Schallwellen transportieren Energie, nicht Materie (Kap. 1.2). Ein Schallfeld ist ein räumlich ausgedehntes Gebiet, in dem sich Schallwellen ausbreiten und sich in komplexer Weise überlagern. Ein Schallfeld in einem geschlossenen Raum mit der Gesamtheit der Phänomene wird durch die Raumakustik beschrieben (Kap. 1.3 ff.). In Kapitel 2 werden Schallquellen, eingeschränkt auf die Akustik von Musikinstrumenten und der menschlichen Stimme, dargestellt, in Kapitel 3 die Phänomene der Schallwahrnehmung durch das Gehör. [Meyer, 2015, [Reuter, 2014], [Weinzierl, 2014] Die Akustik gehört damit zu den wichtigsten Grundlagen der klassischen wie auch der modernen Audiotechnologie. Akustik beschreibt zunächst physikalische und subjektive Phänomene der analogen Technik, sie wird jedoch zunehmend von Lösungen und Anwendungen der digitalen Audiotechnik unterstützt.
1.1 Schallschwingungen 1.1.1 Typen von Schallschwingungen Zur Bezeichnung der verschiedenen Typen von Schallschwingungen oder Schallformen kann man sich entweder der physikalisch-akustischen Begriffe oder der ästhetisch-musikpsychologischen Begriffe bedienen; eine Vermischung beider Begriffsfamilien führt zu Missverständnissen, da gleiche Wörter in verschiedenen Bedeutungen verwendet werden.
https://doi.org/10.1515/9783110759921-001
2
1 Grundlagen der Akustik
In der Akustik unterscheidet man verschiedene Arten von Schallformen, Grundbegriffe sind in [DIN 1320] definiert. Die folgenden Schallformen sind aus einzelnen, diskreten, oder in der Realität endlich vielen sinusförmigen Komponenten zusammengesetzt (Tab. 1/1): Ton oder reiner Ton: Sinusförmige Schallschwingung im Hörbereich. Die in der Musik übliche Bestimmung des Begriffs Ton weicht von derjenigen in der Akustik ab; in der Musik wird das Schallereignis, das einer einzelnen Note entspricht, Ton genannt. In der Terminologie der Akustik wäre dies ein Klang, der meist zusätzlich Geräuschanteile enthält. Tongemisch: Aus Tönen beliebiger Frequenzen zusammengesetzter Schall. Einfacher oder harmonischer Klang: Hörschall, der aus einem Grundton und einer Reihe von Obertönen besteht, deren Frequenzen ganzzahlige Vielfache dieses Grundtons sind. In der Begriffssprache der Musik entspricht dies weitgehend dem Ton im Sinn einer Note. Mehrfacher Klang oder Klanggemisch: Hörschall, der aus mehreren einfachen Klängen zusammengesetzt ist. Eine exakte musikpsychologische Bestimmung der Begriffe „Ton“ und „Klang“ ist im Gegensatz zur physikalisch-akustischen Definition nicht möglich. Der Ton eines Musikinstruments, z. B. einer Violine, kann sich auf eine einzelne gespielte Note oder auf den Klangcharakter aller Töne, also auf den Klangcharakter des Instruments überhaupt beziehen. Ein Klang kann im engeren Sinn ein Akkord sein, aber auch der Klangcharakter eines Instruments, z. B. „Hörnerklang“, oder auch des ganzen Orchesters. Ein Ton oder ein Klang kann physikalisch-akustisch gesprochen Anteile eines einfachen oder mehrfachen Klangs, eines Schallimpulses und von Rauschen enthalten. Die Begriffe Ton und Klang sind als musikalisch-psychologische und ästhetische Begriffe also nicht genau definierbar; man könnte sie allenfalls als sinnvoll durchstrukturierte, gewollte Schallereignisse bezeichnen, die die Elemente der Musik bilden. Das Gegenteil eines sinnvoll durchstrukturierten Schallereignisses ist Lärm, er stört, belästigt, verursacht Ärger. Auch dem Lärm entsprechen nicht bestimmte physikalische Eigenschaften eines Schallereignisses. Denn auch ein einzelner Sinuston oder sogar Musik können Lärm sein, wenn sie als störend empfunden werden; hierbei ist also die Einstellung des Hörers zum jeweiligen Schallereignis bestimmend. Tab. 1/1 fasst die terminologischen Entsprechungen in Akustik und Musik zusammen. Da die musikpsychologischen Begriffe nicht objektiv und eindeutig definierbar sind, werden bei der Beschreibung der Schallformen nachfolgend möglichst physikalisch-akustische Begriffe verwendet. Tab. 1/1. Begriffliche Entsprechungen von Ton und Klang in Akustik und Musik. Begriffe in der Akustik
Begriffe in der Musik
Ton, Sinuston, reiner Ton, einfacher Ton Tongemisch Klang, harmonischer Klang Klanggemisch, mehrfacher Klang
Ton, in der Musik selten Klang, in der Musik selten Ton Klang, Zusammenklang, Akkord
Eine zweite Gruppe von Schallformen ist in komplexer Weise aus theoretisch unendlich vielen, dicht nebeneinander liegenden Komponenten zusammengesetzt, diese Schallformen sind als Höreindruck geräuschhaft:
1.1 Schallschwingungen
3
Schallimpuls: Einmaliges Schallereignis von kurzer Dauer. Tonimpuls: Ton von kurzer Dauer. Rauschen: Fortdauerndes Schallsignal statistischer Natur, zusammengesetzt aus unendlich vielen, mit ihrer Frequenz unendlich nahe beieinander liegenden Tönen mit unterschiedlichen Amplituden und Phasenlagen, das als kontinuierliches Frequenzspektrum dargestellt werden kann, besondere Formen sind das „Weiße Rauschen“ und das „Rosa Rauschen“: Weißes Rauschen: Fortdauerndes Schallsignal, das theoretisch aus unendlich vielen, in ihrer Frequenz unendlich dicht nebeneinander liegenden sinusförmigen Schwingungen besteht. Theoretisch ist der Frequenzbereich bei Weißem Rauschen nach oben hin nicht begrenzt, wodurch Weißes Rauschen aus unendlich vielen Schwingungskomponenten mit in ihrer Summe unendlich hoher Leistung bestehen würde. Praktisch erstreckt sich aber das Frequenzband des Weißen Rauschens von 0 Hz aufwärts nicht bis ins Unendliche, sondern ist mehr oder weniger bei hohen Frequenzen begrenzt, z. B. bei der Obergrenze hörbaren Schalls, also bei der Hörgrenze mit 16 bis 20 kHz, oder mit steigender Frequenz zunehmend durch das Übertragungssystem bedämpft. Die sinusförmigen Komponenten, also Töne im physikalischen Sinn, haben nur statistisch betrachtet gleiche Amplituden, d. h., ihre Amplituden sind nicht in jedem Augenblick gleich, sondern nur im statistischen Mittel über einen längeren Zeitraum; ihre Phasenwinkel sind ebenfalls statistisch und voneinander unabhängig verteilt. Es ist deshalb nicht möglich, aus Weißem Rauschen ein schmalbandiges Rauschen oder gar einen Sinuston mit konstanter Amplitude herauszufiltern. In der subjektiven Wahrnehmung als Hörereignis ist Weißes Rauschen am ehesten dem Laut „sch“ vergleichbar, tiefe Frequenzen scheinen zu fehlen, mit steigender Tonhöhe werden die Komponenten zunehmend lauter. Das Gehör fasst nämlich, vereinfacht gesagt, nicht gleich breite Frequenzbänder zu einem Lautstärkeeindruck zusammen, sondern Frequenzbänder mit Grenzfrequenzen, die gleiche Intervalle, also gleiche Frequenzverhältnisse bilden; z. B. nimmt das Gehör die Summe aller Schwingungen zwischen 100 und 110 Hz ebenso laut wahr wie die Summe aller Schwingungen zwischen 1 und 1,1 kHz. Weißes Rauschen ist ein für verschiedene Messungen geeignetes Signal, die statistischen Eigenschaften von Musik oder Sprache jedoch kann es bei Messungen nicht simulieren. Die Bezeichnung Weißes Rauschen entspricht in seiner Frequenzzusammensetzung dem weißen Licht, das ebenfalls aus allen sichtbaren Wellenlängen mit gleicher Amplitude zusammengesetzt ist, Entsprechendes gilt für das Rosa Rauschen. Rosa Rauschen: Beim Rosa Rauschen nimmt die Amplitude pro Frequenzverdopplung um den Faktor = 0,7071 ab, der Pegel also um 3 dB. Es handelt sich um ein Rauschen, dessen spektrale Leistungsdichte umgekehrt proportional der Frequenz ist, man spricht auch von 1/f-Rauschen. Beim Weißen Rauschen bleibt die Leistung in einem absoluten Frequenzband konstant, z. B. in einem Band von 100 Hz Breite, bei Rosa Rauschen bleibt sie in einem relativen Frequenzband, also einem bestimmten Intervall konstant, z. B. in einem Terzbereich mit dem Frequenzverhältnis 5:4 von oberer zu unterer Frequenz. Rosa Rauschen entspricht in seiner statistischen Frequenz-Amplitudenverteilung im Gegensatz zu Weißem Rauschen gut dem von Musik und Sprache. Geräusch: Schallsignal, das meistens Anteile von Rauschen, Ton- und Klanggemischen enthält und oft ein nicht zweckbestimmtes Schallereignis darstellt. Lärm, akustisch meist geräuschhafter Schall großer Intensität, ist in der Wahrnehmung eines Hörers lästiger, störender bis die Gesundheit gefährdender Schall; er kann also durchaus auch Musik sein.
4
1 Grundlagen der Akustik
1.1.2 Eigenschaften von Schwingungen Vorgänge, deren Verhalten nach bestimmten, periodischen Zeitabschnitten stets wieder den gleichen Zustand erreicht, werden als Schwingungen bezeichnet [Magnus, 2008], [Müller, 2003]. 1.1.2.1 Einfache Schwingungen Lässt sich die Zeitabhängigkeit eines Vorgangs durch eine Sinus- oder Cosinusfunktion beschreiben, so heißt dieser Vorgang Sinusschwingung, harmonische oder einfache Schwingung, die dazugehörige physikalische Größe heißt Sinusgröße, z. B. Sinusspannung. Abb. 1/1 zeigt eine sinusförmige Schwingung. Zu ihrer Beschreibung werden die folgenden Begriffe verwendet [DIN 1311]: Amplitude: Der maximale Augenblickswert â, also der Scheitelwert einer Sinusgröße a, heißt Amplitude. Periodendauer: Der Zeitabschnitt, nach welchem eine Schwingung sich periodisch wiederholt, heißt Periodendauer T. Frequenz: Der Kehrwert der Periodendauer T heißt Frequenz f. Sie gibt an, wie viele Schwingungsperioden auf eine Sekunde entfallen. Die Einheit ist Hertz, abgekürzt Hz mit der Dimension 1/s. Kreisfrequenz: Der 2π-fache Wert der Frequenz heißt Kreisfrequenz ω. Phasenwinkel: Das Argument der Sinus- oder Cosinusfunktion heißt Phasenwinkel φ; er stellt eine lineare Funktion der Zeit dar: φ = ω ⋅ t. Der Phasenwinkel tritt bei der Darstellung einer Sinusschwingung durch Projektion der Drehung eines Zeigers als Winkel zwischen Zeiger und Projektionsachse in Erscheinung. Der Phasenwinkel für t = 0 heißt Nullphasenwinkel φ0 (Abb. 1/2).
Abb. 1/1. Begriffe bei sinusförmigen Schwingungen.
Die mathematische Darstellung einer einfachen Schwingung lautet: a = â ⋅ cos ωt a = Augenblickswert der Amplitude der Sinusschwingung [m] a = â ⋅ cos 2πft â = Spitzenwert der Amplitude [m] a = â ⋅ cos 2πt/T t = Zeit [s] ω = 2πf T = Periodendauer, Umlaufdauer des Zeigers [s] f = 1/T ω = Kreisfrequenz, Frequenz [Hz, 1/s]
1.1 Schallschwingungen
5
Anstelle des Cosinus kann auch der Sinus stehen; dies hat auf den Schwingungsverlauf selbst keinen Einfluss, sondern nur auf die Werte zum Zeitpunkt t = 0. Cosinus- und Sinusschwingungen haben zum Zeitpunkt t = 0 eine gegenseitige Phasendifferenz von 90°, die Sinusfunktion hat im Zeitpunkt t = 0 den Wert a = 0, die Cosinusfunktion den Wert a = â. Bei einer ungedämpften einfachen oder harmonischen Schwingung ist die rückstellende Kraft – also die Kraft, die das schwingende Element zum Nullpunkt zurückzieht – proportional zur Auslenkung, verdoppelt sich die Auslenkung, verdoppelt sich auch die rückstellende Kraft.
Abb. 1/2. Einfache Schwingung als Projektion eines rotierenden Zeigers.
Sinusverwandte Schwingungen sind Schwingungen, bei denen die Amplitude â sich verglichen mit der Periodendauer T nur langsam mit der Zeit ändert und/oder bei denen der Phasenwinkel innerhalb einer Periodendauer nur wenig von der linearen Zunahme mit der Zeit abweicht. Solche sinusverwandten Schwingungen sind z. B. gedämpfte Schwingungen, bei denen die Amplitude mit der Zeit abnimmt, oder Schwebungen, deren Amplitude und Frequenz sich langsam mit der Zeit periodisch ändern, sowie amplitudenmodulierte Schwingungen, die eine periodische Änderung der Amplituden ohne Frequenzschwankungen kennzeichnet. 1.1.2.2 Überlagerung von Schwingungen Die Überlagerung von zwei einfachen oder harmonischen Schwingungen gleicher Frequenz ergibt wieder eine einfache oder harmonische Schwingung derselben Frequenz, deren Amplitude und Phase von den Amplituden der beiden sich überlagernden Schwingungen und ihrer Phasendifferenz abhängen. Abb. 1/3 zeigt drei Fälle einer solchen Überlagerung. Weichen die Frequenzen der beiden Schwingungen ein wenig voneinander ab und sind ihre Amplituden â gleich groß, so entsteht eine Schwingung, deren Amplitude sich zwischen den Werten 0 und 2â periodisch ändert. Diese Schwingung nennt man vollkommene Schwebung, bei ungleichen Amplituden unvollkommene Schwebung (Abb. 1/4). Die Frequenz der Schwebung schwankt ebenfalls geringfügig periodisch, bei der sehr ähnlichen amplitudenmodulierten Schwingung mit dem Modulationsgrad 1 bleibt die Frequenz hingegen konstant.
6
1 Grundlagen der Akustik
Weichen die Frequenzen der beiden sich überlagernden Schwingungen erheblich voneinander ab, so ergibt sich keine harmonische Schwingung mehr.
Abb. 1/3. Überlagerung zweier Schwingungen a1 und a2 mit gleicher Amplitude und Frequenz sowie mit beliebiger Phasendifferenz, z. B. 72° (a), ohne Phasendifferenz (b) und mit 180° Phasendifferenz (c), a1 ……, a2 -----, a1 + a2 _____.
Abb. 1/4. Durch Überlagerung zweier Schwingungen mit gleicher Amplitude und geringem Frequenzunterschied entstehende sog. vollkommene Schwebung.
1.1.2.3 Zusammengesetzte Schwingungen Jede auch noch so unregelmäßig verlaufende, aber periodische Schwingung lässt sich in sinusförmige Teilschwingungen zerlegen. Diesen Vorgang nennt man harmonische Analyse oder Fourier-Analyse. Sie umfasst das Ermitteln der Frequenzen der einzelnen Teilschwingungen und die Bestimmung ihrer Amplituden. Das Ergebnis einer harmonischen Analyse ergibt ein sog. Amplitudenspektrum oder einfach Spektrum. Dies ist die grafische
1.2 Schallfelder
7
Darstellung der Gesamtheit aller Teilschwingungen eines Signals mit den dazugehörigen Amplitudenwerten. Die Frequenzen der einzelnen Teilschwingungen sind immer ganzzahlige Vielfache einer Grundschwingung, deren Frequenz mit der Frequenz der zu analysierenden Schwingung übereinstimmt (Abb. 1/5). Ein solches Spektrum besteht also aus einzelnen Linien, man spricht von Linienspektrum. Das Amplitudenspektrum genügt allerdings nicht, um den Zeitverlauf der periodischen Schwingung vollständig zu beschreiben; hierzu ist zusätzlich die Angabe der Nullphasenwinkel aller Teilschwingungen in einem Phasenspektrum erforderlich. Für viele praktische Zwecke, wie Erkenntnisse über die Klangfarbe eines musikalischen Klangs oder über die Zusammensetzung und Störwirkung eines Störgeräuschs, kann auf das Phasenspektrum jedoch verzichtet werden. Alle periodischen Vorgänge haben Linienspektren; sie setzen sich aus ganzzahligen Vielfachen einer Grundfrequenz f zusammen. Sie errechnet sich aus der Periodendauer T der zu analysierenden Schwingung: f = l/T. Je größer die Periodendauer T wird, umso tiefer liegt also die Grundfrequenz f und umso näher beisammen liegen die Vielfachen dieser Grundfrequenz. Lässt man im Gedankenexperiment die Periode beispielsweise einer Rechteckschwingung immer länger, schließlich unendlich lang werden, so kommt man zur sog. Sprungfunktion (Abb. 1/6a), einem einmaligen Vorgang, der sinngemäß eine extrem tiefe Grundfrequenz, eigentlich 0 Hz, und eigentlich unendlich dicht beieinander liegenden Teilschwingungen entsprechen. Somit haben Einzelvorgänge so dicht liegende Komponenten, dass ein kontinuierliches Spektrum entsteht, das durch die Einhüllende der eigentlich unendlich vielen Komponenten gekennzeichnet ist, nämlich durch eine sog. Spektralfunktion. Dies gilt sinngemäß allgemein für nichtperiodische Signale, z. B. Rauschen oder Geräusche, die als eine Folge von Einzelereignissen aufgefasst werden können, Die Spektralfunktion wird durch die Leistungsdichte, d. h., durch die Leistung pro relativer oder absoluter Bandbreiteneinheit beschrieben und grafisch dargestellt. In der Praxis liegen die Teilschwingungen umso weniger dicht und die Grundfrequenz umso weiter von 0 Hz entfernt, wie der Übertragungsbereich des Systems oben begrenzt ist. Abb. 1/5 zeigt einige Beispiele periodischer Schwingungen und ihrer Teiltonspektren, Abb. 1/6 einiger nichtperiodischer Vorgänge mit ihren Spektralfunktionen.
1.2 Schallfelder Wenn eine Schallquelle das sie umgebende Medium, z. B. Luft, zum Mitschwingen anregt, so entsteht um die Schallquelle eine sich ausbreitende Schallwelle, ein Schallfeld. Ohne Medium, also im Vakuum, wird kein Schallfeld erzeugt. Jede Schallwelle ist verbunden mit räumlichen und zeitlichen Schwankungen von Dichte und Druck des Mediums sowie mit Schwankungen der Geschwindigkeit der um ihre Ruhelage pendelnden Teilchen. Im sog. freien Schallfeld kann sich der Schall völlig ungehindert in alle Richtungen ausbreiten, er trifft nicht auf Hindernisse; er erreicht den Hörer oder das Mikrofon nur auf direktem Weg, daher auch Direktschall genannt.
8
1 Grundlagen der Akustik
Abb. 1/5. Einige Schwingungsverläufe mit den dazugehörigen Amplitudenspektren; die Spektren sind nach der 12. Harmonischen abgeschnitten, setzen sich aber bei b, c und d theoretisch bis ins Unendliche fort; die Amplituden der Teilschwingungen sind etwa dreimal vergrößert gezeichnet. Die Spektren gelten nur für den eingeschwungenen Zustand. Bei b, c und d entsteht noch eine Teilschwingung mit der Frequenz 0, d. h., eine Gleichkomponente, z. B. eine Gleichspannung.
Im sog. diffusen Schallfeld wird der Schall vielfach an den Wänden und Gegenständen eines Raums reflektiert, gebeugt, zerstreut oder gebündelt; im diffusen Schallfeld sind eigentlich viele verschiedene freie Schallfelder einander überlagert. Die Schallenergie ist im diffusen Schallfeld im Gegensatz zum freien Schallfeld im Idealfall gleichmäßig über den ganzen Raum verteilt, eine Vorzugsrichtung der Schallausbreitung gibt es nicht. Zur vollständigen Beschreibung eines komplexen Schallfelds ist die Angabe von Druck und der Bewegungsgeschwindigkeit der Teilchen, der sog. Schnelle, erforderlich; die Angabe des Drucks enthält keine Information über die Bewegungsrichtung der Teilchen, die Schnelle gibt keine Auskunft über die treibende Kraft dieser Bewegung. [Fasold, 2003], [Kuttruff, 2004], [Veit, 2005], [Hentschel, 2009], [Lerch, 2009], [Möser, 2009]
1.2 Schallfelder
9
Abb. 1/6. Spektralfunktionen einiger einmaliger Vorgänge, a. Spektralfunktion der Sprungfunktion, z. B. Einschalten einer Gleichspannung, b. Spektralfunktion eines Rechteckimpulses, c. Spektralfunktion einer plötzlich einsetzenden bzw. eingeschalteten Sinusschwingung, d. Spektralfunktion eines sehr kurzen Knacks, genannt auch Nadelimpuls, Stoßfunktion oder Dirac-Stoß, e. Spektralfunktion eines Knalls.
1.2.1 Schallausbreitung in Luft Die Schallquelle bringt in ihrer unmittelbaren Umgebung die Luftteilchen zum Schwingen; diese übertragen bei Zusammenstößen die Schwingungen weiter auf die ihnen benachbarten Teilchen usw., so dass sich die Schwingung der Schallquelle als Schallwelle über das Medium ausbreitet. Dabei schwingen die Teilchen um ihre Ruhelage herum in der Ausbreitungsrichtung der Schallwelle, es handelt sich um eine sog. Longitudinalwelle. Sie ändern dabei periodisch ihre Bewegungsgeschwindigkeit und ihre Bewegungsrichtung. Durch ihre Auslenkung aus der Ruhelage verursachen sie periodische Schwankungen der Dichte und
10
1 Grundlagen der Akustik
damit Druckschwankungen. Abb. 1/7 macht anhand der Auslenkung der Luftteilchen die Ausbreitung einer Schallwelle anschaulich.
Abb. 1/7. Schematische Darstellung der Ausbreitung einer Schallwelle in Luft in 15 aufeinander folgenden Zeitpunkten.
Die Ausbreitungsgeschwindigkeit der Schallwelle in Luft wird als Schallgeschwindigkeit c [m/s] bezeichnet. Sie hängt von der Temperatur ab, was sich z. B. auf die Stimmung der Blasinstrumente und der Orgel auswirkt. Bei 10 °C beträgt die Schallgeschwindigkeit etwa 338 m/s, pro 1 °C nimmt sie um 0,6 m/s zu und beträgt demnach bei 20 °C etwa 344 m/s und bei 30 °C etwa 350 m/s. Einen vernachlässigbaren Einfluss auf die Schallgeschwindigkeit haben der stationäre Luftdruck, die Feuchtigkeit und der Gehalt an Kohlendioxyd unter in der Praxis auftretenden Bedingungen. Wenn sich eine Schwingung in einem Medium als Welle ausbreitet, treten zu einem bestimmten Zeitpunkt in jeweils gleichen Abständen in der Ausbreitungsrichtung immer wieder dieselben Schwingungszustände oder Phasen auf, z. B. die größte Bewegungsgeschwindigkeit oder die größte Dichte der Luftmoleküle. Diesen Abstand bezeichnet man als Wellenlänge λ (Abb. 1/8). Betrachtet man z. B. den Schalldruckverlauf an einer Stelle im zeitlichen Ablauf, so kann dasselbe Schwingungsbild beobachtet werden wie bei der Betrachtung entlang einer Welle in einem bestimmten Zeitpunkt. Beim Zeitbild der Schwingung ergibt sich aus dem zeitlichen Abstand zweier gleicher Schwingungszustände die Dauer einer Schwingungsbewegung als Periodendauer T. Die Anzahl der Schwingungen pro Sekunde heißt Frequenz f. 1 f = T
f = Frequenz [Hz] T = Periodendauer [s]
Zwischen der Schallgeschwindigkeit c, der Wellenlänge λ und der Frequenz f eines Tons besteht die Beziehung:
1.2 Schallfelder
c λ = f
11
λ = Wellenlänge [m] c = Schallgeschwindigkeit [m/s] f = Frequenz [Hz, 1/s]
Abb. 1/8. Periodendauer und Wellenlänge einer Schwingung.
Tab. 1/2 gibt für Luftschall einige Wellenlängen und die dazugehörigen Frequenzen an. Tab. 1/2. Frequenz und Wellenlänge in Luft. Frequenz f
Wellenlänge λ
16 Hz 20 Hz 100 Hz 1.000 Hz = 1 kHz 10.000 Hz = 10 kHz 16.000 Hz = 16 kHz 20.000 Hz = 20 kHz
21,2 m 17 m 3,4 m 0,34 m 0,034 m 0,021 m 0,017 m
Die Zeit, die eine Schallwelle benötigt, um eine bestimmte Strecke zurückzulegen, wird als Laufzeit t bezeichnet. Sie errechnet sich aus der Beziehung: d t = c
t = Laufzeit [s] d = Distanz, die die Schallwelle zurücklegt c = Schallgeschwindigkeit, 344 m/s bei 20 °C
Für eine Distanz von 34 m ist die Laufzeit t also 0,1 s = 100 ms, für 1 m rund 3 ms; ein Echo ist hörbar, wenn reflektierter Schall 50 ms entsprechend 17 m Schallumweg nach dem Primärschall eintrifft.
12
1 Grundlagen der Akustik
Während die Luftteilchen einer Schallwelle stets in der Ausbreitungsrichtung dieser Welle schwingen, also Longitudinalschwingungen ausführen, gibt es bei Festkörpern bzw. Flüssigkeiten neben der Longitudinalwelle, die hier als Dichtewelle auftritt, mehrere andere Wellenformen: Oberflächenwellen, Biegewellen, Torsionswellen, Transversal- oder Schubwellen und Dehnwellen (Abb. 1/9). Die Schallgeschwindigkeit von Körperschall ist im Allgemeinen wesentlich höher als die des Luftschalls, sie liegt bei einigen tausend m/s, und damit sind auch die Wellenlängen wesentlich größer als bei Luftschall.
Abb. 1/9. Wellenformen in Festkörpern.
Mit den Vorgängen bei der Schallausbreitung in Wasser befasst sich die Hydroakustik. Wie in Luft gibt es im Wasser Longitudinalwellen, die sich allerdings mit einer viel höheren Schallgeschwindigkeit ausbreiten, nämlich mit ca. 1.440 m/s bei 10 °C Wassertemperatur. Die Dämpfung der Schallwellen in Wasser ist besonders gering, weshalb sie sich über sehr große Entfernungen ausbreiten können. Da elektromagnetische Wellen unter Wasser sehr stark bedämpft werden, nimmt Wasserschall hier bei der sog. Sonar-Ortung die Funktion des Radars ein, z. B. bei der Messung der Wassertiefe (Echolot), beim Erfassen von Fischschwärmen u. a. 1.2.1.1 Kugelwelle und ebene Welle Da sich die Schallwelle in Luft geradlinig nach allen Richtungen ausbreitet, liegen die Punkte gleicher Phasen, also z. B. gleichen Drucks, auf konzentrischen Kugelflächen um eine allseitig
1.2 Schallfelder
13
gleichmäßig abstrahlende punkt- oder kugelförmige Schallquelle. Mit zunehmendem Abstand von der Schallquelle nähern sich die Flächenelemente dieser Kugelschalen immer mehr ebenen Flächenelementen, die Kugelwelle nimmt also mit wachsender Entfernung zur Schallquelle allmählich die akustischen Eigenschaften einer ebenen Welle an. Bei Kugelwellen sind alle Schallfeldgrößen auf Kugelschalen um die Schallquelle konstant, während sie bei ebenen Wellen in Ebenen senkrecht zur Ausbreitungsrichtung konstant sind (Abb. 1/10).
Abb. 1/10. Kugelwelle und ebene Welle.
In der ebenen Welle sind Druck und Schnelle stets in Phase. Wo also der Druck seinen größten Wert erreicht, ist auch die Bewegungsgeschwindigkeit der Teilchen am größten. In der Kugelwelle sind Druck und Schnelle in Abhängigkeit von der Frequenz und dem Abstand zur Schallquelle gegeneinander in der Phase versetzt. 1.2.1.2 Schalldruck, Schallschnelle und Schallkennimpedanz Der Schalldruck ist der durch die Schallschwingung hervorgerufene Wechseldruck. Die Druckschwankungen der Schallwelle überlagern sich dem atmosphärischen Gleichdruck. Akustische Berechnungen werden häufig mit dem Schalldruck durchgeführt, da er durch eine einzige Zahlenangabe definiert – eine sog. skalare Größe – und somit mathematisch relativ einfach zu verwenden ist. Der Schalldruck wird in Pascal (Pa) oder Newton/m2 (1 N/m2 = 1 Pa), früher bevorzugt in μbar (1 μbar = 0,1 Pa), angegeben. Die im Hörschall üblicherweise vorkommenden Schalldruckwerte liegen zwischen p0, dem geringsten bei 1 kHz wahrnehmbaren Schalldruck von 2 ⋅ 10-5 Pa, und dem Schalldruck der Schmerzgrenze von etwa 1,5 ⋅ 102 Pa. Ein mäßig lauter Ton hat einen Schalldruck von etwa 0,1 Pa. Der normale atmosphärische Luftdruck beträgt etwa 1.000 Hektopascal bzw. 105 Pa entsprechend 1 bar; der durchschnittliche Schalldruck ist damit nur der millionste Teil des Atmosphärendrucks. Die momentane Geschwindigkeit, mit der ein schwingendes Teilchen um seinen Ruhepunkt schwingt, ist die Schallschnelle, eine sog. vektorielle Größe, die zusätzlich zu einem Zahlenwert durch eine Richtungsangabe definiert ist. Man benutzt den Ausdruck Schnelle an Stelle von Geschwindigkeit, um Verwechslungen mit der Ausbreitungsgeschwindigkeit der Schallwelle c zu vermeiden. Die Schallschnelle der Teilchen, die in einer Schallwelle schwingen, ist sehr gering. Sie beträgt im Mittel z. B. bei einem Schalldruck von 0,1 Pa in Luft nur 0,25 mm/s.
14
1 Grundlagen der Akustik
Schalldruck und Schallschnelle werden meist als Effektivwert angegeben, dem quadratischen Mittelwert einer Wechselgröße. Bei sinusförmigen Schwingungen ist der Effektivwert gleich dem Spitzenwert dividiert durch √2, also etwa das 0,7-fache des Spitzenwerts. Bei anderen Schwingungsformen nimmt der Effektivwert andere Werte an. Schalldruck p und Schallschnelle v haben im Fernfeld einer Schallquelle, also im annähernd ebenen Schallfeld, einen analogen Verlauf; sie sind bei gleichbleibender Amplitude der Frequenz f direkt und dem Abstand von der Schallquelle r umgekehrt proportional, bei konstanter Schallleistung und somit annähernd konstanter Lautstärke sind Schalldruck und Schallschnelle nur zur Entfernung umgekehrt proportional; für die Augenblickswerte gilt: p ~ v
p = Schalldruck [N/m²] f = Frequenz [Hz] r = Abstand der Schallquelle [m] t = Zeit [s] λ = Wellenlänge [m] v = Schallschnelle [m/s]
Während sich der Wert des Schalldrucks im Nahfeld der Schallquelle wie im Fernfeld verhält, steigt die Schallschnelle im Nahfeld in komplexer Weise viel stärker an als der Schalldruck; das ist bei Mikrofonen, die auf die Schallschnelle (Bändchenmikrofone) oder die Schalldruckdifferenz – auch Schalldruckgradient genannt – reagieren (Druckgradientenmikrofone), zu beachten, man spricht hierbei vom Nahbesprechungseffekt (siehe Kap. 4.2.1). Der Anstieg der Schnelle an einem bestimmten Punkt im Nahfeld ist von der Frequenz abhängig: je tiefer die Frequenz, umso stärker ist der Anstieg, der durch Schnelle- und Druckgradientenwandler als Anhebung tiefer Frequenzen wirksam wird, sofern er nicht elektrisch ausgeglichen wird. Weiterhin ist bei gegebener Frequenz der Anstieg des Druckgradienten bzw. der Schnelle vom Abstand zur Schallquelle abhängig. Tab. 1/3 gibt für verschiedene Frequenzen an, bei welchem „kritischen Abstand“ von der Schallquelle eine Pegelerhöhung um 3 dB gegenüber hohen Frequenzen eintritt. Tab. 1/3. Kritische Schallquellenabstände für verschiedene Frequenzen bzw. Töne. Frequenz
musikalischer Ton
kritischer Abstand von der Schallquelle
16,25 Hz 32,50 Hz 65 Hz 130 Hz 260 Hz 520 Hz
C“ C‘ C c c‘ c“
6,4 m 3,2 m 1,6 m 0,8 m 0,4 m 0,2 m
Der Quotient aus Schalldruck und Schallschnelle ist in der ebenen Welle stets und an jedem Raumpunkt konstant, er wird als Schallkennimpedanz Z0 bezeichnet, früher als Schallwellenwiderstand.
1.2 Schallfelder
15
p = Schalldruck [Pa] v = Schallschnelle [m/s] Z0 = Schallkennimpedanz der ebenen Welle [Ns/m3]
Die Schallkennimpedanz der ebenen Welle Z0 errechnet sich aus der Dichte und der Schallgeschwindigkeit. Bei Normaldruck und 20 °C ist die Schallkennimpedanz der Luft Z0 = 408 Ns/m3, in Wasser z. B. 1,48 ⋅ 106 Ns/m3. Im Nahfeld einer Schallquelle, d. h., in einer Kugelwelle, ist die Schallkennimpedanz nicht mehr überall konstant, die in diesem Fall als spezifische Schallkennimpedanz bezeichnete Größe ist eine komplexe Größe mit Wirk- und Blindanteil. 1.2.1.3 Schalldruckpegel Um die auftretenden großen Unterschiede des Schalldrucks besser erfassen zu können, verwendet man zur Kennzeichnung des Schalldrucks im Allgemeinen den absoluten Schalldruckpegel L, auch kurz Schallpegel genannt. Ein Vorteil der Verwendung des Pegelmaßes ist, dass es besser dem menschlichen Lautstärkeempfinden entspricht. Der Schallpegel ist das 20-fache logarithmierte Verhältnis des Schalldrucks zu einem vereinbarten Bezugsschalldruck p0. Maßeinheit ist das dB [DIN 5493], siehe zum Pegelmaß auch Kap. 9.10. Lp = absoluter Schalldruckpegel [dB] p = Schalldruck [Pa] p0 = Bezugsschalldruck = 2 ⋅ 10-5 Pa Die Größe p0 ist ein genormter Bezugsschalldruck [DIN 45630], der etwa der Hörschwelle entspricht. Die Hörschwelle liegt für 1 kHz bei 4 dB, für 2 kHz bei - 4 dB; die Schmerzgrenze ist für 1 kHz bei 130 dB, für 2 kHz bei 120 dB. Der Bereich mittlerer Lautstärken entspricht einem Schallpegel von ungefähr 60 bis 80 dB.
Abb. 1/11. Bewertungskurven zur Messung des bewerteten Schallpegels.
Verwendet man als Bezugsschalldruck einen beliebigen, frei gewählten Druck, so handelt es sich um den sog. relativen Schalldruckpegel. Da das Gehör den Schalldruck in Abhängigkeit von der Frequenz unterschiedlich bewertet, hat man für Messungen auch einen sog. bewerteten Schalldruckpegel oder bewerteten Schallpegel eingeführt, der entsprechend den Eigenschaften des Gehörs insbesondere Frequenzen zwischen 500 und 5.000 Hz bei der
16
1 Grundlagen der Akustik
Messung berücksichtigt. Je nach der Lautstärke wird dabei eines der drei genormten Filter nach [DIN EN 62672] entsprechend den Bewertungskurven A, B oder C der Messung zugrunde gelegt (Abb. 1/11). Das Filter A gilt für kleine Schallpegel, es ergibt die niedrigsten und damit meist günstigsten Messwerte auch für größere Schallpegel und wird deshalb gerne, aber ungerechtfertigt, auch für diese verwendet. Die zeitliche Bewertung des Schalls spielt dabei eine große Rolle, deshalb wird im Allgemeinen mit der schnellen und definierten Bewertung I (Impuls) gemessen. Für Näheres zur Lautstärke und zum Schalldruckpegel siehe Kap. 3.3.1. Der bewertete Schallpegel ist nur grob ein Maß für die empfundene Lautstärke. Wie laut man subjektiv ein Schallereignis empfindet, beschreiben der Lautstärkepegel und die Lautheit genauer, siehe Kap. 3.3.1. 1.2.1.4 Schallleistung und Schallintensität Während die mathematische Beschreibung des Schallfelds am einfachsten mit Hilfe des Schalldrucks oder Schalldruckpegels erfolgt, verwendet man zur Beschreibung der Schallquelle in erster Linie die Energiegrößen Schallleistung und – wie auch zur Beschreibung des Energiegehalts eines Schallfelds – die Schallintensität. Die Schallintensität I ist die Schallleistung, die durch eine Flächeneinheit, die senkrecht zur Ausbreitungsrichtung der Schallwelle steht, hindurchströmt. Die Einheit ist also W/m2. Die Schallintensität I einer ebenen Welle ist gleich dem Produkt aus effektivem Schalldruck und effektiver Schallschnelle: I = p eff = I = p eff ⋅ v eff v eff = Z0 = =
Schallintensität [W/m²] effektiver Schalldruck [Pa] effektive Schallschnelle [m/s] Schallkennimpedanz der ebenen Welle [Ns/m3] 408 Ns/m³ unter Normalbedingungen in Luft
Für Normalbedingungen im Raum gilt also
Die gesamte Schallleistung einer Schallquelle ergibt sich als Summe aller Schallintensitäten, die auf Flächenelementen, die zur Ausbreitungsrichtung senkrecht stehen. Diese Flächenelemente liegen auf der Oberfläche einer die Schallquelle einhüllenden Kugel, in deren Mittelpunkt die Schallquelle strahlt. Damit ergibt sich im freien Schallfeld für die Schallintensität im Abstand r von einer kugelförmig nach allen Seiten gleichmäßig abstrahlenden Schallquelle in Abhängigkeit von der Schallleistung P die Beziehung:
I = gesamte Schallintensität [W] im Abstand r von der Schallquelle r = Abstand von der Schallquelle [m] P = Schallleistung [W]
1.2 Schallfelder
17
Die akustische Leistung von Schallquellen ist, gemessen an den Größenordnungen von mechanischen Leistungen und Wärmeleistungen, sehr gering (Tab. 1/4). Während der Wert des Schalldruckpegels vom Abstand des Messpunkts zur Schallquelle abhängig ist, ist der Schallleistungspegel davon unabhängig, denn er beschreibt die Eigenschaften der Schallquelle selbst. Tab. 1/4. Schallleistungen einiger Schallquellen. Schallquelle
Schallleistung P
Schallleistungspegel LP
Unterhaltungssprache menschliche Stimme (Höchstwert) einzelne Musikinstrumente Presslufthammer Orgel, Pauke Orchester Alarmsirene
0,000 001 bis 0,000 01 W 0,001 bis 0,01 W bis 0,3 W 1W bis 10 W bis 100 W 1.000 W
60 bis 70 dB 90 bis 100 dB 115 dB 120 dB 130 dB 140 dB 150 dB
So wie der Schalldruck auch im dB-Maß als Schalldruckpegel L angegeben wird, so kann auch die Schallleistung als Schallleistungspegel Lp und die Schallintensität als Schallintensitätspegel LI in dB angegeben werden. Als Bezugswert ist für die Schallleistung 1 pW = 10-12 W und für die Schallintensität 1 pW/m2 = 10-12 W/m2 gebräuchlich [DIN 1320].
1.2.2 Schallausbreitung im Raum Ein freies Schallfeld in einem Raum existiert praktisch nur in eigens dafür hergerichteten sog. „schalltoten“, besser reflexionsarmen Räumen, im Freien angenähert auch z. B. über einer schneebedeckten Fläche oder einer Sandfläche. In Räumen stellen sich der ungehinderten, geradlinigen Schallausbreitung immer Hindernisse entgegen, vor allem die Raumbegrenzungen, aber auch Gegenstände im Raum, die die Schallausbreitung beeinflussen; diese Einflüsse sind stets frequenzabhängig: –– Die totale oder teilweise Reflexion der Schallwelle an Flächen bewirkt eine Änderung der Ausbreitungsrichtung je nach Größe der Fläche entweder im gesamten Frequenzbereich bei großen Flächen oder nur im Bereich höherer Frequenzen bei kleineren Flächen. Nach innen gekrümmte sog. konkave Flächen (Hohlspiegel) führen zu einer Schallbündelung oder Schallstreuung, je nach Abstand der Schallquelle zur Fläche, nach außen gekrümmte, sog. konvexe Flächen (Streuspiegel) stets zu einer Schallstreuung. –– Die Beugung der Schallwelle an Hindernissen im Schallweg bewirkt eine Änderung der geradlinigen Ausbreitungsrichtung besonders im Bereich tieferer Frequenzen oder ein völliges Umgehen von Hindernissen. –– Die Brechung der Schallwelle spielt in der Raumakustik keine Rolle. –– Die totale oder teilweise Absorption der Schallwelle bewirkt, dass der Schallwelle Energie entzogen wird, wodurch sie geschwächt oder vernichtet wird, in der Regel ist die Absorption frequenzabhängig.
18
1 Grundlagen der Akustik
1.2.2.1 Schallreflexion Für die Betrachtung der Schallreflexion eignet sich die Darstellung der Schallausbreitung als Schallstrahl analog der Lichtausbreitung. Es gelten dabei die aus der Optik bekannten Gesetze der Reflexion an ebenen Spiegeln bzw. an Streu- und Hohlspiegeln. Bedingung für die Gültigkeit der Gesetze ist, dass der Durchmesser der reflektierenden Fläche mindestens einige Wellenlängen der reflektierten Schallwelle misst. Schallreflexion an ebenen Flächen Trifft ein Schallstrahl auf eine hinreichend große ebene Fläche (Abb. 1/12), so wird er unter demselben Winkel (α‘ in Abb. 1/12) reflektiert, unter dem er auf die Fläche trifft (α). Einfallender und reflektierter Strahl liegen dabei in einer Ebene, die senkrecht auf der reflektierenden Fläche steht. Durch entsprechende Ausrichtung der reflektierenden Fläche kann der Schallstrahl in jede gewünschte Richtung gelenkt werden, was bei der raumakustischen Gestaltung Anwendung findet. Trifft ein Schallstrahl auf eine rechtwinklige Ecke, so wird er zweimal so reflektiert, dass er parallel zum einfallenden Strahl zurückkehrt (Abb. 1/12).
Abb. 1/12. Schallreflexion an einer ebenen Fläche und an einer rechtwinkligen Ecke, je zwei Beispiele.
Zwischen parallelen, reflektierenden Wänden kann es zu sog. stehenden Wellen kommen: Eine senkrecht auftreffende Schallwelle wird hier immer wieder mit ihrer eigenen Reflexion überlagert. Dadurch können sich an gewissen Punkten die Schallwellen ganz oder teilweise gegenseitig auslöschen, an anderen Punkten verstärken. Im Gegensatz zur fortschreitenden Welle gibt es also ortsfeste Auslöschungen und Maxima, die bei Aufnahmen, z. B. bei tiefen Orgeltönen, und bei Messungen eine erhebliche Störung darstellen. Bedingung für das Zustandekommen stehender Wellen ist, dass der Wandabstand gleich der halben Wellen-
1.2 Schallfelder
19
länge oder einem ganzzahligen Vielfachen davon ist. Umgekehrt gibt es für jeden Abstand eine Schallwelle mit entsprechender Frequenz und damit eine stehende Welle. Abb. 1/13 zeigt die Druckverteilung in stehenden Wellen; bei vollständiger Reflexion ist der Schall in den Druckknoten ausgelöscht, in den Druckbäuchen verdoppelt. Eine stehende Welle kann bei einem bestimmten Wandabstand also immer nur für eine Frequenz und deren harmonische Obertöne auftreten. Ferner entsteht eine stehende Welle nur bei einem Dauerton. In der Praxis treten stehende Wellen als sog. Raummoden oder Raumresonanzen besonders in kleineren Räumen auf; sie kennzeichnen neben den wenig verzögerten Reflexionen Kleinräumigkeit, die typische „Wohnzimmerakustik“. Bei der Aufnahme können solche Resonanzen durch oft nur geringfügiges Verschieben des Mikrofons unschädlich gemacht werden.
Abb. 1/13. Druckverteilung in stehenden Wellen zwischen zwei parallelen Wänden.
Bei impulsartigem Schall entsteht zwischen parallelen Wänden ein Flatterecho, da das Signal dauernd hin und her reflektiert wird. Bei größerem Wandabstand ist dabei die schnelle Abfolge einzelner Echos wahrnehmbar, bei kleinerem Wandabstand von weniger als etwa 8 m wird die Abfolge der Echos so rasch, dass ein sog. Klangecho entsteht: Der Schallimpuls erhält eine Art Nachhall, der indes nur eine bestimmte Tonhöhe hat, die vom Wandabstand und dem Standort des Hörers abhängt. Schallreflexion an gekrümmten Flächen Trifft eine Schallwelle auf eine nach innen gewölbte, eine konkave Fläche, so müssen je nach dem Abstand zwischen Schallquelle und reflektierender Hohlfläche vier verschiedene Situationen unterschieden werden: 1. Der Abstand der Schallquelle zur reflektierenden Fläche ist größer als der halbe Krümmungsradius r/2 der Fläche, jedoch kleiner als der Radius r: Der gesamte reflektierte Schall wird in einem Punkt, der außerhalb des Krümmungsradius liegt, gesammelt (Abb. 1/14). 2. Der Abstand der Schallquelle zur reflektierenden Fläche ist gleich dem halben Krümmungsradius r/2 der Fläche: Die auseinanderlaufenden Schallstrahlen verlaufen nach der Reflexion parallel (Abb. 1/15).
20
1 Grundlagen der Akustik
Abb. 1/14. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der halbe Krümmungsradius r/2.
Abb. 1/15. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche gleich dem halben Krümmungsradius r/2.
3. Der Abstand Schallquelle zur reflektierenden Fläche ist kleiner als der halbe Krümmungsradius r/2 der Fläche: Die Schallstrahlen streben nach der Reflexion auseinander, die Anordnung zerstreut den Schall (Abb. 1/16).
Abb. 1/16. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zur reflektierenden Fläche kleiner als der halbe Krümmungsradius r/2.
4. Der Abstand Schallquelle zur reflektierenden Fläche ist größer als der Krümmungsradius r: In diesem Fall ergibt sich eine noch stärker zerstreuende Wirkung (Abb. 1/17).
1.2 Schallfelder
21
Abb. 1/17. Schallreflexion an einer konkav gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der Krümmungsradius r.
Solche gewölbten Flächen sind vor allem die Gewölbe alter Kirchen und anderer historischer Gebäude. Es ist in jedem einzelnen Fall zu prüfen, inwieweit ein Gewölbe eine den Schall zerstreuende oder sammelnde Wirkung hat. Die Fokussierung einer Schallwelle kann bei Darbietungen und Aufnahmen zu einer unerwünschten Heraushebung einzelner Schallquellen aus einem größeren Schallkörper führen, die besonders auch deshalb als störend empfunden wird, weil die Schallquelle im Gewölbe selbst lokalisiert wird. Demgegenüber erhöht die Schallstreuung die im Allgemeinen erwünschte Diffusität eines Raums (siehe Kap. 1.3.5) und führt damit zu einer gleichmäßigeren Schallerfüllung des Raums. Nach außen gewölbte, sog. konvexe Flächen, haben unabhängig vom Abstand der Schallquelle zur Fläche bzw. zum Hörer eine den Schall zerstreuende Wirkung. 1.2.2.2 Schallbeugung Ist die Ausdehnung eines Gegenstands, auf den eine sinusförmige Schallwelle bei ihrer Ausbreitung trifft, in der Größenordnung der Wellenlänge des Schalls oder kleiner, so wird dieses Hindernis von der Schallwelle so umgangen, als ob es nicht vorhanden wäre (Abb. 1/18). Da die Wellenlänge des Hörschalls zwischen etwa 20 m und 2 cm (siehe Tab. 1/2) liegt, wird es im Allgemeinen in einer aus vielen Teilfrequenzen zusammengesetzten Schallwelle relativ tieffrequente Anteile geben, die um das Hindernis herumgebeugt werden; höherfrequente Anteile hingegen werden von dem Hindernis reflektiert, gelangen also nicht hinter das Hindernis, wo nun ein Schallschatten entsteht. Damit wirkt ein Hindernis, das sich zwischen Schallquelle und Hörer oder Mikrofon befindet, wie ein Höhenfilter, ein komplex zusammengesetzter Klang wird dumpfer, es wird linear verzerrt. An einer Kante wird eine Schallwelle in den Schallschatten hineingebeugt, und zwar umso stärker, je tiefer die Frequenz ist. Einfluss der Wellenlänge Um den Schall reflektieren zu können, muss eine Fläche mindestens einen Durchmesser haben, der mehreren Wellenlängen der zu reflektierenden Schallwelle entspricht. Ist die Ausdehnung geringer, so wird der Schall um das Hindernis herum gebeugt. Selbst wenn der Durchmesser des Hindernisses der doppelten Wellenlänge entspricht, wird der Schall noch fast vollständig
22
1 Grundlagen der Akustik
herumgebeugt. Erst bei rund 5-facher Ausdehnung erscheint ein deutlicher Schallschatten. Abb. 1/18 zeigt an einigen Beispielen die Schallschattenbildung durch einen Zylinder.
Abb. 1/18. Schallbeugung an einem Zylinder für verschiedene Verhältnisse von Wellenlänge λ zum Durchmesser des Zylinders d.
Wenn eine Schallwelle nicht mehr um das Hindernis herumgebeugt wird, wirkt das Hindernis als Reflektor. Die Bedingungen für das Zustandekommen einer vollständigen Reflexion hängen von verschiedenen Faktoren ab: Der Wirkungsbereich eines Reflektors reicht zu umso tieferen Frequenzen hinab, je größer die reflektierende Fläche ist, je kleiner ihr Abstand zur Schallquelle ist, je kleiner ihr Abstand zum Hörer ist und je steiler die Schallwelle auf den Reflektor trifft. Für die tiefste noch reflektierte Frequenz fu gilt: fu = tiefste reflektierte Frequenz [Hz] c = Schallgeschwindigkeit [m/s] d = Durchmesser des Reflektors [m] α = Einfallswinkel des Schallstrahls [°] a1 = Entfernung Reflektor – Schallquelle [m] a2 = Entfernung Reflektor – Hörer [m] 1.2.2.3 Schallbrechung Unter Brechung versteht man die Richtungsänderung des Schallstrahls beim Übergang zu einem Medium mit einer anderen Schallgeschwindigkeit. In der Raumakustik spielt die Schallbrechung praktisch keine Rolle. Im Freien, wo der Schall weit größere Strecken zurücklegen kann, kommt es aber durch Temperaturunterschiede einzelner Luftschichten zu Schallbrechungen, da die Schallgeschwindigkeit von der Temperatur abhängt. Liegt z. B.
1.2 Schallfelder
23
eine wärmere Luftschicht über einer kälteren wie bei einer Inversionswetterlage, wird der Schall zur Erde hin gebeugt, es entstehen deutlich hörbare Überreichweiten des Schalls; das ist typisch für Föhnwetterlagen oder für den frühen Morgen, wenn die Sonne erst die oberen Luftschichten erwärmt hat. Bei umgekehrter Schichtung, also im Normalfall, wird der Schall von der Erde weg nach oben gebeugt, der akustische Horizont liegt deshalb höher als der optische Horizont. 1.2.2.4 Schallabsorption Bereits bei der Schallausbreitung in Luft, besonders aber beim Auftreffen auf Hindernisse wird dem Schall durch Absorption Energie entzogen [Fuchs, 2010]. Als Maß für die Absorption wird der Absorptionsgrad α angegeben. Er ist eine Zahl zwischen 1 für totale Absorption und 0 für fehlende Absorption, d. h., totale Reflexion; er kann auch in % angegeben werden. Der Absorptionsgrad α ist gleich dem Verhältnis von absorbierter Energie zu auftreffender Energie; bei der absorbierten Energie ist die durch die Wand hindurchgehende Energie eingeschlossen. Das Verhältnis der Schallleistungen oder Schallintensitäten führt zu demselben Ergebnis. Die Bestimmung des Absorptionsgrads erfolgt im Hallraum [DIN EN ISO 354] oder im sog. Kundtschen Rohr. Absorptionsgradwerte über 1 findet man gelegentlich angegeben, sie tragen der Tatsache Rechnung, dass die wirksame Fläche eines Absorbers etwas größer ist als seine geometrische Fläche. Die Gesamtabsorption einer Wand oder eines Raums, das sog. Absorptionsvermögen A, ergibt sich als Produkt von Absorptionsgrad α und der absorbierenden Fläche S. A ist also gleich der äquivalenten Absorptionsfläche mit a = 1, auch äquivalente Absorptionsfläche oder „Fläche offenes Fenster“ genannt. A = α ⋅ S
A = Absorptionsvermögen [m²] α = Absorptionsgrad [dimensionslos] S = absorbierende Fläche [m²]
Bei unterschiedlichen Materialien mit verschiedenen Absorptionsgraden ergibt sich A als Summe der Teilabsorptionsvermögen: A = α1 ⋅ S1 + α2 ⋅ S2 + … Eine wesentliche Eigenschaft eines Absorbers ist die Frequenzabhängigkeit seines Absorptionsgrads, die sich einerseits aus den Materialeigenschaften, andererseits aus der konstruktiven Anordnung wie dem Wandabstand, einer Abdeckung usw. ergibt. Man unterscheidet im Hinblick auf die spektrale Wirksamkeit Höhenabsorber, Mittenabsorber und Tiefenabsorber. Die wichtigsten Funktionsprinzipien der Schallabsorption sind Reibung und mitschwingende Massen: Reibung durch Luftbewegung in Poren: Durch die Bewegung der schwingenden Luftteilchen in offenporigen Materialien wie Faserstoffen oder offenporigen Schäumen wird Schallenergie durch Reibung entzogen und in Wärmeenergie umgewandelt. Die Absorption ist bei höheren Frequenzen in einem breiten Frequenzbereich wirksam.
24
1 Grundlagen der Akustik
Reibung von durch Resonanz verstärkter Luftbewegung in Helmholtz-Resonatoren: Die Luftbewegung wird im Hals der Hohlraum-Resonatoren durch Resonanz verstärkt; dadurch wird die Reibung und damit die Absorption vergrößert. Diese Absorber sind nur in einem schmalen Frequenzband um die Resonanzfrequenz wirksam. Anregung von Platten zum Mitschwingen: Dem Schallfeld wird dadurch Energie entzogen, dass Platten, die verglichen mit Luft ein sehr hohes spezifisches Gewicht haben, zum Mitschwingen angeregt werden, in ihrer Bewegung aber durch federnde Unterlagen und innere Reibung gedämpft werden. Die Absorption ist schmalbandig, kann aber durch Kombination verschiedener Elemente und Materialien breitbandig gestaltet werden. Die Absorber müssen an der Decke und auf mindestens zwei zueinander senkrecht stehenden Wandflächen angeordnet werden und sollten anteilmäßig zur Größe der jeweiligen Raumbegrenzungsfläche verteilt werden. Der dabei auf den Boden entfallende Anteil der Absorber wird zusätzlich an der Decke angeordnet. Die genaue Lage der Absorber richtet sich danach, welche Flächenanteile für nützliche Schallreflexionen, z. B. Deckenspiegel in Konferenzräumen und Konzertsälen, benötigt werden bzw. wo schädliche Reflexionen unterdrückt werden müssen. Die Absorptionsgrade häufig anzutreffender Wandoberflächen zeigt Tab. 1/5. Tab. 1/5. Absorptionsgrade α verschiedener Materialien bei Wandoberflächen. Absorptionsgrade α bei verschiedenen Frequenzen Material
125 Hz
250 Hz
500 Hz
1.000 Hz
2.000 Hz
4.000 Hz
Beton, unverputzt Putz auf Mauerwerk Teppich, mittlere Dicke Akustikplatte, 2 cm dick auf Wand aufgeklebt Akustikplatte, 2 cm dick mit 2 cm Wandabstand Vorhänge
0,01 0,02 0,05 0,05
0,01 0,02 0,08 0,15
0,02 0,03 0,20 0,55
0,02 0,04 0,30 0,90
0,02 0,05 0,35 1,0
0,03 0,05 0,40 1,0
0,10
0,20
0,85
1,0
1,0
1,0
0,05
0,10
0,25
0,30
0,40
0,50
Die Absorption durch die Luft selbst macht sich nur im Bereich hoher Frequenzen von etwa 5 kHz an bemerkbar und nimmt mit steigender Frequenz zu, wodurch die Nachhallzeit insbesondere größerer Räume bei hohen Frequenzen weitgehend durch die Luftabsorption bestimmt wird. Höhenabsorber Höhenabsorber absorbieren hauptsächlich im Bereich hoher Frequenzen. Meist handelt es sich dabei um sog. poröse Absorber, zu denen in erster Linie Faserstoffe zählen, also z. B. Vorhänge, Teppiche, Polstermöbel, Platten aus Stein- und Glaswolle. Bei diesen Absorbern strömt die Luft bei ihrer Schwingungsbewegung in den zahlreichen Poren und Kanälen des Materials hin und her. Die dabei durch die Reibung erzeugte Wärmeenergie wird der Schallenergie entzogen, ist aber so gering, dass sie nicht zu einer messbaren Temperaturerhöhung des Absorbers führt.
1.2 Schallfelder
25
Da die Absorptionswirkung eines Materials mit der Schallschnelle im Absorber ansteigt, ist ein Absorber dann am wirksamsten, wenn er sich im Bereich eines Schnellemaximums der Schallwelle befindet, in einem Schnellenullpunkt ist er praktisch nicht wirksam. Eine an einer harten Wand reflektierte Welle hat aber an der Reflexionsfläche einen Schnellenullpunkt, im Abstand von 1/4 Wellenlänge von der Wand ein Schnellemaximum. Deshalb ist die Absorption zu tieferen Frequenzen hin umso wirksamer, je dicker die poröse Schicht ist oder/und je größer ihr Abstand zur Wand ist (Abb. 1/19). Die Verbesserung der Absorption bei einem Lattenunterbau zeigt Abb. 1/20.
Abb. 1/19. Einfluss der Wellenlänge λ, der Absorptionsdicke d und des Abstands Absorber – Wand a auf die Absorption.
Abb. 1/20. Verlauf des Absorptionsgrades α handelsüblicher Akustikplatten, a. direkt auf die Wand gesetzt, b. auf Lattenrost, 2,2 cm vor der Wand befestigt.
Oft haben Schallabsorber für hohe Frequenzen aus optischen und akustischen Gründen Abdeckungen aus Holz, Metall o. a., die mit einer großen Zahl von Öffnungen versehen sind. Die Abdeckungen bewirken eine Ausdehnung der Absorption nach tieferen Frequenzen hin,
26
1 Grundlagen der Akustik
während Schall höherer Frequenzen etwas weniger absorbiert wird. Tab. 1/5 nennt für Akustikplatten und Vorhänge die Absorptionsgrade dieser Höhenabsorber. Ein universeller, bei Bedarf leicht anzubringender Höhenabsorber ist ein frei hängender Vorhang aus nicht zu leichtem Stoff. Der Vorhang absorbiert wirksam bei Wellenlängen unterhalb des vierfachen Abstands von Wand zu Vorhang. Daraus lässt sich die Formel für die untere Grenzfrequenz fu ableiten, oberhalb der die Absorption einsetzt; Falten ergeben einen gleitenden Übergang von nicht absorbierten tiefen Frequenzen zu absorbierten höheren Frequenzen und einen gleichmäßigeren Frequenzgang der Absorption. fu = untere Grenzfrequenz [Hz] d = Abstand zwischen Wand und Vorhang [cm] Auch Publikum hat eine starke Absorptionswirkung. Damit kann es die Akustik eines Raums erheblich beeinflussen. Die Absorption wirkt bereits von 200 bis 500 Hz an aufwärts und erreicht für höhere Frequenzen Werte, die denen von Akustikplatten vergleichbar sind (Abb. 1/21). Bei einer Ausstattung mit Polsterstühlen ist der Unterschied in der Akustik von besetztem und unbesetztem Saal bei akustisch optimierter Bestuhlung nicht groß, bei Verwendung von Holzstühlen oder Bänken hingegen kann sich die Akustik durch das Publikum grundlegend verändern; dies trifft insbesondere für Kirchen zu, vor allem, wenn sie relativ klein sind. [Kath, 1964, 1965], [Meyer, E, 1965], [Mommertz, 1993], [Eggenschwiler, 1999]
Abb. 1/21. Absorptionswirkung von Publikum, a. Personen auf Holzstühlen, b. Polsterstühle ohne Personen, c. Polsterstühle mit Personen.
1.2 Schallfelder
27
In wenig bedämpften Räumen mit viel Publikum bestimmt die Absorption des Publikums weitgehend die Nachhallzeit, so dass in solchen Räumen in erster Linie das Raumvolumen pro Hörer, die sog. Volumenkennzahl K von Räumen, die Nachhallzeit bestimmt: Bei K = 8 bis 10 m3 ergibt sich eine Nachhallzeit von etwa 2 s, ein sehr guter Wert für Räume für Musikaufführungen mit Orchester, bei K = 6 bis 7 m3 liegt sie bei etwa 1,5 s, für Kammermusik der geringste akzeptable Wert, für das gesprochene Wort aber ein günstiger Wert (siehe Tab. 1/12). Mittenabsorber Durch konstruktive Maßnahmen an Höhenabsorbern, wie vergrößerter Wandabstand, größere Schichtdicke und perforierte Abdeckung des Absorbers, wird ein Höhenabsorber auch im mittleren Frequenzbereich um 500 Hz wirksam. Seltener werden spezielle Mittenabsorber, sog. Lochabsorber, verwendet, gelochte oder geschlitzte Platten vor einem Hohlraum, dessen Begrenzungsflächen teilweise mit Fasermaterial belegt sein können. Man bezeichnet solche Konstruktionen als Helmholtz-Resonatoren, da sie als schwingungsfähiges, lufterfülltes Hohlraumsystem mit einer Eigenfrequenz, bei der die Absorption am stärksten ist, wirken. Die Lage der Frequenz größter Absorption kann durch die Konstruktion gewählt werden. Abb. 1/22 zeigt den typischen Absorptionsverlauf eines Mittenabsorbers nach Helmholtz. Diese Resonatoren wirken relativ schmalbandig; die absorbierende Auskleidung des Hohlraums macht die Absorption breitbandiger.
Abb. 1/22. Typischer Absorptionsverlauf eines Helmholtz-Mittenabsorbers.
Die Resonanzfrequenz von Helmholtz-Resonatoren errechnet sich wie folgt und ist damit in weiten Bereichen beeinflussbar. c S ≈ 54 ⋅ f = V ⋅L S 2π ⋅ V ⋅L
f = Resonanzfrequenz [Hz] c = Schallgeschwindigkeit [m/s] S = Fläche des Resonatorhalses [m2] V = Volumen des Resonators [m3] L = Länge des Resonatorhalses [m]
28
1 Grundlagen der Akustik
Ein Beispiel für einen Helmholz-Resonator ist das fahrende Anto mit leicht geöffneter Scheibe; die zu beobachtende starke Tieftonresonanz kann durch Veränderung der Fensteröffnung – S in der Formel – beeinflusst werden. Ein anderes Beispiel ist eine angeblasene Flasche. Tiefenabsorber Tiefenabsorber bestehen meist aus Sperrholzplatten, die auf einem Lattenrahmen möglichst luftdicht vor eine Wand montiert werden. Der Zwischenraum zwischen Sperrholz und Wand wird mit schalldämpfenden Faserstoffen ausgefüllt. Die Schallwelle bringt die Platte zum Schwingen, durch innere Reibung der Platte und durch die Dämpfung der bewegten Luft im Fasermaterial wird dieser Schwingung Energie entzogen. Tiefenabsorber sind wie Mittenabsorber Resonanzsysteme, die Resonanzfrequenz nimmt mit zunehmendem Flächengewicht der schwingenden Platte und mit größer werdendem Wandabstand ab. Die Resonanzfrequenz wird zwischen etwa 70 und 300 Hz gelegt, je nach den jeweiligen raumakustischen Anforderungen (Abb. 1/23). Durch aufgesetzte Gewichte kann die Resonanzfrequenz verändert bzw. noch korrigiert werden. So können etwa die Holzkassetten einer Decke unterschiedlich abgestimmt werden; damit kann die Gesamtabsorption auf einen breiten Frequenzbereich ausgedehnt werden. Ein besonders hohes Flächengewicht haben Metallplatten, sie können damit besonders Platz sparend eingesetzt werden, z. B. in Übertragungswagen.
Abb. 1/23. Typischer Absorptionsverlauf eines Tiefenabsorbers, a. Plattenabsorber, b. nicht hinterpolsterte Platte.
Bei Platten, die frei im Raum schwingen wie aufgehängte Decken, Fenster und Türen sinkt die Resonanzfrequenz wegen der fehlenden Federwirkung, die sonst durch das eingeschlossene Luftpolster entsteht, so tief ab, dass sich ein gleichmäßiger Verlauf der Absorptionskurve einstellt (Abb. 1/23b). Besetzte oder unbesetzte Saalbestuhlung kann je nach Konstruktion der Stuhllehnen auch als Tiefenabsorber wirken, der bei etwa 130 bis 170 Hz eine Pegelabsenkung von 15 bis 20 dB bewirkt, nachdem der Schall eine Bestuhlung von 20 bis 25 m überstrichen hat.
1.2 Schallfelder
29
1.2.2.5 Schalldämmung Als Schalldämmung bezeichnet man die Fähigkeit von Baumaterialien, den Durchgang von Schall durch Wände und Decken eines Raums zu hemmen. Ein Maß für die Schalldämmung ist das Schallisolationsmaß [DIN 1320] oder Schalldämmmaß R [DIN 4109]. Darunter versteht man das in dB angegebene Verhältnis der auf eine Wand auftreffenden Schallintensität I1 oder des Schalldrucks p1 zur gesamten durchgelassenen Schallintensität I2 bzw. zum gesamten durchgelassenen Schalldruck p2. R = Schalldämmmaß [dB] I1 = auf die Wand auftreffende Schallintensität [W/m²] I p I = durch die Wand hindurchgehende Schallintensität [W/m²] R = 10 ⋅ log 1 = 20 ⋅ log 1 2 I p 2 2 p = auf die Wand auftreffender Schalldruck [Pa] 1 p2 = durch die Wand hindurchgehender Schalldruck [Pa] Die Schalldämmmaße sind frequenzabhängig, sie steigen meist mit der Frequenz erheblich an. Um dennoch mit einer einzigen Zahl das Schalldämmverhalten von Wänden, Decken usw. angeben zu können, wird in [DIN 4109] das Luftschallschutzmaß LSM definiert. Der Wert des LSM, angegeben in dB, gibt an, wie sich die gemessene Schalldämmung zu der in [DIN 4109] angegebenen Bezugskurve im Mittel verhält. LSM = 0 dB bedeutet, dass die Schalldämmanforderungen nach [DIN 4109] erfüllt sind; Wände zwischen Wohnungen sollen LSM = 0 dB haben. Tab. 1/6 nennt die Schalldämmmaße diverser Materialien. Gute Schalldämmung gegen Luftschall ergeben luftdichte, schwere und harte Materialien wie Stein und Holz. Das Schalldämmmaß hängt in erster Linie von der Masse einer Trennwand ab. Aus diesem Grunde sind die meist sehr leichten Akustikplatten und andere Absorber schlechte Dämmstoffe. Eine wesentliche Verbesserung der Schalldämmung ergeben zweioder mehrschalige Konstruktionen. Körperschall, der durch das Mitschwingen von Konstruktionsteilen weitergeleitet wird, wird durch schallweiche, elastische Zwischenteile wie Gummi oder Kork gedämpft. Eine häufig störende Form des Körperschalls ist der Trittschall. Er wird als Körperschall durch elastische Schichten bedämpft, also durch den sog. schwimmenden Estrich, eine harte Platte auf einer elastischen Schicht, und auch durch Teppichboden. Als Luftschall kann Trittschall z. B. durch abgehängte Decken vermindert werden. Tab. 1/6. Schalldämmmaße verschiedener Materialien Material, Dicke Blocksteine, 25 cm Kalksandstein, 12 cm, 20 cm Beton, 12 cm, 20 cm Gipsplatten, 6 cm, 10 cm Holzspanplatten, 1 cm, 4 cm Backsteinwand, 11 cm, verputzt leichte Zimmertür schalldämmende Spezialtür doppelt verglaste Fenster Regiefenster
Schalldämmmaß 49 bis 54 dB 46 bis 50 dB, 50 bis 55 dB 47 bis 52 dB, 53 bis 59 dB 30 bis 34 dB, 36 bis 40 dB 17 bis 20 dB, 26 bis 30 dB 44 bis 48 dB 10 bis 20 dB 35 bis 45 dB 30 bis 40 dB bis 65 dB
30
1 Grundlagen der Akustik
1.3 Raumakustik Die Raumakustik befasst sich mit den akustischen Erscheinungen und Bedingungen in geschlossenen Räumen. Hierbei spielt der subjektive Höreindruck stets eine entscheidende Rolle, er muss immer in die Betrachtungen einbezogen werden [Meyer, 2004], [Hentschel, 2009], [Beranek, 2010]. Für die raumakustische Planung stehen heute komplexe, aber auch vereinfachende Computerprogramme zur Verfügung, die mittlerweile sehr gute Voraussagen über die zu erwartende Raumakustik ermöglichen.
1.3.1 Zeitlicher Aufbau des Schallfelds Strahlt eine Schallquelle in einem Raum allseitig einen Schallimpuls ab, so wird dieser von den Raumbegrenzungsflächen und von den Gegenständen im Raum in Abhängigkeit vom Material und geometrischer Form und Größe der Gegenstände reflektiert, absorbiert oder gebeugt, auch zerstreut oder gebündelt. Dadurch treffen am Ort eines Hörers nach dem Direktschall, der auf dem kürzesten Weg den Hörer erreicht, zunächst einige einzelne Reflexionen, die sog. ersten Reflexionen ein, deren Verzögerung, Stärke und Einfallsrichtung für das Hörereignis von großer Bedeutung sind. Die Folge der Reflexionen verdichtet sich rasch und bildet den Nachhall, der daher mit einer Verzögerung gegenüber dem Direktschall einsetzt (Abb. 1/24). Dauer und Stärke des Nachhalls sind im Allgemeinen überall im Raum gleich, zumindest ähnlich. Die Gesamtheit des reflektierten Schalls stellt das im Idealfall gleichmäßig den Raum erfüllende diffuse Schallfeld dar, das dadurch gekennzeichnet ist, dass es keine Vorzugsrichtung der Schallausbreitung enthält. Das diffuse Schallfeld baut sich umso schneller auf, je kleiner der Raum ist, d. h., je häufiger der Schall pro Zeiteinheit reflektiert und gebeugt wird. Wenn ein Raum viele Streukörper wie Säulen usw. aufweist, bzw. Wände und Decke eines Raums nicht eben, sondern strukturiert sind, ist die Gleichmäßigkeit des Diffusschallfelds am größten. Dabei müssen die streuenden Flächen und Körper in ihren Abmessungen groß gegenüber der Wellenlänge des zu reflektierenden Schalls sein, um wirksam zu sein. Eine z. B. in Form von Kassetten strukturierte Wand kann daher gleichzeitig für tiefe Frequenzen wie eine große, ebene Fläche wirken, während der Schall bei höheren Frequenzen diffus gestreut wird. Hohlflächen wirken im Allgemeinen Schall sammelnd und beeinträchtigen die Diffusität des Schallfelds. Ein gleichmäßig über den Raum verteiltes, wirklich diffuses Schallfeld kann sich nur bei breitbandigem, impulshaltigem Schall, z. B. Sprache, Musik oder Rauschen, aufbauen. Besteht dagegen der Schall aus sinusförmigen Dauertönen oder stationärem, schmalbandigem Rauschen, so bilden sich auch in schiefwinkligen Räumen, auch bei strukturierten Raumbegrenzungsflächen, stehende Wellen, deren Druckmaxima und -minima sich ortsfest an bestimmten Raumpunkten befinden und beim Abschreiten des Raums leicht zu lokalisieren sind. Stehende Wellen oder Raummoden treten umso mehr und stärker auf, je kleiner ein Raum und je tiefer die Frequenz ist. Wenn sie bei der Aufnahme stören, kann oft durch eine kleine Verschiebung des Mikrofons aus dem Druckmaximum oder -minimum Abhilfe geschaffen werden.
1.3 Raumakustik
31
Abb. 1/24. Zeitliche Folge der Reflexionen in einem Raum bei Impulsschall.
Bei andauernden Schallsignalen, nicht nur bei Rauschen und Sinustönen z. B., sondern vielfach auch bei Musik, ergibt sich ein anderer zeitlicher Aufbau des diffusen Schallfelds. Der Schalldruck steigt bei Einschalten der Schallquelle zunächst auf seinen endgültigen Wert an und bildet dabei den sog. Anhall, der einen Klangeinsatz weich oder hart wirken lässt; kurzer Anhall macht den Klangeinsatz prägnant bis hart, langer Anhall weich bis verschwommen. Nach Abschalten der Schallquelle schließt sich wie bei Impulsschall der abklingende Nachhall an (Abb. 1/25).
Abb. 1/25. Zeitlicher Auf- und Abbau des Schalldrucks im diffusen Schallfeld bei Dauerschall.
Zur akustischen Raumgestaltung gehören vor allem die folgenden Aufgaben: Gute Abstrahlmöglichkeit der Schallquellen, geeignete Lenkung des Direktschalls und eine optimale Gestaltung der Verzögerungen der ersten Reflexionen (siehe Kap. 1.2.2 und 1.3.3), optimale Gestaltung der Nachhallzeit und ihrer Frequenzabhängigkeit einschließlich der Realisierung
32
1 Grundlagen der Akustik
einer guten Diffusität des Nachhalls, d. h., eine gleichmäßige Verteilung der Hallenergiedichte im Raum (siehe Kap. 1.3.4) und eine Vermeidung von Raummoden.
1.3.2 Begriffe der Hörakustik Die Akustik eines Raums und ihre Qualität ergibt sich aus dem komplexen Zusammenwirken der geometrischen Form des Raums und seiner Einrichtung, der akustischen Wirksamkeit der Oberflächen und den Eigenschaften des abgestrahlten Schalls als objektive Faktoren auf der einen Seite und der subjektiven, bewertenden Wahrnehmung das Raumschalls durch den Hörer mit seinen Erfahrungen, Erwartungen und Anforderungen auf der anderen Seite. Einen Zusammenhang zwischen den objektiven und subjektiven Faktoren herzustellen, ist ein wesentliches Ziel der raumakustischen Forschung. Diese Zusammenhänge sind inzwischen soweit bekannt, dass die exakte akustische Planung eines Saals zu einem guten Ergebnis führt, sofern nicht Kompromisse durch divergierende, unerfüllbare Anforderungen insbesondere im Hinblick auf sehr unterschiedliche Nutzungen geschlossen werden müssen. Seit dem 19. Jahrhundert wurden die auch aus heutiger Sicht besten Säle gebaut, deren Konzeption zunächst mehr auf Erfahrungen der Architekten als auf genauem akustischem Wissen beruhte. Um die subjektiven Aspekte der Raumakustik erfassen zu können, mussten Begriffe definiert werden, die einerseits physikalisch begründet sind, andererseits die subjektive Bewertung des Höreindrucks erfassen. Die folgenden übergreifenden Begriffe werden für die Hörakustik eines Raums verwendet [Kuhl, 1977], [Lehmann, 1980], Tab. 1/7 fasst sie zusammen. Die Hörsamkeit ist ganz allgemein die Eignung eines Raums für bestimmte Schalldarbietungen. Gute Hörsamkeit für Sprachdarbietungen besagt z. B., dass ohne Benutzung elektroakustischer Verstärkung eine gute Sprachverständlichkeit an allen Plätzen des Raums gewährleistet ist. Die Durchsichtigkeit kennzeichnet bei Musikdarbietungen trotz zusätzlichem Raumschall als Zeitdurchsichtigkeit die Unterscheidbarkeit zeitlich aufeinanderfolgender Töne und als Registerdurchsichtigkeit die Unterscheidbarkeit gleichzeitig gespielter Instrumente oder Instrumentengruppen oder deren Register oder Tonhöhenbereiche. Die Durchsichtigkeit bezeichnet also die Klarheit einer Musikdarbietung, sie ist vergleichbar der Wortverständlichkeit bei Sprachdarbietung. Schallreflexionen, die bei Musik bis spätestens 80 ms nach dem Direktschall eintreffen, erhöhen die Durchsichtigkeit und die Empfindung der Räumlichkeit, spätere Reflexionen mindern die Durchsichtigkeit und erhöhen die Halligkeit. Für Sprache ist diese Zeitgrenze bei 50 ms anzusetzen. Der Raumeindruck ist die Hörempfindung, die man in einem teilweise oder ganz umschlossenen Raum beim Erklingen eines Schallereignisses von dem Raum hat. Der Raumeindruck hat die Komponenten: –– die Empfindung, im gleichen Raum wie die Schallquelle zu sein, nicht, wie z. B. bei Zweikanal-Stereowiedergabe, durch ein Fenster in den Aufnahmeraum hineinzuhören, –– die Empfindung der Größe, insbesondere Breite und Tiefe, des Raums,
1.3 Raumakustik
33
–– die Empfindung der Halligkeit, d. h., die Tatsache, dass außer dem Direktschall Diffusschall vorhanden ist, der nicht als Wiederholung des Direktschalls, d. h., als Echo wahrgenommen wird, die Empfindung der Räumlichkeit, d. h., die Wahrnehmung, dass der Raum eine größere Ausdehnung hat als die Schallquelle. Im Gegensatz zum Hall ist das Echo eine einmalige Wiederholung eines Schallereignisses; es gibt dem Hörer über die Entfernung einer weiter entfernten Wand Auskunft. Zu weiteren Begriffen und Parametern zur Beschreibung und subjektiven Beurteilung der Qualität von Hörereignissen in Räumen siehe auch Kap. 19.7.3. Tab. 1/7. Begriffe der Hörakustik und ihre Bedeutung. Begriff
Unterbegriffe
Kurzdefinition
Hörsamkeit
1. Sprachhörsamkeit, 2. Musikhörsamkeit
Oberbegriff für die akustische Eignung eines Raums für Sprachdarbietung (1.) bzw. Musikdarbietung (2.)
Durchsichtigkeit
1. Zeitdurchsichtigkeit, 2. Registerdurchsichtigkeit
Klarheit einer akustischen Darbietung durch Unterscheidbarkeit aufeinander folgender (1) bzw. gleichzeitiger (2) Schallereignisse
Raumeindruck
1. Einbezogensein des Hörers, 2. Raumgröße, 3. Halligkeit, 4. Räumlichkeit, 5. Echo
Empfindung von Größe und Ausgestaltung eines Raums
akustisches Gleich- 1. Gleichgewicht der gewicht Lautstärken, 2. Gleichgewicht der Dynamik, 3. Gleichgewicht der Klangfarben
Mischung der einzelnen Schallquellen
1.3.3 Direktschall und erste Reflexionen Die ausreichende Versorgung der Hörer mit Direktschall ist eine Grundbedingung für gute Hörsamkeit in Räumen für Sprach- und Musikdarbietung. Optische Sichtverbindung gewährleistet noch nicht die notwendige Direktschallversorgung; der Anteil an Direktschall im Schallfeld muss denjenigen an Diffusschall übertreffen oder die ersten, weniger als 50 bis 80 ms verzögerten Reflexionen müssen in ihrer Gesamtheit stark genug sein, um ein klares Klangbild vor dem akustischen Hintergrund des Diffusfelds zu zeichnen. Die Stärke und Verzögerung der ersten Reflexionen beeinflusst das Hörereignis in verschiedener Weise: Alle Reflexionen erhöhen die Lautstärke des Direktschalls, die Deutlich-
34
1 Grundlagen der Akustik
keit steigt aber nur dann, wenn sie um weniger als 50 ms entsprechend 17 m Umweg der Schallwelle verzögert sind. Frühe Reflexionen mit einer Verzögerung von 0,8 bis etwa 20 ms entsprechend 0,3 bis 7 m Umweg verursachen bei der Tonaufnahme gleichzeitig eine unangenehme Klangfärbung, die durch Summierungen und Auslöschungen zwischen Direktschall und Reflexionen entsteht; sie stören also bei Tonaufnahmen und sind möglichst zu unterdrücken. Dies betrifft Reflexionen mit einem Umweg von weniger als 7 m. Reflexionen mit einer Laufzeitdifferenz von 20 bis 50 ms entsprechend 7 bis 17 m Umweg bestimmen die empfundene Raumgröße; ein Raum erscheint umso größer, je mehr die ersten Reflexionen verzögert sind, umso kleiner und enger, je früher sie eintreffen. Außer der Verzögerung haben Richtung und Stärke der ersten Reflexionen erheblichen Einfluss: seitlich einfallender Schall wird deutlicher gehört und hat sich für das Hörereignis als wesentlich günstiger erwiesen als von oben oder von hinten einfallender Schall. Die Reflexionen an den Seitenwänden vergrößern die Räumlichkeit einer Darbietung, d. h., die Empfindung, dass z. B. ein Soloinstrument auf der Bühne für den Hörer akustisch nicht punktförmig, sondern ausgedehnt erscheint. Ein Maß hierfür ist der Seitenschallpegel LF, Lateral Fraction, nach Barron und Marshall [Barron, 1981]. Weniger wahrnehmbar sind Reflexionen, die aus derselben Richtung wie der Direktschall kommen. Der Pegel einer Reflexion darf bei Sprache bis zu 10 dB über dem des Direktschalls liegen, ohne dass sie die Lokalisierung des Direktschalls stört. Je größer die Verzögerung ist, umso eher werden die Reflexionen wahrgenommen. Deutliche Einzelreflexionen mit einer Verzögerung von mehr als 50 ms werden als störendes Echo wahrgenommen. Der Einfluss von ersten Reflexionen, d. h., ihr positiver oder negativer Beitrag zur Hörsamkeit bei Musikdarbietungen, hängt zudem in starkem Maße von der Art und dem Stil der Musik ab. Zur Beurteilung der Reflexionen in einem Raum werden sog. Reflektogramme aufgenommen, auch Echogramme oder Impulsantworten eines Raums genannt. Dabei wird der Schalldruck in Abhängigkeit von der Zeit nach einer Impulsanregung, z. B. durch einen Pistolenschuss, dargestellt. Störende Einzelreflexionen können so leicht identifiziert werden. Abb. 1/26 zeigt Reflektogramme eines Raums mit guter (a) und schlechter (b) Hörsamkeit. Solche Reflektogramme können auch bei akustischen Raummodellen, die z. B. im Maßstab 1:10 hergestellt werden, gewonnen werden.
a b Abb. 1/26. Reflektogramme von Räumen unterschiedlicher Hörsamkeit (Zeitraster 10 ms), a. schlechte Hörsamkeit durch starke Einzelreflexion nach Reflexionslücke, b. gute Hörsamkeit durch gleichmäßig abnehmende Reflexionsfolge ohne herausragende Einzelreflexionen.
1.3 Raumakustik
35
Um die Sprachverständlichkeit bzw. die Durchsichtigkeit und den Raumeindruck bei Musikwiedergabe zu verbessern, werden die ersten Reflexionen nach den Gesetzen der Schallreflexion auf die Hörerplätze geleitet (siehe Kap. 1.2.2), wobei auch spezielle freihängende Reflektoren Verwendung finden. Wichtig für eine gute Verständigung der Musiker untereinander sind Deckenreflexionen über der Bühne.
1.3.3.1 Deutlichkeitsgrad und Klarheitsmaß In Zusammenhang mit der Bewertung des Reflektogramms eines Raums wurde der Begriff der Deutlichkeit eingeführt. Die für die Hörsamkeit eines Raums wichtigen Reflexionen treffen innerhalb von 100 bis 200 ms nach dem Direktschall beim Hörer ein. Reflexionen mit einer Verzögerung bis 50 ms erhöhen dabei die Silbenverständlichkeit oder Deutlichkeit der Sprache. Setzt man die Schallenergie, die innerhalb dieser 50 ms eintrifft, zur gesamten eintreffenden Schallenergie ins Verhältnis, so erhält man die Definition der Deutlichkeit in Prozentwerten ausgedrückt. Hohe Deutlichkeit entspricht einer hohen Silbenverständlichkeit, Musik lässt sie aber trocken wirken. Eine Deutlichkeit unter 50 % entspricht einem harten Klangeinsatz, von über 50 % einem weichen. Zwischen der physikalisch definierten Deutlichkeit an einem Ort im Raum und der subjektiv erfassten Durchsichtigkeit lässt sich kein enger Zusammenhang feststellen; deshalb sollte besser von Deutlichkeitsgrad oder 50-msEnergieanteil gesprochen werden. Die Definition des Klarheitsmaßes verfolgt ähnliche Ziele wie der Deutlichkeitsgrad. Danach ist das Klarheitsmaß definiert als 10-facher Logarithmus des Verhältnisses der bis 50 ms (Sprachklarheitsmaß, Deutlichkeitsmaß) bzw. 80 ms (Musikklarheitsmaß, Durchsichtigkeitsmaß) eintreffenden Schallenergie zur gesamten danach eintreffenden Schallenergie. Wenn die Werte positiv sind, ist die Deutlichkeit der Sprache bzw. die Durchsichtigkeit der Musik ausreichend.
1.3.4 Hall Hall als Oberbegriff ist der gesamte diffuse Schall in einem Raum. Wird eine Schallquelle in einem Raum plötzlich eingeschaltet, so baut sich das diffuse Feld erst danach als Anhall auf, es begleitet dann das Schallereignis als Mithall und klingt nach Abschalten der Schallquelle als Nachhall ab. Dabei haben die verschiedenen Schallfeldgrößen einen unterschiedlichen Verlauf (Abb. 1/27). Die Lautstärkeempfindung entspricht am besten dem Schalldruckpegel. Nachhall, die wichtigste Erscheinungsform des Halls, ist das Verschwinden des Schallfelds in einem Raum nach Abschalten der Schallquelle, d. h., das Abklingen des diffusen Schallfelds, das im Idealfall den Raum gleichmäßig erfüllt; in der Hörakustik ist Nachhall das Ausklingen des Hörereignisses nach Abschalten der Schallquelle. Je länger der Nachhall dauert, umso besser verteilt sich der Schall im Allgemeinen auf den gesamten Raum. Die Schallenergie nimmt dann exponentiell ab, der Schalldruckpegel linear. Die Abnahme der Schallenergie erfolgt umso schneller, je größer die Absorption der Raumbegrenzungen ist und je häufiger die Schallstrahlen reflektiert werden, d. h., also je kleiner ein Raum ist.
36
1 Grundlagen der Akustik
Abb. 1/27. Schematische Darstellung des Nachhalls für Schalldruckpegel, Schalldruck und Schallenergiedichte.
Die Schallenergiedichte w des diffusen Schallfelds in einem Raumvolumen von 1 m3 hängt von dem Absorptionsvermögen A und der zugeführten Schallleistung P ab; das Absorptionsvermögen wird durch die Nachhallzeit T erfasst. Die Schallenergiedichte w steigt dabei proportional mit der Nachhallzeit T und sinkt mit zunehmendem Raumvolumen:
P⋅T w= 13,8V
w = Schallenergiedichte [Ws/m³] P = abgestrahlte Schallleistung [W] T = Nachhallzeit [s] V = Raumvolumen [m³]
In der Praxis sind die Werte für die Schallenergiedichte w relativ klein: typische Werte für eine laute Musikdarbietung in einem Konzertsaal liegen im Bereich um 10-4 Ws/m3, denn die Leistung einer Schallquelle (Tab. 1/4) ist sehr gering und verteilt sich zudem auf den ganzen Raum. 1.3.4.1 Nachhallzeit Nach dem Vorschlag des Akustikers Wallace Clement Sabine (1868 – 1919) wird unter der Nachhallzeit T derjenige Zeitabschnitt, gemessen in s, verstanden, innerhalb dessen nach Abschalten einer Schallquelle die Schallenergie in einem Raum auf den millionsten Teil abfällt. Diesem Energieabfall entspricht ein Abfall des Schalldrucks auf 1/1.000 bzw. des Schalldruckpegels um 60 dB (Abb. 1/28). Die Nachhallzeit kann berechnet oder gemessen werden. Für die Berechnung wird am häufigsten die einfache Nachhallformel nach Sabine verwendet; sie wurde von Sabine empirisch gefunden, von Jäger dann auch aus Energiebetrachtungen theoretisch abgeleitet. Die Formel gilt insbesondere für längere Nachhallzeiten. Demnach ist die Nachhallzeit umso länger, je größer das Raumvolumen und je geringer die gesamte Absorption der Raumbegrenzungen ist. Da das Volumen eines Raums mehr zunimmt als seine gesamte Oberfläche, haben größere Räume bei gleicher Beschaffenheit der Begrenzungsflächen längere Nachhallzeiten
1.3 Raumakustik
37
als kleinere Räume. Die Anzahl der Reflexionen einer Schallwelle pro Zeiteinheit sinkt mit der Raumgröße, weil die Wege zwischen den Reflexionen mit der Raumgröße zunehmen. Raumvolumen verlängert also grundsätzlich die Nachhallzeit, eine Grundregel raumakustischer Planung.
Abb. 1/28. Definition der Nachhallzeit durch den Abfall des Schalldruckpegels nach Abschalten der Schallquelle.
T = Nachhallzeit [s V = Raumvolumen [m²] A = gesamtes Absorptionsvermögen [m²]
Da dieser Sabineschen Formel einige Vereinfachungen zu Grunde liegen, hat Eyring 1930 eine genauere Formel abgeleitet. Die Nachhallformel nach Eyring gilt auch bei kürzeren Nachhallzeiten. Die noch genauere Nachhallformel nach Knudsen berücksichtigt zusätzlich die Luftabsorption, wird aber in der Praxis kaum angewendet, da ihr Ergebnis innerhalb der Messtoleranz liegt. Die Messung der Nachhallzeit erfolgte bis 2009 nach [DIN 52216]. Es wurden Nachhallzeiten in dem Frequenzbereich von 125 Hz bis 4,0 kHz in Terz-, d. h. 1/3‑Oktav-Schritten bestimmt, in Ausnahmefällen von 100 Hz bis 6,3 kHz. Seit 2009 wird der neue Standard [DIN EN ISO 3382], Teil 1 für Aufführungsräume, Teil 2 für normale Räume mit komplexen Messverfahren angewendet. Als Schallsignal für die Messung dienen Weißes Rauschen oder Rauschen in Terzbandbreite. Pistolenschüsse werden nur in großen Räumen mit langer Nachhallzeit verwendet. Moderne Messverfahren nutzen spezielle Messsignale, deren Impulsantwort ausgewertet wird. Der Schallpegelverlauf beim Nachhallvorgang wird aufgezeichnet. Zur Auswertung wird die mittlere Steigung der Kurve ermittelt. Dabei wird nur der Bereich zwi-
38
1 Grundlagen der Akustik
schen - 5 und -35 dB ausgewertet [Vorländer, 1994]. Man unterscheidet bei der Nachhallzeit von Zuhörerräumen drei verschiedene Zustände: 1. unbesetzter Zustand, 2. Studiozustand, nur Orchester in üblicher Stärke, 3. besetzter Zustand mit 80 bis 100 % Publikumsbesetzung. Da bei der Darbietung von Musik besonders der Beginn des Abklingvorgangs bestimmend ist für die Wahrnehmung der Raumakustik – das weitere Ausklingen wird meist durch neue Schallereignisse überdeckt –, wurde die sog. Anfangsnachhallzeit gesondert definiert; dabei wird der Pegelbereich der Nachhallkurve zwischen 0 und - 15 dB (Initial Reverberation Time), zwischen 0 und - 20 dB (nach Kürer und Kurze) oder zwischen 0 und - 10 dB (Early Decay Time, EDT, nach Jordan) ausgewertet. Die Dauer des Abklingvorgangs, der bei Abschalten eines Schallereignisses tatsächlich wahrgenommen wird, stimmt nur in Ausnahmefällen mit der Nachhallzeit überein. Deshalb wird als Nachhalldauer die Zeitspanne definiert, innerhalb der ein Nachhallvorgang hörbar ist. Die Nachhalldauer hängt demnach vom Schallpegel der Schallquelle, von deren spektraler Zusammensetzung sowie vom Störgeräusch im Raum ab. Dabei hat der Schallpegel in der Praxis der Tonaufnahme die größte Bedeutung. Die Nachhalldauer nimmt mit dem Schallpegel stark zu. Deshalb wirkt ein Raum umso halliger, je lauter die Schallquelle ist. Bei leisen Stellen ist oft nur wenig Raumhall hörbar. So verändert sich der hörbare Anteil des Raums am Schallereignis ständig mit der Lautstärke: Die Intimität von leisen Stellen in der Musik wird durch den geringeren Raumeindruck unterstützt, laute Stellen erhalten Gewicht durch einen starken Raumeindruck. Die wahrgenommene Raumgröße atmet mit der Musik. Optimale Nachhallzeiten Die von den meisten Mitwirkenden einer Darbietung und vom Publikum bzw. von den Hörern einer entsprechenden Aufnahme in ihrer Mehrheit als optimal empfundene Nachhallzeit hängt von verschiedenen Faktoren ab: an erster Stelle von der Art der Darbietung, bei Musik vom Stil bzw. von der Epoche, aus der die Musik stammt, aber auch vom Tempo und Rhythmus sowie von der Besetzung, ja von der Interpretation eines Musikstücks, weiterhin von der Feinstruktur des Nachhallverlaufs, also von der Verteilung und Stärke der ersten Reflexionen und der Anfangsnachhallzeit, sowie der Frequenzabhängigkeit der Nachhallzeit. Schließlich weckt der optische Eindruck von einem Raum adäquate Erwartungen an den Nachhall, denen die akustische Wahrnehmung nicht widersprechen sollte. Diese vielfältigen Einflüsse haben dazu geführt, dass die Nachhallzeit eines Raums heute als nicht mehr allein entscheidend angesehen wird. Da ein Raum ohnedies im Allgemeinen für mehrere Darbietungsarten genutzt wird, kann es sich bei der optimalen Nachhallzeit nur darum handeln, Richtwerte für den Nachhall im mittleren Frequenzbereich anzugeben, die möglichst nicht unter- oder überschritten werden sollten. Neben physikalischen, hörpsychologischen und darbietungsbezogenen Gesichtspunkten einer optimalen Nachhallzeit hat sich auch gezeigt, dass ein gewisser Zeitgeschmack von Einfluss ist. So wurden in den 1950er Jahren kürzere Nachhallzeiten im Konzertsaal- und Studiobau gewünscht als in den folgenden Jahrzehnten. Für Opernhäuser gelten wegen der erforderlichen Sprachverständlichkeit kürzere Werte als in Konzertsälen. Die Nachhallzeit für Kirchen ist demgegenüber zumindest in historischen Bauwerken länger. Tab. 1/6 gibt Richtwerte für Nachhallzeiten in verschiedenen Räumen mit unterschiedlicher Zweckbestimmung an, detaillierte Angaben hierzu siehe Kap. 1.5, siehe hierzu auch die Tab. 1/11 bis 1/13.
1.3 Raumakustik
39
Bei Räumen für Sprachdarbietungen steht die Sprachverständlichkeit im Vordergrund, die kürzere Nachhallzeiten verlangt. Da aber die Lautstärke am Ort des Hörers mit der Nachhallzeit ansteigt, muss mit steigender Raumgröße auch die Nachhallzeit etwas zunehmen. Für Sprecherräume bei Tonaufnahmen gelten die kürzesten Nachhallzeiten. Bei mittleren und hohen Frequenzen besteht für größere Räume eine relativ hohe Korrelation zwischen der Nachhallzeit T und der Volumenkennzahl K, da hier die Luftabsorption wegen der längeren Schallwege überwiegt. K gibt das Raumvolumen in m3, das auf einen Zuhörerplatz entfällt, an:
T = Nachhallzeit [s] K = Volumenkennzahl [m³/Platz]
Damit kann für eine gegebene Raumgröße die optimale Zuhörerzahl abgeschätzt oder umgekehrt für eine geplante Hörerzahl die optimale Raumgröße bestimmt werden (Tab. 1/8). Tab. 1/8. Richtwerte für optimale Nachhallzeiten. Art des Raums Sprecherstudio Hörspielstudio großes Fernsehstudio Vortragssaal, Theater Opernhaus Konzertsaal, großes Musikstudio Kirche
optimale Nachhallzeit T
Volumenkennzahl K
0,3 s 0,6 s 0,8 s 0,7 bis 1,2 s 1,5 bis 1,8 s 1,8 bis 2,5 s 2,5 bis 3,0 s
3 bis 5 m3/Platz 6 bis 7 m3/Platz 8 bis 10 m3/Platz 10 bis 12 m3/Platz
Frequenzabhängigkeit der Nachhallzeit Eine wesentliche Qualität des Nachhalls bzw. des Klangs eines Raums allgemein ergibt sich aus der Frequenzabhängigkeit der Nachhallzeit bzw. der Veränderung der Klangfarbe des Nachhalls mit der Zeit, die praktisch in allen Räumen gegeben ist; frequenzunabhängigen Nachhall können nur elektronische Hallgeräte liefern, ein solcher Hall kann deshalb unnatürlich wirken. Die Frequenzabhängigkeit der Nachhallzeit führt dazu, dass sich der Nachhall im Verklingen zunehmend dunkler färbt bzw. dass das Diffusfeld gefärbt ist und somit eine allgemeine Klangfärbung der Darbietung zur Folge hat, sofern der Diffusanteil nicht nur klein ist. Diese Klangfärbung wird durch die Frequenzabhängigkeit der Absorber und der Luftabsorption verursacht. Höcker in den Frequenzkurven sind dabei leichter zu hören als Senken. Die Frequenzkurve des Nachhalls ändert ihre Gestalt mit dem Messort in einem Raum in gewissem Umfang, was bei tiefen Frequenzen, z. B. Orgeltönen, zu hörbaren Klangfärbungen führen kann. Bei streifendem Schalleinfall über Bestuhlung und Publikum werden Frequenzen im mittleren und hohen Bereich bedämpft (siehe Kap. 1.2.2.4). Räume mit vorwiegend offen liegenden Steinwänden haben die längste Nachhallzeit im Bereich tiefer Frequenzen, der Klang einer Darbietung wird hier dadurch dumpf. Längere Nachhallzeit im mittleren Frequenzbereich gibt dem Klang eine warme Färbung, schwingungsfähige Raumbegrenzungen wie Holzverkleidungen und Bilder fördern diesen Klang-
40
1 Grundlagen der Akustik
charakter. In Aufnahmestudios und modernen Konzertsälen versucht man, die Frequenzabhängigkeit des Nachhalls relativ gering zu halten. Die Klangfärbung des Nachhalls wird durch das sog. Bassverhältnis oder Bass Ratio BR nach Beranek als Verhältnis der Nachhallzeiten bei tiefen Frequenzen (125 und 250 Hz) zu derjenigen bei mittleren Frequenzen (500 und 1.000 Hz) beschrieben. Allen Räumen ist eine Abnahme der Nachhallzeit mit steigender Frequenz oberhalb von 1 bis 2 kHz gemeinsam; sie wird von der Absorption der Luft verursacht. Dadurch kann die Nachhallzeit 3,1 s bei 5 kHz und 1,2 s bei 10 kHz niemals überschreiten. Ist die Nachhallzeit mit einem einzigen Wert angegeben, so bezieht sich diese Angabe auf 500 oder 1.000 Hz. Abb. 1/29 zeigt die Typen der Nachhallkurven.
Abb. 1/29. Schematische Nachhallkurven mit verschiedenen Frequenzabhängigkeiten: a. Nachhall unnatürlich spitz: nur mit elektronischen Hallgeräten realisierbar, b. Nachhall klangneutral: Aufnahmestudios und moderne Konzertsäle, c. Nachhall mittenbetont und warm: historische Säle mit Holzvertäfelung, d. Nachhall dumpf: große Kirchen mit großen Steinflächen.
Anhall Betrachtet man die Energieverhältnisse beim Aufbau des Raumschallfelds, also beim Anhall, so ist eine Unterscheidung des Höreindrucks nach „hartem“ und „weichem“ Schall einsatz sinnvoll. Harter Schalleinsatz liegt vor, wenn mehr als die Hälfte der gesamten Schallintensität bis spätestens 50 ms nach dem Einsetzen der Schallquelle beim Hörer eintrifft, weicher Schalleinsatz, wenn weniger als die Hälfte erst nach diesem Zeitabschnitt eintrifft. Harter Schalleinsatz ist der Sprachverständlichkeit und Präsenz dienlich, weicher Schalleinsatz fördert ein weiches, rundes Klangbild insbesondere bei Musik, während es bei Sprache zur Undeutlichkeit führt. Auf dieser Unterscheidung beruht auch die Definition des Begriffs der Deutlichkeit (siehe Kap. 1.3.3). 1.3.4.2 Hallradius und Hallabstand In unmittelbarer Nähe einer Schallquelle dominiert auch in halligen Räumen der Direktschall über den Diffusschall. Mit zunehmender Entfernung von der Schallquelle verrin-
1.3 Raumakustik
41
gert sich im Nahbereich einer allseitig abstrahlenden Schallquelle der Schallpegel mit jeder Entfernungsverdopplung um jeweils 6 dB, bei den meisten Schallquellen sind es wegen ihrer gerichteten Schallabstrahlung eher 3 bis 4 dB. Demgegenüber ist der Schallpegel des diffusen Schalls bei längeren Nachhallzeiten im ganzen Raum gleich. Direkter und diffuser Schall überlagern sich. In einem bestimmten Abstand rH von der Schallquelle, dem sog. Hallradius, auch als kritischer Abstand, Grenzradius oder Äquivalententfernung bezeichnet – nicht aber als Hallabstand, sind die Schalldruckpegel von direktem und diffusem Schall gleich groß. Der Gesamtschallpegel in diesem Punkt ist um 3 dB höher als jede der beiden Komponenten (Abb. 1/30). Innerhalb des Hallradius überwiegt der Direktschall mit seiner Richtungsinformation über den Ort der Schallquelle, außerhalb überwiegt der Diffusschall ohne Richtungsinformation.
Abb. 1/30. Überlagerung von Direkt- und Diffusschall und Hallradius rH.
Der Hallradius rH nimmt mit dem Raumvolumen V zu, verringert sich aber mit zunehmender Nachhallzeit T: rH = Hallradius [m] V = rH 0,057 ⋅ V = Raumvolumen [m³] T T = Nachhallzeit [s] In Abb. 1/31 kann der Hallradius rH für verschiedene Raumvolumina V und Nachhallzeiten T abgelesen werden.
42
1 Grundlagen der Akustik
Abb. 1/31. Hallradius rH [m], abhängig vom Raumvolumen V [m3] und der Nachhallzeit T [s].
Die sich aus der Formel bzw. Abb. 1/31 ergebenden Hallradien sind überraschend klein. So beträgt der Hallradius in einem 120 m3 großen Hörspielstudio mit einer Nachhallzeit von 0,35 s, also einem stark gedämpften Raum, etwa 1 m und selbst z. B. in dem 15 680 m3 großen Sendesaal des NDR-Hannover bei einer Nachhallzeit ohne Publikum von 2,1 s nur etwa 5 m. Der Hallradius ist jedoch für allseitig gleiche Schallabstrahlung und allseitig gleichen Schall empfang definiert, Bedingungen, die in der Praxis nur selten erfüllt sind. Musikinstrumente und Lautsprecher zeigen mit steigender Frequenz eine zunehmende Richtwirkung, erfasst durch den Bündelungsgrad γ, die den sog. effektiven Hallradius rH e£f frequenzabhängig vergrößert; der effektive Hallradius gilt nur für Tonaufnahmen mit Mikrofonen ohne Richtwirkung: rHeff = effektiver Hallradius [m] V = Raumvolumen [m³] T = Nachhallzeit [s] γ = Bündelungsgrad der Schallquelle [dimensionslos] Bei Musikinstrumenten ist der Bündelungsgrad γ frequenzabhängig, besonders stark bei Blechblasinstrumenten; bei 10 kHz z. B. kann er auf Werte um 5 ansteigen, d. h., rHeff kann sich um den Faktor √5 ≈ 1,7 erhöhen, im Allgemeinen liegt dieser Faktor bei 1,2 bis 1,5. Auch durch den gerichteten Schallempfang wird der Hallradius vergrößert, bei nierenund achtförmiger Richtcharakteristik um den Faktor 1,7, bei der Superniere um den Faktor 1,9, bei der Hyperniere um den Faktor 2, bei der Keule um einen noch etwas größeren Wert. Mit diesen Werten muss der tatsächliche Hallradius rH ebenfalls noch multipliziert werden. In der Praxis der Tonaufnahme multiplizieren sich also die Korrekturen des Hallradius aus gerichteter Schallabstrahlung und gerichtetem Schallempfang. Der tatsächlich zu berück-
1.3 Raumakustik
43
sichtigende Hallradius z. B. bei Nierenmikrofonen liegt damit um den Faktor 2 bis 5 über dem nach der Formel für rH errechneten Wert. Während der Hallradius den Abstand von der Schallquelle bezeichnet, an dem Direktund Diffusschall gleiche Pegel haben, beschreibt der Hallabstand die Pegeldifferenz von Direkt- zu Diffusschall in einem beliebigen Abstand von der Schallquelle. Im Abstand des Hallradius von der Schallquelle ist der Hallabstand also 0 dB.
1.3.5 Diffusität Diffusität, genauer Schalldiffusität, beschreibt den Grad und die Art der Verteilung von reflektiertem Schall einer Schallquelle in einem Raum und über die Zeit. Der Begriff stellt eine weitere Möglichkeit dar, die akustischen Eigenschaften eines Raums zu beschreiben [Remmers, 2006]. Man unterscheidet dabei zwischen örtlicher oder räumlicher und zeitlicher Diffusität. Die örtliche Diffusität wird als die Gleichmäßigkeit des Schalleinfalls hinsichtlich Schalleinfallsrichtung und Intensität an einem bestimmten Ort definiert. Die zeitliche Diffusität beschreibt die statistische Verteilung des Eintreffens reflektierter Schallsignale am Messort über die Zeit, also den zeitlichen Verlauf eines Reflektogramms. Beide Komponenten nehmen mit der Vielfalt von Reflexionsmöglichkeiten in einem Raum zu. Die Schalldiffusität beschreibt damit die raumakustischen Eigenschaften, die sich ergeben, wenn die Begrenzungsflächen eines Raums und die in ihm enthaltenen Gegenstände nicht nach Art eines Spiegels in nur einer Richtung reflektieren, sondern eben diffus in alle Richtungen. Daraus ergibt sich u. a. auch der Unterschied zwischen dem sog. freien Schallfeld, in dem praktisch keine Reflexionen auftreten, und dem diffusen oder statistischen Schallfeld (siehe Kap. 1.3.1). Bisher gibt es keine mathematische Beschreibung der Diffusität als physikalische Größe und folglich auch keine direkt zugeordnete Maßeinheit. Für eine indirekte Bestimmung von physikalischen Kenngrößen der Diffusität können z. B. folgende Messverfahren angewendet werden: die Konstanz der räumlichen Energiedichteverteilung, die Langzeitmittelung des Betrags des Intensitätsvektors und die zeitliche und räumliche Inkohärenz des Schalldrucks [Remmers, 2006]. In der Raumakustik wird eine hohe Diffusität unter anderem durch konvex gekrümmte oder hinreichend gegliederte Begrenzungsflächen und die damit verbundene diffuse Reflexion des Schalls erreicht. Bewährt haben sich auch Diffusoren, die nach dem Prinzip der λ/2-Transformation wirken, sog. Schroeder-Diffusoren. Dabei handelt es sich z. B. um eine Aneinanderreihung verschieden tiefer, kastenförmiger Hohlräume. Sie sind auch als industrielle Erzeugnisse verfügbar und können ggf. auch nachgerüstet werden. Um ein ausgeglichenes Schallfeld in Hör- oder Aufnahmeräumen sicherzustellen, sollte Diffusität möglichst immer gleichzeitig mit Mitteln zur Reflexion und zur Absorption erreicht werden. Räume mit hoher bzw. ausgeglichener Diffusität führen meist zu einer besseren Hörsamkeit und einem besserem Raumeindruck, sowohl beim natürlichen Hören als auch bei der Schallaufnahme, insbesondere bei den Hauptmikrofonverfahren. Räume mit geringer oder wenig ausgeglichener Diffusität weisen oft raumakustisch störende Eigenschaften auf wie einzelne Eigenresonanzen, Fehllokalisierung durch starke Einzelreflexionen, Flatter echos o. ä.
44
1 Grundlagen der Akustik
1.4 Akustik von Aufnahmestudios Die Akustik der Aufnahmestudios ist sowohl unter bau- als auch unter raumakustischen Gesichtspunkten zu betrachten [Friesecke, 2012]. Bauakustische Probleme sind in erster Linie die Schalldämmung gegen Außengeräusche wie Verkehrs- und Fluglärm, Trittschall, Aufzüge u. a., aber auch die Unterdrückung von Geräuschen der Klimaanlage. Raumakustische Gesichtspunkte sind u. a. die ersten Reflexionen und der Nachhall mit ihren verschiedenen Parametern, aber auch Gesichtspunkte wie etwa die akustische Verständigung der Musiker untereinander. Die Anforderungen an ein Studio bzw. die günstigsten Werte der akustischen Daten eines Studios hängen von seiner Zweckbestimmung ab.
1.4.1 Störgeräuschpegel Im Bereich des Hörfunks bzw. der Wort- und Musikproduktion, der Bearbeitung und Beurteilung von Aufnahmen, werden an die Raumruhe sehr hohe Anforderungen gestellt, die in bauakustischer Hinsicht und im Hinblick auf Klima- und Lichtanlagen einen hohen Aufwand erfordern. Für die höchstzulässigen Störgeräusche sind die Empfindlichkeit des Gehörs, die Lautstärke der Schallquellen, die Abstände der Mikrofone von den Schallquellen, die spek trale Zusammensetzung der akustischen Inhalte, die technische Ausrüstung bei der Aufnahme wie z. B. das Betriebsrauschen und die Anzahl der Mikrofone, der betriebliche Ablauf und andere Faktoren von komplexem Einfluss. Das Rauschen der Mikrofone und Aufzeichnungsanlagen ist heutzutage allerdings so gering. dass es nicht mehr berücksichtigt werden muss. Es ist nicht möglich, die höchstzulässigen Störgeräusche durch einen einzigen Wert anzugeben, da die Empfindlichkeit des Gehörs stark frequenzabhängig ist. Für den Bereich des öffentlich-rechtlichen Rundfunks mussten demnach Grenzkurven definiert werden, die Terz-Schallpegel nach [DIN 45641] im Bereich von 50 Hz bis 10 kHz als Tabelle oder als Grenzkurven (GK) angeben [IRT, 1995]. Neben der Raumnutzung z. B. als Sprecherraum wird auch die zugehörige Programmsparte berücksichtigt, was zu einer Differenzierung der Anforderungen in mehrere verschiedene Grenzkurven geführt hat. Die Störgeräusche dürfen unabhängig von ihrem Pegel keine tonalen oder periodischen Schallstrukturen enthalten, dies gilt für den gesamten Frequenzbereich von 125 Hz bis 20 kHz. Tab. 1/9 gibt zur Orientierung für einige Räume und Programmsparten die höchstzulässigen Grenzkurven GK an, die nicht überschritten werden dürfen, wenn nicht Qualitätsminderungen hingenommen werden können. Die Kurven orientieren sich im unteren Frequenzbereich an den international vor allem in der Klimatechnik verwendeten Noise-Rating-Kurven NR nach [ISO R 1996, überarbeitet 2003]. Diese folgen grob den Kurven gleicher Lautstärkepegel bzw. den Messkurven für den A-bewerteten Schalldruckpegel. Abb. 1/32 zeigt die Grenzkurven.
1.4 Akustik von Aufnahmestudios
45
Tab. 1/9. Beispiele für die Grenzkurven von höchstzulässigen Störgeräuschen [IRT, 1995]. Raum
Programmsparte
Hörfunk-Produktionsstudios
Hörspiel Kammermusik Orchestermusik U-Musik, Popmusik Sprachaufnahmen Tonbearbeitung alle alle
Fernseh- Produktionsstudios Bearbeitungsräume mit Bürocharakter, Redaktionen
Grenzkurve GK
entspricht etwa
GK0 GK0 GK5 GK15 GK10 bis GK15 bis GK20 bis GK25
14 dBA 14 dBA 18 dBA 26 dBA 22 dBA bis 26 dBA bis 30 dBA bis 34 dBA
Abb. 1/32. Grenzkurven GK für höchstzulässige Schalldruckpegel in Studios des Hörfunks und Fernsehens [IRT, 1995].
1.4.2 Raumakustik von Aufnahmestudios und Regieräumen Für die Ausbreitung des Direktschalls und die Bedeutung der ersten Reflexionen gelten zunächst die Ausführungen in Kap. 1.2.3. Abweichend davon müssen die ersten Reflexionen mit besonderer Aufmerksamkeit gemessen, oft zusätzlich unterdrückt oder bedämpft werden. Während die ersten Reflexionen beim Hören im natürlichen Schallfeld nützlich sind, weil sie die Lautstärke und Deutlichkeit erhöhen, können sie bei Mikrofonaufnahmen das Klangbild negativ beeinflussen. Tonaufnahmen aus „trockenen“ Studios, d. h., aus Studios mit kurzer Nachhallzeit, können bei zu starken ersten Reflexionen „topfig“, auch
46
1 Grundlagen der Akustik
unerwartet hallig klingen, Musikaufnahmen aus hinreichend großen Räumen kleinräumig erscheinen. Die Ursache hierfür bilden zu starke oder zu frühe Schallrückwürfe, die, immer auf den Mikrofonort bezogen, gegenüber dem Direktschall eine Laufzeitdifferenz von etwa 15 bis 50 ms aufweisen. Besonders bei Schallaufzeichnungen aus kleinen Studios ist die hörbare Klangfärbung störend, die durch Schallrückwürfe entsteht, deren Laufzeitdifferenzen gegenüber dem Direktschall nur 0,8 ms bis 15 ms betragen. Diese Klangfärbungen bleiben unhörbar, wenn der Schalldruckpegel einer Reflexion mindestens 13 dB unter dem des Direktschalls liegt. Sind zwei derartige Reflexionen vorhanden, so muss diese Pegeldifferenz für jeden der Rückwürfe etwa 15 dB, bei vier Reflexionen etwa 18 dB betragen. Ein Hörspielkomplex umfasst neben dem sog. schalltoten Raum zwei weitere Studios mit unterschiedlichen Nachhallzeiten von etwa 0,4 s und 0,6 s bis maximal 1,0 s. Die Studios können zusätzlich eine gedämpfte Ecke oder Schnecke enthalten, in der die Studionachhallzeit ohne Einfluss bleibt. Wie in allen Studios, in denen nur Wortproduktionen durchgeführt werden, wird die Nachhallzeit nur für Frequenzen über 80 Hz konstant gehalten, da die Sprache für tiefere Frequenzen keine hörbaren Komponenten enthält, Raumresonanzen somit nicht anregt. Sog. schalltote Räume, besser reflexionsarme Räume, für Hörspielzwecke mit einer Nachhallzeit unter 0,2 s werden an der Decke und den Wänden mit Mineralfasermatten belegt. Wenn die Einbautiefe dieser Anordnung etwa 0,3 m beträgt und der Boden mit einem dicken, weichen Teppich bedeckt ist, lässt sich ein nachhallfreier Raum für diese Zwecke ausreichend realisieren. Im Gegensatz zu Hörspielstudios benötigt man für Sprecher- und Interviewstudios keine Mindestraumgrößen. In Räumen mit einem Volumen von 30 m3 und weniger lassen sich einwandfreie Produktionen durchführen, wenn sich Sprecherplätze und Mikrofonorte festlegen lassen. In diesem Fall ist es möglich, durch eine gezielte raumakustische Verkleidung die schädliche Wirkung der ersten Schallreflexionen, die vom Sprechertisch und von Boden, Decke und Wänden ausgehen, zu vermeiden. Kleine Studios liegen dann mit ihrer Nachhallzeit an der Hörbarkeitsgrenze von etwa 0,2 bis 0,3 s; bei tiefen Frequenzen ist die Nachhallzeit i. Allg. etwas länger, weil sie nicht so leicht zu bedämpfen ist wie bei höheren Frequenzen. In großen Musikstudios für klassische Musik sorgen nahe Wandflächen und eine ebene Decke bzw. Reflektoren in optimaler Höhe für den akustischen Kontakt zwischen den Musikern. Durch ein Zusammenrücken des Orchesters lässt sich dieser Kontakt verbessern. Die Nachhallzeit des Studios mit Orchester und Publikum sollte etwa 1,8 bis 2,0 s betragen. Studios für konventionelle unterhaltende Musik oder Soundtracks für Filme mit traditioneller Instrumentalbesetzung sollen die Möglichkeit bieten, einzelne Instrumente und Instrumentengruppen, deren Schalldruckpegel sehr unterschiedlich sein können, gleichzeitig, aber akustisch getrennt aufzuzeichnen. Ein Auseinanderrücken der einzelnen Gruppen, das Vermeiden von Reflexionen sowie eine kurze Nachhallzeit, d. h., geringerer Diffusschallpegel, sind dafür notwendig, aber nicht immer ausreichend. Dämmende bzw. absorbierende Schallwände müssen in diesem Fall die Ausbreitung des direkten Schalls zwischen den Gruppen verhindern bzw. das Mikrofon vor Diffusschall abschirmen. Es kann darüber hinaus sogar erforderlich sein, dass besonders lautstarke oder besonders leise Instrumente
1.4 Akustik von Aufnahmestudios
47
in kleinen, fast völlig geschlossenen, schalldämmenden Kojen gespielt und aufgenommen werden müssen. In Fernsehstudios verzichtet man aus wirtschaftlichen Gründen auf den Einbau von speziellen Tiefenabsorbern. Dicke Mineralfasermatten, mit denen Decke und Wände vollflächig belegt sind, bilden eine ausreichende Absorption. Der sich dabei ergebende Anstieg der Nachhallzeit für Frequenzen unter 125 Hz bleibt unhörbar, da bei Fernseh-Tonproduktionen eine elektrische Absenkung der tiefen Frequenzen üblich ist. Kritisch sind bei Fernsehaufnahmen die Reflexionen an Kulissen, da diese Rückwürfe oft mit einer geringen, den Räumlichkeitseindruck ungünstig beeinflussenden Laufzeitdifferenz auf das Mikrofon treffen. Ein Synchronstudio für Nachvertonungen entspricht etwa einem Hörspielstudio mit einer Nachhallzeit bis 0,4 s. 1.4.2.1 Elektronische Systeme zur Veränderung der Raumakustik Trotz der Möglichkeit, einer Aufnahme künstlichen Hall aus Hallgeräten bzw. allgemein künstliche Rauminformationen hinzufügen zu können (siehe dazu Kap. 6.5), kann in bestimmten Fällen auch eine Veränderung der Nachhallzeit des Aufnahmeraums selbst sinnvoll sein [Rümer, 1990]. Damit kann in einem Hörspielkomplex u. U. ein Studio eingespart werden. Musikstudios müssen nicht nur aufnahmetechnisch für die Aufnahme geeignet sein, sondern auch für die Musiker und ggf. für das Publikum bestimmte akustische Anforderungen erfüllen; so kann z. B. die Anpassung der Nachhallzeit an die veränderten akustischen Gegebenheiten bei Anwesenheit von Publikum oder an die Musik verschiedener Stilarten wünschenswert sein. Schließlich kann ein Studio oder allgemein ein Hörraum damit multifunktional gestaltet werden. Neben den raumgeometrischen bzw. raumakustischen Maßnahmen zur Variation der Nachhallzeit und Schalllenkung in Hörräumen entstanden im Zuge der Vervollkommnung von Beschallungstechnik und Signalverarbeitung zahlreiche elektronisch gestützte Lösungen zur Nachhallzeitverlängerung in Konzertsälen, Theatern und anderen Hörräumen, insbesondere aber auch in sog. Mehrzwecksälen, die für eine variable Nutzung von Sprechtheater, Oper, Operette und Musical bis zur Sportveranstaltung vorgesehen sind. Sie werden dabei meist in als akustisch unzureichend empfundenen Räumen nachträglich eingebaut und teilweise auch unter der Bezeichnung Acoustic enhancement systems vermarktet. Die meist für Konzertdarbietungen zu kurze Nachhallzeit solcher Räume, die oft in der Größenordnung von etwas über 1 s liegt, kann mit solchen Installationen auf etwa 2 s verdoppelt werden. Dies entspricht einer physikalisch maximal möglichen Erhöhung der Nachhallenergie um 3 dB. In bisher realisierten Anwendungen werden im Wesentlichen zwei verschiedene Lösungsansätze verfolgt, nämlich In-line-Systeme mit synthetischer Erzeugung von Raumsignalen und regenerative oder Feedback-Systeme, die eine zu große Schallabsorption der Raumbegrenzungen durch elektroakustische Verstärkung ausgleichen. In-line Systeme zur synthetischen Erzeugung von Raumsignalen Hierbei werden Signale von ausgewählten Mikrofonen abgegriffen und einer zentralen Bearbeitungseinheit zugeführt, die entweder diskrete Reflexionen unterschiedlicher Intensität
48
1 Grundlagen der Akustik
und Verzögerung erzeugt, welche zu bestimmten Reflexionsfolgen, einem sog. Nachhallschwanz, aufsummiert werden oder die als kompakte Einheit eines elektronischen Nachhallerzeugers ein geeignetes Nachhallsignal generieren. Die so gewonnenen Raumsignale werden dann über eine Vielzahl von Raumlautsprechern, die vorzugsweise im Seiten- und Deckenbereich angeordnet sind, in den Zuhörerbereich abgestrahlt. Solche Systeme, die auch unter der Bezeichnung Ambiofonie-Anlagen bekannt geworden sind, werden in der Regel in Verbindung mit einem Beschallungssystem zur Schallverstärkung eingesetzt, wobei entweder die gleichen, im Bühnenbereich angeordneten Mikrofone zur Signalgewinnung benutzt werden oder zusätzliche im Nahfeld angeordnete Mikrofone. Frühere Lösungen, die bereits ab den 1960er Jahren bekannt wurden, verwenden einfache Verzögerungseinrichtungen auf Magnettonbasis [Franssen, 1964] oder elektronische Verzögerungsgeräte in Verbindung mit einer Delta-Stereofonie-Beschallungsanlage (DSS) [Steinke, 1987] zur Realisierung der erforderlichen Signalverzögerungen. Moderne Lösungen, die erst nach Verfügbarkeit hochwertiger digitaler Nachhallerzeuger entstanden sind und bei denen erstmals auch die Bezeichnung In-line-System verwendet wird, benutzen hingegen zentrale digitale Nachhallgeneratoren auf DSP-Basis wie z. B. in den Systemen LARES (Lexicon Acoustic Reinforcement and Enhancement System) [Griesinger, 1990], ACS (Acoustic Control System), SIAP (System for Improved Acoustic Performance) oder VIVACE. Regenerative oder Feedback-Systeme Eine andere Philosophie wird von den sog. regenerativen Systemen verfolgt, wo versucht wird, die für den Aufbau des Nachhallfelds nachteilige Absorption im Zuhörerbereich mit elektroakustischen Mitteln zu kompensieren und den erforderlichen Raumschallanteil zu erhöhen. Dies geschieht durch die Anordnung von typisch 30 bis100 einzelnen Verstärkerkreisen, jeweils bestehend aus Mikrofon und zugeordnetem Lautsprecher, die an den Begrenzungsflächen des Raums verteilt sind und den an dieser Stelle auftreffenden Schall entweder frequenzselektiv (AR-System) oder breitbandig (MCR-System u. a.) verstärken. Eine frühe Form eines regenerativen Systems wurde bereits in den 1940er Jahren von Vierling in der Berliner Staatsoper eingesetzt, ab den1960er Jahren kamen dann – nach Vorliegen verbesserter hardwaretechnischer Voraussetzungen – verschiedene weitere Systeme auf den Markt, wie das Assisted Resonance (AR) System [Parkin, 1965], später Systeme wie MCR (Multiple-Channel Reverberation), CARMEN (Contrôle Actif de la Réverbération par Murs virtuels à Effet Naturel), CONSTELLATION u. a. Daneben gibt es noch Lösungen, die beide Prinzipien miteinander verbinden, z. B. bei den Systemen VRAS (Variable Room Acoustics System) oder VAP (Virtual Acoustics Prozessing). Auch das Prinzip der Wellenfeldsynthese (WFS) wurde bereits zur Erzeugung eines synthetischen Raumschallfelds eingesetzt (Seebühne Bregenz). Die meisten der genannten Lösungen wurden bereits weltweit erfolgreich in namhaften Veranstaltungsräumen und Theatern installiert. Eine vergleichende Darstellung aktueller Systeme findet sich z. B. in [Kok, 2011]. Alle oben beschriebenen Anordnungen stellen jeweils autarke elektroakustische Systeme dar, die unabhängig von Beschallungslösungen arbeiten und ausschließlich der Erhöhung der Nachhallenergie dienen. Eine Ausnahme bildet hier
1.4 Akustik von Aufnahmestudios
49
das System VIVACE, das ähnlich wie bei dem erwähnten Delta- Stereofonie-Verfahren zusätzlich auch zur Direktschallversorgung eingesetzt werden kann. Die Mehrheit der Systeme benötigt nach sorgfältiger Einmessung und ggf. einer Parameterauswahl für konkrete Nutzungsfälle in der Regel keine durchgängige Bedienung oder Überwachung. Dies erfordert jedoch eine hohe Konstanz und Betriebssicherheit der Anlage, um unangenehme Störungen wie Rückkopplungen oder andere Störeffekte zu vermeiden. Trotzdem muss der Toningenieur bei der Schallaufnahme für ein zusätzlich betriebenes Beschallungssystem oder eine Aufzeichnung oder Übertragung ausreichende Mikrofonabstände zu den Lautsprechern des jeweils installierten Nachhallverstärkungssystems einhalten, um unerwünschte Rückwirkungen wie Klangverfärbungen, unausgeglichene Raumschallanteile oder auch Rückkopplungen zu vermeiden. 1.4.2.2 Schallkabinen Eine kostengünstige und flexible Möglichkeit, akustisch entkoppelte Aufnahmebedingungen für kleine Formationen oder Einzelschallquellen zu realisieren, besteht in der Aufstellung einer oder mehrerer Schallkabinen, auch Aufnahme- Ton-, Gesangs-, Sprecher- oder Studiokabine bzw. Soundbox genannt. Eine solche Kabine, die im Prinzip in jedem ausreichend großen, auch akustisch unbehandelten Raum aufgestellt werden kann, hat eine ausreichende Schallabsorption im Inneren, so dass eine Nachhallzeit zwischen 0,1 und 0,5 s erreicht wird und unerwünschte Eigenresonanzen hinreichend unterdrückt werden. Sie hat eine Schalldämmung über 40 dBA oder je nach Anforderung auch deutlich höher bei mittleren und hohen Frequenzen, so dass weder eine Beeinflussung des aufgenommenen Schalls im Innern noch eine Störung anderer Schallquellen außerhalb der Kabine erfolgt. Die Kabine ist in der Regel aus standardisierten Wand- und Deckenelementen zusammengesetzt, die die erforderlichen akustischen Eigenschaften nach innen und außen realisieren. Eine solche Modulbauweise ermöglicht die Realisierung unterschiedlicher Kabinengrößen, von etwa 1,5 · 1,5 m an aufwärts bis zu einem Vielfachen davon und erlaubt im Bedarfsfall auch eine einfache Demontage und Umsetzung in einen anderen Raum. Die schalldichte Montage erfordert eine akustisch gedämpfte Belüftung, die in der Regel als aktive Versorgung mit Frischluft und Abluftaustritt durch Überdruckkanäle ausgelegt ist. Schalldichte Türen, Leitungsdurchführungen und Fenster für Sichtkontakt sind ebenfalls verfügbar. Die aufnahmetechnischen Anwendungen sind sehr vielfältig, sie reichen von einfachen Sprach- oder Gesangsaufnahmen über Einzelinstrumente bis hin zu kleineren Gruppen. Grundsätzlich ist bei einer Nutzung im Aufnahmebetrieb zu beachten, dass die Abstände zwischen Mikrofonen und Schallquellen größer sind als die Abstände der Mikrofone zu den Begrenzungsflächen der Kabine, um unerwünschte Klangfärbungen oder Reflexionen zu minimieren. Daraus ergeben sich auch die Mindestanforderungen an die Größe der Kabine. Solche Kabinen bzw. Module, die von verschiedenen Herstellern angeboten werden, erfreuen sich vor allem in der Popmusikbranche steigender Beliebtheit wegen der unkomplizierten und flexiblen Installation und des enormen Kostenvorteils gegenüber einem akustisch ausgebauten Studio. Sie eignen sich auch als schalldichte Übungsräume für Instrumente, ebenso als einfache Räume für akustische Messungen der Audiometrie.
50
1 Grundlagen der Akustik
1.4.3 Akustik von Regieräumen Regieräume sollen optimale Bedingungen für die Beurteilung von Aufnahmen bieten. Ihre akustischen Eigenschaften beeinflussen allerdings den Klang der Lautsprecherwiedergabe. Deshalb wird mit gewissem Recht immer wieder gefordert, dem Regieraum die Akustik der typischen häuslichen Abhörsituation zu geben, also die eines durchschnittlichen Wohnraums. Da es nicht möglich ist, einen solchen Raum zu definieren, werden Regieräume akustisch so ausgestattet, dass sie im Vergleich zu durchschnittlichen Wohnräumen reflexionsarm sind, d. h., dass der Raum möglichst wenig Einfluss auf die Schalldarbietung nimmt [Völker, 1992, 1994], [Schneider, 1992], [Spikofski, 1989], [Wollherr, 1983]. Die Anforderungen für Bezugsabhörräume und sog. High-quality-Regieräume sind in nationalen und internationalen Empfehlungen festgelegt, u. a. in [EBU Tech 3276, 1998], [ITU-R BS.1116], ebenso die entsprechenden Tests, im Detail erläutert in Kap. 19.6.1. Nur wichtige Merkmale sind hier zusammengefasst: Die Grundfläche soll für einen Bezugsabhörraum mindestens 40 m2, für einen Regieraum mindestens 30 m2 betragen, das Volumen weniger als 300 m3; erforderlich ist eine geometrische und akustische Symmetrie bezüglich der Achse Lautsprecher – Abhörplatz, die Freiheit von Flatterechos, stehenden Wellen u. a. Die Nachhallzeit universell benutzbarer Regieräume liegt bei etwa 0,3 s, bei Wohnräumen liegt sie um 0,4 s; meist steigt sie unterhalb 125 Hz nach unten an. Längere Nachhallzeiten sind für klassische Musik durchaus geeignet, bei Sprache und rhythmischer Popmusik hingegen machen sie den Raum zu hallig [Wollherr, 1983]. Wichtiger als ein bestimmter Wert der Nachhallzeit ist, dass ihr Frequenzgang um nicht mehr als etwa 10 % für terzbreites Rauschen vom Durchschnittswert abweicht. Die Angaben zur Nachhallzeit haben bei solch kurzen Nachhallzeiten weniger Aussagekraft als bei längeren Nachhallzeiten. Die besten Erkenntnisse liefert hier das Reflektogramm oder die Impulsantwort des Regieaums (siehe Kap. 1.3.3). Darin können einzelne zu starke Reflexionen erkannt und danach im Regieraum gezielt abgedämpft werden. Die absorbierenden Flächen werden im Allgemeinen gleichmäßig auf Wände und Decke verteilt, wobei mit der jeweiligen Anordnung gezielt zu starke Reflexionen besonders im Bereich der Abhörplätze vermieden werden sollen. Beim Abhören mit sog. Nahfeldmonitoren – das sind kleine Lautsprecherboxen, die, unmittelbar auf den Regietisch gestellt, wegen des geringen Abstands den Abhörplatz überwiegend mit Direktschall versorgen – kann der Einfluss des Regieraums minimiert werden; allerdings erfüllen solche Lautsprecher nicht oder nur eingeschränkt die Qualitätsforderungen an Regielautsprecher. Ebenso können sie die Abhörbedingungen beim Hörer nur näherungsweise abbilden, da es bis heute keine allgemeingültigen Anforderungen an einen sog. Heimabhörstandard gibt. Zu den Anforderungen an Regieräume siehe im Einzelnen Kap. 19.6.1. 1.4.3.1 Akustik von Übertragungswagen und kleiner Abhörräume Die Abhörbedingungen in kleinen Abhörräumen, also ganz besonders in Übertragungswagen, sind besonders kritisch. Ursache hierfür sind stehende Wellen, auch Raumresonanzen oder Raummoden genannt (siehe Kap. 1.3.2). Sie kommen zwar in Räumen jeder Größe vor,
1.4 Akustik von Aufnahmestudios
51
jedoch treten sie in kleinen Räumen in dem besonders kritischen Frequenzbereich zwischen 100 und 1.000 Hz auf; denn je größer der Raum ist, umso tiefer liegt der kritische Bereich störender Raumresonanzen. Im Gegensatz zu sich frei ausbreitenden Schallwellen, bei denen der Schallpegel gleichmäßig mit der Entfernung abnimmt, die Klangfarbe also im Raum gleichbleibt, bilden stehende Wellen im Raum ein Muster von Schalldruckminima und -maxima, die zu einer beachtlichen Ortsabhängigkeit der Klangfarbe führen kann, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Es ist in diesem Fall nicht möglich, durch Frequenzgangkorrekturen der Lautsprechersignale Verbesserungen vorzunehmen. Stehende Wellen können nur durch völlige Reflexionsfreiheit bzw. vollständige Absorption der Wände unterbunden werden. Je mehr Schall von den Wänden reflektiert wird, desto ausgeprägter sind die ortsabhängigen Klangfarbenänderungen. Es gelingt heute durch Schichtung unterschiedlicher Absorbermaterialien, auch in Übertragungswagen stehende Wellen oberhalb von 200 Hz weitgehend zu vermeiden und somit die Abhörbedingungen akzeptabel zu gestalten [Fuchs, 2010]. Gelegentlich werden große Tonübertragungswagen mit seitlich erweiterbaren Regiekabinen ausgestattet, deren raumakustische Eigenschaften durchaus denen von stationären Regieräumen nahe kommen.
1.4.4 Akustik großer Aufnahmestudios und Konzertsäle Grundsätzlich sind die akustischen Anforderungen an Konzertsäle und an große Aufnahmestudios, die im Allgemeinen ja zugleich als Konzertsäle genutzt werden, gleich. Im Gegensatz zu Rundfunkstudios sind Konzertsäle jedoch Bestand unterschiedlicher historischer Bauepochen. Die raumakustischen Eigenschaften können von Saal zu Saal deshalb sehr verschieden sein, weil architektur-stilistische Gestaltungselemente, aber auch unterschiedliche akustische und optische Ziele die Raumakustik mitbestimmen [Forsyth, 1992], [Sotiropoulou, 1995], [Weinzierl, 2002], [Meyer, 2004], [Beranek, 2010], [Steinke, 2012]. Die Nachhallzeit von Opernhäusern wird einerseits wegen der notwendigen Wortverständlichkeit kürzer gewählt, andererseits bedingen die traditionellen Bauformen der Opernhäuser große Absorptionsflächen und damit kürzere Nachhallzeiten. Die Nachhallzeiten von Kirchen können außerordentlich verschieden sein, je nach Baustil und Größe [Eggenschwiler, 1999], [Meyer, 2003]. Eine Orientierung über die zweckmäßigen Grenzen, innerhalb derer die Nachhallzeiten im mittleren Frequenzbereich im Allgemeinen liegen, gibt Abb. 1/33 für Konzertsäle und Opernhäuser in Abhängigkeit von ihrer Raumgröße. Bei der Frequenzabhängigkeit der Nachhallzeit ist meist eine Anhebung der Nachhallzeit im Frequenzbereich zwischen 500 und 2.000 Hz zu beobachten. Abb. 1/34 zeigt dies für besetzten und unbesetzten Zustand einiger bekannter Konzertsäle. Interessant ist die Tatsache, dass gute Säle auffallend unterschiedliche Frequenzabhängigkeiten der Nachhallzeit haben. Tab. 1/11 nennt die Daten einiger international als raumakustisch gut anerkannter historischer und moderner Konzertsäle und Opernhäuser nach [Beranek, 2010].
52
1 Grundlagen der Akustik
Abb. 1/33. Zweckmäßige Bereiche der Nachhallzeit bei mittleren Frequenzen für vollbesetzte Konzertsäle und Opernhäuser in Bezug auf die Raumgröße.
Abb. 1/34. Frequenzabhängigkeit der Nachhallzeit bekannter Konzertsäle nach [Sotiropoulou, 1995]. 1. Musikvereinssaal, Wien, unbesetzt, 5. Herkulessaal, München, unbesetzt, 1‘ besetzt 5‘ besetzt 2. alte Philharmonie, Berlin, zerstört, unbesetzt, 6. Laeiszhalle, Hamburg, unbesetzt 2‘ besetzt 7. Royal Festival Hall, London, unbesetzt, 3. Symphony Hall, Boston, unbesetzt 7‘ besetzt 4. Oetkerhalle, Bielefeld, unbesetzt
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
53
Für alle Konzertsäle gilt, unabhängig von ihrer Entstehungszeit, dass auch der hohe Qualitätsstandard moderner Geräte für künstliche Verhallung bei Aufnahmen von klassischer Musik die gute Akustik eines Raums nicht ersetzen kann. Einerseits bestimmt die Raum akustik das Tempo und die Artikulation, allgemein die Interpretation bei der Aufführung von Musik mit, andererseits repräsentiert die übliche und notwendige Aufstellung der Mikrofone im Nahbereich bei vorgesehener elektronischer Verhallung die spezielle Klangfarbe am Aufnahmeort; sie ist Ausgangspunkt für die spezielle Klangfärbung des elektronischen Halls, der natürliche Hall hingegen integriert die Klangabstrahlung der Instrumente in alle Raumrichtungen. Deshalb kann künstlicher Hall dem natürlichen Raumeindruck grundsätzlich nicht gleichwertig sein. Die architektonischen, akustischen und sozialen Anforderungen an Konzertsäle unterliegen wie alle kulturellen Manifestationen einer historischen Entwicklung. So ist es kaum möglich, allgemein zu beschreiben, wie ein guter Konzertsaal klingen und aussehen soll. Nur gemessen an heutigen Anforderungen, erscheinen viele der älteren Säle als ungeeignet oder gar schlecht, während sie zu ihrer Zeit als gut anerkannt waren. Grundsätzlich gehört aber eine „authentische“ Raumakustik zu dem derzeit aktuellen Bemühen um ein authentisches Klangbild.
1.5 Historische Konzertsäle, Opernhäuser und Kirchen Konzertsäle, Opernhäuser und Kirchen haben akustische Eigenschaften, die von den architektonischen Grundsätzen und Stilmerkmalen der Epoche, in der sie erbaut wurden, geprägt sind. [Beranek, 2010], [Dickreiter, 2011], [Forsyth, 1992], [Meyer, 2003] Bis ins 18. Jahrhundert gab es nur wenige Räume, die für Musikaufführungen besonders geplant und ausgestaltet waren. Kirchenmusik wurde in Kirchen aufgeführt, die je nach Stil eine längere oder kürzere Nachhallzeit haben. Kammermusik wurde in kleineren Räumen mit meist stark gedämpfter Raumakustik und Feldmusik im Freien dargeboten. Konzertmusik mit Orchester wurde in den großen Fest- und Tanzsälen, den sog. Redouten, von Schlössern und Residenzen sowie in Ratssälen aufgeführt. Größere Räume speziell für Musikaufführungen in eigens erbauten Konzert- und Opernhäusern entstanden erst im Verlauf des 18. Jahrhunderts, verbunden mit der zunehmenden Beteiligung des Bürgertums an der Musikpflege.
1.5.1 Konzertsäle des 18. Jahrhunderts Der Konzertsaal des 18. Jahrhunderts ist noch kein entwickelter Bautyp mit typischen Merkmalen wie etwa die Barockkirche dieser Zeit. Die ersten eigentlichen Konzertsäle wurden in England errichtet für die Veranstaltung öffentlicher Konzerte für alle Bürger und gegen Eintrittsgeld. Konzerte waren wirtschaftliche Unternehmungen, Komponisten und Musiker waren auf die Akzeptanz ihrer Musik durch das Publikum angewiesen. Kennzeichnend für die Konzertsäle sind relativ kleine Räume mit Grundflächen um 200 bis 40 m2, darin ein dicht gedrängtes Publikum, woraus sich ein geringes Raumvolumen pro Platz und eine bemerkenswert kurze Nachhallzeit von 1 bis 1,5 s ergibt. Einer der wichtigsten Konzertsäle
54
1 Grundlagen der Akustik
in London, dem europäischen Musikzentrum jener Zeit, sind ab 1775 die Hanover Square Rooms mit knapp 1 s Nachhallzeit; auf 240 m2 waren 800 Zuhörer stehend untergebracht, pro Zuhörer standen nur 2 bis 3 m3 Raumvolumen und eine Fläche von knapp 0,5 · 0,5 m zur Verfügung. Wichtige öffentliche Aufführungsorte waren in London und anderswo auch Konzertgärten, Vergnügungsparks mit den unterschiedlichsten Unterhaltungsmöglichkeiten, wo in halboffenen Pavillons oder in geschlossenen Räumen vor sehr zahlreichem Publikum musiziert wurde, z. B. auch Werke wie Orgelkonzerte von Georg Friedrich Händel. Die weitere Entwicklung des Konzertsaalbaus ging zum Ende des 18. Jahrhunderts von England nach Deutschland über. Im deutschsprachigen Raum gab es im 18. Jahrhundert außerhalb des höfischen Musiklebens nur geringe öffentliche musikalische Aktivitäten. Größere Konzertsäle waren weder an den Höfen noch im öffentlichen Bereich erforderlich. Musiziert wurde meist in Räumen, die nicht speziell für Konzerte vorgesehen waren [Weinzierl, 2002]. Unter den Räumen, die als Konzertsäle genutzt wurden, sind herausragende Beispiele diejenigen Säle, in denen Joseph Haydn seine Werke – wie auch in dem genannten Londoner Saal zwischen 1791 und 1795 – aufführte: Der Konzertsaal des Schlosses Esterháza in Ungarn ist ein kleiner Saal für 200 Zuhörer mit einer Nachhallzeit von 1,2 s, bei tiefen Frequenzen auf 2,3 s ansteigend. Dieser Konzertsaal wurde von Haydn 1766 bis 1784 genutzt. Dagegen hatte der Große Saal im österreichischen Eisenstadt, wo Haydn zwischen 1760 und 1765 mit seinem Orchester musizierte, eine Nachhallzeit von 1,7 s, ansteigend auf 2,8 s für tiefe Frequenzen; für die 400 Zuhörer stand ein Volumen von fast 7.000 m3 zur Verfügung, pro Platz also über 17 m3, ein für Konzertsäle ungewöhnlich großes Volumen. [Meyer, 1978] Wohl der berühmteste Konzertsaal, der noch im 18. Jahrhundert entstanden ist, ist das sog. Alte Gewandhaus in Leipzig, das 1781 erbaut und 1894 wieder abgebrochen wurde. Es wurde besonders in der ersten Hälfte des 19. Jahrhunderts ein viel genutzter und auch für diese Zeit typischer Konzertsaal. Mit einer Nachhallzeit von geschätzt 1,3 s und 400, nach einem Umbau 1842 570 Hörerplätzen, bei einem Volumen von rund 5 m3 bzw. später knapp 4 m3 pro Sitzplatz erklang die Musik präsent und relativ laut; die Holzvertäfelung und der Holzfußboden waren gute Tiefenabsorber, so dass eine gleichmäßige Absorption über den gesamten Frequenzbereich angenommen werden kann. Auffällig ist die Anordnung der Sitzreihen parallel zur Saalachse. Dies war nicht typisch, betonte aber die gesellschaftliche Funktion öffentlichen Konzertlebens, da man bei dieser Sitzanordnung während des Konzerts sehen und gesehen werden wollte und konnte. Hier wurden viele der bekanntesten Werke der Klassik aufgeführt, ein herausragender Kapellmeister dieser Zeit war Felix Mendelssohn-Bartholdi (1809 – 1847). Das Alte Gewandhaus stellt den Beginn einer eigentlichen Tradition des Konzertsaalbaus dar. Es wurde 1884 durch das wegen seiner Akustik gerühmte und vielfach kopierte Zweite oder Neue Gewandhaus nach Plänen von Martin Gropius ersetzt. 1943 wurde der berühmte Saal durch Luftangriffe schwer beschädigt, die zunächst geplante Wiederherstellung wurde aufgegeben und an anderer Stelle 1981 ein dritter, wieder Neues Gewandhaus genannte Konzertsaal eröffnet. Der Blick auf die erhaltenen bzw. bekannten Konzertsäle des 18. Jahrhunderts zeigt, dass man von typischen raumakustischen Verhältnissen noch nicht sprechen kann. Typisch war am ehesten der präsente, nicht durch Nachhall überdeckte Klang, der der fein ziselierten
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
55
und durch kleinteilige Phrasierungen geprägten Musik des Spätbarock, der Frühklassik und Klassik sehr gut entspricht.
1.5.2 Konzertsäle des 19. Jahrhunderts Zum Ende des 18. und Beginn des 19. Jahrhunderts zeigen sich als Folge der wachsenden Beteiligung des Bürgertums am Musikleben charakteristische Veränderungen im Konzertleben: Konzerte werden nun von professionellen Gesellschaften und einzelnen Personen, wie Konzertunternehmer, Komponisten oder Künstlern, nach wirtschaftlichen Gesichtspunkten veranstaltet und sind öffentlich zugänglich. Sie ziehen immer mehr Besucher an, zunehmend größere Räume mit entsprechend größeren Orchestern werden erforderlich. Erstmals entsteht ein größerer Bedarf an Räumen speziell für Musikaufführungen. Die Komponisten konzipieren ihre Werke nun nicht mehr für bestimmte Anlässe und Räume, da sie an verschiedenen Orten aufgeführt werden. Damit geht die in früheren Jahrhunderten weitgehend übliche Bindung der Musik an den Aufführungsraum vielfach verloren. Musik soll jetzt beeindrucken, auch im moralischen Sinn wirksam werden, geeignete Mittel hierfür sind auch Masse und Lautstärke, also große Orchester- und vor allem Chorbesetzungen, mit denen sich das Bürgertum nun an Aufführungen beteiligt. Die Oratorien Händels, Haydns, Mendelsohns und vieler anderer, die heute kaum mehr Beachtung finden, und Beethovens 9. Sinfonie tragen viel zur Gründung von Chören und Orchestern bei. Dies architektonisch zu unterstützen, führte vielfach dazu, Konzertsälen einen weihevoll würdigen Ausdruck zu verleihen, sie Kirchen oder Tempeln nachzuempfinden; daher rührt auch der noch heute in Konzertsälen übliche Einbau einer großen Orgel. Der Konzertsaalbau des 19. Jahrhunderts geht in den deutschsprachigen Ländern zunächst keine grundsätzlich neuen Wege. Aus dem Ballsaal, der sog. Redoute, dem häufigsten Aufführungsraum barocker höfischer Musik, wird die Rechteckform mit ebenem Fußboden übernommen, es entsteht der klassische Konzertsaaltyp, der sog. Schuhschachtelsaal. Vor allem im späteren 19. Jahrhundert wird dies der vorherrschende Typ, um die Wende zum 20. Jahrhundert wird er zum Standard. Der Schuhschachtelsaal ist relativ schmal – Breite zu Länge verhalten sich vielfach wie 1 : 2 – und hat eine hohe Decke, eine auf die Seite gestellte Schuhschachtel eben. Dadurch entsteht ein relativ großes Raumvolumen pro Zuhörer. Der Fußboden ist eben, am Ende des Saals befindet sich die erhöhte Bühne mit Orgel, um den Saal läuft eine Galerie, mit nützlichen Schallreflexionen an deren Unterseite. Solche Säle wurden in erster Linie für Orchester- und Chorkonzerte mit einem Publikum von 1.500 bis 2.000 Personen gebaut. Die Säle wurden in allen damals üblichen historisierenden Stilen gestaltet. Der typische Schuhschachtelsaal hat einen vergleichsweise kurzen Nachhall; er fördert einen üppigen, vollen Klang, der genau zur Musik der Zeit passt, oder passt die Musik zu den Räumen? Die für alle Plätze nahen Seitenwände reflektieren den Schall wirksam und erzeugen gering verzögerte, seitliche erste Reflexionen, die die Schallquelle scheinbar vergrößern, also die Raumeindruck betonen. Die Zuhörer sitzen relativ gedrängt und vergleichsweise nah beim Orchester, was der Musik auch Intimität und Präsenz verleiht. Akustische Überlegun-
56
1 Grundlagen der Akustik
gen wurden noch nicht angestellt, Erfahrung aus gebauten Sälen zählte. Die Grundform der Schuhschachtel allein ist allerdings noch keine Garantie für gute Raumakustik. Die wegen ihrer Akustik noch heute als die besten Konzertsäle der Welt geltenden Säle gehören dem Schuhschachteltyp an, sie galten als Vorbilder und wurden vielfach nachgeahmt, nämlich der Große Musikvereinssaal in Wien von 1870 und das Neue Gewandhaus in Leipzig von 1884, das Vorbild war u. a. für das Concertgebouw in Amsterdam von 1888 und beide zusammen für die Symphony Hall in Boston von 1900. Der Große Musikvereinssaal in Wien von Theophil Hansen wurde 1870 für 1.680 Zuhörer eröffnet, er gilt als der beste Konzertsaal der Welt. Bei knapp 9 m3 Volumen pro Sitzplatz liegt die Nachhallzeit etwas über 2 s. Die Wände sind verputzt, durch hohe Fenster unterbrochen und stark gegliedert. Die schallharten Wände fördern einen vollen Bassklang. Die umlaufende Galerie wird von vergoldeten Karyatiden getragen, die Stuckdecke ist reich verziert und ebenfalls vergoldet; daher der Beiname „Goldener Saal“. Der Alte Gewandhaussaal in Leipzig, 1781 für nur 400 Zuhörer erbaut, war trotz seiner kurzen Nachhallzeit von ca. 1,3 s und seiner großen akustischen Direktheit und Intimität bis 1894, bis zu seinem Abriss, ein als gut anerkannter Konzertsaal, auch für die voluminöse Musik der Romantik. Das Neue Gewandhaus, nach Plänen von Martin Gropius erbaut, wurde 1884 eröffnet. Sein kleiner Saal war eine Kopie mit nun 640 Plätzen, sein großer Saal eine proportional vergrößerte annähernde Kopie des Alten Gewandhaussaals für 1.560 Zuhörer. Die Grundfläche bildeten zwei nebeneinander gelegte Quadrate mit 18,9 m Kantenlänge, die Höhe betrug 14,9 m, die klassischen Maße eines Schuhschachtelsaals. Wie im Musikvereinssaal zog sich ringsherum die Galerie, auf der über der Bühne eine Konzertorgel Platz fand. Die Nachhallzeit war mit geschätzt 1,5 s deutlich kürzer als die des Wiener Saals. So bot das Neue Gewandhaus nicht ganz das Klangvolumen des Musikvereinssaals, eignete sich aber möglicherweise besser für die Musik der Klassik. Die Konzertprogramme waren auch mehr als in Wien auf die Musik der Vergangenheit, also auf die Klassik, ausgerichtet. Der dritte berühmte Schuhschachtelsaal auf europäischem Boden ist das Concertgebouw in Amsterdam mit 2.200 Plätzen, von van Gendt erbaut und 1888 eröffnet. Die Nachhallzeit ist mit 2,2 s etwas länger als im Musikvereinssaal, sein Volumen fast doppelt so groß wie das des Neuen Gewandhauses. Wegen der größeren Saalbreite kommen die ersten Reflexionen spät, der Klang ist durchmischter und weniger klar als im Wiener und Leipziger Saal; er eignet sich eher für die monumentalen Werke des späten 19. Jahrhunderts wie etwa die Sinfonien Anton Bruckners und Gustav Mahlers als für die Musik der Klassik. Die akustischen Daten der Konzertsäle, die heute allgemein als die besten angesehen werden, zeigt Tab. 1/11. Die Mehrzahl dieser Säle entstammt dem 19. Jahrhundert. Eine Wissenschaft von der Raumakustik, die als Grundlage der vielen akustisch guten Säle anzusehen wäre, gab es damals noch nicht. Allenfalls herrschte die Vermutung, dass ein optisch schöner Saal auch akustisch gut sein müsse; dazu gehört z. B. die Beachtung ganzzahliger Raumproportionen. Zudem stützte man sich auf bewährte Raumdimensionen und Gestaltungsmittel. Die Forschungen von Sabine, die 1898 zur Nachhallformel führten, konnten erstmals bei der Symphony Hall in Boston, eröffnet 1900, in der Planung mit Beratung durch Sabine berücksichtigt werden.
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
57
1.5.3 Konzertsäle des 20. Jahrhunderts Der Konzertsaalbau ist im 20. Jahrhundert durch die Entwicklung der Wissenschaft von der Akustik und ihrer Anwendung auf die raumakustische Planung geprägt. Die Bestimmung von akustischen Kriterien für die gewünschte raumakustische Qualität wird zunehmend präziser und erreicht nach der Jahrhundertmitte einen bis heute zunehmend weiterentwickelten Wissensstand, der eine relativ zuverlässige Planung ermöglicht. Gute Konzertsäle können jedoch nur verwirklicht werden, wenn nicht Anforderungen gestellt werden z. B. nach zu großen Sälen und nach unvereinbaren Nutzungskonzepten. Schon 1650 hat Athanasius Kircher die Gesetzmäßigkeiten der Ausbreitung von Schall analog zu Lichtstrahlen beschrieben, z. B. auch die Konstruktion eines Flüstergewölbes. Die wichtige Erkenntnis, dass der Publikumsbereich so ansteigen soll, dass jede Person dieselbe Sicht auf die Bühne hat und damit auch optimale Hörbedingungen für Direktschall bestehen – heute als Überhöhungskurve bezeichnet – wurde von John Russell 1838 formuliert. Schon bei den antiken Theatern verwirklicht, ist diese Erkenntnis erst im 20. Jahrhundert wieder in die Planungen eingegangen. Die erste Zusammenfassung akustischen Wissens hat Rayleigh 1878 in „The Theory of Sound“ vorgelegt. Den nächsten wichtigen Schritt in der Forschung machte Wallace Clement Sabine, als er 1898 die Formel für die Nachhallzeit durch Experimente entdeckte und damit dieses Kriterium in die Planungen einbezogen werden konnte. Sabine wendete erstmals für die Planung der Boston Symphony Hall die Nachhallformel für den Zusammenhang zwischen Nachhallzeit, Raumgröße und der Absorption der verwendeten Materialien an; dieser Saal von 1900, der mit seinen vom Leipziger Neuen Gewandhaus abgeleiteten Proportionen ein typischer Schuhschachtelsaal ist, gehört noch heute zu den besten Konzertsälen. Das Spannungsfeld zwischen raumakustischer Planbarkeit und der Schwierigkeit, subjektive Qualitätskriterien in objektive Planungen zu übersetzen, beherrscht die Wissenschaft von der Raumakustik und den Konzertsaalbau des 20. Jahrhunderts. Ein weiteres, wesentliches Merkmal der Konzertsäle des 20. Jahrhunderts ist die Anpassung an größere Zuhörerzahlen, teils um die steigende Nachfrage zu befriedigen, teils aus wirtschaftlichen Gründen. Die Vergrößerung wird erreicht durch eine Verbreiterung der Säle. Die Seitenwandreflexionen können dabei raumakustisch nicht mehr ausreichend genutzt werden, sie werden durch Deckenreflexionen ersetzt, die Decke muss dafür – um Echos zu vermeiden – relativ niedrig bleiben. Gleichzeitig wird aus Gründen des Komforts der Platzbedarf pro Person vergrößert. Dies alles führt zu kürzeren Nachhallzeiten und einem Überwiegen des Direktschalls; es entstehen im Gegensatz zu den Sälen des 19. Jahrhunderts Säle mit einem direkten, klaren Klang mit geringerem Raumeindruck und Räumlichkeit. Gleichzeitig verändert die Musik im 20. Jahrhundert durch rhythmische und harmonische Differenzierung ihre Strukturen so, dass gerade Konzertsäle mit den beschriebenen Eigenschaften erforderlich werden. Die europäischen Konzertsäle der 1920er und 1930er Jahre sind durch die Anwendung des Schallstrahlenmodells der Raumakustik auf die gesamte Raumoberfläche gekennzeichnet. Diese Verwissenschaftlichung der Raumakustik stellt eine Abwendung von der Planungsweise des 19. Jahrhunderts dar, in dem die Erfahrungen akustisch oft nur zufällig gelungener Säle genutzt wurden. Zunächst blieben Berechnungen der Nachhallzeit – obwohl 1898 von Sabine schon entwickelt – außer Acht. Ziel der Planungen war, den gesamten Direktschall
58
1 Grundlagen der Akustik
Tab. 1/11. Daten von als raumakustisch gut anerkannten, internationalen Konzertsälen nach [Beranek, 2010]. vollendet im Jahr
Saal, Stadt
Raumvolumen V
Anzahl VolumenkennPlätze N zahl K = V/N
Nachhallzeit mit Publikum (ohne Publikum)
1781
Altes Gewandhaus, Leipzig
2.130 m3
400
5,5 m3 / Platz
1,3 s, geschätzt
1870
Musikvereinssaal, Wien
15.000 m3
1.680
8,9 m3 / Platz
2,0 s (3,0 s)
1887
Neues Gewandhaus, Leipzig
10.600 m3
1.560
6,8 m3 / Platz
1,5 s, geschätzt
1887
Concertgebouw, Amsterdam
18.780 m3
2.037
9,2 m3 / Platz
2,0 s (2,6 s)
1891
Carnegie Hall, New York
24.270 m3
2.804
8,7 m3 / Platz
1,8 s (2,0 s)
1895
Tonhalle, Zürich
11.400 m3
1.546
7,4 m3 / Platz
2,0 s (3,2 s)
1900
Symphony Hall, Boston
18.750 m3
2.625
7,1 m3 / Platz
1,9 s (2,5 s)
1984
Konzerthaus, neugestalteter Wieder aufbau des Königlichen Schauspielhaus (1821), Berlin
28.000 m³
1.500
10,3 m³ / Platz
2,0 s (2,2 s)
1935
Konzerthaus, Göteborg
11.900 m3
1.286
9,3 m3 / Platz
1,6 s (1,7 s)
1953
Herkulessaal, München
13.590 m3
1.287
10,6 m3 / Platz
1,8 s (2,3 s)
1956
Liederhalle, Stuttgart
16.000 m3
2.000
8,0 m3 / Platz
1,6 s (2, s 1)
1963
Philharmonie, Berlin
21.000 m3
2.218
9,5 m3 / Platz
1,9 s (2, s 2)
1981
Neues Gewandhaus, Leipzig
21.000 m3
1.900
11,0 m3 / Platz
2,0 s (2,2 s)
1987
Kammerphilharmonie, Berlin
11.000 m3
1.138
9,7 m3 / Platz
1,8 s (2,1 s)
1998
Festspielhaus, Baden-Baden
20.100 m3
2.500
8,0 m3 / Platz
1,9 s (2,1 s)
1998
Festspielhaus, Luzern
21.000 m3
1.900
11,0 m3 / Platz
2,0 s (2,2 s)
2017
Elbphilharmonie, Hamburg
23.000 m³
2.100
11 m³ / Platz
2,4 s
2017
Pierre-Boulez-Saal, Berlin
7.600 m³
682
11 m³ / Platz
1,7 s (2,1 s)
20.000 m3
2.000
10 m3 / Platz
2,0 s
durchschnittliche, gerundete Werte von als gut anerkannten Sälen
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
59
durch Spiegelung an Wand- und Deckenoberflächen auf den Publikumsbereich hinzuleiten. Dadurch entstehen die sog. Direktschall-Auditorien des frühen 20. Jahrhunderts. Diese Räume hatten die Grundform halbierter Trichter, gestaltet nach denselben Prinzipien wie die Grammophontrichter jener Zeit, die in einem bedämpften Wohnraum ebenfalls hauptsächlich ein Direktschallfeld erzeugen. Die Salle Pleyel in Paris, 1927 eröffnet, ist der erste Saal dieser Art; charakteristisch für ihn ist die große Deutlichkeit des Klangs, durch die starken Deckenreflexionen ein „monofoner“, wenig räumlicher Klang. Bei den zahlreichen Neubauten nach 1950 werden die inzwischen vertieften wissenschaftlichen Erkenntnisse über Raumakustik umfassend bei Planungen angewendet, sowohl in Bezug auf die Lenkung der den Schall verstärkenden Reflexionen als auch auf die Gestaltung von Nachhallzeit und -farbe sowie die Verteilung des Diffusschalls. Kennzeichnend für diese Säle ist vielfach eine relativ niedrige Decke mit parabelähnlicher Form, ein ansteigender Publikumsbereich und große, freitragende Balkone für die Aufnahme eines zahlreichen Publikums. Nach 1960 setzte sich ein neuer Typ von Konzertsaal durch, der Zentralsaal, vorgeprägt in den antiken runden Amphitheatern mit ansteigenden Publikumsrängen, realisiert aber auch schon 1871 in der Royal Albert Hall in London und Freiluftbauwerken wie der Hollywood Bowl von 1922 für 17.000 Personen. Der Zentralsaal mit ansteigenden Publikumsbereichen um die Bühne bietet jedem Zuhörer größere Nähe zu den Künstlern, einen besseren „Hörblick“. Wie bei allen großen Sälen fehlen auch hier zunächst seitliche Reflexionen, die der Musik Räumlichkeit geben, die Schallquellen also vergrößern und den Hörer mit Klang einhüllen. Bei den Zentralsälen werden diese Reflexionen durch sog. Weinbergtreppen erzeugt. Durch in der Höhe gestaffelte Publikumsteilbereiche entsteht eine gegliederte Landschaft mit einem zeltartigen Dach, die an vielen Plätzen relativ nahe seitliche Reflexionsflächen bietet. Der bekannteste Saal dieses Typs ist die Philharmonie in Berlin von Hans Scharoun, eröffnet 1963, mit 2.218 Sitzplätzen und 1,9 s Nachhallzeit. Bereits 1956 wurde das Weinbergtreppenprinzip im Mozartsaal der Stuttgarter Liederhalle von Abel und Gutbrot durchaus mit Bezug auf die die Stadt umgebenden Weinberge angewandt. Auch die Elbphilharmonie von den Architekten Herzog & de Meuron, 2017 in Hamburg eröffnet, gehört dem Weinbergtypus an [Fuchs, 2018]. Konsequenter noch ist das Prinzip der zentralen Bühne bei der Berliner Kammerphilharmonie nach Plänen von Hans Scharoun verwirklicht, 1987 eröffnet sowie in dem 2017 eröffneten Pierre-Boulez-Saal des Architekten Frank Gehry, als kleiner ovaler Saal ohne Weinbergterrassen. Neu an den Zentralsälen ist die Beachtung der sozialen Komponente des Konzertbesuchs: Die Zuhörer bilden unter sich und mit den Musikern durch engen visuellen Kontakt eine Gemeinschaft. Diese architektonische Konzeption versucht, die Trennung von Bühne und Publikum aufzuheben und die Musik „in den Mittelpunkt“ zu stellen. Nachteilig ist die unausgeglichene Klangbalance seitlich und hinter der Bühne. Abwandlungen des Amphitheatertyps mit seiner zentralen Bühne ergeben fächerförmige Räume, auch mit Weinbergtreppen, verwirklicht z. B. 1985 bei der Philharmonie im Gasteig in München oder einen tulpenförmigen Grundriss wie bei der Kölner Philharmonie von 1986. Neben der Entwicklung des Zentralsaals lässt sich international auch ein Trend zur Rückkehr zum Schuhschachtelsaal des 19. Jahrhunderts beobachten, jetzt geleitet von einem
60
1 Grundlagen der Akustik
umfangreichen Wissen über Raumakustik, nicht aus nostalgischen Gründen. Noch nie wurden so viele neue Konzertsäle gebaut wie in unserer Zeit.
1.5.4 Opernhäuser und Theater Während der Konzertsaal als Bautyp erst im 19. Jahrhundert auf breiter Basis entwickelt wurde, sind Opernhäuser seit dem 17. Jahrhundert eigens für Opernaufführungen nach gesellschaftlichen und musikalischen Bedürfnissen errichtete Bauwerke, die meist mit großem Aufwand erstellt und betrieben wurden. Der Opernbesuch war im Gegensatz zum Theaterbesuch bis ins 19. Jahrhundert ein gesellschaftliches Ereignis ersten Ranges für die höheren sozialen Schichten. Aber bereits im 17. Jahrhundert wurde vor allem in Venedig ein marktwirtschaftlich orientierter Opernbetrieb eingerichtet, der durchaus allen Schichten offenstand. Soziale Veränderungen haben deshalb in der Geschichte der Opernhäuser direkt auf ihre Architektur und Akustik eingewirkt, und natürlich auf die Musik, die sich „verkaufen“ musste. Die Oper entstand in Italien um 1600. Da sie sich zunächst als eine mit zeitgenössischen musikalischen Mitteln gestaltete Wiederbelebung der antiken Tragödie verstand, lag es nahe, auch ihre Aufführungsstätten an dem antiken halbrunden Theater zu orientieren. Der erste Bau dieses Typs war das noch existierende Teatro Olimpico in Vicenza, das im Kleinformat den griechischen und römischen Vorbildern folgt und Ausgangspunkt für die Grundrisse der Opernhäuser bis heute ist. Aus dieser halbrunden Grundform wurden die unterschiedlichen Grundrisse aller historischen Opernhäuser abgeleitet. Die halbrunde Form wurde zu einem U verlängert oder zur Hufeisenform abgewandelt; die dritte, vor allem im 18. Jahrhundert viel verwendete Grundform war die angeschnittene Ellipse. Bereits bei den Opernhäusern des 17. Jahrhunderts werden vor die Wände mehrstöckig Logen gesetzt und das ebene Parkett bestuhlt, um ein möglichst zahlreiches zahlendes Publikum unterbringen zu können, im Parkett die billigen, in den Logen die teureren Plätze. Mehrere Architekten der italienischen Familie GalliBibiena, die zwischen 1700 und 1780 in ganz Europa Opernhäuser bauten, fügten der Opernhaustypologie den glockenförmigen Grundriss hinzu; ein erhaltenes Opernhaus dieses Typs ist das Markgräfliche Opernhaus in Bayreuth. Noch heute ist die Mailänder Oper, das berühmte Teatro alla Scala, von Giuseppe Piermarini erbaut und 1778 eröffnet, das großartigste und eines der größten Opernhäuser überhaupt, gefolgt von San Carlo in Neapel. Mit ursprünglich 2.800, heute 2.300 Plätzen bei 260 Logen in sieben Stockwerken über dem Grundriss einer abgeschnittenen Ellipse hat es ungewöhnliche Ausmaße, auch für heute, besonders aber zur Entstehungszeit. Akustisch allerdings wird es nicht gelobt. Die Hoftheater jener Zeit fassten meist nur 400 bis 500 Personen. Der Klassizismus um 1800 fügte den traditionellen Grundrissen einen weiteren hinzu, den des angeschnittenen Kreises. Obwohl diese Grundformen und manche Details und spezielle Einrichtungen zu ihrer Zeit auch unter dem Gesichtspunkt der Akustik diskutiert wurden – meist mit zweifelhaften Argumenten, sind für die Raumakustik der Barocktheater die sehr wirksame Absorption durch das Publikum und die mit Stoffen ausgekleideten Logen bestimmend; bei einer
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
61
Nachhallzeit um 1 s ist ein klares, direktes und intimes Klangbild typisch, die bevorzugte Holzauskleidung absorbiert besonders den tiefen Frequenzbereich, während sie hohe Komponenten reflektiert. Diese Raumakustik erfüllt die Forderungen der Musik dieser Zeit, sie bietet gute Wortverständlichkeit und macht die feinen Strukturen und Nuancen der Phrasierung hörbar; ein solches Klangbild galt als wünschenswert. Dieser Opernhaustyp und mit ihm seine typische Akustik bleiben im Wesentlichen bis ins späte 19. Jahrhundert auch für Neubauten erhalten, bei traditionellen Opernhausbauten sogar bis ins 20. Jahrhundert. Im 19. Jahrhundert wurden Opernhäuser im traditionellen Stil des italienischen Typs gebaut, wie sie im 17. und 18. Jahrhundert entwickelt worden waren, auch weiterhin mit barocker Innendekoration. Herausragende europäische Opernhausneubauten waren u. a. Covent Garden in London 1858, die Staatsoper in Wien 1868 und die Grand Opéra, heute Opéra Garnier, in Paris 1875. Daneben entstanden Opernhäuser unterschiedlicher Größe, auch in kleinen Residenzstädten, als Zeichen eines aufstrebenden Bürgertums und kunstbeflissener Herrscher vor allem in Europa in großer Zahl. Die Wiener Architekten Fellner und Helmer bauten als spezialisiertes Architekturbüro zwischen 1870 und 1900 europaweit rund 50 Theater und Opernhäuser des barocken Typs. Oper blieb ein gesellschaftliches Ereignis, die Bauwerke waren v. a. dieser Funktion angepasst, nicht den Anforderungen des musikalischen Kunstwerks Oper. Raumakustische Fragen spielten bei der Planung immer noch keine Rolle, man nutzte die Erfahrungen mit immer wieder demselben Bautyp. Ein neuartiger, durchaus revolutionärer Typ eines Opernhauses entstand erst 1876, als Richard Wagner nach seinen Ideen das Festspielhaus – nicht Opernhaus in Bayreuth für die Aufführung seines vier Abende umfassenden Werks „Der Ring des Nibelungen“ entwarf und bauen ließ. Die neue Konzeption ist charakterisiert durch fächerförmige und ansteigende gleich begünstigende Anordnung der Sitzplätze mit guter Sicht von allen Plätzen auf die Bühne – beim traditionellen italienischen Opernhaus blickt ein Großteil des Publikums eben auf das Publikum, einen versenkten und verdeckten Orchestergraben mit Durchmischung der einzelnen Instrumentalklänge zu einem homogenen, im hohen Frequenzbereich gedämpften Gesamtklang, Wagners „mystischer Abgrund“ zwischen Publikum und Bühne. Verglichen mit traditionellen Opernhäusern hat das Haus eine etwas längere Nachhallzeit von 1,6 s, eine Verkleinerung der gesellschaftlich genutzten Pausen- und Zugangsflächen auf ein Mindestmaß – der Besuch sollte ein vorrangig musikalisches Ereignis sein, nicht ein gesellschaftliches. Kennzeichnend ist auch die Schmucklosigkeit des Bauwerks innen und außen, die Verdunklung des Zuschauerraums während der Vorstellung zur Erhöhung der Konzentration auf das musikalische und szenische Geschehen. Auch die Wahl des Standorts in einer Kleinstadt in der Provinz ohne gesellschaftliche und städtische Einbindung unterstreicht den Willen, das musikalische Ereignis in den Vordergrund zu stellen. Wagners Idee eines Festspielhauses ist architektonisch, akustisch, musikalisch und gesellschaftlich ein radikaler Gegenentwurf zum traditionellen Opernhaus des italienischen Typs und zum gesellschaftlichen Ereignis Opernbesuch. Max Littmann hat das Auditorium des Prinzregententheaters in München 1901 mit einigen Änderungen nach diesem Vorbild erbaut, weitere Nachfolgebauten gibt es nicht. Aber einige Elemente von Wagners Entwurf sind heute selbstverständlich: die guten Sichtverhältnisse, die Verdunklung des Zuschauerraums und der längere Nachhall (Tab. 1/12).
62
1 Grundlagen der Akustik
Im 20. Jahrhundert wurden zunächst im Wesentlichen die aus dem 19. Jahrhundert erhaltenen Opernhäuser des italienischen Barocktyps weiter bespielt, und, soweit zerstört, auch wieder in diesem Stil aufgebaut; Modernisierungen betreffen vor allem die technischen Anlagen, die Feuersicherheit und den Komfort. In überraschender Zahl wurden gerade in den letzten Jahrzehnten weltweit auch neue Opernhäuser bzw. Festspielhäuser erbaut. Sie unterscheiden sich aber, abgesehen vom Einbau des Orchestergrabens, nicht in grundsätzlichen Gesichtspunkten vom Konzertsaalbau des 20. Jahrhunderts. Tab. 1/12. Daten von historischen Opernhäusern nach [Beranek, 2010]. vollendet im Jahr
Saal, Stadt
Raumvolumen V
Anzahl Plätze N
Volumenkennzahl K = V/N
Nachhallzeit mit Publikum (ohne Publikum)
1748
Markgräfliches Opernhaus, Bayreuth Teatro alla Scala, Mailand Semperoper, Dresden Festspielhaus, Bayreuth
5.500 m3
450
12,2 m3/Platz
0,9 s, geschätzt
11.652 m3
2.289
5,1 m3/Platz
12.480 m3
1.284
9,7 m3/Platz
10.308 m3
1.800
5,7 m3/Platz
1,2 s (1,2 s) 1,6 s (1,7 s) 1,3 s (1,6 s)
1778 1841 (1985) 1876
Gelegentlich werden in vorhandene Theatersäle nachträglich Einrichtungen zur Verlängerung des Nachhalls eingebaut (siehe Kap. 1.4.2.1), um sie auch für Konzertaufführungen besser nutzbar zu machen.
1.5.5 Kirchen Kirchenräume variieren sowohl in ihrer Größe als auch in ihrer Architektur und Innenausstattung so stark, dass unter dem Aspekt der Akustik eine Unterscheidung nach einzelnen Stilepochen getroffen werden muss. Der Bestand an Kirchengebäuden stammt im Wesentlichen aus der Zeit vom Mittelalter mit Romanik und Gotik über die Renaissance bis zum Ende der Barockzeit, die Kirchen des 19. Jahrhunderts gehen weitgehend historisierend auf frühere Stilepochen zurück. Erst die Kirchen, die im 20. Jahrhundert errichtet wurden, zeigen zumindest teilweise neue architektonische Formen: Die Verständlichkeit des gesprochenen Worts wird zu einem wichtigen Kriterium, das bedeutet weniger Nachhall und größere Nähe. [Eggenschwiler, 1999], [Meyer, 2003] Allen Stilen ist gemeinsam, dass zwischen der Nachhallzeit des besetzten und unbesetzten Kirchenraums ein erheblicher Unterschied besteht. Da in älteren Kirchen meist Holzbänke oder Holzstühle verwendet werden, erhöhen die Besucher die Schallabsorption erheblich bzw. verkürzen die Nachhallzeit; je größer der Kirchenraum ist, umso geringer ist allerdings dieser Einfluss. Bei kleineren Kirchen können Sitzkissen diesen Unterschied etwas
1.5 Historische Konzertsäle, Opernhäuser und Kirchen
63
verringern. Eine statistische Auswertung von 150 Kirchen in der Schweiz ergibt für die verschiedenen Epochen typische Werte der Nachhallzeiten (Tab. 1/13). Abgesehen von den unterschiedlichen Nachhallzeiten auf Grund der sehr unterschiedlichen Volumina der Kircheninnenräume kann man für die Kunststile der Epochen der Gotik, der Renaissance- und Barockzeit typische Nachhallfärbungen feststellen, bedingt durch die Materialien der Ausgestaltung der Räume. Beim älteren Kirchenbau haben Fragen der Akustik – man denkt hier zunächst an die Wortverständlichkeit – keine Bedeutung. Die Kirchen des Mittelalters ragten in ihrer Größe und Höhe weit über die städtische Bebauung hinaus, sie waren Symbole der Macht der Kirche, sollten durch Größe und kunstvolle Ausführung und Ausstattung beeindrucken und ein Zeichen des Gotteslobs sein. Der Kultus als solcher stand im Vordergrund, nicht die Verständlichkeit des Worts. Diese Größe ist der Grund für die generell langen Nachhallzeiten, die ihrerseits Kirchen eine Sonderstellung verleiht. Erst die Reformation rückte das Wort in den Vordergrund. Insbesondere durch die erheblichen Besucherzahlen und den nun erforderlichen Einbau zahlreicher Besucheremporen erreichten evangelische Kirchen weit geringere Nachhallzeiten. Ein gutes Beispiel hierfür ist die Thomaskirche in Leipzig, ein ursprünglich gotisches Bauwerk mit langer Nachhallzeit, besonders im tiefen Frequenzbereich; sie wurde mit hölzernen Emporen ausgestattet, die zusammen mit den zahlreichen Besuchern erst die akustischen Bedingungen für J. S. Bachs Musik schufen, nämlich eine Nachhallzeit um 2 s mit Mittenbetonung. Gotische Kirchenräume sind im Allgemeinen gekennzeichnet durch große Raumvolumina und sehr geringe Schallabsorption besonders bei tiefen, aber auch mittleren Frequenzen, verursacht durch steinerne Oberflächen und fehlende Tiefenabsorber. Dies führt typisch zu einer sehr langen Nachhallzeit von bis zu 12 s mit einem ausgeprägten Maximum bei 100 Hz oder darunter. Der Nachhall hat also eine ausgesprochen dunkle Färbung und auch durch seine lange Dauer eine stark verdeckende Wirkung. Der Hallradius ist relativ groß, bedingt durch die großen Raumvolumina. Romanische Kirchen sind meist kleiner, verhalten sich aber ähnlich, sofern sie eine steinerne Gewölbedecke haben, Holzdecken verringern die Dunkelfärbung des Nachhalls. Tab. 1/13. Statistische Nachhallzeiten aus 150 schweizer Kirchen [Eggenschwiler, 1999], k = katholisch, e = evangelisch-reformiert, b = besetzt mit Publikum, u = unbesetzt, ohne Publikum. Romanik, Gotik (vor 1530)
Renaissance, Barock (1530 bis 1815)
Klassizismus, Historismus (1815 bis 1915)
Gegenwart (nach 1915)
Durchschnittswerte über alle Epochen
3,7 s (k, u) 2,4 s (k, b) 3,1 s (e, u) 1,9 s (e, b)
3,0 s (k, u) 2,3 s (k, b) 2,2 s (e, u) 1,2 s (e, b)
4,1 s (k, u) 2,2 s (k, b) 2,5 s (e, u) 1,4 s (e, b)
3,3 s (k, u) 1,8 s (k, b) 2,6 s (e, u) 1,4 s (e, b)
3,5 s (k, u) 2,1 s (k, b) 2,6 s (e, u) 1,5 s (e, b)
Barocke Kirchen sind gekennzeichnet durch kürzeren Nachhall als gotische Kirchen, ein Maximum der Nachhallzeit im mittleren Frequenzbereich um 500 Hz und klare Höhen,
64
1 Grundlagen der Akustik
verursacht durch zahlreiche, die Tiefen absorbierende Gestaltungselemente aus Holz und Putzflächen. Der Helligkeit des Barockraums entspricht also die Helligkeit der Klangfärbung. Insgesamt zeigen Barockkirchen eine weitaus bessere Eignung für Musikdarbietung oder Tonaufnahmen als romanische oder gotische Kirchen. Renaissancekirchen haben ähnliche akustische Eigenschaften wie Barockkirchen.
Standards [DIN 1311] Schwingungen und schwingungsfähige Systeme, Tl. 1 Grundbegriffe [DIN 1320] Akustik; Begriffe [DIN 4109] Schallschutz im Hochbau; Anforderungen [DIN 5493-2] Logarithmierte Größenverhältnisse, Maße, Pegel und Einheiten [DIN 18041] Hörsamkeit in kleinen bis mittelgroßen Räumen [DIN 45405] Störspannungsmessung in der Tontechnik, zurückgezogen [DIN 45630] Teil l Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall, Teil 2: Normalkurven gleicher Lautstärkepegel [DIN EN ISO 3382-1] Akustik – Messung von Parametern der Raumakustik, Teil 1: Aufführungsräume [DIN EN ISO 3382-2] Akustik – Messung von Parametern der Raumakustik, Teil 2: Nachhallzeit in gewöhnlichen Räumen [DIN EN 61672] Elektroakustik – Schallpegelmesser, Teil 1: Anforderungen [EN ISO 354] Akustik – Messung der Schallabsorption in Hallräumen [BS.1116] ITUR Recommendation BS.1116-,1 Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. 1997 [EBU Tech 3276] EBU Doc. Tech. 3276-E 2nd ed.: Listening conditions for the assessment of sound programme material – monophonic and two-channel stereophonic incl. Supplement 1: Multichannel sound, Geneva, 2004 [ISO 1996] Acoustics – Description, measurement and assessment of environmental noise, 2003, Part 1: Basic quantities and assessment procedures[ ITU-R BS.1116] Methods for the subjective assessment of small impairments in audio systems, 3rd Edition, February 2015
Literatur [Barron, 1981] Barron, M. und Marshall, A. H.: „Spatial impression due to early lateral reflections“, in: Journal Sound and Vibr. 7, 1981, S. 211ff. [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer, New York [Dickreiter, 2011] Dickreiter, M.: Mikrofonaufnahme, 4. Aufl. 2011, Hirzel [Eggenschwiler, 1999] Eggenschwiler, K. und Baschnagel, K.: Aktuelle Aspekte der Kirchenakustik, EMPA (Eidgenössische Materialprüfungs- und Forschungsanstalt), 1999, Dübendorf [Fasold, 2003] Fasold, W. und Veres, E.: Schallschutz und Raumakustik in der Praxis, 2003, Bauwesen [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur
Literatur
65
[Franssen, 1964] Franssen, N. V.: „Sur l’amplification des champs acoustiques“, in: Acoustica 20, 1968, S. 315 ff. [Friesecke, 2012] Friesecke, A.: Studio Akustik – Konzepte für besseren Klang, 3. Aufl. 2012, PPV Medien [Fuchs, 2010] Fuchs, H. V.: Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 3. Aufl. 2010, Springer [Fuchs, 2018] Fuchs, H. V.: „Die Elbphilharmonie im Vergleich mit anderen Konzertsälen von Rang“, in: Forstschritte der Akustik, 44. Jahrestagung der DAGA 2018, S. 1104 ff. [Griesinger, 1991] Griesinger, D.: „Verbesserung der Raumakustik durch zeitvariablen künstlichen Nachhall“, in: Bericht 16. Tonmeistertagung Karlsruhe 1990, S. 451ff., 1991, Saur [Hentschel, 2009] Hentschel, Th.: Praktische Raumakustik: Grundlagen, Konzept und Methoden, 2009, VDM-Verlag [IRT, 1995] Höchstzulässige Schalldruckpegel von Dauergeräuschen in Studios und Bearbeitungsräumen bei Hörfunk und Fernsehen, IRT, Akustische Information 1.11-1/1995 [Kath, 1964] Kath, U. und Kuhl, W.: „Messungen zur Schallabsorption von Personen auf ungepolsterten Stühlen“, in: Acustica 1964, S. 50 ff. [Kath, 1965] Kath, U. und Kuhl, W.: „Messungen der Schallabsorption von Polsterstühlen mit und ohne Personen“, in: Acustica 1965, S. 127 ff [Kok, 2011] Kok, B.: „Technologie- und Marktübersicht: Acoustic enhancement systems“, in: Production Partner 4, 2011, S. 108 ff. [Kuhl, 1977] Kuhl, W.: „In der Raumakustik benutzte hörakustische Termini“, in: Acustica 1977, S. 57 ff. [Kuttruff, 2004] Kuttruff, H.: Akustik, 2004, Hirzel [Kuttruff, 2019] Kuttruff, H.: Room Acoustics, 2019, CRC Press [Lehmann, 1980] Lehmann, P. und Wilkens, H.: „Zusammenhang subjektiver Beurteilungen von Konzertsälen und raumakustischen Kriterien“, in: Acustica 1980, S. 256 ff. Lerch, R, Sessler, G., Wolf , D.: Technische Akustik: Grundlagen und Anwendungen, [Lerch, 2022] 2022, Springer [Magnus, 2008] Magnus, K. und Popp, K.: Schwingungen, 8. Aufl., 2008, Vieweg & Teubner [Meyer, E, 1965] Meyer, E., Kuttruff, H. und Schulte, P.: „Versuche zur Schallausbreitung über Publikum“, in: Acustica 1965, S. 175ff. [Meyer, 1978] Meyer, J.: „Raumakustik und Orchesterklang in den Konzertsälen Joseph Haydns“, in: Acustica 41, 1978, S. 145 ff. [Meyer, 2003] Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J.: Akustik und musikalische Aufführungspraxis, [Meyer, 2015] 6. Aufl., 2015, PPVMedien [Mommertz, 1993] Mommertz, E.: „Einige Messungen zur streifenden Schallausbreitung über Publikum und Gestühl“, in: Acustica 1993, S. 42 ff. Möser, M.: Messtechnik der Akustik, 2009, Springer [Möser, 2009] [Müller, 2003] Müller, G. und Möser, M.: Technische Akustik, 3. Aufl. 2003, Springer [Parkin, 1965] Parkin, P. H. und Morgan, K.: „Assisted Resonance in the Royal Festival Hall, London“, in: Journal Sound & Vibr. 2 (1965) Reichardt, W.: „Definition und Messgrundlagen eines ‚wirksamen Hallabstandes‘ als [Reichardt, 1974] Maß für den Raumeindruck bei Musikdarbietungen“, in: Zeitschr. f. elektr. Informations- und Energietechnik, 1974, S. 225 ff. [Remmers, 2006] Remmers, H. Kappelmann, M. und Blau, M.: „Messung und Bewertung der Diffusität des Schallfeldes in einem Hallraum“, in: 32. Deutsche Jahrestagung für Akustik (DAGA) Braunschweig 2006 [Reuter, 2014] Reuter, Chr., Auhagen, W., Herausgeber: Musikalische Akustik, 2014, Laaber
66
1 Grundlagen der Akustik
[Rümer, 1990] [Schneider, 1992] [Sotiropoulou, 1995] [Spikofski, 1989] [Steinke, 1987] [Steinke, 2012] [Thienhaus, 1962] [Völker, 1992] [Völker, 1994] [Vorländer, 1994] [Weinzierl, 2002] [Weinzierl, 2014] [Wollherr, 1983]
Rümer, C.: „Brauchen wir eine wandelbare Akustik. Konzertsäle und Rundfunkstudios mit veränderbaren Nachhalleigenschaften“, in: Runfunktechn. Mitt. 1990, S. 101 ff. Schneider, R. und Spikofski, G.: „Untersuchungen zur Wahrnehmbarkeit früher Reflexionen und des Nachhalls in Abhörräumen“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 631 ff., 1993, Saur Sotiropoulou, A. G., Hawkes, R. J. und Fleming, D. B.: „Concert Hall Acoustic Evaluations by Ordinary Concert Goers“, in: Acustica 1995, S. 1 ff. Spikofski, G. und Holzkämper, S.: „Wahrnehmbarkeit von Reflexionen in Regieräumen – neue Ergebnisse“, in: Bericht 15. Tonmeistertagung Mainz 1988, S. 463 ff., 1989, Saur Steinke, G., Fels, P., Ahnert, W. und Hoeg, W.: „Das Delta-Stereofonie-System“, in: db-Magazin f. Studiotechnik 1987, H. 1/2 Steinke, G. und Herzog, G.: Der Raum ist das Kleid der Musik, Musik-Aufnahmesäle und Hörspielstudios im Funkhaus Berlin Nalepastrasse sowie weitere Aufführungsund Hörräume. Raumakustische Eigenschaften – Aufnahmetechnologische Bedingungen, Adlershof 2012 Thienhaus, E.: Artikel „Akustik“, in: Die Musik in Geschichte und Gegenwart (MGG), Bd. 11, Sp. 31 ff., 1. Aufl. 1962, Bärenreiter Völker, E.-J.: „Akustik und Abhörqualität in Regieräumen – das leidige Thema“, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 612 ff., 1993, Saur Völker, E.-J.: „Regieräume für Musikwiedergabe“, in: Rundfunktechn. Mitt. 1982, S. 112 ff. Vorländer, L. und Bietze, H.: „Comparison of Methods for Measuring Reverberation Time“, in: Acustica 1994, S. 205 ff. Weinzierl, S.: Beethovens Konzerträume. Raumakustik und symphonische Aufführungspraxis an der Schwelle zum modernen Konzertwesen, 2002, Bochinsky Akustische Grundlagen der Musik, 2014, Laaber Wollherr, H.: „Gestaltung des Abhörbereiches in einem Tonübertragungswagen“, in: Rundfunktechn. Mitt. 1983, S. 62 ff.
2 Schallquellen Michael Dickreiter Schallquellen, dazu gehören die menschliche Stimme und Musikinstrumente, sind Energiewandler, die eine zugeführte mechanische oder elektrische Energie in Schallenergie umwandeln. Bei den akustischen Musikinstrumenten und bei der menschlichen Stimme wird mechanische Energie vom Menschen aufgebracht, bei elektronischen Musikinstrumenten, aber auch bei der Kirchenorgel über deren Blasbalg wird die Schallenergie aus elektrischer Energie gewonnen. Weiterhin kann Schall durch Naturkräfte entstehen, z. B. durch Wind und Wasser, oder in der technischen Umwelt, von Maschinen, diese Schallquellen werden hier nicht besprochen. Ein Aspekt ist hierbei die Klangstruktur, hier geht es hauptsächlich um Schwingungen und deren Eigenschaften, ein zweiter Aspekt betrifft die Art und Weise der Schallabstrahlung und damit die von den Schallquellen ausgehenden Schallwellen oder in ihrer Gesamtheit die diese umgebenden Schallfelder. [Meyer, 2015], [Roederer, 1999], [Weinzierl, 2014]
2.1 Menschliche Stimme 2.1.1 Akustische Eigenschaften Die menschliche Stimme ist ein sehr vielseitiger Schallerzeuger [Seidner, 2004]. Sie kann Klänge und Geräusche verschiedenster akustischer Zusammensetzung, anhaltend oder rasch wechselnd, erzeugen. Abb. 2/1 zeigt schematisch das Stimmorgan mit den angeschlossenen Resonanzräumen sowie ein vereinfachendes mechanisches Modell der Stimmlippen oder Stimmbänder und ihrer Schwingungen. Der Luftstrom, der beim Ausatmen aus der Lunge kommt, die sog. Exspirationsluft, erregt bei stimmhaften Lauten erzwungene Schwingungen der Stimmlippen im Kehlkopf; sie werden in den angeschlossenen Resonatoren, dem sog. Ansatzrohr, bestehend aus Mund, Nase, Nasennebenhöhlen und Rachen, modifiziert. Bei stimmlosen Lauten wie z. B. H, P, T, K werden die Hohlräume des Ansatzrohrs nur durch die Luftströmung angeblasen, oder es entstehen Strömungsgeräusche beim Durchströmen von Einengungen des Luftstroms an den Zähnen, der Zunge oder im Rachen; die Stimmlippen schwingen bei geöffnetem Zustand dabei nicht. Für die stimmlosen Zischlaute F, S, SCH und CH sind Strömungsgeräusche charakteristisch, die insbesondere beim S, SCH und F bis in hohe Frequenzbereiche hineinreichen. Beim stimmhaften S und SCH treten zu den Geräuschkomponenten der stimmlosen Form periodische Schwingungen der Stimmlippen hinzu. Die stimmlosen Explosivlaute P, B, T, D, K und G entstehen durch plötzliches Öffnen des durch die Lippen (P, B) oder die Zunge (T, D, K, G) verschlossenen Luftwegs. Dabei entlädt sich der angestaute Überdruck explosionsartig. Bei den stimmhaften Halbvokalen M, N, R und L tritt neben die Klangerzeugung durch die Stimmlippen die Klangerzeugung durch das Anblasen von Hohlräumen. Das R ist durch eine ausgeprägte Amplitudenmodulation gekennzeichnet. Tab. 2/1 fasst die akustischen Eigenschaften der Sprachlaute oder Phoneme als die kleinsten akustischen Bestandteile der Sprache zusammen. https://doi.org/10.1515/9783110759921-002
68
2 Schallquellen
Vokale und Umlaute sind im Gegensatz zu den anderen Sprachlauten Klänge. Bei ihnen erregen die teiltonreichen Stimmlippenschwingungen (Abb. 2/1) in Mund, Nase und Rachen Resonanzen, deren Frequenzlagen insbesondere von der Mund- und Zungenstellung abhängen. Jeder Vokal wird so charakterisiert durch sog. Formanten; das sind Frequenzbereiche, innerhalb derer unabhängig vom Stimmlippengrundton alle Teiltöne in einem bestimmten Frequenzband durch Resonanz verstärkt werden. Die wichtigsten Formantbereiche der Vokale gibt Abb. 2/2 an.
Abb. 2/1. Stimmorgan, vereinfachendes mechanisches Modell der Stimmlippen, Schwingungen der Stimmlippen.
Emotionen, wie Freude, Angst, Wut, prägen sich in der Klangfarbe der Stimme durch unterschiedliche Hervorhebungen der Formanten im Frequenzbereich bis 3,7 kHz aus. Durch Filterung können Emotionen zurückgenommen, aber nicht glaubhaft verstärkt werden [Bisping, 1990], [Legenstein, 2014]. Die Grundfrequenz der Stimmlippenschwingung, die Sprechmelodie, ändert sich bei Sprache dauernd; sie liegt bei Männern zwischen etwa 120 und 160 Hz, bei Frauen und Kindern zwischen etwa 220 und 330 Hz. Tab. 2/1. Akustische Eigenschaften von Sprachlauten. Lautart
akustische Eigenschaften
Vokale: A, E, I, O, U, Umlaute: Ä, Ö, Ü
harmonische Klänge, Grundfrequenz ist die Sprechtonhöhe mit 120 bis 160 Hz bei Männern bzw. 220 bis 330 Hz bei Frauen, Charakterisierung durch Formantgebiete (Abb. 2/2), Komponenten bis etwa 5 kHz harmonische Klänge mit der Grundfrequenz der Sprechtonhöhe, zusätzlich kontinuierliche Spektralanteile durch Strömungsgeräusche an Einengungen des Ansatzrohrs nur geräuschhafte, kontinuierliche Spektren nur geräuschhafte, kontinuierliche Spektren mit Komponenten bis über die obere Hörgrenze, besonders beim S kurzzeitige, impulsartige Vorgänge mit kontinuierlichen Spektren
stimmhafte Konsonanten: L, M, N, R, W u. a. stimmlose Konsonanten: H Zischlaute: F, S, SCH, Z Explosivlaute: P, B, T, D, K, G
2.1 Menschliche Stimme
69
Abb. 2/2. Formantbereiche der Vokale der deutschen Sprache.
2.1.1.1 Sprachspektrum Bei der großen Vielfalt der Sprachlaute mit unterschiedlichsten Spektren ist es sinnvoll, sich auf statistisch ermittelte Durchschnittsspektren der Sprache zu beziehen, nicht auf Einzellaute. Komponenten unter 80 Hz bei männlicher Sprache bzw. 100 Hz bei weiblicher Sprache fallen bei üblichem Abstand des Zuhörers von einem Sprecher unter die Hörschwelle, können also bei der Aufnahme weggefiltert werden, ohne dass klangliche Verfälschungen der Sprache hörbar werden. Bei tiefen Frequenzen ist der absolute Schalldruckpegel annähernd unabhängig von der Sprechstärke, nur der Abstand des Sprechers hat hierauf einen bestimmenden Einfluss. Nimmt man das Spektrum laut gesprochener Sprache als Bezug, sind die tieffrequenten Anteile von im Original leise gesprochener, aber z. B. um 20 dB verstärkter, unnatürlich lauter Sprache um denselben Betrag relativ stärker als bei tatsächlich laut gesprochener Sprache. Normalerweise bei männlicher Sprache unhörbare Komponenten unter 80 Hz erscheinen dabei im Klangbild. Das ist die Ursache der unnatürlichen Klangfärbung, des Dröhnens leise aufgenommener, aber laut wiedergegebener Sprache. Betonte Tiefen unterstützen aber auch den Eindruck besonderer Nähe. Dabei ist männliche Sprache empfindlicher für diesen Effekt als weibliche; für Durchsagen im öffentlichen Bereich oder für Ansagen in lärmerfüllter Umgebung, z. B. Verkehrsdurchsagen im Radio, sind demnach weibliche Stimmen besser geeignet. Die Sprachspektren sind von der Sprechlautstärke
70
2 Schallquellen
abhängig, je lauter gesprochen wird, umso obertonreicher ist das Sprachspektrum (Abb. 2/3 und 2/4). Die statistischen Sprachspektren zeigen charakteristische Maxima: das erste Maximum ist geschlechtsspezifisch und kennzeichnet die Sprechtonhöhe; bei männlichen Sprechern liegt sie um 150 Hz, bei Sprecherinnen um 250 Hz. Weitere Maxima liegen bei Sprecherinnen um 500 Hz und um 1.500 Hz, bei laut sprechenden Männern ebenfalls um 1.500 Hz. Die wesentlichen Komponenten der Sprache beschränken sich auf das Frequenzband von 100 Hz bei Männern bzw. 200 Hz bei Frauen bis 10 kHz; darüber gibt es nur noch Spektralkomponenten von Zischlauten S, SCH, Z und F.
Abb. 2/3. Durchschnittliche Spektren deutscher Sprache von männlichen Sprechern, für leise, mittellaut und für laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
Abb. 2/4. Durchschnittliche Spektren deutscher Sprache von Sprecherinnen, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
2.1 Menschliche Stimme
71
2.1.1.2 Sprachschallpegel Der Sprachschallpegel ist der durch Sprache hervorgerufene Schallpegel in einem gegebenen Abstand vom Sprecher. Da sich Sprache in ihrem Pegel und Spektrum dauernd ändert, ist die Angabe eines gemittelten Spitzenpegels sinnvoll; die Angabe in bewerteten Pegeln (siehe Kap. 1.2.1.3) erleichtert den Vergleich mit Störgeräuschen. Demnach beträgt der Schallpegel in 60 cm Entfernung vor dem Mund eines Sprechers etwa 60 dBA, er erhöht sich bei lauterem Sprechen um 6 dB und erreicht bei unnatürlich lautem Sprechen Werte von etwa 76 dBA bei Männern bzw. 68 dBA bei Frauen. Die Werte liegen bei 30 cm Abstand rund 4 dB höher, bei 120 cm 4 dB niedriger. Die extremen Formen des Sprechens, Murmeln und sehr lautes Sprechen, erweitern die Dynamik nach unten bzw. oben nochmals um etwa 5 dB. Die genannten Werte gelten für die ausgebildete „Mikrofonstimme“, die durch einen gleichmäßigeren Lautstärkeverlauf gekennzeichnet ist als die „Bühnenstimme“. Die Pegelstruktur von Sprache kann als Abfolge von Impulsen gekennzeichnet werden, gebildet durch die einzelnen Phoneme. Das führt zu einem Durchschnittspegel, der um rund 12 dB unterhalb des Spitzenpegels liegt. Dadurch wirkt Sprache leiser als z. B. Popmusik mit derselben Aussteuerung, aber lauter als klassische Musik. Dies ist wichtig für ein Gleichgewicht der Lautstärken von Musik und Sprache z. B. im Sendungsablauf (siehe Kap. 19.4). 2.1.1.3 Singstimme In akustischer Hinsicht sind die Unterschiede zwischen Sprech- und Singstimme nicht so erheblich, wie dies vom Höreindruck her erscheint. Da nur Laute mit harmonischen Spektren eine Tonhöhe besitzen, werden diese im musikalischen Ablauf der Stimmführung besonders hervorgehoben und gedehnt. Während sich die Sprechtonhöhe gleitend und häufig ändert, ist die Singtonhöhe an bestimmte Tonstufen, an die Tonstufen der Tonleiter gebunden. Die Formantbereiche werden besonders bei der weiblichen Stimme der jeweiligen Grundtonhöhe in einem gewissen Rahmen angepasst; im Allgemeinen entsteht daraus eine Verdunklung des Vokalcharakters. Von erheblicher Bedeutung für die Klangfarbe der männlichen Singstimme ist der sog. Singformant zwischen 2,8 und 3 kHz verbunden mit einer generellen Verstärkung höherer Klangkomponenten, der der Stimme ein Durchsetzungsvermögen auch gegen ein lautes Orchester gibt. Dieser Formant tritt bei der Sprache nicht auf. Kennzeichnend für die ausgebildete Stimme ist weiterhin das Vibrato verbunden mit einem Tremolo der Stimme, also Tonhöhen- und Lautstärkeschwankungen. Besondere Betonung und Dehnung der Vokale, Umstimmung der Formanten, Singformant, Vibrato und größere Lautstärke und Dynamik kennzeichnen rein akustisch also im Wesentlichen die Stimme mit besonderer Gesangsausbildung. Dynamik und Höchstpegel der Singstimme hängen selbstverständlich von dem Musikstil und dem jeweiligen Sänger ab. Hohe Frauenstimmen, also Soprane, und hohe Männerstimmen, also Tenöre, erreichen mit 50 bis 60 dB die größten Dynamikwerte, die Spitzenpegel können bei üblichem Mikrofonabstand über 100 dB liegen. Der Tonhöhenbereich einer Singstimme ist ihre Stimmlage. Sopran, Alt, Tenor und Bass sind die Hauptstimmlagen (Abb. 2/5). Die Eignung einer Stimme bzw. eines Gesangssolisten für bestimmte Rollentypen kennzeichnet das Stimmfach, z. B. dramatischer Sopran, Koloratursopran, lyrischer Alt, Heldentenor, jugendlicher Liebhaber, Bassbuffo.
72
2 Schallquellen
Abb. 2/5. Ton- und Frequenzlagen der Singstimmen.
2.1.2 Gerichtete Schallabstrahlung Wie die Musikinstrumente hat auch die menschliche Stimme keine allseitig gleiche Schallabstrahlung, sondern eine frequenzabhängige Schallbündelung, besonders im Frequenzbereich über 2 kHz. Wandert man mit einem Mikrofon um einen Sprecher, so ändert sich also die Klangfarbe der Stimme. Abb. 2/6 zeigt, wie sich die Spektren bei Aufnahme von der Seite und von hinten vom Spektrum bei Aufnahme von vorne unterscheiden.
Abb. 2/6. Unterschiede der Spektren von Gesang bei verschiedenen Aufnahmerichtungen.
Der gewohnte und erwartete Sing- und Sprachklang ergibt sich in der Hauptabstrahlrichtung des Munds. Oft werden aber die von Moderatoren, Rednern oder Reportern benutzten Mikrofone an einer um den Hals gelegten Schnur getragen oder an der Kleidung befestigt vor der Brust getragen (siehe Kap. 4.2.4.4). Solche Mikrofone werden Lavalier-Mikrofone genannt. Dadurch ergeben sich aber am Ort des Mikrofons Klangverfälschungen, hervorgerufen durch die Schallabstrahlung der Brust und die Abstrahleigenschaften des Munds. Neben verstärk-
2.1 Menschliche Stimme
73
ter Tiefen- und verringerter Höhenabstrahlung verursacht eine Anhebung von etwa 6 dB in einem schmalen Frequenzband bei 700 Hz bei Sprechern bzw. etwas darüber bei Sprecherinnen eine Klangfärbung (Abb. 2/7). Wird der Frequenzgang des Mikrofons korrigiert (Abb. 4/39), was bei einigen Lavalier-Mikrofonen geschieht, ist ein Unterschied zwischen Aufnahmen vor dem Mund und der Brust kaum hörbar.
Abb. 2/7. Frequenzgang von Sprache vor der Brust des Sprechers.
2.1.3 Sprachverständlichkeit Unter Sprachverständlichkeit versteht man nicht ein akustisches Merkmal der Sprache, auch wenn sie undeutlich artikuliert wird; es handelt sich vielmehr um Merkmale, die die Sprache bei der Aufnahme, Übertragung oder Wiedergabe hinzugefügt werden, beginnend etwa bei dem Raumhall, bei Nebengeräuschen, Frequenzgangveränderungen bis hin zur Wiedergabe. Die Sprachverständlichkeit ist ein grundlegendes Kriterium für die Beurteilung der Hörsamkeit von Räumen für Sprachdarbietungen (siehe Kap. 1.3.2) und für die Übertragungsqualität in der Tontechnik. Die Silben- oder Phonemverständlichkeit wird ermittelt, weil auch Einzelsilben, z. B. Zahlen, verständlich sein sollen. Sie wird gemessen in % der richtig verstandenen Silben bezogen auf die Gesamtzahl einer Reihe von Prüfsilben. Dabei werden Testsilben ohne Bedeutung verwendet wie z. B. „pus“ oder „fog“. Die Wortverständlichkeit liegt grundsätzlich über der Silbenverständlichkeit, die Satzverständlichkeit über der Wortverständlichkeit. Eine Silbenverständlichkeit von etwa 70 – 90 %, entsprechend einer Satzverständlichkeit von rund 95 %, wird als gute bezeichnet; eine Silbenverständlichkeit von 90 – 95 % ergibt eine Satzverständlichkeit1 von 100 %. Abb. 2/8 zeigt die Silben-, Wort- und Satzverständlichkeit als Beispiel in Abhängigkeit von der oberen Grenzfrequenz der Übertragung und die Wortverständlichkeit in Abhängigkeit vom Störabstand der Übertragung. Auf die Verständlichkeit haben weitere Gegebenheiten Einfluss, in Räumen besonders die Nachhallzeit und ihr Frequenzgang. Der Sprachübertragungsindex erfasst in Prozentangaben die Verständlichkeit, die insbesondere zur Warnung von Personen und die Räumung eines Gebäudes wichtig ist [DIN EN IEC 60268-16].
74
2 Schallquellen
Abb. 2/8. Silben-, Wort- und Satzverständlichkeit, abhängig von der oberen Grenzfrequenz des Übertragungssystems.
Zur Verbesserung der Sprachverständlichkeit gibt es mittlerweile eine große Anzahl von Tools, die automatisiert eine Mischung so umformen, dass das gesprochene Wort hervorgehoben und damit seine Verständlichkeit verbessert wird. Dafür werden verschiedene Technologiebausteine einzeln oder in Kombination genutzt, die Tools gestatten meist mehrere Parameter nach Gehör einzustellen. Wesentlicher Bestandteil der Verfahren ist die Trennung von Sprache und Hintergrund, die leicht möglich ist, wenn die Sprache in der Mitte, am besten in einem eigenen Dialogkanal, aufgenommen wurde. Eine Anhebung des Sprachpegels um etwa 8 dB und eine Anhebung des Frequenzgangs im Sprachkanal ab etwa 4 kHz können die Verständlichkeit erheblich verbessern. Weitere Erläuterungen finden sich in Kap. 17.7.1.3 und 17.7.2.
2.2 Musikinstrumente 2.2.1 Akustische Eigenschaften Für akustische Untersuchungen der Klangeigenschaften von Musikinstrumenten ist es wegen der großen Zahl einzelner Messdaten notwendig, anschauliche Formen der grafischen Darstellung zu finden. Für die Erfassung der Klangeigenschaften müssen zwei Größen angegeben werden: die Frequenzen der Klangkomponenten und ihre Stärke; notwendig ist in bestimmten Fällen auch die Darstellung des zeitlichen Verlaufs dieser Größen. Damit ergibt sich für die vollständige Darstellung eines Schallereignisses eine dreidimensionale bzw. pseudodreidimensionale grafische Darstellung. Entsprechend dem Ziel einer akustischen Veranschaulichung kann aber auch eine der drei Darstellungsebenen herausgegriffen werden (Abb. 2/9). Ein Beispiel einer pseudodreidimensionalen Darstellung zeigt Abb. 2/10.
2.2 Musikinstrumente
75
Die Schallgrößen können entweder linear als Amplitude bzw. Frequenz angegeben werden oder logarithmiert und auf einen Bezugswert bezogen als Pegel oder bei Frequenzen als reines Zahlenverhältnis, d. h., als Intervall; als Intervalle kommen vor allem Terzen mit dem Frequenzverhältnis 5 : 4, Oktaven mit dem Frequenzverhältnis 2 : 1 und Dekaden mit dem Frequenzverhältnis 10 : 1 in Betracht. Die Wahl der jeweiligen Darstellungsweise hängt davon ab, was untersucht oder dargestellt werden soll.
Abb. 2/9. Möglichkeiten der Darstellung eines Klangs bzw. musikalischen Tons.
76
2 Schallquellen
Abb. 2/10. Beispiel für eine pseudodreidimensionale Klangdarstellung, Ausschnitt aus dem Wort MontrEAL.
Die nachfolgend im Einzelnen erläuterten akustischen Eigenschaften der Musikinstrumente werden im Detail in Tab. 2/4 zusammengefasst. [Meyer, 2015], [Roederer, 1999], [Fletcher, 1998], [Dickreiter, 2007], [Howard, 2009], [Terhardt, 1998] Jeder Einzelton eines Instruments kann in zwei oder drei zeitlich aufeinander folgende Abschnitte geteilt werden (Abb. 2/11): –– Klangeinsatz, Einschwingen: Zeitabschnitt, in dem sich der Klang aus der Ruhe bis zu seinem eingeschwungenen Zustand entwickelt, –– Quasistationärer Schwingungszustand: zentraler Zeitabschnitt des Tons, in dem der Klang als weitgehend unveränderlich betrachtet werden kann; auch die stets vorhandenen, für die Klangcharakteristik sehr wichtigen kleinen Schwankungen können noch im Rahmen des quasistationären Zustandes gesehen werden, –– Ausklingen: Zeitabschnitt, in dem der Klang nach dem Ende seiner Anregung bis zur völligen Ruhe ausklingt, vergleichbar dem Nachhall eines Raums.
Abb. 2/11. Zeitliche Abschnitte eines musikalischen Tons.
2.2 Musikinstrumente
77
2.2.1.1 Klangeinsatz Der Klangeinsatz ist ein jeweils einmalig ablaufender Vorgang kurzer Dauer. Kurze Klangeinsätze dauern bis etwa 10 ms, lange Klangeinsätze, wie etwa beim Kontrabass, zwischen 100 und 500 ms; typisch ist eine Dauer von 15 bis 50 ms. Kurzen Klangeinsätzen kann kein Spektrum, das aus einzelnen Linien zusammengesetzt ist, zugeordnet werden, sondern nur eine sog. Spektralfunktion, die Einhüllende einer Unzahl dicht nebeneinander liegender Spektrallinien. Ein solches kontinuierliches Spektrum empfindet man als kurzzeitiges Geräusch, als Knack etwa. Das trifft z. B. auch bei einem plötzlich eingeschalteten Tonsignal zu, bei dem Geräuschanteile entstehen, die als Einschaltknack hörbar werden. Erfolgt der Einschaltvorgang nicht plötzlich, sondern kontinuierlich während eines längeren Zeitabschnitts, so verringern sich auch die Geräuschanteile bzw. der Einschaltknack. Dementsprechend sinkt der Anteil geräuschhafter Komponenten mit der Dauer des Klangeinsatzes. Je größer die Bandbreite eines Resonanzsystems oder eines Filters ist, umso kürzer ist die Einschwingzeit. Man betrachtet das Einschwingen als beendet, wenn die Amplitude den Bereich von ± 10 % ihres Werts im eingeschwungenen Zustand nicht mehr verlässt. Musikinstrumente sind sehr komplexe Schwingungssysteme, bei denen Resonanzen und ihre Wechselwirkungen eine besondere Rolle spielen. Gerade aber Resonanzen verhindern einen raschen, knackenden Klangeinsatz, weshalb die Klangeinsätze der meisten Musikinstrumente weicher als geschaltete Sinustöne klingen. Der spezifische Klangeinsatz prägt einen Instrumentenklang ebenso wie der Teiltonaufbau, die Formanten, Geräuschanteile und Pegelschwankungen. Es herrscht eine sehr große Vielfalt der Natur des Klangeinsatzes: Harte Klangeinsätze von wenigen Millisekunden Dauer z. B. bei Schlaginstrumenten und Zungenpfeifen der Orgel, bilden das eine Extrem, weiche Klangeinsätze von mehr als 0,5 s Dauer z. B. bei den tiefen Lippenpfeifen der Orgel und beim Kontrabass, das andere. Lange, deutlich hörbare Klangeinsätze verdeutlichen einen Melodieverlauf, besonders wenn andere Stimmen gleichzeitig gespielt werden. Wichtig für den Klangcharakter ist auch, in welcher Reihenfolge und mit welcher Stärke die einzelnen Teiltöne einsetzen. Blechblasinstrumente können sog. Vorläuferimpulse haben, die dem Klang, je nach ihrer Länge, Prägnanz verleihen oder als sog. Kiekser störend wirken. 2.2.1.2 Quasistationärer Klangabschnitt Der quasistationäre Klangabschnitt ist bei akustischen Musikinstrumenten praktisch immer, bei elektronischen Musikinstrumenten je nach Art der Klangerzeugung dauernden Veränderungen unterworfen: Durch Überlagerung sich geringfügig in der Frequenz unterscheidender Klangkomponenten oder Töne entstehen Schwebungen, also Pegelschwankungen, so beim Klavier, bei der Orgel, bei Chören und bei mehrfach besetzten Orchesterstimmen. Das Vibrato der Singstimme, der Streichinstrumente und der meisten Blasinstrumente entsteht durch periodische Frequenzschwankungen, verbunden mit Pegelschwankungen. Der Begriff Tremolo wird für reine Pegelschwankungen, entstanden durch dichte Aneinanderreihung kurzer Klänge, verwendet. Zu diesen leicht wahrnehmbaren Schwankungen können geringere oder stärkere unregelmäßige, mikrozeitliche Schwankungen, also Rauheiten (siehe Kap. 3.3.5) hinzukommen, die meist nicht bewusst als solche wahrgenommen werden. Sie entstehen bei der Überla-
78
2 Schallquellen
gerung der harmonischen Komponenten mit Geräuschkomponenten und charakterisieren das sog. Gattungstimbre: es lässt den Hörer erkennen, ob es sich bei einem Instrument um ein Streich-, Holzblas- oder Blechblasinstrument handelt, bevor er noch erkannt hat, ob es sich z. B. um eine Violine oder um ein Violoncello handelt. Tab. 2/2 fasst die wesentlichen Eigenschaften des Spektrums des quasistationären Klang abschnitts zusammen. Das Amplitudenspektrum gibt keine Auskunft über die Phasenlagen der einzelnen Komponenten. Ihr Einfluss kann hörbar sein, wenn auch nicht so bestimmend wie Pegel und Frequenzen der Klangkomponenten. Die Hörbarkeit hängt stark von der jeweiligen Struktur des Spektrums ab; bei Kopfhörerwiedergabe sind Phasenverschiebungen noch am leichtesten zu erkennen. Um 1 kHz nimmt das Gehör Phasenänderungen am deutlichsten wahr. Sie bewirken eine Klangfarbenänderung oder eine Änderung der Klangrauheit. Eine Phasenverschiebung von 10° bis 30° ist im Allgemeinen noch nicht hörbar. Diese Forderung wird von den Geräten der Tonstudiotechnik erfüllt. Tab. 2/2. Eigenschaften von Klangspektren und ihre Bedeutung für die Wahrnehmung und die Tonübertragungstechnik. Eigenschaft des Spektrums
Bedeutung für die Wahrnehmung
Bedeutung für die Tonübertragungstechnik
Frequenzumfang und Teiltonstärke gering
Klang weich, nichtlineare Verzerrungen leicht hörbar
empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen
Frequenzumfang und Teiltonstärke groß
Klang scharf und laut
empfindlich gegen nichtlineare Verzerrungen und Übersteuerungen im obersten Übertragungsbereich
harmonisches Linienspektrum
Tonhöhencharakter deutlich, Klarheit des Klangs
unharmonisches Linienspektrum
Tonhöhencharakter, undeutlich, Klang „unsauber“
kontinuierliches Spektrum, Geräuschspektrum
Klang geräuschhaft
Formanten, resonanzartiges Hervortreten bestimmter Frequenzbereiche
Vokalcharakter, Klang ähnlich z. B. A, O, Ä, kennzeichnend vor allem für Doppelrohrblatt- und Blechblasinstrumente
Teiltonaufbau Die periodischen Schwingungsvorgänge des eingeschwungenen Klangs setzen sich aus dem Grundton und Obertönen zusammen, deren Frequenzen jeweils ein ganzzahliges Vielfaches der Frequenz des Grundtons sind. Spricht man von Teiltönen, Partialtönen oder Harmonischen, so wird die Grundfrequenz mitgezählt, spricht man von Obertönen, so wird die
2.2 Musikinstrumente
79
Grundfrequenz nicht mitgezählt. Naturtöne werden bei Blasinstrumenten die durch das sog. Überblasen erklingenden Töne genannt; sie entsprechen etwa, aber nicht genau, den Teiltönen. Abb. 2/12 zeigt die ersten 16 Teiltöne der Teiltonreihe. Der 7., 11. und 14. Teilton liegt tiefer, der 13. Teilton höher als der entsprechende Ton in der heute üblichen sog. temperierten Stimmung der Instrumente. Die übrigen Töne sind in der sog. reinen Stimmung, sie unterscheiden sich nur geringfügig von den entsprechenden Tönen unserer temperierten Stimmung. Lediglich der 2. Teilton, die Oktave, passt exakt in das heute benutzte System der musikalischen Stimmung, die sog. temperierte Stimmung. Wegen der einfachen, ganzzahligen Frequenzverhältnisse der Teiltöne zueinander verschmelzen diese vollkommen zu einem einheitlichen Klangeindruck. Der Grundton oder 1. Teilton ist keineswegs immer am stärksten, sehr oft, gerade bei lauten Klängen, liegt die größte Intensität bei höheren Teiltönen. Fällt der Grundton in den Bereich sehr tiefer Frequenzen, so ist seine Intensität meist recht gering. In diesem Fall bildet das Gehör, sogar wenn der Grundton völlig fehlt, aus dem Obertonspektrum den Grundton subjektiv nach, er wird dann Residualton genannt. Liegt der 1. Teilton im Bereich hoher Frequenzen, so überwiegt er meist in seiner Intensität über die anderen Teiltöne. Sind die ungeradzahligen Teiltöne stärker als die geradzahligen, so wird der Klang gedeckt bis hohl. Beispiele hierfür sind die Klänge der sog. gedackten Orgelpfeifen und der tiefen Tonlage der Klarinette. Das Hervortreten der geradzahligen Teiltöne, insbesondere des 2., 4., und 8. Teiltons, fördert ein helles, offenes Klangbild.
Abb. 2/12. Teiltonaufbau eines Klangs entsprechend dem Ton C. Die Teiltöne mit Pfeil nach unten klingen tiefer als notiert, mit Pfeil nach oben höher als notiert.
Über den jeweiligen Frequenzumfang des Klangs eines Musikinstruments kann nur eine allgemeine Aussage gemacht werden. Er hängt nicht nur von der Spielweise und dem jeweiligen Instrument ab, sondern insbesondere von der gespielten Dynamikstufe, aber auch von den raumakustischen Verhältnissen. Angaben über Frequenzumfänge haben also stets statistischen Charakter. Unterhalb des 1. Teiltons gibt es keine stationären Schwingungen mehr; nur die Geräuschanteile des Klangs reichen unter die Grundtonfrequenz. Formanten Viele Musikinstrumente haben über ihren ganzen Tonbereich hinweg einen bestimmten, für sie typischen Klangcharakter. Dieser wird einerseits durch die relative Stärke der einzelnen Teiltöne bestimmt, andererseits durch sog. Formanten. Wie es bei den Vokalen von Sprache und Gesang bestimmte feste Frequenzbereiche gibt, in denen die Teiltöne unabhängig von der Lage des Grundtons verstärkt werden, so wird auch die Klangfarbe von Musikin-
80
2 Schallquellen
strumenten durch einen oder mehrere solcher Formantbereiche charakterisiert. Während bei Streichinstrumenten diese Formantbereiche durch Resonanzen des Resonanzkörpers und des darin eingeschlossenen Luftvolumens aus dem Spektrum der schwingenden Saite herausgehoben werden, werden die Formanten bei den Blasinstrumenten bei der Tonbildung im Mundstück erzeugt. Durch die besondere Schwingungsform des Anblasvorgangs entstehen die Formanten bereits bei der Tonerzeugung, nicht erst durch Resonanzen. Hat ein Instrumentenklang zwei Formanten, so bilden deren Maxima ein charakteristisches Intervall, ein einfaches Zahlenverhältnis. Beim Wechsel von einem leisen zu einem lauten Klang springt das Maximum von einem tieferen in einen höheren Formantbereich. Geräuschkomponenten Weiterhin sind Geräuschanteile im stationären Klang eine wesentliche Komponente des Klangcharakters eines Musikinstruments. Sie entstehen bei Streichinstrumenten durch Unregelmäßigkeiten des Bogens beim Streichen der Saite, bei Blasinstrumenten als Strömungsgeräusch beim Anblasen. Bei den Doppelrohrblattinstrumenten Oboe, Englisch Horn und Fagott sinkt mit wachsender Gebrauchsdauer des Rohrblatts der Pegel des Geräuschspek trums. Die Nebengeräusche tragen nicht nur zur Klangcharakteristik bei, sondern erhöhen auch die Lebendigkeit des Klangs. Die Flöte enthält als charakteristische Klangkomponente einen besonders deutlich wahrnehmbaren Geräuschhintergrund. 2.2.1.3 Ausklingvorgang Nach Beendigung der Erregung eines Klangs ist in den Resonanzsystemen des Musikin struments noch Energie gespeichert, die im Ausklingvorgang abgegeben wird. Je weniger ein Resonanzsystem bedämpft ist, desto länger klingt es nach. Meist sind höhere Teiltöne stärker bedämpft, so dass sich beim Ausklingen die Klangfarbe dunkler und weicher färbt. Die längste Nachklingzeit haben Instrumente mit gezupften und geschlagenen Saiten wie Cembalo, Gitarre, Harfe oder Klavier. Da bei diesen Instrumenten eine kontinuierliche Klanganregung fehlt, besteht der ganze Klang nur aus dem Einschwing- und Ausklingvorgang. Die kürzeste Ausklingzeit haben Blasinstrumente, da das schwingende Luftvolumen nur einen geringen Energieinhalt besitzt. Der Nach- oder Abklingvorgang kann durch verschiedene Kenngrößen erfasst werden [DIN 1311]. In der musikalischen Akustik ist eine Definition analog zur Nachhallzeit oder Nachhalldauer (siehe Kap. 1.3.4) als Nachklingzeit bzw. Nachklingdauer besonders anschaulich. Bei Tonaufnahmen kann es bei der langen Nachklingdauer, z. B. des Klaviers mit 20 bis 40 s, des Cembalos und der Zupfinstrumente dadurch zu Problemen kommen, dass einzelne Töne z. B. am Schluss eines Satzes sehr lange nachklingen, wenn sie vom Musiker nicht bewusst abgedämpft werden; oft müssen sie dann durch Blenden beendet werden. Ein anderes Phänomen lange nachklingender Instrumente ist die Tatsache, dass sie sozusagen ihren eigenen Nachhall mitbringen, der den Raumhall überdecken kann. So kann es z. B. bei einer Gesangsaufnahme mit Klavier geschehen, dass der Sänger mit Explosivlauten den Raumhall deutlicher anstößt als das Klavier, er also scheinbar in einem größeren Raum ist als das Klavier. Räume mit viel Hall sind für solche Aufnahmen also weniger geeignet.
2.2 Musikinstrumente
81
2.2.1.4 Musikalische Dynamik Die musikalische Dynamik beschreibt die Stärkegrade, mit denen ein Klang auf einem Musikinstrument oder mit der menschlichen Stimme hervorgebracht wird. Die Stufen der Dynamik tragen traditionell italienische Bezeichnungen (Tab. 2/3), wie auch die Tempo- und Vortragsbezeichnungen. Tab. 2/3. Stufen der musikalischen Dynamik. Abkürzung, italienisch
Dynamikstufe, italienisch
Dynamikstufe, deutsch
ppp pp p mp mf f ff fff
pianissimo possibile pianissimo piano mezzopiano mezzoforte forte fortissimo forte fortissimo
so leise wie möglich sehr leise leise halbleise halblaut laut sehr laut so laut wie möglich
Die einzelnen Dynamikstufen oder -grade sind zwar durch den Pegel des Klangs gegeben, weit wichtiger ist aber ihre jeweils spezifische Klangstruktur. Es ist nämlich nicht möglich, durch einfaches Erhöhen der Abhörlautstärke oder durch Annäherung an die Schallquelle – in beiden Fällen steigt der Pegel an – einem pp-Klang in einen ff-Klang zu verwandeln. Die verschiedenen Dynamikstufen sind wohl mit verschiedenen Pegelabstufungen verbunden, umgekehrt können aber verschiedene Pegelabstufungen allein nicht unterschiedliche Dynamikstufen erzeugen. Aus diesem Grund kann die Dynamik auch in einem bestimmten Rahmen komprimiert werden, ohne dass der musikalische Ablauf deutlich beeinträchtigt wird. Die Abstufung der Dynamik ist eines der wesentlichen musikalischen Gestaltungsmittel. Sie wird durch unterschiedliche Klangerzeugung erreicht. Die dynamischen Grade unterscheiden sich außer in Dauer und Struktur des Einschwingvorgangs hauptsächlich im spektralen Aufbau des quasistationären Klangs. Je höher der dynamische Grad ist, umso mehr Teiltöne werden ausgebildet und umso mehr erhöht sich der Pegel der höheren Teiltöne. Abb. 2/13 zeigt dies am Beispiel verschiedener Klarinettenspektren. Daraus wird deutlich, dass die spektralen Unterschiede der Dynamikstufen bei dem tiefen Ton viel ausgeprägter sind als bei dem hohen Ton. Wegen der geringeren Anzahl von Teiltönen bei hohen Tönen sind hier nicht nur die Spektren der Dynamikstufen relativ ähnlich, überhaupt nähern sich die verschiedenen Instrumente im hohen Tonbereich in ihren Spektren einander an, d. h., sie klingen ähnlicher. Natürlich steigt mit der Stärke eines Klangs auch sein Pegel an, aber dies geschieht auch, wenn man sich einer Schallquelle nähert, wenn man die raumakustischen Gegebenheiten verändert oder bei der Aufnahme den Pegel anhebt. Dies bewirkt aber keine Klangveränderung im Sinne einer Steigerung des Dynamikgrads. Abb. 2/14 gibt einen ungefähren Überblick über die zu erwartenden Dynamikbereiche bei Ausnutzung der spieltechnischen Möglichkeiten, auch über das Verhältnis der Pegel der verschiedenen Instrumente zueinander [Meyer, 1990]. Besonders starke Pegelunterschiede bzw. eine besonders große Dynamik
82
2 Schallquellen
zeigen Klarinette, Horn, Posaune und Pauke. Bei den Tasteninstrumenten haben Klavier und Orgel eine sehr große, das Cembalo oder auch die Blockflöte eine recht geringe Variationsbreite des Pegels.
Abb. 2/13. Spektren der Klarinette in verschiedenen Dynamikstufen, links: tiefer Ton, rechts: hoher Ton.
Streichinstrumente sind durchschnittlich halb so laut wie Holzblasinstrumente, d. h., um etwa 10 dB niedriger im Pegel; Holzblasinstrumente sind ihrerseits 5 bis 10 dB niedriger als Blechblasinstrumente. Die Gesamtdynamik eines Orchesters kann 60 bis 80 dB betragen, in besonderen Fällen 100 dB oder mehr, je nach Besetzung und Stil der Musik sowie je nach ihrer Interpretation. Die Dynamikwerte bei Studioproduktionen sind im Allgemeinen höher als bei Konzerten mit Publikum, weil die Abwesenheit von Saalgeräuschen hier ein besonders ausgeprägtes Pianissimo zulässt. 2.2.1.5 Stimmung der Instrumente Die Stimmung eines Instruments umfasst zwei Festlegungen: –– die Festlegung der absoluten Tonhöhe durch Definition des Kammertons a‘, –– die Festlegung der relativen Tonhöhen der einzelnen Töne zueinander.
2.2 Musikinstrumente
83
Abb. 2/14. Dynamikumfang von Musikinstrumenten, Orchester und Stimme.
Die absolute Tonhöhe wird nach einer Stimmgabel oder einem elektronischen Generator auf Grund eines internationalen Übereinkommens für den Kammer- oder Stimmton, genauer Normalstimmton a‘ eingestimmt [ISO 16] und in eine deutsche Norm übernommen [DIN 1317]. Orchester übernehmen den Stimmton traditionell von der Oboe bzw. dem Klavier oder der Orgel. Seit der Londoner Stimmtonkonferenz 1939 hat der Kammerton bei 20 °C die Frequenz 440 Hz, 1971 wurde diese Empfehlung vom Europarat nochmals bestätigt. Meist wird jedoch höher eingestimmt, z. B. oft auf 442 Hz, aber auch bis 445 Hz oder noch höher. Die Stimmtonhöhe hat in der Vergangenheit verschiedenste Werte angenommen. Sie hing von der Gattung ab: der Opernton in Opernhäusern, der Kammerton in der herrschaftlichen Kammer, der Orgel-, Kirchen-, Chor- oder Cornettton für die Kirche, war aber auch je nach Ort und Zeit unterschiedlich; nach 1800 verschwinden die Unterschiede allmählich. 1788 wurde in Frankreich für a‘ 409 Hz (frühe Pariser Stimmung), 1858 435 Hz (Pariser Stimmung) festgelegt und in den angrenzenden Ländern zunehmend übernommen. Demnach kann es keine einheitlich richtige sog. historische Stimmung geben, im Allgemeinen versteht man heute darunter einen Kammerton von 415 Hz; ein Halbton unterhalb des aktuellen Kammertons mit
84
2 Schallquellen
440 Hz. Der oft diskutierte Charakter einer Tonart ist bei rein akustischer Betrachtung also kaum oder nicht nachvollziehbar. Für die relative Stimmung der einzelnen Töne untereinander, also der Intervalle zwischen den einzelnen Tönen des Tonsystems, gibt es mehrere Möglichkeiten: –– die heute übliche sog. gleichschwebend temperierte Stimmung, –– die reine Stimmung, –– verschiedene historische Stimmungen, insbesondere Barockstimmungen. Gleichschwebend temperierte Stimmung: Temperiert gestimmt, wie man verkürzt sagt, sind alle modernen Instrumente, bei denen der Spieler keinen oder wenig Einfluss auf die Bildung der Tonhöhe hat, wie z. B. das Klavier. Bei dieser Stimmung sind alle Halbtöne gleich groß und haben das Frequenzverhältnis : 1 oder etwa 106 : 100. Für die Größe eines Halbtons bzw. allgemein von Intervallen wurde 1875 von John Ellis als logarithmische Maßeinheit das Centmaß eingeführt; ein Halbton ist dabei mit 100 Cent definiert, eine Oktave mit ihren 12 Halbtonschritten hat also 1.200 Cent. Das Centmaß ist besonders nützlich beim Vergleich verschiedener historischer Stimmungen. Bei der temperierten Stimmung gibt es keine Unterschiede zwischen den Tonarten auf Grund der Stimmung. Reine Stimmung: Instrumente, bei denen der Spieler erst während des Spiels die genaue Tonhöhe frei fixiert, was hauptsächlich bei Streichinstrumenten und Sängern zutrifft, können demgegenüber teilweise in der sog. reinen Stimmung spielen bzw. singen, zumal dann, wenn sie nicht mit temperiert gestimmten Instrumenten zusammenspielen, sondern nur untereinander Intervalle und Akkorde intonieren. Bei dieser Stimmung haben die Intervalle ganzzahlige, einfache Frequenzverhältnisse wie die Teiltöne eines Klangs gemäß Abb. 2/12. Sie vermischen sich beim Zusammenspiel vollständig miteinander, ein besonderes Klangerlebnis. Das Intervall einer Quinte z. B. erscheint zwischen dem 2. und 3. Teilton, hier c“ und g“, das Intervall hat das Zahlenverhältnis 3 : 2 = 1,5. in der temperierten Stimmung hat dieses Zahlenverhältnis den nicht gerade einfachen Wert . Allerdings kann diese Stimmung in der Praxis nur angewendet werden, wenn die Tonhöhe ständig beeinflusst werden kann, also besonders bei Sängern sowie Streich- und Blasinstrumenten. Das Tonsystem der reinen Stimmung ist kein geschlossenes, widerspruchsfreies System. Historische Stimmungen: Bevor sich die gleichschwebend temperierte Stimmung nach 1800 allmählich durchsetzen konnte, waren verschiedene andere temperierte Stimmungen in Gebrauch, die die unterschiedlichsten Kompromisse zwischen reiner und gleichschwebend temperierter Stimmung darstellen: in der Renaissance die sog. mitteltönigen Stimmungen, zwischen 1600 und 1800 die sog. Barockstimmungen, vielfach die Stimmungen Werckmeister-II und -III sowie Kirnberger-III. Sie geben den einzelnen Tonarten unterschiedliche Intervallstrukturen und damit auch einen speziellen, individuellen Klangcharakter [Forss, 2007].
2.2.2 Akustische Instrumente Nachfolgend werden die akustischen Eigenschaften der Musikinstrumente beschrieben. Für Fragen der Instrumentenkunde wird auf die zahlreich vorhandene Literatur verwiesen, z. B.
2.2 Musikinstrumente
85
[Baines, 2010], [Dickreiter, 2007], [Marimovici, 2008]. Tab. 2/4 fasst die wichtigsten akustischen Eigenschaften der Instrumente zusammen. 2.2.2.1 Streichinstrumente Von den verschiedenen Typen der Streichinstrumente, die im Laufe der Geschichte entwickelt und gespielt wurden, sind in der heutigen Musikpraxis v. a. die Violine oder Geige (franz.: violon, ital.: violino, engl.: violin), die Viola oder Bratsche (franz.: alto, ital.: viola, alto, engl.: viola), das Violoncello, oft umgangssprachlich mit Cello abgekürzt, (franz.: violoncelle, ital.: violoncello, engl.: violoncello) und der Kontrabass oder die Violone (franz.: contre basse, basse double, ital.: violone, contrabasso, basso, engl.: double bass) in Gebrauch. Im grundsätzlichen Aufbau gleichen sich diese Instrumente, sie unterscheiden sich aber in ihrer Größe und damit in ihrem Tonbereich. Lediglich der Kontrabass weicht in einigen Konstruktionsmerkmalen vom Typus dieser Instrumente ab. Der Spieler streicht mit dem mit Pferdehaar bespannten Bogen oberhalb des Steges über die Saiten, die er dadurch zum Schwingen erregt. Die Saitenschwingungen werden über den Steg auf den Schall- oder Resonanzkörper übertragen und von diesem umgeformt und abgestrahlt. Das Streichen wird in den Noten mit „col arco“ oder „arco“, das Zupfen mit „pizzicato“, abgekürzt pizz., bezeichnet. Durch einen auf den Steg aufgesetzten Dämpfer, „sordino“, wird die Eigenresonanz des Stegs herabgesetzt, der Klang wird dadurch schwächer und dunkler.
Abb. 2/15. Grundtonbereiche der Streichinstrumente (schwarze Noten), Saitenstimmung (weiße Noten).
Die Tonumfänge der Grundtöne der Instrumente sowie die Stimmung ihrer vier Saiten zeigt Abb. 2/15. Die Violine wird im Violinschlüssel notiert, die Bratsche im Altschlüssel. Kontrabass und Violoncello werden hauptsächlich im Bassschlüssel notiert. Der Kontrabass, der im Orchester gespielt wird, hat noch eine fünfte Saite, er klingt eine Oktave tiefer als notiert. Für Aufführungen der Musik des Barocks werden oft Gamben, insbesondere die Tenorgambe oder Viola da gamba, die etwa in der Tonlage des Violoncellos steht, verwendet. Der Kontrabass, der aus der Familie der Gamben stammt, hat noch Merkmale dieser Instrumente. Violine und Viola Die Violine hat einen relativ unregelmäßigen Teiltonaufbau, der sich bei weniger guten Instrumenten von Ton zu Ton ändert. Ursache hierfür sind die komplizierten Resonanz eigenschaften des Resonanzkörpers, auf die die Materialeigenschaften und die Konstruktion großen Einfluss nehmen. Der Pegel des Grundtons überragt nur im Frequenzbereich oberhalb
86
2 Schallquellen
etwa 640 Hz den Pegel höherer Teiltöne, bei den tiefsten Tönen liegt er sogar bis 25 dB unter dem Pegel des jeweils stärksten Teiltons. Ein wichtiges Qualitätsmerkmal des Violinklangs ist die Ausprägung von Formanten, die der Violine neben dem Vibrato einen gesanglichen, der Stimme verwandten Klangcharakter verleihen. Eine typische Formantlage für die tiefen Töne ist der Bereich um 275 Hz, verursacht von der Hohlraumresonanz des Resonanzkörpers; ein wichtiger zweiter Formant liegt zwischen 500 und 700 Hz. [Cremer, 1998], [Leonhardt, 1997] Gute Instrumente zeigen besonders zwischen 190 und 650 Hz sowie zwischen 1,3 und 4 kHz relativ starke Teiltonbereiche. Weitere Formanten sind zwischen 2,0 und 2,6 kHz sowie zwischen 3 und 4 kHz. Relativ stark sind die Geräuschanteile ausgebildet, die durch das Streichen entstehen. Sie können bis 30 dB stärker als bei Blasinstrumenten sein. Der Geräuschpegel nimmt in demselben Maße zu wie der Gesamtpegel. Der Spieler kann die Klangfarbe und Lautstärke mit der Bogenführung innerhalb bestimmter Grenzen beeinflussen: Die Streichgeschwindigkeit bestimmt vor allem die Lautstärke, der Bogendruck und die Anstrichstelle auf der Saite die Klangfarbe [Meyer, 1992]. Da die Viola im Bau der Violine entspricht und nur unerheblich größer als diese ist, sind ihre Klangeigenschaften auch sehr ähnlich. Sie ist etwas obertonärmer als die Violine. Die Formantbereiche liegen etwas tiefer, nämlich bei etwa 220, 350 und 600 Hz. Ein weiterer Formant um 1,6 kHz gibt der Viola oft einen etwas näselnden Klang. Violoncello und Kontrabass Wie bei der Violine sind die Grundtöne der tiefsten Töne beim Violoncello sehr schwach ausgeprägt, sie liegen oft bis zu 20 dB unter den stärksten Komponenten dieser Klänge. Oberhalb von etwa 3 kHz sind die Teiltöne relativ schwach. Typische Formanten liegen um 240 Hz, zwischen 300 und 500 Hz sowie zwischen 600 und 900 Hz. Manche Instrumente haben bei 1,5 kHz beim Spiel auf der A-Saite einen Formanten, der ähnlich wie bei Viola dem Klang näselnden Charakter verleiht. Andere Instrumente besitzen zwischen 2 und 3 kHz einen Formanten, der den Klang hell färbt. Typisch für den Violoncelloklang ist eine ausgesprochene Senke im Spektrum zwischen 1,0 und 1,2 kHz, also im Bereich des stärksten Violinformanten. Die Einschwingzeit des Violoncelloss liegt bei 60 bis 100 ms. Dadurch spricht bei schnellen Tonfolgen der Grundton oft nicht richtig an, der Klang wird in diesem Fall spitz und geräuschhaft. Auch beim Kontrabass sind die Grundtöne im tiefsten Tonbereich schwach ausgebildet, ihr Pegel ist sogar um etwa 30 dB geringer als derjenige der stärksten Teiltöne. Die wichtigsten Klangkomponenten für die tiefen Kontrabasstöne liegen im Frequenzbereich zwischen 70 und 250 Hz, ein Nebenformant liegt bei 400 Hz. Harmonische Anteile über 1,5 kHz treten kaum auf. Im Bereich der höheren Kontrabasstöne erweitert sich das Spektrum bis etwa 2,5 kHz. Höher als die harmonischen Klanganteile reicht das Geräuschspektrum mit seinem typischen „Sirren“, hervorgerufen durch das Streichen; es tritt vor allem dann hervor, wenn die Kontrabässe allein spielen, da es anderenfalls durch den Klang höherer Instrumente im Gehöreindruck verdeckt wird. Der Einschwingvorgang dauert länger als bei anderen Streichinstrumenten. Deshalb entwickelt der Kontrabass bei schnellen Tonfolgen nicht seine Klangfülle; außerdem treten hierbei die starken Geräuschanteile der Einschwingvorgänge besonders hervor.
2.2 Musikinstrumente
87
2.2.2.2 Holzblasinstrumente Holzblasinstrumente, kurz auch einfach „Holz“ genannt, ist die Sammelbezeichnung für eine Gruppe von Instrumenten des Orchesters, die vor allem Flöte (franz.: flute, ital.: flauto, engl.: flute), Oboe (franz.: hautbois, ital.: oboe, engl.: oboe), Klarinette (franz.: clarinette, ital.: clarinetto, engl.: clarinet), Saxophon (franz. und engl.: Saxophone, ital.: saxofono) und Fagott (franz.: basson, ital.: fagotto, engl.: basson) einschließlich ihrer Sonderformen umfasst. Wohl ist die Mehrzahl dieser Instrumente aus Holz, aber auch entsprechende Konstruktionen aus Metall, besonders Flöte und Saxophon, werden zu den Holzblasinstrumenten gezählt, da sie sich in ihrer Spielweise grundsätzlich von den Blechblasinstrumenten unterscheiden. Der Klang wird entweder durch das Anblasen einer Kante bei Flöten, die Schwingung eines einfachen Rohrblatts bei Klarinette und Saxophon oder eines doppelten Rohrblatts bei Oboe und Fagott als stehende Welle einer Luftsäule erzeugt. Die Tonhöhe wird hauptsächlich durch Schließen oder Öffnen der Grifflöcher verändert, was eine Längenveränderung der schwingenden Luftsäule bewirkt. Außer dem Grundton der schwingenden Luftsäule können auch deren Obertöne angeblasen werden, das Instrument „überbläst“. Da sie nicht wie die Obertöne ideal harmonisch zum Grundton liegen, werden sie zur Unterscheidung Naturtöne genannt. Die Grundtonumfänge der wichtigsten Holzblasinstrumente zeigt Abb. 2/16. [Wackernagel, 2005]
Abb. 2/16. Grundtonumfänge der Holzblasinstrumente.
Flöte Den Klang der Flöte, auch Große Flöte oder Querflöte, charakterisiert ein sehr gleichmäßiger Teiltonaufbau: mit Ausnahme der tiefsten Töne und sehr lauter Töne ist der Grundton am stärksten, was so deutlich sonst bei keinem Orchesterinstrument zutrifft. Die Amplitude der Teiltöne nimmt mit steigender Ordnungszahl stetig ab. Formanten gibt es dabei kaum; wenn solche doch vorhanden sind, kennzeichnen sie nicht den Flötenklang als solchen, sondern den individuellen Klangcharakter des einzelnen Instruments. Die Anblasgeräusche können deutlich hervortreten. Die höchsten Klangkomponenten liegen je nach der Höhe des angeblasenen Tons bei 3 bis 6 kHz. Typisch für den leisen Flötenklang ist eine starke Schwankung in der zeitlichen Pegelfeinstruktur. Von allen Blasinstrumenten benötigt die Flöte die längste Zeit zum Einschwingen. Kennzeichnend dafür sind die sog. Vorläufertöne, kurze Töne im Frequenzbereich zwischen 2 und 4 kHz, die vor dem eigentlichen Ton anklingen und dem Klangeinsatz einen besonderen Charakter verleihen.
88
2 Schallquellen
Tab. 2/4. Übersicht über die Klangeigenschaften der Musikinstrumente. Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Violine
Violinschlüssel
g - etwa c‘‘‘‘ = 196 - 2.100 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 10 kHz
Viola
Bratschenschlüssel, Altschlüssel
c - etwa c‘“ = 130 – 1.050 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz, max. 10 kHz
Violoncello
Bassschlüssel, hohe Stellen im Tenor- bzw. Violinschlüssel
C - etwa c“ = 65 - 520 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Komponenten bis etwa 7 kHz, max. 10 kHz
Kontrabass
Bassschlüssel transponierend, wird eine Oktave höher notiert
E‘ (C) - etwa c‘ = 41 (33) - 260 Hz
große Variabilität, Grundton schwach, Komponenten bis 7 kHz, über 1,5 kHz schwach
Horn in F
Violinschlüssel, H‘ - etwa f‘ auch Bassschlüs= 62 - 700 Hz sel, transponierend, (Instrument in F) wird eine Quinte höher bzw. Quarte tiefer notiert
unterer Tonbereich durch Formanten, oberer durch das Überwiegen des Grundtons gekennzeichnet, Komponenten bis über 5 kHz im ff
Trompete in B
Violinschlüssel, transponierend, wird ein Ganzton höher notiert
e - etwa d‘“ = 164 – 1.175 Hz (Instrument in B)
sehr obertonreich, Komponenten bis 15 kHz im ff, Grundton im ganzen Tonbereich schwach
E - etwa c“ = 82 - 520 Hz (Tenorposaune)
Grundton schwach, obertonreich, Komponenten bis 5 kHz (mf), über 10 kHz im ff
Posaune Altposaune Tenorposaune Bassposaune
Altschlüssel Tenorschlüssel Bassschlüssel
Tuba
Bassschlüssel
etwa B“ - a‘ = 29 - 440 Hz
Grundton schwach, Komponenten nur bis 1,5 - 2 kHz
Klavier, Flügel oder Piano
Violin- und Bassschlüssel
A“ - c‘““ = 27,5 - 4.200 Hz
gleichmäßig abnehmende Obertonamplitude, Grundton überwiegt außer in der tiefen Lage, Komponenten bis über 10 kHz
Cembalo
Violin- und Bassschlüssel
C - f“ (u. a.) = 65 - 1.400 Hz
Grundton schwach, sehr obertonreich, Komponenten bis über 6 kHz
2.2 Musikinstrumente
Quasistationärer Zustand
Einschwingvorgang
Formantbereiche
Geräuschkomponenten
um 400 Hz, 800 – 2..000 Hz, 2.000 – 2.600 Hz, 3.000 – 4.000 Hz
relativ starkes, typisches Anstrichgeräusch, starker Einfluss der Streichart
89
Ausklingvorgang
30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 300 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 40-800 ms beim pizz. 10 ms
um 220, 350, 600 und 1.600 Hz, 3.000 – 3.500 Hz
30-60 ms, bei weichem beim gestrichenen Ton Klangeinsatz bis 200 ms, Abreißen des Klangs, Geräuschkomponenten, beim pizz. 50-600 ms beim pizz. 10 ms
um 250 Hz, zwischen 300 und 500 Hz, 600 und 900 Hz, Senke zwischen 1.000 und 1.200 Hz
60-100 ms, bei kurzen Klängen sehr geräuschhaltig, Grundton spricht zuletzt an
beim gestrichenen Ton Abreißen des Klangs, beim pizz. 50-200 ms (pp), bis 1,4 s (ff) beim gestrichenen Ton Abreißen des Klangs, beim pizz. durchschnittlich etwa 1 s, max. 1,6 s
zwischen 70 und 250 Hz, um 400 Hz, um 800 Hz nur in der hohen Lage
relativ starkes, typisches Anstrichgeräusch („Sirren“) mit Komponenten bis 10 kHz
100-200 ms, bei kurzen Tönen sehr geräuschhaltig und näselnd, beim pizz. 15-25 ms
um 340 Hz, 750, 1225,
schwach
20-100 ms, „Vorläuferim- Abreißen des Klangs puls“ mit Komponenten bis 1 kHz
2.000 und 3.500 Hz, nur im unteren Tonbereich
1.200 – 1.500 Hz, 2.000 und 3.000 Hz
20-180 ms, sehr präg nanter Klangeinsatz durch kurzen „Vorläuferimpuls“ mit Komponenten bis 2-3 kHz
480 - 600 Hz, 1.200 Hz
schwacher „Vorläuferimpuls“, 20-40 ms, bei weichem Klangeinsatz etwa 70 ms
210 - 230 Hz
kurzer Klangeinsatz
selten vorhanden
vorhanden, in einzelnen Bereichen mit größerer Amplitude
10-30 ms, sehr geräuschhaltig
20-30 s im tiefen Tonbereich, 5-10 s im hoher Tonbereich, wenn nicht früher abgedämpft wird
500 - 700 Hz, 2.000 – 3.000 Hz
schwach
sehr kurz
ähnlich wie beim Klavier
90
2 Schallquellen
Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Große Flöte
Violinschlüssel
h - etwa c““ = 247-2100 Hz
Grundton überwiegt, mit steigender Obertonfrequenz abnehmende Teiltonintensität, Frequenzbereich bis 3-6 kHz
Kleine Flöte, Piccolo
Violinschlüssel transponierend, wird eine Oktave tiefer notiert
d“ - c‘““ = 587 – 4.200 Hz
wie Große Flöte, jedoch Komponenten bis 10 kHz
Oboe
Violinschlüssel
h(b) - etwa f“ = 247 -1.400 Hz
obertonreich, Grundton schwach, Komponenten bis 9 kHz (mf), über 12 kHz (ff)
Englisch Horn
Violinschlüssel transponierend, wird eine Quinte höher notiert
e (es) - b“ = 165 - 933 Hz
wie Oboe
Klarinette in B (A)
Violinschlüssel transponierend, wird einen Ganzton (kleine Terz) höher notiert
d (eis) - etwa g“‘ = 147 – 1.570 Hz
d-d‘: ungeradzahlige Obertöne schwach, es‘-g“: nur noch 1. Oberton schwach, über g“: gleichmäßiger Obertonaufbau
Bassklarinette in B Violinschlüssel D (Cis) - etwa f‘‘ transpon., eine = 74 - 700 Hz None höher notiert, Bassschl. transponierend, ein Ganzton höher notiert
Grundton stark, ungeradzahlige Obertöne noch schwächer als bei der Klarinette
Fagott
Bassschlüssel (Tenorschlüssel)
B‘ - etwa c“ = 58 - 520 Hz
obertonreich, Komponenten im ff bis über 12 kHz
Kontrafagott
Bassschlüssel transponierend, wird eine Oktave höher notiert
B“ - etwa c‘ = 29 - 260 Hz
obertonreich, Grundton schwach
Pauke
Bassschlüssel
Große Pauke: D - c = 73 - 130 Hz, Kleine Pauke: H - g = 124 - 196 Hz
keine harmonische Struktur, jedoch dominierende Komponenten, die dem Paukenschlag eine bestimmbare Tonhöhe geben
Trommel
in einem Notensystem oder auf moderne Notation auf einer einzelnen Linie
keine bestimmbare Tonhöhe
Becken Triangel
2.2 Musikinstrumente
Quasistationärer Zustand
Einschwingvorgang
91
Ausklingvorgang
Formantbereiche
Geräuschkomponenten
keine typischen Formanten
Geräuschkomponenten mit Tonhöhencharakter, mit dem jeweiligen Grundton identisch
charakteristisch durch Abreißen des Klangs Vorläuferton mit etwa 50 ms und Geräuschanteile, von allen Holzblasinstrumenten am längsten
keine typischen Formanten, gelegentlich Nebenformant bei 3.000 Hz
wie Große Flöte
ähnlich wie Große Flöte
bei 1.100 Hz, bei 2.700 und 4.500 Hz
gering
sehr klar, keine Geräuschanteile, 20 - 40 ms, auch im staccato noch klar
bei 1.000 Hz, bei 2.000 und 4.000 Hz, bei 750 Hz
wie Oboe, im staccato noch kürzer, im ganzen Tonbereich 15 ms
nur im oberen Tonbereich über g“, zwischen 3.000 und 4.000 Hz
klar und prägnant, 1 5- 20 ms, ohne Geräuschanteile, weicher Einsatz etwa 50 ms
keine typischen Formanten
ähnlich wie Klarinette
500 Hz (1.150, 2.000 und im pp besonders im Bereich 3.500 Hz) um 3.000 Hz
klar und prägnant, ohne Geräuschanteile
250 Hz (400 - 500, 800 Hz)
klar, etwa 35 ms
keine Formatstruktur
starke Komponenten bis 1.000 Hz, schwächer bis etwa 4.000 Hz
bis 50 ms, keine harmonischen Komponenten
Komponenten bis 1.500 kHz (Große Tr.), 8.000 Hz (Kleine Tr.)
maximal 50 ms
Komponenten zwischen 800 und 9.500 Hz
etwa 400 ms
Komponenten zwischen 1.000 etwa 200 ms und 17.000 Hz, stark um 13.000 Hz
Geräuschanteile bis 300 ms, 1. Oberton bis 1 s
92
2 Schallquellen
Die Kleine Flöte oder Piccolo steht im Tonumfang etwa eine Oktave höher als die Große Flöte. Ihre Klangeigenschaften entsprechen denjenigen der Großen Flöte. Die harmonischen Klangkomponenten reichen aber bis etwa 10 kHz. Oboe und Englisch Horn Der Klang der Oboe ist sehr hell und offen. Dies bewirken einerseits die stark ausgeprägten Obertöne, die im Mezzoforte-Klang bis etwa 9 kHz, im Fortissimo-Klang bis 12 kHz reichen, andererseits der deutlich ausgeprägte Hauptformant bei 1,1 kHz und die Nebenformanten bei 2,7 und 4,5 kHz. Die Grundtöne sind schwach ausgebildet und liegen etwa 25 dB unter dem Pegel der stärksten Komponenten. Im Bereich der höchsten Obertöne treten die Formanten weitgehend zurück. Der Klang verliert hier deshalb an Eigenart. Piano- und Forte-Klang unterscheiden sich in der Klangfarbe sehr stark. Die Einschwingzeit des Klangs ist sehr kurz, Geräuschanteile treten dabei kaum auf. Deshalb eignet sich die Oboe auch für das Spiel sehr kurzer Töne. Das Englisch Horn (franz.: cor anglais, ital.: corno inglese) ist eine Variante der Oboe mit um eine Quinte tieferen Tonbereich. Als Besonderheit besitzt sie einen birnenförmigen Schallbecher. Die Klangeigenschaften entsprechen denen der Oboe, der Hauptformant liegt etwas tiefer, nämlich bei 1 kHz. Bei 700 Hz liegt ein charakteristischer Nebenformant. Eine weitere Variante der Oboe ist die Oboe d‘amore, sie ist ähnlich wie das Englisch Horn gebaut, ihr Tonbereich beginnt jedoch zwei Ganztöne höher als bei diesem. Klarinette und Saxophon Der Klang der Klarinette ist nicht im ganzen Tonbereich einheitlich, man spricht deshalb von den verschiedenen Registern der Klarinette. Im Tonbereich zwischen d und d‘ bestimmt das Übergewicht der ungeradzahligen Teiltöne den Klang, dieses lässt sich bis zum 15. Teilton verfolgen. Die Pegelunterschiede zu den geradzahligen Teiltönen betragen etwa 25 dB, teilweise sogar bis 40 dB. Oberhalb von gis“ ist der Grundton am stärksten, an ihn schließt sich eine stetig fallende Obertonreihe an (Abb. 2/13). Für dieses höchste Register bildet sich ein Formant zwischen 3 und 4 kHz aus, während bei den tieferen Registern keine charakteristischen Formanten zu finden sind. Kennzeichnend für den Klarinettenklang ist auch der geringe Geräuschanteil, der vor allem im obersten Register die Klarheit und Helligkeit des Klangs fördert. Die Klarinette bietet eine außerordentlich große Dynamik. Mit der Dynamikstufe ändert sich der Teiltonaufbau sehr stark. Während im pp in der eingestrichenen Oktave das Spektrum nur bis etwa 1,5 kHz reicht, enthält es im ff Komponenten bis über 12 kHz. Die Einschwingvorgänge sind wie die der Oboe kurz, prägnant und ohne wesentliche Geräuschanteile. Bei der Bassklarinette treten die ungeradzahligen Teiltöne noch stärker hervor als bei der normalen Klarinette, ihr Klang ist dadurch noch düsterer und hohler. Das Saxophon besitzt wie die Klarinette ein einfaches Rohrblatt, ist aber konisch und aus Metall. Es ist aus der Kombination der Bassklarinette mit der Ophikleide, einem Blechblasinstrument in der Basslage, um 1840 von dem Belgier Adolf Sax entwickelt worden. Das Instrument wird in acht Tonlagen gebaut: Sopranino, Sopran, Alt, Tenor, Bariton, Bass und Kontrabass. Im Klang sind die ersten Obertöne stark ausgebildet. Auf Grund seiner konischen Form werden die geradzahligen Obertöne ebenso stark wie die ungeradzahligen angeregt.
2.2 Musikinstrumente
93
Fagott Der Fagottklang ist wie der Oboenklang sehr obertonreich. Kennzeichnend ist ein scharf ausgeprägter Hauptformant bei 500 Hz, der dem Fagottklang den Vokalcharakter eines „o“ verleiht. Nebenformanten liegen bei 1,15, 2 und 3,5 kHz. Im ff geht das Spektrum bis über 12 kHz hinaus. Der Klangeinsatz ist wie bei der Oboe präzis und kurz, Das Kontrafagott reicht mit seinem Tonumfang eine Oktave tiefer als das Fagott. Seine Grundtonfrequenzen gehen bis etwa 30 Hz hinunter. Der Hauptformant liegt um 250 Hz. 2.2.2.3 Blechblasinstrumente Blechblasinstrumente, Sammelbezeichnung für Trompete (franz.: trompette, ital.: tromba, clarino, engl.: trumpet), Horn (franz.: cor, ital.: corno, engl.: french horn), Posaune (franz., ital., engl.: trombone) und Tuba (alle Sprachen) nebst ihren Nebeninstrumenten besitzen verglichen mit den Holzblasinstrumenten eine sehr lange Resonanzröhre aus Blech, bei der es keine Grifflöcher gibt. Die einzelnen Instrumententypen unterscheiden sich hauptsächlich in der Formgebung dieser Röhre und des Mundstücks. Beim Spiel wird weitgehend von der Naturtonreihe der Röhre Gebrauch gemacht, indem durch verschiedene Lippenspannungen die einzelnen Naturtöne der stehenden Welle im Rohr angeblasen werden. Wegen der recht langen Resonanzröhre sind die Naturtöne weitgehend identisch mit den Teiltönen. Zur Erzeugung der Töne, die zwischen den Naturtönen liegen, kann die Länge des Rohrs und damit der Tonhöhe bei der Trompete, Horn und Tuba durch Ventile oder bei der Posaune ein ausziehbares Rohrstück, einen Zug, um bis zu etwa 40 % verlängert werden. Die Tonumfänge zeigt Abb. 2/17. [Bahnert, 2004] Bei allen Blechblasinstrumenten lassen sich auch die Spektren in zwei Tonbereiche aufteilen: Im unteren Tonbereich kennzeichnet ein Formant den Klang, während im oberen Tonbereich der Grundton am stärksten hervortritt und die Obertöne mit steigender Ordnungszahl relativ gleichmäßig in ihrem Pegel abnehmen. Im unteren Tonbereich ist ein Formant um 340 Hz kennzeichnend
Abb. 2/17. Grundtonumfänge der Blechblasinstrumente.
Horn Während bei leisen Tönen Formanten eine geringe Rolle spielen, gewinnen mit zunehmender Lautstärke noch weitere Formanten bei 750 Hz, 1,25 und 2 kHz an Bedeutung. Im pp reicht das Spektrum etwa bis 1,5 kHz, im ff bis über 5 kHz. Die Geräuschanteile sind sehr gering. Frequenzanteile unter 200 Hz nehmen wenig Einfluss auf den Klangcharakter, da sie schwach ausgeprägt sind. Der Klangeinsatz ist durch einen kurzen Vorläuferimpuls gekennzeichnet,
94
2 Schallquellen
der vorwiegend harmonische Klangkomponenten unter 1 kHz enthält, ein zu stark ausgeprägter Vorläuferimpuls tritt als „Kiekser“ störend in Erscheinung. Verschließt die rechte Hand des Spielers die Stürze teilweise (Halbstopfen), werden die Klangkomponenten um 3 und über 10 kHz formantartig verstärkt, der Klang wirkt eng und wie aus größerer Entfernung, bei stärkerem Verschließen (Vollstopfen) kann der Ton bis um einige Halbtöne erniedrigt werden, wie beim Gebrauch der Ventile. Obwohl Hörner Blechblasinstrumente sind, stehen sie musikalisch den Holzblasinstrumenten sehr nahe, da sie sich besonders gut in den Klang der Holzbläsergruppe einfügen; gelegentlich werden auch diesen zugerechnet. In der Partitur werden sie zwischen Holz- und Blechblasinstrumenten eingeordnet. Trompete Die Trompete ist eines der obertonreichsten Instrumente des Orchesters. Bereits bei geringen Lautstärken reicht ihr Spektrum bis über 5 kHz hinaus, im ff sogar bis an die Hörgrenze. Ein starker Hauptformant liegt bei 1,2 bis 1,5 kHz, Nebenformanten bei 2 und 3 kHz. Der Grundton überwiegt nur bei den höchsten Tönen, wodurch ein gleichmäßig heller Klang gefördert wird. Geräuschanteile sind sehr schwach. Den prägnanten Klangeinsatz der Trompete kennzeichnet wie beim Horn ein Vorläuferimpuls, dessen Spektrum im Bereich zwischen 2 und 3 kHz ein Maximum hat. Durch verschiedene, in die Klangstürze eingesetzte Dämpfer kann der Klang stark verändert werden: Der normale, der konische Dämpfer unterdrückt vor allem die Frequenzen unter 1,5 kHz und hebt Frequenzen über 4 kHz an, der gewölbte Dämpfer unterdrückt die Komponenten über 2,5 kHz. Mit dem Wah-Wah-Dämpfer kann die Klangfarbe durch Verschieben der Formanten während des Spiels variiert werden. Posaune und Tuba Das Posaunenspektrum ist durch einen Formanten zwischen etwa 480 und 600 Hz gekennzeichnet, ein weiterer wichtiger Formant liegt um 1,2 kHz. Darüber nimmt die Amplitude der Teiltöne langsam ab, so dass im mf das Spektrum noch bis 5 kHz reicht. Der Grundton dominiert selten. Beim Einschwingvorgang tritt nur ein schwacher Vorläuferimpuls auf. Das Spektrum der Tuba, Basstuba und Kontrabasstuba reicht nur etwa bis 1,5 kHz, im oberen Tonbereich bis 2 kHz, der Klang ist also obertonarm. Auch die Grundtöne sind schwach ausgebildet. Der Hauptformant liegt zwischen 210 und 250 Hz. Die Einschwingzeit der Töne ist sehr kurz, dadurch kann die Tuba eine sehr prägnante Basslinie spielen. 2.2.2.4 Klavier und Cembalo Der Klavierklang setzt sich aus dem Einschwing- und Ausklingvorgang zusammen, einen quasistationären Zeitabschnitt wie bei Blas- und Streichinstrumenten gibt es nicht. Der Einschwingvorgang dauert sehr kurz, er ist durch die Spielweise bei gleichbleibender Lautstärke nicht zu beeinflussen. Beim Ausklingvorgang überwiegt der Grundton, abgesehen von dem Bereich der tiefen Töne. Der Pegel der Obertöne nimmt mit steigender Ordnungszahl stetig ab. Charakteristische Formanten treten nicht auf. Das Spektrum reicht bis über 10 kHz in den oberen Tonlagen, bis etwa 3 kHz in den unteren Tonlagen. Die Stärke der Obertöne ist von der erzeugten Klangstärke und damit vom Anschlag abhängig. Mit einer Taste des Kla-
2.2 Musikinstrumente
95
viers werden bei der tiefsten Oktave eine, eine Oktave darüber zwei und darüber drei gleich gestimmte Saiten gleichzeitig angeschlagen. Dadurch können Schwebungen, also Amplitudenschwankungen entstehen. Kennzeichnend für den Klavierklang sind auch die ausgeprägten Geräuschanteile beim Einschwingvorgang. Eine weitere Besonderheit ist, dass die Obertöne, besser Naturtöne, nicht streng harmonisch, also nicht exakt ganzzahlige Vielfache der Grundfrequenz sind, sondern jeweils etwas höher liegen, die Obertonreihe ist gespreizt. Dieser Effekt, verursacht durch die relative Dicke der Saiten, tritt besonders bei kleinen In strumenten mit ihren kürzeren Saiten auf und mindert deren Klangqualität. Das Cembalo, wichtigstes Tasteninstrument der Barockzeit, zeichnet sich durch besonders großen Obertonreichtum und besonders langes Ausklingen aus, es wirkt fast wie ein quasistationärer Zustand. Ein Bereich starker Klangentwicklung liegt zwischen 500 und 700 Hz, ein weiterer Bereich zwischen 2 und 3 kHz. Tiefe Klangkomponenten sind schwach. Das Cembalo weist eine außerordentlich hohe zeitliche Klangdichte auf, die es bei gleicher Aussteuerung viel lauter erscheinen lässt als z. B. das Klavier. 2.2.2.5 Orgel Die Orgel ist das größte, bautechnisch komplexeste Musikinstrument. Ihr Platz ist in Kirchen und großen Konzertsälen. Neben der großen Kirchen- bzw. Konzertorgel gibt es kleinere, transportable Instrumente, die sog. Orgelpositive oder einfach Positive. Insbesondere der Klang großer Orgeln ist in einem Maße wandelbar wie sonst bei keinem anderen Instrument. Schallerzeuger sind die Orgelpfeifen, die durch unterschiedliche Bauarten eine breite Palette unterschiedlichster Klänge erzeugen können. Orgeln sind Einzelanfertigungen, die entsprechend ihrer musikalischen Funktion, aber auch, was es sonst bei keinem Instrument gibt, entsprechend der jeweiligen Raumakustik geplant und gebaut sind. Ihre außergewöhnliche Größe und Lautstärke korrespondiert mit der ebenfalls außergewöhnlichen Größe des Kirchen- und Konzertraums. Bei der Aufnahme ist nicht nur zu beachten, dass der Orgelklang in besonderem Maße mit der Erwartung des Raumklangs aus einem großen Raum verbunden ist, sondern dass die Orgel selbst erhebliche räumliche Ausdehnung besitzt. Barocke Orgeln, aber auch moderne Orgeln, die nach dem sog. Werkprinzip der Barockorgeln gebaut sind, sind in einzelne sog. Werke gegliedert; jedem Manual ist dabei eine Gruppe von Registern zugeordnet, die in sich eine ausgewogene, aber von den übrigen Werken der Orgel sich unterscheidende sog. Disposition besitzt. Die einzelnen Werke sind nach traditionellen Regeln angeordnet: Oberhalb des Spieltischs befindet sich das sog. Hauptwerk, darüber und darunter sind zwei kleinere Werke, das Oberwerk und das Brustwerk; das Rückpositiv steht im Rücken des Spielers. Fernwerke sind von der eigentlichen Orgel getrennt im Raum aufgestellt. Das Pedalwerk ist auf die beiden Pedaltürme aufgeteilt, die links und rechts des Hauptwerks stehen. Dessen Pfeifen stehen nicht entsprechend einer chromatischen Tonleiter nebeneinander, sondern wechseln bei jedem Ton die Seite. Dadurch springt eine Melodie zwischen den Pedaltürmen hin und her, ein Effekt, der bei Aufnahmen nicht eingefangen werden sollte; durch größeren Mikrofonabstand oder zwei zusammengemischte Mikrofone ist dies zu vermeiden.
96
2 Schallquellen
2.2.2.6 Akustische Gitarre und E-Gitarre Die Gitarre gibt es heute in einer Typenvielfalt wie sonst nur bei wenigen Instrumenten. Grundsätzlich muss zwischen der akustischen und der Elektro- oder E-Gitarre unterschieden werden. Dazu existiert eine kombinierte Form dieser beiden Typen, nämlich die halbakustische oder Semi-Akustikgitarre. Alle traditionellen Gitarren, die ohne elektrische Tonabnahme und Tonverstärkung arbeiten, gehören zu den Akustikgitarren; der Begriff wurde erst geschaffen, als es notwendig wurde, diese Gitarren von der Gruppe der Elektro-Gitarren zu unterscheiden. Die Konzertgitarre oder Spanische Gitarre ist der klassische Typ der traditionellen akustischen Gitarre; sie ist mit sechs Nylonsaiten bespannt und wird mit den Fingerkuppen gezupft oder geschlagen. Akustik-Gitarren mit Stahlbesaitung, sog. Westerngitarren, werden entweder mit einem Plektrum oder mit den Fingern gezupft oder als Schlaggitarre geschlagen. Schlaggitarren haben neben dem Schallloch eine Schutzplatte. Neben der sechssaitigen Gitarre gibt es auch die voller klingenden zwölfsaitigen Instrumente; die beiden hohen Saiten sind hierbei im Einklang verdoppelt, die vier tiefen in der Oktave. Zwölfsaitige Gitarren haben Stahlbesaitung, weil Nylonsaiten zu weit ausschwingen. Das Schallloch ist der Ort größter Schallabstrahlung sowohl tiefer als auch hoher Frequenzkomponenten. Die Elektro-Gitarre oder E-Gitarre kombiniert akustische Tonerzeugung mit elektrischer Verstärkung und Formung des Tons. Sie verfügt über ein bis drei Tonabnehmer oder Pickups, die die Saitenschwingungen an verschiedenen Stellen abnehmen; der stegnahe Pickup gibt einen spitzeren, der Pickup am Griffbrett gibt einen weicheren Klang. E-Gitarren benötigen Stahlsaiten, weil die Pickups nur auf Metall ansprechen. Die Tonabnehmer sind im Allgemeinen elektromagnetische Wandler, deren Bauweise und Qualität Einfluss auf den Grundklang einer E-Gitarre nimmt. Es werden Einfachspulabnehmer, sog. Single Coil, und Doppelspulabnehmer, sog. Humbucker, verwendet; Single Coil-Pickups sind heller, metallischer im Klang, Humbucker-Pickups mittenbetonter. Die Humbucker-Systeme haben eine bessere Brummunterdrückung. Die verschiedenen Tonabnehmer einer Gitarre können einzeln oder parallel geschaltet werden. An der Gitarre selbst können nur einfache Klangformungen eingestellt werden. Aufwändigere Klangbeeinflussungen werden in separaten Effektgeräten, auch kombiniert mit dem Gitarrenverstärker, realisiert. Die Effektgeräte können auch für die Klangformung von Keyboards verwendet werden (Tab. 2/5). Es gibt die folgenden Grundtypen von E-Gitarren: Solidbody: Eine E-Gitarre benötigt vom Prinzip her keinen Resonanzkörper. Die Solidbody hat keinen schwingungsfähigen Resonanzkörper, sondern nur ein massives Brett (Solid Body) in der Form eines Resonanzkörpers oder in einer anderen Form. Die Solidbody ist die klassische Form der E-Gitarre und E-Baasgitarre. Akustikgitarre mit Pickup: Um die akustische Gitarre in die Musikpraxis der populären Musik trotz ihres schwachen Klangs einbeziehen zu können, wird sie auch mit Pickups versehen.
2.2 Musikinstrumente
97
Semiakustik-Gitarre: Ihr Korpus nimmt konstruktiv eine Zwischenstellung zwischen akustischer Gitarre und Solidody ein. Tab. 2/5. Gitarren-Effekte. Effekt (englisch)
Erläuterung
Chorus
Stimmvervielfachung durch gering zeitverzögerte und in der Tonhöhe versetzte Zumischung desselben Signals, subjektive Intensivierung Kompressor, der eine Tonverlängerung ohne abfallenden Pegel bewirkt Signalverzögerung nichtlineare Verzerrungen mit einstellbaren Eigenschaften einstellbare Filter zeitverzögerte Zumischung desselben Signals mit fester Verzögerung (KammfilterFrequenzgang), Verzögerungszeit schwingend sich verändernd (Vibrato-Effekte) Verhallung mit Hallgerät Lautsprecherkabinett mit rotierenden Lautsprechern, auch elektronisch Abschaltung in Signalpausen Verzerrungen wie ein Röhrenverstärker, d. h., zunehmend mit steigendem Pegel zeitverschobene Zumischung desselben Signals, Frequenzgang einer Kammfilterkurve, auch schwingend einstellbare Anhebung in einem stufenlos einstellbaren Frequenzbereich Klangbeeinflussung durch die Mundresonanz des Musikers bei jedem Ton automatisch durchlaufendes Filter mechanische Zusatzeinrichtung am Gitarrensteg oder elektronisches Effektinstrument Durchlauffilter, das individuell gesteuert wird
Compression, Sustain Delay Distorsion Equalizer, EQ Flanger
Reverb Leslie Noise Gate Over Drive, Tube Screamer Phaser Spectrum Talkbox Touch Wah Vibrato Wah Wah
E-Bass: Die Elektro-Bassgitarre ist in ihrer musikalischen Funktion zunächst ein Ersatz für den gezupften Kontrabass gewesen, bildet aber inzwischen eine Ergänzung der Gitarrenpalette im tiefen Tonbereich. Sie wird mit oder ohne Resonanzkörper gebaut. Doppelhalsgitarre (engl. Double neck guitar): Dieses Instrument vereint zwei Gitarren in einem Instrument; an dem verbreiterten Korpus sind zwei Hälse angebracht. Die Double Neck besteht entweder aus einer sechs- und einer zwölfsaitigen Gitarre oder einer sechssaitigen und einer Bassgitarre. Pedal Steel Gitarre: Von der Solidbody abgeleitetes Instrument mit zwei Hälsen mit jeweils 10 oder 12 Saiten. Die linke Hand führt einen Gleitstahl (steel bar) zur Saitenverkürzung, mit der rechten Hand wird durch Zupfringe gezupft. Mit acht Pedalen ist das auf vier Beinen waagrecht liegende Instrument durch verschiedene Effekte beeinflussbar. Elektro-Hawaiigitarre: Der charakteristische Glissando-Klang der Hawaii-Gitarre entsteht dadurch, dass auf dem Griffbrett ein sog. Kamm die Saiten niederdrückt, der gleitend von
98
2 Schallquellen
Griff zu Griff bewegt wird. Dieser Effekt kennzeichnet auch die Pedal-Steel-Gitarre und ist mit dem Slide-Spiel auch bei anderen Gitarren möglich. Bei der Aufnahme der E-Gitarren kann der Klang entweder vom Gitarrenlautsprecher mit Mikrofon abgenommen oder als elektrisches Signal direkt vom Gitarrenverstärker übernommen werden (Direct Injection). Vielfach werden auch beide Möglichkeiten kombiniert. Für den E-Bass ist die elektrische Direktabnahme üblich. Bei der Direktabnahme und bei der Mikrofonabnahme können Sicherheitsprobleme dadurch entstehen, dass bei gleichzeitiger Berührung fehlerhaft verarbeiteter, Spannung führender Geräteteile der Gitarrenanlage und des geerdeten Mikrofons gefährliche Körperströme fließen können. Durch Verwendung von Trenntransformatoren für die Instrumente oder sog. DI-Boxen können diese Gefahren ausgeschlossen werden (siehe hierzu Kap. 8.6). 2.2.2.7 Schlaginstrumente Schlaginstrumente, Perkussion oder engl. percussion besitzen, anders als Streich- und Blasinstrumente, keinen quasistationären Zeitabschnitt in ihrem Klang. An den Anschlagvorgang schließt sich wie bei Klavier und Cembalo unmittelbar der Ausklingvorgang an. Die meisten Schlaginstrumente werden durch geräuschhafte und unharmonische Schwingungskomponenten gekennzeichnet, damit hat ihr Klang keinen deutlichen Tonhöhencharakter; im gesamten Klang überwiegen meist Geräuschanteile. Für einige Schlaginstrumente sind allerdings quasiharmonische Klangkomponenten im Ausklingvorgang charakteristisch, die einen Tonhöhencharakter erzeugen. Bei der Pauke reicht das Frequenzspektrum des Anschlags bis etwa 4 kHz, die stärksten Komponenten liegen unter 1 kHz; im Ausklingvorgang bewirkt eine Reihe quasiharmonischer Teiltöne, insbesondere der zweite Teilton, dass eine bestimmbare Tonhöhe hörbar wird. Dadurch kann die Pauke eine Bassstimme spielen. So wird sie u. a. in der Barockmusik und teilweise auch in der klassischen Musik als spezifisches Bassinstrument der Blechbläser eingesetzt. Auch die Tom-Toms lassen eine diskrete Tonhöhe erkennen. Große und Kleine Trommel besitzen keine bestimmbare Tonhöhe, sondern nur Geräuschcharakter. Die wichtigsten Frequenzkomponenten liegen bei der Großen Trommel zwischen 100 und 1.500 Hz, bei der Kleinen Trommel zwischen 100 und 8.000 Hz. Auch das Becken hat keine bestimmbare Tonhöhe. Beim Anschlag baut sich der geräuschartige Klang langsam auf, um erst nach etwa 0,4 s seine größte Intensität zu erreichen. Das Spektrum reicht von 0,8 bis 10 kHz, Komponenten außerhalb dieses Frequenzbereichs sind sehr schwach. Einzelne Frequenzbereiche im Spektrum treten hervor. Auch beim Triangel liegen die einzelnen Klangkomponenten so dicht und unharmonisch, dass sich keine bestimmbare Tonhöhe ausbildet. Das Spektrum reicht von 1 bis 17 kHz mit hervortretenden Komponenten zwischen 12 und 14 kHz, damit hat das Triangel unter den Orchesterinstrumenten das nach hohen Frequenzen hin am weitesten reichende Spektrum.
2.2 Musikinstrumente
99
2.2.3 Schallabstrahlung Schallquellen, die klein gegenüber den Wellenlängen des abgestrahlten Schalls sind, strahlen den Schall weitgehend ungerichtet nach allen Seiten ab; größere Schallquellen mit den Dimensionen im Bereich der hörbaren Schallwellen konzentrieren die Schallabstrahlung auf eine oder mehrere Richtungen. Da die Wellenlängen der Spektralkomponenten musikalischer Klänge zwischen etwa 10 m und 2 cm liegen können, bündeln die Instrumente den Schall frequenzabhängig, dabei teilweise auch in sehr komplexer Form. Als grobe Faustregel kann gelten, dass Frequenzen im Bassbereich unter etwa 250 Hz kugelförmig ungerichtet, Frequenzen darüber zunehmend gerichtet abgestrahlt werden. Die gerichtete Schallabstrahlung wirkt sich auf die Klangfarbe und den Schallpegel im Direktfeld mehr oder weniger stark aus, nicht aber im Diffusfeld. Da die Mikrofone aber meist im Direktfeld aufgestellt werden, hat die gerichtete Schallabstrahlung der Instrumente bei Tonaufnahmen größere Bedeutung als beim direkten Hören. Die gerichtete Schallabstrahlung oder Richtcharakteristik der Instrumente macht es möglich, mit dem Mikrofon den Klangcharakter des Instruments bei der Aufnahme mitzubestimmen. Mikrofonstandort und Richtcharakteristik der Instrumente haben einen größeren Einfluss auf die Aufnahme als die die Auswahl des Mikrofons; dies gilt in erster Linie bei relativ geringem Mikrofonabstand und besonders bei der Anwendung des Einzelmikrofonverfahrens (siehe Kap. xxxx). Stark gerichtete Abstrahlung lässt den Klang eines Musikinstruments auch über größere Entfernungen noch präsent erscheinen, sie erhöht damit die Lokalisierbarkeit der Instrumente, verringert aber gleichzeitig die Klangverschmelzung z. B. bei einem Sinfonieorchester. Gerichtete Klangabstrahlung kann den Hallradius erheblich vergrößern, im höheren Frequenzbereich der Blechblasinstrumente durchaus um den Faktor 10, im Schnitt etwa um den Faktor 1,5 bis 2 (siehe Kap. 1.3.4). Die folgenden Darstellungen der gerichteten Klangabstrahlung der Instrumente zeigen die Bereiche, innerhalb derer der Pegel um nicht mehr als 3 dB unter den Maximalwert abfällt. Die dargestellten Bereiche sind, etwas vereinfacht gesagt, also die Bereiche, innerhalb derer eine Klangfarbenänderung praktisch nicht wahrnehmbar ist. Die Betrachtung muss sich dabei auf ausgewählte Frequenzen oder Frequenzbänder beschränken, die einen guten Einblick in das Schallabstrahlungsverhalten geben. [Meyer, 2015], [Albrecht, 2017] 2.2.3.1 Streichinstrumente Die Richtcharakteristiken der Streichinstrumente kommen dadurch zustande, dass Decke und Boden des Korpus, in einzelnen Zonen mit unterschiedlicher Amplitude und Phase schwingen; hinzu kommt die Abstrahlung des im Resonanzkörper eingeschlossenen Luftvolumens über die sog. f-Löcher, das einen Helmholtz-Resonator darstellt (siehe Kap. 1.2.2.4), Da die Form der Instrumente weitgehend standardisiert ist, können allgemein gültige Abstrahleigenschaften festgestellt werden, obwohl auch individuelle Eigenschaften der Holzstruktur und der Ausarbeitung darauf Einfluss nehmen. Grundsätzlich ist die Richtwirkung bei den Streichinstrumenten nicht so ausgeprägt wie bei den Blasinstrumenten; sie ist komplexer und stärker vom Einzelinstrument abhängig. Kleine Veränderungen des Mikrofonstandorts
100
2 Schallquellen
wirken sich nicht so deutlich aus. Der Wahl des Mikrofontyps kommt unter diesen Umständen eine größere Bedeutung zu. Eine Besonderheit, die sich bei Tonaufnahmen auswirken kann, sind die teilweise in schmalen Winkelbereichen wirksamen starken Einbrüche in der Schallabstrahlung. Das wird z. B. deutlich beim Frequenzgang der Geige in Abb. 2/18: Bei der Aufnahme im Nahbereich mit nur einem Mikrofon ist der Frequenzgang sehr stark zerklüftet, fast einer Kammfilterkurve vergleichbar. Bei der Aufnahme mit sechs Mikrofonen, angeordnet in einem größeren Winkelbereich, und anschließender Mischung, also Mittelung der Frequenzgänge, ist der resultierende Frequenzgang deutlich geglättet. Das Diffusfeld in einem Raum bildet in gleicher Weise einen Mittelwert über die Frequenzgänge in den verschiedenen Richtungen und glättet den Frequenzgang. Die stark zerklüftete Frequenzkurve kann zu einer ungewohnten Klangschärfe, einem metallischen Klang führen, der beim natürlichen Hören wegen des hierbei größeren Diffusschallanteils nicht oder weniger in Erscheinung tritt. Für die Praxis ergibt sich daraus, dass ein gewisser Diffusschallanteil vorteilhaft ist; dies lässt sich durch einen eher größeren Mikrofonabstand erreichen. Es zeigt auch, dass für Aufnahmen von Streichinstrumenten eher Räume mit einem gewissen Nachhall gewählt werden sollten. Künstliche Verhallung von Streichinstrumenten bei Nahaufnahmen vermeidet dem einem Kammfilter ähnlichen Frequenzgang nur, wenn ein gesondertes Hallmikrofon in etwas größerer Entfernung in einem nicht zu trockenen Raum aufgestellt wird..
Abb. 2/18. Frequenzkurven eines Violinklangs im Direktfeld, gemessen mit einem Mikrofon in Haupt abstrahlrichtung bzw. mit 6 Mikrofonen mit anschließender Mittelung in anderen Richtungen [Meyer, 1992].
2.2 Musikinstrumente
101
Bis etwa 500 Hz ist die Schallabstrahlung weitgehend kugelförmig. Darüber verengt sie sich allmählich, um zwischen 1 und 1,2 kHz senkrecht zur Decke des Resonanzkörpers eine deutliche Bündelung zu erfahren. Darüber wird der Abstrahlbereich insgesamt wieder breiter, spaltet sich dabei aber wechselnd in einzelne Abstrahlbereiche auf, zwischen denen schmale Zonen geringerer Abstrahlung liegen (Abb. 2/19). Die Abstrahlung etwa senkrecht über der Decke ist die günstigste Richtung für die Aufnahme; zum einen wird in diese Richtung bevorzugt der Schall des Hauptformanten des Instruments abgestrahlt, zum anderen ist in diesem Winkelbereich der Abstand zwischen dem Geräuschpegel des Instruments und seinen harmonischen Komponenten am größten.
Abb. 2/19. Abstrahlcharakteristiken der Violine und Viola, nach [Meyer, 2015].
Abb. 2/20. Abstrahlcharakteristik des Violoncellos, nach [Meyer, 2015].
Allseitig ungerichtet abgestrahlt wird Schall beim Violoncello nur bis etwa 200 Hz wegen der größeren abstrahlenden Flächen. Um 1 kHz wird der Schall bevorzugt nach oben abgestrahlt, für Frequenzen zwischen 2 und 5 kHz teilt sich die Richtwirkung in zwei Zonen, eine zum
102
2 Schallquellen
Boden, eine senkrecht nach oben gerichtet (Abb. 2/20). Gerade dieser Frequenzbereich trägt aber wesentlich zum Klangcharakter dieser Instrumente bei. Bei gleicher Grundtonhöhe wirken die Violoncelli tatsächlich oft schärfer als die Violinen; eine Mikrofonposition über dem Violoncello kann diesen durchaus wünschenswerten Unterschied hervorheben. Schon von Frequenzen um 100 Hz an aufwärts strahlt der Kontrabass den Schall gerichtet ab. Dabei sind für die einzelnen Frequenzbereiche wechselnde Hauptabstrahlrichtungen festzustellen, die sich teilweise auch in zwei getrennte Zonen aufspalten. Sie liegen jedoch in dem Halbraum vor der Decke des Instruments. 2.2.3.2 Holzblasinstrumente Die Holzblasinstrumente strahlen die Klangkomponenten bis rund 1 kHz bevorzugt aus den Grifflöchern ab, also senkrecht zur Schallröhre; mit ansteigender Frequenz neigt sich der Abstrahlbereich zunehmend zur Schallstürze hin. Die höheren harmonischen Komponenten werden schließlich besonders aus der Schallstürze abgestrahlt (Abb. 2/21).
Abb. 2/21. Abstrahlcharakteristik der Oboe und Klarinette, nach [Meyer, 2015].
Die Richtwirkung ist bei den Holzblasinstrumenten so ausgeprägt, dass sie bei Tonaufnahmen eine weit wichtigere Rolle spielt als die Wahl des Mikrofontyps. Es ist möglich, allein durch die Mikrofonaufstellung zwischen einem weichen, vollen Klang vor den Grifflöchern und einem scharfen, engen, aber auch präsenterem Klang vor der Stürze sowie allen Klangcharakteristiken dazwischen zu wählen. Mit zunehmender Entfernung vom Instrument werden diese Unterschiede immer geringer, weil die Abstrahlung aus allen Richtungen durch den Diffusschall zunehmend integriert wird.
2.2 Musikinstrumente
103
Bei der Großen Flöte oder Querflöte verursacht das Zusammenwirken der Schallabstrahlung von Schallstürze, dem Fußstück, und Anblasloch auch schon unter 1 kHz eine Aufspaltung der Schallabstrahlung in einzelne getrennte Zonen. Der Klang aus dem Fußstück wirkt so eng und scharf, dass Mikrofone in diesem Bereich im Allgemeinen nicht aufgestellt werden. Über dem Mundstück ist relativ viel Atemluft hörbar, was z. B. bei Jazzflötisten durchaus erwünscht sein kann. Rund und weich ist der Klang über den Grifflöchern. Beim Fagott ist zu beachten, dass die Stürze nach oben gerichtet ist, hohe Klangkomponenten entsprechend auch nach oben abgestrahlt werden. Über dem Fagott wirkt sein Klang aber u. U. etwas eng. Bei den Saxophonen, mit Ausnahme des Sopransaxophons, fallen die Zonen der Abstrahlung tieferer Klangkomponenten aus den Grifflöchern und höherer Komponenten aus der Stürze im Nahbereich in derselben Richtung zusammen. 2.2.3.3 Blechblasinstrumente Bei Blechblasinstrumenten wird der Schall praktisch ausschließlich von der Schallstürze abgestrahlt. Sie ist wesentlich größer als bei Holzblasinstrumenten und vermag deshalb den Schall verstärkt zu bündeln. Zudem ist die Schallröhre zwischen Mundstück und Stürze völlig geschlossen, von ihr wird also praktisch kein Schall abgestrahlt. Verglichen mit den Holzblasinstrumenten wird der Schall schon bei tieferen Frequenzen gebündelt; bereits bei Frequenzen um 500 Hz ist die Richtwirkung deutlich. Die Richtcharakteristik ist, abgesehen vom Horn, rotationssymmetrisch. Durch die Wahl des Mikrofonstandorts kann wie bei den Holzblasinstrumenten im Direktschallbereich, also innerhalb des Hallradius, in erheblichem Umfang die Klangcharakteristik gewählt werden; auch hier ist der Mikrofonstandort wesentlich wichtiger als der Mikrofontyp (Abb. 2/22). Der Klangcharakter der Instrumente direkt vor der Stürze ist hell bis scharf, aber im Gegensatz zu den Holzblasinstrumenten ist dieser Mikrofonstandort durchaus für die Tonaufnahme zu bevorzugen, da tiefe und mittlere Frequenzkomponenten im Gegensatz zu den Holzblasinstrumenten auch von der Stürze abgestrahlt werden. Die Abstrahleigenschaften des Horns weisen einige Besonderheiten auf, da das Instrument im Gegensatz zur Trompete und Posaune schräg nach hinten und mit der rechten Hand im Schalltrichter gehalten wird. Das führt zu einem typisch diffusen, indirekten Hornklang, der bei den Komponisten auch zu einer entsprechenden musikalischen Verwendung führt; es verbindet klanglich die Gruppe der Holz- mit derjenigen der Blechbläser, oft wird es speziell für Ferneffekte verwendet. Für das Horn im Orchester problematisch ist deshalb das Einzelmikrofonverfahren, da das Mikrofon hierbei im Nahfeld vor die Stürze aufzustellen ist; damit wird die typische Klangcharakteristik im Orchesterklang nicht horngemäß, die Hörner klingen untypisch präsent. Die Abstrahlcharakteristik des Horns ist verglichen etwa mit derjenigen der Posaune, die in derselben Tonlage spielt, relativ komplex. Die Schallbündelung im Bereich hinter dem Spieler beginnt bereits bei etwa 150 Hz.
104
2 Schallquellen
Abb. 2/22. Abstrahlcharakteristik der Blechblasinstrumente ohne Horn, nach [Meyer, 2015].
2.2.3.4 Konzertflügel Die Klangabstrahlung eines Konzertflügels ist sehr komplex, klare Angaben wie bei Blasoder Streichinstrumenten sind nur bedingt möglich; konkrete Empfehlungen für bestimmte Mikrofonstandorte sind im Einzelfall kritisch zu prüfen. Dafür kommt der Balance zwischen Direkt- und Raumschall, also dem Mikrofonabstand, eine besondere Wichtigkeit zu. Der geöffnete Konzertflügel strahlt für das Publikum den Schall insbesondere über die Reflexionen an dem um 45° geöffneten Deckel ab, die hohen Frequenzen am stärksten in dem Winkelbereich von ± 5° um die Mittelachse, ein deutlicher Höhenabfall ergibt sich außerhalb ± 30°, tiefere Frequenzen werden allseitig abgestrahlt. Die wahrgenommene Gesamtlautstärke wird von der Richtung praktisch nicht beeinflusst, ebenso wenig wie von dem geschlossenen Deckel, der allerdings hohe Frequenzen deutlich bedämpft. Im Nahbereich der Mikrofonaufnahme sind die Verhältnisse komplexer, da hier die direkte Abstrahlung der Saiten, die Bodenreflexionen des Resonanzkörpers und mit abnehmendem Abstand zunehmende Anschlagsgeräusche der Hämmer hinzukommen, je nach Position des Mikrofons.
2.2 Musikinstrumente
105
Gerade die Balance zwischen dem Hammergeräusch, das einen deutlichen Anschlag vermittelt, und dem Klang der schwingenden Holzteile ist hier maßgebend. Nimmt man die Unterschiede zwischen einzelnen Instrumenten hinzu, wird die Frage der Schallabstrahlung noch komplexer, so dass in der Praxis die Suche einer optimalen Mikrofonposition sich weniger auf ein theoretisches Vorwissen stützen kann als bei anderen Instrumenten. 2.2.3.5 Kirchen- und Konzertorgel Die Kirchen- und Konzertorgel ist mit ihrer körperlichen Ausdehnung und konstruktiven Gestalt das größte Musikinstrument; die konstruktiven Unterschiede zwischen den verschiedenen Instrumenten und ihre Ausdehnung sind so groß, dass allgemeingültige nützliche Aussagen zur Schallabstrahlung kaum möglich sind. Orgeln sind grundsätzlich angepasste Einzelanfertigungen. Hinzu kommt, dass die einzelnen Orgelpfeifen des Pedals chromatisch Ton für Ton abwechselnd auf die beiden Pedaltürme aufgeteilt sind, was keinen musikalischen, damit hörenswerten Sinn ergibt. Die große Kirchenorgel als Musikinstrument ist konzipiert als komplexes, den Raum klanglich füllendes Instrument, bei dem die örtliche Herkunft des Klangs keine Rolle spielt und auch nicht spielen soll. Ihre Aufgabe erfüllt die Orgel in erster Linie in der klanglichen Ausgestaltung des Gottesdienstes und einer emotionalen Einbindung seiner Besucher. Aus diesem Grund wird auch bei Orgelaufnahmen größter Wert auf die Vermittlung eines eindrucksvollen Raumklangs gelegt, für den die Abstrahlcharakteristik eine untergeordnete Bedeutung hat.
2.2.4 Elektronische Instrumente Elektronische Instrumente und Verfahren sind heute aus der Musikproduktion nicht mehr wegzudenken, sie tragen geradezu den Bereich der Popularmusik, weite Teile der Filmmusik, von Musicals, Tonunterlegungen von Fernsehspielen, Werbung usw. Es handelt sich dabei nicht nur um Musikinstrumente im klassischen Sinn, sondern in hohem Maße um die Musikproduktion und Klangmanipulation in komplexen Verfahren. Ermöglicht hat diese Entwicklung die digitale Tonverarbeitung mit sog. DSPs, digitalen Signalprozessoren oder auch digitalen Sound-Prozessoren, die eine Bearbeitung von Signalen, z. B. auch analogen Audiosignalen, kontinuierlich in Echtzeit ermöglichen. Nicht vergleichbar mit traditionellen akustischen Instrumenten, die nach einer teils Jahrhunderte dauernden Entwicklungsphase weitgehend standardisiert sind und nur in Details noch weiterentwickelt werden, verläuft die Entwicklung bei elektronischen Instrumenten und Verfahren parallel mit der Entwicklung der Digitaltechnik geradezu stürmisch. In kurzen Abständen erscheinen neue Geräte und Softwaretools auf dem Markt und verdrängen die bisherigen. Deshalb werden hier nur grundlegende Verfahren und Begriffe behandelt, beginnend mit einem kurzen Rückblick auf die historische Entwicklung, aus der auch heute noch wichtige Instrumente geblieben sind, zumindest als Vorbild für digitale Lösungen.
106
2 Schallquellen
2.2.4.1 Historische Entwicklung Elektroakustische Instrumente und ihre Musik entwickelten sich einerseits aus dem Wunsch von Komponisten und Musikern, neue Klänge für eine neue Musik zu erzeugen, andererseits einfach aus den neuen Möglichkeiten, die die Elektrotechnik seit den 1920er Jahren schuf, also Tongeneratoren, Verstärker, Filter, Motoren u. a. Schon bald wurden mit Strom betriebene Instrumente entwickelt, darunter 1928 die Ondes Martinot, 1930 das Trautonium (siehe dazu Kap. 2.2.4.3) und 1934 die Hammond-Orgel. Mit der Erfindung des Tonbandgeräts in den 1940er Jahren wurde es möglich, aufgenommene Töne bei der Tongebung abzuspielen wie etwa beim Mellotron und komplexe Klangentwicklungen in kleine Schritte zu zerlegen, um sie dann hintereinander zu bearbeiten und auf mehrspurigen Tonbandgeräten zusammenzuführen. Aus diesen Entwicklungen gingen im Bereich klassischer Musik zwei Strömungen hervor: Die Elektronische Musik, die Klänge synthetisierte und einen Schwerpunkt beim Westdeutschen Rundfunk hatte, und die in Paris entwickelte musique concrète, die sich bevorzugt mit Montagen von aufgenommenen Geräuschen und Klängen befasste. Zu den ersten rein elektronischen Musikinstrumenten gehört das 1930 von Trautwein entwickelte Trautonium, das über ein Bandmanual die Frequenz einer Sägezahnschwingung steuert, und mit dem zweimanualigen Mixturtrautonium von Sala weiterentwickelt wurde; es baut auf subharmonische Schwingungen, die neue ungewöhnliche Klangfarben ermöglichen, sowie auf weiteren den Klang gestaltenden Komponenten. Subharmonische Schwingungen sind Vielfache der Wellenlänge des Grundtons im Gegensatz zu Harmonischen, die Vielfache der Frequenz des Grundtons sind. Salas Instrument erlangte in der Filmmusik zu Hitchcocks Film „Die Vögel“ bleibende Bedeutung, namhafte Komponisten haben für diese Instrumente komponiert, die aber dennoch keine Verbreitung gefunden haben. In der Entwicklung der Popularmusik haben einige historische Klassiker, auch Vintages genannt, größere Bedeutung erlangt und in gewissem Umfang auch behalten: Hammondorgel Die Hammondorgel, auch kurz Hammond, ist eine nach ihrem Erfinder benannte elektromechanische Orgel. 1934 erfunden und in den Vereinigten Staaten von Amerika zunächst als Ersatz für die Pfeifenorgel gedacht, wurde sie über den Einsatz als Unterhaltungsinstrument schnell zum Instrument des Jazz. Als Orgelersatz in amerikanischen Kirchen verwendet, fand sie in die Gospel-Musik Eingang. Von dort breitete sich das Instrument in Rock, Soul, Funk, Reggae u. a. aus. Popularität erlangte sie in den 1960er und 1970er Jahren, als viele Bands das Instrument benutzten, v. a. das ab 1955 produzierte legendäre Modell B-3 mit Lesliet. Aber auch heute noch ist ihr unverwechselbarer Klang bzw. dessen digitale Simulation in der Popularmusik verbreitet. Allen Instrumenten gemeinsam ist der Aufbau mit zwei Manualen und Pedal analog einer einfachen Kirchenorgel. Das Obermanual wird als Swell, das Schwellwerk der Kirchenorgel, das Untermanual als Great, als Hauptwerk der Orgel bezeichnet. Zur Tonerzeugung rotieren metallene Tonräder mit einem gewellten Rand vor elektromagnetischen Tonabnehmern, für jeden Ton der Klaviatur ein Rad mit der Anzahl von Zähnen, die seiner Frequenz entspricht. Auf Grund der Form der Tonräder ergibt sich eine sinusähnliche Schwingung, die durch Filterschaltungen weiter geglättet wird, so dass praktisch eine Sinusform entsteht, die Wiedergabe erfolgt über einen Lautsprecher, meist in Verbindung mit einem Leslie-Kabinett, einem sich drehenden Lautsprechersystem, das durch den
2.2 Musikinstrumente
107
Doppler-Effekt den Klang in der für die Hammondorgel typischen Weise moduliert (siehe auch Kap. 6.6.6). Mellotron Das Mellotron ist ein elektromechanisches Tasteninstrument, das um 1960 erfunden wurde. Es arbeitet mit bespielten Tonbändern. Jeder Taste ist dazu ein eigener Tonbandstreifen zugeordnet, der auf Tastendruck abgespielt wird und z. B. originale Streicher- oder Bläsertöne enthalten kann. Das Mellotron ist ein charakteristisches Instrument des Progressive Rock der I 970er Jahre, es nimmt die Idee des Samplers vorweg. Clavinet Das Clavinet ist ein analoges, elektromechanisches Keyboard, der Klang ähnelt dem eines Cembalos. Es wurde besonders in den 1970er Jahren bei vielen Funk- und Rock-Aufnahmen eingesetzt. Das Instrument folgt dem Prinzip des Clavichords, einem bis ins 18. Jahrhundert verbreiteten Tasteninstrument. Es hat für jeden Ton eine stimmbare Saite, die an einem Ende bedämpft ist. Unter jeder Taste der Klaviatur befindet sich eine Tangente, die beim Drücken der Taste die Saite auf einen kleinen Block schlägt. Die Saite schwingt nun im ungedämpften Teil und wird dort über einen elektromagnetischen Tonabnehmer abgenommen. Nach Loslassen der Taste wird die gesamte Saite wieder bedämpft. Lautstärke und Charakter des Tons können durch die Anschlagstärke beeinflusst werden. Auf Grund der Anschlagsgeräusche entsteht ein charakteristischer Klangeinsatz, der von vielen Spielern erwünscht ist und als wichtiges Element des Klangs aufgefasst wird. Fender Rhodes-Piano und Wurlitzer-E-Piano Wie beim Clavinet werden über eine Klaviatur mechanische Schwingungen erzeugt, beim Fender Rhodes aber von Stäben, elektromagnetisch abgenommen, verstärkt und über Lautsprecher wiedergegeben. Beim Wurlitzer-E-Piano erfolgt die Tongebung durch Metallzungen, die eine Platte eines Kondensators darstellen. Die Instrumente werden nicht mehr hergestellt, fanden jedoch im Jazz, Funk, Pop u. a. der 1960er bis 1980er Jahre Verwendung. Der RhodesKlang ist wegen unharmonischer Oberschwingungen glockenähnlich, das Wurlitzer-Piano ist im Forte hart und durchsetzungsfähig, im Piano eher weich und dem Vibrafon ähnlich. E-Gitarre Die E-Gitarre gehört mit ihrer akustischen Klangerzeugung, aber elektrischen Verstärkung und Klangformung wie Hammondorgel und Clavinet zu den elektromechanischen Instrumenten, den sog. Elektrofonen. Zur E-Gitarre siehe Kap. 2.2.2. 2.2.4.2 Elektronische Klangerzeugung Um das komplexe Feld der modernen elektronischen Instrumente und Verfahren zu verstehen, kann man zwischen Klangsynthese und Klangveränderung oder -manipulation unterscheiden. Synthesemethoden stellen dabei Techniken dar, mit deren Hilfe Klänge elektronisch, d. h. heute, digital erzeugt werden, bei den Methoden der Klangveränderung handelt es sich um Strategien, vorhandene akustisch oder elektronisch erzeugte Klänge zu verän-
108
2 Schallquellen
dern. Für den Musiker ist es allerdings oft unerheblich, wie die Klänge tatsächlich erzeugt werden. Elektronische Klangerzeuger generieren Klänge, meist gesteuert durch eine Klaviatur, ein Keyboard, wie man bei elektronischen Instrumenten sagt, aber auch durch ein digitales Steuersignal, meist im MIDI-Format. Es gibt eine Reihe von Prinzipien zur Klangerzeugung, von denen hier nur die wichtigsten erläutert sind. Die vielfach angewandte subtraktive Synthese geht bereits von vorhandenen Sounds aus, die sie verändert, für den Musiker ist dies allerdings unerheblich. Bei den Verfahren der Klangveränderung im engeren Sinn kommen wieder akustisch bzw. mechanisch erstellte Klänge ins Spiel, die verändert werden. Zur Klangveränderung siehe insbesondere auch Kap. 6 6. Die wichtigsten Prinzipien der Klangerzeugung sind: Additive Synthese: Bei der additiven Synthese oder Fourier-Synthese wird das Klangspek trum aus einem Grundton und den dazu harmonischen Obertönen zusammengesetzt, also aus sinusförmigen Tönen mit Frequenzen, die ein Vielfaches der Grundfrequenz haben. Jedem Einzelton wird Amplitude, Frequenz und Phase zugewiesen; um die Klänge lebendiger zu machen, kann jeder Tonkomponente eine eigene Hüllkurve zugeordnet werden. Diese Synthese folgt dem Fourierschen Prinzip, wonach jede Gestalt einer periodischen Schwingung aus einzelnen Sinuskomponenten zusammengesetzt werden kann (siehe Kap. 1.1.2.3). Subharmonische Klangstrukturen: Natürliche Schallquellen wie akustische Instrumente erzeugen Töne, die in der Regel aus einem Grundton mit Obertönen bestehen, deren Frequenzen ganzzahlige Vielfache der Frequenz des Grundtons sind, sie sind sog. harmonische Teiltöne. Herkömmliche elektronische Klangerzeuger folgen in der Regel diesem Prinzip. Im Gegensatz dazu werden subharmonische Klangstrukturen durch ganzzahlige Frequenzteilungen aus dem Grundton abgeleitet, ihre Frequenzen betragen also 1/2, 1/3, 1/4 usw. der Frequenz des Grundtons und bilden die sog. Untertöne bzw. werden zu sog. subharmonischen Mixturen zusammengesetzt. Subharmonische Klangstrukturen weisen einen sehr eigenen, ungewohnten Klang auf, der so in der traditionellen akustischen Welt nicht vorkommt. Subharmonische Mixturen wurden um 1930 erstmalig von Trautwein mit seinem Mixturtrautonium realisiert, das später von Sala weiterentwickelt wurde. In den 1960er Jahren entstanden in Berlin verschiedene Nachbauten und Weiterentwicklungen solcher Instrumente, darunter das im Unterschied zum Trautonium auf einer normalen Klaviatur spielbare sog. Subharchord [Schreiber, 1964], das als einer der ersten Hybrid-Synthesizer, d. h., teils analog, teils digital arbeitende Klangerzeugung, betrachtet werden kann. Insgesamt hat sich das Prinzip der subharmonischen Klangstrukturen trotz seiner vielfältigen und interessanten Klangmöglichkeiten bisher jedoch nicht breit etablieren können. Physical Modeling: Diese Methode der Klangerzeugung versucht, den physikalischen Vorgang der Klangerzeugung selbst durch Algorithmen zu erfassen, für einen Streicherklang etwa wird die Saitenanregung durch den Bogen, die Schwingung der Saiten und die Funktion des Resonanzkörpers rechnerisch dargestellt. Dies kann von einfach bis sehr aufwändig geschehen. Zu diesem Verfahren wird auch die sog. Karplus-Strong-Synthese gezählt; dieser Algorithmus wird besonders zur Bildung von Klängen von Saiteninstrumenten benutzt. Als Ausgangsmaterial werden kurze Zeitabschnitte eines Geräuschs verwendet, die verändert und in der erforderlichen Anzahl pro Sekunde wieder zu einer periodischen Schwingung zusammengesetzt werden.
2.2 Musikinstrumente
109
Wavetable-Synthese: Man versteht unter dieser Synthese die Klangerzeugung auf der Basis fertiger, digitaler Schwingungsformen, die entweder durch additive oder subtraktive Nachbearbeitung geformt und zu Klängen verarbeitet werden. Diese Schwingungen liegen als fest abgespeicherte Zahlentabellen, sog. wavetables, im ROM-Speicher des Synthesizers vor. Das Verfahren braucht deutlich weniger Rechenleistung als z. B. Granularsynthese oder Physical Modeling. Subtraktive Synthese: Bei der subtraktiven Synthese geht man von sehr obertonreichen Wellenformen aus, z. B. einer sägezahnförmigen Schwingung, die alle Teiltöne enthält (siehe dazu auch Kap. 1.1.1.3). Mit einfacher oder mehrfacher Filterung werden bestimmte Teile des Spektrums entfernt. Das Filter kann von außen zeitabhängig steuerbar sein, damit es durch Modulationen, Hüllkurven o. a. lebendiger, echter wirkt. Dieses Verfahren ist auch analog gut realisierbar und gehört zu den ersten, vielfach angewandten Verfahren, stellt aber eigentlich ein Verfahren der Klangveränderung dar. 2.2.4.3 Verfahren der elektronischen Klangveränderung Eine Vielfalt von Verfahren wird für die Veränderung vorhandener Klänge oder Sounds angewendet, siehe dazu auch Kap. 6.2 bis 6.6: Amplitudenmodulation: Bei der Amplitudenmodulation oder AM z. B. einer Schwingung wird die Amplitude bzw. die Lautstärke periodisch durch eine zweite Schwingung verändert, indem die Schwingungen miteinander multipliziert werden, musikalisch ausgedrückt ist dies ein sog. Tremolo. Erfolgt die Modulation eines Sinustons ebenfalls durch einen Sinuston mit mehr als etwa 20 Hz, so werden mit den zwei Sinustönen mehrere weitere hörbare Teiltöne erzeugt. Dadurch entsteht aus einer Frequenz von z. B. 1 kHz und einer Modulationsfrequenz von 400 Hz ein Spektrum aus der Summe und der Differenz der beiden Frequenzen, also zusätzliche Sinustöne mit 600 und 1,4 kHz. Mit AM werden insbesondere komplexe Spektren verändert bzw. verzerrt. Analog wird eine AM realisiert, indem zwei Signale gemischt und über eine nichtlineare Kennlinie übertragen werden. Überträgt man einen einzelnen Sinuston über eine solche Kennlinie, so entstehen neue Töne mit dessen ganzzahligen Vielfachen. Frequenzmodulation: Bei der Frequenzmodulation oder FM, die analog mit einfachen Mitteln zu realisieren ist, wird eine Schwingung, allg. ein Klang durch eine zweite Schwingung in seiner Tonhöhe periodisch verstimmt, bei wenigen Frequenzänderungen pro Sekunde musikalisch ein Vibrato. Wird bei diesem Verfahren eine Schwingung mit einer Frequenz von mehr als 20 bis 30 Hz verstimmt, entstehen neue hörbare komplexe Schwingungen. Die FM wurde in den 1980er Jahren in der Popmusik zu einer mit Synthesizern häufig benutzten Methode. Sie ist allerdings eine schwer zu kontrollierende und in ihrer Wirkung kaum vorherzusagende Art der Klangveränderung. Phasenmodulation: Die in ihrer klanglichen Wirkung der Frequenzmodulation ähnliche Phasenmodulation oder PM wird bei den digitalen Verfahren der Klangbearbeitung bevorzugt; analog ist PM nur aufwändig zu realisieren. Die zu modulierende Schwingung wird dabei mit derselben Schwingung, deren Phase aber zwischen 0° und 180° schwingt, moduliert. Auch die Ergebnisse dieser Form der Modulation sind nicht einfach vorauszusehen.
110
2 Schallquellen
Granularsynthese: Bei diesem digitalen Verfahren wird eine komplexe Schwingung z B. von einem Instrument in viele sehr kurze Klangabschnitte zerschnitten, die dann über Rechenanweisungen, sog. Algorithmen, in Gestalt, Wiederholungsmustern und Reihenfolge verändert und neu zusammengesetzt werden. Die Granularsynthese ist wohl das radikalste Verfahren der Klangveränderung. Die Zeitabschnitte sind mit Werten unter 50 ms so kurz, dass sie nicht mehr als Impulse empfunden werden, sondern als Klangfarben. Die grains, also die Mikro-Klangabschnitte, können in vielfältigster Weise bearbeitet und verändert werden, wiederholt, gedreht, überlappt, vertauscht usw. Diese Technik eröffnet ungeahnte Möglichkeiten der Klangveränderung, besser Neugestaltung, das Verfahren besitzt ein großes kreatives Potential: Man kann einen Klang z. B. verlängern oder sehr stark aufrauen, ihm ein anderes Spektrum geben oder beliebige Veränderungen der Tonhöhen erstellen. Der resultierende Klang ist zwar abhängig von dem bearbeiteten Klang, jedoch sind die Gestaltungsmöglichkeiten der einzelnen grains so immens, so dass sich neue Klangkombinationen bzw. Klangstrukturen ergeben. Dies macht die Granularsynthese praktisch zu einem Verfahren der Klangerzeugung, nicht nur Klangveränderung. Wave Sequencing: Das Verfahren beruht wie die Granularsynthese auf einem Zerschneiden eines Schwingungsverlaufs und anschließendes Bearbeiten der Zeitabschnitte, diese sind hier jedoch länger. Beim Sampling sind sie lang genug, dass der Klang der gesampelten Schwingung erhalten bleibt. Phase-Vocoder: Der Phase-Vocoder wurde 1965 von Flanagan und Golden entwickelt. Wie der Name schon sagt, ist der Phase-Vocoder eine Art Vocoder (siehe Kap. 6.6.7), d. h., ein Gerät zur Ver- und Entschlüsselung von Stimmen. Phase-Vocoder funktionieren allgemein gesagt wie eine Filterbank, bei der die Filter in Reihe geschaltet sind und jedes Filter einen bestimmten Bereich der Frequenzen herausfiltert und deren Lautstärke ermittelt. Die Daten der Lautstärke und Frequenz der einzelnen Frequenzbänder werden zur Resynthese eines Klangs benutzt. Dadurch wird der Klang wieder neu zusammengesetzt. Man ersetzt einen Klang durch einen anderen, wobei wesentliche Klangeigenschaften und zeitliche Strukturen erhalten bleiben. Filtert man im Vocoder z. B. Sprache und setzt bei der Resynthese an die Stelle der Oszillatoren einen Bläserakkord, so kann man diesen Akkord sprechen oder singen lassen. Der Phase-Vocoder kann auch Übergänge zwischen verschiedenen Klängen erzeugen: eine Stimme kann langsam in einen Flötenton übergehen, das sog. Morphing, oder es kann eine Zeitkompression oder Zeitdehnung erzielt werden, ohne das Spektrum zu verändern, man kann einen Titel beschleunigen, ohne seine Tonhöhen zu verändern. Ringmodulator: Mit der Ringmodulation lassen sich unharmonische Obertonspektren erzeugen, metallische Klänge, siehe Kap. 6.6.5. Transitional Synthesis: Rechnerisch wird durch Interpolieren ein fließender Übergang zwischen zwei ähnlichen Ereignissen gestaltet. Direct Digital Synthesis: Ein Computer rechnet das digitale Material vorhandener Schwingungsformen nach bestimmten Rechenvorschriften um, wodurch neue Klänge entstehen. Composite Synthesis: Bei diesem Verfahren mischt man künstlich erzeugte und natürliche Klänge in Form von Samples zu einem neuen Klang.
2.2 Musikinstrumente
111
2.2.4.4 Klangsteuerung durch MIDI Die Weiterverarbeitung von Klängen zu kompletten Musikstücken oder Titeln kann entweder live erfolgen, d. h., die Interpretation und die Wiedergabe über Lautsprecher sind zeitgleich, oder ein Titel wird produziert, die Wiedergabe erfolgt dann stets von einem Tonspeicher zu einem anderen Zeitpunkt. Für die Aufnahme, Speicherung und Steuerung von elektronischen Musikinstrumenten und die Bearbeitung von elektronischen oder akustischen Klängen werden einige Geräte oder Softwaremodule benutzt, die hier nur kurz definiert werden. Für die digitale Musikproduktion selbst wird auf die Literatur verwiesen, z. B. [Bremm, 2004, 2007], [Conrad, 2012], [Hömberg, 2010]. MIDI MIDI, eine digitale Schnittstelle für MIDI-fähige Musikinstrumente, abgekürzt aus Musical Instrument Digital Interface, ist ein Datenübertragungsprotokoll für die Übermittlung, Aufzeichnung und Wiedergabe von umfassenden Steuerinformationen zur Klangerzeugung bzw. Musikproduktion zwischen Geräten, Keyboards, Instrumenten, Computern, Regiekonsolen u. a. Neben elementaren Befehlen zu einzelnen Tönen wie Tonhöhe, Dauer, Beginn und Ende, Informationen zur Einhüllenden u. a. werden auch weitere komplexe und spezielle Befehle übermittelt. MIDI wurde erstmals 1983 vorgestellt als nicht patentierter Industrie-Standard, heute als Open-Source-Software bezeichnet, was eine schnelle Verbreitung und Akzeptanz auslöste. Die Möglichkeit, MIDI-Daten mit Computern zu bearbeiten, war die Grundlage des sog. Homerecording, also der elektronischen und akustischen Musikproduktion im nicht professionellen Bereich, vor allem durch die Musiker selbst. MIDI ist eine Übereinkunft zwischen Firmen, kein international normierter Standard, sondern ein Industrie-Standard der MIDI Manufactures Association. MIDI beherrscht den Markt der musikalischen Unterhaltungsindustrie. MIDI arbeitet nur mit Steuerfunktionen, es kann keine dem Original klanglich folgende Wiedergabe bieten, diese liefern die gesteuerten Instrumente. MIDI ist also kein Audioformat; insofern kann man einen MIDI-Datensatz mit den Informationen einer Notenpartitur für Klavier vergleichen. Das Format wird von sehr vielen elektronischen Instrumenten und Soundkarten, Drum-Computern, aber auch Effektgeräten jeglicher Art unterstützt, des Weiteren von Lichtanlagen, über Konverter auch von akustischen Instrumenten wie E-Gitarren. Die MIDI-Schnittstelle ist eine serielle Schnittstelle mit einer Übertragungsrate von 31,25 kBaud, also eine relativ langsame Schnittstelle, was bei komplexen Zusammenschaltungen zu hörbaren Verzögerungen führen kann. Mit vier verschiedenen Modes wird die Zuordnung der Stimmen und der MIDI-Kanäle (Channels) festgelegt. Der MIDI-Standard setzt voraus, dass alle MIDI-fähigen Geräte MIDI-Anschlussbuchsen haben, sie entsprechen den 5-poligen Stereo-DIN-Buchsen, sind aber anders beschaltet. In der Regel haben die Geräte drei Buchsen: MIDI-IN für den Datenempfang, MIDI-OUT für den Datenexport und MIDI-THRU (= Through) für die Durchschaltung der Daten. Die Verkabelung erfolgt über MIDI-Kabel, die nach dem MIDI-Standart beschaltet sind. Es gilt die Steckrichtung: OUT nach IN, IN nach OUT, THRU nach IN. Um MIDI-Instrumente mit einem Computer ansteuern zu können, muss der Computer mit einem MIDI-Interface ausgerüstet sein. Moderne Soundkarten haben eine MIDISchnittstelle. MIDI-Files sind komplett arrangierte Songs für Keyboards. MIDI-Files sind
112
2 Schallquellen
quasi Playbacks, sie geben die Instrumente eines Musikstücks komplett wieder mit Schlagzeug, Gitarre, Bass, Keyboard usw. Ein Song im MIDI-Format kann in Tempo, Tonhöhe, In strumente u. a. verändert werden. Jedes einzelne Instrument kann ein- und ausgeschaltet werden. Es hat sich ein Markt für MIDI-Files gebildet. MIDI-Standard 1983 legt die MMA (MIDI Manufacturers Association) die Vorschriften für die MIDI-Hard- und -Software in der MIDI-Spezifikation fest. Um die Einhaltung dieser Spezifikation zu überwachen, wird die Internationale MIDI-Association (IMA) gegründet. 1990 erfolgt die Einigung auf ein Standard-MIDI-File-Format (SMF). Dieser Standard gewährleistet, dass alle abgespeicherten Musikstücke auch auf verschiedene Computertypen geladen und in allen Musikprogrammen bearbeitet werden können. Es gibt bei diesen Files das Format 0, bei dem alle Daten auf einer Spur (Track) zusammengefasst sind, und das Standardformat 1, bei dem die Daten von bis zu 16 Kanälen unabhängig voneinander eine eigene Spur haben. [Stotz, 2019] 1991 wird der General-MIDI-Standard (GM-Standard) vereinbart. Er wird benötigt, wenn man fertige Musikstücke im MIDI-File-Format abspielen oder die MIDI-Files weitergeben will. Er ist mindestens 24-stimmig und gewährleistet, dass die einzelnen Klänge von einem Instrument derselben Art wiedergegeben werden, d. h., ein Klavierpart wird nur von einem Klavierklang gespielt. 127 Instrumente sind Klangnummern zugeordnet. Dazu gibt es weitere 16 Spuren bzw. Kanäle. Nachdem sich das grundlegende Konzept des GM-Standards bewährt hat, kommt es 1994 zu den firmenspezifischen Erweiterungen GS und XG; XG z. B. ist mindestens 32-stimmig, beinhaltet 676 Instrumente, zusätzliche Drum-Sets und ermöglicht flexiblere Effekte z. B. für Hall. GS und XG sind zu GM abwärtskompatibel. MIDI-Komponenten Masterkeyboard: Ein Masterkeyboard ist eine Klaviatur zur Erzeugung von MIDI-Steuerdaten ohne eigene Klangerzeugung. Es kann an beliebige MIDI-fähige Instrumente, z. B. einen Sampler oder Synthesizer zur direkten Klangansteuerung angeschlossen werden oder an einen MIDI-Sequenzer zur Aufzeichnung von MIDI-Befehlen. Professionelle Masterkeyboards verfügen über eine dem Klavier ähnliche mechanische Klaviatur sowie weitere Spielhilfen und Steuerfunktionen. Neben einem MIDI-Ausgang ist u. U. auch ein USB-Ausgang vorhanden. Masterkeyboard-Funktionen haben meist auch Digitalpianos und andere Instrumente mit Keyboard. Sampler: Der Sampler ist ein elektronisches Musikinstrument, das Töne elektronischer oder akustischer Herkunft aufnimmt, digitalisiert und als Samples in einer Audiodatei z. B. auf einer Festplatte speichert. Über ein Masterkeyboard oder eine MIDI-Steuerung können diese Daten über einen Prozessor in jeder gewünschten Tonhöhe wiedergegeben werden. Hardwaresampler sind im Prinzip spezialisierte PCs, Softwaresampler sind Computerprogramme, die zusätzlich mit A/D- und D/A-Wandlern und Soundkarten arbeiten. Professionelle Sampler verfügen über eine größere Zahl klangformender Komponenten wie Filter und Effekte, was sie dann im Prinzip zu Synthesizern macht. Da die Aufnahme und der Schnitt von Samples relativ aufwändig sind, greifen Musiker vielfach auf fertige Sample-Libraries
2.2 Musikinstrumente
113
z. B. auf CD oder im Internet zurück oder sampeln Töne aus vorhandenen Aufnahmen. Sampler ohne Aufnahmemöglichkeit werden als ROM-Sampler oder Rompler bezeichnet. Sequenzer: Der Sequenzer ist ein Computer zur Speicherung, Bearbeitung und Ausgabe von Steuerdaten für Klangerzeuger, z. B. Synthesizer, Sampler oder elektronische Instrumente. Beim MIDI-Sequenzer sind die Steuerdateien als MIDI-Dateien vorhanden und steuern alle wichtigen Eigenschaften eines musikalischen Tons wie Zeitpunkt des Beginns, Dauer, Lautstärke und Zuweisung des Klangerzeugers. Die erklingenden Noten können über ein Masterkeyboard in Echtzeit gespielt oder über einen PC editiert werden. Synthesizer, Workstations und PCs: Die einzelnen Geräte, Instrumente oder Softwareprogramme haben mit jeder Generation immer neue Fähigkeiten erhalten, so dass zwischen den genannten Komponenten die Grenzen immer offener werden. Ein entsprechend ausgestatteter PC kann bei entsprechender Leistungsfähigkeit mit einem Masterkeyboard alle Funktionen für eine Musikproduktion übernehmen. Die digitale Audio-Workstation (DAW, AWS) ist ein spezialisierter Computer, der für andere Aufgaben nicht zur Verfügung steht. Begriffe der Hüllkurvensteuerung: Zu den Begriffen, die bei der Ton- und Klanggestaltung verwendet werden (Tab. 2/6 und Kap. 6), kommen bei elektronischen Instrumenten und Verfahren Begriffe der Steuerung der Hüllkurve (Abb. 2/23) hinzu.
Abb. 2/23. Begriffe der Hüllkurvensteuerung.
114
2 Schallquellen
Tab. 2/6. Einige Begriffe der Klangsteuerung. Abkürzungen
Begriffe englisch
Begriffe deutsch
ADSR
attack-decay-sustain-release, auch: envelope generator band-pass hight-pass low frequency oscillator low-pass voltage controlled wave form
Hüllkurvengenerator (siehe Abb. 2.23)
BP HP LFO LP VCW
Bandpass Hochpass Tieffrequenzgenerator Tiefpass spannungsgesteuerte Schwingungsform
2.2.4.5 Keyboards und Rhythmusgeräte Die genannten Verfahren der Synthese, Bearbeitung und Speicherung werden in autarken Tasteninstrumenten, sog. Keyboards, bzw. Geräten mit besonderen Aufgaben angewendet. Deren Fähigkeiten sind sehr unterschiedlich, es gibt spezialisierte Keyboards mit besonderen Bezeichnungen, von denen nachfolgend einige genannt sind, es gibt universelle Keyboards, die Grenzen sind fließend; auch zwischen professionellen und nicht professionellen Geräten. Zudem werden mit jeder neuen Gerätegeneration neue Features eingeführt. Oft werden die Geräte mit ihrer Typenbezeichnung und/oder dem Hersteller benannt, um Klarheit zu haben. Im einfachsten Fall dienen Keyboards nur der Klangerzeugung mit akustischer Kontrolle über Kopfhörer. Zu selbständigen Instrumenten werden sie mit integriertem oder angeschlossenem Audioverstärker und Lautsprechern. Keyboards werden im Allgemeinen direkt, nicht über Mikrofon aufgenommen (Direct Injection). Um die Sicherheit auch bei fehlerhaften Geräten zu gewährleisten, muss die Verbindung der Geräte mit Erde unterbrochen werden. Entweder werden die Geräte über Trenntransformatoren am 230 V-Netz angeschlossen oder die Leitungen über Trennmodule für Tonsignale, sog. DI-Boxen (siehe Kap. 8.6). Ein Leslie-Kabinett muss immer mit Mikrofon abgenommen werden. Man kann folgende Instrumentengruppen unterscheiden: Elektronische Pianos Aus dem Wunsch, Klaviere oder Flügel elektronisch nachzubilden, wurden zunächst eine Reihe elektromechanischer Instrumente entwickelt, einige davon sind in Kap. 2.2.4.1 genannt. Hybrid-Pianos sind mechanische Klavierinstrumente mit kürzeren Saiten und teils ohne Resonanzkörper, die elektrisch verstärkt werden, teils auch zusätzlich komplette E-Pianos enthalten. Dem Ziel, den Klavierklang nachzubilden, kommen aber erst seit den 1990er Jahren E-Pianos und E-Flügel mit Sampleplayern nach, d. h., es werden real aufgenommene Klavierklänge abgespielt, die Instrumente verfügen in der Regel auch über MIDI-Steuerungen. Stage-Pianos sind Instrumente ohne eingebauten Lautsprecher oder nur einem kleinen Kontrollmonitor. Digital- oder E-Pianos und E-Flügel sind also auf den Klavierklang spezialisierte Keyboards oder Synthesizer. Sie können auch weitere Sounds enthalten, zusätzlich Begleitrhythmen, Begleitautomatik und weitere Funktionen. Piano-Workstations sind sehr umfassend ausgestattete Instrumente.
Literatur
115
E-Orgeln und Sakralorgeln Wie sich das E-Piano aus der Nachahmung des Klavierklangs entwickelt hat, hat die Eoder Digitalorgel ihren Ursprung in der Kirchenorgel. Ein bis drei Manuale, ein Pedal für die Bassstimme, gesampelte Einzelstimmen von Orgelaufnahmen, sog. Register, die zu sog. Dispositionen oder Werken zusammengefügt werden können. Dazu kommen Nachhall und ein breites Spektrum weiterer Klangeffekte. Die kleinsten Varianten aus nur einem Keyboard bestehend, sind die E-Orgel oder Keyboard-Orgel. Heimorgeln, Sakralorgeln und Konzertorgeln sind die leistungsfähigen Varianten. Drum-Computer, Drum Machine, Groovebox und E-Schlagzeug Hierbei handelt es sich um Geräte zur Erzeugung der perkussiven Klänge eines Schlagzeugs und kompletter Rhythmen, entweder analog oder digital aus Samples. Angesteuert werden die Geräte entweder über MIDI oder ein anderes Interface, über eingebaute Pattern-Sequenzer oder Drum-Pads, ein elektronisches Schlagzeug. Der Drum-Computer liefert meist komplette Rhythmusmuster, sog. Styles, die auf bis zu acht Spuren ein akustisches Schlagzeug ersetzen. Ausgelöst wird ein Rhythmus z. B. durch die linke Hand des Keyboarders über eine Einzeltaste oder einen Akkord. Das E-Schlagzeug wird wie ein akustisches Schlagzeug gespielt, erzeugt aber z. B. MIDI-Signale ähnlich der Funktionsweise des Masterkeyboards, die Schlaginstrumente sind hier durch Schlagflächen, sog. Pads ersetzt. Grooveboxen sind umfangreich ausgestattete Kombinationen aus Sampler oder ROM-Sampler, Synthesizer, Sequenzer und Drum-Computer, bis hin zu eigenständigen Geräten zur Musikproduktion.
Standards [DIN 1311] [DIN 1317] [DIN 1320] [DIN 13320] [DIN 45630] [DIN EN 61260l [DIN EN IEC 60268-16] [ISO 16]
Schwingungen und schwingungsfähige Systeme, Tl. 1: Grundbegriffe Norm-Stimmton Akustik; Begriffe Akustik; Spektren und Übertragungskurven,Begriffe, Darstellung Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall Bl. 2: Normalkurven gleicher Lautstärkepegel Eektroakustik — Bandfilter für Oktaven und Bruchteile von Oktaven (IEC 61260) Elektroakustische Geräte, Teil 16: Objektive Bewertung der Sprachverständlichkeit durch den Sprachübertragungsindex Acoustics — Standard tuning frequency (Standard musical pitch)
Literatur [Albrecht, 2017 [Bahnert, 2003] [Baines, 2010]
Albrecht, C.: Der Tonmeister, 2. Aufl., 2017, Schiele & Schön] Bahnert, H., Herzberg, Th. und Schramm, H.: Metallblasinstrumente. Handbuch für Musiker und Instrumentenbauer, 2003, Noetzel Baines, A., Elste, M.: Lexikon der Musikinstrumente, 2010, J. B. Metzler
116
2 Schallquellen
[Bisping, 1990] Bisping, R., van der Velden, U. und Wingartz, P.: „Welche Frequenzbereiche im Stimmspektrum sind für die Übermittlung menschlicher Emotionen von besonderer Bedeutung?“, in: Bericht 16. Tonmeistertagung 1990, S. 329ff., 1991, Saur [Bremm, 2004] Bremm, P.: Das digitale Tonstudio. Praktische Hilfe zur digitalen Tonstudiotechnik, 2004, PPV Medien [Bremm, 2007] Bremm, P.: Das Digitale Tonstudio. Technische Grundlagen der Musikproduktion, mit dem Computer, 2. Auflage, 2007, PPV Medien [Conrad, 2012] Conrad, J.-F.: Recording. Einführung in die Technik der Musikproduktion, 7. Aufl., 2012, PPV Medien [Cremer, 1998] Cremer, L.: Physik der Geige, 1998, Hirzel [Dickreiter, 2007] Dickreiter, M.: Musikinstrumente. Moderne Instrumente, Historische Instrumente. Klangakustik, 7. Aufl. 2007, Bärenreiter [Fletcher, 1998] Fletcher, N. H. und Rossing Th. D.: The Physics of Musical Instruments, 2. Aufl. 1998, Springer [Forss, 2007] Forss, C.-J.: Piano- und Flügelstimmung, 2007, Bochinsky [Hömberg, 2010] Hömberg, M.: Recording Basics, 3. Aufl. 2010, PPV Medien [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal [Legenstein, 2014] LLegenstein, M. M.: Der emotionale Ausdruck der Stimme: Die akustischen Merkmale von Emotionen, 2014, AV Akademieverlag [Leonhardt, 1997] Leonhardt, K.: Geigenbau und Klangfrage, 3. Aufl. 1997, Bochinsky [Marinovici, 2008] Marinovici, C.: Musikinstrumentenkunde. Von der Klassik zur Elektronik, 2008, Leu [Meyer, 1990] Meyer, J.: „Zur Dynamik und Schalleistung von Orchesterinstrumenten“, in: Acustica 1990, S. 277ff. [Meyer, 1992] Meyer, J.: Physikalische Aspekte des Geigenspiels, 2. Aufl., 1992, Respublica [Meyer, 2015] Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, PPV Medien [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Schreiber, 1964] Schreiber, E.: „Ein neuartiger elektronischer Klang- und Geräusch erzeuger“, in: OIRT-Zeitschrift Rundfunk u. Fernsehen, Prag 1964, H.2 [Seidner, 2010] Seidner, W. und Wendler, J.: Die Sängerstimme. Phoniatrische Grundlagen des Gesangs, 2010, Henschel [Stotz, 2019] Stotz, D.: Computergestützte Audio- und Videotechnik. Multimediatechnik in der Anwendung, 3. Aufl. 2019. Springer Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer [Wackernagel, 2005] Wackernagel, B.: Holzblasinstrumente, 2005, Schneider [Weinzierl, 2014] Akustische Grundlagen der Musik, 2014, Laaber
3 Schallwahrnehmung Michael Dickreiter, Jürgen Goeres-Petry (3.1) 3.1 Das Gehör Das Ohr ist sowohl ein Sinnesorgan für die Wahrnehmung von Schall als auch ein Gleichgewichtsorgan. Es gliedert sich physiologisch in das Außenohr, das Mittelohr und das Innenohr. Abb. 3/1 zeigt einen Schnitt, Abb. 3/2 schematisch den Aufbau. Als Gehör umfasst es außer dem physiologischen Organ auch die nervliche Verarbeitung der Sinneseindrücke, dem Schallereignis, und seiner Bewusstwerdung als Hörereignis. [Hartmann, 1998], [Hellbrück, 2004], [Fastl, 2007], [Howard, 2017]
Abb. 3/1. Schnitt durch das menschliche Ohr.
3.1.1 Außenohr Das Außenohr dient der Schallankopplung des Ohrs an das umgebende Schalleld und der Umwandlung der Luftschwingungen in mechanische Schwingungen. Es besteht aus der Ohrmuschel und dem äußeren Gehörgang, dem Ohrkanal. Die zahlreichen Erhebungen und Vertiefungen der Ohrmuschel bilden akustische Resonatoren, die jeweils unterschiedlich bei Schalleinfall aus verschiedenen Richtungen angeregt werden. Hierdurch entstehen richtungsabhängig unterschiedliche Spektren mit spezifischen Minima und Maxima, die vom Gehör zur Bestimmung der Einfallsrichtungen des Schalls genutzt werden. Der äußere Gehörgang ist ein mit Haut ausgekleidetes, knorpeliges Rohr von etwa 3 bis 4 cm Länge und https://doi.org/10.1515/9783110759921-003
118
3 Schallwahrnehmung
5 bis 10 mm Durchmesser. Er ist über das Trommelfell mit dem Mittelohr verbunden; das Trommelfell wandelt wie die Membran eines Mikrofons den Luftschall zur Weiterverarbeitung in mechanische Schwingungen um. Das äußere Ohr enthält außerdem sog. Ohrschmalzdrüsen, die ein hellgelbes Sekret liefern, und Talgdrüsen, die das eigentliche Ohrenschmalz, das Cerumen, produzieren. Das Ohrenschmalz übt eine Schutzfunktion gegenüber äußeren Einflüssen aus und verhindert das Eindringen von Verunreinigungen und Krankheitserregern. Ohrenschmalz kann jedoch die Schallleitung beeinträchtigen und muss gegebenenfalls entfernt werden.
Abb. 3/2. Aufbaus des menschlichen Ohrs.
3.1.2 Mittelohr Zum Mittelohr gehören das Trommelfell, die Gehörknöchelchen, bestehend aus Hammer, Amboss und Steigbügel, das ovale Fenster und die Eustachische Röhre, auch Ohrtrompete oder Paukengang genannt. Die Knöchelchen des Mittelohrs übertragen die Bewegung des Trommelfells auf das ovale Fenster, dieses bildet die Verbindung zwischen Mittel- und Innenohr. Die Knöchelkette wirkt dabei als Drucktransformator bzw. Impedanzwandler. Der auf das ovale Fenster übertragene Druck ist bei kleinerer Membranauslenkung des ovalen Fensters wesentlich größer als der Schalldruck, der auf das Trommelfell einwirkt; umgekehrt wird die Membranauslenkung entsprechend reduziert. Das Mittelohr ist luftgefüllt; über die Eustachische Röhre, die sich beim Schlucken öffnet, findet ständig ein Luftdruckausgleich zwischen Mittelohr und Außenluft statt. Luftdruckdifferenzen zwischen Außen- und Mittelohr, verursacht z. B. durch einen Verschluss der Eustachischen Röhre, drücken auf das Trommelfell und können zu schmerzhaft „geschlossenen Ohren“ führen.
3.1.3 Innenohr Das spiralförmige Innenohr besteht aus der Gehörschnecke, der cochlea, in der der Schall in Nervenimpulse umgesetzt wird, und dem Labyrinth, auch Bogengänge genannt, die unser Gleichgewichtsorgan darstellen. Gehörschnecke und Labyrinth sind ähnlich strukturiert:
3.1 Das Gehör
119
Beide sind mit einer Flüssigkeit gefüllt und besitzen Haarzellen, bei denen feine Härchen in die Flüssigkeit hineinreichen. Hier im Innenohr erfolgt die eigentliche Umwandlung von Körperschall in Nervenimpulse, die zum Gehirn weitergeleitet werden. Das Cortische Organ liegt innerhalb der knöchernen Schnecke, der cochlea, und ist ein mit Endolymphe gefüllter Schlauch. Es ist die Schnittstelle zwischen den akustischmechanischen Schwingungen und den elektrischen Nervensignalen in der Hörschnecke. Der Innenraum der Schnecke wird von drei parallelen Kanälen gebildet, die zur Schneckenform gebogen sind. Diese Kanäle heißen scala tympani oder Paukentreppe, ductus cochlearis oder Schneckengang und scala vestibuli oder Vorhoftreppe. Sie sind teils durch zwei Membranen, die Reissnersche Membran und die Basilarmembran, voneinander getrennt sowie teils durch eine dünne Trennwand (Abb. 3/2). Die Reissnersche Membran liegt zwischen der scala media und der scala vestibuli. Die zweite Trennung erfolgt durch die Basilarmembran. Man kann sich die Basilarmembran als eine über einen weiten Frequenzbereich gestimmte Harfe vorstellen. Die kurzen, straffen Saiten für hohe Töne bis 20 kHz liegen in der Nähe der Fenster am Beginn der cochlea, die langen, weichen Saiten für tiefe Töne bis 16 Hz hinunter liegen nahe dem helikotrema am Ende der cochlea. Die Basilarmembran ist etwa 33 mm lang, am Ovalen Fenster etwa 0,1 mm breit und hart, beim helicotrema am hinteren Ende etwa 0,5 mm breit und weich. Die eigentliche Wandlung von Schall in Nervenimpulse erfolgt im Cortischen Organ, das auf der Basilarmembran sitzt. Es enthält innere und äußere Haarzellen sowie Stützzellen und eine Deckmembran. Durch Wellenbewegungen der Flüssigkeit werden die Haarzellen gebogen und lösen dabei Nervenimpulse aus. Die v-förmig angeordneten sog. Zilien, Flimmerhärchen, auf den äußeren Haarzellen sind Proportional-Rezeptoren und Intensitätsdetektoren, die linienförmig angeordneten Zilien der inneren Haarzellen fungieren dabei als Differential-Rezeptoren und Geschwindigkeitsdetektoren. Die inneren Haarzellen sind die eigentlichen Rezeptoren für die auditive Sinnesübertragung, ca. 95 % aller Hörnervenfasern entspringen dort. Am unteren Ende des Cortischen Organs befindet sich eine Synapse mit einem sensorischen Neuron. Diese schüttet schon im Ruhezustand Neurotransmitter aus, die die Informationen von einer Nervenzelle zur anderen über die Kontaktstelle der Nervenzellen, der Synapse, weitergeben. Wird nun der Haarfortsatz ausgelenkt, vermehrt sich die Menge der Neurotransmitter. Von der Gehörschnecke leitet der Hörnerv schließlich die Signale zum Gehirn, wo die Schallereignisse am Trommelfell als Hörereignisse ins Bewusstsein treten. In der cochlea werden Klänge und Sprache mittels eines der Fourier-Analyse vergleichbaren Prozesses aus der Wanderwelle selektiert, in ihre einzelnen Tonfrequenzen zerlegt (siehe Kap. 1.1.2.3) und an verschiedenen Orten nebeneinander repräsentiert. Bei dieser Zerlegung werden die einzelnen Frequenzkomponenten der Schallwelle so stark verstärkt, dass einzelne Tonhöhen unterschieden werden können; man spricht hier auch von dem cochlearen Verstärker. Grundlage der Verstärkung ist die große Beweglichkeit der äußeren Haarzellen, die Schwingungen mit bis zu 20 kHz folgen können und die Wanderwelle bis 1.000-fach verstärken. Das passive Mitschwingen der Basilarmembran mit ihrer vom runden Fenster zum helicotrema abnehmenden Steife und zunehmenden Masse und die sich ortsspezifisch ausbildenden Schwingungsmaxima der Wanderwelle erklären aber allein nicht die hohe Selektivität der Tonhöhe und den hohen Dynamikumfang der Schallwahrnehmung. Das Schallintensitätsverhältnis beträgt bis zu 1 : 10.000.000 oder 140 dB.
120
3 Schallwahrnehmung
Die äußeren Haarzellen spielen bei diesem Prozess eine ebenso aktive Rolle, vergleichbar einem elektrischen Verstärker; unter Einsatz neuronaler Energiequellen wird dieser Prozess vom Gehirn gesteuert. Die äußeren Haarzellen können sich bei Anregung zusammenziehen oder verlängern, synchron zu den Reizen und damit ortsspezifische Bewegungen ausführen. Diese Auslenkungen der Membran verstärken z. B. bei sehr leisen Tönen das Signal um das 100-fache, wohingegen bei sehr lauten Tönen durch diesen aktiven Prozess die Amplitude der Schwingungen gedämpft wird. Dies schützt die Membran vor mechanischem Zerreißen oder generell vor Überlastung.
3.2 Schallereignis und Hörereignis Eine Schallwelle, die auf das Ohr trifft, ist eindeutig physikalisch definierbar. Ein Sinuston z. B. hat eine eindeutig bestimmbare Frequenz, Dauer, Einfallsrichtung und einen eindeutig bestimmbaren Schalldruckpegel. Dieses Schallereignis trifft als Reiz auf das Ohr, wandert durch das komplizierte mechanische System des Ohrs und wird schließlich als elektrisches Signal, ähnlich einem Digitalsignal, durch die Nervenbahnen, Schaltstellen und Nervenzentren zum Gehirn geleitet. Erst jetzt wird uns der Reiz als Hörereignis, als Empfindung, bewusst. Diese Empfindung kann aber nicht mehr durch die physikalischen Größen des Schallereignisses beschrieben werden, da Empfindungen keine physikalischen Größen sind und somit nicht mit physikalischen Messmethoden unmittelbar erfassbar sind. Wir wissen auch, dass bereits bei der mechanischen Reizweiterleitung im Mittel- und Innenohr die Reizgestalt verändert wird. Ein Sinuston z. B. erhält zusätzliche Obertöne, er wird verzerrt. In den Nervenzellen wird der Reiz in ganz anderer Gestalt, nämlich als Folge von Impulsen weitergeleitet. Eine weitere Komplikation ergibt sich daraus, dass zwar die Größen des Schallereignisses voneinander unabhängig messbar sind, beim Hörereignis hängt aber z. B. die empfundene Tonhöhe des Sinustons zwar hauptsächlich von der Frequenz, aber außerdem auch von der Dauer und dem Schalldruckpegel des Schallereignisses ab. Der Zusammenhang von Schallereignis, dem Reiz, und Hörereignis, der Empfindung, ist also komplex, beide Größen können nicht gleichgesetzt werden. Mit den Zusammenhängen von Reizen und Empfindungen befasst sich die Psychoakustik. Um über das Hörereignis gültige Angaben machen zu können, können nur die Aussagen von Versuchspersonen ausgewertet werden. Diese sind aber zunächst ganz allgemein: ein Hörereignis ist laut oder leise, meist werden sogar Ausdrücke aus anderen Sinnesbereichen verwendet wie hell, dunkel, schwach, spitz usw. Diese Worte sind ungenau. Man möchte den Zusammenhang von Reiz und Empfindung genauer, möglichst durch Kurven angeben. Dies ist tatsächlich möglich, weil eine Versuchsperson ihre Aufmerksamkeit auf einzelne Komponenten des Hörereignisses richten kann. Sie kann z. B. die Lautheit zweier verschieden langer oder hoher Töne vergleichen, weil ein geübtes Gehör in der Lage ist, Tondauer und Tonhöhe bei der Beurteilung der Lautheit weitgehend unberücksichtigt zu lassen. Diese Komponenten der Empfindung, auf die man achten und die man getrennt von den anderen Komponenten beurteilen kann, sind die sog. Empfindungsgrößen, wie z. B. eben Lautheit, Rauigkeit oder Tonhöhe. Sie erhalten wie die Reizgrößen eine Einheit, besser gesagt eine Hilfs- oder Pseudoeinheit, die Lautheit z. B. das Sone. Jede Empfindungsgröße kann nun durch eine Kurve in ihrer Abhängigkeit von jeweils einer Reizgröße beschrieben werden. So kann man die Empfindungsgröße Tonhöhe
3.3 Eigenschaften der Schallwahrnehmung
121
in Abhängigkeit von den Reizgrößen Frequenz, Schalldruckpegel oder Schalldauer angeben. Dabei müssen die jeweils unberücksichtigten Reizgrößen konstant gehalten werden. Betrachten wir am Beispiel der Empfindungsgröße Lautheit, die in erster Linie vom Schalldruckpegel bestimmt wird, wie Empfindungsgrößen definiert und mit Einheiten versehen werden können (Genaueres hierzu siehe unten). Weitere Zuverlässigkeit und Genauigkeit erhalten solche Angaben noch, indem man die Aussagen vieler Versuchspersonen statistisch auswertet. Will man z. B. die Lautheit eines Tons messen, so hält man bei allen Versuchen die Reizkomponenten Frequenz und Dauer konstant, z. B. die Frequenz bei 1.000 Hz und die Dauer bei 1,0 s. Dem Ton mit dem Schalldruckpegel L = 40 dB schreibt man nun für diese Frequenz und Dauer willkürlich die Lautheit S = 1 Sone zu. Nach wiederholter Verdopplung und Halbierung der Lautheit durch Verändern des Schalldruckpegels erhält man die Lautheit des 1.000 Hz-Tons für eine so große Zahl von Schalldruckpegeln, dass man schließlich die Abhängigkeit zwischen Reizgröße L in dB und Empfindungsgröße S in Sone als stetige Kurve angeben kann (siehe Abb. 3/6). Besonders Aussagen über die Verdopplung oder Halbierung einer Empfindungsgröße zu machen, gelingt relativ einfach und zuverlässig. Die unten dargelegten Beziehungen von Reizgrößen und Empfindungsgrößen wurden bei Versuchen in einem objektivierten, wissenschaftlichen Klima meist mit Sinustönen oder Rauschen, gewonnen. Diese Hörbedingungen und Schallereignisse sind andere als wir sie z. B. beim Hören von Musik vorfinden. Denn ein Ton in einem Musikstück hat nicht nur Lautheit, Dauer, Klangfarbe und Tonhöhe, sondern ist auch musikalischer Sinnträger. Er hat eine bestimmte Stellung in der Melodie oder Harmonie, oder er ist Träger eines Wortes und einer Emotion. Weiterhin kann dieser Ton auch Teil eines lästigen Geräuschs sein. Diese verschiedenen Sinnfunktionen, die ein Ton annehmen kann, beeinflussen natürlich die Hörempfindung zusätzlich. Sie sind aber so komplex, dass sie nicht auf dieselbe Weise wie Empfindungsgrößen erfassbar sind. Sie überlagern sich aber den Beziehungen zwischen Reiz und Empfindung.
3.3 Eigenschaften der Schallwahrnehmung 3.3.1 Lautstärkepegel und Lautheit Hörfeld, auch Hörfläche oder Hörbereich, nennt man den Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis ein Hörereignis auslöst. Das Hörfeld ist bei kleinen Schalldruckpegeln durch die Hörschwelle, bei großen Schalldruckpegeln durch die Schmerzschwelle begrenzt. Nur Schallereignisse mit Frequenzen zwischen 16 Hz und 16 kHz, maximal 20 kHz, rufen Hörereignisse hervor. Mit dem Alter verschiebt sich die Hörschwelle vor allem im oberen Frequenzbereich: Im Alter von 60 bis 70 Jahren ist die Hörschwelle bei 2 kHz etwa um 20 dB, bei 8 kHz etwa um 50 dB angehoben, unter 2 kHz gibt es keine einschränkenden Veränderungen; im Alter von 50 bis 60 Jahren ist die Verschiebung der Hörschwelle noch gering [Hesse, 2005]. Als Ursachen für die sog. Altersschwerhörigkeit werden in erster Linie Schäden bei den Haarzellen und in der Hörbahn vermutet. Die altersbedingte Anhebung der Hörschwelle beeinflusst auch die Wahrnehmung der Dynamik bzw. von Pegeldifferenzen (siehe Kap. 3.3.2).
122
3 Schallwahrnehmung
Diese Richtwerte gelten nicht für Personen, die in lärmerfüllter Umgebung arbeiten. Die allgemeine Hörfähigkeit im Alltag wird durch die Altersschwerhörigkeit aber relativ geringfügig beeinträchtigt, da der wichtigste Hörbereich unter 4 kHz liegt (siehe auch Kap. 11.2.1 ff.). Abb. 3/3 zeigt das Hörfeld; eingezeichnet ist außerdem der Bereich, den Sprache und Musik ungefähr einnehmen. Man sieht, dass dieser Bereich allseitig geschützt ist, dass erst größere Beeinträchtigungen des Hörvermögens die Wahrnehmung von Sprache und Musik beeinträchtigen.
Abb. 3/3. Hörfeld mit Sprach- und Musikbereich.
Durchläuft ein Sinuston mit einem konstanten Schalldruckpegel von angenommen 20 dB den gesamten hörbaren Frequenzbereich von 16 Hz bis 20 kHz, so bleibt der Ton keineswegs gleich laut. Er wird vielmehr mit steigender Frequenz zunächst lauter, über etwa 4 kHz wieder leiser. Um diese Feststellung für verschiedene Schalldruckpegel genau zu erfassen, hat man die „Kurven gleicher Lautstärkepegel“ ermittelt (Abb. 3/4). Sie geben in Abhängigkeit von der Frequenz den Schalldruckpegel L an, der die jeweils gleiche Lautstärkeempfindung hervorruft, und beschreiben damit eine der wichtigsten Eigenschaften des menschlichen Gehörs. Man ordnet jeder der Kurven einen bestimmten Lautstärkepegel zu, der in der Hilfseinheit Phon angegeben wird. Für 1 kHz hat man den Schalldruckpegel in dB und den Lautstärkepegel in Phon willkürlich zahlenmäßig gleichgesetzt. Bei der Gewinnung der Kurven gleicher Lautstärkepegel spielen die Bedingungen, unter denen gemessen wird, und die Auswahl der Versuchspersonen durchaus eine Rolle.
3.3 Eigenschaften der Schallwahrnehmung
123
Abb. 3/4. Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld beim Hören mit beiden Ohren nach [DIN 45630, 1971] und [ISO 226, 2003].
124
3 Schallwahrnehmung
Es ist deshalb sinnvoll, die Kurven gleicher Lautstärkepegel zu normen, um für alle Überlegungen, die an diesen Kurven anschließen, eine gemeinsame Basis zu haben. Abb. 3/4a zeigt die nach [DIN 1318] und [DIN 45630], beide zurückgezogen, genormten Kurven, die mit den internationalen ISO-Empfehlungen [R 226] übereinstimmen; 2003 wurde von ISO eine überarbeitete Empfehlung [R 226-2003] herausgegeben, die die Forschungen der letzten Jahrzehnte berücksichtigt und nun im Allgemeinen verwendet wird (Abb. 3/4b). Die Hörschwelle, gestrichelt dargestellt, liegt bei 4 Phon, nicht bei 0 Phon. Der Grund dafür ist, dass als Bezugsschalldruck der runde Wert 20 μN/m2 bzw. 20 μPa international vereinbart wurde. Die DIN- und ISO-Kurven beziehen sich auf Personen mit normalem Gehör zwischen 18 und 25 Jahren beim Hören mit beiden Ohren im freien Schallfeld, also bei Beschallung von vorne im reflexionsarmen Raum. Für andere Schallsignale, z. B. Rauschen, oder für andere Abhörbedingungen, wie z. B. im Diffusfeld (Abb. 3/5), ergeben sich etwas abweichende Normalkurven.
Abb. 3/5. Differenz der Pegel von Schmalbandrauschen gleicher Lautstärke von diffusem und freiem Schallfeld.
Während die Lautstärkepegel von Sinustönen relativ einfach und zuverlässig ermittelt werden können und dafür Phon-Angaben sinnvoll sind, sind die Verfahren zur Feststellung des Lautstärkepegels von Klängen und Geräuschen komplizierter und ergeben je nach angewandtem Verfahren recht unterschiedliche Werte; das früher hierfür verwendete Phon-Maß ist hier nicht mehr sinnvoll anwendbar. Eine erste Annäherung an den Lautstärkepegel komplexer Schallereignisse erbringen in diesem Fall im Allgemeinen die Messungen des A-bewerteten Schalldruckpegels nach [DIN EN 61672], siehe Kap. 9.5.3. Der Lautstärkepegel kann auch auf Grund der psychoakustischen Kenntnisse über das Gehör berechnet werden. Hierfür sind verschiedene Verfahren angegeben worden, die allerdings beträchtliche Abweichungen im ihren Ergebnissen aufweisen. Das Verfahren der Lautstärkeberechnung aus dem Geräuschspektrum nach Zwicker wurde in [DIN 45631] normiert und als ISO-Empfehlung [ISO 532B] international verbreitet. Der Lautstärkepegel eignet sich für den Vergleich der Lautstärkeempfindung gleich lauter Schallereignisse. Er eignet sich aber nicht dafür, verschieden laute Schallereignisse miteinander zu vergleichen. Während nämlich z. B. beim Schalldruckpegel einer Druckverdopplung eine Pegelzunahme von 6 dB entspricht, bedeutet eine Verdopplung der empfundenen Lautstärke in dem praktisch wichtigen Lautstärkebereich über 30 Phon eine Lautstärkepegelzunahme um 10 Phon. Die Lautheit S erfasst deshalb die tatsächlichen Lautstärkeverhältnisse verschiedener Lautstärkepegel LS zueinander; sie wird in sone angegeben. 40 Phon bei
3.3 Eigenschaften der Schallwahrnehmung
125
1 kHz werden definiert als 1 Sone. Dem doppelt so laut empfundenen Wert von 50 Phon entsprechen also 2 Sone. Die Abhängigkeit zwischen sone und Phon gibt Abb. 3/6 an.
Abb. 3/6. Zusammenhang zwischen Lautheit S [Sone] und Lautstärkepegel LS [Phon].
3.3.2 Anpassung und Maskierung Die vielfältigen Phänomene der Anpassung und Maskierung oder Verdeckung sind Maßnahmen des Gehörs, eine nicht mehr verarbeitbare Datenflut für die eigentliche Wahrnehmung zu reduzieren. Denselben Ansatz verfolgt die digitale Tontechnik, indem sie die Datenreduktion, die das Gehör vornimmt, im Prinzip nachahmt, um für die Bearbeitung, Übertragung und Speicherung mit ganz wesentlich reduzierten Datenmengen auszukommen; diese sog. psychoakustisch basierten Audiocodecs werden ausführlich in Kap. 14 behandelt, auch weitere Details zur Psychoakustik insbesondere der Maskierung. Eine wichtige Eigenschaft des menschlichen Gehörs ist die Anpassung, nämlich die Fähigkeit, seine Empfindlichkeit einem bestimmten, gerade herrschenden mittleren Schallpegel anzupassen, ähnlich wie sich das Auge an verschiedene Helligkeitsgrade anpasst. Dadurch werden z B. gleichmäßige Hintergrundgeräusche im Höreindruck stark zurückgedrängt, dadurch kann sich das Gehör aber auch innerhalb bestimmter Grenzen z. B. an verschiedene Wiedergabepegel beim Anhören von Tonproduktionen anpassen, ohne dass dabei ein wesentlicher qualitativer Unterschied besteht. Denn das Gehör bildet sich aus den mannigfaltigen Reizeinwirkungen ein Bezugssystem, Anpassungsniveau genannt, an dem sich die einzelnen Urteile wie laut − leise, aber auch hell − dunkel und hoch -- tief als an einem Mittelwert orientieren. Diese Anpassung hat aber auch zur Folge, dass ein gleichmäßiger Dauerton mit zunehmender Zeitdauer immer leiser erscheint; das Gehör ermüdet und ordnet diesen Dauerschall als unwichtigeres Hintergrundgeräusch ein, eine sehr sinnvolle Funktion des Gehörs. In der Musik kann die Aufmerksamkeit dadurch erhalten werden, dass ein Ton ständig verändert wird, z. B. in seiner Höhe durch ein Vibrato oder in seiner Intensität durch ein Tremolo. Mit der Anpassung verbunden ist eine weitere Erscheinung, die man als Maskierung oder Verdeckung bezeichnet. Ein auf das Gehör einwirkender Reiz setzt gleichzeitig die Emp-
126
3 Schallwahrnehmung
findlichkeit für andere Reize herab. Allgemein gilt, dass Schall höherer Frequenz Schall tieferer Frequenz dann verdeckt, wenn der Frequenzabstand gering ist. Schall tieferer Frequenz verdeckt Schall höherer Frequenz dann, wenn der tieffrequente Schall vergleichsweise große Intensität besitzt. Maskierung oder Verdeckung gibt es nicht nur für gleichzeitige Signale, sondern auch für zeitlich aufeinander folgende Signale. Die Nachverdeckung lässt Signale, die auch bei simultaner Darbietung verdeckt werden, nach Abschalten des verdeckenden Signals eine kürzere Zeit lang unhörbar bleiben. Die Zeitspanne der Nachverdeckung hängt sehr von den Signalarten und -dauern ab; sie liegt im Bereich einiger ms bis einiger 10 ms. Auch eine Vorverdeckung für bis etwa 20 ms voreilende Signale kann beobachtet werden, ein lauter Klangeinsatz kann demnach z. B. ein leises, vorangehendes Störgeräusch verdecken.
3.3.3 Tonhöhe Die Tonhöhenempfindung als Teil des Höreindrucks wird hauptsächlich bestimmt durch die Frequenz einer Schwingung. Bei Sinustönen oder annähernd sinusförmigen Klängen ist dazu der Schallpegel von einem gewissen Einfluss: Bei Frequenzen unter 2 kHz sinkt die empfundene Tonhöhe geringfügig mit zunehmendem Pegel, bei Frequenzen darüber steigt sie mit zunehmendem Pegel. Die Frequenz des Sinustons gibt nun also nicht mehr genau die Tonhöhe an. Man nennt die empfundene, nicht mit der Frequenz übereinstimmende Tonhöhe „spektrale Tonhöhe“. Das Gehör kann bei Sinustönen unterhalb 500 Hz bei Tonfolgen eine Frequenzänderung von etwa 3,5 Hz gerade noch wahrnehmen. Bei Frequenzen über 500 Hz beträgt die hörbare Änderung 0,7 % der sich ändernden Frequenz. Langsamere Schwankungen der Tonhöhe werden Vibrato genannt, schnelle Schwankungen machen einen Ton rau (siehe unten Kap. 3.3.5). Die Fähigkeit, musikalische Töne mit geringem Tonhöhenunterschied zu unterscheiden, verbessert sich deutlich mit der Erfahrung und Übung; dabei zeigt sich, dass das Gehör besondere Fähigkeiten bei solchen Instrumenten oder allgemein Klangfarben entwickelt, die es besonders gut kennt. Bei aus Grundton und Obertönen zusammengesetzten Klängen bestimmt grundsätzlich der Grundton, auch wenn er nur schwach ausgebildet ist, die Tonhöhe. Aber selbst wenn der Grundton und sogar die ersten Obertöne fehlen, wie z. B. bei der Musikwiedergabe mit sehr kleinen Lautsprechern, bildet das Gehör aus den verbleibenden Klangkomponenten einen Tonhöheneindruck, der dem fehlenden Grundton entspricht. Tatsächlich ändert die Unterdrückung einzelner Teiltöne zwar die Schwingungsform, aber nicht die Schwingungsperiode und damit nicht die Frequenz. In diesem Fall bezeichnet man die empfundene Tonhöhe als „virtuelle Tonhöhe“. Weiterhin erzeugt die Verschiebung von Resonanz- und Formanten, wie z. B. beim Wah-Wah-Dämpfer (siehe Kap. 6.2.), bei der Maultrommel, wie auch bei der elektronischen Klangerzeugung beim Flanging und Phasing (siehe Kap. 6.4.), einen bestimmten Tonhöheneindruck, die sog. Formanttonhöhe.
3.3 Eigenschaften der Schallwahrnehmung
127
3.3.4 Nichtlineare Verzerrungen Das Gehör verzerrt die Schwingungsform des Schallereignisses. Ein einzelner Sinuston wird dadurch mit Obertönen versehen, die nur unter besonderen Bedingungen auch direkt hörbar sind. Ein obertonreicher Klang erhält zusätzliche Obertöne, die sich indessen den bereits vorhandenen Obertönen überlagern und damit ebenfalls weitgehend unbemerkt bleiben. Anders als bei Einzeltönen sind die Verzerrungen durch das Gehör bei Tonpaaren u. U. sehr deutlich zu hören. Denn hierbei entstehen nicht nur Obertöne, sondern auch sog. Kombinationstöne, nämlich Summen- und Differenztöne. Wenn f1 und f2 die Frequenzen zweier Sinustöne sind, entstehen Kombinationstöne mit den Frequenzen m ⋅ f2 ± n ⋅ f1, wobei m und n = 1, 2, 3..., insbesondere treten hörbar die Kombinationstöne mit den Frequenzen f2 – f1 und f2 + f1 in Erscheinung; bei geeigneten Versuchsanordnungen kann aber eine viel größere Zahl von Verzerrungsprodukten des Gehörs hörbar gemacht werden. Kombinationstöne sind am deutlichsten bei einem Paar von Sinustönen wahrnehmbar, besonders wenn ihre Frequenzen nahe beisammen liegen, kritisch ist das Intervall der Quinte mit f2 / f1 = 3 : 2. Fast ebenso empfindlich bezüglich der Hörbarkeit von Eigenverzerrungen des Gehörs sind die obertonarmen Klänge einiger Musikinstrumente wie Blockflöten und Hörner bei größeren Lautstärken. Die Kombinationstöne des Gehörs spielen auch eine wichtige Rolle bei der Klassifizierung in angenehme und unangenehme Intervalle, also in Konsonanzen und Dissonanzen. Verzerrungen von Tonsignalen (siehe Kap. 9.2.2) sind dann hörbar, wenn sie größer als die Eigenverzerrungen des Gehörs sind. Die quadratischen Verzerrungen des Gehörs sind den technischen quadratischen Verzerrungen der Übertragungskette vergleichbar; sie betragen rund 0,1 % bei 70 dB Lautstärkepegel und etwa 1 % bei 90 dB. Diese Verzerrungen des Gehörs sind also recht gering. Die Stärke der Verzerrungen bei zwei Sinustönen hängt von deren Stärke und Frequenzabstand ab, ohne dass einfache Abhängigkeiten genannt werden können. Diese irregulären Verzerrungen sind aber wesentlich höher als die quadratischen Verzerrungen. Sie können unter bestimmten Bedingungen weit über 10 % liegen. Diese gehöreigenen Verzerrungen können leicht beobachtet werden z. B. beim zweistimmigen Pfeifen oder Blockflötenspiel.
3.3.5 Rauheit und Schärfe Rauheit und Schärfe eines Klangs sind Begriffe, die sich zur Beschreibung von Klangeigenschaften gut eignen und auch gehörakustisch relativ gut erfasst werden können. Rauheit kennzeichnet Schallereignisse, die eine starke zeitliche Strukturierung besitzen. Während langsame Pegelschwankungen als sog. Tremolo empfunden werden, lassen schnelle Pegelschwankungen vor allem zwischen 20 und 150 Hz einen Ton oder Klang rau erscheinen. Die Rauheit nimmt mit steigender Frequenz zu, bei etwa 70 Schwankungen pro Sekunde ist sie am größten; die messtechnische Einheit ist das Asper. 1 Asper hat ein Sinuston von 1 kHz und 60 dB Schalldruckpegel, der mit 70 Hz und dem höchstmöglichen Modulationsgrad m = 1 moduliert ist; m = 1 bedeutet, dass das modulierende und das modu-
128
3 Schallwahrnehmung
lierte Signal die gleichen Amplituden haben, d. h., dass die Amplitude der resultierenden Schwingung zwischen einem Höchstwert und völliger Auslöschung schwingt. Die Schärfe eines Klangs ist eine wesentliche Komponente der Klangfarbe, die man getrennt beurteilen kann. Sie wird durch die Umhüllende des Spektrums akustisch charakterisiert. Dabei ist es unerheblich, ob das Spektrum geräuschhaft kontinuierlich ist oder aus diskreten, also z. B. harmonischen Komponenten besteht. Bei einem schmalbandigen Klangspektrum steigt die Schärfe mit der Mittenfrequenz des Frequenzbands an, bei nur einseitiger Bandbegrenzung mit der unteren Grenzfrequenz und wesentlich stärker mit der oberen Grenzfrequenz. Außer den Grenzfrequenzen hat die Form der Umhüllenden einen Einfluss auf die Klangschärfe.
3.3.6 Subjektive Tondauer Wird die Dauer von Tonimpulsen und kürzeren Pausen zwischen Tönen subjektiv bewertet, so zeigt sich, dass diese subjektive Dauer bei kürzeren Tönen und Pausen nicht mit der objektiven Dauer übereinstimmt. Einzelne Tonimpulse wirken bei einer objektiven Dauer unter 50 ms länger als sie tatsächlich sind. Ein erstaunlicher Zusammenhang wird jedoch beim Vergleich der subjektiven Dauer von Tonimpulsen mit dazwischen liegenden gleichlangen Pausen offenbar: Während bei einer Dauer über 1 s subjektive und objektive Dauern übereinstimmen, wirken bei kürzerer Dauer die Pausen länger als die Töne, dies auch abhängig von der Frequenz des Tonimpulses. Die Unterschiede von subjektiver und objektiver Dauer sind sehr groß; so wirkt z. B. ein 3,2 kHz-Tonimpuls mit 100 ms Dauer ebenso lang wie eine Pause von 400 ms. Sollen also kurze Töne und die dazwischen liegenden Pausen gleich lang wirken, müssen die Pausen ganz erheblich länger als die Töne sein.
3.3.7 Hörbarkeit von Phasenänderungen Die einzelnen Komponenten eines Spektrums sind durch Frequenz, Pegel und Phasenlage definiert. Ausgehend von der Theorie der Klangfarbe nach Helmholtz war man lange Zeit der Meinung, dass die Phasenlage für die Klangfarbe unbedeutend sei. Tatsächlich hat sie aber einen gewissen, aber relativ komplexen Einfluss darauf. Phasenänderungen werden am deutlichsten bei Kopfhörerwiedergabe, am undeutlichsten bei Lautsprecherwiedergabe in halligen Räumen wahrgenommen. Die Untersuchungen ergeben folgende Zusammenhänge: Die Hörbarkeit von Phasenänderungen in einem harmonischen Klang hängt von seiner Zusammensetzung ab. Die Auswirkungen derselben Phasenänderung werden bei tiefen und bei hohen Frequenzen geringer eingeschätzt als bei mittlerer Frequenzlage; um 1 kHz hat das Gehör die größte Phasenempfindlichkeit. Bei tiefen Tönen werden eher Änderungen als Rauheit wahrgenommen, bei hohen Tönen eher als Änderungen der Tonhöhe und Klangfarbe. Bei kleinen Frequenzabständen der Teiltöne sind Phasenänderungen von 10° bis 30° wahrnehmbar, bei großen Abständen wird die Wahrnehmbarkeit, abhängig vom Pegel, geringer. Die in der analogen Tonstudiotechnik zugelassenen Phasenverschiebungen der Geräte orientieren sich an diesen Erkenntnissen (siehe Kap. 9.4.2).
3.4 Räumliches Hören natürlicher Schallquellen
129
3.3.8 Psychoakustisches Modell Viele der oben beschriebenen Gehöreigenschaften und -parameter werden im Zusammenhang mit modernen, digitalen Übertragungs-, Speicher- und Messverfahren oft in einem sog. psychoakustischen Modell zusammengefasst. Eine solche Verfahrensvorschrift, die eine mathematische Modellierung der physiologischen und hörpsychologischen Zusammenhänge darstellt, beschreibt die funktionellen Grundlagen der entsprechenden Algorithmen zur gehörbasierten Audiosignalverarbeitung. Bestandteile eines solchen Modells können u. a. sein: –– Ruhehörschwellen, Mithörschwellen, Unterschiedshörschwellen, –– simultane Verdeckung, Vor- und Nachverdeckungsschwellen, –– Verfahren zur Lautheitsbestimmung, –– Bestimmung der Tonalität oder Nichttonalität eines Tonsignals, –– spektrale Unterteilung des Audiosignals in sog. Frequenzgruppen Bark- bzw. Mel-Skala), –– Wahrnehmbarkeitsschwellen für Amplituden- und Frequenzmodulation sowie andere Verzerrungsprodukte, –– Redundanz- bzw. Irrelevanzabschätzung bei mehrkanaligen Tonsignalen. Typische Anwendungen sind die verschiedenen gehörbasierten Datenreduktionsverfahren (perceptual coding), wie MPEG-1, -2, -3 (MP3), AAC, siehe Kap. 13.2, oder gehörbasierte Qualitätsmessverfahren, wie PEAQ, siehe Kap. 13.4. Je nach Anwendungsfall und Qualitätsanspruch können die verwendeten Gehörmodelle auch unterschiedlich konfiguriert sein. Auch bei modernen Video-Übertragungs- bzw. Wiedergabeverfahren finden auf der Wahrnehmung aufbauenden visuellen Wahrnehmbarkeitsmodelle Anwendung.
3.4 Räumliches Hören natürlicher Schallquellen Richtungswahrnehmung oder Lokalisierung ist die Zuordnung der vom Gehör zum Bewusstsein gebrachten Hörereignisrichtung zur Schallereignisrichtung. Zusammen mit der Entfernungswahrnehmung bildet sie die räumliche Wahrnehmung des Gehörs. Richtungs- und Entfernungswahrnehmung schließen auch die Wahrnehmung der räumlichen Ausdehnung einer Schallquelle ein. Die sog. Räumlichkeit einer Schallquelle ist nicht ihre tatsächliche Ausdehnung, sondern die Empfindung, dass der Raum um die Schallquelle mit Schall erfüllt ist, die Räumlichkeit nimmt mit der Lautstärke und mit der Stärke seitlicher Reflexionen in einem Raum zu (siehe dazu Kap. 1.3.2). [Blauert, 1996, 1997, 2020] Für die Beschreibung der Hörereignisorte wird ein auf den Kopf des Hörers bezogenes, ein sog. kopfbezogenes Koordinatensystem verwendet (Abb. 3/7). Man unterscheidet dabei die Richtungswahrnehmung in den drei Dimensionen, in der horizontalen Ebene, der vertikalen oder Medianebene und in der Frontalebene. Der einfachste Fall des Richtungshörens ergibt sich bei der Wahrnehmung einer einzigen, in ihrem Frequenzumfang breitbandigen Schallquelle. Schallereignisrichtung und Hörereignisrichtung stimmen hierbei weitgehend überein. Für die drei Ebenen nach Abb. 3/7 gilt:
130
3 Schallwahrnehmung
–– In der Horizontalebene führen Laufzeitunterschiede zwischen den Zeitpunkten des Eintreffens der beiden Ohrsignale und frequenzabhängige Pegelunterschiede, also Klangfarbenunterschiede, zwischen den Ohrsignalen zur Lokalisierung des Hörereignisses. –– In der vertikalen Ebene wird der Erhebungswinkel nur auf Grund spektraler Veränderungen der hier gleichen Ohrsignale gebildet. Auch die Entscheidung, ob eine Schallquelle vor oder hinter dem Hörer lokalisiert wird, beruht auf spektralen Merkmalen. –– In der Frontalebene erzeugen wie in der horizontalen Ebene Laufzeit- und komplexe Klangfarben- bzw. Pegelunterschiede die Hörereignisrichtung.
Abb. 3/7. Kopfbezogenes Koordinatensystem für die Beurteilung der Hörereignisrichtungen.
Bei mehreren Schallquellen aus unterschiedlichen Richtungen und in geschlossenen Räumen treten zusätzliche Effekte der Richtungswahrnehmung auf. Es kommt hierbei darauf an, ob die Schallsignale an den Ohren unähnlich, d. h., nicht oder schwach korreliert, oder ob sie ähnlich, d. h. hoch korreliert sind. Das Gehör kann bei Hörereignissen, die aus deutlich unterschiedlichen Richtungen kommen, die zugehörigen Klangbilder besser trennen und verfolgen, als wenn sie aus derselben Richtung eintreffen. Diese Fähigkeit wird mit „intelligentem Hören“ oder mit Cocktailparty-Effekt nach [Cherry, 1953] bezeichnet. Wichtig für die Fähigkeiten der räumlichen Wahrnehmung sind neben physiologischen und psychologischen Mechanismen auch Lernprozesse und Erfahrungen, was z. B. durch die äußerst differenzierten Hörfähigkeiten Blinder belegt wird. Die elektroakustische Wiedergabe und Wahrnehmung von Klangbildern wird von denselben psychoakustischen Phänomenen beschrieben wie das räumliche Hören im natürlichen Schallfeld, wenn von nur einem Lautsprecher ein Schallsignal abgestrahlt wird. Sollen aber räumlich ausgedehnte Schallfelder, also stereofone Klangbilder, elektroakustisch zu Gehör gebracht werden, treten ganz neue Phänomene auf, in der Hauptsache handelt es sich um sog. Phantomschallquellen. Phantomschallquellen sind Schallwahrnehmungen von Orten, an denen sich keine reale Schallquelle befindet. Es handelt sich um Phänomene, die beim natürlichen Hören praktisch nicht auftreten. Da die Phänomene räumlicher Wiedergabe durch Lautsprecher in engster Verbindung stehen zur stereofonen oder allgemein zur mehrkanaligen Aufnahme und Wiedergabe von Klangbildern, werden sie ausführlich in Kap. 5.1 und 5.2 erläutert.
3.4 Räumliches Hören natürlicher Schallquellen
131
3.4.1 Wahrnehmung der Richtung 3.4.1.1 Horizontale Ebene Die Lokalisierung in der horizontalen Ebene wird durch Unterschiede der Signale an den Ohren ermöglicht, die sich dann ergeben, wenn die Schallquelle aus der Mitte bzw. 0° auswandert. Dabei treten beim natürlichen Hören zwischen den beiden Ohrsignalen stets sog. interaurale Signaldifferenzen auf, sowohl Laufzeitdifferenzen als auch, frequenzabhängig, Pegeldifferenzen. Sie führen aber auch einzeln zur Richtungswahrnehmung, wovon bei der stereofonen Wiedergabe über zwei oder mehr Lautsprecher Gebrauch gemacht wird. Je nach angewendetem Aufnahmeverfahren können die Lautsprechersignale nur Laufzeit- oder nur Pegeldifferenzen oder aber beide gleichzeitig erhalten. Interaurale Laufzeitdifferenzen Interaurale Laufzeitdifferenzen sind beim natürlichen Hören die wichtigsten Merkmale der Ohrsignale für die Lokalisierung. Sie betragen auf Grund des Abstands der Ohren von 17 cm höchstens 0,63 ms. Die geringste noch wahrnehmbare Laufzeitdifferenz von etwa 0,03 ms entspricht einem Schallwegunterschied von nur 1 cm und führt zu einer Auswanderung der Hörereignisrichtung um 3° bis 5° aus der Mitte. Für die interaurale Laufzeitdifferenz gilt bei parallelem Schalleinfall vereinfacht der folgende Zusammenhang (Abb. 3/8): Δt = intraaurale Laufzeitdifferenz [m] Δs = interaurale Wegdifferenz [m] ⋅ c d = interauraler Abstand = 0,17 m = 0,5 ⋅ sin c = Schallgeschwindigkeit = 340 m/s α = Einfallswinkel [°]
Abb. 3/8. Interaurale Wegdifferenzen Δs.
Für die Feststellung der Zeitdifferenzen kann sich das Gehör am Schwingungsverlauf und an der Einhüllenden der Schwingung orientieren. Vor allem für Frequenzen unterhalb von 800 Hz, höchstens aber 1,6 kHz, kann das Gehör dem Schwingungsverlauf direkt Zeit- bzw. Phasendifferenzen entnehmen; deshalb können nur in diesem Frequenzbereich Sinusschwingungen zu einer Lokalisierung führen. Für höhere Frequenzen kann das Gehör nur aus dem Vergleich der Hüllkurven der Signale Zeitdifferenzen entnehmen.
132
3 Schallwahrnehmung
Übliche natürliche Schallereignisse wie Sprache und Musik sind breitbandige, impulshaltige Signale mit stark strukturierten Einhüllenden. Solche Signale werden viel leichter lokalisiert als Sinussignale, die in der Praxis ja kaum vorkommen. Die Laufzeitdifferenz Δt steigt bei komplexen Signalen für den wichtigen vorderen Bereich der Lokalisierung anders als bei Sinussignalen weitgehend linear mit dem Winkel an. Interaurale Pegeldifferenzen Gegenüber interauralen Laufzeitdifferenzen sind die interauralen Differenzen der mittleren Schalldruckpegel von geringerer Bedeutung für die Lokalisierung von Schallquellen. Pegeldifferenzen werden verursacht von Abschattungen durch Kopf und Ohrmuscheln. Das Gehör ist fähig, im gesamten hörbaren Frequenzbereich Pegeldifferenzen zu erkennen und in Richtungsinformationen umzusetzen. Die Ohrsignale werden selektiv in einzelnen Frequenzgruppen verglichen. Unterhalb von etwa 300 Hz entstehen jedoch wegen der Beugungserscheinungen des Schalls um den Kopf praktisch keine Pegeldifferenzen mehr. Über 300 Hz nehmen sie mit der Frequenz zu; allerdings nimmt die Pegeldifferenz sinusförmiger Signale nicht in einfacher Weise mit dem Winkel zu, sondern sehr unregelmäßig. Damit kann hier keine feste Zuordnung zwischen Pegeldifferenz und Schallereignisrichtung bestehen, die für jede Signalart gültig ist; nur definierten Signalen wie Weißem Rauschen oder Sinustönen können feste Werte zugeordnet werden. Die Zusammenhang hängt ganz von der spektralen Zusammensetzung des Signals ab. Für natürliche breitbandige Signale werden die Zusammenhänge einfacher und übersichtlicher, da sich statistische Mittelwerte bilden können. Es ergeben sich Klangfarbenunterschiede, sog. Spektraldifferenzen, zwischen den Ohrsignalen, die zwar nicht bewusst wahrgenommen werden, aber für die Lokalisierung wichtig sind. Hierbei sind jedoch im Gegensatz zur Lokalisierung durch Zeitdifferenzen umfangreiche Lernprozesse Voraussetzung, die auf dem Rückgriff auf die Klangfarbenmuster bei frontalem Schalleinfall beruhen. Auf Grund der komplexen, teilweise auch mehrdeutigen Zusammenhänge zwischen Frequenz bzw. Klangfarbe, Pegel und Einfallswinkel ist eine Schalllokalisierung allein durch Pegelunterschiede u. U. nur beschränkt möglich bzw. kann zu Fehlurteilen führen. Zusammenwirken von interauralen Laufzeit- und Pegeldifferenzen Bei der Schallwahrnehmung wirken stets interaurale Laufzeit- und Pegeldifferenzen zusammen. Für bestimmte Signale lässt sich deshalb angeben, welcher Laufzeitdifferenz welche Pegeldifferenz entspricht; je nach Signalart wurden Werte zwischen 2 μs/dB und 200 μs/ dB ermittelt. Es zeigt sich, dass dieser Wert zusätzlich vom Schalldruckpegel sowie von der Schalleinfallsrichtung abhängt. Die sehr komplexen Zusammenhänge von Laufzeit- und Pegeldifferenzen lassen erkennen, dass das Gehör über zwei weitgehend voneinander unabhängig arbeitende Mechanismen der Lokalisierung verfügt. Der erste Mechanismus wertet interaurale Laufzeitdifferenzen von Trägerschwingungen mit Frequenzen unter 1,6 kHz aus; er bestimmt nur dann die Hörereignisrichtung, wenn Frequenzkomponenten über 1,6 kHz fehlen. Der zweite Mechanismus wertet sowohl Laufzeitdifferenzen der Hüllkurven als auch Pegeldifferenzen aus; er bestimmt die Hörereignisrichtung, sobald Frequenzanteile über 1,6 kHz wesentlicher Bestandteil des Signals sind, also ist er für die Lokalisierung natürlicher Schallquellen wie Musik, Sprache und Geräusche dominierend.
3.4 Räumliches Hören natürlicher Schallquellen
133
Lokalisierungsunschärfe Die Lokalisierungsunschärfe in Blickrichtung erreicht 2° bis 3°, sie nimmt bei seitlichem Schalleinfall auf etwa 4,5° zu. Ein Richtungswechsel von links nach rechts wird nach etwa 150 ms, von vorn nach hinten nach etwa 250 ms wahrgenommen. Impulshaltiger Schall, wie ihn die meisten Schallquellen abgeben, ist schneller und präziser zu lokalisieren als stationärer Schall. Treffen beim Hörer zwei gleiche Schallereignisse kurz nacheinander ein, was z. B. bei Wand- oder Deckenreflexionen in einem Raum zutrifft, so gilt für eine Verzögerung zwischen etwa 1 und 30 ms das sog. Gesetz der ersten Wellenfront oder Precedence-Effekt (nach Wallach, Newman und Rosenzweig, 1949), auch Haas-Effekt (nach Haas, 1951) genannt. Danach bestimmt der zuerst eintreffende Schall den Richtungseindruck, unabhängig davon, aus welcher Richtung der nachfolgende Schall kommt. Dabei darf der Pegel des nachfolgenden Schalls bei Laufzeitdifferenzen zwischen 5 und 30 ms z. B. für Sprache sogar bis 10 dB über dem des Primärschalls liegen, ohne dass dadurch das Gesetz der ersten Wellenfront seine Gültigkeit verliert. Vom Gesetz der ersten Wellenfront, besser als psychoakustisches Phänomen denn als Gesetz zu bezeichnen, profiziert die Beschallungstechnik (siehe dazu Kap. 10) bei der richtungstreuen Beschallung von Publikum; es ermöglicht, die Lautstärke zu erhöhen, ohne die Richtung des Schalleinfalls zu verändern. Auch bei der Schallausbreitung in Räumen oder im Freien spielt dieses Phänomen eine Rolle, indem es dafür sorgt, dass der tatsächliche Ort der Schallquelle auch bei lauteren Reflexionen noch erkannt wird; bei zu lauten Reflexionen kommt es natürlich zu Täuschungen der Lokalisierung, ebenso bei einem Zeitabstand von mehr als 40 bis 50 ms, der dann zur Echobildung führt, d. h., zur Wahrnehmung zweier getrennter Schallereignisse. 3.4.1.2 Vertikale Ebene Auch in der vertikalen Ebene oder Medianebene (Abb. 37) ist eine Lokalisierung der Schallquelle möglich. In dieser Ebene ergeben sich bei Schalleinfall keine Unterschiede zwischen den Signalen an beiden Ohren. Hingegen entstehen Klangfarbenunterschiede bezogen auf die Klangfarbe des aus Blickrichtung eintreffenden Signals, die durch die Form und Beschaffenheit von Kopf und Ohren verursacht, beim Hören aber nicht bewusst wahrgenommen werden. Je nach Einfallsrichtung werden bestimmte, sog. richtungsbestimmende Frequenzbänder angehoben (Abb. 3/9).
Abb. 3/9. Richtungsbestimmende Frequenzbänder bei der Richtungswahrnehmung in der Medianebene nach [Blauert, 1997].
134
3 Schallwahrnehmung
Anhebungen in diesen Frequenzgebieten führen also zu einer entsprechenden Lokalisierung der Hörereignisse. Es wird angenommen, dass jeweils eine spezifische Kombination von spektralen Gipfeln und Einbrüchen die Hörereignisrichtung bestimmt. Eine solche Lokalisierung in der Medianebene kann aber nur zu einer guten Übereinstimmung von Schallereignis- und Hörereignisort führen, wenn das Schallsignal breitbandig ist und wenn das Gehör über Erfahrungen verfügt, wie dieses Signal strukturiert ist; so ist die Lokalisierung in erheblichem Maße von der Art des Schallsignals abhängig, Lerneffekte spielen eine wichtige Rolle, schmalbandige Signale können in der Medianebene nicht lokalisiert werden. Das Richtungshören in der Medianebene gewinnt besondere Bedeutung bei der Schallübertragung mit Kunstkopftechnik (siehe Kap. 5.5.4 und 5.5.5). Die Unschärfe der Lokalisierung des Erhebungswinkels ist wesentlich größer als in der horizontalen Ebene. Für einen unbekannten Sprecher z. B. liegt sie bei etwa 15° bis 20°, für einen bekannten Sprecher bei etwa 10° in Vorwärtsrichtung. Mit zunehmender Erhebung der Schallquelle nimmt die Unschärfe auf etwa den dreifachen Betrag zu.
3.4.2 Wahrnehmung der Entfernung Interaurale Signalunterschiede werden für die Richtungswahrnehmung in der horizontalen Ebene ausgewertet. Die durch die Abschattungen und Beugungserscheinungen an Kopf und Ohr entstehenden Klangfarbenänderungen geben dem Gehör die Möglichkeit, den Erhebungswinkel einer Schallquelle zu bestimmen. Für die Wahrnehmung der Entfernung einer Schallquelle bleiben somit keine einfachen Signalmerkmale für das Gehör auswertbar, vielmehr gibt es mehrere Merkmale des Schallsignals, die in komplexer Weise auf die Entfernungswahrnehmung einwirken. Grundsätzlich sind hierbei die Erfahrung des Gehörs und die Übung, also die Bekanntheit einer Schallquelle von sehr großer Bedeutung. Im Wesentlichen tragen die Lautstärke des Hörereignisses und wieder Veränderungen der Klangfarbe bzw. des Spektrums auf dem Weg zum Ohr zur Bildung der Hörereignisentfernung bei. Der Lautstärkepegel eines Schallereignisses nimmt mit jeder Entfernungsverdopplung bei allseitiger Abstrahlung um 6 dB ab, bei gerichteter Abstrahlung um einen geringeren Wert. Da die meisten Schallquellen wie Musikinstrumente z. B. tiefere Frequenzkomponenten ungerichtet, höhere Frequenzkomponenten aber mit der Frequenz zunehmend gerichtet abstrahlen, ergibt sich i.Allg. mit der Pegelverminderung bei wachsender Entfernung von der Schallquelle auch eine Klangfarbenänderung, da der Anteil tiefer Frequenzkomponenten mehr abnimmt als der hoher; diese Klangfarbenänderung wird noch dadurch verstärkt, dass das Gehör für tiefe Frequenzen umso unempfindlicher wird, je geringer der Schallpegel ist; die Kurven gleicher Lautstärkepegel, Abb. 3/4, zeigen dies. Die Entfernungswahrnehmung auf Grund von Lautstärkepegeln setzt grundsätzlich voraus, dass das Gehör die Lautstärke der Schallquelle in einer bestimmten Entfernung kennt. Der hierfür notwendige Lernprozess kann auf längeren allgemeinen Hörerfahrungen oder auf einem aktuellen Lernprozess beruhen. Voraussetzung für die Entfernungswahrnehmung auf Grund der Lautstärke ist ferner eine gewisse Konstanz der Schallleistung. Die Lautstärke spielt vor allem bei einer Schallquellenentfernung bis etwa 15 m eine Rolle.
3.4 Räumliches Hören natürlicher Schallquellen
135
Die Entfernungswahrnehmung im Freien bei Entfernungen über 3 m zeigt einen typischen Fehler: Das Hörereignis ist näher als das Schallereignis, das Gehör schätzt die Schallquellenentfernung zu gering ein (Abb. 3/10). Der Fehler steigt mit der Schallquellenentfernung an und kann erheblich sein; eine 10 m entfernte Schallquelle scheint nur halb so weit vom Hörer entfernt zu sein. Diese Feststellungen scheinen der Erfahrung zu widersprechen, sie gelten allerdings ohne Zuhilfenahme des Auges und der Gegebenheiten der Hörsituation. Interessant ist, dass Flüstern stets deutlich näher und Schreien deutlich ferner lokalisiert wird als Umgangssprache. Auch dies zeigt den großen Einfluss von Erfahrung und Erwartung. Ein wichtiger Aspekt des Entfernungshörens ist aber auch, dass das Gehör im Allgemeinen nicht gefordert ist, Hörerfahrungen beim Entfernungshören zu sammeln, da das Auge diese Leistung schnell und präzise erbringt. Über das Entfernungshören bei größeren Entfernungen liegen kaum Untersuchungen vor; neben dem Lautstärkepegel ist hier offensichtlich eine Klangfarbenänderung maßgeblich, die durch die Absorption hoher Frequenzkomponenten in der Luft entsteht. Auch bei Entfernungen unter 25 cm sind zusätzlich Merkmale der Klangfarbenveränderung, nun verursacht durch Beugungs- und Abschattungserscheinungen am Kopf, für das Entfernungshören von Einfluss. In geschlossenen Räumen ist eine Abschätzung der Hörereignisentfernung auch auf Grund des Verhältnisses von direktem zu diffusem Schall oder Nachhall möglich, da der Pegel des diffusen Schalls unabhängig von der Schallquellenentfernung konstant bleibt, während der Pegel des direkten Schalls mit zunehmender Entfernung abnimmt. Da neben dem Abstand zur Schallquelle aber auch das Raumvolumen und die Nachhallzeit auf das Verhältnis von direktem zu diffusem Schall Einfluss nehmen, ist die Kenntnis der raumakustischen Verhältnisse, also auch hierbei eine gewisse Hörerfahrung, erforderlich.
Abb. 3/10. Zuordnung von Schallereignis- und Hörereignisentfernung bei einem Sprecher als Schallquelle nach [Bekesy, 1949].
3.4.2.1 Im-Kopf-Lokalisierung Bei der normalen Lokalisierung werden Schallereignisse als Hörereignisse außerhalb des Kopfs lokalisiert. Unter bestimmten Bedingungen können aber Hörereignisse auch im Kopf des Hörenden lokalisiert werden. Solche Bedingungen herrschen bevorzugt bei der Wiedergabe mit Kopfhörern, weshalb sie zunächst auf diese spezielle Wiedergabeart zurückgeführt
136
3 Schallwahrnehmung
wurden. Im-Kopf-Lokalisierung oder -Lokalisiertheit, auch IKL, kann aber z. B. auch bei der Abstrahlung eines Signals über eine Lautsprecheranordnung für Stereowiedergabe auftreten, wenn ein Lautsprecher verpolt wird. Das Gehör wertet nicht nur die momentan eintreffenden Signale aus, sondern vergleicht diese als Reizmuster mit erfahrenen und gespeicherten Reizmustern. Dies zeigt z. B. die wesentlich schärfere Lokalisierung von Sprechern in der Medianebene, wenn deren Stimme bekannt ist. Im-Kopf-Lokalisierung entsteht nur dann, wenn die Schallreize so geartet sind, dass sie nicht einer möglichen natürlichen Schallquelle außerhalb des Kopfs zugeordnet werden können, oder wenn das Reizmuster für das Gehör völlig neuartig ist. Vom Gehör für die Lokalisierung nicht auswertbare Signale werden also für die Wahrnehmung deutlich durch die Im-Kopf-Lokalisierung gekennzeichnet. Das wichtigste Beispiel für Im-KopfLokalisierung ist die Wiedergabe raumbezogener Stereofonie über Kopfhörer. Das Klangbild spannt sich hierbei nicht außerhalb des Kopfs, sondern im Kopf zwischen den Ohren auf. Es wird im Kopf lokalisiert, weil für die jeweilige Einfallsrichtung typische Klangfärbungen der Signale fehlen, eine Tatsache, die den Erfahrungen des Gehörs aus dem Bereich natürlichen Hörens fehlt. Werden diese Klangfarbenunterschiede wie im Kunstkopfverfahren mit einem künstlichen Kopf erzeugt, lokalisiert das Gehör trotz Kopfhörerwiedergabe außerhalb des Kopfs, siehe dazu Kap. 5.5.4.1.
Standards [DIN 1318] Lautstärkepegel; Begriffe, Messverfahren, zurückgezogen [DIN 1320] Akustik; Begriffe [DIN 45500] Bl. 10: Heimstudio-Technik (Hi-Fi); Mindestanforderungen an Kopfhörer, 1999 ersatzlos zurückgezogen [DIN 45630] Bl. 1: Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall [DIN EN 61672] Elektroakustik - Schallpegelmesser [DIN IEC 651] Schallpegelmesser [DIN EN 60 645-1] Audiometer [DIN ISO 226] Akustik - Normalkurven gleicher Lautstärkepegel [DIN ISO 226-2003] Akustik – Normalkurven gleicher Lautstärkepegel [ISO 532 B] Akustik – Verfahren zur Berechnung des Lautstärkepegels
Literatur [Bekesy, 1949] [Blauert, 1996] [Blauert, 1997] [Blauert, 2020]
von Bekesy, G.: „The room illusion and similar auditory phenomena“, in: Amer. Journal of Psychol. 62, 1949, S. 540 ff. Blauert, J.: Spatial Hearing. The Psychophysics of Human Sound Localization, 1996, MIT Press Blauert, J.: Räumliches Hören, 1974, 1. und 2. Nachschrift 1985 und 1997, Ausgabe incl. 1. und 2. Nachschrift, 1997, Hirzel Blauert, J. und Brasch, J., Herausgeber: The Technology of Binaural Understanding (Modern Acoustics and Signal Processing), 2020, Springer
Literatur
137
[Cherry, 1953] Cherry, E.: “Some experiments on the recognition of speech, with one and with two ears“, in: Jour. Acoustical Society of America 25, S. 975 ff. [Fastl, 2007] Fastl, H. und Zwicker, E.: Psychoacoustics. Facts and Models, 3. Aufl., 2007, Springer [Hartmann, 1998] Hartmann, W. M.: Signals, Sound, and Sensation. Modern Acoustics and Signal Processing, 1998, Springer [Hellbrück, 2004] Hellbrück, J. und Ellermeier, W.: Hören. Physiologie, Psychologie, Pathologie, 2. Aufl., 2004, Hogrefe [Hesse, 2005] Hesse, G. und Laubert, A.: „Hörminderung im Alter - Ausprägung und Lokalisation“, in: Deutsches Ärzteblatt 2005, H. 42, S. 2864ff. [Howard, 2017] Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 5. Aufl., 2017, Focal Press [Jekosch, 2005] Jekosch, U.: Voice and speach quality perception, 2005, Springer [Kalivoda, 1998] Kalivoda, M. und Steiner, J.: Taschenbuch der angewandten Psychoakustik, 1998, Springer [Roederer, 1999] Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 1999, Springer [Spitzer, 2005] Spitzer, M.: Musik im Kopf. Hören, Musizieren, Verstehen und Erleben im neuronalen Netzwerk, 2005, Schattauer [Terhardt, 1998] Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer
4 Mikrofone und Lautsprecher Michael Dickreiter Peter Arasin (4.3 und 4.5.2), Klaus Genuit (4.2.4.6) Mikrofone und Lautsprecher sind Systeme, die Schallenergie in elektrische Energie bzw. elektrische Energie in Schallenergie umwandeln, kurz auch Schallwandler oder elektroakustische Wandler genannt. Zur Aufnahme der Schallwellen aus einem Raum und für die Abstrahlung der Schallwellen in einen Raum wird im Allgemeinen eine Membran verwendet, deren Schwingungen dann weiterverarbeitet werden. In der Tonstudiotechnik gehören Mikrofone, Lautsprecher und Kopfhörer zu den Schallwandlern; nach ihrem Wirkungsprinzip gehören aber auch die Tonabnehmer oder Tondosen der Vinyl-Schallplattenabspielgeräte dazu. Reversible Schallwandler können in beiden Wirkungsrichtungen betrieben werden, also als Mikrofon und als Lautsprecher, irreversible Wandler arbeiten nur in einer Richtung. [Lerch, 2009], [Möser, 2009], [Schneider, 2008], [Zollner, 1993]
4.1 Physikalische Prinzipien der Schallwandler Für die Umwandlung von aus dem Schallfeld über eine mitschwingende Membran entnommener mechanischer Energie in elektrische Energie und umgekehrt gibt es mehrere physikalische Prinzipien; sie werden nach der Art der mechanisch-elektrischen bzw. elektrischmechanischen Energiewandlung bezeichnet und eingeteilt in: –– elektromagnetische Wandler, –– elektrodynamische oder dynamische Wandler, –– elektrostatische Wandler und Elektretwandler, –– magnetostriktive Wandler, –– piezoelektrische Wandler. Die verschiedenen Wandlerprinzipien haben gemeinsame Gesetzmäßigkeiten: Bei elektrodynamischen und piezoelektrischen Schallwandlern bleibt die Schwingungsform bei der Wandlung erhalten, es entstehen nur geringe Verzerrungen. Elektromagnetische, magnetostriktive und elektrostatische Schallsender arbeiten da gegen nach quadratischen Kraftgesetzen, die Schwingungen werden deformiert, es entstehen starke Verzerrungen. Um diese zu vermeiden, muss deshalb einer Gleichgröße als Magnetfeld oder Vorspannung hinzugefügt werden, die groß gegenüber der Wechselgröße sein muss; damit wird die Verformung fast unwirksam. Schallwandler, die mit einem magnetischen Feld arbeiten, reagieren auf die Geschwindigkeit der bewegten Membran; Schallwandler, die mit einem elektrischen Feld arbeiten, reagieren auf die Auslenkung der Membran. Die mit einem magnetischen Feld arbeitenden Wandler geben eine frequenzabhängige Signalspannung ab, die durch besondere konstruktive Maßnahmen linearisiert werden muss. Schallwandler, die mit dem elektrischen Feld arbeiten, geben eine frequenzunabhängige Signalspannung ab, sofern ihre Eigenresonanz oberhalb des Übertragungsbereichs liegt. https://doi.org/10.1515/9783110759921-004
140
4 Mikrofone und Lautsprecher
Alle fünf physikalischen Prinzipien werden in technischen Lösungen angewendet, jedes Prinzip bietet einen besonderen Vorteil, der bei spezialisierten Mikrofonen und Lautsprechern genutzt wird. Elektromagnetische Wandler Eine Membran nimmt den Luftschall auf und gibt die Schwingungen an einen Anker weiter, der in einem Luftspalt dicht über einem Permanentmagneten gehalten wird; der Magnet ist mit einer festen Leiterwicklung umgeben. Permanentmagnet und Anker bilden einen ma gnetischen Kreis, der durch einen Luftspalt unterbrochen ist. Bewegt sich die Membran und damit auch der Anker, so wird in die Leiterwicklung wegen des permanenten Magnetfelds eine Spannung induziert, die der Bewegungsgeschwindigkeit der Membran proportional ist. Wird umgekehrt an die Leiterwicklung eine Wechselspannung gelegt, so bewegt sich der Anker mit der Membran analog zu dieser Spannung, der Wandler ist also reversibel. Elektromagnetische Wandler haben einen guten Wirkungsgrad; sie eignen sich deshalb besonders für Miniaturmikrofone, also Ansteck- und Knopflochmikrofone. Elektrodynamische oder dynamische Wandler Der elektrodynamische Wandler arbeitet wie der elektromagnetische Wandler mit einem Permanentmagneten. Die mit Strom durchflossene Leiterwicklung ist hierbei jedoch nicht um den Permanentmagneten gewickelt, sondern bewegt sich im Magnetfeld des Permanentmagneten als Schwingspule frei, aber mechanisch geführt; an die Schwingspule ist die Membran angekoppelt. Dieser Wandler ist ebenfalls reversibel. Vorteilhaft gegenüber dem elektromagnetischen Prinzip ist, dass hierbei kein Wechselmagnetfeld erzeugt wird, das inhomogen ist und damit nichtlineare Verzerrungen erzeugt. Trägt man konstruktiv dafür Sorge, dass die Schwingspule auch bei großen Bewegungsamplituden innerhalb des homogenen Ma gnetfelds bleibt, so lassen sich mit dem elektrodynamischen Wandler besonders verzerrungsarme, robuste Wandler herstellen, auch für sehr große Membranausschläge. Dynamische Mikrofone, also Tauchspul- und Bändchenmikrofone, sowie dynamische Lautsprecher und Kopfhörer arbeiten nach diesem bewährten Prinzip, das Abb. 4/1 in der Anwendung bei einem Lautsprecher und einem Tauchspulmikrofon zeigt.
Abb. 4/1. Elektrodynamischer Wandler, Anwendung als Lautsprecher und Tauchspulmikrofon.
4.1 Physikalische Prinzipien der Schallwandler
141
Elektrostatische Wandler und Elektretwandler Der elektrostatische Wandler arbeitet wie ein Kondensator mit einer festen Platte als Elektrode und einer beweglichen, als Membran wirkenden Gegenelektrode. Dieser Kondensator erhält eine konstante elektrische Vorspannung und damit eine konstante Ladung Q. Schwingungen der Membran führen zu periodischen Änderungen des Elektrodenabstands und somit der Kapazität C dieses Kondensators. Es fließt ein Ausgleichsstrom, der an einem Widerstand, der in den Stromkreis aus Spannungsquelle und Wandler gelegt wird, einen den Bewegungen der Membran proportionalen Spannungsabfall U bewirkt. Die Spannung U ist gleich Q / C, Q ist durch die konstante Vorspannung konstant, also ist der Spannungsabfall U proportional zum Kehrwert der Kapazität, also 1 / C. So gewinnt man direkt aus der Bewegung der Membran eine dazu analoge elektrische Schwingung. Anders als bei dieser sog. Niederfrequenzschaltung können die Änderungen der Kapazität aber auch in einem Schwingkreis die Frequenz einer HF-Schwingung modulieren, aus der durch Demodulation dann die entsprechende NF-Spannung gewonnen wird, man spricht hier von Hochfrequenzschaltung. In der Tonstudiotechnik wird das elektrostatische Wandlerprinzip bei einem der wichtigsten Werkzeuge, dem Kondensatormikrofon, dem klassischen hochwertigen Studiomikrofon, in beiden Schaltungsvarianten angewendet (siehe Kap. 4.2.2), in umgekehrter Wirkungsrichtung bei elektrostatischen Lautsprechern und Kopfhörern. Abb. 4/2 zeigt das elektrostatische Wandlungsprinzip am Beispiel des Kondensatormikrofons in Niederfrequenzschaltung.
Abb. 4/2. Elektrostatischer Wandler, Anwendung als Kondensatormikrofon in Niederfrequenzschaltung.
Zu den elektrostatischen Wandlern gehören auch als besondere Bauform die Elektretmi krone. Auf Grund ihrer kompakten Bauweise, des geringen Preises und der guten Signalqualität werden diese Mikrofone in großen Stückzahlen preiswert hergestellt. Elektretmikro fone stellen Kondensatormikrofone mit einem bei der Herstellung aufgetragenen Elektret dar. Ähnlich wie ein Permanentmagnet ein eingefrorenes magnetisches Feld trägt, trägt ein Elektret ein eingefrorenes elektrisches Feld. Dieses übernimmt die bei Kondensatormikro fonen notwendige Vorspannung und erlaubt damit einen einfacheren Betrieb. Auf Grund
142
4 Mikrofone und Lautsprecher
der hohen Impedanz ist allerdings auch hier eine Spannungsversorgung von z. B 1,5 V für die Impedanzwandlung erforderlich. Nachteilig bei Elektretmikrofonen sind außerdem eine höhere Serienstreuung der Empfindlichkeit, Empfindlichkeitsverluste durch Alterung, Ladungsverluste durch hohe Temperaturen bis hin zum Totalausfall. Zunehmend werden Elektretmikrofone in der extrem miniaturisierten Mikrosystemtechnik, in der sog. MEMS-Technik – MicroElectroMechanical Systems – eingebaut, bei denen die die elektrische Kapazität ändernde Mikromembran direkt auf den Silicium-Wafer geätzt wird. Wenn die Ausleseelektronik mit einem Impedanzwandler, Vorverstärker und einem AnalogDigital-Wandler direkt bei der Membran ausgestattet ist und damit einen digitalen Ausgang besitzt, spricht man auch von einem Digitalmikrofon. Wegen der geringen Abmessungen, der geringen Leistungsaufnahme, der guten Abschirmung gegen Störsignale und der kostengünstigen Produktion werden diese Mikrofone zunehmend in kleinen mobilen Geräten wie Smartphones, Headsets, Hörgeräten oder Kameras eingebaut. Magnetostriktive Wandler Der magnetostriktive Wandler nutzt die Längenänderung, die ferromagnetische Materialien erfahren, wenn sie einem Magnetfeld ausgesetzt werden. Diese sind zwar sehr klein, jedoch mit großen Kräften verbunden. Diese Wandler eignen sich deshalb besonders für die Erzeugung von Unterwasserschall für die Sonarortung, aber auch im Ultraschallbereich. Der Wirkungsgrad dieses ebenfalls reversiblen Wandlers ist hoch. Piezoelektrische Wandler Der piezoelektrische Wandler nutzt den sog. piezoelektrischen Effekt: Danach treten an der Oberfläche bestimmter Kristalle oder polykristalliner Stoffe elektrische Ladungen auf, wenn die Kristalle verformt werden. Umgekehrt können diese Kristalle auch durch elektrische Spannungen verformt werden. Piezoelektrische Mikrofone, kurz Piezomikrofone, werden verwendet als Körperschallmikrofone vor allem bei Saiteninstrumenten, besonders Gitarren; sie werden meist als Pickup oder Tonabnehmer bezeichnet. Weiter wird das Prinzip bei Wasserschallmikrofonen, sog. Hydrophonen als Echolot, sowie in der Medizindiagnostik angewendet.
4.2 Mikrofone Mikrofone wandeln Schallschwingungen in elektrische Wechselspannungen um. Dieser Umwandlungsprozess erfolgt bei Luftschall in zwei Stufen: zunächst wird eine Membran als Schallempfänger von den Schallwellen zu erzwungenen Schwingungen angeregt; diese mechanischen Schwingungen wandelt dann das an den Schallempfänger gekoppelte Wandlersystem des Mikrofons in elektrische Schwingungen um (Abb. 4/3). Das Prinzip der Umwandlung von akustischen in mechanische Schwingungen ist das sog. Empfängerprinzip des Mikrofons, das Prinzip der anschließenden Umwandlung in elektrische Schwingungen ist das Wandlerprinzip des Mikrofons (Abb. 4/3). [Görne, 2004], [Wuttke, 2000]
4.2 Mikrofone
143
Abb. 4/3. Prinzipieller Aufbau eines Mikrofons.
Das Empfängerprinzip eines Mikrofons wird von der Konstruktion der Mikrofonkapsel, der Art des Einbaus der Membran, bei Doppelmembranmikrofonen auch von dem elektrischen Zusammenwirken der beiden Membranen bestimmt. Die hauchdünne Membran ist straff eingespannt, außer bei sog. Bändchenmikrofonen, wo sie frei schwingt. Das Empfängerprinzip bedingt die Richtcharakteristik und das Verhalten im Nahfeld der Schallquelle, es bestimmt den Frequenzgang mit. Man unterscheidet die Empfängerprinzipien und damit die Mikro fone nach der Schallfeldgröße, die die Membran antreibt: –– Beim Druckempfänger bewegt der Schalldruck die Membran, er wirkt nur einseitig auf diese ein, es entsteht eine Kugelrichtcharakteristik. –– Beim Druckgradientenempfänger wird die Membran durch die Druckdifferenz zwischen Membranvorderseite und Membranrückseite bewegt, da der Schalldruck auf beide Membranseiten einwirkt; es können – je nach konstruktiver Gestaltung – verschiedene Richtcharakteristiken erzeugt werden: Nierenrichtcharakteristik, Kardioide genannt, Achterrichtcharakteristik, breite Niere, Superniere, Hyperniere oder Keule sowie alle Übergangsformen dazwischen. Für einen möglichst großen Abstand zwischen Signal- und Störspannung soll die Membranauslenkung möglichst groß sein. Die Schwingungsweite der Membran findet aber ihre Grenze, wenn die Verzerrungen eine gerade noch zulässige Größe erreichen. Bei zu großer Membranauslenkung entstehen Verzerrungen u. a. dadurch, dass die Membran durch ihre Trägheit und Steifigkeit den Schallschwingungen nicht mehr exakt folgen kann. Zwischen diesen beiden Grenzen, große Auslenkung für eine große Ausgangsspannung und möglichst kleine Auslenkung für geringe Verzerrungen, liegt die optimale Membranauslenkung. Dabei führt die Membran immer erzwungene Schwingungen aus und gerät nicht in Resonanz; das wird erreicht durch die Spannung und Masse der Membran und damit die Lage ihrer Eigenresonanz, durch Dämpfungselemente wie Luftpolster u. a. Von den verschiedenen Wandlerprinzipien finden bei Studiomikrofonen das elektrostatische Wandlerprinzip bei Kondensatormikrofonen Anwendung, das elektrodynamische Wandlerprinzip bei dynamischen Mikrofonen, dazu gehören Tauchspul- und Bändchenmi krofone.
144
4 Mikrofone und Lautsprecher
4.2.1 Eigenschaften von Mikrofonen Die Datenblätter der Mikrofonhersteller geben Auskunft über die Qualitätsmerkmale der Mikrofone, insbesondere handelt es sich um die nachfolgend erläuterten Eigenschaften [Wuttke, 1981, 1997]. Darüber hinaus spielen in der Praxis subjektiv bewertete Qualitäten eine nicht zu unterschätzende Rolle, ihr spezifischer Klang, ihre Brillanz, Schärfe, Wärme, Fülle, Mattigkeit u. ä. 4.2.1.1 Übertragungsfaktor, Übertragungsmaß, Empfindlichkeit Die Größe der Spannung, die von einem Mikrofon bezogen auf den einwirkenden Schalldruck abgegeben wird, wird durch den Übertragungsfaktor oder das Übertragungsmaß bzw. die Empfindlichkeit angegeben. Die folgenden Begriffe werden verwendet: Feld-Übertragungsfaktor und Feld-Übertragungsmaß Der Feld-Übertragungsfaktor bei einer bestimmten Frequenz – 1 kHz, wenn nichts anders angegeben ist – ist der Quotient aus der effektiven Ausgangsspannung und dem effektiven Schalldruck am Ort des Mikrofons, wenn dieses aus dem Schallfeld entfernt wird; in der Regel ist das Schallfeld für die Messung eine ebene Welle oder Direktschall, d. h. ein freies Schallfeld, weshalb dieser Faktor oder Koeffizient korrekt oft als Freifeld-Übertragungsfaktor bzw. -Koeffizient bezeichnet wird. Er wird angegeben in mV/Pa. 1 Pa (Pascal) entspricht einem Schalldruckpegel von 94 dB. Je höher der Faktor, desto empfindlicher ist also das Mikrofon. Das Feld-Übertragungsmaß ist der 20-fache Zehnerlogarithmus des Verhältnisses von Feld-Übertragungsfaktor zu einem Bezugsübertragungsfaktor von z. B. 1 V/Pa; er wird in dB angegeben. Feld-Leerlaufübertragungsfaktor und Feld-Betriebsübertragungsfaktor, Empfindlichkeit Man unterscheidet beim Feld-Übertragungsfaktor und -maß Leerlauf- und Betriebsgrößen, je nachdem, ob die Ausgangsspannung des Mikrofons als Leerlaufspannung mit einem sehr hochohmigen Abschlusswiderstand oder als Klemmenspannung unter betriebsmäßigem Abschluss mit Nennabschlussimpedanz (siehe Kap. 4.2.1.6) gemessen wird. Der FeldLeerlaufübertragungsfaktor liegt bei dynamischen Mikrofonen bei etwa 1 bis 2 mV/Pa, bei Kondensatormikrofonen zwischen 10 und 20 mV/Pa. Kondensatormikrofone geben damit einen um rund 10 bis 20 dB höheren Pegel als dynamische Mikrofone ab. 4.2.1.2 Übertragungsbereich Der Übertragungsbereich ist der für Tonaufnahmen nutzbare Frequenzbereich. Für ihn werden die vom Hersteller angegebenen Übertragungseigenschaften eines Mikrofons und deren Toleranzen angegeben. Die Übertragungsbereiche verschiedener Mikrofone können deshalb oft nicht direkt miteinander verglichen werden, weil z. B. unterschiedliche Toleranzen angegeben werden. Ein typischer Übertragungsbereich für Studiomikrofone ist 20 Hz bis 20 kHz, mindestens aber 40 Hz bis 16 kHz. Frequenzen unterhalb des Übertragungsbereichs werden bei Studiomikrofonen durch einen Hochpass weggefiltert, bei 15 Hz soll der Pegelabfall mindestens 12 dB betragen. Auch Frequenzen oberhalb des Übertragungsbereichs müssen
4.2 Mikrofone
145
vom Übertragungsweg ferngehalten werden; durch Demodulationseffekte erzeugen sie Störungen im Hörschallbereich. Oberhalb 40 kHz soll die Dämpfung größer sein als 20 dB. 4.2.1.3 Frequenzgang Der Frequenzgang oder die Frequenzkurve eines Mikrofons ist die grafische Darstellung der Abhängigkeit des Übertragungsmaßes von der Frequenz bei senkrecht auf die Membran auftreffendem Schall, die Messung erfolgt also im freien Schallfeld. Die Toleranzzone ist bei Studiomikrofonen im Allgemeinen mit ± 2 dB angegeben. Die beim Übertragungsmaß angegebene Toleranz bezieht sich auf das Übertragungsmaß bei 1 kHz. Frequenzgang im Direkt- und Diffusfeld Einer der Gründe, warum Mikrofone mit gleichen Frequenzkurven sich klangfarblich unterscheiden können, ist die Tatsache, dass die Bedingungen, unter denen die Frequenzkurve gemessen wird, nämlich bei frontal einfallendem Direktschall, nur bei der Aufnahme im Nahbereich der Instrumente Gültigkeit haben. Sobald das Mikrofon aus dem unmittelbaren Nahbereich der Schallquelle entfernt wird, erhöht sich der Diffusfeldanteil zunehmend. Der Diffusfeldfrequenzgang weicht aber normalerweise vom Direktfeldfrequenzgang ab, u. U. ganz erheblich. Der Diffusfeldfrequenzgang wird in Datenblättern üblicherweise aber leider nicht angegeben, wohl weil er nicht die Linearität des Direktfeldfrequenzgangs haben kann. Er kann zwar durch Mittelung der Richtcharakteristiken für die verschiedenen Messfrequenzen näherungsweise aus den Herstellerdaten ermittelt oder abgeschätzt werden, für den praktischen Anwender ist dies jedoch zu aufwändig. Wenn die verschiedenen Richtcharakteristiken jedoch erheblich voneinander abweichen, so kann daraus auf einen erheblichen Unterschied zwischen Direkt- und Diffusfeldfrequenzgang geschlossen werden. Abb. 4/4 zeigt die Frequenzgänge und die Richtcharakteristiken für verschiedene Frequenzen am Beispiel eines Studiomikrofons mit kleiner Membran. Direkt- und Diffusfeldfrequenzgang stimmen hier gut überein, d. h., dass die Klangfarbe sich mit der Entfernung nicht deutlich ändert. Der Pegel des Diffusfeldfrequenzgangs liegt in diesem Fall um 5 dB unterhalb des Pegels des Direkt- oder Freifeldfrequenzgangs, diese Differenz ist das Bündelungsmaß des Mikro fons (siehe Kap. 4.1.2.7). Auf den Unterschied von Direkt- und Diffusfeldfrequenzgang hat das Empfängerprinzip sowie die Konstruktion der Mikrofonkapsel Einfluss. Druckempfänger haben bei einem Membrandurchmesser um 16 mm, sog. Kleinmem branmikrofone, im Frequenzbereich um 10 kHz eine Anhebung des Übertragungsmaßes um etwa 6dB für Direktschall, der senkrecht auf die Membran trifft. In diesem Frequenzbereich ist die Membranausdehnung in der Größenordnung der Wellenlänge des Schalls; deshalb wird die Schallwelle an der Membran reflektiert, der Schalldruck auf die Membran verdoppelt sich dabei, was der Anhebung von 6 dB entspricht. Dieser Anstieg kann durchaus erwünscht sein, da er eine gewisse Klangpräsenz fördert. Der Diffusfeldfrequenzgang zeigt demgegenüber einen Höhenabfall; Schallwellen kleiner Wellenlänge werden nicht mehr um die Mikrofonkapsel herum gebeugt, das Mikro fon nimmt nicht mehr so viel rückwärtigen und seitlichen Schall auf, es wird für höhere Frequenzen zum Richtmikrofon. Der Höhenabfall wird dadurch reduziert, dass auch beim Diffusschall frontal eintreffende Schallanteile durch Reflexion um 6 dB angehoben werden.
146
4 Mikrofone und Lautsprecher
Abb. 4/4. Mikrofon-Frequenzgänge eines Druckgradientenempfängers für verschiedene Einfallsrichtungen und für Diffusschall. Der 0°-Frequenzgang ist der in Datenblättern der Hersteller angegebene Frequenzgang.
Man linearisiert nun durch Filterung entweder den Direktfeld- oder den Diffusfeldfrequenzgang oder stellt einen Kompromiss her; Studiomikrofone nach dem Druckempfängerprinzip haben also im Allgemeinen entweder –– einen geraden Direktfeldfrequenzgang, man nennt solche Mikrofone „freifeldentzerrt“, –– einen geraden Diffusfeldfrequenzgang, man nennt solche Mikrofone „diffusfeldentzerrt“, –– oder einen Kompromiss zwischen diesen Möglichkeiten. Abb. 4/5 zeigt ein Beispiel mit Diffusfeldentzerrung und damit einen weitgehend geraden Diffusfeldfrequenzgang. Grenzflächenmikrofone sind ebenfalls Druckempfänger (siehe Kap. 4.2.2). Wegen der bündig in eine größere Fläche integrierten Membran sind die Bedingungen für Schallreflexion, die bei üblichen Studiomikrofonen nur bei höheren Frequenzen erfüllt sind, bei diesen Mikrofonen für den gesamten Übertragungsbereich gegeben. Bei Grenzflächenmikro fonen sind also Direkt- und Diffusfeldfrequenzgang weitgehend gleich, was so bei keinem anderen Mikrofontyp zutrifft.
4.2 Mikrofone
147
Bei Druckgradientenempfängern gibt es zwischen Direktfeld- und Diffusfeldfrequenzgang keine physikalisch bedingten Unterschiede. Moderne, hochwertige Studiomikrofone haben deshalb zwischen den beiden Frequenzgängen nur geringe Abweichungen. Abb. 4/4 zeigt dies am Beispiel eines Studiomikrofons; im Gegensatz zum Druckempfänger zeigt hier das Diffusfeld sogar einen geringen Höhenanstieg bei 10 kHz.
Abb. 4/5. Beispiel der Frequenzgänge eines Druckempfängers (Kleinmembran) im Direktfeld und Diffusfeld bei Diffusfeldentzerrung.
Auch Mikrofonständer und -halterungen nehmen auf den Direktfeldfrequenzgang Einfluss. Durch Störungen des Schallfelds können kammfilterartige Störungen des Frequenzgangs von bis zu ± l dB entstehen. Nur die senkrechten Stangen im Bereich des Mikrofons verursachen solche Störungen, durch ausgefahrene waagrechte Ausleger können sie vermieden werden. Frequenzgang bei Nahbesprechung von Druckgradientenempfängern Richtmikrofone mit Nieren- oder Achterrichtcharakteristik oder deren Zwischenformen – Super- und Hypernieren, Keulen – sind sog. Druckgradientenempfänger. Diese Mikrofone haben für Mikrofonstandorte im direkten Nahfeld einer Schallquelle einen anderen Frequenzgang als für weiter entfernte Standorte, nämlich eine Überbetonung tiefer Frequenzen; man nennt diese in der Physik der Schallwellen begründete Erscheinung den Nahbesprechungseffekt eines Mikrofons. Die Tiefenanhebung beim Nahbesprechungseffekt ist umso größer, je tiefer die Frequenz und je kleiner der Mikrofonabstand ist. Die Anhebung setzt etwa da ein, wo der Mikrofonabstand kleiner als die Wellenlänge des auftreffenden Schalls wird. Sie kommt deshalb zustande, weil die Druckdifferenz zwischen Membranvorder- und -rückseite, die die Membran auslenkt, aus zwei Komponenten zusammengesetzt ist: –– die Fernfeldkomponente, das ist der Druckgradient, also die Druckdifferenz zwischen zwei Punkten im Schallfeld, die unabhängig von der Entfernung zur Schallquelle mit fallender Frequenz abnimmt, –– die Nahfeldkomponente, die unabhängig von der Frequenz mit zunehmender Entfernung von der Schallquelle abnimmt.
148
4 Mikrofone und Lautsprecher
Dieser Tiefenabfall der Fernfeldkomponente wird im Mikrofon elektrisch durch die Anhebung tiefer Frequenzen ausgeglichen. Die Nahfeldkomponente ist frequenzlinear, wird nun aber ebenfalls über die Tiefenanhebung der Fernfeldkomponente geführt. Daraus ergibt sich im Nahfeld eine ganz erhebliche Bassanhebung (Abb. 4/6); sie ist prinzipielle nicht vermeidbar.
Abb. 4/6. Fernfeld- und Nahfeldkomponenten des Druckgradienten einer Schallwelle.
Abb. 4/7 zeigt die Anhebung tiefer Frequenzen bei Nahbesprechung bei verschiedenen Mikro fonabständen, bei 54 cm, 10,8 cm und 5,4 cm. Sie ist bei Mikrofonen mit Achterrichtcharakteristik um 6 dB höher als bei Nierenmikrofonen. Nur bei Abständen unter 0,5 bis 1 m spielt der Nahbesprechungseffekt in der Praxis eine zu beachtende Rolle. Richtmikrofone, die für den Einsatz bei geringen Entfernungen vorgesehen sind, müssen die Anhebung tiefer Frequenzen, die durch den Nahbesprechungseffekt verursacht wird, ausgleichen. Sie sind im Allgemeinen bezüglich ihres Frequenzgangs auf eine Entfernung von etwa 10 cm optimiert, genauere Angaben fehlen meist in den Datenblättern der Hersteller. Sie heißen Solisten-, Gesangs- oder Nahbesprechungsmikrofone. Universalmikrofone haben oft einen Sprache/ Musik-Schalter, die Tiefen sind abgesenkt in Schalterstellung „Sprache“, linear ist der Frequenzgang in Stellung „Musik“. Bei sog. Zweiwegmikrofonen gelingt es durch konstruktive Maßnahmen, den Nahbesprechungseffekt geringer zu halten. Nahbesprechungsmikrofone haben für entfernte Schallquellen selbstverständlich eine den Klang färbende Absenkung tiefer Frequenzen, die sie für größere Mikrofonabstände ungeeignet machen; sie eignen sich aber besonders für die Nahbesprechung in lärmerfüllter Umgebung, weil sie den Raumlärm im Bereich tiefer Frequenzen zusätzlich dämpfen.
4.2 Mikrofone
149
Abb. 4/7. Anhebung tiefer Frequenzen durch den Nahbesprechungseffekt.
4.2.1.4 Störpegel Mikrofone geben grundsätzlich auch ohne Einwirkung von Schall eine geringe Spannung ab; sie wird generiert durch kleinste Bewegungen von Ladungsträgern in den Bauelementen des Mikrofons, in Widerständen, Halbleitern usw. Vor allem das sog thermische Rauschen oder Wärmerauschen des hohen Widerstands des Impedanzwandlers des Kondensatormi krofons gibt ein nahezu Weißes Rauschen ab, dessen Stärke von der Umgebungstemperatur und der Größe des Widerstands abhängt. Es handelt sich also um einen auch bei sog. digitalen Mikrofonen unvermeidlichen, in der Physik der Bauelemente des Mikrofons begründeten Störpegel. Er ist keineswegs vernachlässigbar klein, sondern zählt zu den wichtigen Qualitätsparametern eines Mikrofons. Ein Ersatzgeräuschpegel entspricht dem Pegel des Schalldrucks, gemessen in dBSPL (siehe Kap. 9.5) im Raum, in dem sich das Mikrofon befindet. Diese Spannung unbewertet als Störpegel zu behandeln und einen Störpegelabstand etwa zu einem Nutzsignal bei Vollaussteuerung zu definieren, macht keinen Sinn, weil dieses Rauschen zusammen mit dem akustischen Signal auftritt und damit nicht quantitativ, sondern qualitativ nach seiner Störwirkung in der Wahrnehmung durch das Gehör zu beurteilen ist. Dem Gehör bietet sich ein Geräusch, das sich in den aufzunehmenden Schall hineinmischt. Daher muss es auch subjektiv als Geräusch mit einer bestimmten Lautstärke behandelt werden, das unter Berücksichtigung der besonderen Eigenschaften des Gehörs zu erfassen ist; früher hat man deswegen auch den Begriff Ersatzlautstärke benutzt, er wurde anschaulich durch den Begriff Ersatzgeräuschpegel, auch Eigenrauschen, ersetzt. Ein weiterer Begriff hierfür ist der Äquivalentschalldruck bzw. -pegel. Tiefe und sehr hohe Frequenzen nimmt das Gehör weit schwächer wahr als den mittleren Frequenzbereich, wie die Kurven gleicher Lautstärkepegel zeigen (siehe Kap. 3.3.1, besonders Abb. 3/3 und 3/4). Bei Messungen wird das berücksichtigt durch vorgeschaltete Filter, die ein Spiegelbild darstellen zu den Kurven gleicher Lautstärkepegel. Hierfür gibt es verschiedene
150
4 Mikrofone und Lautsprecher
Normen, die sich genau (CCIR-bewertet bis 1991) oder weniger genau (A-bewertet) an die Kurven halten, demnach gibt es auch verschiedene Angaben für Messwerte für die Störpegel von Mikrofonen. Folgende Messwerte werden heute bei Studiomikrofonen angegeben: Ersatzgeräuschpegel bewertet nach CCIR Die Messung erfolgt unter Vorschaltung eines Filters nach [ITU-R BS.468], bis 1991 CCIR 468 – aber immer noch meist so zitiert – bzw. der identischen nationalen, aber zurückgezogenen Norm [DIN 45405] (1983) mit Quasispitzenbewertung (siehe Abb. 9/9). Die zu erwartenden Werte liegen bei etwa 25 dB ± 3 bis 4 dB entsprechend einer sehr leisen Umgebung; sie sollten möglichst niedrig sein. Ersatzgeräuschpegel A-bewertet Die Messung erfolgt unter Vorschaltung eines Filters mit A-Bewertung nach [DIN EN 60268] (2003), früher IEC 268, als Effektivwert (siehe Abb. 9/13)). Die zu erwartenden Werte liegen etwa 10 dB, gelegentlich bis 13 dB [Schneider, 1998] niedriger, also etwa bei 12 bis 15 dB ± 3 bis 4 dB; sie sollten natürlich ebenfalls möglichst niedrig sein. Diese vorteilhaft erscheinenden Werte findet man vielfach bei sog. Musikermikrofonen, also dynamischen Mikrofonen. Geräuschpegelabstand nach CCIR Die absoluten Werte des Ersatzgeräuschpegels, die dem Schalldruckpegel von Störschall entsprechen, sind für den Anwender nicht besonders anschaulich. Deshalb wurde auch ein Geräuschpegelanstand definiert, der sich auf einen Bezugswert des Schalldrucks bezieht; man hat dafür den runden Wert eines auf das Mikrofon einwirkenden Schalldrucks von 1 Pa gewählt [CCIR 468 bzw. ITU-R BS.468], das entspricht einem Schalldruckpegel von 94 dB. Dies ist der Schalldruckpegel eines sehr lauten Schallereignisses, z. B. in einer Diskothek, bei Aufnahmen kommen solche Pegel selten vor. Dieser Wert ergibt also einen sehr hohen Geräuschpegelabstand und ist somit ein „geschönter“ Wert. Bei einem Ersatzgeräuschpegel von z. B. 25 dB liegen die zu erwartenden Werte des Geräuschpegelabstands bei 94 dB − 25 dB = 69 dB. In der Praxis vermindert er sich z. B. um ca. 30 dB, wenn man einen Sprecher in 30 cm Entfernung mit 65 dB als Bezug nimmt. Geräuschpegelabstand A-bewertet Die A-Bewertung des Ersatzgeräuschpegels mit Effektivwertmessung ergibt bereits einen sehr günstig erscheinenden Wert. Zusammen mit dem sehr hohen Bezugswert von 94 dB Schalldruckpegel ergeben sich entsprechend eindrucksvolle Werte für den Geräuschpegelabstand. Hier kommen gleich zwei Maßnahmen zusammen, die die Messwerte als sehr günstig erscheinen lassen. Die zu erwartenden Werte liegen um nun bei 94 dB – 15 dB = 79 dB. Dynamikumfang Gelegentlich findet man Angaben über den Dynamikumfang eines Mikrofons. Dieser ist dann nicht wie der Geräuschpegelabstand auf 94 dB bezogen, sondern auf den Schalldruck, bei dem die Verzerrungen des Mikrofonsignals einen Wert von 0,5 oder 1 % erreichen, das sind Werte im Bereich von 130 bis 150 dB. Dabei entstehen Dynamikumfänge üblicher Studiomikrofone nach CCIR bzw. ITU-R BS.468 von weit über 100 dB, Werte, die keinen Bezug mehr haben zur Praxis.
4.2 Mikrofone
151
Magnetfeldstörfaktor Bei dynamischen Mikrofonen ist der störende Einfluss äußerer Magnetfelder von Interesse. Der Magnetfeldstörfaktor gibt die induzierte Spannung bei 5 μTesla und 50 Hz an. Mikrofone geringer Magnetfeldempfindlichkeit haben 3 bis 5 μV/μT. 4.2.1.5 Grenzschalldruck und Aussteuerungsgrenze Anstelle des Klirrfaktors wird bei Mikrofonen derjenige Schalldruck oder Schalldruckpegel angegeben, unterhalb dessen der Hersteller die Einhaltung eines bestimmten Klirrfaktors, meist 0,5 %, gelegentlich aber auch 1 %, bei 1 kHz, garantiert. Man bezeichnet diesen Schalldruck als Grenzschalldruck oder Aussteuerungsgrenze. Für Kondensatormikrofone liegt er zwischen etwa 40 und 200 Pa; dem entspricht ein Schalldruckpegel von 126 bis 140 dB. Dynamische Mikrofone können höchste Schalldrücke von etwa 150 bis 160 dB verarbeiten, ohne dass die Verzerrungen unzulässig ansteigen; deshalb wird bei ihnen oft auf die Angabe eines Grenzschalldrucks verzichtet. Die Verzerrungen entstehen nicht an der Mikrofonkapsel, sondern beim Impedanzwandler/Verstärker, der ja auch für den Ersatzgeräuschpegel verantwortlich ist. Dynamische Mikrofone haben keine elektronische Einheit und zudem eine robustere Membran. 4.2.1.6 Ausgangsimpedanz und Nennabschlussimpedanz Die Ausgangsimpedanz, Innen- der Quellwiderstand eines Kondensatormikrofons, beträgt etwa 40 bis 50 Ώ, bei dynamischen Mikrofonen liegt sie üblicherweise bei 200 bis 600 Ώ; die Angabe wird meist auf 1 kHz bezogen. Kondensatormikrofone haben systembedingt einen spannungsversorgten Impedanzwandler, mit dem die niedrige Impedanz realisiert wird; damit können sie über Mikrofonleitungen von mehreren hundert Metern angeschlossen werden. Dynamische Mikrofone haben keine Elektronik, ihre Spule bzw. ein Übertrager beim Bändchenmikrofon liefert direkt das symmetrische, erdfreie Ausgangssignal, das einen um 10 bis 20 dB niedrigeren Pegel als bei Kondensatormikrofonen hat; entsprechend sind längere Kabel störanfällig. Die Nennabschlussimpedanz eines Mi kro fons ist der elektrische WechselstromAbschlusswiderstand, mit dem das Mikrofon durch die Eingangsimpedanz des Mikrofon verstärkers der Regieanlage mindestens abgeschlossen werden soll; die kleinste zulässigen Abschlussimpedanz ist zugleich die höchst zulässige Belastung. Nur wenn die Nennabschlussimpedanz mindestens 10-mal höher ist als die Ausgangsimpedanz des Mikrofons, wirken sich Frequenzabhängigkeiten der Impedanzen mit Sicherheit nicht auf den Frequenzgang des Mikrofonsignals aus. Die vom Hersteller angegebenen Werte sollten also keinesfalls unterschritten werden. Beim Kondensatormikrofon liegen sie vielfach bei 1 kΩ, also rund dem 20-fachen der Abschlussimpedanz, bei dynamischen Mikrofonen z. B. bei 2 kΩ, empfohlen wird minimal das 5-fache. 4.2.1.7 Richtcharakteristik Der Feld-Übertragungsfaktor oder die Empfindlichkeit von Mikrofonen ist abhängig von der Richtung des eintreffenden Schalls, Mikrofone haben demnach eine sog. Richtcharakteristik, die immer auch von der Frequenz abhängt. Diese Eigenschaft erhalten sie durch ihre
152
4 Mikrofone und Lautsprecher
konstruktive Gestaltung, die Mikrofone mit sehr unterschiedlichen Richtcharakteristiken ermöglichen. Die Konstruktion legt fest, ob ein Mikrofon auf den Schalldruck anspricht und damit weitgehend kugelförmige Richtcharakteristik hat oder ob es auf den Druckgradienten, also auf die Differenz der Schalldrücke, die auf die Vorder- bzw. Rückseite der Mikro fonmembran einwirken, anspricht und damit nieren- oder achterförmige Richtcharakteristik bzw. deren Zwischenformen Super-, Hyperniere und Keule besitzt (siehe Kap. 4.2.1.8). Die Abhängigkeit der Mikrofonspannung bzw. des Mikrofonpegels von der Einfallsrichtung des Schalls wird durch verschiedene Begriffe erfasst, die [DIN 45590] definiert: Richtungsfaktor und Richtungsmaß Der Richtungsfaktor eines Mikrofons für eine bestimmte Frequenz und Richtung ist das Verhältnis des Feld-Übertragungsfaktors für eine ebene Schallwelle, die das Mikrofon aus einer bestimmten Richtung trifft, zu demjenigen aus der Bezugsrichtung (Richtung 0°, Bezugsachse, Symmetrieachse). Er ist dimensionslos. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Er wird in dB angegeben. Richtcharakteristik Erst die grafische Darstellung des Richtungsfaktors oder bevorzugt des Richtungsmaßes für alle Richtungen und einige wichtige Frequenzen, z. B. 125, 250, 500 Hz und 1, 2, 4, 8, 16 kHz, in einem Polarkoordinatensystem macht die Richtwirkung eines Mikrofons als Richtdiagramm für den Anwender anschaulich (Abb. 4/8). Da alle Richtcharakteristiken symmetrisch zur 0°-Richtung liegen, wird das Richtungsmaß vielfach für eine bestimmte Frequenz nur für eine Seite angegeben. Tatsächlich ist die Richtcharakteristik ein Schnitt durch eine dreidimensionale Darstellung, der rotationssymmetrisch zu der senkrecht die Membran schneidenden Achse verläuft. In Abb. 4/8 sind die Richtdiagramme auf Grund des Richtungsfaktors und Richtungsmaßes einander gegenübergestellt. Die Darstellung des Richtungsfaktors lässt die Richtcharakteristik deutlicher erscheinen als die Darstellung des Richtungsmaßes. Tab. 4/1 stellt einige Werte von Richtungsmaß und -faktor gegenüber. Tab. 4/1. Zusammenhang von Richtungsfaktor und Richtungsmaß bei Mikrofonen. Richtungsfaktor
entspricht dem Richtungsmaß
1,0 0,7 0,5 0,3 0,25
0 dB – 3 dB – 6 dB – 10 dB – 12 dB
Mi kro fone mit Richtwirkung werden eingesetzt, um Direktschall bevorzugt aus einer bestimmten Richtung aufzunehmen, den Diffusschall aus anderen Richtungen aber auszublenden. Um diese Eigenschaft mit einem einzigen Zahlenwert ausdrücken zu können,
4.2 Mikrofone
153
werden die Begriffe Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad verwendet, die aber ineinander umgerechnet werden können [DIN 45590].
Abb. 4/8. Richtdiagramme am Beispiel zweier Richtrohrmikrofone: 1. Darstellung des Richtungsmaßes, 2. Darstellung des Richtungsfaktors.
Bündelungsfaktor, Bündelungsmaß und Bündelungsgrad Diese drei Begriffe beziehen sich nur auf die Richtung vorne, also 0°, und erfassen die Richtwirkung eines Mikrofons mit einer einzigen Zahl. Der Bündelungsfaktor gibt an, wievielmal größer der Besprechungsabstand eines Mikrofons mit einer bestimmten Richtcharakteristik gegenüber dem eines Mikrofons mit kugelförmiger Richtcharakteristik sein kann, um das gleiche Verhältnis von Direktschall zu Diffusschall zu erhalten. Das Bündelungsmaß ist der l0‑fache Zehnerlogarithmus des Bündelungsgrads; er wird in dB angegeben. Der Bündelungsgrad schließlich betrachtet das Verhältnis der Schallleistungen, er ist das Quadrat des Bündelungsfaktors; für die praktische Betrachtung ist er am wenigsten anschaulich und nicht mit dem Bündelungsfaktor zu verwechseln. Tab. 4/2 zeigt die Zusammenhänge zwischen den drei Größen der Schallbündelung und wie sie sich auf den Mikrofonabstand bzw. die Ausblendung des Diffusschalls auswirken. Richtcharakteristiken in der Praxis Abb. 4/9 zeigt in räumlicher Darstellung die Hauptformen der Richtcharakteristiken, Abb. 4/10 die Richtdiagramme der Grundformen Kugel, Niere und Acht sowie der Zwischenformen zwischen Niere und Acht, nämlich Superniere, Hyperniere und Keule, es handelt sich um idealisierte Darstellungen, die unberücksichtigt lassen, dass in der Praxis die Richtdiagramme Frequenzabhängigkeiten zeigen. Während Nieren und Achten sowie ihre Zwischenformen noch relativ frequenzunabhängige Richtdiagramme haben, sind Kugeln und Keulen für Direktschall vergleichsweise erheblich frequenzabhängig; die in Abb. 4/10 dargestellten Kurven gelten in dem Frequenzbereich bis 1 kHz.
154
4 Mikrofone und Lautsprecher
Tab. 4/2. Bündelungsfaktor, -maß und -m für Richtmikrofone. Richtcharakteristik
Bündelungsfaktor [dimensionslos] Vervielfachung des Mikrofonabstands um den Faktor, verglichen mit einer Kugel
Bündelungsmaß [dB] Bündelungsgrad Pegel des Direktschalls [dimensionslos] über dem Pegel des Diffusschalls
Kugel breite Niere Niere Superniere Hyperniere Acht
1,0 1,4 1,7 1,9 2,0 1,7
0 dB 3,2 dB 4,8 dB 5,7 dB 6,0 dB 4,8 dB
1,0 2,0 3,0 3,7 4,0 3,0
Für den praktischen Einsatz der Richtmikrofone ist zunächst wichtig, dass die Richtwirkung nur für Direktschall wirksam ist, also nicht über den Hallradius (siehe Kap. 1.2.4) hinaus. Nur im Freien oder in sehr trockenen Räumen kann demnach ein Mikrofon aus größerer Entfernung Störschall aus anderen Richtungen als aus derjenigen der Schallquelle ausblenden. In sehr halligen Räumen können nur Keulen-Richtmikrofone bis zum zwei- bis dreifachen Wert des Hallradius noch diffusen oder störenden Schall ausblenden. Die Ausblendung von Störschall bzw. Nachhall ist umso besser, je näher das Mikrofon an die Schallquelle herangebracht wird.
Abb. 4/9. Hauptformen der Richtcharakteristik in idealisierter pseudo-dreidimensionaler Darstellung.
Das Verhältnis von Direktschall zu Diffusschall ist bei der Mikrofonaufnahme ein wichtiges Kriterium für die Wahl der geeigneten Richtcharakteristik. In relativ halliger Umgebung
4.2 Mikrofone
155
und/oder bei störenden Nebengeräuschen ist es bei Sprachaufnahmen praktisch immer, bei Musikaufnahmen vielfach wünschenswert, möglichst wenig Diffusschall aufzunehmen. Der Mikrofonabstand ist bei Richtmikrofonen für ein bestimmtes Verhältnis von Direkt- zu Diffusschall stets größer als bei ungerichteten Mikrofonen. Dieser Vergrößerungsfaktor ist in Abb. 4/11 für die verschiedenen Richtmikrofone angegeben. Er ist gleich dem Bündelungsfaktor des Mikrofons. Ein weiteres Kriterium für die Mikrofonwahl ist das Maß der Ausblendung bzw. Dämpfung von Schallquellen, die seitlich oder hinter dem Mikrofon sind; Direktschall von solchen Schallquellen wird entsprechend Tab. 4/3 gegenüber dem Schall von vorne gedämpft aufgenommen. Demnach hat die Niere die beste Rückwärtsdämpfung bei nicht allzu großer Seitwärtsdämpfung. Die Acht bietet die beste Seitwärtsdämpfung, ist aber nach hinten ebenso empfindlich wie nach vorne. Super- und Hyperniere stellen als Zwischenformen Kompromisse zwischen diesen beiden Richtcharakteristiken dar: die Superniere verbindet recht gute Rückwärtsdämpfung mit geringerer Seitwärtsdämpfung, bei der Hyperniere ist dies umgekehrt. Somit steht für jede Aufnahmesituation eine zu bevorzugende Richtcharakteristik zur Verfügung.
Abb. 4/10. Richtdiagramme von Mikrofonen (idealisierte Kurven).
156
4 Mikrofone und Lautsprecher
Abb. 4/11. Vergrößerungsfaktoren für die verschiedenen Richtmikrofone bei gleichem Direktschall/ Diffusschall-Verhältnis wie bei einem ungerichteten Mikrofon. Der Faktor ist bei Keulenrichtcharakteristik stark frequenzabhängig: für tiefe Frequenzen liegt er wie bei der Niere bei rund 1,7, bei hohen Frequenzen steigt er bis etwa 3,3.
Tab. 4/3. Spannungs- und Pegelverhältnisse für verschiedene Schalleinfallsrichtungen bei Richtmikrofonen, theoretische Werte. Schalleinfall
von vorne (0°) seitlich (±-90°) von hinten (±180°) beste Eignung für die Aufnahme situation
Spannung, Pegel bezogen auf die Spannung bzw. den Pegel des Schalls von vorne Niere
Superniere
Hyperniere
Acht
100 %, 0 dB 50 %, − 6 dB 0 %, − ∞ dB Schall von hinten soll ausgeblendet werden
100 %, 0 dB 38 %, − 9 dB 25 %, − 12 dB Schall von der Seite und besonders von hinten soll ausgeblendet werden
100 %, 0 dB 25 %, − 12 dB 50 %, − 6 dB Schall besonders von der Seite und von hinten soll ausgeblendet werden
100 %, 0 dB 0 %, − ∞ dB 100 %, 0 dB Schall von der Seite soll ausgeblendet werden, Schall von vorn und hinten soll in gleicher Wiese aufgenommen werden
4.2.1.8 Bauformen von Mikrofonen Im Studiobereich werden Kondensatormikrofone und dynamische Mikrofone eingesetzt, deren konstruktiver und elektrischer Aufbau in Kap. 4.2.1.9 behandelt werden. Auf Grund der gemeinsamen Empfängerprinzipien für Mikrofone ergeben sich auch gemeinsame Kon struktionsmerkmale, bedingt durch die Akustik des Schallempfangs und unabhängig von der Konstruktion des eigentlichen akustisch-elektrischen Wandlers des Mikrofons. Druckempfänger Abb. 4/12 zeigt ein schematisches Schnittbild des Aufbaus der Kapsel eines Druckempfängers. Das Innere der Kapsel ist durch die Membran von dem umgebenden Raum schalldicht getrennt; in der Kapsel herrscht wegen des Druckausgleichs durch eine kleine Öffnung der äußere Luftdruck, die raschen Druckschwankungen des Schalls werden dabei aber nicht ausgeglichen.
4.2 Mikrofone
157
Abb. 4/12. Prinzip des Aufbaus der Kapsel eines Druckempfängers.
Die Membran wird immer dann bewegt, wenn der Druck von außen auf die Membran vom Kapselinnendruck abweicht. Auch von hinten oder von der Seite auf die Kapsel auftreffender Schall verursacht Änderungen des Schalldrucks vor der Membran, wenn die Schallwellen um das Mikrofon gebeugt werden. Druck ist eine sog. skalare Größe, im Gegensatz zu vektoriellen Größen besitzt sie keine Richtungsinformation. Ein Druckempfänger nimmt Schallereignisse aus allen Richtungen in gleicher Weise auf, Druckempfänger haben also eine kugelförmige Richtcharakteristik. Die Richtcharakteristik erfährt durch drei Phänomene Abweichungen von ihrer idealen Form; sie wirken sich nur im Bereich höherer Frequenzen aus (Abb. 4/13): –– Abschattung: Schall, der rückwärtig oder von der Seite auf das Mikrofon trifft, wird durch die Kapsel abgeschattet, –– Auslöschung: Schall, der schräg auf die Membran auftrifft, löscht sich ganz oder teilweise auf der Membran aus, –– Druckstau: Schall, der senkrecht auf die Membran auftrifft, wird reflektiert und erzeugt dabei einen Druckstau, das bedeutet eine Druckverdopplung.
Abb. 4/13. Richtcharakteristik eines Druckempfängers bei verschiedenen Frequenzen.
158
4 Mikrofone und Lautsprecher
Abschattung: Schall wird nur dann um ein Hindernis gebeugt, wenn seine Wellenlänge groß verglichen mit dem Hindernis ist. Ist also die Wellenlänge des auf die Rückseite der Kapsel auftreffenden Schalls kleiner als der Durchmesser der Mikrofonkapsel, so entsteht ein mit steigender Frequenz zunehmender Schallschatten vor der Membran; das führt mit steigender Frequenz zu einer Ausblendung rückwärtigen, i. A. diffusen Schalls. Auslöschung oder Interferenz: Von vorne ankommende Schallwellen treffen senkrecht auf die gesamte Membranoberfläche gleichphasig auf. schräg ankommende Schallwellen hingegen treffen mit unterschiedlichen Phasenlagen auf die einzelnen Membranzonen, was zu einer teilweisen Aufhebung der Membranauslenkung, also zu einer teilweisen Auslöschung des Signals führt. Ist der Membrandurchmesser gleich der Wellenlänge, so wird exakt seitlich auftreffender Schall z. B. ganz ausgelöscht. Man nennt diesen Effekt Interferenz. Solche Auslöschungen engen also die Richtcharakteristik auf Keulenform ein. Bei Richtmikrofonen mit Keulenrichtcharakteristik, den sog. Richtrohrmikrofonen, wird der Interferenzeffekt auf mittlere Frequenzen ausgedehnt (siehe dazu unten). Schallabschattung und Auslöschungen ließen sich dadurch vermeiden, dass der Durchmesser der Membran kleiner gewählt wird als ein Viertel der Wellenlänge der höchsten zu übertragenden Frequenz, also kleiner als etwa 5 mm. Dem entgegen steht jedoch die Forderung nach einer möglichst großen Empfindlichkeit, die ihrerseits mit der Membrangröße zunimmt, so dass eine bestimmte Größe der Membran, das sind für Studiomikrofone etwa 15 mm, nicht unterschritten wird. Bei Miniaturmikrofonen kann man bei entsprechend geringerem Störabstand die Membran bis auf wenige mm verkleinern. Druckstau: Durch die Reflexion der Schallwelle an der Membran verdoppelt sich der Schalldruck auf die Membran und führt zu einem Höhenanstieg des Frequenzgangs um 6 dB, den Druckempfänger mit geradlinigem Diffusfeldfrequenzgang bei Schalleinfall von vorn grundsätzlich aufweisen. Der Höhenanstieg liegt mit seinem Maximum bei Mikrofonen mit einer kleinen Membran von ca. 15 mm Durchmesser um 15 kHz, bei sog. Großmembranmikro fonen mit ca. 30 mm bei 10 kHz. Druckgradientenempfänger Während die Membran des Schalldruckempfängers nur einseitig dem Schalldruck ausgesetzt wird, wirkt beim Druckgradientenempfänger der Schalldruck auf beide Seiten der Membran ein; nur wenn diese Drücke unterschiedlich sind, wird die Membran bewegt. Schall genau von der Seite z. B. bewegt die Membran nicht. Die Schalldruckdifferenz wird Schalldruckgradient oder Druckgradient genannt. Druckgradientenempfänger haben im Gegensatz zu Druckempfängern einen gerichteten Schallempfang; Gerichtete Mikrofone mit Ausnahme der Keule nützen die Eigenschaften dieses Empfängerprinzips. Der Druckgradientenempfänger in seiner einfachsten Form besteht also nur aus einer beidseitig für den Schall zugänglichen Membran. Eine solche Anordnung hat Achterrichtcharakteristik. Denn seitlich eintreffender Schall lässt keine Druckdifferenz an der Membran entstehen, Schall senkrecht von vorn oder hinten hingegen lenkt die Membran maximal aus. Durch Laufzeitglieder zwischen Membranvorderseite und -rückseite für den Schall oder durch Überlagerung von Achter- mit Kugelrichtcharakteristik können jedoch auch Mikrofone nach dem Druckgradientenprinzip mit Richtcharakteristiken in Form von Nieren sowie sog. Super- und Hypernieren konstruiert werden. Bei jedem Schalldruckunterschied an der Membran entsteht eine Luftbe-
4.2 Mikrofone
159
wegung in Richtung des niedrigeren Drucks: die Membran wird also analog zur Schallschnelle bewegt. Damit folgt auch die Spannung, die ein Druckgradientenmikrofon abgibt, proportional der Schallschnelle. Gelegentlich werden deshalb Druckgradientenempfänger vor allem im Ausland auch als Schnelleempfänger, engl. als Velocity Microphones bezeichnet. Bei einer Druckamplitude, die für alle Frequenzen gleich ist, steigen der Druckgradient und damit die Membranauslenkung zunächst mit der Frequenz an. Maximal ausgelenkt wird die Membran dann, wenn die mittlere Wegdifferenz zwischen Membranvorderseite A und -rückseite B einer halben Wellenlänge bzw. einer Phasendifferenz von 180° entspricht. Bei größerer Phasendifferenz wird die Auslenkung wieder geringer; bei 360° wird sie zu 0, um danach erneut anzusteigen (Abb. 4/14). Die mittlere Wegdifferenz ist abhängig von der Konstruktion der Mikrofonkapsel. Ohne zusätzliche Maßnahmen ist die Membranauslenkung also frequenzabhängig, sie hat einen sog. Omega-Gang. Um zu einer Membranauslenkung zu gelangen, die von den tiefsten bis zu den höchsten zu übertragenden Frequenzen in einfacher Weise mit der Frequenz zunimmt, wird die mittlere Wegdifferenz zwischen Membranvorder- und -rückseite so festgelegt, dass sie etwa der halben Wellenlänge der höchsten zu übertragenden Frequenz entspricht. Damit arbeitet das Mikrofon abgesehen von dem obersten Teil des Übertragungsbereichs im ansteigenden Teil der Frequenzkurve nach Abb. 4/14. Oberhalb der Frequenz fÜ wird das Druckgradientenprinzip unwirksam, das Mikrofon wird zu einem Druckempfänger. Um das Ansteigen der Membranauslenkung von tiefen zu hohen Frequenzen zu korrigieren, wird nun eine Dämpfung eingesetzt, deren Wirkung ebenfalls mit der Frequenz zunimmt. Dafür werden nur akustischmechanische Maßnahmen angewendet, nämlich Massehemmung und Reibungshemmung.
Abb. 4/14. Entstehung von Schalldruckdifferenzen Δp1,2,3,4 und Phasendifferenzen φ zwischen zwei Punkten A und B bei vier verschiedenen Frequenzen in ebenen Schallwellen und Frequenzgang des Druckgradienten bzw. der Druckdifferenz Δp zwischen zwei Punkten mit dem Abstand 25 mm im ebenen Schallfeld.
160
4 Mikrofone und Lautsprecher
Massehemmung entsteht dadurch, dass eine bewegte Masse ihrer eigenen Bewegung durch ihre Trägheit Widerstand entgegensetzt. Dieser Widerstand ist umso größer, je schneller die Bewegung erfolgt. Die Masse bildet die bewegte Membran selbst, sie setzt also der Bewegung einen zunehmenden Widerstand entgegen, der mit der Geschwindigkeit und somit mit der Frequenz ansteigt. Reibungshemmung entsteht dadurch, dass – verursacht durch die Membranbewegungen – Luft durch enge Öffnungen der Kapselrückseite strömt. Dabei reiben die Luftmoleküle an den Wänden. Durch diese Reibung wird der Luftströmung und damit der Membranbewegung Widerstand entgegengesetzt. Die Reibung ist umso stärker, je schneller die Luft durch die Öffnungen strömt. Der Einfluss der Reibung auf die Luftbewegung und damit auf die Membran steigt also ebenfalls mit zunehmender Frequenz. Druckgradientenempfänger mit Achterrichtcharakteristik Die Mikrofonkapsel des Druckgradientenempfängers mit Achterrichtcharakteristik besteht aus einer beidseitig für den Schall frei zugänglichen Membran (Abb. 4/15).
Abb. 4/15. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Achterrichtcharakteristik.
Abb. 4/16. Richtcharakteristik eines Druckgradientenempfängers mit Achterrichtcharakteristik bei verschiedenen Frequenzen.
Bei seitlicher Beschallung der Membran entsteht zwischen Membranvorder- und Membranrückseite keine Druckdifferenz, das Mikrofon ist für seitlich auftreffenden Schall unempfindlich. Schall von vorn oder hinten führt dagegen zur größten Membranauslenkung. So
4.2 Mikrofone
161
entsteht die achterförmige Richtcharakteristik (Abb. 4/16). Sie ist über den gesamten Übertragungsbereich hinweg weitgehend unabhängig von der Frequenz. Anders als bei Druckempfängern führt Schall, der auf die Membranrückseite trifft, verglichen mit Schall von vorne zu gegenphasiger Auslenkung. Diese Gegenphasigkeit zwischen Schall von vorne und von hinten ermöglicht das Mikrofonverfahren der MS-Stereoaufnahmetechnik (Kap. 5.3.2.2) und Mikrofone, die in der Richtcharakteristik umschaltbar sind (Kap. 4.2.2.7). Mikrofone, die nur Achterrichtcharakteristik besitzen, gibt es nur wenige auf dem Markt. Meist steht diese Richtcharakteristik bei Mikrofonen zur Verfügung, die über umschaltbare Richtcharakteristiken verfügen. Die Achterrichtcharakteristik ist dann für den praktischen Einsatz vorteilhaft, wenn seitlicher Schall bestmöglich ausgeblendet werden soll oder wenn zwei Sprecher oder Instrumente, die einander gegenüberstehen, mit nur einem Mikrofon aufgenommen werden sollen. Druckgradientenempfänger mit Nierenrichtcharakteristik Nieren- oder Kardioidrichtcharakteristik eines Mikrofons kann auf zwei verschiedene Arten realisiert werden: –– mit einem sog. Laufzeitglied für rückwärtig auf die Membran auftreffenden Schall, –– durch Überlagerung von Kugel- und Achterrichtcharakteristik. Die Konstruktion mit einem Laufzeitglied ist die am meisten angewendete Technik. Abb. 4/17 zeigt das Bauprinzip eines solchen Nierenmikrofons. Dabei ist die Laufzeitdifferenz zwischen Membranvorder- und Membranrückseite von der Schalleinfallsrichtung abhängig.
Abb. 4/17. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied.
Bei Beschallung von vorn, unter 0̊°, hat der Schallanteil, welcher an die Rückseite der Membran gelangt, gegenüber dem auf die Vorderseite auftreffenden Schall eine Verzögerung, die durch die Wegdifferenz 2 1 bestimmt wird. Der so entstandene Druckunterschied führt zur Membranauslenkung (Abb. 4/18a). Bei Beschallung von hinten sind die Laufzeiten zur Membranorderseite und -rückseite etwa gleich. Es entsteht keine Druckdifferenz; dadurch kommt es zu keiner Membranbewegung (Abb. 4/18b). Bei Beschallung aus seitlicher Richtung, ± 90°, ist eine Laufzeitdifferenz vorhanden, die jedoch kleiner ist als die der Beschallungsrichtung 0° (Abb. 4/18c). Wird die Schallquelle von der Richtung 0° zur Rückseite, ± 180°, bewegt, so wird die Laufzeit- bzw. Druckdifferenz und damit die Membranauslenkung zunehmend geringer. So entsteht die nierenförmige Richtcharakteristik (Abb. 4/19).
162
4 Mikrofone und Lautsprecher
Abb. 4/18. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied bei verschiedenen Schalleinfallsrichtungen.
Abb. 4/19. Richtcharakteristik eines Druckgradientenmikrofons mit Nierenrichtcharakteristik bei verschiedenen Frequenzen.
Eine nierenförmige Richtcharakteristik kann auch durch ein weiteres Verfahren erzeugt werden: Die Kugelrichtcharakteristik eines Druckempfängers und die Achterrichtcharakteristik eines Druckgradientenempfängers werden einander überlagert. Dies kann durch Addition der Signale eines eng benachbarten Kugel- und Achtersystems geschehen oder dadurch, dass ein Teil der Membran nur mit der Vorderseite, der andere Teil beidseitig dem Schall ausgesetzt wird. Die Nierenrichtcharakteristik entsteht in beiden Fällen durch Überlagerung der Kugel- und Achterrichtcharakteristik (Abb. 4/20). Durch den Richtfaktor r in Polarkoordinaten ausgedrückt heißt das: –– Richtfaktor der Kugel: rK = 1/2 –– Richtfaktor der Acht: rA = 1/2 ⋅ cos φ –– Richtfaktor der Niere: rN = rK + rA = 1/2 ⋅ (1 + cos φ)
4.2 Mikrofone
163
Abb. 4/20. Nierenrichtcharakteristik als Summe von Kugel- und Achterrichtcharakteristik.
Druckgradientenempfänger mit Super- und Hypernierenrichtcharakteristik Die Richtcharakteristik der Nierenmikrofone kann durch einfache konstruktive Maßnahmen so verändert werden, dass die Ausblendung von seitlich auftreffendem Schall erhöht, zugleich aber von hinten auftreffender Schall weniger gedämpft wird als bei der Niere. Es entstehen damit Richtcharakteristiken, die zwischen Niere und Acht liegen. Diese Zwischenformen können bei der Anwendung eines Laufzeitglieds durch geringere Laufzeiten erreicht werden, bei der Überlagerung von Kugel- und Achterrichtcharakteristik durch einen größeren Anteil der Acht. Bei der Richtcharakteristik der Superniere ergibt seitlicher Schall 38 % bzw. – 9 dB der Spannung bei Schalleinfall von vorne, Schall von hinten 25 % oder – 12 dB; bei der Hyperniere gibt das Mikrofon bei seitlichem Schall 25 % ab bzw. – 12 dB, bei Schall von hinten 50 % oder – 6 dB (Abb. 4/21, Tab. 4/2). Die Nierencharakteristik ist am günstigsten, wenn Schallquellen hinter dem Mikrofon ausgeblendet werden sollen. Die Hyperniere bevorzugt noch etwas stärker den unter 0°, also von vorn einfallenden Schall gegenüber dem Diffusschall, vermag demnach z. B. den Direktschall eines Sprechers oder Solisten noch etwas mehr gegenüber dem Nachhall hervorzuheben. Niere und Acht verhalten sich bezüglich des Diffusschalls gleich, sie nehmen den diffusen Schall um nahezu 5 dB gedämpft auf, die Superniere um fast 6 dB, die Hyperniere schließlich um 6 dB. Denkt man sich den Aufnahmeraum durch eine Fläche in Vergrößerung der Mikrofonmembran in einen vorderen und einen hinteren Halbraum geteilt, so stellt die Superniere den Sonderfall dar, bei dem der Unterschied der aus den beiden Halbräumen aufgenommenen Schallanteile am größten ist. Mit dem Richtmikrofon kann man einen größeren Mikrofonabstand wählen, ohne dass der Direktschallanteil und damit die Durchsichtigkeit und Präsenz leiden: Verglichen mit einem Mikrofon mit Kugelcharakteristik darf der Abstand für Niere und Acht das l,7-fache, für die Superniere das l,9-fache und für die Hyperniere das 2-fache betragen (Abb. 4/11), es
164
4 Mikrofone und Lautsprecher
handelt sich um den Bündelungsfaktor (siehe Kap. 4.2.1.7). Die Schallanteile, die von hinten auf die Super- oder Hyperniere auftreffen, sind wie bei der Acht gegenüber Schallanteilen von vorn um 180° in der Phase gedreht.
Abb. 4/21. Richtcharakteristik, a. Niere, b. Hyperniere, c. Superniere.
Richtrohrmikrofone oder Interferenzempfänger mit Keulenrichtcharakteristik Für den Fernsehton, für Beschallungen oder für Live-Aufnahmen auf der Bühne werden Mikrofone mit möglichst hoher Richtwirkung benötigt. Solche Mikrofone werden durch Anwendung des Interferenzprinzips meist in Zusammenwirkung mit einem Druckgradientenempfänger mit Nieren- oder Supernierencharakteristik verwirklicht. Vor der Membran ist ein Richtelement angeordnet. Das Richtelement besteht aus einem seitlich geschlitzten oder gelochten, vorne offenen Rohr (Abb. 4/22).
4.2 Mikrofone
165
Abb. 4/22. Prinzipieller Aufbau des Interferenzempfängers.
Die Richtwirkung eines solchen Mikrofons kommt dadurch zustande, dass Schallanteile aus Richtung der Rohrlängsachse kommend sich im Rohr gleichphasig addieren; Schallanteile, die aus anderen Richtungen eintreffen, werden in der Phase verschoben überlagert und löschen sich dadurch gegenseitig je nach Phasenlage mehr oder weniger aus. Die akustische Wirkungsweise des Richtrohrs ist also dieselbe wie bei den Auslöschungen von schräg auf die Membran eines Druckempfängers auftreffendem Schall (siehe Kap. 4.2.1.8), jedoch ist beim Richtrohr der Membrandurchmesser akustisch auf die Länge des Richtrohrs ausgedehnt. Die entstehende Keulenrichtcharakteristik und damit die Bündelungsfaktor ist abhängig vom Verhältnis der Länge des Richtelements zur Wellenlänge des aufgenommenen Schalls. Die Richtwirkung nimmt demnach mit der Länge des Richtrohrs und der Frequenz zu. Bei tiefen Frequenzen entspricht sie der Niere bzw. Superniere; mit steigender Frequenz engt sie sich zunehmend ein (Abb. 4/23). Wie die Super- und Hyperniere ist auch bei der Keule rückwärtig einfallender Schall in der Phase gedreht.
Abb. 4/23. Richtcharakteristik eines Druckgradientenempfängers mit Richtrohr.
166
4 Mikrofone und Lautsprecher
Beim praktischen Einsatz der Interferenzempfänger oder meist bezeichnet als Richtrohrmi krofone sind einige Besonderheiten zu beachten: Die Richtwirkung kann sich wie bei allen Richtmikrofonen nur solange auswirken, wie für die Aufnahme noch ausreichend Direktschall zur Verfügung steht; im Fernfeld kann das Mikrofon bei halligen Räumen also keinen Gewinn bringen. Auf Grund des engen Aufnahmebereichs und seiner starken Frequenzabhängigkeit kann der Einsatz bei bewegten Schallquellen vor allem bei geringerem Abstand zu Klangfarbenänderungen, abhängig von den Bewegungen, führen. Richtrohrmi kro fone sollten nur da verwendet werden, wo sie tatsächlich Vorteile zeigen. Superrichtrohrmikrofon Eine erhebliche Verbesserung der Richtwirkung von Richtrohrmikrofonen wird dadurch erzielt, dass dem Richtrohr ein zweites Mikrofonsystem mit Nierencharakteristik hinzugefügt wird, das, nach hinten gerichtet, Schall aufnimmt, der in einer digitalen Signalverarbeitung mit dem Schall des nach vorn gerichteten Systems verrechnet, also subtrahiert wird. So können Diffusschallkomponenten auch im tiefen und mittleren Frequenzbereich, wo das einfache Richtrohr nicht oder wenig wirksam ist, stark unterdrückt werden. Im Ergebnis wird gerade in den Frequenzbereichen, in denen konventionelle Richtrohre unbefriedigende Ergebnisse liefern, das Direktschall-Diffusschallverhältnis erheblich verbessert. Erreicht wird damit in dem genannten Frequenzbereich eine Absenkung des Diffusschallpegels gegenüber einer Kugel um ca. 12 dB; die Hyperniere als die am stärksten den Diffusschall unterdrückende Richtcharakteristik erreicht zum Vergleich einen Wert von ca. 6 dB. [Wittek, 2010] Druckgradientenempfänger als breite Niere Mit der sog. breiten Niere steht eine Richtcharakteristik zur Verfügung, die zwischen Niere und Kugel einzuordnen ist; eine zutreffendere Bezeichnung wäre wohl breite Kugel, denn in der Praxis ist diese Richtcharakteristik eher eine Alternative zur Kugel. Die breite Niere bietet bei weitgehend frequenzunabhängiger Richtcharakteristik (Abb. 4/24) vor allem in klangfarblicher Hinsicht interessante Vorteile: Die Aufnahme tiefer Frequenzen ist besser als bei Nieren, wenngleich nicht ganz so gut wie bei Kugeln als Druckempfänger; andererseits kann sie vorteilhaft eingesetzt werden bei stark tiefenbetontem Nachhall, den sie etwas abmildert. Der Nahbesprechungseffekt ist weniger ausgebildet als bei Nieren. Direkt- und Diffusfeld sind wie bei Nieren klangfarblich sehr ähnlich, weil der Richtfaktor weitgehend unabhängig von der Frequenz ist. Insgesamt ergibt dies einen wärmeren Klang der breiten Nieren. Die Dämpfung nach hinten liegt bei ca. 10 dB, im Vergleich zur Niere ist sie also deutlich geringer, seitlich verhalten sich breite Niere und Niere ganz ähnlich mit einer Dämpfung von rund 6 dB. Als Stützmikrofon muss deshalb der Abstand etwas geringer als bei Nieren gewählt werden. Für das XY-Aufnahmeverfahren ist das Mikrofon nicht geeignet, aber sehr vorteilhaft für das MS-Verfahren. 4.2.1.9 Wind- und Poppstörungen Wenn Wind oder allgemein bewegte Luft auf die Mikrofonmembran trifft, aber auch, wenn ein Mikrofon in ruhender Luft bewegt wird, also z. B. auch bei schnellen Bewegungen der Mikro fonangel, können Luftwirbel bzw. der Winddruck die Membran u. U. erheblich bewegen; das
4.2 Mikrofone
167
führt zu gravierenden Störgeräuschen [Wuttke, 1985/1]. Solche Störungen bezeichnet man als Windstörungen. Wind in diesem Sinne kommt turbulent, also verwirbelt aus allen Richtungen, man kann ein Mikrofon nicht aus dem Wind drehen.
Abb. 4/24. Richtcharakteristik der breiten Niere.
Bei Nahbesprechung dagegen entstehen impulsartige Luftströmungen bei sog. Popplauten, also Explosivlauten wie K, P, und T, die aus einer definierten Richtung kommen als gleichgerichtete, sog. laminare Strömung. Die dadurch verursachten Störungen werden Poppstörungen genannt. Nur bis ca. 10 cm vor dem Mund sind Poppstörungen laminar, bei größeren Entfernungen gehen sie in Turbulenz, also Windstörungen über. Im Bereich laminarer Strömung kann man das Mikrofon aus dem Wind drehen, seine Membran also vorteilhaft parallel zur Windrichtung ausrichten. Schall von Wind- und Poppstörungen hat vor allem im Frequenzbereich bis 100 Hz, abnehmend bis 1 kHz hohe Pegel, aber auch im Infraschallbereich unter 16 Hz. Dies führt zu hohen Auslenkungen der Membran und damit zu hohen Aussteuerungen, die nur teilweise angezeigt werden oder hörbar sind, und damit zu starken Verzerrungen. Übertrager und andere Bauelemente werden übersteuert, in Pegelspitzen wird das Signal auch unterbrochen, man sagt, das Mikrofon wird zugestopft. Ohne Wind- oder Poppschutz sind Druckempfänger wegen der stark gespannten Membran deutlich, um 10 bis 20 dB, unempfindlicher als Druckgradientenempfänger, am empfindlichsten sind ohne Gegenmaßnahmen dynamische Richtmikrofone, da bei ihnen die Membran am weichsten eingespannt ist. Es gibt eine Reihe von wirksamen Gegenmaßnahmen gegen diese Störungen: Die Verwendung eines Windschutzes ist grundsätzlich empfehlenswert oder unerlässlich bei Aufnahmen im Freien, bei Verwendung der Mikrofonangel und bei Nahbesprechung von Mikrofonen. Allgemein sollten die Tiefen durch das Trittschallfilter am Mikrofon bzw. Mikro fonverstärker auf die höchste einstellbare Frequenz eingestellt werden. Die mechanischen Schutzvorrichtungen richten sich bei optimalen Einsatz nach dem Mikrofontyp und der Situ-
168
4 Mikrofone und Lautsprecher
ation: Kondensatormikrofone sind zwar vom Prinzip her unempfindlicher, jedoch verfügen dynamische Mikrofonkapseln grundsätzlich über einen integrierten Wind- und Poppschutz. Zur Verminderung der Störungen werden Wind- und Nahbesprechungsschutzkörbe verwendet (Abb. 4/25). Sie reduzieren die Windgeschwindigkeit und damit die Störungen, wirken dabei auf den Nutzschall verhältnismäßig wenig ein. Die Wirksamkeit eines Schutzkorbs steigt mit seiner Größe, wobei die verwendeten Materialien ebenfalls von Bedeutung sind. In der Praxis können Dämpfungen der Windstörungen um 20 bis 30 dB erreicht werden. Wirksame Windschutzkörbe verändern die Richtcharakteristik und den Frequenzgang der Mikrofone geringfügig. Zwischen Wind- und Nahbesprechungsschutz wird im Allgemeinen nicht unterschieden. Druckmikrofone werden besser durch Vollschaumstoff, gerichtete Mikrofone durch Hohlschaumstoff oder Körbe geschützt. Ein fellartiger sog. Windjammer über einen Korb gezogen ist der wirksamste Schutz. Im Studio sind gegen Poppstörungen sog. Poppschirme am wirksamsten, sie beeinflussen den Klang praktisch nicht, können aber nur in Zusammenhang mit Mikrofonständern eingesetzt werden, also bei statischen Aufnahmesituationen, nicht auf der Bühne. Ein Großmembranmikrofon mit Poppschirm ist schon fast das Sinnbild für Gesangsaufnahmen im Studio.
Abb. 4/25. Verschiedene Ausführungen von Wind- und Poppschutzvorrichtungen.
4.2.1.10 Störungen durch Körperschall Schwingungen, verursacht durch Schritte, schlagende Türen, Verkehrsmittel u. ä. werden über den Fußboden und den Mikrofonständer auf die Mikrofonkapsel übertragen und bewegen den Mikrofonkörper relativ zur Membran. Unabhängig von der genauen Ursache spricht man meist von Trittschall. Hoch gespannte Membranen wie bei der Druckkugel sind weniger empfindlich, sie folgen besser den Bewegungen des Gehäuses. Die Störungen betreffen wie bei Wind den tiefsten Frequenzbereich, daher die Bezeichnung Trittschallfilter für einen Hochpass. Maßnahmen gegen Trittschall sind Mikrofonspinnen, in denen die Mikrofone federnd gehalten werden und Gummifüße an Stativen; der höhenverstellbare Stab des Stativs darf den Boden nicht berühren. Reibgeräusche an der Kleidung und am Mikrofonkabel sind ebenfalls Körperschall. Gegen sie schützt am besten die Verwendung von Druckempfängern; durch die zu diesem Zweck schwere Ausführung des Gehäuses dynamischer Mikrofone verringert sich deren Empfindlichkeit. Die Kabel sollten bei Handmikrofonen stets mit Schlaufen, also entspannt, gehalten werden.
4.2 Mikrofone
169
4.2.2 Kondensatormikrofone Der in der Tonstudiotechnik am meisten eingesetzte Mikrofontyp ist das Kondensatormikro fon oder elektrostatische Mikrofon; es bietet eine Qualität der Schallwandlung und Schallübertragung, die an der Grenze des physikalisch Möglichen arbeitet. Kondensatormikrofone haben einen weitgehend frequenzunabhängigen Übertragungsfaktor und geringe Verzerrungen und Körperschallempfindlichkeit, benötigen aber eine Betriebsspannung zum Erhalt der Ladung des Kondensators und zur Versorgung des Impedanzwandlers und Verstärkers im Mikrofon. Konstruktiv bilden eine schwingungsfähige, vom Luftschall bewegte Membran als eine der Elektroden und eine feste Gegenelektrode zusammen einen Kondensator, dessen Kapazität sich entsprechend den Schwingungen der Membran ändert; denn die Kapazität eines Kondensators hängt u. a. vom Abstand der Kondensatorplatten ab. Die Membran besteht aus einer 1 bis 10 μm starken Metallfolie oder metallbedampften Kunststofffolie. Ihr Abstand von der festen Gegenelektrode beträgt 5 bis 50 μm. Ihr Gewicht bestimmt die Einschwingzeit, sie ist umso kürzer, je leichter die Membran ist. Das Gewicht der Membran von Kondensatormi krofonen liegt bei wenigen mg, was ganz wesentlich die hohe Qualität der Kondensatormi krofone begründet; die Membran dynamischer Mikrofone hingegen wiegt etwa das 20-fache, entsprechend kann sie schnellen Einschwingvorgängen weniger folgen. Eine Variante des Kondensatormikrofons ist das Elektretmikrofon oder dauerpolarisierte Mikrofon, das keine externe Spannungszuführung benötigt, sondern lediglich eine Batterie zur Speisung des mit dem Mikrofon konstruktiv vereinten Impedanzwandlers. Bei diesen Mikrofonen ist die Ladung des Kondensators in Kunststofffolien „eingefroren“, ähnlich wie in einem Dauermagneten der Magnetismus. Elektretmikrofone sind heute beherrschend in allen Bereichen der Sprachkommunikation, sie sind bei relativ guter Klangqualität vornehmlich als Miniaturmikrofone in hohen Stückzahlen preisgünstig als sog. MEMS herzustellen. Im Tonstudiobereich konnten sich Elektretmikrofone nicht durchsetzen. Sie finden da Verwendung, wo aus praktischen Gründen keine Mikrofonspeisespannung zur Verfügung steht und dynamische Mikrofone nicht benutzt werden können oder sollen. 4.2.2.1 Spannungsversorgung Die Kondensatormikrofone werden über zweiadrige, geschirmte Mikrofonkabel an die Mikro fonverstärker der Regieanlage angeschlossen. Die Versorgungsspannung für den Betrieb der Mikrofone wird durch Mehrfachnutzung der Mikrofonleitung, also ohne besondere Versorgungsleitungen bereitgestellt. Zwei verschiedene Speisungsarten sind dabei möglich: Phantom- oder Mittelpunktspeisung und Tonaderspeisung. Beide Speisungsarten haben bestimmte Vor- und Nachteile (Tab. 4.4). Nachdem die beiden Verfahren nach Entwicklung der ersten transistorisierten Mikrofone in den 1960er Jahren zunächst konkurrierend nebeneinanderstanden, hat sich im Tonstudiobereich die Phantomspeisung mit 48 V (P 48) vollkommen durchgesetzt, da sie qualitativ und betrieblich überlegen ist, insbesondere geringere Störanfälligkeit zeigt und kompatibel ist mit dem Anschluss dynamischer Mikrofone. Die Tonaderspeisung hat im Studio keine Bedeutung mehr, wird aber für mobile Tonaufnahmen bei Film und Fernsehen als Tonaderspeisung mit 12 V (T 12) nach [DIN 45595] wegen
170
4 Mikrofone und Lautsprecher
des 12-V-Batteriebetriebs noch verwendet. Röhrenmikrofone (siehe Kap. 4.2.4.3) erfordern zur Erzeugung der benötigten Heiz-, Anoden- und Polarisationsspannungen stets ein eigenes Netzteil über spezielle mehradrige Kabel. Bei der Phantomspeisung nach [IEC 268-15/DIN 45596], seit 2018 [DIN EN IEC 61938], wird die Versorgungsspannung des Mikrofons von 12, 24 oder meist 48 V parallel über die beiden Adern hin und über den Kabelschirm zurück dem Mikrofon zugeführt (Abb. 4/26). Beim Anschluss des Mikrofons wird über die symmetrische Mikrofonleitung eine Brückenschaltung hergestellt: die beiden Adern a und b bilden mit dem Kabelschirm einen Phantomkreis; vier gleichgroße Widerstände stellen den geforderten Brückenabgleich her und sollen bei der 48-V-Versorgung je 6,8 kΩ, bei der 12-V-Versorgung je 680 Ω betragen. [Wuttke, 1998] Tab. 4/4. Phantom- und Tonaderspeisung bei Kondensatormikrofonen. technische Merkmale
Phantomspeisung nach IEC 268-15/DIN 45 596, seit 2018 DIN EN IEC 61938
Tonaderspeisung nach DIN 45 595
Spannungsversorgung
48 V (P 48), meist tolerant für 9 bis 52 V
12 V (T 12), auch 24 V (T 24)
Stromzuführung
gemeinsam über beide Adern, Rückführung über den Kabelschirm
nur über die a-Ader, Rückführung über die b‑Ader des Mikrofonkabels, der Kabelschirm ist frei von Gleichstrom
Symmetrie
nur für symmetrischen Verstärkereingang
für symmetrischen und unsymmetrischen Verstärkereingang
Anschluss dynamischer Mikrofone
ohne besondere Maßnahmen möglich, da keine Gleichspannung zwischen den beiden Adern des Mikrofonkabels liegt
die Speisespannung muss abgeschaltet werden, da sie die Aufnahme verzerren und zur Beschädigung des Mikrofons führen kann
Umpolen der Leitung
zulässig
nicht zulässig
Speisung mehrerer Mikro keine Weiche erforderlich fone aus einer Stromquelle
Speisungsweiche erforderlich
Störspannungen aus der Speisung
überlagern sich nicht der Modulation
überlagern sich direkt der Modulation
Strom maximal
10 mA
10 mA
Spannungszuführung über 2 mal 6,8 kΩ bei 48 V, gepaarte Widerstände 2 mal 680 Ω bei 12 V
2 mal 180 Ω
Die Versorgungsspannung von 48 V liegt also zwischen den Tonadern a bzw. b und dem Kabelschirm, zwischen a und b besteht keine Gleichspannung. Dynamische Mikrofone können deshalb ohne weiteres in symmetrischer Schaltungstechnik angeschlossen werden, ohne dass die Versorgungsspannung abgeschaltet werden muss; unsymmetrische dynamische Mikrofone können nicht angeschlossen werden. Da keine Spannung zwischen den
4.2 Mikrofone
171
Adern liegt, haben auch Schwankungen der Versorgungsspannung keinen Einfluss auf das Tonsignal; eine Restwelligkeit der Phantomspannung ist deshalb unschädlich. Auch Störspannungen, die in den Kabelschirm induziert werden, haben geringen Einfluss. An einem Speisegerät können ohne besondere Entkopplungsmaßnahmen mehrere Mikrofone angeschlossen werden. An die Brückenwiderstände werden bezüglich ihrer Toleranz keine hohen Anforderungen gestellt, ± 0 % sind zulässig. Jedoch sind die Anforderungen an die Gleichheit der Widerstände außerordentlich hoch, um Gleichspannungen zwischen den Adern zu unterbinden. Ist die Gleichheit der Widerstände nicht erfüllt, erhalten die Übertrager von Mikro fon und Regieanlage, soweit vorhanden oder nicht durch Entkoppelungskondensatoren gleichstromgeschützt, eine Gleichspannung, die zu Verzerrungen führt. Die zulässige Größe der Restgleichspannung darf in der Praxis umso größer sein, je größer die Eingangsübertrager dimensioniert sind. Auch wenn am Regiepulteingang Entkoppelungskondensatoren vorhanden sind oder wenn die Eingangsschaltung ohne Übertrager aufgebaut ist, müssen die Widerstände exakt gepaart sein, damit Störungen, die auf den Kabelschirm gelangen, weitgehend unwirksam bleiben und dadurch die besonderen Vorteile der Phantomspeisung erhalten bleiben.
Abb. 4/26. Schaltung der Phantomspeisung.
Bei der Tonaderspeisung nach [DIN 45595] werden für die Zuführung der Versorgungsspannung die beiden Tonadern a und b der Mikrofonleitung benutzt. Damit nimmt der Versorgungsstrom denselben Weg wie der Tonfrequenzstrom. Über zwei gleich große Widerstände von je 180 Ω wird die Tonader a mit dem Pluspol, die Tonader b mit dem Minuspol des Mikro fonnetzgeräts verbunden. Um die auf den Tonadern befindliche konstante Gleichspannung von 12 V vom Eingangsübertrager des nachfolgenden Mikrofonverstärkers fernzuhalten, sind Trennkondensatoren eingefügt. 4.2.2.2 Mikrofon-Vorverstärker mit analogem Ausgang Die mechanischen Schwingungen der Membran des Kondensatormikrofons müssen in elektrische Schwingungen umgewandelt werden. Der Mikrofon-Vorverstärker ist konstruktiv mit dem eigentlichen, dem akustischen Schallempfänger vereint. Er hat die Aufgabe, ein für die
172
4 Mikrofone und Lautsprecher
Weiterleitung geeignetes elektrisches Signal zur Verfügung zu stellen; bei der sog. Niederfrequenzschaltung gehört dazu auch eine Impedanzwandlung, bei der sog. Hochfrequenzschaltung eine Demodulation des über die Membran erzeugten elektrischen Signals. Dafür hat sich weitgehend die sog. Niederfrequenzschaltung durchgesetzt, daneben wird auch die Hochfrequenzschaltung verwendet. Für den Anwender ist dies unwesentlich, es handelt sich um herstellerspezifische Unterschiede. [Wuttke, 2000] Moderne Kondensatormikrofone haben eine transformatorlose oder eisenlose Endstufe, was zu folgenden Vorteilen der Übertragungsqualität gegenüber älteren mit Ausgangstransformator bestückten Verstärkern führt: Die Verzerrungen im tiefen Frequenzbereich sind ebenso gering wie im übrigen Übertragungsbereich; die Ausgangsimpedanz bleibt bis zur oberen Grenze des Übertragungsbereichs konstant; das Mikrofon ist gegenüber äußeren Magnetfeldern unempfindlich; der Amplituden- und Phasenfrequenzgang sowie Verzerrungen sind gegenüber Schaltungen mit Transformator verbessert, schließlich sind solche Verstärkermodule kleiner und leichter. Niederfrequenzschaltung Bei dieser Schaltungsvariante wird die Mikrofonkapsel über einen Widerstand auf eine feste Gleichspannung, die sog. Polarisationsspannung, die zwischen 40 und 200 V liegen kann, aufgeladen. Trifft eine Schallwelle auf die Membran, so ändert sich die Kapazität des Kondensators im Rhythmus der Schallschwingungen. Das führt zu einem entsprechenden Ladungsausgleich und damit zu einer entsprechenden Wechselspannung am Widerstand R (Abb. 4/27). Der Spannungsabfall am Widerstand ist zur Änderung der Kapazität und zur angelegten Gleichspannung proportional.
Abb. 4/27. Prinzipschaltbild des Kondensatormikrofons in Niederfrequenzschaltung.
Die Anordnung stellt eine RC-Schaltung als Hochpass dar, deren untere Grenzfrequenz unterhalb des Frequenzbereichs des Mikrofons, also unter 20 Hz, liegen muss. Bei einer Kondensatorkapazität zwischen 100 und 20 pF muss der Widerstand einen Wert zwischen 80 und 400 MΩ haben. An eine so hochohmige Quelle kann wegen ihrer enormen Störanfälligkeit
4.2 Mikrofone
173
keine längere elektrische Leitung angeschlossen werden; deshalb befindet sich in jedem Kondensatormikrofon ein Mikrofon-Vorverstärker, der in erster Linie den Quellwiderstand herabsetzt, aber auch den Pegel anhebt. Die Speisespannung wird in der professionellen Technik dem Mikrofon über das Mikrofonkabel als Phantomspeisung (siehe Kap. 4.2.2.2) zugeführt und vom Mikrofonverstärker der Tonregieanlage bzw. dem mobilen Aufnahmegerät geliefert. Um Schwingungen im Infraschallbereich vom Verstärker fernzuhalten, verfügt dieser meist über einen Hochpass, der mit wählbarer Grenzfrequenz als schaltbares Trittschallfilter ausgebildet ist. Weiterhin enthält der Vorverstärker meist eine Vordämpfung, die das Mikrofon auch für hohe Schalldrücke geeignet macht. Der elektrische Aufbau des Verstärkers bestimmt die Mikro foneigenschaften wesentlich mit, besonders seinen Geräuschpegel. Hochfrequenzschaltung Bei der Hochfrequenzschaltung werden die Membranschwingungen durch die Verstimmung eines Schwingkreises umgesetzt. Die Kapazität der Mikrofonkapsel steuert hier die Frequenz oder die Phase einer HF-Schwingung. Das Mikrofon enthält dazu einen HF-Generator und einen Demodulator. Für den Anwender ist einem Mikrofon nicht anzusehen, ob es in der HFoder NF-Schaltung arbeitet. Beide Schaltungsarten liefern höchste Qualität. 4.2.2.3 Mikrofon-Vorverstärker mit digitalem Ausgang Mit der allgemeinen Digitalisierung der gesamten Tonstudiotechnik entstand auch eine Nachfrage nach sog. Digitalmikrofonen, die bereits ein digitales Signal liefern. Sie arbeiten mit konventionellen Mikrofonkapseln und einem Impedanzwandler bzw. Verstärker, der auch die Analog-Digitalumsetzung vornimmt. Obwohl führende Mikrofonhersteller eine Palette von digitalen Mikrofonen anbieten, wird in der Studiopraxis eine separate AnalogDigitalwandlung bevorzugt. [Becker-Foss, 2010] Mi kro fone bilden wie Lautsprecher die Schnittstelle zwischen der stets analogen akustischen Welt und der heute weitgehend digitalen Welt der Tonstudiotechnik. Digitale Mikrofone im eigentlichen Sinne kann es demnach nicht geben, korrekt gesagt gibt es nur Mikrofone mit integriertem Analog-Digitalwandler oder A/D-Wandler. Wenn die Baugruppe A/D-Wandler in das Mikrofongehäuse integriert ist, spricht man heute dennoch allgemein von Digitalmikrofonen. Das digitale Ausgangssignal könnte, so wie die ersten sog. Digitalmikro fone, ausschließlich das Tonsignal nach dem üblichen digitalen Signalstandard AES/EBU, S/ PDIF oder USB enthalten. Sinnvoller ist es allerdings, nicht nur die Einstellmöglichkeiten, die bei analogen Mikrofonen üblich sind, wie Vordämpfung, Trittschallfilter, Richtcharakteristik und Phase auch bei Digitalmikrofonen beizubehalten, sondern auch Funktionen, die bisher von der Tonregieanlage wahrgenommen werden, z. B. die des Mikrofonverstärkers und der Regelverstärker sowie weitere Informationen, z. B. über den Mikrofontyp, die Aufnahmesitzung, die Zuordnung zu bestimmten Aufnahmepositionen u. a. in das Mikrofon selbst und seine Softwaresteuerung zu verlegen. Genau dies führt besonders bei Aufnahmen mit vielen Mikrofonen aber zu einer sehr komplizierten Aufnahmesituation, dazu mehr unten. Für das sog. Digitalmikrofon wurde der AES-Standard „Digital interface for microphones“ erarbeitet und im Jahr 2001 als [AES42-2001], 2006 überarbeitet als AES42-2006 veröffentlicht. Der Standard legt die Signalübertragung und Synchronisierung fest, beschreibt die Speisung
174
4 Mikrofone und Lautsprecher
und definiert die Daten zur Fernsteuerung von Mikrofonparametern (Tab. 4/5). Digitale Mikro fone gemäß [AES42-2001] übertragen die Modulation als AES/EBU-Datenstrom. Dieser kann von jedem entsprechenden Studiogerät empfangen und verarbeitet werden. Es bedarf nur einer Stromversorgung für das Mikrofon, die als sog. digitale Phantomspeisung auf die symmetrischen Datenleitungen gegeben wird. Dies erfolgt z. B. mit Hilfe eines Steckernetzteils mit Einspeisung durch einen Zwischenstecker. Der Standard ist offen für die Integration heute typischer Mischpultfunktionen wie Equalizer, Kompressor, Limiter u. a., damit steht die Aufgabenverteilung zwischen Regieanlage und Mikrofonen in Zukunft zur Disposition. Darüber hinaus werden sog. Interfaces angeboten, die neben der Stromversorgung auch die komplette Fernsteuerbarkeit und Synchronisierung der Mikrofone übernehmen. Anzeige und Fernsteuerung erfolgen über PC oder Mac-Rechner, solange Mischpulte oder andere Studiogeräte noch über keine Mikrofoneingänge gemäß AES42 verfügen. Die Rechner können neben der Steuerfunktion für die Mikrofone auch als Harddisc-Recorder verwendet werden. Digitale Mikrofon-Interfaces können zwei- oder acht-kanalig sein und können für einen höheren Kanalbedarf kaskadiert werden. Zur Wahl stehen sowohl komplette digitale Studiomikrofone, bei denen die A/D-Wandlung fest eingebaut ist, als auch Digitalmodule, die mit von analogen Mikrofonen vorhandenen Kapseln zu digitalen Mikrofonen kombiniert werden können. Es gibt demnach drei Möglichkeiten des Einsatzes der Digitaltechnik bei Mikrofonen (Abb. 4/28): –– analoges Mikrofon mit Stage-Box mit A/D-Wandlung, –– digitales Mikrofon mit Interface, –– digitales Mikrofon ohne Interface. Tab. 4/5. Features und Festlegungen nach [AES42-2001]. Feature
Festlegung
abrufbare Informationen Anzeigen
Hersteller, Typ, Seriennummer, Hard- und Software-Version, implementierte Steuerfunktionen, Status u. a. Aussteuerung, individuelle Informationen über den Mikrofonort (z. B. „Stützmikrofon für …“) u. a. Richtcharakteristik, Trittschallfilter, Pegel, Vordämpfung, Mute, Phase, Signallicht, Synchronisationsmodus, auch weitere Funktionen wie Limiter, Kompressor, Delay u. a. zwei Betriebsarten: Mode 1: das Mikrofon ist selbsttaktend und wird durch einen Abtastratenwandler im Empfänger synchronisiert, Mode 2: das Mikrofon wird extern getaktet, synchron zum Studio-Wordclock digitale Phantomspeisung (DPP), 10 V, max. 250 mA XLR-Stecker und -Buchsen
Einstellungen Taktung
Phantomspeisung Anschlüsse
Der eigentliche Schallwandler, also der Schallempfang durch eine Membran und die Umsetzung von deren Schwingungen in ein analoges elektrisches Signal, sind und werden aus heutiger Sicht Bestandteile auch der Digitalmikrofone bleiben; deshalb werden die bisher verwendeten „analogen“ Kapseln auch in den Digitalmikrofonen weiterverwendet oder mit
4.2 Mikrofone
175
abweichender Anschlusstechnik angepasst. Die Kapseltechnik erfüllt auch heute schon höchste Qualitätsansprüche, sie bestimmt die wesentlichen Eigenschaften und Qualitäten eines Mikrofons bezüglich des aufzunehmenden Schalls. Daher bieten Digitalmikrofone gegenüber analogen Mikrofonen zwar in klanglicher Hinsicht keine qualitativen Vorteile, jedoch im Umgang mit großen Dynamikbereichen. Bei A/D-Wandlung im Mikrofon können nämlich notwendige Pegelanpassungen vorteilhaft in der digitalen Ebene vorgenommen werden. Dies ist dann ein mathematischer Prozess, der sich nicht auf die Signalqualität auswirkt, wie es bei analogen Mikrofon-Vorverstärkern der Fall ist oder sein kann. Ein weiterer Vorteil der Digitalmikrofone liegt in einer einfacheren und flexibleren Handhabung, wenn regieseitig die nötigen Voraussetzungen vorhanden sind, da das digitale Mikrofon den A/D-Wandler und den Vorverstärker bereits beinhaltet und diese sonst dem Mikrofon nachgeschalteten Geräte entfallen. Neben der Kostenersparnis kann der geringere Hardwareaufwand besonders bei mobilem Einsatz vorteilhaft, weil Gewicht sparend sein.
Abb. 4/28. Anschlussmöglichkeiten digitaler Mikrofone.
Aus heutiger Sicht werden auch in Zukunft analoge Mikrofone in großem Umfang verwendet werden, das zeigt auch die große, eher zunehmende Beliebtheit „historischer“ Mikrofone, die zuerst einen klanglichen Gestaltungswillen ausdrücken. In Verbindung mit abgesetzten A/D-Wandlern auf der Bühne, den sog. Stage-Boxen, können sie in der digitalen Tonstudiotechnik problemlos beibehalten werden, so dass ein Nebeneinander analoger und digitaler Mikrofone zu erwarten ist. Auf der anderen Seite können mit Hilfe der digitalen Signalbearbeitung Eigenschaften im Mikrofon verwirklicht werden, die analog nicht möglich sind. So
176
4 Mikrofone und Lautsprecher
z. B. eine Limiterfunktion, die automatisch, wirkungsvoll und unhörbar Übersteuerungen durch Popplaute verhindert. Auch wenn in Mischpulten standardmäßig Kompressor- und Limiterfunktionen vorhanden sind, können entsprechende Störungen direkt an der Kapsel als Entstehungsort wirksamer bekämpft werden als weit hinten im Signalfluss, wo in den verschiedenen Schaltungsstufen bereits Sekundärstörungen entstanden sein können. Der Standard AES42 beschreibt zwei Arten der Synchronisation des Mikrofonsignals mit dem Empfänger, also z. B. Mischpult oder einem Mikrofon-Interface: –– Mode 1: Das Mikrofon arbeitet unsynchronisiert mit der Abtastrate seines internen Quarz oszillators und benötigt auf der Empfängerseite einen Abtastratenwandler (Sample-RateConverter). Dieser Modus kann benutzt werden, wenn eine Synchronisation nach Mode 2 nicht möglich ist; Sample-Rate-Converter können die Signalqualität verschlechtern. –– Mode 2: Das Mikrofon wird extern getaktet. Im AES42-Empfänger wird ein Frequenz/Phasenvergleich mit dem Master-Wordclock durchgeführt und ein Steuersignal erzeugt, das über den Fernsteuerdatenstrom zum Mikrofon übertragen wird und dort die Frequenz des internen Quarzoszillators steuert. Für die Datenübertragung wurde der dreipolige XLR-Stecker beibehalten, der somit in der analogen und digitalen Studiotechnik einheitlich verwendet wird. Es wird ein bidirektionales Signal gemäß AES42 übertragen, welches das symmetrische digitale Mikro fonausgangssignal, die Phantom-Stromversorgung und einen Fernsteuerdatenstrom enthält. [Peus, 2001], [Becker-Foss, 2010] Vor- und Nachteile sowie Probleme digitaler und analoger Mikrofone wurden in einem Weißbuch zusammengefasst, hier zitiert nach [Becker-Foss, 2010], das als Fazit aus Sicht der Anbieter erarbeitet wurde: Vorteile digitaler Mikrofone: –– gut einsetzbar, wenn die Mikrofonkabel in starken elektromagnetischen Störfeldern liegen, –– bei heutigen digitalen Systemen mit 24-bit-Schnittstelle ist keine Aussteuerung des Mikrofons am Mikrofonverstärker notwendig, –– diverse Fernsteueroptionen stehen herstellerübergreifend zur Verfügung, so dass z. B. direkt aus der Mischpultoberfläche die Richtcharakteristik steuerbar wird, –– eine Signalisation, z. B. welches Mikrofon gerade aktiv ist, ist möglich, –– hoher Bedienkomfort durch Anzeige von Mikrofontyp, Hersteller und anderer Informationen, –– Individualisierungen von Mikrofonen sind möglich, also ein persönliches Setup, Vorteile analoger Mikrofone: –– viel einfachere Handhabung, bereits der Mikrofontyp sagt dem erfahrenen Tonmeister, welcher Klang zu erwarten ist, –– ein Mikrofonaustausch ist jederzeit möglich, da es keine klanglichen Veränderungen gibt, die im Mikrofon gespeichert sein könnten, –– es gibt kein Delay, es können beliebige analoge Mikrofone verschiedenster Hersteller gleichzeitig betrieben werden, je nach Anwendungsfall und Aufstellungsort kann somit für jedes Instrument das dafür passende Mikrofon verwendet werden,
4.2 Mikrofone
177
–– keine inkompatiblen Softwareversionen der Schnittstelle, keine Softwareupdates der Mikrofonsoftware notwendig, –– die Mikrofonschnittstelle ist mit viel kleinerer elektrischer Leistung genormt, mit Hilfe analoger phantomgespeister Mikrofone, sparsamen Mikrofonverstärkern und energieoptimierten A/D-Wandlern wird erheblich weniger Energie verbraucht als bei digitalen Mikrofonen, damit bessere Eignung für batteriebetriebene und mobile Systeme, –– moderne HF-feste Mikrofone und moderne Mikrofonverstärkerarchitekturen gestatten heute auch bei starken elektromagnetischen Störfeldern eine weitgehend ungestörte Audioübertragung bei analogen Mikrofonen, –– höhere Dynamik als bei digitalen Mikrofonen möglich, AES42 begrenzt die Dynamik durch die 24-bit-Schnittstelle auf etwa 145 dB, analoge Mikrofonverstärker der Spitzenklasse liegen oft über 155 dB, Die auf den ersten Blick verlockende Möglichkeit, gleich beginnend mit dem Mikrofon digital zu arbeiten und viele Features des Mikrofons fernsteuern zu können, führt leider bei umfangreichen, komplexen Systemen schnell zu einer Unübersichtlichkeit. Neue Probleme müssen bedacht werden, etwa: –– Wie wird synchronisiert? –– Wie groß ist die A/D-Wandlerlaufzeit in jedem Mikrofon, stimmen die Laufzeiten überein? –– Gibt es Laufzeiten von Samplerate-Convertern zu berücksichtigen? –– Die Laufzeit digitaler Mikrofone ist nicht mehr nur mit dem Maßband von der Schallquelle aus zu bestimmen. Sie ist generell von Mikrofoneigenschaften und Betriebsarten abhängig. Werden gleichzeitig verschiedene Mikrofone oder auch gleiche Mikrofone mit unterschiedlichen Einstellungen betrieben, muss auf einen Laufzeitausgleich geachtet werden. –– Wo muss mit zusätzlichem Delay die Ausbildung von Kammfiltereffekten verhindert werden? –– Welches Mikrofon hat welche Einstellungen? Allein die Einstellmöglichkeiten nur eines Mikrofons können umfangreiche Erläuterungen erfordern. –– Gibt es Mikrofone, die sich noch Einstellungen von früheren Produktionen gemerkt haben, beispielsweise noch aktivierte Limiter? Wer digitale Mikrofone einsetzt, wird zwar von einfachen Aufgaben entlastet, muss sich aber dennoch mit eventuell viel komplexeren Aufgabenstellungen auseinandersetzen. Wenn man von einfachen Mikrofonierungen absieht, z. B. zwei Mikrofone ohne jede Fernsteuerung, dann kann die Vorbereitung einer Produktion, z. B. Orchesteraufnahme mit digitalen Mikrofonen, erheblich mehr Zeit erfordern. Der Vorteil der ungeheuer vielen Möglichkeiten kann sich schnell in den Nachteil großer Unübersichtlichkeit und vieler Fehlerquellen verwandeln. 4.2.2.4 Druckempfänger Die Kapsel des Druckempfängers ist schalldicht geschlossen, damit keine Schallwellen an die Membranrückseite gelangen können und nur der absolute Druck der Luft Auslenkungen der Membran erzwingt (Abb. 4/29). Ohne weitere Maßnahmen würden deren Amplituden mit
178
4 Mikrofone und Lautsprecher
steigender Frequenz abnehmen. Um nun eine von der Frequenz unabhängige, konstante Auslenkung der Membran und damit auch eine konstante, frequenzunabhängige Ausgangsspannung zu erreichen, nutzt man die ansteigende Flanke einer Resonanzkurve. Man legt deshalb die Eigenresonanz der Kapsel in den Bereich der höchsten zu übertragenden Frequenz. Dies wird erreicht durch eine sehr leichte, stark gespannte Membran und ein kleines im Zwischenraum zur festen Gegenelektrode eingeschlossenes Luftvolumen mit einer sehr geringen mitschwingenden Luftmasse und hoher Rückstellkraft; man sagt, die Membran sei hoch abgestimmt. Im ansteigenden Teil der Resonanzkurve wird so die Membranauslenkung mit steigender Frequenz also zunehmend verstärkt. Um das Luftvolumen zwischen Membran und Gegenelek trode in erforderlichem Maß komprimierbar zu machen, wird die Gegenelektrode noch mit sog. Sacklöchern versehen. Dies macht die Rückstellkraft für den gesamten Frequenzbereich praktisch konstant, damit werden nichtlineare Verzerrungen vermieden, es gibt nur sehr geringe Phasenverzerrungen im gesamten Übertragungsbereich. Die geforderte frequenzunabhängige Membranauslenkung und Ausgangsspannung können sehr exakt erreicht werden (Abb. 4/13). Das Mikrofon ist weitgehend unempfindlich für Körperschall. Bei Auslenkung der Membran mit fester Gegenelektrode wird die Luft auf der Seite zur Gegenelektrode verdichtet bzw. verdünnt, mit wachsender Auslenkung entsteht also eine Bewegungshemmung. Eine interessante Lösung für den Kapselaufbau stellt deshalb die symmetrisch aufgebaute Kapsel mit zwei festen, aber gelochten Gegenelektroden dar, zwischen denen die Mikrofonmembran schwingt. Das sorgt für eine erhöhte Linearität der Schwingungen, und so für eine weitere Reduzierung der ohnehin schon geringen Verzerrungen.
Abb. 4/29. Aufbau der Kapsel des Kondensator-Druckempfängers.
4.2.2.5 Druckgradientenempfänger Bei Druckgradientenempfängern muss der Schall auch die Membranrückseite erreichen können, damit eine Druckdifferenz zwischen Vorder- und Rückseite entstehen kann, die dann die Membran auslenkt. Das kann entweder nach dem Überlagerungsprinzip oder mit einem Laufzeitglied geschehen. Beim Überlagerungsprinzip, das vor allem bei Mikrofonen mit Doppelmembran mit umschaltbarer Richtcharakteristik angewendet wird (siehe auch Kap. 4.2.1.8, Druckgradientenempfänger mit Nierenrichtcharakteristik), werden Teilbereiche der Gegenelektrode mit durchgehenden Bohrungen zur Erzeugung einer Achterrichtcharakteristik, andere Bereiche mit Sacklöchern zur Erzeugung einer Kugelrichtcharakteristik versehen (Abb. 4/30). Da der Druckgradient bereits eine proportional zur Frequenz größer werdende Antriebskraft darstellt (Abb. 4/14), darf die Membran nicht wie beim Druckempfänger hoch abgestimmt sein.
4.2 Mikrofone
179
Sie soll im Übertragungsbereich nur eine frequenzunabhängig wirkende Reibungshemmung besitzen. Praktisch wird die Membranresonanz, die sich aus der Membranmasse und -rückstellkraft ergibt, in die Mitte des Übertragungsbereichs gelegt. Die Resonanz wird durch die Luftreibung in den Vertiefungen und Durchbohrungen der Gegenelektrode so bedämpft, dass sie sich nicht mehr auswirkt.
Abb. 4/30. Prinzipieller Aufbau des KondensatorDruckgradientenempfängers mit Nierenrichtcharak teristik nach dem Überlagerungsprinzip.
Vorherrschend bei Druckgradientenmi kro fonen mit Nierenrichtcharakteristik oder mit Hyper- bzw. Supernierenrichtcharakteristik sind jedoch Konstruktionen, bei denen die Gegenelektrode zu einem Laufzeitglied erweitert und mit Bohrungen, Schlitzen und Hohlräumen versehen wird, die teils als akustische Energiespeicher, als akustische Induktivitäten und Kapazitäten, teils als Reibungswiderstände wirksam sind; dadurch erhält die Gegenelektrode den Charakter eines akustischen Tiefpasses. Im Sperrbereich dieses Tiefpasses, also im oberen Frequenzbereich, über fü in Abb. 4/14, wird die Membran nur noch von dem von vorn auf die Membran treffenden Schall ausgelenkt; das Mikrofon wird damit in diesem hohen Frequenzbereich zum Druckempfänger. Bei der Hyper- und Supernierencharakteristik wird die Laufzeit des Laufzeitglieds kürzer gemacht. Ein Beispiel für die mechanische Ausführung eines Nierenmikrofons mit Laufzeitglied zeigt Abb. 4/31.
Abb. 4/31. Beispiel für den mechanischen Aufbau eines Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik mit einem Laufzeitglied.
180
4 Mikrofone und Lautsprecher
Die Achterrichtcharakteristik erfordert eine beidseitig dem Schall ausgesetzte Membran; die Gegenelektrode darf demnach akustisch nicht wirksam werden. Mikrofone nach diesem Prinzip werden wenig gebaut. Die Achterrichtcharakteristik steht meist nur bei Mikro fonen mit umschaltbarer Richtcharakteristik zur Verfügung (siehe Kap. 4.2.2.7). 4.2.2.6 Druckgradientenempfänger mit umschaltbarer Richtcharakteristik Kondensatormikrofone mit umschaltbaren Richtcharakteristiken können entweder durch die Kombination zweier Nierenmikrofone als Doppelmembranmikrofon oder durch rein mechanisch wirkende Elemente des Laufzeitglieds realisiert werden. Bei den meisten Herstellern hat sich die Lösung in der Ausführung als Doppelmembranmikrofon durchgesetzt. Umschaltbare Kondensatormikrofone nach dem Doppelmembranprinzip besitzen auf beiden Seiten der teils angebohrten, teils durchbohrten Gegenelektrode eine Membran. Sie vereinen zwei Mikrofonsysteme mit Nierencharakteristik, die in entgegen gesetzten Richtungen ausgerichtet sind, jedes einzelne System arbeitet nach dem Überlagerungsprinzip (Abb. 4/32).
Abb. 4/32. Prinzipieller Aufbau des umschaltbaren Kondensatormikrofons mit Doppelmembran.
Je nachdem, ob beide Membranen elektrisch wirksam werden und mit welcher Polarität sie zusammengeschaltet werden, kann ein solches Mikrofon Kugel-, Nieren- oder Achterrichtcharakteristik erhalten, außerdem alle gewünschten Zwischenformen wie Hyper- und Superniere (Abb. 4/34). Wird nur eine Membran der Kapsel mit einer Spannungsquelle verbunden, so hat die Kapsel Nierencharakteristik (Abb. 4/33, Schalterstellung 3). Werden beide Membranen mit gleich großen Spannungen gleicher Polarität belegt, so ergeben sich zwei entgegengesetzt ausgerichtete Nieren, deren Spannungen sich zu einer Kugelcharakteristik addieren (Abb. 4/33, Schalterstellung 1). Werden beide Membranen mit gleich großen Spannungen entgegengesetzter Polarität belegt (Abb. 4/33, Schalterstellung 2), so ergeben sich auch hierbei zwei Nierencharakteristiken, deren Spannungen sich jetzt jedoch subtrahieren, das Ergebnis ist eine achterförmige Richtcharakteristik. Sie kommt dadurch zustande, dass bei seitlicher Besprechung die beiden erzeugten Spannungen gegenphasig sind und sich somit aufheben, während bei einer Besprechung von vorn oder hinten die volle Empfindlichkeit erhal-
4.2 Mikrofone
181
ten bleibt. Der Umschalter in Abb. 4/33 kann durch ein Potentiometer ersetzt werden. Die Charakteristiken können dann stufenlos ineinander überführt werden. Dieses Potentiometer kann im Mikrofongehäuse oder im Netzanschlussgerät eingebaut sein.
Abb. 4/33. Beschaltung eines Kondensatormikrofons mit Doppelmembran.
Die Kugelcharakteristik des umschaltbaren Kondensatormikrofons mit Doppelmembran, die aus zwei Nierencharakteristiken gewonnen wird, zeigt eine andere Frequenzabhängigkeit der Richtwirkung als die Kugelcharakteristik des Druckempfängers. Der Schallschatten, der bei hohen Frequenzen hinter einem Druckempfänger entsteht und ihn in diesem Frequenzbereich eine der Nieren- bzw. Keulencharakteristik ähnliche Richtcharakteristik verleiht, existiert beim umschaltbaren Druckgradientenempfänger nicht, da beide Membranen wirksam sind. Dieses Mikrofon ist nach dem Umschalten auf „Kugel“ von vorn und hinten für alle Frequenzen gleich empfindlich und geht für hohe Frequenzen eher in Richtung Achterrichtcharakteristik; dieses Phänomen ist bei Mikrofonen mit großer Membran deutlicher, bei kleiner Membran eher gering. Somit kann die Kugelcharakteristik drei verschiedene Frequenzabhängigkeiten aufweisen (Abb. 4/35). 4.2.2.7 Stereomikrofone Bei Aufnahmen in reiner Intensitätsstereofonie werden für das XY- und MS-Mikrofonverfahren Mikrofonanordnungen benötigt, bei denen zwei Richtmikrofone an einem Punkt, in der praktischen Realisierung unmittelbar übereinander angeordnet sind (siehe Kap. 5.3.2 ff.). Eine solche Anordnung kann man entweder mit einem geeigneten Mikrofonhalter und zwei Einzelmikrofonen zusammenstellen oder – für den praktischen Gebrauch einfacher – durch die konstruktive Zusammenfassung zweier Mikrofonsysteme. Solche Stereo- oder Koinzidenzmikrofone vereinen dicht übereinander und gegeneinander drehbar zwei identische Mikrofone mit örtlicher oder ferneinstellbarer Richtcharakteristik. Bei Fernumschaltung sind die Mikrofonsysteme mit einer Doppelmembran aufgebaut, bei örtlicher Umschaltung stehen Mikrofone mit Doppelmembran oder mit Einzelmembran und umschaltbarem Laufzeitglied zur Verfügung.
182
4 Mikrofone und Lautsprecher
Zu den Stereomikrofonen gehören auch Mikrofonpaare mit Trennkörpern (Kap. 5.3.4.4) und der Kunstkopf (Kap. 4.2.4.1), sie werden aber eher als Aufnahmeverfahren gewertet und demnach in Kap. 5 behandelt.
Abb. 4/34. Mögliche Richtcharakteristiken eines Doppelmembran-Mikrofons und ihr Zustandekommen aus der Überlagerung zweier Nierenrichtcharakteristiken.
4.2 Mikrofone
183
Abb. 4/35. Verschiedene Typen der Frequenzabhängigkeit bei Kugelmikrofonen, a. Druckempfänger, b. Druckgradientenempfänger mit kleiner Doppelmembran, c. Druckgradientenempfänger mit großer Doppelmembran.
Mikrofonpaare mit variabler Richtcharakteristik Montiert man ein Mikrofon mit Kugelcharakteristik (Kapsel 1) und eines mit Achterrichtcharakteristik (Kapsel 2) dicht übereinander und summiert deren Signale, so erhält man ein Monomikrofon mit speziellen Eigenschaften: Zunächst kann durch die Einstellung der Pegel und Polarität von der Kugel über die Niere bis zur Acht jede gewünschte Richtcharakteristik einschließlich aller Zwischenformen eingestellt werden (Kugel = Kapsel 1, Niere nach vorn = Kapsel 1 + 2, Niere nach hinten = Kapsel 1 – 2), ebenso wie bei einem Doppelmembranmi krofon. Interessant wird das System aber erst bei Betrachtung der Frequenzgänge: die Kugel hat bis 20 Hz hinab einen ebenen Frequenzgang, die Acht hat unter 50 Hz praktisch kein Signal mehr; nach Addition von Kugel und Acht erhält man also eine Bassabsenkung um 6 dB bei gleichzeitiger Kugelrichtcharakteristik für den tiefsten Frequenzbereich. Ein Mikro fonpaar aus Kugel und Niere hat ebenfalls eine Bassabsenkung um 6 dB bei der Richtcharakteristik einer breiten Niere; diese Kombination wird gelegentlich als Straus-Paket bezeichnet. Die Mikrofone sollen dabei in Reihe geschaltet werden, nicht parallel. Mit einem Mikrofonpaar kann man aber auch weiter differenzierte Mikrofoneigenschaften herstellen: Ein als System auf dem Markt befindliches Produkt teilt die Übertragungsbereiche der beiden Mikrofone in drei Frequenzbereiche, wobei für jeden Bereich eine eigene spezielle Kombination eingestellt werden kann, z. B. eine Kugel für tiefe Frequenzen, eine Niere für mittlere und eine Hyperniere für hohe Frequenzen. Für digitale Mikrofone steht das System auch als App zur Verfügung. Wie bei jeder Differenzierung fordert allerdings auch dieses System eine große Sorgfalt bei der Einstellung und Auswahl und einen hohen Zeitaufwand. Sound Field-Technologie Eine interessante Form eines Koinzidenzmikrofons ist auch das Mehrkapselsystem nach der Sound Field-Technologie nach Gerzon [Farrar, 1979]. Diese Technologie hat unter der Bezeichnung Ambisonics-Mikrofon in jüngster Zeit wieder große Bedeutung erlangt. Es vereint nicht
184
4 Mikrofone und Lautsprecher
nur zwei Mikrofonkapseln wie das Koinzidenzmikrofon, sondern vier Nieren-Kapseln, die in einer festen, berechneten Position an den Ecken eines Tetraeders alle drei Raumebenen erfassen. Die Signale aller Kapseln können zu einem Monosignal, das alle Richtcharakteristiken erhalten und in verschiedene Richtungen ausgerichtet werden kann, summiert werden, aber ebenso zu einem Stereo- oder Surroundsignal. Durch unterschiedliche Pegelanteile und Polungen der einzelnen Mikrofonsignale werden die verschiedenen Richtcharakteristiken gewonnen. Der Anwender bewegt und steuert das Mikrofon elektronisch über eine Steuereinheit vom Regieraum aus, entweder während der Aufnahme oder nach vierkanaliger Aufzeichnung erst bei der Abmischung. Abgesehen von den üblichen Parametern für die Mikrofoncharakteristik stehen zusätzliche Parameter zur Verfügung, die es sonst bei keinem Mikrofonsystem gibt: Mit Azimuth wird das Mikrofon elektronisch und stufenlos um 360 ° in der horizontalen Ebene gedreht, mit Elevation kann es elektronisch vertikal geneigt werden. Dieses komplexe Mikrofonsystem wurde als Ambiophonics-System konkurrierend zur Technik der Quadrophonie in den 1970er Jahren entwickelt. Das Mikrofon wird von verschiedenen Mikrofonmanufakturen angeboten. Unter den in jüngerer Zeit entwickelten Systemen für einhüllende Klangdarstellung, den immersive sound, ist dieses Mikrofon zu einem wichtigen Werkzeug der Tonaufnahme geworden (siehe dazu Kap. 5.5.3.2).
4.2.3 Dynamische Mikrofone Dynamische Mikrofone sind elektrodynamische Wandler (siehe auch Kap. 4.1). Bei ihnen wird in einem durch einen Permanentmagneten erzeugten magnetischen Feld beim Tauchspulmikrofon eine kleine Spule bzw. beim Bändchenmikrofon eine Leiterschleife über eine Membran von den Schallwellen bewegt. Dynamische Mikrofone benötigen keine Speisespannung, sie sind robust und arbeiten auch bei hohen Schalldrücken der Schallquellen verzerrungsarm. Sie sind preisgünstig herzustellen. Verglichen mit Kondensatormikrofonen ist die Feinstruktur des Frequenzgangs bei Tauchspulmikrofonen unregelmäßiger, was aus den Datenblättern wegen der gemittelten Frequenzgänge nicht ersichtlich ist; ebenso ist ein Phasenfrequenzgang unvermeidlich. Wegen der verglichen mit Kondensatormikrofonen wesentlich größeren bewegten Masse aus Membran und Schwingspule ist das Einschwingverhalten beim Tauchspulmikrofon langsamer als bei Kondensatormikrofonen. Bei hohen Qualitätsanforderungen werden deshalb Kondensatormikrofone bevorzugt. Dennoch erreichen dynamische Mikrofone heute einen beachtlichen Qualitätsstandard. Sie werden besonders auf der Bühne im Popmusiksektor wegen ihrer Robustheit und Betriebssicherheit geschätzt. Die Ausgangsspannung an den Klemmen einer Schwingspule oder eines Bändchens ist der Bewegungsgeschwindigkeit der Spule bzw. des Bändchens proportional, während die Spannung, die eine Kondensatorkapsel abgibt, zur Auslenkung der Membran proportional ist. Damit muss die mechanische Konstruktion, vor allem die Lage der Membranresonanz und die Bedämpfung der Membranschwingungen bzw. deren Verstärkung durch Resonanzen des konstruktiven Aufbaus bei dynamischen und Kondensatormikrofonen unterschiedlich gestaltet werden. Bei dynamischen Druckmikrofonen wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt und durch akustische Reibung bedämpft. Zusammen mit der Wirkung
4.2 Mikrofone
185
weiterer Resonatoren von Hohlräumen in der Mikrofonkapsel kann damit die Bewegungsgeschwindigkeit der Membran zum Schalldruck proportional gemacht werden. Dynamische Druckgradientenmi kro fone hingegen erfahren eine mit der Frequenz ansteigende Krafteinwirkung; eine mit der Frequenz zunehmende Dämpfung würde die Ausgangsspannung zu gering werden lassen. Also wird die Membran tief abgestimmt; die Membranresonanz verstärkt die Bewegung im tiefen Bereich und nimmt mit der Frequenz ab, wieder entsteht eine frequenzunabhängige Ausgangsspannung. Für die Praxis bedeutet die tiefe Membranabstimmung, dass Körperschall - Trittschall und Reibgeräusche - und Windgeräusche die Aufnahme erheblich mehr stören als bei höher abgestimmten Membranen; dies gilt vor allem für Bändchenmikrofone. In dieser Hinsicht sind Kondensatormikrofone nach dem Druckempfängerprinzip allen anderen Mikrofonen überlegen; nur diese Mikrofone haben eine hoch abgestimmte Membran. Tab. 4/6 fasst die Membranabstimmung bei den verschiedenen Mikrofonprinzipien zusammen (siehe auch Kap. 4.2.1.8).
Tab. 4/6. Resonanzabstimmung der Membran bei Mikrofonen.
Lage der Membranresonanz im Übertragungsbereich Störungen durch Trittschall, Wind- und Poppgeräusche
Kondensatormikrofone
dynamische Mikrofone
Kugel
Niere, Acht
Kugel
Niere, Acht
am oberen Ende
in der Mitte
in der Mitte
am unteren Ende
gering
mittelmäßig
hoch, sehr hoch beim Bändchenmikrofon
4.2.3.1 Tauchspulmikrofon Am Beispiel eines Tauchspulmikrofons mit Kugelcharakteristik nach dem Druckempfängerprinzip zeigt Abb. 4/36 die Wirkungsweise des dynamischen Mikrofons. An der Membran ist eine Spule befestigt, welche in den Luftspalt eines Topfmagneten eintaucht; dieser besteht aus einem Dauermagneten und einem Topf aus magnetisch leitendem Material (äußere Polplatte) und dem Kernpolschuh. Die Spule ist ohne Körper gewickelt und erhält ihre mechanische Steifigkeit dadurch, dass ihre einzelnen Windungen miteinander verklebt sind. Sie ist meist so bemessen, dass ihre Impedanz bei 1 kHz 200 Ω beträgt. Die Größe der Signalspannung dieses Mikrofons ist abhängig von der magnetischen Induktion, von der Dimensionierung der Spule und von der Geschwindigkeit, mit der die Spule im Magnetfeld bewegt wird. Die beiden erstgenannten Größen werden durch die Konstruktion festgelegt. Um eine frequenzunabhängige Signalspannung zu erhalten, sind besondere konstruktive Maßnahmen erforderlich: Die Geschwindigkeit einer Membran ohne Masse und damit die Signalspannung würde mit der Frequenz ansteigen. Durch die Masse der Membran einschließlich der mitschwingenden Spule wird die Geschwindigkeit bedämpft. Der Einfluss dieser Dämpfung ist so stark, dass die Membrangeschwindigkeit mit steigender Frequenz abnimmt und sogar durch Resonanzen wieder angehoben werden muss. Deshalb wird die Membranresonanz in die Mitte des Übertra-
186
4 Mikrofone und Lautsprecher
gungsbereichs gelegt. Als weitere Resonatoren werden verwendet: das Luftvolumen zwischen dem stets integrierten Windschutzkorb und der Membran, das Luftvolumen zwischen Membran und Magnet, der Innenraum des Topfmagneten und der Innenraum des Gehäuses. Durch die Bemessung der Öffnungen und Kanäle, welche die Resonatoren miteinander verbinden, und durch dämpfende Filzscheiben z. B. werden diese aufeinander abgestimmt.
Abb. 4/36. Tauchspulmikrofon nach dem Druckempfängerprinzip.
Tauchspulmikrofone wurden aber hauptsächlich als Richtmikrofone entwickelt. Sie unterscheiden sich von den ungerichteten Tauchspulmikrofonen durch die tiefe Abstimmung der Membranresonanz und durch die Ausbildung des hinteren Kapselabschlusses als Laufzeitglied. Die Forderung nach tiefer Abstimmung der Membranresonanz ergibt sich daraus, dass die Antriebskraft des Druckgradienten mit fallender Frequenz abnimmt; zum Ausgleich verstärkt die Eigenresonanz der Membran die Bewegungsgeschwindigkeit. Die Membran sollte deshalb auf die tiefste zu übertragende Frequenz abgestimmt sein, was praktisch erhebliche Probleme mit sich bringt, da einerseits die Körperschall- und Windempfindlichkeit sehr groß wird, andererseits die Führung der Spule bei zu weicher Aufhängung nicht präzise genug ist. Deshalb wird die Membranresonanz etwas höher gelegt und die Antriebskraft dadurch gesteigert, dass für tieffrequenten Schall Schalleinlässe mit größerer Verzögerung angebracht werden; akustische Filterelemente sorgen dafür, dass die Verlängerung des Laufzeitglieds nur für tiefe Frequenzen wirksam wird. Dieses Prinzip heißt Variable Distance-Prinzip. Eine konsequente Weiterentwicklung des Variable Distance-Prinzips führt zum ZweiwegTauchspulmikrofon, bei dem, ähnlich wie bei Lautsprecherboxen, für den tieffrequenten und höherfrequenten Schall je ein eigenes Empfänger- und Wandlersystem zugeordnet ist, deren Laufzeitglieder viel besser auf den jeweils zu übertragenden Frequenzbereich abgestimmt werden können. Ein Vorteil dieser Technik ist auch, dass der Nahbesprechungseffekt praktisch unterdrückt wird.
4.2 Mikrofone
187
Magnetische Störfelder, die von Netztransformatoren, Trenntransformatoren oder Motoren kommen können, induzieren in die Spule des Tauchspulmikrofons Störspannungen. Um solche Störungen zu unterdrücken, ist nahe bei der Schwingspule eine feste Kompensationsspule untergebracht, die – mit der Schwingspule in Reihe geschaltet, aber entgegengesetzt gewickelt – magnetische Störfelder kompensiert. kro fone baut auf jahrzehntelanger Erfahrung und EntDie Technologie dieser Mi wicklung; der mechanische Aufbau ist kompliziert, aber ausgereift. Tauchspulmikrofone können sowohl in preiswerter Massenfertigung als auch mit hohem Qualitätsstandard hergestellt werden. 4.2.3.2 Bändchenmikrofon Die Membran des Bändchenmikrofons, eben ein Metallbändchen, ist gleichzeitig der elek trische Leiter, der im Magnetfeld eines starken Permanentmagneten bewegt wird. Eine 2 bis 3 μm dickes und 3 bis 4 mm breites Aluminiumbändchen von etwa 4 cm Länge mit vielen Querfalten ist lose zwischen den Magnetpolen aufgehängt (Abb. 4/37). Seine Eigenfrequenz liegt dabei am unteren Ende des Übertragungsbereichs. Diese Maßnahme und die Masse des Bändchens bewirken die Unabhängigkeit seiner Geschwindigkeit und damit der Ausgangsspannung von der zu übertragenden Frequenz. Die Impedanz dieses Mikrofons wird durch den Widerstand des Bändchens gebildet und beträgt ca. 0,1 Ω. Ein im Mikrofongehäuse untergebrachter Übertrager erhöht die Impedanz auf meist 200 Ω, damit wird gleichzeitig die Ausgangsspannung erhöht. Bändchenmikrofone sind wie Tauchspulmikrofone als Druckgradienten- oder Druckempfänger konstruierbar. Wegen der sehr geringen Masse des Bändchens und seiner weichen Aufhängung zeigt das Mikrofon ein sehr gutes Impulsverhalten. Der Frequenzgang ist vom Prinzip her weitgehend linear, auch in seiner Feinstruktur. Typisch ist eine mehr oder weniger deutliche Höhenanhebung, verursacht durch die Hohlraumresonanz des Topfmagneten. Wegen der tiefen Membranabstimmung sind Bändchenmikrofone gegen Wind-, Popp- und Trittschall sehr empfindlich. Bändchenmikrofone wurden in der Anfangszeit des deutschen Rundfunks ab 1924 verwendet, bis 1931 das von Neumann erfundene Kondensatormikrofon eingeführt wurde. Vor allem aber in den USA blieb das „Bändchen“ das Standardmikrofon bis in die fünfziger Jahre. So sind die meisten der berühmten Bigband-Aufnahmen der 1940er und 1950er Jahre mit Bändchenmikrofonen von RCA entstanden. Ähnlich wie Mikrofone mit Röhren gehört das Bändchenmikrofon zu den Mikrofonen, die nicht wegen messtechnisch optimaler Eigenschaften geschätzt werden, sondern wegen ihres besonderen Klangs. So wird dem Bändchen besondere Klangtransparenz bei weichen Höhen nachgesagt; der Höhenabfall beginnt schon unter 10 kHz. Die geringe Ausgangsspannung des Bändchens führt zu erhöhtem Rauschen, weshalb das Mikrofon vor allem für Aufnahmen im Nahbereich oder für laute Schallquellen, eben z. B. bei einer Big band, geeignet ist. Bändchenmikrofone (ribbon mic) werden vor dem Hintergrund langer Zeit der Entwicklung und Erfahrung noch heute gefertigt und haben wie z. B. Röhrenmikrofone ihren Kreis von Liebhabern.
188
4 Mikrofone und Lautsprecher
Abb. 4/37. Prinzip des Bändchenmikrofons.
4.2.4 Spezialmikrofone Neben den beschriebenen Mi kro fonen gibt es einige Spezialmi kro fone mit besonderen Eigenschaften für besondere Einsatzsituationen, das Sound-Field-Mikrofon wurde bereits als Stereomikrofon beschrieben:
–– das Kardioidebenenmikrofon mit einer speziellen Richtcharakteristik (Kap. 4.2.4.1), –– das Grenzflächenmikrofon als Kugelmikrofon mit speziellen Klangeigenschaften (Kap. 4.2.4.2), –– Großmembranmikrofone und Röhrenmikrofone (Kap. 4.2.4.3), –– Ansteckmikrofone (Kap. 4.2.4.4), –– Kontaktmikrofone (Kap. 4.2.4.5), –– Sound-Field-Mikrofon, außer als Stereomikrofon ein äußerst flexibles Monomikro fon (Kap. 4.2.2.7), –– Kunstkopf-Mikrofon (Kap. 4.2.4.6).
4.2.4.1 Kardioidebenenmikrofon Das Arbeitsprinzip des Richtrohrmikrofons, nämlich die phasen- bzw. zeitverschobene Aufnahme schräg auftreffenden Schalls zur Erzielung einer stark eingeengten Richtwirkung zu nutzen (siehe Kap. 4.2.1.7), wird beim Kardioidebenenmikrofon, kurz auch KEM, nur für von oben und unten eintreffenden Schall umgesetzt. Es entsteht dabei eine Richtcharakteristik, die in der horizontalen Ebene eine Niere darstellt, in der vertikalen Ebene aber eine Keule. Das Mikrofon nimmt also Schall aus einem waagrechten Raumsegment auf, blendet aber Schall von oben und unten stark aus. Realisiert wird diese Richtcharakteristik durch ein sog. Linearray; mehrere Mi kro fone sind auf einer vertikalen Linie übereinander angeordnet. Ihre Signale werden in einem Zusatzgerät verzögert, im Pegel geregelt und addiert. Das KEM ist als feststehendes Rednermi krofon speziell für den Deutschen Bundestag entwickelt worden, wo es sich hervorragend
4.2 Mikrofone
189
bewährt und sozusagen eine öffentliche Präsenz erhalten hat. Es gibt dem Redner seitliche Bewegungsfreiheit ohne Änderungen der Klangfarbe bei gleichzeitig guter Diffusschallausblendung (Abb. 4/38). Andererseits ist durch die scharfe Bündelung in der horizontalen Ebene eine Anpassung des Rednerpults an die Körpergröße des Redners erforderlich; eine Bündelung in der vertikalen Ebene würde die Bewegungsfreiheit des Redners zur Seite hin einschränken, sich aber für jede Körpergröße eignen. Vorteilhaft kann das Mikrofon in denjenigen kritischen Aufnahmesituationen eingesetzt werden, in denen eine breite oder sich bewegende Schallquelle bei maximaler Ausblendung von Schall aus anderen Richtungen aufgenommen werden soll. Neben dem Einsatz am Rednerpult hat es sich bewährt z. B. als Tischmikrofon bei einem oder mehreren Sprechern, als Bühnenrandmikrofon bei gleichzeitiger Beschallung, bei Fernsehproduktionen sowie als Stützmikrofon etwa für den Chor oder eine Instrumentengruppe bei Musikaufnahmen.
Abb. 4/38. Richtcharakteristiken des Kardioidebenenmikrofons.
Eine Weiterentwicklung des Kardioidebenenmikrofons behebt die nachlassende Bündelung bei tiefen Frequenzen und erhöht damit seine Eignung bei Musikaufnahmen. Denn im Gegensatz zu Sprachaufnahmen, wo eine generelle Bassabsenkung ratsam ist, soll hier der Bassbereich nicht bedämpft werden. Erreicht wird die über den gesamten Frequenzbereich nahezu konstante Bündelung durch eine zusätzliche sog. Delta-Mikrofonkapsel hinter dem Lineararray, mit der die Bündelung bei den Tiefen erhöht wird. Die Delta-Kapsel ist für den Einsatz bei Sprachaufnahmen abnehmbar. 4.2.4.2 Grenzflächenmikrofon Das Grenzflächenmikrofon – auch PZM (Pressure Zone Microphone, geschützter Handelsname des Herstellers Crown) oder BLM (Boundary Layer Microphone) genannt – nutzt die besonderen akustischen Bedingungen, die an einer den Schall reflektierenden Grenzfläche herrschen. An oder ganz dicht vor reflektierenden Flächen haben alle Schallwellen, sowohl die des Direktschalls als auch die von ersten Reflexionen und Diffusschall, Druckbäuche, also den maximalen Druck der Schallwelle, und damit einen doppelten Schalldruck oder um 6 dB erhöhten Schallpegel. Aus dieser Tatsache und aus der Ausstattung dieser Mikro fone mit einer kleinen Membran, schließlich aus der Bauweise als Kondensator-Druckemp-
190
4 Mikrofone und Lautsprecher
fänger ergeben sich die besonderen Eigenschaften der Grenzflächenmikrofone. Ihre Richtdiagramme sind weitgehend frequenzunabhängig halbkugelförmig, sowohl für Direkt- als auch für Diffusschall. Bei den ersten Konstruktionen wurde das Mikrofon in geringem Abstand auf die Grenzfläche gerichtet. Durchgesetzt hat sich dann aber eine Konstruktion, bei der das Mikrofon quasi Teil der Grenzfläche selbst ist. Mehr oder weniger flach konstruiert, wird es einfach auf den Boden gelegt oder an einer Wand befestigt. Druckbäuche an Grenzflächen kommen nur dann zustande, wenn die Schallwelle reflektiert wird; dafür muss die Auflagefläche schallhart sein und die Ausdehnung der reflektierenden Fläche muss mindestens die halbe Wellenlänge des reflektierten Schalls besitzen (Tab. 4/7). Die Einbauplatten der Mikrofone sind im Allgemeinen für Frequenzen über 1 kHz ausreichend. Für tiefere Frequenzen muss die Reflexionsfläche dadurch vergrößert werden, dass das Mikrofon auf eine größere Fläche, z. B. auf den Boden, gelegt wird. Unterhalb der in Tab. 4/7 angegebenen Grenzfrequenz liefert das Mikrofon 6 dB Pegel weniger. Auf die Reflexionswirkung der Fläche hat ihre mechanische Oberflächenstruktur Einfluss; je akustisch härter die Oberfläche ist, umso geradliniger ist der Frequenzgang des Mikrofons. Gängige Fußbodenbeläge außer Teppichen und Wandoberflächen dürften im Allgemeinen für Grenzflächenmikrofone geeignet sein, da im kritischen Frequenzbereich über 1 kHz die Einbauplatte des Mikrofons ausreichend reflektiert. Tab. 4/7. Mindestausdehnung der Grenzfläche bei Grenzflächenmikrofonen. untere Grenzfrequenz
notwendiger Durchmesser der Grenzfläche ca.
30 Hz 50 Hz 100 Hz 200 Hz 500 Hz 1.000 Hz
5 m 3 m 1,50 m 0,75 m 0,30 m 0,15 m
Da die Kanten und die Dicke der Einbauplatte das Schallfeld stören, muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen möglichst breiten Frequenzbereich verteilt werden. Aus diesem Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. Auf Grund ihrer Richtcharakteristik einer Halbkugel eignen sich Grenzflächenmikrofone vor allem für Laufzeitstereofonie. Aus dem praktischen Umgang haben sich größere Basisbreiten als bei der AB‑Mikrofontechnik üblich ist, als günstig erwiesen, also das sog. GroßAB-Verfahren (siehe Kap. 5.3.3.2). Die Raumabbildung und die räumliche Durchsichtigkeit dieser Mikrofone sind beeindruckend; sie zeigen ihre Vorteile deshalb bevorzugt in akustisch guten Räumen. Da sie auf Grund der Aufnahmetechnik in Laufzeitstereofonie in größerem Abstand von den Schallquellen aufgelegt werden, eignen sie sich vorwiegend für Aufnahmen
4.2 Mikrofone
191
klassischer Musik. Dabei sind auch unkonventionelle Mikrofonorte, z. B. bei Orgelaufnahmen, zu erwägen. Als Druckempfänger sind Grenzflächenmikrofone wenig empfindlich für Körperschallund Windgeräusche. Trittschall stört deshalb auch bei der Auflage des Mikrofons auf dem Boden meist nicht. Grenzflächenmikrofone auf dem Boden werden leicht übersehen, deshalb haben die Mikrofone trittstabile Schutzkörbe. Zusammenfassend hat das Mikrofon also die folgenden, besonderen Eigenschaften: –– Störabstand: die Verdopplung des Schalldrucks an einer Grenzfläche und damit die Erhöhung der Empfindlichkeit um 6 dB ergibt theoretisch einen vergrößerten Störpegelabstand, der sich bei den Mikrofondaten mit etwa 3 dB niederschlägt. Die Empfindlichkeit für Körperschall ist sehr gering. –– Richtcharakteristik: sie ist für Freifeld- und Diffusschall halbkugelförmig und in idealer Weise frequenzunabhängig, kein anderes Mikrofon hat eine solche Richtcharakteristik. –– Klangfarbe: Direkt- und Diffusschall haben keine unterschiedlichen Klangfarben, was bei üblichen Druckempfängern unvermeidlich ist. –– Aufnahme bewegter Schallquellen: wegen der gleichen Klangfarben von Direkt- und Diffusschall stören Bewegungen von Schallquellen nicht oder wenig, das Mikrofon ist also besonders geeignet bei Aufnahmen im Sprechtheater oder bei Diskussionsrunden mit sich bewegenden Sprechern, vorausgesetzt, der Raum ist dabei nicht zu hallig; ein sich abwendender Gesprächsteilnehmer z. B. erfährt keine starke Klangfarbenänderung durch wechselnde Anteile von Direkt- und Diffusschall. Das Mikrofon wurde zunächst auch als Konferenzmikrofon entwickelt. –– Keine Kammfiltereffekte: die insbesondere bei Stützmikrofonen durch Reflexionen am Fußboden oder bei Tischmikrofonen durch Reflexionen an der Tischoberfläche bzw. am Sprechertisch entstehen, können bei Grenzflächenmikrofonen nicht auftreten. –– Praktischer Einsatz: bei Publikumsveranstaltungen ist die Betriebssicherheit u. U. nicht gegeben, da das Mikrofon, sofern es auf dem Boden liegt, leicht übersehen wird. Vor einer erhöhten Bühne ist das Mikrofon nicht einsetzbar, auf der Bühne fehlt meist der Platz, Wände für eine Platzierung sind als Aufnahmeort meist ungeeignet. 4.2.4.3 Großmembran- und Röhrenmikrofon Kondensatormikrofone sind mit Membranen unterschiedlicher Größe auf dem Markt. Bei Kleinmembranmikrofonen oder einfach Kleinmikrofonen beträgt ihr Durchmesser 12 bis 17 mm, bei Großmembranmikrofonen 28 bis 34 mm. Großmembranmikrofone – oft in sogar historischer Schaltungstechnik der Jahre 1930 bis 1960 mit Elektronenröhren – genießen Ansehen und häufige Verwendung in Verbindung mit einem Poppschirm bei Studioaufnahmen der Singstimme und Einzelinstrumente, nicht jedoch als Hauptmikrofone. Es wird ihnen eine auffällige Präsenz, eingebettet in ein warmes, voluminöses Klangbild, nachgesagt. Neben dem Bestand historischer Mikrofone, sog. vintages, sind Nachfolgemodelle, sog. Retro-Mikrofone, auch mit modernster Technik, weiter in Herstellung und Entwicklung. Der subjektiven Wertschätzung stehen akustische Daten gegenüber, die keinesfalls optimal sind: Bässe werden grundsätzlich durch große Membranen nicht besser aufgenommen, die Richtcharakteristik ist deutlich frequenzabhängig, weil das Mikrofon wegen seiner
192
4 Mikrofone und Lautsprecher
Größe das Schallfeld verändert. Bei tiefen Frequenzen nehmen diese Mikrofone Kugelcharakteristik an, sie nehmen mehr Diffusschall auf, was die Wärme und das Klangvolumen erklären könnte, in den Höhen setzt die Richtwirkung und die durch die Reflexion des Schalls an der Membran bedingte Höhenanhebung früher ein als bei Kleinmikrofonen, was die besondere Präsenz erklären kann. Im Übrigen gibt es für Kleinmikrofone auch aufschiebbare Kugeln, die diesen Mikrofonen einige der Eigenschaften von Großmembranmikrofonen geben. Diese Einwände jedoch sind wenig bedeutend bei Aufnahmen von Gesang im Nahbereich bei statischen Aufnahmesituationen im Studio. Auch die optische Wirkung dieses beeindruckend großen Mikrofons ist durchaus nicht zu unterschätzen. Meist erhält das Mikrofon noch einen Poppschirm gegen den Poppschall der Sänger, was auch noch zu einer auffälligen Optik beiträgt. Die elektrischen Schaltungen des Impedanzwandlers wurden bis 1960 als Röhrenschaltungen realisiert, denen man ähnliche Eigenschaften wie der Großmembran nachsagt. Bei dieser Technologie gibt es vermehrt nichtlineare Verzerrungen mit steigendem Pegel, verursacht durch eine nicht ganz gerade Kennlinie der Verstärkung. Bei der Stimme und z. B. Trompete erhöht dies durch Hinzufügen harmonischer Obertöne die Präsenz, auch entsteht eine geringe Kompressionswirkung, die die Instrumente „druckvoller“ macht. Betrachtet man Großmembranmikrofone und Röhrentechnologie als Mittel der Klanggestaltung, dann haben beide auch in der modernen Tonstudiotechnik ihren Platz und ihre Daseinsberechtigung. 4.2.4.4 Lavalier-Mikrofon Sprecher, die während ihres Vortrags sich oder ihre Hände frei bewegen wollen, werden vorteilhaft mit sog. Lavalier-Mikrofonen ausgestattet, ein Lavalier ist ein veralteter Ausdruck für einen ein Schmuckanhänger. Diese Mikrofone – zumeist Druckempfänger, da diese wegen der hoch abgestimmten, also sehr straff gespannten Membran gegen Reibgeräusche unempfindlicher sind – werden mit einer um den Hals gehenden Schnur oder durch eine Klammer an der Kleidung befestigt und vor der Brust getragen. Ihr Wandlersystem ist gegen Körperschall-Übertragung durch das Gehäuse geschützt. Einige Lavalier-Mikrofone weisen entsprechend ihrer besonderen Verwendung einen speziellen Frequenzgang auf. Das Übertragungsmaß steigt zu hohen Frequenzen hin um 8 bis 10 dB an, weil der Mund die höherfrequenten Schallanteile vorzugsweise in Sprechrichtung und weniger stark zur Brust hin abstrahlt. Außerdem zeigt sich bei männlichen Sprechern bei 700 Hz, bei weiblichen bei etwa 800 Hz, eine resonanzartige Überhöhung im Frequenzgang, die durch vom Brustkorb abgestrahlten Schall zustande kommt (Abb. 2/7) und bei einigen Lavalier-Mikrofonen akustisch oder elektrisch entzerrt wird (Abb. 4/39). Ob ein Mikrofon eine spezielle Lavalier-Entzerrung besitzt oder nicht, kann nicht aus seiner Typenbezeichnung als Ansteck- oder Lavalier-Mi krofon geschlossen werden. Nach Lavalier entzerrte Mikrofone sind nur entsprechend ihrer Zweckbestimmung verwendbar. Optimale Bewegungsfreiheit hat der Vortragende, wenn das Mikrofonsignal drahtlos über einen Taschensender weitergeleitet wird. Lavalier-Mikrofone können als Kondensatormikrofone oder als dynamische Mikrofone ausgeführt sein, im professionellen Bereich wird die Ausführung als hochwertiges Kondensatormikrofon bevorzugt.
4.2 Mikrofone
193
Abb. 4/39. Frequenzgang der Entzerrung des Lavalier-Mikrofons.
Eine weitere Variante eines Nahfeldmikrofons ist das Ohr- oder Nackenbügel-Mikrofon, das mit einem Ohrbügel fixiert, seitlich neben dem Mund positioniert wird und sehr gute Klangqualität bietet; in dieser Position werden auch die gefürchteten Übersteuerungen durch Popplaute vermieden. Für Moderatoren von Radiosendungen empfehlen sich Headsets, eine Kombination von zumeist Elektretmikrofonen mit Ohrbügel und Kopfhörern. Sie garantieren insbesondere einen definierten, auch bei Bewegungen unveränderten Mikro fonabstand, erreichen aber nicht die Klangqualität der Studiomikrofone. 4.2.4.5 Kontaktmikrofon Kontakt- oder Körperschallmikrofone nehmen nur die Schwingungen von schwingenden Festkörpern ab, z. B. Musikinstrumenten, aber keine Luftschwingungen. In der Studiotechnik haben sich Kontaktmikrofone nur bedingt durchsetzen können. Einer der Gründe hierfür ist, dass der Körperschall der Instrumente andere Eigenschaften hat als der abgestrahlte Luftschall, dass die Instrumente also ungewohnt klingen. Sie arbeiten nach dem elektrostatischen Wandlerprinzip mit Elektretsystemen, die als flexible Bänder auf Resonanzflächen aufgeklebt werden, oder nach dem piezoelektrischen Prinzip. Körperschallmikrofone werden bei Bass und Gitarre bevorzugt eingesetzt. Für Aufnahmen beim Fernsehen können sie dann vorteilhaft sein, wenn Mikrofone im Bild nicht sichtbar sein sollen. Vorteilhaft sind sie besonders aber bei schwierigen Beschallungssituationen, da Rückkopplungen ausgeschlossen sind. Hauptsächlich finden diese Schallwandler jedoch als Schwingungsaufnehmer bei der Materialprüfung Anwendung. 4.2.4.6 Kunstkopf-Mikrofon Ein interessanter und wichtiger Spezialfall der zweikanaligen Aufnahmeverfahren stellt die sog. kopfbezogene Stereofonie dar, auch als Kunstkopf-Aufnahmeverfahren bekannt (siehe hierzu ausführlich Kap. 5.5.5.1). Im Prinzip handelt es sich um die verzerrungsfreie Übertragung und Reproduktion von den Schallsignalen an den menschlichen Trommelfellen [Platte, 1975]. Mikrofonsysteme, die die Bedingungen beim natürlichen Hören nachahmen,
194
4 Mikrofone und Lautsprecher
wurden bereits in der Frühzeit der Tonaufnahme entwickelt und seit den 1930er Jahren auch patentiert. Mit dem Hörspiel „Demolition“, einer Gemeinschaftsproduktion von RIAS, WDR und BR nach einem Science-Fiction-Roman von Alfred Bester wurde das Interesse in den 1970er Jahren wieder auf diese Technik gelenkt. Eine wichtige Fähigkeit des menschlichen Hörsystems besteht darin, Unterschiede der Informationen zu verarbeiten, die vom linken und rechten Ohr bereitgestellt werden. Diese binaurale Signalverarbeitung ist die Grundlage für das räumliche Hören, also für die Lokalisierung, Schallquellenauswahl und für die Mustererkennung. Auf Grund des räumlichen Abstands der beiden Ohren entstehen richtungs- und entfernungsabhängig unterschiedliche interaurale Laufzeit- bzw. Phasenbeziehungen. Die Ohrkanaleingänge liegen unsymmetrisch im Cavum Conchae, der trichterförmigen Vertiefung innerhalb der Ohrmuschel; dieses liegt ebenfalls unsymmetrisch innerhalb der Ohrmuschel, diese wiederum liegt unsymmetrisch nach hinten und unten versetzt am Kopf. Diese mehrfachen Asymmetrien der äußeren Geometrie erzeugen auf Grund der Überlagerungen der Schallwellen, verursacht durch Beugungen und Reflexionen, für alle Schalleinfallsrichtungen unterschiedliche Übertragungsfunktionen oder HRTF (Head Related Transfer Function). Daher sind diese für alle Schalleinfallsrichtungen unterschiedlich und ermöglichen so, obwohl nur zwei Empfänger vorhanden sind, dem menschlichen Gehör das dreidimensionale, räumliche Hören. Die von der menschlichen Anatomie vorgegebene Geometrie erzeugt die sog. Außenohrübertragungsfunktion, dargestellt in Abb. 4/40.
Abb. 4/40. Modell zur Beschreibung der Entstehung der Außenohrübertragungsfunktion des Gehörs [Genuit, 1984].
Die Außenübertragungsfunktionen entstehen durch die Überlagerung von direkt einfallenden Schallwellen sowie deren Reflexionen und Beugungen an Ohrmuschel, Kopf, Schulter und Oberkörper, und den akustischen Resonanzen, erzeugt von den Hohlräumen des Cavum Conchae und des Ohrkanals. Die Außenohrübertragungsfunktion ist komplex und abhängig vom Einfallswinkel und im geringen Maß für Distanzen unter 3 m von der Entfernung. Sie wird für Direktschall bestimmt und heißt daher Freifeld-Außenohr-Übertragungsfunktion. Den Betrag von typischen Übertragungsfunktionen beim Menschen gemessen im Ohrkanaleingang für die vier Hauptschalleinfallsrichtungen zeigt Abb. 4/41.
4.2 Mikrofone
195
Abb. 4/41. Betrag der Übertragungsfunktion des Außenohres für Schalleinfall von vorne 1. seitlich zugewandt, 2. hinten, 3. und seitlich abgewandt, 4. gemessen am menschlichen Ohr im Ohrkanaleingang [Genuit, 1984].
Grundsätzlich existieren drei unterschiedliche Arten von Kunstkopfsystemen: –– Systeme für Messungen der akustischen Übertragungseigenschaften von ohrnahen Schallquellen, –– Systeme als Stereomikrofon zur authentischen Tonaufnahme z. B. von Musik, –– Systeme für Messungen der Geräuschqualität von Umweltgeräuschen, von technischen Einrichtungen und der Gestaltung des Sound-Design von Produkten. Als erstes erfolgte 1971 die Vorstellung des KEMAR-Kunstkopfs der Firma Knowles Electronics. Dieses System besaß eine mechanische Nachbildung der Trommelfellimpedanz; das Einsatzgebiet fokussierte sich auf die Messung der Übertragungseigenschaften von ohrnahen Schallquellen, z. B. Hörgeräten, Kopfhörern und mobilen Telefonen; hierbei ist die Wechselwirkung zwischen der Ausgangsimpedanz der Quelle und der Belastungsimpedanz durch Ohrkanal und Trommelfell zu berücksichtigen. Für dieses Spezialfall werden spezielle Kunstkopfmesssysteme mit Ohrkanal und einer Nachbildung der Trommelfellimpedanz verwendet. Im Jahr 1975 stellte die Firma Neumann den ersten kommerziell erhältlichen Kunstkopf KU 80 speziell für den Einsatz für Tonaufnahmen vor der basierend auf den Untersuchungen
196
4 Mikrofone und Lautsprecher
von Kürer, Plenge und Wilkens [Kürer, 1969] entwickelt wurde. Diese Autoren verfolgten noch den Ansatz, die Mikrofonsignale an der Stelle aufzunehmen, wo beim Menschen das Trommelfell liegt. Das bedeutete aber eine zweifache Durchquerung − bei der Aufnahme wie auch bei der Wiedergabe − der Ohrmuschel und des Ohrkanals mit ihren aufgrund der Geometrie bedingten frequenzabhängigen Pegeländerungen. Zusätzlich verursachte die Ankopplung eines Studiomikrofons mit 20 mm Durchmesser an die Ohrkanalnachbildung mit einem Durchmesser von 10 mm eine akustische Tiefpasswirkung oberhalb von 5 kHz. Deshalb wies der KU 80 klangliche Einschränkungen auf, die einer Verbreiterung des Kunstkopfverfahrens im Studiobereich entgegenstanden. In der Wissenschaft hielt sich lange die Annahme, für eine korrekte räumliche und klangliche Abbildung der akustischen Originalsituation bei Wiedergabe über Kopfhörer sei eine genaue Nachbildung der menschlichen Trommelfellimpedanz erforderlich, deren messtechnische Bestimmung wie auch deren Nachbildung nicht einfach ist [Hudde, 1980]. Für ein Kunstkopf-Aufnahmesystem, das nicht für die Bestimmung der Übertragungseigenschaften von ohrnahen Schallquellen eingesetzt werden soll, sondern für die Aufnahme einer akustischen Umwelt, zeigten erste experimentelle Untersuchungen eine Unabhängigkeit der Richtcharakteristik des Kunstkopfmikrofons, die sog. monaurale Übertragungsfunktion, von den Übertragungseigenschaften des Ohrkanals und dem Abschluss mit der Trommelfellimpedanz. Die Freifeldübertragungsfunktion eines Ohrs in Abhängigkeit der Schalleinfallsrichtung ändert sich zwar durch die Eigenschaften des Ohrkanals und dessen Abschluss mit einer Trommelfellimpedanz; bei Bezug der Außenohrübertragungsfunktionen im Freifeld in Abhängigkeit der Schalleinfallsrichtungen auf die Referenzbeschallung von vorne entsteht aber eine monaurale Richtcharakteristik, die unabhängig von Ohrkanal und dessen akustischen Abschluss, dem Trommelfell, ist. Somit konnte ein Kunstkopfaufnahmesystem ohne Nachbildung des Ohrkanals und des Trommelfells konstruiert werden, das aber nicht zur Bestimmung von ohrnahen Schallquellen geeignet ist, 1981 entstand das erste Kunstkopf-Messsystem mit zum menschlichen Gehör vergleichbaren Eigenschaften hinsichtlich Richtcharakteristik, Frequenzübertragungsbereich und Dynamik, das zusätzlich für den Einsatz in der akustischen Messtechnik freifeldentzerrt und kalibrierfähig war [Genuit, 1982]. Der Einsatz erfolgt vornehmlich zur Erfassung und Analyse im Bereich Geräuschqualität und Sound Design. Schallereignisse werden originalgetreu aufgezeichnet und über Kopfhörer beurteilt. So sind einerseits leicht gehörmäßige Vergleiche von verschiedenen Produkten oder die akustischen Auswirkungen von Modifikationen an Produkten möglich. Andererseits lassen sich mithilfe der Signalverarbeitung einzelne Komponenten im Zeit- oder Frequenzbereich manipulieren, um zu erkennen, wie ein gewünschter Sound zu erzielen ist. Das Einsatzgebiet dieser verbesserten Kunstkopfmesstechnik fokussierte sich zunächst auf den Automobilbereich, bald aber auch auf die Bestimmung der Geräuschqualität von Büro- und Haushaltsgeräten. Inzwischen ist die Anwendung ebenso in der Raum- und Bauakustik sowie zur Erfassung der akustischen Umweltbelastung etabliert. Der internationale Standard [ISO 12913] erfordert normativ den Einsatz der binauralen Messtechnik. Natürlich ließ sich dieses Kunstkopfmesssystem auch hervorragend im Studiobereich einsetzen. Anfang der 1980er Jahre führte Neumann das Nachfolgeprodukt KU 81 mit Diffusfeldentzerrung [Theile, 1094] und später den KU 100 mit weiter verbesserten technischen
4.2 Mikrofone
197
Eigenschaften ein. Mit diesem verbesserten Kunstkopf etablierte sich für die Verwendung von Kunstkopfmi kro fonen eine weitere Entzerrungsart: die Diffusfeld-Entzerrung (DF) neben der bislang in der Messtechnik verwendeten Freifeld-Entzerrung (FF). Wenig später kam noch eine weitere Entzerrungsart hinzu [Genuit, 1987]: die richtungsneutrale Entzerrung (ID) (Independent on Direction). Freifeld-Entzerrung bedeutet, der Kunstkopf liefert bei frontalem Schalleinfall von vorne im Freifeld in 3 m Entfernung ein frequenzunabhängiges konstantes Übertragungsmaß vergleichbar mit einem Messmikrofon. Die Freifeld-Entzerrung ist damit sehr genau definiert sowie reproduzierbar und ist damit Grundlage für akustische Messvorschriften. Bei der Diffusfeld-Entzerrung trifft der Schall aus allen Richtungen für alle Frequenzen mit gleichen Pegeln auf das Messobjekt, also ein frequenzunabhängiges kon stantes Übertragungsmaß, vergleichbar zu typischen Studiomikrofonen. Bei der ID-Entzerrung werden nur die richtungsunabhängigen Resonanzen innerhalb der Außenohrübertragungsfunktion entzerrt, im Wesentlichen sind das die Eigenschaften des Ohrkanals und der Cavum Conchae-Höhle. Eine Gegenüberstellung der drei Entzerrungsarten zeigt Abb. 4/42.
Abb. 4/42. Betragsverlauf der Entzerrungsfilter für einen Kunstkopf, 1. Freifeld, Schalleinfall nur von vorne (FF), 2. Diffusfeld, gleichmäßige Beschallung aus allen Richtungen (DF), 3. richtungsneutral, nur Berücksichtigung der Resonanzen (ID).
Alle drei Entzerrungsarten beinhalten die Korrektur des Einflusses durch die Resonanzen von Cavum Conchae und Ohrkanal. Insbesondere die Cavum Conchae-Resonanz mit ca. 15 dB Pegelerhöhung war bei der ersten Kunstkopfgeneration verantwortlich für die deutlich wahrnehmbaren Klangfärbungen, sie werden aber durch alle drei Entzerrungsarten eliminiert, von daher sind die verbleibenden Unterschiede von untergeordneter Bedeutung. Normalerweise werden Kunstkopfaufnahmen über Kopfhörer abgehört. Solange dann bei Aufnahme und Wiedergabe kompatible Entzerrungen eingesetzt, ist die Auswahl derselben irrelevant. Aber es gilt
198
4 Mikrofone und Lautsprecher
auch die Kreuzkompatibilitäten [Theile, 1985] zu berücksichtigen: wie klingt eine Kunstkopfaufnahme bei Wiedergabe über Lautsprecher, wie klingen konventionelle Produktionen über Kopfhörer und wo ergeben sich im Vergleich zu einem Messmikrofon die geringsten Abweichungen, wenn die Kunstkopfsignale nicht nur zum Abhören Verwendung finden, sondern auch zur messtechnischen Analyse wie Schalldruckpegel und psychoakustischen Größen? In der Praxis liegen selten ein reines Freifeld oder Diffusfeld vor. Von daher sind Kompromisse erforderlich. In der Messtechnik hat sich einerseits auf Grund der bestehenden Messvorschriften die Freifeldentzerrung etabliert, bei Messungen, die nicht nach Vorschriften konform ablaufen müssen, die ID-Entzerrung. Im Studiobereich dagegen findet die Diffusfeld-Entzerrung Verwendung. Der diffusfeldentzerrte Kunstkopf als binaurales Aufnahmeverfahren und zusammen mit dem diffusfeldentzerrten Kopfhörer als authentisches Hörerlebnis einer klangeinhüllenden Wiedergabe, einem Immersive Sound, wird in Kap. 5.5.5.1 behandelt. Die Eigenschaft der gehörrichtigen Übertragung von Schallereignissen, bei der Wiedergabe originalgetreue Hörereignisse zu gewährleisten, kann auch von Nachteil sein, wenn die akustische Ausgangssituation nicht optimal ist. Das Zusammenschneiden von Kunstkopfaufnahmen ist deutlich kritischer, da das Gehör geringe Änderungen der akustischen Umwelt wahrnimmt. Bei Musikproduktionen besteht in der Regel der Wunsch, einzelne In strumente hervorzuheben. Studiomikrofone können einer Kunstkopfaufnahme gehörrichtig zugemischt werden [Gierlich, 1989], wenn die Signale von einzelnen Quellen winkel- und entfernungskorrekt mit Filterung der Außenohrübertragungsfunktion versehen werden. Inzwischen ist die virtuelle Auralisierung sehr weit fortgeschritten [Vorländer, 2021], eine beliebige Anzahl von Quellen in Verbindung mit den klanglichen Eigenschaften von Räumen können auch ohne Kunstkopfmikrofon zu einer binauralen Aufnahme kombiniert und komponiert werden. Eine besondere Form der binauralen Aufnahmesysteme sind Ohrkanalmikrofone. Dabei erfolgt die Aufnahme des Schalls mit Miniatur-Mikrofonen im Ohrkanal einer Person. Diese Systeme sind deutlich kostengünstiger und bieten vor allem den Vorteil, an Orten Aufnahmen durchführen zu können, an denen kein Kunstkopf platziert werden kann, z. B. auf dem Fahrersitz eines Kraftfahrzeugs im Verkehr. Auch sind solche Ohrmikrofone unauffällig einsetzbar. Nachteilig sind die in der Regel schlechteren technischen Eigenschaften sowie die fehlende korrekte Entzerrung. Zusätzlich darf die Person mit Ohrkanalmikrofon keine Bewegungen und eigene Geräusche ausführen. Die Wiedergabe von binauralen Signalen erfolgt idealerweise über Kopfhörer, um die eindeutige Zuordnung von linken und rechten Mikrofonsignalen zum linken und rechten Ohr der abhörenden Person zu ermöglichen. Grundsätzlich gibt es einige Parameter, die die perfekte Wiedergabe einschränken: –– Die individuellen Geometrien des Außenohrs sind unterschiedlich und daher mehr oder weniger abweichend zu der Richtcharakteristik des Kunstkopfs. –– Die Kopfhörerübertragungseigenschaften an den Ohren der abhörenden Personen sind ebenfalls individuell unterschiedlich. –– Die technischen Übertragungseigenschaften von unterschiedlichen Kopfhörern variieren sehr stark, hier lässt sich nur mit einer vorgeschalteten Entzerrungseinheit eine vergleichbare, standardisierte und pegelrichtige Wiedergabe gewährleisten, die optional auch eine Individualanpassung zulässt.
4.2 Mikrofone
199
–– Die fehlende Kopfdrehbewegungen erschweren insbesondere die Vorne-Lokalisation, bei der Wiedergabe erzeugen Kopfdrehungen eine Irritation, da sich das gesamte akustische Umfeld sich mitbewegt. Die Wiedergabe über Lautsprecher ist auf Grund der Entzerrung des Kunstkopf-Mikrofons ohne klangliche Einbußen möglich, da jedoch beide Ohren von beiden Lautsprechern beschallt werden, ist die räumliche Klangabbildung nicht vergleichbar zur Kopfhörerwiedergabe. Mit Hilfe von speziellen Kompensationsverfahren, die das Übersprechen verringern, lässt sich eine Verbesserung des räumlichen Abbildes erzielen, allerdings mit der Einschränkung auf eine fixierte Abhörposition. Eine akzeptable Lautsprecherwiedergabe von binauralen Signalen wird auch mit einer vier Lautsprecherwiedergabe erzielt, wobei vor wie auch hinter den abhörenden Personen jeweils zwei stereofone Lautsprecherpaare installiert werden. Eine zusammenfassende Übersicht zur Kunstkopftechnik wurde in einer Mitteilung des Normenausschusses „Psychoakustische Messtechnik“ veröffentlicht [Fedke, 2007].
4.2.5 Mikrofonständer Für die Aufstellung der Mikrofone stehen für jede denkbare Aufnahmesituation geeignete Ständer zur Verfügung (Abb. 4/43); bei ihrem Einsatz ist darauf zu achten, dass Trittschall nicht übertragen wird, d. h., der senkrechte Trägerstab soll niemals auf dem Boden aufstehen. Bei starkem Trittschall empfiehlt sich die Verwendung von Mikrofonspinnen oder mit Gummibändern gefederte Mikrofonhalter.
Abb. 4/43. Verschiedene Mikrofonständer: 1. Mikrofonwinde, 2. Mikrofonboom, 3. Stativ, 4. Tischstativ, 5. Mikrofonangel.
200
4 Mikrofone und Lautsprecher
4 .3 Einrichtungen für drahtlose Mikrofone Oftmals sind Kabelverbindungen zum Mikrofon eine unerwünschte Einschränkung der Aufnahmesituation, besonders bei bewegten Schallquellen wie agierenden Sängern, Schauspielern oder Moderatoren. Drahtlose Mikrofone oder Funkmikrofone gewährleisten die Mobilität der Agierenden auf und hinter der Bühne, im Studio oder bei Außenaufnahmen. Zur Sprachübertragung werden kabellose Mikrofonverbindungen in Kongress- und Seminarräumen benutzt. Die Empfänger für die drahtlosen Mikrofonsignale sind mobil, sie können z. B. in Videokameras oder, am Körper getragen, für sog. In Ear-Monitoring eingesetzt werden. Drahtlose Mikrofone werden auch für die Abnahme von Musikinstrumenten eingesetzt. Sie dürfen Kabelverbindungen qualitativ nicht oder nur unwesentlich unterlegen sein; gefordert wird deshalb bei sehr hoher Übertragungssicherheit in Echtzeit ein Frequenzumfang der Übertragung bis 20 kHz Audiobandbreite und ein Dynamikumfang von 100 dB. Für die Erfüllung dieser Anforderungen sind die Rahmenbedingungen entscheidend. Das Funkfeld wird von einer komplexen Vielfalt verschiedenster Funkdienste parallel genutzt; bei großen Bühnenereignissen können Hunderte von Funkübertragungsfrequenzen belegt sein. Neben den regulär genutzten Frequenzen muss die große Vielzahl ungewollter Störstrahlung beachtet werden; die Hochfrequenzstörleistung von Lichtsteuereffekten z. B. kann die Strahlungsleistung der drahtlosen Mikrofone übertreffen. Die verwendeten Übertragungsfrequenzen müssen dann auf weniger gestörte Bereiche ausweichen. Es hat sich in der Praxis bewährt, die Systeme grundsätzlich redundant zu planen, um bei unerwartet auftretenden Herausforderungen über Reserven zu verfügen, das betrifft vor allem die Anzahl nutzbarer Kanäle und die Feldstärken an den Empfangsantennen. Ein besonderes Merkmal der Funkmikrofontechnik sind die ständigen Veränderungen der Übertragungsbedingungen, wenn bei der Aufnahme oder Übertragung die Mikrofone nicht ortsfest sind. Feldstärkeschwankungen und gegenseitige Beeinflussung der Sender verlangen eine hoher Betriebssicherheit entsprechende Technik und von den Beteiligten Erfahrung. Im Folgenden wird der Weg des Audiosignals durch die Übertragungskette vom Sender über die Antenne, die Wellenausbreitung und den Empfänger dargestellt, es werden praktische Hinweise zur Vermeidung häufiger Fehler gegeben [Arasin, 2012]. Neben Funkmikrofonsystemen in analoger Technik, deren Übertragung im Prinzip wie der analoge UKW-Funk arbeitet und im Folgenden beschrieben wird (Kap. 4.3.1 ff.), wurde eine digitale Übertragungstechnik entwickelt, die die analoge Technik ersetzen und große Vorteile in der Handhabung und Flexibilität bietet (Kap. 4.3.4). Die digitalen Systeme arbeiten mit unkomprimierter digitaler Signalübertragung und bieten störungsfreien Klang sowie große Dynamik. Dank besonders steilflankiger Filter lassen sich dabei die einzelnen Funkfrequenzen im verfügbaren Frequenzband sehr viel enger anordnen als bisher, ohne die Gefahr von Intermodulation.
4.3 Einrichtungen für drahtloseMikrof
201
4.3.1 Drahtlose Audioübertragung mit analog modulierter HF-Übertragung 4.3.1.1 Sender Für die drahtlose Übertragung von Mikrofonsignalen gibt es drei Varianten batteriegetriebener Sender: –– Handsender, die im Mikrofonschaft untergebracht sind, –– Taschensender, die meist mit einem Clip am Gürtel befestigt werden (Bodypack, Beltpack) und über Kabel mit 3,5 mm-Klinken-, Mikrodot-, Mini-XLR- oder LEMO-Stecker mit dem Mikrofon verbunden sind, –– Aufstecksender (Plug On) mit XLR-Buchse und 48 V-Phantomspeisung, die in Verbindung mit jedem analogen Mikrofon betrieben werden können. Die Betriebssicherheit und Studioqualität erfordern –– klangliche Neutralität, –– störsichere Hochfrequenzeigenschaften bei Einhaltung der Zulassungsvorschriften, –– mechanische Stabilität der Sender und der Steckverbindungen, –– ein Stromversorgungskonzept, das die Geräteleistung konstant hält, –– rechnergestützte Kontrolle aller Parameter.
Abb. 4/44. Blockschaltbild eines Taschensenders mit prozessorgesteuerter PLL (Phase-Locked Loop, Taktsynchronisation), Gleichspannungswandler und Infrarotdatenschnittstelle.
Das Blockschaltbild eines Senders zeigt Abb. 4/44. Das Mikrofonsignal wird im Vorverstärker des Senders verstärkt und angepasst sowie zwei Maßnahmen unterzogen, die das Rauschen vermindernden: einer Dynamikkompression durch einen Kompander (Abb. 4/45) und einer Preemphasis. Die Preemphasis hebt wie beim UKW-Rundfunk den Frequenzbereich oberhalb
202
4 Mikrofone und Lautsprecher
von ca. 2 kHz um 6 dB/Oktave an. Damit wird der bei ansteigender Frequenz sich verringernde Rauschabstand kompensiert, weil Musik und Sprache mit zunehmender Frequenz im Pegel abnehmen.
Abb. 4/45. Kompandersystem des Senders und Empfängers.
Abb. 4/46. Preemphasis des Signalfrequenzgangs im Sender und Deemphasis im Empfänger um 6 dB/Oktave zur Rauschverminderung bei hohen Frequenzen.
Die international ähnlichen Einschränkungen der belegten HF-Bandbreite durch die Telekommunikationsbehörden erfordern für die Übertragung zusätzlich eine Kompression der Dynamik. Meistens wird die Eingangsdynamik des Audiosignals um den Faktor 2 komprimiert; ein Signal mit einem Pegel von z. B. 40 dB unter Vollaussteuerung komprimiert der Kompressor also auf 20 dB unter Vollaussteuerung (Abb. 4/46). Im Empfänger wird die kom-
4.3 Einrichtungen für drahtloseMikrof
203
primierte Dynamik dann wieder um den Faktor 2 expandiert, so dass am Empfängerausgang der ursprüngliche Pegel zur Verfügung steht. Ohne dieses Kompandersystem aus Kompressor und Expander kann Studioqualität im Rahmen der Beschränkungen der Zulassungsbehörden nicht erreicht werden. Das durch die Preemphasis linear verzerrte und komprimierte Signal wird in Frequenzmodulation (FM) einer Hochfrequenzträgerschwingung aufgeprägt und von der Senderantenne allseitig ins Funkfeld abgestrahlt. Der Rauschabstand des Übertragungssystems kann statisch bis 120 dB betragen. In der Praxis muss eine Aussteuerungsreserve vorgesehen werden, die Werte verbleiben deshalb meistens im Bereich von 70 bis 90 dB. Akustische Nebengeräusche auf der Bühne oder im Studio, z. B. durch Lüfter, Nebelmaschinen oder das Publikum, bestimmen meist den Geräuschpegelabstand in größerem Maße. Funkmikrofone werden überwiegend im UHF-Bereich von 470 bis 2.480 MHz betrieben. Eine eigene, freie Frequenz ist grundlegende Voraussetzung für ungestörten Betrieb. Zwischen zwei Übertragungsfrequenzen ist ein sog. Selektionsabstand von ca. 400 kHz einzuhalten. Der Sender arbeitet wie der UKW-Rundfunk mit Frequenzmodulation (FM). Die Trägerfrequenz von z. B. 700 MHz wird durch ein Audiosignal ständig nach höheren und niedrigeren Frequenzen um die Mittenfrequenz verschoben. Der Änderungsbetrag, der sog. Hub der Funkfrequenz, übermittelt den Signalpegel, also die Lautstärke. Die Geschwindigkeit der Frequenzänderungen repräsentiert den Schwingungsverlauf des Audiosignals (Abb. 4/47).
Abb. 4/47. Frequenzverhältnisse bei der HF-Übertragung.
Ohne Audiosignal bleibt der Hochfrequenzträger konstant auf seiner Frequenz, es liegt am Empfängerausgang kein Signal an. Die belegte Hochfrequenzbandbreite, der Hub,
204
4 Mikrofone und Lautsprecher
nimmt mit der Lautstärke zu. Die Regulierungsbehörde, in Deutschland die Bundesnetzagentur (BNetzA), legt die maximal zulässige belegte HF-Bandbreite fest, nicht den maximalen Hub. Bei voller Aussteuerung darf maximal nur ± 50 kHz um die Mittenfrequenz moduliert werden. Die BNetzA zertifiziert alle für den Betrieb zugelassenen Sender. Der Bedarf an HF-Bandbreite ist näherungsweise der maximale Hub plus die doppelte Audiobandbreite. Ein Funkmikrofon belegt mit z. B. ± 50 kHz Frequenzhub und 2 mal 20 kHz Audiobandbreite, also 50 + 50 + 2 · 20 = 140 kHz HF-Bandbreite. Ein Funkmikrofon darf nach in Europa harmonisierten Regeln maximal 200 kHz HFBandbreite belegen. An den Grenzen des Bands muss das Funksignal bereits um 60 dB abgefallen sein, also auf 1/1.000 seiner maximalen Leistung. Die diesbezüglichen Vorschriften werden herausgegeben vom Europäischen Institut für Telekommunikationsnormen ETSI in Sophia Antipolis in Frankreich (European Telecommunications Standards Institute) und in Deutschland von der Bundesnetzagentur (BNetzA) überwacht. Die sog. ETSI-Maske definiert das Fenster, in dessen Rahmen das Sendersignal im HF-Spektrum auch bei Vollaussteuerung bleiben muss (Abb. 4/48). Übersteuerungen müssen unterdrückt werden durch einen „harten“ Limiter (Peak Limiter) ab 48 kHz Hub. Der Limiter ist Pflicht für jeden Sender mit dem CE-Zeichen und verhindert wirksam, dass er übermoduliert und damit zu viel Bandbreite im HF-Spektrum belegt.
Abb. 4/48. ETSI-Maske EN 300 zur Definition des HF-Übertragungskanals, fc = Trägerfrequenz (transmitter carrier frequency) = 800 MHz, B = belegte Bandbreite = 200 kHz.
Die einzustellende Vorverstärkung im Sender soll einerseits eine Übersteuerung, andererseits eine Untersteuerung, d. h., eine verrauschte Übertragung, verhindern. Der mittlere Pegel ist deshalb auf ca. 20 dB unter Vollaussteuerung einzustellen. Signale mit hohem Obertonanteil wie Applaus, Becken, Schellenring, Schlüsselbundklirren u. ä. sollten noch vorsichtiger ver-
4.3 Einrichtungen für drahtloseMikrof
205
stärkt werden, weil die Preemphasis die hohen Frequenzen überproportional anhebt und abgeschnittene Pegelspitzen durch den harten Limitereinsatz zu hörbaren Verzerrungen führen. Funkmikrofonsender arbeiten mit HF-Leistungen zwischen 10 und 100 mW. Die abgegebene Leistung wird mit EIRP (Effective Isotropic Radiated Power) bezeichnet, das ist die Leistung, die von einer hypothetischen isotropen Antenne, einer allseitig strahlenden Antenne, ausgestrahlt werden müsste, um dasselbe Signalniveau in Richtung der maximalen Strahlung der jeweiligen Antenne zu erhalten. Die tatsächlich ins Funkfeld abgegebene Leistung liegt jedoch darunter, weil durch den körpernahen Einsatz die Antenne undefiniert verstimmt wird und Strahlungsenergie im Körper in Wärme umgewandelt wird. Dabei können Verluste von 3 bis 20 dB entstehen, also von 50 bis 99 % der HF-Leistung. Hohe Dämpfungen haben selbstverständlich großen Einfluss auf die Reichweite und die Übertragungssicherheit. Ein größerer Abstand zum Körper reduziert die Antennenverstimmung und begünstigt die Abstrahlung erheblich. Schädigungen am menschlichen Körper durch die HF-Einstrahlung sind nicht beobachtet worden; die absorbierten Leistungen liegen deutlich unter den empfohlenen Grenzwerten des Bundesamtes für Strahlenschutz. Mehrere Sender, die eng benachbart zum Einsatz kommen, beeinflussen sich gegenseitig, indem die HF-Felder über die Sendeantennen auf die Endstufen einwirken und dabei neue, unerwünschte Sendefrequenzen erzeugen. Dieser physikalisch bedingte Vorgang wird Intermodulation, abgekürzt IM, genannt und lässt sich auf Grund der dynamischen Feldstärkesituation bei bewegten Verhältnissen z. B. auf der Bühne nicht immer vermeiden. Auch Sender mit einem hohen Intermodulationsabstand, abgekürzt IMA, können betroffen sein. Die möglicherweise auftretenden Störfrequenzen werden per Software vorausberechnet. Besonders kritisch sind die Intermodulationsprodukte dritter Ordnung, weil hier große Störpegel mit doppeltem Hub und Frequenzverdopplung auftreten. Vermeidet man in mehrkanaligen Funkmikrofonsystemen diese Frequenzen mit ausreichendem Sicherheitsabstand, ist die Anlage intermodulationsfrei. Intermodulationsprodukte höherer Ordnung sind im Pegel schwächer und spielen meist eine untergeordnete Rolle. Alle Hersteller haben sog. Frequenzbänke in den Empfängern gespeichert, deren Konfiguration sicheren, intermodulationsfreien Betrieb sicherstellt. Wesentliche Voraussetzung für eine sichere Übertragung ist eine Sichtverbindung zwischen Sende- und Empfangsantenne. Unter guten Bedingungen ist ein Betrieb bis mehrere km Entfernung möglich. Die Sendeantenne hat einen Wirkungsgrad von bis zu 70 %. Bei Hand- und Taschensendern reduziert die Nähe zum Körper grundsätzlich die abgestrahlte HF-Leistung. Die Antenne wird verstimmt, ihr Wirkungsgrad lässt nach, und die abgestrahlte HF-Leistung wird oft zum großen Teil im Körper absorbiert. Zusätzlich werden die Funkwellen auf ihrem Weg zur Empfangsantenne situationsabhängig durch den Körper abgeschattet. Die Sendeleistung kann so u. U. bis 20 dB zurückgehen. Der tatsächlich erreichte Wert wird mit ERP (Effective Radiated Power) bezeichnet. und kann im ungünstigsten Fall zu sehr geringen Reichweiten von im Einzelfall nur 10 m führen. Zusammenfassend gelten die folgenden Faustregeln für die Praxis, damit ist auch ein gleichzeitiger Betrieb mit 100 oder mehr Funkmikrofonen zuverlässig durchführbar: –– Sendeantennen nicht berühren, –– einen Mindestabstand von ca. 5 mm zwischen Haut und Sendeantenne vorsehen, –– ein Mindestabstand von ca. 4 m zu den Empfangsantennen einhalten, damit einzelne Trägerfrequenzen nicht zu stark einfallen.
206
4 Mikrofone und Lautsprecher
4.3.1.2 Frequenzzuteilung Die Bundesnetzagentur (BNetzA) als staatliche Behörde teilt den verschiedenen Nutzergruppen von Funkdiensten bestimmte Frequenzbänder zu. Sie definiert die technischen Parameter von Sendern in Verwaltungsvorschriften. Dazu müssen sowohl eine große Zahl von verschiedenen Nutzergruppen und Diensten auf nationaler Ebene koordiniert als auch internationale Vereinbarungen berücksichtigt werden. Die Bereitstellung von funkübermittelten Internetdiensten in ländlichen Gebieten erforderte eine Neuzuteilung von Funkfrequenzen auch für Funkmikrofone und In-Ear-Monitoring (IEM). Die früher von Funkmikrofonen hauptsächlich genutzten Frequenzbänder zwischen 790 bis 814 MHz und 838 bis 862 MHz sind seit dem 3. 3. 2010 für die Nutzung des drahtlosen breitbandigen Internets freigegeben, für Funkmikrofone stehen sie also nicht mehr zur Verfügung. Für Funkmikrofone werden deshalb andere Frequenzbänder im UHF-Bereich bereitgestellt. Für den professionellen Einsatz bei Funkmikrofonen im gewerblichen und fachmännisch ausgebildeten Einsatz sind verschiedene Frequenzbänder reserviert. Sie werden nur auf Antrag und gegen Gebühr bei gegebener Möglichkeit von der BNetzA befristet zugeteilt. Der Einsatz umfasst professionelle Veranstaltungen wie Theater- und Opernaufführungen, Konzerte und sonstige Einsätze in der Veranstaltungstechnik, den öffentlich-rechtlichen Rundfunk, private Rundfunkprogrammanbieter und Programmproduzenten. Generell muss je nach Ausbaugrad der Nutzung durch das drahtlose Internet mit Störungen gerechnet werden. In den Bereichen 470 – 608 MHz und 614 – 694 MHz ist eine Allgemeinzuteilung von Funkfrequenzen anmeldefrei. Da die Funkfelder der Internetdienste diejenigen der Funkmi krofone an Stärke übertreffen können, ist ein Parallelbetrieb nicht sicher bzw. nur im Einzelfall möglich. Funkmikrofone müssen ggf. auf ungestörte Frequenzen ausweichen. Drahtlose
4.3 Einrichtungen für drahtloseMikrof
207
Mikrofone genießen keinerlei Schutz vor Beeinflussungen gegenüber gleichberechtigten Anwendern im gleichen Einsatzgebiet. Die verschiedenen Betreiber müssen den Einsatz der Mikrofone untereinander selbst koordinieren. Zur Wahl des Frequenzbereichs für die verschiedenen Geräteklassen stehen im Internet aktuelle und umfassende Informationen bereit, die in einem dynamischen Geschehen ständig aktuell gehalten werden, zuerst zu nennen sind die Zuteilungen der Bundesnetzagentur, aber auch die Informationen der Firmen, die entsprechende Geräte vertreiben. Abb. 4/49 und Tab. 4/8 geben einen Überblick über die aktuelle Nutzung (2022) der Frequenzbänder. Tab. 4/8. Frequenzbereiche für Funkmikrofone über 10 mW. Frequenzbereich
EIRP
Allgemeinzuteilung Nr.
befristet bis
174 - 230 MHz 470 - 608 MHz 614 - 694 MHz 823 - 826 MHz
50 mW 50 mW
59/2015 34/2020 anmeldefrei 2/2015
31.12.2025 31.12.2030 31.12.2025
3/2015
31.12.2025
826 – 832 MHz 1785 - 1805 MHz
Handgerät 82 mW Handgerät am Körper getragen 100 mW 100 mW 82 mW
Die Verwendung der Frequenzen in allen Bereichen der Medien, Prozesssteuerungen, der Kommunikation im Allgemeinen ist dynamischen Interessen und Ansprüchen an immer mehr Frequenzbereichen unterworfen, primär durch die Mobilfunkindustrie. Alle Anwender von
Abb. 4/49. Frequenzbereiche für drahtlose Übertragung, Funkmikrofone sind mit dem Symbol „Mikrofon“ gekennzeichnet, VvnömL: Verwaltungsvorschriften für Frequenzzuteilungen im nichtöffentlichen mobilen Landfunk, Stand 6/2022.
208
4 Mikrofone und Lautsprecher
drahtlosen Mikrofonen sind auf freie Frequenzen angewiesen und haben deshalb Organisationen gegründet, um ihre Bedürfnisse den politischen Entscheidungsträgern deutlich zu machen; wichtige Informationen werden von der „Association of Professional Wireless Production Technologies e. V.“ (APWPT) bereitgestellt, hier sind auch die zugelassenen Frequenzen für die wichtigsten Länder weltweit aufgeführt.
4.3.1.3 Stromversorgung In den Sendern werden vielfach zwei Alkaline-Mignon-Batterien in Reihenschaltung verwendet. In geladenem Zustand liefern sie zusammen eine Spannung von 3 bis 3,5 V. Die erforderliche Betriebsspannung von 6 V wird durch einen Spannungswandler erzeugt, der sie unabhängig vom Entladezustand der Batterien stabil hält. So bleiben die wichtigen technischen Daten wie Aussteuerungsbereich, Geräuschspannungsabstand und abgestrahlte Leistung über die gesamte Betriebszeit der Batterien konstant. Der Spannungswandler nutzt den Energievorrat der Batterien optimal aus. Er schaltet sich ab, wenn die Spannung unter ca. 2,2 V, also unter 1,1 V Spannung pro Batterie, der sog. Zellenspannung, abfällt. Typische Betriebszeiten mit einem Batteriesatz sind 6 bis 12 Stunden. Überzogene Stromsparkonzepte, d. h., Sender mit sehr langen Betriebszeiten, bergen die Gefahr von Instabilitäten in kritischen HFSituationen, wenn z. B. mehrere Sender einander sehr nahekommen. Eine Alternative ist der Einsatz von Akkus, im Routineeinsatz sind sie betriebssicherer als Batterien. Ein neuer Akku braucht einige Lade-Entlade-Zyklen, bis er seine volle Leistung erbringt. Danach hält er über ca. 500 Zyklen konstant seine Leistung, bei sorgfältiger Behandlung kann man mit Li-Ionen-Akkus über 800 Zyklen erreichen. Im Laufe weiterer Perioden von Ladung und Entladung verliert ein Akkupack dann allmählich an Kapazität, ab 500 Zyklen rechnet man noch mit einem verbliebenen Energieinhalt von etwa 80 %. Die Langlebigkeit der Akkus wird durch sorgfältigen Umgang erhöht. Im Alltagsbetrieb hat sich bewährt, dass ein Team möglichst immer mit demselben Satz von Funkmikrofonen bzw. Akkus arbeitet; der Ladezustand ist hierbei an den Rhythmus der Einsätze gekoppelt, eine schädliche Überladung findet nur selten statt. Wird ein Drahtlos-Set dagegen von häufig wechselnden Teams benutzt, führt das erfahrungsgemäß zu einem schnellen Verschleiß der Akkus durch häufiges Überladen aus Unsicherheit über den Ladezustand. Digital arbeitende Sender verbrauchen deutlich mehr Leistung und sollten mit leistungsstarken Akkus betrieben werden. Optimal gepflegt werden Akkus durch Schnell-Ladegeräte, die mit Pulsen schonend laden und per Zustandserkennung rechtzeitig die Pulsabstände auf Erhaltungsladung reduzieren. Aber auch mit moderner Ladetechnik kann man überladen, wenn man volle Akkus immer wieder aus Unsicherheit über den Ladezustand nachlädt. Dabei entstehen Kerntemperaturen über 45 °C , die den Akku deutlich schneller altern lassen. 4.3.1.4 Antennen und Wellenausbreitung Antennen sind Anpassglieder zwischen dem Hochfrequenzkabel und dem umgebenden Raum. Es sind zumeist Dipole, elektrisch leitfähige Gebilde in räumlicher Ausdehnung mit zwei freien Enden in den unterschiedlichsten Ausführungsformen. Der Abstand der freien
4.3 Einrichtungen für drahtloseMikrof
209
Enden oder Pole steht stets in Beziehung zur Wellenlänge der zu übertragenden Hochfrequenz, z. B. 1/4 der Wellenlänge, mit λ/4-Antenne bezeichnet. Aus der Lichtgeschwindigkeit c = 299.792.458 m/s und der Frequenz f von z. B. 800 MHz = 800.000.000 Hz errechnet sich dieser Abstand gerundet: λ = c/f = 300.000.000//800.000.000 = 3/8 m = 37,5 cm. Eine λ/4Antenne hat also eine Länge von knapp 10 cm. Für eine genaue Betrachtung müssten weitere Parameter beachtet werden. Die Antennen von Taschensendern haben nur ein Ende, sie scheinen nur einen Pol zu haben. Der zweite Pol wird hier durch das Metallgehäuse des Senders dargestellt, was auch als Gegengewicht bezeichnet wird. Funkmikrofone haben stets abgestimmte Sendeantennen für einen bestimmten Frequenzbereich, angepasst für ein Fenster von ca. ± 2 % der Mittenfrequenz. Eine Taschensenderantenne für z. B. 800 MHz erbringt demnach in einer Bandbreite von 40 MHz, also von 780 bis 820 MHz ihre volle Leistung. Größere Schaltbandbreiten, damit sind die durchstimmbaren Frequenzbereiche gemeint, von 90 MHz und mehr erfordern spezielle Antennenformen, z. B. mit einigen cm Durchmesser oder Wechselkonzepte. An den Bereichsgrenzen fällt die Leistung mit zunehmender Entfernung von der Mittenfrequenz allmählich ab. Falsch abgestimmte Sendeantennen können die zur Verfügung stehende Leistung nicht voll in den Raum abstrahlen. Die HF wird hier ohne Vorzugsrichtung abgestrahlt und breitet sich mit ca. 300 m/μs aus. Allgegenwärtig sind Dämpfungen und Reflektionen der ausgestrahlten Signale, sie sollten das Funkfeld nicht um mehr als ca. 80 dB dämpfen. Der Sender erzeugt ca. 1 V Spannung, davon müssen mindestens noch etwa 100 μV am Empfängereingang ankommen, um im Betrieb noch Reserven bei weiterer Signalschwächung zu haben. Die Feldstärkeanzeige am Empfänger endet oft bei 100 μV bzw. 40 dBμV. Der Vollausschlag sollte im Normalfall überwiegen. Die unmittelbare Umgebung der Sendeantenne hat umfassenden Einfluss bei der körpernahen Abstrahlung und den einwirkenden Verlusten durch Verstimmung, Absorption und Abschattung. Das Auffinden guter Positionen für Taschensender am Körper und Empfängerantennen – stets möglichst mit Sichtverbindung − ist wichtig für die Betriebssicherheit. Ausreichende HF-Pegel bei den Proben können während der Veranstaltung durch zusätzliche Absorptionseffekte durch das Publikums zusätzlich abnehmen. Reichweitentests unter betrieblich schlechten, aber realistischen Bedingungen, z. B. mit von der Hand abgedeckten Sendeantennen, sind im Probebetrieb unerlässlich. Bei großen Veranstaltungen mit 30 Funkmikrofonen und mehr werden die Auftrittsbereiche mit mehreren voll eingeschalteten Sendern abgeschritten, um drop outs zu erkennen und auszuschließen. Den Empfangsantennen kommt eine ebenso große Bedeutung zu. Aufsteckantennen, die direkt über BNC-Stecker an den Eingang des Empfängers angeschlossen werden, sind im Allgemeinen abgesetzten Antennen auf höher gelegenen Standorten unterlegen, weil die Sichtverbindung zu den Sendern fehlt und möglicherweise ein höheres Störstrahlungspotential vorliegt. Richtantennen haben mit ihrer Vorzugsrichtung meist einen Gewinn von ca. 10 dB gegenüber Rundstrahlern und ca. 10 dB Dämpfung für rückwärtig einfallende Signale. Diese Eigenschaft kann zum Abschwächen von Störquellen bei entsprechender Ausrichtung von Vorteil sein. Besonders hohe Sicherheit vermitteln sog. zirkular polarisierte Richtantennen für die Aussendung der Signale beim In-Ear-Monitoring. Antennenverstärker oder Booster kompensieren die Dämpfung von langen HF-Leitungen und von Verteilernetzwerken.
210
4 Mikrofone und Lautsprecher
Die Wellenausbreitung im Frequenzbereich von 470 bis 1.805 MHz ist für körpernahe Sender die beste Wahl; die Funkfelddämpfung nimmt mit steigender Frequenz zu, die Reflektionsfreudigkeit an metallischen Strukturen ebenso. Bei Außenübertragungen sind die unteren Frequenzen wegen oft fehlender reflektierender Flächen um 500 MHz vorteilhaft, in Hallen haben die höheren Frequenzbereiche trotz höherer Funkfelddämpfung wegen stärkerer Reflektionen kaum Nachteile. Abschattungseffekte und die Absorption von Funkwellen im Körper steigen ebenso mit zunehmender Frequenz. Diese machen sich ab ca. 1.000 MHz deutlicher bemerkbar. 4.3.1.5 Empfänger Die HF-Eingangssignale am Empfänger sind großen Schwankungen unterworfen, wenn der Sender bewegt wird. 5 μV ist der kleinste Wert, der einen noch brauchbaren Störpegelabstand liefert, bei geringerer Spannung schaltet meist eine Rauschsperre – Squelch genannt – den NF-Ausgang ab (Mute). Nach oben findet man Werte bis 0,15 V entsprechend 150.000 μV, die bei zu geringem räumlichem Abstand zwischen Sender- und Empfangsantenne auftreten können, wobei das Risiko für Intermodulationsstörungen im Vielkanalbetrieb erhöht wird, besonders wenn gleichzeitig andere Empfänger des Systems mit geringen Pegeln arbeiten müssen. Die Übertragungssicherheit wächst, wenn extreme Werte vermieden werden. Die Antennenstandorte sind stets so zu wählen, dass kein Akteur sich ihnen weniger als ca. 4 m nähern kann. Der menschliche Körper verursacht ca. 20 dB Durchdringungsdämpfung, deshalb sollten Antennen möglichst ausreichend hoch angebracht werden, um eine sog. „Radiosicht“ zu ermöglichen. Im Mittel soll der Bereich von ca. 100 bis 2.000 μV Eingangsspannung nicht verlassen werden. Bei Vielkanalbetrieb sind große Unterschiede zwischen den empfangenen Pegeln die Hauptursache für Intermodulationsstörungen. Den täglichen Routineanforderungen auf der Bühne im Studio oder in der Außenübertragung werden Geräte mit hohem Intermodulationsabstand am besten gerecht. Werte ab 60 dB sind im professionellen Einsatz akzeptabel, hochwertige Empfänger erreichen ca. 86 dB. Der elektromagnetischen Verträglichkeit (EMV) kommt eine ständig wachsende Bedeutung zu. Auf der Bühne, im Studio oder an beliebigen Orten der Außenübertragung trifft der Anwender auf eine hohe Zahl digital arbeitender Hochfrequenzquellen mit starken Störsignalen, die sich besonders in den Empfängern der Funkmikrofone bemerkbar machen können. DVB-T, DVB-H, Fernsehsignalgemische und Lichtwände, die aus Millionen getakteter LEDs mit breitbandigen Störspektren bestehen, erfordern sorgfältige Vorbereitung auf den Einsatz. Optimal sind fachkundige Messungen der HF-Situation während der Planung. Intermodulationsstörungen Intermodulationsstörungen treten auf, wenn gleichzeitig mehrere Sender-Empfänger-Systeme betrieben werden, auch wenn diese im Einzelbetrieb störungsfrei arbeiten. Es können Zwitscher- und Pfeifgeräusche, auch Aussetzer entstehen, die unerklärlich erscheinen. Die Störungen entstehen dadurch, dass die Signale von Sender I auch von Sender II empfangen und gemischt werden. Da die Signalverstärker nicht ideal linear arbeiten und die Filter nicht unendlich steile Flanken haben, kommt es zu Mischprodukten aus den Frequenzen der beteiligten Systeme; es entstehen sog. Intermodulationsverzerrungen (siehe Kap. 9.2.2).
4.3 Einrichtungen für drahtloseMikrof
211
Dabei entstehen bei zwei Systemen mit den Frequenzen f1 und f2 neue Komponenten mit den Frequenzen m · f1 ± n · f2 mit m und n = 1, 2, 3… Während f1 ± f2 z. B. mit 501 MHz ± 500 MHz = 1.001 MHz bzw. 1 MHz ergibt und damit Signale mit Frequenzen, die weitab liegen und nicht stören, ergeben z. B. die Signale mit 2 · 500 MHz - 1 · 501 MHz = 499 MHz ein neues Signal, das dicht bei den Signalen f1 und f2 liegt und damit Störungen, die sog. Intermodulationsstörungen 3. Ordnung, entstehen lässt. Eine zusätzliche Frequenz von 501 MHz entsteht aus 2 · 501 MHz – 500 MHz = 502 MHz. Kommen weitere Systeme hinzu, entstehen immer mehr neue Frequenzen und damit Störungen. Aus diesem Grund ist es ratsam, bei Mehrkanal-Setups die von den Herstellern vorprogrammierten Frequenz-Presets zu benutzen. Diese sind so berechnet. dass intermodulationsfreie Kombinationen zur Verfügung stehen. Müssen aus irgendeinem Grund die Frequenzen doch manuell gesetzt werden, hilft es, zunächst an den Rändern der zur Verfügung stehenden Frequenzbänder zu beginnen und sich nach innen vorzuarbeiten. Diese Maßnahme lässt die Intermodulationen zunächst in der Mitte des Bandes auftauchen. Des Weiteren sollte man immer wiederkehrende, gleiche Frequenzabstände, wie beispielsweise 600, 601, 602, 603 MHz, vermeiden. Sicherheit bietet aber nur eine fachgerechte Berechnung oder die Nutzung der voreingestellten Presets. Hersteller von Funkmikrofonen stellen die dafür notwendige Software als kostenlosen Kundensupport im Internet zur Verfügung. 4.3.1.6 Diversity-Empfang Elektromagnetische Wellen erreichen die Empfangsantennen vielfach auf unterschiedlich langen Wegen mit allen möglichen Phasendifferenzen, denn außer dem direkten Weg erreichen sie die Empfangsantenne auch auf Umwegen über Reflexionen an metallischen Oberflächen. Die sich so überlagernden Reflexionen lassen an der Empfangsantenne durch gegenphasig eintreffende Signale auch Auslöschungen entstehen. Das häufig verwendete True Diversity-Verfahren kann diese Störungen beheben. Dabei werden zwei gleich aufgebaute Empfänger mit jeweils eigenen Antennen in räumlichem Abstand ständig hinsichtlich der HF-Eingangsspannung verglichen. Ein schneller Schalter wechselt bis ca. 1.000-mal pro Sekunde unhörbar zum jeweils stärker einfallenden Signal (Abb. 4/50). Aus Kostengründen eingesetzte Diversity-Verfahren mit nur einem Empfänger und zwei Antennen mit logischem
Abb. 4/50. True-Diversity-Empfang.
212
4 Mikrofone und Lautsprecher
Umschaltverfahren sind dem True-Diversity in der Übertragungssicherheit unterlegen. Der Abstand zwischen den Antennen für True-Diversity beträgt für den besten Nutzen minimal 1/4 der Wellenlänge. Bei weitläufigen Aktionsflächen sind größere Abstände nützlich, um Abschattungsrisiken zu verringern. Freie Frequenzen findet der Betreiber vor Ort am einfachsten durch die Abtastfunktion (Scan Mode) der Empfänger. Geeignete Frequenzkonfigurationen für den Mehrkanaleinsatz sind in vielen Geräten gespeichert. Alle Parameter von Multikanalsystemen werden zur besseren Übersichtlichkeit auf einem Rechnerbildschirm zusammengefasst und ggf. ferngesteuert. Mit der Einbindung in Rechnernetzwerke können die Anzeigeparameter wie NfAussteuerung, HF-Pegel, Senderbatteriezustand und Diversity-Umschaltung, aufgezeichnet und gleichzeitig an vielen Orten überprüft werden (Inspizientenpult, Backstage, Tonregie, Tonassistenz etc.), was die Betriebssicherheit erheblich verbessert und Optimierungen z. B. der Antennenstandorte erleichtert.
4.3.2 Drahtlose Audioübertragung mit digital modulierter HF-Übertragung Der Übergang von der Analog- zur Digitaltechnik in der Tontechnik vollzieht sich seit vielen Jahren schrittweise auch im Bereich drahtloser Mi kro fone. Deutliche Verbesserungen im Klang standen zunächst im Gegensatz zu den Anforderungen der Lizenzierungsbehörden nach ökonomischer Verwendung von Hochfrequenzbandbreite. Die Übertragungssicherheit auf das gleiche Niveau zu bringen, das von der analogen Technik gesetzt worden war, schien schwer lösbar. Anfangs war zuverlässige, digitale Funkmikrofontechnik für den professionellen LiveEinsatz zudem teuer. Die richtigen technischen Lösungen mit Bedienkomfort sind mittlerweile in voller Breite verfügbar. Die digitale Funkstrecke klingt nunmehr fast wie eine kabelgebundene Anwendung und die Bedienung ist für den Toningenieur spürbar vereinfacht worden. Insbesondere die Wahl der passenden Funkfrequenzen und deren Programmierung erfolgt auf einfachste Weise. Alle Parameter sind per App vom Smartphone aus kontrollierbar. Die digitale Übertragung bedingte eine grundlegende Neuentwicklung von Sendern und Empfängern. Das Störrisiko durch Intermodulation und die damit verbundene IM-vermeidende Frequenzkonfiguration sind nicht länger nötig. Ein TV-Kanal von 8 MHz Breite kann effizienter als zuvor von Funkmikrofonen belegt werden. Mit einem Frequenzabstand von jeweils 600 kHz oder 400 kHz je nach Geräteserie darf der Fernsehkanal ohne weiteres mit bis zu 13 bzw. 20 Strecken ausgenutzt werden. Mit Abstrichen bei der Sendeleistung und einem auf 15 kHz reduzierten Frequenzgang wären bis zu 40 Funkmikrofonkanäle in einem TV-Kanal möglich. In der analogen Welt waren 8 Strecken üblich, nur in Sonderfällen darüber mehr. Carrier/Interference Eine besondere Stärke der analogen FM-Übertragung ist die Toleranz gegenüber Störungen im gleichen Übertragungskanal. Es zeigt sich, dass Digitalsysteme empfindlicher sind gegenüber störenden Aussendungen anderer Quellen, die in den Übertragungskanal fallen, z. B. Lichtsteuerungen oder Schaltnetzteile. Wie stark ein Störer im Verhältnis zum Träger der Nutzinformation werden darf, bevor die Audioübertragung zusammenbricht und der Empfänger stattdessen den Störer überträgt, wird mit dem Begriff Capture Ratio erfasst. Dieses
4.3 Einrichtungen für drahtloseMikrof
213
gefürchtete „Umklappen“ ist für die analoge, frequenzmodulierte Übertragung bei etwa 2 dB C/I (Carrier/Interference) zu erwarten. Nimmt der Störpegel weiter zu oder der Nutzträger ab, bricht der Störer in die Übertragung ein, und das Nutzsignal wird unterdrückt. Dieser Effekt erfolgt nicht überraschend, sondern kündigt sich durch einen nachlassenden Rauschabstand S/N des Audio-Nutzsignals an. Bei zunehmender Störfeldstärke wird bei ca. 10 dB C/I in einer unmodulierten Übertragung erhöhtes Rauschen hörbar, mit ca. 5 dB C/I verbleibt etwa 40 dB Rauschabstand. Die digitale Übertragung dagegen hält den Rauschabstand > 100 dB und schaltet bei zunehmender Störfeldstärke übergangslos das Nutzsignal ab. Solche Unterbrechungen sind der größte Störfall; die Wahrscheinlichkeit, dass er eintritt, ist in der digitalen Technik im Live-Betrieb höher und unberechenbarer als bei analoger Übertragungstechnik. Abb. 4/51 veranschaulicht die Unterschiede der Übertragungsverfahren in digital unkomprimierter (a), digital komprimierter (b) und analoger (c) Übertragungstechnik. Der Signal-Störabstand S/N bleibt zunächst für alle Verfahren über einen weiten Feldstärkebereich hoch. Je höher die Datenrate, umso besser muss das Verhältnis von Träger zu Störfeldstärke (C/I) bleiben für eine unterbrechungsfreie Verbindung. Bei analogen Verfahren sinkt der Rauschabstand S/N in der Übertragung ab einem Schwellwert proportional zum sich vermindernden Wert von C/I. Die digitale Übertragung hält den Rauschabstand S/N konstant hoch und bricht ab, sobald die Feldstärke den Schwellwert unterschreitet. Was bei analoger Technik nur ein Aufrauschen erzeugt, führt bei digitaler Technik zu unvorhersehbaren Aussetzern. Mittlerweile ist das sog. error concealment, also die Verdeckung von drop outs deutlich verbessert worden. Ebenso vereinzelt aufgetretene Aussetzer, die mit einer speziellen Raumarchitektur und dem daraus resultierenden Gemisch an Reflexionen zusammenhängen, stellen den Anwender nicht länger vor Schwierigkeiten. Manche Empfänger sind mit einer dritten Anzeige ausgestattet; neben der Aussteuerung und der Feldstärke gibt es den LQI (Link Quality Indicator), der die Aktivität der Fehlerkorrektur angibt und auf Empfangsprobleme hinweist, obwohl die Feldstärkeanzeige ausreichende Pegel ausweist. Die Ursache kann in schädlichen Reflexionen begründet sein. Veränderte Antennenpositionen können helfen. Typische Werte für Rauschen und Störungen, die die Grundlage für den darstellbaren HF-Dynamikbereich bilden, schwanken je nach Belastung der Umgebung mit HF-Störern. In freien Gebieten ist die Empfindlichkeit des Empfängers von ca. 0,5 µV die einzige Grenze. Bei großen Veranstaltungen mit Videowänden von mehreren hundert Quadratmetern, die von Multiplexsignalen gesteuert werden, sind breitbandige Störfeldstärken von 5 µV gemessen worden. Dieser „Störteppich“ erhöht die für einen sicheren Betrieb minimal erforderliche Empfangsfeldstärke. In Abb. 4/51 wäre der entsprechende Minimalpegel für komprimierte Digitalsignale mindestens 10 dB höher, also 16 µV. Der unkomprimierte Modus in der Grafik, hat unter diesen Bedingungen eine untere Grenze von 90 µV. Unterhalb dieser Feldstärke wird die Übertragung stumm geschaltet. Die Mehrwegeempfangssituation der Funkwellen kann Auslöschungen zur Folge haben, so dass eine entsprechende Reserve einzukalkulieren ist. Die Erprobung aller Gegebenheiten vor einer Veranstaltung bleibt unerlässlich.
214
4 Mikrofone und Lautsprecher
Abb. 4/51. Zusammenhang des Nutz-Störspannungsverhältnisses S/N und des Verhältnisses Träger-Störfeldstärke C/I für die Übertragungsverfahren, a. digital unkomprimiert, b. digital komprimiert, c. analog.
Latenz Es ist bekannt, dass digitale Systeme allgemein auf Grund ihrer Komplexität Zeit benötigen, um die Signale zu verarbeiten, dies wird als Latenz bezeichnet. Bisher waren 3 bis 4 ms Latenz bei guter Übertragungssicherheit üblich. Einen großen Anteil verbraucht die Wandlung von analog in digital und zurück. Werte von unter 2 ms sind zum aktuellen Standard geworden, ohne die Betriebssicherheit einzuschränken. Die komplette Übertragungskette hat zusätzliche Latenzen im Mischpult und anderen Elementen der Signalverarbeitung und Übertragung. Für Live-Produktionen können Verzögerungen von ca. 10 ms und höher störend für manchen Künstler sein. Viele Bühnenschaffende haben die Vorteile des drahtlosen Monitorings über Ohrhörer (IEM) erkannt. Diese Technik verzichtet bislang überwiegend auf die Digitalisierung, weil sich die Beiträge zur Latenz kritisch erhöhen. Der Bluetooth Standard kommt für die Signalübertragung drahtloser Mikrofone und in Ear-Monitoring im professionellen Umfeld nicht zum Einsatz kommen, da die Latenzen mit über 30 ms zu lange sind. Fernbedienung per Smartphone-App Alle Smartphones verfügen über eine Schnittstelle nach dem Bluetooth-Standard. Der verwendete Frequenzbereich 2.400 – 2.480 MHz ist weit entfernt von den Nutzfrequenzen der meisten Funkmikrofone (470 – 1.900 MHz) und somit geeignet für die Fernbedienung aller Parameter von Empfänger und im Besonderen der Sender, die kein Display mehr benötigen. Einem Künstler z. B., der mit stummgeschaltetem Sender sich auf die Bühne bewegt, kann vom Pult aus ohne Aufsehen geholfen werden. Künftige Entwicklungen Der Einsatzbereich drahtloser Mikrofone nimmt zu, die grundlegende Ressource freier Frequenzen jedoch nimmt ab. Frequenzeffizienz ist zunehmend gefragt und für die kommenden Jahre deutet sich eine andere Technik an.
4.4 Lautsprecher
215
Mit dem Übergang von Analog auf Digital haben Funkmikrofone einen großen evolutionären Schritt gemacht. Ein weiterer Schritt steht bevor. Breitbandige Technologien, die im Mobilfunk bereits erfolgreich eingesetzt werden, können auch Einzug in die hochwertige Audioübertragung finden. Derzeit verwendet jedes Mikrofon seine eigene Übertragungsfrequenz und jeder Sender benötigt einen eigenen Empfänger. Die Übertragung findet unidirektional statt und ist verbindungslos – d. h. das Mikrofon sendet, sobald es eingeschaltet wird, ohne vorher eine Verbindung zu einer Gegenstelle aufnehmen zu müssen. Dieser Mehrfachzugriff wird Frequency Division Multiple Access (FDMA) genannt, denn jedem Übertragungsweg wird eine Trägerfrequenz zugewiesen. Durch alternative Verfahren, wie das sog. Zeitschlitzverfahren − Time Division Multiple Access (TDMA) − lässt sich ein flexibleres, verbindungsorientiertes, bidirektionales System aufbauen. Alle Mikrofone eines Systems arbeiten auf der gleichen Frequenz, teilen sich jedoch die Zeit. Dadurch entstehen folgende Vorteile: –– Mit der Verwendung eines Breitbandkanals, beispielsweise ein gesamter 8 MHz TVKanals, wird das Problem der Auslöschung durch Mehrwegeempfang drastisch reduziert, weil die Wellenlängen nicht identisch sind. Die Betriebssicherheit des Systems kann dadurch erhöht werden. –– Jedes Gerät ist ein Transceiver (Sender und Empfänger), es besteht eine permanente Kontrolle der Mikrofone auch während einer Darbietung. –– Stationäre Geräte können mehrere Mikrofonsignale gleichzeitig empfangen, es wird nicht mehr ein Empfänger pro Funkstrecke benötigt. –– Drahtlose Kopfhörer sind ebenfalls im selben Kanal möglich. –– Der Quality of Service (QoS) in Form von Latenz, Audioqualität und Übertragungssicherheit kann in einem solchen System dem Bedarf der Künstler angepasst werden. Eine ideale Modulationstechnik für die Breitbandübertragung bietet die OFDM-Technik (Orthogonal Frequency Division Multiplexing). Sie gewährleistet eine effiziente Entzerrung der durch das frequenzselektive Fading entstandenen destruktiven Interferenzen. Die Zulassungsvorschriften sind kein Hindernis für diese Verfahren. In der harmonisierten ETSI-Norm ETSI EN 300 422 ist ein Kapitel zu Wireless Multichannel Audio Systems (WMAS) hinzugefügt worden, dessen neue Messvorschriften von vielen Regulierungsbehörden international bereits umgesetzt wurden.
4.4 Lautsprecher Lautsprecher sind elektroakustische Wandler, die elektrische Schwingungen in Schallwellen umwandeln [DIN EN 60268-5]. Mit dem Begriff Lautsprecher kann sowohl ein einzelnes Lautsprechersystem als auch eine Kombination mehrerer Lautsprechersysteme in einem gemeinsamen Gehäuse gemeint sein. Anordnungen zur Schallwiedergabe sind nur mit akustischen Schallführungen wie Schallwänden, Boxen oder Hörnern bzw. Trichtern qualitativ befriedigend realisierbar. [Stark, 2003], [Görne, 2007], [D’Appollito, 1999]
216
4 Mikrofone und Lautsprecher
Lautsprecher werden nach mehreren Kriterien unterschieden: –– Wandlerprinzip: Man unterscheidet zwischen elektrodynamischen oder dynamischen Lautsprechern – dem wichtigsten Lautsprecherprinzip – und elektrostatischen Lautsprechern, in der Tonstudiotechnik keine Bedeutung haben piezoelektrische und magnetische Lautsprecher. –– Übertragungsbereich: Je nach Übertragungsbereich werden Breitbandlautsprecher, Tieftonlautsprecher, Mitteltonlautsprecher und Hochtonlautsprecher unterschieden, die jeweils ihre konstruktiven Besonderheiten haben. –– Schallabstrahlendes Element: Unterschiedliche Ausführungen der schallabstrahlenden Membran haben Konuslautsprecher, Kalottenlautsprecher, Flächenlautsprecher und Biegewellenlautsprecher. –– Antrieb der den Schall abstrahlenden Membran: Beim dynamischen Lautsprecher, auch elektro-dynamischen Lautsprecher, ist der zentrale Antrieb der steifen Membran (Konus- und Kalottenlautsprecher) oder der biegsamen Membran (Biegewellenlautsprecher) eine stromdurchflossene Tauchspule, die im Feld eines Dauermagneten schwingt. Beim Bändchenlautsprecher wird direkt eine metallische Membran als Bändchen flächig im Magnetfeld beweg, sie wird auch als Magnetostat bezeichnet, weil wie beim Elektrostaten die gesamte Membran angetrieben wird. Beim elektrostatischen Lautsprecher, kurz Elektrostat oder ESL, wird die elektrostatische Anziehungskraft, die zwischen einer straff montierten Membranfolie und einer festen Gegenelektrode unter hoher konstanter Spannung und aufmodulierter Wechselspannung einwirkt, als Antrieb genutzt. –– Leistung und elektroakustische Qualität: Studio- oder Monitorlautsprecher, Beschallungslautsprecher, Kommandolautsprecher u. a. Für weitere umfangreiche Ausführungen zu Lautsprechern wird bezüglich Messungen an Lausprechersystemen auf Kap. 9.7 verwiesen, auf Kap. 10.3.1 in Zusammenhang mit dem Einsatz bei der Beschallung und auf Kap. 19.6.1.5 zur auditiven Kontrolle und dem Abhör standard verwiesen.
4.4.1 Bauformen 4.4.1.1 Dynamische Lautsprecher Dynamische Lautsprecher arbeiten nach dem Prinzip der dynamischen Mikrofone, jedoch in umgekehrter Richtung. Sie sind die am weitesten verbreiteten Wandler zur Wiedergabe von Musik und Sprache. Mit ihnen lassen sich im Gegensatz zu anderen Systemen verhältnismäßig einfach und wirtschaftlich große Schallpegel breitbandig bei relativ geringen Verzerrungen erzeugen. Der Wirkungsgrad ist außerordentlich gering, weil der Lautsprecher nahezu in einem akustischen Kurzschlussbetrieb arbeitet: der Membranschwingung wird ein sehr geringer Luftwiderstand entgegengesetzt. Üblich sind Wirkungsgrade etwa zwischen 0,2 und 2 %, bei sehr hochwertigen Lautsprechern noch weniger, nur als Hornlautsprecher können Werte bis 10 % oder mehr erreicht werden, da hier über ein Schallhorn eine akustische Leistungsanpassung stattfindet. Verständlich, dass solche Werte keinen Eingang in Datenblätter finden. Eine Aussage über die erreichbare Lautstärke macht der Kennschalldruckpegel; er
4.4 Lautsprecher
217
gibt an, welchen Schalldruckpegel 1 W zugeführte elektrische Leistung in 1 m Entfernung vor dem Lautsprecher erzeugt, die Werte werden also in dB oder dBSPL angegeben; typische Werte liegen um 85 bis 95 dB entsprechend der Wirkungsgrade 0,2 bis 2 %. Fälschlicherweise wird der Kennschalldruckpegel oft als Wirkungsgrad bezeichnet. In ihrer Wirkungsweise beruhen dynamische Lautsprecher auf der Kraftwirkung, die ein von Strom durchflossener Leiter im Magnetfeld eines Dauermagneten erfährt. Diese Kraftwirkung wird zur Anregung von Membranen oder anderen zur Schallabstrahlung geeigneten Systemen genutzt. Zur Gruppe der dynamischen Lautsprecher gehören die Konus-, Kalotten-, Horn- und Bändchenlautsprecher sowie verschiedene Flachmembranlautsprecher, dazu gehört der Biegewellenlautsprecher. Konuslautsprecher Abb. 4/52 zeigt den Querschnitt durch einen Konuslautsprecher, der seinen Namen der konisch geformten Membran (10) verdankt. Die konische Form gibt der Membran die erforderliche Steifigkeit. Der Topfmagnet besteht aus dem Permanentmagneten (1), dem Joch (2), der Polplatte (3) und dem Polkern (4). Im Luftspalt, gebildet durch Polkern und Polplatte, befindet sich die auf den Schwingspulenträger (5) gewickelte Schwingspule (6), die von dem tonfrequenten Wechselstrom durchflossen wird. Hierdurch wird in der Spule ein magnetisches Wechselfeld erzeugt, das im Zusammenwirken mit dem permanenten Gleichfeld im
Abb. 4/52. Dynamischer Lautsprecher als Konuslautsprecher, 1 Permanentmagnet, 2 Joch, 3 Polplatte, 4 Polkern, 5 Schwingspulenträger, 6 Schwingspule, 7 Zentriermembran, 8 Staubschutzkalotte, 9 Schutzring, 10 Membran, 11 Sicken, 12 Litzen, 13 Lautsprecherkorb.
Luftspalt eine Bewegung der Schwingspule analog der Wechselspannung in Pfeilrichtung zur Folge hat. Die Schwingspule wird durch die Zentriermembran (7), eine radial steife, axial jedoch sehr weiche und nachgiebige Federmembran, geführt und in der Ruhelage gehalten. Die meist aus dünnem Pappguss, teils aus Kunststoffen oder Aluminium, auch mehrschichtige Membran (10) ist mit dem Schwingspulenträger fest verbunden und am äußeren Rand über konzentrisch verlaufende Sicken (11) oder über einen weichen Balg aus hochelasti-
218
4 Mikrofone und Lautsprecher
schem Material im Lautsprecherkorb (13), der mit großen Durchbrüchen versehen ist, eingespannt. Eine Kalotte zum Staubschutz (8) und der Schutzring (9) verhindern das Eindringen von Fremdkörpern in den Luftspalt. Über die sehr flexiblen Litzen (12) erhält die Schwing spule den Wechselstrom des Tonsignals. Konuslautsprecher eigenen sich als Tief- und Mitteltöner sowie als Breitbandlautsprecher. Der Frequenzbereich des abgestrahlten Schalls ist nach tiefen Frequenzen hin durch die Resonanzfrequenz der Membran begrenzt. Man legt daher diese Resonanzfrequenz, die sog. Eigenresonanz des Lautsprechers, an das untere Ende des Übertragungsbereichs, erreicht wird das u. a. durch eine sehr flexible Membranaufhängung. Bei mittleren und höheren Frequenzen schwingt die Membran nicht mehr in ihrer Gesamtheit. Die Schwingspule regt vielmehr konzentrische Biegeschwingungen an, die vom Membranrand teilweise reflektiert werden, und so bildet sich eine komplexe Schwingungsverteilung aus. Dabei entstehen kreisförmige Knotenlinien zwischen ringförmig und mit unterschiedlichen Phasen schwingenden Zonen mit partiellen Auslöschungen und Überlagerungen; bei sehr hohen Frequenzen schwingt praktisch nur noch die innerste Mem branzone. Dies wirkt sich ungünstig auf den Frequenzgang und die Richtcharakteristik aus. Man begegnet dem durch eine spezielle Formgebung der Membran, der sog. Nawi-Membran (Nicht abwickelbar). Sie weicht mit einem hyperbolischen Querschnitt von der Form eines Konus ab und erhält so eine größere Steifigkeit. Kalottenlautsprecher Der Kalottenlautsprecher ist im Wesentlichen ein Konuslautsprecher ohne Korb und Konusmembran, der Schall wird nur über die Kalotte abgestrahlt (Abb. 4/53. Die Kalotte mit angepressten Sicken (7) ist aus einem hinreichend steifen Material mit hoher innerer Dämpfung hergestellt. Ihr Durchmesser ist in den meisten Fällen kleiner als die zu übertragende Wellenlänge.
Abb. 4/53. Dynamischer Lautsprecher als Kalottenlautsprecher, 1 Ringmagnet, 2 Magnetplatte, 3 Polplatte, 4 Polkern, 5 Schwingspule, 6 Schwingspulenträger, 7 Kalotte mit Sicken, 8 Montageplatte, 9 Zuführungslitze.
Die Kalotte schwingt im gesamten Übertragungsbereich kolbenförmig, Partialschwingungen der Kalotte treten praktisch nicht auf. Die Abstrahlung erfolgt in einem breiten Winkelbereich gleichmäßig und gleichphasig. Kalottenlautsprecher werden deshalb bevorzugt als
4.4 Lautsprecher
219
Hochtonlautsprecher bei einem Kalottendurchmesser von 20 bis 25 mm eingesetzt. Aber auch für den Mitteltonbereich bis hinunter zu 400 Hz eignen sich Kalottenlautsprecher mit etwa 60 mm Durchmesser der Kalotten. Wegen der geringen Abmessungen der schwingenden Membran und der großen Luftspaltlänge sind besonders starke Permanentmagnete zur Erzeugung einer großen Luftspaltinduktion notwendig, um einen den Konuslautsprechern entsprechenden Wirkungsgrad zu erzielen. Kalottenlautsprecher dienen auch als Schallwandler von Hornlautsprechern. Hornlautsprecher Ein Kalottenlautsprecher, der über einen genau definierten, im Querschnitt zunehmenden Schalltrichter, dem Horn, an den umgebenden Raum angekoppelt wird, ist ein Hornlautsprecher, auch einfach Horn. Diese Form der Schallabstrahlung nutzten Blechblasin strumente seit der Zeit der ägyptischen Pharaonen, Megafone u. a.; immer geht es darum, Töne möglichst laut abzustrahlen. Hörner sind akustische Impedanzwandler, die die hohe akustische Impedanz mechanischer Schwingungen, hier des Lautsprechersystems, an die niedrige Impedanz des umgebenden Raums anpassen und damit neben anderen Effekten durch Leistungsanpassung den Wirkungsgrad etwa verzehnfachen. Das Horn transformiert − vereinfacht gesagt − eine kleinere Fläche, die mit größerer Amplitude schwingt, in eine größere Fläche, die mit kleinerer Amplitude schwingt (Abb. 4/54). Die effektivste Form des Trichters ist das Exponentialhorn, eine Schallführung (siehe dazu Kap. 4.4.1.3), deren Querschnittsflächen pro Längeneinheit um einen konstanten Prozentsatz zunehmen. Dies ergibt einen Querschnitt entsprechend einer Exponentialfunktion. Diese Anordnung stellt einen akustischen Hochpass dar mit großer Flankensteilheit; seine untere Grenzfrequenz sinkt mit größer werdender Trichteröffnung. Das bedeutet, dass für tiefe Frequenzen sehr ausgedehnte Hörner notwendig sind, die in Studios und Wohnräumen nicht realisierbar sind; hier können nur Hochtonsysteme als Hornlautsprecher verwendet werden. Mehrere nebeneinander angeordnete Hörner, wie sie bei großen Beschallungen verwendet werden, haben dieselbe Wirkung wie ein einzelnes Horn gleicher Gesamtgröße. Die Aufstellung in einer Raumecke verbessert die Wiedergabe tiefer Frequenzen erheblich. Bei rechteckigen Querschnitten kann das Horn mit akzeptablen Einschränkungen der Klangqualität zu einem sog. Falthorn werden, das in einem Gehäuse Platz findet. Neben dem Exponentialhorn gibt es weitere Hornformen. Eine Variante ist der Hornlautsprecher mit Druckkammer, der Druckkammerlautsprecher, bei dem zwischen einer größeren Membran des Kalottenlautsprechers und dem eigentlichen Horn eine Druckkammer eingefügt wird (Abb. 4/54, 2), die den Wirkungsgrad nochmals erhöht; dieser Lautsprecher eignet sich besonders für Alarm und Ansagen für große Flächen wie Stadions und für Verkehrsflächen wie Flughäfen und Bahnhöfe. Ein großer Vorteil des Hornprinzips ist, dass die Lautsprechermembran infolge der Transformation der Impedanz sehr viel stärker belastet wird und deshalb weniger weit ausschwingt. Somit produziert das Hornsystem geringere lineare Verzerrungen und – ein besonderer Vorteil – wesentlich geringere Intermodulationsverzerrungen. Die systembedingte starke Schallbündelung und Richtwirkung spielt vor allem dort eine Rolle, wo Schall gezielt abgestrahlt werden soll und/oder wo bestimmte Flächen nicht oder nur gering beschallt werden sollen. Bei der professionellen Beschallung großer Flächen von Stadien
220
4 Mikrofone und Lautsprecher
oder Sälen sind Hornlautsprecher unverzichtbar; breitbandige Hörner werden auch als Musikhörner bezeichnet.
Abb. 4/54. Horn eines Hornlaut sprecher, 1 Membran des Kalottenlautsprechers, 2 Druckkammer, 3 Trichterhals, 4 Schalltrichter.
Bändchenlautsprecher Der Bändchenlautsprecher greift das Wandlersystem des Bändchenmikrofons auf (siehe Kap. 4.2.3.2), seine Funktionsweise ist jedoch die umgekehrte Richtung. Anstelle der spulengetriebenen Membran schwingt ein Bändchen im Feld des Dauermagneten und wird als Ganzes angetrieben; man bezeichnet diesen Lautsprechertyp auch als Magnetostat in Anlehnung an den Elektrostaten (s. u.), wo ebenfalls die gesamte Membran angetrieben wird. Das Bändchenmikrofon eignet sich besonders als Hochtonlautsprecher mit Bändchen von z. B. 25 mal 80 mm, als Mitteltöner hat das Bändchen die Maße von z. B. 60 mal 200 mm. Das Bändchen ist senkrecht eingebaut, dadurch entsteht eine Richtcharakteristik, die horizontal breiter, vertikal jedoch schmäler ist; so wird in einem Raum etwas mehr Direktschall erzeugt und Reflexionen an Decke und Boden werden verringert. Der Lautsprecher soll deshalb nicht gekippt aufgestellt werden. Da das Bändchen aus Aluminium eine sehr geringe Impedanz hat, muss ein Anpassverstärker oder Transformator vorgeschaltet werden. Normale Impedanz haben die sog. Folienmagnetostaten, bei denen das Bändchen aus einer Kunststofffolie mit langen aufgeprägten Leiterbahnen besteht. Als Air-Motion-Transformer ist das Bändchen nach Art einer Ziehharmonika gefaltet und kann so bei geringerer Bewegung mehr Luft in Schwingungen versetzen. Biegewellenlautsprecher Im Gegensatz zum Konuslautsprecher, bei dem die Membran, die von einem elektrodynamischen Wandler angetrieben wird, steif sein muss, sind die Membranen von Biegewellenlautsprechern elastisch. Die Anregung in der Mitte der Membran führt zu Biegewellen, die von der Membranmitte nach außen laufen. Diese Wellen verlaufen auf der Membran also wie die Welle auf einer Wasseroberfläche, wenn man einen Stein ins Wasser wirft. Am Rand soll die
4.4 Lautsprecher
221
Membran mit ihrem Wellenwiderstand abgeschlossen werden, damit keine Wellen reflektiert werden. Der Biegewellenlautsprecher hat einen relativ breitbandigen Übertragungsbereich. Ein geringer Wirkungsgrad und bei höheren Pegeln eintretende Verzerrungen wurden diesem Konzept mitunter nachteilig angelastet, spielen aber bei moderneren Entwicklungen keine Rolle mehr. Das Prinzip lässt sich auch anwenden auf große Flächen, die mit mehreren Systemen angeregt werden. 4.4.1.2 Elektrostatischer Lautsprecher Bei elektrostatischen Lautsprechern − abgekürzt ESL − geht die Kraftwirkung von elektrisch entgegengesetzt geladenen Platten oder Membranen aus, die sich bei gleich gepolter Ladung gegenseitig anziehen bzw. bei entgegengesetzter Ladung abstoßen; elektrostatische Lautsprecher stellen also Kondensatoren dar. Die Anordnung besteht aus zwei festen Gitterelektroden (Statoren) und einer beweglichen Membran dazwischen (Abb. 4/55). Die Kraft, die auf die bewegliche Elektrode bzw. Membran ausgeübt wird, ist dem Quadrat der angelegten Spannung direkt und dem Quadrat des Elektrodenabstands umgekehrt proportional. Für den Betrieb ist eine hohe Vorspannung von einigen kV Gleichspannung erforderlich, damit die Tonsignalspannung im Vergleich klein ist. Der Abstand der Elektroden, der zur Vermeidung eines Aufschlagens der Membran relativ groß gewählt werden muss, fordert eine große Signalspannung bis zu einigen 100 V. Nur so ist eine ausreichende Kraftwirkung zu erzeugen. Bei großen Amplituden werden Abstände der Membran zu den beiden Elektroden deutlich ungleich, dadurch entstehen nichtlineare Verzerrungen.
Abb. 4/55. Prinzip des elektrostatischen Lautsprechers.
222
4 Mikrofone und Lautsprecher
Für den Tieftonbereich ist der elektrostatische Lautsprecher weniger geeignet, was der aufwändigen Betriebsschaltung mit der hohen Vorspannung und dem begrenzten Mem branausschlag im tieferen Frequenzbereich zuzuschreiben ist. Bereits im mittleren Frequenzbereich strahlt der Lautsprecher den Schall stark gebündelt ab, was bei der Stereowiedergabe zu sehr begrenzten Hörflächen, sog. Sweet Spots, führt, was durch unterschiedliche Lösungen wie eine gebogene Anordnung oder eine Segmentierung und weitere Entwicklungen verbessert wurde. Der Wirkungsgrad ist sehr gering; so werden für leistungsstarke Lautsprecher erhebliche Membrangrößen notwendig; es wurden Lautsprecher bis 2 m2 Membranfläche konstruiert. Ein weiteres Problem ist die bipolare Schallabstrahlung, also gleichzeitig nach vorn und hinten mit um 180° verschobener Phase, was zu einem akustischen Kurzschluss besonders bei tieferen Frequenzen führt. Wegen der sehr leichten Membran zeigt der Lautsprecher aber ein ausgezeichnetes Impulsverhalten; er kann auch sehr hohe Frequenzen bis 100 kHz wiedergeben. Meist wird der sehr flache Lautsprecher er mit einem Konuslautsprecher in einer Lautsprecherbox für die Bässe kombiniert. Generell konnte sich dieses Prinzip nicht in größerem Umfang durchsetzen, hat aber bei Liebhabern als Elektrostat oder ESL einen gewissen legendären Ruf. 4.4.1.3 Akustischer Kurzschluss und Lautsprecherboxen Bewegt sich die Membran eines Lautsprechers gemäß Abb. 4/56 in Pfeilrichtung, entsteht vor dem Lautsprecher eine Zone mit Überdruck, auf seiner Rückseite eine Zone mit Unterdruck. Ist der Membrandurchmesser klein gegen die Wellenlänge des abzustrahlenden Schalls, so gleichen sich die Zonen von Über- und Unterdruck über den Lautsprecherrand aus. Es entsteht ein sog. akustischer Kurzschluss, der Schall wird vernichtet; dadurch wird bei tiefen Frequenzen praktisch kein Schall mehr abgestrahlt.
Abb. 4/56. Akustischer Kurzschluss (a.) und seine Unterdrückung durch eine Schallwand (b.).
Zur Vermeidung dieses Kurzschlusses ist eine Schallführung erforderlich. In der einfachsten Form besteht sie aus einer Schallwand (Abb. 4/56, b), die bei ausreichender Größe den Druckausgleich verhindert. Die gebräuchlichsten Schallführungen sind hinten offene Gehäuse, die abgeknickte Schallwände darstellen, allseitig geschlossene Gehäuse wie bei Studio- und
4.4 Lautsprecher
223
Hi-Fi-Lautsprecherboxen und Hörner (siehe Kap. 4.4.1.1); zur Verbesserung der Abstrahlung tiefer Frequenzen werden Resonanzboxen oder Bassreflexboxen mit tief liegender Eigenresonanz und Boxen mit abgestimmter akustischer λ/4-Leitung, sog. Transmission-Line-Boxen verwendet. Wird ein Lautsprecher in eine sehr große Wand eingebaut, so sind die zwei Schallfelder auf beiden Membranseiten getrennt; die abgestrahlte Leistung wird bis zur Grenzfrequenz f0 hinab nur von den Eigenschaften des Lautsprechers bestimmt. In der Praxis sind unendliche Schallwände nicht notwendig, da Frequenzen unter 30 Hz nicht abgestrahlt werden müssen. Bei einer Grenzfrequenz f0 von 30 Hz für die Schallabstrahlung sollte die Schallwand bei etwa mittigem Einbau des Lautsprechers eigentlich einen Durchmesser von 6 m haben. Unterhalb der Grenzfrequenz f0 fällt der Frequenzgang mit 6 dB/Oktave ab. Allgemein gilt für die Mindestgröße einer Schallwand: f0 = Grenzfrequenz [Hz] c = Schallgeschwindigkeit = 340 m/s d = kürzester Abstand zwischen Lautsprecher und Schallwandkante [m] Wird der Lautsprecher nicht genau in die Mitte einer Schallwand eingesetzt, so verteilen sich die Frequenzgangeinbrüche. Der Tiefenabfall von 6 dB/Oktave bei nicht ausreichend großer Schallwand kann teilweise durch höhere Lautsprecherleistung in diesem Frequenzbereich ausgeglichen werden. Die Eigenresonanz des Lautsprechers soll dabei möglichst tief liegen. Unterhalb der Lautsprechereigenresonanz fällt der Pegel zusätzlich mit 12 dB/Oktave ab. Für Studiolautsprecher und Hi-Fi-Lautsprecher werden jedoch geschlossene Lautsprecherboxen verwendet. Bei ihnen wird das vom Lautsprecher nach hinten abgestrahlte Schallfeld durch absorbierendes Material vernichtet, akustischer Kurzschluss ist ausgeschlossen. Dafür müssen Gehäuseresonanzen sowie die durch die erhöhte Rückstellkraft des eingeschlossenen Luftvolumens heraufgesetzte Lautsprecherresonanz bedämpft werden. Das zu übertragende Frequenzband wird bei Studiolautsprechern und qualitativ anspruchsvolleren Lautsprecherboxen für den Heimtonbereich auf zwei (Zweiwegebox) oder drei Lautsprecher (Dreiwegebox) aufgeteilt. Damit sind die folgenden Vorteile verbunden: Es können Lautsprechersysteme verwendet werden, die in ihrem Frequenzgang, Wirkungsgrad und Schallbündelungsverhalten auf ein bestimmtes Frequenzband optimiert sind; weiterhin können Klangrauigkeiten und Intermodulationsverzerrungen dadurch wesentlich minimiert werden. Diese Übertragungsfehler kommen in einem Breitbandlautsprecher dadurch zustande, dass hohe und tiefe Frequenzen gleichzeitig von demselben Lautsprechersystem abgestrahlt werden. Zur Abstrahlung der höheren Frequenz bewegt sich die Membran mit kleiner Amplitude, zur Abstrahlung der tieferen Frequenz mit größerer Amplitude; die Gesamtbewegung ist derjenigen einer angeschlagenen Glocke ähnlich. Durch den dabei auftretenden Dopplereffekt wird die höhere Schwingung frequenzmoduliert, der höhere Ton wirkt rau, es entstehen Intermodulationsverzerrungen, die sehr störend wirken können, da Summen- und Differenztöne der Frequenzkomponenten entstehen. Bei Studio- oder Regielautsprechern werden mehrere Lautsprechersysteme kombiniert, ein Tieftöner, ein Mitteltöner und ein oder zwei Hochtöner. Die für die einzelnen Lautsprecher vorgesehenen Frequenzbänder werden bei Studiolautsprechern elektronisch ausgefiltert, verstärkt und den Lautsprechersystemen zugeführt. Der Lautsprechereingang ist für 6 dBu
224
4 Mikrofone und Lautsprecher
ausgelegt. Lautsprecherboxen mit integrierten Verstärkern und Frequenzweichen benötigen eine eigene Stromversorgung, sie werden als Aktivboxen bezeichnet. 4.4.1.4 Regielautsprecher Regielautsprecher, auch Studiolautsprecher, Studiomonitore o. ä. genannt, sind Studio-Abhöreinrichtungen, die aus Lautsprechersystemen in einem Gehäuse einschließlich Verstärkern und Frequenzweichen bestehen und höchste Qualitätsanforderungen erfüllen, insbesondere bezüglich des Frequenzgangs, der Richtcharakteristik, nichtlinearer Verzerrungen u. a. Sie sollten stets den neuesten Stand der Entwicklung repräsentieren. Zur rein messtechnischen Bewertung kommt bei Lautsprechern wie bei Mikrofonen stets auch eine subjektive Bewertung, in die die komplexen messbaren und nicht messbaren Eigenschaften eingehen. Die Anforderungen an Regielautsprecher sind in internationalen Empfehlungen erfasst, zu Details siehe ausführlich Kap. 19.6. Beschallungslautsprecher für die Bühnenbeschallung werden auch Monitorlautsprecher genannt: an sie werden solche Anforderungen nicht gestellt. Für eine hohen Anforderungen entsprechende Abhörsituation genügt es allerdings nicht, die Eigenschaften der Lautsprecher zu definieren, ebenso muss die akustische Umgebung hohen Anforderungen genügen, insbesondere der Abhörraum und seine geometrische Form und seine akustischen Eigenschaften, die Aufstellung der Lautsprecher, der Abhörpegel und weitere Parameter, Details hierzu siehe Kap. 19.6.1.5. Besondere Aufmerksamkeit hinsichtlich der Anordnung der Lautsprecher erfordert die Abhörsituation bei Mehrkanalstereofonie, siehe dazu Kap. 5.4.1.
4.5 Kopfhörer Für die auditive Kontrolle bei Aufnahmen und Übertragungen sind Kopfhörer im Tonstudio bereich verhältnismäßig selten in Verwendung, Ausnahmen sind akustisch ungeeignete, auch lärmbelastete Abhörsituationen bei Außenaufnahmen mit ungeeigneten Abhörräumen. Bei Musikgruppen, die mit Verstärkeranlagen arbeiten, und im Consumerbereich haben sie dagegen weite Verbreitung gefunden. Hinsichtlich ihrer elektroakustischen Eigenschaften stehen gute Kopfhörer Studiolautsprechern nicht nach; hohe Qualität ist bei Kopfhörern mit vergleichsweise geringem Aufwand realisierbar. Ein weiterer Vorteil ist die vollständige Unabhängigkeit beim Abhören mit mehreren Personen von den Eigenschaften des Wiedergaberaums und der Abhörplätze. Damit sind einheitliche Abhörsituationen praktisch nur mit Kopfhörern realisierbar, im Gegensatz zu Lautsprecherwiedergabe auch gleichzeitig für viele Zuhörer. Da hohe Lautstärken problemlos dargeboten werden können, kann eine große Dynamik verwirklicht und auch adäquat gehört werden. Schließlich wird das Hörerlebnis mit Kopfhörern als besonders intensiv empfunden. Diesen Vorteilen stehen eine Reihe von Nachteilen gegenüber, die den Gebrauch im Tonstudio erheblich einschränken: Der Höreindruck bei Kopfhörerwiedergabe unterscheidet sich grundsätzlich von dem bei Lautsprecherwiedergabe. Wird nämlich beiden Ohrhörsystemen dasselbe Signal zugeführt – dies entspricht einem Mono- oder Stereomittensignal – nimmt der Zuhörer bei Kopfhörerwiedergabe den Ort der Schallquelle in der Mitte im Kopf
4.5 Kopfhörer
225
wahr, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei Lautsprecherwiedergabe hingegen wird die Schallquelle im Lautsprecher bzw. bei zweikanaliger Wiedergabe etwas erhoben in der Mitte zwischen den Lautsprechern, also vor dem Zuhörer, lokalisiert, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei reiner Intensitätsstereofonie und Kopfhörerwiedergabe werden die Seitenschallquellen unnatürlich dicht an den beiden Ohren gehört. Kopfhörer- und Lautsprecherwiedergabe unterscheiden sich also deutlich in der Wiedergabe der wahrgenommenen Schallquellenorte. Im Detail wird dazu auf Kap. 5.5.5 verwiesen, ebenda wird hier die Problematik der Frequenzgangs von Kopfhörern und seiner Messung besprochen. Erste Normen für Kopfhörer im Hi-Fi-Sektor (DIN 45500) stammen aus den 1960er Jahren, sind aber nicht mehr zeitgemäß. Sie wurden 1996 durch die IEC 61305-1 bzw. DIN EN 61305, Hi-Fi-Geräte und ‑Anlagen für den Heimgebrauch, ersetzt, die nur noch Verfahren zur Messung und Angabe der Leistungskennwerte enthält, aber keine qualitativen Mindestanforderungen mehr, da die ursprünglich genormten Anforderungen inzwischen auch von einfachen Geräten erfüllt werden können. Für den Studiobereich wurden deshalb neue Standards erarbeitet und in ITU-Empfehlungen [ITU-R BS.708] gefasst. Außer den Anforderungen an den Frequenzgang, der nicht auf das Direkt- oder Freifeld für Schalleinfall von vorne, sondern auf das Diffusfeld, also für gleichzeitig allseitig einfallenden Schall bezogen wird, musste insbesondere das Messverfahren mit Verwendung von Sondenmikrofonen im Gehörgang definiert werden, da der Kopfhörer zusammen mit dem Außenohr eine Einheit darstellt und andere akustische Bedingungen bietet als die Lautsprecherwiedergabe mit offenem Ohr. Es sei darauf hingewiesen, dass die Verwendung des Begriffs Studiokopfhörer o. ä. nicht an die Erfüllung der genannten besonderen Empfehlungen gebunden ist. [Theile, 2015] Kopfbezogene binaurale Übertragung ist ein Tonübertragungssystem, das aufnahmeseitig mit einem Kunstkopf – deshalb auch Kunstkopf-Verfahren genannt – und wiedergabeseitig mit diffusfeldentzerrten Kopfhörern arbeitet. Bei diesem eigenständigen, qualitativ hervorragenden Verfahren kommen ausschließlich Kopfhörer zum Einsatz. Das Verfahren wird in Kap. 5.5.5.1 f. beschrieben.
4.5.1 Bauformen von Kopfhörern Ein Kopfhörer besteht aus zwei elektroakustischen Wandlern, verbunden mit einem zur Anpassung an die individuelle Kopfform verstellbaren Kopfbügel. Die Anordnung wird durch leichtes Anklemmen am Kopf des Zuhörers gehalten. Da es auch spezielle Ausführungen mit nur einem Hörer gibt, wird die beschriebene Bauform normgemäß [DIN 45580] und exakt als sog. Doppelkopfhörer bezeichnet. Als Wandlersysteme finden elektrodynamische Wandler Verwendung, selten magnetische oder elektrostatische. Man unterscheidet zwischen offenen, sog. supraauralen, und geschlossenen, sog. circumauralen Kopfhörern. Bei den offenen oder halboffenen Hörern liegen die Wandler auf den Ohrmuscheln auf, oder die Wandler werden durch sog. Ohrkissen, einer akustisch voll durchlässigen Schaumstoffzwischenlage, in definiertem Abstand zu den Ohrmuscheln
226
4 Mikrofone und Lautsprecher
gehalten. Der Benutzer offener Kopfhörer ist gegen Schall aus dem umgebenden Raum nur wenig abgeschirmt; erst oberhalb 5 kHz wird Fremdschall um etwa 10 dB bedämpft. Der geschlossene Kopfhörer umschließt das gesamte äußere Ohr mit einem kalottenförmigen Gehäuse, das über einem weichen Dichtungsrand am Kopf anliegt. Es wird daher kein Druck auf die Ohrmuscheln ausgeübt. Die typische Schalldämmung geschlossener Kopfhörer gegen Außengeräusche steigt von etwa 5 dB bei 100 Hz auf 40 dB bei 10 kHz. Beim geschlossenen Kopfhörer sind die Wandler sehr definiert über ein vorgegebenes Volumen an das Ohr angekoppelt, während beim offenen Hörer die Systeme mehr oder weniger frei abstrahlen. Geschlossene Kopfhörer verhindern den akustischen Kurzschluss, der bei offenen Hörern durch aufwändigere Konstruktionen ausgeglichen werden muss. Eine Sonderform ist der Ohrhörer, ein sog. In-Ohr-Kopfhörer oder engl. in Ear-Monitor. Das Wandlersystem wird hier in eine Silikon- oder Schaumstoff-Ohrplastik (Otoplastik) eingearbeitet, es wird in den Gehörgang eingeschoben und sollte bei professioneller Verwendung individuell angepasst werden. Das in Ear-Monitoring (IEM), wie das Beschallen bzw. Abhören mit solchen Hörern bezeichnet wird, wird in jüngster Zeit vorwiegend an Stelle konventioneller Kopfhörer bei der der Beschallung der Musiker vor allem bei Live-Beschallungen eingesetzt. In Verbindung mit drahtlosen Übertragungssystemen bietet es große Vorteile im praktischen Betrieb (siehe Kap. 4.5.3). Die weiteste Verbreitung als Wandler bei Kopfhörern haben die elektrodynamischen Systeme gefunden. Ihre Wirkungsweise entspricht derjenigen von dynamischen Lautsprechern (siehe Kap. 4.4.1.1). Sie zeichnen sich durch gute Übertragungseigenschaften aus. Mit sehr kleinen elektrischen Leistungen lassen sich große Lautstärken bei geringen Verzerrungen erzeugen; bereits mit 1 mW elektrischer Leistung kann ein Schalldruck von 1 Pa bzw. 94 dBSPL am Ohr erreicht werden. Elektrostatische Kopfhörersysteme arbeiten nach dem gleichen Prinzip wie elektrostatische Lautsprecher (siehe Kap. 4.4.1.2). Die Übertragungseigenschaften sind ausgezeichnet. Jedoch erfordert die Bereitstellung der notwendigen Kondensatorvorspannung von mehreren hundert Volt, die auch z. B. aus dem niederfrequenten Nutzsignal gewonnen werden kann, gegenüber den anderen Systemen einen erheblich größeren technischen Aufwand und damit auch höhere Kosten.
4.5.2 Einrichtungen für drahtlose Kopfhörer Akteure auf der Bühne oder Backstage, aber vor allem Musiker und Sänger benötigen für das musikalische Zusammenwirken mit ihren Partnern bei hohen Anforderungen an ihre Mobilität eine spezielle Abmischung, den Monitormix, vom Mischpult. Dieser kann über Monitorlautsprecher auf der Bühne realisiert werden, drahtlos in Stereo auf Kopfhörer oder bevorzugt und weitgehend unsichtbar über Ohrhörer in das Ohr. Für die Akteure bei Film, Funk und Fernsehen ist diese Kommunikationsmethode seit vielen Jahrzehnten als „Rückkanal“, „Talk back“ oder auch „Reportercue“ in Mono für ein Ohr im Einsatz. In vielen Musikgenres vor allem bei sich bewegenden Künstlern ist die zuverlässige Funktion der drahtlosen HF-Übertragung überhaupt Bedingung für die Qualität des Zusammenspiels. Die Übertra-
4.5 Kopfhörer
227
gungssituation ist kritischer einzuschätzen als die der Funkmikrofone (siehe hierzu auch Kap. 4.3), weil die Empfänger meistens keinen True Diversity-Empfang haben. Auf Bühnen wird heute die Beschallung mit Bühnen- oder Monitorlautsprechern, die oft schwierige Bedingungen für die Tontechnik und die Musiker darstellen, zunehmend durch das in Ear-Monitoring oder IEM oder Wireless Monitoring ersetzt. Im Gegensatz zu Bühnenlautsprechern treten hier keine Rückkopplungen auf, und die Akteure erhalten ein präzises und konstantes, vom Standort auf der Bühne unabhängiges Hörbild. Zudem ist ein in Ear-Set, das neben den Ohrhörern aus einer Sendestation und einem am Körper zu tragendem Empfänger (Bodypack) besteht, wesentlich leichter zu transportieren und zu installieren ist als eine herkömmliche Monitoranlage aus Lautsprechern. Nachteilig ist die Tatsache, dass der Klangeindruck bei Bewegung oder Drehung nicht entsprechend der Raumsituation mitgeht, was zu Orientierungsschwierigkeiten im Raum führen kann. Mancher Künstler fühlt sich zu sehr vom Publikum entkoppelt und benötigt die Einspielung in seinen Monitormix. Spielt das optische Auftreten der Künstler keine Rolle wie etwa bei Studioaufnahmen, so sind geschlossene kabelgebundene Kopfhörer vorteilhafter. Vielfach wird gleichzeitig zum Ear-Monitoring-Empfänger am Körper in direkter Nähe ein Hand- oder Taschensender des drahtlosen Mikrofons betrieben, eine kritische Situation, die durch den sog. Blockingeffekt gefährdet ist. Der IEM-Empfänger verliert an Empfindlichkeit, und eine akzeptable Qualität der Übertragung mit gutem Störabstand ist auf nur wenige Meter Entfernung zur Ear-Monitoring-Sendeantenne beschränkt. Die Durchführung der Messung des Blocking zeigt Abb. 4/57. Der unmodulierte Sender wird im Pegel so weit angehoben, bis der Störabstand des Empfängers von ca. 20 dB, bedingt durch das geringe Signal des Senders von 1,5 μV auf 10 dB abgesunken ist. Das Pegelverhältnis der beiden Sender gibt den Wert für das Empfängerblocking an: 15 mV : 1,5 μV = 10.000 entsprechend 80 dB. Blocking wird durch einen Frequenzabstand von mindestens 8 MHz zwischen dem Mikrofonsender und der Ear-Monitoring-Strecke weitgehend vermieden. Eine klare Abgrenzung der Systeme gewährleistet sicheren Betrieb.
Abb. 4/57. Messung des Blocking.
228
4 Mikrofone und Lautsprecher
Beim Einsatz von mehr als zwei Kanälen entstehen leicht Intermodulationsstörungen, weil HF-Leistung in die Ausgangsstufen der stationären Sender eindringt und neue Träger mit doppeltem Hub und Audiofrequenzverdopplung entstehen (Birdies). Hier ist ein intermodulationsfreies Frequenzraster nach Herstellerempfehlungen mit Frequenzabstand zu den Funkmikrofonen zu verwenden. Das Ear-Monitoring im Vielkanaleinsatz muss 200 kHz Sicherheitsabstand von Intermodulationsfrequenzen 3. Ordnung einhalten, d. h., die Packungsdichte im UHF-Kanal kann nicht so dicht sein wie bei Funkmikrofonen, die schon ab 50 kHz Abstand zu Intermodulationsprodukten sicher arbeiten. Der Einsatz von Antennen-Combinern unterbindet die IMStörungen und versammelt alle angeschlossenen Sendesignale ohne Leistungseinbußen auf einen Antennenausgang. Der interne Leistungsverlust von 10 dB (90 %) beim Zusammenführen der Einzelsignale wird mit vorgeschalteten Verstärkern kompensiert. Diese sorgen auch dafür, dass keine HF-Leistung rückwärts in die angeschlossen Sender fließt. Störende Signale werden von den Sendern ferngehalten (Abb. 4/58). Sendercombiner sind für bis zu acht Sender in einer Höheneinheit verfügbar. Im Allgemeinen sind Richtantennen und kurze Kabelwege zu empfehlen. Stets sind erhöhte Standorte vorteilhaft. Eine deutliche Verbesserung in schwierigen Übertragungssituationen bieten zirkular polarisierende Antennen. Auf keinen Fall dürfen Empfangsantennenverstärker zum Ausgleich von Leitungsverlusten auf Sendewegen eingesetzt werden, weil die Eingangspegel viel zu hoch sind und besonders mehrere Sendersignale den Verstärker übersteuern und zum Aussenden von Störspektren zwingt.
Abb. 4/58. Funktionsweise des Antennen-Combiners, 4 Sender mit je 20 mW HF-Leistung sind rückwirkungsfrei zusammengeschaltet und arbeiten mit einer gemeinsamen Antenne.
In Ear-Monitoring-Systeme sind stereofon nach dem Verfahren des UKW-Rundfunks ausgelegt. Für den gleichen Störpegelabstand wie im Monobetrieb ist im Stereobetrieb ca. 20 dB mehr Antenneneingangspegel erforderlich. Bei nicht ausreichendem Rauschabstand kann deshalb auch auf Monobetrieb umgeschaltet werden. Komplexe Vielkanalsysteme, die
Literatur
229
an wechselnden Einsatzorten betrieben werden, sind am einfachsten an wechselnde HFUmfelder anzupassen, wenn die Parameter über spezielle Rechnersteuerungen wie auch die Funkmikrofone verwaltet werden.
Standards [AES42-2001] [DIN 45405] [DIN 45590] [DIN 45595] [DIN 45596] DIN EN IEC 61938] [DIN EN 61672] [DIN EN IEC 61938] [DIN EN 60268-5] [DIN IEC 651] [ISO 12913] [ITU-R BS.468-4] [ITU-R BS.708]
AES standard for acoustics – Digital interface for microphones, Audio Engineering Society, 2001, revidierte Ausgabe 2006 Störspannungsmessung in der Tontechnik, zurückgezogen Mikrophone; Begriffe, Formelzeichen, Einheiten Anschluß von Transistormikrofonen mit Tonaderspeisung Mikrofone; Phantomspeisung, ersetzt DIN 45 96 IEC 61 672-2003 bzw. [DIN EN 60268-4] Elektroakustische Geräte – Mikrofone Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Schallpegelmesser Multimedia Systeme - Leitfaden für empfohlene Charakteristika analoger Schnittstellen zur Erreichung von Kompatibilität Elektroakustische Geräte - Teil 5: Lautsprecher Schallpegelmesser Akustik - Soundscape Measurement of audio frequency noise voltage level in sound broadcasting Determination of the electro-acoustical properties of studio monitor headphones
Literatur [D’Appolito, 1999] [Arasin, 2007] [Becker-Foss, 2010] [Farrar, 1979] [Fedke, 2007] [Genuit, 1981] [Genuit, 1984] [Genuit, 1087] [Gierlich, 1989] [Görne, 2004] [Görne, 2007] [Hudde, 1980]
D’Appolito, J.: Lautsprecher-Messtechnik. PC-gestützte Analyse analoger Systeme, 1999, Elektor Arasin, P. und Hoemberg, M.: Funkmikrofone und Wireless Monitoring, Grundlagen, unmittelbare Praxis-Tipps, 2007, Sennheiser-Firmenschrift Becker-Foss, Cl., Stephan Flock, St., Jahne, H., Langen, Ch., Werwein, M., Wittek, H.: White Paper „Digitale Mikrofone und AES42“, Version 2.1, 11. 05. 2010, www.hauptmikrofon.de, Zugriff 30.6.2010 Farrar, K.: „Soundfield microphone“, in: Wireless World 1979, S. 48ff. Fedke, T. et.al.: Kunstkopftechnik - eine Bestandsaufnahme, Acustica Vol. 93, 2007 Genuit, K.: „Optimierung eines Kunstkopf-Aufnahmesystems“, in: Bericht 12. Tonmeistertagung München 1981, S. 218 ff. Genuit, K.: Ein Modell zur Beschreibung der Außenohrübertragungseigenschaften, Diss. 1984, RWTH Aachen Genuit, K.: Verfahren zur Filterung von Schallsignalen, Patent DE 3709397, 1987 Gierlich, H. W., Genuit, K.: „Processing Artificial Head Recordings”, in: J. Audio Eng. Soc., Vol 37, No. 1/2, 1989, S. 34 ff. Görne, Th. und Bergweiler, St.: Monitoring. Lautsprecher in Studio- und HiFi-Technik, 2004, ppv Medien Görne, Th.: Mikrofone in Theorie und Praxis, 2. Aufl. 2007, Elector-Verlag Hudde, H.: „Messung der Trommelfellimpedanz des menschlichen Ohres bis 19 kHz, Diss. 1980, Universität Bochum
230
4 Mikrofone und Lautsprecher
[Kürer, 1969] Kürer, R., Plenge, G., Wilkens, H.: „Correct Spatial Sound Perception Rendered by a Special Two-Channel Recording Method”, 37. AES Convention, New York 1969 [Lerch, 2009] Lerch, R., Sessler, G. und Dietrich Wolf, D.: Technische Akustik. Grundlagen und Anwendungen: Grundlagen und Anwendungen, 2009, Springer [Möser, 2009] Möser, M.: Technische Akustik, 8. Aufl., 2009, Springer [Peus, 2001] Peus, S.: „The digitally interfaced microphone“, preprint 110. AES-Convention Amsterdam 2001 [Platte, 1975] Platte, H.-J., Laws, P., vom Hövel, H.: „Anordnung zur genauen Reproduktion von Ohrsignalen“, in: DAGA 1975 Braunschweig, S. 361 ff. [Schneider, 1998] Schneider: „Eigenrauschen und Dynamikumfang von Mikrofonen und Aufnahmekette“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, Saur, 1999 [Schneider, 2008] Schneider, M.: „Mikrofone“, in: Weinzierl, St.: Handbuch der Audiotechnik, 2008, Springer, S. 313ff. [Stark, 2003] Stark, B.: Lautsprecher-Handbuch. Theorie und Praxis des Boxenbaus, 8. Aufl. 2003, Pflaum [Theile, 1984] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe“, Bericht 13. Tonmeistertagung München 1984, S. 112 ff. [Theile, 1985] Theile, G.: „Beurteilungskriterien für Kopfhörer unter Berücksichtigung verschiedener Anwendungsbereiche“, in: NTG-Fachtagung Hörrundfunk, Mannheim 1985, S. 290 ff. [Theile, 2015] Theile, Günther: „Der Studio-Kopfhörer“, in: VDT-Magazin 2015, H. 2, S. 9 ff. [Vorländer, 1989] Vorländer, M.: „Virtuelle akustische Welten in Forschung und Praxis“, in: Akustik Journal der DEGA 02/2021 [Wittek, 2010] Wittek, H. et alii: „Neuartiges Richtrohrmikrofon-Prinzip mit erhöhter Richtwirkung“, Bericht 26. Tonmeistertagung, 2010 [Wuttke, 1981] Wuttke, J.: „Mikrofondaten und ihre Bedeutung in der Praxis“, in: Bericht 12. Tonmeistertagung, 1981, Saur [Wuttke, 1985/1] Wuttke, J.: „Betriebsverhältnisse von Mikrofonen bei Wind und Popp“, in: Bericht 14. Tonmeistertagung, 1985, Saur [Wuttke, 1985/2] Wuttke, J.: „Kondensatormikrofone mit Kugelcharakteristik“, in: Bericht 13. Tonmeistertagung, 1985, Saur [Wuttke, 1997] Wuttke, J.: „Wie universell kann ein Mikrofon sein“, in: Bericht 19. Tonmeistertagung, 1997, Saur [Wuttke, 1998] Wuttke, J.: „Die 48 V-Phantomspeisung und ihre Geister“, in: Mikrofon Spezial, Sonderheft Studio Magazin 1998 [Wuttke, 2000] Wuttke, J.: Mikrofonaufsätze, 2000, Firmenschrift, Schoeps [Zollner, 1993] Zollner, M. und Zwicker, E.: Elektroakustik, 3. Aufl. Berlin
5 Tonaufnahme und Tonwiedergabe Günther Theile Florian Camerer (5.6.5), Michael Dickreiter (5.3, 5.6.1, 5.6.2, 5.6.3.7), Harald Fuchs und Yannik Grewe (5.5.2), Wolfram Graul (5.6.3), Yannik Grewe (5.5.1.1), Hans-Joachim Maempel (5.6.4), Jörn Nettingsmeier (5.5.3.2), Lasse Nipkow (5.4.5.3, 5.5.6.2, 5.5.6.3) mit Günther Theile (5.4.3), Gerhard Spikofski (5.5.5.1) Bis in die 1990er Jahre war es angemessen und üblich, die Verfahren der damals zweikanaligen Stereofonie getrennt von ihrer Wiedergabe über Lautsprecher oder Kopfhörer zu behandeln. Mit fortschreitender Entwicklung kamen jedoch neue Systeme der Tonübertragung hinzu, die die Frage einer systemgerechten Wiedergabe eng an die Aufnahmetechnik gebunden haben, so dass sie in diesem Kapitel zusammengeführt werden. In Kap. 5.1 werden die Grundprinzipien der räumlichen Übertragung mit der Wiedergabe über Lautsprecher und Kopfhörer dargestellt, Kap. 5.2 behandelt die Phänomene der Lautsprecherwiedergabe und ihren psychoakustischen Aspekten vor allem bei Zwei-, aber auch der Mehrkanal-Stereofonie. Kap. 5.3. beschäftigt sich mit der Aufnahmetechnik für Zweikanal-Stereofonie, Kap. 5.4 für Mehrkanal-Stereofonie in der zweidimensionalen Klangdarstellung, aber auch mit zusätzlichen Höhenlautsprechern; Kap. 5.3 und 5.4 widmen sich also den eingeführten und vielfach bewährten Techniken der Tonübertragung. Kap. 5.5 schließlich erschließt die dreidimensionale, den Hörer reproduzierter Klänge räumlich einhüllende Klangdarstellung – Stichworte immersive sound und 3D – und stellt damit die aktuellen Entwicklungen der Tonübertragungstechnik mit Lautsprechern und der Binauraltechnik mit Kopfhörern systematisch dar.
5.1 Prinzipien der räumlichen Tonübertragung Bei der Tonwiedergabe gibt es für die Darstellung der räumlichen Eigenschaften von Schallquellen, also ihre Platzierung im Raum bezüglich Richtung, Entfernung und Ausdehnung, sowie die Darstellung des Raums und seiner Akustik drei grundsätzlich unterschiedliche Prinzipien: –– Lautsprecher-Stereofonie: Wiedergabe von Mikrofonsignalen aus dem Aufnahmeraum durch Lautsprecher, also die allgemein verbreitete Form der Tonwiedergabe (Kap. 5.2 bis 5.5.2), –– Synthese des umgebenden Schallfelds bei der Wiedergabe: Wellenfeldsynthese (WFS) und Higher-order Ambisonics (HOA) reproduzieren in der Nähe des Hörers das Schallfeld aus dem Aufnahmeraum (Kap. 5.5.3), –– Binaurale Reproduktion der Ohrsignale: Kopfhörerwiedergabe der Ohrsignale aus dem Aufnahmeraum, bekannt als Kunstkopfverfahren (Kap. 5.5.5); Binauralisierung ist die Kopfhörerwiedergabe der Ohrsignale aus dem Lautsprecher-Wiedergaberaum (Kap. 5.5.6). Alle bekannten räumlichen Tonübertragungs- bzw. Tonwiedergabeverfahren lassen sich auf diese drei Methoden zurückführen oder stellen Mischformen daraus dar mit dem Ziel, https://doi.org/10.1515/9783110759921-005
232
5 Tonaufnahme und Tonwiedergabe
bestimmte Vorteile einzelner Methoden – abhängig vom praktischen Anwendungsbereich – zu nutzen bzw. ihre Nachteile zu umgehen.
5.1.1 Lautsprecher-Stereofonie Die Abbildung eines akustischen Geschehens durch Lautsprecher gewinnt mit der Stereotechnik an Durchsichtigkeit, Räumlichkeit und Klangfülle gegenüber der Abbildung mit Monotechnik. Mit Durchsichtigkeit wird die Möglichkeit, eine einzelne Schallquelle bzw. einzelne Schallquellen eines Klangkörpers herauszuhören, also getrennt zu lokalisieren und zu verfolgen, bezeichnet. Außerdem erweitert die Stereofonie die Möglichkeiten, Bewegungsabläufe bei Fernsehtonaufnahmen, Hörspielen und Musikaufnahmen akustisch abzubilden oder rein elektronisch in einer Nachbearbeitung zu erzeugen und Schallquellen mit den Mitteln der Tonregie in gewünschte Positionen zu bringen. Die Vermittlung der Raumillusion wird gegenüber der Monofonie entscheidend verbessert. Stereofonie – der Wortbedeutung nach „räumlicher Schall“ – werden die Übertragungsverfahren genannt, die durch Verwendung von zwei und mehr Übertragungskanälen die räumliche Dimension des Klangbilds übertragen. Zu der räumlichen Dimension gehören die Positionen der Schallquellen im Raum, ihre Ausdehnung und Entfernung, aber auch die Richtungsverteilung der ersten Raumreflexionen und des Nachhalls. Stereofonie beruht auf den Gesetzmäßigkeiten der Lokalisierung in den sich überlagernden Schallfeldern zweier Lautsprecher. Die Richtungsdarstellung erfolgt in der Abbildungsebene zwischen zwei benachbarten Lautsprechern. Die Wahrnehmung des natürlichen Raumeindrucks und der räumlichen Tiefe ist mit der einfachen Zweikanal-Stereofonie, der sog. 2/0-Stereofonie, nicht erreichbar, sondern nur eine perspektivische Darstellung, ähnlich der perspektivischen Darstellung in einem flächigen Bild [Theile, 1980, 1991]. Bei der sog. 3/2-Stereofonie – ein Verfahren mit drei frontalen und zwei seitlichen sog. SurroundLautsprechern – kann mit Hilfe der seitlichen Lautsprecher, der Surround-Kanäle, die Abbildungsebene zwischen den frontalen Lautsprechern zu den Seiten hin vergrößert werden. Daraus ergeben sich Möglichkeiten für die Reproduktion des frühen Seitenschalls zur Darstellung der räumlichen Tiefe sowie des Nachhalls zur Darstellung des Raumeindrucks und der Umhüllung [Theile, 2001/1]. Eine besondere Einschränkung zeigt sich bei der 3/2-Stereofonie für die Darstellung der akustischen Nähe. Wie bei der konventionellen Zweikanal-Stereofonie ist es normalerweise nicht möglich, im Bereich zwischen dem Hörer und den Lautsprechern Hörereignisse abzubilden bzw. zu lokalisieren. Die Entfernung einer Phantomschallquelle zum Hörer kann nicht kleiner sein als diejenige zu den wiedergebenden Lautsprechern. Aus diesem Grund ist die Darstellung einer sehr nahen akustischen Umgebung trotz sehr nah aufgestellter Mikrofone problematisch. Eine überzeugende akustische Einhüllung des Hörers ist oft schwierig und gelingt selten so überzeugend, wie das etwa mit der Kunstkopftechnik möglich ist, z. B. der Applaus in einem Konzertsaal. Ein weiterer Nachteil der Lautsprecherstereofonie betrifft die begrenzte Abhörzone, die sich einerseits aus der geringen Richtungsstabilität der Phantomschallquelle ergibt – der Hörer darf den optimalen Hörplatz nicht verlassen –, andererseits aus der stark platzabhän-
5.1 Prinzipien der räumlichen Tonübertragung
233
gigen Lautstärkebalance der Wiedergabekanäle. Die geringe Stabilität der Richtungsabbildung ist auf die Laufzeitverschiebungen zurückzuführen, die sich von Ort zu Ort ändert. Verschiebungen der Lautstärkebalance machen sich für die Surround-Kanäle besonders schnell bemerkbar, wenn das Pegelverhältnis von direktem zu indirektem Schall betroffen ist. Dieses Problem lässt sich dadurch reduzieren, dass man die Entfernung der Lautsprecher zum Hörer vergrößert. Auf Einzelheiten wird in den Kap. 5.2 bis 5.5 ausführlich eingegangen.
5.1.2 Synthese des umgebenden Schallfelds Neben Lautsprecher-Stereofonie ist die Darstellung virtueller Schallquellen und Räume durch ein akustisch korrektes Schallfeld bei der Wiedergabe in der Umgebung des Hörers möglich. Dieses anspruchsvolle Ziel wird auf zwei ähnlichen Wegen verfolgt, mit der Weiterentwicklung der Ambisonics-Mikrofontechnik [Gerzon, 1975/1], [Fellgett, 1974, 1975], [Craven, 2009] hin zum Higher-order Ambisonics-Verfahren (HOA, siehe Kap. 5.5.3.2) sowie mit der Entwicklung der Wellenfeldsynthese (WFS) [Berkhout, 1993], [Boone, 1995], siehe Kap. 5.5.3.1. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch ist. Die für das Hörereignis wirksamen Ohrsignale entstehen
Abb. 5/1. Vergleich der Ohrsignale einer Phantomschallquelle im überlagerten Schallfeld bei ZweikanalStereofonie mit den Ohrsignalen der virtuellen Schallquelle bei Wellenfeldsynthese bei gleicher Hörereignisrichtung [Theile, 1980/1].
234
5 Tonaufnahme und Tonwiedergabe
also im Gegensatz zur Binauraltechnik auf natürlichem Wege im Schallfeld, nicht nur an den Ohren. Der Hörer kann sich in der gesamten Hörzone wie gewohnt frei bewegen, wobei die virtuellen Schallquellen an ihrem Ort stabil lokalisierbar bleiben und eine natürliche Perspektive wahrgenommen wird. Diese ist mit den Mitteln der Stereofonie nicht möglich [Theile, 2002], [Wittek, 2004]. Abb. 5/1 zeigt eine Phantomschallquelle bei Zweikanal-Stereofonie im Vergleich mit einer virtuellen Schallquelle in einer Wellenfeldsynthese. Die resultierenden Ohrsignalspektren, interauralen Signaldifferenzen und -korrelationen sind völlig unterschiedlich, obwohl in beiden dargestellten Fällen die Hörereignisse bezüglich Klangfarbe, Richtung und Entfernung ähnlich sind. Nur bei idealer Wellenfeldsynthese entspricht das synthetische Wellenfeld-Schallfeld dem einer entsprechenden Realschallquelle, was beim Schallfeld bei Stereofonie nicht zutrifft, Einzelheiten dazu in Kap. 5.5.3.1 sowie in [Wittek, 2007].
5.1.3 Binaurale Reproduktion der Ohrsignale Die ursprüngliche Ausführung dieser Methode ist die bekannte Kunstkopfstereofonie. Dabei wird nicht versucht, am Ort der Wiedergabe ein geeignetes Schallfeld zu reproduzieren, vielmehr werden die Ohrsignale eines künstlichen Kopfs, eines Kunstkopfs, im Aufnahmeraum aufgenommen und grundsätzlich durch Kopfhörer wiedergegeben. Im Idealfall sind die reproduzierten Kunstkopfsignale identisch mit den individuellen Ohrsignalen, die der Hörer im Aufnahmeraum am Ort des Kunstkopfs empfangen würde. Das virtuelle Hörereignis im Kopfhörer entspricht dem realen Schallereignis im Aufnahmeraum. Einzelheiten werden in den Kap. 5.5.5 und 5.5.6 behandelt. Für den praktischen Einsatz dieses Verfahrens gibt es aber leider gravierende Einschränkungen: –– Die Reproduktion der Ohrsignale muss sehr genau erfolgen, Unterschiede des individuellen Außenohrs zum Kunstkopf-Außenohr verursachen bereits Beeinträchtigungen. Auch wirken Eingriffe wie Dynamikeinengung, Lautstärkeeinstellung und Störgeräusche nachteilig auf die Wiedergabe ein. –– Die Ohrsignale müssten fortlaufend an die momentane Kopfhaltung des Hörers angepasst werden − man nennt das head tracking, insbesondere um die korrekte Lokalisierung in der senkrechten Ebene, der sog. Medianebene (siehe Kap. 3.4) sicherzustellen. [Mackensen, 1998]. –– Die Reproduktion der Ohrsignale muss grundsätzlich über Kopfhörer erfolgen. Sog. Transauralisationsverfahren, die für die Lautsprecherwiedergabe vorher eine inverse Filterung der Übertragungsfunktion des Außenohrs durchführen, sind nicht genau genug und schränken die Hörzone auf wenige Zentimeter ein. –– Eine künstlerische Gestaltung des Klangbilds ist nur in sehr engem Rahmen möglich. Das gilt für die klangliche und räumliche Balance z. B. der Instrumente ebenso wie für die Darstellung des Raums und der den Hörer einhüllenden raumakustischen Atmosphäre. Die Abhängigkeit von den Gegebenheiten der Aufführung ist sehr groß und meist nicht praktikabel. –– Ein gelungenes Klangbild für die Kopfhörerwiedergabe stellt die Abbildung eines Hörerplatzes im Aufnahmeraum, z. B. einem Konzertsaal, dar. Bei Lautsprecherwiedergabe in einem Wohnraum widerspricht die optische Wahrnehmung der akustischen Wahrnehmung.
5.2 Stereofonie
235
5.2 Stereofonie Bei der üblichen Stereoanordnung, bei der zwei Lautsprecher mit dem Hörer ein gleichseitiges oder nahezu gleichseitiges Dreieck bilden (Abb. 5/2, siehe auch Abb. 5/1), ergeben sich ganz andere Verhältnisse als beim „natürlichen“ Hören. Sie sind wesentlich komplexer und werfen eine Reihe von Fragen auf. Zunächst werden deshalb nur die Hörphänomene beschrieben, die mit der Bildung der für Stereowiedergabe wesentlichen Phantomschallquellen zusammenhängen, sowie die sich daraus ergebenden Möglichkeiten der Anwendung. Danach wird in Kap. 5.2.3 auf Fragen zu den Ursachen dieser Phänomene der Stereofonie näher eingegangen. Darauf aufbauend werden im folgenden Kap. 5.2.4 die Prinzipien der räumlichen stereofonen Abbildung dargestellt, die Möglichkeiten und Grenzen der konventionellen Zweikanal-Stereofonie einerseits und der Mehrkanal-Stereofonie andererseits. Kap. 5.5.4 geht auf die psychoakustischen Phänomene sowie auf praktische Konsequenzen ein, die mit der Wiedergabe der stereofonen Signale über Kopfhörer zusammenhängen.
5.2.1 Phantomschallquellen Stellt man – wie in Abb. 5/2 dargestellt – zwei Lautsprecher L1 und L2, die gleichzeitig exakt dasselbe Signal abstrahlen, in einem bestimmten Abstand, der Basis b, zueinander auf, so lokalisiert ein Hörer H nicht zwei getrennte Schallquellen bei L1 bzw. L2, sondern nur eine einzige fiktive Schallquelle, eine sog. Phantomschallquelle oder virtuelle Schallquelle in der Mitte der Basis. Sie ist fiktiv oder virtuell, weil an diesem Punkt keine wirkliche Schallquelle existiert, der Ort der Schallquelle also nur in der auditiven Verarbeitung der Ohrsignale durch den Hörer gebildet wird. Erzeugt und verändert man innerhalb bestimmter Grenzen kontinuierlich Pegel- oder/und Laufzeitdifferenzen zwischen den Signalen an L1 und L2, so wandert die fiktive Schallquelle S entlang der Lautsprecherbasis zur Seite, bis sie schließlich in einem der beiden Lautsprecher stehen bleibt. Dieser Effekt ist grundlegend für die stereofone Schallwiedergabe, er macht die Illusion einer räumlichen Schallwiedergabe erst möglich.
Abb. 5/2. Standard-Lautsprecheranordnung in einem gleichschenkligen Dreieck mit dem Hörer für Zweikanal-Stereowiedergabe.
236
5 Tonaufnahme und Tonwiedergabe
Während bei der Lokalisierung einer realen Schallquelle das Schallsignal nur von einem Punkt ausgeht, der Richtungseindruck also aus einem einzigen Schallsignal gewonnen wird, überlagern sich bei der stereofonen Lautsprecherwiedergabe die Signale von zwei Schallquellen bzw. Lautsprechern. Hierbei erhält jedes Ohr von jedem der beiden Lautsprecher einen bestimmten Schallanteil, woraus das Gehör den Richtungseindruck der fiktiven Schallquelle ableitet. Abb. 5/3 zeigt für einige spezielle Fälle schematisch die Signalkonfigurationen an den Ohren des Hörers. Daraus wird ersichtlich, dass sich bei jedem Ohr zwei Signale überlagern, die aber zu einer einzigen Wahrnehmung führen. Voraussetzungen für die einwandfreie Lokalisierbarkeit sind, dass die Lautsprecher von derselben Schallquelle stammende, sog. kohärente Signale ohne Phasenumkehrung abstrahlen, dass die Pegel- und/ oder Laufzeitdifferenzen innerhalb bestimmter Grenzen bleiben und dass sich der Hörer in einer bestimmten geometrischen Position zu den Lautsprechern befindet, nämlich innerhalb der sog. Stereohörfläche oder -hörzone (Abb. 5/9). Je nach angewandtem Aufnahmeverfahren treten Pegel- und Laufzeitdifferenzen zwischen den Lautsprechersignalen L1 und L2 allein oder gleichzeitig auf.
Abb. 5/3. Signalkonfigurationen an den Ohren bei Stereowiedergabe nach Abb. 5/2.
Als erster erkannte und patentierte Alan D. Blumlein 1931 die Möglichkeiten, stereofone Klangbilder auf Grund von Phantomschallquellen zu übertragen. Bereits 1933 wurde ein Konzert stereofon von Philadelphia nach Washington übertragen und über zwei Lautsprecher stereofon wiedergegeben. Die ersten klassischen Versuche zur Abbildung von Phantomschallquellen wurden 1940 von de Boer durchgeführt; danach wurden die Versuche von zahlreichen Autoren unter verschiedenen Versuchsbedingungen fortgeführt [Blauert, 2000]. 5.2.1.1 Phantomschallquellen bei Pegeldifferenzen Strahlen bei einer Wiedergabeanordnung nach Abb. 5/2 die beiden Lautsprecher dasselbe Signal phasengleich ab, so wird bei gleichem Pegel von L1 und L2 eine fiktive Schallquelle S genau in der Mitte der Basis b lokalisiert. Bei Pegeldifferenzen wandert die fiktive Schallquelle auf der Basis seitlich aus, um bei einer Pegeldifferenz von 15 bis 25 dB ganz an dem
5.2 Stereofonie
237
Ort des Lautsprechers mit dem höheren Pegel stehen zu bleiben. Bereits bei nur 12 bis 15 dB Pegeldifferenz befindet sich die fiktive Schallquelle so nahe an diesem Lautsprecher, dass in der Praxis eine Pegeldifferenz von etwa 15 dB zur Lokalisierung „ganz seitlich“ führt. Die Abbildungsrichtungen der Phantomschallquellen, die durch Pegeldifferenzen bedingt sind, sind in relativ geringem Maß von der akustischen Gestalt des Signals und von anderen Bedingungen abhängig. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Pegeldifferenz ΔL zeigt Abb. 5/4. Angegeben sind die Auslenkungen der Phantomschallquelle relativ zur Lautsprecher-Basisbreite. In der Standard-Lautsprecheranordnung auf den Ecken eines gleichseitigen Dreiecks gemäß Abb. 5/2 entsprechen 100 % Auslenkung der Phantomschallquellenrichtung ± 30°. Man erkennt, dass im Bereich um die Mitte der Lautsprecherbasis die Kurven weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 7,5 %/dB zu Grunde gelegt. Die Tatsache, dass die Auslenkungen der Phantomschallquellen relativ zur Basisbreite weitgehend unabhängig vom Basisöffnungswinkel sind, wird im Kap. 5.2.3 näher erläutert. Das ist nicht nur hinsichtlich der Bewegungsfreiheit des Hörers nach vorne und hinten von großer praktischer Bedeutung, sondern auch bei der Mehrkanal-Stereofonie, bei der mit Hilfe des Center-Kanals C die Lautsprecherbasis zwischen L und R in die Sektoren L bis C und C bis R geteilt ist, so dass an Stelle von einer Basis mit Basisöffnungswinkel 60° nebeneinander zweimal eine Basis mit jeweils 30° Basisöffnungswinkel vorhanden ist. In allen Abbildungsbereichen gelten dieselben Gesetzmäßigkeiten.
Abb. 5/4. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Pegeldifferenz ΔL. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], C nach [Brittain, 1956], D nach [Simonson, 1984].
Die Pegeldifferenzen, die zu einer bestimmten Abbildungsrichtung der Phantomschallquelle führen, sind deshalb auch nicht identisch mit den resultierenden Pegeldifferenzen zwischen
238
5 Tonaufnahme und Tonwiedergabe
den beiden Ohren beim „natürlichen“ Hören, wenn sich die reale Schallquelle am Ort der Phantomschallquelle befinden würde (siehe Kap. 5.1 und 5.2.3). Dies gilt sinngemäß auch für Phantomschallquellen bei Zeitdifferenzen, siehe dazu unten. Es ist also möglich, durch reine Pegeldifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür ausschließlich entsprechende Pegeldifferenzen zwischen dem linken und rechten Kanal L und R erzeugt werden, man nennt dieses Aufnahmeverfahren Intensitätsstereofonie (siehe Kap. 5.3.2). 5.2.1.2 Phantomschallquellen bei Zeitdifferenzen Bei der Stereowiedergabe nach Abb. 5/2 führen auch Laufzeitdifferenzen zwischen 0 und etwa 1 ms zwischen identischen Lautsprechersignalen zu Phantomschallquellen auf der Stereobasis. Die Wirkung von Laufzeitdifferenzen zwischen 3 und 30 ms beschreibt das sog. Gesetz der ersten Wellenfront, auch als Haas-Effekt oder Precedence-Effekt bekannt, wonach bei breitbandigen Signalen nur derjenige Lautsprecher als Ort der Schallquelle gehört wird, der das Schallsignal zuerst abstrahlt, auch wenn der andere Lautsprecher einen höheren Pegel hat. Bei Laufzeitdifferenzen von mehr als 30 bis 90 ms – je nach Art des Schallsignals – werden schließlich zwei in ihrer Richtung und zeitlich getrennte Signale gehört. Der Übergang zwischen diesen Zeitbereichen ist gleitend und von der Art des Signals abhängig. Laufzeitdifferenzen im Übergangsbereich können Hörereignisse hervorrufen, die über die ganze Basis ausgedehnt erscheinen. Ab einer Laufzeitdifferenz von etwa 0,6 ms bis hin zu Echos erzeugenden Verzögerungszeit von ca. 40 ms bewirken Kammfiltereffekte am Ohr des Hörers eine Verfärbung des Klangbilds; sie hängen stark von der Art des Schalls und von der Anzahl von Reflexionen in der Aufnahme ab. Abb. 5/5 fasst die verschiedenen Wirkungen der Laufzeitdifferenzen zusammen.
Abb. 5/5. Wirkungen der Zeitverzögerung zwischen identischen Signalen an den Lautsprechern L1 und L2 nach Abb. 5/2.
Anders als bei Phantomschallquellen, die durch Pegeldifferenzen ausgelenkt werden, können Laufzeitdifferenzen die Richtungsstabilität der Phantomschallquelle mit steigender Zeitdifferenz beeinträchtigen; ab etwa 0,5 ms steigt die Unsicherheit der Richtungswahrneh-
5.2 Stereofonie
239
mung an, stark von der Art des Schalls abhängig. Bei Sprache genügen schon verhältnismäßig geringe Laufzeitdifferenzen zwischen den Lautsprechersignalen, bei tiefen sinusförmigen Dauertönen sind vergleichsweise große Laufzeitdifferenzen zur Auslenkung notwendig. Sinusförmige Dauertöne im mittleren Frequenzbereich werden insofern nicht eindeutig abgebildet, weil einer Abbildungsrichtung zwei oder mehr unterschiedliche Phasen- bzw. Laufzeitdifferenzen zuzuordnen sind. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Laufzeitdifferenz Δt zeigt Abb. 5/6. Angegeben sind auch hier die Auslenkungen der Phantomschallquellen relativ zur Lautsprecher-Basisbreite. Man erkennt, dass im inneren Bereich der Lautsprecherbasis die Kurven wie bei Pegeldifferenzen weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 13 %/0,1 ms zu Grunde gelegt. Es ist also möglich, durch reine Laufzeitdifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür auch reine Laufzeitdifferenzen zwischen dem linken und rechten Kanal erzeugt werden, man nennt dieses Aufnahmeverfahren Laufzeitstereofonie (siehe Kap. 5.3.3).
Abb. 5/6. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Laufzeitdifferenz Δt. Dicke bzw. gepunktete Kurve nach [Wittek, 2000], Kurven A nach [Leakey, 1960], B nach [Mertens, 1965], D nach [Simonson, 1984], E nach [Sengpiel].
5.2.1.3 Phantomschallquellen beim Zusammenwirken von Pegel- und Laufzeitdifferenzen Reine Intensitätsstereofonie benutzt nur Pegeldifferenzen zwischen den Lautsprechersignalen, reine Laufzeitstereofonie nur Laufzeitdifferenzen. Es gibt aber auch Aufnahmeverfahren, bei denen Pegel- und Laufzeitdifferenzen gleichzeitig und gleichsinnig auftreten. Dazu gehören alle Verfahren, die mit unterschiedlich ausgerichteten und zugleich distanzierten
240
5 Tonaufnahme und Tonwiedergabe
Richtmikrofonen arbeiten, sowie alle Verfahren, bei denen zwischen ungerichteten Mikrofonen Trennkörper eingefügt werden, den sog. Trennkörperverfahren. Bei diesen sog. gemischten Aufnahmeverfahren wirken Pegel- und Laufzeitdifferenzen gleichgerichtet zusammen. Die Auslenkung der Phantomschallquelle ist bei solchen Bedingungen größer als sie es auf Grund von Pegel- oder Laufzeitdifferenzen allein wäre. Der Frage, in welcher Weise gleichsinnige Laufzeit- und Pegeldifferenzen auf die Abbildungsrichtung der Phantomschallquelle wirken, wird ausführlich im Kap. 5.2.2 im Zusammenhang mit der Bestimmung des Aufnahmewinkels oder -bereichs eines Stereomikrofons nachgegangen. Bezüglich der Lokalisierungsschärfe sind Pegel- und Laufzeitdifferenzen im Bereich kleiner Werte der Auslenkung der Phantomschallquelle gleichwertig. Dagegen gibt es Unterschiede im Bereich größerer Auslenkungen: Eine wachsende Pegeldifferenz führt zu einer Zunahme, eine wachsende Laufzeitdifferenz zu einer Abnahme der Lokalisierungsschärfe. Mikrofonanordnungen der „gemischten“ Aufnahmeverfahren, deren Anteile aus Pegelund Laufzeitdifferenzen ungefähr gleichgewichtig sind, nehmen eine gewisse Sonderstellung ein, offenbar kann die Lokalisierungsschärfe in diesem Fall ein Optimum erreichen. Eine solche Anordnung zweier Mikrofone kann als Äquivalenzmikrofon bezeichnet werden. Gegensinnige Pegel- und Laufzeitdifferenzen können nur begrenzt zu einer Aufhebung der Auslenkungen führen, vielmehr aber zu einer starken Abnahme der Lokalisierungsschärfe. 5.2.1.4 Seitliche Phantomschallquellen Auf Grund praktischer Erfahrungen und Untersuchungen weiß man, dass Phantomschallquellen mit zwei Lautsprechern seitlich vom Hörer äußerst instabil und empfindlich bezüglich des Abhörpunkts sind, auch hinsichtlich des Signalspektrums. Stereofonie funktioniert nur dann in der gewohnten Weise, wenn die zwei an der Bildung der Phantomschallquellen beteiligten Lautsprecher weitgehend symmetrisch zum Hörer, genauer zur Medianebene des Hörers, angeordnet sind. Dreht der Hörer seinen Kopf im Referenzpunkt der Anordnung geringfügig, so verändern sich die Auslenkung der Phantomschallquelle und die Lokalisierungsschärfe nur unwesentlich. Dreht der Hörer seinen Kopf jedoch so weit, dass einer der Lautsprecher hinter der Ohrenachse liegt und einer davor, so werden die Lokalisierungskurven steiler und die Lokalisierungsschärfe geringer. Ein Lautsprecherpaar, das seitlich genau symmetrisch zur Ohrenachse aufgestellt ist, ermöglicht keine stabile Lokalisierung, seitliche Phantomschallquellen werden nicht gebildet. Die Versuchsergebnisse für verschiedene Ausrichtungen eines Lautsprecherpaars, das mit dem Hörer ein gleichseitiges Dreieck bildet, zeigt Abb. 5/7. Testergebnisse für die Lautsprecheranordnung für Surround-Stereofonie nach dem Standard 5.1 im Studio mit einem Lautsprecherabstand zum Hörer von 2,5 m zeigt Abb. 5/8. Die wahrgenommenen Richtungen sind als Funktion der Pegeldifferenzen der Lautsprecherbasis C-L sowie die Lautsprecherbasis L-LS dargestellt.
5.2 Stereofonie
241
Abb. 5/7. Auslenkung der Phantomschallquellen mit ihren Unschärfebereichen bei Pegeldifferenzen in Abhängigkeit von dem Ausrichtungswinkel zum Hörer [Theile, 1976].
Die in Abb. 5/8 eingetragenen Streuungen sind für die Lautsprecherbasis L-LS wesentlich größer als für die Basis C-L. Sie zeigen, dass selbst im Referenzpunkt die Lokalisierung der seitlichen Phantomschallquelle verschwommen und instabil ist. Ferner besteht im Seitenbereich keine ausreichende Richtungsstabilität. Bewegt sich der Hörer nur gering vom Referenzpunkt weg, so führt das zu gravierenden Richtungsverzerrungen, die Lokalisierungskurve ist wesentlich steiler als im Bereich der vorderen Lautsprecher L-C-R, es besteht die Gefahr eines „Lochs an der Seite“. In der Mischung sind die beiden seitlichen Abbildungsbereiche L‑LS und R‑RS nicht so nutzbar wie der vordere Abbildungsbereich L-C-R. Mit Ausnahme von bewegten Schallquellen kann also nicht mit einer Richtungsabbildung von seitlichen Schallquellen gerechnet werden.
242
5 Tonaufnahme und Tonwiedergabe
Abb. 5/8. Wahrnehmung von seitlichen Phantomschallquellen beim SurroundStandard 5.1in Abhängigkeit von deren Pegeldifferenz. 1: Versuchspersonen im Referenzpunkt, 2: ein Sitz links vom Referenzpunkt, 3: ein Sitz vor dem Referenzpunkt [Zieglmeier, 1996].
Eigenschaften und Einsatz der Phantomschallquellen Phantomschallquellen weisen in der Regel eine größere Ausdehnung auf als Realschallquellen. Die Ausdehnung und Unschärfe steigen mit Abnahme des Korrelationsgrads der stereofonen Signale. Frequenzanteile unterhalb von 500 Hz führen zu einer stärkeren Ausdehnung der Phantomschallquelle in diesem Teilbereich, da dort die Lokalisationsreizselektion nicht mehr möglich ist [Silzle, 1990]. Sind mehr als zwei Lautsprecher an der Ausbildung der Phantomschallquelle beteiligt, entsteht eine Phantomschallquelle mit noch größerer Ausdehnung. Die Phantomschallquelle weist geringfügige Klangverfärbungen im Vergleich zu einer Realschallquelle auf, beispielsweise im Vergleich der Lautsprecherwiedergabe einer Sprachaufnahme im Center vorne mit der entsprechenden Phantomschallquelle der Stereoanordnung [Silzle, 1990]. Hörerfahrungen mit weniger trockenen Aufnahmen zeigen, dass die gefundene Klangverfärbung der Phantomschallquelle besonders bei Aufnahmen mit hohem
5.2 Stereofonie
243
Anteil an indirektem, diffusem Schall weit weniger wahrnehmbar ist. Die Klangfarbe wird bei solchen Aufnahmen vorwiegend durch den unkorrelierten Anteil des stereofonen Signals bestimmt. Bereits der Standard ITU-R BS. 775-1 von 1992/1994 definiert neben dem 5.1-Format das 7.1-Format, das mit zwei zusätzlichen Kanälen die Möglichkeiten seitlicher Abbildungen verbessern kann. In jüngerer Zeit sind diverse Mehrkanal-Tonformate etabliert worden, die mit größeren Lautsprecher-Setups eine wesentlich stabilere Abbildung im gesamten oberen Halbraum möglich machen (vergl. Kap. 5.5.1.1). Bei verschiedenen Mischungen ist für bestimmte Einzelquellen die Richtungswahrnehmung von untergeordneter Bedeutung. Besonders die größeren Lautsprecher-Setups erlauben es deshalb, diese Quellen direkt auf die Lautsprecher zu routen, so dass dafür eine maximale Richtungsstabilität und Lokalisationsschärfe sichergestellt sind und zudem die klanglichen Vorteile von Realschallquellen gewonnen werden. 5.2.1.5 Stereohörzonen Bei den bisherigen Ausführungen wurde davon ausgegangen, dass der Hörer sich genau im Referenzpunkt der stereofonen Lautsprecheranordnung gemäß Abb. 5.2 befindet, also mit den Lautsprechern ein gleichschenkliges Dreieck bildet. Dies ist aber in der Praxis selten der Fall. Deshalb ist es wichtig, die Robustheit der Wiedergabeeinrichtung gegenüber Abweichungen vom Bezugshörort zu kennen. Darauf basierend kann man im Rahmen bestimmter Toleranzen die Stereohörflächen oder -hörzonen einer Lautsprecheranordnung festlegen, so dass verschiedene zwei- und mehrkanalige Wiedergabeeinrichtungen diesbezüglich vergleichbar sind. Verlässt der Hörer die Symmetrieachse der Lautsprecheranordnung, entstehen Verzerrungen der Richtungsdarstellung. Diese sog. Abbildungsverzerrungen – angegeben in % – ergeben sich, weil die von den Lautsprechern abgestrahlten Signale mit zusätzlichen Laufzeitdifferenzen beim Hörer eintreffen und damit ein Auswandern der Phantomschallquellen in Richtung des näheren Lautsprechers verursachen. Die resultierende Auslenkung lässt sich den in Abb. 5/6 gezeigten Kurven entnehmen. Bei nur 10 cm seitlicher Abweichung des Hörers aus der Mitte der Standard-Stereoanordnung ergibt sich eine Zeitdifferenz von 0,3 ms und daraus nach Maßgabe des Auslenkungskoeffizienten von 13 %/0,1 ms eine Richtungsverschiebung der Mitten-Phantomschallquelle um 39 %. Für die Standard-Stereoanordnung mit einem Basisöffnungswinke vonl 60° sind dies etwa 12°. Bezieht man diese Auslenkung auf die gesamte Abbildungsbreite, so ergibt sich daraus eine Abbildungsverzerrung, die in diesem Beispiel 20 % beträgt. Die Abbildungsverzerrung bezieht sich auf die Mitten-Phantomschallquelle, hier ist die Wirkung dieser ungewollten Laufzeitdifferenzen am größten. Die Breite der Hörfläche oder Hörzone ist bei der Zweikanal-Stereofonie sehr gering. Sie beträgt 20 cm, wenn eine Abbildungsverzerrung von 20 % zugelassen wird. Zu beachten ist, dass dies im Prinzip unabhängig von der Breite der Lautsprecherbasis gilt. Eine kleinere Lautsprecherbasis führt theoretisch nicht zu einer entsprechend schmäleren Hörzone. Dies scheint der praktischen Erfahrung z. B. mit Nahfeldlautsprechern zu widersprechen; Ursache hierfür ist die Wirkung des reflektierten Schalls im Wiedergaberaum auf die Ausdehnung der Phantomschallquelle. Die Lokalisierungsschärfe ist im Nahfeld der Lautsprecher
244
5 Tonaufnahme und Tonwiedergabe
besonders groß [Barron, 1981] und daher auch die Empfindlichkeit des Gehörs für Abbildungsverzerrungen [Theile, 2001/1], [Herrmann, 1999]. Es ist nicht sinnvoll, die Hörzone mit Hilfe besonders breit strahlender Lautsprecher zu Ungunsten der Lokalisierungsschärfe zu vergrößern, da hierdurch der nun vermehrt reflektierte Schall des Wiedergaberaums die Abbildung des Aufnahmeraums in den meisten Fällen beeinträchtigen wird. Die Mehrkanal-Stereofonie erzielt die gewünschte Verbreiterung der Stereohörfläche bei gleichzeitiger Verbesserung der Lokalisierungsschärfe. Zusätzliche Lautsprecher zwischen L und R bewirken, dass der Abbildungsbereich in stereofone Teilbereiche aufgeteilt wird. Wendet man auf die Teilbereiche den Zusammenhang zwischen Hörzonenbreite und Abbildungsverzerrungen an, so ergeben sich brauchbare Hörzonenbreiten bereits für zwei oder drei Teilbereiche, siehe dazu die Kap. 5.2.2. und 5.4.2. Abb. 5/9 zeigt die Hörzonen für stereofone Wiedergabeanordnungen mit zwei, drei und vier Lautsprechern. Man erkennt, dass die Hörzonenbreite überproportional mit der Lautsprecheranzahl wächst. Da die Hörzonenbreite nicht von der Abbildungsbreite B abhängt, müsste die Lautsprecheranzahl mit B wachsen, wenn das Verhältnis Abbildungsbreite zu Hörzonenbreite etwa konstant sein sollte. Auch aus diesem Grund haben deshalb im Kino mit großer Leinwand Tonsysteme mit beispielsweise fünf Lautsprechern im vorderen Abbildungsbereich ihre Berechtigung. In der Praxis sind die Hörzonen oft etwas breiter, weil der Raumanteil im stereofonen Signal die Ausdehnung der Phantomschallquelle vergrößert. Darüber hinaus bezieht sich der Grenzwert der Abbildungsverzerrung auf den kritischsten Fall der Phantomschallquelle in der Mitte eines stereofonen Teilbereichs. Alle anderen Hörereignisrichtungen, insbesondere diejenigen in der Nähe der Lautsprecher, sind stabiler. Beim 5.1-Mehrkanal-Standard (siehe Kap. 5.4.1) hat sich in der Praxis gezeigt, dass schon ein einziger Center-Lautsprecher die Stabilität der Abbildungen in den beiden stereofonen Teilbereichen ausreichend erhöht. Das gilt auch für bildbezogene Tondarstellungen, da bei normalem Programmmaterial die Toleranzschwelle des Hörers höher liegt, einerseits wegen der Ablenkung durch den Programminhalt, andererseits wegen der assoziativen Verknüpfung von Seh- und Hörereignis mit der Ausdehnung der Quelle.
Abb. 5/9. Hörzonenbreiten für Stereofonie mit zwei, drei oder vier Lautsprechern. Hörzonenbreite im Referenzpunkt etwa 20 cm, 60 cm bzw. 150 cm bei einer zugelassenen Abbildungsverzerrung von 20 %. Die Hörzonenbreiten sind von der Abbildungsbreite B unabhängig.
5.2 Stereofonie
245
Bei der Mehrkanal-Stereofonie entstehen natürlich auch Abbildungsverzerrungen, wenn sich der Hörer vom Referenzpunkt – beispielsweise auf der Symmetrielinie – nach vorn oder hinten bewegt. Speziell in der Konfiguration L-C-R verursachen Laufzeitunterschiede ein Auswandern der Phantomschallquellen in den Teilbereichen L-C bzw. C-R. Diese Abbildungsverzerrungen begrenzen jedoch in der Praxis nicht die Hörflächen nach vorne und hinten, sondern vielmehr beschränken die dabei entstehenden Verschiebungen der Lautstärkebalance zwischen den vorderen Lautsprechern und den Surround-Lautsprechern die Hörfläche. Sie können z. B. besonders die beabsichtigte Wirkung des indirekten Schalls bei Musikaufnahmen beeinträchtigen, siehe dazu auch die Kap. 5.2.4 und 5.4.3. Die Stereo-Standard-Abhörposition sieht bei Zweikanal-Stereofonie ein gleichseitiges Dreieck vor, entsprechend ist der sog. Sweet Spot bei Mehrkanal-Stereofonie definiert (siehe Kap. 5.4.1). In der Praxis der Tonaufnahme beurteilen in der Regel zumindest zwei Personen das Klanggeschehen, Tonmeister und Toningenieur; beide können sich nicht zugleich am optimalen Abhörpunkt befinden. Wie wirkt sich dies auf die Hörzone aus? Sitzen beide hintereinander um den optimalen Platz, so gibt es – auch bei drei Zuhörern – keine Einschränkungen der Beurteilungsfähigkeit. Hingegen ist eine Klangbeurteilung bei Plätzen nebeneinander unbrauchbar. Bei einer Aufnahme in Laufzeitstereofonie mit 40 cm Mikrofonbasis z. B. bewirkt eine Deplatzierung aus der Mitte um nur 5 bis 10 cm bereits eine inakzeptable Verschiebung des Klangbilds. Bei einer Aufnahme in Intensitätsstereofonie ist diese Verschiebung zwar geringer, aber dennoch inakzeptabel. Ein Ausgleich des Abbildungsfehlers bei der Wiedergabe über den Abhörbalancesteller ist nicht zulässig. Bei Mehrkanal-Stereofonie gilt im Prinzip dasselbe, wenn auch der Einfluss der seitlichen Verschiebung deutlich geringer ist; dafür wird aber der Einfluss der Verschiebung vorne/hinten in geringem Umfang wirksam.
5.2.2 Aufnahmewinkel eines Stereomikrofons Stereomikrofone – Mikrofonsysteme, die aus zwei einzelnen Mikrofonen zusammengesetzt sind – erzeugen Pegel- und/oder Laufzeitunterschiede, die die Phantomschallquelle nach Maßgabe der in Kap. 5.2.1 behandelten Lokalisierungskurven seitlich auslenken. Entspricht ein bestimmter Schalleinfallswinkel einer Schallquelle α am Stereomikrofon beispielsweise einer Laufzeitdifferenz von 0,4 ms, so ergibt sich dadurch gemäß Abb. 5/6 eine Auslenkung der Phantomschallquelle um 50 % der Lautsprecherbasisbreite, was in der Standard-Zweikanalanordnung einer Richtungsverschiebung um 15° entspricht, die Phantomschallquelle wird auf der Lautsprecherbasis also halb seitlich abgebildet. Man kann mit dieser Methode für beliebige stereofone Mikrofonanordnungen, die von der Frequenz unabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, Abbildungskurven bestimmen, die den Zusammenhang zwischen dem Schalleinfallswinkel α und der Phantomschallquellenauslenkung direkt beschreiben. Abbildungskurven von Stereomikrofonen, die frequenzabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, z. B. Trennkörper verfahren (dazu Kap. 5.3.4) werden durch Messungen im Experiment mit Testhörern ermittelt.
246
5 Tonaufnahme und Tonwiedergabe
5.2.2.1 Aufnahmewinkel bei zweikanaligen Mikrofonen Abb. 5/10 zeigt beispielhaft eine Abbildungskurve eines zweikanaligen Mikrofons; die Schallquellenrichtung α = 20° ergibt hier eine Auslenkung der Phantomschallquelle von 50 % entsprechend einer Abbildungsrichtung von 15° in der konventionellen Zweikanal-Stereoanordnung. Man erkennt, dass nur die Schallquellen aus Richtungen bis maximal ± 45° zwischen dem linken bzw. rechten Lautsprecher abgebildet werden, sie befinden sich innerhalb des sog. Aufnahmewinkels oder Aufnahmebereichs, in diesem Beispiel beträgt er 90°. Innerhalb dieses Bereichs findet eine ausgeglichene Richtungsabbildung statt. Schallquellen, die außerhalb ± 45° liegen, erzeugen zu große Signalunterschiede und erscheinen in den Lautsprechern L bzw. R. Die Lokalisierungskurven für Pegel- bzw. Laufzeitdifferenzen (Abb. 5/4 bzw. 5/6) zeigen in den inneren Bereichen bis zu einer Auslenkung von 75 % einen weitgehend linearen Verlauf. Für diese Bereiche gelten Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms. Diese Linearität findet sich in den Abbildungskurven der Stereomikrofone wieder, siehe Abb. 5/10. Für größere Werte gibt es Übergangsbereiche, die durch eine unsichere Wahrnehmung der Richtung nahe den beiden Lautsprechern gekennzeichnet sind; auch ist dieser Winkelbereich in der Praxis für die Abbildung des stereofonen Klangbilds nicht sehr wichtig. Um für Mikrofonanordnungen zuverlässige und eindeutige Angaben über deren Aufnahmebereich zu machen, wurde deshalb vorgeschlagen, als Aufnahmewinkel 75 % bzw. recording angle 75 % für den Winkelbereich der Lautsprecherbasis von ± 75 % einzuführen [Williams, 1987]. Der Aufnahmewinkel 75 % ist in der Abbildungskurve in Abb. 5/10 eingetragen, er beträgt in diesem Beispiel 60°. Dies ist der Bereich, in dem die einzelnen Schallquellen linear und deutlich lokalisierbar abgebildet werden, der also eine gute Basis für die Planung einer Aufnahme darstellt.
Abb. 5/10. Abbildungskurve und Aufnahmewinkel eines zweikanaligen Stereomikrofons. Schallquellen in den schraffierten Richtungsbereichen werden in den Lautsprechern L bzw. R abgebildet.
5.2 Stereofonie
247
5.2.2.2 Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen Es besteht im Auslenkungsbereich ± 75 % eine Gleichwertigkeit von Pegel- und Laufzeitdifferenzen gemäß der beiden Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms: 1 dB Pegelunterschied erzeugt demnach etwa dieselbe Auslenkung wie 60 μs Laufzeitdifferenz (Abb. 5/11). Für Auslenkungsbereiche über 75 %, also für die äußeren Flanken der Stereobasis, sind diese Äquivalenzen nicht mehr anwendbar. Tragen die Pegel- und Laufzeitdifferenzen etwa gleich viel zur Abbildungsrichtung bei, so spricht man auch von Äquivalenzmikrofonverfahren. Die Abbildungskurven und Aufnahmewinkel oder -bereiche sind auch für Stereomikrofone bestimmbar, bei denen Pegel- und Laufzeitdifferenzen gleichsinnig zusammenwirken. Eine wichtige Regel lautet: Wird eine Phantomschallquelle auf Grund von Pegeldifferenzen ΔL gebildet und zusätzlich um Laufzeitdifferenzen Δt in gleicher Richtung ausgelenkt, so ist die gesamte Auslenkung etwa gleich der Summe der beiden einzelnen Auslenkungen.
Abb. 5/11. Äquivalenzen von Laufzeit- und Pegeldifferenzen bei der Auslenkung von Phantomschallquellen, zugehöriger Lautsprecherwinkel ± 75 % um die Mitte.
248
5 Tonaufnahme und Tonwiedergabe
Auf dieser Grundlage und in Kenntnis der Mikrofon-Richtcharakteristiken, der daraus resultierenden Pegeldifferenzen, der durch den Abstand zweier Mikrofonkapseln gegebenen Laufzeitdifferenzen sowie der in Kap. 5.2.1 angegebenen Lokalisierungskurven können die Abbildungskurven und Aufnahmewinkel von Stereomikrofonanordnungen bestimmt werden. Prinzipiell existiert eine riesige Anzahl möglicher Kombinationen von Mikrofonanordnungen. Einige davon werden in Kap. 5.3.4 vorgestellt. Für jede Anordnung lässt sich der Aufnahmewinkel bestimmen. Systematisch hat Michael Williams ihn für alle Richtmikrofontypen errechnet mit dem Ergebnis der sog. Williams-Diagramme [Williams, 1987]. Abb. 5/12 zeigt die Zusammenhänge der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nieren. Als Beispiel sind die Werte für die ORTF-Anordnung (siehe Kap. 5.3.4) eingetragen, die Mikrofonbasis beträgt hier 17,5 cm und die Mikrofon-Versatzwinkel ± 55°, der Mikro fon-Öffnungswinkel zweimal 55° = 110°. Man findet im Diagramm einen Aufnahmewinkel von etwa 95°. Der Versatzwinkel ist der Winkel, um den ein Mikrofon aus der Hauptrichtung, der Richtung zur Schallquelle oder zum Zentrum der Schallquelle, ausgeschwenkt wird.
Abb. 5/12. Williams-Diagramme, Zusammenhang von Aufnahmewinkel oder -bereich, Versatzwinkel und Mikrofonbasis für zwei Nierenmikrofone nach Williams [Williams, 1987], die sog. ORTF-Anordnung ist als Beispiel eingetragen, Einstellungen in den schraffierten Flächen sind für Aufnahmen ungeeignet.
5.2.2.3 Aufnahmewinkel bei dreikanaligen Mikrofonen Die Kenntnis des Aufnahmewinkels des einzusetzenden Stereomikrofons hat in der Praxis eine große Bedeutung. Das trifft ebenso für Mehrkanal-Aufnahmen zu, denn auch bei Anwendung von dreikanaligen Stereomikrofonen möchte man die Ausdehnung des Klangkörpers oder die Richtungsverteilung der aufzunehmenden Schallquellen mit Hilfe des Aufnahmewinkels optimal abbilden.
5.2 Stereofonie
249
Abb. 5/13. Abbildungskurven für die stereofonen Teilbereiche L-C und C-R eines dreikanaligen Stereomikrofons und resultierender Aufnahmewinkel oder -bereiche.
Wie bereits in Kap. 5.2.1.5 erläutert, ist der vordere Abbildungsbereich in zwei nebeneinander liegende stereofone Teilbereiche L-C und C-R aufgeteilt, so dass die Lokalisierungskurven für Pegel- und Laufzeitdifferenzen (Abb. 5/6 bzw. 5/8) ihre Gültigkeit behalten. Die gesamte Abbildungsebene L-R setzt sich aus dem linken und rechten Bereich zusammen. Die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, jedoch mit dem Vorteil der vergrößerten Stereohörfläche, wie in Kap. 5.2.1 erläutert. Man erkennt in Abb. 5/13, dass die Richtungsübersetzung eines geeigneten dreikanaligen Mikrofons nach Maßgabe der für die Teilbereiche relevanten Abbildungskurven erfolgt, siehe auch Abb. 5/10. Das setzt allerdings voraus, dass die äußeren Mikrofonkapseln L und R einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Dies ist möglich und wird in Kap. 5.4.2 näher erläutert. 5.2.2.4 Berechnungswerkzeuge Ein nützliches Werkzeug zur Berechnung der Abbildungskurven und Abbildungswinkel für beliebige zwei- oder dreikanalige Anordnungen mit Mikrofonen unterschiedlicher Richtcharakteristiken ist der Image Assistant (Abb. 5/14); er wurde von Helmut Wittek entwickelt und in Hörversuchen bestätigt [Wittek, Image Assistant], [Wittek, 2002]. Er ist aktuell im Internet frei verfügbar als „SCHOEPS Image Assistant v3“ als browser-Version und im Apple app store frei verfügbar. Es bietet zusätzlich die Berechnung der vom Schalleinfallswinkel abhängigen Pegel- und Laufzeitdifferenzen zwischen den Kanälen, den Gesamtschallpegel für jede Zweikanal- oder Dreikanal-Mikrofonanordnung in Abhängigkeit von den Richtcharakteristiken Kugel, breite Niere, Niere, Superniere und Acht.
250
5 Tonaufnahme und Tonwiedergabe
Abb. 5/14. Screenshot des Image Assistant 2.1 (www.hauptmikrofon.de). Die Abbildungskurve sowie der Aufnahmewinkel oder -bereiche einer beliebigen zwei- oder dreikanaligen Mikrofonanordnung kann grafisch dargestellt werden, hier ist die ORTF-Anordnung dargestellt [Wittek, Image Assistant].
Grundlage der Berechnung sind die bei der jeweiligen Mikrofonanordnung auftretenden Pegel- und Laufzeitdifferenzen. Aus ihnen wird auf Grund der in Kap. 5.2.1 beschriebenen Gesetzmäßigkeiten die Abbildungskurve ermittelt. Gleichzeitig wird der Aufnahmewinkel und der Aufnahmewinkel 75 % angegeben. Dieses Hilfsmittel hilft nicht nur dem Tonmeister bei der Auswahl und Platzierung der Mikrofone, sondern vermittelt auch die grundlegenden Eigenschaften der verschiedenen Stereomikrofontechniken wie z. B. die Gleichmäßigkeit oder die Stabilität der Abbildung. Außerdem können mit Hilfe des Werts Aufnahmewinkel 75 % verschiedene, im Hinblick auf die Abbildungskurve gleichwertige Anordnungen ermittelt werden. Der Tonmeister kann somit fundierter entscheiden, welche dieser Anordnungen seinem Ziel am nächsten kommen, indem er weitere Qualitätsaspekte berücksichtigt wie Klangfarbe, Stabilität, Abbildungsschärfe und oft auch die physische Größe der Mikrofonanordnung.
5.2 Stereofonie
251
5.2.3 Theorien zur Lokalisierung von Phantomschallquellen Zur Erklärung der Phänomene der Lokalisierung von Phantomschallquellen wurde bisher i. Allg. die sog. Theorie der Summenlokalisierung (Kap. 5.2.3.1) herangezogen. Sie kann einige Phänomene der Wahrnehmung zufriedenstellend erklären, andere Phänomene sind im Rahmen dieser Theorie nicht schlüssig zu interpretieren. Dabei bleibt eine Reihe von Fragen völlig offen; insbesondere ist ihr grundsätzlicher Mangel, dass sie nur für Lautsprecherwiedergabe gilt, für andere Phänomene der Richtungs- und Entfernungswahrnehmung aber keine Erklärungen bietet. 1980 hat Günther Theile [Theile, 1980/1] ein Assoziationsmodell der Wahrnehmung vorgestellt, das eine große Zahl unterschiedlicher Phänomene der Richtungs- und Entfernungswahrnehmung bei Lautsprecher- und Kopfhörerdarbietung sowie beim natürlichen Hören in einheitlich mit einer einzigen Theorie erklären kann (Kap. 5.2.3.2). Theile geht gegenüber früheren Theorien, die mehr an nachrichtentechnischen Modellen orientiert sind, von einem gestaltpsychologischen Ansatz aus, der die Hörerfahrung und Lernprozesse des Hörens zum Ausgangspunkt nimmt. 5.2.3.1 Summenlokalisierung Die Summenlokalisierung geht von der Annahme aus, dass bei der Wahrnehmung von Phantomschallquellen bei Lautsprecherdarbietung aus den Schallfeldüberlagerungen an den beiden Ohren Summensignale resultieren, deren Komponenten das Gehör nicht trennen kann. Es wird vermutet, dass die Signale an den beiden Ohren bei der Lokalisierung einer Phantomschallquelle und bei der Lokalisierung einer entsprechenden realen Schallquelle an demselben Ort gleichwertig sind, obwohl sie nicht identisch sind, wie Abb. 5/1 deutlich zeigt. In der Literatur werden verschiedene Theorien hierzu beschrieben, die jedoch nur einzelne Bereiche der räumlichen Wahrnehmung erfassen, eine allgemein gültige Theorie ist nicht aufgestellt worden [Blauert, 2000]. Ausgehend von Tonimpulsen, die entweder mit einer Pegeldifferenz oder mit einer Zeitdifferenz von zwei Lautsprechern in Stereoanordnung abgestrahlt werden, und den dazugehörigen Reizmustern an den beiden Ohren (Abb. 5/3), liegt zunächst die Vermutung nahe, dass der am Ohr jeweils zuerst eintreffende Impuls bzw. bei gleichzeitigem Eintreffen der lautere Impuls die Richtungswahrnehmung bestimme; demgegenüber konnte in Versuchen gezeigt werden, dass auch die weiteren, später eintreffenden Impulse von Einfluss auf die Richtungswahrnehmung sind. Bei Dauertönen kann eine für die stereofone Übertragung brauchbare Zuordnung von Lautsprecher- und Ohrsignalen nur unter etwa 800 Hz bestehen. Ein wesentlicher Einwand gegen die Summenlokalisierung bezieht sich auf die wahrgenommene Klangfarbe der Phantomschallquellen. Da es an den Ohren zu einer Überlagerung zweier zeitverzögerter Signale kommt, die auf den unterschiedlichen Abstand der beiden Ohren zu jeweils einem Lautsprecher zurückzuführen sind (Abb. 5/3), müssten Phantomschallquellen eigentlich eine Klangfärbung aufweisen, wie sie durch ein Kammfilter erzeugt wird. Abb. 5/1, linkes Bild unten, zeigt den Frequenzgang am linken Ohr, wie er durch die Überlagerung der beiden identischen, gleichzeitig abgestrahlten Lautsprechersignale entsteht. Zu sehen ist ein Pegeleinbruch von mehr als 10 dB bei 2 kHz. Die beiden Ohrsignale
252
5 Tonaufnahme und Tonwiedergabe
sind identisch. Trotz dieser objektiv vorhandenen deutlichen linearen Verzerrung wird eine Klangfärbung kaum wahrgenommen. Dies weist auf Wirkungsmechanismen der Wahrnehmung von Phantomschallquellen hin, die die Theorie der Summenlokalisierung nicht erklären kann. 5.2.3.2 Assoziationsmodell Das Assoziationsmodell von Theile ermöglicht eine weitgehend einheitliche Erklärung aller wichtigen Phänomene des räumlichen Hörens [Theile, 1980/1, 1980/2, 1981/1]. Es macht auch den Einwand der Klangfärbung bei der Wiedergabe von Phantomschallquellen gegenstandslos. Das Modell geht von der Hypothese aus, dass die Wahrnehmung von Ort und Klanggestalt eines Hörereignisses stets durch einen Vergleich mit gespeicherten Mustern erfolgt. Die dabei ablaufende spontane assoziative Mustererkennung ist ein Prozess, der ein eintreffendes akustisches Muster mit einem im Gehirn gespeicherten Muster vergleicht, selbst dann, wenn nur Teile des gespeicherten Musters im eintreffenden akustischen Muster enthalten sind. Dieser Mustervergleich läuft z. B. auch bei einem Telefonat ab, bei dem der Anrufer – wenn bekannt – bereits beim ersten Wort automatisch identifiziert wird. Die räumliche Wahrnehmung resultiert dabei grundsätzlich aus zwei unterschiedlichen, nacheinander ablaufenden Verarbeitungsprozessen: Entsprechend den beiden grundlegenden und getrennten Hörereigniseigenschaften Ort und Gestalt durchläuft ein akustischer Reiz in der ersten Stufe eine Ortsassoziation, in der zweiten Stufe eine Gestaltassoziation. Beide Prozesse bestimmen stets gemeinsam die Hörereigniseigenschaften. Abb. 5/15 zeigt das Prinzip des Assoziationsmodells. Das Assoziationsmodell führt die Lokalisierung auf einen Prozess zur Decodierung eines Lokalisierungsreizes zurück. Ein Lokalisierungsreiz liegt vor, wenn hinreichend breitbandige Ohrsignale sich hinsichtlich der Zeit- und spektralen Merkmale einem einzigen Schallereignisort zuordnen lassen. Im überlagerten Schallfeld sind unter bestimmten Bedingungen gleichzeitig mindestens zwei Lokalisierungsreize unterscheidbar. Sowohl in der Situation bei Phantomschallquellen als auch in Experimenten zur Lateralisation, also der Lokalisierung von Hörereignisorten im Kopf, führen zwei unterschiedliche Lokalisierungsreize zu einem einzigen Hörereignisort.
Abb. 5/15. Assoziationsmodell der Hörwahrnehmung nach [Theile, 1980/1].
Die Funktion des Gehörs bei der Lokalisierung einer Schallquelle kann nur unter Lokalisierungsbedingungen untersucht werden. Das setzt voraus, dass das Schallereignis ein ausrei-
5.2 Stereofonie
253
chend breitbandiges Spektrum aufweist. Der Wahrnehmungsprozess, der zur Lokalisierung führt, ist nur möglich, wenn spektrale Merkmale die Zuordnung der Hörereignisentfernung zulassen. Diese Modellvorstellung kann Erklärungen einiger wichtiger Hörphänomene liefern: Stereofone Lautsprecherwiedergabe Bei stereofoner Lautsprecherwiedergabe treten Hörereignisse auf, die sich ebenso mit entsprechend zugeordneten realen Einzelschallquellen im freien Schallfeld erzeugen lassen. Es ist aber nicht möglich, den in beiden Fällen identischen Hörereignissen entsprechend auch identische Ohrsignale zuzuordnen. Relativ große Unterschiede der Ohrsignalmerkmale hinsichtlich des Spektrums und interauralem Kohärenzgrad führen zu dem Schluss, dass keine Summenlokalisierung stattfindet: Die Phantomschallquelle lässt sich nicht als Ersatzschallquelle auffassen. Vielmehr muss angenommen werden, dass die Schallsignale auf Grund der unterschiedlichen Sendeorte im Gehör zunächst räumlich entschlüsselt werden als Wirkung der Ortsassoziationsstufe. Erst nach erfolgter Decodierung des Orts verschmelzen die Reize als Wirkung der Gestaltassoziationsstufe, weil die Lautsprecher hinreichend ähnliche Signale abstrahlen. Phantomschallquellen und Gesetz der ersten Wellenfront Die Grenze für den Bereich der Gültigkeit des Gesetzes der ersten Wellenfront (siehe Kap. 3.4.1) wird zu kleinen Verzögerungszeiten hin durch den Übergang zur Bildung der Phantomschallquellen definiert. Beide Phänomene lassen sich zurückführen auf die zeitabhängige Bewertung nacheinander eintreffender Reizantworten der Ortsassoziationsstufe an der Gestaltassoziationsstufe. Die Ortsassoziationsstufe wirkt im überlagerten Schallfeld als Filter zur Befreiung der Sendesignale von der räumlichen Information, man kann von einer räumlichen Decodierung sprechen, so dass in der darauffolgenden Gestaltassoziationsstufe nur die Sendesignalbeziehung bewertet wird. Zwei Sendesignale mit Laufzeitdifferenzen führen dazu, dass zwei Lokalisierungsreize nicht zeitgleich eintreffen. Die Gesetzmäßigkeiten für die daraus resultierenden Hörereignisorte, nämlich Phantomschallquellen, und das Gesetz der ersten Wellenfront, lassen sich als „Gesetz des ersten Lokalisierungsreizes“ verstehen. Cocktailparty-Effekt Dieser Effekt besagt, dass ein Nutzsignal, das aus einer bestimmten Richtung eintrifft, von einem Störsignal, das aus einer anderen Richtung eintrifft, bei zweiohrigem Hören weniger stark verdeckt wird als bei einohrigem Hören. Der Effekt ist zurückzuführen auf die Wirkung der Ortsassoziationsstufe: Zwei Schallquellen rufen normalerweise nicht nur zwei verschiedene Ortsassoziationen, sondern zusätzlich zwei verschiedene Gestaltassoziationen hervor. Die resultierenden beiden Hörereignisse treten dann also nach zweistufiger Selektion auf, woraus sich die größtmögliche Auflösung ergibt. Bei einohrigem Hören geht die Selektionswirkung der Ortsassoziationsstufe zumindest teilweise verloren, weil die ortsbestimmenden Reizmuster unvollständig vorliegen. Die gemeinsame Wirkung der beiden Verarbeitungsstufen, die von elementaren Hörerfahrungen geprägt werden, kommt besonders deutlich durch den Cocktailparty-Effekt zum Ausdruck. Er wurde 1953 von C. Cherry erstmals wissenschaftlich beschrieben, nachdem er Konversationen auf Partys monofon aufgenommen hatte und die Sprachverständlichkeit überraschend schlecht war.
254
5 Tonaufnahme und Tonwiedergabe
Lateralisation bei Kopfhörerdarbietung Lateralisation ist die seitliche Verschiebung einer „Schallquelle im Kopf“ bei Kopfhörerwiedergabe. Experimente zur Lateralisierung geben also Aufschlüsse über die Auswertung interauraler Signalunterschiede bei Kopfhörerwiedergabe, bei der die Signale nur jeweils ein Ohr erreichen. Sie geben nur Auskunft über die Funktion der Gestaltassoziationsstufe, weil die beiden Sendesignale unabhängig von der Senderentfernung einzeln entschlüsselt und der Gestaltassoziationsstufe zugeführt werden. Experimente zur Lateralisation lassen deshalb grundsätzlich keine Rückschlüsse zu auf die Funktion des Gehörs bei der Lokalisierung einer Einzelschallquelle. Sie führen vielmehr zu Gesetzmäßigkeiten einer „Phantomschallquelle im Kopf“, siehe auch Kap. 5.5.4.1. Eine „Ersatzschallquelle im Kopf“ gibt es nicht. Die Auswertung unterschiedlicher Ohrsignale, die das Gehör bei der Lokalisierung einer Schallquelle vornimmt, lässt sich prinzipiell nicht mit zwei hinreichend nahe an den Ohren befindlichen Schallquellen untersuchen. Hörversuche mit Kopfhörern sind Hörversuche mit zwei Schallquellen – es sei denn, es werden Kunstkopfsignale dargeboten, in diesem Fall existiert eine Ersatzschallquelle. Das aus dem Assoziationsmodell gewonnene Verständnis der Funktion des Gehörs beim räumlichen Hören hat maßgeblich zu verschiedenen Entwicklungen und Anwendungen im Bereich der stereofonen Aufnahme- und Wiedergabetechnik beigetragen. Dazu gehören die Weiterentwicklung der Kunstkopftechnik (siehe Kap. 5.5.5.), die Diffusfeldentzerrung für Studio-Kopfhörer (siehe Kap. 5.5.4.2), die Entwicklung des Kugelflächenmikrofons (siehe Kap. 5.2.4 und 5.3.4.3), das Konzept der raumbezogenen Stütztechnik (siehe Kap. 5.2.4 und 5.3.5), Konzepte der Verbindung von Wellenfeldsynthese und Stereofonie (siehe Kap. 5.5.3.1).
5.2.4 Räumliche stereofone Abbildung Das Gehör wertet verschiedene Merkmale des Schallfelds zu räumlichen Hörereignismerkmalen aus, dazu gehören neben der Hörereignisrichtung einschließlich ihrer Erhebung die Entfernung, die räumliche Tiefe, der Raumeindruck und die Umhüllung. Der Begriff Raumeindruck umfasst zwei Attribute des Klangbilds: Das erste ist „Räumlichkeit“, eine räumliche Verbreiterung des Hörereignisses, verursacht durch frühe Reflexionen mit einer Verzögerung von 10 bis 80 ms. Das zweite ist „Halligkeit“, eine zeitliche Verwischung des Hörereignisses, verursacht von späten Reflexionen und Nachhall. In Tab. 5/1 ist schematisch dargestellt, welche Bedeutung der Direktschall, die frühen Reflexionen, der Nachhall und der umhüllende Schall für die einzelnen Klangbildattribute besitzen. Der umhüllende Schall kann sowohl umgebenden diffusen Schall, in der Praxis meist „Atmo“ genannt; als auch den hörbar ausklingenden Nachhall enthalten. Siehe auch Kap. 1.2. Die Wirkung des reflektierten Schalls ist in Abb. 5/16 dargestellt. Man erkennt, dass das natürliche Muster der frühen Reflexionen mit einer Verzögerung von 15 bis 50 ms für das räumliche Hören eine besonders wichtige Rolle spielt. Die Attribute Entfernung, räumliche Tiefe, Räumlichkeit − in der Literatur auch apparent source width, scheinbare Quellenausdehnung genannt − sind von diesem Schallanteil beeinflusst. Das Gehör entnimmt den frühen Reflexionen auch die Informationen über die Größe des Raums. Besonders dieser Teil des reflektierten Schalls erfordert für die Aufnahme Kenntnis und Sorgfalt.
5.2 Stereofonie
255
Tab. 5/1. Zusammenhang von Klangbildattributen und Schallfeldtypen. Attribute des Klangbilds
Richtung und Erhebung
Komponenten des Schallfelds Direktschall
frühe, sog. erste Reflexionen
●●
●
Entfernung, Tiefe
●●
Räumlichkeit
●●
Halligkeit
umhüllender Schall
● ●●
Raumeindruck
●●
●●
●
●●
Umhüllung Klangfarbe
Nachhall
● ●●
●●
Abb. 5/16. Zuordnung der Klangbildattribute zum zeitlichen Ablauf des Raumschalls.
Hinzu kommt, dass die Möglichkeiten der räumlichen Darstellung bei Anwendung stereofoner Verfahren mehr oder weniger eingeschränkt sind, besonders bei der Zweikanal-Stereofonie. Die Kenntnis auch darüber ist hilfreich, um das gewünschte Klangbild im gegebenen Rahmen zufriedenstellend realisieren zu können. In den folgenden beiden Kapiteln werden die entsprechenden Eigenschaften der Zwei- und Mehrkanal-Stereofonie erläutert. 5.2.4.1 Prinzipien der Zweikanal-Stereofonie Welche Qualität der stereofonen Darstellung eines räumlichen Klangbilds ist grundsätzlich möglich bei zweikanaliger Lautsprecherwiedergabe, welche stereofonen Lautsprecher signale benötigt das Gehör dazu? Die Antworten lassen sich so zusammenfassen: Entfernung der Phantomschallquelle Die Entfernung der Phantomschallquelle ist gleich der mittleren Entfernung der beiden Stereo-Lautsprecher. Phantomschallquellen außerhalb der stereofonen Lautsprecherbasis sind nicht möglich. Verfahren, welche durch Kompensation der interauralen Übersprechanteile der Lautsprecher die kopfbezogene Reproduktion binauraler Signale anstreben, arbeiten nicht mit Phantomschallquellen.
256
5 Tonaufnahme und Tonwiedergabe
Akustisches Umfeld Alle Schallfeldanteile – Direktschall, frühe Reflexionen und Nachhall – erreichen den Hörer nur aus dem vorderen Abbildungssektor ± 30° und erzeugen nur vor ihm ein stereofones Klangbild. Die räumliche und zeitliche Auflösung des in Abb. 5/16 dargestellten Direktschalls und der frühen Reflexionen zeigt Abb. 5/17. Die im Originalraum vorhandenen Richtungen der frühen Reflexionen sowie die Richtungsdiffusität des Nachhalls sind auf den Abbildungssektor ± 30° zusammengedrängt. Das akustische Umfeld des Hörers ist allein durch den Wiedergaberaum festgelegt und für die Darstellung des Originalraums normalerweise nicht oder nur sehr bedingt geeignet.
Abb. 5/17. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie. Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.
Räumliche Tiefe Die räumliche Perspektive wird lautsprecherbezogen, d. h., in einer Simulationsebene zwischen den Lautsprechern dargestellt, ähnlich der perspektivischen Darstellung auf einem Bild. Die reale Entfernung der stereofonen Abbildungsebene entspricht der realen Entfernung eines Bilds (Abb. 5/18). Im Bild wird räumliche Tiefe durch visuelle räumliche Merkmale dargestellt. In ähnlicher Weise werden Tiefe und Entfernung in der stereofonen Abbildungsebene durch räumliche Merkmale eines Schallfelds dargestellt, v. a. also durch frühe Reflexionen, Nachhall, Lautstärkenverhältnisse und Klangfarbe. Darstellung der räumlichen Perspektive Die Darstellung der räumlichen Perspektive in der Simulationsebene gelingt umso besser, je genauer die interauralen Signaldifferenzen beim natürlichen Hören durch die Unterschiede der Lautsprechersignale nachgebildet werden. Das Gehör erkennt die Beziehungen zwischen linkem und rechtem Lautsprechersignal und wertet sie gemäß seiner Hörerfahrung aus.
5.2 Stereofonie
257
Abb. 5/18. Simulation von räumlicher Tiefe in einer Abbildungsebene. Der Abstand des Bilds kann mit dem Abstand von Stereolautsprechern vor dem Zuhörer verglichen werden.
Zusammenfassend ist somit festzustellen, dass die zweikanalige stereofone Abbildung auf der direkten Auswertung der Beziehungen der Lautsprechersignale durch das Gehör beruht, nicht die resultierenden Unterschiede der Ohrsignale beim Hörer im Wiedergaberaum sind entscheidend. Vielmehr lassen sich die räumlichen Eigenschaften des Klangbilds optimieren, indem sowohl das Hauptmikrofon als auch die Verarbeitung der Stützsignale möglichst natürliche interaurale Signaldifferenzen erzeugen (siehe auch Kap. 5.3.4.3 sowie 5.3.5.3). Besonders die reine Intensitätsstereofonie sowie die gebräuchliche Intensitätsstütztechnik erfüllen diese Forderung ohne unterstützende Signalverarbeitung nicht ausreichend. 5.2.4.2 Prinzipien der Mehrkanal-Stereofonie Durch den Einsatz zusätzlicher Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers wird eine weitere Dimension hinzugefügt, so dass sich das akustische Umfeld des Hörers real gestalten lässt. Die zwei Surround-Kanäle im 3/2-Standardformat ermöglichen es, die Richtungsverteilung von Direktschall und reflektiertem Schall zweidimensional zu reproduzieren. Das in Abb. 5/16 gezeigte Reflexionsmuster wirkt – im Gegensatz zur ZweikanalStereofonie – in der notwendigen Richtungsauflösung, siehe Abb. 5/19. Die dargestellte Richtungsverteilung basiert auf stereofoner Wiedergabe der Reflexionen. Die für die Seiten mangelhafte Stabilität von Phantomschallquellen (siehe Kap. 5.2.1) ist hier nicht störend, weil die von allen Seiten am Surround-Mikrofon eintreffenden Reflexionen ganz unterschiedliche Laufzeitdifferenzen in den Kanälen aufweisen. Der gewünschte Effekt ist in der Hörzone deshalb weitgehend unabhängig vom Hörerplatz. Die stereofone Qualität ändert sich von einem simulierten hin zu einem wirklichen Eindruck räumlicher Tiefe, wenn die seitlichen Reflexionen tatsächlich den Zuhörer von der Seite erreichen. Sie erzeugen eine natürliche raumspezifische interaurale Dekorrelation der beiden Ohrsignale und damit Tiefe und Räumlichkeit. Man weiß aus der Raumakustik von Konzertsälen, dass seitliche Reflexionen besonders wichtig sind. In Vergleich dazu sind
258
5 Tonaufnahme und Tonwiedergabe
frühe Reflexionen aus der Medianebene, in einem Konzertsaal Reflexionen von der Decke, eher schädlich.
Abb. 5/19. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Mehrkanal-Stereofonie 5.1 Surround). Die Zeitachse ist mit den Kreisen dargestellt. Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen.
Die Erweiterung um eine zweite Dimension bedeutet, dass die Anzahl der im stereofonen Signal für Zweikanal-Wiedergabe enthaltenen Reflexionen sich nicht erhöht. Vielmehr werden diese Reflexionen nun räumlich verteilt abgebildet, wie in den Abb. 5/16 und 5/19 dargestellt. Das hat Konsequenzen für die Aufnahme. Es ist in Hinblick auf korrekte Abbildung der frühen Reflexionen wichtig, dass die Mikrofon-Konfiguration diese Trennung der Abbildungsrichtungen weitgehend gewährleistet. Geschieht das nicht, so ist die reproduzierte Reflexionsdichte zu hoch, da einzelne Reflexionen mehrfach abgebildet werden. Näheres dazu in Kap. 5.4.3. Bei der Wiedergabe seitlicher Reflexionen werden die Lautsprecher des linken und rechten Surroundkanals LS und RS nicht als solche seitlich wahrgenommen, sondern sie verbessern die Qualität der stereofonen Abbildung vor dem Hörer durch Schaffung von Tiefe − ein alter Wunsch in der Zweikanal-Stereofonie. Der eigentliche stereofone Abbildungsbereich vergrößert sich dadurch nicht. Auch bezüglich der Wirkung des Nachhalls sind die Lautsprecher bei richtiger Handhabung der Aufnahmetechnik (siehe Kap. 5.4) nicht als Schallquellen wahrnehmbar. Ausreichende Dekorrelation des Nachhalls und des umgebenden diffusen
5.2 Stereofonie
259
Schalls in den vier Kanälen L, R, LS und RS ermöglicht im Bereich der Hörzone eine ausgewogene Umhüllung. Insgesamt geht durch das Hinzufügen der Surround-Lautsprecher die Darstellung räumlicher Attribute des Klangbilds von der Qualität einer Simulation in die Qualität einer realen Wahrnehmung über. Der Hörer fühlt sich in das akustische Geschehen einbezogen. Das akustische Umfeld des Hörers ist nicht durch den Wiedergaberaum geprägt, vielmehr kann es bei der Aufnahme durch den Tonmeister gestaltet werden im Sinne einer optimalen Reproduktion räumlicher Attribute oder zur Erzeugung eines neuen künstlichen Raums.
5.2.5 Begriffe zur stereofonen Richtungsabbildung In Tab. 5/2 sind die Begriffe zur stereofonen Richtungsabbildung, so wie sie in Kap. 5.2 eingeführt und erläutert wurden, mit kurzen Definitionen zusammengestellt. Sie gelten übergreifend für Stereofonie bei Lautsprecherwiedergabe, für die Aufnahmetechnik der ZweikanalStereofonie ebenso wie für die Aufnahmetechnik der Mehrkanal-Stereofonie.
Tab. 5/2. Begriffe zur stereofonen Richtungsabbildung.
Lautsprecherwiedergabe
Begriff
Definition
Basisbreite, Lautsprecherbasis
Abstand zwischen zwei Lautsprechern, die zusammen Phantomschallquellen bilden
Basisöffnungswinkel
Winkel, unter dem die zwei Lautsprecher, die Phantomschallquellen bilden, vom Hörort aus erscheinen, bei Zweikanal-Standardanordnung 60°
Zweikanal-Standardan ordnung
Anordnung der Stereolautsprecher in einem gleichseitigen Dreieck mit dem Hörer, Basisöffnungswinkel also 60°
Referenzpunkt, Sweet Spot
Position des Hörers bei der Zweikanal-Standardanordnung, Referenzpunkt und Lautsprecher bilden ein gleichseitiges Dreieck
Abbildungsverzerrungen
Verfälschung der Auslenkung der Phantomschallquellen durch Hörposition außerhalb des Referenzpunkts
Auslenkung der Phantomschallquelle (phantom source shift)
Auslenkung der Phantomschallquelle aus der Mitte in % der halben Basis, Auslenkung bis in den Lautsprecher gleich 100 %, bei gegebenem Basis öffnungswinkel auch in ° angegeben, bei Zweikanal-Standardanordnung 30°
Auslenkungskoeffizient
Auslenkung der Phantomschallquelle aus der Mitte der Lautsprecherbasis in % bei Pegel- oder Laufzeitdifferenzen: – Pegeldifferenzen: 7,5 %/dB, – Laufzeitdifferenzen: 13 %/0,1 ms
260
5 Tonaufnahme und Tonwiedergabe
Mikrofonaufnahme
Stereomikrofon
Mikrofonsystem, das von zwei (Zweikanal-Stereofonie) oder mehr (Mehrkanal-Stereofonie) einzelnen Mikrofonen gebildet wird
Basis, Mikrofonbasis (base)
Abstand zwischen zwei Mikrofonen bzw. Mikrofonkapseln einer Stereomikrofonanordnung
Abbildungskurve (localisation curve)
Zusammenhang zwischen Schalleinfallswinkel am Stereomikrofon und der Auslenkung der Phantomschallquellen
Aufnahmewinkel, Aufnahmewinkel 100 % (recording angle), Aufnahmebereich
gesamter Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schalleinfallsrichtungen gemäß der Abbildungskurve abgebildet werden, Schallquellen außerhalb dieses Bereichs erzeugen Signale in den Lautsprechern L bzw. R
Aufnahmewinkel 75 % (recording angle 75 %)
Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schallquellen im Auslenkungsbereich ± 75 % abgebildet werden
Schalleinfallswinkel (input source angle)
Winkel, unter dem sich eine Schallquelle vom Mono- oder Stereomikrofon aus gesehen befindet, bezogen auf dessen Mittelachse
Versatzwinkel (epsilon), Winkelabweichung der Mikrofon-Mittelachsen von der Mittelachse einer Stereo-Mikrofonanordnung Achsenwinkel, nicht für Achtermikrofone Äquivalenzmikrofon anordnung
Mikrofonanordnung, die Pegel- und Laufzeit differenzen liefert, die gleichsinnig und etwa mit gleichen Beträgen zur Auslenkung der Phantomschallquelle beitragen
5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum, seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber keine Räumlichkeit.
5.2 Stereofonie
261
Tab. 5/3 fasst die Ergebnisse für den Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Auslenkung der Phantomschallquellen, wie in Kap. 5.2 erläutert, zusammen, auch sie gilt für Zwei- und Mehrkanal-Stereofonie in gleicher Weise. Tab. 5/3. Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und der Auslenkung der Phantomschallquellen, Werte teilweise gerundet. Laufzeitdifferenzen für 100 % Auslenkung sind nicht eindeutig definiert, siehe oben Kap. 5.2.1.2. Tab. 5/ Signaldifferenzen für die Auslenkungen
Auslenkungskoeffizienten Pegeldifferenzen Laufzeitdifferenzen Äquivalenz von Pegelund Laufzeitdifferenzen
1 dB bewirkt 7,5 % 0,1 ms bewirkt 13 % 0,06 ms entspr. 1 dB
± 50 %
± 75 %
± 100 %
± 7 dB ± 0,4 ms ± 0,4 ms oder ± 7 dB
± 10 dB ± 0,6 ms ± 0,6 ms oder ± 10 dB
± 15 dB (± 1 ms) ±1 ms oder ± 15 dB
Aus diesen Gesichtspunkten heraus ergeben sich grundsätzliche Zuordnungen zwischen Aufnahmetechniken sowie ihren Klangergebnissen und die bevorzugte Zuordnung zu Programmsparten (Tab. 5/4). Tab. 5/4. Eigenschaften des Klangbilds bei den verschiedenen Mikrofonverfahren bei Stereoaufnahmen und ihre Eignung für verschiedene Programmsparten. Eigenschaften des Klangbilds bei der Wiedergabe
Intensitätsverfahren (MS, XY)
Einzelmikrofon- Laufzeitverfahren verfahren (AB)
gemischte Verfahren nach den WilliamsDiagrammen (z. B. ORTF, EBS, KFM)
Stützmikrofonverfahren
gute Abbildung der Richtung
●
●
●
●
●
●
●
gute Präsenz der Schall quellen gute Tiefenstaffelung der Schallquellen
●
●
guter Raumeindruck
●
●
besonders geeignet für aktuelles und dokumentarisches Wort
●
●
Hörspiel
●
●
populäre Musik
●
●
Jazz
●
●
klassische Musik
●
●
●
●
●
●
262
5 Tonaufnahme und Tonwiedergabe
Natürlich wirken in der Praxis viele weitere Faktoren auf die optimale Mikrofonaufstellung ein, dazu gehört die Akustik des Raums, gewohnte Sitzanordnungen, Sichtprobleme, Lautstärkenbalance, musikalische, künstlerische Erfordernisse u. v. m., aber auch Gesichtspunkte wie Möglichkeiten für Soundchecks bzw. ihr Fehlen, die im Einzelfall die hier angeführten grundsätzlichen Gesichtspunkte relativieren. Jede Aufnahme ist ein hoch komplexes Zusammenwirken unterschiedlichster Bedingungen, die in jedem einzelnen Fall berücksichtigt und gegeneinander abgewogen werden müssen. Ziel einer Aufnahme ist nicht die Erfüllung von aufnahmetechnischen Grundsätzen, sondern die Realisierung des gewünschten Klangbilds. Das kann auf Grund der sehr komplexen Bedingungen bei Aufnahmen auch zu unkonventionellen Lösungen führen, für die es zunächst keine technische Plausibilität zu geben scheint. Die Aufnahmetechnik ist im besonderen Maß der Bereich der Tonstudiotechnik, der kreatives Engagement erlaubt.
5.3 Zweikanal-Stereofonie Bei der Zweikanal-Stereofonie wird das aufgenommene Klangbild zwischen zwei Lautsprechern vor dem Hörer abgebildet. Grundlage für die Beurteilung der im Folgenden erläuterten Aufnahme- und Mikrofonverfahren und ihrer räumlichen Wiedergabe sind festgelegte und damit reproduzierbare Abhörbedingungen. Nur so kann die Gestaltung einer Tonaufnahme und die Kontrolle ihrer Qualität durch Abhören gewährleistet werden. Die Wiedergabe erfordert geeignete, qualitativ hochwertige Studiolautsprecher, einen akustisch geeigneten Abhörraum sowie die Festlegung der Geometrie der Anordnung von Hörer und Lautsprecher. Siehe hierzu Kap. 5.4.1 sowie umfassend Kap. 19.6 und 19.7. Als internationale Empfehlung der EBU sind die Kriterien für die Qualitätskontrolle in EBU R22, „Listening conditions for the assessment of sound programme material“ und wichtige Details in EBU Tech 3276 vereinbart worden. Suppl. 1 zu Tech 3276 legt die Geometrie der Abhörsituation fest: Die zwei Lautsprecher und der optimale Abhörplatz bilden zusammen ein gleichseitiges Dreieck (siehe Abb. 5/2), vom Hörer aus beträgt die Lautsprecherbasis demnach 60°, ihre Breite soll zwischen 2,0 und 4,0 m liegen. Die Lautsprecher sollen mindestens 1,2 m über dem Fußboden aufgestellt oder aufgehängt sein, ihre Achsen sind auf den festgelegten Abhörplatz gerichtet, wobei bei höherer Hängung eine Neigung von 10° in der vertikalen Achse nicht überschritten werden soll. Lautsprecher sollen an einer Wand oder mit einem Abstand von höchstens 1 m vor einer Wand montiert werden. Der Abhörplatz soll mindestens 1,5 m von Wänden entfernt sein. Für die Kontrolle der Kompatibilität einer Aufnahme wird ein Mittenlautsprecher auf der Lautsprecherbasis empfohlen.
5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren Die Zweikanal-Stereofonie – in diesem Kapitel vielfach verkürzt mit Stereofonie bezeichnet – ermöglicht es, den Teilschallquellen eines mit zwei oder mehr Mikrofonen aufgenommenen Klangbilds eine Richtungseinordnung bei der Wiedergabe durch Unterschiede oder Differenzen zwischen dem linken Kanal L und dem rechten Kanal R zuzuweisen; die Schallquellen erscheinen als Real- oder Phantomschallquellen (siehe Kap. 5.2.1) in bzw. zwi-
5.3 Zweikanal-Stereofonie
263
schen den beiden Lautsprechern L und R der Wiedergabeanordnung. Diese Differenzen der Lautsprechersignale können bei der sog. Intensitätsstereofonie ausschließlich durch Pegeldifferenzen, bei der Laufzeitstereofonie ausschließlich durch Laufzeitdifferenzen oder aber durch deren Kombination bei den gemischten Verfahren realisiert werden. Man unterscheidet dabei Aufnahme- und Mikrofonverfahren. Die Aufnahmeverfahren definieren die akustischen Grundlagen für die Verfahren der Tonaufnahme, die Mikrofonverfahren beschäftigen sich mit den Details der Mikrofonwahl und Mikrofonanordnung. Die Mikrofonverfahren legen die Richtcharakteristik, die Ausrichtung und die Anordnung der Mikrofone innerhalb des Aufnahmeverfahrens fest. Tab. 5/5 gibt einen Überblick über die gebräuchlichen Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie und ihre Kombinationsmöglichkeiten; Abb. 5/20 stellt die Prinzipien der Verfahren dar. Man unterscheidet die Hauptmikrofonverfahren von den Einzelmikrofonverfahren. Bei der Laufzeitstereofonie gibt es nur verschiedene Hauptmikrofonverfahren, bei der Intensitätsstereofonie gibt es neben verschiedenen Hauptmikrofonverfahren auch das sog. Einzelmikrofonverfahren. Mit einem Hauptmikrofon versucht man, die gesamte Schallquellenanordnung, z. B. einen Chor, mit einem einzigen Mikrofonsystem für stereofone Aufnahme aufzunehmen, in der Regel besteht es aus zwei zusammengehörigen Einzelmikrofonen. Bei den Einzelmikrofonverfahren wird aus den Signalen mehrerer oder vieler Einzelmikrofone das stereofone Klangbild in der Tonregie durch den Tonmeister erstellt. Tab. 5/5. Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie.
Aufnahmeverfahren
Mikrofonverfahren
Bemerkungen, Erläuterungen
Intensitätsstereofonie: nur Pegeldifferenzen zwischen L und R
Hauptmikrofonverfahren: − XY-Verfahren, − MS-Verfahren Einzelmikrofonverfahren
auch Koinzidenz-Mikrofonverfahren genannt
Stützmikrofonverfahren
Laufzeitstereofonie: nur Laufzeitdifferenzen zwischen L und R
Hauptmikrofonverfahren: − AB-Verfahren
gemischte Stereoverfahren: Kombination aus Intensitäts- und Laufzeitstereofonie, sowohl Pegel- als auch Laufzeitdifferenzen zwischen L und R,
Hauptmikrofonverfahren: − Anordnungen nach den Williams-Diagrammen, − Anordnungen mit Trennkörper
Sonderfall Äquivalenzverfahren: Pegel- und Laufzeitdifferenzen von L und R sind äquivalent
Stützmikrofonverfahren
Stützmikrofonverfahren
auch Poly- oder Multimikrofonie genannt Kombination aus dem XY- oder MS-Verfahren mit dem Einzel mikrofonverfahren
Kombination aus dem AB-Verfahren mit dem Einzelmikrofonverfahren
z. B. ORTF-, EBS-, NOS-Verfahren z. B. Kugelflächenmikrofon, Jecklinscheibe Kombination eines Hauptmikrofon verfahrens mit dem Einzelmikrofonverfahren
264
5 Tonaufnahme und Tonwiedergabe
Das bei reiner Intensitätsstereofonie als Hauptmikrofon verwendete Mikrofonsystem besteht aus zwei einzelnen Mikrofonen, die beim MS-Verfahren dicht übereinander, beim XY-Verfahren meist dicht nebeneinander als Einzelmikrofone oder als komplettes, intergrierendes System, als sog. Koinzidenz-Mikrofon, angeordnet sind, es handelt sich dann um ein sog. Stereomikrofon. Völlig anders konzipiert ist das Einzelmikrofonverfahren bei Intensitätsstereofonie, bei dem im Nahbereich der Teilschallquellen, z. B. bei Einzelinstrumenten, ein Mikrofon aufgestellt wird, dessen Abbildungsrichtung in der Tonregie mit dem sog. Panorama-Potentiometer oder Pan-Pot eingestellt wird; es erzeugt geeignete, von der Position der Schallquelle im Gesamtklangbild definierte Pegeldifferenzen bei der Zumischung in die Kanäle L und R. Schließlich kann eines der Hauptmikrofonverfahren mit dem Einzelmikrofonverfahren kombiniert werden zu dem bei großen Klangkörpern viel angewendetem Hauptmikrofon-Stützmikrofonverfahren oder einfacher Stützmikrofonverfahren; hierbei ergibt die Gewichtung des Hauptmikrofons gegenüber der Gesamtheit der Stützmikrofone wieder unterschiedliche Lösungen der Aufnahmetechnik.
Abb. 5/20. Aufnahmeverfahren der Zweikanal-Stereofonie mit verschiedenen Mikrofonverfahren, Δp = Pegeldifferenzen, Δt = Laufzeitdifferenzen.
Die Laufzeitstereofonie gewinnt das stereofone Klangbild mit dem AB-Mikrofonverfahren ausschließlich aus Laufzeitdifferenzen zwischen den Signalen zweier Einzelmikrofone, die einen Abstand zueinander haben, die sog. Mikrofonbasis. Die geschätzte Qualität dieses Verfahrens ist der gute Raumeindruck, weniger eine exakte Lokalisierbarkeit der Schallquellen. Ein Einzelmikrofonverfahren in reiner Laufzeitstereofonie müsste jedem einzelnen Mikrofon die notwendige Laufzeitdifferenz zwischen L und R zuweisen, was in der Aufnahmepraxis nicht realisiert wird, weil die Wahrnehmung der Richtung bei Laufzeitdifferenzen nicht deutlich ist. In der Praxis wird das AB-Verfahren deshalb vielfach mit Stützmikrofonen in Intensitätsstereofonie ergänzt.
5.3 Zweikanal-Stereofonie
265
Bei den gemischten Stereoaufnahmeverfahren wirken Intensitäts- und Laufzeitdifferenzen zwischen L und R gleichgerichtet zusammen. Die Intensitätsdifferenzen können unabhängig von der Frequenz sein, wie bei den Anordnungen nach den Williams-Diagrammen, z. B. mit dem ORTF-Verfahren, oder abhängig von der Frequenz wie bei den Trennkörperverfahren, z. B. dem Kugelflächenmikrofon. Tragen die Intensitäts- und Laufzeitdifferenzen etwa in gleichem Maß zur Auslenkung der Phantomschallquellen bei, so werden die Verfahren als Äquivalenz-Mikrofonverfahren bezeichnet. Gemeinsam ist allen Hauptmikrofonverfahren, dass die Auswahl des Mikrofontyps, der Aufstellungsort, die Einstellungen der Richtcharakteristiken und die Ausrichtung der Mikro fone sorgfältiger Vorüberlegung und Planung bedürfen, um optimale Ergebnisse zu erhalten; die dazu notwendigen Kenntnisse vermitteln die folgenden Kapitel. Eine Einstellung mit dem Gehör sollte nur in Korrekturen bestehen oder im Vergleich mehrerer Alternativen, die stets möglich sind. Beim Einzelmikrofonverfahren hingegen führt Erfahrung und Wissen über die Eigenschaften der Instrumente und Stimme und eine sorgfältige Abhörkontrolle und Wahl des Mikrofontyps, seines Standorts und seiner Ausrichtung zu einem guten Ergebnis. Sind die Einzelmikrofone Bestandteil des Stützmikrofonverfahrens, so soll zunächst das Hauptmikrofon für sich allein ein optimales Klangbild liefern, erst dann werden die Stütz mikrofone optimiert und zugemischt. Mangelhafte oder ungeeignete Einstellungen des Hauptmikrofons sollten niemals durch Stützmikrofone korrigiert oder verschleiert werden. Die folgenden Begriffe werden für die Beschreibung der Mikrofonverfahren verwendet (siehe dazu auch Tab. 5/2): –– Mikrofonbasis: das ist der Abstand zwischen zwei Mikrofonen, die gemeinsam eine Anordnung nach dem AB- oder den gemischten Aufnahmeverfahren bilden. –– Aufnahmebereich: dies ist der gesamte Winkelbereich um die Mittelachse der Aufnahmeanordnung, der bei der Abhöranordnung durch Real- und Phantomschallquellen in ihrer Richtung korrekt abgebildet wird. –– Aufnahmewinkel oder -bereich: dieser Begriff wird normalerweise mit dem Aufnahmebereich gleichgesetzt, wird aber gelegentlich nur dem halben Aufnahmebereich, von der Mitte bis zu einer Seite, gleichgesetzt. –– Versatzwinkel: dies ist derjenige Winkel, um den ein einzelnes Mikrofon aus der Mittelachse, der Hauptrichtung der Aufnahme, nach außen gerichtet wird, bei einer Stereoanordnung mit zwei Mikrofonen wird der Versatzwinkel vielfach auch durch „±“ auf beide Mikrofone bezogen; er ist stets der halbe Achsenwinkel. –– Achsenwinkel oder Öffnungswinkel: das ist der Winkel zwischen zwei Mikrofonen, die jedes einzeln nach außen, also nach links bzw. rechts, gedreht werden; er wird also zwischen den Achsen, die die Mikrofone bilden, gemessen und ist damit der doppelte Versatzwinkel. Die Feststellungen der folgenden Kapitel zu den Aufnahmewinkeln der einzelnen Mikrofonverfahren sind vorwegnehmend an Beispielen in Tab. 5/6 zusammengeführt; sie beruhen auf den in Kap. 5.2 dargelegten und in Tab. 5/2 zusammengefassten Zusammenhängen zwischen Pegel- und Laufzeitdifferenzen mit der Auslenkung der Phantomschallquellen (siehe Kap. 5.2.2). Die genannten Winkelgrade sind errechnete Werte, die in der Praxis so genau nicht eingehalten werden können und müssen. [Dickreiter, 2011], [Edenhof, 2020], [Hoeg, 1970, 1975], [Pawera, 2004]
266
5 Tonaufnahme und Tonwiedergabe
Tab. 5/6. Mikrofonverfahren und ihre Aufnahmebereiche mach [Wittek, Image Assistant] bei 5 m Abstand zur Schallquelle. Mikrofonverfahren
Mikrofonbasis Richtcharakteristik
Versatzwinkel, halber Achsenwinkel
Aufnahmebereich 75 % 100 %
XY
0 cm
Niere/Niere
45° 60° 75° 90°
142° 108° 84° 66°
180° 146° 116° 92°
Superniere/Superniere
35°
128°
152°
Acht/Acht (Blumlein-Verfahren)
45°
58°
72°
AB
30 cm 40 cm 50 cm 60 cm
Kugel/Kugel
0°
84° 60° 48° 40°
180° 98° 74° 60°
gemischte Verfahren nach den WilliamsDiagrammen Beispiele:
beliebig zwischen etwa 10 und 30 cm 10 cm 20 cm 25 cm 30 cm 17 cm
Niere/Niere, Superniere/Superniere, Hyperniere/Hyperniere Niere/Niere Niere/Niere Niere/Niere Niere/Niere Niere/Niere
69° 50° 45° 25° 55°
70° 66° 60° 64° 68°
100° 100° 90° 100° 102°
20 cm 18 cm
Kugel Kugel
EBS ORTF mit Trennkörper Kugel, Durchmesser
90° 120°
Die verschiedenen Aufnahme- und Mikrofonverfahren zeigen unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch gute Lokalisierbarkeit und Präsenz der Phantomschallquellen aus, während der Raumeindruck, also die Wahrnehmung des Raums, seiner Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren; sie bilden die Aufnahmesituation weitgehend getreu ab. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, stellt aber den Raum kaum dar; das Klangbild muss durch die Tonregie zusammengesetzt werden. Als Mikrofontyp für Hauptmikrofonverfahren werden allgemein Kleinmembranmikrofone mit einem Membrandurchmesser von etwa 1/2“ = 12,7 mm verwendet, da deren Richtcharakteristiken weniger von der Frequenz abhängen, besonders im oberen Frequenzbereich,
5.3 Zweikanal-Stereofonie
267
als die Richtcharakteristiken der Großmembranmikrofone mit einem Membrandurchmesser von etwa 1“ = 25,4 mm. In der Anfangszeit der Aufnahmetechnik standen zunächst nur Großmembranmikrofone zur Verfügung, aufgenommen wurde zunächst monofon in der One point-Technik – Aufnahme mit einem Kugelmikrofon, vielfach dem legendären M 50 von Neumann, dann aber auch als AB-Anordnung mit denselben Mikrofonen. Erst mit dem Aufkommen des Fernsehens entstand der Wunsch nach kleinen, unauffälligen Mikrofonen, das KM 53 aus dem Jahr 1953 von Neumann, ein Kugelmikrofon wie das M 50, war das erste Kleinmembranmikrofon. Großmembranmikrofone haben sich bis heute mit einer Tonabnahme im Nahbereich bewährt, bevorzugt in der Musikproduktion populärer Musik.
5.3.2 Intensitätsstereofonie Bei Intensitätsstereofonie bestehen zwischen den Stereosignalen L und R für die Erzeugung von seitlichen Phantomschallquellen ausschließlich Pegeldifferenzen, keine Laufzeit- bzw. Phasendifferenzen; bei mittigen Phantomschallquellen sind die Pegel von L und R gleich. Aufnahmen in dieser Technik sind daher grundsätzlich monokompatibel. Nach Einführung der Stereofonie in den späten 1950er und frühen 1960er Jahren war die Frage der Kompatibilität eine zentrale Frage der Aufnahmetechnik, da zunächst noch überwiegend Monogeräte in den Haushalten existierten. Damit empfahl sich die Intensitätsstereofonie vor allem im Bereich des öffentlich-rechtlichen Rundfunks als Aufnahmetechnik erster Wahl. Bei der Schallplattenproduktion konnte man mit der neuen Technik hingegen werben. Der allgemein eingeführte Begriff Intensitätsstereofonie ist zwar nicht falsch, aber im Hinblick darauf, dass man stets von Pegeln spricht, etwas verwirrend. Bei der Intensitätsstereofonie gibt es drei Mikrofonverfahren, genauer Hauptmikrofonverfahren [Theile, 1984], [IRT]: –– das Hauptmikrofonverfahren in XY-Technik (Kap. 5.3.2.1), –– das Hauptmikrofonverfahren in MS-Technik (Kap. 5.3.2.2), –– das Einzelmikrofonverfahren (Kap. 5.3.6). –– das Stützmikrofonverfahren als Kombination aus einem der Hauptmikrofonverfahren und dem Einzelmikrofonverfahren (Kap. 5.3.5). Die Genauigkeit der Lokalisierung ist beim Hauptmikrofonverfahren in MS- und XY-Technik gut, sie liegt in der Praxis bei Standard-Lautsprecheranordnung, d. h. 60° Öffnungswinkel zu den Lautsprechern aus der Sicht des Hörers im Bereich von ± 5° auf jeder Seite; damit können einschließlich der Mittenposition bis zu sieben Positionen der Phantomschallquellen auf der gesamten Basis beim Abhören ausreichend unterschieden werden; dazu kommen die zwei Positionen der seitlichen Realschallquellen. Es ergeben sich also maximal neun unterscheidbare Positionen der Schallquellen auf der Lautsprecherbasis. Die Tiefenstaffelung, also die Wahrnehmung der Entfernung, ist weniger deutlich als bei den Hauptmikrofonverfahren der Laufzeit- und gemischten Verfahren; Entfernungen, die kleiner sind als der Abstand der Lautsprecher zum Hörer, können nicht dargestellt werden. Das Einzelmikrofonverfahren bietet durch die getrennte Aufnahme der Schallquellen bei guter Lokalisierbarkeit größere Freiheit bei der Gestaltung des Klangbilds: Die Position
268
5 Tonaufnahme und Tonwiedergabe
der Phantomschallquellen kann unabhängig von ihrer Position im Aufnahmeraum regietechnisch weitgehend frei bestimmt werden. Wichtiger ist aber, dass die Balance der Pegel bzw. Lautstärken der Einzelschallquellen sowie ihre jeweiligen klanglichen Eigenschaften getrennt gewählt und eingestellt werden können, die Abbildung der Raumakustik des Aufnahmeraums ist dabei nur eingeschränkt möglich. Vielfach angewendet, hauptsächlich bei klassischer Musik und großen Klangkörpern, wird das sog. Stützmikrofonverfahren, mit dem die Qualitäten von Hauptmikrofonverfahren in Intensitätsstereofonie XY, MS oder in Laufzeitstereofonie AB und das Einzelmikrofonverfahren kombiniert werden. 5.3.2.1 XY-Mikrofonverfahren Das XY-Mikrofonverfahren verwendet ein Stereomikrofon oder zwei Einzelmikrofone in gleicher Anordnung, dessen bzw. deren Mikrofone dieselbe Richtcharakteristik haben, entweder Niere, Superniere, Hyperniere oder Acht, nicht aber Kugel. Sie liefern direkt die Signale L und R oder I und II, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale X und Y bezeichnet. Ihre Summe M = L + R ergibt ein einwandfreies Monosignal. Die Achsen der Hauptempfindlichkeit der Systeme liegen gekreuzt und symmetrisch zur fiktiven, auf das Zentrum des Klangkörpers gerichteten Mittelachse. Sie schließen den sog. Achsen- oder Öffnungswinkel ein, der Winkel jedes der Mikrofone schließt mit der Mittelachse den Versatzwinkel ein, also den halben Achsenwinkel. Die folgenden Begriffe werden für die Beschreibung der Anordnung der Mikrofone und für den Winkelbereich verwendet, innerhalb dessen eine korrekte Aufnahme stattfindet, dargestellt in Abb. 5/21: –– Mikrofon oder System: I, X oder L ist im Aufblick auf die Schallquellen nach links gerichtet, Mikrofon oder System II, Y oder R nach rechts. –– Achsenwinkel, auch Öffnungswinkel: der Winkel zwischen den Achsen der Mikrofone in XYTechnik, zugleich zwischen den Richtungen maximaler Empfindlichkeit der Mikrofone, in Abb. 5/21 ist das der Winkel δx + δy. –– Versatzwinkel: der halbe Achsenwinkel, also der Winkel zwischen jedem der Mikrofone und der Mittenachse der Anordnung, der Winkel, um den jedes der Mikrofone aus der Mitte versetzt ist, lso in Abb. 5/21 δx bzw. δy. –– Aufnahmewinkel oder Aufnahmebereich: der gesamte Winkelbereich, innerhalb dessen die Schallquellen korrekt auf der Basis zwischen den Lautsprechern abgebildet werden, also φ1 + φ2. Für die Abbildung in einem der Lautsprecher ist eine Pegeldifferenz von mindestens 15 dB erforderlich, angegeben werden auch 18, aber auch 12 dB. Betrachtet man aber Abb. 5/21, so ergibt sich für die Position der Schallquelle ganz rechts bei 135°, dass System I aus dieser Richtung kein Signal aufnimmt, System II gibt einen Pegel von – 6 dB bezogen auf den Maximalpegel des Systems ab; die Pegeldifferenz ist demnach unendlich groß, nicht aber 15 dB, wie für die Abbildung ganz seitlich benötigt würde. Auch eine unendlich große Pegeldifferenz führt zur Abbildung ganz seitlich, also im Lautsprecher L bzw. hier R, aber auch alle Pegeldifferenzen über 15 dB ergeben diesen Abbildungsort, somit wird der ganze Außenbereich im Lautsprecher zusammengefasst, während der Bereich um die Mitte korrekt abgebildet wird. Die Abbildung
5.3 Zweikanal-Stereofonie
269
des Klangbilds wird damit erheblich verzerrt. Um dies zu vermeiden, wird der Aufnahmebereich oder ‑winkel ermittelt und definiert. Stellt man bei der Aufnahme sicher, dass der Aufnahmebereich und die Ausdehnung der Schallquelle übereinstimmen, werden alle Schallquellen durch die Phantomschallquellen bei der Wiedergabe so gut, wie das Verfahren es zulässt, abgebildet. Der Aufnahmebereich definiert also den Winkelbereich, den das Mikrofonverfahren für die korrekte Aufnahme und Abbildung der Phantomschallquellen erfassen muss.
Abb. 5/21. Mikrofonanordnung in XY-Technik aus zwei gekreuzten Nieren mit den Versatzwinkeln φx bzw. φy, dem Achsenwinkel φ = φx + φy, dem Aufnahmebereich oder -winkel 100 %.
Die Auslenkung der Phantomschallquelle der Anordnung nach Abb. 5/21 zeigt Abb. 5/22. Man erkennt, dass die Anordnung einen Aufnahmebereich α von nur 180° besitzt. Der Aufnahmebereich wird ermittelt auf Grund der in Versuchen ermittelten Zusammenhänge für die Abbildung von Phantomschallquellen (siehe Kap. 5.2.2). Für die Position der Phantomschallquelle ganz seitlich auf der Lautsprecherbasis gilt der Aufnahmebereich 100 % − hier also 180°, halb seitlich oder 50 % liegt hier bei 100°; der Aufnahmebereich 75 % bei 142° definiert die Position dreiviertel seitlich, dies ist zugleich der Aufnahmebereich, innerhalb dessen die Phantomschallquellen sicher und korrekt analog der Aufnahmesituation abgebildet werden. In der Praxis der Aufnahme sollte also bevorzugt der Aufnahmebereich 75 % mit der Ausdehnung des Klangkörpers in Übereinstimmung gebracht werden. Tab. 5/7 nennt die Aufnahmebereiche 50 %, 75 % und 100 % für einige Versatzwinkel/Achsenwinkel der XY-Anordnung Niere/Niere, Superniere/Superniere und Acht/Acht. Aufnahmebereich und Versatzwinkel verlaufen entgegengesetzt: Mit kleiner werdendem Versatzwinkel wird der Aufnahmebereich größer. Die Kombination Niere/Niere erlaubt – wie aus Tab. 5/7 ersichtlich – einen Aufnahmebereich 75 % zwischen ca. 65° und ca. 140°. Bei den praxisnahen Aufnahmebereichen von 85° bis 110° ist der Versatzwinkel von ca. ± 75° bis ± 60° allerdings sehr groß, d. h., dass die Mikrofone, weil sie weit nach außen gedreht sind, nicht mehr auf die Schallquelle gerichtet sind und damit vom Schall aus Richtungen getroffen werden, in denen sie bezüglich
270
5 Tonaufnahme und Tonwiedergabe
ihres Frequenzgangs je nach Typ möglicherweise nicht optimal arbeiten. Die Kombination Niere/Niere eignet sich demnach besonders für größere Aufnahmewinkel oder, anders ausgedrückt, für geringere Entfernungen von der Schallquelle.
Abb. 5/22. Abbildungskurve für die XY-Anordnung Niere/Niere mit dem Versatzwinkel ± 45° entsprechend Abb. 5/21 [Wittek, Image Assistant].
Die Kombination Superniere/Superniere erlaubt wie aus Tab. 5/7 ersichtlich kleinere Aufnahmebereiche. Bei den praxisnahen Aufnahmebereichen 75 % von ca. 75° bis 105° ist der Versatzwinkel mit rund ± 60° bis ± 45° zwar kleiner als bei der Kombination Niere/Niere, aber auch hier sind die Mikrofone nicht direkt auf die Schallquelle gerichtet. Tab. 5/7. Zusammenhang von Versatzwinkel und Aufnahmebereich für die Anordnungen Niere/Niere, Superniere/Superniere und Acht/Acht [Wittek, Image Assistant]. Richtcharakteristik Niere/Niere
Superniere/Superniere
Acht/Acht Blumleinverfahren
Versatzwinkel oder Achsenwinkel ± 45° / 90° ± 60° / 120 ± 75° / 150° ± 90° / 180° ± 30° / 60° ± 45° / 90° ± 60° / 120° ± 75° / 150° ± 30° / 60° ± 45° / 90° ± 60° / 120°
Aufnahmebereich 50 % empfohlen: 75 %
100 %
142° 108° 84° 66° 142° 104° 76° 54° 87° 58° 36°
180° 146° 116° 92° 166° 130° 98° 72° 102 72° 46°
100° 76° 56° 44° 108° 76° 52° 38° 66° 42° 24°
5.3 Zweikanal-Stereofonie
271
Die Kombination Acht/Acht erlaubt – wie aus Tab. 5/7 ersichtlich – die kleinsten Aufnahmebereich 75 %, sie bietet also die höchste Richtungsauflösung. Bei den praxisnahen Aufnahmebereichen zwischen ca. 60° und 90° ist der Versatzwinkel mit ± 45° bis ± 30° relativ klein, die Mikrofone sind gut auf die Schallquelle gerichtet. Besonders für kleinere Aufnahmebereiche bzw. für größere Entfernungen von der Schallquelle eignet sich die Kombination Acht/Acht, die in der Praxis zu wenig Beachtung findet, besonders gut. Zwei unter einem Versatzwinkel von ± 45°, also Achsenwinkel 90°, rechtwinklig gekreuzte Achten ergeben einen Aufnahmebereich 100 % von 72°, diese Anordnung heißt Blumlein-Verfahren; es ist ein präzises Verfahren für kleine Aufnahmewinkel 75 % von 58° bzw. größere Entfernungen der Mikrofone von den Schallquellen. Die Befürchtung, diese Anordnung nehme zu viel Diffusschall von hinten auf, ist unbegründet, denn dieser Anteil ist ebenso groß wie bei der Anordnung Niere/Niere. 5.3.2.2 MS-Mikrofonverfahren Das MS-Mikrofonverfahren, engl. Mid/Side-Stereofonie, wurde schon in den frühen 1930er Jahren von Alan Blumlein entwickelt als ein bis heute etabliertes Stereoverfahren für Aufnahme und Übertragung der Stereosignale; heute versteht man aber unter Blumleinverfahren des ebenfalls von Blumlein vorgeschlagene Verfahren in XY-Aufnahmetechnik mit zwei gekreuzten Achten (siehe Kap. 5.3.2.1). Das MS-Verfahren verwendet wie das XY-Mikrofonverfahren ein Stereomikrofon oder eine äquivalente Anordnung aus zwei Einzelmikrofonen. Die Systeme I und II geben aber nicht unmittelbar die Signale L und R ab, sondern die Signale M und S: –– M-Signal, auch Monosignal, Mittensignal, Summensignal, Tonsignal, –– S-Signal, auch Stereosignal, Seitensignal, Differenzsignal, Richtungssignal. Erst durch Summen- und Differenzbildung werden die Signale L und R aus M und S gewonnen. Da die Summe zweier zwar unterschiedlicher Signale L und R, aber mit gleichem Pegel, eine Erhöhung des Gesamtpegels um 3 dB ergibt, muss bei der Addition der Summenpegel um 3 dB bedämpft werden. Die Umsetzung kann durch Übertrager, durch Differentialverstärker oder mit digitaler Verarbeitung erfolgen. Der Zusammenhang zwischen den Signalen M, S, L und R ist also L = M + S R = M – S M = L + R S = L – R
L = linker Kanal R = rechter Kanal M = Mono- oder Mittensignal S = Stereo- oder Seitensignal
Das M-Signal wird von System I, der feststehenden Kapsel eines Stereomikrofons, geliefert, es ist unmittelbar das Monosignal, das also im Gegensatz zum XY-Verfahren von einem einzigen Monomikrofon stammt, das vorteilhaft auf das Zentrum des Klanggeschehens gerichtet ist. Jede einstellbare Richtcharakteristik ist möglich, also Kugel, Nieren, Acht, auch alle Zwischenformen. Das S-Signal stammt von System II, der drehbaren Kapsel eines Stereomikrofons; sie ist stets auf Achterrichtcharakteristik und einen Versatzwinkel von - 90°, mit Blick vom Mik-
272
5 Tonaufnahme und Tonwiedergabe
rofon auf die Schallquelle also nach links, einzustellen. Wenn die positive Seite der Acht nach rechts anstatt nach links ausgerichtet ist, ergibt sich ein Seitentausch. Abb. 5/23 zeigt eine MS-Mikrofonanordnung mit Niere und Acht.
Abb. 5/23. MS-Mikrofonanordnung aus Niere und Acht.
Der Aufnahmebereich hängt vom Pegelverhältnis von M- zum S-Signal ab, er wird also bestimmt von den eingestellten Verstärkungen der Mikrofone und von der Richtcharakteristik des M-Signals. Er kann somit von der Regie aus, auch bei laufender Aufnahme, eingestellt oder verändert werden, wohingegen dies beim XY‑Verfahren stets am Mikrofon selbst durch Veränderung des Versatzwinkels geschehen muss. Der Aufnahmebereich einer MS-Anordnung ist zunächst grundsätzlich der Winkelbereich, innerhalb dessen das M-Signal größer oder gleich groß wie das S-Signal ist. Allerdings heißt das, dass die Ränder des Aufnahmebereichs in dem jeweiligen Lautsprecher zusammengefasst werden, solange die Pegeldifferenz zwischen L und R größer 15 dB ist; deshalb ist der Aufnahmebereich etwas kleiner als es die Schnittstellen von M- und S-Signal vorgeben. Anstatt auf theoretische Überlegungen zu bauen, wird empfohlen, im Bewusstsein dieser Tatsache gehörmäßig in der Regie durch Pegeleinstellung des S-Signals den angemessenen Aufnahmebereich zu bestimmen. Besondere Beachtung bei der Anwendung des Verfahrens muss dem Winkelbereich, bei dem das S-Signal größer als das M-Signal wird, gewidmet werden, in Abb. 5/23 die seitlichen Bereiche außerhalb der Schnittpunkte von M- und S-Signal. Wird M sehr klein gegen S und somit vernachlässigbar, so wird L = + S und R = − S, ein identisches, jedoch verpoltes Signal für L und R, das bei Monobildung M = L + R = + S – S = 0 ausgelöscht wird, also aufnahmetechnisch inakzeptabel ist, da nicht monokompatibel. Zu 0 kann M werden nur bei der Niere bei 180° und bei der Acht bei ± 90°. In der Aufnahmepraxis ist also stets besondere Aufmerksamkeit auf die Bereiche zu richten, in denen das S-Signal größer als das M-Signal ist. Ein besonderer Fall ist die MS-Kombination Acht/Acht, hier wird der rückwärtige Bereich grundsätzlich verpolt abgebildet, also diffus ohne Richtungsinformation, z. B. der Beifall von Publikum, der bei Monowiedergabe dann also teilweise ausgelöscht wird. 5.3.2.3 Äquivalenzen von XY- und MS-Mikrofonverfahren XY- und MS-Mikrofonverfahren sind unter der Annahme idealer Richtcharakteristiken verlustfrei äquivalent, d. h., sie können in beiden Richtungen nach den obigen Formeln ineinander umgewandelt werden. Jede MS-Anordnung kann grundsätzlich, aber mit praktischen
5.3 Zweikanal-Stereofonie
273
Einschränkungen, in eine gleichwertige XY-Anordnung umgewandelt werden und umgekehrt. Diese Umwandlung wird als Stereomatrix oder Stereoumsetzung bezeichnet. Da M und S nach derselben Beziehung aus L und R gewonnen werden wie L und R aus M und S, kann die Umwandlung in beiden Richtungen mit demselben Gerät, dem Richtungsmischer, auch Stereomatrix, Stereoumsetzer, Differentialübertrager oder Summen-Differenzübertrager genannt, erfolgen; auch die Betriebsrichtung Eingang-Ausgang ist dabei dieselbe. Zu Details zum Richtungsmischer siehe die Kap. 6.1.2 und 8.8.2. Eine schematische Zuordnung von XY- und MS-Richtcharakteristik-Kombinationen ist unter der Annahme idealer Richtcharakteristiken mathematisch schlüssig. Allerdings gibt es eine unüberschaubare Zahl von Kombinationen, da z. B. bei MS nicht nur die Richtcharakteristik des M-Signals, sondern auch das Pegelverhältnis M zu S zu berücksichtigen ist. In der Praxis erhebt sich die Frage nach äquivalenten Richtcharakteristiken indessen kaum, da man es nicht mit idealen Richtcharakteristiken zu tun hat und die Entscheidung für ein Verfahren im Vorfeld getroffen wird. 5.3.2.4 Praktischer Einsatz von Stereomikrofonen Ergänzend zu den obigen grundlegenden Ausführungen werden im Folgenden noch einige praktische Hinweise angefügt, die sowohl für das XY- als auch das MS-Verfahren gelten: Empirische Ermittlung des Aufnahmebereichs Möchte man bei Verwendung reiner Intensitätsstereofonie für eine gegebene Aufnahmesituation in der Praxis den optimalen Aufnahmebereich einstellen, so kann man anstatt die vorhandenen Kenntnisse oder Hilfsmittel zu nutzen, ihn auch in der praktischen Situation empirisch finden, allerdings mit geringerer Genauigkeit, weil die Raumakustik das Ergebnis mehr oder weniger beeinflusst: Man stellt z. B. ein Metronom auf den seitlichsten Punkt der Schallquelle, z. B. eines Chors, und zieht bei einer MS-Anordnung den S-Pegel solange hoch, bis die Pegeldifferenz zwischen L und R 15 dB erreicht, wobei der Korrelationsgrad in jedem Fall positiv bleiben muss. Bei der XY-Anordnung müssen die Mikrofonkapseln symmetrisch nach außen verdreht werden, bis eine Pegeldifferenz von 15 dB erreicht wird. Möchte man umgekehrt den Aufnahmebereich eines Stereomikrofons in der jeweiligen Situa tion ermitteln, geht man unter Hinwendung zum Mikrofon sprechend oder mit einer kleinen Schallquelle, z. B. einem Metronom, den Winkelbereich vor dem Mikrofon ab, beobachtet den Aussteuerungsmesser und bestimmt den Ort links und rechts für das Erreichen einer Pegeldifferenz von 15 dB, auch hier ergibt sich ein brauchbares Ergebnis. Schall aus Richtungen außerhalb des Aufnahmebereichs Bei der Auswahl der Mikrofonanordnung in XY bzw. MS ist auch die Frage wichtig, wie Schallquellen aus dem Bereich außerhalb des Aufnahmebereichs auf der Lautsprecherbasis abgebildet werden. Die MS-Anordnungen Kugel/Acht sowie die XY-Anordnung mit zwei Nieren mit dem Versatzwinkel ± 90° − Achsenwinkel 180° − nehmen Schall von vorne und von hinten mit gleicher Empfindlichkeit auf, der rückwärtige Bereich wird seitenrichtig nach vorne geklappt und den vorderen Schallquellen überlagert. Demgegenüber nehmen die
274
5 Tonaufnahme und Tonwiedergabe
Anordnungen Niere/Acht in MS und zwei Nieren mit Versatzwinkeln unter etwa 60° in XY Schall von hinten deutlich vermindert seitenrichtig auf. Mit besonderer Sorgfalt sind die Kombinationen Acht/Acht in MS und als Blumleinverfahren von XY einzusetzen, da rückwärtige Schallquellen hier mit derselben Empfindlichkeit, aber seitenverkehrt eingeordnet werden. Kritisch sind seitliche Schallquellen: Sie erscheinen, wenn das S-Signal größer als das M-Signal ist, bzw. wenn beim XY-Verfahren zwischen L und R gegenphasige Signale auftreten, nicht oder diffus lokalisierbar als verpolte Signale. Diese Mikrofonanordnungen sind also ungeeignet bei Schallquellen außerhalb des Aufnahmebereichs, auch bedarf der Nachhall hier einer besonderen Aufmerksamkeit. Ausrichtung des Stereomikrofons Stereomikrofone bestehen aus zwei gegeneinander drehbaren, dicht nebeneinander oder auf einer gemeinsamen Achse dicht übereinander montierten Mikrofonkapseln. Alle möglichen Richtcharakteristiken können eingestellt werden. Die feststehende, mit dem Verstärker fest verbundene Kapsel von System I gibt das X- bzw. M-Signal ab; sie ist beim XY-Verfahren bei Blick auf das Klanggeschehen nach links ausgerichtet, beim MS-Verfahren auf die Mitte bzw. auf das Zentrum der Schallquelle, die Ausrichtung des Mikrofons wird durch einen Punkt, eine Leuchtdiode oder das Firmenzeichen markiert. Die drehbare Kapsel von System II gibt das Y- bzw. S-Signal ab; sie ist beim XY-Verfahren spiegelbildlich zum X-System um den Versatzwinkel nach rechts gerichtet. Beim MSVerfahren – System II ist hier stets eine Acht – ist die Kapsel stets mit ihrer positiven Seite nach links, unter – 90̊° zur Achse des M-Signals ausgerichtet; ihre positive Seite ist ebenfalls durch einen Punkt o. ä. markiert. Bei hängendem Mikrofon – drehbare Kapsel unten, Kabelanschluss oben herausgeführt – ändert sich für das M-Signal nichts, das drehbare System II muss wieder nach links nachgeführt werden. Laufzeitdifferenzen zwischen den beiden Mikrofonsystemen des Stereomikrofons und dadurch hervorgerufene Phasendifferenzen zwischen den Stereosignalen können das Klangbild bei hohen Frequenzen insbesondere bei Stereomikrofonen mit großen Membranen, verfälschen. Schräger Schalleinfall ist demnach bei der Ausrichtung des Mikrofons zu vermeiden; eine sorgfältige Ausrichtung ist also nicht nur in der horizontalen Ebene, sondern auch in der vertikalen Ebene zu beachten. Doppel-Stereomikrofone Eine interessante Möglichkeit, ausgedehnte Klangkörper aufzunehmen, ist das Doppelstereoverfahren. Hierbei wird der gesamte Aufnahmebereich in zwei Sektoren aufgeteilt, links bis Mitte und Mitte bis rechts. Diese Sektoren lassen sich dann getrennt regietechnisch bzw. künstlerisch gestalten, hierzu Näheres in Kap. 5.4.2.1.
5.3.3 Laufzeitstereofonie Bei der Wahrnehmung der Richtung beim natürlichen Hören (siehe Kap. 3.4) wertet das Gehör Pegelunterschiede und Laufzeitunterschiede der Signale an den Ohren aus. Die Intensitätsstereofonie nutzt nur die Pegelunterschiede, die Laufzeitstereofonie nur die Laufzeitun-
5.3 Zweikanal-Stereofonie
275
terschiede. Die gemischten Mikrofonverfahren basieren auf der Kombination beider Unterschiede (Kap. 5.3.4). Das Mikrofonverfahren der Laufzeitstereofonie ist das sog. AB-Verfahren. Zwei Mikrofone werden in einem bestimmten Abstand zueinander, der Mikrofonbasis, nebeneinander vor der Schallquelle aufgestellt (Abb. 5/24). Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale A und B bezeichnet.
Abb. 5/24. Prinzip des AB-Mikrofonverfahrens mit der Laufzeitdifferenz Δ l der Schallwege A – P und B – P.
Wenn zwischen einem Punkt P des Klangkörpers und den beiden Mikrofonen A und B eine Wegdifferenz Δl entsteht, ergeben sich Laufzeitdifferenzen zwischen den Mikrofonsignalen, die bei Lautsprecherwiedergabe Phantomschallquellen bilden (siehe Kap. 5.2.1.2). Die geringen Pegeldifferenzen, die sich wegen der unterschiedlichen Wege ergeben, sind in der Praxis bedeutungslos. A und B sind Monomikrofone mit bevorzugt Kugelrichtcharakteristik von Druckempfängern, aber auch parallel ausgerichtete Nieren- oder Achterrichtcharakteristiken sind möglich; beide Mikrofone haben immer die gleiche Richtcharakteristik. Vorteilhafte Eigenschaften des AB-Mikrofonverfahrens sind in erster Linie die Darstellung räumlicher Merkmale einer Aufnahme, soweit dies in Zweikanal-Stereofonie möglich ist, dazu gehört eine gute Tiefenstaffelung der Schallquellen, also eine bessere Unterscheidbarkeit der Entfernungen der Schallquellen und eine bessere Raumdarstellung als bei Intensitätsstereofonie. In der Praxis unterscheidet man zwischen Klein-AB und Groß-AB. Während Klein-AB ein aufnahmetechnisch und in der Theorie einwandfreies, korrektes Klangbild ergibt, ist Groß-AB durch die Theorie nicht gedeckt, findet dennoch durch sein besonderes, beeindruckendes Abbild des Raumklangs vielfach Zustimmung, vor allem in Kombination mit dem Stützmikrofonverfahren. 5.3.3.1 Klein-AB Wie beim Stereomikrofon in XY oder MS der Zusammenhang von Versatzwinkel und Aufnahmebereich Grundlage der Mikrofoneinstellung ist, so ist beim Hauptmikrofon in Klein-ABTechnik der Zusammenhang von Mikrofonbasis und Aufnahmebereich Grundlage der Mikro foneinstellung. Sollen die vorteilhaften Eigenschaften einer Laufzeitmikrofonanordnung genutzt und gleichzeitig eine ausgewogene Richtungsabbildung des Klangkörpers erzielt werden, so müssen demnach die bekannten Gesetzmäßigkeiten des Aufnahmebereichs für Laufzeitstereofonie beachtet werden.
276
5 Tonaufnahme und Tonwiedergabe
In Tab. 5/8 sind die Aufnahmebereiche 50 %, 75 % und 100 % für Werte der Mikrofonbasis zwischen 25 und 40 cm angegeben. Auch bei Laufzeitstereofonie müssen vor allem die 75 % Werte beachtet werden. Für größere Aufnahmewinkel, also gerade den 100 %-Wert, machen komplexe Phänomene eine eindeutige Definition der Abbildungsrichtung gerade im Randbereich nur eingeschränkt möglich. Man sieht, dass die Breite der Mikrofonbasis sehr sensibel auf den Aufnahmebereich einwirkt, schon kleine Änderungen zeigen beachtliche Auswirkungen. Bei Werten unter 25 cm und über 40 cm ist das AB-Mikrofonverfahren, soweit eine korrekte Abbildung der Phantomschallquellen überhaupt erreicht werden soll, ungeeignet. Allgemein beim AB-Verfahren spielen der subjektive Klangeindruck und das Experimentieren allerdings eine wichtigere Rolle als bei Intensitätsstereofonie; z. B. kann die präzise Abbildung der Phantomschallquellen nicht alleiniges Ziel einer Aufnahme sein, insofern kann die Mikrofonbasis auch Werte über 40 cm haben, vielfach werden gerade Werte zwischen 40 und 80 cm oder größer bevorzugt. Bei einer Orgelaufnahme etwa, wo – bedingt durch die Konstruktion des Instruments – die Töne der Pedalregister abwechselnd auf den linken und rechten Pedalturm verteilt sind, ist eine Richtungsinformation nicht primär, vielleicht sogar verwirrend. Hier spielt die Einbeziehung des Raums eine besondere, bevorzugte Rolle, die durch den Aufnahmebereich nicht beschrieben wird. Überhaupt ist die Übertragung der Raumakustik gerade bei klassischer Musik – besonders hier wird AB eingesetzt – ein Qualitätsfaktor, der nicht unterschätzt werden darf. Sollen auch tiefe Frequenzanteile des Raumschalls beeindruckend übertragen werden, ist eine eigentlich korrekte Mikrofonbasis nicht mehr hilfreich. Um die Korrelation von Signal A und B aufzuheben, muss eine Phasendifferenz von 90° entsprechend 1/4 der Wellenlänge für ganz seitliche Schallquellen realisiert werden, Dazu ist für 100 Hz eine Mikrofonbasis von 82 cm erforderlich, für 50 Hz von 165 cm. Eine für eine optimale Wiedergabe des Raumschalls wünschenswerte Phasendifferenz von 90° erfordert hingegen schon bei 33 Hz eine Mikrofonbasis von 2,50 m, eine auch nur annähernd korrekte Abbildung der Phantomschallquellen ist dabei unmöglich. Tab. 5/8. Zusammenhang von Mikrofonbasis und Aufnahmebereich für die Anordnungen Kugel/Kugel bei 5 m Abstand zur Schallquelle [Wittek, Image Assistant]. Mikrofonbasis 25 cm 30 cm 32,5 cm 35 cm 37,5 cm 40 cm
Aufnahmebereich 50 % empfohlen: 75 % 62° 50° 46° 44° 40° 38°
108° 84° 76° 70° 66° 60°
100 % 180° 180° 136° 116° 106° 98°
Gelegentlich wird die Meinung vertreten, der Abstand der Ohren mit 17,5 cm sei eine optimale, „natürliche“ Mikrofonbasis. Dies entspricht einer maximal möglichen Laufzeitdifferenz für seitliche Schallquellen unter ± 90° zur Blickrichtung eintreffenden Schall von 0,5 ms, zu kurz für eine Abbildung der Phantomschallquellen seitlich auf der Lautsprecherbasis. so dass der Ohrabstand keine brauchbare Mikrofonbasis darstellt. Wählt man dennoch
5.3 Zweikanal-Stereofonie
277
eine solche Mikrofonbasis, so müssen wie beim natürlichen Hören zusätzlich zu den Laufzeitdifferenzen auch Pegeldifferenzen hinzukommen, erzeugt durch gerichtete Mikrofone. Das führt dann aber zu den sog. gemischten Stereoverfahren, im Fall des Ohrabstands als Mikrofonbasis zum ORTF- und EBS-Mikrofonverfahren. Diese Verfahren werden unten in Kap. 5.3.4 besprochen. 5.3.3.2 Groß-AB Vielfach werden Kugelmikrofone, im Allgemeinen Druckempfänger, mit relativ großer Mikro fonbasis aufgestellt, z. B. 1,5 bis 3 m, oft auch als Grenzflächenmikrofone. Bei diesem Mikro fonverfahren erzeugen Schallquellen um die Mitte des Aufnahmebereichs vorwiegend Laufzeitdifferenzen, Schallquellen in den Randzonen des Aufnahmebereichs bei vergleichsweise sehr großen Laufzeitdifferenzen zusätzlich Pegeldifferenzen, hervorgerufen durch die unterschiedlichen Entfernungen zu den Mikrofonen. Die Laufzeitdifferenzen führen nur in einem schmalen Bereich um die Mitte zu Phantomschallquellen, dabei wird dieser Bereich bei der Wiedergabe stark gespreizt. Bei einem Mikrofonabstand zur Schallquelle von z. B. 6 m und einer Mikrofonbasis von 2 m wird nur ein Bereich von ca. ± 7° auf der gesamten Lautsprecherbasis abgebildet, die übrigen Schallquellen jeweils außen. So entsteht eine sehr verzerrte, ungleichmäßige Verteilung der Schallquellen auf der Basis, die so nicht akzeptabel ist. Um dem entgegenzuwirken, wird oft ein drittes Mikrofon in der Mitte der Mikrofonbasis aufgestellt. Da dieses Mikrofon auf den linken und rechten Kanal eingemischt wird, entstehen u. U. erhebliche Klangfärbungen durch Kammfiltereffekte. Das Mehrkugelverfahren wird meist mit dem Einzelmikrofonverfahren zum Stützmikrofonverfahren kombiniert, hierbei wird es vor allem die Rauminformationen aufnehmen und den Stützmikrofonen hinzufügen, eigentlich handelt es sich dann um ein Einzelmikrofonverfahren mit Raumstützmikrofonen; in diesem Fall ist die große Mikrofonbasis richtig, Kammfiltereffekte entstehen beim Raumschall nicht. Als Hauptmikrofonverfahren ist Groß-AB also nur geeignet, wenn die Übertragung des Raumschalls eindeutig im Vordergrund steht und der Abstand der ABAnordnung relativ groß ist Für Groß-AB werden oft Grenzflächenmikrofone (siehe Kap. 4.2.2) eingesetzt. Sie benötigen eine akustisch nicht oder wenig absorbierende Auflagefläche mit einer Ausdehnung von mindestens 1,5 m, die der Mikrofonmembran die notwendige akustisch wirksame Ausdehnung verleiht. Meist wird dafür der Fußboden des Aufnahmeraums, evtl. auch seine Wände verwendet. Grenzflächenmikrofone bieten die Übereinstimmung und Linearität von Direktfeld- und Diffusfeldfrequenzgang in idealer Weise. Da sie zudem noch Klangfärbungen durch wenig verzögerte Reflexionen am Boden vermeiden, erfüllen sie besonders gut die Anforderungen der Laufzeitstereofonie, bei der ja in weit höherem Maße Raumschall aufgenommen wird als bei Intensitätsstereofonie. Die Bedingungen zum Einsatz von Grenzflächenmikrofonen sind in der Praxis nicht immer erfüllbar: Oft stehen in angemessener Entfernung nicht genügend große reflektierende Flächen zur Verfügung. Zudem verdecken z. B. Musiker der ersten Reihe diejenigen der zweiten. Bei öffentlichen Veranstaltungen kann das Verhalten des Publikums bei dieser Mikrofontechnik nicht akzeptable Nebengeräusche bedingen. Die auf dem Boden liegenden Mikrofone stellen außerdem bei Anwesenheit von
278
5 Tonaufnahme und Tonwiedergabe
Publikum ein gewisses Risiko für die Betriebssicherheit dar, siehe zu diesem Mikrofontyp ausführlich Kap. 4.2.4.2. 5.3.3.3 Decca-Tree Der sog. Decca-Tree oder das Decca-Dreieck ist eine Stereo-Aufnahmeanordnung, die schon in der Versuchsphase stereofoner Aufnahmetechniken im Jahr 1953 bei Sitzungen der Aufnahmen der Firma Decca empirisch entwickelt und später bei vielen Decca-Aufnahmen eingesetzt wurde, sich aber nicht in die theoretischen Überlegungen zur Mikrofonierung einfügen lässt. In der Anordnung eines Dreiecks oder auf den Kopf gestellten T werden drei Mikrofone, im Allgemeinen Druckkugeln, entsprechend Abb. 5/40 angeordnet. Das Mittenmikrofon C befindet sich typischerweise 1,5 m vor der Mikrofonbasis aus den Mikrofonen L und R mit einem gegenseitigen Abstand von ca. 2,0 m. Minimal sollten die Abstände 1,25 m nicht unterschreiten, eine Standardisierung fand nicht statt. Bevorzugt wurde das System bei großen Orchesteraufnahmen eingesetzt, wo die Anordnung in das Orchester in einer Höhe von 3 bis 4 m hineinragt. Das Decca-System bildet hauptsächlich und deutlich die Positionen links – Mitte – rechts ab und zeichnet sich durch einen beeindruckenden Raumklang aus. Es gilt nicht als abgewandeltes Groß-AB-Verfahren. Das System ist offen für zahlreiche Varianten wie die Verzögerung des Mittenmikrofons, Richtungsregelung der AB-Anordnung und Unterstützung durch Stützmikrofone [Gernemann, 2002/1]. Eine Renaissance erlebt der Decca-Tree als raumbetonte Aufnahmetechnik für Surround Sound-Aufnahmen, wo es direkt die Signale L, R und C liefert (siehe Kap. 5.4.2.3). 5.3.3.4 Praktischer Einsatz der Laufzeitstereofonie Ergänzend zu den grundsätzlichen Darlegungen zur Laufzeitstereofonie werden nachfolgend einige Hinweise für den praktischen Einsatz gegeben: Bedeutung der Raumakustik Bei der Mikrofonaufstellung für eine Aufnahme in Laufzeitstereofonie handelt es sich wie beim Aufnahmeverfahren in XY- oder MS-Technik um ein Hauptmikrofonverfahren. Das bedeutet, dass mit nur einem Mikrofonpaar das gesamte Klanggeschehen aufgenommen wird. Die Klangbalance kann hierbei aber nur dann gewahrt werden, wenn der Abstand der Mikrofone zur Schallquelle nicht kleiner ist als dessen Ausdehnung; anderenfalls werden die Abstände zu den Einzelschallquellen zu unterschiedlich. Damit befindet sich das Mikrofonsystem nicht mehr im Nahbereich der Schallquellen mit überwiegend Direktschall, sondern in einem Bereich, in dem Diffusschall einen relativ großen Anteil haben kann, je nach der Akustik, speziell der Nachhallzeit des Raums. Gerade die bei Laufzeitstereofonie vorteilhafte und übliche Verwendung ungerichteter Mikrofone ergibt einen größeren Diffusschallanteil als bei dem XY- bzw. MS-Mikrofonverfahren der Intensitätsstereofonie; deshalb sind parallel ausgerichtete Richtmikrofone durchaus eine bedenkenswerte Möglichkeit. So erhält die Akustik des Aufnahmeraums eine weit größere Bedeutung bei der Laufzeitstereofonie, als ihr bei den Verfahren der Intensitätsstereofonie zukommt: Das AB-Verfahren eignet sich deshalb
5.3 Zweikanal-Stereofonie
279
nur bei akustisch guten Räumen, das Hinzufügen künstlichen Nachhalls sollte sich bei ABAufnahmen also weitgehend erübrigen. Mikrofonauswahl Einer der Vorteile des AB-Mikrofonverfahrens, die gute Wiedergabe des Raumeindrucks des Aufnahmeraums, beruht wesentlich auf der Wiedergabe des Diffusschalls. Die adäquate Aufnahme des Diffusschalls erfordert im Allgemeinen Mikrofone mit Kugelcharakteristik. Grundsätzlich können besonders bei übermäßig halligen Räumen aber auch parallel ausgerichtete Richtmikrofone verwendet werden. Hierbei ist zunächst an die breite Niere mit ihrer weitgehend frequenzunabhängigen Richtcharakteristik zu denken, aber auch an die Niere, es gelten dabei praktisch die Aufnahmebereiche für Kugeln (Tab. 5/8). Bereits in der Zeit der Monofonie wurden Druckempfänger bei Verwendung nur eines Mikrofons aus klanglichen Gründen gegenüber Druckgradientenempfängern bevorzugt. Das AB-Mikrofonverfahren ist die stereofone Weiterentwicklung dieser Klangästhetik. Maßgeblich dafür ist die technisch nicht vollständig zu dokumentierende Klangqualität dieser Mikro fone. Sie beruht wohl besonders auf der guten Aufnahme tiefer Frequenzen. Im hohen Frequenzbereich sind Druckmikrofone dadurch gekennzeichnet, dass zwischen Direktfeld- und Diffusfeldfrequenzgang ein Unterschied besteht, der auch durch Filterung nicht zu beseitigen oder herzustellen ist (siehe Kap. 4.2.1). Es gibt vier Typen von Kugelmikrofonen: –– diffusfeldentzerrte Druckempfänger mit linearem Diffusfeldfrequenzgang und Frei- oder Direktfeldfrequenzgang mit Höhenanhebung, –– frei- oder direktfeldentzerrte Druckempfänger mit linearem Frei- oder Direktfeldfrequenzgang und Diffusfeldfrequenzgang mit Absenkung der Höhen, –– frei- oder direktfeldentzerrte Druckempfänger mit leicht ansteigendem Frei- oder Direktfeldfrequenzgang und leicht abfallendem Diffusfeldfrequenzgang, –– Grenzflächenmikrofone mit linearem Frei- oder Direktfeld- und linearem Diffusfeldfrequenzgang. Welchem Typ der Entzerrung im Einzelfall der Vorzug gegeben wird, ist keine aufnahmetechnische Entscheidung, sondern eine Frage der Klanggestaltung, abhängig von vielen Faktoren wie der Art der Schallquellen und dem Stil der Darbietung sowie der Raumakustik. Da sich die genannten Mikrofontypen nur in der Entzerrung ihres Frequenzgangs unterscheiden, können die verschiedenen Entzerrungen auch mit einem Filter z. B. aus einem diffusfeldentzerrten Mikrofon nachgebildet werden: eine Höhenabsenkung um 6 dB ergibt ein freifeldentzerrtes Mikrofon, eine Absenkung um 3 dB ein solches mit leichtem Höhenanstieg; nicht jedoch nachgebildet werden kann die unterschiedliche Entzerrung von Direkt- und Diffusfeld z. B. bei einer Niere. Abstand von der Schallquelle Der Abstand des Mikrofonpaars von der Schallquelle wirkt sich bei gleichbleibender Mikro fonbasis in folgender Weise auf das Klangbild aus: Je größer der Abstand ist, umso mehr Raumschall erhält das Klangbild, umso schmaler wird die Schallquelle abgebildet und umso geringer wird die Tiefenstaffelung ausgedehnter Klangkörper wie Orchester. Andererseits
280
5 Tonaufnahme und Tonwiedergabe
gewinnt eine Aufnahme mit zunehmendem Mikrofonabstand an Homogenität. Da mit wachsendem Abstand sich die Klangqualitäten einer Aufnahme teils verbessern, teils verschlechtern, ist stets nach einem optimalen Kompromiss zu suchen, der nicht in einer allgemeinen Empfehlung ausgedrückt werden kann. Die Abbildungsbreite kann durch die Mikrofonbasis optimiert werden, so dass Hallanteil und Tiefenstaffelung die wesentlichen Gesichtspunkte für die richtige Wahl des Mikrofonabstands von der Schallquelle sind. Um eine räumliche Auflösung der Schallquellen bei der Wiedergabe zu realisieren, muss das Mikrofonpaar in einem Abstand von der Schallquelle aufgestellt werden, bei dem noch ein hörbarer Direktschallanteil vorhanden ist, also innerhalb des Hallradius (siehe Kap. 1.2,4). Bei Verwendung von Kugelmikrofonen ist der Bereich um die Schallquelle, in dem der Direktschallanteil überwiegt, deutlich kleiner als bei Verwendung von gerichteten Mikrofonen (siehe Abb. 5/29), wenn er z. B. bei der Kugel 5 m beträgt, erhöht er sich bei der Niere um den Faktor 1,7, also auf 8,5 m. Das Laufzeitverfahren kann mit den Aufnahmeverfahren der Intensitätsstereofonie ohne weiteres kombiniert werden. Da das AB-Mikrofonverfahren ein Hauptmikrofonverfahren ist, bietet sich insbesondere die Kombination mit dem XY-Verfahren für kleinere Untergruppen oder mit dem Einzelmikrofonverfahren für einzelne Instrumente als Stützmikrofone an. Es ergeben sich dabei Verfahren, die gleichzeitig Intensitäts- und Laufzeitdifferenzen enthalten; diese Verfahren werden im nachfolgenden Kapitel behandelt.
5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie Die Aufnahmeverfahren der Intensitäts- und Laufzeitstereofonie können nicht nur einzeln für sich angewendet werden, sondern führen gerade in ihrer Kombination zu den aufnahmetechnisch sehr interessanten sog. gemischten Verfahren, bei denen das XY- mit dem ABVerfahren in einem Hauptmikrofonverfahren kombiniert wird. Es geht nicht darum, die Verfahren zu addieren, sondern tatsächlich um ein Zusammenführen, ein Verschmelzen von AB und XY, nicht aber MS. Die gemischten Aufnahmeverfahren können die Qualitäten von Intensitätsstereofonie – präzise Phantomschallquellen auf der Lautsprecherbasis – und der Laufzeitstereofonie – guter Raumeindruck und Tiefenstaffelung – miteinander verbinden. Die Laufzeitdifferenzen sorgen auch im tiefen Frequenzbereich bei Diffusschall für die Bildung von Phantomschallquellen und damit für eine Abbildung des Raums auf der Stereobasis; die Pegeldifferenzen sichern im höheren Frequenzbereich, wo Laufzeitdifferenzen zu unklaren, mehrdeutigen Abbildungen führen können, deutlich wahrnehmbare Phantomschallquellen, so ergänzen sich die Verfahren. Diese Aufnahmeverfahren werden deshalb auch oft erfolgreich verwendet. In der Praxis lassen sich allerdings die Anteile von Laufzeit- und Pegeldifferenzen an der Stereoabbildung meist nur grob abschätzen, da zu viele Faktoren darauf Einfluss nehmen. Wenn Intensitäts- und Laufzeitverfahren gleichgewichtig sind, spricht man von Äquivalenzverfahren. Bei XY bzw. MS und AB gibt es im Idealfall keine Abhängigkeiten der Signalpegel von der Frequenz, in der Praxis sind sie relativ gering. Da aber beim natürlichen Hören Laufzeit- und Pegeldifferenzen kombiniert auftreten, hier aber die Pegeldifferenzen mehr oder weniger frequenzabhängig sind, liegt es nahe, auch bei den gemischten Verfahren bewusst mit fre-
5.3 Zweikanal-Stereofonie
281
quenzabhängigen Pegeldifferenzen zu arbeiten. Diese Verfahren werden mit einem Trennkörper zwischen den Mikrofonen einer AB-Anordnung realisiert, man nennt sie deshalb zusammenfassend Trennkörper-Mikrofonverfahren oder kurz Trennkörperverfahren. Für die Formgebung der Trennkörper gibt es eine große Palette von Möglichkeiten: flache Scheiben, Zylinderabschnitte, Kugeln, Keile u. a. in verschiedenen Größen, aber eben auch eine Kopfnachbildung. Einige Trennkörper werden mit Grenzflächenmikrofonen kombiniert. Gemeinsam ist allen Trennkörpern, dass sie sich in ihren Dimensionen an der Größe des Kopfs orientieren, also an den Gegebenheiten des natürlichen Hörens. Ausgehend von theoretischen Überlegungen, aber auch auf Grund praktischer Experimente wurde eine große Anzahl von Mikrofonverfahren der gemischten Aufnahmetechnik entwickelt, einige der wichtigsten Verfahren werden unten besprochen. Man kann die Verfahren in zwei Gruppen einteilen: –– Verfahren ohne Frequenzabhängigkeit der Pegeldifferenzen mit gerichteten Mikrofonen und einer Mikrofonbasis, besprochen werden die Anordnungen nach den Williams-Diagramme (Kap. 5.3.4.1) sowie als deren spezielle, vielfach genutzte Lösungen das ORTF-, das EBS- und das NOS-Verfahren (Kap. 5.3.4.2), –– Verfahren mit Frequenzabhängigkeit der Pegeldifferenzen, sog. Trennkörperverfahren, mit gerichteten oder ungerichteten Mikrofonen, die durch einen Körper getrennt werden, besprochen wird das Kugelflächenmikrofon (Kap. 5.3.4.3), auf andere Trennkörper wird hingewiesen (Kap. 5.3.4.4). Das Verfahren mit einer exakten Kopf- und Ohrnachbildung, das Kunstkopfverfahren, ist nicht ohne weiteres ein brauchbares Hauptmikrofonverfahren, da eine befriedigende Lautsprecherwiedergabe nicht direkt möglich ist; ganz große Bedeutung erlangt das Kunstkopfverfahren im Rahmen von 3D‑Audio, also den Verfahren der dreidimensionalen Klangwiedergabe (siehe Kap. 5.5.5). Für die Anwendung der gemischten Aufnahmeverfahren gilt wie generell für die Hauptmikrofonverfahren der XY-, MS- und AB-Aufnahmetechnik: Sie sind bevorzugt geeignet für in sich klanglich ausgewogene Ensembles in akustisch guten Räumen, also besonders für Aufnahmen im Bereich der klassischen Musik und für in der Aufnahmetechnik vergleichbare Aufnahmen, nicht jedoch im Bereich populärer Musik, Jazz, Theater u. ä. Allen Verfahren der Trennkörperstereofonie ist gemeinsam, dass sie, anders als AB, XY und MS, einen fest dem Verfahren zugeordneten Aufnahmebereich haben, der also nur über die Entfernung von der Schallquelle angepasst werden kann. Der Abstand der Anordnung zur Schallquelle sollte nicht zu gering sein, schon damit die positiven Eigenschaften des AB-Anteils zur Geltung kommen. Weiterhin hat es sich als günstig erwiesen, die Wirkungen der Laufzeit- und Pegeldifferenzen ähnlich groß zu wählen, also die sog. äquivalenten Mikrofonverfahren zu bevorzugen. Ein weiterer Vorteil der gemischten Verfahren ist ihre gute bis ausreichende Monokompatibilität, da trotz vorhandener Laufzeitdifferenzen bei der Monobildung die sonst unvermeidlichen Auslöschungen bzw. Kammfiltereffekte gering ausfallen. Ursache hierfür sind die stets mit zunehmenden Laufzeitdifferenzen ebenfalls zunehmenden Pegeldifferenzen, die nur geringe, in der Praxis nicht oder kaum hörbare Klangfärbungen erzeugen; sie treten erst oberhalb etwa 1 kHz auf.
282
5 Tonaufnahme und Tonwiedergabe
5.3.4.1 Verfahren mit Pegeldifferenzen unabhängig von der Frequenz Wie in Kap. 5.2.2.2 erläutert, können Pegeldifferenzen unabhängig von der Frequenz und Laufzeitdifferenzen auch zu einer weiteren Gruppe von Aufnahmeverfahren kombiniert werden. Diese sog. gemischten Verfahren beruhen auf einer wählbaren Mikrofonbasis bis höchstens 40 bis 50 cm und einem wählbaren Versatzwinkel der Mikrofone, woraus sich der Aufnahmebereich ergibt. Es gibt naturgemäß eine sehr große Zahl von Kombinationsmöglichkeiten dieser Größen. Im Prinzip handelt es sich um drei Größen – Aufnahmebereich, Mikrofonbasis, Versatzwinkel −, jeweils zwei davon können gewählt werden und bestimmen den Wert einer dritten Größe. Gewählt werden kann z. B. der Aufnahmebereich, der sich aus der Ausdehnung des aufzunehmenden Klangkörpers und der Entfernung des Mikrofonsystems hierzu ergibt, und die Mikrofonbasis, daraus errechnet sich dann der Versatzwinkel. Die Zusammenhänge können nicht im Kopfrechnung ermittelt werden, sondern dazu bedarf es einer Berechnung, die am einfachsten mithilfe der von M. Williams berechneten Diagrammen vorgenommen werden kann [Williams, 1987]. Diese sog. Williams-Diagramme sind systematisch für alle Richtmikrofontypen errechnet worden und zeigen in Diagrammen die Zusammenhänge zwischen den Größen Aufnahmebereich, Mikrofonbasis und Versatzwinkel. Abb. 5/12 zeigt als Beispiel die Zusammenhänge für zwei Nieren. Eine Vergrößerung der Mikrofonbasis ergibt eine eindrucksvollere Raumdarstellung, eine Verkleinerung eine präzisere Lokalisierbarkeit und Präsenz. Praktisch kann man z. B. von der beabsichtigten Mikro fonbasis ausgehen, ermittelt dann den Aufnahmebereich anhand der Aufnahmesituation und bestimmt schließlich den Versatzwinkel. Ein sehr nützliches Hilfsmittel für die Berechnung ist der im Internet frei verfügbare Image Assistant von Wittek [www.hauptmikrofon.de], auch als einfaches Handwerkzeug das sog. Tonmeister Survival Kit [Dickreiter, 2011]. Tab. 5/9. Aufnahmebereich, Mikrofonbasis und Versatzwinkel für ausgewählte Hauptmikrofonvarianten nach Williams für zwei Nieren [Williams, 1987]. Aufnahmebereich 100 % empfohlen: 75 %
Mikrofonbasis 10 cm
Versatzwinkel
100°
70° 66° 64°
10 cm 20 cm 30 cm
± 69° ± 50° ± 25°
90°
62° 60° 58°
10 cm 20 cm 30 cm
± 78° ± 58° ± 35°
80°
54° 54° 52°
10 cm 20 cm 30 cm
± 87° ± 69° ± 48°
In Tab. 5/9 sind zur Orientierung eine Auswahl weiterer praxisbezogener Kombinationsmöglichkeiten mit zwei Nieren zusammengestellt, geordnet in der Reihenfolge Aufnahmewinkel, Mikrofonbasis, Versatzwinkel; hier beginnt man mit der Festlegung des Standorts des Hauptmikrofons bzw. seines Abstands zum Klangkörper, wählt die Mikrofonbasis und stellt den Versatzwinkel ein. Die Winkelangaben sind berechnet und nicht gerundet. Angegeben sind
5.3 Zweikanal-Stereofonie
283
die Aufnahmebereich 100 % und 75 %. Es sei daran erinnert, dass die 100 %-Werte in der angegebenen Genauigkeit theoretische Werte sind, da die Phantomschallquellen nahe bzw. in den Lautsprechern in der Wahrnehmung etwas problematisch sind; deshalb sind vor allem die Aufnahmewinkel 75 % zu beachten (siehe dazu Kap. 5.2.2.1), innerhalb derer eine zuverlässige Zuordnung von Schallquellen und Phantomschallquellen gegeben ist. 5.3.4.2 ORTF-, EBS- und NOS-Verfahren Um innerhalb der großen Vielfalt möglicher Anordnungen nach Williams praxisgerechte Lösungen herauszugreifen, wurden drei Anordnungen quasi standardisiert, zumindest mit Namen versehen. Eines der am häufigsten benutzten Mikrofonverfahren ist das sog. ORTF-Verfahren. Es vereint das AB-Mikrofonverfahren mit einer Mikrofonbasis, die – beabsichtigt oder nicht – mit 17 oder 17,5 cm dem Ohrabstand entspricht, mit dem XY-Mikrofonverfahren mit zwei Nieren bei einem Versatzwinkel von ± 55°; der Aufnahmebereich 75 % entspricht 68°, bei nur 10 cm Mikrofonbasis steigt der Aufnahmebereich 75 % auf 90° (Abb. 5/25, siehe auch Tab. 5/6).
Abb. 5/25. ORTF-Mikrofonverfahren, Realisierung mit Einzelmikrofonen und einer Spezialhalterung bzw. mit einem Zwillingsmikrofon.
Das Verfahren erhielt den Namen der ehemaligen staatlichen Rundfunkorganisation Frankreichs, von wo aus es seine Verbreitung gefunden hat. Laufzeit- und Pegeldifferenzen sind bei ORTF etwa gleichgewichtig, ein Äquivalenzverfahren also und einer der Gründe für die
284
5 Tonaufnahme und Tonwiedergabe
gute Qualität dieser Anordnung. Zu Laufzeitunterschieden von höchstens 0,5 ms kommen hierbei frequenzunabhängige Pegeldifferenzen bis maximal etwa 6 dB, da die verwendeten Mikrofone Nierencharakteristik haben und um ± 55° nach außen gedreht sind. Diese bewährte Mikrofonaufstellung kann auch variiert werden: Einerseits kann durch eine andere Ausrichtung der Mikrofone die Pegeldifferenz vergrößert oder verkleinert werden, andererseits kann die Laufzeitdifferenz durch eine größere Mikrofonbasis erhöht werden, Für die Mikrofonaufstellung nach dem ORTF-Verfahren gibt es geeignete Halterungen für die Mikrofone oder fest montierte Zwillingsmikrofone (Abb. 5/25). Eine weitere einfach handzuhabende und praxisgerechte Anordnung ist das EBS-Verfahren nach EBerhard Sengpiel. Es besteht aus zwei Kleinmembranmikrofonen mit Nierencharakteristik mit einer Mikrofonbasis von 25 cm und nach außen gerichteten Versatzwinkeln von ± 45°, also einem Achsenwinkel von 90°, und einem damit übereinstimmenden Aufnahmebereich von ebenfalls 90°. Es ähnelt dem ORTF-System, bietet aber die Besonderheit, dass der Aufnahmebereich mit dem Achsenwinkel übereinstimmt, der Aufnahmebereich wird so anschaulich von den Mikrofonen markiert und kann im Gegensatz zum ORTF-Verfahren ohne Hilfsmittel bereitgestellt werden, der 90°-Winkel wird nach Augenmaß eingestellt, die Basis 25 cm entspricht meist einer Handspanne, die einmal individuell ermittelt wird. Ein ähnliches System, das NOS-System, wurde empirisch mit zwei Kleinmembranmikrofonen mit Nierencharakteristik von Toningenieuren der Stiftung des niederländischen öffentlich-rechtlichen Rundfunks NOS entwickelt. Bei einem Achsenwinkel von ebenfalls 90° und einer Mikrofonbasis von 30 cm ergibt sich ein Aufnahmebereich von 81°, die Laufzeitanteile sind hier also etwas größer als beim EBS- oder auch ORTF-Verfahren. 5.3.4.3 Kugelflächenmikrofon Mikrofonanordnungen mit Trennkörpern bieten Laufzeitdifferenzen, die wie bei AB von der Mikrofonbasis bzw. der Wegdifferenz zu den Mikrofonen abhängig sind, und Pegeldifferenzen, die wegen Abschattungen durch einen Trennkörper mit steigender Frequenz zunehmen. Die ursprüngliche Idee dabei war, sich an den Verhältnissen beim natürlichen Hören mit dem Trennkörper Kopf zu orientieren und dafür vereinfachte technische Lösungen zu realisieren. Bei Anordnungen mit Trennkörpern werden grundsätzlich Druckmikrofone verwendet, weil die besonderen klanglichen Eigenschaften – hervorragende Tiefenwiedergabe, natürliche Präsenz, und guter Raumeindruck – hier ohne Einschränkung genutzt werden können. Ansonsten ist Stereofonie mit Druckempfängern nur in Laufzeitstereofonie möglich, wobei Einschränkungen der Lokalisierbarkeit hingenommen werden müssen. Schon in den 1930er Jahren wurde mit Kugeln als Trennkörper experimentiert, aber erst ein Vorschlag von Theile 1986 mit einem Pflichtenheft mit präzisen Anforderungen führte zu einem System, das objektive Qualitätskriterien im Rahmen der Trennkörpersysteme erfüllt, eben dem Kugelflächenmikrofon mit integrierten Grenzflächenmikrofonen, auch kurz KFM genannt [Theile, 1987], [Wuttke, 1993]. Die Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser – dem Durchmesser eines durchschnittlichen Kopfs – zeigt Abb. 5/26. Man erkennt, dass mit zunehmend zur Seite wandernder Schallquelle die Pegeldifferenz zunächst bis zu einem Einfallswinkel von ca. ± 50° ansteigt, dann aber wieder bis ± 90° auf
5.3 Zweikanal-Stereofonie
285
Grund von Beugungseffekten zurückfällt, und dies bei einer starken Frequenzabhängigkeit. D. h., dass für die Entwicklung eines qualitativ hochwertigen Kugelflächenmikrofons weitere Entwicklungsschritte nötig waren, um zu den in Abb. 5/27 gezeigten gleichmäßigen Frequenzgängen zu kommen. Anders gesagt, eine einfache selbst gebaute Vorrichtung kann die Erwartungen an das System nicht erfüllen.
Abb. 5/26. Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser.
Abb. 5/27. Frequenzgänge des Kugelflächenmikrofons bei Direktschall für Schalleinfallswinkel ± 20° und ± 60°.
286
5 Tonaufnahme und Tonwiedergabe
Schall, der seitlich eintrifft, erfährt eine Höhenanhebung (Abb. 5/27), zunehmend mit ansteigender Frequenz. Dies ist notwendig, um die ebenfalls mit ansteigender Frequenz zunehmenden Abschattungen der Kugel am gegenüberliegenden Mikrofon auszugleichen. Die Summe der Klangfärbungen aus den beiden entsprechenden Richtungen bleibt klangneutral. Nur so kann auch der Diffusfeldfrequenzgang linear sein, eine ganz wichtige Forderung an ein Hauptmikrofon, das in größerem Abstand zur Schallquelle aufgestellt wird und damit verhältnismäßig viel Diffusschall aufnimmt. Dies kann systembedingt für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. Vermieden wird diese durch einen größeren Abstand des KFMs zur Schallquelle und damit einem höheren Anteil von Hall. Abb. 5/28 zeigt den mechanischen Aufbau des Systems. In einer Kugel von 20 oder 18 cm Durchmesser sind seitlich mit ihrer Membran bündig zwei Druckempfänger eingebaut, also Grenzflächenmikrofone.
Abb. 5/28. Kugelflächenmikrofons oder KFM, mechanischer Aufbau.
Beim Kugelflächenmikrofon oder KFM sind also die folgenden Anforderungen realisiert, die zugleich die wichtigsten Kriterien für den Mikrofoneinsatz ergeben: –– Die Laufzeit- und Pegeldifferenzen an den beiden Mikrofonen sind denjenigen beim natürlichen Hören ähnlich und etwa gleichwertig im Hinblick auf die Auswanderung der Phantomschallquelle, es handelt sich also um ein Äquivalenzmikrofon. –– Der Frequenzgang des direkten Schalls von vorn ist über den gesamten Übertragungsbereich linear. –– Der Frequenzgang des diffusen Schalls, also des Halls, ist ebenfalls linear. Dies ist wichtig, da ein Hauptmikrofon durch seine größere Entfernung von den Schallquellen relativ viel Diffusschall aufnimmt.
5.3 Zweikanal-Stereofonie
287
–– Schall, der seitlich eintrifft, erfährt eine Höhenanhebung, zunehmend mit ansteigender Frequenz. Dies kann für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. –– Die Richtcharakteristik des KFMs ist nahezu ideal kugelförmig, mehr noch als diejenige eines Druckempfängers. Der damit verbundene große Diffusschallpegel, der in allen Richtungen nur 3 dB niedriger liegt als der Direktschallpegel bei 0°, macht es zur Bedingung, ausschließlich in akustisch guten Räumen aufzunehmen. Kein Mikrofontyp nimmt so viel Diffusschall verglichen mit dem Direktschall auf wie das KFM. Man kann das KFM ein „ehrliches Mikrofon“ nennen. –– Durch den bündigen Einbau der Mikrofone in die Kugeloberfläche gibt es keinerlei Kammfiltereffekte, die bei anderen Trennkörperverfahren auftreten. –– Die Klangfärbung seitlichen Schalls nimmt mit der Entfernung kontinuierlich ab, während der Hallanteil klanglich gleichbleibt, so wie bei diffusfeldentzerrten Druckempfängern. Damit erhält jede seitliche Schallquelle eine für die Entfernung typische Klangfärbung, möglicherweise auch einer der Gründe für die gute Darstellung der Tiefenstaffelung. –– Durch den Kugeldurchmesser von 20 cm bzw. 18 cm entsteht ein fester Aufnahmebereich von 90° bzw. 120°, nur durch die Wahl der Entfernung kann also der Aufnahmebereich an die Aufnahmesituation angepasst werden. –– Bei der Kombination mit Stützmikrofonen gehen die besonderen und guten Eigenschaften des KFM erfahrungsgemäß schneller verloren als bei anderen Hauptmikrofonverfahren. –– Stehende Wellen liegen vielfach im Bereich tiefer Frequenzen, die das System wegen der verwendeten Druckempfänger besonders gut aufnimmt. Deshalb muss stets auch mit kleinen Verschiebungen des KFMs nach einer optimalen Position, auch in der Höhe, gesucht werden. 5.3.4.4 Andere Trennkörper Bei der Wahl der Trennkörper gibt es eine große Vielfalt an denkbaren Formen, und so wurde gerade hier viel experimentiert. Da alle Trennkörper Laufzeit- und Pegeldifferenzen liefern, überraschen solche Anordnungen zunächst durchaus mit einer eindrucksvollen Abbildung des Raums. Erst bei genauerer Untersuchung zeigen Formen wie Keile, flache oder dicke Scheiben gerade bei ihren Frequenzgängen erhebliche Mängel, dies trifft auch auf das OSSVerfahren zu, das neben dem KFM bekannteste Trennkörperverfahren. Beim OSS-Verfahren (OSS = Optimales Stereo-Signal), auch Jecklin-Scheibe, befindet sich als akustische Trennung zwischen den Mikrofonen − grundsätzlich diffusfeldentzerrte Druckempfänger − eine den Schall absorbierende Scheibe. Bei einer ersten Version ist die Mikrofonbasis mit 17,5 cm gleich dem Ohrabstand, die Scheibe hat einen Durchmesser von 30 cm; in einer zweiten Version beträgt der Abstand der Mikrofone zueinander 36 cm, der Scheibendurchmesser 35 cm. Neben den eingeführten Trennkörperanordnungen KFM und OSS sind weitere Anordnungen mit unterschiedlichen Trennkörpern und Größenverhältnissen möglich. Die definierte akustische Qualität des Kugelflächenmikrofons erreichen sie nicht; sie können im semi-
288
5 Tonaufnahme und Tonwiedergabe
professionellen Bereich oft als Eigenbau mit überraschendem Erfolg eingesetzt werden. Zunächst können dicke Scheiben, die den Raum zwischen den Mikrofonen ausfüllen und z. B. aus Schall schluckender Steinwolle bestehen, verwendet werden, weiterhin einfache oder doppelte Keile, ebenfalls Schall schluckend. Grenzflächenmikrofone werden bei schallharten Trennkörpern verwendet, sie finden z. B. in der Trennkörperanordnung des Systems SASS von Crown und Clara nach Peters Anwendung. Der Kunstkopf als Aufnahmesystem wird allgemein nicht zu den Trennkörperverfahren gerechnet, obwohl er eigentlich diesen zuzuzählen ist. Seine Zielsetzung ist aber nicht die Zweikanal-Stereofonie für Lautsprecherwiedergabe, sondern die Kopfhörerwiedergabe mit klangdokumentarischer oder messtechnischer Zielsetzung (siehe Kap. 4.2.4.6). Die Entwicklung von 3D-Audio hat den KK als binaurale kopfbezogene Übertragungstechnik eine neue Aktualität verschafft, auch die Möglichkeiten ihrer Lautsprecherwiedergabe wird wieder diskutiert, hierzu wird auf Kap. 5.5.5 verwiesen.
5.3.5 Stützmikrofonverfahren Aufnahmen ausgedehnter Klangkörper, z. B. Orchester, gerade mit Chor und Solisten, stellen hohe Anforderungen an die Durchsichtigkeit und Brillanz des Klangs, an die gleichmäßige Ausnutzung der gesamten Stereobasis, an gute und eindeutige Richtungsauflösung und an die übermittelte Raumillusion. Um das gewünschte Klangbild für den Hörer verwirklichen zu können, werden besonders bei akustisch unbefriedigenden Räumen, vielfach ergänzend zum Hauptmikrofon mehrere Stützmikrofone eingesetzt. Auch mehrere Hauptmikrofone können sinnvoll sein, wenn ein einziges Hauptmikrofon zu weit entfernt aufgestellt werden müsste, um das gesamte Klangbild erfassen zu können. Als Stützmikrofone können Monomikrofone für einzelne oder wenig ausgedehnte Schallquellen (siehe dazu Kap. 5.3.5.1) oder Stereomikrofone für ausgedehnte Schallquellen bzw. -gruppen verwendet werden (Kap. 5.3.5.2). Nimmt man den Anteil eines Hauptmikrofons an einer Aufnahme immer mehr zurück, bleibt zunehmend nur noch das Klangbild der Stützmikrofone, das Aufnahmeverfahren wird damit zum Einzelmikrofonverfahren. Somit gibt es einen gleitenden Übergang vom Stütz- zum Einzelmikrofonverfahren, siehe hierzu Kap. 5.3.6. Wenn mit einem oder auch mehreren Hauptmikrofonen nicht das gewünschte Klangbild realisiert werden kann, kann es neben anderen die folgenden Gründe geben: –– Der Klangkörper in sich nicht ausbalanciert, d. h., die Lautstärkeverhältnisse zwischen den Teilschallquellen, z. B. Gesangssolisten, sind unausgeglichen. Die Stützmikrofontechnik bietet die Möglichkeit, die Klangbalance zwischen den einzelnen Schallquellen herzustellen; einerseits können unterschiedliche Lautstärken angeglichen werden, andererseits kann durch Hervorhebungen eine Partitur nach musikalischen Gesichtspunkten in die Aufnahmetechnik übersetzt werden. –– Der Saal ist akustisch ungeeignet, d. h., es kommen zu starke und/oder zu frühe oder zu späte erste Reflexionen zum Mikrofon und/oder der Nachhall überzeugt nicht, weil er unangemessen lang, zu dumpf oder zu hart ist oder Echos auftreten. –– Unabhängig von Saal, Gesamtklang und der klanglichen Balance soll ein besonderes Klangbild geschaffen werden. Die Aufnahme soll z. B. Grundlage von Fernsehtonaufnah-
5.3 Zweikanal-Stereofonie
289
men sein, wobei einzelne Instrumente zeitweise groß ins Bild kommen sollen und dabei akustisch unterstützt werden müssen. –– Es besteht nicht die Möglichkeit, ein Hauptmikrofon an einem geeigneten Ort zu platzieren, z. B., wenn ein Orchester im Orchestergraben eines Opernhauses spielt. Die Stützmikrofontechnik hat die Fähigkeit, in den genannten Fällen Abhilfe zu schaffen. Kennzeichen der Stützmikrofontechnik ist, dass einigen oder allen Schallquellen zusätzlich zum Hauptmikrofon in relativ geringem Abstand ein weiteres Mikrofon zugeordnet wird. Stereomikrofone müssen dabei einen größeren Abstand haben als Monomikrofone, da sie ausgedehnte Schallquellen aufnehmen. Der Abstand von Monostützmikrofonen wird im Allgemeinen zwischen 0,5 und 2 m liegen. Dabei erfordern Klangkörper aus Schallquellen sehr unterschiedlicher Lautstärke, wie Unterhaltungsorchester, Gruppen mit populärer Musik, Bigbands, auch Jazzgruppen, weit mehr Stützmikrofone als ein in sich ausgeglichener konventioneller Klangkörper, wie z. B. Kammermusikensembles oder das klassische Sinfonieorchester; diese traditionellen Ensembles spielen Kompositionen, die für eine Aufführung ohne Korrekturen der Klangbalance konzipiert sind. Die Stützmikrofontechnik steht aufnahmetechnisch zwischen den Hauptmikrofonverfahren und dem Einzelmikrofonverfahren. Sie kann einerseits ein Hauptmikrofonverfahren unterstützend optimieren, andererseits das Hauptmikrofon dominieren, dazwischen gibt es einen gleitenden Übergang. Das Hauptmikrofon hat beim Stützmikrofonverfahren eine integrierende, homogenisierende Aufgabe, bei geringen Anteilen stellt es u. U. nur noch ein Raummikrofon dar zur Aufnahme des Raumschalls. Grundsätzlich sollte das Stützmikrofonverfahren nicht dazu dienen, ein unkorrekt eingesetztes Hauptmikrofon zu korrigieren. Jede Aufnahmesituation, in der die Stütztechnik geplant ist, sollte also mit der optimalen Einstellung des Hauptmikrofons beginnen. Danach erfolgt die Zumischung der Stützsignale. Dominieren diese, so dient das Hauptmikrofon nur noch der Aufnahme des Raumeindrucks, wofür dann wieder andere Kriterien maßgeblich sind. Stützmikrofone liefern in erster Linie Direktschall. Wegen des geringeren Mikrofonabstands verglichen mit dem Hauptmikrofon trifft Direktschall bei den Stützmikrofonen aber früher ein als beim Hauptmikrofon. Im Ergebnis bilden die Stützmikrofone die Lokalisierung, das Einschwingen und die Präsenz ab, das Hauptmikrofon liefert den Raumeindruck. Nachteilig an der konventionellen Stützmikrofontechnik ist demnach, dass die Schallquellen dabei ohne Entfernungsmerkmale abgebildet werden, die Aufnahme also ohne Tiefenstaffelung bleibt. Diesen Mangel kann eine zeitverzögerte und ggf. verhallte Zumischung der Stützmikrofone beseitigen helfen (siehe dazu Kap. 5.3.5.3). Die Stützmikrofone werden in Übereinstimmung mit der Richtung der Schallquelle aus der Perspektive des Hauptmikrofons mit dem Panorama-Potentiometer in das Gesamtklangbild eingegliedert; sie stellen – sofern sie nicht ganz seitlich eingeordnet sind – Phantomschallquellen mit reinen Pegeldifferenzen dar und sind dadurch gut auf der Stereobasis lokalisierbar.
290
5 Tonaufnahme und Tonwiedergabe
5.3.5.1 Monostützmikrofone Als Monostützmikrofone eignen sich Richtmikrofone am besten, da über ein Stützmikrofon nur Direktschall der jeweiligen Schallquelle aufgenommen werden soll. Neben der Nierenrichtcharakteristik, die die beste Ausblendung des Direktschalls nach hinten bietet, kommen dafür die Super- und Hypernierenrichtcharakteristik in Betracht, die bei etwas geringerer Rückwärtsdämpfung eine erhöhte seitliche Ausblendung des Direktschalls bieten. Die Achterrichtcharakteristik hat die beste Ausblendung für seitlichen Schalleinfall, hat aber nach hinten dieselbe Empfindlichkeit wie nach vorne, sie eignet sich also besonders dann, wenn die Instrumente oder Stimmen in nur einer Reihe nebeneinander aufgestellt sind; für Diffusschall sind diese Mikrofone ebenso empfindlich wie die Nieren. Ein Stützmikrofon mit Kugelrichtcharakteristik ist nur in sehr geringem Abstand sinnvoll; ein Grund für die Verwendung eines Kugelmikrofons kann aber der Wunsch sein, mit Druckempfängern zu arbeiten, die u. a. eine besonders gute Wiedergabe tiefer Frequenzen bieten. Abb. 5/29 veranschaulicht die Fähigkeit gerichteter Mikrofone, Diffusschall auszublenden. Z. B. kann man eine Acht oder Niere um den Faktor 1,7 weiter entfernt von der Schallquelle aufstellen, ohne dass sie mehr Diffusschall aufnimmt als eine Kugel in einfacher Entfernung. Mit der Super- und Hypernieren kann man den Abstand in etwa verdoppeln. Aber bereits die breite Niere kann in vielen Fällen bei einem etwas geringeren Abstand als die Niere ein klanglich sehr ausgewogenes Stützmikrofon sein.
Abb. 5/29. Gleiches Verhältnis von Direkt- zu Diffusschall bei unterschiedlichen Mikrofonabständen.
5.3 Zweikanal-Stereofonie
291
5.3.5.2 Stereostützmikrofone Stereostützmikrofone sind nur dann sinnvoll, wenn räumlich ausgedehnte Klanggruppen gestützt werden sollen, die in sich ausbalanciert sind. Da Stereo-Stützmikrofone in aller Regel gerichtete Schallempfänger sein müssen, kommen nur die Aufnahmeverfahren in Betracht, die dies leisten: die XY-Verfahren mit Nieren- und Supernierenmikrofonen und ihre äquivalenten Anordnungen in MS, also XY nicht mit Achten und MS nicht mit Kugel für das M-Signal, sowie gemischte Verfahren mit gerichteten Mikrofonen, z. B. ORTF oder EBS. Beim Einsatz mehrerer Stereomikrofone, egal ob als gleichberechtigte Hauptmikrofone oder als Stützmikrofone, kommt es stets darauf an, die Perspektiven der einzelnen Mikrofone in Übereinstimmung zu bringen, um mehrfache Abbildungen der Schallquellen zu vermeiden. Erfasst z. B. ein Hauptmikrofon über dem Dirigenten das gesamte Orchester, so muss ein Stereostützmikrofon für die Holzbläsergruppe bei der Abbildung zwischen den Lautsprechern auf die Breite eingeengt werden, wie sie sie vom Hauptmikrofon aus gesehen in Bezug auf das Gesamtklangbild einnimmt. 5.3.5.3 Verzögerte und raumbezogene Stützmikrofone Eine Möglichkeit, die den Klang bestimmende Funktion des Hauptmikrofons zu unterstützen, besteht darin, das zeitliche Voreilen der Stützmikrofone durch Verzögerung ihrer Signale aufzuheben, sie also zeitlich nach dem Signal des Hauptmikrofons einzuordnen. Hierzu schätzt man die Differenz der Strecken Hauptmikrofon – Schallquelle und Stützmikrofon – Schallquelle ab und rechnet sie in die Verzögerungszeit um, für 1 m rechnet man mit 3 ms Laufzeit. Ein Beispiel: Abstand Hauptmikrofon – Hörnergruppe = 10 m, Abstand Stützmikrofon – Hörnergruppe 3 m, die Differenz sind 7 m entsprechend 21 ms. Es hat sich in der Praxis als günstig erwiesen, dem so errechneten Wert nochmals etwa 15 ms hinzuzufügen, in dem Beispiel ergeben sich damit 35 bis 40 ms Verzögerung des Stützmikrofons. In Abwandlung dieser einfachen Verzögerung der Stützmikrofone ist die raumbezogene Stützmikrofontechnik, eine Stütztechnik, die ohne Pan-Pots arbeitet; als Stützmikrofone werden Monomikrofone verwendet. Wie bereits oben erläutert, liefern Stützmikrofone in erster Linie Direktschall, der vor dem Signal des Hauptmikrofons wiedergegeben wird und damit eine Abfolge von Direktschall, ersten Reflexionen und Nachhall ergibt, die in ihrer zeitlichen Struktur nicht der Realität entspricht (Abb. 5/30). Der starke Anteil von Direktschall und weitgehend fehlende Merkmale der Schallquellenentfernung führen dabei zu dem Gehöreindruck, dass alle Schallquellen „wie auf einer Schnur“ in gleichem Abstand vor dem Hörer zwischen den Lautsprechern aufgereiht sind. Der konventionellen Stützmikro fontechnik fehlt also Raumtiefe. Das wird in vielen Fällen durchaus erwünscht, kann doch nur so eine für alle Schallquellen geltende Präsenz der Aufnahme realisiert werden. Eine andere Aufnahmephilosophie ist die von Theile vorgeschlagene raumbezogene oder panpotfreie Stütztechnik [Theile, 1984]. Sie geht davon aus, dass die Stützmikrofone zeitlich nicht vor den Signalen des Hauptmikrofons, sondern danach eingeordnet werden. Damit wird nicht nur das Voreilen des Direktschalls der Stützmikrofone ausgeglichen, was schon früher gefordert bzw. praktiziert wurde, vielmehr wird das Signal des Stützmikrofons nach den Direktschall des Hauptmikrofons gesetzt und somit nicht als Direktschall, sondern als erste Reflexion behandelt. Die so gewonnene künstliche erste Reflexion erhöht zunächst die
292
5 Tonaufnahme und Tonwiedergabe
Lautstärke der Schallquelle; dieses Phänomen ist auch aus der Raumakustik bekannt und wird entsprechend z. B. zur Verbesserung der Sprachverständlichkeit in einem Saal genutzt. Diese Reflexion schafft aber keine Lokalisierbarkeit der Schallquelle. Diese kommt vielmehr vom Direktschallanteil des Hauptmikrofons. Entsprechend den natürlichen Bedingungen in einem Raum ist es günstig, die künstliche erste Reflexion des Stützmikrofons nicht als korreliertes Signal abzubilden, also eine lokalisierbare Phantomschallquelle zu schaffen, sondern das Stützmikrofon in den beiden Kanälen zu dekorrelieren, also etwas unterschiedlich zu verzögern, z. B. mit einem Zeitabstand von 3 bis 5 ms.
Abb. 5/30. Vergleich der konventionellen und raumbezogenen Stützmikrofontechnik: oben: nur Hauptmikrofon, Mitte: zusätzlich Stützmikrofon ohne Verzögerung, unten: zusätzlich Stützmikrofon mit Verzögerung.
Die Grundverzögerung der Stützmikrofone sollte so gewählt werden, dass sie etwa 20 bis 30 ms nach den Signalen des Hauptmikrofons eintrifft. Eine Einordnung dieser Signale über Panoramapotentiometer entfällt also. Diese Stützmikrofontechnik hat die natürlichen Ver-
5.3 Zweikanal-Stereofonie
293
hältnisse in einem Raum als Vorbild. Abb. 5/30 demonstriert den Unterschied zwischen den Verhältnissen bei einem Hauptmikrofon, zusätzlich mit konventioneller und mit raumbezogener Stützmikrofontechnik. Mit dieser Stützmikrofontechnik ist selbstverständlich ein Verlust an Lokalisierbarkeit verbunden. Gewonnen ist eine Annäherung an die Hörbedingungen, die beim natürlichen Hören herrschen. Ob dies wünschenswert ist oder den Aufwand rechtfertigt, hängt von der jeweiligen klangästhetischen Zielsetzung ab. Zu prüfen ist hier auch, ob bei der Monobildung Kammfiltereffekte hörbar werden.
5.3.6 Einzelmikrofonverfahren Beim Einzelmikrofonverfahren werden für jede Einzelschallquelle eines Klangkörpers üblicherweise gerichtete Mikrofone eingesetzt, deren Einzelsignale in der Regieeinrichtung durch geeignete Einstellung von Pegel und Abbildungsrichtung zu einem stereofonen Klangbild zusammengesetzt werden. Es handelt sich also um ein Aufnahmeverfahren reiner Intensitätsstereofonie. Mikrofon I wird z. B. ausschließlich dem linken, Mikrofon III dem rechten Kanal zugeordnet, während Mikrofon II als Mittensignal gleichmäßig auf beide Kanäle aufgeteilt wird. Voraussetzung für das einwandfreie Funktionieren des Einzelmikrofonverfahrens ist eine gute gegenseitige akustische Trennung der Mikrofone; so wird erst die von den Positionen der Schallquellen im Aufnahmeraum unabhängige Richtungszuordnung ermöglicht. Zwei Einzelmikrofone können dann als ausreichend akustisch getrennt angesehen werden, wenn ihre Übersprechdämpfung mindestens 12 bis 15 dB beträgt. Dieser Wert muss nur für die den Richtungseindruck bestimmenden ersten Wellenfronten gelten; der mit dem Aussteuerungsmesser abgeschätzte Wert kann also im Allgemeinen geringer sein, weil bei ihm auch Diffusschall gewertet wird; in der Praxis kommt man deshalb mit einem Wert um 10 dB aus, weicht die Aufstellung wenig von der Anordnung der Klangquellen auf der Lautsprecherbasis ab, können auch schon 6 dB ausreichend sein. Die akustische Trennung der Schallquellen wird durch distanzierte Anordnung der Klangquellen, durch Verwendung gerichteter Mikrofone und durch Trennwände und Kojen erreicht, durch geschickte Anordnung der Schallquellen − laute Schallquellen zu lauten, leise zu leisen − noch verbessert. Durch Einsatz von Filtern, die nur den Frequenzbereich der zugeordneten Schallquellen passieren lassen, kann sie u. U. noch weiter verbessert werden. Das Einzelmikrofonverfahren ist also vorteilhaft dann anzuwenden, –– wenn die einzelnen Schallquellen sich in ihrer natürlichen Lautstärke stark unterscheiden und von sich aus kein ausbalanciertes Gesamtklangbild ergeben, –– wenn die gewünschte Anordnung der Schallquellen im stereofonen Klangbild nicht der tatsächlichen Anordnung im Aufnahmeraum entspricht, –– wenn an den Einzelschallquellen unterschiedliche Manipulationen durch die Tonregie vorgenommen werden sollen, also unterschiedliche Klangbeeinflussung, Verhallung, Verzögerung usw., –– wenn aus derselben Aufnahme unterschiedliche Abmischungen gewonnen werden sollten, z. B. für den Hörfunk, die Schallplatte oder das Fernsehen; in diesem Fall ist das Verfahren unverzichtbar.
294
5 Tonaufnahme und Tonwiedergabe
Durch den geringen Mikrofonabstand kommt der Akustik des Aufnahmeraums beim Einzelmikrofonverfahren eine geringe Bedeutung zu, sofern nicht die Nachhallzeit besonders lang oder der Raum besonders klein ist. Das Verfahren ist bei Musikaufnahmen in der Regel an die künstliche Verhallung gebunden. Es fordert von der Tonregie in hohem Maß die Gestaltung eines Klangbilds, das in der akustischen Realität des Aufnahmeraums nicht vorhanden ist. Tonmeister und Toningenieur werden gerade bei dieser Aufnahmetechnik künstlerische Mitgestalter. Die Richtcharakteristik der Instrumente und Sänger wirkt sich bei diesem Aufnahmeverfahren wegen des geringen Mikrofonabstands so stark aus wie bei sonst keinem Aufnahmeverfahren. Der Aufstellungsort des Mikrofons ist deshalb in besonderem Maß an die Klangabstrahlung der Instrumente und Sänger gebunden (siehe Kap. 2.3.3). Bei gleicher Richtcharakteristik der Mikrofone ist die Wahl des geeigneten Mikrofonorts von größerem Einfluss auf den Klang als die Wahl eines klanglich optimalen Mikrofons. Die Suche nach dem geeigneten Mikrofonort ist immer primär, erst danach kann eine geeignete Filtereinstellung vorgenommen werden. Grundsätzlich wird so wenig Diffusschall aufgenommen wie möglich. Niere und Acht nehmen den gleichen Diffusfeldanteil auf, die Ausblendung des Diffusschalls verbessert sich demgegenüber bei Supernieren, Hypernieren bzw. Keulen, solange am Mikrofonort der Direktschall größer als der Diffusschall ist, also innerhalb des jeweils gültigen Hallradius. Abb. 5/29 zeigt, um wieviel die Mikrofonabständen verglichen mit Kugelcharakteristik vergrößert werden können. Als Spezialmikrofone für besondere Anwendungen stehen Ansteckmikrofone zur Verfügung (siehe Kap. 4.2.4.4). Sie werden vor allem bei Saiteninstrumenten, aber auch bei Blasund Schlaginstrumenten eingesetzt und ergeben einen Klang mit interessanter Präsenz. Bei Streich- und Zupfinstrumenten werden die Mikrofone meist am Steg befestigt, beim Flügel am Gussrahmen. Bei Blasinstrumenten sind Ansteckmikrofone problematisch, weil die Klangstrahlung in starkem Maße frequenzabhängig auf die einzelnen Teile der Instrumente verteilt ist. Durch die Mischung der Mikrofonsignale liegt die Gesamtheit der Einzelpegel erheblich über den Pegeln der Einzelsignale. Aus diesem Grund muss die Aussteuerung in den Einzelkanälen reduziert werden. Bei der Mischung zweier Mikrofone mit gleichem Pegel entsteht ein durchschnittlich um 3 dB höherer Gesamtpegel, in Pegelspitzen kann er aber durchaus 6 dB höher liegen; bei vier Mikrofonen ergibt sich durchschnittlich ein um 6 dB erhöhter Gesamtpegel. Bei acht Mikrofonen mit gleichem Pegel liegt die Aussteuerung des Einzelkanals deshalb bereits bei ca. − 9 dB oder weniger.
5.3.7 Überwachung der Stereosignale Für die umfassende Qualitätskontrolle steht an erster Stelle die Kontrolle mit dem Gehör. Dazu gibt es weitere optische Kontrollinstrumente, die die Beurteilung erleichtern oder ein schnelleres und sichereres Urteil ermöglichen, diese Instrumente werden umfassend in Kap. 19.4 behandelt. Tab. 5/10 fasst ihre Anwendungsbereiche zusammen.
5.3 Zweikanal-Stereofonie
295
Korrelationsgradmesser oder Goniometer und Stereosichtgerät sind nur für Aufnahmen in reiner oder annähernd reiner Intensitätsstereofonie vorgesehen, bei Laufzeitstereofonie sind ihre Anzeigen unbrauchbar, ja irreführend, und dürfen deshalb nicht beachtet werden. Dies gilt auch für die gemischten Verfahren, mit der Einschränkung, dass hier die Anzeigen immerhin Hinweise geben für Aufnahmefehler, die im Einzelfall oft schwer zu bewerten sind. Das wichtigste Instrument zur Überwachung der Stereosignale beim Laufzeitverfahren ist das Gehör. Tab. 5/10. Kontrollinstrumente für die Tonaufnahme. Aussteuerungsmesser
Korrelationsgrad- Stereosichtgerät messer, Goniometer
anzuwenden
bei allen Verfahren nur bei Intensitätsstereofonie
Pegelkontrolle
●
Abhöreinheit
bei Abhörkontrolle
Kompatibilität
●
(●)
●
Breite des Klangbilds
●
●
●
●
●
●
●
●
Kap. 19.4.4
Kap. 19.4.4.1
Kap. 8.12., 19.3
Richtungsverteilung Phasenlage/Verpolung Details in
Kap. 19.4
Korrelationsgradmesser Der Korrelationsgrad r ist ein Maß für die Gleichartigkeit der Signale im linken und im rechten Kanal, unabhängig vom jeweiligen Pegel (siehe auch Kap. 19.4.4). Wird bei einer Stereoaufnahme der Aufnahmebereich immer mehr eingeengt, so nimmt damit ihr monofoner Charakter mehr und mehr zu; gleichzeitig werden die Stereosignale L und R immer ähnlicher und damit nimmt auch der Korrelationsgrad r zu. Die Bedeutung von r fasst Tab. 5/11 zusammen. Tab. 5/11. Bedeutung des Korrelationsgrads r. Korrelationsgrad
Klangbild
stets 1 stets 0 > 0 oder um 0 1,2 m ± 15°
Abb. 5/32. 3/2-Referenz-Lautsprecheranordnung mit den Lautsprechern L-C-R und den SurroundLautsprechern LS und RS.
Auch die reguläre kreisförmige Anordnung der Lautsprecher gestaltet sich in vielen praktischen Situationen schwierig. Sollte eine kreisförmige Anordnung der Lautsprecher nicht möglich sein, schreiben die Empfehlungen vor, dass die Lautsprechersignale entsprechend verzögert werden. Entfernungsunterschiede lassen sich für Center und Surround dadurch in gewissen Grenzen kompensieren (Abb. 5/33). Jedoch gibt es für die SurroundLautsprecher in der Praxis relativ große Toleranzen in Bezug auf Richtung und Entfernung.
5.4 Mehrkanal-Stereofonie
301
Abb. 5/33. Kompensation der Entfernung des Centerlautsprechers durch Verzögerung, 2,94 ms für 1 m „zu nahe“.
Optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern nach Abb. 5/34 bieten die Möglichkeit, die stereofone Qualität bei der seitlichen Abbildung zu verbessern und die Hörzone zu erweitern. Interessante Abbildungsbereiche sind L-LL und R-RR, z.B. um das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung, insbesondere bei wichtigen seitlichen Hörereignissen.
Abb. 5/34. Standard 3/2- und optionale 3/4-Lautsprecheranordnung gemäß [ITU-R BS.775-18].
Um eine größere Hörzone bzw. verbesserte Einhüllung beim 3/2-Format zu erzeugen, kann man auch weitere Surround-Lautsprecher mit den zwei Standard-Kanälen LS und RS betreiben. Bei größeren Wiedergaberäumen wie z. B. Kinos ist dies unbedingt notwendig. In diesem Fall ist eine ausreichende Dekorrelation der zusätzlich angeschlossenen Lautsprecherkanäle wünschenswert, z. B. durch geeignete Verzögerungen, sowie der Anschluss über geeignete Signalverteiler (Matrizen) oder Prozessoren. 5.4.1.2 Hierarchie kompatibler Mehrkanal-Tonsysteme Das 3/2-System ist in eine Hierarchie von Mehrkanal-Tonformaten eingebettet. Für eine derartige Hierarchie, abwärtskompatibel bis zum Monoformat, sind einfache Bedingungen der Matrizierung zur Addition von Teilsignalen an den Übertragungs- und Speicherungs- oder
302
5 Tonaufnahme und Tonwiedergabe
Wiedergabestufen einer Signalkette in der internationalen Empfehlung [ITU-R BS.775-1] angegeben, wodurch die technische Kompatibilität zwischen den Kanalformaten ermöglicht wird. Das 3/1-Format z. B., also drei Frontsignale und ein Surround-Kanal, ist in diese Hierarchie integriert und kann mit der 3/2-Konfiguration wiedergegeben werden; in diesem Fall speist das monofone Surround-Signal S beide Surround-Lautsprecher LS und RS, die Verstärkung der Surround-Kanäle wird dabei um 3 dB reduziert. Systeme mit mehr Kanälen als beim 3/2-Format sind möglich und können an dieses angepasst werden, z. B. 3/3, 5/2, 5/4 usw. Diese Formate sind aber nicht im ITU-Standard enthalten. Formate mit fünf Frontlautsprechern werden im Filmbereich verwendet, natürlich sollte bei der Produktion beachtet werden, dass sie zu den 3/2- und 2/0-Formaten abwärts kompatibel sind. Für alle möglichen Formatkombinationen sollte die Referenzkonfiguration 3/2 die Grundlage darstellen. 5.4.1.3 Tieftonwiedergabe Um Verwechslungen zu vermeiden, wird hier unterschieden zwischen einem Signal zur Erweiterung des Tieffrequenzbereichs, das über einen separaten sog. LFE-Kanal (low frequency effect) in einem Übertragungs- oder Aufzeichnungssystem übertragen wird, und einer separaten Abstrahlung des tieffrequenten Programminhalts über Tieftonlautsprecher, sog. Subwoofer. LFE-Kanal Im Filmbereich wurde ein spezieller Übertragungskanal für den Bassbereich von 20 Hz bis etwa 80 bis120 Hz eingeführt, um den tieffrequenten Übertragungsbereich der Filmtonsysteme praxisgerecht zu erweitern. Dieser wurde in die Standards [ITU-R BS.775-1] und [SMPTE RP-173] übernommen. Er kann optional als Ergänzung der Formate im Studio oder im Heim verwendet werden. Die Bezeichnung wird wegen des schmalen benutzten Frequenzbereichs mit „0.1“ oder „…/1“ abgekürzt. Daher sind die Bezeichnungen 5.1 bzw. 3/2/1 oder 7.1 bzw. 5/2/1 in Gebrauch. Die Nutzung des LFE-Kanals ist optional. Sie kommt in Betracht, wenn ergänzend zur Tonmischung in den Hauptkanälen tieffrequente Effekte hinzukommen sollen. Dies trifft für Musik normalerweise nicht zu. EBU- und SMPTE-Dokumente [ITU-R 10C//11, 1987] und [EBU R22] zum Mehrkanalton enthalten einige Anmerkungen über die Verwendung des LFE-Kanals, das SMPTE-Dokument führt dazu aus: „Soll ein Tonprogramm, das ursprünglich für Filmtheaterversionen produziert wurde, in Consumer-Medien übertragen werden, wird der LFE-Kanal meist von dem speziellen Kino-Subwooferkanal abgeleitet. Im Kino erfolgt eine Wiedergabe stets über den speziellen Subwooferkanal, daher kann bei Filmabmischungen der LFE-Kanal zur Übertragung von wichtigem tieffrequenten Programminhalt benutzt werden. Sollen Programme, die ursprünglich für den Film produziert wurden, z. B. über Fernsehen, DVD oder streaming-Dienste übertragen werden, kann es notwendig sein, Anteile vom Inhalt des Subwooferkanals wieder in die Kanäle mit voller Bandbreite einzumischen. Es ist wichtig, dass jegliche Anteile tiefer Frequenzen, die für die Vollständigkeit des Programminhaltes sehr bedeutsam sind, nicht in dem LFE-Kanal untergebracht werden. Der LFE-Kanal sollte Programminhalten mit sehr tiefen Frequenzen sowie sehr hohen Pegeln
5.4 Mehrkanal-Stereofonie
303
unter 120 Hz vorbehalten bleiben, deren Fehlen bei der Wiedergabe die künstlerische Vollständigkeit des Programms nicht beeinträchtigt. Bei Kinowiedergabe ist die innere Verstärkung im LFE-Kanal üblicherweise 10 dB kleiner als die der anderen einzelnen Kanäle. Gemäß SMPTE [ITU-R 10C//11, 1987] wird dies durch eine Pegelerhöhung des Wiedergabekanals kompensiert. Dies muss aus Gründen der Kompatibilität im Studiobereich auch bei der Heimwiedergabe beachtet werden. Separate Tieftonlautsprecher oder Subwoofer Es kann nützlich sein, zusätzlich zu den Hauptlautsprechern L, C, R, LS und RS Subwoofer, also Bass-Strahler, zur Erweiterung des Tieftonbereichs aufzustellen, so dass die untere Grenzfrequenz der fünf Hauptlautsprecher auf etwa 80 Hz erhöht und dementsprechend ihre Volumina reduziert werden können. Ein Bass-Management-System in der Wiedergabeanlage des Hörers gemäß Abb. 5/35 ermöglicht es normalerweise, dass der oder die Subwoofer sowohl 5.1-Filmton mit LFE-Signal als auch 3/2-Formatmaterial ohne separates LFE-Signal wiedergeben.
Abb. 5/35. Ableitung von kombinierten Subwoofer- und LFE-Signalen.
Natürlich können auch mehrere Subwoofer für spezifische einzelne Kanäle eingesetzt werden, z. B. einer für die Front- und einer für die Surround-Kanäle. Dies bietet den Vorteil, dass Subwoofer und Hauptlautsprecher näher beieinanderstehen können und deshalb die im unteren Frequenzbereich fehlende Kanaltrennung auch bei höheren Übergangsfrequenzen nicht wahrgenommen wird. Nichtlineare Verzerrungen des Subwoofers können im starken Maße dazu beitragen, dass Lokalisierungsfehler auftreten. Untersuchungen haben gezeigt,
304
5 Tonaufnahme und Tonwiedergabe
dass Eigengeräusche, Verzerrungen, und Informationen über 120 Hz, die vom Ort des Subwoofers abgestrahlt werden, ihn lokalisierbar machen können. Die getrennte Wahrnehmung eines Subwoofers ist zudem stark vom Programmmaterial abhängig. Über die optimale Aufstellung eines einzelnen Subwoofers in einem Abhörraum gibt es unterschiedliche Auffassungen, obgleich die Anordnung eines einzelnen Subwoofers in einer Raumecke den günstigsten Frequenzgang ergibt [Noussaine, 1997]. Lautsprecher, die in den Ecken angeordnet werden, können eine merkliche Bassverstärkung aufweisen und sind gut an die meisten Raumresonanzen, auch Moden genannt, anzukoppeln. Einige Subwoofer sind speziell für die Anordnung an besonderen Orten geeignet, während für andere subjektiv der optimale Aufstellungsort zu suchen ist, meist können befriedigende Ergebnisse erzielt werden. Es sind u. U. notwendig, den Frequenzgang zu entzerren, um einen flachen Gesamtfrequenzgang am Hörort zu erhalten. Teils werden Phasenverschiebungen oder Verzögerungen vorgenommen, um die Zeitbeziehungen zwischen dem Subwoofer und den anderen Lautsprechern zu korrigieren. Eine Phasenverschiebung beim Subwoofer wird mitunter auch angewendet, um die Pegelsumme des Subwoofers und der Hauptlautsprecher im Übergangsbereich in Bezug auf einen flachen Frequenzgang zu optimieren [Kügler, 1992]. Fullrange-Lautsprecher für alle Kanäle Die Verwendung von Breitband- oder Fullrange-Lautsprechern für alle Kanäle hat signifikante Vorteile: Die tiefen Frequenzen im Bereich um 100 Hz werden bei der Wiedergabe gleichmäßiger im Raum verteilt und regen deshalb Raummoden weniger stark an als dies ein einzelner Subwoofer, insbesondere in einer Raumecke platziert, tun würde. Weiter können die einzelnen Lautsprecher Raumsignale mit einer Korrelation bis zu den tiefsten Frequenzen um Null herum aus den vorgesehenen Richtungen wiedergeben; Bass-Management-Systeme reduzieren die Richtungen der tiefen Frequenzen auf genau eine Richtung, und zwar auf diejenige, in der der Subwoofer aufgestellt ist. Damit geht ein wichtiges Phänomen der Umhüllung verloren: tieffrequente Fluktuation [Griesinger, 2018].
5.4.2 Stereofonie in den Sektoren L-C und C-R Aufgabe des zusätzlichen Center-Kanals C ist es, die Richtungsstabilität der Abbildung zu verbessern und die Hörzone zu vergrößern, wie in Kap. 5.2.1 beschrieben. Die für die ZweikanalStereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, denn es bestehen zwischen den Lautsprecherpaaren in den stereofonen Sektoren L-C und C-R die gleichen Möglichkeiten wie in der Stereobasis L-C. Hinsichtlich der Klangfarbe gibt es einen zusätzlichen Vorteil: Ein diskretes Dreikanalsystem wird im Vergleich zu einem Zweikanalsystem bezüglich Klarheit und Klangfarbe der Mittenabbildung vom Hörer bevorzugt, selbst wenn er sich genau auf der Mittelachse befindet. Man vermutet, dass der Centerlautsprecher als Realschallquelle an Stelle einer Phantomschallquelle „einfacher“ zu hören ist, außerdem verursacht eine Phantomschallquelle als Mitte nachweislich Klangfärbungen [Griesinger, 1992]. Prinzipiell werden für die L-C-R-Lautsprecheranordnung zwei verschiedene Aufnahmephilosophien angewendet (Abb. 5/36): Im linken Bild bietet der Centerkanal C eine wach-
5.4 Mehrkanal-Stereofonie
305
sende Richtungsstabilität der kompletten L-C-R-Stereoabbildung. Dabei werden die psychoakustischen Prinzipien der Lautsprecherstereofonie in den stereofonen Teilbereichen L-C und C-R angewendet. Das stereofone Klangbild setzt sich aus zwei Bereichen zusammen (siehe Kap. 5.2.2). Theoretisch kann auf diese Weise mit dem zusätzlichen Center-Kanal ein stereofones Klangbild geschaffen werden, das mit einer entsprechenden zweikanaligen Aufnahme identisch ist. Dieser „unaufdringliche“ Centerkanal hat allein die Funktion der Richtungsstabilisierung für Hörer außerhalb der Symmetrielinie.
Abb. 5/36. Wiedergabe mit zwei bzw. drei Frontkanälen: Durch den Centerkanal C wird die Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L-C und C-R mit je 30° aufgeteilt.
Die zweite Möglichkeit ist rechts in Abb. 5/36 dargestellt. Der Centerkanal C wird zur Stabilisierung der Mittenabbildung verwendet, z. B. für einen Solisten, zusätzlich zur üblichen Darstellung des Klangkörpers mit Zweikanaltechnik. Diese Technik hat sich seit langer Zeit in der Film- und Fernsehmischung bewährt. Dort werden Phantomschallquellen nur sehr selten für wichtige bildbezogene Quellen wie z. B. Dialoge verwendet; dieser wird in der Regel dem Centerkanal C zugeordnet. Stereofone Signale wie z. B. Musik, Atmo u. a. werden über L-R verteilt ohne besondere Berücksichtigung einer stabilen Lokalisierung. Im Gegensatz zum Konzept der stereofonen Teilbereiche sind die Signale von benachbarten Lautsprechern kaum korreliert. In der Praxis können und werden bei Musikaufnahmen beide Verfahren benutzt oder auch miteinander kombiniert. 5.4.2.1 Doppel-Stereoverfahren Die konsequente Umsetzung der L-C-R-Stereofonie bei der Aufnahme von größeren Klangkörpern wird mit einer in Abb. 5/38 dargestellten Anordnung verfolgt. Zwei getrennte Zweikanalhauptmikrofone werden jeweils für den linken bzw. rechten Teil des Orchesters ver-
306
5 Tonaufnahme und Tonwiedergabe
wendet. Da der Centerkanal Signale von zwei Mikrofonen erhält, sollte die Summe um 3 dB bedämpft werden. Eine dabei entstehende Richtungsverschiebung der Phantomschallquellen kann z. B. durch eine entsprechende Verzögerung kompensiert werden. Kritisch könnte allerdings der überlappende Bereich der zwei Aufnahmewinkel (vgl. auch Kap. 5.2.2) sein. Eine Schallquelle in der Mitte der Bühne wird von beiden Hauptmikrofonen gleichstark aufgenommen. In der Praxis hat sich allerdings gezeigt, dass weder die Lokalisierungsschärfe noch die Klangfarbe beeinträchtigt wird. Positiv wirkt sich hier der große Abstand zwischen den zwei Hauptmikrofonen aus.
Abb. 5/37. Links: „echte“ L-C-R-Stereofonie, rechts: L-R-Stereofonie mit zusätzlichem Centerkanal C.
Abb. 5/38. Doppel-Stereo: Zwei Hauptmikrofone werden weit voneinander aufgestellt, um jeweils die linke bzw. rechte Hälfte des Orchesters wie gewohnt aufzunehmen. Überlappende Aufnahmewinkel sollten vermieden werden.
5.4 Mehrkanal-Stereofonie
307
Der Einsatz von zwei getrennten Zweikanal-Hauptmikrofonen hat den Vorteil, dass Orte und Aufnahmewinkel der zwei Stereomikrofone entsprechend der Situation im linken und rechten Aufnahmebereich individuell optimiert werden können. Die Hauptmikrofone müssen nicht in einer Linie stehen. Alle für die Zweikanal-Stereofonie praktizierten gestalterischen Maßnahmen lassen sich bei jedem der beiden Hauptmikrofone anwenden wie bei nur einem Hauptmikrofon. Beispielsweise werden Stützmikrofone im linken Bühnenbereich dem linken Hauptmikrofon hinzugefügt, Stützmikrofone im rechten Bühnenbereich dem rechten Hauptmikrofon. [Gernemann, 2002/2] 5.4.2.2 Mehrfach-AB-Verfahren Die Mehrfach-AB-Konfiguration (Abb. 5/39) beruht auf der Laufzeitstereofonie. Fünf Mikrofone werden entlang der Bühne in einer Linie verteilt aufgestellt, wobei die Abstände zwischen benachbarten Mikrofonen im Bereich um 2 m oder mehr liegen. Man erhält zu den Realschallquellen L, C und R je eine Phantomschallquelle zwischen L und C sowie C und R. Die großen Abstände der einzelnen Mikrofone bewirken Laufzeitverhältnisse, die das Problem der mehrfachen Abbildung von Phantomschallquellen nach dem Gesetz der ersten Wellenfront verringern.
Abb. 5/39. Mehrfach-AB: Fünf Mikrofone werden in einer Linie weit voneinander aufgestellt und stellen so fünf wenig korrelierte Signale bereit, um drei stabile Quellen und zusätzlich zwei Phantomschallquellen für die Richtungsabbildung zu erzeugen.
308
5 Tonaufnahme und Tonwiedergabe
Bei der Wiedergabe sind fünf deutlich lokalisierbare Quellen für die Richtungsabbildung des Klangkörpers vorhanden. Obwohl dies nur einen Kompromiss darstellt, ergibt sich eine recht stabile und ausgewogene Stereoabbildung, verbunden mit den typischen klanglichen und räumlichen Eigenschaften der Laufzeitstereofonie. Durch Positionierung der Mikrofone kann in gewissen Grenzen auf die Hallbalance und die Balance der einzelnen Orchesterelemente zueinander Einfluss genommen werden. Es können auch Nierenmikrofone benutzt werden, um den Pegel des indirekten Schalls in den Frontkanälen zu reduzieren. Erfahrungsgemäß kann diese Konfiguration nur für größere Klangkörper benutzt werden. Sowohl die Doppel-Stereo- als auch die Mehrfach-AB-Anordnung führen bei kleineren Besetzungen meist nicht zu befriedigenden Ergebnissen. 5.4.2.3 Decca-Tree Für diverse Anwendungen wird ein echtes dreikanaliges Stereo-Hauptmikrofon benötigt. In diesem und dem folgenden Kapitel werden mit dem Decca-Tree und dem OCT-Verfahren zwei völlig unterschiedliche Dreikanal-Verfahren beschrieben. Schon lange bekannt und bereits für Zweikanal-Aufnahmen eingesetzt, siehe Kap. 5.3.3.3, ist die Hauptmikrofonanordnung des Decca-Tree [Streicher, 1999]. Die drei Mikrofone werden in Form eines Dreiecks bzw. entsprechend einem umgedrehten T aufgestellt, jedoch in relativ großem, durch das Verfahren nicht festgelegten Abstand zueinander unter Verwendung von Kugelmikrofonen (Abb. 5/40). Das Centermikrofon bewirkt eine Verbesserung der Laufzeitstereofonie, indem das „Loch in der Mitte“ mit einer stabilen Mitteninformation gefüllt wird. Auf Grund der räumlichen Trennung von L, C und R kommt es auch zu keinen störenden Kammfiltereffekten, die bei der Zweikanalwiedergabe entstehen können, wenn das Mittensignal zu L und bzw. R gemischt wird. Der Decca-Tree wird gerne verwendet, wenn das offene, räumliche Klangbild des AB-Laufzeitverfahrens in Kombination mit einer dominierenden Mittenabbildung erwünscht ist. Nachteilig sind die weit voneinander aufgestellten Mikrofone in Bezug auf Richtungsabbildung. Das erkennt man deutlich bei Betrachtung der Abbildungskurven für die Mikrofonpaare L-C und C-R, die sich mit Hilfe des Berechnungswerkzeugs [Image Assistant] leicht bestimmen lassen (siehe Kap. 5.2.2.4). Abb. 5/41 zeigt die Kurven. Man erkennt, dass auf Grund der Laufzeitverhältnisse die Mikrofonpaare L‑C und C‑R eine sehr starke Konzentration zur Mitte bewirken. Alle Schalleinfallsrichtungen im Bereich ± 45° erscheinen im CenterLautsprecher oder sehr nah bei ihm. Dieser Mitteneffekt kann durch ein Delay im Centerkanal etwas gemildert werden. Schallquellen außerhalb des Aufnahmebereichs 120° werden ausschließlich in L bzw. R wiedergegeben. Neben den Mikrofonpaaren L-C und C-R liefert das Mikrofonpaar L-R natürlich ebenfalls einen Beitrag zum Klangbild. Dieser ergibt sich hinsichtlich des Diffusschalls aus den Eigenschaften des Groß-AB-Verfahrens (siehe Kap. 5.3.3.2). Dagegen wirkt hinsichtlich des Direktschalls infolge des Gesetzes der ersten Wellenfront nicht die Groß-AB-Abbildungskurve (in Abb.5/41 L-R, gestrichelt eingetragen). Diese Abbildungskurve kann unberücksichtigt bleiben, da die L-R-Informationen etwa 3 bis 5 ms später eintreffen als L‑C bzw. C‑R und folglich die Richtungswahrnehmung nicht beeinflussen. Nur die Kurven L‑C und C-R können in Bezug auf die Lokalisierung herangezogen werden.
5.4 Mehrkanal-Stereofonie
309
Abb. 5/40. Decca-Tree: Drei Mikrofone mit Kugelcharakteristik werden in relativ großen Abständen zueinander in Form eines Dreiecks aufgestellt.
Abb. 5/41. Abbildungskurven des Decca-Tree.
Insgesamt liegen die Stärken der Decca-Tree-Konfiguration in den klanglichen Eigenschaften der Kugelmikrofone und der Wirkung von Laufzeitverfahren im diffusen Schallfeld. Eine ausgewogene Abbildung der Richtungsverteilung der aufzunehmenden Schallquellen ist wegen der starken Mittenkonzentration nicht möglich. In vielen Aufnahmesituationen möchte man den Pegel des direkten Schalls im Verhältnis zum indirekten Schall anheben, besonders in Räumen mit kleinem Hallradius und bei Einsatz von Raummikrofonen für die Surround-Kanäle. In diesen Fällen können die Kugelmikrofone des Decca-Tree durch Nierenmikrofone ersetzt werden, wobei bei jedem Mikrofon der Versatzwinkel 0° betragen sollte, die Mikrofone also nach vorne ausgerichtet werden. Dies ändert die Richtungsabbildung nur unwesentlich, aber der Schallpegel des indirekten Schalls ist theoretisch 4,8 dB niedriger, bei Hypernieren sogar 5,7 dB. Im Zusammenhang mit dem Decca-Tree ist das Aufnahmekonzept Stereo+C zu nennen, weil die Anordnung gewisse Ähnlichkeiten zeigt. Stereo+C geht von allen bewährten Anordnungen der Zweikanal-Aufnahmetechnik mit Hauptmikrofon aus, nämlich von AB, MS, XY und den gemischten Verfahren − nicht aber von Groß-AB wie der Decca-Tree, denen es ein Centermikrofon hinzufügt, das nicht vor der Zweikanal-Anordnung platziert wird, sondern
310
5 Tonaufnahme und Tonwiedergabe
ca. 2 m über ihr auf einer Verlängerung des Mikrofonständers. Es wird mit einer Verzögerung von minimal 20 ms zugemischt [Gernemann, 2001]. 5.4.2.4 OCT-Verfahren Im Kap. 5.2.2.3 wurde bereits erläutert, dass ein optimales dreikanaliges L-C-R-Stereomikrofon die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften gewährleisten soll, jedoch mit dem Vorteil größerer Richtungsstabilität in einer breiteren Stereohörfläche. Dazu müssen für die stereofonen Teilbereiche L-C und C-R zwei entsprechende Abbildungskurven dergestalt realisiert werden, dass im Idealfall Schallquellenrichtungen im linken Sektor nicht in der rechten Teilzone abgebildet werden und Schallquellenrichtungen im rechten Sektor nicht in der linken Teilzone. Die äußeren Mikrofonkapseln L und R sollen dabei einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h., dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Diese Vorgaben verdeutlicht Abb. 5/42. Es gibt prinzipiell in allen Fällen, in denen drei Mikrofone mit Kugelcharakteristik verwendet werden, ein Übersprechen zwischen den Kanälen, das mehr oder weniger zu einer Beeinträchtigung der Richtungsübersetzung, Lokalisierungsschärfe, Klarheit und Klangfarbe führt. Jede beteiligte Zweikanal-Stereobasis C-L, C-R und L-R erzeugt ihre eigenen Phantomschallquellen, welche an unterschiedlichen Orten erscheinen würden. Es ist nicht möglich, eine geometrische Anordnung der Mikrofone zu finden, bei der die drei Phantomschallquellen für jede Richtung übereinstimmen. Aus diesem Grund muss mit Hilfe richtender Mikrofone eine ausreichende Kanaltrennung realisiert werden, 15 dB sind dabei ausreichend.
Abb. 5/42. Übersprechen von Phantomschallquellen bei Dreikanal-Stereomikrofonen. In diesem Beispiel sind die Phantomschallquellen C-R und L-R unerwünscht.
Eine geeignete Konfiguration ist das sog. OCT-Verfahren (Optimised Cardioid Triangle) [Theile, 2000]. Die prinzipielle Anordnung ist in Abb. 5/43 dargestellt. Als Mikrofoncharakteristiken für L und R werden Supernieren verwendet, welche um jeweils 90° nach außen gerichtet sind, um eine größtmögliche Übersprechdämpfung zu erhalten. Sie sollten für den
5.4 Mehrkanal-Stereofonie
311
Schalleinfallswinkel α = 30° freifeldentzerrt sein. Als Centermikrofon findet die Nierencharakteristik Anwendung, es ist um den Abstand h = 8 cm nach vorn versetzt, für Superniere ist h = 12 cm. Die Basisbreite b ist wählbar und bestimmt den Aufnahmebereich der OCTAnordnung gemäß Tab. 5/12.
Abb. 5/43. OCT-Anordnung (Optimised Cardioid Triangle). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 8 cm, Basisbreite b: variabel, siehe Tab. 5/12.
Tab. 5/12. Aufnahmebereich der OCT-Mikrofonanordung (h = 8 cm).
Basis b
Aufnahmebereich empfohlen: 75 %
100 %
85 cm
72°
102°
70 cm 50 cm
80° 96°
118° 144°
Die Basisbreite b = 85 cm ergibt beispielsweise etwa die gleichen Aufnahmebereich wie ein ORTF-Mikrofon (vgl. Kap. 5.3.4.1) oder eine Klein-AB-Konfiguration mit der Mikrofonbasis 38 cm (vgl. Kap. 5.3.3.1). Auch die Abbildungskurven entsprechen den in Kap. 5.2.2.3 geforderten Verläufen. Der Centerkanal ermöglicht eine natürliche und ausgewogene Verteilung von Schallquellen über die stereofone Basis L-C-R. In der Mitte des Aufnahmesektors (α = 0°) beträgt die Übersprechdämpfung in den Kanälen L und R gegenüber dem Centerkanal C ca. 10 dB. Sie wird zur Seite hin größer und ist bei α = ± 30° bereits größer als 18 dB. Damit ist das Übersprechen vernachlässigbar klein, die Lokalisierungskurve L-C ist nur für den linken Bereich wirksam, und L-R nur für den rechten Bereich. Auch die Eigenschaften insbesondere hinsichtlich Klang- und Raumeindruck lassen sich mit zusätzlichen Maßnahmen optimieren.
312
5 Tonaufnahme und Tonwiedergabe
OCT2, Raumeindruck und Abwärtskompatibilität Eine Modifikation gemäß Abb. 5/44 ermöglicht es, die oft gewünschte klangliche Wirkung von Laufzeitverfahren im diffusen Schallfeld zu erzielen, vergleichbar beispielsweise mit Klein-AB oder dem Decca-Tree. Gleichzeitig wird erreicht, die Wiedergabequalität zu erhalten, wenn im Falle des Downmix für Zweikanal-Wiedergabe der Center mit − 3 dB den Kanälen L und R zugemischt wird, siehe Kap. 5.4.5. Das Center-Mikrofon befindet sich 40 cm vor der Mikrofonbasis. Um die Abbildungskurven weitgehend unberührt zu lassen, wird das Centersignal um 1 ms verzögert. Man kann sich mit Hilfe des [Image Assistant] überzeugen, dass die sog. OCT2-Konfiguration im Prinzip identische Eigenschaften bezüglich der Richtungsabbildung hat wie die ursprüngliche OCT-Version. Die Aufnahmewinkel sind jedoch kleiner bei gleicher Basisbreite, siehe Tab. 5/13.
Abb. 5/44. OCT2-Anordnung (Optimised Cardioid Triangle, Version 2). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 40 cm, Basisbreite b: variabel, Delay Δt: 1 ms.
Tab. 5/13. Aufnahmebereichl der OCT2-Anordung (h = 40cm, t = 1 ms)
Basis b 70 cm 50 cm 35 cm
Aufnahmebereich empfohlen: 75 %
100 %
66° 74° 82°
90° 100° 111°
5.4 Mehrkanal-Stereofonie
313
Aufnahme tiefer Frequenzen Druckempfänger zeichnen sich durch ihren hervorragenden Frequenzgang im tieffrequenten Bereich aus. Um diese Eigenschaft in der OCT-Konfiguration zu nutzen, gibt es zwei Möglichkeiten, sie sind in Abb. 5/45 dargestellt. In den Konfigurationen A werden die Supernieren L und R mit zwei Kugeln ergänzt, wobei die Signale mit jeweils einem Tiefpass begrenzt sind, so dass die systembedingten Schwächen im Bassbereich der Supernieren aufgehoben werden. Die Kugeln können bei Bedarf mit größerer Basisbreite angeordnet sein. Dies hat den Effekt, dass auch der aufgenommene tieffrequente diffuse Schall eine Dekorrelation aufweist. Konfiguration B erspart zwei zusätzliche Mikrofone, liefert aber lediglich ein monofones tieffrequentes Signal im Center-Kanal. Die Abbildungskurven gemäß Abb. 5/13 in Kap. 5.2.2.3 bleiben weitgehend erhalten. Der Anteil des Diffusschalls im Center-Kanal wird allerdings um etwa 5 dB erhöht.
Abb. 5/45. OCT-Anordnung mit optimierter Tiefenwiedergabe. Mikrofon C1: Niere, Mikrofone L1 und R1: Superniere, Mikrofone L2 und R2: Kugel mit Tiefpass, Mikrofon C0: Kugel.
Im praktischen Einsatz erfordert die OCT-Anordnung eine genaue Einhaltung der Mikrofon abstände und die sorgfältige Wahl der Positionierung und der Einstellung des Aufnahmewinkels. Da die gewünschte Balance zwischen Direkt- und Diffusschall, auch als R/D-Ratio bezeichnet, wegen der gegebenen Richtcharakteristiken der Mikrofone nur durch die Wahl der Entfernung zum Klangkörper hergestellt werden kann, muss dies der erste Schritt sein. Steht die Entfernung fest, wird daran der Aufnahmewinkel angepasst. Platziert man das Hauptmikrofon hoch, können bei einem tief gestaffelten Klangkörper die akustischen Ungleichheiten zwischen nahen und entfernten Schallquellen verringert werden.
314
5 Tonaufnahme und Tonwiedergabe
5.4.3 Einsatz der Surround-Kanäle Mit den Surround-Kanälen ergeben sich in vielerlei Hinsicht besondere künstlerische Möglichkeiten der Klangdarstellung. Das betrifft nicht nur die räumliche Auffächerung von lokalisierbaren statischen und bewegten Schallquellen außerhalb der stereofonen Abbildungsebene L-C-R bei Musik, Hörspiel, Off-Effekten im Film u. a. Oft von größerer Bedeutung sind die erreichbaren Wiedergabequalitäten für verschiedene Attribute des Hörens, beispielsweise reale räumliche Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung, die vom akustischen Ambiente geprägt sind (vgl. Kap. 5.2.4). Hinsichtlich der Aufnahmetechnik sind zwei Arten des darzustellenden akustischen Ambientes zu unterscheiden: indirekter Schall aus Reflexionen und Nachhall und Atmo aus direktem, aber diffus eintreffenden, nicht reflektierten Schall und nicht lokalisierbaren Quellen. Indirekter Schall, Reflexionen und Nachhall Die indirekten Schallanteile dienen der Darstellung bzw. Simulation des Aufnahmeraums und können eine „akustische Transformation“ des Hörers aus dem Wiedergabe- in den Aufnahmeraum ermöglichen, wenn die Surround-Kanäle hierzu eingesetzt werden. Besonders für Aufnahmen klassischer Musik besteht – verstärkt durch die Möglichkeiten der Mehrkanal-Stereofonie – häufig der Wunsch, die Natürlichkeit eines akustisch guten Raums adäquat abzubilden oder zu generieren. Die verschiedenen Wege, einen solchen Surround zu realisieren, entsprechen dabei den bekannten Techniken, z. B. mit Hilfe von Raummikrofonen im Aufnahmeraum oder durch die künstliche Nachbildung der indirekten Schallanteile mittels digitaler Effektgeräte. Diese Raumprozessoren basieren meistens auf Faltungstechniken, wobei die Rauminformationen entweder aus Messungen in bestehenden, als akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. Atmo, diffuser nicht reflektierter Schall und nicht lokalisierbare Quellen Damit sind Umgebungsgeräusche gemeint, die keinen Beitrag für raumbezogene Attribute des Klangbilds liefern, allgemein spricht man hier von der vom Filmton bekannten Atmo. Das akustische Ambiente wird gebildet aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen. Beispiele dafür sind das Blätterrauschen des Walds, Publikumsgeräusche und -reaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Im Gegensatz zum indirekten Schall kann dieser Anteil des akustischen Ambientes nicht mit Effektgeräten hergestellt werden. Für die Aufnahme gibt es oft besondere Anforderungen, die sich nicht mit denen für die Aufnahme der Rauminformationen decken. Sowohl für die Wiedergabe der Rauminformation als auch der Atmo werden die Surround-Kanäle LS und RS in Verbindung mit den vorderen Lautsprechern L und R eingesetzt, d. h., stereofone Beziehungen in den Signalpaaren L-LS bzw. R-RS sind notwendig für eine überzeugende Darstellung der räumlichen Situation (Abb. 5/46). Fehlen diese Signalbeziehungen, so kann der Höreindruck auseinander fallen in ein vorderes und ein hinteres Klangbild. Wie in Kap. 5.2.1.5 gezeigt, gewährleistet allerdings der seitliche Abbildungsbereich der 3/2-Lautsprecheranordnung nicht die stereofonen Darstellungsmöglichkeiten wie der
5.4 Mehrkanal-Stereofonie
315
vordere Abbildungsbereich L-C-R: Seitliche Phantomschallquellen sind instabil. Die Darstellung der Räumlichkeit setzt im Gegensatz zur Phantomschallquelle keine wahrgenommene Abbildung voraus, da die Signale eine Korrelation um Null aufweisen. Die Qualität der stereofonen Darstellung ist in Bezug auf räumliche Tiefe, der scheinbaren Schallquellenbreite, des räumlichen Eindrucks und der Umhüllung weitgehend unabhängig von der Position des Hörers im Wiedergaberaum.
Abb. 5/46. Anwendung der seitlichen stereofonen Bereiche für die räumliche Darstellung.
Vollkommen dekorrelierte Signale, die von zwei Lautsprechern wiedergegeben werden, erzeugen sehr präzise Hörereignisse in den beiden Lautsprechern, weil keine Phantomschallquellen entstehen. Sind diese dekorrelierten Signale von unterschiedlicher Gestalt [Theile, 1981/1], spricht man von zwei getrennten Hörereignissen, zum Beispiel das eine in L und das andere in LS. Reproduzieren die Lautsprecher jedoch Nachhall mit einer Korrelation um Null herum, entsteht eine auditive Verbindung zwischen zwei Lautsprechern; sie wird als „Wolke“ zwischen den Lautsprechern wahrgenommen. Dieses stereofone Phänomen ist stabil, es enthält aber keine Abbildung.
Abb. 5/47. Verwendung von vier stereofonen Bereichen zur Darstellung von Raumeindruck, Halligkeit und Umhüllung.
Die Situation ändert sich auch nicht, wenn vier Lautsprecherpaare gemäß Abb. 5/47 anstatt zwei verwendet werden, um weitgehend dekorrelierten Nachhall wiederzugeben. Der Hörer hat das Gefühl, von Raumschall umhüllt zu sein, als sei er im akustischen Geschehen, jedoch sind keine scharf lokalisierbaren Schallquellen zu hören. Vollständige Inkohärenz
316
5 Tonaufnahme und Tonwiedergabe
zwischen den Frontsignalen und den Surround-Signalen bedeutet, dass die seitlichen stereofonen Bereiche nicht für die Wiedergabe der Reflexionsmuster genutzt werden. Aus der Raumakustik weiß man, dass die natürlichen Reflexionsmuster in den seitlichen Bereichen L-LS und R-RS besonders wichtig sind. Daher ist es unerlässlich, eine auditive Verbindung zwischen der Front und Surround herzustellen, indem für alle vier beteiligten Lautsprecher Raumsignale aus dem Aufnahmeraum verwendet werden. Um mit der Aufnahme von diffusem, einhüllendem Schall optimale subjektive Diffusität und subjektive Umhüllung zu erzielen, sollten für die vier Mikrofone geeignete Abstände gewählt werden. Abb. 5/48 zeigt experimentelle Ergebnisse mit durch einen Bandpass auf 0,25 bis 2,5 kHz begrenztem Rauschen zur Wirkung der Kohärenz zwischen den Kanälen in einer quadratischen Lautsprecheranordnung [Theile, 2000]. Man erkennt, dass der Grad der subjektiven Diffusität oder der subjektiven Umhüllung vom Abstand d der quadratischen Mikrofonanordnung abhängt. Ist d zu groß, folgt daraus eine Verminderung der subjektiven Umhüllung. Die ausgewogene Verteilung der umhüllenden Quellen bricht ein und es bilden sich „Hörereigniswolken“ in den Bereichen um die Lautsprecher. Ist d allerdings zu klein, so wird eine instabile Phantomquelle über dem Kopf des Hörers wahrnehmbar und die subjektive Umhüllung verschwindet entsprechend. Es ist zu beachten, dass insbesondere tiefe Frequenzen unterhalb von 200 Hz einen großen Einfluss auf das Maß der Umhüllung haben [Griesinger, 1998]. Dies hängt damit zusammen, dass tiefe Frequenzen zu einer ausgeprägteren auditiven Verbindung führen als hohe Frequenzen; bei Zweikanal-Stereo ist dies u. a. an den ausgeprägten Verdeckungseffekten tiefer Frequenzen zu erkennen. Damit tiefe Frequenzen eine Korrelation um Null aufweisen, sind allerdings wesentlich größere Abstände zwischen den Mikrofonen notwendig [Nipkow, 2012]. Zudem ist es zielführend, Mikrofone mit Kugelcharakteristik zu verwenden, damit auch tiefste Frequenzen unter 50 Hz uneingeschränkt eingefangen werden können.
Abb. 5/48. Auswirkung der Kohärenz auf die subjektive Diffusität [Theile, 2000]. Richtungswahrnehmung in einem diffusen Schallfeld, welches durch das abgestrahlte Rauschen (0,25 bis 2,5 kHz) von vier Lautsprechern mit Kohärenzfaktoren k = 0,2 und k = 0,35 erzeugt wurde. Das Rauschen wurde in einem Hallraum mittels verteilter Kugelmikrofone, Abstände d = 60 und 25 cm aufgenommen. Dunklere Bereiche markieren höhere statistische Häufigkeiten von Hörereignissen mit Richtungsinformationen.
5.4 Mehrkanal-Stereofonie
317
Prinzipiell sind wenigstens vier äquivalente stereofone Kanäle anzustreben, um einen realistischen Raumeindruck und eine überzeugende Umhüllung zu erreichen. Das gilt auch für Aufnahmen, die mit einem zusätzlichen Raummikrofonen gemacht werden. Die Größe der Hörzone innerhalb eines Lautsprecher-Setups ist einerseits abhängig von der Raumakustik – je trockener der Wiedergaberaum ist, desto kleiner ist die Hörzone, andererseits von der Anzahl der Lautsprecher, die Diffusschall mit gleichem Pegel abstrahlen. Die mindestens notwendige Lautsprecheranzahl für eine umhüllende Wirkung ist vier, sie erlaubt jedoch nur eine kleine Hörzone (Abb. 5/49, links). Außerhalb der Hörzone führen Lautstärkenunterschiede zur Lokalisation des näheren Lautsprechers, so dass der Höreindruck der Umhüllung verloren geht. Eine höhere Anzahl von Lautsprechern vergrößert die Hörzone, dargestellt mit 12 Lautsprechern in Abb. 5/49 (rechts). Zu achten ist auf ausreichend geringe Korrelation zwischen den einzelnen Kanälen.
Abb. 5/49. Umhüllung ist mit vier Lautsprechern nur für eine kleine Hörzone darstellbar. Eine größere Lautsprecheranzahl, z. B. 12, vermindert die Gefahr der Lokalisation von Lautsprechern außerhalb des Sweetspots.
5.4.3.1 Surround Sound-Hauptmikrofone Der Begriff Hauptmikrofon wird heutzutage in verschiedenen Bedeutungen benutzt und die Gewichtung der charakteristischen Eigenschaften kann in Zwei- oder Fünfkanalanwendungen unterschiedlich sein. Im Prinzip sollte das 3/2-Stereo-Hauptmikrofon zwei psychoakustische Funktionen kombinieren: –– Abbildung der Richtung: Aufnahme des Direktschalls für die Richtungsdarstellung der aufgenommenen Schallquellen gemäß der Abbildungskurve, –– Abbildung des Raums: Aufnahme des indirekten und diffusen Schalls für die Darstellung räumlicher Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung. Diese Doppelfunktionen kann bei konventioneller Zweikanal-Stereofonie mit einem geeigneten Stereo-Hauptmikrofon mit guten Ergebnissen bewältigt werden. Auch für Mehrkanalhauptmikrofone gibt es Lösungen. Im Folgenden werden zwei Lösungen erörtert, welche
318
5 Tonaufnahme und Tonwiedergabe
auf den in Kap. 5.4.2 gezeigten L-C-R-Konfigurationen basieren. Voraussetzungen für gute Aufnahmen sind immer geeignete Aufnahmebedingungen und der richtige Mikrofonstandort, der eine adäquate Richtungsabbildung wie auch die adäquate Balance zwischen Direktschall und indirekten Schallanteilen ermöglicht, die sog. R/D-Ratio. Fukada-Tree Der sog. Fukada-Tree (Abb. 5/50) basiert für die Abbildung des Klangkörpers auf der Dreiecksaufstellung L‑C‑R, die eine modifizierte Variante des Decca-Tree darstellt, wobei an Stelle der Kugelcharakteristik Nieren benutzt werden [Bruck, 1998]. Dies reduziert den Pegel des diffusen Schallfelds. Auf Grund der großen Mikrofonabstände gibt es wie beim Decca-Tree keine brauchbare Abbildungskurve (Kap. 5.4.2.3). Als Folge des Gesetzes der ersten Wellenfront werden alle Schallquellen von der linken Seite links und Schallquellen von der rechten Seite rechts lokalisiert. Schallquellen im Aufnahmewinkelbereich um ± 35° werden in der Nähe des Centers wiedergegeben, Schallquellen außerhalb des Bereichs ± 55° im oder nahe der Lautsprecher L oder R, der Abbildungsbereich beträgt 110°.
Abb. 5/50. Fukada-Tree, Mikrofone L, C, R, LS, RS: Niere, Mikrofone LL und RR: Kugel.
Die räumliche Darstellung wird durch die Mikrofone L, R, RS, LS realisiert, die ein ca. 1.8 m großes Quadrat bilden: Ihre Abstände können je nach Gegebenheiten variiert werden. Die 45°-Ausrichtungen der L- bzw. R‑Nieren bewirken einerseits eine Reduktion des Übersprechens um etwa 4 bis 6 dB, abhängig von der Schalleinfallsrichtung, und andererseits eine gute Erfassung der Seitenbereiche. Die 135°-Ausrichtungen der LS- bzw. RS‑Nieren dient
5.4 Mehrkanal-Stereofonie
319
ebenfalls zwei Zwecken: Der Direktschall wird um 8 bis 18 dB bedämpft, abhängig von der Schalleinfallsrichtung. Gleichzeitig arbeiten die Mikrofonpaare L-LS bzw. R-RS für den wichtigen Seitenschall quasi als Groß-AB-Anordnung, die Richtcharakteristiken erzeugen nur kleine Pegeldifferenzen bis maximal etwa 3 dB. Zusätzlich ergänzen die Kugelmikrofone LL und RR die Seiten LL und RR. Sie werden den Signalpaaren L-LS bzw. R-RS vorsichtig zugemischt, um die Orchesterbreite zu vergrößern und die klangliche Verbindung zwischen Front- und Surround-Lautsprechern zu verstärken. Diese Anordnung mit großen Mikrofonabständen liefert zwar keine ausgewogene Richtungsabbildung, jedoch ein offenes Klangbild, das durch räumliche Tiefe, Raumeindruck und Umhüllung gekennzeichnet ist. Der Aufstellungsort für diese Konstellation liegt normalerweise einige Meter über und hinter dem Dirigenten, wobei der genaue Standort – wie allgemein üblich – durch kritisches Hören optimiert werden muss. OCT-Surround Ergänzt man die OCT- bzw. die OCT2-Mikrofonanordnung mit Surround-Mikrofonen LS und RS mit Nierencharakteristik gemäß Abb. 5/51, so lassen sich Vorteile der ausgewogenen stabilen Richtungsabbildung und des variablen Abbildungsbereichs vereinen mit guten räumlichen Abbildungseigenschaften. Es ist wichtig, dass das Direktsignal von vorne in den Surround-Kanälen möglichst weitgehend unterdrückt wird. Aus diesem Grund sind die Nieren LS und RS nach hinten ausgerichtet, die damit erzielte Unterdrückung ist für alle Richtungen im Abbildungsbereich der OCT-Anordnung größer als 15 dB.
Abb. 5/51. OCT-Surround, Mikrofone L und R: Superniere, Mikrofon C: Niere, Mikrofone LS und RS: Niere.
Gleichzeitig ermöglicht die Anordnung der Nieren LS und RS in Verbindung mit L und R eine stereofone Aufnahme der ersten Reflexionen aus dem seitlichen und hinteren Richtungsbereich. Der mit 40 cm relativ nahe Abstand von LS und RS zu den vorderen Mikrofonen L und R führt zu den gemäß Lokalisierungskurven gewünschten Laufzeitdifferenzen. Betrachtet man das seitliche stereofone Paar L-LS oder R-RS unter der Annahme einer seitlichen Reflexion, so
320
5 Tonaufnahme und Tonwiedergabe
ergibt sich aus der Richtcharakteristik der Mikrofone ein Pegelunterschied von 6 dB. Die geometrische Konfiguration bewirkt jedoch, dass seitliche Reflexionen etwa 0.3 ms später von den Mikrofonen L bzw. R aufgenommen werden. Damit kompensiert das Delay den um 6 dB kleineren Pegel in LS bzw. RS. Im rückseitigen stereofonen Mikrofonpaar LS-RS beträgt die Pegeldifferenz immer ΔL = 0 dB, d. h., für die rückseitige Aufnahme ist eine reine AB-Mikrofonierung mit dem Mikrofonabstand b + 20 cm wirksam. Insgesamt erfüllt das OCT-Surround-Hauptmikrofon die oben gestellten Anforderungen hinsichtlich Richtungs- und Räumlichkeitsabbildung. Die natürliche Pegelbalance von Direktschall, frühen Reflexionen von allen Seiten und Nachhall bleiben erhalten, der Pegel des Diffusschalls ist in allen Kanälen ausgeglichen, eine genügende Korrelation ist sichergestellt. Wie bei allen Mikrofonierungen hängt beim OCT-Surround-System der Erfolg von der richtigen Positionierung ab, die viele Parameter berücksichtigen und in Übereinstimmung bringen muss wie Lautstärke- und Richtungsbalance, Direkt-Diffusschall-Verhältnis (R/D-Ratio), Klangfarbe, Breite des Klangkörpers, Applaus, Atmo des Publikums usw. Ein variabler Aufnahmebereich erleichtert diese Aufgabe. Damit kann zunächst der optimale Mikrofonstandort hinsichtlich R/D-Ratio und Klangfarbe gewählt werden. Erst wenn dieser gefunden ist, wird der Aufnahmewinkel entsprechend der gegebenen Ausdehnung des Klangkörpers eingestellt. Doppel-MS Das MS-Mikrofonverfahren (siehe Kap. 5.3.2.2) bietet gewisse Vorteile gegenüber diskreten Mikrofonierungen. Sie bestehen v. a. in der Flexibilität des Formats und der Möglichkeiten der Bearbeitung in der Postproduktion. Es liegt nahe, diese Vorteile auch bei Mehrkanaltonaufnahmen zu nutzen. Weitere Argumente sind die hohe Kompaktheit des Aufbaus und die perfekte Monokompatibilität. Daher wurde in den 1990er Jahren eine MS-Aufnahmetechnik für Surround entwickelt, die später den Namen Doppel-MS-Technik erhielt, man kann auch von einem Mehrkanal-Koinzidenzmikrofon sprechen. Bei dieser Technik wird einem nach vorne gerichteten MS-Mikrofonpaar, bestehend aus Niere und Acht eine weitere, nach hinten gerichtete Niere hinzugefügt. Diese Niere bildet mit derselben Acht ein weiteres MS-Mikrofonpaar, daher der Name Doppel-MS-Technik. Aus drei Mikrofonen werden also zwei MSPaare gebildet. Abb. 5/52 veranschaulicht das Prinzip.
Abb. 5/52. Doppel-MS-Mikrofonanordnung.
Die praktische Realisierung dieser Mikrofontechnik erfordert hinreichend kleine Mikrofone und eine geeignete Aufhängung, um größere Abstände zwischen den Kapseln und damit
5.4 Mehrkanal-Stereofonie
321
Kammfiltereffekte im hörbaren Bereich zu vermeiden. Abb. 5/53 zeigt als Beispiel eine solche Standardaufhängung für Doppel-MS-Aufnahmen. Analog zur Zweikanal-MS-Technik müssen die drei Mikrofonsignale durch Summen- und Differenzbildung zu diskreten Signalen dematriziert werden. Die einfachste und am meisten verbreitete Methode ist eine separate Decodierung der Mikrofonpaare vordere Niere/Acht, die L und R ergibt, und hintere Niere/Acht, die LS und RS ergibt. Das Signal der vorderen Niere kann außerdem dem Centerkanal zugeführt werden.
Abb. 5/53. Realisierungsbeispiel der Doppel-MS-Technik mit gemeinsamer, gefederter Aufhängung von Kompaktmikrofonen.
Eine verbesserte Decodierung hinsichtlich der Signaltrennung und der Vermeidung von Übersprechen zwischen den decodierten Lautsprechersignalen kann erreicht werden, wenn jeweils alle drei Mikrofone zur Decodierung herangezogen werden. Dies löst ein grundsätzliches Problem der MS-Technik: Bei der konventionellen Zweikanal-MS-Aufnahme hängen Versatzwinkel und Richtcharakteristik der dematrizierten virtuellen Mikrofone voneinander ab, denn eine Zumischung des Achtermikrofons bewirkt stets sowohl die Vergrößerung des Versatzwinkels als auch die Veränderung der decodierten Richtcharakteristik. Bei der Doppel-MS-Technik hingegen kann jedes virtuelle Mikrofon jede beliebige Ausrichtung und Richtcharakteristik erhalten. Hierdurch verbessert sich die Signaltrennung und dies führt zu einer Verringerung der Korrelation der Kanäle mit klanglichen Vorteilen. Die Doppel-MSTechnik wird vielfach bei Reportagen und Dokumentationen eingesetzt, wo es auf Kompaktheit des Mikrofonsystems, einfache Handhabbarkeit und Flexibilität besonders ankommt. Näheres dazu in Kap. 5.4.3.3. KFM-Surround Diese Aufnahmetechnik für Mehrkanalton basiert auf einer Variante des Kugelflächenmikrofons, dem KFM 360 [Bruck, 1998]. Eigenschaften des Kugelflächenmikrofons, wie die
322
5 Tonaufnahme und Tonwiedergabe
besonders natürliche räumliche Abbildung (siehe Kap. 5.3.4.3), sollen so auf Mehrkanalton übertragen werden. Die vorderen und rückwärtigen Signale werden dadurch erzeugt, dass die beiden Mikrofone des KFM zusammen mit jeweils einem Achtermikrofon ein MS-Paar ergeben. Die Summe der Mikrofonsignale ergibt jeweils den vorderen Kanal, die Differenz den hinteren Kanal. Dies ist für die rechte Seite der Aufnahmezone in Abb. 5/54 veranschaulicht, eine konkrete Realisierung zeigt Abb. 5/55.
Abb. 5/54. Die Lautsprechersignale entstehen beim KFMSurround durch Dematrizierung analog zur MS-Technik
Wie bei der MS-Technik kann mit diesem System die Dematrizierung abgestuft erfolgen und eine flexible Mischung auch in der Postproduktion erstellt werden. Die hierdurch entstehenden Mikrofoncharakteristiken sind – wie die seitlichen Achten – nach vorn und hinten ausgerichtet. Sie lassen sich jeweils über die Niere bis zur Acht variieren, wobei die Charakteristik der beiden rückwärtigen Kanäle eine andere sein kann als bei den vorderen. Das erlaubt eine auch nachträgliche flexible Anpassung an die Aufnahmesituation.
Abb. 5/55. Realisierung des KFM-Surround-Verfahrens mit dem KFM 360.
5.4 Mehrkanal-Stereofonie
323
Die vier so erhaltenen Kanäle ergeben eine Surround-Wiedergabe ohne Center-Kanal. Dieser kann in verschiedenen Fällen auch entbehrlich sein, wenn zusätzliche Stabilität im vorderen Abbildungsbereich keinen Vorteil bringt. Er kann auch zusätzlich gewonnen werden, beispielsweise durch Zumischung eines Solistenmikrofons. Die Nutzung des Centerkanals allein für die stabile und präzise Darstellung eines Solisten ist sicherlich lohnend. Jedoch sollte nicht übersehen werden, dass zu diesem Zweck mit studiotechnischen Mitteln ein passender Entfernungs- und Raumeindruck geschaffen werden muss, so dass sich der Solist harmonisch in das akustische Umfeld einfügt (siehe Kap. 5.4.4). 5.4.3.2 Raummikrofone Im vorangegangenen Kapitel ist deutlich geworden, dass 3/2-Stereo-Hauptmikrofone nur sinnvoll eingesetzt werden können, wenn die Schallfeldverhältnisse bei der Aufnahme sowohl Richtungsabbildung als auch Raumdarstellung zulassen. Es muss ein Mikrofon-Standort existieren, wo der Direktschall eine ausgewogene Richtungsabbildung und gleichzeitig der indirekte und diffuse Schall die Darstellung der räumlichen Tiefe, der Räumlichkeit, der Halligkeit, des Raumeindrucks und der Umhüllung ermöglichen. Wesentlich flexiblere Lösungen bilden aber die Verfahren, die das Hauptmikrofon lediglich zur Richtungsdarstellung in der L-C-R-Abbildungsebene einsetzen und separat davon spezielle Raummikrofon-Anordnungen für die räumlichen Eigenschaften des Klangbilds nutzen. Grundsätzlich ist aus den in Kap. 5.4.3 behandelten Gründen als Raummikrofon nur eine vierkanalige Konfiguration zu empfehlen, wobei die Signale der rückwärtigen Mikrofone auf die Surround-Kanäle LS bzw. RS gegeben und die des vorderen Raumikrofonpaars den Kanälen L bzw. R beigemischt werden. Welche Konfiguration eines VierkanalRaummikrofons geeignet ist, hängt von der Schallfeldsituation und von den praktischen Gegebenheiten ab. Hamasaki-Square Hervorragend bewährt hat sich bei diversen Konzertsaal-Aufnahmesituationen der sog. Hamasaki-Square [Hamasaki, 2000], entsprechend Abb. 5/56. Er besteht aus vier in einem Quadrat angeordneten Mikrofonen mit Achtcharakteristik, die Mikrofonabstände d betragen 1 bis 3 m. Die Mikrofonachsen liegen quer zur Bühne, um den Pegel des Direktsignals so weit wie möglich zu reduzieren. Die Unterdrückung ist im vorderen Schalleinfallsbereich bei ± 15° größer als 12 dB. Sie nimmt zur Seite hin ab, bei ± 30° sind es nur noch 6 dB. Die Mikrofone LB und RB können den Kanälen L und R zugeordnet oder zwischen L‑LS bzw. R‑RS eingeordnet werden. Ebenso wird der rückwärtige Direktschall stark abgeschwächt, dies hat manchmal Vorteile in Hinblick auf Geräusche aus dem Auditorium. Auch weiß man, dass erste Reflexionen aus der Medianebene eher schädlich als nützlich sind. Zur Seite hin wirken die Mikrofonpaare LS-LB bzw. RS-RB wie Groß-AB-Anordnungen. Hierin liegen die besondere Eigenschaft und der große Vorteil bei Aufnahmen im Konzertsaal, nur der Seitenschall wird erfasst, dies geschieht mit Groß-AB-Laufzeitstereofonie.
324
5 Tonaufnahme und Tonwiedergabe
Abb. 5/56. Raummikrofon-Konfiguration Hamasaki-Square.
Abb. 5/57. Berücksichtigung von psychoakustischen Phänomenen für natürliche Aufnahmen. Phänomene beim Hawasaki-Square.
Abb. 5/57 zeigt das Zusammenwirken der zwei Werkzeuge, das L-C-R-Hauptmikrofon für die Richtungsabbildung des Klangkörpers und die separate Konfiguration LB, RB, RS, LS für die räumliche Abbildung. Die Kanäle LF und LB werden kombiniert zu L, die Kanäle RF und RB zu R. Das L‑C‑R-Hauptmikrofon wie auch die Raummikrofonkonfiguration lassen sich unabhängig voneinander nach der jeweiligen künstlerischen Absicht positionieren. Das Raummikrofon kann beispielsweise problemlos weit entfernt vom Hallradius entfernt aufgestellt werden, um frühe Reflexionen, ein optimales R/D-Verhältnis, adäquate Dichte und Klangfarbe zu erhalten, aber auch weit entfernt vom Auditorium, um Störgeräusche zu vermeiden. Die optimale Verzögerung zwischen Haupt- und Raummikrofonanordnung ist ebenfalls konfigurier-
5.4 Mehrkanal-Stereofonie
325
bar, ohne dass die stereofone Information des Hamasaki-Square verändert werden muss (vgl. Kap. 5.4.4). Dies gilt für jede räumlich getrennte Hauptmikrofonanordnung. Es ist zu beachten, dass die Verwendung von Mikrofonen mit Richtcharakteristik Acht zu einem Abfall tiefer Frequenzen führt, weil es sich um reine Druckgradientenempfänger handelt. Die Signale des Hamasaki-Square weisen deshalb bei tiefen Frequenzen eine wesentlich weniger stark ausgeprägte Umhüllung auf. Theile-Trapez In vielen Aufnahmesituationen haben die frühen seitlichen Reflexionen nur eine geringe oder keine Bedeutung. Beispielsweise geht es bei der Aufnahme von Live-Popmusik eher darum, die Reaktion des Publikums und das akustische Ambiente darzustellen. Dabei muss ebenfalls der Direktschall, der in diesem Fall von der Beschallungsanlage kommt, möglichst stark unterdrückt werden, und eine korrekte Richtungsabbildung ist meistens unwesentlich. Daher kann die Anordnung aus vier richtenden Mikrofonen so konfiguriert und ihre Platzierung so gewählt werden, dass das akustische Ambiente einerseits ohne störenden Direktschall bleibt und andererseits eine zufriedenstellende akustische Umhüllung erzeugt wird. Beim Theile- oder Nieren-Trapez weisen alle Nieren nach hinten, um Direktschall aus dem vorderen Halbraum auszublenden (d = 60 cm). Ein Beispiel dafür zeigt Abb. 5/58. Die nach rückwärts ausgerichteten Nieren in der trapezförmigen Anordnung bewirken, dass Schall aus dem vorderen Halbraum weitgehend ausgeblendet wird. Die Unterdrückung ist im Schalleinfallsbereich ± 45° größer als 15 dB und damit wesentlich wirkungsvoller im Vergleich zum oben erläuterten Hamasaki-Square. Der Pegel einer Schallquelle, die von hinten nach vorne wandert, nimmt kontinuierlich ab gemäß der Richtwirkung der Niere, also bezogen auf die Richtung von hinten nach vorne, beginnend hinten bei 180° mit 0 dB, bei 120° mit – 3 dB, bei 60° mit – 11 dB, bei 30° mit – 18 dB. Alle drei Stereo-Mikrofonpaare LB-LS, LS-RS und RS-RB wirken dabei in identischer Weise als reine Klein-AB-Anordnungen, aus den Abständen d = 60 cm ergibt sich ein Aufnahmebereich von 60° für jeden der drei Aufnahmesektoren.
Abb. 5/58. Theile-Trapez für Atmo-Aufnahmen aus dem rückwärtigen Halbraum.
326
5 Tonaufnahme und Tonwiedergabe
5.4.3.3 Reportage und Dokumentation Für Surround-Aufnahmen der akustischen Atmosphäre, der Atmo, sind verschiedene, mindestens vierkanalige Mikrofon-Konfigurationen geeignet. Um die gewünschte Umhüllung gemäß Abb. 5/57 zu erreichen, muss nicht der Centerkanal einbezogen werden, denn eine richtungsstabile Abbildung von Schallquellen ist nicht wichtig. Vielmehr geht es um die Darstellung umgebender Geräusche und diffusen Schalls, wobei alle vier Seiten eine gleichwertige Bedeutung haben. In der Praxis der Atmo-Aufnahme kommt es zudem darauf an, dass die Mikrofon-Konfigurationen möglichst kompakt und einfach handhabbar sind. Doppel-MS Diesbezüglich besonders geeignet ist die in Kap. 5.4.3.1 bereits beschriebene Doppel-MSTechnik. Sie wird in der Praxis besonders da eingesetzt, wo die Möglichkeit der flexiblen Bearbeitung in der Nachbearbeitung, Kompaktheit – die gesamte Anordnung lässt sich in einem Windkorb unterbringen – sowie Monokompatiblität vorrangig sind. Dies ist hauptsächlich bei Filmton und Sportübertragungen sowie für Publikums-Atmo in TV-Shows der Fall, aber auch bei Hörspielen, Features und Dokumentationen. Das Doppel-MS-Verfahren kann auch mit einem Richtrohr aufgebaut werden, das beim Filmton für die Dialogaufnahme Standard ist. Da bei Dokumentationen und in der aktuellen Berichterstattung kein separates Atmo-Mikrofon möglich ist, wird der Mehrkanalton aus dem Richtrohr und zwei an ihm angebrachten Kompaktmikrofonen gebildet. Abb. 5/59 zeigt diese Speziallösung.
Abb. 5/59. Beispiel einer Mikrofonanordnung in Doppel-MS-Technik mit einem Richtrohr.
IRT-Kreuz Ein Alternative für die Atmo-Aufnahme ist das sog. IRT-Kreuz (Abb. 5/60). Die vollkommen symmetrische Kapselanordnung gewährleistet für die Signalpaare L-R, R-RS, RS-LS und LS-L eine gleichwertige Korrelation im diffusen Schallfeld sowie eine gute stereofone Qualität der umgebenden Geräusche. Die Versatzwinkel zwischen den Mikrofonachsen betragen 90°. Der Abstand der Mikrofone sollte 25 cm betragen, damit sich für jedes der Mikrofonpaare ein Abbildungswinkel von 90° ergibt. Besonders bewährt hat sich das kompakte Atmo-Kreuz bei Sportübertragungen, Talkshows und im Bereich der Dokumentation, wobei der Centerkanal frei bleibt und eine separate Handhabung von Kommentar, Dialog oder anderen, z. B. bildbezogenen Signalquellen
5.4 Mehrkanal-Stereofonie
327
erlaubt. Für den Einsatz als Raummikrofon im Konzertsaal ist die Anordnung weniger geeignet, da der Direktschall des Klangkörpers nicht unterdrückt wird. Für den Einsatzbereich einer wirklichkeitsnahen Dokumentation der akustischen Umgebung ist die Positionierung des Atmo-Mikrofons in den meisten Situationen unkritisch. Die folgenden Einschränkungen sind zu beachten: –– Im Fall einer Bilddokumentation besteht die Gefahr einer Diskrepanz zwischen akustischer und optischer Richtung, wenn das Mikrofon bildbezogene Quellen aufnimmt. Besonders störend ist eine Seitendiskrepanz, z. B. wenn eine linke Bildquelle akustisch rechts erscheint und umgekehrt. Generell sollten Richtungsdarstellungen für bildbezogene Quellen vermieden werden. –– Schallquellen in der Nähe des Atmo-Mikrofons sollten bei einem Mindestabstand von 3 m vermieden werden. Eine Quelle nahe am Mikrofon wird bei der Wiedergabe ähnlich nahe am Lautsprecher wahrgenommen. Für die realitätsnahe Umhüllung, d. h., für die Illusion einer kopfnahen akustischen Umgebung ist dies problematisch, weil die Lautsprecherentfernung verstärkt als Grenze des Hörereignisraumes wahrgenommen werden kann. Beispielsweise würde beim Applaus der Hörer um sich herum leicht eine „akustisch leere Blase“ empfinden, wenn das Atmo-Mikrofon zu nahe am Publikum aufgestellt wäre.
Abb. 5/60. IRT-Kreuz für Atmo-Aufnahmen
5.4.4 Verwendung von Delay Die natürliche Abbildung der Tiefe und der Räumlichkeitseindruck erfordern eine sorgfältige Handhabung der Verzögerungssituation; darauf beruht das Prinzip der raumbezogenen Stütztechnik [Theile, 1984], [Wöhr, 1991], [Theile, 1991], [Hugonnet, 1998], das in Kap. 5.3.5.3 beschrieben wurde. Dies gilt entsprechend für die Mehrkanaltechnik, jedoch muss sichergestellt sein, dass das Raummikrofon die im vorangegangenen Abschnitt beschriebene Abbildung des indirekten Schalls auch hinsichtlich der zeitlichen Struktur gewährleistet. Die Verzögerungen werden so gestaltet, dass sie dem Reflexionsmuster des Aufnahmeraums bzw. eines anderen Raums bei künstlicher Verhallung entsprechen. Dies unterstützt die Natürlichkeit des Raumeindrucks und die Darstellung räumlicher Tiefe. Hervorzuheben ist, dass dieses Konzept nicht auf das Haupt-Stützmikrofonverfahren beschränkt ist, sondern auch
328
5 Tonaufnahme und Tonwiedergabe
entsprechend für die Einzelmikrofonverfahren (Kap. 5.3.6) angewendet werden kann [Noussaine, 1997], [Zacharov, 1998], [Griesinger, 2000].
5.4.4.1 Delay bei Einsatz von Hauptmikrofonen Am Beispiel der Aufnahme eines Orchesters mit einem Hauptmikrofon, einem Raummikrofon und Stützmikrofonen. zeigt Abb. 5/61 das Grundkonzept notwendiger Verzögerungen. Für die nicht verzögerten Mikrofonsignale ergeben sich die fehlerhaften Zeitverhältnisse, dargestellt in der oberen Grafik. Nach korrekt eingesetzten Verzögerungen ergibt sich das gewünschte Reflexionsmuster in der unteren Grafik. Man erkennt, dass das Stützmikrofonsignal in der ursprünglichen Situation, wie oben dargestellt, früher wiedergegeben wird als das entsprechende Hauptmikrofonsignal. Als Folge davon interpretiert das Gehör das Stützmikrofonsignal als den Direktsignal, so dass die Lokalisierung und die bevorzugten Abbildungseigenschaften des Hauptmikrofons verloren gehen. Solche Aufnahmen klingen unnatürlich, ohne räumliche Tiefe und ohne adäquaten Raumeindruck. Dem lässt sich entgegenwirken, indem jedes Stützmikrofonsignal bezüglich Zeit- und Pegelverhältnissen als eine Anzahl von frühen Reflexionen dargestellt wird. Die Verzögerungen werden so gestaltet, dass das resultierende Stütz-Reflexionsmuster in den Bereich der frühen Reflexionen fällt, die vom Haupt- oder Raummikrofon aufgenommen werden. Um Klangfärbungsprobleme zu vermeiden und die Wahrnehmung der räumlichen Tiefe und des Raumeindrucks wirkungsvoll zu unterstützen, sollten mindestens vier räumlich und zeitlich verteilte Seitenreflexionen generiert werden. Die Qualität des Raumeindrucks für die gestützte Schallquelle kann ferner durch Hinzufügen eines adäquaten Nachhalls optimiert werden. Auf diese Weise kann die räumliche Qualität der stereofonen Aufnahme erhalten bleiben, und zugleich trägt das Stützmikrofonsignal zur gewünschten Klangbalance von Lautstärke, Transparenz usw. bei.
Abb. 5/61. Raumbezogene Stütztechnik für Haupt-, Stütz- und Raummikrofone.
5.4 Mehrkanal-Stereofonie
329
Da das Stützmikrofonsignal in Form einer Anzahl von verzögerten Reflexionen dem stereofonen Hauptmikrofonsignal hinzugefügt wird, ändert sich nicht die vom Hauptmikrofon gegebene Richtungsinformation. Folglich ist die raumbezogene Stütztechnik nicht geeignet, um die eventuell unbefriedigende Richtungsabbildung eines bestimmten Hauptmikrofons oder gravierende Mängel in der Lautstärkebalance zu verbessern. Vielmehr muss in diesen Fällen das Stützmikrofon den Direktschall des Hauptmikrofons ersetzen, d. h., mit Hilfe einer geeigneten Nachbearbeitung muss der passende indirekte Schall erzeugt werden, so dass er sich in das Reflexionsmuster des übrigen Klangkörpers einfügt. Da die Signale des Stützmikrofons und die entsprechenden Signalanteile des Hauptmikrofons inkohärent sind, gibt es keine Klangfärbungsprobleme durch Kammfiltereffekte. Das gestützte Instrument entspricht mit der raumbezogenen Nachbearbeitung bezüglich Entfernung und Klangfarbe dem gesamten Klangbild und kann problemlos mit der gewünschten Balance zugemischt werden. Auf diese Weise können beliebig viele Teile des Klangkörpers gestützt werden. Im Extremfall entfällt das Hauptmikrofon, die raumbezogene Stütztechnik wird dann durch das Einzelmikrofonverfahren ersetzt. Auch ohne Hauptmikrofon kann die gewünschte zeitliche Struktur von Direktschall, frühen Reflexionen und Nachhall für den gesamten Klangkörper hergestellt werden. Das ist mit den heutigen technischen Möglichkeiten in vielen Situationen ein praktikabler und sinnvoller Weg, denn er bietet Flexibilität und macht von den gegebenen raumakustischen, aufführungs- und produktionsbedingten Realitäten in hohem Maße unabhängig.
Abb. 5/62. Setzen des Bezugspunkts für den Delay-Plan.
Die Wahl der Positionierung des Raummikrofons ist bestimmt durch die Optimierung der frühen Reflexionen, des R/D-Verhältnisses und der Diffusität hinsichtlich räumlicher Tiefe, Raumeindruck und Umhüllung. Dies kann unabhängig von der Entfernung zum Hauptmi krofon geschehen. Wie aus Abb. 5/62 hervorgeht, wird zur Vermeidung von Echowirkungen die zu große Entfernung korrigiert, indem sowohl das Stützmikrofonsignal als auch das
330
5 Tonaufnahme und Tonwiedergabe
Hauptmikrofonsignal so weit verzögert werden, dass der fiktive Abstand etwa 10 m beträgt, entsprechend einer Verzögerung von ca. 30 ms. 5.4.4.2 Delay-Plan Erfahrungen haben gezeigt, dass die genaue Beachtung der Zeitverhältnisse unerlässlich ist, um räumliche Tiefe und Raumeindruck zu gewährleisten. Dazu ist die Erstellung eines DelayPlans für alle beteiligten Mikrofone enorm hilfreich. Im ersten Schritt ist dazu festzulegen, welches Mikrofonsignal den Direktschall bei der Wiedergabe erzeugen und damit die Richtungsabbildung leisten soll. Im Beispiel gemäß Abb. 5/62 ist dies das L-R-Hauptmikrofon. Die Zeit- oder Verzögerungswerte beziehen sich auf den Bezugszeitpunkt dieses Mikrofons (t = 0 ms), alle weiteren Mikrofone liefern entweder vor- oder nacheilende Signale. Der Delay-Plan enthält die individuellen Delays der Mikrofonsignale, die sich am Reflexionsmuster der konkreten Situation im Saal orientieren. Es werden darin die zeitliche Reihenfolge und die räumliche Zuweisung festgelegt. Ein Beispiel zeigt Tab. 5/14, es entspricht der in Abb. 5/62 gezeigten Aufnahmesituation mit einem L‑C‑R-Hauptmikrofon und einem vierkanaligen Raummikrofon. Es wird angenommen, dass sich das Raummikrofon etwa 20 m hinter dem Hauptmikrofon befindet und dass drei Stützmikrofone A, B und C eingesetzt sind. Tab. 5/14. Delay-Plan für die Mikrofonsignale, Beispiel für die in Abb. 5/62 gezeigte Aufnahmesituation, 1 m entspricht ca. 3 ms, 1 ms entspricht ca. 0,33 m. 1
2
3
4
5
6
Mikrofone
Entfernungskompensation [ms]
Abstand vom Direktschall [ms]
Kompensation + Abstand [ms]
benötigtes Routing Delay [ms]
Hauptmikrofon
L C R
0 0 0
0 0 0
0 0 0
– 35 – 35 – 35
L C R
Stützmikrofon A
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 25 – 25 – 25 – 25
– 22 – 19 – 27 – 30
– 47 – 44 – 52 – 55
– 82 – 79 – 87 – 90
L R LS RS
Stützmikrofon B
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 35 – 35 – 35 – 35
– 29 – 31 – 32 – 35
– 64 – 66 – 67 – 70
– 99 – 101 – 102 –105
L R LS RS
Stützmikrofon C
Refl. 1: Refl. 2: Refl. 3: Refl. 4:
– 45 – 45 – 45 – 45
– 27 – 21 – 29 – 33
– 72 – 66 – 74 – 78
– 107 – 101 – 109 –113
L R LS RS
Raummikrofon
L R LS RS
+ 60 + 60 + 60 + 60
– 25 – 25 – 25 – 25
+ 35 + 35 + 35 + 35
0 0 0 0
L R LS RS
5.4 Mehrkanal-Stereofonie
331
Von jedem Stützmikrofonsignal werden hier vier virtuelle frühe Reflexionen abgeleitet, Spalte 2 zeigt zusätzlich die Laufzeit zwischen Stütz- und Hauptmikrofon bzw. Haupt- und Raummikrofon. Spalte 3 enthält die beabsichtigten und frei gewählten zeitlichen Abstände der frühen Reflexionen, sie sollten im Bereich 20 bis 50 ms liegen. Daraus resultieren für die Stützen die individuellen Delays, bezogen auf das Hauptmikrofon. Da die vom Hauptmikrofon aufgenommenen Reflexionen auf Grund der Entfernung von 20 m vom Hauptmikrofon zu spät eintreffen, muss der Ausgleich durch zusätzliches Delay für Haupt- und Stützmikrofone erfolgen, in diesem Fall sind es 35 ms (Spalte 4, vgl. auch Abb. 5/61). Daraus ergeben sich die individuell einzustellenden Gesamtdelays in Spalte 5. Spalte 6 zeigt das beabsichtigte Routing. In diesem Fall werden die vier abgeleiteten Signale eines Stützmikrofons auf die Kanäle L, R, RS, LS gegeben, so dass sich neben der zeitlichen Verteilung auch eine Richtungsverteilung ergibt. Der Delay-Plan enthält keine Pegelanpassungen; diese können nun innerhalb eines breiten Bereichs in bestimmten Grenzen variiert werden, ohne die Wahrnehmung von Richtung und räumlicher Tiefe zu verändern. 5.4.4.3 Digitale Signalverarbeitung Anstelle des einfachen Routings eines Stützsignals auf die vier Kanäle L, R, RS, LS kann mit der heutigen digitalen Signalverarbeitung das Stützsignal-Reflexionsmuster wesentlich feiner dargestellt werden. Schon ältere Untersuchungen mit Zweikanal-Stereofonie [Wöhr, 1991] haben gezeigt, dass das vom Hauptmikrofon gewonnene Klangbild eines Instruments im Saal im Prinzip ebenso mit einem geeignet nachbearbeiteten Stützmikrofonsignal hergestellt werden kann und ein derartiges Stützsignal einen hohen „Stützgewinn“ bei hervorragender Einfügung in das gesamte Klangbild hinsichtlich Tiefenstaffelung und Raumeindruck gewährleistet. Entsprechende Mischpulte sind seit einigen Jahren verfügbar. Die digitalen Signalverarbeitungen erlauben z. B. eine hohe Anzahl von räumlich verteilten Reflexionen pro Stützmikrofon, ergänzenden adäquaten Nachhall und „Entfernungsequalizing“, d. h. Berücksichtigung von spektralen Veränderungen auf Grund der Absorption während der Schallausbreitung. Im Prinzip ermöglichen die digitalen Werkzeuge ein „natürliches“ Panning der Richtung und Entfernung der gestützten Schallquelle. In der Fortführung dieser Entwicklung können Einzelmikrofonverfahren prinzipiell ein sehr ähnliches klangliches Ergebnis hervorbringen wie die raumbezogene Stütztechnik. Dazu muss theoretisch jedes „trockene“ Einzelmikrofonsignal mit den entsprechenden Raumimpulsantworten gefaltet werden, welche mit der Haupt- und Raummikrofon-Konfiguration im Saal gemessen werden. Hier eröffnen sich bisher nicht realisierte Möglichkeiten der kreativen räumlichen Gestaltung stereofoner Aufnahmen. Sie sind nicht gebunden an raumakustische Bedingungen im Aufnahmeraum oder an aufführungspraktische Gegebenheiten.
5.4.5 Einsatz von Höhenlautsprechern Seit Verabschiedung des internationalen Standards [ITU-R BS. 775-1] im Jahr 1992 verging viel Zeit bis zur Etablierung entsprechender Übertragungstechnik in wichtigen Medien und bis zur Erlangung ausreichender Erfahrung bei der Produktion. Die Umstellung der Aufnahme-
332
5 Tonaufnahme und Tonwiedergabe
technik von 2.0 auf 5.1 war ein erster wichtiger Schritt, weg von reiner Stereofonie zwischen zwei Lautsprechern vor dem Hörer, hin zur Reproduktion einer real wirkenden akustischen Umgebung. Der 5.1-Standard ist noch ein Kompromiss, er war damals notwendig wegen gegebener Rahmenbedingungen, wegen der Kompatibilität mit 2.0-Stereo und mit Kino-Formaten und wegen maximal 6 Übertragungskanälen. Die Verbesserungen beschränken sich deshalb im Wesentlichen auf zwei Punkte [Theile, 2000/2]: –– Vergrößerte Hörzone sowie verbesserte Stabilität und Qualität des stereofonen Klangbilds vor dem Hörer durch Aufteilung der Lautsprecherbasis L-R mit 60° in zwei stereofone Teilbereiche L‑C und C‑R mit je 30°. –– Einsatz der zwei zusätzlichen Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers, so dass sich das akustische Umfeld des Hörers in bestimmten Grenzen real gestalten lässt. Inzwischen ist das technische Umfeld für 5.1 bei Produktion, Distribution und Endgeräten nahezu durchgehend eingeführt. Auch akzeptiert der Konsument weitgehend eine höhere Zahl von Lautsprechern, zumindest in Verbindung mit der Fernsehanlage, vermarktet als Heimkino. Festzustellen ist aber auch, dass tatsächlich nur wenige Hörer die mit SurroundSound erreichbare Wiedergabequalität realisieren. Ungünstige geometrische und akustische Raumbedingungen beim Hörer, Schwierigkeiten bei der praktischen Handhabung, aber auch ein Mangel an überzeugenden 5.1-Surround-Produktionen machen den Einsatz von alternativen Wiedergabetechniken attraktiv, insbesondere der „Soundbars“ (Surround-Wiedergabe mittels virtueller Lautsprecher, vgl. Kap. 5.5.2.6). Überzeugende 5.1-Surround-Produktionen erfordern auf der Wiedergabeseite vom Konsumenten Akzeptanz für ein Wohnzimmer mit Heimkino-Outfit. Auf der Produktionsseite sind neben dem passenden Equipment vor allem Erfahrung und besondere Sorgfalt erforderlich, um für Konzerte, Dokumentationen, Reportagen, Spielfilme, Talkshows usw. die Illusion eines realen akustischen Umfelds zu erzeugen oder spannende Richtungseffekte zu generieren. Die Darstellungsmöglichkeiten des 5.1-Formats sind begrenzt: Mangelhafte Rundumabbildung, fehlende Einbeziehung der Höhe und der Kopfnähe, eingeschränkte Möglichkeiten für die Entfernungsdarstellung. Sie lassen sich teilweise mit einer Steigerung der Zahl der Übertragungskanäle und Lautsprecher beseitigten. Bereits der Standard [ITU-R BS. 775-1] enthält optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern. Sie bieten die Möglichkeit, die stereofone Qualität bei seitlicher Abbildung zu verbessern, die Hörzone zu vergrößern und das „Loch“ zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung stationärer seitlicher Hörereignisse oder die wichtigen seitlichen Reflexionen. All diese Surround-Formate basieren im Prinzip auf Stereofonie, d. h., die Quellenabbildung geschieht kanalbasiert (siehe Kap. 5.5.1) mit Phantomschallquellen zwischen zwei benachbarten Lautsprechern. Im seitlichen Bereich ist die Phantomschallquellenrichtung vom Hörerplatz abhängig und instabil, weshalb hier praktisch nur die Orte der Lautsprecher die Richtungsdarstellung übernehmen. Auch die Balance der Lautstärkeverhältnisse ist platzabhängig, besonders auffallend für das Verhältnis Front-Surround. Daher bezwecken
5.4 Mehrkanal-Stereofonie
333
zusätzliche Kanäle in der Horizontalebene eine größere Hörzone bzw. eine homogenere und stabilere Richtungsauflösung. In alternativen Anwendungen zusätzlicher Kanäle wird die Horizontalebene verlassen. Lautsprecheranordnungen in der Ebene oberhalb des Hörers vervollständigen den räumlichen Gestaltungsbereich und ermöglichen in bestimmten Grenzen den Aufbau eines dreidimensionalen Klangbilds. Vor fast 20 Jahren hatte Dabringhaus mit seiner 2+2+2-recordingTechnik die ersten Musikaufnahmen auf den Markt gebracht; es handelt sich um 5.1 ohne Centerkanal und Subwoofer, dafür mit zwei Lautsprechern oberhalb L und R. Das Konzept war für die Audio-DVD ausgelegt und darauf, ein möglichst authentisches Klangbild aus dem Konzertsaal zu reproduzieren und deshalb zugunsten der Lautsprecher für die Höheninformationen auf Center und Subwoofer zu verzichten. Im Jahr 2006 stellte Wilfried Van Baelen das sog. Auro-3D-Format vor, das die Höhe konsequent mit vier zusätzlichen Kanälen einbezieht. In der Basisversion Auro 9.1 ergänzen die Höhenlautsprecher das 5.1-Format, sie befinden sich über den Lautsprechern L, R, RH, LH (Abb. 5/63).
Abb. 5/63. Basis-Konfiguration Auro 9.1 nach [Van Baelen, 2010], abwärtskompatibel mit [ITU-R BS. 775-1].
In ähnlicher Weise berücksichtigt Holman mit zwei hoch angeordneten Lautsprechern schräg rechts und links vor dem Hörer die dritte Dimension. Seine sog. 10.2-channel surround soundKonfiguration beansprucht allerdings 8 Kanäle in der Horizontalebene und ist ursprünglich für Kino- und Heimkino-Anwendung gedacht [Holman, 2007]. Für das Ultra High-Definition TV in Japan stellte Kimio Hamasaki das 22.2 Multichannel Sound System vor, das neben 10 Lautsprecherkanälen in der Horizontaleben weitere 9 „Upper Layer“-Kanäle sowie 3 „Lower Layer“-Kanäle vorsieht [Hamasaki, 2007]. Ab dem Jahr 2012 begann Dolby, mit einer Vielzahl von Lautsprecherkonfigurationen mit bis zu 64 Kanälen die „Atmos“-Technologie in Filmtheatern zu etablieren [Hidalgo, 2012]. Für die Heimkino- und Musikproduktionen-Szene entstanden verschiedene Lautsprecherformate, üblicherweise mit bis zu 16 Kanälen in den zwei Technologien „Atmos“ und „Auro-3D“, die nur teilweise und bedingt miteinander kompatibel sind.
334
5 Tonaufnahme und Tonwiedergabe
5.4.5.1 Nutzen der Höhenlautsprecher Die Erweiterung des Darstellungsbereichs nach oben bietet Möglichkeiten, das akustische Umfeld des Hörers in bestimmten Grenzen besonders real zu gestalten. Eine Konfiguration gemäß Abb. 5/62 bildet eine einem Kubus ähnliche Anordnung von acht Lautsprechern, so dass für die Wiedergabe der frühen Reflexionen der gesamte obere Halbraum einbezogen werden kann und sich die subjektive räumliche Diffusität des Nachhalls in ausreichendem Maße reproduzieren lässt. Damit sind wiedergabeseitig gute Voraussetzungen für die Darstellung von Umhüllung, Räumlichkeit und räumlicher Tiefe geschaffen. Zusätzlich bieten die oberen Lautsprecher die gleichen Möglichkeiten der stereofonen Quellenabbildung wie die ITU-Anordnung ohne Centerlautsprecher. Phantomschallquellen zwischen den unteren und oberen Lautsprechern, also stabile stationäre Hörereignisrichtungen mit Elevation zwischen 0° und 30° sowie direkt über dem Hörer sind allerdings praktisch nicht realisierbar. Bestimmte Schwächen des 5.1-Surround-Formats können mit einem 9.1-Surround-Format beseitigt oder gemildert werden, andere nicht. In Tab. 5/15 sind verschiedene Attribute des reproduzierten Klangbilds aufgeführt. Die ersten vier betreffen den Direktschall, meist mit Panning gestaltet, die nächsten vier betreffen Wirkungen des indirekten Schalls, mit Aufnahmetechnik und Processing gestaltet. Mit den Attributen lassen sich die Leistungsprofile der unterschiedlichen Verfahren einigermaßen sachgerecht charakterisieren und vergleichen, unter dem Vorbehalt, dass wiedergabeseitig die Empfehlungen korrekt realisiert und aufnahmeseitig die passenden Mikrofon- und Mischtechniken eingesetzt werden. Tab. 5/15 zeigt, dass 9.1‑Surround verglichen mit den anderen Lautsprecherverfahren bei einigen Attributen prinzipielle Vorteile aufweist. Dies lässt sich auf andere Formate übertragen, die 2D Surround-Wiedergabesysteme mit Quadrofonie-ähnlichen Lautsprecheranordnungen in der Ebene über dem Hörer ergänzen. Tab. 5/15. Leistungsprofile der Verfahren im Vergleich, geeignete Aufnahme- und Wiedergabetechnik vorausgesetzt. * horizontale Arrays, ** simulierte Tiefe bzw. Räumlichkeit, *** nur im Sweet Spot, sonst instabil. Attribute des reproduzierten Schalls
2.0Stereo
5.1Surround
9.1Surround
Wellenfeldsynthese
binaurale Verfahren mit head tracking
Richtung vorne
●
●●
●●
●●*
●●
●
●
●●*
●●
Richtung rundum Elevation
(●)***
Höhe
●●
●●
●●
Nähe am Kopf
●*
●●
Intra-aktive Perspektive
●●*
Räumlichkeit
(●) **
(●)**
Umhüllung Klangfarbe
●●
●
●●
●● ●●*
Entfernung, Tiefe
●
●●
●*
●●
●
●●
●*
●●
●●
●●
●*
●●
5.4 Mehrkanal-Stereofonie
335
5.4.5.2 Anwendung der Höhenlautsprecher Die Lautsprecher in der oberen Ebene weisen dieselben Abbildungseigenschaften auf wie die in der Horizontalebene ohne den Center-Lautsprecher. Die stereofone Darstellung im Bereich L-C-R wird durch Zweikanal-Stereo in der Basis Lh-Rh der oberen Etage ergänzt, und ebenso können die oberen zusätzlichen Surround-Lautsprecher ebenso genutzt werden wie die unteren. Allein daraus ergibt sich eine beachtliche Erweiterung des Gestaltungsspielraums. Interessant sind die Möglichkeiten, die sich aus dem Zusammenwirken beider Ebenen ergeben, einerseits hinsichtlich Quellendarstellung in der von den fünf Lautsprechern vor dem Hörer aufgespannten Fläche, andererseits hinsichtlich der Reproduktion von Reflexionen und diffusem Schall im dreidimensionalen Surround. Die Fläche vor dem Hörer zwischen L-R und Lh-Rh lässt sich am unteren und oberen Rand zur stereofonen Darstellung lokalisierbarer Quellen wie gewohnt nutzen. Die Lokalisierung von Phantomschallquellen zwischen den unteren und oberen Lautsprechern ist sehr instabil bezüglich Laufzeitdifferenzen und auch abhängig vom Spektrum. Schon kleine Laufzeitdifferenzen führen zu einer Auswanderung der Phantomschallquelle nach oben oder unten. Ein Delay von 0,5 ms reicht aus, um das Hörereignis in den einen oder anderen Lautsprecher zu verschieben, verbunden mit Klangverfärbung. Diesbezüglich ist die Hörzone in der Tiefe und in der Höhe stark eingeschränkt, wie Abb. 5/64 illustriert.
Abb. 5/64. Laufzeitdifferenzen bei Hörpositionen abweichend vom Sweet Spot.
Die Elevation einer stationären Quelle ist mit Hilfe der oberen Lautsprecher praktisch nicht erreichbar, besonders bei Berücksichtigung der Forderung einer großen Hörzone. Panning zu diesem Zweck funktioniert nicht, es stellen sich unkontrollierbare klangliche und räumliche Effekte ein. Die Verhältnisse stellen sich ähnlich dar wie bei den seitlichen Lautsprecherpaaren L‑LS bzw. R‑RS: Stabile Quellenpositionen sind allein die Lautsprecher. In bestimmten Grenzen sind jedoch bewegte Quellen darstellbar. Wesentlich günstigere Verhältnisse findet man bei der Reproduktion vieler einzelner, in ihrer Gesamtheit nicht individuell lokalisierbarer, aber räumlich verteilter Schallquellen wie z. B. Reflexionen. Sie ähneln den Eigenschaften einer Groß-A-B-Konfiguration oder eines Decca-Tree: Obwohl die Richtungsabbildung wegen viel zu steiler Abbildungskurven nicht praktikabel ist, ermöglichen sie dennoch eine platzunabhängige, klanglich ausgewogene Darstellung beispielsweise eines großen Klangkörpers und des reflektierten Schalls. Die Gefahr des „Lochs in der Mitte“ ist in vielen Aufnahmesituationen nicht gravierend, vor
336
5 Tonaufnahme und Tonwiedergabe
allem wenn der diffuse Schallanteil das Klangbild dominiert. Das Füllen der Flächen in der Höhe ist also möglich und ein wichtiges Gestaltungselement. Die frühen Reflexionen lassen sich auf diese Weise vorteilhaft in der Höhe verteilen. Die vielen unterschiedlichen Laufzeitdifferenzen individueller Reflexionen an den Mikrofonen bewirken dies. Die Reflexionen fallen in natürlicher Weise auch aus oberen Richtungen ein. Die bessere Verteilung der Reflexionen vermindert ihre räumliche Dichte, somit kann das Gehör die räumlichen Informationen besser erkennen. Abb. 5/65 veranschaulicht den Effekt beim Übergang von 2.0 über 5.1 nach 3D-Audio (9.1-Surround). Wichtig ist dabei auch eine günstige Auswirkung auf die Klangfarbe, die mit einer verbesserten Wahrnehmung der Reflexionen verbunden ist.
Abb. 5/65. Räumliche Verteilung der Reflexionsmuster in 2.0, 5.1 und 3D-Audio (9.1-Surround). Dunkler Punkt: Direktschall, helle Punkte: frühe Reflexionen (vgl. Abb. 5/18 und 5/19).
Will man die oben geforderte räumliche Auflösung der Direktschallkomponenten, der Atmo, des Diffusschalls und/oder der Reflexionen erzeugen, so muss die Mikrofonanordnung eine ausreichende akustische Kanaltrennung am Ort des Hörers gewährleisten (Abb. 5/66). Andernfalls wäre die räumliche Anordnung mehrerer Lautsprecher nur wenig nützlich. Die Realisierbarkeit der notwendigen akustischen Kanaltrennung für die RaummikrofonVerfahren ist umso schwieriger, je mehr Kanäle für die Wiedergabe vorgesehen sind. Die Gefahr von unerwünschtem Übersprechen, also korrelierten Inhalten auf drei oder mehr Lautsprechern, steigt. Die Folge ist eine deutliche Klangverfärbung, die auch noch von der Hörerposition im Abhörraum abhängt. Eine Hauptmikrofonanordnung ohne störenden Crosstalk ist aber bei neun Kanälen äußerst schwierig zu bewerkstelligen. Es gibt zwei Möglichkeiten, die auch in 5.1 funktionieren: Entweder muss das Übersprechen durch optimierte Verfahren wie OCTSurround (siehe Kap. 5.4.3.1, Abb. 5/51) weitgehend vermieden oder durch größere Abstände der Mikrofone zueinander die Abbildungseigenschaften einer A/B-Konfiguration (siehe Kap. 5.3.3) erzielt werden. Anordnungen mit hoher Kanaltrennung sind nicht nur bezüglich der Lokalisation vorteilhaft (siehe Kap. 5.4.2.4), sondern ebenso bezüglich der räumlichen Transparenz, der realitätsnahen Wiedergabe insbesondere der frühen Reflexionen.
5.4 Mehrkanal-Stereofonie
337
Abb. 5/66. Ausreichende akustische Trennung der Mikrofonsignale ist erforderlich für die realitätsnahe räumliche Wiedergabe
Abb. 5/67. Reflexionsmuster im Sweetspot eines 9.1 Lautsprecher-Auro-3D-Setups, erzeugt mit zwei verschiedenen 3D‑Mikrofon-Arrays [Wittek, 2012].
Abb. 5/67 zeigt beispielhaft die Reflexionsmuster im Vergleich, die mit zwei unterschiedlichen Mikrofon-Setups in einem Saal vom Typ Schuhschachtel aufgenommen und im Sweet-
338
5 Tonaufnahme und Tonwiedergabe
spot einer 9.1 Auro-3D-Lautsprecheranordnung gemessen wurden [Wittek, 2012]. Das obere Bild enthält die Reflexionsmuster, die mit einer 9-Kanal-Anordnung mit hoher Kanaltrennung erzeugt werden (OCT sowie vier nach oben gerichtete Supernierenmikrofone, siehe Abb. 5/69). Direktschall und die frühen Reflexionen werden deutlich detektierbar aus den Richtungen wiedergegeben, die mit dem Aufnahmeraum übereinstimmen. Das zweite Bild zeigt das entsprechende Ergebnis mit einem 9-kanaligen Groß-A/B-Setup in ähnlicher Mikro fonanordnung, die Frontmikrofone L-C-R bilden einen Decca-Tree (vgl. Kap. 5.4.2.3). Offensichtlich gibt es kaum verwertbare diskrete Reflexionen, jeder der neun Kanäle enthält alle Erstreflexionen aus sämtlichen Richtungen, sozusagen ein „neunfaches Mono“. Das resultierende Klangbild kann für bestimmte Aufnahmen erwünscht sein, in Räumen mit langem Hall, in denen das Diffusfeld das Hörerlebnis dominiert, beispielsweise in einer Kirche. Jedoch wird der natürliche Raumeindruck eines Saals nicht erreicht. Stabile transparente Lokalisation der Quellen und realitätsnahe Wahrnehmung der Entfernungen und der Tiefe gelingen nur mit ausreichender Vermeidung des Übersprechens. Mit heutigen Technologien sind Lösungen denkbar, die auf Faltungstechniken basieren, wobei die Rauminformationen entweder aus Messungen im aktuellen Aufnahmeraum oder in bestehenden, akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. 5.4.5.3 Höhenlautsprecher für immersiven Sound Der diffuse Schall, also Nachhall oder Atmo, muss auch diffus beim Hörer ankommen. Dies kann gelingen, wenn die zusätzlichen Lautsprecher auch geeignet beschickt werden. Es ist notwendig, dass die diffusen Signale auf allen Lautsprechern ausreichend verschieden sind, also im gesamten Frequenzbereich weitgehend dekorreliert [Nipkow, 2019]. Gerade bei tiefen Frequenzen ist ausreichende Unabhängigkeit wichtig, da davon die Wahrnehmung der Umhüllung abhängt [Griesinger, 1998]. Es ist jedoch nun aufnahmeseitig durch die größere Anzahl der Kanäle, die unabhängig sein sollen, wesentlich schwieriger geworden. Da man mit Mikrofonen erster Ordnung in Bezug auf die Erzeugung dekorrelierter Signale sehr schnell an seine Grenzen kommt, führt dies dazu, dass der Mikrofonaufbau größer wird, da nur dadurch eine Dekorrelation durch Pegel- und Laufzeitdifferenzen erreicht wird. Richtungsdiffuser Direktschall: Atmo Das akustische Ambiente einer Szene wird aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen gebildet. Beispiele dafür sind das Blätterrauschen des Walds, entfernte Stimmen, Verkehrslärm, Publikumsreaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Dieser Schallanteil trägt beim natürlichen Hören in vielen Situationen im besonderen Maß zum immersiven Hörendruck bei. Die hohe Relevanz dieser Schallanteile wurde lange unterschätzt, tatsächlich ist dieser Aspekt im Gegensatz zur Richtungsabbildung oft der wichtigere [Theile, 2012]. Dies trifft besonders für 3D-Audio Aufnahmen zu; eine geeignete Mikrofonierung und/oder sinnvolle Mischung ist von großer Bedeutung. Die Eigenschaften diverser Mikrofontechniken für AtmoAufnahmen werden in [Wittek, 2012] detailliert beschrieben.
5.4 Mehrkanal-Stereofonie
339
Eine besonders für Sportreportagen bewährte Atmo-Anordnung für acht Kanäle ist das ORTF-3D Verfahren. Ursprung ist die Doppelung einer modifizierten Version des IRT-Kreuzes (siehe Kap. 5.4.3.3) auf zwei Ebenen (Abb. 5/68). Je vier Supernieren für die untere und die obere Ebene sind in einem Rechteck übereinander angeordnet. Die Kapseln sind jeweils um 45° nach oben bzw. unten geneigt, um auch in der vertikalen Ebene für maximale Signaltrennung zu sorgen. Es entsteht also eine 8-kanalige Anordnung, deren Abbildungseigenschaften innerhalb der horizontalen Ebenen in etwa dem IRT-Kreuz entsprechen. Die Abbildungseigenschaften in den vertikalen Richtungen entsprechen in etwa den Verhältnissen im seitlichen Bereich des 5.1‑Formats (siehe Kap. 5.4.3, Abb. 5/46). Die Mikrofonsignale werden diskret auf die Kanäle L, R, LS, RS in der unteren Ebene und Lh, Rh, LSh, RSh in der oberen Ebene geroutet.
Abb. 5/68. Ambience Supernieren Würfel [Theile, 2012]. Jedes Stereo-Mikrofonpaar hat eine Basis von 10 bis 20 cm und einen Achsenwinkel von 90°.
Zur Verbesserung der praktischen Handhabung kann auf den Abstand zwischen der oberen und unteren Mikrofonebene verzichtet werden [Wittek, 2016]. Die Abbildung in den vertikalen Lautsprecherpaaren wird allein durch die aus der Neigung der Mikrofone entstehenden 90°–X/Y-Paare aus zwei Supernieren erzeugt. Durch die hohe Richtwirkung der Supernieren ergibt sich eine ausreichende Dekorrelation in der Vertikalebene, sie ist im Diffusfeld weniger relevant ist als in der Horizontalebene. Insgesamt dieser 8-kanalige ORTF-3D-Ambience-Mikrofon-Set hohe Signaltrennung, optimale Diffusfeld-Dekorrelation und gute immersive 3D-Abbildung bei hoher Stabilität im Wiedergaberaum. Auch für Aufnahmen im Saal liegt es nahe, eine für die Surround-Aufnahme eingesetzte Mikrofon-Konfiguration so zu ergänzen, dass die Atmo dreidimensional erfasst werden kann (vgl. Kap. 5.4.3). Hier ist es wichtig, dass sowohl das Mikrofonarray für die untere Ebene als auch das für die obere Ebene den Direktschall weitgehend unterdrückt, um den ambienten richtungsdiffusen Schall realitätsnahe abbilden zu können. Durch sorgfältiges Ausprobieren und mit einiger Erfahrung lassen sich mit der Wahl der Kapsel-Richtcharakteristiken sowie Ihrer Positionierungen die Balance, beispielsweise unten/oben, zwischen Nachhall und Applaus und Publikumsgeräusch realitätsgetreu gestalten.
340
5 Tonaufnahme und Tonwiedergabe
Abb. 5/68 zeigt die entsprechende Konfiguration eines 9-kanaligen Hauptmikrofon-Sets. Die für 5.1-Surround konzipierte OCT-Konfiguration (siehe Kap. 5.4.2.4) ist mit vier nach oben gerichteten Supernieren ergänzt, sie werden auf die vier Höhenlautsprecher geroutet. Somit enthält der bei der Wiedergabe von oben abgestrahlte Schall keinen Direktschall, sondern vorwiegend den indirekten Schall des Saals. Die Wiedergabe geschieht aus allen vier oberen Raumecken und damit ausreichend richtungstransparent (vgl. Kap. 5.4.5.2). Dieses bewährte OCT-3D Mikrofon-Set gewährleistet eine natürliche und stabile räumliche Abbildung.
Abb. 5/69. OCT-3D Mikrofon-Konfiguration. Für die Wiedergabe der indirekten Schallanteile über Höhen-Lautsprecher ist die OCT-Anordnung mit vier nach oben gerichteten Supernieren ergänzt [Theile, 2012].
Für Musik mit synthetischen Klängen können vereinzelt auftretende, helle Drum-Sounds wie z. B. Becken und rhythmisches Zischen eingesetzt und vorzugsweise aus der oberen Lautsprecherebene wiedergegeben werden. Dies verleiht der Musik mehr Feinstruktur und eine gesteigerte Aufmerksamkeit des Hörers; die Durchhörbarkeit ist besser, weil die unteren Lautsprecher in der Regel Schallanteile mit tiefen und mittleren Frequenzen abstrahlen, die Schallanteile mit hohen Frequenzen etwas verdecken können. Reflexionen im oberen Halbraum Die von den vorderen Lautsprechern aufgespannte Ebene ermöglicht die räumlich transparente Wiedergabe der frühen Reflexionen, Abb. 5/70 zeigt eine geeignete Strategie für die Mikrofonierung. Das Hauptmikrofon liefert Direktschall und frühe Reflexionen für die unteren Frontlautsprecher, Raummikrofone an den Seitenwänden in Bühnennähe vorwiegend Signale mit frühen seitlichen Reflexionen; dadurch entsteht für das Gehör eine Verbindung zwischen der unteren und oberen Lautsprecher-Ebene. Der Direktschall führt zu einer stabilen Lokalisation des Klangkörpers in der unteren Ebene. Die Wiedergabe der frühen Reflexionen aus dem oberen Bereich haben den Effekt, dass der Klangkörper mit einer Höhenausdehnung wahrgenommen wird, was den realen Verhältnissen entspricht. Bei Aufnahmen in Konzertsälen lassen sich frühe seitliche Reflexionen mit Mikrofonen an den Seitenwänden in Bühnennähe einfangen. Sie eignen sich gut, um die gewünschte auditive Verbindung in Kombination mit dem Direktschall herzustellen. Hauptmikrofone nehmen neben Direktschall immer auch frühe Reflexionen auf. Es ist vorteilhaft, die Signale des Hauptmikrofons für die unteren Front-Lautsprecher zu verwenden und die Signale mit
5.4 Mehrkanal-Stereofonie
341
vorwiegend seitlichen Reflexionen für die oberen Front-Lautsprecher. Dies bewirkt bei Aufnahmen in gut klingenden Räumen, dass das Fundament des Klangkörpers stabil in der unteren Höhenebene lokalisiert wird und die frühen seitlichen Reflexionen dem Klangkörper einen attraktiv klingenden Glanz verleihen. Dieses Gefüge zerfällt, wenn die beiden Höhenebenen zu weit auseinander positionier/ sind bzw. wenn der Elevationswinkel 35° überschreitet [Van Baelen, 2011/2]
Abb. 5/70. Einbeziehung der Höhe für die Wiedergabe der frühen Reflexionen.
Umhüllung und Räumlichkeit Geben alle Lautsprecher eines 9.0 Setups diffusen Raumschall mit einer Korrelation von etwa Null wieder, führt dies zu einer Empfindung der Umhüllung, die einzelnen Lautsprecher werden nicht als Einzelschallquellen wahrgenommen (Abb. 5//71). Die Pegel des diffusen Raumschalls in allen Kanälen müssen ausbalanciert sein, um die auditive Verbindung zwischen den Seiten und oben und unten sicherzustellen. Eine Korrelation von 1, d. h. aus allen Lautsprechern identische Signale, birgt die Gefahr von hörbaren Kammfiltereffekten, insbesondere für statische breitbandige Signale wie Rauschen oder Applaus. Tiefe Frequenzen unter 200 Hz, die von allen Lautsprechern eines 3D-Audio Lautsprecher-Setups mit einer Korrelation um Null wiedergegeben werden, unterstützen den Umhüllungseindruck und das immersive Hörerlebnis, sich im Aufnahmeraum zu befinden. Für eine optimale Umhüllung muss besonders die Balance zwischen vorne und hinten ausgeglichen sein. Je mehr Raumsignale von hinten wiedergegeben werden, desto schwächer ausgeprägt ist die hörbare Verbindung zwischen vorne und hinten. Geben die Lautsprecher in der Front keinen Raumschall wieder, treten zwei verschiedene Hörereignisse auf; es besteht keine auditive Verbindung zwischen vorne und hinten. Dagegen können die Pegel zwischen den oberen und unteren Lautsprechern variieren. Dies kann genutzt werden, um die Durchhörbarkeit anderer Sounds zu verstärken. Beispielsweise werden zur Steigerung der klanglichen Transparenz des „Stage Sounds“ die Pegel des Raumschalls in den unteren Frontlautsprechern reduziert, siehe Abb. 5/72. Die Feinstruktur des Direktschalls wird durch Raumschall beeinträchtigt. Soll eine möglichst hohe Transparenz des Klangkörpers erreicht werden, ist eine Überlagerung von Direkt- und Raumschall aus derselben Richtung zu vermeiden.
342
5 Tonaufnahme und Tonwiedergabe
Abb. 5/71. Einbeziehung aller Lautsprecher für Schall mit Korrelation um Null.
Abb. 5/72. Balanceeinstellung des Raumschalls zugunsten der Durchhörbarkeit, hier Solisten aus der Richtung der unteren Solisten Front-Lautsprecher (‚Stage Sound’).
Vordergrund und Hintergrund: Tiefe Räumliche Tiefe ist ein wichtiges Gestaltungselement (siehe Kap. 5.2.4). Der diffuse Schall unterstützt den Eindruck der Tiefe, wenn die akustische Szene Objekte im Vordergrund enthält. Ein lokalisiertes Objekt befindet sich im Vordergrund, wenn Nachhall oder nichtreflektierter Diffusschall vorhanden ist. Die Unterscheidbarkeit zwischen Vorder- und Hintergrund kann variieren; in diesem Zusammenhang spricht man von räumlicher Kontur [Terhardt, 1989]. Ist die Kontur stark ausgeprägt, wirkt das resultierende Klangbild plastisch, da sich die Schallquellen im Vordergrund stark vom akustischen Hintergrund abgrenzen – dieses Phänomen ist vergleichbar mit einem Portraitfoto, bei dem der visuelle Hintergrund komplett unscharf ist. Die räumliche Kontur tritt insbesondere in großen Aufnahmeräumen wie Kirchen oder Konzertsälen mit langer Nachhallzeit auf: Dort wird der Raumschall über die Zeit stark „verschmiert“ und somit impulsartige Klänge maximal verschliffen. Durch den größeren zeitlichen Abstand zwischen Direkt- und Raumschall als in kleineren Räumen treten zudem weniger stark wirkende Verdeckungseffekte auf. Bewegt sich zudem der akustische Hintergrund gegenüber den statisch positionierten Schallquellen, wird die Kontur noch ausgeprägter; unser Gehör kann somit die Schallquellen
5.5 Verfahren der räumlichen Tonübertragung
343
im Vordergrund besser unterscheiden als bei einem statischen Hintergrund, die Entfernung des Hintergrundes gegenüber dem Vordergrund wird deutlicher hörbar. Bewegte Räumlichkeit entsteht durch zufällig wirkende Bewegungen, Fluktuationen, des Hintergrunds und wird als angenehm empfunden. Es ist deshalb zweckdienlich, Fluktuation in die 3D-Audio Produktion einzubauen.
5.5 Verfahren der räumlichen Tonübertragung 5.5.1 Kanalbasierte Verfahren Der Begriff ‚kanalbasierte Verfahren‘ oder ‚kanalbasierte Aufnahme und Wiedergabe’ entstand in den letzten Jahren in Abgrenzung zu sog. ‚objektbasierten Verfahren‘ bzw. ‚zur objektbasierten Aufnahme und Wiedergabe‘ und zur Schallfeldsynthese. Die kanalbasierten Verfahren bzw. die räumliche Darstellung ist dadurch gekennzeichnet, dass die Kanalzuordnung an die Lautsprecheranordnung gebunden ist und nicht geändert werden kann. Eine bei der Produktion gewählte Lautsprecheranordnung legt also die Kanalkonfiguration für Verteilung und Wiedergabe fest. Ebenso festgelegt ist damit das Klangbild, das aufnahmeseitig mit der Wahl und der Positionierung geeigneter zwei- bzw. mehrkanaliger stereofoner Mikrofonanordnungen realisiert wird. Einzelheiten der Gestaltungsmöglichkeiten für die verschiedenen Formen der Stereofonie werden in den Kap. 5.2 bis 5.4 behandelt. Kanalbasierte Formate beinhalten standardisierte und etablierte Anordnungen der Lautsprecher und entsprechende Bezeichnungen der Kanäle, sie machen den einfachen Produktionsaustausch innerhalb der Verteilungswege bis hin zum Endverbraucher möglich. Produktions- und wiedergabeseitig werden die gleichen Lautsprecheranordnungen eingesetzt und standardisierte Downmix-Regeln befolgt, beispielsweise die Abwärtskompatibilität für den Downmix vom 5.1-Format nach 2.0-Stereo gemäß ITU-R BS. 775-1. 5.5.1.1 Nomenklatur und Notation Mit dem Aufkommen der vielen Mehrkanal-Tonformate, verstärkt seit Einbeziehung des gesamten oberen Halbraums für immersiven Sound, wächst durch die Entwicklung von 3D-Audiosystemen die Anzahl genutzter Lautsprecherkanäle und Wiedergabeformate. So werden bei 3D-Audio-Wiedergabesystemen die bekannten Stereo- oder Surroundanordnungen durch zusätzliche Wiedergabequellen über oder unter der Höhenposition der Ohren erweitert. Beispielsweise handelt es sich beim 5.1+4H-Format um ein 3D-Audio-Format, welches im Vergleich zum 5.1-Format vier zusätzliche Höhenlautsprecher enthält (siehe Kap. 5.4.5.2). Dadurch ist die Klassifizierung und Zuordnung von Kanälen sowohl produktions- und wiedergabeseitig als auch die Positionierung von Lautsprechern komplexer geworden. Falsche Kanalzuordnungen oder fehlerhafte Wiedergabe durch falsch interpretierte Wiedergabeformate führen zu Missachtungen künstlerischer Intentionen. Über die Jahre wurde eine Vielzahl von 3D-Audiosystemen und deren Wiedergabelayouts vorgeschlagen, beispielsweise Dolby Atmos, MPEG-H 3D Audio, Auro 3D oder DTS:X. Oft bleibt jedoch die konkrete Anzahl von Wiedergabekanälen, deren Kanalzuordnung und die
344
5 Tonaufnahme und Tonwiedergabe
empfohlene, optimale Positionierung der Lautsprecher unklar. Häufig führen unterschiedliche Sachverhalte und Begriffe für dieselbe Sache − oder gravierender − die gleichen Begriffe für unterschiedliche Sachverhalte der an Produktion, Übertragung und Wiedergabe beteiligten Personen zu Verwirrung. 5.1 oder 3/2, 7.1 mit fünf Front-, mit vier Surroundlautsprechern oder sogar mit Höhenlautsprechern? Was ist 2+2+2, 9.1, 13.1, 22.2 oder 9.1.6? Rvss, TpSiR und U-90 sind reguläre Lautsprecherbezeichnungen, doch was bedeuten sie? Es gibt eine Vielzahl von Standards, Organisationen und Hersteller, die unterschiedliche Bezeichnungen für Lautsprecher und deren Positionen benutzen. Eine weit verbreitete Nomenklatur für 3D-Audio-Formate ist m.n + hH oder m.n.h, welches unter anderem im Kontext von MPEG-H 3D-Audio oder Dolby Atmos zu finden ist. Hier bedeutet m die Anzahl der Lautsprecher in der horizontalen Ebene, n die Anzahl der LFE-Kanäle und h die Anzahl der Decken- oder Höhenlautsprecher. Einige Konfigurationen sind komplexer und folgen nicht dieser Konvention, wie z. B. die Konfigurationen 22.2 und 10.2. Weitere Verfahren wie z. B. Auro 3D bevorzugen die traditionelle Schreibweise aus Anzahl der Lautsprecher und LFE, getrennt durch einen Punkt, z. B. Auro 3D 9.1 oder Auro 3D 13.1. In den MPEG-Normen werden Mehrdeutigkeiten bei Lautsprecherkonfigurationen durch die Verwendung einer Index-Tabelle in der MPEG-Norm für kodierungsunabhängige Codepunkte (CICP) definiert, siehe [ISO/IEC 23091]. Im Tab. 5/16 wird beispielhaft ein Auszug der Kanal- und Lautsprecherbezeichnungen aktuell relevanter Standards für das 22.2 Lautsprecherlayout dargestellt. Die Nummerierung der Kanäle (Wiedergabekanal 1 bis 24) bezieht sich auf den jeweiligen Standard. Hier ist besonders zu beachten, dass sich die Reihenfolge der Lautsprecher in der Wiedergabe von Standard zu Standard unterscheidet. Außerdem zeigt Tab. 5/17 Wiedergabeformate mit den zugehörigen Codierformaten ohne Anspruch auf Vollständigkeit. Tab. 5/16. Kanal- und Lautsprecherbezeichnung mit unterschiedlichen Nomenklaturen in relevanten Standards für das 22.2 Lautsprecherlayout. Wiedergabekanal
ITU-R BS. 2051
ISO/IEC 23091-3
ITU-R BS. 2159-8
ISO/IEC 23008-3 ETSI TS 103 190-2 (MPEG-H 3D Audio) (Dolby AC-4)
1
M+000
Center Front ‚C‘
Front left ‚FL‘
CH_M_L060
Left ‚L‘
2
M+030
Left Front Center ‚Lc‘
Front right ‚FR‘
CH_M_R060
Right ‚R‘
3
M-030
Right Front Center ‚Rc‘
Front center ‚FC‘
CH_M_000
Center ‚C‘
4
M+060
Left Front ‚L‘
LFE-1 ‚LFE1‘
CH_M_LFE2
Low-Frequency Effects ‚LFE‘
5
M-060
Right Front ‚R‘
Back left ‚BL‘
CH_M_L135
Left Surround ‚Ls‘
6
M+090
Left Side Surround ‚Lss‘
Back right ‚BR‘
CH_M_R135
Right Surround ‚Rs‘
7
M-090
Right Side Surround Front left center ‚Rss‘ ‚FLc‘
CH_M_L030
Left Back ‚Lb‘
5.5 Verfahren der räumlichen Tonübertragung
8
M+135
Rear Left Surround ‚Lsr‘
9
M-135
10
Front right center ‚FRc‘
345
CH_M_R030
Right Back ‚Rb‘
Rear Right Surround Back center ‚Rsr‘ ‚Bc‘
CH_M_180
Top Front Left ‚Tfl‘
M+180
Rear Center ‚Cs‘
LFE-2 ‚LFE2‘
CH_M_LFE3
Top Front Right ‚Tfr‘
11
LFE1
Left Front LFE ‚LFE‘
Side left ‚SiL‘
CH_M_L090
Top Back Left ‚Tbl‘
12
LFE2
Right Front LFE ‚LFE2‘
Side right ‚SiR‘
CH_M_R090
Top Back Right ‚Tbr‘
13
U+000
Center Front Vertical Height ‚Cv‘
Top front left ‚TpFL‘
CH_U_L045
Top Side Left ‚Tsl‘
14
U+045
Left Front Vertical Height ‚Lv‘
Top front right ‚TpFR‘
CH_U_R045
Top Side Right ‚Tsr‘
15
U-045
Right Front Vertical Height ‚Rv‘
Top front center ‚TpFC‘
CH_U_000
Top Front Center ‚Tfc‘
16
U+090
Left Vertical Height Side Surround ‚Lvss‘
Top center ‚TpC‘
CH_T_000
Top Back Center ‚Tbc‘
17
U-090
Right Vertical Height Side Surround ‚Rvss‘
Top back left ‚TpBL‘
CH_U_L135
Top Center ‚Tc‘
18
T+000
Top Center Surround Top back right ‚Ts‘ ‚TpBR‘
CH_U_R135
Low-Frequency Effects 2 ‚LFE2‘
19
U+135
Left Surround Vertical Height Rear ‚Lvr‘
Top side left ‚TpSiL‘
CH_U_L090
Bottom Front Left ‚Bfl‘
20
U-135
Right Surround Vertical Height Rear ‚Rvr‘
Top side right ‚TpSiR‘
CH_U_R090
Bottom Front Right ‚Bfr‘
21
U+180
Centre Vertical Height Rear ‚Cvr‘
Top back center ‚TpBC‘
CH_U_180
Bottom Front Center ‚Bfc‘
22
L+000
Centre Front Vertical Bottom front Bottom center ‚Cb‘ ‚BtFC‘
CH_L_000
Back Center ‚Cb‘
23
L+030
Left Front Vertical Bottom ‚Lb‘
Bottom front left ‚BtFL‘
CH_L_L045
Left Wide ‚Lw‘
24
L-030
Right Front Vertical Bottom ‚Rb‘
Bottom front right ‚BtFR‘
CH_L_R045
Right Wide ‚Rw‘
346
5 Tonaufnahme und Tonwiedergabe
Tab. 5/17. Unterschiedliche Wiedergabesysteme mit assoziiertem Codec und Markennamen. Anzahl der Wiedergabekanäle
zugeordnetes Wiedergabeformat
Bezeichnung nach ITU-R BS.2051
Markennamen und Codecs
1
Mono
1.0
0+1+0
2
Stereo
2.0
0+2+0
mp3, (xHE-)AAC
6
3/2 (ITU-R BS.775)
5.1
0+5+0
Dolby Digital, Dolby Pro Logic II, MPEG Surround, HE-AAC
8
7.1 Surround
7.1
0+7+0
8
5/2 (7.1)
7.1
0+7+0
Dolby 7.1, Dolby Digital Plus, DTS-HD Sony SDDS
10
9.1
9.1
4+5+0
Auro 3D 9.1, DD+JOC (Atmos), Dolby AC-4, MPEG-H
12 12
11.1 11.1
11.1 11.1
5+5+1 4+7+0
Auro 3D 11.1 MPEG-H, Dolby Digital+JOC (Atmos), Dolby AC-4
14 14
13.1 13.1
13.1 13.1
6+6+0 5+5+3
Auro 3D 13.1 Sony 360 Reality Audio, MPEG-H
24
NHK 22.2
22.2
9+10+3
MPEG-H, Dolby AC-4
5.5.2 Objektbasierte Verfahren Objektbasiertes Audio ist eine Audiodarstellung, bei der die Elemente der auditiven Szene voneinander getrennt sind und durch beschreibende Metadaten begleitet werden. Ein Renderer am Empfangsgerät interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die Ausgangssignale, die für das zur Verfügung stehende Wiedergabesystem am besten geeignet sind. Metadaten können sich im Laufe der Zeit ändern, zum Beispiel um Bewegungen von Audioobjekten zu realisieren. Außerdem kann ein objektbasierter Ansatz es ermöglichen, den Benutzer mit den Audioinhalten interagieren. Im Folgenden sind Grundprinzipien der objektbasierten Audiowiedergabe erläutert. Weitere Ausführungen finden sich in Kap. 13.2.5 und Kap. 18.6 wieder. 5.5.2.1 Grundprinzipien von objektbasierten Verfahren Objektbasiertes Audio führt neue Konzepte in die Audioproduktion ein, mit Konsequenzen für die gesamte Verarbeitungskette von der Produktion bis zur Wiedergabe, dementsprechend auch für Codierung und Übertragung der Audiosignale. Objektbasiertes Audio erweitert die bekannte kanalbasierte Wiedergabe (siehe Kap. 5.5.1). Werden bei kanalbasierten Systemen Audiosignale zu Lautsprechersignalen gemischt, übertragen und wiedergegeben, so werden bei objektbasiertem Audio, Audioelemente als einzelne Objekte mit beschreibenden Metadaten erzeugt und an einen Renderer übergeben. Das Ergebnis einer objektbasierten Produktion ist, im Gegensatz zu einer traditionellen kanalbasierten Produktion, kein final abgemischtes Signal für ein bestimmtes Lautsprecherfor-
5.5 Verfahren der räumlichen Tonübertragung
347
mat, beispielsweise Stereo oder 5.1, sondern eine flexibel definierbare Anzahl von Signalen zusammen mit einer Beschreibung ihrer Eigenschaften mit Hilfe sog. Objektmetadaten (siehe Kap. 5.5.2.4). Der Renderer generiert auf Basis der beschreibenden Metadaten in Abhängigkeit des verfügbaren Wiedergabesystems etwa die Position der Objekte im Raum oder die Lautsprechersignale. So kann eine Produktion aus einer bestimmten Anzahl, z. B. 16 oder 24, von Objektsignalen bestehen, die einzelne Instrumente oder Singstimmen abbilden. Audioobjekte können sowohl Mono-Punktschallquellen sein, welche mit Eigenschaften wie Position, Pegel, Ausdehnung und Wichtigkeit beschrieben werden, als auch mehrkanalige Signale, die gemeinsam ein Objekt bilden, das wieder mit Eigenschaften wie Position, etc. beschrieben wird. Wichtig hierbei ist, dass Audioobjekte nur dann als Objekte bezeichnet werden können, wenn ihre beschreibenden Metadaten von Produktion bis Wiedergabe am Endgerät vorhanden bleiben. Die Positionierung eines Audiosignals in einem Raum, beispielsweise mit Hilfe eines 3D-Panners, kann nur dann objektbasiert sein, wenn die Positionsdaten bis zu dem Renderer verfügbar sind. Werden bereits in der Produktion Lautsprechersignale erzeugt, spricht man weiterhin von kanalbasierten Verfahren. Ein weiteres Beispiel ist ein hybrider Ansatz aus einer kanalbasierte Basismischung, dem sog. „Bed“, z. B. im 5.1 oder 5.1+4H Format, in Kombination mit zusätzlichen Objektsignalen z. B. für Sprache. Hierbei werden die Objekte separat vom kanalbasierten Bed, jedoch im gleichen Übertragungsstrom zum Wiedergabesystem transportiert, was eine Nutzerinteraktion ermöglichen kann. Beispielsweise kann der Dialog am Empfangsgerät im Pegel oder Position verändert werden, ohne das kanalbasierte Bed zu beeinflussen, um dadurch die Sprachverständlichkeit zu beeinflussen (siehe Kap. 13.4.6.4 oder Kap. 18.8.7). Objektbasiertes Audio bietet also eine weitreichende Flexibilität in der Produktion, die dadurch nicht direkt auf ein bestimmtes Zielformat ausgerichtet ist. Ein Vorteil dieses Konzepts ist, dass das übertragene Signal auf der Decoder-Seite flexibler auf unterschiedliche Wiedergabesituationen angepasst werden kann als eine auf ein bestimmtes Lautsprecherformat festgelegte Produktion. Dies ist vor allem bei immersiven, 3D-Audio-Produktionen von Vorteil, insbesondere bei der Wiedergabe über Kopfhörer, Soundbars, oder Multi-Lautsprechersysteme (siehe Kap. 5.5.2.6). 5.5.2.2 Die Aufgaben des Renderers Ein wichtiges neues Element, das bei objektbasiertem Audio benötigt wird, ist der sog. Audio-Renderer im Empfangsgerät, bzw. im Decoder (siehe Kap. 13.4.6.1 oder Kap. 18.8.7) und während der Produktion als Teil des Monitorings. Der Renderer interpretiert die Metadaten und erzeugt auf Basis der Eingangssignale die sog. gerenderten Signale, also die Signale für das zur Verfügung stehende Wiedergabesystem. Jedes Empfangsgerät verfügt über einen eigenen Renderer, der für dieses Gerät die bestmöglichen Wiedergabesignale erzeugt. Beispielsweise benötigt eine Heimkinoanlage einen flexiblen Renderer, da mehrere Lautsprecher an verschiedenen Positionen im Raum aufgestellt sein können, während bei einem Fernsehgerät die internen Lautsprecher an bekannten Positionen fixiert sind. Audio-Renderer beinhalten typischerweise unterschiedliche Module, die auf Basis der Eingangssignale und deren Metadaten aktiviert werden. Neben objektbasierten Audioin-
348
5 Tonaufnahme und Tonwiedergabe
halten können Audio-Renderer auch kanalbasierte Signale verarbeiten. Dabei wird mittels Metadaten definiert, welches Modul die Eingangssignale mit welchen Eigenschaften auf ein zur Verfügung stehendes Wiedergabesystem rendert. So kann eine 3D-Audio Produktion an alle Arten von Empfangsgeräten gleichermaßen übertragen werden. Der Audio-Renderer übernimmt die Audiosignale vom Decoder und passt die Ausgangssignale auf Basis der Metadaten an das Zielformat an, unabhängig davon, ob beispielsweise bei einer kanalbasierten Produktion die Lautsprechersignale im Empfangsgerät direkt als Ausgangssignale verwendet werden können oder über einen Downmix in ein niedriges Kanalformat angepasst werden müssen. Je nach Audiosystem können die Metadaten auch Informationen über die Downmix-Parameter beinhalten, um somit produktionsseitig das Rendering zu beeinflussen. Eine 3D-Audio Produktion kann somit an alle Empfangsgeräte gleichermaßen übertragen werden, und in diesem kann dann das Rendern in die Ausgangssignale mittels Metadaten gesteuert werden (siehe auch Kap. 5.5.2.4). Ein weiteres Beispiel sind dynamische Pegelsequenzen, die produktionsseitig definierte Lautstärkeautomation beinhalten. Die Pegel der Audioelemente können im Audio-Renderer gesteuert werden, um unterschiedliche dynamische Mischungen von Kanälen und Objekten zu ermöglichen, die während der Wiedergabe je nach persönlicher Präferenz oder den Abhörbedingungen manuell oder automatisch gewählt werden können. So kann das sog. Ducking über Metadaten dazu verwendet werden, die Lautstärke eines Elements der Audioszene, z. B. das kanalbasierte Bed automatisch zu verringern, damit ein weiteres Element, z. B. der Dialog, besser zu hören ist. Im Renderer werden außerdem auf Basis der gemessenen Programmlautheit meist nach ITU-R BS.1770-4 die Wiedergabesignale in eine Ziellautheit normalisiert. In Abhängigkeit der Einstellungen am Empfangsgerät, z. B. − 31 LUFS für Heimkinoanlagen, − 24 LUFS für Fernsehgeräte, − 16 LUFS für mobile Geräte oder unterschiedliche Profile wie „Late Night“ oder „Noisy Environment“ kann somit der Dynamikumfang eingeschränkt und individuell angepasst werden. Für das Rendern von Objektsignalen können unterschiedliche Prinzipien zur Generierung der Ausgangssignale eingesetzt werden. Gängige Verfahren, die auch in der Praxis eingesetzt werden, sind beispielsweise Vector Base Amplitude Panning (VBAP) [Pulkki, 1997], PositionBased Panning, z. B. Triple-Balanced Panning [Tsingos, 2018] oder Polygon-Based Panning, z. B. Edge Fading Amplitude Panning (EFAP) [Borss, 2014]. Ein Ziel haben alle Objektrenderer gemeinsam: die Generierung der Ausgangssignale auf Basis des zur Verfügung stehenden Wiedergabesystems in Abhängigkeit der Metadaten. Objektmetadaten können hier, neben Positionsdaten in einem kartesischen Koordinatensystem mit x-, y- und z-Achse oder einem Polarkoordinatensystem mit Azimut, Elevation und Distanz, auch Informationen über Pegel, Wichtigkeit und Dynamic Range Control beinhalten (siehe Kap. 13.2.4). Für die Kopfhörerwiedergabe oder auch bei der Wiedergabe über Soundbars oder smart speaker kann als Nachverarbeitung noch ein Binaural-Renderer (siehe Kap.5.5.5) oder ein Virtualisierer folgen (siehe Kap. 5.5.2.6). Alternativ kann auch ein für den Anwendungsfall optimierter Renderer eingesetzt werden, der die Objektsignale direkt für Kopfhörer bzw. für eine Soundbar aufbereitet. Während der Produktion spielt der Audio-Renderer im Monitoring eine wichtige Rolle, um das Ausgangssignal abhören zu können und die verschiedenen Wiedergabesituationen, wie sie in den Endgeräten auftreten können, zu kontrollieren.
5.5 Verfahren der räumlichen Tonübertragung
349
5.5.2.3 Personalisierung und Interaktion Ein weiterer wesentlicher Vorteil von objektbasiertem Audio ist die Möglichkeit zur Interaktion im Endgerät. Dadurch kann die Wiedergabe personalisiert werden, beispielsweise kann der Dialog für eine bessere Sprachverständlichkeit herausgehoben werden. Anweisungen an das Endgerät in Form der Objekt-Metadaten sorgen dafür, dass die Art und der Umfang der Personalisierung nicht unkontrolliert sind, sondern nur in einem während der Produktion vorgegebenem Rahmen vorgenommen werden kann. Während des Monitorings ist es wichtig, dass das Verhalten des Endgeräts simuliert werden kann. Dabei können die Auswirkungen der Nutzerinteraktivität kontrolliert werden und alle möglichen Varianten abgehört werden. Falls dabei ein unerwünschtes Verhalten hörbar wird, beispielsweise ein zu starker Eingriff in das Mischungsverhältnis von Dialog mit dem restlichen Signal, können die Metadaten entsprechend geändert und die Änderungen sofort wieder überprüft werden. Digitale Audioworkstation Metadatenerstellung / Rendering Aufnahme
Schnitt
Klangbearbeitung
3D Panning Kanal-Bed Objekte
Erstellung weiterer Metadaten
Monitoring Renderer
Export des Masters
Master Wellenform + Metadaten
Lautsprecher Kopfhörer
Abb. 5/73. Signalfluss für Objektsignale in der Produktion, von den Quellensignalen, über Panner, Renderer, Erstellung von Metadaten, über das Monitoring bis zum Ausgabeformat, dem Masterformat.
5.5.2.4 Metadaten Ein wesentliches Element bei objektbasiertem Audio sind beschreibende Metadaten, welche während aller Verarbeitungsschritte eng mit den einzelnen Audiosignalen verknüpft sein müssen. Metadaten können sowohl statisch sein, z. B. semantische Informationen wie „Dialog“, als auch dynamisch, wie z. B. eine sich zeitlich verändernde Positionsbeschreibung für eine räumlich angepasste Wiedergabe. Im Wiedergabegerät dienen diese Metadaten einerseits als Anweisungen für den Audio-Renderer (siehe Kap 5.5.2.2), andererseits beschreiben sie die Interaktionen, die im Wiedergabegerät zur Personalisierung möglich und zulässig sind. Alle Metadaten entstehen während der Produktion (siehe Abb. 5/73), z. B. die Positionsdaten im 3D-Panner bei der räumlichen Anordnung der Objektsignale, und werden im Renderer angewandt, damit die Gesamtmischung sofort auf dem Ausgabesystem abgehört werden kann (Monitoring). Am Ende des Produktionsprozesses werden die Metadaten zusammen mit den Audiodaten der Objektsignale in einem Masterformat gespeichert. Ein Beispiel, das in Masterformaten zur Metadatenbeschreibung verwendet wird, ist das „Audio Definition Model“ (ADM), das unten noch genauer beschrieben wird.
350
5 Tonaufnahme und Tonwiedergabe
Ausgehend vom Masterformat müssen die Metadaten während der Codierung und Übertragung erhalten bleiben (siehe auch Kap. 13.2.5 und Kap. 18.8.7) und stets mit dem dazugehörigen Audiosignal verknüpft bleiben. Audiocodecs für objektbasiertes Audio benötigen also zwingend ein Metadatenmodell (siehe Kap. 13.2.5), das die Metadaten aus der Produktion abbildet und so als Teil des codierten Bitstroms bis zum Wiedergabegerät und AudioRenderer transportiert. Die Metadaten für objektbasiertes Audio können in folgende Hauptkategorien eingeteilt werden: Quellenbeschreibende Metadaten: –– Positionsdaten, entweder auf den Zuhörer bezogen (egozentrisch) in Polarkoordinaten (Azimut, Elevation, Distanz) oder auf den Wiedergaberaum bezogen (allozentrisch) in kartesischen Koordinaten (x-, y-, z-Achse), –– Lautstärke, –– weitere Eigenschaften, wie eine virtuelle Ausdehnung einer Quelle, im Gegensatz zu Punktquellen. Inhaltliche und strukturelle Metadaten: –– Art des Objekts, z. B. Dialog, –– Gruppenzuordnungen: Kombination mehrerer Objekte/Signale, die als eine Einheit behandelt werden sollen, –– Zusammenstellungen aller Objekte bzw. Signale sowie Mischungsverhältnisse zu einer Auswahlkombination für eine Wiedergabesituation, je nach Metadatenmodell werden dafür unterschiedliche Begriffe verwendet, in ADM „audioProgramme“ (siehe unten), in MPEG-H 3D Audio „Preset“ (siehe Kap. 13.4.6), oder in AC-4 „Presentation“ (siehe Kap. 13.4.7.4). –– Textuelle Beschreibungen aller Objekte, Gruppen bzw. Vorauswahlvarianten, die während der Wiedergabe zur Personalisierung angezeigt werden können. Metadaten zur Steuerung der Wiedergabe: –– Erlaubnis, bzw. Verhinderung nutzerseitiger Eingriffe, z. B. die Lautstärke oder Position einzelner Objekte innerhalb vorgegebener Grenzen während der Wiedergabe zu verändern, –– Zuordnung von Objekten zu einer Auswahlgruppe, aus der während der Wiedergabe genau ein Objekt gewählt werden kann. Objekte, die durch diese Metadaten beschrieben werden, können neben Mono-Punktquellen auch mehrkanalige Untermischungen sein, die im Raum frei platziert bzw. bewegt werden können, bis hin zu kanalbasierten Basismischungen, die an einer festen Raumposition verankert sind. Alle quellenbeschreibenden Metadaten können sowohl statisch, zeitlich unverändert, als auch dynamisch, also zeitlich veränderbar sein. Die Metadaten der anderen oben genannten Kategorien sind typischerweise für eine komplette Produktion, bzw. einen Produktionsabschnitt unverändert, also statisch. Beispiele zeigt Tab. 5/18.
5.5 Verfahren der räumlichen Tonübertragung
351
Tab. 5/18. Beispiele für Metadaten basierend auf der ADM-Syntax nach ITU-R BS. 2076. Beispiele für Quellen beschreibende ADM-Metadaten position width, height, depth, diffuse channelLock zoneExclusion screenRef importance integratedLoudness mute
statische Lautsprecherposition für kanalbasierte Audiosignale dynamische Positionsdaten für objektbasierte Audiosignale Ausdehnung und Korrelationseigenschaften eines Objekts Bevorzugung der Wiedergabe eines Objekts über einen Einzellautsprecher gegenüber dessen Wiedergabe über mehrere Lautsprecher Definition von Raumbereichen für die Wiedergabe eines Objekts Objekt mit Bezug zum Bildschirminhalt Wichtigkeit eines Objekts für die Audioszene Lautheit eines Objekts Aktivität eines Objekts
Beispiele für strukturelle und inhaltliche ADM-Metadaten dialogue audioProgramme audioContent audioObject
Beschreibung der Art eines Objekts Zusammenstellung vorhandener Objektgruppen zu einer Auswahlkombination Definition von Objektgruppen, die typischerweise in Kombination mit anderen Objektgruppen innerhalb einer Audioszene wiedergegeben werden. Definition von Objekten durch Verknüpfung von Audiosignalen mit Metadaten
Beispiele für ADM-Metadaten zur Wiedergabesteuerung gain, positionOffset gainInteractionRange positionInteractionRange
Veränderung von Lautstärke und Position eines Objekts Definition von Grenzen für die zulässige Lautstärkeänderung eines Objekts Definition von Grenzen für die zulässige Positionsänderung eines Objekts
Eine standardübergreifende Beschreibung von Metadaten für objektbasiertes Audio liefert das sog. Audio Definition Model (ADM), das von der ITU-R in der Empfehlung BS.2076 spezifiziert wurde. Tab 5/18 zeigt einige Beispiele von ADM Metadaten, welche auch auf objektbasierte Audiocodecs abgebildet werden können (siehe Kap. 13.4.6 und Kap. 13.4.7.4). 5.5.2.5 Universelle Übertragung Die traditionelle Übertragung von Stereosignalen verwendet eine gut definierte Infrastruktur von Produktion bis hin zur Wiedergabe meist über Fernsehgeräte, Lautsprecher oder Kopfhörer. Neuartige Übertragungswege, sowie neue Klassen von Wiedergabegeräten in Kombination mit kanal- und objektbasiertem 3D-Audio lassen jedoch zukünftig eine Vielzahl an Interpretationen während der Produktion zu. Beispielswiese betrifft die folgenden Aspekte: –– Wie ist das Produktionslayout der 3D-Audio Produktion? –– Wie wird das Produktionslayout im Endgerät wiedergegeben? –– Unter welchen Abhörbedingungen bzw. an welchem Ort werden die Inhalte wiedergegeben? –– Welches Gerät wird zur Wiedergabe verwendet, z. B. Fernsehgerät, Smartphone, Tablet, Soundbar oder Car-Audio?
352
5 Tonaufnahme und Tonwiedergabe
–– Welche Interaktionsmöglichkeiten während der Wiedergabe sind mittels Audioobjekten möglich? –– Werden die Signale über Rundfunk oder Streaming empfangen? Neue Klassen von Wiedergabegeräten und Übertragungsplattformen bzw. -infrastrukturen haben an Bedeutung gewonnen und entwickeln sich ständig weiter. Aus Konsumentensicht sollten die Eigenschaften der Audioinhalte den individuellen Hörbedingungen und Vorlieben entsprechen, unabhängig von Produktionsverfahren und Übertragungskanal. Eine Entkopplung des Produktions- und Monitoringformats vom Wiedergabeformat in den Endgeräten ermöglicht eine flexible Anpassung der Audioinhalte und hilft somit mit dieser großen Variabilität der Hörumgebungen und Wiedergabesituationen umzugehen. Statt einer Vielzahl von dedizierten Mischungen und Ausgangsformaten wie Stereo, 5.1 oder immersiv wird nur ein einziges, universelles Masterformat erzeugt, aus dem dann vom Audiocodec ein einziger Bitstrom erzeugt wird (siehe Kap. 13.4.6 und Kap. 13.4.7.4), der an alle unterschiedlichen Endgeräte übertragen werden kann. Die Kombination aus dem Renderer (siehe Kap. 5.5.2.2) und Metadaten (siehe Kap. 5.5.2.4) nimmt hier eine zentrale Rolle, sowohl in Produktion als auch Wiedergabe, ein. Bereits während der Produktion ist es entscheidend, die unterschiedlichen Renderingsignale der möglichen Wiedergabesysteme, z. B. 3D-AudioFormate, 5.1 oder Stereo abhören zu können. Von Bedeutung ist daher die Erstellung der Metadaten am Ort der Produktion, um das Rendererverhalten im Endgerät zu simulieren. Produktionswerkzeuge für die Erstellung der Metadaten, sowohl in Live- als auch in der Postproduktion, beinhalten deshalb einen universellen Renderer, der dem eines Endgeräts entspricht. Der Renderer im Endgerät erzeugt auf Basis der Eingangssignale und Metadaten die Ausgangssignale, zur optimalen Wiedergabe in Abhängigkeit des verfügbaren Wiedergabesystems und äußeren Einflüssen, wie Umgebungsgeräusche oder Nutzerpräferenzen (siehe auch Kap. 5.5.2.2). 5.5.2.6 Flexible Wiedergabemöglichkeiten 3D-Audiosysteme ermöglichen mit immersiven und ggf. auch interaktiven Audioinhalten einen deutlichen Mehrwert für allen Arten von Audioinhalten. Neben den konventionellen Ansätzen zur Wiedergabe, welche die Installation einer hohen Anzahl von Lautsprechern und technisches Wissen für den Aufbau erfordert, werden vermehrt auch Soundbars oder Smartspeaker zur Wiedergabe verwendet. Diese Geräte sind einfach zu installieren und integrieren alle Komponenten, die für die Audiowiedergabe nötig sind, z. B. Schnittstellen zu externen Wiedergabegeräten über HDMI oder Streaming, Sprachsteuerung, Decoder, Verstärker und Lautsprecher. Viele Soundbars sind mit einem externen Subwoofer ausgestattet, einige Modelle bieten zudem zusätzliche, drahtlos angebundene Satelliten-Lautsprecher. Die speziellen Geräteklassen der 3D-Soundbars und 3D-Smartspeaker haben zumeist eine höhere Anzahl an Lautsprechertreibern als herkömmliche Stereo- und Surroundgeräte sowie eine erweiterte Signalverarbeitung. Ihr Ziel ist es, das Klangbild eines 3D-Lautsprecher-Setups virtuell nachzubilden. Um dies zu erreichen, können akustische und psychoakustische Methoden Anwendung finden.
5.5 Verfahren der räumlichen Tonübertragung
353
Systeme, die auf akustischen Prinzipien basieren, nutzen üblicherweise die akustischen Eigenschaften des Raums, in welchem das Wiedergabegerät platziert wird. Die akustische Energie der verschiedenen Signale wird entweder direkt über eine Vielzahl an Lautsprechern, die in verschiedene Richtungen weisend im Gehäuse angeordnet sind, oder durch Nutzung von Array-Processing in die gewünschten Richtungen verteilt. Eine gängige Methode hierfür ist z. B. Beamforming. Durch Nutzung der schallreflektierenden Eigenschaften der Decke und der Wände des Wiedergaberaums ist es möglich, den Klang auch aus anderen Richtungen als nur vom Wiedergabegerät kommend an den Hörort zu bringen. Um die individuellen Raumeigenschaften optimal zu nutzen, verwenden einige Hersteller automatisierte Einmessroutinen. Systeme, die auf psychoakustischen Prinzipien basieren, zielen darauf ab, an den Ohren des Hörers Signale zu erzeugen, welche den Ohreingangssignalen entsprechen, die von einem Lautsprecher oder einem Audioobjekt an der simulierten Position erzeugt würden. Eine gängige Methode hierfür ist z. B. Binauralwiedergabe mittels Crosstalkcancelation. Die Feinabstimmung einer spezifischen Methode oder die Kombination verschiedener Methoden sowie die charakteristische Ausgestaltung aller Einflussfaktoren bieten Herstellern einen großen Spielraum. [Olivera, 2019]
5.5.3 Schallfeldsynthese Die in Kap. 5.4 beschriebenen mehrkanaligen stereofonen Verfahren haben verschiedene Nachteile, wie beispielsweise die instabile Lokalisierung der Phantomschallquellen, insbesondere in seitlichen und vertikalen Richtungen und ihre Abhängigkeit vom Standort des Hörers, oder die Größe der Hörzone, abhängig von der Aufnahmetechnik, und auch die Unmöglichkeit, den Abbildungsbereich zwischen Lautsprechern und Hörer zu nutzen. Ebenso existieren für die Binauraltechnik (Kap. 5.5.5) grundlegende Nachteile, vor allem ausschließliche Verwendung von Kopfhörern. Diese Nachteile kann die Schallfeldsynthese großenteils vermeiden. Die physikalische Synthese eines Schallfelds kann prinzipiell und mit praxisbedingten Einschränkungen mit einem Ensemble von Lautsprechern ein akustisch korrektes Schallfeld und entsprechende virtuelle Schallquellen und Räume erzeugen. Anstelle von Phantomschallquellen bilden virtuelle Schallquellen die Grundlage der räumlichen Darstellung (siehe Kap. 5.1.2., Abb. 5/1), und anstelle der Binauraltechnik mit Kopfhörerwiedergabe entstehen die für das Hörereignis erzeugenden Ohrsignale auf natürlichem Wege im realen Schallfeld. Die eingesetzten Verfahren sind Wellenfeldsynthese (WFS) [de Vries, 2000], [Horbach, 2000], [Pellegrini, 2002] sowie Higher-order Ambisonics (HOA) [Berkhout, 1993], [Olivera, 2019]. Bei beiden Verfahren wird mit Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher – ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch bzw. weitgehend identisch ist.
354
5 Tonaufnahme und Tonwiedergabe
5.5.3.1 Wellenfeldsynthese Prinzip der Aufnahme und Wiedergabe Die Wellenfeldsynthese oder abgekürzt WFS ist ein Verfahren, mit dem ein Schallfeld eines Raums in einem anderen Raum realistisch und weitgehend identisch nachgebildet werden kann. Wegen der Ähnlichkeit mit der optischen Holografie spricht man bei der WFS auch von Holofonie. Während bei Zwei- oder Mehrkanal-Stereofonie die Schallquellen als Phantomschallquellen auf den Linien zwischen den Lautsprechern erscheinen, wird mit der WFS ein akustischer Raum mit virtuellen Schallquellen erzeugt; diese haben prinzipiell die gleichen akustischen Eigenschaften wie reale Schallquellen. Virtuelle Schallquellen werden überall in der Hörzone ortsstabil und realistisch abgebildet und lokalisiert, auch außerhalb der Lautsprecheranordnung. Die virtuellen Schallquellen können bei entsprechenden Anlagen selbst durch den Raum wandern, sie können aber auch bedingt umwandert werden. Was das binaurale Verfahren mit Kunstkopfaufnahme und Kopfhörerwiedergabe leistet, nämlich die realistische Simulation von Hörereignissen, leistet die WFS für Lautsprecherwiedergabe. Das Verfahren wurde ab 1988 an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Weitere Forschungen und Entwicklungen erfuhr die WFS mit dem 2001 bis 2003 von der EU geförderten Projekt CARROUSO, an dem mehrere Universitäten, Institute und Firmen beteiligt waren. In den vergangenen Jahren wurden im öffentlichen Bereich verschiedene WFS-Systeme installiert, z. B. für die Bregenzer Festspiele und die Seefestspiele Mörbisch sowie an verschiedenen Universitäten; die TU Berlin verfügt in einem Saal mit 650 Plätzen über eine Anlage mit 2.700 Lautsprechern. Die Wellenfeldsynthese ist eine Simulation auf einer horizontalen Fläche im Raum. Eine große Zahl von Lautsprechern ist auf Kopfhöhe angeordnet, optimal als Lautsprecherkreis. Der Bereich, in dem die Hörbedingungen optimal sind, die Hörfläche, ist begrenzt durch die endliche Zahl an Lautsprechern, sie ist aber sehr groß verglichen mit herkömmlicher Stereofonie, bei der optimale Hörbedingungen nur an einem einzigen Ort, dem Sweet Spot, bestehen. Die vertikale Dimension wird bei der WFS derzeit aus praktischen Gründen und wegen des hohen Aufwands nicht realisiert, auch weil die Richtungswahrnehmung in der Vertikalen deutlich geringer ausgebildet ist als in der Horizontalen. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt; so wurde schon 1965 im physikalischen Institut der Universität Göttingen ein System mit 65 Lautsprechern in einer Halbkugelanordnung realisiert. Das physikalische Prinzip der WFS ist das sog. Huygens-Prinzip, das der niederländische Universalgelehrte Christian Huygens im 17. Jahrhundert für die Ausbreitung des Lichts entdeckt hatte. Danach kann jede von einer Quelle beliebiger Form und Ausdehnung erzeugte Wellenfront – und damit auch sich ausbreitender Schall – als Summe von unendlich vielen Einzel- oder Elementarwellen betrachtet werden, die sich, jede für sich, kugelförmig ausbreiten. Durch Überlagerung aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Wellenfront identisch ist. Sind Schalldruck und Schallschnelle aller Punkte der Umgrenzung einer geschlossenen Fläche bekannt – oder eines Volumens im dreidimensionalen Modell, kann der Schalldruck jedes Punkts in dieser Fläche bzw. in diesem Volumen berechnet werden. Jedes Schallfeld kann demnach theoretisch durch unendlich viele Laut-
5.5 Verfahren der räumlichen Tonübertragung
355
sprecher nachgebildet werden. In der Nachbildung ergibt sich die ursprüngliche Schallquelle als sog. virtuelle Schallquelle. Der sog. akustische Vorhang zeigt nochmals anschaulich das Prinzip der WFS: Wenn in die Wand zwischen einem Aufnahmeraum und einem Wiedergaberaum dicht nebeneinander Löcher gebohrt würden, so könnte man die Schallereignisse durch diese Wand perfekt hören. Man kann nun jedes dieser Löcher durch ein Mikrofon und einem Lautsprecher mit gleichen Richtcharakteristiken ersetzen, das ergibt den sog. akustischen Vorhang (Abb. 5/74).
Abb. 5/74. Prinzip des akustischen Vorhangs.
Anders als beim Prinzip des akustischen Vorhangs werden bei der Wellenfeldsynthese aber nicht die einzelnen Signale des Mikrofonarrays übertragen, sondern getrennt die trocken, also ohne Raumanteile, aufgenommenen Signale der Schallquelle und die des Raumanteils. Vor oder nach der Aufnahme wird zur Ermittlung der akustischen Eigenschaften des Aufnahmeraums eine sog. Raumimpulsantwort aufgenommen, gemessen und abgespeichert (Abb. 5/75, oben). Regt man einen Raum mit einem Knall, einem sog. Dirac-Impuls, zum Schwingen an, so gibt der Raum darauf eine Impulsantwort, er hallt nach. Diese Impulsantwort stellt quasi einen Fingerabdruck des Raums dar. aus dem alle wichtigen akustischen Kriterien des Raums wie Nachhallzeit, Klarheitsmaß usw. abgeleitet werden können. Der Raum wird also bei der WFS getrennt von der Gestalt der Schallquelle übertragen, man spricht von objektorientierter Übertragung. Die Aufnahme des Direktschalls erfolgt nahe an der Schallquelle. Durch die Trennung von Gestalt und Raum oder Direkt- und Diffusschall kann der Aufnahme auch die Akustik eines anderen Aufnahmeraums zugeordnet werden, die Schallquellen sozusagen in einen akustisch besser geeigneten Raum versetzt werden. Wiedergabeseitig werden Klanggestalt und Raum im Wave Field-Synthesizer durch einen mathematischen Prozess wieder zusammengefügt (convolution). Das „trockene“ Quellsignal wird dabei mit der vorliegenden Impulsantwort des Raums verrechnet, man sagt
356
5 Tonaufnahme und Tonwiedergabe
gefaltet (FIR-Filterung) und den Lautsprecherkanälen zugeführt (Abb. 5/75, unten). Die Schallquelle erhält also ihre ursprünglichen räumlichen Eigenschaften im Prinzip vollständig zurück.
Abb. 5/75. Prinzip der Wellenfeldsynthese.
Die Raumimpulsantworten können auch nach Maßgabe eines raumakustischen Modells dynamisch berechnet und ebenso wie gemessene Raumdaten abgespeichert werden. Im Gegensatz zum datenbasierten Verfahren, welches die Reproduktion der originalen Raumakustik erlaubt, erzeugen die modellbasierten Verfahren mit berechneten Raumimpulsantworten synthetische Räume. Im wiedergabeseitigen WFS-Prozessor können Impulsantwor-
5.5 Verfahren der räumlichen Tonübertragung
357
ten beliebiger Räume als Datensätze gespeichert vorliegen und wahlweise eingesetzt werden. [Berkhout, 1993], [Boone, 1995], [Horbach, 2000], [de Vries, 2000], [Pellegrini, 2002], [Theile, 2002], [Wittek, 2004]. Fähigkeiten der Wellenfeldsynthese Die Wellenfeldsynthese ist ein leistungsfähiges System für eine räumliche, perspektivisch überzeugende Gestaltung der akustischen Szene. Die typischen Schwächen der konventionellen Lautsprecher-Stereofonie gibt es grundsätzlich nicht, ihre besonderen Merkmale sind:
Abb. 5/76. Die WFS ermöglicht die Wiedergabe sowohl von ortsfesten Punktquellen (PQ 1, PQ 2) als auch von stabilen Einfallsrichtungen ebener Wellen im gesamten Bereich der Hörfläche.
–– Virtuelle Punktschallquellen können an jedem Ort im Wiedergaberaum an der gleichen Stelle der Szene wie im Aufnahmeraum lokalisiert werden, auch im Bereich zwischen dem Hörer und den Lautsprechern, solange sich der Hörer innerhalb der Hörfläche bewegt. In Abb. 5/76 sind die Hörereignisrichtungen an unterschiedlichen Orten für zwei Punktquellen PQ 1 und PQ 2 angedeutet. –– Es können ebene Schallwellen entsprechend einer unendlich großen Entfernung der virtuellen Quellen erzeugt werden. Die Hörereignisrichtung ist an jedem Ort der Hörfläche dabei dieselbe, sie wandert mit dem Hörer wie die Sonne (Abb. 5/76). Dabei wird die Richtung ebenso präzis wahrgenommen wie bei Punktschallquellen.
358
5 Tonaufnahme und Tonwiedergabe
–– Es entsteht eine realistische Perspektive durch ortsfeste Punktschallquellen und Präsenz in der virtuellen akustischen Szene. –– Der Hörer wird umhüllt durch einen realistisch empfundenen Raumeindruck mit einer ausgewogenen Hallbalance in weiten Bereichen der Hörzone mit Hilfe der Synthese von ebenen Wellen für die Wiedergabe des Nachhalls bzw. der Atmo. Insgesamt ist die Synthese komplexer akustischer räumlicher Szenen möglich, die der Hörer besonders realistisch erleben kann, wenn er in der Hörzone umherwandert. Abb. 5/76 deutet an, in welcher Weise sich der Höreindruck bei Wechsel des Hörorts verändert. Darüber hinaus hat sich gezeigt, dass im Vergleich zur Stereofonie die Wellenfeldsynthese eine gesteigerte räumliche Transparenz gewährleisten kann. Einschränkungen in der Praxis Die theoretischen Möglichkeiten der Wellenfeldsynthese sind in der Praxis nicht ohne Einschränkungen realisierbar. Aufnahme- und wiedergabeseitig gibt es praktische Zwänge und technische Unzulänglichkeiten, die das Ergebnis in vielen Situationen negativ beeinflussen. Die folgende Aufzählung lässt erkennen, dass das System in der Theorie zwar hervorragende Eigenschaften zeigt, eine praktische Umsetzung mit ihren Einschränkungen aber noch viele Forschungsaufgaben bereithält: –– Spatial Aliasing: Der unvermeidbare Abstand der Array-Lautsprecher voneinander verursacht oberhalb einer Grenzfrequenz räumliche und spektrale Fehler. Oberhalb dieser Spatial Aliasing-Frequenz kann das Schallfeld physikalisch bedingt nicht mehr korrekt synthetisiert werden. Beträgt der minimale gegenseitige Abstand für größere Lautsprecher z. B. 20 cm, so ist die Grenzfrequenz 1 kHz. Nur das Spektrum unterhalb dieser Frequenz kann vom Gehör für die Lokalisierung der virtuellen Schallquellen ausgewertet werden. –– Spatial Truncation: Die Theorie geht von einem unendlich langen Lautsprecher-Array aus. Bei begrenzten Array-Abmessungen entstehen von den Rändern her Beugungswellen, die sich als Nach- und Vorechos bei fokussierten Schallquellen bemerkbar machen und Klangverfärbungen verursachen können. Es gibt jedoch Methoden zur Reduzierung dieser Effekte, z. B. die Anwendung von tapering windows, welche die Amplituden der äußeren Lautsprechersignale reduzieren. Dies verkleinert allerdings auch die Hörfläche. –– Spatial Interference: Ein WFS-Array kann das angestrebte Schallfeld nicht optimal synthetisieren, wenn störende Reflexionen des Wiedergaberaums hinzukommen. Dies wirkt sich besonders aus auf die Wahrnehmung von Entfernungen, der räumlichen Tiefe sowie des Raumeindrucks. Das Gehör ist äußerst empfindlich und erkennt die reale Situation von Lautsprecher und Wiedergaberaum bevorzugt, auch auf Grund visueller Informationen. Das „Eigenleben“ des Wiedergaberaums muss stark unterdrückt werden, damit die virtuellen Schallquellen und der virtuelle Raum nicht verdeckt werden. –– Beschränkung auf die horizontale Ebene: Die durch die praktische Realisierbarkeit bedingte Beschränkung auf die horizontale Ebene hat verschiedene Nachteile. Zunächst ist klar, dass in einer horizontalen Anordnung der Arrays nur virtuelle Quellen in der Horizontalebene synthetisiert werden können. Auch die Reproduktion des indirekten Schalls ist auf die horizontale Ebene beschränkt, obwohl zur Messung der Raumimpul-
5.5 Verfahren der räumlichen Tonübertragung
359
santwort bei den üblichen Methoden nahezu alle Reflexionen im oberen und unteren Halbraum erfasst werden. Das nur zweidimensionale Reflexionsmuster ist entsprechend ungenau und kann die Wahrnehmung von Raumeindruck und Umhüllung negativ beeinflussen. Hinzu kommt, dass eine Kugelwelle oder ebene Welle nur dreidimensional generiert werden kann. Eine mit einem Linienarray erzeugte ebene Welle beispielsweise hat dann die Form eines Zylinders, der das Array umgibt. Deshalb nimmt im Gegensatz zu einer idealen ebenen Welle ohne Pegelabnahme der Pegel mit der Entfernung um 3 dB bei Verdopplung der Entfernung ab. –– Erforderliche Übertragungskapazität: Bei der Wellenfeldsynthese steigt die Zahl der erforderlichen Übertragungskanäle etwa proportional mit der Anzahl der zu übertragenden Schallquellen. Für den erfolgreichen Einsatz der WFS müssen in der Mehrzahl der Anwendungen deshalb Methoden entwickelt werden, die die Zahl der erforderlichen Kanäle für die Übertragung und Speicherung begrenzen, ohne dabei gleichzeitig die Qualität zu beeinträchtigen. –– Übertragung ausgedehnter Schallquellen: Am Beispiel der Übertragung eines Chors wird deutlich, dass das Konzept der getrennten Übertragung von Klanggestalt und Raum nicht immer praktikabel ist. Die Qualität der Aufnahme würde im Vergleich zu einer stereofonen Aufnahme nicht wachsen, wenn die Zahl der Stützmikrofone, d. h., die Zahl der zu übertragenden „trockenen“ monofonen Quellsignale der Chormitglieder oder Chorgruppen, beliebig gesteigert werden könnte. Sie wäre wahrscheinlich selbst dann nicht optimal, wenn jedes Chormitglied ein eigenes Stützmikrofon bekäme, wovon die Theorie ausgeht. Hinzu kommt, dass für jedes der Stützmikrofone die Raumimpulsantworten gemessen und diese Datensätze übertragen werden müssten. Auf der Wiedergabeseite müssen entsprechend viele der rechenintensiven Operationen durchgeführt werden. Ebenso anspruchsvoll ist beispielsweise die Übertragung eines Klaviers im Konzertsaal. Ein Klavierklang setzt sich aus vielen räumlich verteilten Klangelementen zusammen, es ist keine punktförmige Schallquelle. Die reine Lehre der Wellenfeldsynthese wird dieser Aufgabe nicht gerecht. –– Übertragung der Atmo: Auch Atmo, Umgebungsgeräusche aller Art, setzen sich aus vielen räumlich verteilten Quellen zusammen, beispielsweise Applaus im Konzertsaal. Hunderte von Einzelschallquellen, die im ganzen Raum fern und nah verteilt sind, formen das Hörerlebnis Applaus oder Atmosphäre. Mit dem Konzept der binauralen Reproduktion der Ohrsignale (Kunstkopftechnik, siehe Kap. 5.5.5) ist im Prinzip eine realitätsgetreue Übertragung erreichbar. Mit Einschränkungen gilt das ebenso für Verfahren der Mehrkanal-Stereofonie. Das Konzept der Aufnahme trockener Einzelschallquellen bei der WFS kann dies aber nicht leisten. Virtual Panning Spot Die genannten praktischen Einschränkungen der Wellenfeldsynthese lassen sich zum Teil mit technischen Maßnahmen mildern, das trifft besonders für die o. g. Punkte 1 bis 4 zu. Die Punkte 5 bis 7 dagegen zeigen, dass die getrennte Übertragung von Einzelquellen und Rauminformationen offenbar in vielen Fällen wenig sinnvoll ist. Die Lautsprecher- Stereofonie besitzt aber erstaunlicherweise gerade dort Stärken, wo das WFS-Übertragungsverfahren die o. g. prinzipiellen Schwächen aufweist.
360
5 Tonaufnahme und Tonwiedergabe
Um die Vorteile der herkömmlichen Zwei- oder Mehrkanal-Stereofonie nutzen und mit der WFS kombinieren zu können, werden sog. Virtual Panning Spots (VPS) eingeführt. Das Prinzip ist in Abb. 5/77 dargestellt. Obgleich neben dem Solisten ein Chor mit vielen Einzelschallquellen aufgenommen werden soll, werden insgesamt nur vier virtuelle Schallquellen vorgesehen. Eine davon repräsentiert den Solisten nach dem Prinzip der WFS, also separate Übertragung der Nahfeld-Aufnahme und der dazugehörigen Raumimpulsantwort. Für die Aufnahme des Chors ist dagegen eine konventionelle stereofone Technik vorgeschaltet (L-C-R). Die Mischung sollte so beschaffen sein, dass sie einerseits wenig Rauminformation enthält, andererseits aber die flächige Verteilung der Chormitglieder in dem genannten Beispiel adäquat wiedergibt. Das dreikanalige stereofone Signal des Chors wird in der folgenden WFS-Übertragungskette wie drei diskrete Einzelquellensignale behandelt, also ebenfalls zusammen mit den zugehörigen Raumimpulsantworten übertragen. Die drei WFS-Signale repräsentieren somit virtuelle Lautsprecher, welche das stereofone Klangbild des Chors im Aufnahmeraum wiedergeben.
Abb. 5/77. Virtuelle Panning Spots (VPS) zur Nutzung stereofoner Verfahren.
Da die Virtual Panning-Spots virtuelle Quellen darstellen, müssen wiedergabeseitig natürlich auch die passenden Raumimpulsantworten zur Verfügung stehen. Diese können im Ursprungsraum gemessen oder synthetisiert werden. In der Praxis müssen Messungen einzelner Raumimpulsantworten bestimmter Räume nicht für jede Aufnahme neu gemessen
5.5 Verfahren der räumlichen Tonübertragung
361
werden, sondern stehen in einer Datenbank zur Verfügung. Das Beispiel in Abb. 5/77 stellt den Chor mit drei VPS dar, die per Wellenfeldsynthese wiedergeben werden und dadurch hinsichtlich Lokalisierung, Ausdehnung und Entfernung relativ frei konfigurierbar sind. Die stereofone Aufnahme des Chors erzeugt im Gesamtbild einen großen Klangkörper, denn es existiert eine Abbildung zwischen den VPS nach den Gesetzen der Stereofonie. Die „Lautsprecher“ sind virtuelle Quellen, per WFS generiert und mit den räumlichen Eigenschaften des Aufnahmeraums versehen. Die Orte der VPS verhalten sich für den Bereich der Hörzone richtungsstabil. Die bekannten Nachteile der Lokalisierung der Phantomschallquellen, insbesondere die geringe Richtungsstabilität, lassen sich leicht vermeiden, indem eine ausreichende Anzahl von VPS gesetzt wird, z. B. drei bis fünf VPS für den vorderen Abbildungsbereich. Dies ist nur eine Frage der technischen Möglichkeiten während der Aufnahme und der verfügbaren Übertragungskapazität, nicht aber eine Frage der Lautsprecheranordnung beim Hörer. Das VPS-Konzept hat für die WFS-Übertragung wesentliche prinzipielle Vorteile, sowohl hinsichtlich der Wiedergabequalität als auch bezüglich der Handhabung der Aufnahmetechniken. Es basiert auf der Anwendung stereofoner Techniken, es gibt keine völlig neuen Konzepte der Mikrofonierung, die Abmischung auf die VPS-Positionen benötigt keine neuen Methoden. Neu ist allerdings, dass die Entfernungsdarstellung einfach mit der Festlegung der VPS-Positionen vollzogen wird. Wie bereits erwähnt, befindet sich die Schallquelle bei ebenen Wellen theoretisch unendlich weit entfernt. Diese Eigenschaft ist günstig für die Darstellung von Atmo oder Umhüllung durch Nachhall. Es hat sich gezeigt, dass bereits wenige ebene Wellen aus unterschiedlichen Richtungen ausreichen, um einen als subjektiv diffus empfundenen Nachhall zu erzeugen. Schon mit heute üblichen Hallgeräten lassen sich unkorrelierte Nachhallfahnen mit mindestens vier Kanälen herstellen, die dann als ebene Wellen über das Lautsprecherarray synthetisiert werden. Virtuelle Lautsprecher Einen wichtigen Sonderfall für die VPS-Anwendung stellt eine spezielle wiedergabeseitige Voreinstellung der VPS dar, die die Wiedergabe von konventionellen Mehrkanal-Aufnahmen in einem virtuellen Abhörraum ermöglicht. Zu diesem Zweck sind für den wiedergabeseitigen WFS-Decoder zwei Maßnahmen vorgesehen (Abb. 5./78): –– Die Konfiguration der VPS hinsichtlich Raumimpulsantworten und räumlicher Anordnung erfolgt nicht nach Maßgabe der im WFS-Kanal übertragenden Informationen, sondern gemäß der voreingestellten Darstellung virtueller Lautsprecher in einem virtuellen Abhörraum. Beliebige Anordnungen der virtuellen Lautsprecher können voreingestellt sein und abhängig vom wiederzugebenden Stereofonie-Format aktiviert werden. –– Die virtuellen Quellsignale werden nicht aus dem WFS-Übertragungskanal empfangen, sondern vom wiedergabeseitigen Mehrkanaldecoder, z. B. einem DVD-Player. Die WFS-Wiedergabeanlage arbeitet hier völlig losgelöst von einer WFS-Übertragung, kann aber in diesem Modus prinzipiell bereits einige attraktive Vorteile im Vergleich mit einer konventionellen Wiedergabeanlage bieten:
362
5 Tonaufnahme und Tonwiedergabe
–– Diverse stereofone Mehrkanal-Formate lassen sich problemlos durch Wahl einer VPSVoreinstellung optimal wiedergeben, ohne die Lautsprecheranordnung z. B. im Wohnzimmer entsprechend anpassen zu müssen. –– Auch in beengter Raumsituation ist durch die größeren Entfernungen der virtuellen Lautsprecher die Hörzone für Mehrkanal-Stereofonie ausreichend groß. –– Ebene Wellen für die Surround-Signale vergrößern die Hörzone, weil der Schalldruckpegel bei Verdopplung der Entfernung nur um 3 dB abnimmt und die Hörereignisrichtung in der Hörzone ortsunabhängig ist. –– Eine hochwertige WFS-Wiedergabeanlage erlaubt eine elektronische Kompensation verschiedener Mängel des Wiedergaberaums, insbesondere die Reduktion der Wirkung von frühen Reflexionen sowie den Ausgleich unsymmetrischer Anordnungen der Lautsprecherarrays.
Abb. 5/78. VPS als virtuelle Lautsprecher für konventionelle Mehrkanalformate.
Diese rein wiedergabeseitige Anwendung der Wellenfeldsynthese für Mehrkanal-Stereofonie könnte aus technischer und praktischer Sicht der erste Schritt für die Einführung auf dem Markt sein. Interessant ist hier die Entwicklung der MAP-Technologie [Bauck, 1996], [Boone, 2004]. Diese flachen, mit einer Glasfaser gespeisten Panels sind in Wohnräumen meistens besser zu integrieren als Lautsprecherboxen. Die Praktikabilität der Panels, verbunden mit den oben dargestellten Vorteilen der WFS-gestützten virtuellen Lautsprecher, könnte schon in naher Zukunft zum ersten Markterfolg der Wellenfeldsynthese führen. Dabei ist nicht
5.5 Verfahren der räumlichen Tonübertragung
363
nur an die Anwendung im Heim als Home Theatre gedacht, sondern auch an den Einsatz in Kinos, Theatern oder ähnlichen Wiedergaberäumen. Verfahren der echten WFS-Übertragung werden wohl erst später folgen. Wichtige Faktoren für die Akzeptanz der Wellenfeldsynthese in den verschiedenen Anwendungsbereichen werden die Praktikabilität sowie die tatsächlich erreichbare Wiedergabequalität sein, dies nicht nur hinsichtlich räumlicher Merkmale wie Lokalisierung, räumliche Tiefe, Perspektive und Transparenz, sondern insbesondere auch bezüglich der Klangfarbe. Virtueller Kopfhörer Die binauralen Signale einer Kunstkopfaufnahme werden über Lautsprecher mit einem sog. crosstalk cancellation-Filter (XTC) wiedergegeben, um die Beschallung des jeweils abgewandten Ohrs zu verhindern [Weissgerber, 2009]. Dazu müssen die Übertragungseigenschaften dieser Wege gemessen oder berechnet werden, das Filter hat dann dementsprechend inverse Filterkennlinien für alle Richtungen, diese müssten durch head tracking mit jeder Kopfdrehung nachgestellt werden, was mit realen Lautsprechern kaum zu verwirklichen ist. Die WFS hingegen kann die Lautsprecher durch virtuelle Punktschallquellen ersetzen. Wenn diese nahe bei den Ohren des Hörers positioniert werden, kann eine stabile virtuelle Kopfhörersimulation erreicht werden ohne XTC-Filter. Anstelle einer linearen WFS-Standardanordnung bietet eine Kreisanordnung über dem Hörer einen konstanten Abstand zwischen den Ohren, den virtuellen Schallquellen und den Lautsprechern, dies wieder führt zu einer konstanten und hohen Aliasing-Frequenz und stark reduzierten Klangfärbungen während der Kopfbewegungen. Die tiefen Frequenzen werden über Subwoofer abgestrahlt, der Lautsprecherkreis kann unsichtbar über dem Kopf des Hörers angebracht werden. Binaural Sky Eine mögliche Anwendung des virtuellen Kopfhörers ist der Binaural Sky, ein neuartiges Wiedergabesystem speziell für die binauralen Signale einer Kunstkopfaufnahme, wobei die Wellenfeldsynthese und die dynamische Kompensation des Übersprechens bei Lautsprecherwiedergabe kombiniert werden. Der 2005 entwickelte Prototyp besteht aus einem über dem Kopf des Hörers befestigten Lautsprecherring. Mit Hilfe der Wellenfeldsynthese werden damit Quellen in Ohrnähe fokussiert, wodurch Ohrsignale so reproduziert werden können, dass eine dreidimensionale Abbildung von Schallereignissen ohne die Verwendung von Kopfhörern oder im Sichtfeld aufgestellten Lautsprechern möglich ist. Unabhängig von der Akustik des jeweiligen Abhörraums kann z. B. in einem kleinen Übertragungswagen die Akustik der gewohnten Tonregie simuliert werden. Die Basis des Systems bildet das Verfahren der Binauralen Raumsynthese (binaural room scanning, BRS), das Mitte der 1990er Jahre am IRT entwickelt wurde. Ein realer Abhörraum wird mit Hilfe eines Kunstkopfs vermessen, die binauralen Raumimpulsantworten des Raums (binaural room impulse response, BRIR) werden für jeden einzelnen der beteiligten Lautsprecher und für verschiedene Ausrichtungen des Kunstkopfs gemessen und gespeichert. Für die Wiedergabe wird der aktuelle Drehwinkel des Kopfs mittels eines head tracking-Systems ermittelt, so dass für die Faltung auf den passenden Satz Impulsantworten aus der Datenbank zugegriffen werden kann. Mit dem BRS-System ist es möglich, eine beliebige LautsprecherAbhörsituation mit Hilfe von Kopfhörern zu virtuell darzustellen, Näheres in Kap. 5.5.6.1.
364
5 Tonaufnahme und Tonwiedergabe
Grundsätzlich funktioniert der Binaural Sky wie ein Kopfhörer, d. h., es gibt zwei Ausgangskanäle, deren Signale direkt am rechten und linken Ohr wiedergegeben werden. Besonders interessant ist aber das komplette System, also die Wellenfeldsynthese mit Übersprechkompensation in Kombination mit der Binauralen Raumsynthese, weil es faszinierende Möglichkeiten eröffnet: Es lassen sich stabile dreidimensionale Abhörsituationen mit beliebigen Quellenkonstellationen realisieren und zwar ohne störende Kopfhörer oder im Sichtfeld befindliche Lautsprecher. Der Hörer kann damit in eine virtuelle akustische Umgebung versetzt werden. Das System eignet sich daher speziell für virtual reality-Anwendungen oder z. B. für Computerspiele. Durch eine subjektive Beurteilung in Hörversuchen zeigte sich, dass das System eine stabile räumliche Abbildung von binauralen Signalen mit einer sehr guten Lokalisierungsschärfe bietet. Bis etwa 7 kHz ist das System weitgehend ohne Klangfärbungen, darüber machen sich wegen Alias-Effekten der WFS geringe Klangfärbungen bemerkbar. [Horbach, 1999], [Menzel, 2005/1, 2]. 5.5.3.2 Ambisonics Das Aufnahme- und Wiedergabesystem Ambisonics wurde Anfang der 1970er Jahre durch Gerzon [Gerzon, 1973], Fellgett et al. [Fellgett, 1974, 1975] als Alternative unter dem Begriff Ambiophonie zu den damals populären, aber psychoakustisch wenig fundierten und untereinander inkompatiblen Quadrophonie-Formaten entwickelt. Das Verfahren erlaubt bereits mit vier Kanälen eine vollständige 3D-Darstellung, allerdings bei sehr kleiner Hörzone und geringer räumlicher Auflösung. Durch das Hinzufügen weiterer Kanäle können diese Einschränkungen entsprechend den Anforderungen vergrößert werden. Diese Erweiterung heißt ‚Higher-order Ambisonics‘ [Daniel 2001]. Ambisonics ist isotrop, das bedeutet, dass die Aufnahme- und Wiedergabequalität einer Quelle unabhängig von ihrer Richtung ist. Dank dieser Eigenschaft kann ein AmbisonicsSignal ohne Qualitätsverlust beliebig rotiert werden, was für Anwendungen mit head tracking sehr nützlich ist. Ein weiterer Vorteil liegt in der Entkopplung von Signal und Wiedergabesystem – eine Ambisonics-Aufnahme wird zum Abspielen decodiert und kann innerhalb gewisser Grenzen über verschiedene Lautsprecheranordnungen befriedigend wiedergegeben werden; auch eine Binauralisierung ist möglich. Signalformat und Mikrofontechnik Ambisonics erster Ordnung lässt sich als Erweiterung der MS-Stereofonie verstehen, siehe Kap. 5.3.2.2. Die Basis bildet eine ungerichtete Druckkomponente, früher mit W, heute mit der Ambisonic channel number ACN 0 bezeichnet, und dem bekannten links/rechts-Gradienten Y bzw. ACN 1. Fügt man nun einen oben/unten-Gradienten Z bzw. ACN 2 und einen vorn/ hinten-Gradienten X bzw. ACN 3 hinzu, hat man in einem kleinen Bereich um den Messpunkt den Schalldruck und in allen drei Raumdimensionen die Schallschnelle beschrieben. Das resultierende Signal heißt B-Format. [Gerzon, 1975/1], [Chapman, 2009] Ein entsprechendes Mikrofonarray aus einer Kugel und drei Achten in koinzidenter Anordnung wird als ‚natives B-Format-Array‘ bezeichnet. Eine perfekte Koinzidenz ohne Laufzeiteffekte lässt sich aber wegen der Größe der Kapseln nur für bestimmte Einfallsrichtungen erzielen; Schall aus anderen Richtungen ist mit unterschiedlich großen Laufzeitfehlern behaftet,
5.5 Verfahren der räumlichen Tonübertragung
365
was der Zielsetzung der Isotropie widerspricht. Daher wird das native Array üblicherweise nur in der dreikanaligen Version für 2D-Anwendungen benutzt und die Kapseln werden übereinander so angeordnet, dass sie für horizontal einfallenden Schall koinzident sind [Benjamin 2005]. Es entspricht damit dem Doppel-MS-Mikrofon [Wittek 2006]. Für 3D-Aufnahmen kommt überwiegend eine Anordnung von breiten Nieren [Farrar 1979] oder Nieren auf den vier Ecken eines Tetraeders zur Anwendung (siehe auch Kap. 4.2.2.8). Die vier Kanäle dieses Tetraeder-Mikrofons lassen sich durch eine einfache Matrix-Operation in die B-Format-Komponenten überführen. ACN 0 entspricht dabei der Summe aller Kapseln, für ACN 1 werden die beiden linken Kapseln addiert und die rechten subtrahiert. ACN 2 und 3 werden in gleicher Weise aus den oben/unten- und vorn/hinten-Differenzen gewonnen. Die unvermeidlichen Koinzidenzfehler durch unterschiedliche Laufzeiten werden durch eine möglichst kompakte Bauweise minimiert und sind recht gleichmäßig über alle Richtungen verteilt. Die resultierenden Kammfilterverfärbungen im Hochtonbereich können daher durch eine Diffusfeld-Entzerrung der Mikrofonsignale korrigiert werden [Gerzon 1975/2]. Voraussetzung für die Isotropie ist, dass die Komponenten jeder Ordnung zusammen den umgebenden Raum tatsächlich gleichmäßig abtasten. Für die ideale Kugelcharakteristik der „nullten“ Ordnung ist dies unmittelbar einsichtig. Aber auch die drei idealen Achtercharakteristiken der ersten Ordnung ergeben über alle Richtungen summiert wieder eine Kugel. Diesem Kriterium folgend könnte auch die tetraedrische Anordnung von vier Nieren als Grundlage der Schallfeldbeschreibung dienen. Es ist aber vorteilhaft, dass die Komponenten einer Ordnung darüber hinaus jeweils linear unabhängig sind, also im mathematischen Sinn einen minimalen Satz Basisfunktionen zur Zerlegung der Kugeloberfläche bilden. Das B-Format erfüllt dieses zusätzliche Kriterium. Im Gegensatz zur Stereofonie, die psychoakustische Reize durch Laufzeit- und Pegelunterschiede nachbildet, die sich über die Mikrofonauswahl und -position willkürlich kontrollieren und damit frei gestalten lassen, beschreibt Ambisonics das physikalische Schallfeld am Aufnahmeort. Dessen Zerlegung in die Komponenten des B‑Formats lässt sich als räumliche Abtastung verstehen. Panning Genau wie bei Stereoproduktionen können Monosignale von elektronischen oder nah mikro fonierten akustischen Quellen mit einem geeigneten Panner in einer B-Format-Summe positioniert werden. Dazu wird das Monosignal mit passenden Gain-Koeffizienten auf die Komponenten des B-Formats verteilt (encodiert). Wenn S das monofone Eingangssignal, 0 ≤ θ ≤ 360° der gewünschte Azimut- oder Horizontalwinkel und −90° ≤ ϕ ≤ 90° der gewünschte Elevations- oder Vertikalwinkel ist, dann ergeben sich für die Komponenten bis zur ersten Ordnung die folgenden Beziehungen, in der Praxis nötige konstante Normalisierungskoeffizienten sind hier vernachlässigt: ACN 0 = W = S ACN 1 = Y = sin θ⋅ cos φ ACN 2 = Z = sin φ ACN 3 = X = cos θ ⋅cos φ
366
5 Tonaufnahme und Tonwiedergabe
Wenn man diese Gleichungen über alle Azimut- und Elevationswinkel dreidimensional darstellt, ergeben sich die Graphen nullter und erster Ordnung aus Abb. 5/79, Panning ist also das „Aufnehmen“ des Quellsignals mit den virtuellen „Mikrofonen“ der jeweiligen Komponenten. Die zum Encodieren nötigen Operationen sind, genau wie die Rotation um die Z-Achse, trivial. Rotationen um andere Achsen sind wegen der Mischung der Dimensionen geringfügig komplexer, der Rechenaufwand ist aber in beiden Fällen gering. Higher-order Ambisonics Ambisonics erster Ordnung ist in seiner räumlichen Auflösung durch die Richtcharakteristik des Gradientenempfängers erster Ordnung, der Acht, begrenzt. Die Betrachtung ihres Polardiagramms zeigt, dass eine Ortsveränderung der Quelle um 45° aus der Achse nur eine Pegelabschwächung von 3 dB bewirkt. Dies verdeutlicht die geringe Lokalisationsschärfe. Eine weitere Konsequenz ist die geringe Größe der Hörzone, also jenes Bereichs, in dem das Schallfeld hinreichend genau beschrieben und rekonstruiert werden kann. Soll die räumliche Auflösung erhöht und damit die Hörzone vergrößert werden, benötigt man feiner auflösende Basisfunktionen, die ebenfalls die Kugeloberfläche gleichmäßig abtasten. Die Komponenten nullter und erster Ordnung sind der Beginn einer unendlichen Folge von sogenannten spherical harmonics, mit denen ein Schallfeld im Prinzip beliebig genau beschrieben werden kann. Der Name, sinngemäß Kugeloberwellen, lässt sich so verstehen, dass sie den Eigenresonanzen einer vibrierenden Kugeloberfläche ähneln.
Abb. 5/79. Spherical harmonics 0. bis 5. Ordnung [Zotter, 2012].
Für jede neue Ordnung gilt, dass die Summe ihrer Komponenten über alle Raumrichtungen wieder eine Kugel ergibt. Genau wie die Dipole der ersten Ordnung zur Unterscheidung von vorn und hinten die nullte Ordnung als Polaritätsreferenz benötigen, sind die Multipole der höheren Ordnungen nur in Bezug auf die Komponenten darunter eindeutig bestimmt.
5.5 Verfahren der räumlichen Tonübertragung
367
Wenn man von einem B-Format n-ter Ordnung spricht, sind also die Komponenten aller niedrigeren Ordnungen immer eingeschlossen. Die Zone nahezu perfekter Rekonstruktion hat nach [Ward, 2001] einen Radius von r0 ≈ N · c / 2π · f , wobei N die Ordnung des Systems, c die Schallgeschwindigkeit und f die Frequenz ist. In einem System dritter Ordnung wird also ein etwa kopfgroßes Volumen bis 1,7 kHz nahezu perfekt rekonstruiert. Eine subjektiv befriedigende Lokalisation wird wegen der Bandbegrenztheit der Lokalisationsreize aber ohne weiteres über mehrere Meter erreicht; in der Praxis ist der limitierende Faktor die Annäherung eines Hörorts außerhalb der Mitte an den nächstgelegenen Lautsprecher, der irgendwann die Lokalisierung dominiert [Nettingsmeier, 2011]. Mikrofone höherer Ordnung werden in der Regel aus einer großen Anzahl von Druckempfängern realisiert, die in eine schallharte Kugel eingebaut sind [Meyer 2004], aber auch offene Konstruktionen [Plessas 2009] und solche aus reinen Druckgradienempfängern sind möglich [Craven, 2009]. Allen Anordnungen ist gemeinsam, dass die Richtcharakteristiken höherer Ordnung durch Differenzbildung der Kapselsignale gewonnen werden. Die höhere Auflösung von Higher-order-Mikrofonen wird also erkauft durch einen Anstieg des Grundrauschens. Dazu kommt, dass der unvermeidliche Bassabfall von Druckgradientenmikrofonen, der mit zunehmender Ordnung steiler wird, durch teilweise extreme Anhebungen des Frequenzgang kompensiert werden muss. Die aufwändige Kalibrierung der Kapseln und die Entzerrung der Komponenten höherer Ordnung sind erst durch die Digitaltechnik praktikabel geworden. Dennoch sind Higher-order-Mikrofone sowohl im Rauschabstand als auch in der Klangfarbe konventionellen Mikrofonen unterlegen, und in der Praxis nimmt die Bandbreite zu höheren Ordnungen hin schnell ab. Ungeachtet dessen ist Higher-order Ambisonics durch die Möglichkeit, Einzelsignale präzise zu pannen, als Produktions- und Wiedergabeformat sehr nützlich. Das B-Format kann dann auf ein gewünschtes Layout wie 5.1 oder 7.1.4 vorgerendert werden. Idealerweise wird es jedoch bis zum Endverbraucher beibehalten. Letzteres ist bei Binauralwiedergabe mit HeadTracking oder für Großbeschallungen mit immersiven Inhalten sinnvoll. In der Forschung ist Higher-order Ambisonics als Beschreibungs- und Analysewerkzeug für Schallfelder allgegenwärtig. Decodierung Ähnlich wie MS-Aufnahmen vor der Wiedergabe in ein linkes und ein rechtes Lautsprechersignal umgeformt werden müssen, bedarf ein Ambisonics-Signal zur Wiedergabe der Decodierung auf die gegebene Lautsprecher-Anordnung. Analog zur Encodierung eines Monosignals im Panner gewinnt man die Lautsprechersignale durch eine Matrixoperation, die allerdings bei niedrigen Ordnungen noch psychoakustisch optimiert wird; wegen der Frequenzabhängigkeit der Lokalisationsreize ist es vorteilhaft, den Anteil der Schallschnelle im tiefen Frequenzbereich unter Beibehaltung der spektralen Ausgewogenheit etwas zu erhöhen [Gerzon, 1980] [Heller, 2008]. Da das im B-Format räumlich kontinuierlich beschriebene Schallfeld jetzt über einzelne Punktschallquellen rekonstruiert werden muss, entsteht ein sog. Diskretisierungsfehler. Außerdem ist durch den üblicherweise geringen Abstand zu den Lautsprechern die Krümmung der Wellenfronten nicht zu vernachlässigen und muss besonders
368
5 Tonaufnahme und Tonwiedergabe
bei höheren Ordnungen durch eine Nahfeldkompensation korrigiert werden [Daniel, 2003], [Adriaensen, 2006]. Regelmäßige Anordnungen der Lautsprecher sind nur realisierbar, wenn sie auf die Ecken von platonischen Körpern gesetzt werden, dabei handelt es sich um die fünf allein möglichen Körper, die aus gleichseitigen Vielecken gebildet werden; die meisten Ecken hat mit 20 der Dodekaeder. Damit sind in einer gleichmäßigen Anordnung maximal 20 Kanäle möglich. Für nicht perfekt regelmäßige Lautsprecheranordnungen ist die Berechnung einer Decodierungsmatrix kompliziert. Es existieren aber effiziente Optimierungsalgorithmen für nahezu beliebige Anordnungen, die auch eine Abschätzung der Richtungs- und Pegelfehler bei der Wiedergabe ermöglichen [Heller, 2010], [Zotter, 2012]. Sind die Matrixkoeffizienten einmal errechnet, ist der Rechenaufwand für die eigentliche Dekodierung vernachlässigbar. Für die Konzertbeschallung mit Höheninformation haben sich hemisphärische Anordnungen als praktikabel erwiesen. Konzert-Wiedergabesysteme ab der dritten Ordnung, also 16 B-Format-Kanälen aufwärts, haben sich in der Praxis bewährt [Zotter, 2010], [Rudrich, 2016], [Nettingsmeier, 2010]. Dabei ist es vorteilhaft, durch eine einfache Neuberechnung des Decoders auf Änderungen des Lautsprecher-Layouts reagieren zu können, ohne das Originalmaterial neu mischen zu müssen. Die Anzahl der Wiedergabekanäle sollte sich an der Ordnung des Ambisonics-Quellmaterials orientieren. Genau wie die Bandbreite eines PCM-Signals durch die endliche Abtastfrequenz begrenzt ist, ist die räumliche Genauigkeit des Systems durch die Ordnung und damit das Auflösungsvermögen der B-Format-Komponenten bestimmt. Wird ein räumlich hochaufgelöstes Signal über zu wenige Lautsprecher wiedergegeben, stellt sich analog zum spektralen Aliasing eines PCM-Systems das auch bei der Wellenfeldsynthese zu beobachtende räumliche Aliasing in Form von Nebenkeulen und Fehllokalisationen ein. Um dies zu vermeiden, können im einfachsten Fall die Komponenten höherer Ordnungen vor der Dekodierung vollständig verworfen werden, was einer räumlichen Tiefpassfilterung entspricht. Moderne Decoder können einen Teil der zusätzlichen Information außerdem zur Kompensation von Unregelmäßigkeiten des Wiedergabelayouts verwenden. Dies ist besonders bei den stark anisotropen n.1-Systemen interessant [Wiggins, 2007]. Bei der Wiedergabe über zu viele Lautsprecher ähneln sich deren Signale stark und es entstehen vermehrt Kammfilter und Phasing-Effekte. In der Praxis ist die Hörzone bei Ambisonics erster Ordnung auf eine Person im Zentrum des Wiedergabesystems beschränkt. Durch stark korrelierte Lautsprechersignale kann es bei Bewegung des Kopfes zu Phasing-Artefakten im Hochtonbereich kommen. Vorteilhaft ist, dass bei korrekter Wiedergabe auch in erster Ordnung bereits eine brauchbare Lokalisation erzielt wird. Der Richtungsvektor der Schallschnelle wird im unteren Frequenzbereich, also dort, wo interaurale Zeitdifferenzen (ITD) das Richtungshören dominieren, zufriedenstellend wiedergegeben. Im mittleren und oberen Frequenzbereich ist das Volumen korrekter Schallfeldrekonstruktion kleiner als der menschliche Kopf. Der resultierende Schallschnellevektor wird dadurch weitgehend zufällig, ist aber psychoakustisch auch weniger relevant. Der Richtungsvektor der Schallenergie hingegen ist hier hinreichend genau, um Lokalisation über die bei höheren Frequenzen maßgeblichen interauralen Pegeldifferenzen (ILD) zu ermöglichen [Gerzon, 1992]. Das reproduzierte Hörereignis [Blauert, 1974] ist jedoch in der Regel von größerer Ausdehnung und geringerer Schärfe als das aufgezeichnete Schallereignis. Die
5.5 Verfahren der räumlichen Tonübertragung
369
physikalisch nicht korrekte und stark aliasing-behaftete, aber ästhetisch vielfach präferierte Räumlichkeit von AB-Mikrofonen lässt sich mit Ambisonics-Wiedergabe nicht ohne weiteres erzeugen. ITD-Stimuli sind aber im rekonstruierten Schallfeld prinzipiell gegeben [Lipshitz, 1985]. Neben der Decodierung auf Lautsprecherwiedergabe ist die Binauralisierung ein wichtiges Anwendungsgebiet. Durch einen head tracker gemessene Kopfbewegungen lassen sich durch entsprechende Gegenrotationen des B-Formats einfach kompensieren, wodurch die Hörereignisrichtungen stabil bleiben. Ein weiterer Vorteil der Kopfhörerwiedergabe ist, dass sich der Hörort immer exakt im Zentrum, also dem Bereich optimaler Rekonstruktion, befindet. Die Binauralisierung (siehe Kap. 5.5.6) kann über virtuelle Lautsprecher oder eine direkte Konversion der B-Format-Komponenten erfolgen [McKeag, 1996], [Zaunschirm, 2018].
5.5.4 Kopfhörerwiedergabe Es gibt drei Arten der Kopfhörerdarbietung, man unterscheidet dabei zwischen Kopf- und Ohrhörern (Tab. 5/19): Tab. 5/19. Darbietungsarten von Tonsignalen über Kopf- bzw. Ohrhörer. Darbietungsart
Bezeichnung
nur ein Ohrhörer erhält ein Signal beide Ohrhörer erhalten dieselben Signale die beiden Ohrhörer erhalten unterschiedliche Signale
monotisch diotisch dichotisch
Obwohl Lautsprecherwiedergabe im Tonstudiobereich die übliche Wiedergabeform ist, bietet Kopfhörerwiedergabe Vorteile, die in bestimmten Situationen eine echte Alternative zur Lautsprecherwiedergabe darstellen können. Die nach 1970 eingeführte Kunstkopfstereofonie ist prinzipiell nur mit Kopfhörern wiederzugeben, wenn die speziellen Vorteile dieser Übertragungstechnik zur Geltung kommen sollen (siehe Kap. 5.5.5). Kopfhörer können bei wesentlich geringerem Aufwand zumindest dieselbe Bandbreite, Freiheit von nichtlinearen und linearen Verzerrungen und am Ohr denselben maximalen Schalldruck erreichen wie Lautsprecher. Besonders vorteilhaft bei Kopfhörerwiedergabe ist, dass die Akustik des Wiedergaberaums ohne Einfluss auf die Wiedergabe ist. Es hat sich gezeigt, dass bestimmte Störgeräusche oder andere Audioartefakte, wie z. B. Bitfehler oder Artefakte der Codierung mit Kopfhörern besser erkannt werden können, das kann für die auditive Kontrolle vorteilhaft, aber für das Zuhören durchaus störend sein. Ein entscheidender Faktor ist die größere Abbildungsschärfe. Sie kennzeichnet die erreichbare räumliche Auflösung des Klangbilds. Der Tonmeister weiß, dass bereits Nearfield-Monitoring die Transparenz erhöht, weil der Einfluss des indirekten Schalls im Wiedergaberaum reduziert wird. Dieser Effekt ist besonders deutlich bei Kopfhörerwiedergabe, wie entsprechende Hörtests auch quantitativ nachgewiesen haben. Abb. 5/80 zeigt die relative Anzahl der richtig erkannten Unterschiede von Testsignalen für Kopfhörerwiedergabe
370
5 Tonaufnahme und Tonwiedergabe
im Vergleich zur Lautsprecherwiedergabe. Man sieht, in welchem Maß der Kopfhörer eine höhere Abbildungsschärfe als Lautsprecher im Regieraum gewährleisten kann, besonders im Vergleich zu einer üblichen Anordnung in einem gleichseitigen Dreieck mit 3 m Kantenlänge.
Abb. 5/80. Abbildungsschärfe bei Wiedergabe mit Kopfhörer und mit Lautsprechern im Regierau; Nachhallzeit 0,4 s, Stereoanordnung 1 m bzw. 3 m. Erkannte Unterschiede in % beim Vergleich des Referenzsignals A (Kreuzkorrelationsgrad kA = 1,0) mit einem Vergleichssignal B (Kreuzkorrelationsgrade kB) [Ripka, 1987].
Auch hinsichtlich der Klangfarbe ist die Kopfhörerwiedergabe wegen der Unterschiedlichkeit der Lautsprecher und der Abhör- und Regieräume unerreichbar. Die mit ITU-R Recommendation BS.1116-1 festgelegten Mindestanforderungen für Hörtest-Abhörräume liegen deshalb unter den Möglichkeiten des Kopfhörers. Für die sog. Operational room response curve am Hörort wird hier im Frequenzbereich 250 Hz bis 2 kHz ein Toleranzschlauch von ± 3 dB zugelassen, doppelt so breit wie für Kopfhörer (Abb. 5/81), und daher nicht geeignet, um Klangfärbungen auszuschließen. Hinzu kommen notwendige Toleranzen für die Raumgröße und ‑geometrie, Nachhallzeit, frühe Reflexionen, die in der Praxis nur schwer einzuhalten sind. Aus diesem Grund wird in diesem Standard alternativ die Kopfhörerwiedergabe gemäß ITU-Rec.BS.708 empfohlen. Die Kopfhörerwiedergabe ist prinzipiell als Alternative zur Lautsprecherwiedergabe geeignet, nicht nur bei schlechten Abhörbedingungen, sondern auch für gut reproduzierbare Beurteilungen kritischer Signale. Schließlich können mit Kopfhörern an verschiedenen Orten und/oder für größere Hörerzahlen absolut gleiche und im Rahmen der Kopfhörerwiedergabe optimale Abhörbedingungen geschaffen werden. Ein grundsätzlicher Unterschied zur Laut-
5.5 Verfahren der räumlichen Tonübertragung
371
sprecherdarbietung ist, dass jedem Ohr ganz definiert ein elektroakustischer Wandler zugeordnet ist, der praktisch nicht auf das jeweils andere Ohr einwirkt, Gegebenheiten, die bei der üblichen Lautsprecherwiedergabe nicht realisierbar sind. Nachteilig ist bei Kopfhörerwiedergabe, soweit es sich nicht um Kunstkopfaufnahmen handelt, die Lokalisiertheit des Hörereignisses im oder am Kopf, also die sog. Im-Kopf-Lokalisierung oder IKL. Dazu kommen eine gewisse Lästigkeit des Tragens des Kopfbügels und das Mitwandern des Klangbilds bei Kopfdrehungen, also die Kopfbezogenheit des Klangbilds, sofern diese nicht durch das relativ aufwändige head trackingverfahren überwunden wird (siehe hierzu Kap. 5.5.5.1).
Abb. 5/81. Frequenzgang-Toleranzen im Vergleich: Lautsprecher: Für den Schallpegel am Referenzpunkt in einem Abhörraum gemäß ITU-Rec.BS.1116, gestrichelt, Kopfhörer: Für das Diffusfeld-Übertragungsmaß eines Studio-Kopfhörers nach ITU-Rec.BS.708, durchgezogen.
5.5.4.1 Phantomschallquellen im Kopf Wird eine Zweikanal-Stereoaufnahme über Kopfhörer abgehört, so entsprechen den Phantomschallquellen auf der Lautsprecherbasis Phantomschallquellen im Kopf auf einer Verbindungslinie zwischen den Ohren. Die Auslenkung eines Hörereignisses auf dieser Linie wird als Lateralisation bezeichnet. Diese Linie ist nach oben gebogen, so dass Mittenschallquellen erhöht zur Schädeldecke hin erscheinen. Wie bei den Phantomschallquellen bei Lautsprecherwiedergabe führen Pegel- und/oder Laufzeitdifferenzen zur Auswanderung des Hörereignisorts. Während bei Lautsprecherwiedergabe der Hörereignisort bereits bei rund 15 dB Pegeldifferenz zwischen den Lautsprechersignalen ganz zur Seite der Lautsprecherbasis auswandert, wird bei Kopfhörerwiedergabe eine größere Pegeldifferenz für eine Abbildung ganz seitlich benötigt. Auch nimmt die Lateralisationsunschärfe zu. Bei monotischer Darbietung wird das Hörereignis am Ohreingang lokalisiert, was oft als unangenehm empfunden wird. 5.5.4.2 Entzerrung der Kopfhörer Beim natürlichen Hören werden die spektralen Merkmale der Ohrsignale, die sich aus der Richtcharakteristik des Außenohrs ergeben, im Lokalisierungsprozess so verrechnet, dass sie nicht als Klangfarbenmerkmal in Erscheinung treten. Die Wahrnehmung der Klangfarbe ist
372
5 Tonaufnahme und Tonwiedergabe
vom Ort der Schallquelle weitgehend unabhängig. Diese sog. inverse Filterung der Außenohr-Übertragungsfunktion durch das Gehör [Theile, 1986] erfolgt jedoch nur dann, wenn die Wirkung des Außenohrs auf die Bildung der Ohrsignale erkannt und als solche gedeutet wird; dies ist beim natürlichen Hören normalerweise der Fall. Bei der Kopfhörerwiedergabe dagegen wird die Außenohr-Übertragungsfunktion durch die Kopfhörer- Übertragungsfunktion ersetzt. Würde die Kopfhörer-Übertragungsfunktion eine bestimmte richtungsspezifische Außenohr-Übertragungsfunktion exakt nachbilden – z. B. die Freifeld-Übertragungsfunktion für vorne –, so würden für ein Monosignal der Lokalisierungsprozess und damit die inverse Filterung stattfinden. Damit würde das Hörereignis am Bezugsort, also vorne auftreten. Wegen der inversen Filterung würde die Freifeld-Übertragungsfunktion des Kopfhörers keine Klangfarbenfehler verursachen. Jedoch lässt sich aus verschiedenen Gründen mit Hilfe einer Kopfhörerentzerrung praktisch keine Außer-Kopf-Lokalisierung erzielen. Insbesondere bei der Wiedergabe stereofoner Signale erzeugt eine richtungsspezifische Kopfhörerentzerrung spektrale Ohrsignalmerkmale, die nicht zu den interauralen stereofonen Merkmalen passen und nicht zur räumlichen Wahrnehmung beitragen. Sie werden infolgedessen vom Gehör nicht im Sinne einer inversen Filterung verarbeitet, so dass Klangfarbenfehler die Folge sind. Bei der Kopfhörerwiedergabe existiert keine bevorzugte Schalleinfallsrichtung. Sie lässt sich mit Hilfe der Kopfhörerentzerrung auch nicht simulieren. Deshalb muss für die Entzerrung an Stelle eines richtungsspezifischen Bezugs ein richtungsneutraler Bezug zu Grunde gelegt werden. Damit ist ein Kopfhörer-Übertragungsmaß, das die Ankopplung des Kopfhörers an den Ohrkanaleingang ohne lineare Verzerrungen sicherstellt, physikalisch definiert: Das Kopfhörer-Übertragungs maß muss übereinstimmen mit demjenigen Außenohr-Übertragungsmaß, welches in einem richtungsneutralen Schallfeld gemessen wird. In einem richtungsneutralen Schallfeld ist die Richtcharakteristik des Außenohrs ebenso wirkungslos wie bei der Kopfhörerwiedergabe; dies ist z. B. im diffusen Schallfeld eines Hallraums der Fall. Die Forderung eines frequenzunabhängigen Diffusfeld-Übertragungsmaßes für Kopfhörer, die unabhängig von der Aufnahmetechnik Klangfarbenfehler vermeidet, bedeutet also, dass das Kopfhörer-Übertragungsmaß und das Außenohr-Übertragungsmaß im diffusen Schallfeld übereinstimmen müssen. Nicht ein bestimmtes Freifeldübertragungsmaß für eine bestimmte Richtung, sondern der Durchschnittswert über alle Richtungen, also das Diffusfeldübertragungsmaß von Kunstkopf und Kopfhörern muss einen frequenzunabhängigen Verlauf aufweisen. Allgemein stellt die Diffusfeldentzerrung die aufnahme- und wiedergabeseitig gültige Lösung des Entzerrungsproblems dar, das an der Schnittstelle Aufnahme–Wiedergabe auftritt, sobald kopfbezogene Signale über Lautsprecher oder raumbezogene Signale über Kopfhörer wiedergegeben werden sollen. Die Situation ist in Abb. 5.82 skizziert: Die diagonalen Verfahren Lautsprecherstereofonie–Lautsprecherwiedergabe als raumbezogenes Verfahren und Kunstkopfstereofonie–Kopfhörerwiedergabe als kopfbezogenes Verfahren sind definitionsgemäß verträglich. Die Wahl der Entzerrung an der Schnittstelle Aufnahme-Wiedergabe ist im Prinzip beliebig. Im Prinzip unverträglich dagegen sind die Verfahren Lautsprecherstereofonie–Kopfhörerwiedergabe, ebenso wie Kunstkopfstereofonie–Lautsprecherwiedergabe, hier setzen sich die Strecken aus je Teilen eines raumbezogenen und eines kopfbezogenen Verfahrens zusam-
5.5 Verfahren der räumlichen Tonübertragung
373
men. Für beide Übertragungsfälle darf für die Entzerrung von Kunstköpfen und Kopfhörern nicht eine einzige Bezugsrichtung zu Grunde gelegt werden, sondern es muss als richtungsneutraler Bezug das Integral über alle Freifeldübertragungsfunktionen des Außenohres zu Grunde gelegt werden, um Klangfarbenfehler zu vermeiden [Theile, 1986]. Für die Lautsprecherwiedergabe von Kunstkopfsignalen und für die Kopfhörerwiedergabe von raumbezogenen Signalen ergibt sich damit größtmögliche Klangneutralität.
Abb. 5.82. Kompatibilitätsproblem an der Schnittstelle von raum- und kopfbezogenen Übertragungsverfahren.
Zumindest für hochwertige Studiokopfhörer hat sich die Diffusfeldentzerrung – durch ITUEmpfehlung [ITU-R BS.708] auch international standardisiert – weitgehend durchgesetzt; sie werden oft mit einem Zusatz wie „Monitor“, „Studio“ oder „nach IRT-Norm“ gekennzeichnet (siehe auch Kap. 19.6.2). Das in [ITU-R BS.708] festgelegte enge Toleranzfeld gewährleistet die Reproduktion eines einheitlichen und unverfälschten Klangbilds. Entsprechend entzerrte Studiokopfhörer stellen daher einen sinnvollen alternativen Abhörstandard dar [Theile, 2016], dies sowohl für den nationalen und internationalen Programmaustausch als auch für die Beurteilung der Tonqualität in standardisierten Hörtests; eine Kopfhörerwiedergabe wird auch in der diesbezüglichen [ITU-R BS 562-1] empfohlen. Lineare Verzerrungen bei Kopfhörerwiedergabe sind physikalisch definiert als Abweichung des Kopfhörerübertragungsmaßes vom Außenohrübertragungsmaß im diffusen Schallfeld. Sie werden durch Schalldruckmessung im Gehörgang von Versuchspersonen mit Hilfe eines Sondenmikrofons gemessen. Lautstärke-Vergleichsmessungen verursachen aus psychoakustischen Gründen systematische Fehler und sind daher prinzipiell ungeeignet. Die physikalische Messung gemäß [ITU-R BS.708] unterscheidet das direkte Verfahren und das indirekte Verfahren. Das direkte Verfahren geht vom Vergleich der vom Bezugsschallfeld
374
5 Tonaufnahme und Tonwiedergabe
und vom Kopfhörer erzeugten Schalldrücke im Gehörgang aus; das indirekte Verfahren sieht an Stelle des Schallfelds einen nach der direkten Methode kalibrierten Bezugskopfhörer vor [Spikofski, 1988].
5.5.5 Binaurale Verfahren 5.5.5.1 Kopfbezogene Übertragung Das Verfahren der kopfbezogenen binauralen Übertragung, die kopfbezogene Stereofonie oder Kunstkopfstereofonie, ist vom Prinzip her das Übertragungsverfahren, das am besten eine originalgetreue Übertragung ermöglicht; es ist ein übertragungstechnisch einfaches und logisches Verfahren. Das Schallfeld, das im Aufnahmeraum am Ort der beiden Ohren eines Hörers herrscht, wird mit einem sog. Kunstkopf aufgenommen und an den Ohren des Hörers mit Hilfe von Kopfhörern reproduziert. Der Kunstkopf ist hinsichtlich seiner Formgebung und dementsprechend seiner akustischen Eigenschaften wie Richtcharakteristik, Pegel- und Laufzeitdifferenzen dem menschlichen Kopf so gut wie möglich nachgebildet. Statt Trommelfellen trägt der Kunstkopf an entsprechender Stelle Mikrofone, zum Kunstkopf siehe Kap. 4.2.4.6. Das Kunstkopfverfahren bietet dem Hörer ein Hörereignis, das idealerweise dem der Originaldarbietung exakt entspricht. Anders als bei anderen Stereoübertragungsverfahren können alle Richtungen im oberen Halbraum und besonders gut unterschiedliche Entfernungen bei der Wiedergabe korrekt und überzeugend abgebildet werden. Ebenso sind der Raumeindruck und die Umhüllung sehr gut; der Hörer hat das Gefühl, selbst im Aufnahmeraum zu sein, was mit anderen stereofonen Aufnahme- und Wiedergabeverfahren, sowohl bei Lautsprecher- als auch bei Kopfhörerwiedergabe, so nicht erreicht werden kann. Experimente mit einem Kunstkopf wurden nach ersten Versuchen in den 1930er Jahren in größerem Umfang in den 1970er Jahren mit dem Kunstkopf KU 80 der Firma Neumann durchgeführt. Neben der durchaus beeindruckenden Wiedergabe insbesondere des Raumeindrucks und der Entfernungen der Schallquellen zeigten sich aber auch erhebliche Mängel: –– die Klangfarbe war unbefriedigend, –– die Lokalisierung von Schallquellen im Frontalbereich war oft nicht möglich – die Hörereignisse wurden hinter dem Kopf lokalisiert, –– die Wiedergabe über Lautsprecher war insbesondere bezüglich der Klangfarbe und Richtungstreue unbefriedigend, Aufnahmen mit dem Kunstkopf KU 80 sind praktisch nicht kompatibel. Gerade die letztgenannte Einschränkung wiegt im Bereich von Hörfunk und Fernsehen schwer; deshalb blieb die Anwendung des Kunstkopfverfahrens auf einzelne Sendungen des Hörfunks vor allem auf die Bereiche Feature und Hörspiel beschränkt. Das erste im deutschen Rundfunk ausgestrahlte Hörspiel in Kunstkopfstereofonie war zur Funkausstellung 1973 in Berlin die RIAS/BR/WDR-Produktion „Demolition“ nach dem Science-Fiktion-Roman von Alfred Bester „The Demolished Man“, 1951. In einer spannenden Darstellung wurden dabei die dramaturgischen Möglichkeiten des Kunstkopfverfahrens eindrucksvoll genutzt:
5.5 Verfahren der räumlichen Tonübertragung
375
überzeugend reale Abbildung außerhalb des Kopfs, Gedanken im Kopf, nahe Geräusche und Flüstern direkt am Ohr, Schallereignisse ohne Ort. Durch Verbesserungen, die erstmalig beim Kunstkopf KU 81 wieder von Neumann und anderen vergleichbaren Kunstköpfen realisiert wurden, stehen seit den 1980er Jahren Kunstköpfe zur Verfügung, bei denen die genannten Mängel weitgehend beseitigt werden konnten. Folgende Maßnahmen wurden u. a. getroffen: –– Die durchschnittlichen Kopfmaße einschließlich der Details der Ohr- und Kopfform wurden nochmals sorgfältig ermittelt und nachgebildet. –– Als Ergebnis theoretischer Überlegungen von Theile [Theile, 1981] kann dabei aber auf die genaue Nachbildung der Gehörgänge und Trommelfell verzichtet werden. –– Als Schnittstelle zwischen Kunstkopfmikrofon und Kopfhörer wird die Entzerrung des Frequenzgangs unter Bezug auf das diffuse Schallfeld als sog. Diffusfeldentzerrung definiert. Durch diese Entzerrung des Kunstkopfmikrofons konnte insbesondere die Kompatibilität zur Lautsprecherwiedergabe erreicht werden. –– Umgekehrt muss auch der Kopfhörer diffusfeldentzerrt sein; nicht nur, um die optimale Anpassung an den diffusfeldentzerrten Kunstkopf zu gewährleisten, sondern auch, um eine klangneutrale Wiedergabe „normaler“ stereofoner Aufnahmen sicherzustellen. Die Messung des Kopfhörer-Übertragungsmaßes erfolgt mit Hilfe eines Sondenmikrofons im Ohrkanal, Einzelheiten dazu legt die internationale Empfehlung [ITU-R BS.708] fest, siehe dazu Kap. 5.5.4.2. Tab. 5/20. Attribute der räumlichen Abbildung und prinzipielle Möglichkeiten der Übertragungsverfahren. Attribute der räum- 2/0-Stereofonie lichen Abbildung
5/0- und 5/1Stereofonie
Kunstkopfstereofonie ohne head tracking
horizontale Richtungen
+30° bis − 30°, keine anderen Richtungen
+30° bis − 30°, Einschränkungen für den Surroundbereich
alle Richtungen, Einschränkungen für den Frontbereich
alle Richtungen
vertikale Richtungen
eingeeingeschränkt möglich schränkt möglich
möglich, Einschränkungen für die Medianebene
möglich
Entfernungen nahe am Kopf
nicht möglich
nicht möglich
möglich
möglich
Entfernung, Tiefe
simuliert
simuliert
möglich, Einschränkungen bei bewegtem Kopf
möglich
Raumeindruck
möglich
möglich
möglich
möglich
Umhüllung
eingeeingeschränkt möglich schränkt möglich
möglich
möglich
mit head tracking
376
5 Tonaufnahme und Tonwiedergabe
In Tab. 5/20 sind die prinzipiellen Möglichkeiten der Kunstkopftechnik den Möglichkeiten der Zwei- und Mehrkanal-Stereofonie gegenübergestellt. Das dort genannte Head-Tracking bezeichnet ein Verfahren zur Erfassung der Position und der Bewegungen des Kopfs, um eine mit dem Kopf erfolgende Steuerung des Frequenzgangs zu ermöglichen. Die Erkennung kann beispielsweise durch am Kopf befestigte Sensoren oder durch eine oder mehrere auf den Kopf gerichtete Kameras erfolgen. Das Tracking muss präzis erfolgen und eine geringe Latenzzeit von höchstens 80 ms aufweisen [Mackensen, 2004]. Selbst bei optimaler Diffusfeldanpassung des Kunstkopfmikrofons an den Kopfhörer gemäß ITU-R BS.708 kann bei der Kunstkopfstereofonie ohne head tracking nicht für alle Hörer ein optimales Hörerlebnis garantiert werden; Schwierigkeiten bereitet weiterhin die Ortung frontaler Schallquellen, die teilweise hinter oder über dem Kopf lokalisiert werden. Dafür seien hier zwei wichtige Lösungsansätze genannt: Individualanpassung und Head Tracking. Wichtige Aufgaben erfüllt der Kunstkopf aber auch auf ganz anderen Gebieten wie Car-HiFi, Materialprüfung, Geräuschmessungen u.a., siehe Kap. 4.2.4.6. Individualanpassung Im Idealfall arbeitet das Verfahren bei völliger Übereinstimmung der akustischen Eigenschaften von Kunstkopf und Kopf des Hörers. Der Kunstkopf ist zwar nach Durchschnittsmaßen gearbeitet, fußt aber in der Regel dennoch auf der Kopie eines bestimmten repräsentativen Kopfs, von dem die individuellen Kopfmaße eines Hörers mehr oder weniger abweichen. Der zweite Aspekt sind interindividuelle Unterschiede der Außenohr- bzw. resultierenden Kopfhörerübertragungsmaße, die u. a. von Kopfform und Kopfhörerbauart abhängen. Das entsprechend [ITU-R BS.708] gemessene Diffusfeldübertragungsmaß eines individuellen Kopfhörers bezieht sich auf den Mittelwert über 16 Probanden. Individualanpassung würde in diesem Zusammenhang bedeuten, dass die ermittelten Unterschiede zwischen Mittelwert und individuellem Diffusfeldübertragungsmaß des Kopfhörers korrigiert werden. Nachführung der Kopfdrehung: head tracking Untersuchungen am Institut für Rundfunktechnik (IRT) haben gezeigt [Mackensen, 1989], dass die fehlende Individualanpassung nicht die wesentliche Ursache für die Probleme der Lokalisierung in der Medianebene darstellt. Besonders gravierend macht sich die Tatsache bemerkbar, dass das Gehör kleinste Änderungen der binauralen Signaleigenschaften der Ohrsignale auswertet, die durch Kopfdrehungen entstehen. Bewegt der Hörer den Kopf, so erwartet das Gehör die damit einhergehenden natürlichen Änderungen insbesondere der interauralen Ohrsignalbeziehungen, die ein starr aufgestellter Kunstkopf nicht liefern kann. Die Wirkung des head tracking zeigen die in Abb. 5/83 dargestellten Untersuchungsergebnisse. Treten beim starren Kunstkopf noch Richtungsvertauschungen und IKL, also Im-KopfLokalisiertheit, auf, so sind diese bei der Verwendung von Head Tracking verschwunden. Die aus den Kopfdrehungen resultierende dynamische Anpassung der binauralen Signale an die momentane Kopfausrichtung des Hörers mittels head tracking ist eine wichtige Voraussetzung für die optimale Kunstkopfübertragung.
5.5 Verfahren der räumlichen Tonübertragung
377
Abb. 5/83. Lokalisation in der Medianebene, links mit und rechts ohne head tracking [Mackensen, 1998].
5.5.5.2 Praktische Anwendung Das Kunstkopfverfahren simuliert die Situation des „natürlichen“ Hörens von allen Verfahren elektroakustischer Signalübertragung am besten. Es fordert demgemäß einen adäquaten Standort des Kunstkopfs bei der Aufnahme. Adäquat heißt, dass derjenige Ort im Aufnahmeraum für die Aufstellung des Kunstkopfs gesucht werden sollte, an dem beim natürlichen Hören ein optimaler Klangeindruck entsteht. Bei Kunstkopfaufnahmen ist die Wahl der Abhörlautheit wesentlich wichtiger als bei Aufnahmen in raumbezogener Stereofonie. Sie ist so genau wie möglich der Lautheit am Ort des Kunstkopfs anzupassen. Bewährt hat es sich, für die Kalibrierung des Wiedergabepegels einen Sprecher aufzunehmen, der z. B. in 1 m Abstand seitlich des Kunstkopfs eine kurze Ansage macht. Der Hörer kann auf Grund seiner großen Erfahrung mit dem Klang und der Lautheit des gesprochenen Worts den korrekten Wiedergabepegel mit einer Genauigkeit von ca. ± 1 dB reproduzieren. Effektgeräte im Übertragungsweg wie z. B. Kompressoren beeinträchtigen das optimale Hörereignis und sollten deshalb nicht verwendet werden. 5.5.5.3 Lautsprecherwiedergabe Eine optimale Wiedergabe der binauralen Signale ist nur über Kopfhörer oder Kopfhörer nachbildende Anordnungen möglich. Eine korrekte und stabile Reproduktion der binauralen Signale über Lautsprecher ist problematisch, da das System voraussetzt, dass Signale vom linken Kunstkopfmikrofon nur an das linke Ohr gelangen, entsprechend rechts. Um zu verhindern, dass Anteile des linken binauralen Signals das rechte Ohr erreichen und umgekehrt, werden den Lautsprechern sog. Crosstalk Cancellation-Filter oder Transaural-Filter vorgeschaltet, die die Übersprechanteile an den beiden Ohren aufheben. Die Vorfilterungen sollen bewirken, dass die bei der Überlagerung der Lautsprechersignale an den Ohren des Hörers entstehenden Übersprechanteile unterdrückt werden. Die Anzahl und Position der beteiligten Lautsprecher beeinflusst die Qualität der Übersprechkompensation. Das einfachste Verfahren verwendet die Standard-Lautsprecheranordnung für Zweikanal-Stereofonie. Durch zusätzliche Lautsprecher lassen sich jedoch die Qualität und die Stabilität der Übersprechkompensation erhöhen. Die Filter, die die Kompensationssignale erzeugen, sind bei einer gegebenen Lautsprecheranordnung nur für eine bestimmte Kopfposition und Kopfausrich-
378
5 Tonaufnahme und Tonwiedergabe
tung gültig. Soll sich der Hörer in diesem Umfeld bewegen können, müssen die momentane Position und Ausrichtung des Kopfs durch head tracking laufend ermittelt und die Filter dementsprechend kontinuierlich angepasst werden. Entsprechende Wiedergabesysteme mit dynamisch veränderbaren Filtern wurden bereits für entsprechende Experimente entwickelt, können aber derzeit noch nicht als praxistauglich bezeichnet werden. Verzichtet man bei der Lautsprecherwiedergabe auf die Anwendung der Übersprechkompensation, so arbeitet der Kunstkopf als ein Stereomikrofon in gemischter Stereofonie, siehe Kap. 5.3.5. In dieser Anwendung entfalten die interauralen Signalunterschiede des Kunstkopfs die Wirkung stereofoner Lautsprechersignale. Jedoch werden die binauralen Übertragungsfunktionen des Außenohrs des Kunstkopfs dabei nicht mehr für das räumliche Hören ausgewertet. Sie verursachen prinzipiell sogar Klangverfärbungen, wenn der Kunstkopf richtungsspezifisch entzerrt wird, z. B. freifeldentzerrt für 0°, also für vorne (siehe hierzu Kap. 5.5.4.2). Nur bei richtungsneutraler, d. h. bei der Diffusfeldentzerrung, tritt diese Beeinträchtigung bei der Reproduktion von Kunstkopfsignalen über Lautsprecher nicht auf, in diesem Fall ist Kompatibilität mit Standard-Stereomikrofonen gewährleistet.
5.5.6 Binauralisierung Besonders das Aufkommen mehrkanaliger immersiver Verfahren der Lautsprecherwiedergabe sowie die in der Praxis stark zunehmende Beliebtheit mobiler Endgeräte haben das Hören mit Kopfhörern attraktiv gemacht. Wesentlich dazu beigetragen haben auch Verfahren, die das typische Klangbild bei Kopfhörerwiedergabe von stereofonen Signalen, die für Lautsprecher vorgesehen sind, mehr oder weniger beseitigen; es ist durch Im-Kopf-Lokalisation (IKL) und kopfbezogenes räumliches Hören geprägt. Eine solche Kopfhörerwiedergabe ist unvollständig bezüglich diverser Attribute wie Entfernung, Tiefe, Raumeindruck und Umhüllung. Kopfhörerwiedergabe ist nicht uneingeschränkt tauglich für die vollständige Beurteilung einer stereofonen Mischung, auch z. B. hinsichtlich Lautstärke- und Hallbalance. Der Mangel ist besonders gravierend, wenn nur der einfache zweikanalige Downmix einer Mehrkanal-Aufnahme beurteilt werden kann, denn die technischen und künstlerischen Probleme für den Downmix verfälschen das Klangbild zusätzlich. 5.5.6.1 Binaurale Raumsynthese Moderne Faltungstechnik ermöglicht die realitätsgetreue Darstellung eines virtuellen 3D-Audio-Studios mit Kopfhörern. „Binaural Room Synthesis“-Systeme (BRS) gewährleisten virtuelle Mehrkanal-Lautsprecherwiedergabe in professioneller Qualität, sie lassen sich problemlos für 3D-Lautsprecher-Konfigurationen (vgl. Kap. 5.4.5) einsetzen, die Zahl und Anordnung der Lautsprecher ist theoretisch unbegrenzt. Die 3D-Audio-Signale werden mit gemessenen oder modellierten binauralen Impulsantworten (BRIR) eines hochwertigen Studios gefaltet (Prinzipdarstellung siehe Abb. 5/84). Die Datenauswahl für die Faltung geschieht mittels head tracking in Abhängigkeit von der aktuellen horizontalen Kopfausrichtung, so dass der Hörer die virtuellen Lautsprecher unabhängig von der Kopfhaltung raumbezogen lokalisiert [Horbach, 1998, 1999]. Dabei ist – je nach Anwendungsfall – eine
5.5 Verfahren der räumlichen Tonübertragung
379
horizontale Bewegungsfreiheit des Kopfs bis zu ± 180° realisierbar. Die dynamische head tracking-gesteuerte BRIR-Zuordnung reproduziert die Wirkung der spontanen Kopfbewegungen des Hörers und verhindert dadurch die kunstkopftypischen vorn/hinten-Inversionen (vgl. Kap. 5.5.5.1), darüber hinaus bleibt der virtuelle Abhörraum auch bei Kopfdrehungen stabil. Er ist nicht kopfbezogen, sondern raumbezogen, vorne bleibt bei Kopfdrehung vorne. Das Tracking muss präzis erfolgen und eine geringe Latenzzeit aufweisen, höchstens 80 ms [Mackensen, 2004]. Der Kern des BRS-Verfahrens ist eine Datenbank von binauralen Raumimpulsantworten (BRIR), die vorab am linken und rechten Ohr einer Person oder eines Kunstkopfs gemessen und katalogisiert werden. Die Messung erfolgt für jeden der Lautsprecher im Abhörraum und für verschiedene Kopfausrichtungen. Der Head-Tracker am Kopfhörer detektiert den Drehwinkel des Kopfs, so dass abhängig davon auf die aktuell relevanten BRIR-Datensätze zugegriffen und daraus die Faltungen berechnet werden können. Dieser Prozess muss ausreichend genau, schnell und störgeräuschfrei erfolgen, um eine realitätsgetreue Wiedergabe zu gewährleisten (vgl. Kap. 5.5.5.1).
Abb. 5/84. Binaural Room Synthesis (BRS).
Einfache BRS-Geräte arbeiten ohne Head-Tracker, so dass das kopfbezogene Klangbild erhalten bleibt und deshalb die spontane stabile Vorne-Lokalisation nicht möglich ist. Eine praxisgerechte und besonders hochwertige Lösung basiert auf einer personalisierten Messung der Raumimpulsantworten einschließlich der Kopfhörerübertragungsfunktionen, so dass nicht mit den Ohren eines Kunstkopfs gehört wird, sondern mit den eigenen Ohren [Smyth, 2007]. Head Tracking bewirkt die Abkehr von der kopfbezogenen zugunsten der raumbezogenen Wiedergabe. Sie erzielt nicht nur ein wünschenswerten Klangerlebnis, das trotz der Kopfhörerwiedergabe der Center-Lautsprecher bei Kopfdrehung vorne bleibt. Vielmehr benötigt das Gehör die feinen dynamischen Ohrsignalmerkmale, die beim natürlichen Hören durch kleine spontane Drehbewegungen des Kopfs vorhanden sind. Ausgewertet werden sowohl für den Direktschall als auch für die frühen Reflexionen die monauralen Veränderungen im Frequenzspektrum der Ohrsignale, besonders aber die Veränderungen der interauralen Zeit- und Pegeldifferenzen. Das Gehör benötigt Übereinstimmung der binauralen Informati-
380
5 Tonaufnahme und Tonwiedergabe
onen mit der taktilen Information über die Kopfbewegung. Bei herkömmlichen Kunstkopf aufnahmen mit starrem Kunstkopf sind derartige Peil- oder Korrekturbewegungen des Kopfs nicht möglich. Daher können Phänomene wie Im-Kopf-Lokalisiertheit oder – beim Fehlen passender interauraler Merkmale – eine Vertauschung vorn-hinten auftreten (vergl. Abb. 5/83). Diese Technologie erlaubt es, selbst im Ü-Wagen oder unter anderen ungünstigen Abhörbedingungen 3D-Aufnahmen zu reproduzieren. Der Tonmeister kann seine gewohnte Abhörumgebung überall hin mitnehmen. Er kann per Knopfdruck zwischen verschiedenen Abhörsituationen wählen, um beispielsweise das Klangbild außerhalb des Sweetspots zu überprüfen oder verschiedene Lautsprecher oder Wiedergaberäume zu vergleichen. Beim Konsumenten erlaubt BRS die weit bessere 3D-Wiedergabequalität als mit Lautsprechern im Wohnzimmer. Der Hörer ist zudem, völlig unabhängig von der Wahl der Lautsprecherkonfiguration, ein BRS-Prozessor kann bei geeigneter Signalisierung im Prinzip für jedes Mehrkanal-Format die passende Wiedergabeanordnung zur Verfügung stellen, dies ohne die vielen praktischen Probleme bei der korrekten Lautsprecher-Installation in der Wohnung. 5.5.6.2 Externalisierung Systeme ohne Head Tracking erzielen keine oder keine stabile Lokalisation in der Medianebene. Darüber hinaus gewährleisten technisch einfachere Geräte keine vollständige AußerKopf-Lokalisation (AKL). Die erzielbare AKL tritt auf Grund verschiedener Ohrsignalmerkmale auf, die gleichzeitig vorliegen und die das Gehirn mit unterschiedlichem Gewicht auswertet [Werner, 2018]. Abhängig vom Grad der Vollständigkeit und Stimmigkeit der Merkmale entsteht daraus der mehr oder weniger klar lokalisierte Hörereignisort außerhalb des Kopfs. Die Qualität und Stimmigkeit der reproduzierten Ohrsignalmerkmale sind maßgeblich für den Grad der sog. Externalisierung verantwortlich. Vollständige Externalisierung liegt vor, wenn das Gehör die vom Außenohr verursachten Signaleigenschaften, die Lokalisierungsreizmerkmale, vollständig einem Hörereignisort außerhalb des Kopfs bezüglich Richtung und Entfernung zuordnen kann [Theile, 1980]. Monoaufnahmen bestehen aus identischen Signalen, die mit Kopfhörer kohärent direkt an den Ohren wiedergegeben werden. Diese diotische Hörsituation tritt beim natürlichen Hören praktisch nie auf. Direkt- und Raumschall erscheinen als Hörereignis in Kopfmitte. Konventionelle Stereoaufnahmen beruhen größtenteils auf Mikrofon-Systemen, die weitgehend frequenzunabhängige Signale mit Pegel- und/oder Laufzeitdifferenzen erzeugen. Sie sind nicht durch die BRIR geprägt, enthalten keine binauralen Merkmale, wie sie der Kunstkopf erzeugt. Deshalb wird damit das Hörereignis im Kopf lediglich zum linken oder rechten Ohr ausgelenkt. Man nennt das Lateralisation, im Gegensatz zur Lokalisation, die außerhalb des Kopfs stattfindet; sie ist zu verstehen als stereofone Wiedergabe mit Lautsprechern an den Ohren (vgl. Kap. 5.5.3.2). [Buff, 2020] Reine Koinzidenzmikrofone oder übliche Balance-Regler ermöglichen mit Kopfhörern lediglich eine Darstellung im Kopf; sie folgt denselben Gesetzmäßigkeiten wie die Phantomschallquelle zwischen zwei entfernt aufgestellten Stereo-Lautsprechern. Außerkopf-Lokalisation gelingt umso besser, je genauer das Stereomikrofon die natürlichen interauralen Zeitdifferenzen aufnimmt. Deshalb funktioniert das Kugelflächenmikrofon (siehe Kap. 5.3.4.1) diesbezüglich optimal.
5.5 Verfahren der räumlichen Tonübertragung
381
Höherwertige Externalisierungs-Prozesse können zumindest in Teilen des oberen Halbraums dreidimensionale, immersive virtuelle Umgebungen darstellen. Eine vollständige und robuste vorne-hinten-Externalisierung ist in der Praxis allerdings nur erreichbar, wenn die natürlichen Lokalisationsreize weitgehend vollständig vorhanden sind. Dabei haben für die Lokalisation in der Medianebene vorne-hinten die spontanen Kopfdrehungen die wesentliche Bedeutung, die Wirkung der dynamischen binauralen Merkmale im Zeitbereich ist weit größer als die Wirkung der entsprechenden binauralen spektralen Merkmale (vergl. Kap. 5.5.5.1). Für eine binaurale Musikwiedergabe ohne head tracking fällt die Unterscheidung zwischen vorne und hinten schwer, weil die kleinen spontanen Kopfdrehungen des Hörers nicht die adäquaten natürlichen Änderungen der binauralen Ohrsignalmerkmal erzeugen. In diesem Fall stellen Filter mit der Außenohr-Übertragungsfunktion oder HeadRelated Transfer Function (HRTF) der eigenen Ohrmuscheln, also die Individualentzerrung einen besonders wichtigen Faktor für vollständige Externalisierung dar. Bei Kopfhörerwiedergabe mit genau passenden HRTFs sind Schallquellen außerhalb des Kopfs vor oder hinter einer Hörperson wahrnehmbar. Abhängig von verschiedenen Faktoren ist die Externalisierung in der Nähe der Medianebene jedoch mehr oder weniger schwach ausgeprägt. Bewegt sich die Schallquelle zwischen vorne und hinten, fällt die Unterscheidung leichter. Ist der Schallquellenort dagegen statisch, fällt die Unterscheidung schwerer. Dies besonders, wenn die Quelle ein schmalbandiges Signal abstrahlt und kein gut unterstützender reflektierter Schall vorhanden ist. Unterstützend sind vor allem klar strukturierte frühe Reflexionen aus seitlichen Richtungen, auch korrekt verzögerter und gepegelter Hall. Man kennt diese Wirkung auch bei Lautsprecherstereofonie bei der Simulation der räumlichen Tiefe (vergl. Kap. 5.2.4). Die Komponenten Direktschall und Nachhall bzw. Diffusschall können als Vordergrund und Hintergrund verstanden werden [Griesinger, 1997]. Sie unterscheiden sich bezüglich Lokalisierung voneinander: Der Direktschall einer Schallquelle hat eine eindeutige Richtung; eine Schallquelle ist mit frei beweglichem Kopf besonders gut lokalisierbar, da das Gehör die dadurch verursachten kleinsten Änderungen der monauralen Spektren und der binauralen Pegel- und Zeitdifferenzen auswertet. Diffusschall enthält dagegen keine Lokalisationsreize, eine Hörereignisrichtung existiert nicht. Es gibt einen kritischen Punkt, an dem die Richtung des Direktschalls nicht mehr eindeutig wahrgenommen werden kann, weil der Direktschallanteil von den späten Reflexionen und dem Nachhall zu stark verdeckt ist. Bewegte Schallquellen im Vordergrund erzeugen in ähnlicher Weise wie Kopfdrehungen dynamische Lokalisationsreize, sie heben sich wesentlich deutlicher vom statischen Hintergrund ab als unbewegte, ihre Lokalisation ist stabiler (vergl. Kap. 5.5.5.1). 5.5.6.3 Werkzeuge für Binauralisierung Es sind Werkzeuge zur Binauralisierung mit sehr unterschiedlichen Eigenschaften und Anwendungszwecken entwickelt worden. Produktionsseitig kommen sowohl solche Verfahren zum Einsatz, die zwar ohne Head Tracking, jedoch mittels gemessenen oder gerechneten binauralen Impulsantworten (BRIR) eines realen 3D-Lautprecher-Setups eine virtuelle binaurale 3D-Reproduktion der Lautsprecherwiedergabe anstreben. Dies gelingt aus verschiedenen Gründen unterschiedlich. Aber auch Werkzeuge, die lediglich mittels Externalisierung
382
5 Tonaufnahme und Tonwiedergabe
den gewöhnlichen Im-Kopf-Gestaltungsbereich nach außen vergrößern, haben ihre Berechtigung, beispielsweise im Bereich der Popmusik-Produktion. Generell kann zwischen zwei Anwendungsfällen in der Praxis unterschieden werden: Binauralisierung als integrierte Klangeffekte in Stereoproduktionen für Konsumenten und Binauralisierung als Ersatz für eine Lautsprecherwiedergabe als „binauraler Downmix“. Kopfhörer-optimierte Stereoproduktionen Mit dem Aufkommen von portablen Wiedergabegeräten wie Walkman und später Smartphones haben sich die Gehörgewohnheiten von der Wiedergabe über Lautsprecher drastisch zur Wiedergabe über Kopfhörer verschoben. In der Folge und mit Aufkommen von 3D-Audio haben Produzenten besonders der Popmusik damit begonnen, mit Hilfe spezieller Werkzeuge zur Externalisierung die Stereoproduktionen für die Kopfhörerwiedergabe zu optimieren. Üblicherweise geschieht das mit Plugins, welche die klanglichen Eigenschaften der Lautsprecherwieder in Stereo wie druckvolle Tieftonwiedergabe und minimale Klangverfärbung erhalten und gleichzeitig die räumliche Transparenz auf Bereiche außerhalb des Kopfs erweitern wollen. Diese Systeme arbeiten mit HRTFs oder BRIRs aus gerechneten oder modellierten Abhörsituationen, jedoch abweichend von BRS-Systemen (vgl. Kap. 5.5.6.1) ohne Head tracking. Maximale Kompatibilität mit Lautsprecherwiedergabe in Stereo lässt sich mit einem Kugelflächenmikrofon bzw. mit den BRIRs des Kugelflächenmikrofons erzielen. Werkzeuge mit dieser Qualität können in der Frontalebene sehr gute Externalisierung erreichen, räumliche Transparenz und immersives Hören, weitgehend ohne klangliche Verfärbung. Die Unterscheidbarkeit vorne-hinten fehlt, da hier zugunsten der Lautsprecherkompatibilität die Wirkung der Ohrmuscheln auf das Spektrum vermieden wird. Dieser Verzicht erweist sich in der Praxis für Kopfhörerwiedergabe sogar als vorteilhaft, denn ohne Tracking wertet das Gehör die spektralen Merkmale nicht vollständig aus, was sich ungünstig auf die Klangfarbe auswirkt. Eine vollständige, verfärbungsfreie Auswertung würde den Einsatz der persönlichen Ohren und präzise Einhaltung der Entzerrung des Kunstkopfs und des Kopfhörers erfordern. Eine Soundcard für Externalisierung ohne Tracking wäre demnach besonders verfärbungsarm, wenn auf die vorne-hinten-Unterscheidung verzichtet wird, also die binauralen Impulsantworten des Kugelflächenmikrofons zu Grunde liegen und nicht die des Außenohrs. Im Gegensatz dazu, getrieben vom Trend zum Kopfhörer beim mobilen Musikhören und in Anwendungsbereichen Virtual Reality und Game, gibt es in vielen Produktionsstudios auch das Bestreben, sich primär auf maximale klangliche Qualität für die Kopfhörerwiedergabe zu konzentrieren, wenn erforderlich eher zuungunsten der Lautsprecherwiedergabe. Hier ist es eine zeitgemäße Musikproduktion, „wenn die Kopfhörerversion die erste und beste Version ist.“ [Buff, 2021] Multichannel-Produktionen Auf der Wiedergabeseite gibt es seit langer Zeit sehr gut funktionierende Prozessoren für die Binauralisierung auf Tracking- Basis. Produktionsseitig werden sie bevorzugt eingesetzt, um den hohen studioseitigen Aufwand für eine immersive Wiedergabe zu vermeiden, beispielsweise im Ü-Wagen. Ähnliches gilt auf der Consumer-Seite. Marktgerechte Tracking-Kopfhörersysteme ermöglichen dem Konsumenten das volle immersive Erlebnis einer realistischen virtuellen 3D-Lautsprecherwiedergabe, nicht nur im Heimkino, sondern auch im normalen
5.6 Gestaltung des Klangbilds
383
Wohnzimmer oder beim mobilen Empfang. Leistungsstarke Geräuschunterdrückungstechniken vergrößern in lärmbelasteten Situationen den Dynamikbereich und lassen eine detailreiche 3D-Audio Wiedergabe zu. Head tracking-basierte Binauralisierungs-Prozessoren überführen die mehrkanaligen Lautsprechersignale in ein binaurales Kopfhörersignal. Dieser spezielle Downmix ist nicht standardisiert, im Gegensatz zu den Downmix-Regeln für 2.0-Stereo-Lautsprecherwiedergabe, beispielsweise gemäß 5.1-Mehrkanal-Standard ITU-R BS.775. Zumindest für die Produktionsseite ist ein Studiostandard denkbar, der diverse Lausprecherformate in einem Referenzabhörraum virtuell darstellt. Die Reproduzierbarkeit eines solchen BRS-Kopfhörerstandards ist höher als zurzeit mit der Standardisierung von Lautsprechern und Abhörräumen möglich [Theile, 2015]. Hersteller von Geräten für den Konsumenten sind meist weniger an engen Toleranzen eines Standards interessiert, sie verfolgen eigene Strategien hinsichtlich Marktakzeptanz, die auch wirkungsvolle klangbildändernde Software-updates einschließen, beispielsweise Änderung der Klangfarbe, der Entfernungswahrnehmung, der räumlichen Transparenz. Event-Beschallung Werkzeuge zur Binauralisierung können prinzipiell Lautsprecher-Setups beliebiger Konfiguration nachbilden. Ihre Anwendung im Bereich der Beschallung von Konzerten, Theatern etc. ist vorteilhaft, weil für die Produktion nicht der reale Raum zur Verfügung stehen muss. Die Kreation der räumlichen Szene geschieht in einem beliebigen Ort virtuell per BRS TrackingKopfhörersystem und visueller Darstellung der Lautsprecherpositionen Lautsprecherpositionen. Auf der linken Seite des Bildschirms des Graphical User Interface-PlugIns (GUI) sind die in der Mischung verwendeten Klangobjekte aufgelistet und die dazu gehörenden einstellbaren räumlichen Parameter. Auf der rechten Seite ist das Ergebnis visuell überprüfbar und auch bearbeitbar. Die Klangobjekte sind als farbige Punkte im Raum dargestellt, wo sie bei der Lautsprecher-Wiedergabe vor Ort oder virtuell, binaural, abgebildet werden sollen. Sind die Tonschaffenden nach Beendigung der Produktion im Studio vor Ort, überprüfen sie lediglich auf dem vorgesehenen Wiedergabesystem die Mischung und passen sie dort bei Bedarf an. Auch Änderungen des Lautsprecher-Setups vor Ort müssen keine Änderungen der erstellten Mischung nach sich ziehen; es muss lediglich die bestehende Mischung mit dem angepassten Lautsprecher-Setup neu gerendert werden.
5.6 Gestaltung des Klangbilds Die Ton- und Übertragungstechnik steht im Dienst von Inhalten, die sie mit ihren medienspezifischen Mitteln darstellt, übermittelt und bewahrt. Es ist deshalb gerechtfertigt, in diesem Handbuch über die Technik der Aufnahme, Speicherung, Übertragung und Wiedergabe von Klangereignissen hinaus den Blick auch auf die Darstellung und Gestaltung der Inhalte zu lenken. Denn jedes zu übertragende Klangereignis vermittelt einerseits Informationen, Bedeutungen, Botschaften und emotionale Inhalte, andererseits ist es gestaltet nach ästhetischen Richtlinien, nach dramaturgischen Grundsätzen und künstlerischen Intentionen. Viele Produktionen sind rein handwerklicher Art, gekennzeichnet durch eine möglichst fehlerlose Technik und eine Klanggestaltung, die allgemeine Erfahrungen berücksichtigt, Erwartungen
384
5 Tonaufnahme und Tonwiedergabe
erfüllt und die klangliche Darstellung in Übereinstimmung bringt mit allgemein anerkannten Prinzipien der Gestaltung; diese können beschrieben werden (Kap. 5.6.1). Die klangliche Darstellung beschränkt sich aber nicht auf diese „handwerklichen“ Klangprodukte, sondern reicht hin bis zur Schaffung von hörbaren Kunstwerken, bis zu künstlerischen Werken eines Urhebers und geistigen Eigentümers. Während bei der Tongestaltung (Kap. 6) die Klangeigenschaften einzelner Elemente des Klangs bearbeitet werden, also z. B. die Klangfarbe, der zeitliche Verlauf einzelner Töne oder der Raumeindruck, wird die Klanggestaltung als übergreifend aufgefasst, sie hat das Gesamtklangbild und dessen zeitlichen Ablauf als Ganzes im Blick, also etwa die Dynamik, die Balance zwischen Teilen des Klangs, den Bezug zum dargestellten Raum usw. Klangdramaturgie kann verstanden werden als eine dem Gesamtklangbild noch übergeordnete Ordnungs- und Gestaltungsebene, die die künstlerische Umsetzung mitbestimmt. Der Mittler zwischen Technik und Musik ist der Tonmeister und/oder Tonregisseur, im Wortbereich der Regisseur. Die folgenden Ausführungen müssen sich bevorzugt auf die handwerkliche Ebene beziehen, also auf beschreibbare, anerkannte Grundsätze und Möglichkeiten der Gestaltung; Ton- und Klanggestaltung gehen da fließend ineinander über. Mit klanglichen Aspekten der Aufnahmen von Wortproduktionen befasst sich Kap. 5.6.2, von klassischer Musik Kap. 5.6.3, von populärer Musik Kap. 5.6.4 und von Fernsehtonproduktionen Kap. 5.6.5.
5.6.1 Grundsätze klanglicher Gestaltung Die Gestaltungsdimensionen, die bei der Klanggestaltung zur Verfügung stehen, spielen sich bei Zweikanal-Stereofonie zwischen den beiden Abhörlautsprechern ab, bei Mehrkanal-Stereofonie zwischen allen beteiligten Lautsprechern, es sind also zunächst die Orte und Dimensionen des Raums, die es zu besetzen gilt. Dazu gehört im erweiterten Sinn auch die Darstellung des Raums, in dem das Klanggeschehen stattfindet. Bei der klassischen Zweikanal-Stereofonie etwa ist die Frage zu beantworten nach der Verteilung der Schallquellen zwischen den beiden frontalen Lautsprechern, bei der Mehrkanal-Stereofonie kommen Fragen der Zuweisung von Schallquellen oder Rauminformationen an die seitlichen Surround-Lautsprecher hinzu. Die möglichen Schallquellenorte der Real- und Phantomschallquellen bei der Wiedergabe, ihre symmetrische oder unsymmetrische Anordnung zueinander und die Einbettung in einen Raum können so gekennzeichnet und bewertet werden: Mittenschallquelle Die Mitte einer Darstellung oder Klangdarstellung, ist ein hervorgehobener Ort, der seine Bevorzugung aus den Erfahrungen und Gewohnheiten des Alltags bezieht. Was für uns wichtig ist, das sehen wir an, es steht also in unserer Wahrnehmung in der Mitte, eine tiefe Erfahrung, an der keine Gestaltung vorbei gehen kann, der allerdings auch bewusst zuwidergehandelt werden kann. Es ist unüblich, den Gesangssolisten eines Titels der Populärmusik oder einen Instrumentalsolisten in einem klassischen Konzert außerhalb der Mitte anzuordnen, hier werden Erwartungen erfüllt und es wird den Erfahrungen des Hörers gefolgt. Nachteilig ist bei Zweikanal-Stereofonie, dass die Mittenschallquelle eine Phantomschallquelle darstellt mit all ihren Nachteilen: sie erscheint nur dann in der Mitte, wenn auch
5.6 Gestaltung des Klangbilds
385
der Hörer innerhalb der Hörzone – eigentlich genau in der Mitte zwischen den Lautsprechern – ist, sie scheint eine geringere Präsenz zu haben und unterscheidet sich mit ihrer etwas dunkleren Klangfarbe von einer Realschallquelle, sie ist weniger real und weniger direkt, sie ist über die Verbindungslinie der Lautsprecher erhoben (siehe Kap. 5.2.1). Aus diesen Nachteilen ergibt sich ein ständiger Konflikt mit den oben genannten gestalterischen Gesichtspunkten. Die Mehrkanal-Stereofonie mit einem Centerlautsprecher hebt die genannten Einwände auf; dieses Problem wurde beim Filmton schon früh erkannt und durch den sog. Dialogkanal behoben. Frontale Seitenschallquellen Frontale Seitenschallquellen sind bei allen Arten der Stereofonie grundsätzlich Realschallquellen, d. h., sie kommen nur aus einem der Lautsprecher und behalten auch außerhalb der Hörzone ihren ursprünglichen Ort, sie stabilisieren die räumliche Dimension einer Aufnahme. Seitenschallquellen machen eine Aufnahme also auch bei schlechten oder untauglichen Abhörbedingungen zu einer Stereoaufnahme, allerdings eingeschränkt, weil die Phantomschallquellen in dem jeweils näheren Lautsprecher verschoben werden. Als Realschallquellen haben Seitenschallquellen eine besondere Präsenz und eine klangliche Glaubwürdigkeit. Bisweilen wird ein stereofones Klangbild, das sich stark auf Seitenschallquellen stützt, abwertend als Ping-Pong-Stereofonie bezeichnet, in Erinnerung an die Anfangszeit der Stereofonie, als ihre neuen Fähigkeiten durch ein Tischtennismatch deutlich demonstriert werden sollten. Wenn sich ein stereofones Klangbild tatsächlich auf die Wiedergabe der Seitenschallquellen beschränkt, wird die Leistungsfähigkeit des Systems nicht voll genutzt, andererseits sollte die klangliche Qualität von Realschallquellen durchaus bedacht und gewürdigt werden (siehe auch Kap. 5 2 1). Phantomschallquellen vorne Phantomschallquellen stellen – wie Mittenschallquellen bei Zweikanal-Stereofonie – an den Hörer immer die Forderung, sich innerhalb der Hörzone aufzuhalten und den Kopf symmetrisch zu den Lautsprechern zu halten, für viele praktische Hörsituationen zu Hause sicher eine vielfach unerfüllte Forderung. Ungeachtet dessen muss bei der Aufnahme von weitgehend optimalen, zumindest guten Aufnahmebedingungen ausgegangen werden (Kap. 5.2.3). Tiefenstaffelung Die Tiefenstaffelung einer Aufnahme erweitert den darstellbaren Klangraum, sie schafft die Möglichkeit, auch Bedeutungsebenen zuzuweisen, das Wichtigste nahe, Begleitendes weiter entfernt, oder auch: das Besondere vorne, das Allgemeine weiter entfernt. Da die Dimension der Entfernung bei Lautsprecherstereofonie nur simuliert werden kann wie auf einem zweidimensionalen Bild, ist ihre Darstellbarkeit nicht sehr differenziert. Zwei bis drei Entfernungsebenen sind mit einiger Sicherheit unterscheidbar. Kunstkopfstereofonie bietet hier weitaus bessere Bedingungen. Symmetrie Ein allgemein über die Geschichte der Kunst hinweg erfolgreicher Gestaltungsansatz ist die Symmetrie und Unsymmetrie, in diesem Fall des Klangs. Sie ist eine der Platzierung der
386
5 Tonaufnahme und Tonwiedergabe
Schallquellen übergeordnete Gestaltungsdimension. Sie kann bei Musik z. B. so realisiert werden, dass links und rechts gleich hohe, gleich bedeutende, gleich laute Musikinstrumente gesetzt werden. Aber bereits eine starke, wichtige Mittenschallquelle schafft eine Symmetrieachse, die ein Minimum von Symmetrie vermittelt. So zeigt sich, dass neben der Zweiteiligkeit gerade eine Dreiteiligkeit von Klanggruppen auf klassische Art symmetrisch sein kann. Einen ersten Konflikt gibt es bei vier Klanggruppen, weil hier unter dem Gesichtspunkt der Symmetrie die Mitte unbesetzt bleibt. Fügt man diesen Überlegungen eine weitere, weiter entfernte, dahinter liegende Ebene hinzu, so gelten für diese zunächst dieselben Überlegungen. Sie steht aber nun in Beziehung zur vorderen Ebene: so könnte der Konstellation hoch– tief–hoch in der zweiten Ebene ein tief–hoch–tief in der ersten Ebene zur Seite stehen. Es gibt gut lokalisierbare Musikinstrumente wie etwa ein Klavier oder ein Snare Drum, andere Instrumente wie ein Base Drum oder eine Pauke sind auf Grund ihrer Klangeigenschaften schwerer zu lokalisieren; es ist sinnvoll – wenn die Möglichkeit besteht – gut lokalisierbare Instrumente für die Darstellung der Symmetrie zu nutzen, also seitlich anzuordnen, und weniger gut lokalisierbare Instrumente in der Mitte zu platzieren. Verallgemeinernd bedeutet das, dass die weniger gut lokalisierbaren tiefen Instrumente eher als Phantomschallquellen in der Mitte angeordnet werden, die besser lokalisierbaren hohen Instrumente eher seitlich; auch bei dieser Überlegung ergibt sich ein Konflikt zu dem Grundsatz, dass der Solist in der Mitte zu platzieren sei. Aber gerade die Konflikte bei den Gestaltungsgrundsätzen sind es, die kreative Lösungen fordern und die Klanggestaltung vor Routine bewahren. Die genannten räumlichen Gestaltungsprinzipien stellen meist noch keine künstlerischen Entscheidungen dar, sondern gehören zum Handwerk, sie können deshalb auch konkret beschrieben werden und spielen bei den meisten Wortaufnahmen (Kap. 5.51) eine tragende Rolle. Bei Musikaufnahmen behalten sie ihre Geltung, sind aber einbezogen in ein komplexes Gewebe von Gestaltungskriterien. Kap. 5.5.2 versucht, einige Gesichtspunkte für die Aufnahme klassischer Musik zusammenzustellen; wegen des zunehmenden Einflusses künstlerischer Intentionen wird es dabei schon schwieriger, konkrete Gestaltungsgesichtspunkte zu beschreiben, Ähnliches gilt für Fernsehtonaufnahmen (Kap. 5.6.3). Der Bereich populärer Musik bleibt in diesem Zusammenhang unberücksichtigt. Wie bei klassischer Musik ist die Komplexität der Thematik beachtlich, die Möglichkeiten, die Phänomene und Vorgänge in Worten darzustellen, beschränkt. Gerade bei populärer Musik spielen zudem Entwicklungen, Trends, Moden, individuelle Ausprägungen eine solche Rolle, die Verallgemeinerungen kaum zulassen und die Möglichkeiten eines Handbuchs überschreiten, denn hierfür müssten in erster Linie Klangbeispiele stehen. Raumschall Zunächst stellt sich die Frage, ob der Raum der Aufnahme überhaupt übertragen werden soll oder nicht. Bei Aufnahmen von Schallquellen, die im meist kleinen, akustisch trockenen Wiedergaberaum denkbar wären oder Platz finden würden, ist zu erwägen, ob der Aufnahmeraum überhaupt übertragen werden soll, die Aufnahme also ganz „trocken“ sein soll oder nicht. Am deutlichsten wird die Frage bei Sprachaufnahmen, die meist ohne eigene Raumakustik aufgenommen werden. Die Wiedergabelautsprecher vertreten die Schallquelle, die Aufnahme wirkt glaubhaft und natürlich. Soll aber z. B. ein öffentlicher Vortrag mit Publikum aufgenommen werden, so gehört die akustische Atmosphäre dazu, sie vermittelt dokumenta-
5.6 Gestaltung des Klangbilds
387
risch die besondere Situation der Aufnahme. Auch eine Schallquelle wie eine Gitarre könnte einerseits ohne, aber auch mit der Akustik des Aufnahmeraums übertragen werden, denn der Gitarrist könnte durchaus in einem üblichen Wiedergaberaum spielen, die Lautsprecher könnten ihn vertreten. Anders stellt sich die Situation etwa bei einem großen Orchester oder Chor, bei einer Blaskapelle oder einem populären Musiktitel dar, solche Schallquellen sind im Wiedergaberaum nicht denkbar, sie müssen die Raumakustik mit der Aufnahme mitbringen, der Hörer wird mit in den Konzertsaal genommen. Über die Phänomene der Wahrnehmung des Raumschalls, wie sie in Kap. 1.2.2 beschrieben wurden, hat der Raum aber eine weitergehende Bedeutung bei der Aufnahme, vielleicht vergleichbar der Beleuchtung einer Szene oder eines Gegenstands, treffend kann er auch als das „Kleid der Musik“ [Blaukopf, 1956] umschrieben werden. Ein kleiner Raum – hörbar durch die wenig verzögerten Reflexionen, vermittelt Privatheit, Intimität, aber auch Eingeschlossenheit, vielleicht auch Einsamkeit. Der große Raum verleiht Öffentlichkeit, Festlichkeit, Feierlichkeit und aus religiöser Erfahrung die Würde eines sakralen Raums – hörbar durch länger verzögerte Reflexionen und langen Nachhall. Der Nachhall gibt durch seine Dauer, Feinstruktur und Klangfärbung Auskunft über die Beschaffenheit der Raumoberfläche (siehe Kap. 1.1.2.4), ob es sich eher um die stoffbezogenen Wände eines Opernhauses handelt, den holzverkleideten Konzertsaal oder die steinerne Kirche. Diese akustischen Eigenschaften transportiert der Raumschall für den Hörer wohl meist nicht bewusst wahrnehmbar, aber auch stark abhängig von der Hörerfahrung und einer differenzierten Wahrnehmungsfähigkeit des Hörers.
5.6.2 Klangliche Aspekte von Wortproduktionen Wortproduktionen sind Aufnahmen, bei denen das gesprochene Wort im Mittelpunkt steht. Es kann sich dabei z. B. um Nachrichten, Interviews, die Lesung eines einzelnen Sprechers oder auch um die szenische, künstlerisch anspruchsvolle Darstellung eines Hörspiels mit Musik- und Geräuscheinblendungen handeln. Der Ablauf einer Wortproduktion muss nicht in der endgültigen Reihenfolge ihrer Teile erfolgen. Oft unterteilt man das Manuskript oder Textbuch aus Gründen rationeller Produktion in mehrere Abschnitte: Diejenigen Szenen oder Sequenzen werden nacheinander aufgenommen, die mit denselben Sprechern besetzt sind. Wenn alle Teilaufnahmen vorliegen, werden sie in der richtigen Reihenfolge zusammengesetzt, ggf. auch nachträglich mit Geräuschen gemischt. Zum Aufnahmeteam eines aufwändigen Hörspiels gehören Regisseur, Regieassistent, Toningenieur und Tontechniker, eventuell mit Assistenten. Für einfache Wortaufnahmen sind nur der Regisseur oder Aufnahmeleiter und ein Tontechniker erforderlich, Interviews o. ä. werden auch vom Reporter ohne technische Assistenz durchgeführt. Jede Rundfunkanstalt verfügt über für Wortaufnahmen geeignete Studios, vom einfachen Sprecherstudio bis hin zum Hörspielkomplex mit Aufnahmeräumen, die verschiedene raumakustische Eigenschaften haben. Die Nachbearbeitung liegt – bedingt durch die Entwicklungen der digitalen Tontechnik – schon weitgehend in der Hand der Programmmitarbeiter, sofern es sich um einfache Wortaufnahmen handelt. Das Manuskript für eine Wortproduktion ist das vollständige Textbuch, versehen mit allen Angaben über szenische Abläufe, Ausdrucksvarianten, Originalgeräusche, Geräuscheinblen-
388
5 Tonaufnahme und Tonwiedergabe
dungen usw. Es wird aus einer Idee über ein Exposé, also einem kurzen Handlungsaufriss, und das Treatment, ein ausführlicher Handlungsaufriss, hin zum vollständigen Textbuch entwickelt. Nachdem es der zuständige Redakteur redigiert hat, wird es zur Aufnahme freigegeben. In Tab. 5/21 sind wichtige Stilformen von Wortproduktionen aufgezählt. Die Hauptkategorien sind informierende Darstellungen, Meinungen äußernde Darstellungsformen und künstlerische, phantasiebetonte Darstellungsformen. Die Grenzen zwischen den einzelnen Stilformen sind unscharf. Tab. 5/21. Stilformen von Wortproduktionen. Kategorie
Begriff
Definition
Erläuterungen
Information
Nachricht
nach bestimmten Regeln gestaltete aktuelle Information über Ereignisse und Sachverhalte
Man unterscheidet „harte“ und „weiche“ Nachrichten. Harte Nachrichten sind knapp und prägnant formuliert, sie informieren über die „vier Ws. einer Nachricht“: das Was, Wer, Wie und Wo eines Ereignisses oder Sachverhalts. Die Teile der Nachricht sind meist nach ihrer Wichtigkeit geordnet, so dass sie von ihrem Ende her gekürzt werden können. Weiche oder leichte Nachrichten sind in einem persönlicheren, farbigeren Ton gehalten.
Reportage
tatsachenorientierter, aber auch persönlich gefärbter Erlebnisbericht eines Reporters, der meist als Augenzeuge berichtet
Kennzeichnend ist eine Vielfalt von Stilmitteln, die häufig wechseln. Bei der Reportage werden vor allem sichtbare Ereignisse durch das Wort beschrieben.
Interview
Befragung eines oder mehrerer Gesprächspartner durch einen Reporter, bei der Tatsachen und Meinungen wiedergegeben werden
Oft handelt es sich dabei um die Befragung bekannter Persönlichkeiten, auch per Telefon, aber z. B. auch von Straßenpassanten, zu aktuellen Themen.
Statement
kurze Erklärung oder Stellungnahme einer Person zu einem bestimmten Thema
Im Gegensatz zum Interview tritt kein befragender Reporter in Erscheinung.
Gesprächsrunde, Roundtable
Gespräch von Politikern, Journalisten, Wissenschaftlern usw. mit unterschiedlichen Ansichten
Es soll dem Hörer ein breit gefächertes Meinungsspektrum zu einem Thema bieten. Spannend und interessant werden Diskussionen durch Konflikte zwischen den Verfechtern unterschiedlicher Meinungen.
Glosse
kurzer meinungsbetonter, Meist wird eine überspitzte Argumentation vielfach witziger Beitrag verwendet.
Meinung
5.6 Gestaltung des Klangbilds
Kunst
389
Kommentar
sachbezogene Form der Meinungsäußerung
Es werden Tatsachen erläutert und interpretiert, Hintergründe dargelegt sowie Meinungen begründet oder widerlegt.
Feuilleton
betont persönliche Form der Darstellung von Nebensächlichkeiten und Kleinigkeiten des Lebens
Es versucht, diesen Dingen eine bewegende, interessante, über sich hinausweisende Bedeutung abzugewinnen.
Feature
Sammelbegriff für journalistischen Stilformen, die nicht nur sachliche Informationen geben
Es handelt sich um eine Dokumentation, die durch verschiedene Sprecher, durch erdachte Szenen, durch Einblendung von Kurzinterviews, Statements, Originalgeräuschen, Musik usw. eine hörfunkspezifische Form darstellt. Durch die umfangreiche Verwendung von Originaltönen neben Informationen durch das gesprochene Wort werden besondere Stimmungen, Atmosphäre und andere nichtverbale Informationen übermittelt. Das Feature vereint also Information, Dokumentation, Meinung und Unterhaltung.
Hörspiel
eine für die dramatischen Möglichkeiten des Hörfunks bzw. eines reinen Hörmediums entwickelte Kunstform, vergleichbar einem Schauspiel ohne szenische Darstellung
Der Autor nutzt allein die Aussagekraft des Hörbaren, also des gesprochenen Worts, von Geräuschen und Musik unter Verzicht auf das Sichtbare und fordert die Vorstellungskraft des Hörers.
5.6.2.1 Sprachaufnahmen Bereits bei einfachen Sprachaufnahmen in Stereo werden dramaturgische Prinzipien angewendet: Ein einzelner Sprecher wird stets in der Mitte der Abhörbasis abgebildet, also als reine Phantomschallquelle, obwohl dies im Prinzip für die Klangdarstellung keine optimale Lösung ist, denn der Sprecher wandert auf der Lautsprecherbasis, wenn sich der Hörer aus der Mitte der Abhörbasis entfernt. Klanglich günstiger wäre die Abbildung eines einzelnen Sprechers seitlich als Realschallquelle in einem der Lautsprecher, das indessen widerspricht der Erwartung des Hörers, einen Sprecher in der Mitte vor sich, in Blickrichtung, zu haben. Von der Möglichkeit, Sprecher in den Lautsprechern als Realschallquellen abzubilden, wird deshalb nur bei zwei Sprechern Gebrauch gemacht. In der Praxis werden auch diese oft etwas zur Mitte hin verschoben, aus dem Bedenken heraus, zwischen den Sprechern könne zu viel Abstand entstehen. Bei drei Sprechern bietet sich die Lösung links–Mitte–rechts ohne Alternative an. Abhörlautstärke Zwischen der Abhörlautstärke, der natürlichen Lautstärke der Sprecher und einer möglichen Klangfärbung besteht bei Tonaufnahmen ein Zusammenhang, der bei Sprache besonders deutlich wahrgenommen wird, weil der Klang der menschlichen Stimme zu den tiefsten und
390
5 Tonaufnahme und Tonwiedergabe
genauesten Erfahrungen des Menschen gehört. Die Lautstärke der Klangkomponenten der Stimme ist unterhalb etwa 100 Hz bei Männern und 200 Hz bei Frauen relativ unabhängig von der Sprechlautstärke (siehe Kap. 2.2), wird also hauptsächlich von der Entfernung zum Sprecher bestimmt. Bei jeder elektroakustischen Wiedergabe, bei der die Abhörlautstärke aber von der natürlichen Lautstärke am Mikrofonort abweicht, muss sich somit eine unnatürliche Wiedergabe der Tiefen ergeben; bei unnatürlich lautem Abhören dröhnt die Stimme, weil die tiefen Komponenten relativ zu den höheren zu stark sind, bei unnatürlich leiser Wiedergabe wird ihr Klang flach, weil die Tiefen fehlen. Sinnvoll ist es deshalb, die Abhörlautstärke an die natürliche Lautstärke anzupassen, also der Lautstärke, die herrschen würde, wenn sich die Sprecher am Ort der Abhörlautsprecher befinden würden. Störungen Bei normaler Sprechweise herrscht in einer Entfernung von etwa 60 cm vom Sprecher ein Schalldruckpegel von rund 60 dB, der sich bei Annäherung auf etwa 30 cm um rund 4 dB auf 64 dB erhöht; wird laut gesprochen, erhöht sich der Pegel um jeweils nochmals etwa 6 dB. Damit ergibt sich in einem Studio, das den an ein Rundfunkstudio gestellten Anforderungen gerecht wird (siehe Kap. 1.3 und 19.6.1), ein Störpegelabstand zu dem allgemeinen Studiound Mikrofongeräusch von rund 50 dB. Dabei bestimmt das Eigenrauschen des Mikrofons vor allem den erreichbaren Geräuschpegelabstand. Kürzere Pausen in Sprachaufnahmen bestehen aus einer Aufnahme der akustischen Studioatmosphäre, auch „Atmo“ oder „Raum statisch“; es empfiehlt sich deshalb bei hohen Anforderungen, zu einer Sprachaufnahme stets noch einige Sekunden Atmo als Mischung aus Studio- und Mikrofongeräusch für evtl. einzufügende Pausen aufzunehmen. Bei geringem Mikrofonabstand – unter 30 bis 50 cm – ruft der Nahbesprechungseffekt (siehe Kap. 4.2.1) durch eine hörbare Anhebung der Tiefen ein unnatürliches Dröhnen hervor; für diesen Fall stehen Mikrofone mit einschaltbarer Bassabsenkung zur Verfügung bzw. Mikrofone mit einer festen Bassabsenkung, sog. Solistenmikrofone; selbstverständlich kann auch eine Filterung in der Tonregie erfolgen. Bei der vielfach vor allem im Studio üblichen Entfernung von etwa 60 cm spielt der Effekt keine nennenswerte Rolle. Störender sind bei geringerem Mikrofonabstand Poppeffekte durch die Explosivlaute des Sprechers; ein Windschutz schafft hier Abhilfe (siehe Kap. 4.2.1.8). Störende Klangfärbungen entstehen, wenn das Mikrofon zugleich mit dem Direktschall Reflexionen vom Sprechertisch oder Manuskript aufnimmt. Je nach Anordnung lassen sich solche Reflexionen jedoch vermeiden (Abb. 5/85). Klangfärbungen machen sich vor allem dann störend bemerkbar, wenn die durch die Reflexion entstehende Kammfilterkurve ihre Klangfärbung verändert, was sich durch Bewegungen des Sprechers ergibt. Im Gegensatz zu Hörspielstudios benötigen reine Sprecherstudios keine Mindestgröße; durch Festlegung des Sprechplatzes und des Mikrofonorts kann die raumakustische Gestaltung alle akustischen Anforderungen erfüllen. Die Nachhallzeit beträgt im Allgemeinen etwa 0,2 bis 0,3 s; erste Reflexionen werden dabei so weit wie möglich unterdrückt. Nachrichten Nachrichten werden sachlich, ohne persönliche Anteilnahme des Sprechers gelesen. Ziel ist eine möglichst hohe Wortverständlichkeit. Sie wird nicht nur durch angemessene Sprech-
5.6 Gestaltung des Klangbilds
391
geschwindigkeit erreicht, sondern vor allem auch durch einen möglichst gleichmäßigen Verlauf des Pegels, d. h., ohne stark betonte Wörter oder in der Lautstärke zurückgenommene Satzenden, Satzteile oder Wörter. Auch bei Einsatz eines Kompressors müssen diese Grundsätze beachtet werden.
Abb. 5/85. Vermeidung von Klangfärbungen bei Wortaufnahmen.
Interview und Reportage Das Interview-Mikrofon wird zunächst nach seiner Richtcharakteristik ausgewählt: Die Kugelrichtcharakteristik eignet sich, wenn zugleich mit einem Interview oder einer Reportage die akustische Atmosphäre übertragen werden soll; sofern es sich um Druckempfänger handelt, sind Kugelrichtmikrofone zudem weniger wind- und handempfindlich als Richtmikrofone. Die Niere eignet sich für Aufnahmesituationen, in denen Nebengeräusche ausgeblendet werden und nur der Reporter und der Befragte aufgenommen werden sollen; das Störgeräusch entscheidet über die Haltung bzw. Führung des Mikrofons (Abb. 5/86). Eine Acht blendet Störgeräusche ebenso gut wie die Niere aus; sie kann deshalb bei zwei Gesprächspartnern gut eingesetzt, ohne bewegt zu werden, muss allerdings fast in Höhe des Munds gehalten werden.
Abb. 5/86. Mikrofonhaltung bei Interviews und Reportagen.
Grundsätzlich ist ein Wind- und Poppschutz zu empfehlen (siehe Kap. 4.2.1.8). Bei Mikrofonabständen weniger als 30 cm sollte bei der Verwendung von Richtmikrofonen ein Nah-
392
5 Tonaufnahme und Tonwiedergabe
besprechungsmikrofon gewählt werden; dieser Mikrofontyp verfälscht aber die akustische Atmosphäre, indem er die Tiefen bedämpft. Bei geringem Besprechungsabstand wird die Mikrofonmembran nicht frontal angesprochen, sondern zur Vermeidung von Übersteuerungen durch Popplaute schräg. Da Richtmikrofone ziemlich empfindlich gegen Körperschall sind, müssen Reibgeräusche am Mikrofon und am Mikrofonkabel unbedingt vermieden werden. Dafür ist es nützlich, das Kabel mit einer Schlaufe durch die Hand zu ziehen, wie in Abb. 5/63 dargestellt. 5.5.2.2 Gesprächsrunden Für eine Gesprächsrunde oder Roundtable gelten zunächst dieselben Gesichtspunkte bezüglich Schallpegel, Studiogeräusch, Nahbesprechungseffekt und Klangfärbung durch Reflexionen wie bei einem Einzelsprecher. Bei der Mikrofonaufstellung kommen zwei Möglichkeiten in Betracht: Zunächst kann jedem Gesprächspartner nach dem Einzelmikrofonverfahren ein Mikrofon zugeteilt werden, das dann bei Stereoaufnahmen in der Tonregie durch Panorama-Potentiometer in seine Abbildungsrichtung eingeordnet wird. Dieses Verfahren bietet zugleich die Möglichkeit, die Mikrofone nur bei Bedarf zu öffnen. Diese Funktion kann auch ein Schwellwertschalter (Noise Gate) übernehmen; ein Expander reduziert ebenfalls unnötige Geräusche in Pausen. Um in Gesprächspausen kein akustisches Loch entstehen zu lassen, muss zusätzlich ein Raummikrofon aufgestellt werden.
Abb. 5/87. Mikrofonaufstellung bei Gesprächsrunden, 1. MS: Acht/Acht, XY: Acht/Acht unter ± 45°, 2. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90°, 3. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90°, 4. Torus für Monowiedergabe, gekreuzte Achten unter 90° Phasenverschiebung.
5.6 Gestaltung des Klangbilds
393
Einen besseren Eindruck von der akustischen Atmosphäre im Gesprächsraum gibt eine Aufnahme mit einem oder zwei Stereomikrofonen in etwas größerem Abstand. Dabei können die Gesprächsteilnehmer auf einem Kreisbogen von 270° angeordnet werden, in XY-Aufnahmetechnik werden dann zwei Nieren unter ± 45° eingestellt. Sitzen die Teilnehmer im Kreis, können zwei Nieren mit ± 90° in XY‑Technik aufgestellt werden. Die Verwendung von zwei Stereomikrofonen „Rücken an Rücken“ ist nicht sinnvoll. Gelegentlich wird für Monoaufnahmen ein Stereomikrofon mit unter 90° gekreuzten Achten verwendet, die über ein sog. 90°-Filter zusammengeschaltet werden; es entsteht dabei die Richtcharakteristik einer rotierten Acht, ein sog. Torus, der waagrecht allseitig gleich empfindlich ist, aber diffusen Schall von oben und unten ausblendet (Abb. 5/87, 4). Auch mit Grenzflächenmikrofonen (siehe Kap. 4.2.4.2) werden gute Erfahrungen gemacht; sie sind unauffällig und zeigen besonders auch bei sich vom Mikrofon abwendenden Sprechern gute Ergebnisse, da bei diesen Mikrofonen zwischen Direkt- und Diffusschall keine Klangfarbenunterschiede bestehen.
5.6.3 Klangliche Aspekte bei Produktionen klassischer Musik Die Klangästhetik von Musikaufnahmen ist wie die Ästhetik anderer Kunstformen einer ständigen Veränderung unterworfen. Neben allgemeinen Strömungen gibt es auch kurzlebige Trends oder spezielle Anforderungen der Produzenten. Dennoch soll versucht werden, einige klassische Prinzipien der Klangästhetik von Musikaufnahmen darzustellen. Klangästhetische Überlegungen werden umso wichtiger, je komplexer und je räumlich ausgedehnter eine Komposition oder Aufführung angelegt ist. So ist es bei der Aufnahme eines Sängers mit Gitarrenbegleitung dem Geschmack überlassen, ob der Sänger links oder rechts von der Gitarre abgebildet wird oder ob die Gitarre in genau derselben oder in unterschiedlicher Entfernung wie der Sänger wiedergegeben wird. Bei der Aufnahme eines großen Werks mit Gesangsolisten, Soloinstrumenten, Orchester und Chor hingegen wird die Klangästhetik zu einer künstlerischen Frage größter Wichtigkeit, die, ebenso wie die Darbietungen der Sänger und Musiker, Teil der musikalischen Interpretation des Werks ist. Klangästhetische Entscheidungen sind schon bei kleinen Besetzungen zu treffen. Sie folgen den Vorgaben der Partitur und berücksichtigen aufführungspraktische Notwendigkeiten, tragen also vielfach einen gewissen Kompromisscharakter. Die traditionellen Platzierungsschemata sind auch unter klangästhetischen Gesichtspunkten entstanden; ein gutes Beispiel hierfür ist die sog. deutsche Orchesteraufstellung, die durch räumliche Klangsymmetrie gekennzeichnet ist. Andere Orchesteraufstellungen folgen vielleicht eher aufführungspraktischen Aspekten, wie z. B. die amerikanische Orchesteraufstellung, die wegen der Verteilung von hohen Streichern links nach tiefen Streichern rechts für Stereoaufnahmen eine gewisse Problematik darstellt. Zur Beschreibung des Klangbilds bei Aufnahmen klassischer Musik dienen im Wesentlichen drei Parameter: Richtung, Tiefenstaffelung und Räumlichkeit. Im Aufnahmeraum spielen die Akustik des Aufnahmeraumes, die Orchesteraufstellung und die Größe des Ensembles eine zentrale Rolle für ein der Komposition angemessenes Klangbild. Die Grundlage für alle Entscheidungen einer künstlerischen Klangdramaturgie bildet die Partitur. Hier ist die Vorstellung des Komponisten festgelegt. Es bleibt aber über das Noten-
394
5 Tonaufnahme und Tonwiedergabe
bild hinaus ein Spielraum, in welcher Weise die musikalischen Vorgaben von den Künstlern, aber auch vom Tonmeister umgesetzt werden sollen: –– Der musikalische Verlauf mit Haupt- und Nebenstimmen muss plastisch dargestellt werden. –– Die Akustik eines weitgehend guten Aufnahmeraums soll vorteilhaft dargestellt werden, Schwächen eines Raums dagegen unterdrückt werden. –– Die natürliche Balance des Ensembles soll erhalten bleiben. –– Überall dort, wo Unterstützung nötig ist, kann und muss die Aufnahmetechnik unterstützend eingreifen. Das Pult des Dirigenten im Orchester steht an einem akustisch eher ungünstigen Ort. Die vorderen Streicher sind hier überproportional stark, andere Teile des Orchesters möglicherweise zu schwach hörbar. Ein guter Dirigent korrigiert diesen Nachteil für sich selbst durch seine Erfahrung. Eine zusätzliche fachliche Beratung durch den Tonmeister, der sich im Studio, aber auch im Saal einen Eindruck verschaffen kann, ist für das Gelingen einer guten Aufnahme oftmals willkommen. Wenn es die Produktionszeit zulässt, ist der auditive Vergleich des Klangeindrucks zwischen Saal und Lautsprecherwiedergabe zudem ein wichtiges Hilfsmittel für die Klangbildeinstellung. Hohe Produktionskosten, insbesondere bei Aufnahmen mit großen Besetzungen, geben allerdings zunehmend einen knappen Zeitrahmen vor. Für Klangvergleiche oder Probeaufnahmen klanglich schwieriger Passagen steht vielfach keine Zeit zur Verfügung. Deshalb ist es zwingend notwendig, die Anordnung und Typenauswahl des Hauptmikrofonsystems und der Stützmikrofone vor Beginn der Aufnahme sorgfältig zu planen. Notwendige Korrekturen der Klangbalance werden überwiegend am Mischpult realisiert, ohne während der Aufnahmesitzungen, z. B. durch zeitaufwändige Änderungen der Sitzordnung im Orchester, in die Balance eingreifen zu müssen. Deshalb werden Aufnahmen häufig auf Mehrspursystemen aufgezeichnet. Die Option für spätere Klangkorrekturen ohne Zeitdruck im Rahmen der Nachbearbeitung wird somit ermöglicht. [Schlemm, 1997] 5.6.3.1 Aufnahmeräume Viele Kompositionen klassischer Musik sind für bestimmte Räume komponiert worden. Bis ins 19. Jahrhundert haben die Komponisten überwiegend für Kirchen, Opernhäuser und höfische Räume geschrieben. Die Raumgrößen waren sehr unterschiedlich, vielfach nur für wenige Dutzend oder hundert Hörer gemacht. Der Redoutensaal in Wien von 1752 mit etwa 1.500 Plätzen z. B., in dem viele Werke der Wiener Klassik aufgeführt wurden, war mit seiner Größe schon eher eine Ausnahme; demgegenüber ist das berühmte Alte Gewandhaus in Leipzig von 1781 mit rund 400 Plätzen, nach einem Umbau 1842 mit 570 Plätzen, in dem viele Werke der deutschen Romantik uraufgeführt wurden, auffallend klein. Der weltberühmte Goldene Saal des Wiener Musikvereins wurde 1870 eröffnet. Er hat heute 1744 Sitzplätze sowie zusätzlich rund 300 Stehplätze. Erst seit dem ausgehenden 19. Jahrhundert stehen Konzertsäle im heutigen Sinn für öffentliche Aufführungen, oft nach dem Vorbild des Musikvereinsaals oder des Neuen Gewandhauses in Leipzig – das heute nicht mehr existiert – in der Form einer Schuhschachtel
5.6 Gestaltung des Klangbilds
395
gestaltet, zur Verfügung; sie werden vielfach auch für Aufnahmezwecke genutzt. [Beranek, 2010], [Forsyth, 1992], [Meyer, 2002, 2004], siehe hierzu insbesondere Kap. 1.2. Die Verteilung des Direkt- und des Diffusschalls in einem Konzertsaal ist durchaus ortsabhängig, es gibt akustisch gute und weniger gute Plätze. Durch die Richtwirkung der Instrumente und Schallreflexionen an Wandoberflächen kann der Schall eines Instruments in seiner Richtung akustisch anders wahrgenommen werden als die tatsächliche Position dieses Instruments zum Hörer; gerade in Opernhäusern, in denen das Orchester unterhalb der Bühne in einem Orchestergraben sitzt, erreicht der Schall den Hörer teils erst über die Seitenwände sowie die Untersicht des oberen Abschlusses der Bühne, den Soffitten. Dem Hörer im Konzert gibt dessen Auge die korrekte Position eines Instruments an. Die Wahrnehmung des Ohrs wird in der Regel der des Auges untergeordnet. Bei Aufnahmen aber kann diese Fehlortung zu einem akustischen Problem werden. Ein allgemein gültiges Prinzip der Klangästhetik bei Lautsprecherwiedergabe ist, dass der Hörer die Darbietung wie auf dem besten Platz eines Konzertsaals wahrnehmen soll. Das Fehlen der optischen Information des Aufnahmeraums bei der Wiedergabe in anderen Räumen muss durch genaue, in manchen Fällen möglicherweise durch eine verdeutlichend übertriebene Richtungs- und Entfernungswiedergabe bei der Aufnahme ersetzt werden; eine u. U. überzogene Verdeutlichung der Darstellung rechtfertigt sich auch durch die vielfach nicht idealen Wiedergabebedingungen beim Hörer. Dem Tonmeister stehen hierfür vielfache Gestaltungsmittel zur Verfügung. Wichtig ist eine dem Werk und dem Raum adäquate Mikrofonierung. In aller Regel besteht ein Mikrofon-Setup aus einer stereofonen Hauptmikrofonanordnung, z. B. Klein-AB, Groß-AB oder einer der anderen Hauptmikrofonanordnungen und zusätzlichen Stützmikrofonen (siehe Kap. 5.3, besonders 5.3.5). Während das Hauptmikrofonsystem in einer ausgewogenen Distanz zum Klangkörper und in der Nähe, innerhalb des Hallradius’ positioniert ist, befinden sich die Stützmikrofone im Nahfeld der Instrumente. Das Hauptmikrofonsystem soll Direktschall und Raumanteile des Saals möglichst homogen aufnehmen, während die Stützmikrofone wichtige musikalische Details der Partitur erfassen. Bei kleinen Besetzungen in einem gut und ausgewogen klingenden Raum kann häufig eine einzige Hauptmikrofonanordnung in einer sorgfältig erarbeiteten Distanz vom Klangkörper bereits ein sehr gutes Ergebnis liefern. Ist die Akustik des Aufnahmeraums jedoch problematisch oder steht wenig Zeit für die Einstellung des Klangbilds zur Verfügung, werden zusätzliche Stützmikrofone an geeigneten Positionen platziert. Bei ungünstigen akustischen Verhältnissen sei es in zu halligen Räumen oder bei störenden Nebengeräuschen, muss möglicherweise ohne Hauptmikrofon, d. h., nach dem Einzelmikrofonverfahren aufgenommen werden (Kap. 5.3.6). Auf elektronischem Weg können dann nach Bedarf erste Reflexionen und Nachhall dem Klangbild zugemischt werden. In einem zu kleinen Aufnahmeraum entstehen frühe erste Reflexionen, die den räumlichen Eindruck entscheidend prägen. Diese störenden frühen Reflexionen können im Klangbild nicht eliminiert werden, gerichtete Mikrofone und ein relativ geringer Mikrofonabstand sind mögliche Gegenmaßnahmen. Es ist unter dieser Voraussetzung schwierig, einen adäquaten Raumeindruck zu realisieren, es besteht die Gefahr eines zweiräumigen Klangeindrucks. Bei Aufnahmen in Räumen mit zu viel Nachhall ist der Hallradius klein und die Nachhallzeit lang, der Diffusschallpegel ist bezogen auf den Direktschallpegel hoch. Der Raum-
396
5 Tonaufnahme und Tonwiedergabe
eindruck kann mittels geschickter Wahl der Mikrofonpositionen günstig beeinflusst werden, indem der Abstand von der Hauptmikrofonanordnung zum Orchester wie auch der Abstand der Stützmikrofone zu den einzelnen Schallquellen kleiner gewählt wird, um das Verhältnis von Direktschall zu Raumanteil zugunsten des Direktschalls zu erhöhen. Die natürliche Nachhallzeit bleibt so erhalten, aber das Klangbild wird durchsichtiger. 5.6.3.2 Verteilung der Schallquellen auf der Stereobasis Kammermusikensembles Die Basisbreite bei der stereofonen Abbildung der Instrumente soll der Logik der räumlichen Perspektive nicht widersprechen. Große Klangkörper werden stets so breit wie möglich abgebildet, kleinere können entsprechend auch schmaler abgebildet werden. Unabhängig von der Abbildungsbreite soll der Raumschall immer die ganze Basisbreite einnehmen. Die Position eines kleineren Klangkörpers auf der Stereobasis ergibt sich in der Regel aus der Sitzordnung des Ensembles. Bei einem Streichtrio z. B. mit Geige, Violoncello und Bratsche ist es vorteilhaft, die Geige im Klangbild links oder halblinks, das Violoncello in der Mitte und die Bratsche rechts bzw. halbrechts abzubilden. Bedingt durch das Abstrahlverhalten der Instrumente erreicht man mit dieser Aufstellung eine klare Richtungsabbildung auf der Stereobasis. Die Tiefenstaffelung spielt in der Kammermusik eine eher untergeordnete Rolle. Eine natürliche und ausgeglichene Balance lässt sich bei kleineren Besetzungen bereits durch unterschiedliche Sitzpositionen der Musiker zum Hauptmikrofon finden, auf Stützmikrofone kann dann meist verzichtet werden. Orchester Groß besetzte Orchesterwerke weisen mehrere Klangebenen auf. Neben einer differenzierten Richtungsabbildung der verschiedenartigen Instrumente kommt als weitere Dimension die Tiefenstaffelung hinzu. Vorne sind die Streichinstrumente abgebildet, etwas entfernter die Holz- und Blechbläser, und sofern vorhanden, dahinter der Chor. Solistische Darbietungen werden noch vor den Streichern im Vordergrund positioniert. Es gibt in der Aufführungspraxis klassischer Musik verschiedene Orchesteraufstellungen, deren Unterschiede sich vor allem in der Anordnung der Streichergruppen darstellen. Die drei gebräuchlichsten Varianten sind die deutsche, die amerikanische und die gemischte Aufstellung, alle drei Sitzordnungen werden heute nebeneinander praktiziert [Meyer, 2015]. Streichinstrumente: Im Sinne eines ausgewogenen Klangbilds hat die deutsche Aufstellung (Abb. 5/89), von der sog. Mannheimer Schule um 1750 entwickelt, den Vorteil räumlicher Klangsymmetrie: Die Tonlagen der hohen Streichinstrumente kommen seitlich von links und rechts, während die tiefe Tonlage der Violoncelli und der Kontrabässe sich um die Mitte gruppieren. Diese Sitzordnung wirkt sich nicht nur vorteilhaft für die Aufnahme im Sinne einer Klangsymmetrie, sondern ebenso für die Wiedergabe im Saal aus. Die Violoncelli und Bässe strahlen direkt in den Saal und werden mit einem idealen Abstand vom Hauptmikrofon abgebildet. Oft kann man daher bei dieser Sitzordnung auf Stützmikrofone für die beiden Gruppen verzichten.
5.6 Gestaltung des Klangbilds
397
Die deutsche Aufstellung der Streicher war im 19. und beginnenden 20. Jahrhundert allgemein üblich; diese Anordnung lag zu jener Zeit auch den Klangvorstellungen der Komponisten zu Grunde. So spielen beispielsweise im Vorspiel zur Oper Lohengrin von Richard Wagner in den ersten 34 Takten ausschließlich die vierfach geteilten Violinen mehr als drei Minuten lang zu Beginn des Werks. Sind die Streicher nach der deutschen Aufstellung angeordnet, füllen die ersten und zweiten Violinen vorteilhaft die gesamte Basisbreite aus, während sich bei den beiden anderen Varianten die Wiedergabe dieser Musik nur auf die linke Hälfte der Stereobasis beschränkt. Beispiele ähnlicher Art, die die deutsche Anordnung zur Voraussetzung haben, finden sich in großer Zahl beginnend bei Ludwig van Beethoven bei allen wichtigen Komponisten der Orchestermusik des 19. Jahrhunderts [Meyer, 2015]. Es ist unabhängig von der Orchesteraufstellung für die Streicher sinnvoll. pro Instrumentengruppe mit zwei Stützmikrofonen zu arbeiten. Dies unterstützt eine ausgedehnte Abbildung jeder Streichergruppe und sorgt für einen homogenen Klang.
Abb. 5/88. Anordnung der Streicher bei der deutschen Orchesteraufstellung.
Abb. 5/89. Anordnung der Streicher bei der amerikanischen Orchesteraufstellung.
398
5 Tonaufnahme und Tonwiedergabe
Bei der sog. amerikanischen Aufstellung (Abb. 5/89), von Leopold Stokowski in den ersten Jahrzehnten des 20. Jahrhunderts entwickelt mit dem Ziel eines präzisen Zusammenspiels der beiden Violingruppen nach dem Vorbild der Streichquartettaufstellung eingeführt, ist die Klangverteilung der hohen Tonlagen von links nach tiefen Tonlagen rechts gestaffelt. Da in allen Orchesteraufstellungen auch die hohen Holzbläser mit Flöten, Klarinetten und oft auch die Trompeten auf der linken Seite platziert sind, erreicht man hier statt eines Mischklangs ein Tonlagengefälle von links nach rechts, von hoch nach tief. Die Hauptabstrahlrichtung der Violoncelli und Kontrabässe ist in dieser Sitzordnung auf die gegenüberliegende Seite der Bühne gerichtet. Diese Instrumente werden mit ihren hohen Frequenzanteilen sowohl im Saal als auch über die Hauptmikrofone weniger stark wahrgenommen, fehlende Präsenz der tiefen Streicher kann daraus folgen. Die dritte Variante, von Wilhelm Furtwängler bei den Berliner Philharmonikern eingeführt, gleicht den Nachteil des Tonlagengefälles der amerikanischen Sitzordnung teilweise aus. Hier sind die Positionen der Bratschen und der Violoncelli gegenüber der amerikanischen Anordnung vertauscht; die Violoncelli spielen nun vorteilhaft in Richtung des Saals. Für die Bässe bleibt der Nachteil der amerikanischen Aufstellung bestehen (Abb. 5/90).
Abb. 5/90. Mischform der Aufstellung der Streicher im Orchester nach Furtwängler.
Holz- und Blechbläser: Für die Anordnung der Holz- und Blechbläser findet man ebenfalls zahlreiche Varianten. Diese kommen oft aus der Tradition der Orchester oder ergeben sich aus den Bedingungen des Saals. Üblicherweise wird bei der Aufnahme allen Gruppen ein Stützmikrofon für je zwei Spieler zugewiesen. Sind zusätzliche Sonderinstrumente wie z. B. Englischhorn, Bassklarinette oder Kontrafagott besetzt, werden auch hierfür meist Stützmikrofone verwendet, um deren Klanganteile präsent zu beleben. Da die Blechbläser in der Regel kräftig genug spielen, kann bei guter Raumakustik manchmal auf Stützmikrofone verzichtet werden. Abb. 5/91 zeigt in einer ersten Variante eine kompakte Anordnung der Bläser. Der für das Zusammenspiel wichtige Kontakt der Musiker untereinander ist hier sehr gut. Die entfernten Seiten- und Rückwände erzeugen darüber hinaus vorteilhafte Reflexionen für die Hörner auf der linken Orchesterseite und unterstützen einen instrumententypischen Klang. Problematisch aus Sicht der Aufnahme ist das Übersprechen der Trompeten und Posaunen in die Mikrofone der Holzbläser.
5.6 Gestaltung des Klangbilds
399
In der Variante nach Abb. 5/92 ist das Übersprechen der Blechblasinstrumente in die Mikrofone der Holzbläser ebenfalls von Nachteil. Hinzu kommt, dass die Hörner direkt in Richtung der Oboen und Fagotte abstrahlen und von diesen zusätzlich bedämpft werden. Auch entsteht der unerwünschte Effekt, dass die Hörner in die Stützmikrofone der Oboen und Fagotte übersprechen.
Abb. 5/91. Anordnung der Blasinstrumente im Orchester, Variante 1.
Abb. 5/92. Anordnung der Blasinstrumente im Orchester, Variante 2.
Eine günstige Anordnung für die Aufnahme der Holzblasinstrumente zeigt Abb. 5/93. In dieser Variante ist das Blech neben den Holzbläsern aufgestellt, ein Übersprechen auf Stützmikrofone wird dadurch weitgehend vermieden. Hinter den Stufen für die Holzbläser bleibt das Podium frei, erst dahinter sind die Pauken und das Schlagzeug angeordnet. Diese Distanz zu den Holzbläsern wirkt sich positiv auf das Übersprechen aus. Wie in der Variante 1 sitzen auch hier die Hörner auf dem akustisch günstigsten Platz hinsichtlich deren Abstrahlcharakteristik und Klangfarbe.
Abb. 5/93. Anordnung der Blasinstrumente im Orchester, Variante 3.
Ferne Instrumente Gelegentlich findet man bei Kompositionen Anweisungen wie „hinter der Bühne“, „von Ferne“ oder „vorbeiziehend“. Die einfachste und oft wirkungsvollste Möglichkeit, den
400
5 Tonaufnahme und Tonwiedergabe
gewünschten akustischen Effekt zu erzielen, ist die Aufstellung der Musiker in tatsächlicher räumlicher Entfernung. Hat man die Möglichkeit, die Musiker außerhalb des Aufnahmeraums, z. B. im Foyer oder einem Nebenraum zu platzieren, erhält man durch den Öffnungswinkel der dazwischen liegenden Türen eine natürliche Regelmöglichkeit für einen variablen Entfernungs- und Lautstärkeeindruck. Setzt man Stützmikrofone für die fernen Instrumente ein, lässt sich der vor dem Regler ausgekoppelte Hallanteil für den Ferneffekt nutzen. Oft liefert auch eine Kombination der beiden Techniken ein gutes Ergebnis. Opern und Chorwerke Zu den genannten Aspekten bei Orchesteraufnahmen kommen bei großen Werken mit Chor und Gesangssolisten die Fragen der Präsenz gerade der Solisten, die Sprachverständlichkeit bei Sängern und Chor und das Klangverhältnis von Chor zu Orchester hinzu. Oft unterscheidet sich diese Darstellung deutlich von der Klangbalance der Aufführung im Saal. Die Intention einer besonders prominenten Wiedergabe des Solisten – verursacht auch durch auf die Künstler bezogene Vermarktungsstrategien – birgt nicht nur die Gefahr, mögliche Schwächen der Stimmen überproportional offen zu legen, sondern verhindert vielfach auch ein angemessenes Verhältnis der Instrumente zu den Gesangsstimmen. Wichtig ist, dass die in der Partitur vorgegebenen musikalischen Stimmverläufe nachvollziehbar bleiben. Stützmikrofone für den Chor sind wegen der Textverständlichkeit in der Regel unverzichtbar. Günstig für die Tiefenstaffelung ist es, wenn die Mikrofone im Bezug zum Hauptmikrofon verzögert zugemischt werden. Die Obergrenze im Verhältnis der Stützmikrofone zur Hauptmikrofonanordnung ist dann erreicht, wenn der Chor im Klangbild zu dicht nach vorne kommt oder die Homogenität des Chorklangs leidet, weil Einzelstimmen hervortreten. Generell können bei Chor-/Orchesteraufnahmen bessere Ergebnisse erzielt werden, wenn der Chor in Blockaufstellung singt, statt in der gemischten Aufstellung. Bei der Blockaufstellung werden Sopran, Alt, Tenor und Bass als Gruppen nebeneinander aufgestellt im Gegensatz zur gemischten Choraufstellung mit Sopran und Alt vor Tenor und Bass. Die Stützmikro fone lassen sich in der Blockaufstellung leichter zuordnen, bei Bedarf kann z. B. der Tenor gestützt werden, ohne andere Stimmengruppen anzuheben. Eine der anspruchsvollsten Aufgaben eines Tonmeisters besteht in der Aufnahme szenischer Aufführungen in einem Opernhaus. Hier muss man zunächst die Inszenierung kennen lernen und danach ein Konzept für die Mikrofonpositionen auf der Bühne und deren Anordnung auf der Stereobasis erstellen. Ziel einer guten Opernaufnahme ist die Darstellung der räumlichen Disposition, d. h., die seitlichen und in die Tiefe gehenden Wege der Solisten auf der Bühne korrekt nachzubilden. Es ist sinnvoll, nur die momentan für die Abbildung benötigten Stützmikrofone aufzuziehen. Dies hilft der Präsenz und Sprachverständlichkeit der Sänger und vermeidet andererseits das Entstehen von Kammfiltereffekten durch Übersprechen. Eine Alternative bieten Ansteckmikrofone für die Solisten, die in der Regel in der Frisur versteckt angebracht werden. Nachteilig allerdings ist die ortsfeste Position der Solisten bei der Wiedergabe, die mit dem bewegten Geschehen auf der Theaterbühne nichts mehr gemein hat. Für Fernsehübertragungen mag das noch hinnehmbar sein, die gleichbleibend nahe Wahrnehmung der Stimmen wirkt aber leicht unnatürlich und ist ermüdend für den Hörer. Eine lebendige Abbildung einer Vorstellung kann so kaum erreicht werden.
5.6 Gestaltung des Klangbilds
401
Klassik-Open Air Bei Aufführungen im Freien erzeugt eine Schallquelle praktisch keine Reflexionen und keinen Nachhall, eine Durchmischung der Instrumentalklänge auf der Bühne findet nicht statt. Daher macht der Einsatz von Hauptmikrofonen bei Open Air-Veranstaltungen meist wenig Sinn. Wenn man allerdings das Schallfeld einer Beschallungsanlage als Ersatz der Raumakustik auffasst, kann der Einsatz von Hauptmikrofonen durchaus einen wünschenswerten Effekt haben. Die musikalische Balance und die räumliche Disposition der Instrumente werden synthetisch am Mischpult erzeugt. Das Klangbild entsteht nahezu ausschließlich nach dem Einzelmikrofonverfahren mit Hilfe einer Vielzahl von Mikrofonen (siehe Kap. 5.3.6). Die eigentlich dem Dirigenten zustehende Aufgabe, für eine partiturgerechte und raumbezogene Klangbalance des Orchesters zu sorgen, geht hier nahezu vollständig auf den Tonmeister über. Daher muss die Klangvorstellung des Tonmeisters für die jeweilige Partitur besonders detailliert erarbeitet werden. Gelegentlich kann es wegen einer sehr großen Anzahl von Mikrofonen notwendig sein, dass zwei Tonmeister gleichzeitig am Mischpult arbeiten. Nicht selten arbeiten z. B. bei aufwändigen Popkonzerten die Tonmeister an mehreren Mischpulten mit geteilten Verantwortlichkeiten. Bei der Mikrofonierung eines großen sinfonischen Klangkörpers bei Oper oder Konzert werden üblicherweise Stützmikrofone mit Nierencharakteristik je Pult im Nahfeld platziert. Damit wird das Übersprechen anderer Schallquellen weitgehend vermieden. Für eine Orchesterdarbietung ist eine Größenordnung von mehr als 60 Mikrofonen keine Seltenheit. Der Einsatz von entsprechenden Hall- und Verzögerungsgeräten ist hier besonders wichtig. Die räumliche Tiefenstaffelung kann bei diesem Verfahren nur über Verzögerung der rückwärtigen Mikrofone erreicht werden. 5.6.3.3 Tiefenstaffelung innerhalb des Stereo-Klangbilds Das Klangbild und der Raumeindruck einer Orchesteraufnahme werden durch Schallinformationen über die Richtung und Entfernung geprägt. Die Tiefenstaffelung, d. h. die räumliche Darstellung von Instrumenten in ihrer Entfernung zum Hauptmikrofon, kann umso differenzierter sein, je größer die Besetzung und je größer der erwünschte hörbare Raum sein soll. Das Hauptmikrofonsystem empfängt Schall räumlich ausgedehnter Klangkörper aus unterschiedlichen Richtungen und Entfernungen. Eine natürliche Tiefenstaffelung ergibt sich bereits durch die Laufzeitunterschiede von Schallquellen mit unterschiedlichem Abstand zum Hauptmikrofon. Um die gewünschte Raumillusion bei Lautsprecherwiedergabe verwirklichen zu können, ist es erforderlich, neben dem Hauptmikrofon mehrere Stützmikrofone zu verwenden und diese mit Entfernungsmerkmalen zu versehen, z. B. mit Laufzeit- und Hallanteilen. Während der Hörer im Saal das Ohr auf ein bestimmtes Klangereignis konzentrieren kann, das ist der sog. Cocktailpartyeffekt, ist dies bei der Lautsprecherwiedergabe nur bedingt möglich. Spielt beispielsweise ein Instrument oder eine Instrumentengruppe zu schwach, muss der Tonmeister während der Aufnahme eine Korrektur der Klangbalance vornehmen. Für diese Aufgabe verwendet man bei Aufnahmen mit größeren Besetzungen Stützmikrofone. Das Pegelverhältnis zwischen Hauptmikrofon und Stützmikrofon prägt die natürliche Tiefenstaffelung wesentlich. Liegt der Pegel des Stützmikrofons etwa 6 dB unter
402
5 Tonaufnahme und Tonwiedergabe
dem des Hauptmikrofons, tritt keine Beeinflussung der Entfernungswahrnehmung ein. Muss aber das Stützmikrofon z. B. aus Gründen der Klangbalance mit einem höheren Pegelanteil zugemischt werden, besteht die Gefahr, dass das gestützte Instrument aus dem Klangbild hervortritt. Durch eine entsprechende Verzögerung dieses Signals, die mindestens der Laufzeit des Schalls für die Entfernung von der Schallquelle zum Hauptmikrofon entspricht, wird der unerwünschte Effekt gemindert. Tatsächlich entspricht der akustische Blick des Hauptmikrofons bzw. des Dirigenten auf das Orchester einem Weitwinkelobjektiv, es übertreibt die Entfernungsunterschiede zu den einzelnen Instrumenten und damit auch die Lautstärkeunterschiede verglichen mit dem akustischen Blick eines Hörers im Saal. 5.5.3.4 Wiedergabedynamik Ein schwieriges und nahezu unlösbares Problem ist die allseits befriedigende Wiedergabedynamik von Aufnahmen bei Lautsprecherwiedergabe. Die Originaldynamik von Schallereignissen aus großen Konzertsälen, Opernhäusern und Musikstudios erreicht oftmals Werte über 70 dB. Für eine adäquate Wiedergabe im Wohnraum muss diese hohe Dynamik entsprechend angepasst werden. Ist die erwünschte Wiedergabedynamik kleiner als die Originaldynamik, so wird eine Dynamikeinengung auf die sog. Programmdynamik notwendig. Diese soll so groß sein, dass ohne Änderung der Einstellung am Lautstärkeregler die Wiedergabe sowohl sehr leiser als auch sehr lauter Stellen zu Hause möglich ist. Die Wiedergabedynamik wird einerseits bei den kleinen Pegeln durch häusliche Störgeräusche wie eindringender Straßenlärm begrenzt. Für eine durchschnittliche Abhörsituation muss ein Störpegel von 35 bis 40 dB angenommen werden. Andererseits muss bei einem Mehrfamilienhaus angenommen werden, dass der Nutzpegel nach dem Wanddurchgang zum Nachbarn von diesem als Störpegel aufgefasst wird und dort somit nicht lauter als etwa 35 dB sein darf. Bei einer Wanddämpfung von 40 bis 50 dB ergibt sich dann ein maximal zulässiger AbhörSchalldruckpegel von 75 bis 85 dB. Eine sinnvolle Wiedergabedynamik liegt demnach ebenfalls bei nur 40 bis 50 dB. Siehe hierzu im Detail Kap. 19.5. Für eine gut ausgesteuerte Aufnahme, die nichts von ihrer emotionalen Wahrnehmungsqualität einbüßen soll, sind ein ausgewogenes Klangempfinden des Tonmeisters und die einfühlsame Vorwegnahme zu hoher Pegeldifferenzen während der Aufnahme gefordert. Neben der Pegelbeeinflussung am Mischpult helfen auch technische Geräte wie Kompressoren und Begrenzer große Pegelsprünge auszugleichen. Die Einstellungen der Regelkennlinien erfordern dabei einen behutsamen Umgang. Siehe hierzu ausführlich Kap. 6.2. 5.6.3.5 Wiedergabe von 5.1-Mehrkanal-Stereofonie Bei Aufnahmen für mehrkanalige Stereowiedergabe gelten grundsätzlich dieselben ästhetischen Kriterien wie für die stereofone Wiedergabe: Symmetrie der Schallverteilung über die Stereobasis, Transparenz der Klangebenen, Richtungs- und Tiefenstaffelung der Schallinformationen. Das Ziel, Musik nach den Vorgaben der Partitur in einer dem Wiedergaberaum zuträglichen Perspektive abzubilden, gilt bei den erweiterten Möglichkeiten der Mehrkanaltechnik ganz besonders. Die mehrkanalige Wiedergabe ermöglicht durch den Einsatz von Surround-Mikrofonen das natürliche Schallfeld des Aufnahmeraumes weitgehend abbilden
5.6 Gestaltung des Klangbilds
403
zu können. Daher können Schallereignisse bei entsprechender Lautsprecheranordnung aus allen horizontalen Richtungen realistisch wiedergegeben werden, siehe Kap. 5.4. Bei stereofoner Zweikanalwiedergabe finden die Klangereignisse auf der Basis zwischen den beiden Lautsprechern und dem dahinter liegenden virtuellen Raum statt. Die Richtungswahrnehmung bleibt somit begrenzt auf ein schmales zweidimensionales Band zwischen den Frontlautsprechern. Bei der mehrkanaligen Wiedergabe erweitert sich der Hörbereich über die Basis zwischen den Frontlautsprechern hinaus zu den rückwärtigen oder seitlichen Surround-Lautsprechern bei abnehmender Lokalisierungsschärfe, siehe Kap. 5.2. Die Wiedergabe einer Surround-Aufnahme über drei Frontlautsprecher links - Mitte rechts und zwei rückwärtig angeordnete Lautsprecher bezieht den Hörer in den Aufnahmeraum ein. Der Center-Lautsprecher hat überwiegend die Aufgabe, aus der Mitte kommende Schallanteile richtungsstabil abzubilden. Der sog. Effektkanal LFE als sechster Kanal der Übertragungskette in einem 5.1-System wird bei klassischer Musik nur selten z. B. für besonders tieffrequente Effekte wie die Kanonen bei der Ouvertüre 1812 von Peter Tschaikowsky, genutzt. Die Ästhetik der Musikwiedergabe muss in der Mehrkanaltechnik nach Jahrzehnten der Zweikanal-Stereofonie neu definiert werden. So ist es z. B. möglich, ein Quintett, welches üblicherweise zwischen den Frontlautsprechern abgebildet wird, über die fünf SurroundKanäle diskret zu verteilen. Auch gibt es Ansätze, ein Orchester aus der eindimensionalen Klangebene zwischen den frontalen Lautsprechern herauszulösen und konkreter in den Wiedergaberaum zu holen. Dies wird erreicht durch die Abbildung direkter Klanganteile in den Surround-Kanälen. Da die Richtungsabbildung zwischen den Seitenkanälen L-LS und R-RS allerdings nicht stabil und unscharf ist, sind der adäquaten Ortung und damit der Klangdramaturgie Grenzen gesetzt. Verwendet man eine höhere Anzahl von Kanälen für die Wiedergabe, lässt sich die Seiteninformation jedoch entsprechend genauer abbilden. Beispiele hierfür gibt es im Einzelfall; sie reichen bis hin zu 22 Kanälen. Der Aufwand für Aufnahmeund Wiedergabeeinrichtungen ist allerdings enorm. Andere Entwicklungen der Surroundtechnik beziehen die Elevationsebene mit ein und verwenden zusätzliche Lautsprecher oberhalb der Frontalebene. Diese Technik wird Surround with Heights genannt. In vielerlei Hinsicht stellen sich dieselben Fragen und Probleme beim Übergang zur Mehrkanal-Stereofonie wie in den 1960er Jahren beim Übergang von der Mono- zur Stereofonie; wie damals ist die Forderung nach Abwärtskompatibilität der Systeme ein die Entwicklung hemmender Faktor. 5.6.3.6 Neue Aspekte bei mehrkanaliger Wiedergabe Das einfachste Modell einer neuen Ästhetik ist, kleine bis mittlere Besetzungen kreisförmig wiederzugeben, beispielsweise dadurch, dass jedem Instrument oder einer bestimmten Instrumentengruppe ein eigener Wiedergabekanal zugeordnet wird. Die Praxis zeigt, dass sich damit im Bereich der Kammermusik oder der Volks- und Popmusik interessante Ergebnisse erzielen lassen. Bei dieser Klangdramaturgie spielt der Aufnahmeraum eine untergeordnete Rolle, da die Lautsprecher als Repräsentanten der Ausführenden dienen. Dieser ästhetische Ansatz funktioniert allerdings nur für Kompositionen aus jüngerer Zeit oder aus der Popund Unterhaltungsmusik. So wurden z. B. neue Werke für Streichquartett komponiert, bei
404
5 Tonaufnahme und Tonwiedergabe
denen die Komposition auf eine spezielle Form der Aufführung und auf eine mehrkanalige Wiedergabe konzipiert ist. Die Partitur schreibt hier explizit vor, wie die Instrumente bei der Aufführung im Saal zu verteilen sind. Auch Komponisten zeitgenössischer Orchesterliteratur berücksichtigen zunehmend die Surroundtechnik für die Wiedergabe ihrer Werke. Verwendet man die räumliche Orchesteranordnung jedoch für z. B. Werke der Wiener Klassik, ist diese Aufführungs- und Wiedergabepraxis nicht sonderlich geeignet. Der musikalische Kontext, sowohl in der homofonen als auch in der polyfonen Struktur, erfordert hier ein Verschmelzen des Klangs und nicht dessen analytische Zerlegung. Selbst bei kontrapunktischen Passagen wirkt dann ein Zuviel an Trennung eher störend. Ausgedehnte Klangkörper und große Orchesterbesetzungen erfordern naturgemäß einen größeren Saal für die Aufführung. Daher sollte in der Regel diese Raumakustik auch für die Lautsprecherwiedergabe vorteilhaft genutzt werden. Zusätzlich zur üblichen stereofonen Mikrofonierung für den Klangkörper werden weitere Mikrofone zur Abbildung der seitlichen und rückwärtigen Raumreflexionen verwendet. Die Richtwirkung der Mikrofone sowie deren Position im Raum sind hierbei von entscheidender Bedeutung für die Qualität der Aufnahme. Die Mehrkanalwiedergabe bietet beste Möglichkeiten, wirkungsvolle Effekte wie Ferntrompeten, Echos oder Bühnenmusiken aus unterschiedlichen Richtungen über die Surround-Kanäle überzeugend zu realisieren. Besonders deutlich kommen die Stärken der mehrkanaligen Wiedergabe auch bei Orgelaufnahmen in Kirchen zur Geltung, da hierbei der Aufnahmeraum über die Surround-Kanäle stärker in die Aufnahme eingebunden werden kann. Ein Verlust der Durchhörbarkeit im musikalischen Sinne tritt dabei nicht auf. Den eindrucksvollen Effekt räumlich verteilter Klanggruppen nutzten schon die Komponisten der Renaissance- und Barockzeit in ihren sakralen Werken. Mit Hilfe der Surroundtechnik ist heute eine Annäherung an frühe Klangideale wieder möglich. 5.6.3.7 Historischer Rückblick Die ersten Jahrzehnte nach Erfindung der mechanischen Schallaufzeichnung auf Wachswalzen im Jahr 1877 bzw. Schellackplatten 1895 waren in klangästhetischer Hinsicht gekennzeichnet durch die Aufzeichnungstechnik: Der Schall wurde durch Trichter aufgenommen und durch Schläuche einer Membran zugeleitet, an die über einen Hebelarm der Schneidstichel angekoppelt war. Die geringe Empfindlichkeit und die hohen Nebengeräusche des Systems zwangen die Musiker zu extremer Nähe zu den Trichtern; musikalische Dynamik war nicht möglich, größte Lautstärke war eine Forderung an die Musiker, ohne die keine brauchbaren Aufnahmen möglich waren. Dennoch wurden diese Aufnahmen als sensationell empfunden, weil erstmals der Künstler selbst zu hören war und nicht ein Musikautomat mit mechanischer Tonerzeugung. So war der Tenor Enrico Caruso der erste Künstler, der mit dieser Art von Aufzeichnungen größte Erfolge hatte. Sofern bei den rein mechanischen Aufnahmen überhaupt von einer Klangästhetik gesprochen werden kann, ist sie gekennzeichnet durch extreme Nähe der „Mikrofone“ und fehlende Dynamik. Eine Weiterentwicklung der Aufnahmetechnik brachte die Einführung der elektroakustischen Übertragung mit Mikrofonen und Verstärkern in den Jahren zwischen 1920 und 1930. Dadurch erweiterte sich nicht nur der Frequenzbereich von etwa 600 bis 2.000 Hz auf 100 bis 5.000 Hz, auch die nichtlinearen Verzerrungen konnten erheblich reduziert und die Dynamik
5.6 Gestaltung des Klangbilds
405
erweitert werden. Die Dynamikeinengung wurde nun zunehmend von den Musikern an die Tonmeister übergeben, die Klangbalance konnte elektrisch hergestellt werden durch Einsatz mehrerer Mikrofone. Die Nähe zur Schallquelle und die geringe Dynamik waren aber weiterhin kennzeichnend für die Aufnahmetechnik. Die nächste Entwicklungsstufe der Tonaufnahmetechnik war erreicht, als mit der Entdeckung der Hochfrequenzvormagnetisierung 1940 und der Entwicklung der Langspielplatte 1948 sowie der Einführung des UKW-Rundfunks in den 1950er Jahren die Schallaufzeichnung und nun auch die Bearbeitung der Tonaufnahmen nochmals erheblich verbessert wurden. Nun war es möglich, auch den Raum in die Aufnahmetechnik einzubeziehen, also nicht nur die Schallquellen, sondern auch den Konzertsaal zu übertragen. Als Gegenpol zur Nahfeldmethode entstand die Aufnahmetechnik mit einem einzigen reinen Druckempfänger über dem Klangkörper, die sog. one point-Technik. Das Hauptmikrofonverfahren war somit geschaffen, zunächst allerdings in Monotechnik. Nach der Einführung der Stereofonie nach 1960 entstand allmählich eine spezifische Medienästhetik. Die verbesserten klanglichen Möglichkeiten führten zu einer verfeinerten Umsetzung der Partitur und zu einer eigenen Ästhetik. Die fehlende optische Information, wie sie ein Zuhörer im Konzertsaal oder einem Opernhaus hat, wurde durch eine zunehmend ausgefeilte Klangbalance der Aufnahmen kompensiert. Mit Beginn der Digitaltechnik im Jahrzehnt nach 1970 kamen die Aspekte hoher technischer Aufnahmequalität und verlustfreier Übertragung vom Studio bis zur Heimwiedergabe hinzu. Insbesondere die Entwicklung digitaler Mischpulte und Schnittsysteme führte zu einer Perfektionierung der Aufnahme, wie sie zuvor nicht möglich war. Seitdem hat der Zeitaufwand für die Nachbearbeitung zwar zugenommen, andererseits konnte der kostenintensive Aufwand bei den Studiozeiten, insbesondere bei Orchester- und Opernproduktionen, reduziert werden. Es bleibt festzustellen, dass jüngste Erkenntnisse in Forschung und Entwicklung, insbesondere in der Psychoakustik und Rechnertechnik, die musikalische Perfektion von Aufnahmen sowie das Hörerlebnis deutlich gesteigert haben. Vielfach wird allerdings beklagt, dass diese Perfektion oft auf Kosten einer glaubhaften, ansprechenden und emotional berührenden Interpretation gehe. Eine gute Aufnahme sollte deshalb beim Hörer immer vergleichbare Empfindungen erzeugen können, wie sie im Konzertsaal erlebbar sind.
5.6.4 Klangliche Aspekte bei der Produktion populärer Musik Klangbild als Begriff und als Ergebnis einer Produktion impliziert eine statische Anordnung von Objekten, muss aber insbesondere bei populärer Musik als eine zeitveränderliche, dynamische Konstellation verstanden und behandelt werden, die manchmal auch als Klanggestaltung bezeichnet wird. Bei der Klangbildgestaltung stellt man, wie auch bei den anderen Vorgängen im Rahmen der Musikübertragung, in Rechnung, dass Musik ein Medium zur Kommunikation von Emotionen ist. Vor diesem Hintergrund folgt Klangbildgestaltung unabhängig von der Musiksparte vor allem dem Ziel der Gewichtung der Wahrnehmung musikalischer Struktureinheiten. Auf Grund verschiedener Gegebenheiten unterscheidet sich jedoch die Klangbildgestaltung von populärer Musik hinsichtlich Zielsetzungen, Prinzipien und Gestaltungsmitteln zum Teil deutlich von der Klangbildgestaltung von Kunstmusik bzw. klas-
406
5 Tonaufnahme und Tonwiedergabe
sischer Musik (siehe Kap. 5.6.3). Dass das Klangbild die Wirkung populärer Musik hinsichtlich verschiedener Aspekte mitbeeinflusst, ist wissenschaftlich belegt [Maempel, 2001, 2011]. 5.6.4.1 Rahmenbedingungen Populäre Musik und Kunstmusik unterscheiden sich historisch bedingt hinsichtlich wesentlicher Rahmenbedingungen, u.a. Instrumentarium, Aufführung, Werktreue und Werklänge. Schon eine sehr vereinfachte und verallgemeinerte Darstellung einiger Unterschiede möge hier mit Blick auf die Frage hinreichen, worin die jeweiligen klanggestalterischen Besonderheiten begründet liegen können: –– In der populären Musik haben die seit dem 20. Jahrhundert zunehmend verfügbaren elektromechanischen, elektromagnetischen, optoelektrischen und elektronischen bzw. digitalen Musikinstrumente in viel stärkerem Maße als in der Kunstmusik das traditionelle akustische Instrumentarium erweitert bzw. abgelöst. –– In viel stärkerem Maße als in der populären Musik haben sich in der Kunstmusik typische Klangkörper, Besetzungen und Aufstellungen bzw. Sitzordnungen entwickelt und etabliert. –– Dem Werk und der werktreuen Interpretation kommt in der Kunstmusik eine weitaus größere Bedeutung zu als in der populären Musik. –– Werke der Kunstmusik sind in der Regel zeitlich länger – zudem oft mehrteilig – als solche der populären Musik. Weitere Aspekte wie Originalität, Wirkungsintentionen, Kommerzialisierung und Funktionalisierungsweisen spielen zwar ebenfalls eine Rolle, bedürften aber als Unterscheidungskriterien erheblicher Differenzierungen. Zusammenfassend mag man Kunstmusik eher mit musikalisch-struktureller Vielfalt, musikalisch-struktureller Komplexität, Aufführungstradition und Werktreue assoziieren, populäre Musik hingegen eher mit klanglicher Vielfalt, klanglicher Komplexität, Mediatisierungstradition und relativer Interpretationsfreiheit. Aus den Rahmenbedingungen folgen relativ große Freiheiten in der Klangbildgestaltung populärer Musik. So ist in der Regel keine Orientierung an einer realen Aufführungssituation erforderlich. Dies betrifft sowohl die Lokalisierung von Schallquellen als auch den Raumeindruck. Auch die klangfarbliche Identität von Instrumental- und Vokalklängen muss nicht erhalten bleiben, Verfremdungen sind zulässig. Grundsätzlich darf die sekundäre Interpretation, d. h. die Einflussnahme auf die Musikaufnahme durch Tonschaffende und Produzierende mit den Mitteln der Tonregie und Klanggestaltung bzw. Audiobearbeitung, hörbar und auffällig sein – im Falle von Kunstmusik ist sie hingegen, wenigstens für den Laienhörer, unauffällig zu gestalten. Medienästhetisch greift damit das medial-autonome Ideal [Stolla, 2004], wonach die Klangbildgestaltung das musikalische Material frei und weitreichend, d. h. meist ohne zwingenden Bezug zu einer realen Aufführungssituation und einer Notenvorlage, interpretieren kann, zumal ein großer Teil populärer Musik nicht vor, sondern im Medium entsteht (siehe Kap. 6.7.3). Diese Freiheit kann zu einer besonders effektiven Unterstützung der Wahrnehmung musikalischer Struktureinheiten beitragen. Indem die Klangbildgestaltung populärer Musik also scheinbar keinen Beschränkungen unterliegt und zugleich zahlreiche hochtechnisierte Mittel der Klangbildgestaltung zur Ver-
5.6 Gestaltung des Klangbilds
407
fügung stehen, sind allgemein anerkannte Gestaltungsprinzipien schwerer zu identifizieren als im Bereich Kunstmusik. Dennoch kann man leicht feststellen, dass Einzelklänge und Klangbild weit weniger manipuliert werden, als es technisch möglich wäre. Damit ist nicht nur die im letzten Jahrhundert häufig vertretene These einer Technologieabhängigkeit des Sounds nicht plausibel, es stellt sich zudem – wie in der Kunstmusik – die Frage, welchen Gestaltungsprinzipien die Klangbilder populärer Musik folgen. 5.6.4.2 Ziele der Klangbildgestaltung Zu den Zielen der Klangbildgestaltung liegen empirische Befunde in Form von zusammengefassten Aussagen vor [Maempel, 2001, S. 49 ff.]: Befragte Musikproduzierende gaben in Interviews an, sich bei der Klangbildgestaltung an den Erwartungen des Publikums zu orientieren. Diese Erwartungen würden auf melodische, rhythmische, aktivierende und Qualitäten des Gefallens eines Musikstücks zielen. Das Klangbild sei für den ersten, entscheidenden Eindruck wichtig und würde die musikalischen Elemente gewichten. Seine Gestaltung komme einer Interpretation, unter Umständen sogar einem Arrangement gleich. Das Klangbild solle bestehende Hörgewohnheiten bedienen und das Audiomaterial an verschiedene Übertragungsqualitäten anpassen, mithin robust gegenüber Verletzungen der für das jeweilige Ziel-Wiedergabeformat optimalen Abhörbedingungen sein. Es solle ein Musikstück interessanter machen und könne zudem zeitstilbildend wirken. Generell wurde auf die Abhängigkeit des Klangbilds von der musikalischen Struktur hingewiesen. Der Einsatz von Effekten, die Schallquellenpositionierung und die räumliche Gestaltung wurden von den Befragten kaum oder überhaupt nicht thematisiert. Diesbezüglich scheint entweder von weitgehender Gestaltungsfreiheit oder aber von quasi-verbindlichen Regeln ausgegangen zu werden. Eine wesentliche Funktion der Klangbildgestaltung wird in der Gewichtung der musikalischen Elemente gesehen, Klang und musikalische Struktur können nicht voneinander getrennt werden [Boss, 1995] [Maempel, 2001]. Die Gestaltung des Klangbilds ist daher auch im Bereich der populären Musik nicht nur ein technisch-handwerklicher, sondern insbesondere ein musikalischer Prozess, der die entsprechenden Kompetenzen voraussetzt. Nicht nur die empirisch ermittelten, von Experten genannten und in den einschlägigen Ausbildungen vermittelten Zielsetzungen zeigen, dass die Klangbildgestaltung nicht beliebig ist, sondern zu einem beträchtlichen Teil funktional ist, anders als auf Grund der besonderen Rahmenbedingungen zu vermuten wäre. Demnach dient sie in erster Linie dazu, die vorhandenen musikalischen Instrumente, Elemente, Gestalten und streams erkennbar zu machen, zu schärfen, zu trennen, zu gruppieren und/oder zu gewichten (siehe Kap. 6.7.2). Diese kleinteiligeren, von den jeweiligen musikalisch-strukturellen Gegebenheiten abhängigen Ziele folgen dem Prinzip der Prägnanz. Eine mögliche, in verschiedenen Kulturen und Genres unterschiedlich ausgeprägte Zielsetzung ist die Sicherstellung der Durchsetzungskraft bzw. Dominanz bestimmter Stimmen, z. B. des Lead-Gesangs oder der Rhythmusgruppe. Als ein inhaltsunabhängiges Gestaltungsziel kann für stereofone Wiedergabeformate normalerweise die Symmetrie der horizontalen Richtungsabbildungen angesehen werden (siehe Kap. 5.6.1). Die verschiedenen Ziele und/oder die Mittel zu ihrer Erreichung sind also nicht unbedingt miteinander vereinbar, so dass Prioritäten gesetzt werden müssen.
408
5 Tonaufnahme und Tonwiedergabe
5.6.4.3 Mittel der Klangbildgestaltung Die oben genannten kognitiven, emotionalen und/oder ästhetischen Zielsetzungen können im Zuge der sekundären Interpretation nur vermittels der Einflussnahme auf grundlegendere, perzeptive Merkmale erreicht werden. Diese Merkmale umfassen Lautstärke, Dynamik, Klangfarbe, Lokalisation und Räumlichkeit, jeweils in ihrem zeitlichen Ablauf. Sie können im Rahmen verschiedener Arbeitsschritte bzw. Entscheidungen verändert werden: durch die Wahl des Aufnahme- bzw. Veranstaltungsraums (siehe Kap. 1.3 f.), die Wahl der ZielWiedergabeformate, das Führen von Tonregie, die Mikrofonierung (siehe Kap. 5), die Abmischung (siehe Kap. 6), die Nachbearbeitung bzw. das Mastering, die Wahl der Tonträger bzw. Musikmedien sowie die Wahl der Wiedergabekonfiguration und -situation. Nicht alle dieser Einflussfaktoren können, durch die an der Musikübertragung Beteiligten kontrolliert werden, insbesondere nicht die Abhörbedingungen. Die konkret zur Verfügung stehenden technischen Gestaltungsmittel sind für jeden Arbeitsschritt unterschiedlich. An die Frage ihrer Verfügbarkeit schließt sich unmittelbar die Frage an, wie sie gewählt, konfiguriert und eingestellt werden können. Auf beide Fragen wird im Detail in den oben genannten Kapiteln eingegangen. Viele Entscheidungen sind nicht frei, sondern zwingend zu treffen, weil einige Parameter im Zuge der Produktionsschritte nicht unbestimmt bleiben können – bei der Aufnahme z. B. die Mikrofonposition, bei der Abmischung z. B. die Pegelverhältnisse oder, außer bei MonoÜbertragung, die Abbildungsrichtung. Tonregie, Mikrofonierung und Abmischung sind in der populären Musik auf Grund ihres hohen klanggestalterischen Potentials von besonderer Bedeutung. 5.6.4.4 Psychologische Prinzipien Angesichts der vielfältigen Möglichkeiten stellt sich die Frage nach den Kriterien, gemäß denen die Mittel der Klanggestaltung zielführend ausgewählt, parametriert und auf bestimmte Audiosignale, Instrumente und musikalische Struktureinheiten angewendet werden können. Viele dieser Kriterien lassen sich aus Erkenntnissen über Zusammenhänge zwischen musikalischem Inhalt, akustischen Reizeigenschaften, auditiver Wahrnehmung, Erkennung und Beurteilung ableiten. Diese Zusammenhänge werden über die Musiktheorie hinaus u. a. durch die Psychoakustik, die Gestaltgesetze [Wertheimer, 1923], [Goldstein, 2002], [de la Motte-Haber, 2005], [Terhardt, 1987], die auditive Szenenanalyse [Bregman,1990] und die sog. Neue experimentelle Ästhetik [Berlyne, 1971, 1974] beschrieben (siehe Kap. 6.7.1). Auch das Konzept der musikalischen Expektanz [Huron, 2006], [de la Motte-Haber, 2013] kann mit Blick auf die durch die Klangbildgestaltung in gewissen Grenzen beeinflussbaren rhythmischen, melodischen und harmonischen Zeitverläufe und die durch sie implizierten Hörerwartungen an den weiteren musikalischen Verlauf von Bedeutung sein. Dabei geht es darum, welche Reaktionen das Unterbrechen oder das unerwartete Weiterführen erwarteter musikalischer Abläufe hervorrufen. Beispielsweise kann darauf geachtet werden, inwieweit sich Schallquellen bzw. musikalische Elemente verdecken, inwieweit sie als prägende Gestalten oder aber als diffuser Hintergrund erscheinen, inwieweit Melodielinien als kontinuierlich wahrgenommen werden, inwieweit das Klangbild aktivierende Eigenschaften wie Lautheit und ästhetische Komplexi-
5.6 Gestaltung des Klangbilds
409
tät besitzt, und inwieweit Hörerwartungen erfüllt werden. Ein wichtiges Mittel zur Trennung oder Verbindung von Elementen ist ihre räumliche Positionierung [Eargle, 1990], [Moulton, 1990]. Auf diese Zusammenhänge zurückführbar sind auch die Angaben der oben genannten befragten Musikproduzenten zu den persönlich als besonders bedeutsam erachteten klangbildgestalterischen Maßnahmen: eine feine Abstimmung der Lautstärkeverhältnisse, ein ausgewogenes Frequenzspektrum, die Aufteilung von Instrumenten und Instrumentalgruppen auf Frequenzbänder, die klangliche Vergleichbarkeit mit anderen kommerziellen Produktionen sowie gezielte Regelverstöße zur Schaffung von Alleinstellungsmerkmalen. 5.6.4.5 Experimentelle Befunde zur Klangbildgestaltung Welche gemeinsamen oder unterschiedlichen Eigenschaften Klangbilder populärer Musik konkret aufweisen, lässt sich einerseits experimentell feststellen, indem die von verschiedenen Personen anhand derselben Musikstücke vorgenommenen klanggestalterischen Maßnahmen dokumentiert und analysiert werden [Maempel, 2001]. Die folgenden Ergebnisse beziehen sich auf drei stilistisch und hinsichtlich ihrer Bekanntheit unterschiedliche Musikstücke − Techno bekannt, Pop bekannt, Pop unbekannt −, für die von insgesamt 11 Musikproduzenten mittels Abmischung und Nachbearbeitung insgesamt 24 Klangbilder gestaltet wurden. Die Analyse der dokumentierten und/oder auditiv feststellbaren Eingriffe gibt einen Einblick in die Häufigkeit, die Diversifikation und ggf. die Art des Einsatzes von Mitteln zur Klangbildgestaltung, kann aber nur begrenzt verallgemeinert werden. Mute und Fader Die vorgenommenen Stummschaltungen betrafen einzelne Ereignisse, ganze musikalische Formteile sowie wiederholte Ereignisse mit dem Ergebnis einer Veränderung des Rhythmus. Die Pegelverhältnisse zielten auf die Beeinflussung sowohl der vertikalen als auch der horizontalen musikalischen Struktur ab, also auf die grundlegende Gewichtung und den Zeitverlauf der Komponenten. Das Verfolgen musikalischer Vorgänge soll dadurch erleichtert oder ermöglicht werden. Regelverstärker, Equalizer und Effekte Diese Gestaltungsmittel im engeren Sinne wurden unterschiedlich häufig eingesetzt. Gemessen an der relativen Häufigkeit bearbeiteter Spuren ergab sich folgende Rangfolge: 1. Halleffekte (79 %), 2. Equalizer/Filter (76 %), 3. Delayeffekte (36 %), 4. Regelverstärker (26 %), 5. Sonstige Effekte (14 %). Zwischen den einzelnen Klangbildern variierten die Anteile allerdings deutlich, was Ausdruck von Präferenzen bzw. Personalstilen der Produzenten ist und demonstriert, welcher kreative Spielraum selbst nach funktionalen und professionellen Kriterien möglich ist. Im Falle des eher gesanglichen Musikstils des Poptitels wurden mehr Halleffekte, hingegen weniger Delayeffekte, Regelverstärker und Equalizer eingesetzt. Im Falle des Technotitels zeigte sich ein umgekehrtes Bild. Auch war die Diversifikation von Hall- und Delayprogrammen bei diesem technischen Musikstil höher als bei dem gesanglichen. Offenbar beruht der hörbare Abwechslungsreichtum in diesem Falle stärker auf der Klangbildgestaltung als Teil der sekundären Interpretation. Ein Vergleich der Instrumentalgruppen zeigte, dass der klanggestalterische Aufwand von der Rhythmusgruppe über die Begleitung
410
5 Tonaufnahme und Tonwiedergabe
bis hin zum Gesang zunahm. Dies lässt sich mit dem häufig größeren Retuschierungsbedarf und mit der musikalisch prominenten Stellung des Gesangs begründen, die u. a. nach Durchsetzungskraft, Sprachverständlichkeit und angenehmen Klang sowie mit Blick auf die Übertragung von Emotionen nach der Hörbarkeit u. U. kleinster Details verlangt. 87 % aller Effektprogramme wurden modifiziert und 33 % aller Effektsignale nochmals bearbeitet, meistens durch Equalizer in der Klangfarbe verändert oder mit einem weiteren Effekt versehen. Weiterhin wurden spezielle und/oder komplexe Bearbeitungen bzw. Verschaltungen vorgenommen, etwa frequenzabhängige Komprimierungen oder Fremdtriggerungen durch Nutzung von side chains bzw. key inputs (siehe Kap. 6.2.1), Effektrückkopplungen, Korrelationskorrekturen und gezielte Übersteuerung von Komponenten im Signalweg. Diese Maßnahmen sprechen, wenigstens hinsichtlich der Klangbildgestaltung mittels Effekten, gegen die These einer Preset-Kultur. Die auditive Klangbildanalyse führte zu dem Ergebnis, dass zeitgleich und/oder nacheinander nahe und ferne Abbildung, geringe und starke Verhallung, glatte und raue Sounds sowie dunkle und helle Klänge gegenübergestellt wurden. Die Gestaltung der klangbildkonstituierenden Aspekte Entfernungsabbildung, Räumlichkeit und Klangfarbe folgt also bisweilen dem Kontrastprinzip. Panoramaverteilung Für jede Spur wurde die effektive Hörereignisauslenkung im Zweikanal-Stereopanorama über die dokumentierte Stellung des Panorama-Reglers, das dazugehörige Übertragungsmaß, und den empirischen Zusammenhang zwischen Pegeldifferenz und Hörereignisauslenkung ermittelt (siehe Kap. 6.1.1). Im Ergebnis wurden ca. 38 % der Spuren ganz seitlich positioniert und ca. 27 % der Spuren mittig. Alle dazwischenliegenden Positionen waren mit einer sehr geringen Häufigkeit von 0 bis 6 % besetzt. Dabei waren die mittig positionierten Spuren fast ausschließlich Mono-Spuren, die außen positionierten, fast ausnahmslos Stereo-Spuren (Abb. 5/94), hier definiert als musikalisch oder räumlich zusammengehörige Spuren mit einer Korrelation kleiner 1, z. B. gedoppelte Spuren, mit Laufzeit- oder Äquivalenzstereofonie aufgenommene Spuren oder stereofone Grundsounds aus Synthesizern oder Samplern. Das Panorama wird also offensichtlich nicht gleichverteilt besetzt, sondern vor allem kontrastierend mittig und außen, und zwar unter Einhaltung der Symmetrie (siehe Kap. 5.6.1). Dieses Prinzip zeigte sich bei allen drei Musikstücken, wurde aber je nach Instrumentalgruppe unterschiedlich balanciert: Rhythmusspuren wurden etwas häufiger mittig, Begleitspuren etwas häufiger außen positioniert. Die Effektsignale wurden zu 90 % außen positioniert, wobei dieser Wert kaum zwischen den Musikstücken variierte. Dies ist mit der überwiegend räumlich-einhüllenden Funktion der Effekte erklärbar. Die verschiedenen Abbildungsrichtungen repräsentieren verschiedene Bedeutsamkeiten: Führende Instrumente bzw. Stimmen in der Mitte, anreichernde und einhüllende Instrumente und Effekte außen. Die Funktionen bzw. Absichten, die die kontrastierenden Abbildungsrichtungen unterstützen sollen, wurden konzeptionell auch als „direkte musikalische Aussage und Exposition“ einerseits sowie „unterstützende und oft antiphonische Rhythmik, Harmonik und Textur“ andererseits beschrieben. Die Außenpositionen würden dem Einrahmen und Beantworten dienen. Diese „räumliche Polyphonie“ reagiere robust auf ungünstige Abhörbedingungen [Moulton, 1990].
5.6 Gestaltung des Klangbilds
411
Nachbearbeitung (Mastering) Für die abschließende Gestaltung des Klangbilds im Rahmen der Nachbearbeitung ergab sich, gemessen an der relativen Häufigkeit nachbearbeiteter Abmischungen, folgende Rangfolge klanggestalterischer Mittel: Multiband-Kompression 71 %, Equalisation 58 %, Bandsättigungssimulation 46 %, Frequenzabhängige Kompression 21 %, Korrelationskorrektur 8 %. Damit bestand ein wesentliches Ziel erkennbar in der Lautheitserhöhung. Die Generalisierbarkeit auf die heutige Zeit ist insoweit begrenzt, als mittlerweile Überkompression und Lautheit an Bedeutung verloren haben, wesentlich vielfältigere und ggf. qualitativ höherwertige technische Klangbearbeitungswerkzeuge zur Verfügung stehen und elaboriertere Verfahren des Masterings, etwa die getrennte Bearbeitung von Mitten- und Seitensignalen, verbreitet Anwendung finden.
Abb. 5/94. Empirische Panoramaverteilung von Spuren bei der Klangbildgestaltung populärer Musik, aufgeschlüsselt nach Mono- und Stereospuren. Zu Grunde liegen 24 Klangbilder von drei stilistisch unterschiedlichen Musikstücken [Maempel, 2001, S. 175].
5.6.4.6 Alltagsbefunde zur Klangbildgestaltung Dass populäre Musik in einer großen stilistischen Bandbreite im Alltag leicht zugänglich ist, erlaubt es, auch aus Alltagsbeobachtungen Praktiken der Klangbildgestaltung abzuleiten und bis zu einem gewissen Grad zu generalisieren. Diese Beobachtungen sowie Einblicke in die Produktionspraxis können die empirischen Befunde bestätigen und ergänzen. Lautheit und Dynamik Kommerzielle Produktionen weisen in der Regel eine hohe Lautheit und geringe Dynamik auf, wobei die Extreme des technisch Machbaren heute nicht mehr als Zielstellung dienen (siehe Kap. 6.7.4). Sofern kultur- oder genrebedingt bestimmte Stimmen, Instrumente
412
5 Tonaufnahme und Tonwiedergabe
oder Sounds eine prominente Rolle spielen sollen, typischerweise der Lead-Gesang oder Rhythmus-Komponenten, wird die gewünschte Durchsetzungskraft häufig über eine relativ hohe, vielleicht auch zu hohe, Lautstärke sichergestellt. Diese prominenten Elemente sind dann nicht eingebettet, sondern bestimmen mitunter sogar deutlich den Pegelverlauf des gesamten Klangbilds. Neben der gewünschten Auffälligkeit will man damit auch sicherstellen, dass diese – und nicht andere – Elemente Regelvorgänge nachfolgender, nicht direkt kontrollierbarer Kompressionsschritte, z. B. im Zuge des Sendeweg-Processings, auslösen. Allerdings gilt es zu bedenken, dass Sendeweg-Processings Regelvorgänge nicht unbedingt nur auf Grund des Gesamtpegels und nicht unbedingt für das gesamte Stereosignal auslösen, sondern mehr oder weniger unabhängig für Mitte- und Seitensignale erfolgen können. Lokalisation In Übereinstimmung mit den empirischen Befunden sind Lead-Gesang, Bass sowie Kick und Snare Drum in aller Regel mittig positioniert, rahmende, antiphonische, antwortende, und/ oder gedoppelte Elemente, Delayeffekte sowie Rauminformationen in Form von Reflexionen und Diffusschall hingegen meist außen. Für Direktschalle werden in der Regel monophone bzw. kohärente Signale verwendet: Sie werden polymikrofonisch und in Nahabnahme aufgenommen und nur in Intensitätsstereofonie, niemals Laufzeitstereofonie, auf die Lautsprecherbasis verteilt. Im Falle von Drum Kits und Perkussionsinstrumenten bzw. -sounds folgt die Panoramaverteilung der einzelnen Schallquellen oft der tatsächlichen oder einer denkbaren plausiblen Aufstellung, so dass auch Zwischenpositionen und nicht unbedingt die gesamte mögliche Abbildungsbreite genutzt werden. Gemäß dem Ansatz der sog. wall of sound, d. h. verdichteter Arrangements, Besetzungen und Effekte, werden häufig dieselben Stimmen mehrfach eingespielt und die resultierenden, eher unkorrelierten Signale gleichmäßig im Panorama verteilt. Das Kontrastprinzip ist auch im Falle der Tiefenlokalisation erkennbar, denn man versucht nicht selten, große Nähe und große Ferne gleichzeitig gegenüberzustellen. Durch Ausnutzung des Nahbesprechungseffekts (siehe Kap. 4.2.1.3), starke Kompression und De-Essing (siehe Kap. 6.2.1.3) gelingt es für Gesangsstimmen in einer Art klanglichen Weiterentwicklung des Croonings, den Eindruck großer Nähe herzustellen. Das sog. Crooning ist ein in den 1920er Jahren mit der Entwicklung des Mikrofons entstandener, vorwiegend von Sängern gepflegter Gesangsstil der populären Musik., der sich durch Intimität und Wärme der Stimme auszeichnet und anfangs stark sexuell konnotiert wurde Andererseits werden mit Hilfe großer Nachhallanteile und -zeiten akustische Entfernungen nachgebildet, die deutlich über die Schallquellenentfernungen in realen Aufführungssituationen hinausgehen. Betont hallige Klangbilder werden jedoch heute auf Grund der Gefahr einer geringeren Präferenz [de Man, 2017] vermieden. Hallwolken auf Grund hoher Dynamikstufen können z. B. durch eine Kompression des Hall-Eingangssignals reduziert werden. In der Tiefendimension erleichtert das Kontrastprinzip die Figur-Grund-Differenzierung (siehe Kap. 5.6.4.4). Daher werden vor allem verteilte Schallquellen, Chöre und ‚Klangflächen‘ hinten positioniert. Binaurale Wiedergabe sowie alle Wiedergabeformate, die auf in drei Raumdimensionen aufgepannten oder aufspannbaren Lautsprecheranordnungen beruhen, darunter Ambisonics sowie mit den Attributen ‚3D‘ oder ‚immersiv‘ vermarktete Mehrkanalformate, bieten die
5.6 Gestaltung des Klangbilds
413
Möglichkeit, auch erhöhte Schallquellen abzubilden. Da diese Formate noch nicht hinreichend häufig und kaum kommerziell für die Produktion und Übertragung populärer Musik genutzt werden, haben sich noch keine Prinzipien der dreidimensionalen Klangbildgestaltung herauskristallisiert. Allerdings gibt es dazu mehr oder weniger spartenspezifische Überlegungen und Ansätze [Markart, 2019], [Ziemer, 2020]. Raumeindruck und Effekte Das Kontrastprinzip ist auch mit Blick auf den Aspekt des Raumeindrucks erkennbar, denn häufig werden, nacheinander oder gleichzeitig, mehrere Räume eingesetzt. Dies ist zudem nicht vereinbar mit einer realen Aufführungssituation. Zur Erhöhung der Durchhörbarkeit wird in diesem Zusammenhang mitunter auf eine einhüllende Funktion des Raums verzichtet, indem der Nachhall als Mono-Quelle, meist aus derselben Richtung wie das verhallte Direktsignal, abgebildet wird. Die Verzögerung von Echo-Effekten orientieren sich in der Regel am Tempo des Musikstücks. Mehrere Echo-Effekte werden zur Erhöhung der Durchhörbarkeit und der ästhetischen Komplexität oft zeitlich verschachtelt. Klangfarbe Klangfarblich sind zum einen Verfremdungen bis hin zur Unkenntlichkeit der zugrundeliegenden Stimmen, Instrumente oder Sounds zu beobachten. Zum anderen werden deren Schwerpunktfrequenzen auf verschiedene Frequenzbereiche verteilt. Mitunter werden Bandbreiten durch Filterung gezielt beschränkt, um Überlappungen zu vermeiden. Dieses Prinzip der Komplementarität zielt auf die Schaffung eines vollen Klangbilds bei gleichzeitiger Erhaltung der Durchhörbarkeit. Die Einschwingvorgänge bzw. Einsätze musikalisch wichtiger Klänge werden u. a. durch Dynamikbearbeitung, Lautstärkeerhöhung und klangfarbliche Veränderung durch Filtern und Equalizern prägnant gestaltet. Die empirischen Befunde, die hörende Analyse verfügbarer Musik und die produktionspraktischen Erfahrungen erweisen sich als weitgehend konsistent. Trotz vielfältiger Möglichkeiten auf Grund des nicht erforderlichen Bezugs auf eine Aufführungssituation, der Bedeutung und Erwartung einer sekundären Interpretation und der Vielzahl verfügbarer Gestaltungsmittel folgt die Klangbildgestaltung musikalischen, ästhetischen und technischen Zielsetzungen und orientiert sich hierfür an den Prinzipien Prägnanz, Kontrast, Komplementarität und Robustheit. Letztlich entscheiden auch ganz subjektiv die musikalische Erfahrung, die Ausdrucksabsicht, die Produktionserfahrung und das kulturelle Gespür der Musikproduzenten, die u. a. versuchen, mit den Ohren ihrer Hörerschaft zu hören, darüber, welche Eigenschaften ein optimales Klangbild im konkreten Fall ausmachen.
5.6.5 Klangliche Aspekte bei Fernsehtonproduktionen In einem audiovisuellen Medium wie dem Fernsehen hat die Kombination von Ton und Bild eine hohe produktionstechnische Relevanz für die Gestaltung der Tonmischung. Dies schließt auch eine zum Teil deutlich andere Mikrofonierung im Vergleich zu Produktionen ohne Bild wie bei Hörfunk und Schallplatte ein. Je mehr eine Produktion sich etwa dem Genre des Spielfilms nähert, desto größere Bedeutung gewinnt die Tongestaltung hinsichtlich der
414
5 Tonaufnahme und Tonwiedergabe
erzählerischen Möglichkeiten. Das sog. Sound Design, also die künstlerische Gestaltung der klanglichen Ausformung, hilft wesentlich, eine Story zu tragen, zu ergänzen, zu verstärken oder auch bewusst Gegensätze zu schaffen. Oberstes Ziel einer guten Tonmischung ist, die dramaturgische Wirkung des Bilds durch geeignete akustische Elemente zu unterstützen. Die Tonebene dient meist der Etablierung einer überzeugenden Illusion des Geschehens, sowohl bei der Live-Übertragung einer Show oder Sportveranstaltung wie auch bei einer Konzertoder Opernübertragung. Die Abbildung des Direktschalls einer Schallquelle sowie der räumlichen Attribute des Produktionsorts sollen beim Rezipienten eine emotionale Wirkung durch die Wahrnehmung hervorrufen, die vergleichbar ist der Wirkung auf den Betrachter vor Ort. Im Spannungsfeld von Ton und Bild haben sich heute dramaturgische Gestaltungsmittel in der Audiotechnik bewährt, auf deren Besonderheiten bei den verschiedenen Genres im Folgenden näher eingegangen wird. 5.6.5.1 Unterhaltung und Show Die vollkommene Bewegungsfreiheit von Darstellern, Moderatoren, Gästen sowie der Kameras setzen Fernsehregisseure heute als selbstverständlich voraus. Dabei eine ausgewogene Klangbalance zwischen der Szene und dem Publikum im Auditorium zu erreichen, ist eine große Herausforderung für die Tonregie, insbesondere bei Live-Sendungen ohne die Möglichkeit der Wiederholung. Gute Sprachverständlichkeit einerseits und ein lautes, enthusiastisches Publikum andererseits stehen oftmals zueinander im Widerspruch, wobei die Sprachverständlichkeit der Darsteller zusätzlich durch eine Beschallung häufig beeinträchtigt wird. Vor der Endmischung einer großen Show werden üblicherweise die vier Elemente Moderation und Gäste, Musik, Playback und Publikum auf getrennten Wegen vorgemischt und ggf. vorproduziert. Dadurch wird es möglich, die einzelnen Tongruppen Sprache, Live-Musik, Zuspielung und Applaus unabhängig voneinander klanglich zu bearbeiten und ausgewogen auszusteuern. Eine moderne Bilddramaturgie bei pegelintensiven Shows ist ohne drahtlose Ansteckmikrofone (Kap. 4.3) und gerichtete Handmikrofone nicht mehr denkbar. Ansteckmikrofone (Kap. 4.2.4.5) mit Kugelcharakteristik nehmen nicht nur das Nutzsignal auf, sondern auch einen großen Teil der Publikumsreaktionen und der Beschallungssignale. Der Abstand zwischen Nutzsignal und Störsignal ist deshalb klein. Sie eignen sich also mehr für ruhigere Diskussionsrunden mit wenig Publikumsgeräusch. Für große Shows sind Ansteckmikrofone mit Nierencharakteristik besser geeignet. Sie minimieren die Gefahr des Rückkoppelns, erhöhen den Nutzsignalabstand und ermöglichen eine unabhängigere Mischung. Die Positionierung des Mikrofons ist dann allerdings kritischer und bei extremen Kopfbewegungen schwankt der Nutzsignalpegel stark. In letzter Zeit findet man deshalb häufig Nackenbügelmikrofone, welche durch ihren sehr geringen Abstand zum Mund ein Signal liefern, welches relativ wenig Schall der Beschallungsanlage und wenig Applaus enthält und darüber hinaus auch eine hohe Rückkopplungssicherheit gewährleistet (Kap. 4.2.4.5). Vielfach kommen auch gerichtete Handmikrofone zum Einsatz. Sie ermöglichen dem Moderator ein schnelles Reagieren auf den Studiogast und beeinträchtigen bei Bewegungen die Mischung kaum. Als Handmikrofone können nur solche Typen verwendet werden, die weitgehend griffunempfindlich
5.6 Gestaltung des Klangbilds
415
und mit einem internen Nahbesprechungsschutz gegen Poppgeräusche ausgerüstet sind. Die bei Druckgradientenempfängern unvermeidliche Tiefenanhebung bei Nahbesprechung wird dabei bereits im Mikrofon durch akustische oder elektrische Gegenmaßnahmen kompensiert. Bei Live-Musik ist es meist kein Problem, wenn Mikrofone im Bild sichtbar sind. Unterhaltungsorchester und Popgruppen werden ausschließlich im Einzelmikrofonverfahren oder Polymikrofonie aufgenommen (Kap. 5.3.6), wobei u. U. jedes einzelne Instrument mit Hilfe spezieller Mikrofonhalterungen im direkten Nahbereich abgenommen wird. Als optisch attraktives Element werden aber auch bewusst Großmembran- und sog. Vintage-Mikrofone, also historische Mikrofone, gerne verwendet (siehe Kap. 4.2.4.4). Über ein Hilfsmischpult wird eine Vormischung des Klangkörpers erstellt, die dann als Zwei- oder Mehrkanalquelle am Hauptmischpult aufliegt. Sowohl die Mikrofonierung als auch die eigentliche Mischung weisen große Ähnlichkeiten zum Popmusik-Genre auf, wo aus vielen direkt aufgenommenen Einzelelementen ein stimmiges Klangbild erzeugt wird. Das Voll- oder Halbplayback-Verfahren kommt vielfach in Volksmusik- und Schlagersendungen zur Anwendung. Bei Vollplayback wird die gesamte Tonmischung zugespielt. Der Akteur bewegt nur noch stumm und möglichst synchron seine Lippen oder Hände für ein Instrument. Der Vorteil eines Vollplaybacks ist die fehlerfreie Wiedergabe durch den Solisten. Bei Halbplayback hingegen spielen oder singen die Solisten live, während die Instrumentalbegleitung zugespielt wird. Bei Shows in sehr großen Hallen wird bei Playback-Zuspielungen das Tonsignal für die Sendung verzögert, um die Laufzeit von den Beschallungslautsprechern zu den Mikrofonen auszugleichen und somit ein störendes Echo bzw. eine unangenehm wirkende Halligkeit zu verhindern. Diese Verzögerung des Audiosignals lässt sich ohne Verlust der Synchronität zwischen Ton und Bild ausgleichen, da auf der Videoseite immer auch Bildeffekte, sog. Digital Video Effects (DVE) zur Anwendung kommen. Sie ziehen systembedingt eine Signalverzögerung von mindestens einem Frame nach sich, entsprechend 40 ms bei einer Bildwechselfrequenz von 25 Hz oder ca. 12 m Schallweg. Die vorproduzierten Videoeffekte triggern dabei oft automatisch die Zumischung dynamischer Toneffekte. Die Mikrofonierung des Publikums für Applaus und Reaktionen gestaltet sich oft sehr aufwändig, vor allem bei Mischungen in Mehrkanal-Stereofonie. Einen einhüllenden, wirkungsvollen und gleichmäßigen Surround-Sound herzustellen mit dem Gefühl, live dabei zu sein, ist eine anspruchsvolle Aufgabe für die Klangregie. Einerseits sollen die Äußerungen des Publikums möglichst isoliert eingefangen werden, andererseits sollen individuelle Stimmen und Klatscher nicht so stark in den Vordergrund treten, ebenso wenig wie die störenden Signale von Beschallungslautsprechern. Hinzu kommt die meist viel zu große Originaldynamik im Auditorium. Zwischen dem verhaltenen Lachen eines Studiogastes und dem tosenden Applaus einer kreischenden Menschenmenge liegen nicht selten mehr als 60 dB. Wenn nun die Empfindlichkeit der Publikumsmikrofone auf die leiseren Anteile ausgerichtet sind, bringen die hohen Pegelspitzen von Applaus einen notwendigerweise eingeschleiften Kompressor derart stark zum „Pumpen“, dass das Klangbild gepresst wirkt und Kompressionsartefakte rasch hörbar werden. Eine schaltungstechnisch trickreiche Lösung besteht darin, die Applausmischung parallel dreimal dem Mischpult zuzuführen, einmal mit geringerer Verstärkung für lauten Applaus und zweimal mit höherer Verstärkung, etwa + 6 dB, für zarten Applaus oder leises Lachen.
416
5 Tonaufnahme und Tonwiedergabe
Eine dieser Mischungen wird gegenphasig über einen Expander zugemischt (Abb. 5/95). Wird das Publikum lauter, schaltet der Expander zunehmend das gegenphasige Signal durch, wodurch sich die beiden Anteile für leisen Applaus auslöschen. Bei geeigneten Schwellwerten (Thresholds) des Expanders und eines meist notwendigen Kompressors lässt sich so die Dynamik des Publikums gut kontrollieren.
Abb. 5/95. Applausschaltung zur halbautomatischen Kontrolle von dynamischen Publikumsreaktionen.
5.6.5.2 Oper Bei Opernproduktionen hat sich in den letzten Jahren vielfach eine Produktionsmethode etabliert, die bei Großaufnahmen einzelner Sänger dem Wunsch nach mehr Präsenz der Stimmen nachkommt. Die Gesangssolisten werden dabei mit Kleinstmikrofonen ausgestattet, deren Signale über Funk zur Tonregie übertragen werden (siehe Kap. 4.3). Die Mikrofone sind häufig beim Haaransatz an der Stirn angebracht und liefern einen Pegel, der unabhängig von Kopfdrehungen ist. Entscheidend bei dieser Technik ist das homogene Einbetten des sehr direkten Klangbilds der Ansteckmikrofone in das Klangbild der Rampenmikrofone, diese meist mit Supernierencharakteristik. Dabei kommen Filter und Verzögerungsgeräte zum Einsatz. Nachteil dieser Technik ist das Fehlen bzw. die eingeschränkte Verwendbarkeit der Entfernungsperspektive bezüglich der Distanz von der Bühnenkante und die Panoramaverteilung auf der Bühne, das akustische Geschehen spielt sich nahezu in einer einzigen Ebene ab. Der Vorteil ist eine deutlich höhere Bild-Ton-Kongruenz bei Nahaufnahmen der
5.6 Gestaltung des Klangbilds
417
Sänger. Man mag nun einwenden, dass das wiederum ein Problem der Bildregie darstellt. Die Praxis zeigt leider, dass eine Bildgestaltung bei dieser Art von Produktionen auf tondramaturgische Gesichtspunkte vielfach wenig Rücksicht nimmt. 5.6.5.3 Sport Sportarten, die in offenen Stadien oder Hallen stattfinden, unterscheiden sich vom tontechnischen Aufwand gesehen wenig von Unterhaltungsshows. Die bereits bekannten vier akustische Gestaltungsebenen Moderation mit Gästen, Musik, Playback und Publikum müssen in ihrer Wirkung derart zusammengefügt werden, dass wiederum eine packende und informative Sendung entsteht, die neben einem Unterhaltungswert auch einen deutlichen Reportagecharakter hat, also über Ereignisse berichtet. Darsteller beim Ton sind die meist im Off sitzenden Kommentatoren, das Bildereignis kommt vom Sportfeld, seine Audioelemente haben meist niedrigen Pegel, z. B. entfernte Spielgeräusche und Rufe. Die vorproduzierten Zuspielungen zur Erläuterung und Ergänzung des Geschehens haben ihren Ursprung überwiegend aus einer anderen akustischen Umgebung. Schließlich ist das Publikum, welches sich in der unmittelbaren Atmosphäre des sportlichen Geschehens befindet, ein weiteres Element der Tonmischung. Für die Kommentatoren werden üblicherweise Spezialmikrofone eingesetzt, die dicht am Mund positioniert sind. Sie eliminieren weitgehend störenden Umgebungsschall und zeichnen sich durch einen hohen Nutzsignalanteil aus. Als günstigste Bauform hat sich das sog. Head-Set etabliert, welches aus einem Kopfhörer für die Kommando- und Rückleitung und einem integrierten Nahbesprechungsmikrofon mit Tiefenabsenkung besteht. Auch Handmikrofone mit starker Richtwirkung und hoher Nahbesprechungsdämpfung für Popplaute werden verwendet, die zusätzlich einen speziellen Bügel am Besprechungskorb haben können, der einen konstanten Abstand zur Oberlippe garantiert. Die Spiel- und Aktionsgeräusche auf dem Sportfeld können, je nach Anzahl und Abstand der Mikrofone sowie abhängig von der Mischstrategie, mehr oder weniger präsent oder distant sein. Hier ist die Intention der Bildregie von Bedeutung, aber auch das Bildübertragungsformat mit seiner technischen Auflösungsqualität. Populäre Großaufnahmen erfordern eine entsprechend akustische Nähe, während die bei High-Definition-TV üblicheren Totalen und Halbtotalen eher nach einem weiter entfernten Ton verlangen. Beim Fußball ist eine Entwicklung zu beobachten, bei der die Geräuschanteile mit geringem Pegel auf dem Spielfeld über eine automatische Nachführung von Richtmikrofonen eingefangen werden. Dieses sog. Tracking-System zur automatischen Nachführung verwendet zur Erkennung spezielle Kamerasignale in Echtzeitauswertung. Für Zuspielungen, z. B. Verstärkung der Publikumsatmosphäre, gelten bei Sportveranstaltungen nicht die hohen Ansprüche an Synchronität, da es sich hier nicht um echte Playbacks handelt. Auf die Verzögerung des Audiosignals kann deshalb verzichtet werden. Die Zuspielungen sollten aber akustisch derart unterlegt sein, dass kein vollständiger Bruch zwischen dem originalen Schauplatz und dem Ort der Einblendung entsteht. Bei einer Sportveranstaltung in einem großen Stadion hat die akustische Atmosphäre der Umgebung einen hohen Stellenwert für die Übertragung. Idealerweise lässt sich die enthusiastische Begeisterung am besten in Mehrkanal-Stereofonie darstellen. Dies bedeutet
418
5 Tonaufnahme und Tonwiedergabe
aber wiederum einen hohen Aufwand an Mikrofonierung für einen ausgeglichenen Rundumklang. Die Stimmung von mehreren zehntausend Besuchern zu übertragen und ein akustisches Bild entstehen zu lassen von Weiträumigkeit einerseits und von filigraner Dichte am Geschehen andererseits, ist immer wieder eine Herausforderung. Bei weitläufigen Sportarten wie Skiwettbewerben, Langlaufen, Radfahren oder auch Formel-1-Rennen ist eine adäquate Tondramaturgie zum Bild deutlich schwieriger. Den unverhältnismäßig großen Zoom-Bereich moderner Kameras können selbst modernste Richtrohrmikrofone mit hoher Richtwirkung nicht nachbilden. Die häufige Verwendung von Großaufnahmen führt dann u. U. zu einem nicht mehr dazu passendem Ton und zu einem rasch sinkenden Qualitätseindruck. Für einzelne Sportarten haben sich deshalb verschiedene Konzepte herauskristallisiert, wie z. B. mobile Funkübertragungssysteme mit Hubschrauber-Relaisstationen für Audio und Video bei Radrennen oder ausgeklügelte Mikrofonstandorte bei Skisprung-Schanzentischen und Autorennen. Hauptziel der Mikrofonierung bei diesen Sportproduktionen ist, einen möglichst hohen Pegel der Spielgeräusche bzw. der Geräusche der Akteure und ihres Materials, isoliert vom Umgebungsgeräusch, zu erhalten. Dabei kommt es nicht so sehr auf die möglichst realitätsnahe Signalqualität an, sondern auf einen möglichst hohen Nutzsignalabstand. Innovative Lösungen wie das Vergraben von Kontaktmikrofonen in der Sandgrube beim Weitsprung lassen zunehmend den Begriff Sound Design für diese Arbeit zu. In diese Kategorie fällt auch die zunehmende Verwendung von vorproduzierten Geräuschen mit Hilfe von Samplern (siehe Kap. 2.2.4.4), wodurch man bei besonders schwierigen Aufnahmebedingungen, wie etwa Skifahren, eine beeindruckende akustische Nähe erzeugen kann. 5.6.5.4 Reportage, Magazin und Dokumentation Bei der Produktion dieser Programmbeiträge, die in der Regel nicht im Studio entstehen, muss sich die Mikrofonierung weitgehend an den Gegebenheiten des Schauplatzes orientieren. Hauptziel der Aufnahmetechnik ist, Sprache und Interviews so sauber wie möglich aufzunehmen, frei von jeglichen störenden Nebengeräuschen. Die bei Bedarf in der Nachbearbeitung verwendeten notwendigen Effekte und atmosphärischen Geräusche werden separat in bestmöglicher Qualität aufgezeichnet. Für eine gute Aufnahme hat sich die Verwendung eines gerichteten Mikrofons in Nierenoder Supernierencharakteristik bis hin zum Interferenz- oder Richtrohrmikrofon bewährt. Sie sind montiert in einer elastischen Mikrofonhalterung zur mechanischen Entkopplung von Griffgeräuschen (s. Kap. 4.2.1.7) und werden mit einer Mikrofonangel oder einem Galgen (Boom) geführt. Zur Unterdrückung von Windgeräuschen, auch von Bewegungswind bei schnellen Schwenks der Angel, wird entweder bei Innenaufnahmen ein Schaumstoffwindschutz oder bei Außenaufnahmen ein das Mikrofon mit einem Luftvolumen umfassender Windkorb mit Fellüberzug verwendet (siehe Kap. 4.2.1.8). Bei geschickter Führung und Platzierung der Angel mit einer Position meist schräg vor und über dem Kopf des Protagonisten mit einem Abstand von 40 bis 100 cm je nach Bildausschnitt, ergibt sich ein sehr ausgeglichenes, konsistentes Klangbild mit adäquater räumlicher Perspektive. Der Einsatz von Lavalier- oder Ansteckmikrofonen setzt sich bei Reportagen zunehmend durch (siehe Kap. 4.2.2.4). Ihrer Anwendung stehen jedoch häufig Hindernisse entgegen, z. B.
5.6 Gestaltung des Klangbilds
419
durch ungeeignetes Material der Oberbekleidung, an der sich kein Ansteckmikrofon befestigen lässt oder durch mangelnde Aussteuerungs- und Kontrollmöglichkeit, die zu Über- bzw. Untersteuerung und zu unbemerkten Störgeräuschen wie Einstreuungen, Funkaussetzern usw. bei Funkmikrofonen führen kann. Windgeräusche oder unangenehme Brustresonanzen könnten zwar in der Nachbearbeitung ausgeglichen werden, aber aus Gründen der schnellen Aktualität wird häufig darauf verzichtet. Bei der Mischung muss besonders auf die Verständlichkeit der Sprache geachtet werden, sowohl auf den Originalton wie auch auf den Kommentar. Bei der Auswahl von Musik ist darauf zu achten, dass die Frequenzverteilung nicht zu stark mit den Formanten der Sprache kollidiert. Während bei Reportagen und magazinartigen Interviews ausschließlich in Mono aufgenommen wird, ist bei Dokumentationen die Zweikanal-Stereofonie heutiger Standard. Der höhere Anteil an Szenen ohne Sprache macht diese Erweiterung sinnvoll. Atmosphären und Effekte mit großer Basisbreite, also einem Korrelationsgrad um den Wert 0, leisten einen wichtigen Beitrag für eine überzeugende Illusion, am Geschehen virtuell beteiligt zu sein. Als Universalwerkzeug hat sich hierbei das MS-Aufnahmeverfahren bewährt (siehe Kap. 5.3.2.2), mit einer Super- oder Hyperniere für das Mittenmikrofon. Dieses liefert ein gutes Mittensignal und ist somit auch für Interviews, Gespräche und dergleichen einsetzbar; zusammen mit dem S-Signal ergibt sich ein flexibles Stereo-System, welches in der Tonnachbearbeitung eine Anpassung der Basisbreite an den Bildausschnitt ermöglicht. Mit der Weiterentwicklung der digitalen Video- und Audiotechnik steigt das technische und kreative Potential für hochwertige Dokumentationen im Fernsehen. Sowohl die Bildqualität, aber auch die neuen Möglichkeiten der computerunterstützten Audiotechnik ermöglichen interessante Produktionen. Die am meisten beeindruckenden Dokumentationen sind diejenigen, die durch eine bewusste dramaturgische und kreative Verwendung von Stimmen, Musik und Geräuschen eine erzählende Einheit zusammen mit dem Bild entstehen lassen. Im Film ist die psychologische Wirkung des Tons schon lange unumstritten, im Fernsehen werden zunehmend derartig „durchkomponierte“ Werke produziert. Sie sind in der Herstellung zeitaufwändig und kostenintensiv. 5.6.5.5 Spielfilm Beim Film ist die Anforderung an eine gute Sprachverständlichkeit höher ausgeprägt als bei Dokumentationen und Fernsehspielen. Im deutschen Sprachraum sogar noch stärker als in anderen Sprachen. Dies führt zu Synchronfassungen fremdsprachiger Spielfilme, bei denen der Pegel des Dialoges tendenziell höher ist als bei der Originalfassung. Die Perfektion der tontechnischen und auch ausdrucksseitigen Qualität des Dialoges hat beim amerikanischen Mainstream-Kino zu einer Spezialisierung der Berufsbilder geführt. So gibt es z. B. den Dialog-Editor, den Automatic Dialogue Replacement-Editor und -Mixer (ADR) sowie den Dialogue Rerecording-Mixer. Der Aufwand bei diesen Arbeitsprozessen ist oft sehr hoch, insbesondere bei der Angleichung des nachträglich aufgenommenen Dialogs in der ADR-Session an den Originalton. Das Ergebnis ist ein qualitativ konstant guter, perspektivisch stimmiger und verständlicher Dialog [Yewdall, 2007], [Purcell, 2007]. Durch die Wichtigkeit der Sprache steht die Dialogvormischung in der Gesamtmischung an erster Stelle. Alle anderen Audioelemente haben sich diesem Qualitätsaspekt anzupas-
420
5 Tonaufnahme und Tonwiedergabe
sen. Auch im Film entfaltet die Tonebene ihre maximale Wirkung in der vollständigen Ausnutzung ihrer erzählerischen Kraft. Wenn die Story auch, gelegentlich sogar hauptsächlich durch den Ton erzählt wird, so stimuliert dies in besonderem Maße die Vorstellungskraft bei der Wahrnehmung. Die Gesetzmäßigkeiten des Erzählens, das sog. Storytelling, treffen beim Spielfilm in gleicher Weise zu, wie beim Roman oder Essay [Purcell, 2007], [Flückiger, 2006]. 5.6.5.6 Fernsehspiel und Sitcom Obwohl zeitweise aus der Mode gekommen, feiert das Fernsehspiel in Form der sog. Sitcom, abgeleitet von Situation Comedy, also Situationskomödie, in den letzten Jahren eine preisgünstige Renaissance. Bei der Mikrofonierung handelt es sich dabei um einen Sonderfall, der ansonsten in anderen Genres kaum mehr anzutreffen ist. Durch den hohen Anteil an Improvisation der Schauspieler ist ein individuelles Bestücken mit Ansteckmikrofonen nicht praktikabel, da eine Mehrspuraufzeichnung der Einzelsignale einen zusätzlichen, kostenintensiven Zeitaufwand in der Tonnachbearbeitung bedeuten würde. Zum Einsatz kommen daher fahrbare Mikrofongalgen, wo ein eigener Tontechniker, auf einer Plattform sitzend, mit Seilzügen die Länge des ausfahrbaren Auslegers sowie die Rotation des Mikrofons mit Nierencharakteristik steuert. In den Kopfhörer des Technikers wird eine Mischung aus dem Mikrofonsignal und etwaigen Kommandos oder Ansagen des Tonmeisters bzw. Regisseurs eingespielt. Derartige Galgen kamen früher in der Fernsehproduktion und beim Mainstream-Spielfilm häufig zum Einsatz. Heute sind sie in diesem Bereich nur noch selten auf den „Sound stages“ anzutreffen. Das am Galgen verwendete Mikrofon muss elastisch gelagert und mit einem Schaumstoffwindschutz umgeben sein. Das Abhängen von Mikrofonen ist bei Sitcoms ebenso gebräuchlich wie das Verstecken in der Szene beim Spielfilm. Die einzelnen Mikrofone werden bereits bei der Aufnahme zeitsparend zusammengemischt, um einen schnellen und effizienten Workflow in der Nachbearbeitung zu unterstützen.
Standards [EBU R 22] Listening conditions for the assessment of sound programme material, EBU-Rec., 2000, Details in EBU Tech 3276 mit suppl. 1 [EBU R 91] Track allocations and recording levels for the exchange of multichannel recording, EBU-Rec., 1998 [EBU R 96] Formats for production and delivery of multichannel programme, EBU-Rec., 2000 [ISO Rec. 1972] One-third octave band background noise level limits noise rating curves (NR), 1972 [ITU-R BS. 708] Determination of the Electro-Acoustical Properties of Studio Monitor Headphones, ITU-Rec. 1990/1997 [ITU-R BS.775-1] Multichannel stereophonic sound system with and without accompanying picture, ITU-Rec., 1992/1994 [ITU-R BS.1116-1] Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems, ITU-Rec., 1997 [ITU-R BS.1384] Parameters for international exchange of multi-channel sound recording, ITU-Rec., 1998 [ITU BS. 2026] Audio definition model, ITU-Rec., 2019
Literatur
421
[ITU-R 10C/11] Channel assignments and levels on multichannel audio media, SMPTE-Proposed Standard for Television, ITU Information doc. ITU-R 10C/11 und 10-11R/2, 1998 [SMPTE RP-173] Loudspeaker placements for audio monitoring in high definition electronic production, Rec., SMPTE N 15.04/152-300B, 1991 [SSF RP 01-E3] Listening Conditions and Reproduction Arrangements for Multichannel Stereophony, 2000 [SSF RP 02/1-E2] Multichannel Recording in 3/2 Format, 2000
Literatur [Adriaensen, 2006] Adriaensen, F.: „Near Field filters for Higher Order Ambisonics“, http://kokkinizita.linuxaudio.org/papers/hoafilt.pdf, Parma 2006 [Barron, 1981] Barron, M. und Marshall, H. A.: „Spatial Impression due to early lateral reflections in concert halls“, in: Journal of Sound and Vibration 77, 1981, S. 211ff. [Bauck, 1996] Bauck, J. und Cooper, D. H.: „Generalized Transaural Stereo and Applications“, in: J. Audio Eng. Soc. 44, 1996, S. 683ff. [Benjamin, 2005] Benjamin, E. und Chen, T.: „The Native B-format Microphone: Part I“, 119. AES Convention 2005, New York [Beranek, 2010] Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2010, Springer New York [Berkhout, 1993] Berkhout, A. J., de Vries, D. und Vogel, P: „Acoustic Control by Wave Field Synthesis”, in: Journal Acoust. Soc. Am., Vol. 93, 1993, S. 2764ff. [Blauert, 1974] Blauert, J.: Räumliches Hören. Stuttgart 1974, Nachschrift 192 und 1985 [Blauert, 2000] Blauert, J.: Räumliches Hören, 2000, Hirzel [Boone, 1995] Boone, M. M, Verheijen, E. N. G. und van Tol, P.F.: „Spatial sound field reproduction by wave field synthesis“, in: Journal Audio Eng. Soc., Vol. 43, 1995, S. 1003ff. [Boone, 2004] Boone, M. M.: „Multi-Actuator Panels (MAPs) as loudspeaker arrays for wave field synthesis“, in: J. Audio Eng. Soc, 52 (7-8), S. 712ff., 2004 [Brittain, 1956] Brittain, F. H. und Leakey, D. M.: „Two-channel stereophonic sound systems“, in: Wireless World 1956, S. 206ff. [Bruck, 1998] Bruck, J.: „Solving the surround dilemma“,in: Bericht 19. Tonmeistertagung, Karlsruhe 1996, S. 117ff., 1998, Saur [Buff, 2020] Buff, H.-M.: Überall – Musikproduktion in 3D-Audio für Kopfhörer, Ulm 2020, Ebner Media, https://www.soundandrecording.de/shop/ueberall-musikproduktion in-3d-audio-fuer-kopfhoerer [Chapman, 2009] Chapman, M. et al.: „A Standard for Interchange of Ambisonic Signal Sets”, Ambisonics Symposium 2009, Graz [Craven, 2009] Craven, P. G. et al.: „Microphone Arrays Using Tangential Velocity Sensors“, Ambisonics Symposium 2009, Graz [Dabringhaus] http://www.mdg.de/frame2.htm [Damaske, 1968] Damaske, P.: „Subjektive Untersuchung von Schallfeldern“, in: Acustica, Bd. 19, S. 199ff., 1967/68 [Daniel, 2001] Daniel, J.: „Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes reproduction“, in: J. Audio Eng. Soc., Vol. 46, S. 276ff., 1998 [Daniel, 2003] Daniel, J.: „Spatial Sound Encoding Including Near Field Effect: Introducing Distance Coding Filters and a Viable, New Ambisonic Format”, 23. AES International Conference, Copenhagen 2003
422
5 Tonaufnahme und Tonwiedergabe
[de Vries, 2000] de Vries, D., Hulsebos, E. und Bourdillat, E.: „Auralization by Wave Field Synthesis“, in: Bericht 21. Tonmeistertagung 2000, S. 121ff. [Dickreiter, 2003, 2011] Dickreiter, M.: Mikrofon-Aufnahmetechnik, 3. Aufl. 2003 mit Survival Kit, 4. Aufl. 2011, Hirzel [Edenhof, 2020] Edenhof, A.: Das Mikrofonbuch, 2020, 3. Aufl., GC Carstensen [Eargle, 1990] Eargle, J. und Streicher, R.: „Acoustical Perpectives in Commercial Two-Channel Stereophonic Recording“ in: AES 8th International Conference, Washington, 1990, S. 153ff. [Farrar, 1979] Farrar, K.: „Soundfield Microphone. Design and Development of Microphone and Control Unit“, Wireless World, Oktober 1979 [Fellgett, 1974] Fellgett, P. B.: „Ambisonic reproduction of directionality in surround-sound systems“, in: Nature Bd. 252, S. 534ff., 1974 [Fellgett, 1975] Fellgett, P. B.: „Ambisonics. Part one: General system description“, in: Studio Sound Vol. 17, 1975 [Flückiger, 2006] Flückiger, B.: Sound Design – Die virtuelle Klangwelt des Films, 2006, Schüren [Forsyth, 1992] Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur [Gernemann, 2001] Gernemann, A.: „Stereo+C: An All-Purpose Arrangement of Microphones Using Three Frontal Channels“, 110. AES-Convemtion, Amsterdam 2001, paper 5367 [Gernemann, 2002/1] Gernemann, A.: „DECCA-Tree - gestern und heute“, in: Bericht 22. Tonmeistertagung, Hannover 2002 [Gernemann, 2002/2] Gernemann, A.: „Die stereophone Perspektive – eine Definition und praktische Anwendung“, in: Bericht 19. Tonmeistertagung, Karlsruhe, 1997, Saur [Gerzon, 1973] Gerzon, M. A.: „Periphony: With-Height Sound Reproduction“, JAES Bd. 21 Nr. 1, 1973 [Gerzon, 1975/1] Gerzon, M. A.: „Ambisonics. Part two: Studio techniques“, Studio Sound Vol. 17, 1975 [Gerzon, 1975/2] Gerzon, M. A.: „The Design of Precisely Coincident Microphone Arrays for Stereo and Surround Sound“, 50. AES Convention, London 1975 [Gerzon, 1980] Gerzon, M. A.: „Practical Periphony: The Reproduction of Full-Sphere Surround“, 65. AES Convention, London 1980 [Gerzon, 1992] Gerzon, M. A.: „General Metatheory of Auditory Localisation“, 92. AES Convention 1992, Wien [Goldstein, 2002] Goldstein, E. B.: Wahrnehmung, 2. dt. Aufl., 2002, Spektrum [Griesinger, 1997] Griesinger, D.: „Spatial impression and envelopment in small rooms“, 103. AES Convention, Preprint 4638, in: J. Audio Eng. Soc., Vol. 45, S. 1013f., 1997 [Griesinger, 1998] Griesinger, D.: „General overview of spatial impression, envelopment, localization, and externalization“, in: Proceedings of the 15th International AES Conference, Copenhagen 1998, S.136ff. [Griesinger, 2000] Griesinger, D.: „The theory and practice of perceptual modeling – how to use electronic reverberation to add depth and envelopment without reducing clarity“, in: Bericht 21. Tonmeistertagung, Hannover 2000, S. 766ff. [Hamasaki, 2000] Hamasaki, K., Fukada, A., Kamekawa, T. und Umeda, Y.: „A concept of multichannel sound production at NHK“, in: Bericht 21. Tonmeistertagung, 2000 [Heller, 2008] Heller, A. J., Lee, E., und Benjamin, E.M.: „Is My Decoder Ambisonic?“, 125. AES Convention 2008, San Francisco [Heller, 2010] Heller, A. J., Lee, E., und Benjamin, E.M.: „Design of Ambisonic Decoders for Irregular Arrays of Loudspeakers by Non-Linear Optimization“, 29. AES Convention, San Francisco 2010 [Herrmann, 1999] Herrmann, U., Henkels, V. und Braun, D.: „Vergleich von 5 verschiedenen Hauptmikrofonverfahren“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 508ff., 1999, Saur
Literatur
423
[Hoeg, 1970, 1975] Hoeg, W. und Steinke, G.: Stereofonie-Grundlagen., 2. Aufl., 1975, Verlag Technik, Hoeg, W. und Wagner, K.: Stereofonie-Aufnahmetechnik., 1970, Verlag Technik [Hoeg, 1972] Hoeg, W.: „Kompatibilitätsprobleme der Zweikanal-stereofonie“,in: Techn . Mitt. RFZ 16, 1972, H.3, S. 65ff. [Holman, 2007] Holman, T.: Surround Sound: Up and Running, 2. Aufl., Focal Press, 2007 [Horbach, 1998] Horbach, U., Pellegrini, R., Felderhoff, U. und Theile, G.: „Ein virtueller Surround Sound Abhörraum im Ü-Wagen“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 238ff., 1999, Saur [Horbach, 1999] Horbach, U., Karamustafaoglu, A., Pellegrini, R., Mackensen, P. und Theile, G.: Design and Applications of a Data-based Auralization System for Surround Sound, 106. AES convention 1999, München [Horbach, 2000] Horbach, U. und Boone, M.: „Practical Implementation of Data-based Wave Field Reproduction System“, 108. AES Convention, 2000, Preprint [Hugonnet, 1998] Hugonnet, C., Walder, P.: Stereophonic Sound Recording, John Wiley & Sons, 1998 [Huron, 2006] Huron, D. B.: Sweet anticipation: music and the psychology of expectation, 2006, MIT Press [Image Assistant] Wittek, H.: Image Assistant 2.1, www.hauptmikrofon.de, https://schoeps.de/wissen/image-assistant.html [IRT] Qualitätsunterschiede zwischen Stereoaufnahmen in X/Y- und M/S-Mikrophontechnik, Akustische Informationen 3.4.-2 des Instituts für Rundfunktechnik (IRT) [Kügler, 1992] Kügler, C. und Theile, G.: „Loudspeaker reproduction: study on the subwoofer concept“, 92. AES-Convention, Preprint 3335, in: J. Audio Eng. Soc., Vol. 40, S. 437ff., 1992 [Leakey, 1960] Leakey, D. M.: „Further thoughts on stereophonic sound systems“, in: Wireless World 1960, S. 154ff. [Lipshitz 1985] Lipshitz, S. P.: „Stereo Microphone Techniques: Are the Purists Wrong?“, 78. AES Convention 1985, Anaheim [de Man, 2017] de Man, B., McNally, K., and Reiss, J. D.: „Perceptual evaluation and analysis of reverberation in multitrack music production“, in: Journal of the Audio Engineering Society, 2017, 65 (1/2), S. 108 ff. [Mackensen, 1998] Mackensen, P., Reichenauer, K. und Theile, G.: „Einfluss der spontanen Kopfdrehungen auf die Lokalisierung beim binauralen Hören“, in: Bericht 20. Tonmeistertagung, Karlsruhe 1998, S. 218ff., Saur [Maempel, 2001] Maempel, H.-J.: Klanggestaltung und Popmusik, eine experimentelle Untersuchung, 2001, Synchron [Maempel, 2007] Maempel, H.-J.: „Technologie und Transformation. Aspekte des Umgangs mit Musikproduktions- und -übertragungstechnik“, in: de la Motte-Haber, H. und Neuhoff, H. (Hrsg.): Musiksoziologie (Handbuch der systematischen Musikwissenschaft; 4), S. 160 ff., 2007, Laaber [Maempel, 2011] Maempel, H.-J. und Obara, L.: „Der Einfluß des Pre-Masterings auf die Beurteilung von Musik – Eine experimentelle Feldstudie“, in: Bericht 26. Tonmeistertagung, Leipzig 2010, S. 493 ff. [Markart, 2019] Markart, C.: Musikproduktion in Ambisonics, Masterarbeit, FH Joanneum, Graz 2019 [McKeag, 1996] McKeag, A. und McGrath, D.: „Sound Field Format to Binaural Decoder with Head Tracking“, 6th AES Australian Regional Convention 1996, Melbourne [Menzel, 2005/1] Menzel, D.: Realisierung und Evaluierung binauraler Raumsynthesen mittels Wellenfeldsynthese (Diplomarbeit), TU München, 2005 [Menzel, 2005/2] Menzel, D., Wittek, H., Theile, G. und Fastl, H.: The Binaural Sky: A Virtual Headphone for Binaural Room Synthesis, Tonmeistersymposium des VDT 2005 in Hohenkammer
424
5 Tonaufnahme und Tonwiedergabe
[Menzel, 2006] [Mertens, 1965] [Meyer, 2003] [Meyer, 2004] [Meyer, 2015] [de la Motte-Haber, 2005] [de la Motte-Haber, 2013] [Moulton, 1990] [Nettingsmeier, 2010] [Nettingsmeier, 2011] [Nousaine, 1987] [Oliveri, 2019] [Pawera, 2004] [Pellegrini, 2002] [Pesch, 2008]. [Plessas, 2009] [Pulkki, 1997] [Purcell, 2013] [Ripka, 1987] [RTM, 1981] [Rudrich, 2016] [Schlemm, 1997] [Sengpiel]
Menzel, D., Wittek, H., Fastl, H. und Theile, G.:“ Binaurale Raumsynthese mittels Wellenfeldsynthese - Realisierung und Evaluierung“, in: Tagungsbericht DAGA 2006 Braunschweig, S. 255f. Mertens, H.: „Directional hearing in stereophony theory and experimental verification“, in: Europ. Broadcasting Union Rev. Part A, 1965, 92, S. 1ff. Meyer, J.: Kirchenakustik, 2003, Bochinsky Meyer, J. und Elko, G.W.: „Spherical Microphone Arrays for 3D Sound Recording“, in: Huang, Y., Benesty, J. (Hrsg.), Audio Signal Processing for Next Generation Multimedia Communication Systems. Springer 2004, Boston, MA. Meyer, J.: Akustik und musikalische Aufführungspraxis, 6. Aufl. 2015, ppv Medien de la Motte-Haber, H. la: „Modelle der musikalischen Wahrnehmung. Psychophysik – Gestalt – Invarianten – Mustererkennen – Neuronale Netze – Sprachmetapher“, in: de la Motte-Haber, H. und Rötter, G. (Hrsg.), in: Musikpsychologie (Handbuch der systematischen Musikwissenschaft; 3), S. 55 ff., Laaber de la Motte-Haber, H., „Hörerwartung im zeitlichen Fluss der Musik. Überlegungen zum Expektanzbegriff“, in: Zeitschrift der Gesellschaft für Musiktheorie 10/2, 293 ff. Moulton, D.: „The Creation of Musical Sounds for Playback through Loudspeakers“, in: AES 8th International Conference, Washington 1990, S. 161 ff. Nettingsmeier, J.: „General-purpose Ambisonic playback systems for electroacoustic music – a practical approach“, Proc. of the 2nd International Symposium on Ambisonics and Spherical Acoustics 2010, Paris Nettingsmeier, J. und Dohrmann, D.: „Preliminary Studies on Large-scale Higher-order Ambisonic Sound Reinforcement Systems“, Ambisonics Symposium 2011, Lexington, KY Nousaine, T.: „Multiple subwoofers for home theatre“, 103. AES-Convention, Preprint 4558, in: J. Audio Eng. Soc. Vol. 45, S. 1015ff., 1997 Olivieri, F., Peters, N., Sen, D.: Scene-Based Audio and Higher Order Ambisonics: A technology overview and application to Next-GenerationAudio, VR and 360° Video, EBU Technical Review, 2019 Pawera, N.: Mikrofonpraxis, 2004, ppv medien Pellegrini, R.S. und van Zan, R.: „Vergleich gemessener Impulsantworten für die Darstellung virtueller Räume mittels Schallfeldsynthese“, in: Bericht 22. Tonmeistertagung, Hannover 2002 Pesch, P.; Laumann, K.; Theile, G.: „Untersuchung zur Lokalisation von vertikalen Phantomschallquellen“, in: Bericht 25. Tonmeistertagung, Leipzig 2008 Plessas, P.: Rigid Sphere Microphone Arrays for Spatial Recording and Holography. Thesis. 2009, Graz Pulkki, V.: „Virtual Sound Source Positioning Using Vector Bas Amplitude Panning”, in: J. Audio Eng. Soc., Vol. 45, No. 6, June 1997 Purcell, J.: Dialogue Editing for Motion Pictures, 2013, Focal Press Ripka, A. und Theile, G.: „Die Beurteilung verschiedener Stereofoner Wiedergabeeinrichtungen bezüglich der Abbildungsschärfe“, in: Fortschritte der Akustik – DAGA 1987, S. 585ff. Ausgewählte Aufsätze zum Thema Kunstkopf-Stereofonie, Sonderheft Sept. 1981 der Rundfunktechn. Mitt. Rudrich, D., Zotter, F. und Frank, M.: „Efficient Spatial Ambisonic Effects for Live Audio“, in : Bericht 29. Tonmeistertagung 2016, Köln Schlemm, W. „Musikproduktion“, in: MGG – Die Musik in Geschichte und Gegenwart, Bd. 6, Sp. 1534ff., 1997, Bärenreiter Sengpiel, E.: www.sengpielaudio.com
Literatur
425
[Simonson, 1984] Simonson, G.: Masteŕs Thesis, 1984, Lyngby, Denmark [Silzle, 1990] Silzle, A. und Theile, G.: „HDTV-Mehrkanalton: Untersuchungen zur Abbildungsqualität beim Einsatz zusätzlicher Mittenlautsprecher“, in: Bericht 16. Tonmeistertagung 1990, S. 208 ff. [Smyth, 2007] Smyth, S., Smyth, M,; Cheung, S.: „Smyth SVS headphone surround monitoring for studios”, AES 23rd UK Conference, S. 1ff., 2008 [Spikofski, 1988] Spikofski, G.: „The diffuse-field probe transfer function of studio-quality headphones“, in: EBU Review Technical No. 229, June 1988 [Stolla, 2004] Stolla, J.: Abbild und Autonomie. Zur Klangbildgestaltung bei Aufnahmen klassischer Musik 1950‑1994, 20 04, Tectum [Streicher, 1999] Streicher, R.: „The Decca Tree in stereo and surround recording”, 106. AES-Convention, Workshop Note, 1999 [Terhardt, 1987] Terhardt, E.: „Gestalt principles and music perception“, in: Yost, W. A. and Watson, C. S. (Hrsg.), Perception of Complex Auditory Stimuli, S. 157 ff., 1987, Erlbaum [Theile, 1976] Theile, G.und Plenge, G.: „Localization of lateral phantom-sources“, in: Journal Audio Eng. Soc. 25, 1976, S. 196ff. [Theile, 1980/1] Theile, G.: Über die Lokalisierung im überlagerten Schallfeld, Diss. TU Berlin, 1980 [Theile, 1980/2] Theile, G.: Untersuchungen zur Richtung und Entfernung von Phantomschallquellen bei 2-Kanal-Stereofonie, Techn. Bericht des Instituts für Rundfunktechnik (IRT) 24/80, München 1980 [Theile, 1981/1] Theile, G.: „Zur Theorie der optimalen Wiedergabe von stereofonen Signalen über Lautsprecher und Kopfhörer“, in: Rundfunktechn. Mitt. 1981, S. 155ff und Rundfunktech. Mitt., Sonderdruck, 9/1981, S. 32ff. [Theile, 1981/2] Theile, G.: „Zur Theorie der optimalen Wiedergabe stereofoner Signale über Lautsprecher und Kopfhörer“, in. Rundfunktechn. Mitt. 1981, S. 155ff. [Theile, 1983] Theile, G.: „Untersuchungen zur Standardisierung eines Studiokopfhörers“, in: Rundfunktechn. Mitt. 1983, S. 17ff. [Theile, 1984] Theile, G.: „Hauptmikrofon und Stützmikrofone – neue Gesichtspunkte für ein bewährtes Verfahren“, in: Bericht 13. Tonmeistertagung 1984, S, 170ff., Saur [Theile, 1985] Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe“. in: Bericht 13. Tonmeistertagung, München 1984, S. 112ff. Saur 1985 [Theile, 1986] Theile, G.: „On the standardisation of the frequency response of high-quality studio headphones“, in: J. of the Audio Eng. Soc. 34, 1986, S. 956ff. [Theile, 1987] Theile, G.: „Das Kugelflächenmikrofon“, in: Bericht 14. Tonmeistertagung 1986, S. 277ff., 1987, Saur [Theile, 1991] Theile, G.: „On the Naturalness of Two-Channel Stereo Sound“, in: Journal Audio Eng. Soc. 39, Nr. 10, 1991, S. 761ff. [Theile, 2000] Theile, G.: „Multichannel natural music recording based on psychoacoustic principles“, AES-Convention, 2000, Preprint 5156, supplementing handout 2000 [Theile, 2001/1] Theile, G.: „Multichannel natural music recording based on psychoacoustic principles“, AES 19th. Intern. Conference June 2001, Proceedings S. 201ff., korrigierte Version: www.irt.de/wittek/hauptmikrofon/theile/Multich_ Recording_30.Oct. 2001_.PDF [Theile, 2001/2] Theile, G.: „Multichannel Natural Music Recording Based On Psychoacoustic Principles“, AES-Preprint 5156, 2001, ergänzte Version: www.irt.de/IRT/indexpubli.htm [Theile, 2002] Theile, G., Wittek, H., Reisinger, M.: „Wellenfeld-Synthese-Verfahren: Ein Weg für neue Möglichkeiten der räumlichen Tongestaltung“, in: Bericht 22. Tonmeistertagung, 2002 [Theile, 2012] Theile. G. und Wittek, H.: „3D Audio Natural Recording”, in: Bericht 27.Tonmeistertagung, 2012
426
5 Tonaufnahme und Tonwiedergabe
[Theile, 2016] [Ward, 2001] [Weissgerber, 2009]. [Werner, 2018] [Wertheimer, 1923] [Wiggins, 2007] [Wittek, 2006] [Williams, 1987] [Wittek, 2000] [Wittek, 2002] [Wittek, 2004] [Wittek, 2007] [Wittek 2012] [Wittek, 2016] [Wöhr, 1991] [Wuttke, 1993] [Yewdall, 2007] [Zacharov, 1998] [Zaunschirm, 2018] [Zieglmeier, 1996] [Ziemer, 2020] [Zotter, 2010] [Zotter, 2012]
Theile. G.: „Equalization of studio monitor headphones”, AES Conference Paper, Aalborg, 2016 Ward, D.B. und Abhayapala, T.D.: „Reproduction of a Plane-Wave Sound Field Using an Array of Loudspeakers“, IEEE Transactions on Speech and Audio Processing, Bd. 9 Nr. 6, Sept. 2001 Weissgerber, T.; Laumann, K.; Theile, G.; Fastl, H.: „Headphone Reproduction via Loudspeakers using Inverse HRTF-Filters”, in: Proceedings NAG/DAGA 2009, S. 1291ff., Rotterdam Werner, S.: „Über den Einfluss kontextabhängiger Qualitätsparameter auf die Wahrnehmung von Externalität und Hörereignisort“. Diss. Ilmenau 2018 Wertheimer, M.: „Untersuchungen zur Lehre von der Gestalt. II“, in: Psychologische Forschung, 1923, 4, S. 301 ff. Wiggins, B.: „The Generation of Panning Laws for Irregular Speaker Arrays Using Heuristic Methods“, 31. AES International Conference 2007, London Wittek, H., Haut, C., Keinat, D.: „Doppel-MS – eine Surround-Aufnahmetechnik unter der Lupe“, Bericht 24. Tonmeistertagung 2006, Leipzig Williams, M.: „Unified theory of microphone systems for stereophonic sound recording“, 1987, AES-Preprint No. 2466 Wittek, H. und Theile, G.: „Investigations into directional imaging using L-C-R Wittek, H. und Theile, G.: „The recording angle – based on localisation curves“, 112. AES-Convention, 2002, paper 5568 Wittek, H.: „Bericht zum Workshop „Wellenfeldsynthese“ im „Forum Neues Musiktheater“ der Staatsoper Stuttgart“. in: VDT-Magazin 3/2004, S. 36ff. stereo microphones“, in: Bericht 21. Tonmeistertagung 2000, S. 432ff. Wittek, H.; Rumsey, F.; Theile, G.: “Perceptual Enhancement of Wavefield Synthesis by Stereophonic Means”, in: J. Audio Eng. Soc., Vol. 55, No. 9, 2007 Wittek, H.: „Mikrofontechniken für Atmoaufnahme in 2.0 und 5.1 und deren Eigenschaft“, in: Bericht 27.Tonmeistertagung, 2012, Köln Wittek, H. und Theile, G.: „Die Anwendung eines stereofonen Mehrkanalverfahrens für 3D-Audio und VR“, in: Bericht 29. Tonmeistertagung 2016, Köln Wöhr, M., Theile, G., Goeres, H.-J. und Persterer, A.: „Room-related balancing technique: a method for optimising recording quality“, in: J. Audio Eng. Soc., Vol. 39, S. 623ff., 1991 Wuttke, J.: „Zwei Jahre Kugelflächenmikrofon“, in: Bericht 17. Tonmeistertagung 1992, S. 832ff., 1993, Saur Yewdall, D. L.: Practical Art of Motion Picture Sound, 3. Aufl. 2007, Focal Press Zacharov, N., Bech, S. und Meares, D.: „The use of subwoofers in the context of surround sound program”, in: BBC Research and Development, Report 1998 Zaunschirm, M., Schörkhuber, C. und Höldrich, R.: „Binaural rendering of Ambisonic signals by head-related impulse response time alignment and a diffuseness constraint“, Jour. Ac. Soc. Am. 143, 3616, 2018 Zieglmeier, W. und Theile, G.: „Darstellung seitlicher Schallquellen bei Anwendung des 3/2 Formates“, in: Bericht 19. Tonmeistertagung 1996, S. 159ff., 1997, Saur Ziemer, T.: Psychoacoustic music sound field synthesis: Creating spaciousness for composition, performance, acoustics, and perception, 2020, Springer Zotter, F., Noisternig, M. und Pomberger, H.: „Ambisonic Decoding with and without Mode-Matching: A Case Study Using the Hemisphere“, Proc. of the 2nd International Symposium on Ambisonics and Spherical Acoustics 2010, Paris Zotter, F. und Frank, M.: „All-Round Ambisonic Panning and Decoding“, JAES Bd. 60, Nr. 10, 2012
6 Klanggestaltung Hans-Joachim Maempel Klanggestaltung bezeichnet die technische Bearbeitung von Audiosignalen mit dem vornehmlichen Ziel der Beeinflussung der Ausprägung klanglicher bzw. musikalischer Wahrnehmungsmerkmale, insbesondere Lautstärke, Klangfarbe, Lokalisierung, Raumeindruck und Tonhöhe, sowohl im zeitlichen Verlauf als auch in der Gewichtung zwischen verschiedenen Schallquellen bzw. Instrumenten. Klanggestalterische Maßnahmen werden in vielen Stufen der Audioübertragungskette vorgenommen und können dabei verschiedene technische, künstlerische und hörpsychologische Zielsetzungen verfolgen. Im Zuge der Weiterentwicklung der digitalen Signalverarbeitung hat sich die Palette klanggestalterischer Werkzeuge deutlich vergrößert. Die Werkzeuge der Klanggestaltung sind heute als analoge und digitale Hardware-Geräte, als Software-Anwendungen, als Plug-ins, also Software-Komponenten mit standardisierten Schnittstellen, als Kombinationen von Hardware und Plug-ins ausgeführt oder auch in Regieanlagen integriert. Die digitale Realisation bietet bei vielen Bearbeitungsmitteln eine höhere Audio-Qualität und in der Regel den Vorteil der genauen numerischen oder grafischen Darstellung, Speicherung, Wiederherstellbarkeit und ggf. dynamischen Automation der Einstellungen. Auch für eine Bedienung in der virtuellen Realität gibt es Ansätze. Zu Details zur digitalen Tonverarbeitung siehe Kap. 13.1. Im Bereich der Klanggestaltung haben sich, so wie in der digitalen Tontechnik in hohem Maße auch, in der täglichen Praxis englischsprachige Fachausdrücke etabliert; sie werden neben den deutschen Ausdrücken aufgeführt, siehe dazu auch in Band 2 den Anhang Fachwörter und Abkürzungen Englisch - Deutsch.
6.1 Abbildungsrichtung und Abbildungsbreite Die Erkennung der Richtung und Entfernung von Schallquellen bezeichnet man als Lokalisierung. Bei natürlichen Schallquellen wertet das Gehör zur Gewinnung dieser Ortsinformation Pegel, Zeitpunkte und Frequenzspektren sowohl des Direktschalls als auch der frühen Reflexionen und des Nachhalls aus. Die Ausprägung dieser physikalischen sog. cues an einem Ohr und deren Differenz zwischen den beiden Ohren hängen von der Schalleinfallsrichtung ab (siehe Kap. 3.4 und 5.2). Bei der zwei- oder mehrkanalig stereofonen Wiedergabe von Schallereignissen hingegen geht diese Richtungsveränderlichkeit fast vollständig verloren, da die Anzahl der Schall einfallsrichtungen auf die Anzahl der Wiedergabekanäle bzw. Lautsprecher beschränkt ist. Dennoch ist die Lokalisierung nicht auf die Lautsprecherpositionen reduziert: Sie kann sowohl in größerer Entfernung hinter den Lautsprechern als auch aufgrund des Phänomens der Phantomschallquellen im Falle kohärenter Signale zwischen den Lautsprechern erfolgen (siehe Kap. 5.2.1). Die rein auditiv wahrgenommene Distanz einer Klangquelle hinter den Lautsprechern hängt wie im natürlichen Schallfeld von der Lautstärke, dem Frequenzspektrum und dem https://doi.org/10.1515/9783110759921-006
428
6 Klanggestaltung
Zeit- und Pegelverhältnis von direktem und reflektiertem Schall ab [Nielsen, 1993], [Bronkhorst 1999, 2002]. Ihre Festlegung erfolgt meist mit den Mitteln der Mikrofonierung und der Raumsimulation durch Hallgeräte. Die Abbildungsrichtung kann hingegen vergleichsweise einfach durch die Erzeugung einer Pegeldifferenz bei der sog. Intensitätsstereofonie und/ oder Zeitdifferenz bei der sog. Laufzeitstereofonie zwischen den Wiedergabekanälen erreicht werden (siehe Kap. 8.8). Regler – genauer gesagt Steller −, die entsprechende Differenzen erzeugen, werden als Panorama-Potentiometer oder kurz Pan-Pot bezeichnet. Bei bereits stereofon aufgenommenen Klangquellen erfolgt die Richtungszuweisung durch einen BalanceRegler, der nur Differenzen der Übertragungsmaße verursacht. Auch die Abbildungsbreite wird mit technischen Mitteln zu beeinflussen versucht. Zu diesem Zweck wird die Gewichtung von gleich- und gegenphasigen Signalanteilen verändert. Eine dynamische Regelung der Abbildungsbreite in Abhängigkeit von Signaleigenschaften bieten Stereoprozessoren.
6.1.1 Panorama-Potentiometer und Balanceregler Mit einem Panorama-Potentiometer oder kurz Pan-Pot wird bei stereofoner Übertragung die Abbildungsrichtung einer Klangquelle zwischen den Lautsprechern festgelegt (siehe auch Kap. 8.8.1). Dazu wird das psychoakustische Phänomen der Wahrnehmung von Phantomschallquellen ausgenutzt (siehe Kap. 5.2.1). Obwohl sowohl Pegel- als auch Zeitunterschiede die gewünschte Auslenkung einer Phantomschallquelle aus der Mitte der Lautsprecherbasis bewirken, werden Zeitdifferenzen in den meisten Fällen nicht zur Panoramaregelung eingesetzt, da ein so erzeugtes Stereosignal eine geringere Monokompatibilität aufweist, die sich in kammfilterbedingten Klangverfärbungen der Monosumme zeigt. Das Pan-Pot war und ist daher vor allem ein Werkzeug der sog. Intensitätsstereofonie. Ein Panorama-Potentiometer besitzt einen Eingang und zwei oder mehr Ausgänge entsprechend der Anzahl stereofoner Kanäle (Abb. 6/1). Das monofone Eingangssignal wird mit einer einstellbaren Pegeldifferenz auf die stereofonen Kanäle aufgemischt. Digital lässt sich dieselbe Funktion durch eine gegensinnige Gewichtung der Amplitudenwerte erreichen. Die Pegeldifferenz zwischen den Kanälen erzeugt eine seitliche Auslenkung Δa der Phantomschallquelle aus der Mitte der Lautsprecherbasis a (Abb. 6/2). Die Auslenkung kann in relativen Längeneinheiten, z. B. in % einer halben Lautsprecherbasis a/2 in der Horizontalebene, oder als Horizontal- oder Azimutalwinkel φ ausgedrückt werden (Abb. 6/2). In diversen Lokalisierungsversuchen wurde der Zusammenhang zwischen Pegeldifferenz und Hörereignisauslenkung bei Zweikanal-Stereofonie empirisch ermittelt. Aus denjenigen Tests, die mit breitbandigen Signalen durchgeführt wurden, können durch Bildung des Mittelwerts die in Tab. 6/1 genannten Richtwerte abgeleitet werden. Damit Reglerstellung und Hörereignisauslenkung übereinstimmen, müssten diese Pegeldifferenzen bei den entsprechenden Reglerstellungen wirksam werden. Allerdings muss unter der Annahme unkorrelierter Ohrsignale die Leistungssumme der beiden Lautsprecher bzw. Kanäle konstant bleiben, soll die Lautstärke nicht mit der Richtung variieren. Diese Vorgabe wird durch eine Mittendämpfung von 3 dB und einen cosinus- bzw. sinusförmigen Verlauf der Verstärkungsfaktoren der Panoramakanäle erfüllt (Abb. 6/3). Dabei ist die Spannungssumme für die Mittenposition 3 dB höher als für die Außenpositionen.
6.1 Abbildungsrichtung und Abbildungsbreite
429
Abb. 6/1. Pan-Pot für Zweikanal-Stereofonie: Regler, Schaltungssymbol und -prinzip.
Abb. 6/2. Hörereignisauslenkung in der standardisierten Zweikanal-Stereoaufstellung.
Die für die Leistungssummen optimierten Panoramakurven bedingen jedoch Pegeldifferenzen, die deutlich von den empirisch optimalen gemäß Tab. 6/1 abweichen können, und zwar nicht nur in den Außenbereichen, sondern bereits bei Reglerstellungen um 50 %. Die
430
6 Klanggestaltung
gepunkteten Linien in Abb. 6/3 zeigen jeweils das Soll-Übertragungsmaß eines Kanals für richtige Lokalisierung, das sich aus der empirisch optimalen Pegeldifferenz und dem für die Leistungssummen optimierten Ist-Übertragungsmaß des anderen Kanals ergibt. Idealerweise wäre aus der Schar von Kurven mit konstanter Leistungssumme daher diejenige mit der größten Übereinstimmung von Ist- und Soll-Übertragungsmaß auszuwählen (Kurve 2). Tab. 6/1. Richtwerte für den Zusammenhang von Pegeldifferenz ΔL und Hörereignisauslenkung Δa. ΔL [dB] Δa [%]
0 0
1,5 12,5
3 25
4,5 37,5
6 50
8 62,5
11 75
14 87,5
20 100
Abb. 6/3. Verläufe von Übertragungsmaßen für Pan-Pots mit konstanter Leistungssumme (durchgezogen) und von sich daraus ergebenden Soll-Übertragungsmaßen hinsichtlich Lokalisierungsrichtigkeit (gepunktet). Die mittlere Funktion (2) zeigt die beste Übereinstimmung beider Kriterien. Für sie gilt auch die dargestellte Spannungssumme (2).
In der Praxis zeigen die tatsächlichen Charakteristiken der Panoramaregler von Mischpulten allerdings recht unterschiedliche Verläufe. In der Regel nimmt die Pegeldifferenz mit der
6.1 Abbildungsrichtung und Abbildungsbreite
431
Reglerstellung zu den Seiten hin schneller zu als gemäß Tab. 6/1. Daher ist es für ein schnelles, zielgerichtetes und zuverlässiges Arbeiten sinnvoll, die Charakteristik der verwendeten Panoramaregler zu kennen, auch wenn die Kontrolle der Richtungszuweisung in der Praxis vornehmlich nach Gehör erfolgt. Bei mehr als zwei stereofonen Wiedergabekanälen ergeben sich mehrere Lautsprecherbasen. Zum Beispiel im Falle von 5.x-Übertragung durch den zusätzlichen Center-Kanal zwei Basen im vorderen Bereich und durch die zusätzlichen Surround-Kanäle zwei seitliche Basen und eine hintere Basis. Auf allen Basen entstehen Phantomschallquellen, wobei seitliche und hintere wesentlich unschärfer und unzuverlässiger lokalisiert werden als vordere. Die Panoramaregelung für den vorderen Bereich zwischen links und rechts erfolgt im Beispielfall unter Einbeziehung einer realen Schallquelle in Form des Center-Lautsprechers. Auch hierbei sind verschiedene Dämpfungskurven denkbar, die sich an der Leistungssumme, dem Lokalisierungsverlauf oder anderen Kriterien orientieren [Neoran, 2000], [Craven, 2003]. Auf der Suche nach einem Optimum wird auch mit gegenphasigen Signalen gearbeitet (Abb. 6/4, links). Mit dem Parameter Divergenz kann stufenlos eingestellt werden, inwieweit Schallquellen im mittleren Bereich als Phantomschallquelle, also ohne Center-Kanal, dargestellt werden. Bei manchen Panorama-Sektionen ist die grundsätzliche Dämpfung des Mittenkanals einstellbar. Für die Lokalisierungsrichtungen vorne/hinten ist entweder ein gesonderter Pan-Pot vorhanden, oder die Panoramaregelung erfolgt für beide Flächendimensionen durch einen Joystick.
Abb. 6/4. Links: Nach mehreren perzeptiven Kriterien optimierter Verstärkungsverlauf für drei vordere Lautsprecher in 30°‑Anordnung [Gerzon, 1992]. Bei negativ dargestellten Verstärkungswerten wird das Signal invertiert. Rechts: Verstärkungsverlauf mit konstanter Leistungssumme für dieselbe Lautsprecheranordnung.
Viele Mehrkanal-Panoramasysteme bieten eine Visualisierung der eingestellten Panoramaposition. Dabei wird die Schallquelle als Punkt auf einer von den Lautsprechern umstellten Fläche bzw. einem Raumvolumen gezeigt. Diese Form der Darstellung ist insoweit irreführend, als die Lokalisierung nur für den Sweet Spot, also den optimalen Abhörort, richtig ist, seitlich allenfalls instabile Phantomschallquellen entstehen können und eine Lokalisierung von Phantomschallquellen innerhalb der Fläche bzw. des Raums im Grunde nicht möglich ist,
432
6 Klanggestaltung
weil die entsprechenden Lautsprecherbasen (z. B. links vorne – rechts hinten) zu nah am Hörer verlaufen. In einigen großen Audioproduktionskonsolen oder spezialisierten Plug-ins finden sich Panoramaregler, die neben Pegel- auch Zeit- und Spektraldifferenzen erzeugen können, ggf. kombiniert. Ein unter der Bezeichnung Virtual Surround Panning vermarktetes Panoramasystem generiert zusätzlich richtungsabhängige Muster früher Reflexionen sowie optional einen abgestimmten Nachhall direkt im Mischpult [Horbach, 1998]. Im Zuge der Etablierung von Wiedergabeformaten, die Decken- oder Top-Surround-Lautsprecher vorsehen (siehe Kap. 5.4.5), können auch erhöhte Schallquellen abgebildet werden. Die vertikale Hörereignisauslenkung kann entweder in relativen Längeneinheiten, z. B. in % einer vertikalen Lautsprecherbasis, oder als Elevationswinkel θ ausgedrückt werden. Werkzeuge zur vertikalen Schallquellenpositionierung beruhen auf denselben technischen Prinzipien, die für die Positionierung in der Horizontalebene angewendet werden. Allerdings sind die psychoakustischen Mechanismen vertikaler Schallquellenlokalisierung, die ausgenutzt werden können, wesentlich komplexer. Denn die interauralen Pegel- und Zeitdifferenzen des Direktschalls verringern sich mit einer Elevation der Schallquelle und werden in der Medianebene null. Daher sind die Güte der verbleibenden spektralen cues und die Rolle der Eigenbewegung − Kopfdrehung und ‑neigung − auch aktuell noch Gegenstand der Forschung, wobei typischerweise deren Effekt auf die Lokalisierungsschärfe, die Lokalisierungsrichtigkeit und das Auftreten von vorne-/hinten- bzw. Ooen-/unten-Vertauschungen von Interesse sind [Jiang, 2019]. Da Mehrkanal-Panoramasysteme auf Modellen der Schallausbreitung sowie ggf. Schallwahrnehmung basieren und nicht immer situationsspezifisch genau passende cues erzeugen können, sollte für eine anspruchsvolle Vermittlung realer räumlicher Verhältnisse erwogen werden, die geeigneten Pegeldifferenzen, Laufzeitdifferenzen und Reflexionen möglichst schon mit den Mitteln der Aufnahmeverfahren bzw. ihrer Mikrofonierung herzustellen, sofern die Aufnahmebedingungen es erlauben. Bei bereits zweikanal-stereofon codierten Signalen erfolgt die Richtungseinordnung nicht mit einem Pan-Pot, sondern einem zweikanaligen Balanceregler, der die Pegel beider Eingangskanäle gegensinnig variiert und dadurch die Lokalisierungsrichtung und/oder das Lautstärkeverhältnis der Seiten verschiebt. Laufzeit- und Spektraldifferenzen kommen dabei nicht zum Einsatz. Die getrennte Verarbeitung der Kanäle durch den Balance-Regler positioniert vollständig oder teilweise laufzeitstereofon codierte Signale grundsätzlich außen, da deren Einengung durch Panoramaregler und damit deren Mischung Kammfiltereffekte verursachen würde (siehe Kap. 6.6.3). Die Abbildungsbreite zweikanal-stereofoner Signale kann mit dem Parameter „width“ geregelt werden. Dabei wird eine Einengung der Stereobreite durch eine Zumischung der vertauschten Kanäle erreicht, eine Stereoverbreiterung durch eine Zumischung der invertierten vertauschten Kanäle (siehe Kap. 6.1.2). Dieser Vorgang ist nur für nicht-laufzeitstereofone Signale ohne klangfarbliche Beeinträchtigung möglich. Der Einsatz von Spektraldifferenzen, gleich ob durch entsprechende Aufnahmeverfahren wie Trennkörperstereofonie und Kunstkopfstereofonie oder rechnerisch durch Audiobearbeitung erzeugt, folgt der Idee einer Annäherung an physikalisch korrekte Ohrsignale und stellt keine rein stereofone, sondern eine partiell oder vollständig binaurale Codierung dar. Es sollte daher stets kritisch geprüft werden, inwieweit Spektraldifferenzen für die Schaf-
6.1 Abbildungsrichtung und Abbildungsbreite
433
fung einer Illusion natürlicher Abbildung mittels Stereofonie und Lautsprecherwiedergabe überhaupt ein geeignetes Mittel sind. In Tonproduktionen, die ausschließlich für Kopfhörerwiedergabe bestimmt sind, kann der Einsatz von Plug-ins für eine dreidimensionale Panoramaregelung sinnvoll sein. Die binauralen Lokalisierungscues, also auch Spektraldifferenzen, werden durch Filterung mit den richtungsabhängigen Außenohrübertragungsfunktionen (HRTFs) wählbarer Kunstköpfe generiert. Außerdem können frühe Reflexionen und Nachhall sowie Dopplereffekte erzeugt werden. Ein Problem besteht dann, wenn die Übertragungsfunktion des Wiedergabe-Kopfhörers nicht bekannt ist, weil dann deren erforderliche genaue Kompensation kaum möglich ist. Die akustische Positionierung folgt bei bildbezogenen Audioinhalten und Kunstmusik in der Regel den optischen bzw. realen Positionen der Schallquellen im Bild oder im Aufführungsraum. Dies gilt nicht für Popularmusik, bei der die Positionierung häufig der Bedeutsamkeit der Klangquelle und dem Kontrastprinzip folgt [Maempel, 2001]. Die Genres Hörspiel, Klangkunst und elektroakustische Musik schließlich erlauben völlige künstlerische Freiheit hinsichtlich der räumlichen Einordnung der Klangquellen.
6.1.2 Richtungsmischer, Stereobreitenregler und Stereo-Enhancer Mit dem Richtungsmischer, auch als Summen-Differenzübertrager oder Stereo-Matrix bezeichnet, können bei reiner Intensitäts-Stereofonie MS- und XY-Signale ineinander überführt werden. Man bezeichnet dies als Stereo-Umsetzung. Die beiden Ausgangssignale werden durch Regelung und Summen- bzw. Differenzbildung der Eingangssignale (Abb. 6/6) sowie Dämpfung um 3 dB erzeugt. Richtungsmischer sind in Mischpulte integriert, um Aufnahmen in MS-Stereofonie zu vereinfachen, oder als Stand-alone-Geräte (Abb. 6/5) verfügbar. In der Regel ist die Codierung des Eingangssignals zwischen MS und XY umschaltbar, wobei im Folgenden für den einstufigen Richtungsmischer von einer vorliegenden MS-Codierung ausgegangen wird. Einstellbar sind außerdem die Parameter Abbildungsbreite (base) und Abbildungsrichtung (direction). Zum Richtungsmischer siehe auch Kap. 8.8.2.
Abb. 6/5. Richtungsmischer, Schaltungssymbol.
434
6 Klanggestaltung
Durch die Veränderung des Verhältnisses von M- und S-Signal wird das Verhältnis von gleichund gegenphasigen Anteilen im stereofonen Signal verschoben und damit – sofern beide Komponenten vorhanden sind – der Korrelationsgrad (siehe Kap. 5.3.7 und 19.4.3.3), mit dem die wahrgenommene Abbildungsbreite zusammenhängt. Für sie bezeichnet der Wert 0 % ein Mono-Signal, also nur M-Anteil, der Wert 100 % die originale Breite des Stereosignals, also M- und S-Anteil, und Werte größer als 100 % eine Überbreite, also überwiegend oder nur S-Anteil. Bei überbreiten Einstellungen besteht die Gefahr des Verlustes mittiger und/oder eindeutiger Lokalisierung. Im Normalfall wird der S-Kanal mit dem reinen S-Signal gespeist, die Abbildungsrichtung ist dann mittig. Sie kann mit dem gleichnamigen Regler zur Seite verschoben werden: nach links, indem dem S-Kanal ein Gemisch aus S-Signal und M-Signal zugeführt wird, oder nach rechts, indem dem S-Kanal ein Gemisch aus dem S‑Signal und dem invertierten M-Signal zugeführt wird. Dabei bestimmt das Mischungsverhältnis der M- und S-Komponente die Größe der Auslenkung, mit der sich auch die Abbildungsbreite verringert. An den Außenpositionen wird also die Monosumme hörbar, im Unterschied zur Balance-Regelung gemäß Kap. 6.1.1, bei der außen nur jeweils ein Stereo-Kanal erscheint.
Abb. 6/6. Prinzipschaltbild des aktiven Richtungsmischers.
Da die Stereoumsetzung umkehrbar ist, kann die Regelung von Abbildungsbreite und ‑richtung auch für stereofon codierte Signale erfolgen, indem zwei Stereo-Matrizen für die LR/ MS/LR-Umwandlung hintereinandergeschaltet werden. Das sich so ergebende universelle Werkzeug für die Regelung der Stereobreite (width), das als eigenständiges Gerät, als Plug-in oder als Teil der Panorama-Sektionen von Mischpulten ausgeführt sein kann, ist heute weitaus gebräuchlicher als der klassische einstufige Richtungsmischer und wird sowohl für die Korrektur von Signalen aus elektronischen Klangerzeugern und Effektgeräten als auch für die klangliche Nachbearbeitung von Abmischungen, das Mastering, eingesetzt. Bei der letztgenannten Anwendung kommt zum Tragen, dass mit der Veränderung der ursprünglichen Stereobreite auch das Mischungsverhältnis verschoben wird, etwa zwischen mittig positionierten Monosignalen, z. B. Solisten, und gering korrelierenden außen positionierten Signalen, z. B. Nachhall. Änderungen der Stereobreiten von Abmischungen werden wegen
6.2 Dynamik und Lautheit
435
dieser mitunter starken Beeinflussung der Klangbildbalance und des Raumeindrucks nur in geringem Umfang vorgenommen. Eine Stereoverbreiterung ist klangästhetisch dennoch oft erwünscht, allerdings zu tiefen Frequenzen hin immer weniger hörbar. Mit einem ggf. vorhandenen sog. elliptischen Equalizer kann die Stereobreite in diesem Frequenzbereich durch dosiertes Übersprechen verringert werden, wobei die Übergangsfrequenz einstellbar ist (Abb. 6/5). Damit kann der Korrelationsgrad und damit die Monokompatibilität des Stereosignals nach einer vorgenommenen Stereoverbreiterung weitgehend unhörbar wieder erhöht werden. Ebenfalls gebräuchlich ist beim Mastering die Möglichkeit der korrelationsabhängigen Audiobearbeitung von Stereosignalen durch das Einschleifen von Regelverstärkern und/oder Equalizern in den M- und S-Kanal. Stereo-Enhancer sind Stereobreitenregler mit adaptiver Parametersteuerung, die eine Verstärkung oder Homogenisierung des Stereoeindrucks bewirken sollen. Es gibt hierzu verschiedene Ansätze. Ein verbreitetes Funktionsprinzip ist die automatische Regelung des M/SVerhältnisses in Abhängigkeit von der Korrelation des Stereosignals und ggf. anderen Signaleigenschaften, typischerweise z. B. nur bei Signalspitzen des M-Signals. Auf diese Weise kann der Spielraum der Korrelation eingeschränkt bzw. die Abbildungsbreite homogenisiert werden, was bei Übertragung stark variierender Audioprogramme zu einem einheitlichen Klangeindruck beiträgt. Stereo-Prozessoren werden daher vor allem in Sendewegen eingesetzt, meist als Bestandteil von spezialisierten Sendewegsprozessoren. Eine automatische Stereo/Mono-Erkennung sorgt dabei für ein Zu- und Abschalten der Nachführung bzw. eine Aktivierung der jeweils geeigneten Einstellungen z. B. für Musik und Sprache.
6.2 Dynamik und Lautheit Die Kontrolle der technischen Dynamik von Audiosignalen − zur musikalischen Dynamik siehe Kap. 2.2.1.4 − kann manuell durch Fader oder automatisch durch Regelverstärker erfolgen. Regelverstärker ändern ihre Verstärkung in Abhängigkeit von dem Pegel eines Steuersignals, normalerweise des Eingangssignals. Sie können in Mikrofonwegen, Gruppenwegen, Summen-, Sende- und Aufnahmeleitungen eingesetzt werden; sie sind fest zugeordnet oder werden im Bedarfsfall über Steckverbindungen oder als Plug-ins eingeschleift. Man unterscheidet die folgenden Arten von Regelverstärkern, je nach der Art der Beeinflussung des Nutzsignals, weitere Angaben in Kap. 19.5: –– der Kompressor komprimiert die Dynamik, –– der Limiter oder Begrenzer begrenzt den Höchstpegel, –– der Expander vergrößert die Dynamik, –– das Gate schaltet leise Abschnitte stumm.
6.2.1 Kompressor und Limiter Kompressoren dienen der automatisierten Dynamikeinengung. Sie sind Regelverstärker, deren Verstärkung sich gegenläufig zum Pegel des Eingangssignals verändert, sobald dieser eine Schwelle überschreitet; steigende Pegel bewirken also eine geringere Verstärkung.
436
6 Klanggestaltung
Limiter oder Begrenzer sind Kompressoren, deren Parameter für die zuverlässige obere Begrenzung des Nutzsignalpegels optimiert sind. Vorrangige Ziele der automatischen Dynamikkompression sind die Erhöhung der Zuverlässigkeit der Aussteuerung, die Einengung der Dynamik, die Lautheitserhöhung, die Klangverdichtung oder die Beeinflussung des Verlaufs von Einschwingvorgängen – das sog. transient design. Kompressoren und Expander können außerdem kombiniert vor und hinter Übertragungsstrecken oder -medien zur Rauschverminderung oder -unterdrückung eingesetzt werden; diese sog. Kompandersysteme finden vor allem in analogen Systemen Verwendung; Beispiele sind das Telcom c4- und Dolby-Verfahren zur magnetischen Schall aufzeichnung (Kap. 7.1.3) und drahtlose Mikrofone (Kap.4.3) und haben mit zunehmender Digitalisierung der Tonübertragung an Bedeutung verloren. Kompressoren werden in vielen Übertragungsschritten verwendet: bei der Aufnahme einzelner Schallquellen, bei der Mischung oder Abmischung in einzelnen Kanälen oder an Summenausgängen, beim Mastering, beim Rundfunk in Aufnahme-, Misch- und Sendewegen, in der Beschallung und in Hörgeräten. Mediale Audioinhalte sind demnach heute fast immer komprimiert, meistens mehrfach, ohne dass die aufeinander folgenden Dynamikbearbeitungen aufeinander abgestimmt werden. Im Sinne einer Wahrung der Klangqualität sollte dem Umgang mit Dynamikkompressoren deshalb besondere Beachtung geschenkt werden. In analoger Bauweise wird ein Kompressor durch einen spannungsgesteuerten Verstärker, einen sog. VCA, realisiert, vor dessen Steuereingang ein Gleichrichter und eine Integrationsstufe geschaltet sind. Diesem Steuerzweig, der side chain, wird das Nutzsignal zugeführt – bei der Vorwärtsregelung das ungeregelte Signal, bei der Rückwärtsregelung das geregelte Signal. Für die Erzielung von Effekten kann der Steuerzweig über einen key input auch mit einem Fremdsignal gespeist werden. Digital wird Dynamikkompression durch eine Multiplikation der Amplitudenwerte des Nutzsignals mit einem signalabhängig veränderlichen Faktor erreicht. Im Modus RMS reagiert der Kompressor auf den Effektivwert, im Modus peak auf den Spitzenwert des Steuersignals. Die Regelvorgänge des Kompressors sind in ihrem statischen Verhalten pegelabhängig, in ihrem dynamischen Verhalten zeitabhängig. Diese hängen im Einzelnen von Topologie und Schaltungsdesign des Kompressors ab [Giannoulis, 2012]. 6.2.1.1 Statisches Verhalten Auf dem statischen Verhalten des Kompressors beruhen im Wesentlichen die perzeptiv erwünschten Effekte einer verminderten Programmdynamik und erhöhten Lautheit. Diese Wirkungen werden allerdings auch durch das dynamische Verhalten beeinflusst. Das statische Verhalten eines Kompressors wird durch seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung meist als Pegel angibt. Sie hat Gültigkeit unter statischen Bedingungen, d. h., bei konstantem oder sich nur langsam änderndem Eingangspegel. Kompressorkennlinien sind nicht linear, sie setzen sich aus einem neutralen und einem abgeflachten Abschnitt zusammen (Abb. 6/7). Häufig ist ein geglätteter Übergang der Abschnitte wählbar (soft knee). Das statische Verhalten wird von drei wesentlichen Parametern bestimmt, die in der Regel auch einstellbar sind:
6.2 Dynamik und Lautheit
437
–– Schwellwert: threshold, auch umgekehrt als input level oder input gain bezeichnet, –– Kompressionsverhältnis: ratio, –– Ausgangspegel: output gain, auch output level, make up oder compression gain genannt. Im Arbeitsbereich des abgeflachten Kennlinienabschnitts, also oberhalb des Schwellwerts, threshold, bewirkt eine Pegelerhöhung am Eingang nur eine verminderte Pegelerhöhung am Ausgang. Das Kompressionsverhältnis R, ratio, ergibt sich durch das Verhältnis dieser Pegeldifferenzen R = ratio [dimensionslos] ΔLin = Eingangspegel [dB] ΔLout = Ausgangspegel [dB] und wird als Verhältnis ausgedrückt, z. B. R = 5 : 1, was einer mittleren Kompression entspräche. Für die Arbeitsweise als Limiter oder Begrenzer ist ein hohes Kompressionsverhältnis von 20 : 1 bis ∞ : 1 erforderlich, in der Regel kombiniert mit einem hohen Schwellwert.
Abb. 6/7. Kompressor, typische Kennlinienverläufe.
Durch Absenken der Schwelle LT nach LT‘ (Abb. 6/7, dicker diagonaler Pfeil) erhält man einen ungenutzten oberen Dynamikbereich, den sog. Kompressionshub. Durch Erhöhung des Parameters output gain kann man das komprimierte Signal wieder in den ungenutzten oberen Pegelbereich schieben (Abb. 6/7, dicker senkrechter Pfeil). Indem so auch die unter der
438
6 Klanggestaltung
Schwelle liegenden, leisen Signalabschnitte im Pegel angehoben werden (Abb. 6/7, durchgezogene Linie), nimmt die akustische Leistung und Lautheit des so bearbeiteten Audio signals bei gleichem Maximalpegel zu. Die Wirkung einer solchen Dynamikbearbeitung auf ein Audiosignal zeigt Abb. 6/8.
Abb. 6/8. Lautheitserhöhung durch Kompression, Audiosignal unkomprimiert (oben) und stark komprimiert (unten).
Man nennt einen Kompressor mit der beschriebenen Arbeitsweise Downward-Kompressor, diese Funktionsweise wird meist realisiert. Der Upward-Kompressor arbeitet dagegen umgekehrt: Die Dynamikkompression erfolgt unterhalb des Schwellwerts. Einschwingvorgänge werden so weniger beeinflusst und können anderweitig, z. B. mit einem Limiter, bearbeitet werden. 6.2.1.2 Dynamisches Verhalten Die statische Kennlinie gilt bei schnellen Pegeländerungen erst nach einer bestimmten Übergangszeit, da der Kompressor auf die Änderungen reagieren muss. Diese Ausregelvorgänge nach Über- oder Unterschreiten des Schwellwerts bezeichnet man zusammenfassend als dynamisches Verhalten. Sie werden dargestellt, indem man die Spannung des Ausgangssignals über die Zeit für einen Zeitraum aufträgt, in dem das Eingangssignal den Schwellwert des Kompressors plötzlich um 10 dB überschreitet, also ein Ansprechvorgang ausgelöst wird, bzw. von diesem Niveau wieder auf den threshold-Pegel abfällt, also ein Abklingvorgang ausgelöst wird. Wie schnell der Kompressor auf die Pegeländerungen reagiert, kann mit den Zeitparametern attack für den Ansprechvorgang, d. h. für die Verstärkungsreduktion, und release, auch recovery oder decay, für den Abklingvorgang, d. h. die Verstärkungsrückstel-
6.2 Dynamik und Lautheit
439
lung auf den Faktor 1, eingestellt werden. Da die Regelvorgänge typischerweise exponentiell verlaufen und daher zumindest theoretisch unendlich lange andauern, müssen die Zeitparameter als eine Zeit definiert sein, die der Kompressor zum Ausregeln eines bestimmten Anteils der Differenz zwischen Ist- und Sollspannung benötigt. Auch wenn Ausregelanteile wie 63 % (entsprechend 1 - 1/e) oder 90 % angegeben werden, ist − abgesehen von einer schalldruckpegelbezogenen Definition für Hörgeräte − keine anerkannte Definition für die Tonstudiotechnik bekannt. In der Praxis ergaben Messungen an verschiedenen Kompressoren davon sowie untereinander abweichende Anteile. Die weitere Darstellung bezieht sich exemplarisch auf einen Ausregelanteil von 63 %. Abb. 6/9 zeigt einen Ansprechvorgang. Der Ist-Pegel steigt im dargestellten Fall plötzlich auf 10 dB über dem Schwellwert, der Soll-Pegel ergibt sich aus dem eingestellten Kompressionsverhältnis. Auf ihn wird die Ist-Spannung heruntergeregelt. Aus dem Spannungsverlauf lässt sich die Ansprechzeit ermitteln. Beim Abklingvorgang findet der umgekehrte Vorgang statt: Die 10 dB über der Schwelle liegenden Eingangspegel fallen wieder auf den Schwellwert zurück. Damit fällt der Ist-Pegel am Ausgang 10 dB unter den alten kompressionsabhängigen Sollwert, also auch weit unter den Schwellwert, der nun den neuen Sollwert darstellt. Ansprechzeiten liegen typischerweise zwischen 0,05 und 50 ms, Abklingzeiten zwischen 0,01 und 3 s. Für eine LimiterEinstellung müssen eine geringe Ansprechzeit und eine mittlere oder geringe Abklingzeit gewählt werden. Reine Limiter ermöglichen ggf. noch kürzere Ansprechzeiten bis hinunter zu 20 μs. Zu beachten ist, dass das reale Ausregeln stets länger dauert als der eingestellte Wert, der sich nur auf 63 % oder einen anderes Definitionskriterium kleiner 100 % der Ausregelung bezieht.
Abb. 6/9. Ansprechvorgang des Kompressors. Die Absenkung der Ausgangsspannung erfolgt mit exponentiellem Verlauf. Die Ausregelung wird hier mit 63 % dargestellt.
Den Einfluss zweier unterschiedlich langer Ansprechzeiten auf ein hoch- und ein tieffrequentes Sinussignal veranschaulicht Abb. 6/10. Es zeigt sich, dass eine langsame Verstärkungsreduktion (links) Transienten, also schnelle Einschwingvorgänge, nur unzureichend abfängt, eine schnelle (rechts) hingegen tieffrequente Signalanteile deutlich erkennbar deformiert und dadurch den Klirrfaktor erhöht. Dieser Effekt wird durch den Modus soft knee abgemildert. Auch die Abklingzeit eines Kompressors ist nicht für alle Situationen optimal einstellbar. Ist sie kurz, sind Regelvorgänge häufig, bei einer langen release-Zeit reduzieren einzelne Kompression auslösende Signale für längere Zeit den Ausgangspegel.
440
6 Klanggestaltung
Abb. 6/10. Auswirkungen des Ansprechvorgangs auf ein hoch- und ein tieffrequentes Sinussignal.
Auf Grund des beschriebenen Dilemmas ist das dynamische Verhalten des Kompressors auch Ursache für Wahrnehmungen, die überwiegend unerwünscht sind: Die wichtigsten sind Verzerrungen oder Knackstörungen auf Grund der Klirrfaktorerhöhung durch kurze Ansprechzeiten sowie nicht optimaler und hörbar veränderter Signalpegel, das sog. Pumpen, und zu geringe Lautheit auf Grund längerer Pegelreduktion durch lange Abklingzeiten. Klein gewählte Zeitparameter führen allgemein zu einer hörbaren Klangverdichtung. Sie kann klangästhetisch im Hinblick auf eine hohe Lautheit und bestimmte Soundvorstellungen beabsichtigt sein, verursacht jedoch mittelfristig auch eine Lästigkeit des Audioprogramms [Wagner, 1997] [Vickers, 2011]. Dem Dilemma der Stör- und Nutzeffekte kann man durch den Einsatz zweier Kompressoren begegnen: Einen Kompressor mit ‚weicherʻ Einstellung, also niedriger Schwelle und ratio sowie großen Zeitkonstanten, für die Reduktion der wahrgenommenen Dynamik eines Einzelsignals und dau einen Kompressor mit ‚harterʻ Einstellung, also hoher Schwelle und ratio sowie kleinen Zeitkonstanten, für den technischen Übersteuerungsschutz an Gruppen- und Summenausgängen. Noch effektiver im Hinblick auf die Unauffälligkeit von Regelvorgängen arbeiten Geräte mit programmabhängig veränderlichen Parametern (siehe das folgende Kap.). 6.2.1.3 Erweiterte Anwendungen Auf Grund der vielfältigen Einsatzgebiete des Kompressors gibt es zahlreiche Erweiterungen und Schaltungsvarianten, die für bestimmte Anwendungsfälle optimiert sind, erweiterte gestalterische Möglichkeiten bieten oder weniger störende Veränderungen des Klangbilds produzieren. Diese Varianten können auch kombiniert werden: Verkopplung von Kanälen: Soll eine identische Dynamikregelung mehrerer Kanäle gewährleistet sein, um z. B. Balance-Schwankungen bei zwei- oder mehrkanal-stereofonen Signalen, z. B. Summensignalen, zu vermeiden, werden die Steuereingänge der einzelnen Kompressoren
6.2 Dynamik und Lautheit
441
über stereo link verbunden und deren Parameter zumeist auf dieselben Werte eingestellt. So lösen Regelvorgänge eines jeden Kanals entsprechende Regelvorgänge in allen Kanälen aus. Nutzsignalverzögerung: Durch eine Verzögerung des Eingangssignals – nicht jedoch des Steuersignals – in der Größenordnung der Ansprechzeit, erfolgt der Regelvorgang des Kompressors bereits vor dem Eintreffen der auslösenden Pegeländerung. Auf diese Weise werden Pegelspitzen bei Einschwingvorgängen wirksam abgefangen und störend hörbare Veränderungen des Signals verringert. Die Verzögerungsfunktion – predict oder look ahead – ist häufig in Mastering-Prozessoren vorgesehen sowie ein Merkmal von sog. Transienten-Limitern, die z. B. vor Übertragungsstrecken eingesetzt werden. Ansteuerung durch Fremdsignal: Wird der Steuereingang nicht von dem zu komprimierenden, sondern einem anderen Signal gespeist, so veranlasst das Steuersignal die Pegelreduktion des bearbeiteten Signals, was für gestalterische Klangeffekte genutzt werden kann. Als hörbarer Bestandteil einer Mischung dominiert es auch ohne höheren Pegel dynamisch das komprimierte Signal. Diese Wirkung wird als ducking-Effekt bezeichnet. Typische FremdSteuersignale sind Rundfunksprecher, die eine Kompression von Musik oder Atmosphären bewirken, und Rhythmus-Tracks, die die restliche Musikmischung beeinflussen. Filter im Regelkreis: Besteht das Steuersignal aus dem gefilterten Nutzsignal, so ergibt sich eine frequenzabhängige Kompression. Häufig werden mittlere und hohe Frequenzbereiche angehoben oder ausgewählt, um Gesangs- oder Sprachsignale durch die dynamischsten oder am meisten störenden Komponenten zu komprimieren. Sog. De-Esser sind speziell für die Unterdrückung von S- bzw. allgemein von Zischlauten ausgelegte Kompressoren mit einem Bandpass im Regelkreis, dessen Eckfrequenz sich typischerweise in einem Bereich von 0,8 bis 8 kHz einstellen lässt. Sie sollten eine höhere Aussteuerbarkeit besonders auf analogen Magnetbändern zulassen. Der Regelvorgang selbst kann breitbandig oder für das gewählte Frequenzband selektiv erfolgen. Mehrband-Kompression: Mehr- oder Multiband-Kompressoren teilen das Audiosignal über eine Filterbank in üblicherweise 3 bis 5 Frequenzbereiche auf, die parallel von jeweils einem eigenen Kompressor bearbeitet und danach wieder zusammengeführt werden. Einzelne Frequenzkomponenten können auf diese Weise keine breitbandige Regelung mehr auslösen. Für jeden Einzelband-Kompressor können spezifische Parameter gewählt werden. Das Funktionsprinzip und die differenzierte Einstellbarkeit führen zu einer Verminderung der Veränderlichkeit des relativen Gewichts von Frequenzbereichen, auf der Wahrnehmungsebene mithin zu einer klangfarblichen Homogenisierung, und ermöglichen eine effektive Lautheitsmaximierung. Typischerweise werden Mehrband-Kompressoren daher beim Mastering eingesetzt sowie in Sendewegen, wo sie neben hoher Lautheit einen spezifischen, für den jeweiligen Sender typischen „Wellensound“ erzeugen sollen. Da die Übergangsfrequenzen der Frequenzbänder vielfach in der spektralen Ausdehnung von Klängen liegen, die als einheitliche Gestalten wahrgenommen werden, kommt es durch die frequenzselektiven Regelvorgänge zu hörbaren Klangveränderungen. Die beschriebenen Effekte lassen sich zusammenfassend als starke Klangverdichtung oder als ‚kommerziellen Soundʻ bezeichnen. Ob mit solchen Audiobearbeitungen eine Erhöhung der Einschaltquote auf Grund der hohen Lautheit erreicht wird – so das Argument für den Einsatz dieser Programmverdichter – oder
442
6 Klanggestaltung
eine Erhöhung der Ausschaltquote auf Grund der mittelfristig erhöhten subjektiven Lästigkeit überwiegt, ist nicht ausreichend geklärt. Ein Zusammenhang von Senderwahl und Sendeweg-processing ließ sich im Experiment jedenfalls nicht nachweisen [Gawlik, 2008]. Eine als New York compression bekannte Einsatzvariante ist die Mischung von unbearbeitetem und stark Multiband-komprimiertem Signal, wodurch Transienten und Durchhörbarkeit partiell erhalten bleiben sollen. Dynamikmuster: Manche Plug-ins bieten eine Einflussnahme auf das dynamische Verhalten, die weit über die Festlegung der beiden Zeitkonstanten attack und release hinausgeht. Vielmehr kann der Verlauf der Dynamikregelung durch eine Art Hüllkurvengenerator über eine längere Zeit genau kontrolliert werden, so dass mehrere Ansprech- und Abklingphasen aufeinander folgen können. Dadurch können insbesondere Rhythmusbestandteile im Zeitverlauf nachträglich gewichtet werden. Adaptive Parameter: Ein hohes Maß an klangfarblicher Treue bei gleichzeitig zuverlässiger Einhaltung von Aussteuerungsgrenzen erreichen Dynamikprozessoren, deren Parameter kontinuierlich den Signaleigenschaften angepasst werden. Die Kompressionsstufen solcher für den Einsatz in Sendewegen spezialisierten Geräte sind oft nicht wie beim MultibandKompressor parallel, sondern in einer sog. Multiloop-Architektur seriell angeordnet. Zur gehörmäßigen Unauffälligkeit der Signalbearbeitung tragen eine Nutzsignalverzögerung, die Einbeziehung verschiedener Signalmaße und die Berücksichtigung psychoakustischer Phänomene wie Vor- und Nachverdeckung bei.
6.2.2 Expander und Gate Expander sind Regelverstärker, die der Dynamikvergrößerung dienen. Ihre Verstärkung verändert sich gleichsinnig mit dem Pegel des Eingangssignals, sobald dieser eine Schwelle unterschreitet. Ein Gate (Tor) ist eine Extremeinstellung des Expanders, die ein Stummschalten leiser Signalabschnitte bewirkt. Expander bzw. Gates werden überwiegend mit dem Ziel der Störgeräuschverminderung in Sprech- und Spielpausen eingesetzt, zur Verminderung von Übersprechen in der Mischung, z. B. bei Diskussionsrunden oder Schlagzeugaufnahmen, sowie zur kreativen Klanggestaltung in der Produktion von Popularmusik. Außerdem sind sie Teil von Kompandersystemen. Dementsprechend kommen sie beim Mastering, in Aufnahme- und Sendewegen, in der Abmischung und in der Beschallung zum Einsatz. Technisch entspricht ein Expander einem Kompressor mit umgekehrter Funktionsweise. Allerdings entfällt die Möglichkeit der Rückwärtsregelung, und die Bezeichnung side chain für den Steuereingang ist ungebräuchlich, man spricht hier von key input. Auch beim Expander muss zwischen statischem und dynamischem Verhalten unterschieden werden. 6.2.2.1 Statisches Verhalten Das statische Verhalten eines Expanders wird durch seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung meist als Pegel angibt. Sie hat Gül-
6.2 Dynamik und Lautheit
443
tigkeit unter statischen Bedingungen, d. h., bei konstantem oder sich nur langsam änderndem Eingangspegel. Expanderkennlinien setzen sich in der Regel aus einem steilen Abschnitt und zwei neutralen Abschnitten zusammen (Abb. 6/11). Besteht die Kennlinie nur aus zwei Abschnitten, unterscheidet man zwischen einem Downward-Expander – der steile Abschnitt ist unten – und einem weniger gebräuchlichen Upward-Expander – der steile Abschnitt ist oben. Das statische Verhalten wird von drei wesentlichen Parametern bestimmt: threshold, auch umgekehrt als input level oder input gain bezeichnet, range und ratio, nicht immer einstellbar. Im Arbeitsbereich des steilen Kennlinienteils, also unterhalb des Schwellwerts threshold bewirkt eine Pegelerhöhung am Eingang nicht dieselbe, sondern eine größere Pegelerhöhung am Ausgang. Die ratio R ergibt sich wie beim Kompressor durch R = ΔLin /ΔLout bzw. R = tan α und kann vorgegeben sein.
Abb. 6/11. Expander, typische Kennlinienverläufe.
Der Parameter range gibt in dB an, wie stark in dem unteren Kennlinienbereich liegende Signale abgesenkt werden. Im Normalfall 0 40 dB, bei
758
11 Arbeitssicherheit und Gesundheitsschutz
2 kHz > 30 dB und bei 1 kHz > 15 dB beträgt, oder das Sprachaudiogramm einen beidseitigen Hörverlust von mehr als 20 % aufweist. Diese Grenzwerte für berufsbedingte Schwerhörigkeiten können in der Folge zu einer Minderung der Erwerbstätigkeit führen. Für einen Tonschaffenden führt eine Hörminderung auf einem Ohr bereits zur Berufsunfähigkeit. 11.2.2.2 Vorübergehende und permanente Hörschwellenverschiebung Die Folge der kurzfristigen energetischen Minderversorgung der Zellen kann eine zeitweilige Verschiebung der Hörschwellen oder TTS (Temporary Threshold Shift) sein. Dieser Prozess ist durch Erholungs- oder Lärmpausen von weniger als 70 dB wieder umkehrbar, abhängig von der Lärmdosis. Zeitweilige Hörschwellenverschiebungen können auch noch eine andere Ursache haben. Der cochleäre Verstärker adaptiert das Gehör an eine hohe Schallbelastung. Bei sehr lauten Tönen entstehen im Innenohr flache, breite Wanderwellen mit geringer Amplitude und unscharfer Frequenzabstimmung. Sie führen zu einer Hörwahrnehmung erst bei den inneren Haarzellen, etwa ab 50 bis 70 dB, gegenüber den äußeren Haarzellen mit höherer physiologischer Hörschwelle. Dieser Adaptionsprozess ist zwar nur vorübergehend, wirkt aber bis in nachfolgende Ruhezeiten hinein. Schmalbandige Klänge erzeugen zeitlich begrenzte Hörschwellenverschiebungen bei Frequenzen, die eine halbe bis ganze Oktave oberhalb der wahrgenommenen Tonhöhe liegen. Breitbandige Geräusche erzeugen die stärkste Hörminderung im Bereich der C5-Senke, dies entspricht einen Verlust der Hörfähigkeit im Bereich von 4 KHz, entsprechend der Tonhöhe c5. Länger andauernde Schallbelastungen mit hoher Lautheit führen zu Verklebungen benachbarter einzelner Haarzellen, später zu Verklumpungen und schließlich zu irreversiblen Rückbildungen der Haarzellen. Dies ist dann der maximale Gehörschaden, der eine bleibende Hörschwellenverschiebungen oder PTS (Permanent Threshold Shift) nach sich zieht. Die Grenzen sind fließend, jedoch ist erwiesen, dass TTS-Effekte ohne ausreichende Ruhephasen sich zu PTS-Effekten aufsummieren können. Da die Haarzellen nach bisherigen wissenschaftlichen Erkenntnissen nicht nachwachsen, ist der PTS-Effekt definitiv und nicht umkehrbar. Je nach Art der Lärmeinwirkung können dabei Hörzellen höherer, mittlerer oder tieferer Frequenzen geschädigt werden. Wichtig für die Leistungsfähigkeit der Ohren eines Tonschaffenden ist die Tatsache, dass mit fortschreitendem Alter die Rückbildungsfähigkeit der Haarzellen stetig abnimmt. Gleichzeitig mit dem Summationseffekt können erhebliche Gehörschäden entstehen, deren Ursachen Jahrzehnte zurückliegen. Umgekehrt bestehen gute Chancen, eine hohe akustische Wahrnehmungsfähigkeit zu bewahren, je weniger man in jungen Jahren sein Gehör hoher, länger andauernder Schallbelastungen ausgesetzt hat. 11.2.2.3 Fehlender Lautheitsausgleich Der eingeschränkte Dynamikbereich der Schallwahrnehmung bei einem geschädigten Ohr äußert sich bei den Betroffenen als fehlender Lautheitsausgleich (Recruitment). Die subjektive Hörempfindung, oder auch die wahrgenommene Lautheit, wächst bei den Betroffenen über der verschobenen Hörschwelle sehr viel schneller an, d. h., die Unbehaglichkeitsschwelle wird früher erreicht als bei Normalhörern. Die Schwerhörigkeit bewirkt zudem, dass
11.2 Gesundheitsschutz
759
Leises nicht oder nur sehr schlecht gehört wird. Im mittleren Bereich gibt es keinen Wahrnehmungsunterschied zu Normalhörern, in lauten Hörsituationen kann es zu Überempfindlichkeiten kommen. Die Lästigkeitsschwelle gegenüber Normalhörern wird sehr schnell erreicht, auch wird aufgrund der fehlenden Dämpfung die Schmerzschwelle schon bei niedrigeren Pegeln überschritten (Hyperakusis). Schädigungen an der Wirkungsweise des cochleären Verstärkers können Ursachen für die Dynamikempfindlichkeit bei gleichzeitiger verminderter Wahrnehmung für Tonhöhenunterschiede sein. Dies erklärt auch einen großen Teil von kritischen Hörerreaktionen im Rundfunk bei gemischten Wort- und Musiksendungen. Gerade ältere Hörer beklagen die vermeintlich zu leise Sprache und die zu laute Musik. 11.2.2.4 Stapediusreflex Das Mittelohr verfügt neben dem cochleären Verstärker über einen weiteren Schutzmechanismus, den sog. Stapediusreflex oder auch „akustischer Reflex“ genannt. Dieser sorgt dafür, dass größere Schallstärken oberhalb ca. 75 bis 90 dB durch Muskelkontraktion des Mittelohres eine Veränderung der Impedanz bewirken und damit zu einer verringerten Übertragung der Schallenergie führen. Die maximale Dämpfung bei 2 kHz beträgt etwa 10 bis 20 dB. Bei höheren Frequenzen ist dieser Effekt leider unwirksam. Die Einwirkzeit zur Auslösung des Reflexes beträgt etwa 50 ms, bei maximaler Kontraktion etwa 35 ms. Bis die völlige Kontraktion erreicht ist, kommen nochmals ca. 150 bis 500 ms hinzu. Der Effekt wirkt also erst nach weniger als einer Sekunde nach dem Auslöseimpuls auf beiden Ohren, auch wenn nur ein Ohr beschallt wird. Haben mehrere Impulse einen zeitlichen Abstand von ca. 2,4 s ist der Stapediusreflex allerdings wieder unwirksam. Jeder einzelne Schallimpuls wirkt dann in voller Stärke, also mit maximaler Schädigung. Die Wirkung des akustischen Reflexes kann auch bei dauernder Schallbelastung bis zu mehreren Minuten anhalten, jedoch erfolgt eine zeitliche Adaption, die die Entlastung deutlich mindert. 11.2.2.5 Gehörschäden und Musik Die Abschätzung von Gehörschäden durch Musik beruht auf der Bewertung des äquivalenten Dauerschallpegels. Dieser schließt die Aufsummierung der Schallenergie ein. Nicht berücksichtigt wird bei dieser Betrachtung allerdings die Impulshaltigkeit von Musikbeschallung. Drum-Sounds oder perkussive Elemente der Beschallung von Musikdarbietungen bei Rockund Popkonzerten oder vergleichbaren Veranstaltungen, sind jedoch mit industriellen Impulsschallen vergleichbar, z. B. in Kesselschmieden. Abhängig von der Regelmäßigkeit des Auftretens von Impulsschall oder BPM (Beats per Minute) kann der Stapediusreflex das Gehör schützen. Häufig auftretende Werte bei „Rave“-Veranstaltungen (ca. 120 BPM entsprechen etwa 2 Hz) sowie die meist geringe Dynamik dieser Musik lassen das Belastungsrisiko solcher Schallereignisse hinreichend genau mit dem Mittelungspegel beschreiben. Folglich gelten hier die Schädigungsgrenzen für Dauerschall. Lange Expositionszeiten bei hohen Pegeln ohne Ruhezeiten stellen ein großes Gefahrenpotenzial dar.
760
11 Arbeitssicherheit und Gesundheitsschutz
11.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5 Lärmbedingte Hörverluste wurden bislang vorwiegend unter arbeitsmedizinischen Aspekten untersucht und dargestellt. Im Folgenden werden diese allgemeinen Überlegungen auf das Hörschadenrisiko bei öffentlichen Musikveranstaltungen mit elektroakustischer Beschallung übertragen. Dazu gehören u. a. Konzerte, Besuche in Diskotheken und anderen öffentlichen, wie gewerblichen Orten. Nicht berücksichtigt ist die individuelle Belastung durch Musikdarbietungen zu Hause oder über Kopfhörer. Der Lärmemission kommt heute eine hohe Bedeutung zu. Die Vermeidung von Gehörschädigungen durch laute Musik in Diskotheken und bei öffentlichen Veranstaltungen ist eine gesundheitspolitische Aufgabe und genießt eine hohe Relevanz. Bereits frühzeitig wurden deshalb Maßnahmen getroffen, verbindliche Regeln zum Schutze von Personen zu schaffen. Die [DIN 15905-5] schafft klare Voraussetzungen und wurde im Herbst 2007 umgesetzt. Sie ist eine vollständige Neubearbeitung des Normenausschusses Veranstaltungstechnik aus dem Jahr 1989. Die DIN 15905-5 ist kein Gesetz, aber die Einführung hat dazu geführt, dass das Thema in der Öffentlichkeit und vor allem von Veranstaltern ernst genommen wird. Ihre rechtliche Bedeutung entfaltet die Norm durch das Schadensersatzrecht. Das Ziel der Norm ist, das anerkanntermaßen hohe Risiko von Gehörgefährdungen des Publikums bei öffentlichen Veranstaltungen mit Beschallungstechnik zu reduzieren. Die Norm gilt nicht für die bei Veranstaltungen beruflich tätigen Personen, sondern ausschließlich für Besucher. Es werden Maßnahmen beschrieben, die bei sich abzeichnender Überschreitung der Richtwerte für die Beurteilungspegel ergriffen werden müssen, um der Verkehrssicherungspflicht in Bezug auf Gehörgefährdungen nachzukommen. Die Norm gilt für alle Veranstaltungen mit elektroakustischer Beschallungstechnik in Gebäuden und im Freien, also von Diskotheken, Filmtheatern, Konzertsälen, Mehrzweck-, Messehallen, Räumen für Shows, Events, Kabaretts, Varietés, Hörfunk-, Fernsehstudios, Theatern, Spielund Szenenflächen in Freilichtbühnen, Open-Air-Veranstaltungen sowie bei Festumzügen und Stadtfesten. Ausgenommen von der Norm sind Durchsagen im Gefahren- und Katastrophenfall, Anwendungen von Pyrotechnik ohne zeitgleiche dramaturgisch verbundene Beschallung, sowie durch Publikum verursachte Geräuschpegel. Unklar ist, ob die Norm auch bei Veranstaltungen in Zelten gilt. 11.2.3.1 Verkehrssicherungspflicht Die aktuelle Rechtsprechung siedelt die Verantwortung für entstandene körperliche Schäden von Zuschauern beim Veranstalter an. Hier gilt die Verkehrssicherungspflicht, d. h., sinngemäß ist derjenige, der eine Gefahrenquelle eröffnet, dafür verantwortlich, dass niemand zu Schaden kommen kann. Eine Beschallungsanlage kann eine solche Gefahrenquelle sein. Anerkannte Regeln der Technik beschreiben Ursachen und Folgen des Einsatzes der Gefahrenquelle. Verletzt also ein Veranstalter die Regeln der Technik, kann er zivilrechtlich zur Verantwortung gezogen werden. Weiterhin ergibt sich aus dem Baurecht die Verantwortung
11.2 Gesundheitsschutz
761
des Betreibers einer Versammlungsstätte, für die Sicherheit des Publikums zu sorgen. Beide Parteien werden im Schadenersatzfall gesamtschuldnerisch zur Verantwortung gezogen. Umgekehrt gilt, dass der Veranstalter und möglicherweise der Betreiber einer Versammlungsstätte durch Erfüllung der DIN 15905-5 der vorgeschriebenen Verkehrssicherungspflicht nachkommen muss. Zuwiderhandlung macht ihn automatisch für alle durch die Beschallung aufgetretenen Schäden haftbar. Die DIN 15905-5 besagt, dass zu keinem Zeitpunkt innerhalb von 30-minütigen Messperioden und an keinem Ort der Veranstaltung der nach A-Filter bewertete Beurteilungspegel von 99 dB und der nach C-Filter bewertete Spitzenpegel von 135 dB überschritten werden dürfen. Unterhalb des genannten Beurteilungspegels von 99 dB(A) sowie des Spitzenpegels von 135 dB(C), bei deren Überschreitung der Veranstalter seiner Verkehrssicherungspflicht nicht nachgekommen ist, gelten weitere Schutzmaßnahmen. Bei Erreichen des Auslösewertes von Lr = 80 dB(A) soll durch Aushänge oder Hinweise auf eine mögliche Schädigung des Gehörs hingewiesen werden. Ab Lr = 95 dB(A) müssen Gehörschutzmittel bereitgestellt und zum Tragen aufgefordert werden. Für all diese Werte erscheint die Signalisierung für das Publikum und das Bedienpersonal angesagt. Tab. 11/3. Kerndaten der DIN 15905-5 Anwendungsbereich
- Messung und Bewertung der Schallimmission am lautesten Punkt im Publikum mit dem Ziel der Reduzierung einer Gehörgefährdung
Wichtige Begriffe
- Maßgeblicher- bzw. Ersatzimmissionsort - Messperiode - Beurteilungszeit
Richtwerte
- LAR ≤ 99 dB(A) für 30-minütige Messperiode - LCpeak ≤135 dB(C)
Messung/Auswertung
- Anforderung an Messgerät, Bestimmung der Korrekturwerte
11.2.3.2 Schutzmaßnahmen und Information Die [DIN 15905-5] enthält neben den oben dargestellten Vorschriften auch die Beschreibung von Schutzmaßnahmen bei unterschiedlichen zu erwartenden Pegelwerten. Grundsätzlich ist es die Aufgabe des Veranstalters, das Publikum über mögliche Gefährdungen des Gehörs zu informieren. Allgemeine Schutzmaßnahmen Durch geeignete Maßnahmen, wie beispielsweise Absperrungen, ist der Nahbereich um die Beschallungsanlage wegen der möglichen Gehörgefährdung als Aufenthaltsbereich für das Publikum abzugrenzen. Bei großen Produktionen wird dieses Problem heute üblicherweise durch die erhöhte Positionierung der Lautsprechersysteme gelöst (s. Kap. 10.2.3.2). Darüber hinaus ist die Beschallungsanlage so zu begrenzen, dass der nach C-Filter bewertete Spitzenschalldruckpegel LCpeak1 = 135 dB nicht überschritten werden kann.
762
11 Arbeitssicherheit und Gesundheitsschutz
Schutzmaßnahmen bei Pegeln 85 < 95 dB(A) Ist der zu erwartende Beurteilungspegel > 85 dB(A) und werden 95 dB(A) nicht überschritten, muss das Publikum in geeigneter Weise informiert werden. In diesem Fall kann auf eine Permanentmessung verzichtet werden. Geeignete Maßnahmen zur Information des Publikums sind unter anderem –– Aufdruck auf Eintrittskarten oder Handzetteln, –– Aushang, –– Durchsagen oder die Hinweise auf Anzeigetafeln. Schutzmaßnahmen bei Pegeln 95 < 99 dB(A) Bei zu erwartenden Pegeln > 95 dB(A) müssen dem Publikum geeignete Gehörschutzmittel zur Verfügung gestellt werden [DIN EN 352-2]. Auch sollen den Beschallungstechnikern als Arbeitserleichterung eine Messeinrichtung mit optischer Anzeige bereitgestellt werden, um bei Annäherung oder Überschreitung der Beurteilungspegel gegensteuern zu können. Die DIN 15905-5 schlägt bei optischer Anzeige Farbcodes vor und zwar Gelb 95dB(A) < LAr < 99dB(A), Rot LAr > 99dB(A). 11.2.3.3 DIN-Anhang Die [DIN 15905-5] enthält zusätzlich auch einen informativen Anhang A, der praktische Beispiele für einige Anwendungsfälle aufführt. Festinstallierte Beschallungsanlagen für Live-Betrieb Bei fest installierten Beschallungsanlagen mit stets gleicher Bühnensituation, jedoch wechselnden Acts, bietet sich an, die Korrekturwerte K1 und K2 einmalig bei der Installation der Beschallungsanlage zu ermitteln und in der Folge die Permanentmessung bei Veranstaltungen am Ersatzimmissionsort durchzuführen. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Wechselnde Beschallungsanlagen Veranstaltungsorte mit unterschiedlichen Beschallungsanlagen und Bühnensituationen werden von wechselnden Acts bespielt. Eine fest installierte Messeinrichtung ist hier nicht sinnvoll einsetzbar. Die Korrekturwerte werden bei jeder Produktion neu bestimmt. Vorteilhaft ist eine feste Messeinrichtung, die nicht ständig betreut werden muss. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Festinstallierte Anlagen zur Beschallung mit Tonträgern Fest installierte Beschallungsanlagen zur Wiedergabe von Tonträgern, beispielsweise in Diskotheken, können mit einem verplombten Limiter zur Einhaltung der Norm versehen werden. Der Limiter sollte regelmäßig auf Wirksamkeit überprüft werden. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig.
11.2 Gesundheitsschutz
763
11.2.4 Messung der Schallimmission Die Messung der Schallimmission nach DIN-15905-5 (s. Abb. 11.3) muss mit einem Schallpegelmesser mindestens der Genauigkeitsklasse 2 nach [DIN EN 61672-1] mit A- und C-Filterung erfolgen. Darüber hinaus ist eine kalibrierte Messgerätekette nach [DIN EN 60942] zu verwenden. Üblicherweise sollte die Messeinrichtung über eine optische Pegelanzeige für LAeqT = Kurzzeitmittelungspegel bei einer Integrationszeit von T ≥ 5s LAr = Beurteilungspegel LCpeak = Spitzenschallpegel, sowie über eine Protokollierung und Datenarchivierung verfügen. Der Richtwert für die Beurteilung der Lautstärke bei Veranstaltungen an dem Ort mit dem höchsten zu erwartenden Pegel, der dem Publikum zugänglichen ist, beträgt LAr = 99 dB (A) LAr ist der A-bewertete, energieäquivalente Dauerschallpegel am maßgeblichen Immissionsort für die Beurteilungszeit von 30 min = Tr. Dieser Wert entspricht der zeitlichen Integration des Schalldruckverlaufs über die Zeitperiode. Der Pegel deckt sich mit der Festlegung der Gesundheitsminister der Bundesländer [78. GMK, 2005]. Die Norm gilt allerdings auch als nicht überschritten, wenn die Beurteilungszeit auf 120 min ausgedehnt wird. Dies hat Auswirkungen auf Veranstaltungen von kürzerer Dauer, da der Integrationszeitraum Beschallungspausen auch nach Ende der Veranstaltung mit einschließt.
Abb. 11/3. Darstellung einer Messeinrichtung nach DIN 15905-5
Eine Messung beginnt jeweils vor Beginn einer Veranstaltung und wird in jeweils 30-minFenstern fortgesetzt. Jedes Zeitfenster beginnt zur vollen und halben Stunde. Da nicht immer an dem für die Norm maßgeblichen Immissionsort, nämlich der lautesten Stelle im Zuschauern zugänglichen Bereich, gemessen werden kann, erfolgt die Messung vor der Veranstaltung an einem anderen Ort (Beispiel Regietisch im Zuschauerraum), dem sog. Ersatzimmissionsort. Beide Orte müssen so gewählt werden, dass hier keine verfälschenden Störsignale das Messergebnis beeinflussen können, bspw. durch laute Publikumsgeräusche.
764
11 Arbeitssicherheit und Gesundheitsschutz
Der am Ersatzimmissionsort ermittelte energieäquivalente Dauerschalldruckpegel LAeqT2 unterscheidet sich durch einen zu ermittelnden konstanten Korrekturfaktor K1 von LAr. Es gilt LAr = LAeqT2 + K1. Dieser Korrekturwert wird bei der Dauermessung während der Veranstaltung berücksichtigt. Der Richtwert für den Spitzenschalldruckpegel beträgt LCpeak = 135 dB. Er darf in keinem Beurteilungszeitraum überschritten werden. Für den C-bewerteten Spitzenschalldruckpegel gilt analog zu dem A-bewerteten energieäquivalenten Dauerschalldruckpegel die Formel LCpeak1 = LCpeak2 + K2 (Differenz von zwei LCpeak‑Werten) . Auch hier wird der Korrekturwert K2 durch Messung am Ersatzimmissionsort im Vergleich zum maßgeblichen Immissionsort ermittelt. Korrekturwert Jede Messung bei einer Lautsprecheranordnung in einer Spielstätte bei genau hier genutzter Mikrofonanordnung am Immissionsort führt zu individuellen Korrekturwerten. Diese Messung muss für jede neue Veranstaltung mit einer Beschallungsanlage und möglicherweise unterschiedlichen Bühnensituationen durchgeführt werden. Als Korrekturwert K1 gilt die Pegeldifferenz bei der Vergleichsmessung zwischen dem Ersatzimmissionsort und dem maßgeblichen Immissionsort für den Mittelungspegel LAeqT2 und der Wert K2 gilt als Korrekturwert für den Spitzenschalldruckpegel LCpeak2. Als Messsignal muss rosa Rauschen verwendet werden, bei einer Integrationszeit für den energieäquivalenten Dauerschalldruckpegel LAeqT2 von T ≤ 5s. Die Ermittlung der Korrekturwerte K1 (LAeqT = A-bewerteter energieäquivalenter Dauerschallpegel) und K2 (LCpeak = C-bewerteter Spitzenschalldruckpegel) erfolgen vor der Veranstaltung an geeigneten Orten. Diese beiden Messwerte sind während der Permanentmessung zu berücksichtigen. Messprotokoll Von den Permanentmessungen in dem 30-minütigen Zeitraster ist ein Messprotokoll anzufertigen, das folgende Angaben enthalten muss: –– Veranstalter und Name der Veranstaltung, –– Verfasser des Messprotokolls mit Unterschrift, –– Datum und Veranstaltungsort, –– Beurteilungspegel LAr und Spitzenschalldruckpegel LCpeak aller Beurteilungszeiten, –– Beginn und Ende der Messung, –– Beginn und Ende der Veranstaltung, –– zeitlicher Veranstaltungsverlauf, –– Verwendete Mess- und Kalibriergeräte, –– Ergebnis der Kalibrierung, –– Typ und Anordnung der genutzten Beschallungsanlage, –– Messpunkte: maßgeblicher Immissionsort und Ersatzimmissionsort, –– Korrekturwerte K1 und K2 und Art der Ermittlung, –– Bedienpersonal der Beschallungsanlage z. B. DJ, FOH-Techniker, Mischer.
11.2 Gesundheitsschutz
765
11.2.4.1 Konsequenz der DIN 15905-5 Schutzziel der [DIN 15905-5] ist, die „Reduzierung einer Gehörgefährdung des anwesenden Publikums“ bei öffentlichen Veranstaltungen zu gewährleisten. Dem liegt der Gedanke zugrunde, einen Konzertgenuss zu ermöglichen, ohne einen physischen Schaden davon tragen zu müssen. Die Grenzwerte und Randbedingungen stellen einen sinnvollen Kompromiss dar zwischen Publikumsschutz und Durchführbarkeit und orientieren sich auch an den Vorschriften und Normen europäischer Nachbarländer. Die Akzeptanz der Norm steigt, wenn sich alle in der Branche aktiven Berufsverbände für die Einhaltung der Norm einsetzen, wie beispielsweise der Verband der Konzertdirektionen Deutschland (VDKD) als Vertreter der Veranstalter, der Verband Deutscher Tonmeister (VDT) als Fachverband der Toningenieure und Tonmeister, der Verband für professionelle Licht und Tontechnik e.V. (VPLT) als Vertretung für die Beschallungsdienstleister, der Dachverband des Gastgewerbes (Deutsche Hotelund Gaststättenbetreiber, Dehoga) als Vertreter der Diskothekenbetreiber. Die Einhaltung der DIN 15905-5 erfordert bei den Betroffenen (Veranstaltern, Betreibern, Künstlern und Publikum) ein Verständnis für die gesundheitlichen Folgen einer zu hohen Schallexposition. Lauter ist nicht gleich besser. Die Grenzwerte Zeit und Pegel der Norm sind so gewählt, dass allein durch den Besuch einer einzigen Veranstaltung, bei der die genannten Beurteilungspegel eingehalten wurden, kein zusätzlicher Gehörschaden entstehen kann. 11.2.4.2 Die Praxis für Veranstaltungen Die Grenzwerte für die DIN 15905-5 sind aus den Bestimmungen zum Arbeitsschutz entnommen. Basis der Exposition sind hier eine Lärm- oder Schalldosis von 85 dB (A) bei einer wöchentlichen Expositionszeit von 40 Stunden entsprechend 3.640 Pa/s. Allerdings steigt das Gehörschadenrisiko oberhalb dieses Wertes erheblich. Hörschäden sind bei extensiver Exposition und bei besonders lauten Schallereignissen medizinisch erwiesen. Das Gehörschadensrisiko bei einer Schalldosis von 85 dB(A) für 40 Stunden, von 95 dB(A) für 4 Stunden oder von 98 dB(A) für 2 Stunden wird als vergleichbar beschrieben. Dies gilt jedoch nur bei ausreichend Zeit zur Erholung des Gehörs und ohne Berücksichtigung von Vorschäden aus zurückliegenden Schallereignissen. Auch sind die Überlegungen aus dem Lärmschutz am Arbeitsplatz nicht ohne weiteres auf Freizeitlärm zu übertragen im Sinne von „Schall ist ungleich Lärm“. Folgen für den Veranstalter und den Betreiber Durch die Erfüllung der [DIN 15905-5] kommen sowohl der Veranstalter als auch der Betreiber einer Veranstaltung der gesetzlich vorgeschrieben Verkehrssicherungspflicht nach. Eine Zuwiderhandlung macht ihn allerdings für alle durch die Beschallung aufgetretenen Schäden haftbar. Ein Veranstalter kann seiner Verkehrssicherungspflicht nur nachkommen, wenn er sachkundige Spezialisten mit der Durchführung der Messung beauftragt. Eine rechtswirksame Messung des Mittelungspegels LAr = LAeqT2 + K1 und des Spitzenschalldruckpegels LCpeak muss mit geeichtem Messgerät durchgeführt werden und protokolliert sein.
766
11 Arbeitssicherheit und Gesundheitsschutz
Aufklärung Die DIN 15905-5, wie auch die EG-Richtlinie [2003/10/EG] befassen sich mit den Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen (Lärm). Sie sprechen sowohl Zuhörer wie auch tätige Mitarbeiter bei öffentlichen Veranstaltungen an, wie z. B. Diskotheken, Open-Air-Konzerten etc. Neben der sachgerechten Aufklärung möglicher Gefährdungen von Gesundheit und Sicherheit durch Einwirkung von Lärm, insbesondere die Gefährdung des Gehörs, besteht überdies die Notwendigkeit, Arbeitnehmer, die aufgrund ihrer Arbeit einer Gefährdung durch Lärm ausgesetzt sind oder ausgesetzt sein können, auf entsprechende Regeln hinzuweisen. Eine Mitverantwortung für das Bedienpersonal kann nicht ausgeschlossen werden, auch wenn die DIN die Verkehrssicherungspflicht beim Veranstalter bzw. Betreiber sieht. Zusätzliche Ausbildungsgänge für Tonschaffende vermitteln umfassende und tiefergehende Kenntnisse. In Anbetracht drohender irreparabler Gesundheitsschäden, insbesondere bei Kindern und Jugendlichen, durch Freizeitlärm, sind Aufklärungsmaßnahmen vonnöten. Aufklärung über die persönlichen Konsequenzen eines geschädigten Gehörs der Betroffenen durch Lehrer, Eltern, Arzt, Jugend- oder Sozialarbeiter, aber auch über die Medien ist der richtige Weg. Schadenersatzforderungen von durch Lärm geschädigten Personen werden heute in aller Regel von den Gerichten anerkannt; sie sehen den Veranstalter in der Pflicht, normgerechte Messungen durchzuführen. 11.2.4.3 Probleme der Norm DIN-15905-5 Kleinere Veranstaltungsstätten werden mit der Einhaltung der Norm gelegentlich Probleme haben. Das Hauptproblem ist hier der Kurzzeitmittelungspegel. In einem Veranstaltungsort, bei dem es z. B. keine klare Abgrenzung zwischen dem Bühnen- und dem Zuschauerbereich
Abb. 11/4. Beschallungsanlage mit Pegelbegrenzern.
11.2.5 Elektrische Sicherheit
767
gibt, wirkt der Pegel der Band auf der Bühne ungedämpft auf die Zuhörer. Umgekehrt wird die PA bei großen Veranstaltungen „geflogen“, um ein gleichmäßiges Beschallungsfeld zu erreichen. Es ist nicht unüblich unterhalb der hoch hängenden Lautsprecher-Stacks jeweils die Sub-Basse anzuordnen, gerne auch mit Absperrgitter in geringem Abstand. Der zugelassene Spitzenschallpegel von 135 dB kann dann leicht erreicht werden, Eine sinnvolle Unterteilung der Größe einer Veranstaltungsstätte konnte in der Norm nicht gefunden werden. Es lassen sich für eine vernünftige Pegelbegrenzung auf der Bühne jedoch durchaus technische Lösungen finden, wie z. B. das Einhausen des Schlagzeugs mit Plexiglaswänden, die Nutzung von In Ear Monitoring-Systemen oder die sorgfältige Verwendung von Begrenzern (Abb. 11/4). Insgesamt scheint die Akzeptanz der Norm zugenommen zu haben, da sie sich als praxisgerecht erwiesen hat, zumal sich nach wie vor viele Technikerinnen und Techniker auf Lehrgängen zum Sachkundigen für Schallpegelmessungen bei Veranstaltungen ausbilden lassen.
11.2.5 Elektrische Sicherheit Spätestens seit dem Inkrafttreten des Arbeitsschutzgesetzes im Jahre 1996 [ArbSchG, 1996] ist jeder Unternehmer gesetzlich verpflichtet, für eine geeignete Organisation des Arbeitsschutzes in seinem Unternehmen zu sorgen. Hierbei ist die Beachtung der Arbeitssicherheit eine notwendige Voraussetzung für das Ausführen jeglicher Arbeit. Der Gesetzgeber wendet sich mit dem Arbeitsschutzgesetz in erster Linie an den Unternehmer und verpflichtet ihn, die Sicherheit und den Gesundheitsschutz der Beschäftigten bei der Arbeit durch geeignete Maßnahmen des Arbeitsschutzes zu gewährleisten. Neben dem staatlichen Recht werden in den berufsgenossenschaftlichen Vorschriftenwerken weitere Anforderungen an den Unternehmer zum Schutz der Beschäftigten bei der Arbeit gestellt. Zur Abwehr von Gefahren sind die Mindestanforderungen in den unterschiedlichen Bereichen in weitergehenden Vorschriften, Normen und Richtlinien festgelegt. Ihre Beachtung ist oberstes Gebot bei der Arbeit. Für die öffentlich-rechtlichen Rundfunkanstalten sind die einschlägigen gesetzlichen Bestimmungen sowie zusätzliche interne Anweisungen in den Richtlinien für Arbeitssicherheit und Gesundheitsschutz ARD/ZDF [UVR von ARD/ZDF] zusammengefasst. Auf die umfangreichen gesetzlichen Vorgaben, Normen und Richtlinien soll an dieser Stelle nicht weiter eingegangen werden. Bezüglich der Verantwortlichkeit für die Umsetzung der Arbeitssicherheit ist der Unternehmer Adressat der gesetzlichen Vorgaben. Er hat im Rahmen seiner Organisationsverantwortung eine funktionierende Arbeitsschutzorganisation im Betrieb zu installieren und mit der Kontrollverantwortung für die Angemessenheit der Maßnahmen zu sorgen. Kann der Unternehmer auf Grund der Art oder Größe des Betriebes diese Aufgaben nicht alleine wahrnehmen, muss er diese Aufgaben auf seine Führungskräfte übertragen. Diese tragen dann die Unternehmerverantwortung für diesen Teil der Arbeitssicherheit. Bei der Ausübung ihrer Tätigkeit sind die Arbeitnehmer durch die gesetzliche Unfallversicherung abgesichert. Der Versicherungsschutz umfasst Arbeitsunfälle, Wegeunfälle und Berufskrankheiten. Die Versicherungsprämien entrichtet der Arbeitgeber. Träger der gesetzlichen Unfallversicherung sind die Berufsgenossenschaften als Körperschaften des öffentlichen Rechts. Die zentralen Aufgaben der
768
11 Arbeitssicherheit und Gesundheitsschutz
Berufsgenossenschaften bestehen darin, mit allen geeigneten Mitteln Arbeits- und Wegeunfälle sowie Berufskrankheiten zu vermeiden sowie eine wirksame Erste Hilfe in den Betrieben zu überwachen. 11.2.5.1 Produktionsstätten beim Hörfunk Die Richtlinien für Arbeitssicherheit und Gesundheitsschutz ARD/ZDF (UVR) enthalten umfassende Bestimmungen für Produktionsstätten bei Hörfunk, Fernsehen, Film und Veranstaltungen. Im Folgenden sind einige relevante Punkte zur elektrischen Sicherheit verkürzt genannt: Elektrische Anschlüsse Elektrische Anlagen und Betriebsmittel dürfen nur von Elektrofachkräften oder unter Leitung und Aufsicht einer Elektrofachkraft errichtet, geändert und instandgehalten werden. Sind Eingriffe in das Energieversorgungsunternehmer-Netz (EVU-Netz) erforderlich, hat dies nur durch Elektrofachkräfte unter der Verantwortung des Konzessionsträgers zu erfolgen. Elektrischer Anschluss von Übertragungswagen Der Netzanschluss für ein Übertragungsfahrzeug erfolgt grundsätzlich über einen Zwischentransformator der die Anforderungen für Trenntransformatoren nach [DIN EN 61558-2-4] erfüllen muss. Darüber hinaus müssen alle Betriebsmittel, die zum Netzanschluss des Übertragungsfahrzeuges dienen, z. B. Stecker, Schalter, Zuleitungen, Leitungseinführung, Transformatoren, die Anforderungen der Schutzisolierung nach [DIN VDE 0100 Teil 410] erfüllen. Beim Einsatz von Übertragungswagen sind die elektrotechnischen Anforderungen gemäß [DIN VDE 0100-717] zu beachten. Die hier allgemein beschriebenen Maßnahmen, die Schutzmaßnahmen sowie die Auswahl und Errichtung elektrischer Betriebsmittel gelten sowohl für den einzelnen Ü-Wagen, wie auch für das Zusammenschalten mehrerer Fahrzeuge. Bei der Zusammenschaltung von Ü-Fahrzeugen oder transportablen Betriebsstätten sind die Schutzmaßnahmen gegen zu hohe Berührungsspannungen aufeinander anzustimmen. Tonleitungen sollen galvanisch getrennt, d. h. über einen Trennübertrager (Trenntrafo) zusammengeschaltet werden. Steckdosen in fremden Häusern Vor dem Anschließen elektrischer Betriebsmittel sind die Steckdosen auf richtigen Anschluss der Außenleiter und des Schutzleiters zu überprüfen. Die Prüfung kann auch von elektrotechnisch unterwiesenen Personen mit geeignetem Prüfgerät durchgeführt werden. Bei Spannung führendem Schutzleiter darf die Steckdose unter keinen Umständen benutzt werden. Bei fehlendem Schutzleiter ist entweder auf eine ordnungsgemäße Steckdose auszuweichen oder es ist ein Trenntrafo, ein Schutzschalter nach [DIN VDE 0661] oder ein Anschlusskasten mit RCD-Schutzschalter (≤ 30 mA und Ersatzerde) zu verwenden. Geräte der Schutzklasse II sind hiervon ausgenommen. Wird eine RCD-Sicherheitseinrichtung nach DIN VDE 0661 verwendet, ist die Einhaltung der Schutzmaßnahme der Steckdose nach dem RCD-Schutzschalter mit geeignetem Prüfgerät zu prüfen.
11.2.5 Elektrische Sicherheit
769
11.2.5.2 Kabelverlegung Kabel dürfen im öffentlichen Verkehrsraum erst dann verlegt werden, wenn die erforderlichen behördlichen und/oder privaten Zustimmungen vorliegen. Die Zustimmung ist auch für andere Aufbauten oder Installationen erforderlich. Kabel müssen so verlegt werden, dass Beschädigungen vermieden werden. Senkrecht geführte Kabel sind mit Fangleinen zu halten und an Knickstellen besonders zu schützen. Über Verkehrswegen müssen Kabel in ausreichender Höhe gespannt und mit Abspannseilen entlastet werden. Eine Stolpergefahr durch auf den Verkehrsflächen verlegte Kabel ist durch geeignete Abdeckungen o. ä. auszuschließen; zusätzlich ist mit Schildern auf diese Gefahr hinzuweisen. Netzkabel zu Geräten auf Stativen müssen im Bereich des Stativfußes eine ausreichende Zugentlastung haben. Beschädigte Kabel dürfen nicht verwendet werden. Abgehängte Mikrofone und Lautsprecher Grundsätzlich sind Arbeitsmittel zum Bewegen oder Halten von Lasten über Personen so zu gestalten und zu betreiben, dass die Lasten über die gesamte Benutzungsdauer sicher gehalten werden. Hierbei erfolgt die Dimensionierung der Arbeitsmittel nach dem Prinzip der Eigensicherheit (Überdimensionierung). Ebenso kann als Maßnahme auch das Prinzip der Einfehlersicherheit (Sicherungselemente oder Sekundärsicherung) eingesetzt werden. Voraussetzung für beide Methoden sind konstruktive Mindestanforderungen an die verwendeten Arbeitsmittel. Nur wenn durch eine Beurteilung der Gefährdung nachvollziehbar festgestellt worden ist, dass hängende Lasten beim Herunterfallen keine gesundheitlichen Schädigungen hervorrufen, kann von den grundsätzlichen Sicherungsanforderungen abgewichen werden. Dies kann beispielsweise bei Mikrofonabhängungen, bei denen die Zugentlastung tragende Funktion hat, der Fall sein. 11.2.5.3 Anschluss elektrischer Geräte und Musikanlagen Elektrische Geräte und Musikanlagen, die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter der Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Zu den besonderen Schutzmaßnahmen zählen insbesondere Schutzkleinspannung, Schutztrennung mit geeigneten Transformatoren und RCD Schutzeinrichtung mit einem Auslösestrom von ≤ 30mA. Elektrische Musikanlagen müssen grundsätzlich über einen Trenntransformator angeschlossen werden. Transportable elektrische Anlagen und Geräte sind vor jedem Einsatz auf Funktionsfähigkeit und mechanischen Zustand sowie auf einwandfreien Zustand der beweglichen Anschlussleitungen durch Sichtkontrolle zu prüfen. 11.2.5.4 Gefahren des elektrischen Stroms Bei unsachgemäßer Handhabung der elektrischen Energie kann es durch direkte oder indirekte Einwirkungen des Stroms auf Menschen zu schwersten Unfällen kommen. Unfälle entstehen bei Durchströmung über das Herz, bei Lichtbogenunfällen durch Verbrennungen oder als Sekundärunfälle als Folge von Durchströmungs- oder Lichtbogenunfällen.
770
11 Arbeitssicherheit und Gesundheitsschutz
Abb. 11/5. Gefährdung durch das Stromnetz.
Der elektrische Durchströmungsunfall ist die Folge einer Durchströmung des Herzens durch den elektrischen Strom. Dabei können die Folgen von der reinen Wahrnehmung des Stroms ab 2 mA, über Muskelkrämpfe und Schwierigkeiten beim Loslassen des stromführenden Leiters ab 15 mA, über Bewusstlosigkeit ab 50 mA, über Herzkammerflimmern ab 80 mA und Herzstillstand bei Strömen bis 300 mA und bis zu tödlichen Verletzungen mit Herzstillstand und inneren Verbrennungen bei elektrischen Strömen über 3000 mA führen. Tab. 11/4. Vergleich der alten und neuen Bezeichnungen des Stromnetzes. Alte Bezeichnung R S T Mp SL NL =SL/Mp
Neue Bezeichnung → → → → → →
L1 L2 L3 N (Neutralleiter) PE (Protection-Earth) PEN (Protection-Earth Neutral)
Bei Lichtbogenunfällen treten äußere Verbrennungen, aber auch Vergiftungserscheinungen durch Verdampfung von Kabelmaterial auf. Auch geringfügige Primärunfälle durch elektrischen Strom können schwere Sekundärunfälle verursachen, wenn der Betroffene z. B. auf einer Leiter arbeitet und durch die Stromeinwirkung auch nur erschreckt wird und abstürzt. Beim Umgang mit netzbetriebenen elektrischen Anlagen und Betriebsmitteln besteht eine besondere Gefahr dadurch, dass das Versorgungsnetz geerdet ist. Nicht nur das gleichzeitige Berühren von zwei elektrischen Leitern mit unterschiedlichem Potenzial (Außen- und Neutralleiter), sondern auch der direkte oder indirekte Kontakt mit nur einem der Spannung füh-
11.2.5 Elektrische Sicherheit
771
renden Leiter ist lebensgefährlich. Auch in diesem Fall wird ein Potenzial überbrückt, denn durch die Erdung des Neutralleiters besteht zwischen Außenleiter und Erde eine Spannung von 230 V. Wie in Abb. 11/5 dargestellt, kann bei Berühren eines Außenleiters ein tödlicher Strom über den Menschen zur Erde fließen. Die Stromstärke I ist im Wesentlichen abhängig von der Spannung U gegen Erde, der Größe des Übergangswiderstandes Rü am Standort zur Erde, vom Schuhwerk und von der Bodenbeschaffenheit sowie dem Widerstand RM des Menschen, der u. a. abhängig von der Hautfeuchtigkeit ist. 11.2.5.5 Schutz vor einem elektrischen Schlag Allgemeine Anforderungen Eine Schutzmaßnahme gegen einen elektrischen Schlag besteht immer aus einer geeigneten Kombination von zwei unabhängigen Schutzvorkehrungen, d. h., einer Basisschutzvorkehrung und einer Fehlerschutzvorkehrung, oder auch einer verstärkten Schutzvorkehrung, die den Basisschutz und auch den Fehlerschutz bewirkt. Allgemein gebräuchlich sind folgende Schutzmaßnahmen: –– Schutz durch automatische Abschaltung der Stromversorgung –– Schutz durch doppelte oder verstärkte Isolierung –– Schutz durch Schutztrennung für die Versorgung eines Betriebsmittels –– Schutz durch Kleinspannung mittels S-ELV oder P-ELV (siehe folgende Unterkapitel) Bei der Basisschutzvorkehrung handelt es sich um den Schutz gegen direktes Berühren von Strom durchflossenen Leitern, die Fehlerschutzvorkehrung definiert den Schutz gegen indirekte Berührung. Elektrische Anlagen und Geräte müssen so beschaffen sein, dass Spannung führende Teile gegen direktes Berühren geschützt sind. Das kann dadurch geschehen, dass Spannung führende Teile in ihrem ganzen Verlauf isoliert oder durch ihre Bauart, ihre Anordnung bzw. durch besondere Vorrichtungen gegen direktes Berühren geschützt sind. Beispiele hierfür sind: Isolierung von Leitungen und Steckverbindungen, Einbau in geschlossene Gehäuse und bei Freileitungen die Verlegung außerhalb des Handbereichs. Weiterhin müssen elektrische Betriebsmittel gegen indirektes Berühren geschützt sein, d. h., berührbare Gehäuseteile dürfen auch im Störungsfall keine gefährliche Spannung führen. Dies wird in erster Linie durch eine zuverlässige Betriebsisolierung der aktiven, Spannung führenden Teile, und durch eine sorgfältige Errichtung der Anlage durch Elektrofachleute erreicht. Dennoch ist nicht auszuschließen, dass ein elektrisches Gerät durch Alterung, unsachgemäße Reparatur, Eindringen von Fremdkörpern, Feuchtigkeit oder durch mechanische Beschädigung fehlerhaft wird. Dabei können Isolationsfehler oder Körperschlüsse auftreten, die eine lebensgefährliche Spannung an Gehäuseteilen zur Folge haben. Um auch in diesem Fall einen größtmöglichen Schutz zu erreichen, sind zusätzliche Schutzmaßnahmen gegen gefährliche Berührungsspannungen erforderlich. Fehlerstrom –Schutzschaltung (RCD) Die Fehlerstrom-Schutzschaltung RCD (Residual Current protective Device) ist seit 2002 der Sammelbegriff für Schutzeinrichtungen mit und ohne Hilfsspannungsquelle (s. Abb. 11/6).
772
11 Arbeitssicherheit und Gesundheitsschutz
Abb. 11/6. RCD-Einteilung.
Die Fehlerstrom-Schutzeinrichtung bewirkt, dass der Stromkreis allpolig abgeschaltet wird sobald ein Fehlerstrom gegen Erde fließt, der den Nenn-Fehlerstrom des Schalters übersteigt (Abb. 11/7). Die Fehlerstrom-Schutzeinrichtung (RCD) spricht also auch auf Fehler an, die auf den Zuleitungen zum Verbraucher auftreten können, z. B. beschädigte Leitungen, über die ein Fehlerstrom zur Erde fließt. Die RCD-Schutzschaltung nach [VDE 0100-410] verlangt eine direkte Erdung der zu schützenden Verbrauchsmittel. Bei ortsveränderlichen Geräten, die über Steckverbindungen angeschlossen werden, ist eine derartige direkte Erdung dagegen in der Regel nicht möglich.
Abb. 11/7. RCD-Schutzschaltung.
Es sind aber sog. Sicherheitssteckdosenleisten (Personenschutzautomaten) im Gebrauch, die nach dem Prinzip der H-Schutzschaltung arbeiten. Allerdings wird bei diesem Verfahren die Erdung der Verbraucher indirekt über den Schutzleiter und den Schutzkontakt der Speisesteckdose vorgenommen. Die Speisesteckdose muss also einen wirksamen Schutzkontakt haben und das anzuschließende Gerät die Schutzmaßnahme „Nullung mit separatem Schutzleiter“. Sollte dies nicht der Fall sein, kann mit einer Hilfserde die Steckdosenleiste und/oder der Verbraucher geerdet werden. Durch den sehr kleinen Nenn-Fehlerstrom der verwendeten H-Schalter (30 mA, 15 mA) ist ein wesentlich besserer Schutz zu erwarten, als mit alleiniger Nullung möglich ist. Der RCD-Schalter mit 15 mA Nennfehlerstrom schaltet bereits bei einem Fehlerstrom ab, der normalerweise für den Menschen ungefährlich ist. Auch die Abschaltzeit
11.2.5 Elektrische Sicherheit
773
ist wesentlich schneller als z. B. mit einer Schmelzsicherung. Aus diesem Grund bezeichnet man das Verfahren auch als die sog. schnelle Nullung. Schutzisolierung Zusätzlich zur Betriebsisolierung wird durch eine zweite isolierende Abdeckung oder durch Verwendung von isolierendem Material dafür gesorgt, dass auch im Fehlerfall das Gehäuse keine Spannung annehmen kann, wie in Abb. 11/8 dargestellt.
Abb. 11/8. Schutzisolierung.
Hierbei werden 2-adrige Zuleitungen ohne Schutzleiter verwendet. Der Anschlussstecker hat keinen Schutzkontakt. Anwendungsbeispiele: Schutz-/Vollisolierte elektrische Werkzeuge, Haushaltsgeräte, Trenntransformatoren, Netzteile für Schutzkleinspannung, Radio- und Fernsehempfänger. Nullung mit separatem Schutzleiter Über einen separaten Schutzleiter (PE-Leiter, grün-gelb markiert), der im Hausanschlusskasten mit dem Null- oder Neutralleiter verbunden ist, wird eine leitende Verbindung zwischen dem Gehäuse des Gerätes und Erde hergestellt, siehe Abb. 11/9. Dadurch kann kein Potenzial zur Erde entstehen. Im Fehlerfall (Isolationsfehler, vollkommener Körperschluss) wird der Fehlerstrom über den niederohmigen Schutzleiter zur Erde abgeleitet. Bei Erreichen des Nennstromes der vorgeschalteten Sicherung wird der Stromkreis abgeschaltet. Dies ist die am häufigsten angewendete Schutzmaßnahme. Alle ortsveränderlichen bzw. über Steckverbindungen anzuschließenden Geräte werden mit dieser Schutzmaßnahme ausgestattet, es sei denn, sie sind schutzisoliert. Das Wichtigste an dieser Schutzmaßnahme ist der jederzeit vorschriftsmäßige Anschluss des Schutzleiters am Gerät und am Stecker sowie eine richtig installierte Schutzkontaktsteckdose. Es muss besonders beachtet und in regelmäßigen Abständen überprüft werden, ob –– der Schutzleiter (PE) immer richtig an Stecker, Kupplung und Gehäuse des Verbrauchers angeschlossen ist, –– die Schutzkontakte an Steckdose, Stecker und Kupplung immer einen guten Kontakt zueinander haben und nicht z. B. durch Farbe oder Schmutz, einen Übergangswiderstand aufweisen,
774
11 Arbeitssicherheit und Gesundheitsschutz
–– der grün-gelbe Schutzleiter nach einer Auswechslung von Stecker oder Zuleitung immer so angeschlossen ist, dass er im Falle des Herausreißens der Leitung die größte Zugreserve hat und somit als letzter Leiter abreißt. Bei Versagen der Zugentlastung ist somit das Gehäuse des Gerätes auch dann noch über den PE-Leiter geerdet, wenn die stromführenden Leiter schon aus den Anschlussklemmen herausgerissen sind.
Abb. 11/9. Nullung mit separatem Schutzerder.
Schutztrennung
Abb. 11/10. Schutz durch Schutztrennung.
Die Schutztrennung ist die galvanische Trennung des Verbrauchers vom speisenden, geerdeten Netz mit Hilfe eines Trenntransformators. Das Sekundärnetz darf nicht geerdet werden. Mit dieser Maßnahme wird erreicht, dass selbst bei einem fehlerhaften Verbraucher keine Spannung gegen Erde auftreten kann, siehe Abb. 11/10. Bei der Schutztrennung darf jeweils nur ein Verbraucher über einen Trenntrafo betrieben werden. Diese Schutzmaßnahme ist im Zweifelsfall jeder anderen vorzuziehen. Anwendungsbeispiele hierfür sind die Versorgung von elektrischen Musikanlagen über einen Trenntrafo, oder allgemein die Inbetriebnahme von Fremdgeräten, bei denen eine wirksame Schutzmaßnahme nicht sichergestellt ist.
11.2.5 Elektrische Sicherheit
775
Schutzerdung Bei der Schutzerdung werden Gehäuse, Gestelle und Eisenkonstruktionen unmittelbar mit Erdern oder geerdeten Teilen verbunden (Abb. 11/11). Dadurch kann nie ein gefährliches Potenzial zwischen leitenden Anlagenteilen und Erde auftreten.
Abb. 11/11. Schutzerdung.
Bei einem Isolationsfehler oder vollkommenem Körperschluss wird der Fehlerstrom zur Erde abgeleitet. Bei Erreichen des Nennstroms der vorgeschalteten Sicherung erfolgt eine Abschaltung des Stromkreises. Anwendungsbeispiele sind fest installierte Großanlagen, Gestellschränke, Motoren etc. Da die Verbindung mit Erde über einen großen Leiterquerschnitt erfolgen muss und sich die Verbindung nur mit Werkzeugen lösen lässt, ist diese Schutzmaßnahme für ortsveränderliche Verbraucher, die über Steckverbindungen angeschlossen werden, nicht anwendbar. Schutz durch Kleinspannung mittels S-ELV oder P-ELV Der Schutz durch Kleinspannung (ELV, Extra Low Voltage) besteht prinzipiell darin, dass die Spannung auf vergleichsweise niedrige Werte begrenzt wird und damit weniger gefährlich ist (s. Abb. 11/12). Die Begriffe SELV und PELV haben ihren Ursprung in den verwendeten englischen Begriffen (S = Safety, P = Protective).
Abb. 11/12. Schutz durch Schutzkleinspannung.
776
11 Arbeitssicherheit und Gesundheitsschutz
SELV und PELV-Systeme müssen eine sichere Trennung von allen anderen Stromkreisen, die nicht SELV oder PELV-Stromkreise sind, aufweisen. Auf der Sekundärseite müssen spezielle, unverwechselbare Steckverbindungen verwendet werden. Die Schutzmaßnahmen Schutz durch Kleinspannung mittels SELV oder PELV gelten als besonders sichere Schutzmaßnahmen, die deswegen teilweise in Sonderbestimmungen als einzige Alternative, jedoch mit Einschränkungen, zugelassen sind. Unter normalen Umgebungsbedingungen sind für den Schutz gegen elektrischen Schlag die Schutzmaßnahmen durch Kleinspannung mittels SELV oder PELV immer zulässig.
11.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen Vor dem Anschließen eines elektrischen Geräts an das Stromnetz ist durch Sichtprüfung der äußere Zustand zu kontrollieren. Das Gerät darf nicht angeschlossen werden, wenn Teile des Gehäuses fehlen oder beschädigt sind, wenn die Zuleitungen oder Steckverbindung defekt oder ein Fremdkörper oder Feuchtigkeit in das Gerät eingedrungen sind. Bei Anlagen mit Fehlerstromschutzeinrichtungen (RCD Schutzschalter) ist vor Arbeitsbeginn der ordnungsgemäße Zustand der RCD durch Drücken der Prüftaste (T) sicherzustellen. Der Schalter muss auslösen. Andernfalls darf die Anlage nicht in Betrieb genommen werden. Bei Steckdosen in fremden Häusern ist vor der Benutzung mit dafür vorgesehenen Prüfeinrichtungen sicherzustellen, dass der Schutzkontakt wirksam ist. Beim Anschluss von schutzisolierten Geräten ist kein Schutzkontakt erforderlich, eine Überprüfung der Speisesteckdose erübrigt sich. Elektrische Musikanlagen dürfen nur über einen Trenntransformator angeschlossen werden. Geräte, bei denen ein ordnungsgemäßer Zustand nicht mit letzter Sicherheit anzunehmen ist, z. B. Fremdgeräte, Geräte ohne VDE-Zeichen und Geräte mit „unzuverlässigem Äußeren“, dürfen ebenfalls nur über einen Trenntransformator angeschlossen werden. Bei der Verwendung von Trenntransformatoren ist unbedingt zu beachten, dass für jeden Verbraucher ein eigener Trenntrafo verwendet wird. Beim Anschluss von zwei oder mehreren Verbrauchern an den gleichen Trenntransformator wird die Schutzmaßnahme wirkungslos. In ungünstigen Fällen kann zwischen den Gehäusen der beiden Geräte volle Netzspannung liegen. Ein Überbrücken dieses Potenzials durch den Menschen z. B. über die Abschirmung von Mikrofonkabeln und Tonabnehmern der Gitarre kann zu einem tödlichen Stromschlag führen. 11.2.6.1 Anschluss ortsveränderlicher Musikanlagen Ortsveränderliche elektrische Musikanlagen, die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Bei allen Produktionen ist vor dem Herstellen des Stromanschlusses dessen Fehlerfreiheit auf der Einspeiseseite festzustellen. Zu den besonderen Schutzmaßnahmen gehören insbesondere die Schutzkleinspannung, die Schutztrennung, die Schutzisolierung bei trockener Umgebung sowie die Fehlerstromschutzeinrichtungen (RCD) mit einem Nennfehlerstrom ≤ 30m A.
11.2.5 Elektrische Sicherheit
777
Allgemeingültige Maßnahmen Elektrische Betriebsmittel von ortsveränderlichen elektrischen Musikanlagen, die den einschlägigen VDE-Bestimmungen entsprechen oder die als solche gekennzeichnet sind, wie z. B. durch VDE- oder GS-Zeichen, und keine äußerlich erkennbaren Mängel aufweisen, können unmittelbar an das Stromnetz angeschlossen werden. Zum brummfreien Betrieb von ortsveränderlichen Musikanlagen, die diesen Anforderungen entsprechen, dürfen deren Gehäuse, Schirmungen oder Bezugsleiter von NF-Signalstromkreisen mit gemeinsamem Bezugspotenzial (Funktionserdung oder Funktions- und Schutzerdung) mittelbar oder unmittelbar verbunden werden. Ist eine VDE-gemäße Ausführung der ortsveränderlichen elektrischen Musikanlage nicht eindeutig feststellbar, so muss jedes netzbetriebene elektrische Betriebsmittel der Anlage über je einen eigenen Trenntrafo an das Netz angeschlossen werden. Rundfunkspezifische Maßnahmen Die in Abb. 11/13 beschriebenen Maßnahmen müssen eingehalten werden, sobald eine Rundfunkanstalt als Betreiber der Produktionsstätte oder als Veranstalter auftritt, aber auch, wenn sie lediglich an der Produktion beteiligt ist. a) Die Rundfunkanstalt ist Betreiber der Produktionsstätte und/oder Veranstalter der Produktion: Der Stromanschluss muss nach den oben genannten allgemeingültigen Maßnahmen erfolgen. Wenn ein Trenntrafo wegen zu hoher Leistungsaufnahme der Musikanlage nicht verwendet werden kann, muss eine Fehlerstrom-Schutzeinrichtung (RCD) mit einem Nennfehlerstrom von ≤ 30 mA benutzt werden. Die Anwendung der RCD-Schutzeinrichtung muss von Elektrofachkräften oder, bei Benutzung geeigneter Prüfgeräte, auch von besonders unterwiesenen und beauftragten Personen vor der Inbetriebnahme auf seine Wirksamkeit überprüft werden. Fremde Teilnehmer an der Produktion haben die von der Rundfunkanstalt galvanisch getrennten NF-Anschlüsse zu übernehmen, die Anschlüsse dürfen nicht geändert werden. b) Die Rundfunkanstalt ist an der Produktion beteiligt, die von Dritten veranstaltet werden: Die Mitarbeiter der Rundfunkanstalten sind verpflichtet, Mikrofone, Übertrager usw. nur über Trennverstärker, z. B. Mikrofontrennverstärker, zu betreiben. Sicherheit auf Bühnen Elektrische Stromunfälle auf Bühnen oder im Studio sind immer die Folge von fehlerhaften Geräten, Installationen oder unzulässigen Arbeitsgewohnheiten. Entspricht die elektrische Hausinstallation den einschlägigen Vorschriften, sind alle angeschlossenen Geräte einwandfrei in Ordnung und werden vorschriftsmäßig zusammengeschaltet, so geht von der Anlage keine Gefahr aus. Da der ordnungsgemäße Zustand aller Anlagenteile vielfach nicht sichergestellt ist, muss der Verantwortliche besondere Vorkehrungen treffen.
778
11 Arbeitssicherheit und Gesundheitsschutz
Abb. 11/13. Anschluss ortsveränderlicher elektrischer Musikanlagen.
11.2.5 Elektrische Sicherheit
779
Abb. 11/14. Lebensgefährliche Situation bei einer fehlerhaften Musikanlage.
In Abb. 11/14 ist eine typische Situation gezeigt, die für den Musiker und andere Mitwirkende Lebensgefahr bedeuten kann: Der dargestellte Musiker bringt seinen Gitarrenverstärker mit auf die Bühne und benutzt außerdem ein Gesangsmikrofon, das an eine getrennte Gesangsanlage angeschlossen ist. Der Gitarrenverstärker ist bspw. ein Gerät ohne Schutzmaßnahme gegen zu hohe Berührungsspannung oder ist durch eine unsachgemäße Reparatur oder Änderung der vorgesehenen Schutzmaßnahme gegen Stromunfälle wirkungslos geworden. Auf dem Gehäuse des Gitarrenverstärkers liegt nun u. U. das volle Netzpotenzial von 230 V gegen Erde. Über den unsymmetrischen Klinkenanschluss der Gitarre gelangt dieses Potenzial auf den Leitungsschirm und damit auf den Tonabnehmer und das Griffbrett der Gitarre, aber auch auf die Stahlsaiten. Berührt der Musiker nun gleichzeitig eine geerdete Masse oder sind Metallteile des Bühnenbodens an Erdpotenzial gelegt, kann es zu gefährlichen, oft tödlich endenden Stromunfällen kommen. Bedauerlicherweise ist der genannte Fall nicht konstruiert. Dass es in solchen Situationen nicht grundsätzlich zu Unfällen kommt, liegt daran, dass das benutzte Mikrofon nicht immer geerdet ist und der Bühnenboden oder das Holzpodest keine Verbindung zur Erde besitzt. Dies kann sich aber leicht ändern, wenn z. B. über ein geerdetes Scheinwerferstativ metallische Bühnenteile auf Erdpotenzial gelegt werden. Um in dem skizzierten Beispiel und ähnlichen Situationen eine Gefahr auszuschließen, muss ein geschlossener Stromkreis von 230 V auf Erdpotenzial unterbrochen werden. Dies ist durch die Schutztrennung mit einem Netz-Trenntransformator, in dem Beispiel also zwischen Gitarrenverstärker und seinem Netzanschluss, zu erreichen. Zusätzliche Sicherheit bieten Trennübertrager, sog. DI-Boxen, die zwischen Mikrofon und Tonregie die Verbindung zum Erdpotenzial unterbrechen; sie bieten zusätzlich die Anpassung der Leitungsführung sowie des Pegels und Verzweigungsmöglichkeiten.
780
11 Arbeitssicherheit und Gesundheitsschutz
11.2.7 Verhalten bei Stromunfällen Hier kommen sowohl Hochspannungsunfälle als auch z. B. Unfälle durch schadhafte elektrische Geräte in Frage. Tab. 11/5. Verhalten bei Stromunfällen Folgende Anzeichen lassen auf einen Stromunfall schließen:
Maßnahmen
Muskelverkrampfungen: Solange der Strom wirkt, verkrampfen sich die Muskeln des Betroffenen. Er kann dadurch unter Umständen die Stromleitung nicht mehr loslassen. Strommarken: An den Stellen, an denen der Strom in den Körper eingetreten bzw. aus dem Körper ausgetreten ist, entstehen sog. Strommarken. Verbrennungen mit Brandwunden. Bewusstlosigkeit: Es kann zu Bewusstlosigkeit, Atemstillstand und Herzflimmern kommen.
Eigensicherung beachten! Zuallererst den Stromfluss unterbrechen Bei 220/240 Volt Wechselstrom bzw. 380/400 Volt Drehstrom dazu den Stecker ziehen oder die Sicherung bzw. den Hauptschalter betätigen. Nur wenn dies nicht möglich ist, muss versucht werden, den Betroffenen mit Hilfe nichtleitender Gegenstände wie trockene (!) Kleidungsstücke, Decken oder Holzgegenständen von der Stromquelle zu trennen. Dabei muss der Helfer – insbesondere in feuchten Räumen – darauf achten, dass er selbst auf einer isolierenden Unterlage steht und keine anderen Gegenstände berührt.
Bei Hochspannungsunfällen kann der Ersthelfer nur den Notruf veranlassen, da der Strom über mehrere Meter überspringen kann (Sicherheitsabstand von 5 m für Helfer erforderlich). Hier kann ausschließlich Fachpersonal den Betroffenen aus dem Gefahrenbereich retten. Erst danach ist weitere Hilfe möglich.
Versorgung des Betroffenen: Bewusstsein kontrollieren:
Notruf:
Die typischen Anzeichen für einen Verlust des Bewusstseins sind: Der Betroffene reagiert nicht, wenn er angesprochen wird, auch nicht bei lautem Ansprechen. Er reagiert auch nicht auf körperliche Berührung, z. B. Anfassen an der Schulter oder am Arm (den Betroffenen nicht durchschütteln!). Bei tiefer Bewusstlosigkeit sind die Muskeln völlig schlaff. Der Notruf ist möglichst schnell durchzuführen, am besten durch einen Helfer, der nicht mit lebensrettenden Maßnahmen beschäftigt ist. Der Ersthelfer kann z. B. eine weitere Person ansprechen. Notfallopfer sollten während des Notrufs möglichst nicht allein gelassen werden. Bundesweit einheitliche Notrufnummer: 112 (Notrufzentrale / Rettungsleitstelle).
Standards
781
Die folgenden fünf W-Fragen sind beim Notruf möglichst genau zu beantworten:
Angaben beim Notruf
Wo?
Der Ort des Notfalls sollte möglichst genau beschrieben werden (Ort, Straße, Hausnummer, Stockwerk oder Kilometer an der Autobahn), damit die Rettungskräfte nicht lange suchen müssen. Die Notfallsituation sollte kurz beschrieben werden (Verkehrsunfall, Brand, Stromunfall, Erkrankung), damit die Leitstelle weiß, welche Maßnahmen sie ergreifen soll. Damit die Leitstelle genügend Fahrzeuge und Personal einsetzt. Gibt es lebensbedrohliche Zustände (Herz-Kreislauf-Stillstand, Atemstillstand, Bewusstlosigkeit, starke Blutung, Verbrennung, Vergiftung, elektrischer Strom), damit gegebenenfalls z. B. Hubschrauber oder Notarzt eingesetzt werden. Grundsätzlich gilt: Der Notruf ist erst dann beendet, wenn die Leitstelle keine Fragen mehr hat, nicht selbst vorher auflegen! Die Leitstelle fragt unter Umständen z. B. nach dem Namen des Anrufers. Ruhelage herstellen. Bewusstlosigkeit mit normaler Atmung: Stabile Seitenlage, Bewusstsein und Atmung überwachen. Bewusstlosigkeit ohne normale Atmung: Herz-Lungen-Wiederbelebung (30 x Herzdruckmassage, 2 x Beatmung). Wenn AED vorhanden, AED anlegen und dessen Anweisungen folgen. Ununterbrochen fortfahren bis Atmung und Puls wieder einsetzen oder der Rettungsdienst den Patienten übernimmt. Eventuelle Brandwunden versorgen.
Was ist geschehen? Wie viele Betroffene? Welche Art von Verletzungen?
Weitere Fragen? Versorgung des Betroffenen je nach Zustand.
Standards [89/391/EWG] [2003/10/EG] [DGUV Information 215-310] [DGUV Information 215-313] [DGUV Information 215-315] [DGUV Information 203-036] [DGUV Information 209-023] [DGUV Vorschrift 1]
Durchführung von Maßnahmen zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Arbeitnehmer bei der Arbeit, 1989. Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen (Lärm). Sicherheit bei Veranstaltungen und Produktionen Leitfaden für Theater, Film, Hörfunk, Fernsehen, Konzerte, Shows, Events, Messen und Ausstellungen; Juni 2016 Lasten über Personen Sicherheit bei Veranstaltungen und Produktionen von Fernsehen, Hörfunk, Film, Theater, Messen, Veranstaltungen; Juli 2020, [VBG-Fachwissen - Sicherheit bei Veranstaltungen und Produktionen – Scheinwerfer] Sicherheit bei Veranstaltungen und Produktionen – Scheinwerfer Fernsehen, Hörfunk, Film, Theater, Veranstaltungen; Februar 2020 Sicherheit bei Veranstaltungen und Produktionen Besondere szenische Darstellungen; Februar 2015. Laser-Einrichtungen für Show- und Projektionsanwendungen; Januar 2021 [VBG-Fachwissen – Kamerabewegungssysteme] Kamerabewegungssysteme Fachinformation der BG ETEM und der VBG; März 2018 Lärm am Arbeitsplatz. Unfallverhütungsvorschrift, Grundlagen der Prävention.
782
11 Arbeitssicherheit und Gesundheitsschutz
[DGUV Vorschrift 17/18] [DGUV Regel 100-001] [DGUV Vorschrift 3/4] [DGUV Grundsatz 315-390] [DIN 15905-5] [DIN EN 352-2] [DIN EN 361] [DIN EN 60942] [DIN EN 61558-2-4] [DIN EN 61672-1] [DIN VDE 0100] [DIN VDE 0100-717] [DIN VDE 0100-410: 2018-10 [DIN VDE 0661]
Unfallverhütungsvorschrift, Veranstaltungs- und Produktionsstätten. BG-Regel, Grundsätze der Prävention Unfallverhütungsvorschrift, Elektrische Anlagen und Betriebsmittel. Prüfung von sicherheitstechnischen und maschinentechnischen Einrichtungen in Veranstaltungs- und Produktionsstätten für szenische Darstellung. Tontechnik in Theatern und Merzweckhallen, Teil 5, Maßnahmen zum Vermeiden einer Gehörgefährdung des Publikums durch hohe Schallemissionen elektroakustischer Beschallungstechnik. Gehörschützer, Allgemeine Anforderungen - Teil 2: Gehörschutzstöpsel. Persönliche Schutzausrüstung gegen Absturz – Auffanggurte. Elektroakustik, Schallkalibratoren. Sicherheit von Transformatoren, Drosseln, Netzgeräten und dergleichen für Versorgungsspannungen bis 1 100 V Elektroakustik, Schallpegelmesser, Teil 1, Anforderungen. Bestimmungen für das Errichten von Starkstromanlagen mit Nennspannungen bis 1000 V. Errichten von Niederspannungsanlagen, Anforderungen für Betriebsstätten, Räume und Anlagen besonderer Art – Elektrische Anlagen auf Fahrzeugen oder in transportablen Baueinheiten. Errichten von Niederspannungsanlagen - Teil 4-41: Schutzmaßnahmen - Schutz gegen elektrischen Schlag Ortsveränderliche Schutzeinrichtungen zur Schutzpegelerhöhung für Nennwechselspannung Un= 230 V, Nennstrom In= 16 A, Nenndifferenzstrom IΔn ≤30 mA (Personenschutzschalter)
[UVR von ARD/ZDF] ARD/ZDF Richtlinien für Arbeitssicherheit und Gesundheitsschutz [VPLT-Standards] Zur Veranstaltungstechnik; Herausgeber: Der Verband für Medien- und Veranstaltungstechnik e.V..; in Zusammenarbeit mit VBG Verwaltungsberufsgenossenschaft.
Literatur [2003/10/EG] [78. GMK, 2005] [§ 2 DGUV Vorschrift 1] [§ 3 ArbSchG] [§ 15 ArbSchG] [§ 226 StGB] [§ 229 StGB] [ArbSchG, 1996] [BAuA]
Amtsblatt der Europäischen Union, LE 42/38, vom 15.02.2003; „Physikalische Agenzien, Lärm“ des Europäischen Parlaments und des Rates vom 6. Februar 2003 über Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen. Beschluss der 78. Gesundheitsministerkonferenz der Länder vom 1.7.2005, TOP 7.1 „Maßnahmen zur Verhinderung von Gehörschäden durch Musikveranstaltungen einschließlich Diskothekenlärm“. Unfallverhütungsvorschrift, Grundsätze der Prävention 2013, § 2. Arbeitsschutzgesetz vom August 1996, § 3, Stand Juli 2004, Arbeitsschutzgesetz vom August 1996, Pflichten der Beschäftigten, 2004, § 15. Strafgesetzbuch, StGB § 226, Schwere Körperverletzung, 1998. Strafgesetzbuch, StGB § 229, Fahrlässige Körperverletzung, 1998. Gesetz über die Durchführung von Maßnahmen des Arbeitsschutzes zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Beschäftigten bei der Arbeit, 1996. Handbuch Gefährdungsbeurteilung (1. Auflage). Dortmund: Bundesanstalt für Arbeitsschutz und Arbeitsmedizin
Literatur
783
[BGV B3] Berufsgenossenschaftliche Vorschrift B3 „Lärm“ vom 01.10. 1990 mit Durchführungsanweisung vom Juli 1999. [Hoffmann, 2008] Hoffmann, E., Hochschule Aalen, Studiengang Augenoptik und Hörakustik, limes-mai 2008, Seite 30, 2008. [MVStättV] Musterversammlungsstättenverordnung, §38. [Schmuziger, 2005] Schmuziger, N. et al, Studie des Bundesarbeitsgerichts zu „Hörschäden in der Freizeit durch elektroakustisch verstärkte Musik“, 2005, Basel. [SGB VII] Siebtes Buch Sozialgesetzbuch, Gesetzliche Unfallversicherung, 1996, § 15. [Strahl, 2000] Strahl, H. M., 4. Europäischer Kongress für Hals-Nasen-Ohren-Heilkunde in Berlin, 13.05.2000.
12 Grundlagen der digitalen Tontechnik
Bernhard Feiten (12.5 bis 12.6), Götz Romahn (12.1 bis 12.4)
Frühe Versuche zur digitalen Speicherung von Tonsignalen fanden bereits in den 70er Jahren des vergangenen Jahrhunderts statt. Die Entwicklung der Audio Compact Disc (CD) durch Philips und Sony im Jahre 1982 und die erfolgreiche Einführung dieses neuen Mediums in den Consumer-Markt beschleunigten die Anwendung digitaler Speicher- und Signalverarbeitungstechniken nun auch im professionellen Tonstudiobereich. Noch nicht ausreichend gefestigtes Wissen um die theoretischen Zusammenhänge, fehlende praktische Erfahrung, die relativ hohen Investitionskosten und nicht immer ausgereifte Geräte mögen anfangs die Ursache gewesen sein für vereinzelt anzutreffende Skepsis der analog geprägten Fachwelt gegenüber der innovativen digitalen Studio-Technologie – eine Situation, die mitunter in klangästhetische Diskussionen führte und dort auch endete. Aus der anfänglichen Konfrontation „analog gegen digital“ wurde bald ein „analog und digital“. Inzwischen sind die Entscheidungen gefallen; Produktionsstudios und Rundfunksysteme (auch des Fernsehens) leben heute – immer weniger mit Schnittstellen zur analogen Umgebung – in einer volldigitalen Welt. Ein großer Vorteil der digitalen Tonstudiotechnik, nämlich ihr kalkulierbares Verhalten auch im Fehlerfall und das prinzipiell gegebene hohe akustische Qualitätsniveau bei Produktion, Speicherung und Vervielfältigung führten zunächst im anspruchsvollen E-Musikbereich, später auch im Bereich der Populärmusik und der Wortproduktion, zu einem überaus raschen Erfolg. Die bei der Entwicklung und Nutzung digitaler Verarbeitungsprozesse anfallenden Kenntnisse, Erfahrungen (und auch Probleme) wurden etwa ab 1975 systematisch in grundlegenden praxisorientierten Aufsätzen und vertiefender theoretischer Literatur niedergeschrieben (s. auch Anhang zum vorliegenden Kap. 12).
12.1 Einführung Mit wachsenden Ansprüchen und Erfahrungen der Anwender offenbarten sich die Eigenschaften der eingangs- und ausgangsseitigen Wandler als wesentliche, die Audioqualität bestimmende Faktoren und als mögliche Schwachstellen im digitalen Tonstudio. Diese Schlüsselkomponenten dienen der Umsetzung der zunächst analog vorliegenden Signale in die digitale (d. h. in eine zeit- und wertdiskrete) Form (A/D-Wandlung). Nach Durchlaufen der digitalen Bearbeitungskette bewirken sie die erneute Rückführung (D/A-Wandlung) in die analoge Signalumgebung (Abb. 12/1). Die digitalen Signale liegen in der Regel als eine das analoge Signal abbildende Folge von Zahlen bzw. Codeworten vor. Werden die einzelnen Werte dieser Folge äquidistant (in gleichmäßigen zeitlichen Abständen) erzeugt, heißt dieses Verfahren Puls-Code-Modulation (PCM). Die digitalen PCM-Signale sind verlustfrei speicherbar, können über Kanäle der Datentechnik transportiert werden und lassen sich im Studio mit dedizierten Recheneinheiten (sog. Signalprozessoren) unter Anwendung elementarer algebraisch-logischer Operationen
https://doi.org/10.1515/9783110759921-012
786
12 Grundlagen der digitalen Tontechnik
formen und nachbearbeiten. Durch entsprechenden mathematischen Aufwand lässt sich hierbei die Rechengenauigkeit, zumindest in der Theorie, beliebig groß halten.
Abb. 12/1. Struktur eines digitalen Audiosystems.
Grundsätzlich unvermeidlich ist der im Verlauf einer Analog/Digital-(A/D)-Wandlung auftretende Quantisierungsfehler, der seine Ursache in der systembedingt endlichen Größe des Zahlenvorrats bei der wertdiskreten Darstellung von Signalen hat. Andere mögliche Fehlerquellen, wie z. B. durch physikalische Eigenschaften von Halbleiterbauelementen bedingte Linearitätsfehler, sind nach dem aktuellen Stand der Technik durch geeignete Wandlerkonstruktionen in ihrer Auswirkung klein zu halten. Die Quantisierung eines analogen Signals führt demnach prinzipiell immer zu einem Abbildungsfehler, der jedoch für Anwendungen in der digitalen Tontechnik durch Bereitstellung eines großen Wertebereichs in der digitalen Ebene hinreichend beherrschbar wird. Die Breite des Datenworts bzw. die Stellenzahl des Codeworts am Ausgang eines A/D-Wandlers bestimmen folglich den nutzbaren Wertebereich. Üblich sind in der Tonstudiotechnik Wortbreiten von mindestens 16 Bit (binary digit) für einen Wertebereich von ca. –32000 bis +32000 Stufen. Wortbreiten von z. B. 24 Bit bieten durch die höhere Stufenzahl eine 256-fach höhere Auflösung. Das kleinste auflösbare Signal entspricht der Größe einer einzelnen Quantisierungsstufe, wobei hierbei von einer konstanten Quantisierungsstufengröße ausgegangen wird (gleichförmige oder lineare Quantisierung). Systeme für reine Übertragungsaufgaben arbeiten häufig aber auch mit nichtlinearer, an die Signalamplitude angepasster Quantisierung zur Erzielung besserer Quantisierungsgeräuschabstände (s. Kap. 13.2.2.2). Die Abtastung des kontinuierlichen analogen Signals zu regelmäßigen Zeitpunkten (zeitdiskrete Wandlung) führt nur dann nicht zu einem Fehler, wenn das Abtasttheorem (auch als Nyquist- oder Shannon-Theorem bezeichnet) eingehalten wird. Dieses Abtastkriterium besagt, dass die Abtasthäufigkeit, also der Kehrwert des Abstands zwischen zwei Abtastzeitpunkten, mehr als doppelt so groß sein muss wie die höchste darzustellende Signalfrequenz. Die zweite Schlüsselgröße eines digitalen Audiosystems ist daher die höchste in einem analogen Audiosignal vorkommende Signalfrequenz und die entsprechend dem Abtasttheorem erforderliche Abtastrate. In der digitalen Tonstudiotechnik sind 32⋅103, 44,1⋅103, 48⋅103 oder 96⋅103 Abtastungen pro Sekunde üblich bzw. standardisiert. Diese Abtastraten werden in der Praxis auch als Abtastfrequenz bezeichnet und dann als Vielfaches von 103 in „kHz“ (Kilohertz) angegeben. Somit lassen sich z. B. Audiosignale mit einer oberen Grenzfrequenz von weniger als 24 kHz mit der Abtastfrequenz 48 kHz fehlerfrei übertragen und rekonstruieren. Wird das Abtastkriterium nicht eingehalten, treten bei Tonsignalen systematisch nicht mehr korrigierbare Fehler auf. Diese Fehler werden als Aliasfehler, Aliasverzerrungen oder
12.2 Signale
787
auch als Spiegelungsfehler (Mirroring) bezeichnet. Um die Entstehung von Aliasfehlern zuverlässig zu verhindern, muss die Bandbreite des Eingangssignals daher mit Hilfe eines geeigneten Tiefpassfilters entsprechend dem Abtast-Theorem begrenzt werden. Gleichermaßen muss auch das von einem D/A-Wandler rückgewandelte Signal für eine originalgetreue Rekonstruktion über ein Tiefpassfilter geführt werden. Da häufig beide Filter in analoger Schaltungstechnik ausgeführt sind, können sie in einem digitalen Übertragungssystem die Qualität des Wandlungsprozesses wesentlich mitbestimmen und stellen durch den bei hohen Ansprüchen zu treibenden schaltungstechnischen Aufwand einen erheblichen Kostenfaktor dar, wenn nicht geeignete alternative Wege zum Beispiel durch „Überabtastung“ beschritten werden (s. Kap. 12.2.2.1). Einige wesentliche Vorteile der digitalen Tontechnik gegenüber der herkömmlichen analogen Tontechnik sind: –– Neben der für die Tonstudiotechnik wichtigen exakten Reproduzierbarkeit der Signale selbst gilt diese Reproduzierbarkeit auch für die in den digitalen Tonsystemen verwendeten Signalverarbeitungskomponenten (Hardware, Firmware, Software). –– Alle Systeme mit gleichen Komponenten haben grundsätzlich auch exakt gleiche Eigenschaften. Daher sind Langzeitstabilität, der Fortfall von Abgleichmaßnahmen und allgemein die erzielbare hohe Zuverlässigkeit wesentliche Merkmale der digitalen Signalverarbeitungstechnik. –– Durch konsequente Anwendung der systemtheoretischen Grundlagen der elektrischen Nachrichtentechnik lassen sich in digitalen Systemen Funktionen realisieren, die in herkömmlicher analoger Technik nicht oder nur sehr aufwändig möglich gewesen wären. Genannt seien hier z. B. Filter mit linearem Phasengang, Echokompensatoren (Adaptive Filter), Einrichtungen zur Datenmengenreduktion und zur Signalsynthese, aber auch die Verbindung von akustischen Informationen mit anderen Informationsarten in multimedialen Systemen. –– Die digitale Technik hat eine weltweite Verbreitung von akustischem Datenmaterial und damit beispielsweise den außerordentlich einfachen Zugriff auf Musiktitel durch das Quellencodierverfahren MP3 (bzw. mp3) ermöglicht.
12.2 Signale Die folgenden Betrachtungen beziehen sich auf Signale als Träger des eigentlichen Audiomaterials und der mit diesen verknüpften Steuerungs- und Kontrollinformationen („Essenzdaten“, s. hierzu auch Kap. 14.3).
12.2.1 Kontinuierliche Signale Kontinuierliche Signale können innerhalb ihrer aus physikalisch-technischen Gründen vorgegebenen Grenzen jeden beliebigen Wert annehmen. Der maximal zulässige Amplitudenwert eines solchen kontinuierlichen Signals ist durch den Begriff der sog. Vollaussteuerung bestimmt; in der Tonstudiotechnik ist das häufig der Wert eines sinusförmigen Signals mit
788
12 Grundlagen der digitalen Tontechnik
dem Effektivwert von 1,55 Veff (+ 6 dBm) bzw. einer Amplitude von ± 2,2 V. Die Nutzbarkeit kleinster Spannungswerte (ca. 0 Veff ) wird in der Praxis durch physikalisch bedingte Störsignale, z. B. das thermische Rauschen von Widerständen, eingeschränkt. Grundsätzlich sind die hier betrachteten Signale zu jedem beliebigen Punkt auf der Zeitachse definierbar. Man spricht daher von wert- und zeitkontinuierlichen Signalen. 12.2.1.1 Signaldarstellung Kontinuierliche Signale können allgemein als Funktion der Zeit x = f (t) dargestellt werden. Handelt es sich um Tonsignale, ist es üblich, diese durch ihre Frequenz oder ihre Frequenzkomponenten und deren Scheitelwerte zu beschreiben. Daher ist z. B. ein einzelner Sinuston durch die Formel x = a ⋅ sin (2πft) bestimmt. Aus dieser Darstellung sind dann sowohl der zeitliche Verlauf wie auch die Frequenz des Signals entnehmbar. Je nach Anwendung kann eine Darstellung im Zeitbereich oder im Frequenzbereich (als Spektrum) zweckmäßig sein (Abb. 12/2).
Abb. 12/2. Der Sinuston im Zeit- und im Frequenzbereich.
Das Frequenzspektrum eines im Zeitbereich periodischen Tonsignals wird durch Zerlegung in Einzelkomponenten mit Hilfe der nach dem französischen Mathematiker Jean B. J. Fourier benannten Reihenentwicklung gebildet. Diese Fourier-Reihe ist die Summe (Linearkombination) aller im periodischen Tonsignal vorkommenden Sinus- und Cosinusschwingungen. Wegen der festen Winkelbeziehung zwischen Sinus- und Cosinuskomponenten gleicher Frequenz lassen sich diese zusammenfassen, und es ergibt sich somit die folgende vereinfachte analytische Form:
Die einzelnen Teilschwingungen mit der Amplitude An werden harmonische Komponenten oder kurz „Harmonische“ genannt. Die erste Harmonische mit der Amplitude A1 hat die Frequenz f0 und heißt Grundschwingung oder Grundton. Die weiteren Harmonischen sind die „Oberschwingungen“ oder „Obertöne“. Der Term A0 beschreibt die Verschiebung des Signals aus der Amplituden-Nulllinie und charakterisiert somit den Gleichanteil des Signals (DCOffset) mit der Frequenz 0 Hz. Abb. 12/3 zeigt ein periodisches sägezahnförmiges Signal mit einigen Harmonischen dieses Signals im Zeitbereich und in Frequenzdarstellung.
12.2 Signale
789
Abb. 12/3. Periodisches Signal und harmonische Komponenten.
Die Zerlegung in eine Fourier-Summe gilt nur für periodische Signale. Aber auch für nicht periodische (aperiodische) Signale lässt sich eine Darstellung im Frequenzbereich angeben. Diese sog. Fourier-Transformation ist wie folgt definiert: Hier wird die Summenbildung über die einzelnen separaten Teiltöne der Fourier-Reihe durch das Integral über unendlich dicht beieinander liegende Frequenzkomponenten ersetzt. Ergebnis der Fourier-Transformation ist das Fourier-Spektrum, welches üblicherweise in Kurzform als „Spektrum“ bezeichnet wird. Das Fourier-Spektrum besteht aus einem Sinusund einem Cosinusspektrum, ähnlich wie schon bei der Fourier-Reihe. Diese Sinus- und Cosinuskomponenten lassen sich in dem Term e-2πft (Eulersche Formel) zusammenfassen. Das Fourier-Spektrum besitzt rechnerisch die Dimension Amplitude mal Zeit bzw. Amplitude pro Frequenz und wird daher auch „Amplitudendichtespektrum“ genannt. Um einen Informationsverlust zu vermeiden, kann zusätzlich zum Amplitudendichtespektrum noch das sog. Phasenspektrum berechnet werden, bei dem der Nullphasenwinkel der Teilschwingungen über der Frequenz aufgetragen wird. In der Tonstudiotechnik ist neben dem Amplitudendichtespektrum auch die Darstellung der auf die jeweiligen Frequenzen entfallenden Leistung in einem Leistungsdichtespektrum von Interesse. Dieses lässt sich aus dem Amplituden- und Phasenspektrum berechnen. In Analogie zur Bildung des Sinus- und Cosinusspektrums (bzw. des Amplituden- und Phasenspektrums) kann mit Hilfe der informationserhaltenden inversen Fourier-Transformation die zugehörige Zeitfunktion wie folgt rückgerechnet werden: Die Zeitfunktion x(t) und die Spektralfunktion X(f) bilden somit ein Transformationspaar, wobei X(f) die Fouriertransformierte von x(t) und x(t) die Invers-Fouriertransformierte von X(f) genannt wird. Darstellungen von Signalen im Zeitbereich oder im Frequenzbereich sind unter den beschriebenen Voraussetzungen somit gleichwertig und können – der jeweiligen Signalverarbeitungsaufgabe angepasst – beliebig gewählt werden. Diese Erkenntnis bildet die Basis vieler aktueller Quellencodierverfahren (s. Kap. 13). Ein extrem kurzer Rechteckimpuls hoher Amplitude wird nach dem englischen Physiker Paul Dirac „Dirac-Impuls“ genannt. Abb. 12/4 zeigt, dass dieser kurze Impuls im Spektrum
790
12 Grundlagen der digitalen Tontechnik
einen sehr weiten Frequenzbereich abdeckt. Ein derartiges Spektrum, das gleichmäßig auf alle Frequenzen verteilt ist, wird in Analogie zu einem Begriff aus der Lichtoptik auch als „weißes Spektrum“ bezeichnet. Umgekehrt erzeugt ein gleichförmig andauerndes Signal (z. B. eine Gleichspannung oder ein einzelner Sinuston) eine einzelne Linie im Spektralbereich.
Abb. 12/4. Der Dirac-Impuls im Zeitund Frequenzbereich.
Die Systemtheorie verlangt die (mathematisch dann exakte) Darstellung von Spektren auch auf der negativen Frequenzachse. Hierauf wird in den Abbildungen dieses Kapitels zugunsten einer besseren Anschaulichkeit verzichtet. Für die studiotechnische Praxis lässt sich aus den genannten Zusammenhängen folgende Regel ableiten: Im Zeitbereich anhaltende Töne erzeugen im Frequenzbereich ein Linienspektrum. Umgekehrt ergeben kurzzeitige, impulsförmige Signale ein kontinuierliches Spektrum mit großer Bandbreite. Ein Schaltknack (Click) als Fehler bei der Tonaufnahme deckt demnach wegen seiner kurzen Dauer einen weiten Frequenzbereich ab und kann daher nicht ohne weiteres mit einfacher spektraler Filterung beseitigt werden. Anders verhält es sich z. B. bei einer permanenten Brummstörung, welche sich mit Hilfe schmalbandiger Sperr-Filter (Notchfilter) einfach beseitigen lässt. Bei der Analog/Digital-Wandlung wird zur Abtastung des analogen Signals eine periodische Folge von modifizerten Dirac-Impulsen mit dem konstanten Amplitudenwert „Eins“, der sog. Einheitspuls (unipulse) oder auch Dirac-Puls, verwendet. Seinen Verlauf im Zeitund im Frequenzbereich zeigt Abb. 12/5. Es fällt auf, dass Zeit- und Spektralfunktion einen gleichartigen Verlauf haben. Dieser Verlauf wird wegen seiner Ähnlichkeit mit einem Buchstaben aus dem kyrillischen Alphabet (Ш) auch „Schah-Funktion“ genannt.
Abb. 12/5. Impulsfolge (Dirac-Puls) im Zeitund Frequenzbereich.
12.2.1.2 Signalverarbeitung Die Pegelanhebung durch einen Verstärker oder die Summierung mehrerer Signale in einem Mischpult sind als Multiplikations- bzw. Additionsvorgänge im Zeitbereich zu verstehen. Die Klangveränderung durch ein Filter ist jedoch eine Form der Signalverarbeitung, die sich anschaulicher im Frequenzbereich beschreiben lässt.
12.2 Signale
791
Die Filterung eines Tonsignals bedeutet die Multiplikation des Spektrums des Signals mit der Übertragungsfunktion des Filters. Eine derartige Multiplikation im Frequenzbereich kann im Zeitbereich durch die mathematische Operation der Faltung (convolution) ersetzt werden. Entsprechend kann eine Multiplikation im Zeitbereich als Faltung im Frequenzbereich aufgefasst werden. Auch bei der Verarbeitung von Signalen sind demnach die Darstellungen im Zeit- oder Frequenzbereich grundsätzlich gleichberechtigt und werden der jeweils vorliegenden Problemstellung entsprechend gewählt. In der analogen Signalverarbeitungstechnik werden in der Regel dem jeweiligen Bearbeitungsschritt angepasste elektronische Schaltungen eingesetzt. Aus diesem Grund ist die funktionale Anpassung eines analogen Systems an veränderte Aufgabenstellungen nur mit erheblichem Aufwand möglich. Bei digitaler Signalverarbeitung kommen hingegen programmierbare Recheneinheiten oder dedizierte Signalprozessoren zum Einsatz, die eine einfache Modifikation der Signalverarbeitungsprozesse durch Austausch der Software ohne Änderungen der Hardware gestatten. In hochentwickelten digitalen Tonbearbeitungssystemen kann dies sogar während des aktuellen Produktionsprozesses geschehen.
12.2.2 Diskrete Signale Um ein kontinuierliches analoges Signal durch numerische Rechenprozesse weiterverarbeiten zu können, muss das Signal in Form einer Folge regelmäßig aufeinander folgender, durch Probenentnahme gewonnener und in Zahlenwerte umgewandelter Abtastwerte vorliegen; jeder Abtastwert ist ein digitales „Sample“ des Signals. 12.2.2.1 Abtastung Die Abtastung entspricht mathematisch betrachtet der Multiplikation des zeitkontinuierlichen Analogsignals mit der Abtastfunktion (siehe Dirac-Puls). Die Abtastfunktion besitzt nur zu definierten regelmäßigen (äquidistanten) Zeitpunkten den Wert „1“, zu allen anderen Zeiten den Wert „0“. Das Intervall zwischen den Abtastzeitpunkten wird als Abtastperiode mit der Dauer Ts bezeichnet. Dementsprechend ist der Kehrwert der Abtastperiode die Abtastfrequenz fs (sampling frequency, sampling rate). Durch die Abtastung ergibt sich ein zeitdiskretes Abbild des ursprünglich kontinuierlichen Signals (Abb. 12/6).
Abb. 12/6. Erzeugung einer zeitdiskreten Funktion durch Abtastung.
Da das Spektrum der Abtastfunktion aus einzelnen Linien mit den Frequenzen fs und einer (theoretisch) unendlichen Fortsetzung mit ganzzahlig Vielfachen von fs besteht, ergibt sich
792
12 Grundlagen der digitalen Tontechnik
eine bildhafte Anordnung mit Wiederholungen des ursprünglichen Spektrums und seiner Spiegelungen entsprechend Abb. 12/7. Um für die akustische Wiedergabe das originale Tonsignal aus einem zeitdiskreten Signal rekonstruieren zu können, muss das unendliche Spektrum des zeitdiskreten Signals durch ein Tiefpassfilter mit der Grenzfrequenz 0,5 fs beschnitten werden. Ein solches Filter wird als Rekonstruktionsfilter bezeichnet und trennt das Spektrum des erwünschten Basisbands (base band) von den unerwünschten Seitenbändern (side lobes). Diese Filterung liefert als Ergebnis das Spektrum des Ursprungssignals und damit nach Rücktransformation auch dessen kontinuierliche Zeitfunktion (Abb. 12/8).
Abb. 12/7. Basisband und Abtastspektrum.
Abb. 12/8. Rekonstruktion des Basisbands durch Tiefpassfilterung.
Abtasttheorem Es wird ersichtlich, dass das Spektrum des Originalsignals sich nicht mit seiner um fs verschobenen gespiegelten Kopie überlappen darf, da eine Trennung durch Tiefpassfilterung dann nicht mehr möglich sein würde (Abb. 12/9). Derartige überlappend in das Basisband hineinfallenden Spektralanteile werden als Aliaskomponenten bezeichnet. Der durch den Aliaseffekt entstehende Signalfehler wird Aliasverzerrung genannt, der Vorgang trägt im Englischen die Bezeichnung „Aliasing“ (lat. alias: „unter falschem Namen auftretend“). Wegen der nicht-harmonischen Struktur der Aliasverzerrungen klingen diese besonders unangenehm. Um Aliasverzerrungen sicher zu verhindern, muss als Kriterium hierfür die nachfolgende Forderung unbedingt eingehalten werden:
12.2 Signale
793
Das Originalsignal kann nur dann fehlerfrei aus einem abgetasteten Signal rekonstruiert werden, wenn die Abtastfrequenz größer als die doppelte höchste vorkommende Frequenz fmax des Nutzsignals ist. Es gilt daher fs > 2 fmax.
Abb. 12/9. Aliasfehler durch Unterabtastung.
Diese Aussage formulierte der Informatiker Claude Shannon im Jahre 1948 in dem nach ihm benannten „Abtasttheorem“. Shannon griff dabei auf Überlegungen zurück, die von Harry Nyquist bereits 1928 angestellt wurden. Die Abtastfrequenz, die der oben genannten Bedingung gerade entspricht, wird daher auch als Nyquist-Frequenz fN bezeichnet. Eine Betrachtung im Zeitbereich zeigt, dass bereits bei einer Tastfrequenz von fs = 2 fmax das Abtasttheorem verletzt wird: Da die Lage der Abtastzeitpunkte in Relation zum abzutastenden Signal rein zufällig ist, kann die Abtastung eines Sinussignals unter der grenzwertigen Bedingung fs = 2 fmax alle Amplituden zwischen „0“ und dem korrekten Scheitelwert liefern (Abb. 12/10).
Abb. 12/10. Abtastunsicherheit bei fs = 2 fmax .
Unter- und Überabtastung Ist die Abtastfrequenz fs kleiner als 2 fmax, spricht man von „Unterabtastung“. Diese kann dadurch vermieden werden, dass die Abtastfrequenz so gewählt wird, dass sie mit Sicherheit über der doppelten höchsten Signalfrequenz liegt und somit wieder dem Abtastkriterium genügt. Da in der Regel jedoch keine Gewissheit besteht, welche Komponenten das Signal im Hochtonbereich enthält, erfolgt die definierte Beschränkung des Frequenzbereichs auf den Wert fmax 8 kHz) werden mit Hilfe des Transformationscoders hinzugefügt. Prinzipiell kann in diesem Arbeitspunkt der Transformationscoder signalabhängig auch das komplette Signal codieren, um Musiksignale effektiv verarbeiten zu können. Für höhere Bitraten kommt ausschließlich der Transformationscoder CELT zum Einsatz. Tab. 13/12. Typische Opus Bitratenkonfigurationen. Audiobandbreite
Kanäle
Signaltyp
Bitrate [kBit/s]
Codiermodus
4 kHz 8 kHz 20 kHz 20 kHz 20 kHz
Mono Mono Mono Mono Stereo
Sprache Sprache Sprache Musik Musik
8-12 16-20 28-40 48-64 64-128
Nur SILK Nur SILK Hybrid NUR CELT NUR CELT
Wie die meisten transformationsbasierten Codecs verwendet CELT eine MDCT, wobei der Überlappungsbereich, unabhängig von der Blockgröße, 2,5 ms beträgt. Die symmetrischen MDCT Fenster sind somit nur bei einer Blockgröße von 2,5 ms voll besetzt. Bei längeren Transformationen werden die Fenster mit Nullen am Anfang und Ende aufgefüllt. Damit ermöglicht man eine sehr geringe Latenz und eine effiziente Implementierung der Blockumschaltung, allerdings verringern die nicht besetzten Fensterkoeffizienten den Codiergewinn durch die Blocktransformation. Nach der Transformation werden die Spektrallinien in Bänder anhand der Barkskala eingeteilt und deren Bandenergie unabhängig codiert, um so die spektrale Einhüllende zu erhalten. Die Spektrallinien werden mittels der Bandenergie normiert und anschließend durch einen Pyramid Vector Quantisierer entropiecodiert. Die spektrale Einhüllende wird im Decoder zur Rekonstruktion von zu Null quantisierter Bänder verwendet. In diesem Fall wird das Band einfach durch ein anderen MDCT Bereich ersetzt und mit Hilfe der spektralen Einhüllenden die Energie entsprechend angepasst. Des Weiteren kann CELT auf Codierwerkzeuge wie Blockumschaltung, signalabhängige Bitverteilung oder Mitte-Seite-Stereocodierung zurückgreifen.
13.7 Matrix-basierte Surround-Systeme
909
13.7 Matrix-basierte Surround-Systeme Matrix-basierte Systeme, wie z. B. Dolby Surround bzw. Prologic [Dressler, 2000], Circle Surround von SRS als Konkurrenzentwicklung zu Dolby, Neural Surround von Neural Audio, oder DTS Neo:6 erlauben den Transport von Multikanalsignalen über Stereokanäle. Die (in der Regel analogen) mehrkanaligen Eingangssignale werden dabei den beiden Übertragungskanälen über eine vorgegebene Matrix zugeordnet und können in dieser Form auch als zwei- oder einkanaliges kompatibles Signal wiedergegeben werden. Für die mehrkanalige Wiedergabe werden sie von einem dazu passenden Decoder wieder extrahiert. Bekannt gewordene Probleme solcher Verfahren sind die evtl. unzureichende Kanaltrennung und ggf. auftretende Auslöschungseffekte. Bei Mono-Wiedergabe kann z. B. das dominante Hörereignis je nach Phasenlage der Ursprungssignale praktisch völlig verschwinden, d. h., die Qualität der Codierung/Decodierung hängt ggf. stark vom jeweiligen Programminhalt ab.
13.7.1 Dolby Surround / Dolby ProLogic Entstanden aus dem ursprünglichen Filmton-Wiedergabesystem Dolby Stereo ist Dolby Surround ProLogic eines der am weitesten verbreiteten matrix-basierten Übertragungssysteme für analoge Surroundsignale, das aus einer 3/1-Eingangssignalkonfiguration (L=Links, R=Rechts, C=Center, S=Surround) durch Matrizierung (lineare Kombination mit vorgegebenen Matrixkoeffizienten) ein zweikanaliges Übertragungssignal Lt, Rt (Left total, Right total) erzeugt, das auch als kompatibles Zweikanal-Stereosignal wiedergegeben werden kann. Im Encoder wird das um 3 dB abgesenkte Centersignal C jeweils beiden Signalen L und R gleichphasig zugemischt. Das S-Signal wird ebenfalls um 3 dB im Pegel reduziert, sowie bandbegrenzt und um 90° phasenverschoben. Dieses modifizierte Surround-Signal wird dann gegenphasig den beiden resultierenden Signalen Lt und Rt zugemischt. Abb. 13/40 zeigt die prinzipielle Struktur eines Dolby Surround Encoders sowie die typischen Matrizierungsgleichungen.
Abb. 13/40. Dolby Surround Encoder.
Im zugehörigen ProLogic Decoder wird aus den beiden übertragenen Signale Lt und Rt wieder eine 3/1-Signalkonfiguration erzeugt. Die ausgangsseitigen Signale L´und R´ entsprechen dabei in der Regel den Signalen Lt und Rt, sind also nicht mehr identisch mit den ursprünglichen Eingangssignalen L und R. Das Surroundsignal S´ wird durch Subtraktion aus den
910
13 Audiocodierung
beiden Signale Lt und Rt rückgewonnen, es enthält dadurch auch Komponenten von R und L und wird deshalb sowohl bandbegrenzt (7 kHz) als auch verzögert (10 bis 20 ms). Es kann dann entweder über einen oder auch zwei rückwärtig angeordnete Surround-Lautsprecher wiedergegeben werden, die jeweils gegenphasig mit dem S´-Signal eingespeist werden. Abb. 13/41 zeigt die prinzipielle Struktur eines Dolby ProLogic Decoders.
Abb. 13/41. Dolby ProLogic Decoder.
Die Qualität der wiedergegebenen Signale war in dieser ersten Version nicht immer befriedigend und sehr vom jeweiligen Programminhalt abhängig, weshalb in der Anfangszeit jede wichtige Dolby-Abmischung von autorisierten Betreuern begleitet werden musste, die entsprechende Erfahrungen und „Kochrezepte“ in den Prozess einbrachten. Die begrenzte Qualität der resultierenden Mehrkanalfassung führte zur Weiterentwicklung des Systems in Richtung „intelligenter“, dynamisch gesteuerter Verarbeitungsalgorithmen, woraus in rascher Folge verschiedene Nachfolgesysteme entstanden, wie –– Dolby ProLogic II (erzeugt 5.1-Signale), –– Dolby ProLogic IIx (erzeugt 5.1, 6.1 oder 7.1-Signale). die jeweils in verschiedenen programmabhängigen Modi, wie Movie (Film), Music oder Game (Computerspiele) betrieben werden können. Immerhin ist es der Fa. Dolby gelungen, mit Dolby Surround bzw. Dolby ProLogic und seinen verschiedenen Derivaten einen weltweiten (wenn auch proprietären) Quasi-Standard für das 3/1-Mehrkanalformat zu etablieren, zumindest wurde durch geschicktes und intensives Marketing innerhalb weniger Jahre die Mehrkanalwiedergabe über 4 Kanäle bzw. Lautsprecher nicht nur ins Kino, sondern auch in die Wohnzimmer transportiert, wodurch eine entscheidende Basis für die weitere Verbreitung der Mehrkanalwiedergabe im Heim geschaffen werden konnte. Übrigens wurden in der Anfangszeit der Mehrkanalstereofonie Dolby-Decoder gelegentlich auch zur einfachen Erzeugung pseudo-mehrkanaliger Aufnahmen benutzt (bzw. missbraucht), indem als Eingangssignal Lt/Rt ein normales Zweikanal-Stereosignal eingespeist wurde, um daraus ein 4-kanaliges Ausgangssignal zu generieren - mit oft sehr programmabhängigen und teilweise fragwürdigen Ergebnissen. Obwohl die ProLogic-Familie ursprünglich nur für analoge Audiosignale konzipiert worden war, wird die Signalkombination Lt/Rt unterdessen auch als kompatibles zweikanaliges Stereosignal bei den digitalen Surround-Systemen wie Dolby Digital oder DTS mitgeführt und z. B. auch auf DVD aufgezeichnet. Weitere Details siehe u. a. in [Dressler, 2000].
13.8 Verlustfreie Audiocodierverfahren
911
13.8 Verlustfreie Audiocodierverfahren 13.8.1 Übersicht Bei den verlustfreien Codierverfahren (lossless coding) gibt es derzeit keine wirklich etablierten Standards, sondern eine große Anzahl verschiedener proprietärer Verfahren. Diese unterscheiden sich ‑ wie in Kap. 13.1 bereits ausgeführt ‑ kaum im erreichbaren Kompressionsfaktor. Da sie verlustfrei arbeiten, bieten sie auch die gleiche Audioqualität, so dass als differenzierende Faktoren im Wesentlichen die Anzahl der unterstützten Audiokanäle, Abtastraten, die Auflösung der Abtastwerte und evtl. das Resynchronisationsverhalten bei einem vorübergehenden Ausfall des Datenstroms dienen. Tab. 13/13 gibt einen Überblick über gebräuchliche Systeme. Die Verfahren finden Anwendung in Tonstudios, auf Tonträgern wie der SACD oder der DVD-Audio oder auch zunehmend in privaten Musikarchiven qualitätsbewusster Musikhörer, die z. B. Generationsverluste vermeiden wollen. Daneben sind viele solcher Datenkompressionsverfahren außer im Audiobereich auch für andere Signale wie z. B. biologische, medizinische oder seismische Daten interessant. Tab. 13/13. Übersicht zu gebräuchlichen verlustfreien Audiocodern. Verlustfreie Audiocodierverfahren
Einsatzgebiet
Direct Stream Transfer (DST) Meridian Lossless Packing (MLP) Dolby TrueHD (=MLP mit Erweiterungen) DTS HD Master Audio Apple Lossless (ALAC) Windows Media Audio Lossless MPEG Scalable Lossless (SLS) MPEG-4 Audio Lossless Coding (ALS) Free Lossless Audio Coding (FLAC)
Super Audio CD DVD Audio HD-DVD, Blu-ray Disc HD-DVD, Blu-ray Disc Apple Music, Quicktime Windows Media
Monkey’s Audio (APE)
Archivierung, Studiobetrieb Internet, PC, File transfer, Music Streaming Internet, PC
Im PC-Bereich gibt es eine Reihe weiterer, untereinander relativ ähnlicher Verfahren, die auf adaptiven Prädiktionsfiltern basieren. Typische Vertreter sind hier die Open Source Projekte True Audio Lossless (TTA), Monkey’s Audio, Shorten, WavPack, Free Lossless Audio Codec (FLAC). Der MPEG-4 (ALS) Standard ist ein durch die ISO standardisiertes Verfahren, das auf ähnlichen Prinzipien beruht und vergleichbare Eigenschaften aufweist. Sie sind in der Regel nicht für fehlerbehaftete Bitströme ausgelegt, da die verwendeten Prädiktionsfilter typischerweise ein sehr langes Gedächtnis besitzen, was im Fehlerfall zu einem langen Signalausfall führen würde. Der MPEG SLS Standard hingegen weist keine Fehlerfortpflanzung über die BitstromFramegrenzen hinaus auf, da anstelle von Prädiktionsfiltern perfekt rekonstruierende, relativ kurze Transformationen (5 bis 20 ms) verwendet werden. Als weitere Besonderheit existiert
912
13 Audiocodierung
ein sog. Near Lossless Modus, der eine konstante Datenrate ermöglicht, so dass Signale mit ausreichend hoher Redundanz verlustfrei codiert werden, dagegen Signale mit geringer Redundanz verlustbehaftet, aber psychoakustisch kontrolliert codiert werden.
13.8.2 Free Lossless Audio Codec Das System Free Lossless Audio Codec [FLAC] ist ein frei verfügbarer (jedoch nicht standardisierter) verlustfreier Audio-Codec. Das decodierte Audiosignal ist also Bit-für-Bit identisch mit dem originalen Audiosignal. Jeder Datenrahmen enthält einen 16-Bit CRC-Code, um Übertragungsfehler zu erkennen. Die Integrität der Audiodaten wird weiterhin garantiert durch Speicherung einer sog. MD5 Signatur der unverschlüsselten Audiodaten des Originals im Datei-Header, die später bei der Decodierung oder Prüfung verglichen werden kann. Das FLAC-Verfahren ist asymmetrisch in Bezug auf den Zeitaufwand, der für das Codieren bzw. Decodieren der Audiodaten benötigt wird. Die Decodierung verlangt nur Integer-Arithmetik und bedingt damit einen viel geringeren Rechenaufwand, der sich in kurzen Decodierzeiten niederschlägt. Wegen des geringeren Rechenaufwands ist eine Echtzeit-Decodierung auch auf weniger leistungsfähigen Computersystemen möglich. Durch die offene Implementierung des Verfahrens und die geringe Codier-Komplexität gibt es keinerlei Hardware-Einschränkungen. Jeder FLAC-Rahmen enthält genügend Audiodaten, um diesen Rahmen zu decodieren. Es wird kein Bezug zum vorausgehenden oder nachfolgenden Rahmen benötigt, dadurch eignet sich das FLAC-Verfahren auch für das sog. Streaming (siehe u. a. Kap. 17.4). FLAC verwendet synchronisierte Codes und CRC’s, ähnlich zu MPEG und anderen Formaten. Dies macht auch eine Decodierung an beliebiger Stelle eines Audio-Streams möglich, die im Zusammenspiel mit der Rahmensynchronisation nur minimale Verzögerungen zur Folge hat. FLAC unterstützt darüber hinaus schnelles, sample-genaues Suchen. Das ist nicht nur hilfreich bei der Wiedergabe von Audiodaten, sondern qualifiziert das Verfahren auch für die Verwendung in Schnittsystemen. FLAC unterstützt Auflösungen bis zu 32 Bit, Je nach Signalcharakter werden z. B. bei CDQualität eines (Stereo)-Eingangssignals variable Bitraten zwischen 700 kBit/s und 1 MBit/s erzeugt. Die Größe einer Audiodatei wird bei Anwendung des beschriebenen Kompressionsverfahrens auf etwa die Hälfte ihres ursprünglichen Wertes reduziert. Das System FLAC wird u. a. in Verbindung mit dem Prozess Digitale Bemusterung (Digibemus) beim breitbandigen Audio-Filetransfer zwischen den Rundfunkanstalten eingesetzt, siehe Kap. 13.2.2.1 .
13.8.3 MPEG-4 Lossless Coding MPEG-4 ALS definiert ein effizientes und schnelles verlustloses Audiokompressionsverfahren, das sowohl für professionelle Anwendungen als auch für den Endanwender geeignet ist [MPEG-4 ALS]. Manche seiner Eigenschaften finden sich in keinem anderen Verfahren,
13.9 Digitale Signaturen von Audiodateien
913
sondern werden ausschließlich von MPEG-4 ALS geboten. Dazu gehören die prinzipielle Unterstützung beliebiger unkomprimierter digitaler Audioformate (inkl. wav, aiff, au, bwf, raw) bei PCM-Auflösungen bis zu 32 Bit und beliebiger Abtastfrequenz (inkl. 16/44.1, 16/48, 24/48, 24/96, 24/192). Das System ist multichannel-fähig (inkl. 5.1 Surround). Es gestattet einen schnellen Zugriff (Random Access) zu jeder beliebigen Stelle der komprimierten Daten. Interessant ist auch die optionale Speicherung als MP4-Datei. Daraus ergeben sich verschiedene weitere Merkmale, wie das Tagging (Einbettung von Zusatzinformationen), Streamingfähigkeit sowie die Möglichkeit des Multiplexings mit Video-Daten. Neben diesen Eigenschaften besteht ein wesentlicher Vorteil darin, dass ein weltweiter MPEG-Standard die Kompatibilität zwischen unterschiedlicher Hardware und Software gewährleistet und somit eine langfristige, herstellerunabhängige Unterstützung sicherstellt.
13.9 Digitale Signaturen von Audiodateien Digitale Audiodateien oder -bitströme können üblicherweise mit inhaltsbezogenen Zusatzdaten (auch als Metadaten bezeichnet) versehen werden, die je nach dem gewählten Datenformat in dafür vorgesehene Felder des entsprechenden Übertragungsrahmens eingebracht werden – z. B. als User Bits, Ancillary Data, Programme Associated Data (PAD) oder ähnlich bezeichnet. Alle auf diese Weise transportierten Zusatzdaten sind zwar zunächst zeitlich fest an die entsprechende Audioinformation gekoppelt, sie können jedoch vom Anwender (Empfänger) mit geeigneten Werkzeugen beliebig manipuliert oder auch entfernt werden, bieten also keinerlei Sicherheit bezüglich Authentizität. Neuere Verfahren, wie das digitale Wasserzeichen, betten die Zusatzinformationen unhörbar und unveränderbar in das eigentliche Programmsignal ein. Ein anderes modernes Verfahren, der digitale Fingerabdruck (auch als AudioID bekannt), kennzeichnet einen konkreten Audioinhalt; ohne in das Programmsignal einzugreifen. Alle diese Lösungen können verwendet werden, um z. B. urheberrechtlich begründete Kennzeichnungen von Medieninhalten und die darauf basierende Rechteverwaltung zu unterstützen.
13.9.1 Digitales Wasserzeichen Das sog. digitale Wasserzeichen (Digital Watermarking) ist ein Verfahren, um beliebige Informationen in digitale Medien (wie zum Beispiel Audiodateien, Videodateien, Bilder etc.) einzubetten, ohne dass wahrnehmbare Veränderungen an den Multimediadaten eintreten. Digitale Wasserzeichen werden verwendet, um Nutzinformationen (Audioaufzeichnungen, Video-CDs, Hörbücher etc.) eindeutig zu kennzeichnen und z. B. mit urheberrechtlichen Zusatzinformationen zu versehen. Zu diesem Zweck wird das Audiosignal geringfügig auf eine definierte Art und Weise modifiziert.
914
13 Audiocodierung
Diese Änderung ist so klein, dass das menschliche Gehör keinen Unterschied wahrnimmt. Die Wasserzeichen-Technologie eröffnet damit die z. B. Möglichkeit, Kopien eines Titels zu erstellen, die für den Verbraucher jeweils identisch mit dem Original sind, sich aber mit computergestützten Einrichtungen anhand der eingebrachten Zusatzinformation unterscheiden lassen. Die Stärke bei der Anwendung von Wasserzeichen liegt darin, dass das Produkt nach der Markierung immer noch ein vergleichbares Medium ist. Anwender können mit einem solcherart markierten Medium alles tun, was sie auch mit unmarkierten Medien tun können, also beispielsweise weiterhin genauso ohne Einschränkung abspielen oder kopieren. Auch Formatänderungen sind möglich, so dass eine gekaufte und mit Wasserzeichen versehene CD auch im Auto oder mit dem MP3-Player abspielbar ist. Lediglich Missbrauch ist erkennbar und kann ggf. verfolgt werden. 13.9.1.1 Anforderungen und Eigenschaften Digitale Wasserzeichen lassen sich durch eine Reihe von Eigenschaften charakterisieren und müssen je nach Anwendung bestimmte Anforderungen erfüllen. Die wichtigsten sind: Transparenz Das Wasserzeichen soll nicht wahrnehmbar sein, es darf also die Ton- bzw. Bildqualität des Originals nicht beeinflussen oder zumindest nicht stören. Abb. 13/42 zeigt den Vergleich der Zeitfunktionen zwischen einem originalen und einem markierten Tonsignal gleichen Inhalts.
Abb. 13/42. Einbettung eines digitalen Wasserzeichens in ein Audiosignal (Quelle: FhG IPSI).
Robustheit Ein Maß dafür, wie zuverlässig ein Wasserzeichen nach einem feindlichen „Angriff“, aber auch nach einer herkömmlichen Übertragung mit den damit verbundenen Signalmodifika-
13.9 Digitale Signaturen von Audiodateien
915
tionen wieder auslesbar sind. Das wurde auch von der EBU untersucht. Als Angriffe wurden unter anderem eine Analogwandlung des Signals, eine digitale Audiocodierung oder auch verschiedene Filterungen des Signals durchgeführt. Im Ergebnis zeigte sich, dass ein Wasserzeichen erst dann nicht mehr auslesbar ist, wenn die Audioqualität aufgrund des Angriffs ohnehin bereits merklich gesunken ist. Zu unterscheiden sind drei Varianten: Bei sichtbaren Wasserzeichen wird eine klar erkennbare Urheberrechts-Markierung an das zu schützende Objekt angebracht, was die nicht autorisierte Nutzung unattraktiv machen soll und in jedem Fall zu einem (teilw. marginalen) Qualitätsverlust führt. (Wird insbesondere im Bildbereich eingesetzt.) In unsichtbaren, sog. robusten Wasserzeichen werden rechtebezogene Informationen im Inhalt versteckt, d. h. unsichtbar gespeichert und untrennbar mit dem Werk verbunden. Unsichtbare, sog. fragile Wasserzeichen dienen dem Nachweis der Unverfälschtheit (Unversehrtheit und Integrität), um Manipulationen zu erkennen. Dabei sollen fragile Wasserzeichen nur gegen bestimmte Verarbeitungsoperationen (Komprimierung, Skalierung etc.) robust sein, während bei inhaltlichen Änderungen (z. B. Bildmanipulationen) das Wasserzeichen zerstört werden soll. Kapazität Angabe, wie viele Informationen mit Hilfe eines Wasserzeichenalgorithmus im Trägermedium eingebettet werden können. Man verwendet hierfür Datencontainer, die eine bestimmte Datenrate und Robustheit erlauben. Gebräuchliche Container ermöglichen z. B. die Übertragung von 48 Bit Zusatzdaten in 5 Sekunden bei sehr hoher Robustheit oder 48 Bit Zusatzdaten in etwa 2,5 Sekunden bei geringfügig niedrigerer Robustheit. Sollen mehr Informationen in einer bestimmten Zeit übertragen werden, sinkt die Robustheit des Wasserzeichens. Sicherheit Ohne Kenntnis des geheimen Schlüssels darf das Wasserzeichen nicht ausgelesen, verändert oder zerstört werden, ohne dabei die Datei selbst unbrauchbar zu machen. Nur eine spezielle Software ist in der Lage, die zuvor eingebetteten Zusatzdaten wieder auszulesen. Dies verhindert ein unbefugtes Auslesen oder eine Veränderung der eingebetteten Information und macht das Verfahren sehr sicher. 13.9.1.2 Anwendungsbereiche Die Audio-Wasserzeichen Technologie eröffnet prinzipiell zwar die Möglichkeit, innerhalb des Audiosignals Zusatzdaten versteckt zu übertragen, macht aber keine Einschränkungen hinsichtlich der Art der Zusatzdaten. Daraus ergibt sich ein breites Feld an Anwendungen. Urheberinformationen Während der Produktion können Urheberinformationen direkt in dem Titel verankert werden. Dies ermöglicht zu einem späteren Zeitpunkt die Überprüfung, ob ein anderer Anwender beispielsweise Samples eines wertvollen Instruments oder andere akustische Bestandteile unerlaubterweise verwendet. Auch kann mit Hilfe des Wasserzeichens ein Urhebernachweis
916
13 Audiocodierung
geführt werden, falls ein Mitbewerber behauptet, dass der betreffende Titel von ihm produziert worden sei. Empfängerinformationen Die Idee hierbei ist, jeden an einen bestimmten Empfänger verteilten Titel zu personalisieren. Hierzu werden solche Informationen als Wasserzeichen eingebettet, die später einen Rückschluss auf den vorgesehenen Empfänger der Titel erlauben. Dies kann beispielsweise eine Kundennummer sein. Werden die Titel anschließend im Internet oder an anderer Stelle wieder aufgefunden, kann mit Hilfe der eingebetteten Daten die Person oder Institution identifiziert werden, an die dieser Titel ursprünglich verteilt worden ist. Titelinformationen Das Audio-Wasserzeichen Verfahren kann prinzipiell auch für die Programmüberwachung im Rundfunk eingesetzt werden. Zu diesem Zweck muss jeder Titel, der beobachtet werden soll, während der Produktion mit einer besonderen Kennziffer in Form eines Wasserzeichens versehen werden. Ein Computer hört anschließend die Rundfunkprogramme ab und untersucht das Signal auf sein Wasserzeichen. Integritätsschutz Heutzutage werden die meisten Medien digital verteilt und verarbeitet. Daher lassen sich Mediendaten mit moderner Multimedia-Software sehr leicht verändern – und damit manipulieren. Das Ziel besteht darin, die Integrität der Daten zu gewährleisten. Derzeitige Lösungen basieren auf Kryptografie und damit realisierbaren Sicherheitsmechanismen, wie z. B. digitale Signaturen. Da digitale Medien oft auch Formatkonvertierungen unterzogen werden, sind solche Lösungen i. Allg. nicht anwendbar. Eine signifikante Veränderung der Daten zerstört oder beschädigt das Wasserzeichen bzw. kann anhand der eingebetteten Informationen nachgewiesen werden. Authentizitätsschutz Der Authentizitätsschutz ist die Gewährleistung vertrauenswürdiger Medien. Der Benutzer eines Dokuments soll dabei in der Lage sein, den Urheber des Dokuments eindeutig zu identifizieren. Hierbei werden digitale Wasserzeichen mit kryptographischen Techniken kombiniert. Eine vertrauenswürdige Instanz (Trusted Third Party, TTP) registriert die Urheberinformationen und andere Informationen über das Dokument (beispielsweise den Erstellungszeitpunkt). Mit Hilfe seines privaten Schlüssels generiert der Urheber eine digitale Signatur. Der Benutzer eines Dokuments kann nun mit Hilfe des öffentlichen Schlüssels das Wasserzeichen auslesen. Die enthaltene digitale Signatur weist eindeutig die Urheberschaft nach. Partielle Verschlüsselung Eine weitere Technologie ist partielle Verschlüsselung: Hiermit können zum Beispiel neue Wege für die Verbreitung von sog. Previews erschlossen werden: Ähnlich wie bei Shareware können z. B. Musikdateien kostenlos verteilt werden. Deren Klangqualität ist jedoch durch eine schwache partielle Verschlüsselung leicht reduziert. Das heißt, durch die Verschlüsse-
13.9 Digitale Signaturen von Audiodateien
917
lung können nur Teile des Mediums verarbeitet werden, aber das Medium bleibt als Ganzes immer noch abspielbar. Wird die „Vollversion“ erwünscht, kann der passende Schlüssel zum Freischalten erworben werden, um damit die Datei in voller Qualität zu entschlüsseln. Programmreichweitenermittlung Eine weitere Anwendung besteht in der unhörbaren Übertragung von Zusatzinformationen (wie Senderkennung, Programmkennung, Hörzeit) mit Hilfe der Wasserzeichentechnik, die z. B. in UK zur automatisierten, objektiven Ermittlung der Hörerquoten von UKW-FM Hörfunkprogrammen eingesetzt werden. (Andere Anwender benutzen für den gleichen Zweck Informationen, die mit dem Radio Data System (RDS) übertragen werden).
13.9.2 Digitaler Fingerabdruck Die digitale Fingerabdruck-Technologie (Audio Fingerprinting) ermöglicht die automatisierte Wiedererkennung von Musikstücken, Werbespots u. ä. mit Hilfe eines Computers. So wie der Mensch einmal gehörte Musik aufgrund bestimmter Merkmale wiedererkennt, kann auch ein Computer anhand bestimmter Signalstatistiken einen vorab eintrainierten Titel wieder erkennen. Diese Merkmalssätze (Merkmalsvektoren) sind einzigartig für jedes Audiosignal und werden in Analogie zum menschlichen Fingerabdruck als Audio-Fingerprint oder auch als Audio ID bezeichnet. Wiedererkannt werden kann ein Musiktitel nur dann, wenn diese Merkmale zu einem früheren Zeitpunkt bereits klassifiziert und erfasst worden sind (in einer sog. Lernphase) und zum Beispiel in einer Datenbank abgelegt wurden, in der eine wachsende Anzahl von Merkmalssätzen gespeichert wird. Diese werden ggf. mit zusätzlichen Metadaten zu inhaltlichen Merkmalen der betreffenden Aufnahme etc. hinterlegt (neben dem Titel z. B. Komponist, Interpreten, Aufführungsort und -zeit, Verlag/Hersteller/Anbieter, Liedtexte oder andere alphanumerische Informationen). Im Anwendungsfall werden sie dann mit einem aktuell gewonnenen Fingerabdruck verglichen und damit identifiziert (Identifizierungsphase). 13.9.2.1 Anforderungen und Eigenschaften Bei Einsatz der Audio-Fingerprinting Technologie wird das Audiosignal selbst nicht verändert, insbesondere werden keine zusätzlichen Informationen in das Audiosignal eingefügt. Die Erkennung der Titel erfolgt rein inhaltsbasiert, also nur anhand der Merkmale, die aus dem Tonprogrammsignal abgeleitet werden. Robustheit Ein robustes Verfahren gewährleistet, dass der zu identifizierende Titel auch dann noch erkannt wird, wenn das Audiosignal bis zu einem bestimmten Grad verändert wurde. Solche Änderungen können beispielsweise lineare Störungen wie Pegeländerungen oder eine Bandbegrenzung sein, wie sie auch bei der Rundfunkausstrahlung auftreten kann. Nichtlineare Störungen, wie zum Beispiel eine Dynamikkompression oder die Codierung in das MP3
918
13 Audiocodierung
Format, fallen ebenfalls darunter. Das System soll auch in der Lage sein, eine zwischengeschaltete Analogübertragung, wie z. B. auch die Wiedergabe über Lautsprecher und anschließende Aufnahme über ein Mikrofon zu tolerieren. Außerdem soll das System auch Stücke wiedererkennen, die nicht vollständig vorliegen, sondern ggf. nur in kürzeren Ausschnitten. Kompaktheit Die abzulegenden Fingerprints (Datensätze) sollen nicht zu umfangreich sein, mit Rücksicht auf die erforderliche Kapazität der Datenbank sowie die auftretende Verarbeitungszeit bei späteren Suchvorgängen. Interoperabilität Systeme verschiedener Anbieter sollten möglichst untereinander kompatibel sein, das setzt u. a. die Verwendung einheitlicher Klassifizierungsprinzipien sowie die Anwendung standardisierter Darstellungsmethoden voraus (z. B. nach MPEG-7). 13.9.2.2 Merkmalsauswahl Entscheidend für ein Audio-Fingerprinting Verfahren ist die Auswahl der zu untersuchenden Merkmale. anhand derer eine Unterscheidung einer sehr großen Anzahl an Titeln (z. B. über 1 Million) möglich wird. Gleichzeitig bestimmt die Auswahl der Merkmale auch die Größe des Fingerprints eines Titels und damit auch den Zeitbedarf für das Identifizieren eines Titels. Als geeignet haben sich u. a. folgende Merkmale erwiesen –– Lautheitsverlauf über der Zeit, summarisch sowie frequenzbandselektiv; –– Spektrales Flachheitsmaß (Spectrum Flatness, SF), das frequenzbandselektiv zwischen tonalen und rauschartigen Signalen unterscheiden kann. Das SFM ist als Quotient des geometrischen Mittels g und des arithmetischen Mittels m der Energie in den einzelnen Frequenzbändern definiert –– SF = g(a) / m(a), mit –– m = 1/N * (a1 + a2 + a3 + … + aN) und g = (a1 * a2 * a3 * …* aN) ^ (1/N); –– Spektrale Neigung als Maß für die wahrnehmbare Brillanz (Schärfe) eines Audiosignals, oder alternativ die Neigung des Spektrumverlaufs des logarithmischen Amplitudenfrequenzgangs, die auch einen Einfluss auf den Formantcharakter des Audiosignals haben kann; –– Berechnung von Hash-Werten aus den Audiodaten mittels geeigneter Algorithmen (Hash-Funktionen). Eine Hash-Funktion oder Streuwertfunktion ist eine mathematisch erzeugte Abbildung einer großen Menge von Quellendaten – den Audiodaten – mittels einer kleinen Datenmenge, dem Hash-Code. 13.9.2.3 Lösungsmodelle Eine der bekannten Basistechnologien ist Teil des internationalen ISO/IEC MPEG-7 Audiostandards [MPEG-7], einer Beschreibungssprache für Metadaten von Multimedia-Informationen. Um Musik – oder auch jedes andere Tonsignal – zu identifizieren, wird auf Basis der oben genannten Merkmale (Low Level Descriptors, MPEG-7 LLD) durch mehrfache statistische Verdichtung ein kompakter und einzigartiger Datensatz (MPEG-7 DS) extrahiert, die so
13.9 Digitale Signaturen von Audiodateien
919
genannte Signatur. In einer Lernphase werden von bekanntem Tonmaterial derartige Signaturen erstellt und in einer Datenbank abgelegt. Danach kann ein beliebiger Ausschnitt dieses Tonmaterials erkannt werden, indem dessen aktuell ermittelte Signatur mit denen in der Datenbank verglichen wird. Abb.°13/43 zeigt den prinzipiellen Workflow dieser Technologie.
Abb. 13/43. Workflow Fingerprinting gemäß ISO/MPEG-7, nach [Hellmuth, 2003].
Ein anderes Modell fußt auf der Berechnung von den oben erwähnten Hash-Werten in mehreren schmalen Frequenzbändern auf einer logarithmischen Frequenzskala im Grundtonbereich (300 bis 3000 Hz), z. B. nach der Hash-Funktion H(n,t) 1 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] > 0 H(n,t) = 0 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] < 0
{
mit n = Filterfrequenzbereich und t = Zeitfenster, siehe [Haitsma, 2002]. 13.9.2.4 Anwendungsbereiche Es gibt eine Vielzahl attraktiver Anwendungsbereiche für AudioID bzw. Audio-Fingerprinting, wie z. B.: Senderüberwachung AudioID kann jegliches gesendete Tonmaterial in Hörfunk- und Fernsehprogrammen identifizieren und protokollieren, ohne dass das Audiomaterial dafür verändert werden muss. Dies kann die Automatisierung der Rechteverwertung sowie die allgemeine Programmstatistik unterstützen. Inhaltsidentifizierung Nach der Identifizierung des Musikstückes anhand seines Fingerabdrucks können aus anderen Datenbänken weitere inhaltsrelevante Metadaten abgefragt werden. In großen Datenbeständen (Archive, P2P-Netze) kann automatisch nach bestimmten – ggf. auch illegalen – Inhalten gesucht werden, ohne dass man auf durchgängig oder einheitlich vorhandene Metadaten angewiesen ist.
920
13 Audiocodierung
Schutz von Inhalten Die Fingerprint-Technologie stellt eine relativ robuste Lösung dar, Audioinhalte ohne zusätzlich eingebrachte Informationen indirekt zu schützen, beispielsweise als Stärkung des Kopierschutzes, siehe hierzu auch unter Kap. 13.9.3 (DRM).
13.9.3 Digitale Rechteverwaltung Als Digitale Rechteverwaltung (Digital Rights Management, DRM) werden Verfahren bezeichnet, mit denen die Verbreitung und Nutzung digitaler Medien kontrolliert werden soll. Vor allem für Film- und Tonaufnahmen auf digitalen Informationsträgern, aber auch für Software, elektronische Dokumente oder eBooks findet die digitale Nutzungsrechteverwaltung Anwendung. Die technischen Anwendungslösungen solcher elektronischen Schutzmechanismen für digitale Informationen nennt man DRMS (Digital Rights Management System). (Die Abkürzung DRM steht auch für das digitale Rundfunksystem Digital Radio Mondiale, s. Kap. 17.2.6, das mit dem hier behandelten Rechteverwaltungssystem nichts zu tun hat.) Ein DRM-System (DRMS) soll helfen, die Verwendung von Daten nur in dem von den jeweiligen Rechteinhabern definierten Rahmen (Lizenz) zu ermöglichen. DRM unterstützt ggf. auch neue Abrechnungsmöglichkeiten, um sich Nutzungsrechte an Daten mittels automatisch kontrollierbarer Lizenzen vergüten zu lassen. Hauptziel für die Entwicklung von Digital-Rights-Management-Systemen war/ist der Schutz von Verwertungsrechten an digitalen Bild-, Ton- oder Videoinhalten. Unterdessen finden DRMS aber auch in vielen anderen Bereichen Anwendung. Beispielsweise können DRMS (DRM-Systeme) auch zum Schutz kritischer Daten wie z. B. internen Firmenunterlagen eingesetzt werden (Enterprise Rights Management). Solche Mechanismen der digitalen Rechteverwaltung sind jedoch allgemein stark umstritten. Befürworter sehen darin u. a. die Eröffnung neuer Geschäftsmodelle mit bedarfsgerechterer Abrechnung (Pay-per-View) sowie ggf. den Wegfall von Pauschalabgaben auf Leermedien oder Hardware. Kritiker warnen vor allem vor Datenschutzproblemen und möglichen Einschränkungen bei der Benutzerfreundlichkeit, Interoperabilität und Archivierung, siehe auch Kap. 13.9.3.3. DRM wird derzeit hauptsächlich bei digitalen Medieninhalten wie Filmen oder Musik eingesetzt. Dazu werden beispielsweise die DRMS FairPlay von Apple, Play Ready von Microsoft oder Widevine von Google von Video- oder Musikstreaminganbietern verwendet. Diese ermöglichen eine genaue Spezifizierung der Berechtigungen und können für Audiound Videodateien verwendet werden. 13.9.3.1 Anwendungsbereiche DRM-Systeme sollen vorrangig die Weitergabe von und Zugriff auf digitale Inhalte auf offenen Plattformen kontrollierbar machen und daher insbesondere Funktionen zur Zugangs- und zur Nutzungssteuerung bereitstellen. Während es bei der Zugangssteuerung um die Bestimmung des Personenkreises („Wer?“) geht, steht bei der Nutzungssteuerung die Art der Nutzung („Wie?“) im Mittelpunkt.
13.9 Digitale Signaturen von Audiodateien
921
DRMS realisieren die Zugriffskontrolle mit Hilfe kryptografischer Verfahren, indem ein beliebiger digitaler Inhalt durch Verschlüsselung eindeutig an eine Lizenz gebunden wird. Ohne die zum digitalen Inhalt gehörige gültige Lizenz kann der Benutzer zwar das Gerät oder den Datenträger erwerben, nicht jedoch auf den (vollständigen) Inhalt zugreifen. Um digitalen Inhalten auch außerhalb eines DRMS einen gewissen Schutz zu ermöglichen, kann durch eine möglichst nicht mit einfachen Mitteln zu entfernende (robuste) Kennzeichnung der Inhalte eine mögliche Lizenzverletzungen auch nachträglich erkannt werden. Zugangssteuerung Ziel ist es sicherzustellen, dass der Zugriff auf geschützte Inhalte nur entsprechend lizenzierten Personen und/oder Endgeräten gewährt wird. Hierbei wird der Benutzer im ersten Schritt mittels eines Authentifizierungsverfahrens identifiziert. Danach werden seine Zugriffsrechte geprüft. Für die Identifizierung des Benutzers gibt es unterschiedliche Verfahren, wie Passwörter oder Hardware-Authentifikation bis hin zur Überprüfung biometrischer Daten. Passwortbasierte Systeme sind zwar einfach und kostengünstig zu implementieren, gestatten aber durch die Möglichkeit der unkontrollierten Weitergabe des Passworts nicht zuverlässig die Identifizierung eines Benutzers. Nutzungssteuerung Die Durchsetzung einer entsprechenden Lizenz muss auch nach erfolgreicher Zugriffautorisierung gewährleistet werden. Die zum Zugriff auf die geschützten Inhalte verwendeten Programme müssen daher eine Beschreibung der berechtigten Verfügungsformen (Lizenz) verstehen und geeignet durchsetzen können. Man unterscheidet zwischen –– dem Wiedergaberecht (ausdrucken, ansehen und abspielen); –– dem Transportrecht (kopieren, weitergeben und ausleihen); –– dem Recht, abgeleitete Werke zu erstellen (extrahieren, editieren und einfügen). In ihrer einfachsten Form umfassen Nutzungssteuerungssysteme einen geeigneten Kopierschutzmechanismus (wie z. B. beim DVD-Standard). Nutzungsabrechnung DRMS ermöglichen nicht nur den Schutz digitaler Inhalte, sondern auch die Etablierung nutzungsabhängiger Bezahlmodelle (Pay-per-View, Pay-per-Click etc.). Verbraucher können so nicht nur pauschal, sondern auch selektiv und in kleinen Mengen Inhalte erwerben. Dazu gehört auch, die Nutzung zu protokollieren und diese Informationen per Rückkanal an das Abrechnungssystem des Anbieters weiterzugeben. Neben der Rückkanalfähigkeit ist hier zusätzlich auch die Integration von sicheren elektronischen Zahlungssystemen notwendig. Nutzungskontrolle ohne DRMS Umfassender Schutz ist auch durch DRMS nicht durchsetzbar. Auch wenn die technischen Schutzvorkehrungen den Angriffstechniken der unberechtigten Nutzer immer einen Schritt
922
13 Audiocodierung
voraus bleiben sollten, besteht oft das „Problem der analogen Lücke“, d. h. die Möglichkeit, Analogkopien hochwertig zu re-digitalisieren und danach ungeschützt weiterzuverbreiten. Deshalb ergreifen Inhalteanbieter auch reaktive Maßnahmen zum Schutz ihrer Inhalte durch entsprechend gesetzte Markierungen, oder gerade die Abwesenheit von Markierungen als Zeichen für kompromittierte Medienprodukte. Zu den schwachen Markierungsverfahren zählen das sog. Labeling und das Tattooing. Diese Verfahren sind leicht überwindbar, weil die Metadaten nicht versteckt werden können. Außerdem sinkt die Qualität des Medienproduktes, da solche Maßnahmen häufig störend wirken. Zu den starken Markierungsverfahren zählen sog. Wasserzeichen, welche die versteckte Einbettung von Metadaten in Medienprodukten ermöglichen. 13.9.3.2 Basistechniken Zugangs- und Nutzungssteuerung benötigen die Basistechniken der Kryptografie, Rechtedefinitionssprachen und ggf. Abrechnungsfunktionen. Wasserzeichen sollen die lizenzrechtlichen Bestimmungen auch außerhalb eines DRMS zumindest nachträglich erkennbar machen. Verschlüsselung Um die unberechtigte Nutzung, Veränderung oder Verfälschung geschützter Inhalte zu verhindern, können eine Vielzahl von kryptografischen Techniken verwendet werden. Diese kommen insbesondere im Rahmen der Zugriffs- und Nutzungskontrolle sowie der sicheren Abrechnung zum Einsatz. Digitale Signaturen können beispielsweise die Authentizität eines Berechtigten sicherstellen. Im Rahmen elektronischer Zahlungssysteme helfen solche Verschlüsselungsverfahren, wie z. B. das Secure-Electronic-Transaction-(SET-) System, bei der sicheren Übertragung von sensiblen Abrechnungsdaten (z. B. Kreditkartennummern) über das Internet. Digitales Wasserzeichen Ein digitales Wasserzeichen (Digital Watermarking) kann bestimmte Informationen unwiderruflich mit einem Medienprodukt verbinden, zu Einzelheiten siehe Kap. 13.9.1. Digitaler Fingerabdruck Ein digitaler Fingerabdruck (AudioID, Audio Fingerprint) kennzeichnet den Audioinhalt eines Mediums, ohne die Audiodaten selbst zu verändern; Details siehe Kap. 13.9.2. Rechtedefinitionssprachen Die Beschreibung des Umfangs der eingeräumten Rechte und ggf. die gewählte Form der Abrechnung erfordert den Einsatz sog. Rechtedefinitionssprachen in Form geeigneter höherer formaler Sprachen. Nutzungsrechte können damit sehr differenziert abgebildet und abgerechnet werden: Nutzungszeitraum, -häufigkeit, -operationen (drucken, ändern, kopieren etc.) und weitere Bedingungen bzw. Einschränkungen. Hierfür werden sowohl proprietäre als auch offene Sprachen benutzt. Eine offene, also standardisierte Sprache ist notwendig, wenn eine plattformübergreifende Nutzung anvisiert wird. Beispiele für solche
13.9 Digitale Signaturen von Audiodateien
923
Standards sind die eXtensible rights Markup Language (XrML) sowie die Open Digital Rights Language (ODRL). Tab. 13/14 gibt eine Übersicht zu möglichen Einsatzbedingungen der genannten Techniken und Funktionen von DRM-Systemen. Die Darstellung ist nicht vollständig, sondern soll lediglich zeigen, dass verschiedene Basistechniken kombiniert eingesetzt werden müssen, um die funktionalen Anforderungen zu realisieren. Tab. 13/14. Beispiele für die Realisierung von Funktionen in DRM Systemen. Basistechniken Anwendungen
Verschlüsselung
Digitale Wasserzeichen
Rechtedefinitionssprachen
Zugangssteuerung
Authentifizierung (z. B. Digitale Signatur) Nutzungsfreigabe durch Entschlüsselung der Inhalte
Robuste Wasserzeichen zur Authentifizierung Robuste Wasserzeichen zur Durchsetzung des Kopierschutzes Fragile Wasserzeichen zum Integritätsnachweis Robuste Wasserzeichen zur Authentifizierung
Abbildung autorisierter Nutzer und/ oder Endgeräte Abbildung von Verfügungsrechten
Nutzungssteuerung
Rechteverwaltung
Abrechnung
Deaktivieren von manipulierten DRMS-Clients Sichere Zahlungsverfahren (z. B. SETVerfahren)
Abbildung autorisierter Nutzer und/oder Endgeräte Abbildung von Abrechnungsdaten
13.9.3.3 Nachteile von DRM Kritiker an der Durchsetzung von DRM führen eine Vielzahl von Nachteilen und Unzulänglichkeiten der bekannten DRMS an, um die Anwendung insgesamt oder partiell in Frage zu stellen. Einige der wesentlichen Einschränkungen, die durch DRM zu erwarten sind, seien nachstehend erwähnt: Inkompatibilität Ein Nachteil von DRM mit Verschlüsselung ist die Inkompatibilität mit manchen Wiedergabegeräten. So lässt sich eine durch DRM geschützte Mediendatei trotz erworbener Lizenz nicht auf allen mobilen Geräten wiedergeben, sondern nur mit solchen, die das jeweilige DRMS auch unterstützten. Der zusätzlich notwendige Abgleichvorgang mit dem Lizenzierungsserver erschwert ggf. ebenfalls das Handling mit entsprechenden Medien. Datenschutz Aus der Verknüpfung von Technik und Anwendungsebene resultieren bei DRM-Systemen eine große Anzahl an offenen Fragen: So lassen sich z. B. Benutzerprofile erstellen, wenn Schlüssel und Geräte-IDs zentral verwaltet werden. Es gibt auch DRM-Systeme, die bei jeder
924
13 Audiocodierung
Benutzung des Mediums bei einer zentralen Stelle anfragen, ob der betreffende Benutzer überhaupt zur Benutzung berechtigt ist. Informationsverlust Durch Marktveränderungen des Inhalteanbieters (Firmenübernahmen oder -aufgaben) ist nicht gesichert, dass sich DRM-geschützte Medien auch in Zukunft abspielen lassen, ähnlich der fehlenden Unterstützung von Software heute nicht mehr existierender Hersteller. Schutzfristen In vielen Ländern erlischt der urheberrechtliche Schutz eines Werks nach einer bestimmten Frist. In der Europäischen Union ist dies in der Regel 70 Jahre nach dem Tod des Urhebers der Fall. Nach Ablauf dieser Frist darf jedermann das entsprechende Werk nach Belieben kopieren und verkaufen. Bislang erlaubt jedoch keines der bekannten DRM-Systeme eine solche Freigabe von ursprünglich urheberrechtlich geschützten Werken. Dies hat zur Folge, dass früher erworbene DRM-geschützte Dateien auch nach Ablauf der Schutzfrist nicht beliebig verwendet werden können, obwohl dies rechtlich ausdrücklich erlaubt wäre.
Standards [AC3] [AES10]
[AES3]
[AES31] [AES3-am5]
[AES50] [AES55] [AES59] [BS.1115] [BS.1284] [BS.1387] [DTS] [ETSI TS 101154]
ATSC (United States Advanced Television Systems Committee): A/52/10 Digital Audio Compression Standard, 1995. AES: Publication AES10-1991 (ANSI S4.43-1991), AES10-2008. AES Recommended Practice for Digital Audio Engineering – Serial Multichannel Audio Digital Interface (MADI). AES: Publication AES3-1992 (ANSI S4.40-1992), AES3-2009 AES Recommended Practice for Digital Audio Engineering - Serial Transmission Format for Two Channel Linearly Represented Digital Audio Data. AES: Publication AES31-1-2001, AES31-2-2006, AES31-3-2008. Standard for network and file transfer of audio. AES: Publication AES3-am5-2008. Amendment 5 to AES standard for digital audio - Digital input-output interfacing - Serial Transmission Format for Two Channel Linearly Represented Digital Audio Data, Geneva, 2008 AES: Publication AES50-2011. High-resolution multi-channel audio interconnection (HRMAI). AES: Publication AES55-2007. AES standard for digital audio engineering - Carriage of MPEG Surround in an AES3 bitstream AES: Publication AES59-2012: AES standard for professional audio - Audio application of 25-way D-type connectors in balanced circuits ITU-R: Recommendation BS.1115-1. Low bit-rate audio coding. Geneva, 2005. ITU-R: Recommendation BS.1284-1. General methods for the subjective assessment of sound quality. Geneva, 2002. ITU-R: Recommendation BS.1387-1 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 2001. DTS Digital Theatre Systems Inc.: DTS Coherent Acoustics Encoder - Requirements Specification for Core Audio. http://www.dtsonline.com ETSI TS 101 154 v2.4.1: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcast and Broadband Applications, 2018-02.
Standards
[ETSI TS 103190-1] [ETSI TS 103190-2] [ETSI TS 103420] [ETSI TS 103491] [ETSI TS 103634] [G.722.1] [G.722.1C] [G.722.2] [G.722] [HDMI] [IEC60958]
[IEC61937]
[IEC62365]
[IEEE1394] [ITU-T G.711] [MPEG SAOC] [MPEG] [MPEG-1]
[MPEG-2 AAC]
[MPEG-2]
[MPEG-4 ALS]
925
ETSI TS 103 190-1 v1.3.1: Digital Audio Compression (AC-4) Standard; Part 1: Channel based coding, 2018-02. ETSI TS 103 190-2 v1.2.1: Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio, 2018-02. ETSI TS 103 420 v1.2.1: Backwards-compatible object audio carriage using Enhanced AC-3, 2018-10. ETSI TS 103 491 v1.2.1: DTS-UHD Audio Format; Delivery of Channels, Objects and Ambisonic Sound Fields, 2019-05. ETSI TS 103 634 v1.2.1: Digital Enhanced Cordless Telecommunications (DECT); Low Complexity Communication Codec plus (LC3plus), 2020-10. ITU-T: Rec. G.722.1. Coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 1999. ITU-T: Recommendation G.722.1 Annex C: Low-complexity coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 2005. ITU-T: Recommendation G.722.2. Wideband coding of speech at around 16 kBit/s using adaptive multi-rate wideband (AMR-WB). Geneva, 2006. ITU-T: Recommendation G.722. 7 KHz Audio Coding within 64 kb/s. Geneva, 1988. HDMI-Standard: http://www.hdmi.org IEC: International Standard IEC 60958. Digital audio interface. - Part 1: General, 2004 - Part 3: Consumer applications, 2006 - Part 4: Professional applications, 2003 IEC: International Standard IEC 61937-1. Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958. - Part 1: General, 2007 - Part 2: Burst-info, 2007- Part 3 bis Part 8: Non-linear PCM bitstreams (according to the AC-3, MPEG audio, DTS, MPEG-2 AAC, and MPEG-4 AAC etc. audio formats), 2003 (mit Corrigendum 1, 2004) IEC: International Standard IEC 62365. Digital audio - Digital input-output interfacing - Transmission of digital audio over asynchronous transfer mode (ATM) networks, 2004 IEEE1394-1995: FireWire - Standard for a high performance serial bus. ISBN: 1-55937583-3, 1996 and supplements, http://ieeexplore.ieee.org/ servlet/ ITU-T G.711 Recommendation: Pulse Code Modulation (PCM) of Voice Frequencies, 1972 ISO MPEG: International Standard ISO/IEC 23003-2 (SAOC). Information technology – MPEG-4 audio technologies - Part 2: Spatial Audio Object Coding (SAOC). 2010. Moving Picture Experts Group. https://www.mpegstandards.org/about-mpeg/ ISO MPEG: International Standard EN ISO/IEC 11172. Information Technology – Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1,5 Mbit/s (MPEG-1). 1997. ISO MPEG: International Standard ISO/IEC 13818-7. Information technology – Generic coding of moving pictures and associated audio information – Part 7: Advanced Audio Coding (AAC). 2007. ISO MPEG: International Standard ISO/IEC 13818-3, Information technology – Generic coding of moving pictures and associated audio information (MPEG-2) – Part 3: Audio. 2001. ISO MPEG: International Standard ISO/IEC 14496-3. Information technology – Coding of audio-visual objects (MPEG-4) – Part 3: Audio, AMD-4 Audio Lossless Coding (ALS). 2009.
926
13 Audiocodierung
[MPEG-4]
[MPEG-7] [MPEG-D] [MPEG-D DRC] [MPEG-D USAC] [MPEG-H]
[PEAQ] [PESQ] [SMPTE292M] [Tech3250] [Tech3285] [Tech3296] [Tech3306] [Tech3309] [Tech3311] [Tech3324] [USB]
ISO MPEG: International Standard ISO/IEC 14496-3. Information technology – Coding of audio-visual objects (MPEG-4) – Part 3: Audio. 2005. ISO MPEG: International Standard ISO/IEC 15938. Multimedia Content Description Interface (MPEG-7). 2002. ISO MPEG: International Standard ISO/IEC IS 23003-1 (MPEG-D). MPEG Surround. 2007. ISO MPEG: International Standard ISO/IEC 23003-4 Information technology — MPEG audio technologies — Part 4: Dynamic range control. ISO MPEG: International Standard ISO/IEC 23003-3 Information technology — MPEG audio technologies — Part 3: Unified speech and audio coding. ISO MPEG: International Standard ISO/IEC 23008-3. Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio. ITU-R: Recommendation BS.1387 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 1999. ITU-T: Recommendation P.862 (PESQ). Perceptual evaluation of speech quality. Geneva, 2001. SMPTE 292M-1998: Bit-Serial Digital Interface for High Definition Television, 1998 EBU: Techn. Doc. 3250. Specification of the Digital Audio Interface, einschl. Supplement 1: „Format for User Data Channel“. Genf, 1992 EBU: Techn. Doc. 3285. BWF – a format for audio data files in broadcasting. Genf, 2001 EBU: Doc Tech 3296. Subjective Listening Tests on LowBitrate Audio Codecs - 1st edition. Geneva, 2003. EBU: Techn. Doc. 3306. RF64: An extended File Format for Audio. Genf, 2007 EBU: Doc Tech 3309. Evaluations of Cascaded Audio Codecs. Geneva, 2005. EBU: Techn. Doc. 3311. EBU Guidelines for Multichannel Audio in DVB. Genf, 2006 EBU: Doc Tech 3324. EBU evaluations of multichannel audio codecs. Geneva, 2007. USB Specifications. http://www.usb.org/developers/docs/
Literatur [AES, 2001] [APT-X] [Blauert, 1983] [Bleidt, 2017] [Brandenburg, 1988] [Breebaart, 2005] [Dressler, 2000] [Ehret, 2003] [Engdegård, 2008]
AES: Educational CD-ROM on audio coding artefacts. New York, 2001. Technische Beschreibung apt-x100 Coding System. Pro Audio Systems, Karben, 1999/2001. Blauert, J.: Spatial Hearing, MIT Press, 1983. Bleidt, R., Sen, D., Niedermeier, A. et al: “Development of the MPEG-H TV Audio System for ATSC 3.0”. IEEE Transactions on Broadcasting, vol. 63, no. 1, pp. 202Brandenburg, K.: OCF - A new coding algorithm for high quality sound signals. Proc. of ICASSP, Dallas, 1988. Breebaart, J., Herre, J., Faller, C. et al: “MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status”. 119th Convention AES, New York, 2005. Dressler, R.: Dolby Surround ProLogic II Decoder – Principles of Operation. Internet: www.dolby.com, 2000. Ehret, A.; Dietz, M.; Kjörling, K.: “State-of-the-Art Audio Coding for Broadcasting and Mobile Applications”. 114th AES Convention, Amsterdam, 2003. Engdegård, J., Resch, B., Falch, C. et al: Spatial Audio Object Coding (SAOC) – The Upcoming MPEG Standard on Parametric Object Based Audio Coding. 124th Convention AES, Amsterdam, 2008.
Literatur
[Fielder, 1996]
927
Fielder, L., Bosi, M., Davidson, G. et al: AC-2 and AC-3: “Low-Complexity Transform-Based Audio Coding”, in: AES, Collected Papers on Digital Audio Bit-Rate Reduction, 1996. [Fielder, 2004] Fielder, L. et al.: “Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system“, 117th AES convention, 2004, preprint 6196. [FLAC] FLAC-Homepage. https://xiph.org/flac/index.html (aufgerufen 25.07.2013). [Fuchs, 2009] Fuchs, H., Korte O. and Hilpert, J.: “Digital Broadcasting with MPEG Surround”. EBU Techn. Review, Geneva, Q3, 2009. [Haitsma, 2002] Haitsma, J.A.: “Audio Fingerprinting – a new technology to identify music”. Report Philips Electronics, 2002. [Hellmuth, 2003] Hellmuth, O. und Herre, J.: „MPEG-7 Audio – Fingerprinting und Anwendungen“. Deutscher Expertenworkshop zum Metadatenstandard MPEG-7, Erlangen, 2003. [Herre, 1994] Herre, J., Brandenburg, K., Lederer, D.: Intensity Stereo Coding. 96th AES Convention, Amsterdam 1994, Preprint 3799. [Herre, 1996] Herre, J. Johnston, D.: “Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)”, 101st AES Convention, Los Angeles 1996, Preprint 4384. [Herre, 2014] Herre, J., Hilpert, J., Kuntz, A., Plogsties, J.: “MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding”. Audio Engineering Society 137th Convention, Los Angeles, 2014. [Küch, 2015] Küch, F., Kratschmer, M., Neugebauer, B. et al: “Dynamic Range and Loudness Control in MPEG-H 3D Audio”. Audio Engineering Society 139th Convention, New York, 2015. [Magarelli, 2005] Magarelli, R. and Strachan, D.: “Integrated solutions for embedded Dolby E and AC-3”. Evertz Microsystems Ltd., 2005. [Meltzer, 2002] Meltzer, S. and Dietz, M.: “Audio Coding: CT-aacPlus - a state-of-the-art audio coding system”. EBU Techn. Review, Geneva, 2002. [Neuendorf, 2013] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, et. al. “The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for All Content Types and at All Bit Rates” J. Audio Eng. Soc., vol. 61, no. 12, 2013. [Ritscher, 1996] Ritscher, S., Felderhoff, U.: “Cascading of Different Audio Codecs”. 100th AES Convention, Copenhagen 1996, Preprint 4174. [Smyth, 1996] Smyth, J., Smith, W. et al: “DTS coherent acoustics delivering high quality multichannel sound to the consumer”, 100th AES convention, Copenhagen, 1996, preprint 4293. [Soloudre, 1998] Soloudre, G., Grusec, T., Lavoie, M. et al: “Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs”. J. AES, 1998, Vol. 46, no.3. [Theile, 1988] Theile, G., Stoll, G., Link, M.: “Low bit-rate coding of high-quality audio signals: An introduction to the MASCAM System”. EBU Techn. Review, No. 230, Geneva, 1988. [Wylie, 1996] Wylie, F.: apt-X100: “Low-Delay, Low-Bit-Rate Sub-band ADPCM Digital Audio Coding”. In: AES, Collected Papers on Digital Audio Bit-Rate Reduction, 1996.
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung Götz Romahn (14.1), Ralf Steuck (14.2)
14.1 Digitale Tonbearbeitung Neben den grundlegenden Funktionen zur Speicherung, Vervielfältigung und Übertragung bietet die digitale Tontechnik besonders wirkungsvolle Möglichkeiten zur Signalbearbei tung bzw. Klanggestaltung während oder nach der Tonaufzeichnung an. So haben digitale Effektgeräte nicht nur ihre analogen Äquivalente fast vollständig aus dem Studio verdrängt, sondern auch neue Möglichkeiten zur Klangbearbeitung geschaffen, die in analoger Technik nicht oder nur in verminderter Qualität bzw. mit hohem Aufwand realisierbar waren. Es hat sich im Verlauf der technischen Entwicklung gezeigt, dass den Geräten zur digitalen Tonsi gnalbearbeitung eine im Prinzip recht einfache gemeinsame Struktur zu Grunde liegt. Kap. 6 geht ausführlich auf die Klanggestaltung ein. Die Bausteine eines digitalen Tonstudios, seien es Effektgeräte, Mischpulte, Kreuzschie nen oder Tonbearbeitungsplätze, verfügen in ihrem Kern über eine Recheneinheit in Form eines Universalprozessors oder dedizierter Signalprozessoren; mit diesem Kern verbunden sind die Ein- und Ausgänge für die Zu- oder Weiterführung der Studiosignale, die Steuerein heiten und Bediengeräte, sowie die Komponenten zur Signalspeicherung.
14.1.1 Digitale Effektgeräte Effektgeräte gehören zur Standardausstattung eines jeden Tonstudios. Die am häufigsten eingesetzten Effektfunktionen beziehen sich auf dynamische Pegeländerungen, Klangbeein flussungen, ferner Zeitverzögerungen (delay) und andere Manipulationen der Zeitbasis, z. B. zur Tonhöhenveränderung (pitch shifting) oder zur Zeitraffung und Zeitdehnung (time stret ching). Für einzelne dieser Anwendungsbereiche waren bereits in der Vergangenheit Geräte mit analoger Funktionsweise vorhanden. Die digitale Tonsignaltechnik bietet jedoch wesent lich einfachere Lösungswege oder komplexere Bearbeitungsmöglichkeiten besonders dann, wenn es sich um zeitbasisbezogene Operationen handelt (siehe Kap. 6.4). Die genannten Verfahren lassen sich grundsätzlich auf jeder für digitale Signalver arbeitung geeigneten Hardware/Software-Plattform realisieren. Es werden aber immer noch – häufig aus ergonomischen Gründen – eigenständige, in ihrem Äußeren individu ell gestaltete Geräte angeboten. Wie bereits beschrieben, ist die Struktur dieser Geräte im Grunde immer gleichartig – sie bestehen aus den Eingangsmodulen für digitale oder analoge Signale, den entsprechenden Wandlern, aus der eigentlichen Einheit für die Signalverar beitung und den Ausgabebausteinen, wieder jeweils für digitale oder analoge Signale. Zur Eingabe von Parametern für die Klangbearbeitung dienen eine Steuereinheit und das Bedien gerät (Abb. 14/1).
https://doi.org/10.1515/9783110759921-014
930
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Durch Verwendung praktisch identischer Hardware und fallweise angepasster Firmund Software ergeben sich für die Hersteller der digitalen Effektgeräte enorme Einsparun gen gegenüber der früheren konventionellen Bauweise. Über die tatsächliche Funktion des Geräts entscheiden die zur Signalverarbeitung entwickelten Rechenprogramme (Algorith men) und die dem jeweiligen Verwendungszweck angepasste Bedienoberfläche. Häufig ver fügen derartige Geräte nicht mehr über Einstellelemente auf Hardware-Basis, sondern lassen sich als Black Box mit simulierter Bildschirm-Bedienoberfläche durch Cursor-Steuerung bzw. Computer-Maus realitätsnah und detailgetreu bedienen.
Abb. 14/1. Struktur eines digitalen Effektgerätes.
14.1.1.1 Bearbeitung im Zeit- oder Frequenzbereich Frühe Geräteentwicklungen zur digitalen Klangbearbeitung basieren häufig auf der verlust freien Speichermöglichkeit von Tonsignalen in Verbindung mit einfachen mathematischen Operationen; hierzu gehören insbesondere Zeitverzögerungs- und Hallgeräte. Derartige Geräte bilden in ihrer einfachsten Form durch Zwischenspeicherung des Tonsignals die Ausbreitung von Wellenfronten im Schallfeld eines Raums als ein Vielfach von Laufzeit strecken, anschaulich auch Schallstrahlen genannt, nach (siehe Kap. 6.5). Die Intensitäts dämpfung der einzelnen Wellenfronten auf Grund mehrfacher verlustbehafteter Reflexion an den Wänden des zu simulierenden Raums wird hierbei durch Multiplikationsvorgänge ersetzt und die Gesamtheit der einzelnen Schallstrahlen dann – eventuell nach Frequenz gangkorrektur – durch Summierung zum angestrebten räumlichen Klangbild gemischt. Die auf diese Weise erzeugten Raumabbildungen sind jedoch klanglich nicht immer befriedigend und daher auch nicht in allen Bereichen der Tonsignalbearbeitung einsetzbar. Eine wesentlich elegantere, aber vom rechnerischen Aufwand auch anspruchsvollere Lösung zur Verhallung eines Tonsignals bietet ein aus der Systemtheorie der elektrischen Nachrichtentechnik entlehnter Ansatz. Die Übertragungseigenschaften eines linearen und zeitinvarianten nachrichtentechnischen Systems − hierzu darf in guter Näherung auch das akustische Verhalten eines Raums gerechnet werden − sind durch die sog. Impulsantwort charakterisiert. Der Begriff „Impulsantwort eines Raums“ beschreibt daher auf anschauli che Weise die akustische Reaktion eines realen Raums bei Anregung durch ein sehr kurzes Tonsignal. Der systemtheoretische Ansatz besagt nun, dass es genügt, die Impulsantwort eines realen Raums zu erfassen und mit dem zu beeinflussenden unverhallten Tonsignal durch den mathematischen Prozess der sog. Faltung zu verbinden (siehe hierzu auch Kap. 6.5.3
14.1 Digitale Tonbearbeitung
931
und 11.2.1.2). Auf diese Weise ist es grundsätzlich möglich, das Tonsignal nachträglich mit einer gewünschten Nachhallcharakteristik zu versehen. Mit Hilfe des Faltungsprozesses lässt sich nicht nur das akustische Verhalten eines Raums nachbilden, sondern es kann z. B. auf diese Weise auch das Übertragungsverhalten des menschlichen Außenohrs bei Schalleinfall aus verschiedenen Richtungen zum Zweck der sog. Binauralisierung (siehe Kap. 5.5.6) simuliert werden. Bei Wiedergabe über Kopfhö rer wird dann ein ähnlich realer Raumeindruck vermittelt, wie er bei einer Tonaufnahme in kopfbezogener Stereofonie (Kap. 5.5.4) entstanden wäre. Weitere Anwendungen der digitalen Signalbearbeitung im Zeitbereich sind Einrichtungen zur Beeinflussung der Dynamik von Programmmaterial, wie sie schon aus der Analogtechnik zur Kompression, zur Expansion oder Amplitudenbegrenzung bekannt sind. Eine erhebli che Verbesserung kann bei digitaler Signalverarbeitung besonders dadurch erzielt werden, dass rückwirkende Regelungsvorgänge durch vorausschauende Steuerungsprozesse ersetzt werden, da die dynamischen Eigenschaften des zu beeinflussenden Signals durch kurze Zwi schenspeicherung bereits vor der eigentlichen Bearbeitung ermittelt und zeitgerecht in den Verarbeitungsprozess eingegeben werden können. Derartige Geräte haben besondere Bedeu tung für die Modulationsaufbereitung der Tonsignale in Rundfunksendewegen. Die digitale Tonstudiotechnik stellt alle Möglichkeiten der Klangbearbeitung zur Verfü gung, wie sie auch aus der Analogtechnik bekannt sind. Hierzu gehören insbesondere Filter zur Frequenzgangbeeinflussung; die Signalverarbeitung kann dabei fallweise im Zeitbereich oder im Frequenzbereich erfolgen.
14.1.2 Digitale Tonmischpulte 14.1.2.1 Funktionalität Das Mischpult dient zur Summenbildung der aus einzelnen Tonkanälen stammenden Signale und zu deren Klangaufbereitung. In Mischpulten mit analoger Signalverarbeitung (siehe Kap. 8) waren ursprünglich einzelne Baugruppen und deren Bedienoberflächen aus technologischen Gründen untrennbar miteinander verbunden: der Bedienknopf eines Pegel stellers wirkte direkt auf Widerstandsnetzwerke ein, die Einstellelemente eines Filters waren mit den klangbeeinflussenden Schaltungen unmittelbar mechanisch verkoppelt. Mit fortschreitender Entwicklung der Halbleitertechnik wurde es möglich, einen großen Teil der Bedienfunktionen von der Signalverarbeitung zu trennen. Es entstanden Mischpulte mit analoger Signalverarbeitung und abgesetzter digitaler Steuerung. Nicht selten wurden und werden auch heute noch die für die Signalverarbeitung verwendeten Komponenten in räumlich getrennten Gerätegestellen untergebracht, wobei sich im Tonstudio nur noch die Bedienkonsole des Mischpults als eine Art Fernbedienung (remote control) befindet. Um die im Verlauf vieler Jahrzehnte entwickelten und bewährten Arbeitsabläufe zu erhalten, wurden die Bedienelemente eines herkömmlichen analogen Mischpults häufig auf der digi talen Steuerungsebene nachgebildet (siehe zur historischen Entwicklung auch Kap. 8.1). Mischpulte mit digitaler Steuerung bieten – anders als ihre Vorgänger – die Möglichkeit einer Automatisierung von Arbeitsprozessen. So können Einstellungen z. B. zur Klangbeein flussung als Presets für eine spätere Verwendung gesichert werden, oder Arbeitsabläufe, die
932
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
sich oft wiederholen, statisch oder dynamisch bei der Abmischung gespeichert und später wieder vollständig abgerufen werden (total recall). Nachdem im Zuge des technischen Fortschritts geeignete Bauelemente und deren Appli kation verfügbar wurden, konnte auch die eigentliche Tonsignalverarbeitung des Misch pults in der digitalen Ebene stattfinden. Aus Sicht des Anwenders unterschieden sich frühe vollständig digital arbeitende Mischpulte prinzipiell kaum von ihren analogen Vorbildern. Wesentliche Bedienelemente für Pegelsteller, Filter, Dynamikbeeinflussungen usw. wurden in ihrer Ergonomie nahezu unverändert übernommen. Eine wesentliche Erweiterung der Funktionalität gegenüber den analogen Vorgängern bietet bei digitalen Mischpulten die Einführung sog. virtueller Signalwege. Mit nur wenigen Bedienelementen können hierbei – je nach logischer Zuordnung – unterschiedliche Funkti onsebenen des Mischpults angesprochen werden. Auf diese Weise lässt sich durch ein zen trales Bedienfeld bei geringem Platzbedarf auf der Bedienfläche der Konsole – allerdings oft unter Verzicht auf gleichzeitigen oder direkten Zugriff – eine große Zahl von Mischpultpara metern steuern. Die bei analogen Mischpultkonzepten anzutreffenden Konfigurationssteckfelder sind bei digitalen Mischpulten in der Regel durch die Signalverarbeitungsschritte virtuell ersetzt. Dadurch gewinnen digitale Mischpulte gegenüber analogen Mischpulten einen erheblichen Zuwachs an Flexibilität und Funktionalität, da nun z. B. die für die Klangbeeinflussung erfor derlichen Elemente beliebig in die Signalwege als sog. Plug-ins eingefügt werden können. Die in einem digitalen Mischpult angebotenen Möglichkeiten zur Steuerung der Signalwege (routing) machen daher auch den Einsatz externer Kreuzschienen oft entbehrlich.
Abb. 14/2. Funktionsgruppen eines digitalen Mischpults.
14.1 Digitale Tonbearbeitung
933
14.1.2.2 Gerätetechnik Die interne gerätetechnische Struktur eines digitalen Mischpults (Abb. 14/2) ähnelt der bereits beschriebenen Funktion eines digitalen Effektgeräts. Die eingangsseitigen digitalen oder A/D-gewandelten analogen Tonsignale werden über eine Kommutierungseinrichtung, die die Funktion einer Kreuzschiene nachbildet, auf einen oder mehrere Signalprozessoren weitergeleitet; dies gilt auch für die internen Signale des Mischpults, wie beispielsweise Gruppen- und Summensignale und für die Einschleifpunkte (inserts). Ebenso stellt die logi sche Kreuzschiene die Signale für die Ausgänge des Mischpults zur Verfügung. In räumlich ausgedehnten Studiokomplexen von Funkhäusern ist es oft sinnvoll, die Funktionen eines digitalen Mischpults von verschiedenen Stellen aus zu steuern. Bei großen Mischpultsystemen besteht daher die Möglichkeit, eine oder mehrere sog. Tochterkonsolen an das zentrale System anzuschließen. Die Eingangs- und Ausgangsschnittstellen (I/O-Ports) können abgesetzt vom zentralen System z. B. in einer Stage Box installiert sein. Für die Anbindung der dezentralen Einheiten an das zentrale System gibt es unter schiedliche technische Lösungen. Es sind z. B. AES/EBU- oder MADI-Verbindungen, aber auch herstellerspezifische, sog. proprietäre Lösungen auf Kupfer- bzw. Glasfaserbasis anzu treffen (Abb. 14/3).
Abb. 14/3. Mischpult mit abgesetzten Tochterkonsolen und I/O-Ports.
In einer konkreten Realisierung, welche nachfolgend beispielhaft beschrieben wird, besteht das digitale Mischpult aus drei Basiskomponenten: der Hauptbedienkonsole, dem Audio signalprozessor und einem Signalverteilsystem. Diese Teilsysteme sind über Glasfaserleitun gen miteinander verbunden, über die Audio- und auch Steuerdaten geführt werden. 14.1.2.3 Hauptbedienkonsole Die Hauptbedienkonsole ist modular aufgebaut; sie enthält alle wesentlichen Stellglieder und Anzeigeeinheiten, ergänzt durch Aktuatoren, also Tastatur, Rollkugel, Joy Stick usw., zur Dateneingabe. Die hier beschriebene Konsole ermöglicht den Zugriff auf bis zu 96 direkt bedienbare Kanäle, es lassen sich jedoch insgesamt ca. 300 Tonkanäle ansteuern. Den Bedien
934
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
kanälen können die Funktionen zur Pegel- und Klangbeeinflussung ebenso zugeordnet werden wie die Anzeigefunktionen zur Rückmeldung der Konfigurationsparameter und zur Anzeige der Aussteuerung in den einzelnen Kanälen (metering). Hierfür werden die in der Datentechnik üblichen Displays, neben Flachbildschirmen auch LED-Felder eingesetzt. Alternativ können die Einstellparameter eines jeden Kanals auch über ein einziges zentrales Display- und Bedien feld eingegeben werden. Mit Unterstützung des in die Konsole integrierten Steuerrechners lassen sich die Konfi gurationen für unterschiedliche Tonformate, z. B. 2-Kanal-Stereo, 5.1- oder 7.1-Mehrkanalton – gegebenenfalls auch zur parallelen Abmischung (down mix) – abrufen; das gleiche gilt für Subgruppen und (n-1)-Matrix-Anordnungen. Alle Konfigurationen können statisch oder dynamisch abgespeichert und unterschiedlichen Projekten zugeordnet werden. 14.1.2.4 Audiosignalprozessoren Zur Audiosignalverarbeitung werden im hier betrachteten Fall Signalprozessor-Chips mit 40-Bit-Gleitkommaarithmetik eingesetzt. In den einzelnen Baugruppen des zentralen Audio signalprozessors können konfigurationsabhängig die Signale von jeweils bis zu 32 Tonkanä len mit den Funktionsparametern für Pegel, Frequenzgang, Dynamik und Zeitverzögerung verarbeitet werden. Es stehen 48 Hilfs- oder Auxiliary-Wege und 128 Signalbusse zur Verfü gung. Die vom zentralen Audiosignalprozessor des digitalen Mischpults erzeugte Verlust wärme muss durch Kühlung abgeführt werden. Die hiermit verbundene Geräuschentwick lung macht den Betrieb des Prozessors in einem abgesetzten Geräteraum ratsam. 14.1.2.5 Signalverteilsysteme Das Signalverteilsystem stellt die Schnittstellen für analoge und digitale Audioformate und für die Steuerung externer Geräte über serielle Interfaces oder potenzialfreie Schalter zur Verfügung. Auch Timecode (LTC) und MIDI werden unterstützt. In 16 Baugruppen können mit Hilfe einer Schaltmatrix bis zu 4.096 Eingänge und 4.096 Ausgänge geroutet werden. Zum Anschluss analoger Quellen oder Verbraucher sind Wandler mit einer Auflösung von 24 Bit vorhanden. Hierdurch wird eine Übersteuerungsre serve (headroom) garantiert, die mit der von analogen Mischpulten vergleichbar ist. An den digitalen Schnittstellen können Formate wie beispielsweise AES/EBU, SPDIF, MADI, ADAT, TDIF oder SDI-Varianten anliegen (siehe dazu Kap. 13.5). Es stehen die in der Tonstudiotech nik üblichen Abtastraten von 44,1 kHz, 48 kHz und 96 kHz zur Verfügung. Zur Anpassung unterschiedlicher Abtastraten sind Abtastratenwandler vorgesehen. Bei Bedarf kann das Si gnalverteilsystem über ein Glasfasernetz mit weiteren externen Geräten verbunden werden.
14.1.3 Kreuzschienen Sollen im Verbund von Studiokomplexen digitale Tonsignale und zugeordnete Steuerfunk tionen verteilt werden, ist der Einsatz zusätzlicher externer Kommutierungseinrichtungen (router) zweckmäßig. Diese Koppelfelder mit der Funktion einer Kreuzschiene oder eines
14.1 Digitale Tonbearbeitung
935
Steckfelds sind in konventionellen Systemen in der Regel als sog. Raummultiplex-Systeme ein- oder mehrstufig ausgeführt (siehe Kap. 8.4.2). In einer rein digitalen Signalumgebung bietet sich jedoch die zeitschlitzorientierte Signalverknüpfung im Zeitmultiplex-Verfahren als vorteilhafte Lösung an (siehe auch Kap. 16.1.1.1). 14.1.3.1 Raummultiplex Bei klassisch aufgebauten einstufigen Koppelfeldern muss für jede Verbindung einer Ein gangsleitung auf eine Ausgangsleitung ein eigener Koppelpunkt vorgesehen werden. Daher erfordert eine Kreuzschiene mit 100 Eingängen und 100 Ausgängen insgesamt 10.000 Kop pelelemente, die als mechanische oder elektronische Schalter ausgeführt sein können. Wegen der räumlich getrennten Anordnung der Koppelpunkte wird eine derartige Lösung auch als Raumvielfach oder Raummultiplex bezeichnet. Abb. 14/4 zeigt die Struktur einer solchen Kreuzschiene. Raummultiplex-Koppelfelder, bei denen bestimmte Eingangs-Aus gangskombinationen nicht sinnvoll oder nicht gleichzeitig erforderlich sind, lassen sich zur Reduktion der Anzahl der Koppelelemente durch Kaskadierung von hierarchisch gestaffelten Koppelfeldebenen auch mehrstufig betreiben.
Abb. 14/4. Kreuzschiene im Raummultiplex.
14.1.3.2 Zeitmultiplex In digitalen Kommutierungssystemen erfolgt die Verbindung von Eingangs- und Ausgangs leitungen in der Regel nicht über die Koordinatensteuerung einer räumlichen Anordnung von Koppelelementen, sondern über die Anwahl von signalzugeordneten Punkten (time slots) auf der Zeitachse (Abb. 14/5). Physikalisch haben derartige Systeme eine DatenbusStruktur und stehen daher der Signalverarbeitungsweise in Rechnern sehr nahe. Durch die Verwendung eines Zeitmultiplexbusses wird die Zahl der benötigten Koppel punkte stark reduziert. Eine Kreuzschiene mit 100 Ein- und 100 Ausgängen benötigt jetzt nur noch 200 Koppelelemente, die in definierter Abfolge und zeitgerecht auf den Bus geschaltet werden. Beim Bus-System nach dem Zeitmultiplexverfahren wird die Größe im Vollausbau durch die Anzahl der Zeitschlitze bestimmt; die maximale Größe eines derartigen Koppel felds wird demnach durch die Taktfrequenz des Systems vorgegeben. Ein Zeitmultiplex-System kann durch Buskoppler erweitert und über große Entfernun gen geführt werden; somit besteht die Möglichkeit, die Eingangsmodule an den Orten der Signalquellen und die Ausgangsmodule an den Orten der Verbraucher zu installieren. In
936
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Anlehnung an die Methoden der Computertechnik sind die Datenbusse in paralleler oder serieller Struktur realisiert.
Abb. 14/5. Kreuzschiene im Zeitmultiplex.
Bei parallelen Bussen ist für jedes Bit eines Datenworts eine eigene Datenleitung vorgese hen; hinzu kommen Steuerleitungen, die den Datenverkehr regeln. Problematisch kann es bei parallelen Datenbussen sein, die Synchronität und damit die Lesbarkeit aller Daten- und Steuersignale bei extrem schnellem Datenverkehr unabhängig von der physikalischen Belas tung durch Signal-Zuführungen und -Ableitungen auf dem System aufrecht zu erhalten. Eine Alternative zu parallelen Datenbussen sind serielle Datenbusse. Bei diesen werden die einzelnen Bits eines Datenworts nicht zeitgleich, sondern zeitlich nacheinander über tragen. Serielle Datenbusse werden wegen der geringeren Zahl von datenführenden Leitern häufig zur Verbindung von Einzelgeräten eingesetzt, erfordern aber gegenüber einem Par allel-Bus grundsätzlich eine mindestens um den Faktor der Datenwortlänge höhere Taktfre quenz zur Erzielung identischer Nutzdaten-Übertragungsraten. Beispiele für serielle BusSysteme sind der für Computerinterfaces standardisierte Universal Serial Bus (USB) oder der FireWire (Apple), siehe Kap. 12.5. Sollen Geräte der Tonstudiotechnik über größere Entfernungen seriell miteinander ver bunden werden, sind als Übertragungsmedium Lichtwellenleiter (Glasfasern) besonders geeignet, da diese eine hohe Übertragungsgeschwindigkeit zulassen und weniger störemp findlich sind. Solche Glasfaserverbindungen sind Punkt-zu-Punkt-Verbindungen, d. h., sie verbinden, physikalisch bedingt, eine einzige Quelle mit einer einzigen Senke. Sollen viele Ein- oder Ausgangsmodule räumlich abgesetzt an zentrale Multiplexein richtungen angeschlossen werden, kann dies mit sog. Sternkopplern (star coupler) realisiert werden. Innerhalb eines Sternkopplers werden die Signalverbindungen über hochintegrierte programmierbare Bausteine hergestellt. Mit FPGA-Bausteinen (Field Programmable Gate Arrays) lassen sich extrem schnelle Schalter in großer Anzahl für die Signaldurchschaltung programmieren. Aus diesem Grund ist in weitläufigen Kommutierungseinrichtungen häufig ein Nebeneinander von Raum- und Zeitmultiplex-Subsystemen zu finden. Die Struktur einer sternförmig aufgebauten Kreuzschiene zeigt Abb. 14/6.
14.1 Digitale Tonbearbeitung
937
Abb. 14/6. Struktur eines sternförmig aufgebauten Kreuzschienensystems.
14.1.4 Systembetrachtungen 14.1.4.1 Taktsignale und Wordclock In PCM-Technik codierte digitale Tonsignale können innerhalb komplexer Systeme grund sätzlich nur dann korrekt übertragen werden, wenn die zusammengeschalteten Geräte oder Funktionsgruppen mit gleicher Abtastfrequenz arbeiten. In Tonstudios weit verbreitete Abtastfrequenzen sind 44,1 kHz und 48,0 kHz oder ganzzahlige Vielfache hiervon. Damit alle Geräte mit exakt gleicher Abtastfrequenz arbeiten, erfolgt deren Synchronisation in der Regel über ein auf separatem Leiter geführtes Taktsignal (word clock). Die Frequenz dieses Taktsignals ergibt sich aus der verwendeten Abtastrate. Eine Alternative zum gesondert geführten Taktsignal sind die über spezielle digitale Audioschnittstellen wie AES/EBU oder SPDIF übertragenen selbsttaktenden Signale, die zusätzlich zu den eigentlichen digitalen Tonsignalen auch noch eine Taktinformation beinhalten (siehe Kap. 12.5). Grundsätzlich ist zu beachten, dass der Takt nur aus einer einzigen Quelle abgeleitet werden darf. Während es innerhalb eines Studiokomplexes nicht allzu schwierig ist, eine uniforme synchrone Taktversorgung herzustellen, kann es sich bei der Übertragung digitaler Tonsignale über weite Entfernungen als notwendig erweisen, die Takte der unterschiedli chen Standorte voneinander zu entkoppeln. Eine derartige Entkopplung leisten Abtastra tenwandler (Sample Rate Converter, SRC). Abtastratenwandler wurden ursprünglich dafür entwickelt, Tonsignale mit vorgegebener Abtastfrequenz in eine andere, z. B. 44,1 kHz oder 48,0 kHz, umzurechnen. Moderne SRCs wandeln auch sehr nahe beieinander liegende Abtastraten und gestatten somit die Synchronisation unabhängiger digitaler Tonsignale mit nominal gleicher, aber dennoch geringfügig differierender Taktung. Man spricht in diesem Fall von plesiochronen Systemen (siehe Kap. 12.2.2.1). 14.1.4.2 Verzögerungen, Latenzen Die Verzögerungen oder Latenzen von Tonsignalen durch Prozesse der analogen Signalver arbeitung sind so gering, dass sie in der Praxis kaum berücksichtigt werden müssen. In der
938
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
digitalen Tonstudiotechnik entstehen jedoch bereits bei der A/D- und D/A-Wandlung Signal verzögerungszeiten, sog. Latenzen, die den Wellenlängen der tonfrequenten Signale entspre chen. Noch länger sind die Verzögerungszeiten, die durch die digitale Signalverarbeitung selbst und die hierbei systematisch zur Anwendung kommenden Speicherelemente entste hen. In Tonbearbeitungsplätzen oder Digital Audio Work Stations (AWS, DAW), die auf PCTechnik basieren, kommen weitere wahrnehmbare Verzögerungen z. B. durch Treibersoft ware für Schnittstellen-Komponenten hinzu. Für die Wandler-Interfaces in PCs steht ein hin sichtlich der Latenzzeiten optimierter Treiberstandard (ASIO) zur Verfügung. Bereits sehr kurze Verzögerungszeiten von ca. 10 μs zwischen Tonsignalen können bei der Mehrkanalübertragung zu einer räumlichen Verschiebung der Schallquellen führen. Verzögerungen in der Größenordnung von 50 ms werden beim Abhören im Studio bei direk tem Vergleich als Echos hörbar. Bei Playback-Bearbeitungen können Latenzen von 10 ms als zu lang empfunden werden. In bestimmten Situationen wie z. B. bei Live-Reportagen wirken Verzögerungszeiten in der Größenordnung von 150 ms sehr störend, wenn sie auf das Ohr des Sprechenden zurück geführt werden. Diese Verzögerungen hemmen den Redefluss, da ihre Dauer der mittleren gesprochenen Silbenlänge entspricht und der Reporter sich somit selbst ins Wort fällt. Bei der Systemplanung von Toneinrichtungen mit digitaler Signalverarbeitung sind daher immer die möglichen Auswirkungen von Latenz-Effekten zu berücksichtigen, im betrachteten Fall z. B. durch eigenanteilfreie (n-1)-Schaltungen.
14.1.5 PC-basierte Bearbeitungssysteme 14.1.5.1 Hardware Sog. Multimedia-PCs für Amateur-Anwendungen gestatten die Tonaufnahme und -wieder gabe in meist erstaunlich guter Qualität. Die hierbei zum Einsatz kommenden Audiointer faces verfügen über analoge Ein- und Ausgänge für Mikrofon- und Leitungspegel, häufig auch für Mehrkanaltonsysteme, mitunter auch über digitale Schnittstellen. Abb. 14/7 zeigt das Blockdiagramm einer solchen Soundkarte eines standardisierten PCs. Als Quellen für den zentralen Mischerbaustein dienen hier je ein Mikrofon- und ein Leitungseingang, ein Hilfseingang sowie der rückgeführte Ausgang eines D/A-Wandlers, der sein Signal über den parallelen Datenbus des Rechners von dessen Festplattenspeicher bezieht. Die dargestell ten Komponenten sind in der Regel in nur wenigen hochintegrierten Schaltungsbausteinen zusammengefasst. Für Anwendungen im Tonstudio sind leistungsfähige stationäre PCs mit höchstwertigen Audiointerfaces ausgestattet und werden damit auch in professionellen Produktions- und Bearbeitungsprozessen einsetzbar. Um von der internen Struktur des Rechner-Datenbusses unabhängig zu bleiben, werden häufig separate Audiointerfaces mit seriellen Datenbussen, z. B. USB- oder FireWire-Schnittstellen, eingesetzt. Diese Interfaces stehen auch für Note bookrechner im mobilen Einsatz zur Verfügung.
14.1 Digitale Tonbearbeitung
939
Abb. 14/7. Mischerfunktion einer PC-Soundkarte.
14.1.5.2 Software Betriebssysteme bilden die Basis für die zu verwaltenden Betriebsmittel eines Rechners (CPU, Speicher und Ein- oder Ausgabegeräte) und sind für den geregelten Ablauf der auf einem Computer eingesetzten Anwendungsprogramme zuständig. In der Tonstudiotech nik sind überwiegend die Systeme Windows von Microsoft, OS X von Apple/Mac und Linux anzutreffen. Für die digitale Tonbearbeitung auf einem PC stehen für diese Betriebssysteme zahlreiche Audio Editor genannte Programme zur Verfügung, die in der Regel mindestens folgende Fähigkeiten bieten: –– Aufnahme von analogen oder digitalen Eingangssignalen, –– zuweisbare Aussteuerungsanzeige für einzelne Signalpfade, –– Import und Export von Audiodateien, –– Wiedergabe von Audiodateien, –– Bearbeitung von Dateien durch Schneiden, Einfügen, Kopieren und Löschen, –– Pegelkorrekturen, Klangbearbeitung mit Filtern und Effekten, –– Mischung von Tonspuren, –– Frequenzanalyse mit Spektrumanzeige, –– Formatwandlungen zwischen verschiedenen Wortbreiten und Abtastfrequenzen, –– Anwendung datenreduzierender Quellencodierverfahren. Die Tonbearbeitung erfolgt interaktiv auf der Fläche des Computer-Displays mit Hilfe der alphanumerischen Tastatur und der Maus. Zur Orientierung werden die digitalisierten Signale der einzelnen Tonspuren als Pegelverläufe, also als Zeitfunktion oszillografisch dar gestellt.
940
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Ein besonderer Vorteil der PC-gestützten Tonbearbeitung ist die Möglichkeit, zerstö rungsfrei, non-destruktiv, zu arbeiten. Dies bedeutet, dass das Roh- oder Originalmaterial unverändert erhalten bleibt. Bearbeitungen werden ausschließlich an einer automatisch erstellten Kopie vorgenommen bzw. die einzelnen Schritte der Bearbeitung werden lediglich protokolliert, um sie dann erst bei der Wiedergabe oder Ausspielung in Realzeit wirksam werden zu lassen. Auch müssen die Bearbeitungsschritte in Analogie zum Schnitt von Video material nicht mehr dem zeitlichen Verlauf des aufgezeichneten Tonmaterials folgen (nonlinear editing). Digitale Tonsignale sind im Rechner in Datei-Ordnern gespeichert (files). Um einen Austausch von Audio-Files zwischen mehreren PCs zu ermöglichen, wurden für die Art der Speicherung Fileformate proprietär, also herstellerspezifisch, vereinbart oder international standardisiert. Zu den bekanntesten Formaten gehören WAV, BWF, MXF und RF64. Letzteres wurde für die Speicherung von Mehrkanalaufzeichnungen entwickelt und von der EBU als Standard veröffentlicht (siehe Kap. 12.6).
14.1.6 Audioworkstations 14.1.6.1 Hardware Der Begriff Workstation wurde ursprünglich im Zusammenhang mit extrem leistungsfähigen Minicomputern für wissenschaftliche und ingenieurtechnisches Arbeiten geprägt. Es han delte sich dabei um hochspezialisierte Einzelplatzrechner, deren Rechenkapazität deutlich über der Leistungsgrenze konventioneller PCs lag. Die rasch fortschreitende technische Wei terentwicklung im PC-Bereich hat jedoch dazu geführt, dass unter Workstation nun auch sehr leistungsstarke PCs verstanden werden, die mit dedizierten Softwarekomponenten und Peripheriegeräten für professionelle Anwendungen ausgestattet sind. Eine digitale AudioWorkstation (AWS, DAW) ist daher im Normalfall ein PC-Arbeitsplatz für Tonaufnahme, Bear beitung und Tonwiedergabe. Von einem handelsüblichen PC unterscheidet sich eine AWS oft nur noch durch die A/D- und D/A-Wandler, welche in ihren technischen Spezifikationen den Anforderungen der professionellen digitalen Tonstudiotechnik genügen müssen. Nicht selten werden die Wandler in externen Geräteeinschüben untergebracht. Für die Integration in digitale Tonstudios ist in der Regel eine Taktsynchronisation, manchmal auch eine Zeitcodesynchronisation erforderlich; für diesen Zweck sind die AudioWorkstations mit speziellen Interfaces ausgestattet. Zusätzliche Interfacekarten enthalten oft auch Wandler für Mehrkanalaufnahmen oder Signalprozessoren zur Entlastung des Zentral prozessors (CPU). 14.1.6.2 Software Eine große Auswahl marktüblicher oder speziell entwickelter Software auf Basis der unter schiedlichen Betriebssysteme ermöglicht und unterstützt die Arbeit an den AWS-Systemen. Insbesondere für hochwertige Tonbearbeitungen im Bereich von künstlerischen Wort- oder Musikproduktionen werden diese oft aus ergonomischen Gründen durch externe HardwareController ergänzt. Diese Controller ermöglichen eine Tonbearbeitung mit Bedienelementen
14.1 Digitale Tonbearbeitung
941
(Aktuatoren) in Form von Schiebe- oder Drehstellern, wie sie von der Arbeit an Mischpulten her bekannt sind. Nicht selten sind die externen Controller so umfangreich und universell ausgestattet, dass gesonderte Mischpulte am digitalen Tonbearbeitungsplatz entbehrlich werden. Nahezu alle Tonbearbeitungsprogramme bieten die Möglichkeiten zum Editieren oder Mastern von CDs oder DVDs (siehe Kap. 14.2). Oft sind sie mit Software-Komponenten zur Dynamikbearbeitung, Klangrestauration, zum Time-Stretch oder Pitch-Shift ausgestattet oder können auf Grund veröffentlichter Schnittstellenbeschreibung mit Software-Erweite rungen als Plug-ins ergänzt werden. Die Speicherung der digitalen Tonsignale erfolgt ebenso wie beim Audio-PC in standardisierten Formaten – oder aber auch gemeinsam mit den Infor mationen über die erfolgte Bearbeitung zusammen mit Schnitt- und Spurlisten (tracks) in firmenspezifischen Formaten, wodurch mitunter der Datenaustausch zwischen unterschied lichen Systemen erschwert wird.
14.1.7 Integrierte Funkhaussysteme Audioworkstations wurden zunächst nur als Einzelarbeitsplätze entwickelt, lassen sich jedoch mit den Mitteln und Möglichkeiten der Netzwerktechnik auch mit anderen Arbeits plätzen verbinden; das ist insbesondere in Funkhäusern oder großen Studios von Bedeu tung. Durch eine datentechnische Vernetzung entfällt der Transport von physikalischen Ton trägern. Dieser wird durch einen Filetransfer, also den Transport von Dateien im Datennetz, ersetzt. Durch die Vernetzung ergeben sich zahlreiche Verbesserungen von Arbeitsabläu fen. So können Tonbeiträge mehreren Bearbeitern in Redaktionen gleichzeitig zugänglich gemacht werden und müssen nicht in gesonderten Arbeitsgängen kopiert werden. Zur Ent lastung der Speichersysteme einzelner AWS werden Audiofiles auf besonderen Datenser vern abgelegt. Ebenso können Begleitinformationen zu Titeln, Autoren, Komponisten oder auch Urheberrechten, also Metadaten, in Archivsystemen recherchierbar gemacht werden. Eine Verknüpfung von Tondateien und Metadaten erlaubt eine erfolgreiche Recherche und zeitnahe Wiedergabe eines Beitrags (siehe Kap. 14.3.3). Zur Vorbereitung von Musikprogrammen insbesondere im Bereich der populären Musik können Sendepläne automatisch mit Hilfe von sog. Musikrotationsprogrammen erstellt werden. Hierzu werden die Musiktitel mit Begleitinformationen, z. B. Charakter, Tempo, Solist, Orchester usw., versehen. Die Auswahl der Titel erfolgt dann nach redaktionell erstell ten Kriterien, welche beispielsweise die Häufigkeit eines zu spielenden Titels, eine aneinan der angepasste Folge von Titeln oder eine dramaturgisch gestaltete Titelabfolge beschreiben. Da die Musiktitel ohnehin auf Datenservern gespeichert sind, können vollständige Musikpro gramme für bestimmte Aufgabenstellungen automatisch erstellt werden. 14.1.7.1 Informationssysteme Es liegt nahe, in Rundfunkanstalten die Integrierten Funkhaussysteme für die Tonbearbei tung und Sendeablaufsteuerung mit weiteren Informationssystemen zu verbinden. Hierzu
942
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
gehören insbesondere Nachrichtenverteileinrichtungen zur Übermittlung von Agenturmel dungen, aber auch herkömmliche Bürokommunikationssysteme. Die Kopplung mit Archiv systemen, Honorar- und Lizenzsystemen oder weiteren Datenbanken wird oft als wünschens wert angesehen, um eine bruchfreie Migration der in den verschiedenen Systemen ohnehin schon vorhandenen Daten zu ermöglichen. 14.1.7.2 Havariemaßnahmen In Funkhäusern wird besonderes Augenmerk auf einen störungsfreien Betrieb gelegt. Auch wenn der Ausfall von Sendungen sich nicht immer direkt wirtschaftlich auswirkt, so schädigt dies doch zumindest das Ansehen einer Rundfunkanstalt bei den Rundfunkteilnehmern. Um einen weitestgehend zuverlässigen Betrieb sicherzustellen, sind bereits bei der Planung Inte grierter Funkhaussysteme besondere Maßnahmen zur Bewältigung von Havariesituationen zu treffen. Gerätetechnischer Aufwand zur Verbesserung der Stabilität von Systemen und vorbeugende Strategien sind also unverzichtbar. Hierzu gehören gedoppelte Server, selbst heilende Speichersysteme und Netzwerke, die ihren Status ständig überwachen und bei Ausfall einer Verbindung selbsttätig alternative Datenverbindungen herstellen. Da bei umfangreichen Funkhaussystemen mit häufig mehr als 1.000 AWS-Arbeitsplätzen und über 100 Servern eine beträchtliche Hardware- und Softwarekomplexität erreicht ist, und da Ausfälle auch nur einzelner Komponenten das gesamte System in seiner Funktion beeinträchtigen können, empfiehlt es sich, derartig große Systeme in Teilabschnitte zu unter gliedern bzw. zu modularisieren. Es ist daher in Analogie zur Informationstechnik gebräuch lich, unternehmenskritische Systembereiche redundant und räumlich verteilt anzuordnen. Die an dieser Stelle in Kurzform dargestellten Informationen über die Komponenten Inte grierter Funkhaussysteme werden im nachfolgenden Kap. 14.2 an praktischen Beispielen aus dem Betriebsablauf (work flow) einer Hörfunkorganisation weiter vertieft.
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk Gegen Ende des 20. Jahrhunderts haben digitale Programmproduktion und digitale Sende abwicklung die Analogtechnik im Hörfunk zunehmend abgelöst. Die Entwicklung digitaler Arbeitsweisen und Prozesse wurde von der Absicht getragen, wiederkehrende und zeitauf wändige Arbeitsschritte durch weitgehende Automatisierung zu ersetzen oder vollständig entfallen zu lassen. Die sich rasant entwickelnde IT-Technik konnte diese Anforderungen erfüllen und hielt daher schnellen Einzug in die professionelle Audiotechnik. Die analoge Beitragsproduktion, wie sie jahrzehntelang Standard im Rundfunk war, hatte systembedingt eine Reihe von Eigenschaften, die mit den in einem zeitgemäßen Radio betrieb geforderten Ablaufzyklen nicht mehr Schritt halten konnten (Abb. 14/8): –– Die Produktion von Sendebeiträgen war ausschließlich in Echtzeit auf Magnetband möglich. Der mechanische Bandschnitt barg die Gefahr der Verletzung des wertvollen Rohmaterials, die erzielbare Schnittgenauigkeit bei der Nachbearbeitung war begrenzt. Ein behutsamer und sachkundiger Umgang mit dem Bandmaterial war immer Vorausset zung für die Produktqualität.
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
943
–– In der analogen Magnetbandtechnik entstanden grundsätzlich Unikate, deren Verfüg barkeit örtlich eingeschränkt war. Für Mehrfachnutzungen mussten Kopien in Echtzeit angefertigt werden, deren technische Qualität je Kopiergeneration abnahm. Sog. Sicher heitsmitschnitte erhöhten zwar die Redundanz, waren aber mit zusätzlichem logisti schem Aufwand verbunden. –– Für den Transport von Bandmaterial innerhalb eines Funkhauses mussten entspre chende Zeit- und Personalressourcen vorgehalten werden. Diese verzögerten und verteu erten den Betrieb. –– Das Einlagern bzw. Archivieren von Beiträgen auf Magnetband erforderte erhebliche geeignete Raumvolumina. Hinzu kamen die unvermeidlichen Alterungsprozesse des Bandmaterials bei Langzeitlagerung. –– Automationsprozesse waren mit analogem Magnetband so gut wie nicht zu realisieren. Zahlreiche Versuche blieben meist in den Anfängen stecken.
Abb. 14/8. Umgang mit analogen Beiträgen.
Die Ablösung der Analogtechnik führte zu tiefgreifenden Änderungen in den Hörfunk programmen, die weit in die organisatorischen Strukturen der Medienunternehmen hin einreichten. Bei den Format- und Aktualitätenprogrammen wurden die Beitragsabfolgen zeitlich dichter; Jingles, Trailer, Teaser und sonstige immer wiederkehrende, oftmals nur wenige Sekunden lange Audioelemente belebten zunehmend die Programme. Die Menge an aktueller Berichterstattung wuchs, die inhaltliche Ausformung wurde vielfach knapper, Redakteure begannen, technische Aufgaben zu übernehmen. Mit herkömmlicher analoger Studiotechnik waren die agilen Sendeformate nicht mehr zu bewältigen. Zwar wurden für eine Übergangszeit halbautomatische Geräte zur Vereinfachung der Abläufe entwickelt, die jedoch nur geringen Einfluss auf den Workflow eines Hörfunkbetriebs hatten. Mit der Einführung des Selbstfahrerbetriebs entwickelte sich eine neue Form der Pro grammpräsentation. Radiosendungen wurden nicht mehr mit Techniker und Moderator im Zweipersonenbetrieb gefahren, sondern die Moderatoren übernahmen selbst den Ablauf der Sendung. Zunehmend steuerten sie die technische und inhaltliche Abfolge der Beitragsele mente. Die schnellen, genau auf den Punkt zu erbringenden und häufig von Wiederholung geprägten Arbeitsschritte waren mit Bandlaufwerken, den diversen diskreten Zuspielgeräten und den zahlreich zu schaltenden externen Quellen nicht mehr flüssig zu erbringen. Die oft schwerfällige Analogtechnik stand diesen Programminnovationen vielfach im Weg. Es war eine neue Technik gefordert, die im Hintergrund arbeitend diese Veränderungen unterstüt zen, gestalten helfen oder überhaupt erst ermöglichen sollte. Der technische Fortschritt auf dem Gebiet der Informationsverarbeitung konnte dazu die Grundlagen zum Gelingen liefern. Die digitale Programmproduktion und Sendeabwicklung begannen und mit ihnen eine neue Ära im Radio.
944
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
14.2.1 Aufbau einer Hörfunkorganisation In dem nachfolgend idealisiert dargestellten Szenario wird eine moderne Hörfunkorgani sation auf Basis der aktuellen technischen Möglichkeiten und vor dem Hintergrund ihrer Implementierung in einem Funkhaus dargestellt. Die hier charakterisierte Hörfunkwelle befinde sich in einem Neubau mit moderner Infrastruktur, die Raumplanung entspricht der Aufgabenstellung. Die einzelnen Funktionsbereiche dieser Welle sind nach einem logischen Konzept in das Gebäude integriert; die dort tätigen Menschen finden ihre Arbeitsplätze je nach Auftrag in detaillierten Arbeitsräumen oder in offenen Nutzungsflächen. Es gehören hierzu u. a. ein Newsroom, mehrere Produktionsfelder, zwei Senderegien sowie diverse Spre cherräume. Sozialräume und Ruhezonen für Mitarbeiter und Gäste sind im zweckdienlichen Umfang vorhanden. Die hörfunktechnischen Einrichtungen zur volldigitalen Programmer stellung sind installiert und befinden sich im Regelbetrieb, die datentechnischen Hilfsmittel zur internen Kommunikation, zur Kontribution, Distribution von Programm-Material und für die Anbindung an ein zentrales Archiv basieren auf bewährten Lösungen. Abb. 14/9 zeigt einen Blick auf die einzelnen Funktionsbereiche der vorgestellten Hörfunkorganisation. In diesem modernen Hörfunkbetrieb sind sämtliche für die Beitragserstellung wichtigen Informationen, wie z. B. Agenturmeldungen, Audioelemente, Textkommentare und Archiv daten, zeitgleich an allen autorisierten Arbeitsplätzen verfügbar (Abb. 14/10). Die Grundlage hierfür bildet ein weit verzweigtes, schnelles und performantes Datennetz. In diese Netz architektur sind alle erforderlichen technischen Ressourcen integriert, wie z. B. Audioser ver, Datenbankserver, Router und PC-Arbeitsplätze (Clients). Die Clients sind nach Inter netprotokoll (IP) mit den Servern verbunden. Zahlreiche Kommunikationsapplikationen im Datennetz steuern und managen den Informationsaustausch zwischen Clients, Servern und Datenbanken. Der Client trägt die Anwendungen, die ihrerseits via Datennetz mit zentralen Serverprozessen kommunizieren.
Abb. 14/9. Aufbau einer Hörfunkorganisation.
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
945
Der Zugang zu den Informationsquellen und Arbeitswerkzeugen (Tools) in den Clients wird über eine differenzierte Vergabe der Zugriffsrechte geregelt. Nicht jeder Mitarbeiter erhält z. B. das Recht, die Reihenfolge der in einen fertigen Sendeplan eingestellten Audioelemente zu ändern oder Beiträge zu löschen. Aber alle Mitarbeiter können z. B. Audio an ihrem Arbeits platz anhören und möglicherweise an bestimmten Stellen bereits Marker setzen.
Abb. 14/10. Client-Server-Prinzip.
Der Vorteil von webbasierten Anwendungen ist, dass in HTML (HyperText Markup Language) programmierte Anwendungen netzwerkweit und unabhängig vom Client-PC verfügbar sind. Mit ihnen werden Installationen teurer Anwendungssoftware auf den Client-Rechnern ent behrlich. Benötigt werden lediglich Internetbrowser und die den Funktionen zugeordneten URL-Adressen des Webservice. Webbasierte Anwendungen sind – die notwendigen Zugriffs rechte vorausgesetzt – auch aus dem Internet verfügbar. URL steht für Uniform Resource Locator und bezeichnet eine Internet- oder Webadresse, die eine Datei auf einem Server angibt. Täglich gelangen Hunderte von Agenturmeldungen aus unterschiedlichsten Quellen, z. B. DPA, AFP, in das Nachrichten-Verteilsystem der hier betrachteten Rundfunkorganisa tion. Diese Meldungen stehen sofort, nach Themen sortiert, ohne zeitliche Einschränkung einem großen Nutzerkreis zur Verfügung. Eine räumliche oder örtliche Beschränkung gibt es dabei nicht. Jeder angemeldete Nutzer hat Zugang zu den Daten, unabhängig davon, ob er sich auf dem Rundfunkkomplex befindet oder über besondere Datenleitungen von entfern ten Orten über eine gesicherte weltweite Internetverbindung auf die Daten zugreift. Darüber hinaus können jederzeit weiterführende Informationen eingesehen und abgerufen werden, wie z. B. die Ansicht eines Sendeplans, der Einblick in die Themen- und Ereignisplanung eines bestimmten Programms, in die Aussprachedatenbank, in Datenbanken zur Archiv recherche, in differenzierte Rechtedatenbanken und vieles mehr. Die zwingend räumliche Nähe zu den Fachredaktionen oder einer Fernschreibzentrale gehört der Vergangenheit an. Redakteure arbeiten von persönlichen Zubringern unabhängig und sind stets zeitsparend und pünktlich informiert. Musik- und Wortbeiträge in einem vernetzten System als Audiofiles verfügbar zu haben bedeutet, diese zeitgleich an mehreren Orten einsetzen zu können. Audiofiles können simul tan von vielen Nutzern abgehört und verwendet oder bearbeitet werden. Im Gegensatz zur analogen Programmerstellung stehen stets beliebig viele virtuelle Arbeitskopien an beliebig vielen Orten zur Verfügung. Allerdings sind bei der Verwendung von fileorientierten Wort- und Musikbeiträgen die Nutzungseinschränkungen und Nutzungsrechte verstärkt zu beachten. Fehlt einem Beitrag oder Teilen davon das Senderecht, so ist eine Ausstrahlung nicht zulässig. Wegen der leichten
946
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Zugriffsmöglichkeit bzw. Verfügbarkeit von Audiofiles verlangt der Schutz von Urheberrech ten erhöhte Aufmerksamkeit bei strenger Einhaltung restriktiver Regeln. Moderne digitale Sendesysteme sind in der Lage, Urheberrechte bis tief in die verzweigten Teile einer Beitrags produktion hinein aufzuschlüsseln. Ansprüche von Rechteinhabern können auf diese Weise nachvollziehbar automatisiert aufgezeigt und angemessen berücksichtigt werden.
14.2.2 Abläufe in der digitalen Programmproduktion Die allgemeinen Abläufe der digitalen Programmproduktion lassen sich in Akquisition, Kon tribution und Distribution unterteilen. 14.2.2.1 Akquisition von Programminhalten Für die Erstellung von aktuellen Beiträgen ist die Beschaffung von originalem, ursprüng lichem Audiomaterial, sog. O-Ton, erforderlich. Ein Reporter nimmt hierzu während des von ihm geführten Interviews die O-Töne mit einem nun digitalen Reportagegerät auf. Bei derartigen Geräten besteht die Möglichkeit, ein auf Speicherkarte aufgezeichnetes Audiofile inklusive der beschreibenden Metadaten direkt in das Sendesystem zu übernehmen. Dieser Vorgang läuft in weniger als Echtzeit ab, d. h., die Zeit für die Übernahme von der Speicher karte in das In-House-System ist kürzer als die reale Zeitdauer der Aufzeichnung selbst. Mit passender Software ausgestattete moderne Reportagegeräte wie Smartphones oder TabletComputern erlauben bereits neben der Aufzeichnung die Bearbeitung und den drahtlosen Versandt akquirierten Materials in ein gewünschtes Zielsystem. Die in der Vergangenheit verwendeten mechanischen Tonträger wie DAT-Kassette werden nur noch selten genutzt, da die Überspielung in ein übergeordnetes Computersystem, z. B. einen PC, in Echtzeit erfolgen muss; die Begleitdaten, die Metadaten, zum Beitrag sind in diesem Fall manuell nachzutra gen. Häufig werden in einem Hörfunkprogramm aus Gründen hoher Aktualität Inhalte von noch nicht beendeten Ereignissen, wie z. B. bei Sportübertragungen oder politischen Debat ten, aus einem Zwischenspeicher übernommen. Hierfür stehen Mitschnitt-Server zur Ver fügung; in der Regel sind dies Festplattenarrays mit hoher Kapazität, die eine Bearbeitung gewünschter Passagen bereits zulassen, während eine Veranstaltung noch läuft. Viele Audiobeiträge für ein Hörfunkprogramm werden an Redaktionsarbeitsplätzen vorproduziert (Abb. 14/11). Auch diese rechnergestützten Arbeitsplätze sind in die Gesamtar chitektur eines Client-Server-Systems der Rundfunkanstalt integriert. Ein Redaktionsarbeits platz besteht in der Regel aus einer geringen Anzahl von technisch einfachen Geräten, an denen alle wichtigen Grundfunktionen zur Beitragserstellung bis hin zum Telefoninterview vorliegen. Darüber hinaus gelangen fertige oder teilbearbeitete Beiträge im Rahmen des aktuellen ARD-Audiofiletransfers in die Sendesysteme der Rundfunkanstalt. Die Redaktionen über nehmen dort bei Interesse und Bedarf dieses Audiomaterial nach Prüfung auf ihre Eignung für eigene Sendezwecke.
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
947
Abb. 14/11. Prinzip eines Redaktionsarbeitsplatzes.
Musiktitel der CD-Industrie gelangen nur in geringem Umfang von der Disc direkt in die Sendung. In den sog. Formatprogrammen werden häufig gespielte CD-Titel als Audiofiles in der „Musikrotation“ eines Programmservers gespeichert. Die Musiktitel der CD werden dazu in weniger als Echtzeit ausgelesen und im gewünschten Zielformat als Audiofile abgelegt (Grabbing). Die den Titel begleitenden Metadaten werden bei dieser Gelegenheit miterfasst und um redaktionsrelevante Charakterisierungen durch Zusatzdaten ergänzt (z. B. vocal, ins trumental, ruhig). Man erhält auf diese Weise Basisdaten, die den Zugriff auf umfangreiche beschreibende Informationen bis hin zu Cover und Booklet ergänzen. Dieser Arbeitsschritt kann auch von der Unterstützung durch Internetdatenbanken oder durch die ARD-Hörfunk datenbank begleitet sein. Die ARD-Hörfunkdatenbank ermöglicht in Verbindung mit der digitalen Bemusterung der Archive (DigiBemA) eine durchgängig filebasierte Arbeitsweise: Beim ARD-Sternpunkt ist ein großer Audiospeicher realisiert, in dem Musikneuerscheinungen der Tonträgerindustrie eingestellt werden. Dort recherchiertes Audiomaterial kann einschließlich Booklet und zuge höriger Metadaten in die eigene Rundfunkanstalt übernommen werden (siehe Kap. 16.2.7.2). Häufig unterhalten die Rundfunkanstalten eigene Speicher- und Verteilsysteme, die Bei tragsmaterial für Hörfunk und Fernsehen vernetzt verfügbar machen. Als Folge verliert der direkte Umgang mit dem Tonträger CD zunehmend an Bedeutung und wird voraussehbar bald der Vergangenheit angehören, wie es seinerzeit beim Fortfall des analogen Magnetbands der Fall war. Musiktitel werden künftig nur noch per Webinter face aus einem entfernten Audiospeicher abgerufen und sind umgehend am Arbeitsplatz einer Redaktion oder im Studio nutzbar. 14.2.2.2 Kontribution von Programminhalten Bei der Kontribution wird eine große Anzahl komplexer Arbeitsschritte zusammengeführt. Ziel ist, einen durchgängigen Sendungsablauf mit all seinen Elementen und zeitlichen Zuordnungen zu generieren. Wort- und Musiktitel werden geplant, recherchiert, produziert und in einen Sendeplan überführt, um diesen zu einem gewünschten Zeitpunkt abzurufen. Zudem wird dieses Angebot mit weiteren Serviceelementen im laufenden Programm ergänzt, beispielsweise durch Platzhalter für moderierte Verkehrsmeldungen und sonstige aktuelle Live-Informationen (Abb. 14/12).
948
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Recherche Für die Erstellung eines Hörfunkbeitrags können Informationen aus verschiedenen Quellen recherchiert werden. Hierfür stehen das Agentur-Nachrichtenverteilsystem, das Pressearchiv, das Schallarchiv, das Aussprachearchiv sowie sonstige Quellen, z. B. auch das Internet, zur Verfügung. Die inhaltliche Erschließung in den Datenbanken der jeweiligen Archive leisten spezialisierte Dokumentare. Die Ergebnisse sind auch in der ARD-Hörfunkdatenbank bzw. den Nachfolgesystemen gespeichert und netzwerkweit abrufbar. Alle Wort- und Musikanteile können als Audiofiles sehr flexibel in verschiedenartige Sendepläne eingefügt und auch nach Belieben wiederholt werden. Live auszusendende Audioelemente, wie z. B. Sportsendungen, Konzerte, Interviews und Moderationen, werden ebenfalls in den Sendeablaufplan eingestellt. Am Ende eines Planungsprozesses stehen diese Beiträge im sog. Tagessendeplan. Beitragserstellung Die digitale Beitragsbearbeitung und die Bereitstellung als Audiofile nebst beschreibenden Metadaten bilden die Grundlage für eine schnelle Programmerstellung. Mit sog. Audioedi toren als Bearbeitungstools einer digitalen Audioworkstation (AWS, DAW) und dem Daten bankmanager stehen leistungsstarke Softwaretools zur Verfügung, die mit ihren kreativen Gestaltungsmöglichkeiten der konventionellen analogen Programmerstellung weit überle gen sind. Eine flexibel und intuitiv zu bedienende grafische Benutzeroberfläche bietet in der Regel eine breite Palette gestalterischer Möglichkeiten, vom einfachen Audioschnitt bis hin zur Klangrestaurierung. Durch die sog. „Undo-Funktion“ können Arbeitsschritte beliebig oft wiederholt oder rückgängig gemacht werden, die komplette Bearbeitung ist also in der Regel non-destruktiv. So können einzelne Audioelemente wie O-Töne, Geräusche, Musikstü cke und Texte mit verschiedenen Dateiformaten in kurzer Zeit zu interessanten und lebendi gen Hörfunkbeiträgen, neuerdings in Containerformaten zu Stories arrangiert werden. Ent sprechend erfahrene und ausgebildete Redakteure sind in der Lage, diese Arbeit an einer Workstation ohne Experten-Unterstützung zu erledigen. Die Angst vor dem mechanischen „blutigen“ Bandschnitt und die mögliche Zerstörung eines Audioelements gehören der Ver gangenheit an. Ein an einer AWS produzierter Beitrag ist nach erfolgtem Datenbankeintrag und nach Sicherung sofort an anderer Stelle verfügbar, für Abhören, Freigabe, Einstellen in den Sendeplan oder zur sonstigen weiteren Verwendung. Teamarbeit wird so in idealer und zeitsparender Weise möglich – redaktionelle Abläufe sind erheblich beschleunigt. Musikrotation Je nach Format der Sendung nimmt dessen identifizierende musikalische Ausrichtung einen unterschiedlich hohen Stellenwert ein. Zusammen mit den Produktionselementen (Jingles, Trailer usw.) zur Positionierung des Senders bewirkt die Musikrotation eine maßgebliche Prägung des Senderimages. In einem üblichen Spartenprogramm sind im Musik-Rotationsspeicher meist mehrere tausend Titel abgelegt. Der Inhalt des Musikspeichers wird regelmäßig gepflegt, d. h., neue Titel kommen hinzu, während ältere aus dem nicht mehr aktuellen Repertoire ausgesondert werden. Musiksendungen bestehen aus einer Abfolge einzelner Titel, die z. B. im Stundenras ter für die Tagessendepläne erstellt werden. Der Musikauswahl kommt ein hoher Stellenwert
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
949
Abb. 14/12. Vorgänge digitaler Programmerstellung.
Abb. 14/13. Sendetisch mit Pult und Sendeablaufsteuerung.
zu, da sie den Publikumserfolg bzw. die Reichweite eines Radioprogramms wesentlich bestimmt. Die Zusammenstellung der Titel wird in der Regel mit Hilfe spezieller Musikrotati
950
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
onssoftware unterstützt. Eine flexible Musikrotation kann einen aufwändigen Sendeplan in kurzer Zeit generieren. Sendeplanung und -abwicklung Für die technische Abwicklung und Ausführung von Sendeplänen sorgen rechnergesteuerte Systeme. Dies hat den Vorteil, dass ein aktivierter Sendeplan auch kurzfristig noch geän dert werden kann (Abb. 14/13). Auf einem Bildschirm sind unterschiedliche Ausschnitte des Programmablaufs einschließlich aller zu sendenden Wortbeiträge, Musiktitel und Positionie rungselemente dargestellt. Auch beschreibende Textinformationen, wie Hinweise zu Musik titeln oder zur Moderation, Wetter- und Verkehrsmeldungen usw. kommen auf Bildschirmen im Umfeld der Sendeabwicklung zur Anzeige. An diesen Informationen orientiert sich der Moderator und fährt die Sendung „ereignisgesteuert“. 14.2.2.3 Distribution Ein vernetztes Verteilsystem erleichtert die Programmverteilung zu den verschiedenen Senken und Verbrauchern durch automatisches Anlegen von Kopien. Mit dem HYBNET (siehe Kap. 16.5.6) hat sich die ARD ein leistungsstarkes Austauschnetz geschaffen, das auch eine europaweite Verteilung von Audiofiles ermöglicht. Das Prinzip „Verteilung durch Kopie” funktioniert hier sehr effizient. Adressaten können die bei ihnen automatisch eingegange nen Beitragskopien umgehend in ihren eigenen digitalen Produktions- und Sendesystemen einsetzen. Binnen kurzer Zeit werden auf diese Weise Beiträge einschließlich ihrer beschrei benden Metadaten wie Titel, Autor, Begleitkommentar u. a. in Umlauf gebracht. Der Bei tragsaustausch lässt sich auch per Internet mit sog. Reporterportalen praktizieren; insoweit wird durch die globale Verfügbarkeit des WWW (World Wide Web) eine von Betriebszeiten und Standorten unabhängige, zeitnahe Verteilung von Beiträgen erreicht. Mit der 2020 ein geführten Neuerung „weConnect“ können multimediale Essenzen einschließlich Texten als sogenannte Storys in der ARD verteilt und gemäß Nachrichtenlage aktuell gehalten werden. Die Ausstrahlung von beschreibenden Beitragsdaten hat hohen Stellenwert. Im Internet (Mediathek, Radio APP), über Digital-Radio (DAB+), DVB-S-Radio sowie im konventionellen terrestrischen UKW-FM-Hörfunk werden Informationen wie Titel, Interpret usw. mitgesen det. Die Generierung dieser und auch weiterer Informationen erfolgt durch die automatische Entnahme aus den digitalen Systemen des Hörfunks. Für den Rundfunkteilnehmer werden diese mit einer Radio APP oder der Slideshow auf DAB+ sichtbar gemacht. Dem Nutzer einer Radio APP oder eines DAB+ Programms werden neben Coverbildern auch Grafiken beispiels weise zur aktuellen Wetter- oder Nachrichtenlage zuteil. Eine Radio APP bietet dem Hörer zudem die Möglichkeit, in der Vergangenheit ausgesendete Beiträge individuell abzurufen (On Demand, Podcast). Ebenso stehen Channels zu Verfügung, auf denen z. B. Konzerte per Stream wiederholt mitgehört werden können. Die digitale Programmerstellung ist eine ideale Voraussetzung dafür, den Hörer bis zum Endgerät nicht nur mit digitalem Audiomaterial, sondern auch mit programmbezogenen Texten und bebilderten Informationen zu versorgen. Mit der fortschreitenden Automatisie rung werden wiederkehrend bereitzustellende Beiträge wie z. B. Aktuell- und Nachrichten
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
951
sendungen durch automatisierte Prozesse montiert und dem Hörer im Internet verfügbar gemacht – Automatisierung vermeidet auf diese Weise sich wiederholende Tätigkeiten.
14.2.3 Digitaler Workflow der Programmproduktion Die im Rahmen der Programmerstellung anfallenden Arbeitsabläufe entwickeln sich entlang einer Zeitachse. Deren Einteilung ist in die Phasen Planung, Sendevorbereitung und Sen deablauf untergliedert. Um eine räumliche und inhaltliche Übersicht zu gewährleisten, aber auch um Ausfallsicherheit, also Redundanz, zu schaffen, sind abgestufte Gruppen von Audiospeichern einschließlich der zugeordneten Datenbanken eingerichtet. In diesen wird das Material unterschiedlicher Herkunft und Art abgelegt und für eine vereinbarte Zeitdauer aufbewahrt (Tab. 14/1). Tab. 14/1. Speicherkategorien und ihre Speicherungsdauer. Speichertyp
Dauer der Speicherung
Verwendungszweck
Aktualitätenspeicher AFT-Speicher Rotlicht-Mitschnittspeicher Individualspeicher Vorbereitungsspeicher Musikspeicher Repertoirespeicher Wellenspeicher Sendespeicher Archivspeicher
4 Tage 7 Tage 2 Tage 3 Monate 3 Monate 5 Jahre variabel 1 Jahr 1 Tag ohne Begrenzung
Mitschnitte von Leitungen, z. B. Sport Ablage von Audiofiles aus der ARD Mitschnitt von Moderation und Interviews Ablage persönlichen Audiomaterials Ablage noch nicht sendefertiger Audios Ablage von Musik Ablage von Musiken des Titelstocks Ablage von sendefertigem Material Ablage nur zur Ausspielung Endablage ausgewählten Materials
Die in Tab. 14/1 dargestellte Speicherdefinition gestattet es, in einem vernetzten Hörfunksys tem eine geeignete Aufgabenteilung einzurichten. Mit Hilfe der Audiospeicher wird nicht nur eine Übersicht über die verteilten Ressourcen geschaffen, sondern es ergeben sich hierdurch auch Regeln für bestimmte Arbeitsabläufe; so dürfen beispielsweise nur fertig produzierte und durch eine autorisierte Person abgenommene Wortbeiträge in den Wellenspeicher ein gestellt werden. Die beschreibenden Informationen zu den Wort- und Musikbeiträgen – d. h. die Metada ten und die zugehörigen technischen Speicherorte der Audiofiles – werden in einer eigenen Datenbank vorgehalten. Die zur Aussendung freigegebenen Beiträge liegen, bildlich gespro chen, auf einem Transportband, das mit Realzeitbezug voranschreitet. Die Plätze auf diesem Band sind die gewünschten Sendezeitpunkte der Beiträge. Technisch wird ein solcher Prozess mittels des sog. Schedulers, im betrachteten Fall mit dem Sendeplanungsmodul, ausgeführt. Im geschilderten Speichermodell werden in den Sendeplan bereits zu einem frühen Zeit punkt, beispielsweise sechs Wochen vor Sendung, zunächst nur Beiträge aus dem Wellen- im Musik- oder Repertoirespeicher eingestellt. Aus dem Wellenspeicher erfolgt dieser Arbeits schritt manuell mit „Drag and Drop“, aus dem Repertoirespeicher werden die Musiktitel mit
952
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Hilfe der Musikrotationssoftware eingestellt. Ergänzend können aber auch Inhalte aus dem Musikspeicher von Hand in den Sendeplan gestellt werden. Die Einstellung in den Sendeplan bedeutet, einen Auftrag dafür zu erteilen, den gewünschten Beitrag vor seiner geplanten Ausspielung dem Sendespeicher zu übergeben, d. h., den Beitrag automatisch dorthin zu kopieren. Der aktive Tagessendeplan nutzt ein Zeit fenster in Form einer um die aktuelle Uhrzeit definierten „Hot-Zone“ (siehe Abb. 14/14). Bei träge innerhalb der Hot-Zone werden automatisch in den Sendespeicher kopiert und können dann mit der Sendeablaufsteuerung ausgesendet werden. Abgespielte Beiträge werden als solche im Sendeplan gekennzeichnet und automatisch aus dem Sendespeicher gelöscht. Nur ein im Vorfeld ausgewählter Teil der gesendeten Beiträge wird im Langzeitarchiv für spätere Zugriffe gespeichert.
Abb. 14/14. Prozessablauf einer Hörfunksendung.
Dieser Prozess schreitet auf der Zeitachse voran. Er bewirkt, dass nur derjenige Teil von Bei trägen die Transferleistung des Sendespeichers beansprucht, der innerhalb der Hot-Zone liegt. Neue Sendeplanelemente außerhalb der Hot-Zone werden erst dann bewegt, wenn sie sich in einem festgelegten Zeitraum davor befinden. Durch das automatische Löschen gesen deter Elemente aus dem Sendespeicher verfügt die Sendeablaufsteuerung stets nur über aktuelle Beiträge. Ausgewiesenes Merkmal eines Sendeplanmoduls ist es, im letzten Moment in der Hot-Zone eintreffende Beiträge in den Sendespeicher zu überführen. Dies ist möglich,
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
953
weil zwischen der Hot-Zone des aktiven Tagessendeplans und der Sendeablaufsteuerung eine enge zeitliche Kopplung besteht, die eine schnelle Kopie ermöglicht. Planung Zur Planung von Programmelementen steht der längste Zeitraum zur Verfügung. In der Themen- und Ereignisplanung wird ein Eintrag vorgenommen, der Ort, Zeit, Thema, Per sonen und benötigte Ressourcen sowie den Sendezeitpunkt ausweist (Abb. 14/15). Ist das Programmelement ein Interview, so existiert hierfür ein Platzhalter im Sendeplan, der die Aussendung z. B. im Rahmen einer aktuellen Sendung festlegt. Die sog. Sendeuhr sieht eine genaue Abfolge und zeitliche Gewichtung der Inhalte vor. So ist der Anteil von Wort, Musik und Produktionselementen bereits in diesem frühen Stadium durch die Programmleitung vorgegeben. Sendevorbereitung In der Phase der Sendevorbereitung erfolgt in den dafür vorgesehenen Studios oder an den Redaktionsarbeitsplätzen die aktuelle sendenahe Beitragserstellung. Der fertige Beitrag wird im Produktionsspeicher, in Tab. 14/1 Vorbereitungsspeicher genannt, angelegt, produziert und nach der Freigabe in den Wellenspeicher überführt. In diesem Fall wird keine Kopie angefertigt, sondern nur eine Verschiebung vorgenommen. Der Beitrag wird auf den vorge sehenen Platzhalter im Sendeplan eingestellt und nimmt somit seine Position im Sendege schehen ein.
Abb. 14/15. Zeitlicher Ablauf der Programmerstellung.
Sendeablauf Planung und Sendevorbereitung sind Arbeitsabläufe für Zukünftiges im Programm. In der nachfolgenden abschließenden Phase findet die Sendung aller relevanten Beiträge und Ver packungselemente statt. Die Sendeabwicklung ist Gegenwart – sie entspricht exakt der aktu
954
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
ellen Uhrzeit im gesendeten Programm und erfolgt in der Senderegie zeitlich punktgenau mit Unterstützung der Sendeablaufsteuerung. Die Sendeabwicklung ist im Vergleich zu den davor liegenden Phasen ein zeitkritischer Vorgang. Der Beitrag muss hier zum gewünschten Zeitpunkt verzögerungsfrei abgespielt werden. Zudem müssen letzte Änderungen in der Beitragsreihenfolge sofort erfolgen können. Dies alles wird ereignisgesteuert vom Moderator initiiert und inhaltlich begleitet.
14.2.4 Module im digitalen Workflow Die prozessbegleitenden Module für ein digital gesteuertes Hörfunkprogramm verfügen häufig über herstellerspezifische Schnittstellen für Informationen und Arbeitsergebnisse. Ein reibungsloser Austausch von Steuer- und Nutzdaten ist wesentlich für ein Hörfunksys tem; denn erst ein fehlerfreies Zusammenspiel aller Systemkomponenten stellt den beab sichtigten betrieblichen Ablauf sicher. Die Zusammenführung der Schnittstellen von Produkten unterschiedlicher Hersteller bedarf umfangreicher Abstimmungsprozesse und benötigt daher intensive Planungsarbeit und ausgiebige Testphasen. Da die in Betrieb befindlichen Systeme zur digitalen Programm erstellung aus Modulen unterschiedlichen Ursprungs bestehen, haben einige Hersteller sich auf die Entwicklung von softwarebasierten Schnittstellenadaptern spezialisiert und auf diesem Gebiet besondere Kompetenz erworben. Als Beispiel für die erfolgreiche Konfiguration von Produkten unterschiedlicher Entwick ler sei im hier betrachteten Beispiel die Musikrotationssoftware in Kombination mit der Sen deplanung genannt. Im Prinzip kann jede Rotationssoftware über eine Programmierschnitt stelle an das Sendeplanungssystem eines anderen Herstellers angeschlossen werden. Dieser häufig vorkommende Fall gründet darauf, dass die meisten Hersteller von Sendeplanungs systemen auf die Eigenentwicklung komplizierter Rotationssoftware verzichten und daher die Schnittstellen zu kooperierenden Produkten offenlegen. Um generell eine möglichst überschaubare Datenbankstruktur und Prozesssteuerung zu ermöglichen, werden vorzugsweise Schnittstellenarten eingesetzt, die eine Vernetzung und den Support von einzelnen Modulen möglichst einfach und homogen gestalten lassen. Hier haben sich in jüngerer Zeit Schnittstellen auf XML-Basis (Extensible Markup Language) bewährt. Beispielhaft sei als Entwicklung des ehemaligen Instituts für Rundfunktechnik (IRT) das Broadcast Metadaten Format BMF erwähnt, welches alle in der Rundfunk-Betriebspraxis benötigten Metadaten beinhaltet. Hierauf aufbauend entstand SML (Story Markup Language) das seit 2020 die Hörfunk-Sendesysteme der ARD-Anstalten für den Beitragsaustausch unter einander verbindet. Die wichtigsten Module zur digitalen Programmerstellung – sie werden anschließend genauer beschrieben – sind –– Beitragserstellung, –– sendungsbegleitende Produktion, –– Datenbankmanager für Audiofiles, –– Sendeplanung, –– Sendeprotokoll und Nutzungsrechte, –– Recherchewerkzeuge Archiv,
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
–– –– –– –– –– –– –– –– –– –– ––
955
Aktualitätenspeicher, Musikrotation, Sendeablaufsteuerung, Regionalisierung, Themen und Ereignisplanung, Nachrichtenverteilung, Phonescreening und Off Air Elemente, Serviceinformationen, Aufbereiten von Zusatzinformationen, Leitungsdisposition, Dokumentationssystem.
14.2.4.1 Beitragserstellung Für die Beitragserstellung auf den Client-PCs werden Audioeditoren als Bearbeitungswerk zeuge eingesetzt. Mit ihnen können alle in der Praxis wichtigen Bearbeitungsfunktionen aufgerufen und auf Audioelemente angewandt werden, wie z. B. Abhören, Aufnehmen, Schneiden, Pegelkorrektur, Blenden, Mischen, Übersprechen (voice over) und Ändern der Reihenfolge. Zur Aussteuerung einer Mikrofonaufnahme am Redaktionsarbeitsplatz werden häufig Voiceprozessoren eingesetzt, die eine automatische Pegelanpassung ermöglichen. Für eine gefällige Audioqualität lassen sich Presets konfigurieren, in denen z. B. ein persön liches Soundprofil des Sprechers hinterlegt ist. Der Prozess der Audiobearbeitung erfolgt stets in Verbindung mit dem zugehörigen Datenbanksystem. Der Dialog erstreckt sich im Hintergrund über mehrere Datenbanken mit unterschiedlichen Rechercheoberflächen, da Wortbeiträge, Musiktitel, Geräusche, O-Töne und sonstige Bestandteile in verschiedenen Speichern des Systems abgelegt sind. Der bear beitete Beitrag wird nach seiner Fertigstellung wiederum in einen der Audiospeicher übertra gen, z. B. in den wellenorientierten Vorbereitungsspeicher. Die Beitragserstellung wird seit einiger Zeit von einer automatisierten Lautheitskorrektur unterstützt mit der die Durchhör barkeit von Beiträgen optimiert wird. Fertige Beiträge gelangen durch diesen Hintergrund prozess optimiert in die Ausstrahlung oder als Podcast ins Internet. Es gibt zwei Möglichkeiten, den Audioeditor in einem Sendesystem zu nutzen. Man unter scheidet dabei den „Schnitt auf dem Server“ oder den „lokalen Schnitt“ auf einer Audiobear beitungsstation. Beim Schnitt auf dem Server verbleibt das Audiomaterial auf dem zentralen Fileserver. Vorteil hierbei ist, dass kein lokaler Kopiervorgang auf die Arbeitsstation erforder lich ist und deshalb zeitökonomisch gearbeitet werden kann. Bei entfernt liegenden Stand orten ist der zentrale Fileserver über eine WAN-Verbindung (Wide Area Network) mit nied rigen Bandbreite-Anforderungen erreichbar, was den Vorteil dieser Arbeitsweise verstärkt. Im anderen Fall, dem Schnitt auf der lokalen Arbeitsstation, sind die Audioelemente auf der dort installierten Festplatte zu bearbeiten. Hierzu werden alle benötigten Audiofiles lokal geladen, verarbeitet und erst nach Fertigstellung der Produktion auf den zentralen Fileserver rückgespeichert. Diese Arbeitsweise hat den Vorteil, dass im Fall einer abreißenden Daten netzverbindung bis dahin geleistete Arbeitsschritte nicht verloren gehen. Es ist eine Ermes sensfrage, welche Konfiguration bevorzugt wird. Moderne Audioeditiersoftware erlaubt es,
956
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
verschiedene Fileformate gleichzeitig in einer Produktion verwenden zu können. Damit ent fallen die mitunter fehlerträchtigen iterativen oder singulären Konvertierungsprozesse. In neuerer Zeit werden die Redaktionen bei der Beitragsproduktion mit Audiomining unterstützt. Dabei wird eine vorliegende Audiodatei einem Analyse-Prozess übergeben, der eine spezielle Textdatei mit Zeitmarken zu jedem Wort zurückliefert. Im Ergebnis liegen Text und Audio in einem Modul verbunden vor und erleichtern die Arbeit. 14.2.4.2 Sendungsbegleitende Produktion In der sendungsbegleitenden Produktion werden zeitlich kritische Audioproduktionen her gestellt, die unmittelbar im aktuellen Sendeablauf benötigt werden. Die sendungsbeglei tende Produktion ist fester Aufgabenbestandteil des Sendungsteams. Dort wird auch auf die klangliche Positionierung des Programms und dessen gewünschtes Sounddesign geachtet, einschließlich einer Lautheitsanpassung in der Abfolge von Beiträgen und Musiktiteln. 14.2.4.3 Datenbankmanager für Audiofiles Der Datenbankmanager ist eines der wichtigsten Module bei der digitalen Programmerstel lung; er gibt eine Übersicht der Inhalte und stellt diese in ihrem organisatorischen Zusam menhang grafisch dar. Es wird auf Tab. 14/1 verwiesen, in der die unterschiedlichen in einem Datenbankmager anzutreffenden Speicherkategorien zusammengefasst sind. Alle an der Programmerstellung Beteiligten sehen redaktions- und aufgabenbezogen die jeweils für sie wichtigen Speicher, aus denen Rohmaterial entnommen werden kann, um hieraus Beiträge zu erstellen und zur weiteren Verarbeitung in den Sendespeicher einzustel len. So greift z. B. ein für aktuelle Beiträge zuständiger Redakteur auf den Aktualitätenspei cher zu, um dessen Inhalte für die Verwendung im weiteren Sendegeschehen einzusetzen. Der Datenbankmanager selbst ist eine Client-Anwendung mit grafischem Nutzerinter face und kommuniziert mit dem zentralen Serverprozess und dessen Datenbank. Steht diese Anwendung im Havariefall einmal nicht zur Verfügung, hat das erhebliche Auswirkungen auf den Hörfunkbetrieb. Der zentrale Serverprozess wird daher üblicherweise redundant geführt, um die hohe geforderte Ausfallsicherheit dieser Systeme zu gewährleisten. Der Datenbankmanager ermöglicht den Zugriff auf alle im Sendesystem verfügbaren Audiospeicher und aller dort liegenden Wort- und Musikbeiträge; er hat Schnittstellen zum Audioeditor und zur Sendeplanung sowie zum Nachrichtenverteilsystem für die Übernahme von Textinformationen. Auch Zugriffe auf multimediale Inhalte, wie z. B. Bilder und Videos, können verwaltet werden. Mit dem Datenbankmanager können folgende Funktionen gesteuert werden: –– Recherchieren nach Beiträgen durch Eingabe von Filterkriterien in einer Suchmaske, –– Abhören durch Klick auf das Lautsprechersymbol, –– Anzeigen von Detailinformationen wie z. B. Autor, Datum, Länge usw. durch Doppelklick auf den Beitrag, –– Verschieben und Kopieren von Beiträgen zwischen den Speichern durch Drag and Drop, –– Anlegen neuer Beiträge in ausgewählten Speichern, –– Starten weiterer Applikationen wie Sendeplanungsmodul und Sendeprotokoll, –– Start des Audioeditors,
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
957
–– Übernahme markierter Beiträge in den Editor, –– Start des Sendeplanungsmoduls zum Einstellen der Metadaten markierter Beiträge in den Tagessendeplan. 14.2.4.4 Sendeplanung Das Sendeplanungsmodul erlaubt die Gliederung von Sendeabläufen. Dabei können mit Hilfe von Rahmensendeplänen wechselnde Tagesstrukturen geplant werden, getrennt nach Werktagen, Wochenenden oder Feiertagen. In einen zunächst leeren Sendeplan werden Platzhalter eingetragen, die dem Sendeablauf entsprechen. Später erfolgt die Ergänzung mit den dort einzustellenden Beiträgen oder mit Anweisungen für Leitungsübernahmen, Mode rationen, Wetter- und Verkehrsnachrichten usw. Die Tagessendepläne weisen eine Graduierung z. B. im Stundenraster auf. Die freien Plätze in einer blockweise unterteilten Sendestunde werden mit Beiträgen versehen. Mit diesem Schritt werden auch die Metadaten der Beiträge mit Hilfe des Datenbankmanagers in den Sendeplan überführt und dort sichtbar gemacht. Das eigentliche Audiofile des Beitrags verbleibt jedoch in dieser Phase noch an seinem Speicherort im Vorratsspeicher. Mit dem Vorrücken der Sendung gelangt der Beitrag in die Hot-Zone. Jetzt erst erfolgt die Kopie in den Sendespeicher, synchron mit dem aktiven Tagessendeplan und der Sendeablaufsteuerung. Die Musikrotationssoftware stellt als Ergebnis der Vorplanung eine Folge von Musik titeln für zuvor bestimmte Sendeplätze zur Verfügung. Das Sendeplanungsmodul nimmt diese Daten über eine Schnittstelle von der Rotationssoftware entgegen einschließlich der gewünschten zeitlichen Lage eines Musikstücks und seiner Take-ID als eindeutiges Merkmal. Die Take-IDs werden mit speziellen Algorithmen vom Sendesystem ermittelt, um eine ein deutige Kennzeichnung des Audiofiles sicherzustellen. Das Sendeplanmodul verfügt über Schnittstellen zu anderen Datenbanken, z. B. Musik rotation, kommerzielle Werbeplanung, Sendeablaufsteuerung, Sendeprotokoll, Zusatzin formations- und Metadaten-Aufbereitung. Die zu sendenden und die gesendeten Ereignisse werden in Form ganzer Sendetage aufgelistet. Während des Sendeverlaufs von dem Modul Sendeprotokoll erfasste Daten können auch zur Auswertung von Abgeltungsrechten dienen (siehe Kap. 14.2.4.5). Die Ansicht des Sendeplans steht als Webseite zur Verfügung. Das hat den Vorteil, dass sich viele Mitarbeiter gleichzeitig über das laufende oder das geplante Sendegeschehen informieren können, ohne dass hierfür Client-Lizenzen erforderlich werden. Die Webansicht des Sendeplans ist von jedem Arbeitsplatz mit einem geeigneten Browser einsehbar. Entspre chende Zugangsrechte vorausgesetzt, ist diese Nutzung beispielsweise einem Reporter von externer Stelle, z. B. einem Internet-Café aus möglich. 14.2.4.5 Sendeprotokoll und Nutzungsrechte Mit jedem geleisteten Sendetag entsteht gleichzeitig ein Tagessendeplan der Vergangenheit, auch Ist-Plan genannt. Die Inhalte vieler Ist-Sendepläne lassen sich mit dem Werkzeug Sen deprotokoll analysieren und Inhaltsuntersuchungen über vergangene Zeiträume hinweg durchführen. Dies ist zum einen notwendig, um eine Kontrolle darüber zu erhalten, was und wann etwas gesendet wurde. Zum anderen können mit der editierbaren Ergebnisliste Ele
958
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
mente nachgetragen werden, die von nicht filebasierten Wegen in die Ausstrahlung gelangt sind. Am Ende entsteht eine Datenbasis für die Abrechnung von Nutzungsrechten mit der Gema, GVL o.a. 14.2.4.6 Recherchewerkzeuge für das Archiv Im Folgenden werden Archivwerkzeuge beschrieben, die als Web-Anwendungen netzwerk weit zur Verfügung stehen. Es handelt sich dabei um Dokumentationsdatenbanken für Text-, Audio- und Videobeiträge. Dem recherchierenden Redakteur steht somit ein großer Fundus von Informationen über eine komfortabel zu bedienende Benutzeroberfläche zur Verfügung. Hinsichtlich der Recherche von multimedialen Inhalten im Bestand des Langzeitarchivs ergeben sich innovative Programm-Gestaltungsmöglichkeiten. Viele Rundfunkanstalten digitalisieren nahezu ihren gesamten Archivbestand, d. h., man trennt sich dort weitgehend vom Medium Band und überträgt die analoge Information in die digitale Domäne. Die durch Capturing gewonnenen neuen Medienfiles werden in Langzeitspeichern, wie sie in der Groß rechnertechnik verwendet werden, aufbewahrt. Die Storagesysteme sind bandgestützt oder basieren auf Festplattenlösungen (siehe Kap. 15.3). Das Audiomaterial des Langzeitarchivs kann mit entsprechenden Bedienmasken kom fortabel recherchiert und in reduzierter Qualität vorgehört bzw. gesichtet werden. Zudem lassen sich aufgefundene Beiträge anhand von Inhaltsbeschreibungen auswerten und bei Bedarf in hoher Qualität downloaden. Neue Crossmediale Datenbanken ermöglichen so die Recherche aller verfügbaren Archivbestände der Landesrundfunkanstalten. 14.2.4.7 Aktualitätenspeicher Historisch gesehen war der Aktualitätenspeicher die erste technische Einrichtung zur Verein fachung der Arbeitsabläufe im Nachrichten- und aktuellen Bereich. Im Jahre 1987 kam ein vom australischen Rundfunk entwickeltes System auf den Markt, dessen Merkmal es war, über analoge Tonleitungen eintreffende Signale zu digitalisieren und in einem Zentralspei cher aufzubewahren; die Datenfiles wurden in einer einfach strukturierten Datenbank abge legt. Eine besondere Eigenschaft dieses Systems war seine Fähigkeit, die Schnittbearbeitung schon während der Aufzeichnung zu ermöglichen. Die auf diese Weise erzeugten Audiofiles konnten über eine Sendeliste ausgespielt und mittels noch analoger Leitung unmittelbar dem Sendestudio übergeben werden. In dieser Frühphase der Digitalisierung waren noch keine übergreifend vernetzten Systeme bekannt und man half sich daher mit Einzellösungen und dedizierter Gerätetechnik. Der beschriebene Aktualitätenspeicher kannte weder eine graphische Benutzeroberfläche noch standardisierte Schnittstellen. Die Arbeitsplatzgeräte waren Terminals, deren Aktionen unmittelbar vom Zentralsystem verarbeitet wurden. Heutige Aktualitätenspeicher werden für Liveaufzeichnungen im Programmaustausch meist aus der Leitungsdispositionssoftware heraus gesteuert. In diesem Fall lassen sich, zusätzlich zu den vorhandenen beschreibenden Daten, auch neue Metadaten, wie z. B. Beginn und Ende eines Mitschnittauftrags, generieren. Zusatzinformationen können schon bei der Leitungsdisposition, falls in diesem Stadium ein Beitrag bereits beschrieben werden
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
959
kann, mitgegeben werden. Im Aktualitätenspeicher sind die Mitschnitte mit Hilfe eines Datenbankmanagers leicht auffindbar.
Abb. 14/16. Prinzip des Aktualitätenspeichers.
14.2.4.8 Musikrotation Ziel einer um 1975 beginnenden Entwicklung war es, einerseits ungewollte Wiederholungen von Musikbeiträgen im Hörfunk zu vermeiden und andererseits die arbeitsintensive manu elle Erstellung von Titellisten zu automatisieren. Die gefundene Lösung nannte sich „Musik rotation“ und generierte in der ersten Entwicklungsstufe Papierlisten für das Schallarchiv, nach denen die seinerzeit noch analogen Tonträger für die einzelnen Hörfunkprogramme zusammengestellt wurden. Aus der Liste ergab sich das für den Sendetag zu schreibende Ist-Sendeprotokoll, welches gleichzeitig die Grundlage zur Abrechnung der Leistungsschutz rechte darstellte. Diese Grundidee ist auch heute noch die Basis aller eingesetzten Musikrotationspro gramme, die von amerikanischen Unternehmen weiterentwickelt und von kommerziellen Sendern in den USA erfolgreich genutzt wurden. Die Weiterentwicklung führte schließlich zu den sog. Programmuhren, die es erlauben, zu bestimmten Zeiten bestimmte Titel nach einstellbaren Regeln einzuplanen oder wegzulassen. So wird neben einem gewünschten Fundus an Musiktiteln auch eine detaillierte Klassifi zierung der Titel mit Kreativdaten benötigt. Diese unterliegen keiner Normung, sondern sind an ihrer subjektiven Anmutung und der erwarteten Hörerwahrnehmung orientiert. Musikre dakteure definieren diese Kreativdaten individuell und hinterlegen sie in der Datenbank der Rotationssoftware. Sie sind das gestalterische Kennzeichen einer Hörfunkwelle – im Prinzip deren Markenzeichen. Zusätzlich erfolgt die Festlegung, zu welchen Zeiten und mit welcher Häufigkeit Titelarten zu verwenden sind. Das Rotationsprogramm berücksichtigt für die Zusammenstellung eines Abschnitts im Sendeplan die Sendeereignisse der Vergangenheit. Es kennt die Häufigkeit, mit der ein Titel in einem bestimmten Zeitfenster gespielt wurde und kann auf diese Weise aus einem relativ kleinen Repertoire ein abwechslungsreiches Musikprogramm generieren. Die von der Rotationssoftware nutzbaren Musiktitel liegen als Audiofiles im Musik- oder Repertoirespeicher vor. Die Datenbank des Sendesystems ist in der Regel die führende Daten bank. In einem Initialabgleich werden die vorhandenen Metadaten aus dem Sendesystem – einschließlich Take-ID – an das Rotationssystem übergeben. Damit ist der Bestand dort bekannt und kann nach Ergänzung mit den Kreativdaten umgeschichtet, sozusagen rotiert werden. Nachdem die in Listenform zusammengestellte Datei vom Rotationsprogramm an
960
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
das Sendeplanmodul übergeben wurde, werden die entsprechenden Platzhalter im Sende plan bestückt. Die Titel können dann im jeweiligen Tagessendeplan eingesehen und abgehört werden. Auch lassen sich Titel manuell hinzufügen oder löschen. Diese Änderungen werden über die Schnittstelle an die Rotationssoftware mitgeteilt, als Histogramm, also in ihrer Häu figkeitsverteilung statistisch erfasst und bei der nächsten Zusammenstellung berücksichtigt. 14.2.4.9 Sendeablaufsteuerung Das Modul Sendeablaufsteuerung ist das wichtigste Werkzeug für den Moderator einer Sendung. Es stellt in seinem Sendespeicher alle vom Hot-Zone-Prozess kurz zuvor kopierten und für die Sendung relevanten Audioelemente bereit. Auch enthält die Sendeablaufsteue rung einen gültigen und mit Beiträgen gefüllten Tagessendeplan, der vom Modul Sendepla nung stammt. Für den Moderator wichtige Bedienfunktionen sind: –– das Navigieren in der Liste vorhandener Elemente, –– das Vorhören aller Audioelemente, –– die Änderung der Beitragsreihenfolge, –– das Anzeigen aller zuvor geplanten Arbeitsschritte, –– das Ändern von Texten. Zu jedem Musikstück werden Titel, Interpreten und ergänzende Informationen angezeigt. Bei Wortbeiträgen können Titel, Autor und im Informationsfeld ausformulierte Moderationstexte angezeigt werden. Die Sendeablaufsteuerung ist ein komplexes Softwaremodul, welches Schnittstellen zum Sendeplanungsmodul und zu verschiedenen Datenbanken unterhält. Auch benötigt es für den Betrieb eine umfangreiche Peripherietechnik, wie z. B. Rechnerhardware zum gleich zeitigen Ausspielen mehrerer Audiokanäle sowie IP-Netzwerkschnittstellen mit den jeweili gen Treibern für den Betrieb an einem Sendemischpult. Die für den Betrieb einer Sendeabwicklung notwendige periphere Technik ist in Abb. 14/17 dargestellt. Über ein IP-LAN sind die Sendeablaufsteuerung, der Sendespeicher sowie ein Sen demischpult nebst externem Soundprocessing miteinander verbunden. Eine MADI-Leitung verbindet das Mischpult mit einem zentralen Audiokoppelfeld (KF). Dieser Weg stellt die Lei tungsverbindungen für Programmübernahmen oder Live-Ereignisse her. Über digitale Leitun gen sind die Ausgänge der Sendeablaufsteuerung an das Mischpult angeschlossen. Die erfor derliche Anzahl der Kanalzüge ist dabei individuell konfigurierbar und auf die Bedürfnisse des jeweiligen Hörfunkprogramms bzw. des dort agierenden Moderators zugeschnitten. Die Betriebszustände der Pegelsteller sind der Sendeablaufsteuerung in jedem Moment bekannt. Wird mittels der Sendeablaufsteuerung ein Sendungsblock im Automatikbetrieb gesendet, können Blenden auch vorgeplant und automatisiert ausgeführt werden. Hierfür stehen im Planungsmodul geeignete Mixwerkzeuge zur automatischen Abspeicherung der Blendvorgänge bereit. Viele moderne Sendeablaufsteuerungen verfügen außerdem über die Möglichkeit eines sog. Voice-Trackings, d. h., hier werden komplette Sendestrecken vorpro duziert, einschließlich aller Sendungselemente und Moderationsbreaks. Im Idealfall werden sogar die Pegelsteller-Bewegungen, sog. Reglerfahrten, z. B. über MIDI-Protokoll (Musical Instruments Digital Interface Protocol) abgespeichert. Diese Art der Vorproduktion verringert
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
961
den Aufwand erheblich, allerdings zu Lasten der Aktualität und einer persönlich anmuten den Hörsituation bei der Moderation.
Abb. 14/17. Prinzip Sendeabwicklung.
Auf der Sendeleitung wird in der Regel ein Soundprocessing durchgeführt. Im dargestellten Fall nimmt der Soundprozessor das Sendesignal vom Mischpult entgegen und bereitet dieses nach vorgewählten programmtypischen Presets auf. Die Steuerung des Soundprozessors kann auch über das Datennetz erfolgen, getrennt nach Musik und Wort. 14.2.4.10 Regionalisierung Landesrundfunkanstalten versorgen vielfach kleinere Regionen innerhalb der Landesgren zen mit eigenen lokalen Regionalsendungen. Diese sind meist zu festgelegten Zeiten in ein landesweites Hauptprogramm eingebettet und sollen die Hörerbindung durch ihren regiona len Bezug stärken. Zur Anbindung der Regionalstandorte an die jeweilige Landesrundfunkanstalt wurden regionale, breitbandige Daten- und Austauschnetze eingerichtet. Diese Verbindungen schaf fen die Voraussetzung für ein vernetztes Arbeiten zwischen zentralem Funkhaus und dem weit entfernten Regionalstudio. Das verwendete Client-Server-Prinzip basiert auf Wide-AreaNetwork-Verbindungen (WAN). In den Regionalstandorten kann somit auf dezentrale Server technik weitgehend verzichtet werden (Abb. 14/18).
Abb. 14/18. Regionalisierung.
962
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Den Regionalredaktionen stehen dieselben Ressourcen und Informationen zur Verfügung wie in der Hauptredaktion. Eine regionale Redaktion ist technisch in den Prozess der Kontribution genauso eingebunden, als wäre sie lokal tätig; regionale Ereignisse lassen sich daher sehr rasch in das aktuelle Sendegeschehen einordnen. Für die Aussendung der Regionalprogramme stehen in der Zentrale entsprechende Ausspielsysteme zur Verfügung, die entweder live gesteuert oder automatisiert die Fensterprogramme liefern. Die lokalen Beiträge werden am Regionalstandort mit Drag-and-Drop auf der Bedienoberfläche des Client-PC in die jeweiligen Zentral-Einrichtungen übergeben. Aber auch eine Live-Abwicklung von Regionalsendungen vor Ort ist möglich. 14.2.4.11 Themen- und Ereignisplanung Die Themen- und Ereignisplanung kann grundsätzlich mit Mitteln der Bürokommunikation erfolgen. Moderne Sendeplanungswerkzeuge bzw. Redaktionssysteme benutzen jedoch auf Spezialsoftware beruhende Lösungen, die im Idealfall ganz ohne herkömmliche Bürokommunikation auskommen. Auf diese Weise kann eine Programmplanung bereichsübergreifend, arbeitsteilig und crossmedial zwischen allen beteiligten Partnern erfolgen. 14.2.4.12 Nachrichtenverteilung Historisch gesehen ist ein modernes Nachrichtenverteilsystem die digitale Antwort auf den klassischen Agentur-Fernschreiber, den sog. Ticker. Täglich gelangen Hunderte von Agenturmeldungen in dieses System und werden dort sortierbar für alle Redaktionen bereitgehalten. Die Meldungen stehen ohne zeitliche Einschränkung einem großen Nutzerkreis netzwerkweit zur Verfügung. Eine der Aufgaben des Nachrichtenverteilsystems ist es, aus der großen Fülle von Informationen diejenigen herauszufiltern, die für den jeweiligen Programmbereich von Interesse sind. Dies ist mit einstellbaren Ressort-Profilen möglich. Die Verbreitung von Agenturmeldungen erfolgt daher mit Hilfe vereinbarter technischer Protokolle, die ihrerseits Merkmale der einzelnen Ressorts enthalten. Die gezielte Suche nach Meldungen kann durch differenziertes Filtern nach Ressorts, z. B. „Politik“, und weiterführend nach Schlagworten, rasch zum gewünschten Ziel führen. Schnittstellen zwischen einem Nachrichtenverteilsystem und den Hörfunk-Sendesystemen können die Beitragserstellung hinsichtlich anfallender Schreib- und Recherchearbeit erleichtern. Neben Agenturmeldungen können eine Reihe weiterer Meldungen, wie z. B. Verkehrsmeldungen, interne Meldungen oder Meldungen vom Amt für Katastrophenschutz verteilt werden. 14.2.4.13 Phonescreening und Off Airs Wichtiger Bestandteil moderner Radioformate ist neben der Kommunikation per Internet z. B. als Chat die direkte verbale Kommunikation mit dem Hörer per Telefon. Diese erfolgt meist direkt während der Sendung. Die durch Telefonate generierten Off Airs werden sowohl live als auch geringfügig zeitlich versetzt gesendet (Off-Air-Editing). Auch die Sendungsvorbereitung schließt die Planung von Sendungen mit Hörerbeteiligung ein. Wurde z. B. für
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
963
eine Ratgebersendung geworben, können die Hörer bereits im Vorfeld mit der betreffenden Redaktion telefonisch in Kontakt treten und Fragen oder Antworten zum Thema abstimmen. Die Angaben werden in eine Anruferliste übertragen und gespeichert. Zum Zeitpunkt der Sendung werden die gelisteten Hörer angerufen und nach einem Vorgespräch in die Sende regie geschaltet. Zeitgleich liegen dem Moderator auf einem Bildschirm alle Informationen über den Anrufer vor. Mit dem Modul „Phonescreening“ wird dem Moderator eine optimale Übersicht bei Sendungen mit Hörerbeteiligung gegeben. Dieses Modul benötigt neben der entsprechenden Client- und Servertechnik auch spezielle Hardware, mit der die physikali sche Zuordnung von Telefonleitungen zum Sendemischpult und dem Assistenzplatz reali siert wird. 14.2.4.14 Verkehrsinformationen Zuverlässige Verkehrsinformationen haben einen besonderen Stellenwert im Hörerservice. In der Vergangenheit war die konventionelle, papiergebundene Bearbeitung von Verkehrs meldungen mit großem Aufwand verbunden. Heute gelangen Verkehrsmeldungen aus einer Vielzahl unterschiedlicher Quellen in ein eigens für diesen Zweck vorgesehenes EDV-System der Rundfunkanstalt. Die redaktionelle Bearbeitung des Meldungsaufkommens im Verkehrsstudio wird durch ein mehrplatzfähiges EDV-System erleichtert. Meldungen können nach Regionen selektiert und graphisch dargestellt werden. Die Hörer erhalten dann nur die für ihr Sendegebiet relevanten Meldungen. Verkehrsmeldungen sind Informationen, die aktuellen und zeitkri tischen Änderungen unterliegen, insbesondere bei der Behandlung von möglicherweise fatalen Situationen wie Falschfahrer. Einer zuverlässigen systemgestützten Aktualisierung kommt damit ein beachtlicher Stellenwert zu. Die Güte von Verkehrsinformationen hängt primär von den bereitstellenden Quellen ab und von der nachfolgenden Behandlung durch die Verkehrsredaktion, die Verkehrsmeldun gen in aufbereiteter Form in den Textserver einstellt. Hierbei hilft eine Spezialsoftware, die geeignete Formulierungen zu den Meldungen anbietet. Es können beliebige Formulierungs varianten definiert und unterschiedlichen Hörfunkprogrammen differenziert zugeführt werden. Die Verkehrsmeldungen gelangen nach der Bearbeitung via Datennetz auf einen separaten Bildschirm in der jeweiligen Senderegie. Zum Ablesen wird üblicherweise eine webbasierte Anwendung genutzt. Das Verlesen einer Verkehrsmeldung war in früheren Zeiten mit der Ausgabe eines akus tischen Kennsignals, nach seinem Entwickler „Hinztriller“ genannt, verbunden. Diese sehr leise, aber doch hörbare Signalsequenz diente dazu, am UKW-Sender das ARI-Signal (Auto fahrer Rundfunk Information) aufzutasten und damit die Autoradios auf eine Verkehrsmel dung vorzubereiten. Heute werden die Audioradios mit einem sog. TA-Bit im programmbe gleitenden Datenstrom angesteuert. TA steht hierbei für Traffic Anouncement. Die Auslösung des TA-Bits erfolgt durch den Moderator manuell am Sendetisch. Schon länger ist die digitale Aussendung von Verkehrsmeldungen im Radio-Daten-Sys tem (RDS) auf UKW-Ausbreitungswegen in Betrieb. Diese codierten Informationen nennen sich TMC-Daten (Traffic Message Channel). Navigationssysteme werten diese Daten aus, um
964
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
alternative Routen zur Umfahrung von Verkehrsstaus anbieten zu können. Nähere Details dazu finden sich in Kap. 17.5. 14.2.4.15 Zusatzinformationen Ein großer Vorteil der digitalen Programmerstellung ist die Generierung und ständige Verfüg barkeit von Informationen zu den einzelnen Beiträgen. Für eine Sendung wichtige Informa tionen zur gewünschten Zeit in einem Server vorrätig zu haben, ist ein hoher Mehrwert der digitalen Sendesysteme.
Abb. 14/19. Aufbereitung von Zusatzinformationen.
Es gibt zeitkritische und zeitunkritische Informationen. Zeitunkritisch sind z. B. voraus schauende Informationen zu Sendeankündigungen in Programmzeitschriften oder im Internet. Neben dem Sendungstitel werden meist auch Inhaltsbeschreibungen angeboten. Die Bereitstellung zeitunkritischer Informationen benötigt im Hörfunk keine enge zeitliche Kopplung an das Sendegeschehen. Anders verhält es sich bei den zeitkritischen Informationen und deren Aufbereitung. Zeitkritische Informationen gelangen im Radio-Daten-System (RDS) als sog. Zusatzinforma tionen in den Verbreitungsweg, synchron zum Audio-Programmsignal. Im Radiotext, ein weiterer RDS-Dienst, werden ergänzend Titel- und Interpretennamen übertragen. In Abb. 14/19 ist der Verlauf der ZI-Datengewinnung dargestellt. Die einen Beitrag oder Musiktitel beschreibenden Metadaten werden in der Hot-Zone des Sendeplans vom Sendesys tem erfasst, im Moment der Ausspielung abgegriffen und dem Modul ZI-Datenaufbereitung übergeben. Dies erfolgt automatisch in Echtzeit. In einem anschließenden Konvertierungs prozess werden die relevanten Textdaten herausgefiltert und gemäß den Regeln des RDS-Pro
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
965
tokolls in einen für den Sendeweg gültigen Zeichensatz umgesetzt. Den derart aufbereiteten Textdaten werden noch das TA-Bit sowie weitere TMC-Daten hinzugefügt. Jeder Verbreitungs weg benötigt seine spezifische Datenaufbereitung, die per XML-Ausgabe des Hörfunksystems initiiert wird. Coverbilder für die Radio APP oder DAB+ gelangen ebenfalls automatisiert auf den Verbreitungsweg. 14.2.4.16 Leitungsdisposition Systeme zur Leitungsdisposition einer Rundfunkanstalt können den gesamten Bestand von ankommenden und abgehenden Austausch- und Sendeleitungen sowie alle internen Leitun gen eines Funkhauses steuern. Die Quellen und Senken aller Verbindungsendpunkte sind namentlich beschrieben in einer Datenbank hinterlegt. Das Dispositionssystem erlaubt die Eingabe von Schaltaufträgen, womit physikalische Leitungsverbindungen geplant, verwaltet und technisch zeitpräzise realisiert werden. Auch Sendesysteme unterliegen der Hierarchie einer Leitungsdisposition. Alle physikalischen Quellen und Senken sind Bestandteil eines Audio- und Signalkop pelfelds. Als ausführende Instanz setzt das Koppelfeld die erhaltenen Schaltaufträge um. Ein leistungsstarkes Leitungsdispositionssystem verwaltet in einer Rundfunkanstalt mehrere tausend Koppelpunkte und steuert die Verbindung zu anderen Rundfunkanstalten. Seit 2019 stellt ein auf AES67-Technik beruhendes, alle ARD-Anstalten verbindendes Austauschlei tungsnetz die anstaltsverbindende Audioübertragung per Stream sicher. 14.2.4.17 Dokumentationssystem Die von einer Rundfunkanstalt ausgestrahlten Sendungen müssen aus rechtlichen Gründen für die Dauer von drei Monaten aufgezeichnet werden. Das sind mehrere tausend Stunden Audiomaterial in diesem Zeitabschnitt. In einem eigenen Mitschnittsystem werden Audiound RDS-Daten für Recherchezwecke synchron aufgezeichnet. Dieser Dienst steht netzwerk weit zur Verfügung. Häufig werden die Audiodaten nur in datenreduzierter Form vorgehal ten, um Server und Netzwerke nicht zu stark zu belasten.
14.2.5 Außenübertragungstechnik Die Außenübertragungstechnik, kurz AÜ- oder OB-Technik (Outside Broadcasting) genannt, nutzt heute ebenfalls die Möglichkeiten der digitalen Programmerstellung. Moderne ITLösungen zur schnellen Datenübertragung finden sich in SNG-Fahrzeugen (Satellite News Gathering), in Reportagefahrzeugen, in mobilen Rechneranlagen und in großen Ü-Wagen. SNG-Fahrzeuge Die SNG-Technik erlaubt die drahtlose Verbindung zwischen einem Veranstaltungsort und dem Funkhaus über eine Satellitenverbindung (Abb. 14/20). Verschiedene Provider bieten derartige Dienste an und stellen kostenpflichtige Verbindungen zum Aufbau von digitalen Tonleitungen für Echtzeitanwendungen oder IP-Verbindungen für Überspielzwecke her. Für Live-Sendungen kommen dabei spezielle Audiocodecs zur Anwendung.
966
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
Abb. 14/20. Anbindung an den SNG-Wagen.
Im Zuge der Weiterentwicklung entstanden auch bidirektionale IP-Verbindungen mit dem Datennetz des heimischen Funkhauses. Dem Anwender stehen am Berichtsstandort somit eine Reihe von Recherchefunktionen und auch der Audiofiletransfer zur Verfügung. SNGFahrzeuge sind zur Erstellung von Hörfunkbeiträgen mit Audiobearbeitungstechnik ausge stattet. Reportagefahrzeuge Reportagefahrzeuge verfügen über ein ähnliches Audio-Leistungsprofil zur Beitragserstel lung wie SNG-Fahrzeuge. Die Beitragsüberspielung zum Funkhaus erfolgt hier mit der kos tengünstigeren terrestrischen IP-Technik, wie z. B. GSM, LTE, 5G oder WLAN. Auch können wählbare Audioverbindungen über ISDN- oder DSL-Codecs für Audiofiletransfer oder Echt zeitübertragung aufgebaut werden. Die IP-Verbindung ermöglicht zusätzlich die Recherche in den Datenbanken des Funkhauses (Abb. 14/21).
Abb. 14/21. Anbindung an ein Reportagefahrzeug.
Mobile Produktionssysteme und Kleingeräte Neben der reinen Aufnahme von O-Tönen werden häufig Kurzbeiträge aus Gründen der Aktualität direkt vor Ort produziert. Moderne Aufnahmegeräte verfügen über einfache integ rierte Schnittmöglichkeiten oder dienen als Schnittstelle, z. B. über USB (siehe Kap. 12.5.4) zu Rechnern bzw. Laptops mit einfachen Audioschnittsystemen. Die fertigen Beiträge können dann über verschiedene Datentransfers wie FTP, E-Mail oder in neuerer Zeit mit senderei genen Reporterportalen per Internet zum Sender bzw. zur Senderegie übermittelt werden. Inzwischen sind Lösungen mit Tablet-Computern und Smartphones verfügbar, mit denen Beiträge produziert und drahtlos versendet werden können.
14.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk
967
Mobile Rechneranlagen für Großveranstaltungen Bei Großveranstaltungen, besonders bei internationalen Ereignissen, ist die Berichterstat tung sehr aufwändig: Sie verlangt viele einzelne Sprecherplätze, die alle mit digitalen Kom mentatoreinheiten ausgerüstet sein müssen und Anschluss an eine bidirektionale Datenkom munikation benötigen. Die am Veranstaltungsort implementierten Funktionen entsprechen denjenigen eines kleinen Funkhauses – die Qualitätsanforderungen sind nicht wesentlich geringer. Die Berichterstattung darf durch die besondere Situation nicht beeinträchtigt sein, und es sind daher alle üblichen Arbeitsmittel, Recherchetools und Bearbeitungsmittel bereit zu halten. Im Prinzip arbeitet die mobile Rechneranlage als autarkes Sendesystem mit Anbin dung an die Dienste des zentralen Funkhauses, erweitert um den IP-Kontakt auch zu anderen ARD-Anstalten, z. B. über das ARD-HYBNET (siehe Kap. 16.5.6).
Abb. 14/22. Mobile Rechneranlage.
Vor Ort werden durch die mobile Rechneranlage die Module eines stationären Funkhau ses abgebildet: Aktualitätenspeicher, Audioworkstations, Sendeabwicklungssysteme und die Einrichtungen für den Audiofiletransfer. Abb. 14/22 zeigt das Beispiel einer Beitragser stellung an mehreren Audioworkstations. Die fertiggestellten Beiträge – wie Kommentare, O-Töne oder Interviews – werden über den ARD-Audiofiletransfer an angeschlossene Rund funkanstalten übertragen; auch komplette Sendungen oder Live-Zuspielungen müssen in Realzeit möglich sein. Große Übertragungswagen im Hörfunk Große Übertragungswagen kommen bei Live-Übertragungen und für Mitschnitte von Ereig nissen, wie Konzerten und Festivals, zum Einsatz. Sie verfügen über digitale Mischpulte mit 48 oder mehr Eingangskanälen und über die dazu gehörigen Aufzeichnungs- und Bearbei tungseinrichtungen. Die signaltechnisch und auch akustisch hochwertigen Tonregien der
968
14 Digitale Tonbearbeitung, Programmproduktion und Sendeabwicklung
großen Ü-Fahrzeuge verfügen über dieselben Produktionsmittel, wie sie in einem großen Hörfunk-Produktionsstudio zum Einsatz kommen. Dazu zählt auch die Möglichkeit, mehrka nalig in Surroundsound aufzuzeichnen und zu übertragen. Ein großer Übertragungswagen des Hörfunks verfügt über eine weitgehend selbstän dige technische Infrastruktur, bis hin zu den Kabeltrommeln für den Anschluss von Mikro fonen und bis zu Systemen zur Notstromversorgung. Auch die mitgeführten Kommunika tionseinrichtungen haben den vielfältigen, immer wechselnden Anforderungen zu genügen (Abb. 14/23).
Abb. 14/23. Infrastruktur eines großen Übertragungswagens.
15 Digitale Tonsignalspeicherung Siegbert Herla (15.1), Stefan Bock (15.2), Stephan Maniak (15.3) 15.1 Digitale Tonaufzeichnung Digitale Tonsignale beanspruchen weit über den Hörbereich hinausgehende Frequenzbandbreiten und erzeugen große Datenmengen. Der theoretisch und in der praktischen Realisierung nicht triviale Prozess der Aufzeichnung von digitalen Audiosignalen war durch den Umstand begünstigt, dass hierfür in einer zunächst noch experimentellen Phase Speichermedien und Systeme aus dem Anwendungsbereich der Informationstechnik (IT) und auch der Videotechnik adaptiert werden konnten, ehe eigenständige Entwicklungen speziell für die digitale Tonaufzeichnung im Studio verfügbar wurden. Das anfänglich noch als zu klein erkannte Marktsegment dieser neuen Technologie veranlasste die einschlägige Industrie nicht zur großzügigen Förderung von Produktentwicklungen, die auf das „Einsatzgebiet Tonstudio“ ausgerichtet waren. Die digitale Technik war und blieb zunächst ein seltenes und kostspieliges Nischenprodukt von Spezialisten für Spezialisten. Erst auf Grund der großen Nachfrage seitens der Musikindustrie und des ConsumerMarkts, der die digitale Compact Disc (CD) als neuartiges und hochwertiges Tonträgermedium geradezu euphorisch aufgenommen hatte, wurde die neue Signalverarbeitungs- und Speichertechnik für Hersteller und Anwender wirtschaftlich interessant und verhalf in Folge dieser Technologie auch im Tonstudio zum Durchbruch auf breiter Basis. Speziell für die digitale Tonaufzeichnung stehen heute, historisch bedingt, vier Varianten mit zum Teil erheblich unterschiedlicher Technik und Qualität zur Verfügung: 1. Verfahren mit rotierenden Köpfen auf Magnetband (Pseudo-Video oder direkt digital). 2. Direkte digitale Verfahren mit stationären Mehrspurköpfen auf Magnetband. 3. Echte datentechnische Verfahren mit gängigen Speichern der Informationstechnik. 4. Digitalaufzeichnungen mit reduzierter Datenrate auf diversen Trägermedien. Die wesentlichen audiotechnischen Vorteile der digitalen Aufzeichnungstechnik sind: –– pegelunabhängiger, linearer Frequenzgang im gesamten Übertragungsbereich, –– großer Dynamikumfang, –– keine Modulationseffekte, wie sie in der analogen Aufzeichnung auftreten können, –– unmessbar geringe Gleichlaufschwankungen, –– keine Phasendifferenzen zwischen den Tonkanälen, –– sehr geringe nichtlineare Verzerrungen, –– hohe Übersprechdämpfung, –– kein Kopiereffekt, –– keine Kopierverluste in der digitalen Ebene. Für die digitale Aufzeichnung typisch sind auch eine Reihe spezifischer, kritisch zu betrachtender Eigenschaften: https://doi.org/10.1515/9783110759921-015
970
15 Digitale Tonsignalspeicherung
–– Die erforderliche Frequenzbandbreite erhöht sich um den Faktor 40 bis 100 und erzeugt damit eine wesentlich höhere Aufzeichnungsdichte als in der Analogtechnik. –– Fehlerschutz und Synchronisation erzeugen zusätzliche, nicht vom Quellencode stammende Daten und vergrößern hierdurch den digitalen Verarbeitungsaufwand. –– Die Nutzungsmöglichkeit von Metadaten erhöht nochmals die Bitrate und damit die Bandbreite. –– Die Daten müssen zur zeitlichen Kompression/Dekompression bei Aufnahme und Wiedergabe zwischengespeichert werden. –– Mechanischer Schnitt ist nicht oder nur eingeschränkt mit hohem Fehlerschutzaufwand möglich. –– Elektronischer Schnitt bietet optimale Bearbeitungsmöglichkeiten, kann aber den getriebenen Aufwand erhöhen. Zudem sind digitale Tonträger wegen der hohen Aufzeichnungsdichte in der Regel gegen Umwelteinflüsse empfindlich, sollten daher mechanisch möglichst wenig beansprucht oder kontaktiert und in dauerhaft schützender Umhüllung aufbewahrt bzw. betrieben werden.
15.1.1 Quelldaten, Kanaldaten und Kanalmodulation Durch A/D-Wandlung erzeugt ein digitaler Tonsignalrecorder aus dem analogen Tonsignal zunächst digitale Abtastwerte, die sog. Quelldaten, oder er erhält diese über eine digitale Schnittstelle, z. B. ein AES/EBU-Interface, zugeführt (Abb. 15/1, vgl. auch die gekennzeichneten Stufen der Signalformung in Abb. 15/3). Im Kanalcoder werden die Audiodaten mit redundanten (im Quellensignal nicht enthaltenen) Fehlerschutzdaten ergänzt und formatiert. Der Kanalmodulator sorgt für die physikalische Anpassung bezüglich Spannungspegel und Synchronisation an den Speicherkanal; der Schreibkopf überträgt anschließend die Kanaldaten auf das Speichermedium.
Abb. 15/1. Prinzipblockschaltbild eines digitalen Tonsignalrecorders.
15.1 Digitale Tonaufzeichnung
971
Nach Abtastung des Speichermediums durch den Lesekopf werden im Kanaldemodulator die Blockdaten und der Signaltakt zurückgewonnen. Im Decoder findet danach (unter Einsatz der jeweils implementierten Fehlerschutzmechanismen zur Erkennung und Korrektur der Kanalfehler) die Trennung von digitalem Tonsignal und Redundanz statt. Die so wiederhergestellten Quellendaten werden an das digitale Interface weitergeleitet oder in ein analoges Tonsignal zurückgewandelt. Für die synchrone Anbindung an die jeweilige Studioinfrastruktur ist auch eine externe Taktung des Recorders möglich. 15.1.1.1 Speicherkanal Im realen Speicherkanal treten eine Reihe von Einflüssen auf, die digitale Signale verfälschen können und damit den Entscheidungsraum zur Wiedererkennung eines logischen Eins- oder Null-Zustands einengen. Es sind dies: –– additive Rauschüberlagerung, –– Übersprechen zwischen Datenspuren und elektronische Einstreuungen, –– Jitter, d. h. störende Frequenzmodulation durch Laufwerkseigenschaften, –– Amplitudenschwankungen bzw. störende Amplitudenmodulation, –– Dropouts, z. B. infolge von Änderungen des Band-Kopf-Kontakts durch Verschmutzung, –– Phasenfehler und Dämpfung von harmonischen Komponenten des Digitalsignals durch Frequenzbandbeschneidung.
Abb. 15/2. Augendiagramm des Bitmusters einer CD-Aufzeichnung.
Diese Einflüsse bewirken eine Verfälschung der ursprünglichen Signalform, deren Impulshöhe und -breite jetzt von den benachbarten Informationselementen und von Zufallsprozessen abhängig sind. Der Entscheidungsraum oder die sog. Augenöffnung (eye pattern) zur Wiedererkennung der gespeicherten Bits wird unter den beschriebenen Umständen wesent-
972
15 Digitale Tonsignalspeicherung
lich kleinflächiger, als es der ursprünglichen Bitgeometrie entspricht. Ohne besondere Bewertung und Regeneration sind Bitfehler in dem vom Speichermedium gelesenen Signal die mögliche Folge. Das Augendiagramm in Abb. 15/2 ist ein gutes Hilfsmittel zur Qualitätsbeurteilung des zurückerhaltenen digitalen Roh-Signals. Es ergibt sich dadurch, dass mit Hilfe eines Speicheroszilloskops die Impulse des Signals mit allen Zeit- und Pegelfehlern übereinandergeschrieben werden. Die Entscheidungszone Tw des hier in einem NRZ-Code dargestellten Digitalsignals (vgl. Kap. 15.1.3) ist dabei gleich dem Abstand zwischen den Pegelübergängen. Aus der Höhe der Augenöffnung lässt sich der Einfluss von Amplitudenschwankungen ablesen. Die Öffnung a1 wird nur im Idealfall erreicht. Die statistisch vorkommende sog. Worst-CaseAmplitude a2 bestimmt die minimale vertikale Augenöffnung. Je geringer sie ist, desto größer ist die Gefahr der Falscherkennung eines Pegels, z. B. bei Auftreten von Dropouts. Jitter bzw. Phasenschwankungen Δt engen die Breite der Augenöffnung ebenfalls ein und verringern damit Tw. Zum Erreichen höchstmöglicher Speicherdichte bei minimaler Fehlerrate sollte daher das Aufzeichnungssignal an die Übertragungscharakteristik des Speicherkanals angepasst werden. Die folgenden Kriterien müssen bei der Auswahl eines geeigneten, möglichst aufwands- und verlustarmen Verfahrens zur Aufzeichnungsmodulation besondere Beachtung finden: –– Der Speicherkanal ist bandbreitenbegrenzt. –– Der Takt zur Synchronisierung muss aus dem Wiedergabesignal regenerierbar sein, da sonst ein eigener Taktkanal bzw. eine separate Taktspur erforderlich werden. –– Signale mit Gleichkomponente können nicht immer reproduzierbar übertragen werden. Bei im Mittel ungleicher Anzahl von Null-/Eins-Zuständen enthält das Digitalsignal einen Gleichspannungsanteil (DC-Offset), und es ist mit einem Driften des Nullpegels im Wiedergabekanal zu rechnen. Dies erfordert besondere Maßnahmen bei der Signalregenerierung. Soll ein niederfrequentes Servosignal zur Spurhaltung aus dem Grad der Spurabweichung gewonnen werden, verbietet sich eine Gleichkomponente im Signal grundsätzlich.
15.1.2 Datenformatierung Die Datenwörter werden in Abhängigkeit von den charakteristischen Eigenschaften des Datenkanals in Blöcken angeordnet. Diese Aufbereitung der Datenwörter wird als Formatierung bezeichnet. Bei der Auswahl eines Aufzeichnungsformats sollten wegen der besseren Austauschbarkeit der Datenträger standardisierte Formate den proprietären bzw. firmenspezifischen Formaten vorgezogen werden. Nicht bei jeder Anwendung kann die Kanalcodierung in der gleichen Struktur wie die Quellencodierung erfolgen. So wird in der Regel ein Datenübertragungskanal nach AES/EBU zunächst eine Serialisierung der Ausgangsdaten des vorhergehenden A/D-Wandlers erfordern. Dieser nun einkanalige Datenstrom ist direkt an die Leistungsfähigkeit oder Struktur des Speichermediums anzupassen und muss ggf. erneut in parallele Bitströme aufgespalten werden.
15.1 Digitale Tonaufzeichnung
973
Abb. 15/3 zeigt schematisch die Reduktion der Eingangsdatenrate (1) auf ein Drittel dieses Wertes für die einzelnen Spuren (2). Damit nach dem Speichervorgang die Daten wieder eindeutig zugeordnet werden können, sind die Synchronworte S1 bis S4 zur Blocksynchronisierung der Spurinformation vorangestellt. Dann werden die Quer-Parität (Q), die Längsparität (P) sowie die zyklisch redundanten Korrektursymbole (CRC) gebildet (3), die zusammen mit den Eingangsdaten eine redundante Konfiguration mit jetzt vier Spuren ergeben (4). Der Speicherprozess kann aus verschiedenen Ursachen, z. B. durch Spaltschiefstellung der Magnetköpfe, eine Änderung der gegenseitigen Lage der Bitpositionen in den einzelnen Spuren verursachen. Die Folge ist dann das Zeitdiagramm (5) am Ausgang des Speicherkanals.
Abb. 15/3. Schematische Darstellung einer Datenorganisation.
Der Wiedergabesignalweg läuft in umgekehrter Analogie zum Aufnahmesignalweg über Leseköpfe, Verstärker, Entzerrer, Synchronisator und Demodulator für die Biterkennung im jeweils verwendeten Aufzeichnungscode. Die parallel, aber möglicherweise versetzt einlaufenden Datenbits werden mit Hilfe eines regenerierten Takts wieder synchronisiert (6). Damit ist das Zeitdiagramm (4), allerdings jetzt mit Kanalfehlern behaftet, wiederhergestellt. Die Paritäts- und Korrektursymbole werden im Decoder zur Fehlererkennung und -korrektur verarbeitet, und die Daten (7) entsprechen anschließend wieder dem ursprünglichen Format (2). Nach Parallel-Serienwandlung erfolgt die Digital/Analog-Umwandlung oder die Ausgabe der Daten an einer digitalen Schnittstelle.
15.1.3 Schreibcodes und Kanalmodulation Die Vielzahl der möglichen Codes für die Digitalaufzeichnung ist kaum überschaubar. Die folgende Auswahl beschränkt sich auf digitale Quellensignale, die in PCM-Form vorliegen. Es handelt sich hierbei um binäre Signalfolgen mit konstantem Zeitintervall zwischen den Elementarsignalen (Datenbits oder -worte), die das analoge Tonsignal linear abbilden.
974
15 Digitale Tonsignalspeicherung
Die Art der Schreibcodes kann dabei sehr unterschiedlich sein: –– Linear codierte PCM-Basisbandsignale in der ursprünglichen abtastfrequenten Zeitrasterung. –– Signalverläufe, die durch Modulation eines periodischen Trägers mit dem Basisband signal entstehen, und die aufgrund ihres diskreten Charakters durch die Parameter des Codierverfahrens beschreibbar sind. Die Decodierung erfolgt hierbei mit einem entsprechenden Demodulator. –– Durch logische oder tabellarische Codiervorschriften gebildete Signale. Die Decodierung erfolgt durch die inverse Anwendung der Codierungsvorschriften. Eine Gruppe einfacher für PCM-Signale geeigneter Aufzeichnungsmodulationsarten bilden die sog. NRZ-Codes (Non Return to Zero). Ursprung dieser Codes ist der im Prinzip einfach strukturierte RZ-Code (Return to Zero), bei dem ein Eins-Signal als Impuls innerhalb einer Bitzelle immer mit einem Null-Zustand beginnt oder endet. Beim NRZ-Code findet kein Rücksetzen innerhalb der Bitzelle statt, so dass bei aufeinanderfolgenden logischen Eins-Zuständen kein Pegelwechsel erfolgt. In der Praxis erfolgt die Umsetzung des logischen Bitmusters in die physikalische Signalfolge nach unterschiedlichen Methoden; es sind daher eine Vielzahl von sog. NRZ-Derivaten bekannt (Abb. 15/4). Der NRZ(L)-Code (NRZ-Level) ist der einfachste davon. „Level“ bedeutet hier die feste Zuordnung einer Eins zum Level H (High) und einer Null zu L (Low).
Abb. 15/4. PCM-Aufzeichnungsmodulationsarten (1).
Beim NRZ(M)-Code (NRZ-Mark) findet bei jedem Auftreten eines Eins-Zustands ein Pegelwechsel an der Bitgrenze (nicht innerhalb der Bitzelle) statt; jede zweite logische „Eins“ wird durch einen Pegelsprung – wieder an der Bitgrenze – „markiert“. Das ist beim Auftreten von Einzelbitfehlern ungünstig, da alle nachfolgenden Datenbits dann bis zum nächsten logischen Zustandswechsel invertiert sind. Generell haben NRZ-Codes den Nachteil, dass Zeitbasis-Fehler entstehen können, wenn länger andauernd kein Signalwechsel erfolgt. Beim Auftreten von Bitfolgen mit gleicher Polarität lässt sich aus den Bitgrenzen kein Taktsignal mehr ableiten. Die NRZ-Codierung ist dann „nicht selbsttaktend“ und erfordert die externe Synchronisation aller an der Signalverarbei-
15.1 Digitale Tonaufzeichnung
975
tung beteiligten Komponenten. Zudem kann ein Gleichspannungsanteil (DC-Offset) entstehen, der zu einer Verschiebung der Signal-Nulldurchgänge führt. In der störanfälligen Signalspeichertechnik wird mit einem weiteren NRZ-Code gearbeitet, der die logische Eins nicht als absoluten Pegelwert (Zustand) einer Bitzelle, sondern durch einen Richtungssprung an der Bitzellen-Grenze darstellt. Dadurch beschränkt sich ein Einzelbitfehler auf das fehlerhafte Bit. Dieser invertierende Richtungs-Code wird als NRZ(I) bezeichnet. Um maximale Signalpegel zu erhalten, werden häufig bipolare (Plus/Minus-) Wechsel ohne Null-Zustand gespeichert, der nicht als informationstragend definiert ist; die Lauflänge des Codes, d. h. die maximal mögliche Anzahl aufeinander folgender identischer Pegelzustände, muss daher begrenzt werden, um das Entstehen einer Gleichkomponente sicher zu vermeiden. Bei der Eight-to-Fourteen-Modulation (EFM), wie sie z. B. bei der CD-Kanalcodierung zum Einsatz kommt, wird dies durch Hinzufügen von weiteren drei Zusatz-Bits, den sog. Mergingoder Coupling-Bits, erreicht, die eine Randomisierung bewirken, d. h. eine Umorganisation des zu häufigen Auftretens von binären Eins-Werten an den Übergangsstellen hintereinander liegender Codeworte. Die binäre Phasenmodulation von NRZ-Folgen führt zum Manchester-Code, einem selbsttaktenden, gleichspannungsfreien Code, der allerdings die doppelte Bandbreite des NRZ-Codes benötigt. Der Code findet z. B. beim Ethernet Verwendung. Die Schriftart Biphase-Mark ergibt sich dadurch, dass in Bitzellenmitte die Eins durch einen weiteren Signalwechsel gekennzeichnet ist. Aufeinanderfolgende Eins-Werte erzeugen demnach ein Rechtecksignal mit doppelter Bitfolgefrequenz. Bei Null-Werten findet eine Zustandsänderung nur an den Bitgrenzen statt. Abb. 15/4 zeigt, dass im Prinzip mit zwei verschiedenen Frequenzen geschrieben wird, was zu einem höheren Bandbreitenbedarf führt, aber eine einfache Regeneration des Taktsignals ermöglicht. Eine Bandbreitenreduktion und die Verbesserung des Signal-Rausch-Verhältnisses ergeben sich, wenn vom Biphase-Code nur jeder zweite Signalwechsel übernommen wird. Der daraus entstehende, ebenfalls selbsttaktende Code heißt Miller- oder MFM-Code (Modified Frequency Modulation). Die Codierungsregel lautet: Signalsprung bei Eins in Bitmitte oder nur zwischen benachbarten Nullen. Der Code ist nicht gleichspannungsfrei. MFMCodierung fand Anwendung bei Bandspeichern im ProDigi-Format und bei Festplattenspeichern. Der Code wird immer noch bei 2-Zoll-Disketten verwendet. Höchsten Speicherdichten wird er jedoch nicht mehr gerecht. Beim Jacoby- oder 3PM-Code (3-Position-Modulation) wird eine Gruppe von drei QuellDatenbits in sechs Kanalbits konvertiert. Es sind zwei Einsen mindestens durch zwei aufeinander folgende Nullen voneinander getrennt. Einige Codeparameter sind die gleichen wie bei MFM. Die lineare Dichte ist jedoch um 50 % gegenüber dem MFM-Code erhöht; der Bandbreitenbedarf ist geringer als bei den anderen Codes. In der Plattenspeichertechnik, aber auch bei der Speicherung auf Band, kommen bei sehr hoher Gleichlaufstabilität Codes mit hohem Dichteverhältnis, sog. lauflängenbegrenzte RLL-Codes (Run Length Limited) zum Einsatz. Sie werden mit RLL(x,y) bezeichnet, wobei x die minimale und y die maximale Lauflänge, d. h., die Anzahl aufeinander folgender Nullen oder Einsen, angibt.
976
15 Digitale Tonsignalspeicherung
Die Speicherdichte moderner Laufwerke erhöht sich noch deutlicher durch PRML-Detektion (Partial Response Maximum Likelihood) im Lesekanal. Hier werden z. B. statt RLL (1,7) die Schreibrestriktionen (0,4,4) verwendet. „0“ bedeutet, dass Eins-Werte direkt aufeinanderfolgen können. Der erste Parameter „4“ begrenzt die Anzahl der Nullen zwischen den Eins-Werten eines Datenstroms und die zweite „4“ die maximale Anzahl von Nullen in verschiedenen Untermengen. Der dann beim Lesen verwendete Viterbi-Decoder prüft die Wahrscheinlichkeit des Auftretens von erlaubten Bitfolgen.
Abb. 15/5. PCM-Aufzeichnungsmodulationsarten (2).
Bei der CD wird der EFM-Code verwendet. Aus 8 Datenbits werden hierbei 14 Kanalbits abgeleitet: Aus 214 = 16384 möglichen Datenworten werden 2 8 = 256 bestgeeignete Werte ausgewählt. Hinzu kommen jeweils drei Coupling- oder Merging-Bits zwischen den Wortgrenzen. Damit handelt es sich eigentlich um einen Code mit der Rate 8/17 (s. Abb. 15/5). Eine genaue EFM-Beschreibung erfolgt in [ECMA-130]. Die lineare Dichte von EFM liegt etwa 25 bis 50 % über der von MFM und ist gleichspannungsfrei. Eine Weiterentwicklung ist der in [ECMA-267] beschriebene EFMplus-Code für die DVD und SACD; die Coderate beträgt 8/16. Unter der Bezeichnung HDM (High Density Modulation) verbergen sich verschiedene Codes. Bei digitalen Tonbandmaschinen wird der HDM-1-Code mit kürzerer Lauflänge eingesetzt (Abb. 15/5). Er hat den 3PM-Code bei dieser Anwendung verdrängt. Weit verbreitet sind besonders bei Festplatten und optischen Platten auch die sog. Gruppencodes (Group Code Recording) wie GCR 4/5. Hierbei wird jeder 4-Bit-Wortgruppe per Codetabelle ein 5-Bit-Wort zugeordnet. Dadurch sind im Bitstrom, der anschließend in NRZ(I) codiert wird, nicht mehr als zwei benachbarte Nullen enthalten. Diese Codes sind robust gegenüber Störeinflüssen und ermöglichen höhere Speicherdichten. Prinzipiell gibt es Codes mit minimalen Ansprüchen an das Laufwerk, wie z. B. GCR 4/5. Codes für höhere Ansprüche an die Eigenschaften des Laufwerks sind EFM und 3PM.
15.1.4 Fehlererkennung und Fehlerkorrektur Grundlage für eine an den Speicherkanal angepasste Datenorganisation und einen wirksamen Fehlerschutz ist die genaue Kenntnis seines statistischen Fehlerverhaltens. Die Ursa-
15.1 Digitale Tonaufzeichnung
977
chen für die meisten Fehler liegen beim Speichermedium selbst. So stören z. B. Staubteilchen, Abrieb, Fingerabdrücke und Bandkantenbeschädigungen die magnetische Aufzeichnung durch Pegeleinbrüche oder sog. Dropouts. Es werden grundsätzlich drei Arten von Fehlerursachen im Speicherkanal unterschieden: –– Statistisch unabhängige Substitutionsfehler, wenn ein oder mehrere Datenbits anders als ursprünglich aufgezeichnet erkannt werden. Sie treten vorwiegend bei Plattenspeichern auf. Diese durch additives Rauschen verursachten Fehler sind mit klassischen Blockcodes kleiner Blocklänge erkennbar und korrigierbar. –– Burst- oder Bündelfehler, verursacht durch starke Rauscheinbrüche, die zu fehlerhaften Bitgruppen führen. Sie sind generell nur mit Codierungen, die ein großes „Gedächtnis“ besitzen, erkennbar und korrigierbar. Eine wirksame Methode, einen Bündelfehler in mehrere leichter korrigierbare Einzelfehler umzuwandeln, besteht in einer örtlichen oder räumlichen Datenspreizung über das Speichermedium (interleaving). Ist keine Fehlerkorrektur mehr möglich, kann bei digitalen Tondaten die Methode der Fehlerverdeckung oder Fehlerverschleierung (error conceilment) verwendet werden. Dabei werden fehlerhafte Abtastwerte aus benachbarten Daten errechnet, durch benachbarte ersetzt oder auch stumm geschaltet. –– Statistisch unabhängige Synchronisationsfehler, die ohne fehlersichernde Maßnahmen zum Synchronisationsverlust bis zum Blockende führen. Hier erweisen sich besonders die zyklischen Codes als hilfreich, die Synchronisationsfehler erkennen und korrigieren können. Bei Bündelfehlern, die die Synchronisation stören, kann die Auswertung von Nachbar-Spuren zur Unterstützung der Synchronisation weiterhelfen. 15.1.4.1 Instrumente der Fehlererkennung und Fehlerkorrektur Um Fehler bei einer Übertragung zu vermeiden, darf bei einem Code nicht der gesamte Vorrat an Code-Elementen zu Nutzworten verbraucht werden. Damit ein gestörter Speicherkanal optimal betrieben werden kann, muss daher die Redundanz der zu übertragenden Information gezielt erhöht werden. Dies geschieht durch Umsetzung der binären Quellensymbole in Symbolkombinationen, die eine Verfälschung des Codeworts erkennen, korrigieren oder verschleiern lassen. Fehlererkennende und -korrigierende Codes Ein Maß für die Effizienz eines Codes ist seine Hamming-Distanz (d). Diese gibt die Mindestanzahl der Binärstellen an, in denen sich die Codewörter eines Binärcodes voneinander unterscheiden. Ein redundanzfreier Code hat d = 1. Bei dieser Hamming-Distanz ergibt schon die Verfälschung eines einzigen Bits ein neues gültiges Zeichen und ein Fehler kann somit nicht entdeckt werden. Bei einer Distanz von 2 können alle 1-Bit-Fehler erkannt, aber nicht korrigiert werden. Eine Hamming-Distanz von 3 erlaubt die Korrektur aller 1-Bit-Fehler und das Erkennen aller 2-Bit-Fehler. Bei der Entwicklung eines Codes muss die gleiche HammingDistanz zwischen allen möglichen Kombinationen der Zeichen des Codes gewährleistet sein. Historisch betrachtet hat sich die datensichernde Codierung aus der bei Lochkarten-Systemen erstmals angewandten Paritätsprüfung (parity check) entwickelt. Die einfachste Art
978
15 Digitale Tonsignalspeicherung
der Paritätsbildung entsteht bei der Formung eines zyklischen Codes mit dem Generatorpolynom G(x) = x + 1. Die zyklische Redundanzprüfung (Cyclic Redundancy Check, CRC) ist ein Verfahren aus der Informationstechnik zur Bestimmung eines Prüfwerts für Daten mit dem Ziel, aufgetretene Fehler erkennen und korrigieren zu können. In der kaufmännischen Elektronischen Datenverarbeitung (EDV) gibt es außer Erkennung und Korrektur keine andere sinnvolle Möglichkeit der Fehlerbehandlung: Finanzdaten müssen immer korrekt sein und gestatten keine Kaschierung von falschen Zahlenwerten. Vor Beginn der Übertragung eines Datenblocks wird ein CRC-Wert berechnet und zusammen mit den Nutzdaten weitergegeben. Nach Abschluss der Transaktion wird der CRC-Wert erneut berechnet und anschließend beide Prüfwerte miteinander verglichen. CRC beruht auf der Polynomdivision, die sich durch Modulo-2-Additionen schaltungstechnisch relativ einfach implementieren lässt. Allerdings ist eine Realisierung in Realzeit erst mit der Einführung hoch integrierter Schaltkreise möglich geworden. Für CRC verwendete Polynome sind das Ergebnis umfangreicher mathematischer und empirischer Analysen. CD, DAT und DVD (s. Kap. 15.1.6 und 15.1.8) verwenden als zyklischen Code einen ineinander verschachtelten Reed-Solomon-Code. Er ist als CIRC (Cross Interleaved Reed Solomon Code) bekannt. Bei der Codespreizung, auch als Interleaving bezeichnet, werden die Abtastwerte vor der Blockbildung über mehrere Kanäle eines Datenspeichers verteilt oder, wie es bei einspurigen Datenformaten der Fall ist, durch diagonales Crossinterleaving räumlich auseinandergezogen (Abb. 15/6). Ein Dropout auf einem magnetischen Datenträger erzeugt einen Bündelfehler (burst error), der mehrere hintereinander liegende Abtastwerte zerstört. Nach dem De-Interleaving liegen die gestörten Informationsbits zwischen gültigen Abtastwerten und können dann z. B. durch Interpolation benachbarter Abtastwerte verschleiert und damit im besten Fall unhörbar gemacht werden. Durch mehrfach ineinander geschachtelte EDCs (Error Detection Codes) oder ECCs (Error Correction Codes) ist in der Regel auch eine sichere Erkennung und vollständige Korrektur möglich, bei IT-Daten sogar zwingend erforderlich.
Abb. 15/6. Codespreizung oder Interleaving.
Ampelanzeige und Hinterbandkontrolle In die meisten Geräte der digitalen Audio-Speichertechnik sind Hilfsmittel zur Anzeige von Datenproblemen implementiert. Bei Fehlern, durch die das Tonsignal bereits nachrichtentechnisch beeinträchtigt ist, diese Verschlechterung jedoch wegen geleisteter Korrektur
15.1 Digitale Tonaufzeichnung
979
oder Verschleierung noch nicht hörbar wird, hat sich die sog. „Ampelanzeige“ bewährt, die zur Meldung von zulässigen, weil korrigierbaren Fehlerraten bei digitalen Aufzeichnungen dient. Üblicherweise wird damit die „Channel Condition“ (Fehlerzustand der Wiedergabekanäle) an der Bedienkonsole optisch signalisiert. Folgende Situationen können durch unterschiedliche Lichtfarben angezeigt werden: –– Grün: Guter Zustand der Wiedergabekanäle. Sehr niedrige Fehlerrate. Alle Fehler vom Speichermedium können korrigiert werden. –– Gelb: Ein oder mehrere Wiedergabekanäle zeigen eine erhöhte Fehlerrate. Es können noch alle Fehler des Speichermediums korrigiert werden, aber möglicherweise liegt bereits ein Problem vor. –– Rot: Ein oder mehrere Wiedergabekanäle zeigen eine zu hohe Fehlerrate. Es können nicht mehr alle Fehler korrigiert werden. Fehlerverschleierung wird angewendet. Letzte Möglichkeit der Fehlerverschleierung ist dann das Stummschalten des Tons (muting). Das kontrollierende Abhören unmittelbar nach der Aufzeichnung stammt aus der professionellen analogen Magnetbandtechnik, wobei der Wiedergabekopf direkt hinter dem Aufzeichnungskopf das soeben aufgezeichnete Signal reproduziert. Bei entsprechendem Aufwand lässt sich diese „Hinterbandkontrolle“ auch bei digitalen magnetischen und optischen Plattenlaufwerken oder anderen Speichermedien als „Read After Write“-Funktion realisieren.
15.1.5 Magnetische Aufzeichnung Die physikalischen Gesetze der bereits ausführlich beschriebenen analogen SchallsignalSpeicherung auf magnetischem Wege (vgl. Kap. 7) gelten bei der digitalen Tonaufzeichnung für das Daten-Magnetband oder die Festplatte in gleichem Umfang. Allerdings handelt es sich bei den digitalen Vorgängen um wesentlich höhere Frequenzbereiche bzw. um sehr viel kleinere Aufzeichnungswellenlängen auf dem Datenträger. Abb. 15/7 a) und b) erinnern an den Abstandseffekt mit exponentieller Abnahme der induzierten Spannung. Dieser Abfall ist in der Praxis wirksam z. B. bei Staub auf dem Magnetband oder bei verschmutzten Magnetköpfen. Abb. 15/7 c) und d) illustrieren den „Spalteffekt“. Je breiter der Spalt, desto mehr Feldlinien verfehlen den magnetisch leitenden Kopf und induzieren damit keine Spannung in der Lesespule. Mathematisch lässt sich das mit der sog. Spaltfunktion beschreiben. Folglich werden bei s ≥ λ/2 die aufgezeichneten Bits nicht mehr richtig erkannt, da Streuflüsse benachbarter Bits sich der regulären induzierten Spannung überlagern; es kommt zum sog. „Peak Shift“. Je größer die Träger- bzw. die Bandgeschwindigkeit ist, umso größer ist die im Lesekopf induzierte Spannungsspitze, und umso später wirken sich Verluste durch den Spalteffekt aus; andererseits gibt es mechanische Grenzen für die maximal erreichbare absolute oder zu den Aufzeichnungsköpfen relative Geschwindigkeit des Bands. Lange Zeit waren integrierte induktive Schreib / Lese-Köpfe ein Kompromiss beider Vorgänge, bis im Jahr 1990 die magnetoresistive MR-Technik nutzbar wurde. Abb. 15/8 zeigt einen solchen Schreib-/Lesekopf in seinem prinzipiellen Aufbau. Geschrieben wird konventionell
980
15 Digitale Tonsignalspeicherung
Abb. 15/7. Abstands- und Spalteffekt beim Lesen.
Abb. 15/8. Moderner digitaler Schreib-/Lesekopf.
15.1 Digitale Tonaufzeichnung
981
mit einem Magnetfeld, das durch einen elektrischen Strom erzeugt wird. Gelesen wird mit einem MR-Element, dessen elektrischer Widerstand sich mit dem Quadrat des anliegenden magnetischen Streufelds ändert. Hierdurch werden die Abmessungen des Lesekopfs erheblich verkleinert. Die magnetoresistiven Köpfe lassen sich ähnlich wie integrierte Schaltungen herstellen. Eine weitere Miniaturisierung führte zur GMR-(Giant Magneto Resistance)-Technologie, die zusätzlich auf quantenmechanischen Effekten beruht und damit Spaltbreiten von nur wenigen Ångström (1 Å = 10-10 m) zulässt. Die binäre Information wird für den Speicherkanal formatiert, der Kanalcodierung (in diesem Fall MFM) unterzogen und anschließend auf den Träger geschrieben. Bei der Wiedergabe wird das Kopfsignal entzerrt, der Takt regeneriert und damit die binäre Information zurückgewonnen. Nach der Decodierung und Fehlerkorrektur stehen die PCM-Werte dann wieder zur Verfügung. Seit 1995 hat u. a. das PRML-Encoding, bei dem die Signale im Lesekanal nicht mehr nach Spitzenwert oder Nulldurchgang, sondern nach ihrer Ähnlichkeit decodiert werden, bei Band und Platte die Aufzeichnungsdichte wesentlich erhöht. Als Faustregel für die fortschreitende Entwicklung gilt eine Verdopplung der Medienkapazität etwa alle 18 Monate, eine Grenze dieser Steigerungsrate ist noch nicht abzusehen. Abb. 15/9 veranschaulicht die wesentlichen Phasen, die ein digitales Tonsignal bei der PCM-Aufzeichnung durchläuft:
Abb. 15/9. Signale bei der digitalen Aufzeichnung.
982
15 Digitale Tonsignalspeicherung
15.1.6 Magnetband-Aufzeichnung Das Speichermedium Magnetband ist aus der analogen Speicherung bereits bekannt. Bei der PCM-Aufzeichnung werden in Abhängigkeit vom verwendeten Verfahren mehrere zur BandLaufrichtung parallel oder schräg angeordnete Spuren zeitgleich geschrieben oder gelesen. Zur Verbesserung der Lauf- und Wickeleigenschaften werden auf der Magnetkopfseite Gleitmittel und auf der Rückseite raue Beschichtungen verwendet. Die Magnetbänder für die digitale Speicherung sind mittlerweile bei Banddicken von 6 - 8 μm angelangt. Da ihr magnetisches Verhalten hochkoerzitiv ist, sind sie weitgehend resistent gegenüber Fremdfeldeinflüssen; sie benötigen zur Aufzeichnung des Nutzsignals und zur Löschung starke Magnetfelder. Als Magnetschicht wird Metallpulver (MP/Metal Particle) oder Metallbedampfung (ME/Metal Evaporated) verwendet. Statt klassischem Eisenoxyd und Chromdioxyd kommt z. B. Bariumferrit mit sehr kleiner Partikelgröße zum Einsatz. ME-Bänder haben ausgezeichnete magnetische Eigenschaften und bieten daher hohe Datensicherheit. Die Beschichtung ist sehr dünn und glatt; ME-Bänder verursachen wenig Kopfabrieb. Sie werden deshalb gern bei Recording-Systemen mit rotierenden Köpfen eingesetzt, obwohl sie mechanisch empfindlicher sind als MP-Bänder. Diese haben eine ca. 10-fach dickere Beschichtung und verursachen vergleichsweise mehr Kopfabrieb, sind aber mechanisch robuster und ideal für den intensiven Studiobetrieb mit häufigen Umspulvorgängen an ein und derselben Stelle. Ihr bevorzugter Einsatzbereich ist die lineare Aufzeichnung mit zur Bandkante parallelen Spuren. 15.1.6.1 Helical-Scan-Aufzeichnung Als Anfang der 1980er Jahre die digitale Tonaufzeichnung im professionellen Audiobereich immer mehr Interesse fand, eigneten sich für die Aufzeichnung der hohen Datenraten nur die vorhandenen studiotauglichen Videorecorder. Zu diesem Zweck wurde das digitalisierte Tonsignal in sog. Audioprozessoren so codiert und umformatiert, dass es als scheinbares Videosignal (Pseudo-Videosignal) aufgezeichnet werden konnte. Audioprozessoren PCM-F1 und PCM-1610/1630 Der erste bekannte, noch semi-professionelle Audioprozessor für den Rundfunkbereich ist der PCM-F1, der nach dem EIAJ-Standard arbeitete und einen Betamax-Videorecorder aus dem Consumer-Bereich verwendete. Er ist eigentlich ein 14-Bit-Prozessor, der auf Kosten eines reduzierten Fehlerschutzes auf 16-Bit-Auflösung umgeschaltet werden konnte. Bei Verwendung besonders glatter Videobänder ließ sich die Fehlerrate im Speicherkanal so weit reduzieren, dass ein einwandfreier Betrieb auch mit einer Wortbreite von 16 Bit pro Tastwert möglich wurde. Unterschiedliche Abtastraten ergeben sich beim PCM-F1 in Abhängigkeit vom benutzten Videostandard. Bei PAL/SECAM-Norm beträgt die Abtastrate 44,1 kHz, bei NTSC-Norm (im sog. Drop-Format mit 29,97 Hz Bildfrequenz) sind es 44,056 kHz. Nachfolger des PCM-F1 waren im professionellen Bereich die Audioprozessoren PCM1610/1630 in Verbindung mit professionellen U-matic-Videorecordern. Sie verwenden zwar dieselben Abtastraten wie der PCM-F1, arbeiten jedoch nur nach NTSC-Fernsehnorm wahlweise im Drop- oder Non-Drop-Format. Möglichkeiten zur digitalen Schnittbearbeitung und
15.1 Digitale Tonaufzeichnung
983
für das CD-Mastering sind vorgesehen. In jedem der beiden Halbbilder nutzen sie 245 Zeilen der nominal 525 Zeilen eines NTSC-Vollbildes zur Datenspeicherung. Durch die bei der Codierung verwendete Interleaving-Distanz von 11⅔ Zeilen können Dropouts in dieser Länge noch korrigiert werden. Die Daten werden im NRZ(L)-Code als Pseudo-Videosignal kanalmoduliert. Um den Fehlerschutz nicht empfindlich zu stören, muss am Videorecorder der Dropout-Kompensator für Videosignale unbedingt abgeschaltet sein. Der Video-Dropout-Kompensator ersetzt zur Fehlerverschleierung als defekt erkannte Bildzeilen durch die jeweils vorhergehenden und macht damit die korrekte Regeneration von Pseudo-Videosignalen für Audioanwendungen unmöglich. Tab. 15/1 zeigt beide Formate im Vergleich zum DAT-Format. Tab. 15/1. Pseudo-Videoformate und DAT im Vergleich. Format
DAT
PCM-F1
PCM-1610
Quantisierung [Bit/linear] Abtastrate [kHz] Bruttodatenrate [MBit/s] Redundanz [%] Recordertyp Bandbreite [mm] Bandgeschwindigkeit [mm/s] Längsdichte [Bit/mm] Spurdichte [1/mm] Spurbreite [μm]
16 48 2,5 27,3 R-DAT 3,81 8,15 2400 50 13,591
16 (14) 44,1 3,6 60 Betamax 12,65 20 348 34,2 29,2
16 44,1 3,6 60 U-matic 19,05 95 348 7,3 85 (+52 Rasen)
DAT-Format Der DAT-Standard existiert seit 1987 unter der Bezeichnung R-DAT (Rotary head Digital Audio Tape) [IEC 61119] und war damals als Nachfolger des analogen Compact-CassettenFormats (CC) gedacht. Er konkurrierte mit dem S-DAT-(Stationary head Digital Audio Tape)Format. Da sich S-DAT nicht durchsetzen konnte, wird R-DAT heute verkürzt als DAT-Format bezeichnet. Vor allem wegen der Kopierschutzdiskussion um das von der Softwareindus trie geforderte SCMS (Serial Copy Management System) blieb DAT für den Consumer-Markt nahezu bedeutungslos. Mit der DCC (Digital Compact Cassette) wurde ebenfalls erfolglos im Jahr 1992 ein weiterer auf Längsaufzeichnung basierender möglicher Nachfolger für das CC-Format auf den Markt gebracht. DCC zeichnet die digitalen Tondaten mit PASC (Precision Adaptive Subband Coding) datenreduziert und verlustbehaftet auf. Bandgeschwindigkeit und Abmessungen von CC und DCC waren so ähnlich, dass in DCC-Geräten auch analoge CC-Kassetten abgespielt werden konnten. Der Vergleich des DAT-Formats in Tab. 15/1 mit seinen Vorgängern zeigt eindrucksvoll die Entwicklung der Magnetbandspeichertechnik. Die teilweise professionellen Quellencodierungsmerkmale von DAT, wie lineare 16-Bit-Aufzeichnung mit 48 kHz-Abtastrate, führten zu größerer Bedeutung von DAT auch im Rundfunkbereich. Im Zuge der fortschreitenden Professionalisierung von DAT wurde die Bandqualität weiter verbessert, praxisgerechte
984
15 Digitale Tonsignalspeicherung
Interfacetechnik in den Laufwerken implementiert und zur Qualitätsüberwachung die Hinterbandkontrolle mit Ampelanzeige entwickelt. Auch erfreuten sich mehrere Generationen von handlichen Recordern für Reportagezwecke großer Beliebtheit; Studiomaschinen für Produktion und Sendung werden aktuell zwar nicht mehr gebaut, sind aber absehbar noch länger im Rundfunkumfeld anzutreffen. DAT-Kassetten waren und sind auch in den Schallarchiven der Funkhäuser zu finden und werden dort sukzessive in digitale Archivsysteme eingespielt (vgl. Kap. 15.3.2.4). Tab. 15/2. DAT-Betriebsarten für professionelle Anwendung. Parameter
Version 1
Version 2
Version 3
Kanalzahl Abtastrate [kHz] Quantisierung [Bit/linear] Subcode-Kapazit [kBit/s] Bandgeschwindigkeit [mm/s] Bandspieldauer [min]
2 48 16 273,1 8,15 120
2 44,1 16 273,1 8,15 120
2 32 16 273,1 8,15 120
Abb. 15/10. Kopftrommel beim DAT-Format.
Die wichtigsten DAT-Betriebsarten für den professionellen Betrieb zeigt Tab. 15/2. Das 13 μm dünne, wie beim analogen CC-Format 3,81 mm breite MP-Band ist in einer scheckkartengroßen 2-Loch-Kassette geschützt untergebracht. Wie beim Videorecorder wird es von der Mechanik aus dem Kassettengehäuse herausgezogen und in Form eines Omegas um die Kopftrommel gelegt. Der Umschlingungswinkel beträgt nur 90° und erfordert deshalb eine zeitliche Signalkompression (s. Abb. 15/10). Die absolute Bandtransportgeschwindigkeit beträgt lediglich 8,15 mm/s (im Gegensatz zu 4,75 cm/s beim analogen CC-Format). Durch die mit 2000 U/min rotierende Kopftrommel – in der Regel mit 30 mm Durchmesser – wird eine relative Bandgeschwindigkeit von 313 cm/s erreicht. Professionelle DAT-Recorder haben vier rotierende Köpfe und ermöglichen auf diese Weise zur Qualitätssicherung eine Hinterbandkontrolle. Die Aufzeichnungsköpfe schreiben ihre Schrägspuren mit einer Spurbreite von 20,41 μm, mit abwechselndem Azimutwinkel von
15.1 Digitale Tonaufzeichnung
985
± 20° und mit Überlappung. Hieraus resultiert eine Spurbreite von 13,591 μm für das Lesen. Durch die versetzten Azimutwinkel erreicht man bei den kurzen Wellenlängen eine ausreichende Kanaltrennung, so dass kein Leerbereich (sog. Rasen) zwischen den Spuren nötig ist. Abb. 15/11 zeigt das Spurbild des DAT-Formats. Bei jeder Kopfradumdrehung werden digitale Ton-, Zusatz- und Steuerdaten auf dem Magnetband abgelegt. Jeweils vor und nach dem Hauptdatenbereich mit den codierten PCM-Daten wird in der Schrägspur ein kleiner Bereich für Spurführungssignale (ATF, Automatic Track Finding) und ein Bereich für Zusatzdaten (SUB-Daten) beansprucht. Der PCM-Block einer Spur besteht aus 128 Datenblöcken und jeder SUB-Block enthält acht Datenblöcke. Dazwischen liegt der ATF-Bereich mit fünf Blocklängen. Vor und hinter den ATF-Aufzeichnungen befinden sich zur Trennung der Datenbereiche spezielle Blocklücken, sog. Interblock Gaps. Sie ermöglichen die getrennte Aufnahme und Bearbeitung von Audio- und Zusatzdaten.
Abb. 15/11. Spurlagen des DAT-Formats.
Als Fehlerschutz kommt für den PCM- und für den SUB-Datenbereich ein doppelter ReedSolomon-Code zur Anwendung. Der Kanalcode ähnelt dem EFM-Code der CD. Bei DAT wird ein 8/10-Gruppencode verwendet. Die so codierten Daten werden auf die Spuren A und B – geschrieben durch die Köpfe A und B – derart verteilt, dass in Spur A die geradzahligen Datenworte des linken Kanals mit den ungeradzahligen des rechten Kanals kombiniert sind. Spur B enthält dagegen die geradzahligen Datenwörter des rechten und ungeradzahligen des linken Kanals. Diese Verteilung der Daten auf dem Band lässt selbst bei Ausfall einer gesamten Spur, z. B. durch Kopfverschmutzung, noch eine Fehlerverschleierung zu. Neben dem digitalen Speicherbereich in der Mitte des Magnetbands sind am oberen und unteren Rand je eine Längsspur zur Analogaufzeichnung z. B. von SMPTE-Timecode- und anderen Steuersignalen vorgesehen.
986
15 Digitale Tonsignalspeicherung
Das DAT-Format erlaubt wegen seiner SUB-Daten einen CD-ähnlichen Betrieb, wobei hier Platz für die 4,5fache Menge an Zusatzinformation im Vergleich zur CD vorhanden ist. Das machte es möglich, DAT mit großem Erfolg im Programmaustausch und im Archiv einzusetzen. Die Konfektionierung der DAT-Kassetten erfolgt nach [HFBL-13IRT]. Da Lebensdauer und Datensicherheit von DAT-Kassetten begrenzt sind, muss auf Sicherheitskopien und rechtzeitige Datenrettung besonders geachtet werden. Das DAT-Format verliert mittlerweile an Bedeutung. Das DAT-Format wird im Informatikbereich in leicht modifizierter Form auch zur Datensicherung verwendet. Die hierfür angebotenen 4-mm-DAT-Streamer-Kassetten tragen den Zusatz DDS (Digital Data Storage). 15.1.6.2 Helical-Scan-Aufzeichnung für 8-Kanal-Ton Zwei weitere im Folgenden beschriebene Formate waren im semi-professionellen Bereich sehr erfolgreich und kommen in der Ton-Nachbearbeitung von Videoaufzeichnungen mitunter noch zum Einsatz. Beide Formate sind jedoch, wie auch DAT, auf dem Rückzug und wurden nach und nach durch Audioworkstations mit Festplattenspeichern ersetzt. Beide Formate basieren wegen der hohen Audio-Datenraten auf Videolaufwerken. Sie ermöglichen es, durch Timecode-Verkopplung mehrerer Systeme preiswerte 24- und 48-Kanal-Recorder zu realisieren. ADAT (Alesis Digital Audio Tape) Tab. 15/3. Vergleich der 8-Kanal-Formate mit DAT. Format
DAT
ADAT
DTRS
Quantisierung [Bit/linear] Abtastrate [kHz]
16 48 / 44,1
16 [I] / 20 [II] 48 / 44,1
16 / 24 [HR] 48 / 44,1 (8-kanal) 88,2 / 96 (4-kanal) 176,4 / 192 (2-kanal)
Tonkanäle Recordertyp Kopftrommel [U/min] Köpfe
2 R-DAT 2000 2 x Aufnahme, 2 x Wiedergabe
8 S-VHS 3000 2 x Aufnahme, 2 x Wiedergabe
2 bis max. 8 Hi-8 Video 2000 2 x Aufnahme, 2 x Wiedergabe
Bandbreite [mm] Bandgeschwindigkeit [mm/s] Spurbreite [μm] 1 Sample bei 8/10 Encoding Bandfläche (Std.-Kassette)
3,81 8,15 13,591 6,66 μm 0,299 m2
12,7 95 (3-fach Video) 100 13,99 μm 3,036 m2
8 15,955 20 6 μm 0,864 m2
Das proprietäre ADAT-Format beruht auf dem S-VHS-Videokassettensystem; der 8-KanalAudio-Recorder arbeitet jedoch mit der dreifachen Videobandgeschwindigkeit. Durch breiteres Band, geringere Aufzeichnungsdichte und fünffach breitere Spuren als beim
15.1 Digitale Tonaufzeichnung
987
konkurrierenden DTRS-Format (Digital Tape Recording System auf Hi8-Kassetten) ist die Aufzeichnungssicherheit bei ADAT grundsätzlich höher. Tab. 15/3 zeigt u. a. im Vergleich die Länge eines mit 16 Bit kanalcodierten Audiosamples und die Bandfläche einer Standardkassette. Diese Eigenschaften sorgen im harten Studioalltag besonders beim spurüberschreibenden Editing für einen robusten Betrieb. ADAT nutzt die DAT-Technologie, verwendet jedoch eigene hochintegrierte ASICs (Application Specific Integrated Circuits) für Codierung, Fehlerkorrektur und Fehlerverschleierung. DTRS (Digital Tape Recording System) Das Format basiert auf dem Hi8-Videokassettensystem. Die Aufzeichnung erfolgt in Spurpaaren mittels DAT-Chipsätzen, d. h., die gesamte Tondatenverarbeitung basiert auf dem DAT-Format (vgl. Tab. 15/3). Darüber hinaus ist ein DTRS-Mehrspurrecorder als einziger bandbasierter Recorder in der Lage, zweispurig das Direct-Stream-Digital-Aufnahmeformat (DSD) zu verarbeiten und eignet sich deshalb als Masterrecorder für die Produktion der Super Audio CD (SACD). Es lassen sich bis zu 16 Maschinen über Timecode verkoppeln, was einem Recorder mit 128 Tonspuren entspricht. Um die Fehlerraten gering zu halten, sollte speziell für DTRS entwickeltes ME- oder MP-Magnetband verwendet werden. 15.1.6.3 Längsaufzeichnung Fast zeitgleich zum DAT-Format, das mit Schrägspur-Aufzeichnung arbeitet, wurden professionelle Digitalrecorder mit Längsaufzeichnung, also parallel zu den Bandkanten liegenden Spuren, entwickelt. Durch Einsatz von Dünnfilmköpfen und Metallpartikelband war es möglich geworden, höhere Aufzeichnungs- und Spurdichten zu erreichen; und nur so waren bei gleicher Wickelgröße auch die von analogen Recordern gewohnten Spieldauern zu realisieren. Es ist einleuchtend, dass diese Recordergeneration in ihrem Äußeren den analogen Studiomaschinen mit offenen Spulen sehr ähnelte; sie wurden daher auch als digitale Reel-to-Reel-Laufwerke bezeichnet. Wegen des dünnen und glatten Bands und der kleinen Spurdimensionen war jedoch eine wesentlich höhere Präzision in der Antriebsmechanik einzuhalten. Längsaufzeichnende Digitalrecorder gehören zur Gerätekategorie mit der Bezeichnung „Digital Audio Recording with Stationary Heads“ (DASH). Eine japanisch-deutsche Firmengruppe stellte das zunächst proprietäre DASH-Format als Weiterentwicklung der Längsaufzeichnungstechnik vor. In Konkurrenz hierzu befand sich das ProDigi-Format (Professional Digital, PD) eines anderen Konsortiums. Beide Formate sind in gemeinsamen Standards für Zwei- und Mehrkanaltechnik definiert und wurden im professionellen Bereich vor allem als 24- und 48-Kanal-Recorder eingesetzt [IEC 61120], [IEC 61595]. Das ProDigi-Format hat sich in professionellen Studios nicht durchsetzen können; im Folgenden wird daher nur auf das DASH-Format näher eingegangen. DASH-Format DASH fand in professionellen Tonstudios weite Verbreitung. Die wichtigsten Parameter des DASH-Formats zeigt Tab. 15/4. Zum Einsatz kommen die einfache Spurdichte bei DASH I und eine doppelte mit der Bezeichnung DASH II. Die Spurgeometrie ist abwärtskompatibel, d. h. DASH II-Maschinen können auch DASH I-Bänder wiedergeben. Im Standard unterscheidet
988
15 Digitale Tonsignalspeicherung
man drei Geschwindigkeitsversionen: F (Fast), M (Medium) und S (Slow), die sich jeweils um den Faktor 2 voneinander unterscheiden. Eine Halbierung der Bandgeschwindigkeit erfordert zur Speicherung der gleichen Informationsmenge die Verdopplung der Spurenzahl auf dem Magnetband. Tab. 15/4. DASH-Versionen. Standard
DASH-F
DASH-M
Bandgeschwindigkeit [cm/s]
76
Magnetbandbreite [x Zoll y mm]
¼ 6,3
Banddicke
25 μm
Anzahl Tonkanäle
8[I] / 16[II] 24[I] / 48[II] 4[I] / 8[II]
½ 12,7
DASH-S
38
19
¼ 6,3 ½ 12,7
¼ 6,3
PCM-Spuren pro Kanal
1
PCM-Spuren pro Kopf
16
Analogspuren
2
Hilfsspuren
2 (Timecodespur, Steuerspur)
Quantisierung
16 Bit/linear
Abtastrate [kHz]
48 / 44,1 / 32
12[I] / 24[II] 2[I] / 4[II]
2 48
16
120
4 48
16
Spieldauer [min]
60
Redundanz
33 %
240
Aufzeichnungsmodulation
HDM-1 für PCM / Biphase(M) für Timecode und Steuerung PDM für analogen Ton
Linearspeicherdichte
1500 Bit/mm
Im Rundfunkstudio-Einsatz wurde die Möglichkeit eines mechanischen Schnitts von längsaufgezeichneten Digitalbändern gern gesehen. DASH lässt mechanische Schnitte grundsätzlich zu; für diesen Anwendungsfall wurde das besonders robuste Twin-DASH weiterentwickelt. Dieser Variante einer 2-Kanal-Maschine liegt das Format DASH-M zu Grunde. Anstelle der dort verfügbaren 4 Tonkanäle werden die beiden Tonkanäle jetzt doppelt aufgezeichnet. Während eine normale ¼-Zoll-DASH-Maschine in der Lage ist, eine 5,7 mm lange Störzone zu korrigieren, kann eine Twin-DASH-Maschine den Datenausfall auf einer Länge von 38 mm beheben. Wegen des gewohnten schnellen Schnittablaufs im aktuellen Dienst waren diese Maschinen lange Zeit im Einsatz. Neben den Digitalspuren befinden sich bei DASH-Bändern im Randbereich für analog artiges Cueing zwei Audiospuren, genannt PDM (Pulse Duration Modulation), bzw. PWM (Pulse Width Modulation). Außerdem werden noch eine Kontrollspur mit Steuersignalen für Abtastfrequenz, Bandgeschwindigkeit, Bandbreite und Blockadressinformationen, sowie eine Zeitcodespur für den SMPTE-Timecode gespeichert. Beide Spuren sind mit BiphaseMark moduliert; für die PCM-Audio-Datenspuren wird der HDM 1- Kanalcode genutzt. Ein Datenblock enthält 2 mal 6 Abtastwerte mit einem Checkwort-Bereich zu je 2 Prüfworten für gerade (P) und 2 Prüfworten für ungerade Abtastwerte (Q). Jeder Block beginnt mit einem
15.1 Digitale Tonaufzeichnung
989
Synchron-(Sync)- und einem Kontroll-(CTL)-Wort und wird abgeschlossen mit einem CRCCWort, erzeugt nach dem Generatorpolynom G(x) = x16 + x12 + x3 + 1. Die Codespreizung erfolgt in mehreren Schritten nach dem Crossinterleaving-Prinzip, wobei erst ganz am Schluss das CRCC-Wort über die bereits verschachtelten Abtastwerte gebildet wird (s. [IEC 61120] und [IEC 61595]). Die DASH-Maschinen sind heute im MehrkanalProduktionsumfeld weitgehend durch Festplattenrecorder ersetzt. 15.1.6.4 Tondatenaufzeichnung auf Computermagnetband Bei der Suche nach einem bestandserhaltenden und zukunftssicheren Audio-Datenträgersystem („ewiger Tonträger“) fiel der Blick auch auf die Verfahrensweisen der Informationstechnik (IT). Dort werden alle 5 Jahre die Datensätze auf einen neuen Träger kopiert und damit die Dateninhalte „verewigt“. Die Abwärtskompatibilität neuer Laufwerke und Formate ist bei dieser Vorgehensweise besonders wichtig. Da digitale Tonsignale ebenfalls als Datensätze vorliegen und sich auch wie Datensätze behandeln lassen, geraten die Datenspeicher der IT und damit auch das Datenmagnetband als Backup-, Austausch- und Archivmedium in den Mittelpunkt des Interesses. Die Entwicklung von Magnetband-Datensystemen verlief in den Anfängen technologisch parallel zur analogen magnetischen Audio- und Videoaufzeichnung, mit dem Unterschied, dass anstelle von Ton- und Bildinhalten binäre Informationen als „Sprache“ des Computers in Form von logischen Null/Eins-Signalen zu speichern waren.
Abb. 15/12. ½-Zoll-Cartridge, LTO-Streamer und Magnetkopf.
990
15 Digitale Tonsignalspeicherung
Im Jahr 1984 löst die Firma IBM ihr offenes Bandspulensystem für die Backups ihrer Computersysteme durch das damals revolutionäre System 3480 ab. Diese „Cartridge“ genannten Einloch-Bandkassetten enthalten 168 m Chromdioxydband, haben eine Speicherkapazität von 200 Mbyte mit einer Transferrate von 3 Mbyte/s und sind in [ECMA-120] standardisiert. Auf das 12,7 mm breite und 30 μm dicke Band wird mit einem GCR 8/9-Code und NRZ(I)Modulation in 18 Spuren aufgezeichnet. Während das Magnetband in der Kassette jeweils dem neuesten Entwicklungsstand entspricht, bleibt der Formfaktor der ½-Zoll-Cartridge mit den Maßen 125x109x24,5 mm3 mit jeweils geringfügigen Modifikationen die „Urform“ für Robo terarchive. Die Cartridge umschließt die drehgesicherte Bandspule entsprechend Abb. 15/12 staubdicht. Sie wird seitlich in das Laufwerk eingeschoben. Am äußeren Bandanfang ist ein Bandführungsklotz befestigt, der es ermöglicht, das Band automatisch aus der Cartridge zu ziehen. Er wird, sobald die Cartridge von der Antriebsspindel des Laufwerks aufgenommen wurde, über den Bandpfad des Laufwerks gezogen und im Zentrum der geräteseitigen Aufwickelspule befestigt. Das Band wird also von der Cartridgeabwickelspule zur Geräteaufwickelspule über die Schreib-/Leseköpfe bewegt und nach getätigtem Datenverkehr in die Cartridge zurückgespult. Bei älteren Formaten mit diesem Formfaktor sind Bandtyp, Inhaltsverzeichnis, Abspielhäufigkeit etc. am Anfang des Bands abgelegt, so dass zum Lesen dieser Informationen das Band aus der Kassette gezogen werden muss. Bei neueren Formaten befindet sich in der Cartridge ein mehrere Kilobyte großer Flashspeicherchip, ein sog. MIC (Memory In Cartridge). Im MIC sind die Cartridge-Informationen gespeichert und können ohne Beanspruchung des Datenbands über Kontakte oder sogar berührungslos gelesen und aktualisiert werden (vgl. auch Kap. 15.1.13). Längsaufzeichnung (Digital Linear Tape, DLT) Im Lauf der Zeit haben sich etliche weitere Datenformate unterschiedlicher Bandbreiten und Kassetten, wie das QIC-, Travan- und SLR-/MLR-Format etabliert. Eines der bekanntesten ist das DLT-Format. Seine Cartridge ähnelt im Aufbau der klassischen 3480-Type, ist aber etwas größer und beansprucht daher im Roboterarchiv mehr Volumen. Im Rundfunkbereich wird DLT für den Programmaustausch von Audiofiles und in der Medienbranche z. B. als Mastertape für die DVD-Produktion verwendet Ein Laufwerk nach [ECMA-259], in der das DLT5-Format standardisiert wird, ist z. B. in Form des DLT 7000 realisiert. Abb. 15/12 zeigt den Schreib-/Lesekopf dieses Laufwerks. Das Magnetband wird, wie bei linear aufzeichnenden DLT-Laufwerken üblich, im sog. Serpentinen-Modus beschrieben. Hierbei werden zunächst gleichzeitig 4 Spuren in der einen Richtung (im Beispiel von links nach rechts) aufgezeichnet. Die hinter den linken Schreibköpfen in der Mitte angeordneten Leseköpfe dienen der Hinterbandkontrolle. Am Bandende wird die Laufrichtung umgeschaltet und der Kopf wird in der Höhe verstellt; nun zeichnen die rechten Schreibköpfe auf und die Leseköpfe dienen wiederum zur Hinterbandkontrolle. Auf diese Weise wird in ständigem Richtungswechsel das gesamte Band mit insgesamt 208 Spuren beschrieben. Da wie beim DAT-Format die benachbarten Spuren ohne Rasen aufgezeichnet werden, wird beim „Symmetric Phase Recording“ für die beiden ineinander verschachtelten Spurgruppen zur Verhinderung des Spurübersprechens zwischen benachbarten Spuren der Kopf beim Richtungsumschalten zusätzlich um einen Spaltwinkel von ± 9,41° geneigt. Bei Köpfen anderer Formate ist der Azimut fest eingestellt.
15.1 Digitale Tonaufzeichnung
991
Der im Laufwerk eingebaute Controller steuert alle Abläufe und sorgt durch Zwischenspeicherung in einem sog. Cache-Speicher dafür, dass das Laufwerk kontinuierlich schreibt und liest und daher im verschleißarmen Streaming-Mode arbeitet. Der Controller sorgt auch für die Formatierung und Fehlerschutzcodierung der Daten. So werden beim DLT5-Format die Datenwerte jeweils synchron über vier Spuren CRC/Reed-Solomon-codiert verteilt. Tab. 15/5. Übersicht diverser ½-Zoll-Formate zum Vergleich. LTO
Gen. 1
Gen. 2
Gen. 3
Gen. 4
Gen. 5
Gen. 6
Gen. 7
mit MIC
4 kByte
4 kByte
4 kByte
8 kByte
8 kByte
16 kByte
16 kByte 16 kByte
Gen. 8
Kapazität [TB]
0,10
0,20
0,40
0,80
1,50
2,50
6,0
12,0
Transferrate [MB/s] ≤ 20
≤ 40
≤ 80
≤ 120
≤ 140
≤ 160
≤ 300
≤ 360
Encoding
RLL 1,7
PRML
PRML
PRML
PRML
NPML
NPML
NPML
Spuranzahl
384
512
704
896
1280
2176
3584
6656
Datenträger
MP
MP
MP
MP
MP
BaFe
BaFe
BaFe
LTFS
LTFS
LTFS
LTFS
Partitioning IBM (Jaguar)
Magstar
Jaguar Gen. 1
Gen. 2
Gen. 3
Gen. 4
Gen. 5
Gen. 6
Labor
mit ≥ 4 kByte MIC
3590H
3592
TS1120
TS1130
TS1140
TS1150
TS1160
2020
Kapazität [TB]
0,06
580
Transferrate [MB/s] 14 Encoding
0,30
0,50 - 0,70
0,64 - 1,0
4,0
10
20
40
100
160
250
360
400
PRML
PRML
PRML
PRML
NPML
NPML
Spuranzahl
384
512
896
1152
2560
5120
8704
Datenträger
MP
Dual-layer MP
Dual-layer MP
Dual-layer MP BaFe
BaFe
BaFe
LTFS
LTFS
LTFS
Partitioning SDLT
Gen. 1
Gen. 3
(Gen. 4
Gen.4 wurde nicht realisiert
kein MIC
SDLT-320 SDLT-600
Gen. 2
DLTS4 (2006)
DLTS5)
wegen LTO
Kapazität [TB]
0,16
0.30
0,80
1,20
Transferrate [MB/s] 16
36
60
100+
Encoding
EPR
PRML
PRML
Enhanced Partial
Spuranzahl
448
640
1280
Response (EPR)
Datenträger
AMP
AMP
AMP
SAIT
Gen. 1
Gen. 2
(Gen. 3)
mit 8 kB MIC Kapazität [TB]
(Gen. 4)
(2006) 0,50
2010 Produktion eingestellt
0,80
2,00
4,00
Transferrate [MB/s] 30
45
120
240
Encoding
TCPR
TCPR
TCPR
TCPR
Magnetköpfe
laminierte MR
MR
GMR
Kopftrommel
5000
6667
8889
10000
AME
AME
AME
AME
[U/min] Datenträger
Gen. 3 und 4 nicht realisiert
SrFe
992
15 Digitale Tonsignalspeicherung
Aus DLT ist das aktuelle „Super DLT“ (SDLT) hervorgegangen. Die unkomprimierte Kapazität erhöht sich von 40 auf 110 GByte. Die Datenrate ist nahezu doppelt so hoch. Möglich macht dies eine Kombination aus magnetischer Aufzeichnungstechnik mit optischer Unterstützung, wobei die Positionierung der Aufnahmeköpfe nach dem Laser-Guided-MagneticRecording-Prinzip (LGMR) erfolgt. Mit dem Pivoting-Optical-Servo (POS) steht ein optisch unterstütztes Servosystem zur Verfügung, das eine noch höhere Spurdichte zulässt. Zudem entfällt durch Anwendung von POS das Vorformatieren des Bands. AMP-(Advanced Metal Powder)-Bänder bieten gegenüber herkömmlichen MP-Bändern eine deutlich gesteigerte Datendichte; auf ihrer Rückseite sind bereits die optischen Servospuren als sog. Servotargets abgelegt. Diese werden von drei Laserstrahlen erfasst, die eine sehr genaue Ausrichtung der Köpfe ermöglichen. Acht MRC(Magneto Resistive Cluster)-Köpfe beschreiben parallel die 448 verfügbaren Datenspuren. Der zur Datenaufzeichnung genutzte EPR-(Enhanced Partial Response)-Übertragungskanal ist eine Weiterentwicklung des mittlerweile in der Aufzeichnungstechnik gebräuchlichen PRML-(Partial Response Maximum Likelihood)-Kanals. Andere Entwicklungen weisen noch leistungsfähigere Formate auf, wie z. B. das Jaguar-Format, das fünf Servospuren zur Magnetkopfführung bei der Bandherstellung aufzeichnet, zwischen denen dann die Datenspuren liegen. Auf diese Weise ist es gelungen, auf der in Abb. 15/12 gezeigten Cartridge 1 TByte in 1536 Spuren aufzuzeichnen. Dieses und andere leistungsfähige, proprietäre Formate diverser Hersteller sind die Impulsgeber für das von einem Firmen-Konsortium standardisierte und auf Kompatibilität überwachte LTO-(Linear Tape Open, Ultrium)-Format. Das weit verbreitete LTO-Format arbeitet ähnlich dem Jaguar-Format, ist jedoch mehr auf einen das Magnetband und das Laufwerk schonenden Streaming-Betrieb ausgelegt. Das wesentlich aufwändigere Jaguar-Format ist robuster und unterstützt auch einen Start-/StoppBetrieb für Einzelzugriffe, wie sie bei der Bearbeitung von Audio/Video-Daten üblich sind. Die Details einiger wichtiger DLT-Formate sind in Tab. 15/5 zusammengefasst. Schrägspur-Aufzeichnung (Rotary Head) Im Helical-Scan-Bereich sind das auf DAT basierende DDS-4 mm-Format sowie die auf 8 mmVideolaufwerken aufbauenden AIT-(Advanced Intelligent Tape)- und Exabyte-Formate weit verbreitet. Aber auch von den digitalen Videoformaten D1, D2 und D3 gibt es Daten-Derivate mit teilweise sehr voluminösen Kassettenformaten hoher Kapazität, deren Bedeutung in der Datentechnik jedoch gering geblieben ist.
Abb. 15/13. SAIT-Kopfrad
15.1 Digitale Tonaufzeichnung
993
Ein im Rundfunkbereich in Roboterarchiven verwendetes proprietäres Format baut mit seiner Technologie auf dem 8 mm-AIT-Format auf und benutzt die ½-Zoll-Cartridge. Das SAIT-(Super AIT)-Format ist ein ebenfalls proprietäres Streaming-Format. Anders als bei der Serpentinen-Aufzeichnung der DLT-Laufwerke wird hier nur in einer Richtung geschrieben und gelesen. Abb. 15/13 zeigt ein Kopfrad mit 8 Schreib- und 8 Leseköpfen. Statt MP-Band wird ein nur 8,6 μm dickes AME-(Advanced Metal Evaporated)-Band verwendet, dessen aus reinem Kobalt aufgedampfte Speicherschicht mit einer diamantharten Kohlenstoff-Schutzschicht (Diamond-Like Carbon, DLC) versehen ist. Bei der Positionierung des Magnetbands nutzt das Laufwerk zur Band- und Kopfschonung das Inhaltsverzeichnis im MIC der Cartridge (s. auch Kap. 15.1.6.4). Die Steuerung und die Geschwindigkeitsanpassung besorgt ein Controller im Laufwerk mit seinem Cachespeicher. Die PCM-Daten werden mit einem dreistufigen ECC (Error Correction Code) geschützt. Bei der 8-Kanal-Aufzeichnung wird eine Trellis-Vorwärtskorrektur zur Verbesserung der PRML-Codierung eingesetzt (Trellis-Coded Partial-Response, TCPR). Datenstreamer-Systeme konkurrieren mit der Magneto-Optical-Disc-Technologie (MOD) und deren Nachfolgern in den Anwendungsbereichen Archivierung und Backup. Das Magnetband mit Lebensdauern zwischen 10 und 30 Jahren ist momentan auf diesen Gebieten dominant und besitzt auf Grund künftiger Nanotechnologie mit weiter verringerten Spurbreiten noch Entwicklungspotenzial (vgl. Übersicht in Tab. 15/5). Zur Jahreswende 2012/2013 zeigte sich bereits: Von den Formaten in Tab. 15/5 hat sich das LTO-Format durchgesetzt. Während SDLT und SAIT nicht weiterentwickelt wurden, ist das proprietäre Jaguar-Format nach wie vor einer der technologischen Impulsgeber für die Weiterentwicklung des LTO-Formats. Im Labor war es 2010 gelungen, 35 TBytes auf einer Cartridge zu speichern. Mittlerweile wurde dieser Wert im Jahr 2020 im Labor auf 580 TBytes pro Cartridge erhöht. Erreicht wird dieser Wert wesentlich durch einen Wechsel von Bariumzu Strontiumferrit (SrFe) als Datenträger. Als fernes Entwicklungsziel wird 1 PetaByte pro Cartridge angestrebt, u. a. durch die Verwendung von Epsilonferrit (ε-Fe2O3) in der Magnetschicht. Das Jaguar-Format wird in der Praxis gern dort eingesetzt, wo neben dem üblichen magnetband-schonenden Streaming auch magnetband-schonender Start/Stopp-Betrieb und höhere Datenraten bei den Bandlaufwerken gefordert sind. Seit 2018 ist die 6. Generation des Jaguar-Formats auf dem Markt, das seit Generation 4 die Einteilung des Magnetbandes in Partitionen ermöglicht. Erreicht werden die Leistungssteigerungen u. a. durch ein neues Encoding NPML (Noise Predictive Maximum Likelyhood) und verbesserte sog. TMR-Magnetköpfe (Tunneling MagnetoResistive). Möglicherweise werden wegen einer rasant fortschreitenden Entwicklung der Technologie beim Jaguar-Format geplante Generationen übersprungen und nur noch 8. und 9. Generation realisiert. Für die Jaguar-Generation 9 beispielsweise ist das TS1170 als Implementierung geplant, mit einer nativen Speicherkapazität von 40 TByte und einer beachtlichen Datenrate von bis zu 1000 Mbyte/s unkomprimiert. Der LTO-Standard hat bereits ab LTO-5 gleichfalls eine Partitionierung der Cartridge eingeführt und mit dem Long Term File System (s. nachfolgende Beschreibung) umgesetzt. Somit ist das Long Term File System eine Art verbindendes Element zwischen beiden Aufzeichnungsformaten und erleichtert den Umgang mit beiden. Was das LTO-Format betrifft, wurde mittlerweile die LTO-Ultrium-Roadmap bis zur Generation 12 mit einer zu erwartenden bereits korrigierten unkomprimierten Speicherkapazität
994
15 Digitale Tonsignalspeicherung
von bis zu 144 TByte pro Cartridge erweitert. Ein Wechsel von Barium- zu Strontiumferrit soll auch hier die Speicherdichte vervielfachen und auf diese Weise die Magnetbandentwicklung bis zur 12. Generation vorantreiben. Aber statt wie gewohnt gibt es bei der aktuell von mehreren Herstellern verfügbaren Generation LTO-9 nur eine Steigerung der bisherigen Speicherkapazität um 50 %, was sich natürlich auch auf die Leistungsfähigkeit nachfolgender Generationen auswirken wird. So speichern LTO-9-Magnetbänder unkomprimiert 18 TByte an Daten pro Cartridge bei einer Datenrate von 400 Mbyte/s. Ermöglicht wird das u. a. durch eine Erhöhung der Anzahl der Spuren von 6656 (LTO-8) auf 8960 auf dem Magnetband durch neuartige Magnetköpfe. Für einen magnetband-schonenden Umgang mit der Cartridge wird das Cartridge Memory (MIC) auf einen Wert von 32 kByte erhöht. Der oben beschriebene aktuelle Stand im Jahr 2022 zeigt eine gewisse Vergleichbarkeit der Leistungsfähigkeit des Jaguar-Formats der Generation 6, implementiert im TS 1160 mit 20 TByte Speicherkapazität und einer Transferrate von 400 Mbyte/s mit der ebenfalls oben beschriebenen 9. Generation von LTO (LTO-9). Long Term File System (LTFS) Das LTO-5 und alle künftigen LTO-Formate nutzen für die Speicherung von Daten das LTFS der Firma IBM, das über das LTO-Programm frei verfügbar ist und von der Website kostenlos heruntergeladen werden kann [LTFS]. Als LTFS-Highlights werden angegeben: –– Direkter Zugriff und Verwaltung von LTO-5/6-Bandlaufwerken, Tape Libraries und ihren Inhalten. –– LTFS-Standard beinhaltet auch das Lesen, Schreiben und den Austausch von beschreibenden Metadaten auf LTO-5/6-Tape-Cartridges. –– LTFS-Standard ermöglicht Tagging, d. h., die Kennzeichnung von Files mit beliebigem Text, und ermöglicht dadurch intuitive Suche auf Cartridges und in Library-Inhalten. Allerdings etwas ungewohnt im Audio- und Videobetrieb: Die Cartridge muss nach dem Einlegen dem System gemeldet („gemountet“) werden. Das Einteilen in Partitionen und die Datenorganisation in Form einer Baumstruktur auf dem Magnetband (Filesystem) ähneln der Datenstruktur einer Magnetplatte. Konkret wird die Tape-Cartridge als Datenträger (Volume) in zwei logische Partitionen aufgeteilt. Am Bandanfang befindet sich die Partition 1, die sog. Index Partition mit dem Inhaltsverzeichnis der Cartridge und den Vorschau-Files (LowRes, z. B. MP3). Im Anschluss daran folgt die Partition 2, die sog. Data Partition. In dieser Partition befindet sich der eigentliche Content (HighRes-Files), z. B. in Form von WAVE- oder BMF-Files mit ihren audiovisuellen Inhalten (Abb. 15/14). Wird nun eine auf diese Weise beschriebene LTO-5-Cartridge in das Laufwerk eingelegt, liest das System das Inhaltsverzeichnis von der Index Partition. Mit dieser Inhaltsinformation kann dann gezielt und schnell auf den adressierten Content zugegriffen und dieser wiedergegeben werden. Mit einer beschriebenen LTO-5-Cartridge könnte man beispielsweise auch an einem NLE-(Non Linear Editing)-System, das für LTFS-Volumes geeignet ist, mit einem dort vorhandenen LTO-5- oder LTO-6-Laufwerk sofort weiterarbeiten.
15.1 Digitale Tonaufzeichnung
995
Eine andere Anwendungsmöglichkeit für das LTFS besteht z. B. darin, dieses über LTO5/6-Cartridges in Archivspeichersysteme zu importieren. Dort werden aber inzwischen auch Festplattenlaufwerke sehr erfolgreich eingesetzt. In beiden Fällen sind besondere Strategien zur Datensicherung zu entwickeln (s. auch Kap. 15.3).
Abb. 15/14. Beispiel eines einfachen LTFS Volumes (IBM / The LTO Program).
15.1.7 Magnetplattenaufzeichnung Die Magnetplatte ist bei der digitalen Tonaufzeichnung im Umfeld von Workstations und PC-Lösungen das meistgenutzte Speichermedium. Ein Festplattenlaufwerk (Hard Disk Drive, HDD) ist ursprünglich ein ferromagnetischer Speicher der Informationstechnik. Die Festplatte heutiger Bauart wurde bereits im Jahr 1973 von IBM vorgestellt. Erstmals sind der Zugriffsarm, die Schreib-/Leseköpfe und die Magnetscheiben gemeinsam in einem geschlossenen Gehäuse untergebracht. Der Ausgleich des statischen Luftdrucks ist lediglich über ein hochwirksames Staubfilter möglich. Das Entwicklungsprojekt dieser historischen Festplatte trug die Nummer „3030“ – dies war auch die Artikel-Nummer einer unter dem Namen „Winchester“ bekannt gewordenen Handfeuerwaffe; die umgangssprachliche Bezeichnung Winchester-Platte für alle Platten dieser Bauart war somit geboren. Die ersten Winchester-Platten hatten einen Durchmesser von 14 Zoll (35,84 cm) und eine Speicherkapazität von 30 bis 100 Mbyte. Platten dieser Größe waren für die Tonaufzeichnung in Bezug auf Kapazität und Geschwindigkeit noch wenig geeignet. Für ein digitales Stereosignal mit 16 Bit-Linearaufzeichnung und 48 kHz Abtastrate wird für 90 min Aufzeichnungsdauer immerhin 1 GByte Speicherplatz benötigt (1 GByte = 103 Mbyte = 109 Byte). Bei aktuellen Festplatten gibt es dieses Kapazitätsproblem nicht mehr: Sie erreichen mittlerweile Kapazitäten von mehr als 1 TByte (1 TByte = 103 GByte) mit Datenraten von 130 Mbyte/s und eignen sich somit bereits zur linearen HDTV-Aufzeichnung. Die physikalische Größe einer Harddisk wird als Formfaktor in Zoll (“) angegeben und entspricht in etwa dem jeweiligen Plattendurchmesser. Der Trend geht kontinuierlich zu immer kleineren Festplatten; gebräuchlich sind Formfaktoren von 5,25“ bis herunter zu 0,85“. Server und leistungsfähige Workstations nutzen in der Regel 5,25“- und 3,5“-Festplatten, Laptops meistens 2,5“-Disks und portable Geräte wie MP3-Player häufig 1,8“-Platten.
996
15 Digitale Tonsignalspeicherung
1“-Festplatten werden unter der Bezeichnung MicroDrives (als Konkurrenten der CompactFlash-Karte) in handlichen Reportagegeräten, Laptops und in Digitalkameras eingesetzt. 15.1.7.1 Aufbau und Funktion Im Gegensatz zu einer Wechselplatte ist die Winchester-Platte fest in ihr eigenes Gehäuse und Laufwerk eingebaut (Abb. 15/15). Es gibt Wechselfestplatten des Winchester-Typs, die als komplettes Systemlaufwerk ausgetauscht werden können und im Produktionsbereich u. a. als Zwischenspeicher für den schnellen Wechsel zwischen Produktionssystemen dienen.
Abb. 15/15. Festplatten-Laufwerk.
Die Festplatte besteht aus mehreren, als Plattenstapel übereinander drehgelagerten „Platterns“. Diese sitzen auf einer Spindel und werden von einem gemeinsamen Elektromotor angetrieben. Die meist vier (bis zu zwölf) Platten eines Laufwerks bestehen zur Reduzierung von Wirbelströmen aus hochwertigen Aluminiumlegierungen und bei den kleineren Bauformen wegen der besseren Stabilität und Wärmeleitfähigkeit in zunehmendem Umfang aus speziell gehärtetem Glas oder Keramikmaterial mit extrem glatten Oberflächen. Die anfangs noch über 2 mm und mittlerweile ab Formfaktor 2,5“ unter 1 mm dicken Platten sind beidseitig hartmagnetisch beschichtet und arbeiten nach ähnlichen Aufzeichnungsmethoden wie bei Magnetbändern. Anfangs hatten sie reine Eisenoxydbeschichtungen, später weniger als 1 μm dicke Kobaltschichten. Barium-Ferrit war für die sog. Senkrechtaufzeichnung sehr erfolgreich, bis im Vakuum mittels Kathodenzerstäubung noch stabilere Legierungen aus Kobalt, Platin und Chrom als Dünnfilm aufgebracht werden konnten. Eine relativ junge Aufzeichnungstechnik ist AFC (AntiFerromagnetically Coupled), eine Dreischicht-Technik, bei der zwischen zwei magnetischen Metallfilmen aus jeweils einer Kobalt-Platin-Chrom-Bor-Legierung ein nicht magnetischer Ruthenium-Layer von nur 6 Ångström (= drei Atomlagen) Dicke liegt. Das bewirkt eine erhebliche Steigerung der Schreibdichte und eine Stabilisierung der aufgezeichneten Bits bei wesentlich höheren Datenraten und Plattendrehzahlen. Die Platten rotieren je nach Leistungsbereich in der Regel mit 4.000 bis 15.000 U/min. Die frühere Kugellagerung der Plattenachse ist mittlerweile wegen der höheren Lebensdauer und geringerer Geräuschentwicklung durch Flüssigkeitslager abgelöst. Auf Grund der großen Packungsdichte und der hohen Rotationsgeschwindigkeit sind Laufwerkskonstruktionen mit eigenen thermostatisch geregelten Kühlvorrichtungen in der Überlegung – mit dem Ziel einer noch weiteren Steigerung von Kapazitäten und Lebensdauerzyklen. Zu hohe Betriebstemperaturen können die statistische Lebensdauer einer Festplatte von 3 bis 5 Jahren erheblich reduzieren.
15.1 Digitale Tonaufzeichnung
997
Die Schreib-/Leseköpfe für jede Oberfläche einer Festplatte sitzen auf dem drehbar gelagerten „Kopfkamm“, dem Aktuator. Ein Linearmotor nach Tauchspulenprinzip bewegt diesen Aktuator, der Ähnlichkeit mit dem Arm eines analogen Plattenspielers hat. Die aerodynamisch geformten Köpfe gleiten auf einem Luftpolster von nur 10 bis 20 nm, was die Abstandsverluste zwischen Magnetträger und Magnetkopf stark reduziert. Zum Größenvergleich: ein Haar ist etwa 3000 nm und ein Zigarettenrauchpartikel etwa 300 nm dick. Festplatten sind wegen der geringen Flughöhe der Köpfe erschütterungs- und schmutzempfindlich. Zum Schutz vor Erschütterungen beim Transport werden beim Ausschalten der Disk die Köpfe in einer Landezone außerhalb des Plattenrands geparkt. Für erschütterungsreiche Anwendungen, z. B. in tragbaren Camcordern, werden die Harddisks zusätzlich gekapselt und mechanisch gedämpft gelagert. Setzt ein Schreib-/Lesekopf, erschütterungs- oder verschleißbedingt, trotzdem auf einer Festplatte auf, kommt es zum Headcrash, d. h., zu „spanabhebenden“ Defekten auf der Plattenoberfläche. Dabei wird in der Regel auch der Kopf selbst zerstört und ein Teil oder die Gesamtheit der Daten auf dem Datenträger geht verloren. Eine regelmäßige Sicherung der Festplatten-Daten in Form eines Backups ist deshalb unerlässlich. 15.1.7.2 Controller, Codierung und weitere Entwicklung Der Disk-Controller, eine Steuerelektronik im Laufwerk, koordiniert die Abläufe. Er entzerrt die Zugriffe zeitlich mit Hilfe eines Zwischenspeichers, dem sog. Cache. Heutige Harddisks besitzen zur Ansteuerung aufwändige Elektronikbausteine, die im Prinzip eigenständige Mikroprozessoren sind, und verfügen über einen Cache-Speicher von 2 bis 16 Mbyte Kapazität, mit dessen Hilfe bei übergeordneter Organisation durch den Controller die Wartezeiten für das Schreiben und Lesen deutlich reduziert werden. Die mittlere Latenzzeit, die der Zeit für eine halbe Umdrehung des Plattenstapels im Laufwerk entspricht, ergibt sich bei 15.000 U/min zu etwa 2 ms. Ein Cache-Speicher verringert die Wartezeiten bei Schreib- und Lesezyklen durch Pufferung erheblich. Durchschnittliche Suchzeiten, die auch von der Datenstruktur abhängig sind, liegen heute bei ca. 3 bis 8 ms. Während Daten auf einem Magnetband nur sequenziell, also zeitlinear geschrieben und gelesen werden können, sind auf einer Platte für einen schnellen Zugriff zwei Dimensionen (horizontal und vertikal) zur non-linearen Adressierung vorhanden (Abb. 15/16). Die Platten werden in kreisrunden Spuren (tracks) adressiert, und diese sind wiederum in Sektoren unterteilt. Werden mehrere Platten zu einem Plattenstapel übereinandergestellt, bilden die Spuren mit gleichem Radius einen Zylinder. Auf die Information eines Zylinders kann elektronisch ohne mechanische Magnetkopfbewegung besonders schnell zugegriffen werden. Beim Beschreiben einer Festplatte empfiehlt es sich daher, die Informationsblöcke kontinuierlich mit minimalen Kopfbewegungen abzulegen. Ein Sektor entspricht einem Block beim Magnetband. Infolge der zwei Dimensionen ist der Zugriff auf Daten bei Platten wesentlich schneller als bei bandförmigen Speichern. Platten werden deshalb auch als sekundärer Arbeitsspeicher eines Computers eingesetzt, wenn der implementierte Arbeitsspeicher nicht ausreicht. Magnetbänder dagegen werden für die Datensicherung und Archivierung verwendet und müssen – wie bereits erwähnt – auf diesem Gebiet mit den optischen Speichermedien konkurrieren.
998
15 Digitale Tonsignalspeicherung
Abb. 15/16. Schematischer Aufbau einer Festplatte.
Die Plattengeometrie hat zur Folge, dass die Bitlängen auf den äußeren Spuren länger als auf den inneren sind, da die Platten mit konstanter Drehzahl (Constant Angular Velocity, CAV) rotieren. Besondere Schreibalgorithmen steuern die Schreibfrequenz in Abhängigkeit vom Spurradius, um so die Speicherkapazität zu erhöhen. Auf diese Weise werden bei gleichem Winkel nach außen hin immer mehr Sektoren untergebracht, und folglich lassen sich ohne weitere Kopfbewegung mehr Daten unterbringen. Man spricht vom Zoned Bit Recording (ZBR). Die Zoneneinteilung geschieht bereits bei der Fertigung. Die Spureinstellung der Magnetköpfe besorgt ein winkelstellender Linearmotor mit der Genauigkeit von etwa einem Zehntel des Spurabstands. Er bekommt seine Informationen entweder von den Servospuren einer Servo-Oberfläche der Festplatte oder direkt aus den Datenspuren. Zur thermischen Justage (thermal calibration) überprüft das Laufwerk etwa alle 10 Minuten mit Hilfe der Lesespannung seine Spureinstellung. Dieser Vorgang dauert nur Bruchteile einer Sekunde. Während dieser Zeit können jedoch keine Daten gelesen oder geschrieben werden, was bei Echtzeitanwendungen zu Problemen führen kann und bei digitalen Audioworkstations berücksichtigt werden muss. Bei einem Festplattensystem wird die Umsetzung der Quellen- in eine passende Kanalcodierung durch den Hard Disk Controller erledigt. Nach der ECC (Error Correction Coding) nutzt er die historisch ältere MFM-Codierung oder die neueren RLL-Verfahren, z. B. RLL (1,7) und RLL (2,7). Beim Formatieren einer Festplatte wird deren Organisation vom Controller festgelegt. Die kleinste Einheit ist ein Sektor, in der Regel mit einer Gesamtlänge von 512 Bytes, mit einer fortlaufenden Sektor-ID, den Daten und deren Fehlerschutz. Mehrere Sektoren werden zur kleinsten logisch ansprechbaren Einheit, dem Cluster, zusammengefasst. Der physikalische Speicherort der zu einer Datei gehörenden Cluster wird im Inhaltsverzeichnis der File Allocation Table (FAT) des Dateisystems einer Harddisk angegeben. Die FAT arbeitet nach der Verkettungstechnik, um jeden freien Speicherplatz zu nutzen. Große Datenmengen können auf diese Weise sehr effektiv in sequenziellen Blöcken verarbeitet werden, während kleine Datensätze fragmentiert, d. h., sehr ineffektiv, auf diversen Sektoren in unterschiedlichen
15.1 Digitale Tonaufzeichnung
999
Zylindern verteilt sein können, so dass der Zugriff mit erheblichen Kopfbewegungen verbunden ist. Daher sollten Platten nach gewissen Nutzungszeiten defragmentiert werden, um stark fragmentierte Dateien wieder in zusammenhängende Speicherbereiche zu überführen. Zu Beginn wurden in Winchester-Laufwerken induktive Schreib-/Leseköpfe verwendet, was einen Kompromiss der Schreib- und Leseleistung bedingte. Das änderte sich Anfang der 1990er-Jahre mit der MR- und GMR-Technologie, die mit integrierten Schreib-/Leseköpfen sogar ein direktes „read-after-write“ ermöglichen. Bei der Plattenherstellung gelang der Sprung von der Eisenoxyd- zur Dünnfilmbeschichtung. Den Wechsel in kleinere Formfaktoren und damit billigere Laufwerke ermöglichte die Einführung von RAID-(Redundant Array of Independent Disks)-Architekturen. PRML-Encoding in 3,5“-Laufwerken trieb die Miniaturisierung weiter voran und 1999 folgten die 1“-Mikrodrives mit 340 Mbyte Speicherkapazität, die bis heute auf 8 GByte gesteigert werden konnte. Weitere Steigerungen in der Aufzeichnungsdichte sind zu erwarten. Durch Erwärmung der Magnetisierungsträger beim Schreiben (Thermally Assisted Recording / TAR oder Heat Assisted Magnetic Recording / HAMR) wird versucht, deren Größe von zurzeit 8 nm auf 2 nm zu reduzieren. Aus wirtschaftlichen Gründen werden sich die Hersteller von Festplatten vermutlich auf 2,5 Zoll beschränken und derartige Laufwerke in verschiedenen Leistungsklassen anbieten. Workstations und Server nutzen dann hochwertige und daher teure Enterprise- oder FC-/ SCSI(SAS)-HDDs (Standard: 10.000 oder 15.000 U/min, 320 Mbyte/s, 900 GByte) mit neuer AFC-Technologie für einen robusten 24h/7d-Dauerbetrieb. Durch die fortschrittliche Senkrechtaufzeichnungstechnik (Perpendicular Recording) werden auch kostengünstigere Hard Disk Drives mit ähnlicher Leistungsfähigkeit verfügbar. Die mit IDE-Laufwerken vergleichbaren preiswerten SATA-HDDs (7200 U/min, 160 Mbyte/s, 4 TByte) arbeiten nach der konventionellen MR-Technologie. Sie sind allerdings nur für einen 8-Stunden-Betrieb pro Tag ausgelegt. Mittlerweile stellt sich heutzutage bei Anwendungen immer wieder die Frage, eine HDD oder eine SSD (vgl. Kap. 15.1.13.3) zu verwenden. Es gibt HDDs, die bekanntlich auf magnetischer Plattenspeicherung beruhen und in der Regel in 2,5 und 3,5 Zoll mit bis zu 8 TByte verfügbar sind. Die SSD dagegen, beispielsweise mit 4 TByte, baut auf Solid-State-Technologie, hat also keine beweglichen Teile wie die HDD und ist deshalb besonders schnell und unempfindlich gegen Erschütterungen. Die SSD ist ein Flash-Speicher mit endlicher Lebensdauer, was sich durch entsprechendes Speichermanagement mildern lässt. Allerdings ist die SSD im Vergleich zur HDD deutlich teurer bei geringerer Speicherkapazität. Es wird folglich auf die Anwendung ankommen, welche Technologie zum Einsatz kommt. Beispielsweise werden daher bei Laptops gerne SSDs eingesetzt, während bei Desktops aktuell beide Speicherarten verwendet werden, z. B. für ein schnelles Hochfahren des PCs einen SSD-Speicher. Darüber hinaus gibt es noch die eher seltenen Hybridlaufwerke (SSHDs) mit HDD im TByte- und SSD im GByte-Bereich, die ähnlich dem Formfaktor einer HDD in 2,5 oder 3,5 Zoll realisiert sind.
1000
15 Digitale Tonsignalspeicherung
15.1.8 Optische Aufzeichnung Begonnen hat die kommerzielle optische Massenspeicherung mit der Bildplatte, auf der Bild und Ton allerdings noch analog gespeichert waren. Der Abstand zwischen magnetischen und optischen Datenträgern bezüglich Speicherkapazität und Transferrate ist seither zum Vorteil des magnetischen Prinzips größer geworden. Wegen der benötigten Abkühlzeiten für gerade geschriebene Bits arbeitet die optische Technik mit geringeren Drehzahlen als die magnetische Technik. Eine weitere Folge der Materialerwärmung bei den optischen Techniken ist die größere lineare Ausdehnung der Bits und deren hieraus resultierende physikalisch/chemische Beschaffenheit. Auch die Volumenpackungsdichte ist bei magnetischen Bandträgern höher, da deren Windungen direkt aufeinander liegen. 15.1.8.1 Optische Speicherverfahren Die Information optischer Speichermedien wird berührungslos abgetastet. Ein durch Blenden begrenzter Laserstrahl (Halbleiter- oder Gaslaser) wird durch Linsen auf die Informationsebene des Speichermediums fokussiert. Die Informationsebene ist zur Sicherheit nicht an der Oberfläche angeordnet, sondern in das Speichermedium eingebettet oder von einer transparenten Schutzschicht überdeckt. Eine fotoempfindliche Elektronik tastet entweder den reflektierten oder den durch das Medium hindurchgehenden Laserstrahl ab und entscheidet mittels einer Schwellwertschaltung, welcher Bitzustand der Lichtintensität zuzuordnen ist. Sowohl bei reflektierenden als auch bei transmittierenden Speichern wird der Laserstrahl auf eine Bezugsebene, die als „Land“ bezeichnet wird, fokussiert (Abb. 15/17). Fällt nun eine abtastseitige Erhebung, die – von der Rückseite einer industriell gepressten Informationsschicht aus betrachtet – als „Pit“ (Vertiefung) bezeichnet wird, in den Bereich des fokussierten Laserstrahls, dann wird wegen der auftretenden Streuung nur noch ein Teil des Lichts reflektiert. Dieser Intensitätsunterschied wird für die Darstellung der logischen Grundzustände ausgewertet. Reflektierende Speicher weisen auf der dem Laserstrahl gegenüberliegenden Seite eine Schicht auf, die meist durch Aluminiumbedampfung einer Kunststoffplatte aus Polycarbonat erzeugt wird. Zweiseitig reflektierende Speicher werden durch Rücken-an-Rücken-Montage von zwei Einzelplatten miteinander verklebt. Auch transmittierende Speicher können zweioder mehrseitig aufgebaut werden, da sich die jeweils nicht benutzte Schicht im stark defokussierten Teil des Laserstrahls befindet und deshalb den Lichtdurchtritt nicht beeinflusst. Read Only Memory – ROM Nur-Lese-Speicher (Read Only Memory) werden üblicherweise direkt bei der Herstellung des Speichermediums beschrieben. Die Information wird wie bei der CD-DA oder der CD-ROM als Oberflächenrelief beim Spritzguss eingepresst. Davor wird im Masteringprozess von einem Mastertape eine Pressmatrize erzeugt (vgl. Kap. 15.2). Write Once Read Multiple – WORM Diese Datenträger sind nur einmal beschreibbar und mehrfach lesbar.
15.1 Digitale Tonaufzeichnung
1001
Beim Schreibverfahren durch „Pit-Erzeugung“ wird eine vorformatierte, nicht-transparente Schicht aus organischem Farbstoff an den informationstragenden Stellen zerstört, so dass eine darunter liegende reflektierende Schicht sichtbar wird, und somit Pits und Lands unterschieden werden können. Beim Verfahren durch „Bubble-Erzeugung“ wird ein formatiertes, wärmeempfindliches Substrat auf der Oberfläche des Mediums erhitzt. Dabei entstehen Blasen, die das Laserlicht beim Lesen der CD diffus reflektieren. Read Write Erase – RW Ein Verfahren, bei dem mehrfach gelesen, geschrieben und gelöscht werden kann, ist das thermisch, magnetisch und optisch wirkende Verfahren, wie es die MOD (Magneto Optical Disk) verwendet. Bei diesem Verfahren ändern im Speichermedium befindliche Elementarmagnete ihre Ausrichtung unter Einwirkung eines magnetischen Zugfelds an den Stellen, an denen das Laserlicht auftrifft und das Medium auf eine Mindest-Temperatur erwärmt (CurieEffekt). Die Information bleibt bis zum erneuten Aufheizen auch ohne äußeres Magnetfeld gespeichert. Wird das Medium beim Lesevorgang mit polarisiertem Laserlicht bestrahlt, so ist das Reflektionsverhalten an seiner Oberfläche abhängig von der Ausrichtung der Elementarmagnete an der jeweiligen Stelle. Die Polarisationsebene des auftreffenden Strahls wird je nach Orientierung der beleuchteten Magnetdomäne um einen festen Winkel gedreht. Befindet sich die phasenempfindliche Auswertelogik auf der gleichen Speicherseite wie der Laser, spricht man vom Kerr-Effekt. Bei der Durchlichtauswertung handelt es sich um den FaradayEffekt. Das Phasenwechselverfahren überführt die in einem optischen Speichermedium befindlichen Speicherpartikel vom amorphen in den kristallinen Zustand; nach diesem Prinzip ändert sich das Reflexionsverhalten z. B. bei der CD-RW (ReWritable). Der amorphe Zustand besitzt einen geringeren Reflexionsfaktor und einen höheren Absorptionsgrad als der kristalline Zustand; daher kann das Phasenwechselverfahren sowohl für reflektierende als auch transparente Speichermedien eingesetzt werden. Bei allen Read-Write-Erase-Verfahren kann der Datenträger für eine begrenzte Anzahl von Wiederholungen durch Energiezufuhr gelöscht und neu beschrieben werden. 15.1.8.2 Optische Aufzeichnungsverfahren In der Regel basieren die heute angebotenen optischen Speicher auf kreisförmigen Kunststoffscheiben. Die Aufzeichnung kann in Form von konzentrischen Ringen erfolgen, vergleichbar mit magnetischen Platten. Der überwiegende Teil verwendet jedoch eine Aufzeichnung in einer spiralförmigen Spur, ähnlich der Tonspur einer Schallplatte. In der Informationsspur werden zur Codierung der beiden logischen Zustände konstante geometrische Bit-Längen verwendet. Die aufgezeichneten Daten setzen sich in der Regel aus Bytes zusammen, die in Blöcken organisiert sind, vergleichbar den Sektoren herkömmlicher magnetischer Speicher. Numerische Apertur (NA) Die Numerische Apertur (NA) ist ein wichtiger Parameter bei optischen Abtastsystemen und beschreibt das Maß für die wellenlängenabhängige Bündelungsfähigkeit paralleler Licht-
1002
15 Digitale Tonsignalspeicherung
strahlen und damit für das geometrische Auflösungsvermögen eines schreibenden oder abtastenden Licht- bzw. Laserstrahls. Sie ist auch ein Äquivalent zur Blendenöffnung in fotografischen Objektiven. Eine hohe NA ermöglicht eine bessere Auflösung, was jedoch auf Kosten einer schlechteren Feldtiefe (Schärfentiefe) geht. Durch die Wellenlängenabhängigkeit der NA wird die minimale Größe der Datenelemente auf einem optischen Datenspeicher bestimmt. Je kürzer die Wellenlänge des Lichts, desto höher ist die mögliche Datendichte. Constant Angular Velocity (CAV) Das Verfahren der konstanten Winkelgeschwindigkeit zeichnet gleich große Informationsmengen in gleichen Winkelsegmenten auf, vergleichbar den Sektoren der Harddisk. Dies bedeutet, dass die inneren Sektoren eine wesentlich höhere Speicherdichte aufweisen als die äußeren. Der Vorteil liegt in der konstanten Drehzahl des Antriebssystems und der einfachen Adressierbarkeit von Informationsblöcken. Constant Linear Velocity (CLV) Die verfügbare Speicherfläche wird effizienter genutzt, wenn die Informationsmenge mit gleichmäßiger Dichte in der Spur aufgezeichnet wird. In diesem Fall ist die Relativgeschwindigkeit zwischen Schreib-/Lesekopf und Speichermedium konstant. Die Drehzahlen für den inneren und äußeren Teil der Spiralspur sind daher unterschiedlich. Diese Drehzahl muss bei jedem Zugriffswechsel über mehrere Spuren hinweg erneut eingestellt werden, was zu relativ hohen Zugriffszeiten führen kann. Hinzu kommt, dass die Sektoradressierung aufwändiger ist. Diesen Nachteilen steht ein drastisch erhöhtes Speichervolumen durch die optimale Speicherdichte vorteilhaft gegenüber. Universal Disk Format (UDF) Das Universal Disk Format ist ein von der OSTA (Optical Storage Technology Association) entwickeltes und standardisiertes plattformunabhängiges Dateisystem. Es wird vor allem für optische Platten verwendet und löst nach und nach das [ISO 9660]-Format ab. [UDF] wurde als [ISO 13346] normiert und ist auch unter dem Namen [ECMA-167] bekannt. Prinzipiell ist UDF für alle RW- und ROM-Medien einsetzbar, kann von den meisten Betriebssystemen gelesen werden und ist eine leistungsfähige Alternative zum veralteten FAT-Dateisystem.
15.1.9 Compact Disc Die CD wurde 1982 als Nachfolgerin der analogen Nadelton-Schallplatte („Schwarze Scheibe“) eingeführt. Mittlerweile gilt sie als ein großer Erfolg in der elektronischen Konsumgüterbranche, der auch auf die optimale Kooperation der Entwickler und der Plattenindustrie zurückzuführen ist. Leider gibt es eine verwirrende Vielzahl von Derivaten, weshalb die hier näher betrachtete Audiovariante auch als CD-DA (Digital Audio) bezeichnet wird. Die CD-DA ist im nicht öffentlichen [Red Book] spezifiziert und die wichtigsten Eigenschaften sind als [IEC 60908] standardisiert. Die Audiodaten werden mit einer Abtastrate von 44,1 kHz, 16 Bit linearer Quellencodierung und 2-kanalig aufgezeichnet. Die Datenrate beträgt 1,411 MBit/s.
15.1 Digitale Tonaufzeichnung
1003
15.1.9.1 Beschreibung Die CD ist eine Kunststoffscheibe mit einem Durchmesser von 12 cm, einer Dicke von 1,2 mm und einem 15 mm großen Mittelloch. Vor der Toninformation befinden sich, nicht weit vom Mittelloch, der Lead-In- und am äußeren Rand der Lead-Out-Bereich. Für die eigentliche Tonaufzeichnung steht der Programmbereich zwischen den Durchmessern 50 bis 116 mm zur Verfügung. Die Information befindet sich in einer spiralförmigen Spur mit einer Steigung von nominal 1,6 μm. Abgetastet wird die CD, anders als eine Schallplatte, von innen nach außen mit einer konstanten Lineargeschwindigkeit (CLV), die in einem Bereich von 1,2 bis 1,4 m/s liegen darf. Die Drehzahl variiert zwischen 200 und 500 U/min und bewirkt somit eine auf der gesamten CD-Fläche gleich große Speicherdichte. Die Spur besteht aus Stellen ohne Vertiefung, dem sog. „Land“ und aus den von der Rückseite in die 1,2 mm dicke durchsichtige Polycarbonatscheibe eingeprägten Vertiefungen, den sog. „Pits“ (Vertiefungen). Diese haben eine Tiefe von typisch 0,12 μm (Abb. 15/17).
Abb. 15/17. Schichtaufbau der CD.
Auf die informationstragende Rückseite des Pressrohlings wird eine ca. 50 nm dicke Reflexionsschicht aus Aluminium aufgedampft. Darüber befindet sich ein Schutzlack von maximal 10 μm, und auf diesen wird das „Label“ gedruckt. Die Disc ist auf der rückwärtigen Seite mechanisch sehr empfindlich und sollte daher nicht mit ungeeigneten Mitteln beschriftet oder beklebt werden. Die Pits sind Träger der Information. Sie haben eine Breite von 0,5 μm und Längen von ca. 0,8 bis 3 μm. Die kleinste Dateneinheit ist das Kanalbit, dessen logischer Wert „Eins“ durch einen Übergang von Land nach Pit bzw. umgekehrt repräsentiert wird. Abb. 15/18 zeigt die bei der CD-DA bzw. bei der CD-ROM verwendete Codierung im Blockdiagramm. Die Pits liegen in der sich an die EFM-Modulation anschließenden NRZ(I)-Codierung vor und enthalten die digitalen Informationen. Zur Fehlerkorrektur wird Redundanzbildung und Codespreizung mittels CIRC (Cross-Interleaved-Reed-Solomon-Code) angewendet, wodurch eine hohe Sicherheit gegen Zufalls- und Bündelfehler (burst error) erreicht wird. Bei der CD-DA werden jeweils 98 Datenrahmen bzw. Frames zu einem Block, hier auch als Sektor bezeichnet, zusammengesetzt. Insgesamt sind bei der CD-DA bis zu 250 Fehler pro Sekunde korrigierbar.
1004
15 Digitale Tonsignalspeicherung
Die Kontrollbits ergeben 8 Zusatzdatenkanäle und werden mit P bis W bezeichnet. Der P-Subchannel kennzeichnet den Beginn eines Audio-Tracks. Es können maximal 99 Tracks auf einer CD-DA untergebracht werden. Der Q-Subchannel enthält je nach Modus Tracknummer und Programmzeitdaten, den EAN-Code (Europäische Artikel-Nummer) oder den ISRC (International Standard Recording Code). Bei reinen Audio-CDs werden Subchannel R bis W des Kontrollworts nicht genutzt.
Abb. 15/18. Blockdiagramm der CD-Codierung.
Die optische Abtastung der CD erfolgt durch den Polycarbonatträger hindurch von unten durch gebündeltes Laserlicht. Der Abtastlaser wird durch einen Aktuator auf der Spiralspur geführt. Hierzu kann ein Linear- oder Rotationsantrieb dienen. Den prinzipiellen Strahlenverlauf bei der Laserabtastung zeigt Abb. 15/19. Das zur Abtastung notwendige kohärente Licht eines Klasse-1-Halbleiter-Lasers mit 780 nm Wellenlänge wird über einen semitransparenten Spiegel, eine Sammellinseneinheit (Kollimator) und über ein Objektiv auf die Pitstruktur der CD fokussiert. Mit 0,8 μm Durchmesser trifft der Laserstrahl auf die Oberfläche des Polycarbonats. Die Fokussierung und Nachführung des Brennpunkts auf der Pitstruktur verlangt die Einhaltung sehr enger Toleranzen durch präzise mechanische Regelungsvorgänge in zwei Ebenen. Der Laserstrahl wird von der Pit-/Land-Struktur in unterschiedlichem Grad reflektiert und gelangt zurück durch den halbdurchlässigen Spiegel und über einen Strahlteiler auf vier der Auswertung dienende Fotodioden. Hieraus werden neben dem eigentlichen Datensignal auch Signale für die Scharfeinstellung und die Spurführung abgeleitet. Neben der 1-Strahl-Methode gibt es noch die aufwändigere 3-Strahl-Methode, die durch die Aufteilung in Haupt- und zwei Hilfsstrahlen Signale für die Steuerung des Abtastsystems gewinnt. In der nachfolgenden Tab. 15/6 sind die wichtigsten Eigenschaften der CD im Vergleich zu ihren Nachfolgern – der DVD mit rotem, bzw. HD-DVD und Blu-ray mit blauem Laserlicht – zusammengefasst.
15.1 Digitale Tonaufzeichnung
1005
Abb. 15/19. CD-Abtasteinheit – Prinzip eines 1-Strahl-Lasersystems.
Tab. 15/6. Disc-Typen im Überblick. Type
CD
DVD
Blu-ray
HD-DVD
Single Layer [GByte] Dual Layer [GByte] Laserwellenlänge [nm] Dicke [mm] Spurabstand [μm] Numerische Apertur
0,7 780 1,2 1,6 0,45
4,7 8,5 635 0,6 0,74 0,6
23/25/27 50 405 0,1 0,3 0,85
15/20 30/32 405 0,6 0,4 0,65
15.1.9.2 CD-R Die CD-R (CD Recordable), die auch unter dem Namen CD-WO (Write Once) bekannt ist, lässt sich nur einmal beschreiben und ist im [Orange Book Teil II] spezifiziert. Beim meist verwendeten Speicherverfahren brennt ein Laser Löcher in eine Dünnfilmschicht. Beim sog. Dye-Polymer-Verfahren wird in einer gefärbten Schicht mittels 10-facher Laserleistung durch das Brennen eines Pits der organische Farbstoff zerstört und somit an dieser Stelle der Brechungsindex verändert. Beim Lesen der Information kommt es dadurch zur Dämpfung bzw. Streuung des Laserstrahls. Die CD-R besteht, ähnlich wie die CD-DA, aus einem Polycarbonat-Substrat, das die Trägerscheibe bildet, einer reflektierenden Schicht und einer oberen Schutzschicht, sowie einer Oberflächenbeschichtung, auf der sich Label bzw. Titelfeld befinden. Zwischen Trägermate-
1006
15 Digitale Tonsignalspeicherung
rial und Reflexionsschicht liegt die organische Farbschicht, das sog. Organic Dye, in das die Information geschrieben wird. Abb. 15/20 zeigt den Aufbau. Im Unterschied zur CD ist bei der CD-R im Trägermaterial noch eine spiralförmige Spurrille zur Führung des Lasers eingeprägt. Diese Führungsspur hat eine Breite von 0,6 μm und einen Spurabstand von 1,6 μm. Zur Drehzahlregelung beim Schreibvorgang ist dem spiralförmigen Verlauf eine sinusähnliche Auslenkung mit einer Frequenz von 22,05 kHz überlagert. Aufgezeichnet werden kann auf die CD-R mit speziellen digitalen Tonrecordern oder per Computer mit geeigneter Brennsoftware in Verbindung mit einem CD- oder DVD-Brenner. Beschrieben wie eine CD-DA, besitzt die CD-R ähnliche Eigenschaften wie eine gepresste CD und kann deshalb auf den meisten Playern abgespielt werden. Probleme wegen der schlechteren Reflexion gibt es nur bei wenigen CD- und DVD-Geräten. Die CD-R mit ihren Kapazitäten 74 min bei 650 Mbyte und 80 min bei 700 Mbyte kann aber auch wie eine CD-ROM benutzt werden. Die Audiodaten werden dann im [UDF]- oder [ISO 9660]-Fileformat aufgezeichnet. Bei Schreibgeschwindigkeiten, die ein Vielfaches des Nominalwertes betragen, ist es wichtig, dass Recorder und Medium aufeinander abgestimmt sind. Zur Qualitätssicherung sollte das Brennresultat unbedingt mit einem Analysator überprüft werden. Die CD-R ist kratz-, wärmeund lichtempfindlich und wegen ihrer relativ kurzen Lebensdauer von 5 bis 10 Jahren kein Tonträger für das Langzeitarchiv.
Abb. 15/20. Schematischer Aufbau der CD-R.
15.1.10 Super Audio CD Ca. 15 Jahre nach Markteinführung der CD wurde eine hochkapazitive Weiterentwicklung vorgestellt in Form der SACD. Bei der SACD wird die DSD-(Direct Stream Digital)-Technologie verwendet. Dabei kommt ein 1-Bit-Delta-Sigma-A/D-Wandler mit einer Abtastrate von 2,8224 MHz zum Einsatz (vgl. Kap. 12.3.22). Der so erzeugte Datenstrom wird direkt auf einem SACD-Masterrecorder aufgezeichnet. Wegen der auf Puls-Dauer-Modulation (PDM) basierten 1-Bit-Technologie von DSD ist der Datenstrom außerordentlich präzise, da Quantisierungsund Filterungsprozesse weitgehend entfallen können. Auf der Wiedergabeseite sind klangmindernde Interpolations- und Antialiasingfilter, wie sie bei der herkömmlichen CD erforderlich sind, nicht mehr nötig. Die obere Grenzfrequenz wird bei DSD von 20 kHz auf 100 kHz mit einem Dynamikumfang von 120 dB im
15.1 Digitale Tonaufzeichnung
1007
Hörbereich erweitert. Mit dem SBMD-(Super Bit Mapping Direct)-System ist eine Downkonvertierung von DSD in alle gängigen Formate möglich, u. a. in das 16 Bit/44,1 kHzFormat der CD. Um Speicherplatz auf der SACD zu sparen, kommt das verlustlose Datenkompressionsverfahren DST (Direct Stream Transfer) mit einer typischen Datenkompression von 2:1 zum Einsatz. So können 74 Minuten einer DSD-Zweikanal-Stereoversion und eine DSD-5.1-Kanal-Audioversion – kombiniert mit Text- und Grafikinformationen – auf einer single-sided 12 cm-SACD untergebracht werden. Das Active Copyright Management System (ACMS) soll den hochqualitativen DSD-Ton schützen, so dass er nur exklusiv auf SACD- und nicht auf Standard DVD-ROM-Laufwerken wiedergegeben werden kann. 15.1.10.1 Aufbau und Eigenschaften Es sind drei SACD-Typen im nicht öffentlichen [Scarlet Book] (scarlet = scharlachrot) spezifiziert: –– Die einschichtige (single-layer) Disc besteht aus einer einzigen High-Density-(HD)Schicht mit 4,7 GByte Speicherkapazität. –– Die doppelschichtige (dual-layer) Disc enthält zwei dieser HD-Schichten mit einer Gesamtkapazität von 8,5 GByte. –– Die Hybrid Disc ist wohl der am meisten verwendete Typ. Sie setzt sich aus einer HDSchicht und einer [Red Book]-kompatiblen CD-Schicht mit 780 Mbyte zusammen, die die Wiedergabe mit herkömmlichen CD-Playern ermöglicht. Die oben liegende CD-kompatible Schicht wird dabei von unten durch die darunter liegende halbdurchlässige HDSchicht abgetastet (Abb. 15/21).
Abb. 15/21. Schichtaufbau und Leseprinzip einer hybriden SACD.
Wie bei einer Dual Layer DVD wird die SACD aus zwei 0,6 mm dicken Polycarbonat-Scheiben zur Dicke einer konventionellen CD verklebt, mit einem Schutzlack versehen und mit dem Label bedruckt. Zuvor wird der obere CD-DA-Teil praktisch wie eine CD gepresst. Der untere HD-Teil dagegen bedarf einer wesentlich feineren Pressung und wird halbtransparent metallisiert, um sowohl die große Datenmenge unterzubringen als auch für die CD-Layer-Abtastung durchlässig zu sein. Tab. 15/7 zeigt die wichtigsten Daten im Überblick.
1008
15 Digitale Tonsignalspeicherung
Tab. 15/7. SACD-Daten im Überblick. Parameter
CD Red Book kompatibler Layer
SACD Layer
Reflexion Kapazität [GByte] Laserwellenlänge [nm] Numerische Apertur Spurabstand [μm] Kanalbitlänge [μm] Min. Pit/Land-Länge [μm] Lineare Geschwindigkeit [m/s] Kanalbitrate [Mbit/s] Höchste EFM Frequenz [MHz] Innerer Datenbereichsradius [mm] Äußerer Datenbereichsradius [mm] Nutzerdatenkapazität [GByte]
voll 0,7 780 0,45 1,6 0,28 0,83 1,21 4,321 0,72 25 37,5 / 58 0,78
halb durchlässig 4,7 650 0,60 0,74 0,133 0,40 3,49 26,16 4,36 24 38 / 58 4,7
15.1.10.2 Datenorganisation, Kanalcodierung und Fehlerschutz Der CD-Layer einer hybriden SACD erfüllt den Red-Book-Standard einer CD-DA. Beim HD-Layer wird als ECC (Error Correction Code) ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die Mächtigkeit des Codes reicht aus, um mindestens fünf Bytefehler in jeder Reihe und acht Bytefehler in jeder Spalte zu korrigieren [ECMA-267].
Abb. 15/22. Filesystem einer SACD.
Der Datenbereich beinhaltet das Filesystem, den Master-TOC (Table Of Content), den 2-KanalStereo-, den Mehrkanal- und einen optionalen Datenbereich. Die beiden Tonbereiche besitzen eine identische Basisstruktur. Die SACD unterstützt zwei Arten des Zugriffs: –– über die hierarchische TOC-Struktur ähnlich wie bei der CD-DA –– über das [UDF]- bzw. [ISO 9660]-Filesystem ähnlich wie bei einer CD-ROM.
15.1 Digitale Tonaufzeichnung
1009
Die Struktur der Directory des HD-Layers zeigt Abb. 15/22. Die Files MASTER.TOC, 2_CH.TOC und M_CH.TOC korrespondieren mit dem Master-, dem 2-Channel-Area- und dem MehrkanalTOC, die TRACK-Files entsprechend. Die Spezifikation der SACD im Scarlet Book ist praktisch identisch mit der DVD in Bezug auf Dateisystem, Sektorgröße, Fehlerkorrektur und Modulation. Die SACD befindet sich daher in direkter Konkurrenz zur DVD-Audio. Beides sind jedoch Nischenprodukte.
15.1.11 DVD-Audio Als die DVD-Audio oder kurz DVD-A im Jahre 1999 als Abkömmling der 1996 eingeführten DVD (Digital Versatile Disc) spezifiziert wurde, plante das DVD-Konsortium mit ihr eine hochqualitative Nachfolge der CD-DA. Die DVD-A(udio) ist wie die DVD-V(ideo) ein Spezialfall einer DVD-ROM nach ECMA-267.
Abb. 15/23. Typen A bis D einer DVD-ROM.
15.1.11.1 Aufbau und Eigenschaften Mit einem Durchmesser von 12 cm und einer Dicke von 1,2 mm unterscheidet sich die DVD auf den ersten Blick nicht von einer CD. Die DVD besteht jedoch wie die SACD aus zwei aneinander geklebten Polycarbonatscheiben von jeweils 0,6 mm mit ein oder zwei Layern. Dadurch erhöht sich bei mehreren Schichten die Speicherkapazität von 4,7 GByte bis auf max. 17 GByte. Für höhere Speicherkapazität reduziert sich der Spurabstand der Spiralspur im Vergleich zur CD von 1,6 μm auf 0,74 μm und die minimale Pitlänge von 0,82 μm auf 0,4 μm. Es gibt nach ECMA-267 vier Typen von A bis D, wovon hauptsächlich der Typ A (mit nur einem Layer) für die Audioversion genutzt wird (Abb. 15/23).
1010
15 Digitale Tonsignalspeicherung
15.1.11.2 Datenformat Ähnlich wie bei der SACD wird als ECC ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die genaue Beschreibung findet sich ebenfalls in ECMA-267. Für Typ C und D gibt es zwei Abtastvarianten. Im PTP-(Parallel Track Path)-Modus werden beide Layer von innen nach außen gelesen. Im OTP-(Opposite Track Path)-Modus fokussiert der Laser am Ende von Layer 0 eine Ebene tiefer; der zweite Layer wird dann von außen nach innen gelesen. Dadurch ist die Unterbrechungszeit im Datenstrom geringer, weil der Laser nicht neu positioniert werden muss (vgl. Kap. 15.2.6.1). Lineare PCM ist der Quellencode-Standard; die maximale Datenrate pro Linear-PCMStrom beträgt 9,6 Mbit/s. Für längere Spielzeiten der Disc wird das Meridian Lossless Packing (MLP) zur verlustlosen Datenkomprimierung von typisch 2:1 verwendet. Tab. 15/8 zeigt die Toneigenschaften von DVD-A und DVD-V im Überblick. Tab. 15/8. Audioeigenschaften von DVD-V und DVD-A. Eigenschaften
DVD-V
DVD-A
Simultane Datenströme Kanäle / PCM-Ströme PCM-Abtastwerte [Bit] linear PCM-Abtastraten [kHz] Lossy Compression (Dolby Digital, DTS, MPEG-2) Lossless Compression (MLP) Speicherkapazitäten [GByte]
1 bis 8 1 bis 2 1 bis 8 1 bis 6 16, 20, 24 12, 16, 20, 24 48 / 96 44,1 / 48 / 88,2 / 96 / 176,4 / 192 Standard Optional nein ja 4,7 / 8.5 / 9,4 / 17
Auf einer DVD-ROM befindet sich, wie auch auf einer SACD, das Dateisystem [UDF]. Für eine DVD-Audio ist das Verzeichnis AUDIO_TS zwingend an erster Stelle vorgeschrieben. In ihm befinden sich die AOB-(Audio OBject)-Dateien mit linearem PCM-Ton von ein- bis mehrkanalig, auch Standbilder sind möglich. Für einen optionalen Videobereich kann auch ein Unterverzeichnis VIDEO_TS angelegt werden. In ihm befinden sich dann die VOB-(Video OBject)-Dateien mit den Videoinhalten. Mit den anderen Inhalten verhält es sich entsprechend. Eine Hybrid-DVD enthält sowohl einen Audio- als auch einen Videoteil. In der Praxis sind fast alle DVD-A-Discs hybride DVDs. Bei einer DVD-Video dagegen muss das Verzeichnis VIDEO_TS mit den VOB-Dateien an erster Stelle stehen. Je nach DVD-Player-Typ können alle oder nur diverse Untermengen davon abgespielt werden. Deshalb sind einige Hersteller dazu übergegangen, mit etwas Mehraufwand Discs herzustellen, die für jeden DVD-Playertyp eine passende Version enthalten und somit universell abspielbar sind. Das CPPM-(Content Protection for Pre-recorded Media)-System für den besonderen Kopierschutz ist, wie so manches System vor ihm, bereits entschlüsselt und damit praktisch unwirksam. Die DualDisc ist die Hybrid-Disc-Variante der DVD-A. Sie war jedoch von Anbeginn ein Problemfall, denn sie ist dicker als eine normale DVD. Sie wird von beiden Seiten abgetastet und der CD-Layer hält sich nicht an das Red Book. So gibt es mit verschiedenen Playern Kompatibilitätsprobleme; die Höhe der Disc wurde deshalb inzwischen geändert. Beim
15.1 Digitale Tonaufzeichnung
1011
DVD-Layer handelt es sich um eine DVD-5. Im Falle der Nutzung als DVD-A ermöglicht sie 65 Minuten Stereoton mit 24 Bit/96 kHz und zusätzlich 5.1-Ton mit 24 Bit/192 kHz. Wie bereits bei der SACD erwähnt, konkurrieren beide Formate in einer Marktnische miteinander. Um alle Variationen abspielen zu können, benötigt der Nutzer einen ganzen Gerätepark an Playern.
15.1.12 Magneto-Optical Disc Streng genommen gehört die magnetooptische Platte zu den Magnetschichtspeichern und ist in ihrer Organisation einer Festplatte sehr ähnlich. Es gibt einige digitale Tonrecorder und Audioworkstations, die sie für die Tonsignalspeicherung verwenden. Auch für den Austausch und zur Datensicherung wird sie eingesetzt. Wegen ihrer Langzeitstabilität ist sie sogar zur Dokumentenarchivierung zugelassen. Die aktuellen MODs gibt es in 5¼-Zoll(130 mm)-Technik für professionelle Anwendungen und in 3½-Zoll-(90 mm)-Technik für den Consumer-Markt. Während die MOD trotz ihrer wesentlich besseren Langzeitstabilität gegenüber CD und DVD bei Consumern nur ein Randdasein fristet, wird sie im Profibereich in automatischen Archiven mit Wechslersystemen, sog. Juke-Boxen, eingesetzt. Hier konkurriert die MOD mit hochkapazitiven Bandbibliotheken. Auch die MiniDisc ist eine MO und ist gemeinsam mit der CD-R im [Orange Book] standardisiert. Wegen ihrer umfangreichen Metadatenmöglichkeiten ist sie vielseitig einsetzbar. Die MiniDisc speichert das Tonsignal auf einer Spiralspur, verwendet jedoch das verlustbehaftete Datenreduktionsverfahren ATRAC (Adaptive Transform Acoustic Coding) und wird aus Akzeptanz- und Qualitätsgründen hier nicht weiter behandelt. 15.1.12.1 Aufbau und Funktionsweise Die 5¼-Zoll-Cartridge ist im Gegensatz zur 3½-Zoll-Cartridge beidseitig beschreibbar und muss im Betrieb gewendet werden, falls das MOD-Laufwerk kein zweites Lasersystem besitzt. Die Platte befindet sich, vor Staub und Fingerabdrücken geschützt, in einer Cartridge und wird erst im Laufwerk geöffnet. Wie so viele optische Platten besteht die MOD aus zwei zusammengeklebten Hälften. Der Schichtaufbau in Abb. 15/24 zeigt, dass die magnetische Informationsschicht einer MOD zum Schutz vor Korrosion und zur Verstärkung des magnetooptischen Effekts zwischen zwei dielektrischen Schutzschichten aus einer Silizium-Stickstoff-Verbindung eingebettet ist. Dahinter befindet sich eine Reflexionsschicht aus Aluminium für den Laser. Die magnetisierbare Schicht besteht in der Regel aus Legierungen mit Seltenen Erden, z. B. Gadolinium oder Terbium-Eisen-Kobalt. Die Schichten entstehen durch „Sputtern“ (Bedampfen im Vakuum). Das Trägermaterial ist Polycarbonat. Wie bei der CD-R werden auch hier bei der Fertigung Führungsrillen, sog. Pregrooves, mit zusätzlichen Informationen z. B. für die Steuerung der Geschwindigkeit eingeprägt. Bei der 14x-Generation, der letzten Version einer MOD mit 9,1 GByte Gesamtkapazität [ECMA-322], beträgt der Rillenabstand 0,652 μm.
1012
15 Digitale Tonsignalspeicherung
Abb. 15/24. Schichten einer MOD.
Abb. 15/25. Leseprinzip der MOD.
Das Prinzip der magnetooptischen Speicherung beruht auf dem Kerr-Effekt. Er bewirkt, dass sich die Schwingungsebene polarisierten Lichts bei der Reflexion an einer magnetisierten Schicht polaritätsabhängig dreht. Beim Schreiben wird das magnetische Material vom Laser (λ = 660 nm) so weit erhitzt, bis die Curie- oder Inversionstemperatur erreicht ist. Das Material ist dann unmagnetisch. Für aktuelle Anwendungen wird Material mit einer Curietemperatur von ca. 180° C gewählt. Beim Abkühlen erzwingt ein gleichzeitig dem Laser gegenüber angelegtes Magnetfeld die neu entstehende Magnetisierungsrichtung senkrecht zur Plattenoberfläche. Diese Methode verträgt bei Zimmertemperatur sehr hohe Koerzitivfeldstärken, ohne dass die Aufzeichnung beeinflusst wird. Nur wenn Hitze und Magnetfeld zusammenkommen, ändert eine MOD ihren Dateninhalt. Deshalb wird bei entsprechender Lagerung eine Datensicherheit von 30 bis 50 Jahren garantiert.
15.1 Digitale Tonaufzeichnung
1013
Das Leseprinzip der magnetooptischen Speicherung ist in Abb. 15/25 dargestellt. Es entspricht in vielen Punkten den üblichen CD-Speichern. Die Platten werden bei der Herstellung bereits vorformatiert. Physikalische Spuren (tracks) und Sektoren mit einer Länge von 512 bis 4096 Bytes, je nach Plattenkapazität, werden dabei als Platzhalter fest eingeprägt. Ähnlich wie bei Festplatten das Zoned Bit Recording (ZBR), wird bei den neueren magnetooptischen Platten das ZCAV-(Zoned Constant Angular Velocity)-Verfahren verwendet, d. h., die Anzahl der Sektoren pro Spur nimmt mit wachsendem Radius zu. Die Aufzeichnung erfolgt auf einer Spiralspur wie bei der CD, jedoch von außen nach innen; die Sektoren sind logisch, wie bei einer Festplatte, in konzentrischen Spuren organisiert. Der Zugriff ist deutlich langsamer. Neuere Betriebssysteme behandeln eine MOD wie eine Wechselfestplatte und unterstützen sie nativ. Auch bei der Kanalcodierung werden vorzugsweise RLL(1,7)- und RLL(2,7)-Codes und für den Fehlerschutz mehrstufige Reed-Solomon-Codes verwendet (s. hierzu [ECMA322]). Eine deutliche Verbesserung, ähnlich dem PRML-Verfahren bei der HDD, brachte das PRED-(Partial Response Edge Detection)-Verfahren. Dabei decodiert ein Viterbi-Decoder die Bitkombinationen des Lesesignals ebenfalls nach ihrer Wahrscheinlichkeit. Im Vergleich zu Festplatten sind die MOD-Schreib-/Leseköpfe schwerer und erfordern einen robusteren Positionier-Mechanismus; auch das macht sie im Zugriff langsamer. In der Regel benötigen MOD-Laufwerke für das Neubeschreiben zwei Plattenumdrehungen – eine zum Löschen der alten Daten und eine für das Schreiben der neuen Daten. Im Falle einer „Hinterbandkontrolle“ (Read After Write) ist sogar noch eine dritte Umdrehung zur Verifizierung der Daten erforderlich. Neue Materialien, die es ermöglicht hätten, die MOD-Informationen in mehreren Lagen übereinander zu schreiben, schafften den Sprung vom Labor in die Produktion nicht. Daher fehlt dem Medium MOD weiteres Entwicklungspotenzial. Einige Firmen propagieren nun für den Robotikeinsatz in Archiven cartridgekompatible Nachfolgeformate auf Basis des Phasenwechsel-Prinzips. So verwendet das UDO-(Ultra Density Optical)-Verfahren einen blauen Laser auf Basis der Blu-ray-Technologie und bietet eine Kapazität von 30 GByte mit Tendenz bis zu 120 GByte. Konkurrierend dazu gab es (ebenfalls mit Blu-ray-Technologie) noch das PDD-(Professional Disc for Data)-Verfahren mit 23,3 GByte, das der Hersteller nach der ersten Generation aber wieder vom Markt genommen hat. Für die hier genannten neueren optischen Verfahren werden Lebensdauern bei optimaler Lagerung (shelf life) von bis zu 50 Jahren angegeben. Ob die Zuverlässigkeit der klassischen MOD jedoch erreicht wird, ist fraglich. Tab. 15/9 zeigt die MOD im Vergleich mit anderen optischen Trägern. Revisionssichere WORM-Medien, lange Zeit eine Domäne der MOD, werden heute über standardisierte und zusätzlich kryptographisch gesicherte WORM-Bandlaufwerke realisiert. 15.1.12.2 Zukünftige Entwicklung In Zukunft könnte die holografische WO-Disk in Anwendungen zur Archivierung eine Rolle spielen. Sie soll eine Lebensdauer von über 30 Jahren haben. Es kündigen sich zwei Datenträgerformate an: –– „Tapestry“, ein proprietäres holografisches System ist bereits auf dem Markt. Es basiert, wie die MOD, auf einer robotikgeeigneten 130 mm-Cartridge. Einige Daten sind aus Tab. 15/9 zu entnehmen; das System ist vielversprechend. Eine zweite Generation mit
1014
15 Digitale Tonsignalspeicherung
800 GByte bei 80 Mbyte/s ist angekündigt, und eine weitere Generation soll mit 1,6 TByte bei 120 Mbyte/s folgen. –– In Konkurrenz steht das HVD-(Holographic Versatile Disc)-System in CD-Größe auf Basis einer 120 mm-Cartridge, die HDC (Holographic Disk Cartridge) entsprechend [ECMA-375]. Das System baut wesentlich auf der Technologie der HD-DVD auf und verspricht eine Kapazität von allerdings nur 200 GByte. Die Durchsetzungsfähigkeit dieses Formats wird angezweifelt. Tab. 15/9. Vergleich diverser optischer Speicher mit der MOD.
Online-Kapazität [GByte] Gesamtkapazität [GByte] Mittlere Transferrate (Lesen) [Mbyte/s] Mittlere Transferrate (Schreiben) [Mbyte/s] Mittlere Zugriffszeit [ms] Aufnahme verfahren Speichermedium Sektorgröße Laserwellenlänge [nm] Numerische Apertur Codierung Fehlerkorrektur
PDD
14x MOD
UDO
DVD-RW
Tapestry (WO)
23,3
4,6
15
4,7
300
23,3
9,1
30 (bis 120?)
4,7
300 (bis 1.600?)
9
4,5
6
4,1
20
11
4,5
6
4,1
20
110
25
25
200
Phase Change
MO
Phase Change
Phase Change
Holographie
Cartridge 2 kByte 405
Cartridge 4 kByte 660
Cartridge 8 kByte 405
DVD 2 kByte 660
Cartridge
0,85
0,7
0,7
0,65
0,65
RLL(1,7PP) Reed Solomon
RLL(1,7) Reed Solomon
RLL(1,7) Reed Solomon
EFMplus Reed Solomon
407
Obwohl holografische Speicher vom Prinzip her ein großes Zukunftspotenzial haben und immer wieder ins Gespräch gebracht werden, konnten sich die beiden Systeme bisher gegenüber der rasanten Entwicklung der Magnetband- und der Magnetplattentechnologie nicht durchsetzen. Ob es einen weiteren, äußerst kostspieligen Versuch geben wird, die hologra fische Technologie am Markt zu etablieren, bleibt abzuwarten.
15.1 Digitale Tonaufzeichnung
1015
15.1.13 Flash-Speicher Seit 1986 ist diese Speicherart mit stetig wachsender Verbreitung auf dem Markt. Sie ist Bestandteil des täglichen Lebens geworden in Anwendungen wie USB-Sticks, MP3-Playern, digitalen Kameras, mobilen Geräten usw. 15.1.13.1 Funktionsweise Der Flash-Speicher ist ein nichtflüchtiger Speicher, der elektrisch beschrieben und sektorweise oder vollständig gelöscht werden kann. Er entwickelte sich aus der EEPROM-Technologie (Electrically Erasable Programmable Read Only Memory), weshalb die Halbleitertechnologie der Flash-Speicherzellen der eines EPROMs ähnelt. Die FET-Transistoren des Flashspeichers besitzen jedoch eine wesentlich dünnere Tunnel-Oxidschicht zwischen Floating Gate und Source. Es gibt unterschiedliche Technologien; eine davon ist die ETOX-Zelle in Abb. 15/26. Beim Speichern eines Bits in einer Flash-Speicherzelle (hier als sog. NOR-Typ) fließen Elektronen über eine dielektrische Schicht (ONO, Oxide Nitride Oxide) auf das Floating Gate und werden dort gleichsam „eingefroren“. Die Information ist dann als Ladungsmenge auf dem Floating Gate gespeichert. Durch Anlegen einer hohen Spannung beim Löschzyklus durchtunneln die Elektronen die Oxidschicht; dies ist die Ursache dafür, dass die Zelle durch wiederholte Löschvorgänge kontinuierlich altert. Anfangs konnte nur ein Bit pro Zelle (SLC = Single Level Cell) gespeichert werden, doch mit der MLC-(Multi Level Cell)-Technologie lassen sich mittlerweile vier Bit pro Zelle potenzialabhängig speichern. Beim NAND-FlashTyp sind die Transistoren in Serie geschaltet, bei der NOR-Flash-Zelle parallelgeschaltet. Einige Hersteller setzen seit neuestem auf die TLC-NAND-Technologie (Triple Level Cell). Sie kann drei Bit pro Zelle speichern und ermöglicht eine 50 % höhere Speicherdichte als bei MLC. Die Speicherdichte von TLC liegt bei 32 Gbit bis 512 Gbit pro Chip und es werden acht diskrete Ladungsniveaus des Floating-Gate verwendet. Das bedeutet, dass Ladezustand und Auslesung der Bits kritisch sind. Deshalb liegen die Anforderungen für die Fehlerkorrektur um ein Vielfaches höher als die von Single-Level- und Multi-Level-Zellen.
Abb. 15/26. FlashSpeicherzelle.
1016
15 Digitale Tonsignalspeicherung
15.1.13.2 Flash-Filesystem und Kanalcodierung Flash-Speicher sind in einen oder mehrere Bereiche aufgeteilt, die als Partitionen bezeichnet werden. Eine Multi-Partitions-Architektur ermöglicht es, in der einen Partition Schreib-/ Lösch-Vorgänge auszuführen, während aus einer anderen Partition gelesen wird. Bei einem Speicher mit nur einer einzigen Partition muss dieses Multi-Tasking per Software emuliert werden. Innerhalb einer Partition ist der Speicher in Blöcke eingeteilt, wobei zwischen symmetrischem und asymmetrischem „Blocking“ unterschieden wird. Bei symmetrischer Blockbildung eines Flash-Speichers besitzen alle Blöcke dieselbe Größe. Bei asymmetrischer Blockbildung werden zusätzlich kleine Parameter-Blöcke gebildet, die typischerweise für einen Bootcode verwendet werden können. Eine Flash-Memoryzelle lässt das Programmieren vom Wert „Eins“ nach „Null“, aber nicht von „Null“ nach „Eins“ zu. Soll eine logische Null wieder in eine Eins umgeschrieben werden, wird daher zuerst der gesamte Block gelöscht. Das ist der Grund dafür, dass in der Regel neue Informationen in einen gerade nicht benutzten gelöschten Bereich geschrieben werden und der alte Bereich bis zu seiner „Entladung“ und anschließenden Löschung vor übergehend für ungültig erklärt wird. Auf Hardware-Ebene sind die zu speichernden Daten mittels ECC-Algorithmen geschützt. Man rechnet damit, dass ein nur statistisch erfassbarer Prozentsatz von Blöcken während der Lebensdauer des Flash-Memories ausfällt und für eine Speicherung nicht mehr genutzt werden kann. Diese defekten Blöcke werden per Software in einer Liste verwaltet; auch bei einem Ausfall der Betriebsspannung während des Schreibprozesses muss ein Filesystem für Datensicherheit sorgen. Die Erfahrung zeigt, dass jeder Block – bedingt durch die Alterung der Tunneloxidschicht – eine begrenzte Lebensdauer von etwa 105 Schreib-/Lösch-Zyklen hat. Um die Lebensdauer des gesamten Speichers zu erhöhen, werden deshalb per Software durch „Wear Leveling“ (Verschleiß-Nivellierung) die Schreib-/Lösch-Zyklen über den gesamten Speicher gleichmäßig verteilt. Per Software werden hierzu Caching-Strategien verwendet, die auch die Read-While-Write-(RWW)-Betriebsart sicherstellen; RWW bedeutet, dass während eines Schreibvorgangs gleichzeitig gelesen werden kann, ohne dass Informationen verloren gehen. Die Filesysteme für Flash-Speicher zeigen trotz vieler hersteller- und technologieabhängiger Unterschiede folgende Gemeinsamkeiten: –– einen API-(Application Programming Interface)-Layer, –– einen Filesystem-Kern, –– einen Block-Treiber für sektorbasierte Filesysteme und –– einen MTD-(Memory Technology Device)-Layer. Die Einteilung eines Flash-Filesystems in obige Layer bewirkt eine Modularität, die Betriebssystem und Applikation voneinander isoliert und den Einfluss von Flash-Systemvarianten auf das Filesystem minimiert. Ein Flash-Speicher ist dann wie eine Festplatte nutzbar und wird durch neuere Betriebssysteme bereits nativ unterstützt. Zuverlässigkeit Bei einem Wiederanlauf nach einem Ausfall der Betriebsspannung erkennt das Flash-System Datenfehler, die während eines Schreibvorgangs entstanden sind, entweder durch Statusbits
15.1 Digitale Tonaufzeichnung
1017
oder durch einen CRC-Check. Die Fehlerkorrektursysteme (ECC) der meisten Flash-Speicher sind in der Lage, strukturbedingt Einzelbitfehler zu erkennen und zu korrigieren. Da die Tendenz zu einer Multi-Level-Architektur und zu immer höheren Packungsdichten durch hochauflösende Maskenstrukturen („Lithografien“) geht, erweist es sich als zweckmäßig oder notwendig, auch Bündelfehler korrigieren zu können, sobald die Bitfehlerrate ansteigt. Diese Fehlerkorrektur wird in der Regel in einem dedizierten Memory-Controller durchgeführt, obwohl prinzipiell die Auswertung eines Error Correction Codes (ECC) auch per Software möglich wäre. Verwendet werden drei der meistbenutzten Algorithmen für die Fehlerkorrektur, nämlich die Codierverfahren nach Hamming-, nach Bose, Chaudhuri, Hocquenghem (BCH)- und nach Reed-Solomon. Sollten Bündelfehler als nicht mehr korrigierbar erkannt werden, besteht darüber hinaus die Möglichkeit, diese Blöcke zu sperren und als „Bad Blocks“ zu kennzeichnen. Bereits nach der Fertigung enthält ein Flash-System fehlerhafte und deshalb als nicht nutzbar gekennzeichnete Blöcke. Bei Auslieferung sollten mindestens 98 % der Blöcke funktionstüchtig sein. Ein Bad-Block-Zähler des Filesystems überwacht die Flash-Nutzung, bis ein Grenzwert und damit das Ende der Brauchbarkeit erreicht ist. 15.1.13.3 Flash-Karten und künftige Entwicklung 2007 waren „Flash-Memories“ noch in mindestens fünf wichtigen Bauformen als Speicherkarten erhältlich. Die SD-(Secure Digital)-Speicherkarte hatte bereits über 50 % Marktanteil erobert mit weiter steigender Tendenz und bei stark fallenden Investitionskosten. Andere Systeme wie CF-(CompactFlash)-Karte, MMC-(MultiMedia)-Karte, SMC-(SmartMedia)-Karte, Memory Stick u. a. teilten sich das restliche Marktsegment. Mittlerweile hat sich die SD-Karte mit über 80 % Marktanteil durchgesetzt und daneben ist nur noch die CF-Karte erwähnenswert. Für die Speicherung von Audio- und Videodaten ist besonders die SD-Karte interessant. Sie hat sich aus der etwa briefmarkengroßen MultiMedia-Karte entwickelt, besitzt dieselben Abmessungen mit 24 x 32 mm2 und ist mit 2,1 mm nur wenig dicker. Hinter dieser damals neuen Entwicklung steht ein kompetentes Firmenkonsortium, das sich auch um die Standardisierung kümmert. Die SD-Karte besitzt einen Schiebeschalter als mechanischen Schreibschutz und bietet die Möglichkeit zur Implementierung eines Kopierschutzes – CPRM (Content Protection for Recordable Media) – durch eine spezielle Verschlüsselungstechnik von A/V-Daten. Die normale SD-Karte ist standardmäßig wegen der maximalen Adressierbarkeit im Dateisystem FAT16 auf 2 GByte Kapazität begrenzt worden. Deshalb wurde der Standard durch weitere Speicherkarten ergänzt, z. B. zur Verwendung im FAT32-Dateiformat. SDHC (SD High Capacity) hat inzwischen seine zulässige Speicherkapazität von 32 GByte bei Datenraten von 45 Mbyte/s erreicht. SDXC (SD eXtended Capacity) mit möglichen 2 TByte liegt momentan bei 128 GByte und 95 Mbyte/s. Darüber hinaus lässt der Standard vier Klassen mit garantierten Mindestgeschwindigkeiten zu: Klasse 2 mit 2, Klasse 4 mit 4, Klasse 6 mit 6 und Klasse 10 mit 10 Mbyte/s. Die Klassennummern sind in einem nach rechts offenen Kreis auf den Speicherkarten aufgedruckt. Praktisch z. B. für die Anwendung am Computer sind auch SD-Karten mit USB-Anschluss.
1018
15 Digitale Tonsignalspeicherung
Mittlerweile ist bei SDXC-Karten eine maximale Speichergröße von 2 TByte möglich, wobei sich viele Hersteller aus preislichen Gründen auf 512 GByte beschränken. Nutzer, die Videos in 4K mit hoher Bitrate aufnehmen wollen und Kameras mit sehr schneller Serienbildfunktion verwenden, sollten eine schnelle SDXC-Karte wählen. Wobei SDXC-Karten bis zu einem gewissen Grad abwärtskompatibel sind. Ihr volles Potenzial entfalten sie beim Dateitransfer an einen PC allerdings nur in Kartenlesern mit USB 3.0 Standard. Eine Schreibgeschwindigkeit von mindestens 10 Mbyte/s ist bei aktuellen SD-Karten Standard, und Exemplare mit niedrigeren Geschwindigkeitsklassen sind nicht zu empfehlen und auch nicht günstiger. Für SDHC- und SDXC-Karten wurde mit Ultra High Speed (UHS) ein neuer Standard geschaffen. Die maximal mögliche Transferrate der SD-Karte wird dabei mit römischen Nummern bezeichnet, nämlich UHS-I, UHS-II und UHS-III. Dabei geht es um die Obergrenze fürs Lesen und Schreiben von Daten. UHS-I kann bis zu einer Geschwindigkeit von 104 Mbyte/s Daten übertragen. Für UHS-II liegt die Geschwindigkeitsgrenze bei 312 Mbyte/s und für UHS-III bei 624 Mbyte/s. Erkennbar ist die UHS-Klasse auf der SD-Karte mit einem großen U, das eine Zahl enthält. U1 hat eine Schreibgeschwindigkeit von mindestens 10 Mbyte/s, also denselben Wert wie die bisherige Klasse 10. Bei U3 steigt die Mindestschreibgeschwindigkeit auf 30 Mbyte/s. Damit eignet sich die Speicherkarte für 4K-Videoaufnahmen. Speziell für Videokamera-Speicherkarten existiert noch eine weitere Kennzeichnung. Dabei weist die Zahl auf die Mindestschreibgeschwindigkeit hin. V6 entspricht 6 Mbyte/s und kann damit Full-HD-Video unterstützen. V30 mit 30 Mbyte/s eignet sich zur Speicherung von 4K-Aufnahmen und die höchste Klasse V90 mit 90 Mbyte/s ist für 8K-Videodatenaufzeichnung für Highend-Kameras vorgesehen. Zusammen mit dem SDUC-Standard (SD Ultra Capacity) wurde im Jahr 2018 auch eine weitere Geschwindigkeitsklasse definiert: SD-Express. Sie steigert die Transferrate weiter und kommt auf maximal 985 Mbyte/s. Doch es gibt bisher noch keine SD-Karten, die diese Klasse unterstützen. Die miniSD wird nicht mehr gebaut und deshalb nicht näher beschrieben. Aber die neue microSD-Karte mit 11 x 15 x 1 mm3 kann mittels Adapter auch in miniSD-Anwendungen genutzt werden. Aktuell ist sie mit einer Kapazität von 64 GByte zu haben und eignet sich vor allem für den Einsatz in mobilen Endgeräten wie Mobiltelefonen und Tablet-PCs. Seit einigen Jahren gibt es eine interessante SD-Karten-Variante mit integrierter WLANFunktionalität, die es z. B. mit passender Software ermöglicht, die Bilder von der Kamera drahtlos zum Laptop zu übertragen. Unter dem Begriff „Eye Fi“ ist diese Speicherkarte mit 8 GByte Kapazität erhältlich. USB-Sticks dagegen sind zurzeit mit 256 GByte erhältlich, auch hier mit steigender Tendenz; es ist mit einer weiteren Verdopplung der Kapazität zu rechnen. Gerade im Zusammenhang mit A/V-Anwendungen ist daher eine Ausdehnung der maximalen Datenfilegröße über die 4-GByte-Grenze hinaus von Interesse. Ein wichtiger Aspekt bei der Verwendung von USB-Sticks für den schnellen Fileaustausch zwischen Computersystemen in sensiblen Bereichen darf hier nicht unerwähnt bleiben. Durch die besonders handliche Art bei der Anwendung sind USB-Sticks potenzielle Überträger von Schadsoftware wie Viren und Trojaner zwischen den verwendeten Systemen. Das sollte bspw. bei der Entwicklung von Sicherheitskonzepten beachtet werden.
15.1 Digitale Tonaufzeichnung
1019
Schreib- und Lesegeschwindigkeit moderner Flash-Medien liegen mittlerweile bereits in der Größenordnung von 45 Mbyte/s für das Schreiben und 95 Mbyte/s für das Lesen. Der Einsatz im Rundfunkbereich erfolgt z. B. in Camcordern oder in digitalen Reportagegeräten, die häufig wie ein Mikrofon mit eingebautem Digitalrecorder funktionieren und Aufzeichnungen von linearem oder auch datenreduziertem Ton ermöglichen. Als 1,8-, 2,5- und 3,5-Zoll-Solid-State-Disks (SSD) nähern sich die Kapazitäten der Halbleiterlaufwerke bereits einem TByte. Die NAND-Flashs beginnen in Notebooks und Servern die Festplatten zu verdrängen. Eine SSD hat keine beweglichen Teile und ist daher wesentlich schneller, stoßfester, leiser und auch leichter als eine klassische Festplatte. Durch stetig verbesserte Nutzungsstrategien im Controller der Speicherzellen der Laufwerke sind die Hersteller in der Lage, deren Lebensdauer zu erhöhen. Die SSD-Preise sind zwar deutlich gefallen, doch beeinflusst der höhere Preis ihre Konkurrenzfähigkeit gegenüber einer Hard Disk. Vom Betriebssystem werden die Solid-State-Disks wie Hard Disk Drives behandelt. Eine Kombination beider Speichertechnologien stellen die Hybrid Hard Drives (HHD) dar. Das sind Festplatten, die zur Beschleunigung und Entlastung der Disk mit einem bis zu 2 GByte großen Flash-Pufferspeicher (Cache) ausgestattet sind. Herkömmliche Flash-Speicher könnten in nicht allzu ferner Zukunft das Opfer einer neuen Speichertechnologie werden, die den (bereits in anderem Zusammenhang gebräuchlichen) Namen „PCM“ trägt. PCM bedeutet hier „Phase Change Memory“ und wird gerade in Labors der Nanophysik entwickelt, ist ca. 500mal schneller als Flashsysteme, wesentlich kleiner und hat nicht die durch Abnutzung vorgezeichnete Lebensdauergrenze der konventionellen Flash-Speicher. Die PCM-Technologie stellt mittlerweile einen günstigen und sehr schnellen nicht flüchtigen Speicher zur Verfügung mit enorm großer Skalierbarkeit, hoher Speicherdichte und großem Speichervolumen. Durch den dreidimensionalen Aufbau der PCM-Speicher lässt sich die Anzahl an Transistoren, die auf einen Chip passen, enorm steigern. PCM wird deshalb auch „Perfect RAM“ (PRAM) genannt, weil man Daten überschreiben kann, ohne sie vorher löschen zu müssen. Dies macht PCM sehr viel schneller als konventionelle Flash-Speicher und verbraucht auch weniger Energie. Außerdem ist die Haltbarkeit von PCM-Chips im Vergleich mit gegenwärtig verfügbaren Flash-Speicher-Chips wesentlich größer. Und bei einer Massenproduktion sind PCM-Chips voraussichtlich billiger. Aktuell werden daher im Endverbrauchermarkt z. B. bei Smartphones und hochkapazitiven USB-Sticks bereits nur noch die Standard-PCMs verbaut. Und seit Ende 2015 gibt es bereits Unternehmens-PCMs auf dem Markt, die sich für den Einsatz im Rechenzentrumsumfeld eignen.
15.1.14 Tonsignalrestaurierung und -erhaltung Historisches Audiomaterial wurde in den Archiven der Rundfunkanstalten, anderer Einrichtungen und im privaten Bereich in großer Menge gesammelt und wartet auf die Umsetzung in zeitgemäße, d. h. digitale Ton- oder Datenträger-Formate. Die Entscheidung, ob es sich dabei um sicherungswürdiges Material mit Repertoirewert handelt, wird wohl niemals einer technischen Apparatur übertragen werden können; hingegen stehen geeignete Mittel zur Verfügung, die mit Hilfe digitaler Signalverarbeitung eine qualitative Beurteilung des physischen
1020
15 Digitale Tonsignalspeicherung
Zustands und der akustischen Qualität des Archivmaterials in Hinblick auf eine anschließende technische Restaurierung ermöglichen. Der Markt bietet eine breite Palette an Lösungen für die Übertragung, von einfachen Geräten und Plug-ins für den privaten Gebrauch bis zu professionellen Lösungen [Johne, 2020]. Durch die technische Restaurierung wird das digitalisierte Archivmaterial in einen Zustand gebracht, der die Voraussetzungen schafft für eine weitere Nutzung des digitalisierten und anschließend restaurierten Archivmaterials beim Mastering (s. Kap. 15.2) und beim Einsatz im aktuellen Betrieb digitaler Tonarchive (s. Kap. 15.3) Bei der Restaurierung von gespeicherten digitalen Tonsignalen geht es in erster Linie darum, gestörte oder zerstörte Tonsignalanteile möglichst in den ursprünglichen Zustand zurückzuversetzen und gleichzeitig das Audiomaterial in die digitale Signalwelt – und das möglichst in einem zukunftssicheren Format – zu konvertieren. Eine Nachbesserung der klanglichen Eigenschaften über das zum Aufnahmezeitpunkt Authentische hinaus, z. B. durch Stereofonisierung, Herausrechnen des „Trichterklangs“ bei Plattenaufnahmen, nachträgliche Verhallung usw., sind Maßnahmen, die immer wieder heftige Diskussionen in klang-ästhetischer Hinsicht auslösen; sie werden deshalb an dieser Stelle nicht diskutiert. Es wurde an anderer Stelle (s. Kap. 15.1.4) bereits dargelegt, dass die digitale Tonsignalaufzeichnung, je nach Mächtigkeit der verwendeten Fehlerschutzcodes und dem Grad der Störung, Möglichkeiten bietet, defekte Abtastwerte neu zu berechnen, durch Interpolation zu verschleiern oder durch Stummschaltung in ihrer Störwirkung zu reduzieren. Auch analoge Tonsignale besitzen einen gewissen Grad an natürlicher Redundanz, die sich zur Reparatur einer gestörten Tonaufzeichnung eignet. Unabhängig davon, ob es sich um eine analoge oder digitale Aufzeichnung handelt, ist die intakte zeitliche und spektrale Umgebung eines gestörten Tonsignalteils eine wichtige Voraussetzung und der Schlüssel zu einem erfolgreichen Restaurierungsergebnis. Die rasch fortschreitende Entwicklung der digitalen Signalverarbeitung, vor allem die stetige Steigerung der Prozessorleistung bei gleichzeitig sinkenden Kosten, hat die Entwicklung und kontinuierliche Verbesserung von aktuellen Tonrestaurationssystemen ermöglicht. Heute finden sich Werkzeuge zur Tonsignalrestauration nicht nur im professionellen Bereich auf Basis von Workstations, sondern auch im semi-professionellen und privaten PC-Bereich. Oft sind durch Alterung des Aufzeichnungsträgers und dessen mechanische Beschädigung Teile des Tonmaterials in einem vorgefundenen schlechten Klangzustand. Ein Restaurierungsprozess beginnt daher mit der Analyse des Zustands des Tonträgers, des Tonsignals und der Lokalisierung der Fehlerstellen. Hierzu wird nach Stabilisierung der mechanischen Eigenschaften und nach Sicherstellung der Abspielbarkeit ein digitales Abbild, ein Image des historischen Tonträgers erzeugt. Die nachfolgenden Signalbearbeitungsschritte werden dann in der digitalen Ebene vollzogen. Die riesigen Mengen an zu restaurierendem Material lassen ein individuelles Abhören und die anschließende Fehlerauswertung jedes einzelnen Archivtonträgers meist nicht zu. Es wurden daher Systeme entwickelt, die eine weitgehende Automatisierung dieses Prozesses ermöglichen. Am Institut für Rundfunktechnik (IRT) wurde in Zusammenarbeit mit den öffentlich-rechtlichen Rundfunkarchiven ein Verfahren für die Analyse und Restaurierung von Tonmaterial auf Basis einer Workstation konzipiert, das unter der Bezeichnung
15.1 Digitale Tonaufzeichnung
1021
QUADRIGA (QUality from Analogue to Digital RIGorously Analyzed) bekannt wurde und als Vorbild für weitere moderne Restaurationssysteme gilt. Die Quadriga-Workstation erkennt bereits beim Erzeugen des digitalen Image-Audiofiles dessen Tonqualität und registriert die identifizierten Fehlerstellen im Tonsignal zur späteren Nachbearbeitung. Die automatische Analyse der Störsignale basiert auf der Erkennung von signifikanten zeitlichen und spektralen Eigenschaften des fehlerbehafteten Signals; in vielen Fällen ist dann auch eine automatische Restaurierung möglich. Da ein Automat in bestimmten Situationen zwischen Nutz- und Störsignal, z. B. Kastagnettenschlag und Knackstörung, nicht zu unterscheiden vermag, bleibt in solchen Fällen der Mensch eine unentbehrliche Kontrollinstanz. Folgende typischen Fehlerklassen lassen sich durch das Restaurierungssystem erfassen: –– beim Magnetband: Rauschen, Kopiereffekt, Vor- bzw. Nachechos, Gleichlauffehler, Magnetspaltschiefstellung bei der Aufnahme, beschädigte Magnetschichten, starker Abrieb der Magnetschicht, Bandrisse, Banddehnungen u. a., –– bei analogen Schallplatten: Rauschen, Kratzer, Verschmutzung und falsche Entzerrung bei der Wiedergabe, durch Exzentrizität des Mittellochs hervorgerufenes Jaulen (wow) u. a. Einige dieser Fehler können nur durch Abbruch der Überspielung und durch Wiederholung des Vorgangs nach der Fehlerbeseitigung behoben werden, z. B. bei Bandriss oder bei starkem Bandabrieb. Über- bzw. Untersteuerungen des Tonsignals, die zum Klippen bzw. zu niedrigem Quantisierungsgeräuschabstand führen, lassen sich durch Pegelkorrektur mit anschließender Wiederholung des Kopiervorgangs vermeiden. Mit einem sog. Declipper können Beschneidungen der Maximalamplitude bei digitalen Quellen bis zu einem gewissen Grad durch Berechnung des wahrscheinlichen OriginalSignalverlaufs in Verbindung mit einer Pegelabsenkung behoben werden. Darüber hinaus stehen auch Reparaturmodule für die Dekompression einer durch die Übersteuerung von analogem Bandmaterial entstandenen Kompression zur Verfügung. Stationäres Rauschen entsteht in der Regel bereits bei der Aufnahme durch thermische Effekte in den zur Anwendung gekommenen elektroakustischen Geräten oder auch durch die physikalische Beschaffenheit der benutzten magnetischen und mechanischen Trägermaterialien. Dieses Rauschen lässt sich relativ leicht durch einen sog. Denoiser oder Dehisser reduzieren, im Idealfall auch ganz entfernen. Grundlage des Verfahrens ist ein Noise Print, bei dem das Spektrum des Rauschens während eines kurzen nutzsignalfreien Aufnahmeausschnitts erfasst und vom Spektrum des Gesamtsignals subtrahiert wird. Je ähnlicher Nutzund Störspektrum werden, umso exakter müssen die Parameter beim Denoising eingestellt sein. Bei zu intensiver Parametrierung besteht die Gefahr des Signalpumpens, oder es treten Phasing-Effekte auf. Generell zeigt sich, dass breitbandige Störsignale schwieriger zu bearbeiten sind als impulshaltige Fehlersignale und einzelne Störtöne. Impulshaltige Störgeräusche, wie sie z. B. durch Kratzer und Dropouts bei einer Beschädigung oder Verschmutzung des Tonträgers entstehen, werden durch sog. Declicking entfernt. Vereinzelt auftretende Clicks werden in der Regel störender wahrgenommen als gleichmäßiges Rauschen. Im Vergleich der Spek-
1022
15 Digitale Tonsignalspeicherung
tren eines Clicks und des Nutzsignals fällt das Click-Spektrum zu hohen Frequenzen hin weniger ab (s. auch Kap. 12.2). Zur Beseitigung von Click-Fehlern wird in der Regel die betroffene Stelle gelöscht und aus dem benachbarten Nutzsignal durch einfache oder komplexe Interpolation ersetzt; dies ist in Abb. 15/27 im Zeitbereich dargestellt. Auch für die automatische Restaurierung von Dropouts gibt es spezielle Dropouter-Module.
Abb. 15/27. Declicking durch höhergradige Interpolation.
Die Anhäufung von Clicks mit vergleichsweise geringem Pegel und gleichmäßiger zeitlicher Verteilung im Nutzsignal wird als Knistern, sog. crackle, wahrgenommen. Es bedarf eines gegenüber dem Declicking modifizierten Verfahrens zur Reduzierung derartiger Störungen (Decrackling). Periodisch auftretende Kratzer (scratch) auf Vinyl- oder Schellackplatten lassen sich mit einem Descratcher automatisch eliminieren. Durch Reparaturfilter mit linearen Filterfunktionen im Zeit- und Frequenzbereich können quasistationäre Störsignale durch Entbrummen, das Dehumming entfernt werden. Die Reihenfolge bei der Anwendung der verschiedenen Restaurationsalgorithmen kann Einfluss auf das Ergebnis haben. Bewährt hat sich die Reihenfolge Declicking, Decrackling, Dehumming und eine anschließende Azimutkorrektur bei Magnetband. Die hier beschriebene in Echtzeit arbeitende Workstation ist modular aufgebaut und kann je nach Aufgabenstellung durch weitere Softwarekomponenten für das Remastering ergänzt werden; sie bietet z. B. hierfür auch frequenzgangwirksame Module, wie parametrische und linearphasige Entzerrer, an (vgl. Kap. 15.2.2.5). Tab. 15/10 fasst die verwendeten Ausdrücke für Restaurierungsmaßnahmen zusammen. Dass die Computer- und Speichertechnologien sich kontinuierlich weiterentwickeln, kommt auch den Workstations und PCs zugute, die für Restaurierungszwecke eingesetzt werden. So kann die oben erwähnte Quadriga-Workstation mittlerweile bis zu acht Geräte für die Digitalisierung von Archivträgermaterial in Echtzeit parallel betreiben, was den Digitalisierungsprozess großer Archive enorm beschleunigt und bezahlbar macht. Die gesteigerte Leistungsfähigkeit ermöglicht es aber auch, stets verbesserte Restaurierungsmodule in Echtzeit sowie lernende Restaurierungsprogramme zu nutzen. Der Rundfunk befindet sich auf
15.1 Digitale Tonaufzeichnung
1023
dem Weg zur „wohl temperierten“ Aussteuerung nach Lautheit [EBU R 128]. Auch für eine normgerechte Anpassung der Lautheit historischer Archivaufnahmen gibt es mittlerweile entsprechende professionelle Module. Tab. 15/10. Restaurierungsmodule, Begriffe für Magnetband und Vinyl. Begriff
Tonträger
Erläuterung
Azimut
Magnetband
cleaning program declick decrackle dehiss dehumm denoise descratch dethump dropout image, image material
Magnetband, Vinyl Vinyl Magnetband, Vinyl Magnetband, Vinyl Magnetband Magnetband, Vinyl Vinyl Vinyl Magnetband Magnetband, Vinyl
Korrektur des Frequenzgangs bei nicht senkrecht zum Magnetband stehenden Tonköpfen Restaurierungsprogramm Entfernen einzelner Klicks Entfernen von Knistern Entfernen von Rauschen Entfernen einzelner Töne, Entbrummen Entfernen von Rauschen Ersetzen zerstörter Abschnitte größerer Länge Entfernen tiefer Frequenzen kurzer Dauer Ausfüllen von Aussetzern digitales Abbild des zu bearbeitenden Tonsignals
Und die Entwicklung der Rechenleistung geht weiter rasant voran: Auf der Website der Bayerischen Akademie der Wissenschaften, die kontinuierlich Großrechner betreibt, die zu den weltweit schnellsten Computern zählen, findet sich ein Beitrag zu dieser Entwicklung der Rechenleistung von Computern innerhalb der letzten 30 Jahre. Verglichen wird dort die Rechenleistung des weltschnellsten Großrechners vor 30 Jahren mit der Rechenkapazität eines heute gebräuchlichen leistungsfähigen Smartphones. Ergebnis: Dieses leistungsfähige Smartphone besitzt die gleiche Rechenleistung wie der damals schnellste Großrechner der Welt. Bei dieser Entwicklung von Rechen- und parallel dazu Speicherleistung bot sich die Möglichkeit, z. B. die Vorzüge einer Quadriga-Workstation zur Digitalisierung von Tonträgern für eine Weiterentwicklung zunächst für hohe Datenraten bei der Digitalisierung von Videomagnetbändern und Videokassetten zu nutzen. Der heutige Stand der Technik machte es darüber hinaus sogar möglich, mit einer dafür weiter entwickelten Quadriga, Bildfilme mit ihrer extrem hohen Datenrate zu digitalisieren. Als Abfallprodukte dieser professionellen Entwicklung haben sich immer mehr Firmen auch den semi-professionellen Nutzern zugewandt. Auf diese Weise entstanden preiswerte Audio- und Klang-Restaurierungsprodukte, oft Cleaning Programs genannt, die meistens eine beachtliche Leistungsfähigkeit bieten. Hier ist ebenfalls ein Trend zur automatisierten Restaurierung zu beobachten. Der Nutzer kann sich von einem im System vorhandenen Restaurierungsassistenten führen lassen oder individuell die Vielfalt der Restaurierungsmodule (s. Tab. 15/10) weitgehend in Echtzeit nutzen. Auch die nicht professionellen Systeme gestatten das Einbinden zusätzlicher Modulsoftware. Für die Digitalisierung lassen sich meist die im PC bereits vorhandenen Möglichkeiten nutzen. Alternativ gibt es mittlerweile USB-Digitalisierer, -Plattenspieler und -Kassettenre-
1024
15 Digitale Tonsignalspeicherung
corder, die es weitgehend problemlos gestatten, Audiogeräte über USB-Schnittstellen an den PC anzuschließen. Integrierte Codecs dienen der Wiedergabe und Generierung von gängigen Formaten wie WAV (RIFF PCM), AVI, MP3 (MPEG Audio Layer III) u. a. Für die Erzeugung von Zieltonträgern stehen Verbindungen zu CD- oder DVD-Brennprogrammen zur Verfügung. Bei den auf dem Markt befindlichen Programmen sind in der Regel sowohl Restaurierungs- als auch Remastering-Elemente verfügbar, so dass neben der Säuberung des Tonsignals auch klangliche Verbesserungen erzielt werden können. Dem historisch informierten Anwender wird es auf diese Weise möglich sein, einem ästhetisch befriedigenden Klangeindruck näher zu kommen, ohne den authentischen Klang allzu sehr zu verfälschen. Andererseits kann von diesen Restaurierungsprogrammen heutigen Aufnahmen die Anmutung historischer Aufnahmen aufgeprägt werden. Bei einem Remastering alter Tonaufnahmen für einen authentischen Höreindruck des Ergebnisses ist entscheidend, dass die tonale Substanz und der Klangcharakter der Originalaufnahme erhalten bleiben, was eine historische Kenntnis von Originalklangbildern und Aufnahmeapparaturen voraussetzt. Die technische Entwicklung bleibt auch bei der Restaurierung historischen Archivmaterials nicht stehen. Trotz immer besserer Algorithmen und automatisierter Verfahren auf diesem Gebiet wird aber auch hier das menschliche Gehör stets das Maß der Dinge bleiben. Tonsignalerhaltung Nun stellt sich noch die Frage des Qualitätserhalts, z. B. in einem digitalen, audiovisuellen Archiv, im weiteren Umgang mit den, durch die Restaurierung qualitativ verbesserten, digitalen Tonträgern, auf denen die Tonsignale in Form von Zahlen vorhanden sind. Um diese bis hierher beschriebenen digitalen Trägermaterialien in ihrer guten Audioqualität für eine weitere Verwendung z. B. für das Mastering und für den Betrieb digitaler Tonarchive zu erhalten, bedarf es eines sorgfältigen Umgangs über einen längeren Zeitraum unter dem Aspekt „Rettung und Bewahrung des Kulturerbes“. Von herausragender Bedeutung ist dabei die stets aktuelle Spiegelung eines betrieblich genutzten Digitalarchivs. Dieses gespiegelte Digitalarchiv sollte aus Gründen der Datensicherheit, d. h. zur Vermeidung von Verlusten digitaler Archivinhalte, an einem sicheren, entfernten Ort betrieben werden. Kontinuierliche, systematische Qualitätskontrollen der digitalen Archivinhalte müssen vorgesehen werden. Falls deren Ergebnisse es erfordern, müssen rechtzeitig durchgeführte Sicherungskopien eine mögliche Verschlechterung der Datenqualität bzw. der Tonqualität der digitalen Tonsignale vermeiden. Des Weiteren spielt die Berücksichtigung eines geeigneten Raumklimas für den Archivbetrieb sowie äußere Einflüsse eine wichtige Rolle. Auch eine Risikoabschätzung muss erfolgen, um Schäden zu vermeiden, d. h. wertvolle Audioinhalte zu erhalten. Dazu gehören u. a. der Schutz vor möglichen Wassereinbrüchen und die präventive Abwehr von Brandgefahren. Eine ausführliche Beschreibung dieser Problematik einer Audiodaten erhaltenden Langzeitlagerung in audiovisuellen Archiven findet sich in Kap. 7.3.
15.2 Mastering Der Begriff „Mastering“ ist in der Zeit der konventionellen Schallplattenherstellung entstanden. Hauptsächliches Ziel war es seinerzeit, durch Anwendung technischer Kunstgriffe die
15.2 Mastering
1025
systembedingt begrenzten Möglichkeiten des elektro-mechanischen Nadelton-Verfahrens zu kompensieren. Dies betrifft insbesondere den Frequenzgang, die Aufzeichnung tiefer Frequenzen bei Stereosignalen (Elliptische Schrift) und den verwertbaren Dynamikumfang. Sachkundige „Mastering-Ingenieure“ hatten die Aufgabe, die Unzulänglichkeiten des Mediums Schallplatte auszugleichen. Hieraus entwickelte sich die Methode, einer gespeicherten Schallaufzeichnung durch vorhergehende klangliche Bearbeitung einen „letzten Schliff“ zu verleihen, der inzwischen auch bei allen anderen Tonträgern zu einem festen Bestandteil in der Produktionskette geworden ist.
15.2.1 Definition des Mastering Allgemein versteht man heute unter Mastering im Zusammenhang mit einer Audioproduktion die Vorbereitung eines Tonträgers (ggfs. auch Bild- und Tonträgers) zur Vervielfältigung. Dabei gilt es, möglichst sämtliche technischen und klanglichen Anforderungen des jeweiligen späteren Massenmediums (z. B. CD-Audio oder Streaming) zu berücksichtigen und ein geeignetes Master-Medium herzustellen, das von einem Presswerk oder Streamingprovider verarbeitet werden kann. CD-Presswerke wiederum verstehen unter dem Begriff „Mastering“ die Herstellung eines Glasmasters, also der Pressvorlage für die Vervielfältigung. Sie bezeichnen daher die Erstellung eines entsprechenden Audiomasters im Ergebnis als „CD-Pre-Master“. Mastering wird nicht nur bei der Herstellung von CDs angewandt. Die mediengerechte Klang- und Format-Optimierung spielt bei jeder Art von Tonträger-Vervielfältigung oder Distribution eine Rolle – das gilt für die klassische Vinylschallplatte (aus PVC, Polyvinylchlorid) ebenso wie für eine Audiodatei.
15.2.2 Technische und klangliche Aspekte Beim Mastering besteht letztmalig die Chance, technische Fehler vor einer Distribution zu erkennen und zu beseitigen. Zu diesen Fehlern gehören beispielsweise Dropouts, Phasenfehler, Brummstörungen, Gleichspannungsanteile, Clicks etc. Die meisten dieser Fehler können nur durch eine vollständige Abhörkontrolle erkannt werden. Daher muss die technische Kontrolle von erfahrenen Toningenieuren unter akustisch optimalen Bedingungen erfolgen. Eine weitere wichtige Aufgabe beim Mastering besteht darin, die abschließende Mischung einer Audio-Produktion klanglich zu optimieren. Ein Mastering-Ingenieur kann die Mischung unvoreingenommen beurteilen, um dann ein Maximum an Klangqualität und Wiedergabekompatibilität zu schaffen. Wichtig ist dabei, dass die Mischung auch auf weniger hochwertigen Abhörsystemen oder nach einer späteren Datenreduktion (z. B. für den OnlineMusikvertrieb) bestehen kann und nicht auffällig an Klangqualität verliert. Ziel ist es, das Endprodukt auf jedem Abhörsystem im Rahmen der gegebenen Möglichkeiten optimal zur Wirkung kommen zu lassen. Mitunter werden Tonträger zusammengestellt, deren Titel aus unterschiedlichen Studios stammen und somit unabhängig voneinander produziert wurden. Hier müssen die einzelnen
1026
15 Digitale Tonsignalspeicherung
Titel aufeinander abgestimmt und angepasst werden, damit das fertige Masterprodukt eine klangliche Einheit bildet. Der Hörer darf nicht durch differierende akustische Eigenschaften einzelner Titel innerhalb der Gesamtproduktion irritiert werden. Beim Mastering werden für die klangliche Bearbeitung spezielle Equalizer, Kompressoren und Limiter eingesetzt. Diese zeichnen sich vor allem durch hervorragende elektroakustische Eigenschaften (die Produktion soll schließlich nicht verschlechtert werden), sehr feinfühlig einstellbare Bedienelemente und gute Reproduzierbarkeit der Einstellungen, z. B. durch digitale Speicherung der Funktionsparameter, aus. 15.2.2.1 Formatierung Jeder Master muss definierte technische Voraussetzungen erfüllen, um sicherstellen zu können, dass später bei der Vervielfältigung oder in einem weiteren Encoding Prozess keine unerwarteten Probleme auftreten oder zeitraubende zusätzliche Arbeitsschritte erforderlich werden; hierzu gehört nicht zuletzt auch die Umwandlung in das jeweils spezifizierte Audioformat. Zu jedem Medium gibt es daher exakt einzuhaltende Regeln, wie ein Master für dieses Medium formatiert sein muss. 15.2.2.2 Pegelanpassung Es ist besonders darauf zu achten, dass charakteristische Instrumente oder Stimmen in einem ihnen angemessenen Pegel-Bereich liegen. Eine Pegelanpassung muss hierbei so ausfallen, dass musikalisch gewollte dynamische Besonderheiten (insbesondere in der E-Musik) erkennbar bleiben. Für CDs sollte das Programm-Material in seinem Maximalpegel knapp die Aussteuerungsgrenze (Full Scale) des Tonträgers (entspr. ≤ 0 dBFS) erreichen. Ein zu großer Sicherheitsabstand zur Aussteuerungsgrenze (Headroom) verschenkt Auflösung und damit Klangqualität. Master Files, die für digitales Streaming erstellt werden sollten einen True-Peak Level von −1dB nicht überschreiten, um Artefakte in der Weiterverarbeitung zu vermeiden. Generell gilt es hier auch die aktuellen Loudnessspezifikationen der Streaminganbieter zu beachten (vgl. Kap. 19.5). 15.2.2.3 Dynamik Die Bearbeitung der Dynamik hat unterschiedliche Aufgaben zu erfüllen. Es gilt, Differenzen in der Lautheit auszugleichen, um zu gewährleisten, dass eine Produktion im Idealfall ohne Nachregeln des Pegels abgehört werden kann. Gleichzeitig ist es erforderlich, die Originaldynamik eines Klangereignisses auf die beim Konsumenten umsetzbaren Dynamikverhältnisse zu verringern. Im Bereich der Unterhaltungsmusik ist die Dynamikbearbeitung ein wichtiges Stilmittel zur Erzeugung von „Druck“: ein Rockmusiktitel soll kompakt und wuchtig klingen. Die emotionale Wirkung dieser Art von Musik lässt sich durch die Wahl eines geeigneten Kompressortyps und durch dessen gekonnte Parametrierung dramatisch beeinflussen. Hier sind es oft nur kleine Variationen der Parameter, die den Gesamteindruck entscheidend verändern können.
15.2 Mastering
1027
Da im Hörfunk oft Wort- oder Musikbeiträge aus unterschiedlicher Herkunft und in nicht absehbarer Reihung zusammengestellt werden, kann es sinnvoll sein, den Lautheitseindruck einzelner Programmelemente für die Radio-Distribution zu koordinieren bzw. abzustufen. Es gibt in diesem Zusammenhang eine vereinzelt geübte Praxis, beim Mastering die Dynamik einer für die spätere Radio-Distribution bestimmten Sendung noch einmal über die im Hörfunkbetrieb eingesetzten Kompressoren oder Sendebegrenzer abzuhören. Auf diese Weise lässt sich die Lautheitswirkung im Ergebnis besser voraussagen (z. B. bei Werbespots, Trailern oder „Nachtmusiken“). Als problematisch erweist es sich in diesem Zusammenhang, wenn die Dynamik anspruchsvoller Radioprogramme am Ende der Übertragungskette zum Sender einer nivellierenden Modulationsaufbereitung ausgesetzt ist, die nicht auf die einzelnen Elemente des Programms Rücksicht nimmt. Trotz der Notwendigkeit und der möglichen Vorteile einer Dynamikbearbeitung, birgt diese aber auch die Gefahr in sich, eine nach allen technischen und klanglichen Regeln entstandene optimierte Musik-Abmischung im Nachhinein zu lädieren. Wird zu stark komprimiert, erreicht man das Gegenteil von dem, was erreicht werden soll: Die Musik klingt dumpf, verliert an Transparenz und Offenheit, und die Musikalität leidet. Es empfiehlt sich daher, beim Mastering während der Einstellprozesse die Bearbeitung regelmäßig mit dem ursprünglichen Original zu vergleichen. Wichtig ist dabei zu beachten, dass lautheitskorrigiert abgehört wird, um Fehleinschätzungen des Klangbilds durch Lautheitsgewinn zu vermeiden (s. auch Kap. 3.3). Seit aber nahezu alle digitalen Dienste die einzelnen Programme in der Lautheit einander anpassen, relativiert sich die Notwendigkeit des Einsatzes von Kompression um „lauter“ zu klingen. Gleichwohl kann diese titelweise Anpassung zu ungewünschten Effekten bei Werken mit sehr unterschiedlicher Dynamik innerhalb eines Werks führen. 15.2.2.4 Dither und Noise Shaping Häufig erfolgt das Mastering in einer höheren Auflösung als in der des eigentlichen Distributionstonträgers. Eine maximale Klangqualität beim Mastering-Prozess lässt sich dadurch erreichen, dass erst unmittelbar vor dem Erstellen des Masters die Wortbreite auf z. B. 16 Bit und 44,1 kHz Sampling-Frequenz (z.B. für die Audio-CD) reduziert wird. Um die Vorteile der höheren Auflösung beim Endprodukt nicht vollständig wirkungslos werden zu lassen, kommen bei der reduzierenden Umsetzung (truncation) verschiedene Dither- und Noise-Shaping-Methoden zur Anwendung. Die Auswahl des jeweiligen Verfahrens hängt vom Musikprogramm und der Erfahrung des Mastering-Ingenieurs bzw. Produzenten ab. 15.2.2.5 Remastering und Tonrestaurierung Unter Remastering wird die klangliche Überarbeitung von in der Regel älterem Audiomaterial verstanden. Oft wird eine Audioproduktion vor dem Remastering restauriert, um durch das Aufnahmeverfahren oder die Lagerung bedingte technische Störungen zu entfernen oder zu mindern. Es sollte stets überprüft werden, inwieweit der Originalcharakter der ursprünglichen Aufnahme durch Restaurationsmaßnahmen noch erhalten bleibt. Ein übertriebener Einsatz von Restaurierungswerkzeugen kann leicht zu Artefakten führen, welche die gesamte Bearbeitung in Frage stellen (vgl. Kap. 15.1.14).
1028
15 Digitale Tonsignalspeicherung
Es ist naheliegend, dass Produktionen auf Lack-Folie, Analog-Schallplatte, ¼-Zoll-Magnetband oder Lichtton-Material am häufigsten restauriert werden müssen. Jedes dieser Aufzeichnungsverfahren hat seine eigenen spezifischen Störungsmechanismen; die häufigsten Störsignale sind Brummen, Knacken, Knistern und Rauschen. Für jede dieser Störungen gibt es einschlägige Bearbeitungssoftware, mit der die Störungen reduziert oder eliminiert werden können (s. Tab. 15/10 in Kap. 15.1.14). 15.2.2.6 Analog oder digital? Eine vieldiskutierte Frage ist, ob ein Mastering-Prozess in der analogen oder in der digitalen Signalebene durchgeführt werden soll. Analoge Mastering-Werkzeuge kommen häufig dann zum Einsatz, wenn es gilt, der Produktion eine gewohnte, charakteristische Klangfarbe zu verleihen. Die in diesem Fall erreichten Ergebnisse werden in der Regel als angenehm und „warm“ empfunden. Beim technischen Aufbau einer analogen Mastering-Einrichtung ist größte Sorgfalt erforderlich, und es ist in jeder Beziehung und in jedem Detail darauf zu achten, dass die Signalqualität erhalten bleibt. Außerdem ist es wichtig, eine Auswahl an Nachbearbeitungsgeräten bei Bedarf in den Signalweg einschleifen und deren Anordnung im Signalweg ändern zu können, ohne aufwändige Umverkabelungen vornehmen zu müssen. Auch die richtige Auswahl der am Schluss einer Bearbeitung eingesetzten Analog-Digital-Wandler ist eine Aufgabe, die mit viel Sachverstand und Erfahrung gelöst werden sollte. An dieser Stelle kann der empfundene Klanggewinn der Analogtechnik schnell wieder in Frage gestellt werden. Das digitale Mastering bietet den Vorteil, dass die Einstellungen der Mastering-Einrichtung jederzeit reproduzierbar, weil abspeicherbar, sind. Einzelne Kanäle lassen sich in ihrem Übertragungsverhalten fest verkoppeln, Phasenverschiebungen bzw. Gruppenlaufzeiten sind besser beherrschbar, und auch irritierende Signalverzögerungen (Latenzen) können bei Anwendung hoch entwickelter digitaler Signalverarbeitung vermieden werden. Es entspricht dem Stand der Technik, dass bestimmte Bearbeitungs- oder Effektgeräte nur digital realisierbar sind (z. B. Raumabbildung durch Faltungshall, s. Kap. 6.5.3). Bei vielen Nachbearbeitungsgeräten mit analogem Klangverhalten handelt es sich in Wirklichkeit um digitale Emulationen. Letztendlich ist es eine ästhetische Frage, ob sich Produzent und Mastering-Ingenieur für analoge, digitale oder eine Kombination beider Technologien entscheiden.
15.2.3 Mehrkanal Mastering Seit der Einführung der DVD ist es möglich, diskrete Mehrkanalsignale bis zum Endverbraucher durchzureichen. Dabei ergeben sich zusätzliche Aspekte und Problemstellungen der stereofonen Mehrkanaltechnik, die über die Aufgaben des zweikanaligen Stereo-Masterings hinausgehen. Eine richtige Aufstellung der Lautsprechersysteme ist in der Regel beim Endverbraucher noch schwieriger zu realisieren als es schon bei einer konventionellen stereofonen Zweikanalanordnung war. Auch die Art der Lautsprecher wird häufig innerhalb eines Mehrkanal-
15.2 Mastering
1029
Wiedergabesystems variieren. So ist unter Umständen der richtungsstabilisierende CenterLautsprecher anders aufgebaut als die Hauptlautsprecher für den rechten und linken Kanal; als Surround-/ Decken-Lautsprecher werden kleinere Systeme eingesetzt, so dass ein homogenes Klangbild vom Grundsatz her gefährdet erscheint. Außerdem ist es in durchschnitt lichen Hörumgebungen kaum möglich, die Lautsprecher im korrekten Abstand zum Zuhörer anzuordnen. Die exakte Einstellung der Entfernungskompensation durch Delay (Laufzeitkorrektur) im Verstärker bleibt dem Endverbraucher selbst überlassen und ist damit beim Mastering nicht vorhersehbar. Diese Fakten dürfen bei der klanglichen Bearbeitung von Mehrkanal-Produktionen nicht außer Acht gelassen werden. Alle wesentlichen Schallfeld- und Klang-Informationen müssen beim Endverbraucher auch dann noch ankommen, wenn dort die Voraussetzungen für eine optimale Mehrkanal-Wiedergabe nicht erfüllt sind (s. Kap. 5.4). Beim Mehrkanal-Mastering ist es oft notwendig und sinnvoll, das stereofone L/R-Signal, den Center-Kanal und die Surround- und ggf. Höhen-Kanäle unterschiedlich zu bearbeiten. Besondere Aufmerksamkeit gilt dem Einsatz von Kompressoren. Hier ist genau zu prüfen, welche Kanäle miteinander verkoppelt werden dürfen oder müssen, ohne dass es zu hörbaren Regelprozessen oder Verschiebungen der räumlichen Ortung durch falsche Verknüpfung (Verlinkung) kommt. Mit der Einführung immersiver Tonformate wie z.B. Auro 3D, Dolby Atmos, DTS:X, MPEG-H und Sony 360 Reality Audio, gewinnt auch das Mehrkanal Mastering zunehmend an Bedeutung. Hier wird zwischen kanalbasiertem und objektbasiertem Verfahren (s. Kap. 5.5) unterschieden und der Mastering Prozess muss dafür entsprechend angepasst werden. Auch haben die einzelnen Formate teilweise unterschiedliche Lautsprecher-Layouts, die im Studio-Setup berücksichtigt werden müssen. Für alle immersiven Tonformate gibt es eigene Kopfhörer-Binauralisierungsverfahren. (s. Kap. 5.5.6) Eine digitale Distribution wird damit auch für den Massenmarkt möglich und es kann praktisch mit jedem Kopfhörer immersives Audio gehört werden. Beim Mastering spielt daher die Kontrolle für die binaurale Kopfhörerwiedergabe eine große Rolle. Gleichwohl ist es beim Mastering für immersives Audio aber auch wichtig, die verschiedenen Wiedergabesituationen zu berücksichtigen. Nachdem jedoch die Binauralisierungstechnik ständig weiterentwickelt wird und sich damit der Klangeindruck beim Endverbraucher laufend verändert, ist eine lautsprecherbasierte Referenz unabdingbar. Eine Beurteilung ausschließlich über Kopfhörer führt zu unkalkulierbaren Ergebnissen. 15.2.3.1 Mastering von Kinomischungen Beim Mastering von Kinomischungen für die Heimwiedergabe gilt es, die Unterschiede zwischen beiden Wiedergabesituationen zu berücksichtigen. Im Kino werden die Surround-Kanäle von mehreren im Raum verteilten Lautsprechersystemen wiedergegeben. Dadurch entsteht in Verbindung mit den räumlichen Gegebenheiten des Saals nicht nur ein diffuseres Schallfeld, sondern auch eine größere Hörzone für die Mehrkanalwiedergabe (s. Abb. 18/26 in Kap. 18.7.6). Handelsübliche Surround-Systeme für den Wohnzimmereinsatz hingegen haben in der Regel nur eine Lautsprecherbox pro Kanal. Hieraus ergeben sich andere Pegelverhältnisse und eine deutlichere Ortbarkeit der Surround-Kanäle.
1030
15 Digitale Tonsignalspeicherung
Ein weiterer, wesentlicher Unterschied liegt in der Behandlung des LFE-Kanals (Low Frequency Enhancement / Effect). Beim automatischen Downmix eines Dolby-Digital-Signals wird der LFE-Kanal ignoriert. Sollte der LFE-Kanal Signale enthalten, die für die Mischung unentbehrlich sind, muss dieser Anteil den Hauptkanälen zugemischt werden. Mehrkanal-Kinomischungen für den Heimgebrauch werden aus den genannten Gründen häufig in einem Abhörraum mit wohnzimmerähnlichen akustischen Eigenschaften durchgeführt (Ateliermischung).
15.2.4 Das Mastering-Studio Ein typisches Mastering-Studio verfügt über eine exzellente Akustik und hervorragende Lautsprechersysteme. Dies ist die unabdingbare Voraussetzung dafür, dass jede Art von Musik (und Sprache) beim Mastering-Prozess neutral und präzise wiedergegeben wird; denn in der Regel gibt es nach dem Mastering keine weitere Kontrollinstanz. Im Mastering-Studio besteht zum letzten Mal die Chance, Fehler noch vor der Vervielfältigung festzustellen und zu beheben. Zentrales Herzstück des Mastering-Studios ist eine Workstation, die in der Lage ist, alle Arbeiten vom Schnitt bis zum fertigen Master zu erledigen. Ergänzt wird das Studio durch eine Vielzahl von speziellen analogen und digitalen Filtern, Kompressoren und Limitern; auch Hallgeräte sind für die Bearbeitung wichtig. In der Regel werden Geräte eingesetzt, die speziell für das Mastering entwickelt wurden. Gerade die eingesetzten Analoggeräte müssen präzise justierbar sein und in allen Kanälen exakt gleich arbeiten. Bei Verwendung von Rasterpotentiometern lassen sich Einstellungen sicherer, aber weniger feinstufig reproduzieren. Verknüpft werden sämtliche Geräte über geeignete Kreuzschienen-Systeme oder über spezielle Mastering-Konsolen, die es erlauben, einzelne Geräte in beliebiger Anordnung miteinander zu verknüpfen. Um schnelle klangliche Entscheidungen treffen zu können, ist es wichtig, an jedem beliebigen Punkt der Bearbeitungskette in hoher Qualität vorhören zu können.
15.2.5 Master-Formate 15.2.5.1 Master Files für digitale Distribution Die Herstellung von Master Files für die digitale Distribution (Streaming) müssen nach den jeweils aktuellen Spezifikationen der DSPs (Digital Service Providers) erstellt werden. Dabei muss pro Track ein einzelnes File erstellt werden. Die nahtlose Aneinanderreihung der einzelnen Tracks ergeben dann das Album. Außerdem sind in den Spezifikationen definierte Benennungen der Titel sowie die Format- und Lautheitsspezifikationen zu beachten. 15.2.5.2 CD-Audio U-Matic und SONY PCM-1610/1630 Das älteste Master-Format für die Audio-CD ist der U-Matic-Standard. Hier wird ein PCM-Signal über einen Signalprozessor (PCM-1610/1630) als Pseudo-Videosignal auf ein kassettiertes
15.2 Mastering
1031
½-Zoll-Schrägspur-Videoband gespielt. Seit ca. 2002 wird dieses Format von den Presswerken nicht mehr akzeptiert. Exabyte Die Exabyte-Kassette enthält ein 8-mm-Band, das ursprünglich für den Einsatz in Computerlaufwerken entwickelt wurde. Die Masterdaten werden im sog. DDP (Disc Description Protocol) gespeichert. Dieses Format wird von den Presswerken ebenfalls nicht mehr akzeptiert; die Exabyte-Bandlaufwerke werden nicht mehr hergestellt. Premaster CD Hierbei wird das Audiomaterial im CD-Audio-Format auf eine CD-R gebrannt. Dieses Format ist ein unsicheres und anfälliges Masterformat, da einerseits die Master-Medien empfindlich gegen mechanische Beschädigungen sind und andererseits das Audiosignal während der Wiedergabe die Fehlerkorrektur eines CD-Players durchlaufen muss. Die Wiedergabequalität hängt hiermit also auch von den Zufälligkeiten des CD-Wiedergabesystems im Presswerk ab. Es kann daher grundsätzlich nicht sichergestellt werden, dass das CD-R-Master fehlerfreie Daten für den Vervielfältigungsprozess liefert. Auch dieses Format wird mittlerweile nicht mehr akzeptiert. DDPi – Filetransfer Die aktuelle Form eines CD-Masters ist das DDPi-File. Hierbei werden Dateien nach dem Disc Description Protocol (DDP) hergestellt und per File Transfer zum Presswerk übertragen. Diese Dateien sind mit Prüfsummen zu versehen, so dass bis zur Fertigung die Integrität der Daten durchgängig gewährleistet werden kann. PQ-Editing Vor der Fertigstellung des CD-Masters erfolgt das PQ-Editing. Nachdem sämtliche Pausen und Titelübergänge festgelegt sind, werden die einzelnen Trackmarken und Indizes gesetzt, sowie Zusatzinformationen wie CD-Text oder ISRC- und EAN-Codes (International Standard Recording Code, European Article Number) eingefügt.
15.2.6 Alternative Formate 15.2.6.1 Super Audio CD Die Super Audio CD (SACD) wurde gemeinsam von Sony und Philips als Nachfolgeformat der CD entwickelt und stand in Konkurrenz zu dem im gleichen Zeitraum vorgestellten DVDAudio-Format. Die SACD verwendet eine höhere Auflösung als die herkömmliche CD und bietet darüber hinaus die Möglichkeit, Mehrkanalton verlustfrei zu speichern. Auf der SACD werden die Audio-Daten im DSD-(Direct Stream Digital)-Format gespeichert. DSD verwendet eine 1-Bit-Delta-Sigma-Modulation mit einer Abtastrate von 2,8224 MHz (64 x 44,1 kHz). In der Praxis werden Produktionen kaum im Original als DSD Signal, sondern vielmehr in PCM-Technologie aufgezeichnet. Daher muss vor dem Mastering das Signal von PCM nach
1032
15 Digitale Tonsignalspeicherung
DSD konvertiert werden. Hierzu kann entweder eine geeignete Konvertiersoftware eingesetzt werden, oder das Signal wird über eine hochwertige analoge Wandlerstrecke geschickt. Auf der SACD kann neben einer zweikanaligen Stereoaufzeichnung auch ein 5.1-Surround-Signal abgelegt werden. Der Anwender wählt dann im dafür geeigneten Wiedergabegerät den jeweiligen Abspielmodus aus. Das Premastering von SACDs erfolgt in zwei Schritten: Zunächst wird ein sog. Edited Master erstellt. Dieser Master ist eine fertig geschnittene Version inclusive aller PQ-Daten, die in eine DSD-IFF-Datei im Interchange File Format gewandelt wird. Das Presswerk benötigt ein sog. Cutting Master. Dabei wird dem Edited Master die SACD Channel Text-Information hinzugefügt, die Audiodaten werden verlustfrei komprimiert und alles dann in ein DST-Signal (Direct Stream Transfer) umgewandelt. Dieses Signal wird dann zum Versand ins Presswerk auf ein AIT-Band (Advanced Intelligent Tape) geschrieben, dessen Kassette neben dem Magnetband auch einen Halbleiterspeicher für Steuerdaten (MIC, Memory In Cartridge, s. Kap. 15.1.6.4) enthält. Die SACD verfügt über ein sehr umfangreiches und leistungsfähiges Kopierschutzsystem. SACDs können nicht auf DVD-ROM-Laufwerken wiedergegeben werden, und aus Sicherheitsgründen wurde auf die Möglichkeit von beschreibbaren SACDs verzichtet. Es ist daher unmöglich, SACDs einzeln zu brennen. Eine Endkontrolle und Freigabe kann nur zusammen mit einer DSD-Workstation erfolgen. 15.2.6.2 Super Audio Hybrid Disc Meistens werden SACDs als Hybrid-CDs hergestellt. Auf einer Hybrid-SACD befinden sich sowohl der Super Audio Layer mit je einem DSD-Stream in Zweikanal- und 5.1-Version, sowie auch ein zusätzlicher CD-Layer. Dadurch sind SACDs mit herkömmlichen CD-Playern kompatibel. Die Datenstruktur auf der SACD ist der auf der CD sehr ähnlich. Es gibt einen Lead-InBereich, danach die beiden Bereiche für Zweikanal-Stereoton und für den Mehrkanalton. Darüber hinaus sind umfangreiche Möglichkeiten für die Speicherung und Anzeige von Texten vorhanden. Ein eigener Videobereich wurde zwar spezifiziert, ist aber nie realisiert worden. 15.2.6.3 DVD-Audio Die DVD-Audio wurde als Audio-Variante der DVD-Video entwickelt und sollte die Audio-CD ablösen; sie wird aber so gut wie nicht mehr hergestellt. Die DVD-Audio bietet neben unkomprimiertem und hochaufgelöstem Zweikanal- und Mehrkanalton auch noch die Möglichkeit der Navigation über Menüs wie bei der DVD-Video. Auch die Wiedergabe von Standbildern und Slideshows ist möglich. Parallel zum DVD-Audio Teil kann auch ein zu DVD-Video kompatibler Teil integriert werden. Audiodaten können bei DVD-Audio als lineare PCM in folgenden Auflösungen abgelegt werden: –– Bei 5.1-Mehrkanalton beträgt die Abtastrate 44,1 kHz, 48 kHz, 88,2 kHz oder 96 kHz mit einer maximalen Wortbreite von 24 Bit. –– Bei Stereoton stehen zusätzlich die Abtastfrequenzen 176,4 kHz oder 192 kHz zur Verfügung.
15.2 Mastering
1033
Um die Datenrate bei hochauflösendem Mehrkanalton innerhalb der maximalen Wiedergabedatenrate der Player zu halten, wurde für die DVD-Audio das MLP-(Meridian Lossless Packing)-Verfahren zum Komprimieren der Daten spezifiziert. Die Audiodaten werden vor dem Aufbringen auf die DVD-Audio durch MLP verlustfrei codiert und bei der Wiedergabe im DVD-Audio Player decodiert. Dadurch wird nicht nur die maximale Datenrate reduziert, sondern auch der Speicherplatz der DVD insgesamt effektiver genutzt. Die DVD-Audio hat seit ca. 2005 keine Bedeutung mehr. 15.2.6.4 HD-DVD Die HD-DVD wurde als Nachfolgeformat zur DVD entwickelt. Im Formatstreit mit der Blu-ray Disc ist das Format jedoch unterlegen und wird seit März 2008 nicht mehr weiterentwickelt und vermarktet. 15.2.6.5 DVD-Video Authoring Auf der DVD-Video werden Video-, Audio-, Untertitel- und Grafikdaten gespeichert und miteinander logisch verknüpft. Das logische Verknüpfen dieser Daten bezeichnet man als Authoring. Anschließend werden die Daten zu einem durchgängigen Multiplex-Datenstrom zusammengefügt und in das DDP-Format gebracht. Bei Dual-Layer-DVDs besteht für jeden Layer eine eigene Image-Datei. Diese Datei wurde früher auf einem DLT-Band (Digital Linear Tape) oder einer DVD-R ins Presswerk geschickt. Mittlerweile werden die Masterdateien als DDPi Dateien gespeichert und zum Presswerk übertragen. Vor dem Versand des Masters ist eine umfangreiche Endkontrolle wichtig. Es empfiehlt sich, sämtliche Inhalte der DVD mit einer dafür erstellten DVD-R zu überprüfen. Durch den komplexen Produktionsprozess, bei dem Audio- und Videodaten getrennt voneinander bearbeitet werden, muss sichergestellt sein, dass alle Inhalte auf der DVD korrekt und synchron abgelegt sind. Dazu gehört auch eine umfangreiche Überprüfung der Menü-Navigation. Hier empfiehlt sich der Einsatz unterschiedlicher DVD-Player, um eventuelle Kompatibilitätsprobleme rechtzeitig erkennen zu können. Bitbudget Um zu gewährleisten, dass weder die Speicherkapazität der DVD noch die maximale Datenrate überschritten werden, muss vor der DVD-Produktion die Kapazität der einzelnen Datenströme definiert und kalkuliert werden. Dabei wird für alle Inhalte der DVD die Dateigröße errechnet und festgelegt. Die Summe der Datenraten der gleichzeitig verfügbaren Audio- und Videodaten darf dabei 9,8 MBit/s nicht überschreiten. Außerdem muss vor der Produktion bestimmt werden, an welcher Stelle sich bei DualLayer-DVDs der Layer Break befindet. Der Layer Break definiert den Datenblock auf der DVD, an dem der Wiedergabe-Laser die Speicherschicht wechselt. An dieser Stelle ist die Bild- und Tonwiedergabe für einen kurzen Moment unterbrochen. Sollte sich diese Stelle mitten im
1034
15 Digitale Tonsignalspeicherung
Programm befinden, ist es empfehlenswert, eine Audio-Passage mit niedrigem Pegel ohne viel Bewegung im Bild zu wählen. Video-Encoding Sämtliche Videodaten werden als MPEG-2-Video codiert. Das Bildformat kann sowohl 4:3 als auch 16:9 sein. Um eine höhere Effizienz zu erreichen, kann die Datenrate des MPEG2-Datenstroms variabel sein. Bereits beim Encoding wird definiert, wo später Kapitelmarken gesetzt sind. DVDs werden sowohl im PAL- als auch im NTSC-Format erzeugt. Die Geräte in NTSCRegionen können ausschließlich NTSC-Signale wiedergeben, PAL-Geräte hingegen geben in der Regel auch NTSC-DVDs korrekt wieder. Audio-Encoding Im DVD-Video-Format sind folgende Audioformate zugelassen: PCM-Zweikanal-Stereo (48 kHz und 96 kHz, jeweils mit 16, 20 oder 24 Bit Auflösung), Dolby Digital und (in Europa) MPEG-2 Audio. Optional darf zusätzlich auch ein DTS-Datenstrom verwendet werden (s. Kap. 13.4). Auf der DVD können bis zu acht Audio-Streams parallel zum laufenden VideoInhalt angelegt werden. Der Anwender kann dann einen dieser Streams auswählen. Kopierschutz Für die DVD gibt es innerhalb der DVD-Spezifikation sowohl ein digitales als auch ein analoges Kopierschutzverfahren. Das CSS (Content Scrambling System) verschlüsselt die Daten digital und soll verhindern, dass digitale Kopien der DVD hergestellt werden können. Das APS (Analog Protection System) von Macrovision setzt ein Flag, das den Player veranlasst, das analoge Ausgangssignal so zu verändern, dass es nicht mehr analog kopiert werden kann. Regional Code Jede DVD kann mit einem Regional Code versehen werden, der dafür sorgt, dass diese DVD nur auf Playern abspielbar ist, die auf denselben Code werksseitig eingestellt sind. Es wurden insgesamt weltweit acht Regionen definiert, wovon nur sieben benutzt werden; Europa liegt in Zone 2. Dieser Code wird beim DVD-Authoring für die jeweilige DVD festgelegt. Es ist auch möglich, mehrere Regionen gleichzeitig freizugeben. 15.2.6.6 Blu-ray Disc Die Blu-ray Disc ist ein weiteres optisches Speichermedium und soll die DVD ablösen. Die Blu-ray Disc wurde im Jahre 2002 von einer Gruppe führender Unternehmen aus den verschiedenen Branchen der Unterhaltungselektronik, der Hersteller von Computersystemen und von Programmanbietern entwickelt. Die sog. Blu-ray Disc Association (BDA) besteht mittlerweile aus weit über 150 Mitgliedern aus allen Bereichen der Unterhaltungs- und Computerindustrie. Durch den Einsatz eines Lasers mit 405 nm Wellenlänge können auf einer Blu-ray Disc bis zu 50 GByte Daten gespeichert werden. Auch die Datenübertragungsrate hat sich gegen-
15.2 Mastering
1035
über der DVD näherungsweise vervierfacht. Dadurch ist es möglich, Video- und Audiodaten mit hoher Auflösung zu speichern. Die Anforderungen an die Blu-ray Player sind in Profile eingeteilt. Aktuell existieren die Anforderungsprofile 1.0, 1.1, 2.0 und 5.0. Profil 1.0 wurde mit der Einführung der Blu-ray definiert. Ab Player-Profil 1.1 ist ein zweiter Audio- und ein weiterer Videodecoder spezifiziert, durch den auch Bild-in-Bild Anwendungen möglich werden. Ab Profil 2.0 steht zusätzlich mehr Arbeitsspeicher zur Verfügung, und der Player verfügt nun über eine Netzwerkschnittstelle. Damit lassen sich dann Anwendungen programmieren, die über das Internet inhaltlich aktualisiert werden können. Profil 5.0 unterstützt (stereoskopische) 3D-Inhalte. Das Premastering Format für Blu-ray ist CMF (Cutting Master Format). Der Transfer erfolgt per Filetransfer zum Presswerk. Authoring Authoring für Blu-ray ist im Prinzip dem DVD-Authoring sehr ähnlich. Allerdings gibt es durch den erweiterten Funktionsumfang der Blu-ray Disc noch mehr Möglichkeiten der Interaktivität.
Abb. 15/28. Mastering Workflow bei DVD und Blu-ray Disc.
1036
15 Digitale Tonsignalspeicherung
Die Blu-ray verfügt z. B. über die Option des Pop-Up-Menüs. Es ist hierbei möglich, während der Wiedergabe über das Videosignal eine Menüebene zu legen und in dieser zu navigieren, ohne dass es zu einer Unterbrechung der Wiedergabe kommt. In Abb. 15/28 ist der Work Flow eines Blu-ray-Mastering/Authoring-Prozesses dargestellt, der auch die Ähnlichkeit mit dem DVD-Authoring erkennen lässt. Video-Encoding Von der Blu-ray Disc können Videos in „High-Definition“ mit einer Auflösung von max. 1920x1080 Pixeln dargestellt werden. Wie bei der DVD wird das Quellenmaterial codiert; hierfür stehen drei verschiedene Codecs zur Verfügung: AVC (H.264), VC-1 und MPEG-2 HD / MPEG-4. Das Videomaterial kann sowohl „progressive“ (kontinuierlich abgetastet) oder „interlaced“ (im Zeilensprungverfahren) vorliegen. Als „Aspect Ratio“ sind sowohl 4:3- als auch 16:9Formate erlaubt. Die Bildwiederholfrequenz kann 24, 25 und 30 (29,97) Hz betragen. Audio-Encoding Bei der Auswahl der Tonformate sind Linear-PCM, Dolby Digital und DTS erlaubt. Die maximale Auflösung beträgt 24 Bit/192 kHz bei 6 Kanälen und 24 Bit/96 kHz bei 8 Kanälen. Innerhalb der Formate von Dolby und DTS gibt es eine deutlich größere Anzahl von Möglichkeiten als bei der DVD: Beide Formate unterstützen verlustfreie Codecs, so dass auf der Blu-ray unkomprimierter Mehrkanalton in hoher Auflösung gespeichert werden kann. Beide Formate sind rückwärtskompatibel zu herkömmlichen Decodern. Bei DTS-HD Master-Audio enthält der Datenstrom einen rückwärtskompatiblen DTS-Stream, der mit dem herkömmlichen für DVD-Player verwendeten DTS verträglich ist. Dolby True HD verwendet die MLP-Technologie (Meridian Lossless Packing), um Audiosignale verlustfrei zu komprimieren. Darüber hinaus lassen sich (wie bei allen Dolby-DigitalFormaten) Metadaten für die verschiedenen Wiedergabemodi speichern. Beide Formate erlauben einen Downmix mit vorher festzulegenden Koeffizienten. Auf Grund der hohen Datenkapazität gibt es keinen Grund, anspruchsvolle Audioquellen auf dem Blu-ray-Medium verlustbehaftet zu speichern. Außerdem ist es auch möglich, im Rahmen der verschiedenen Audiocodecs immersive Tonformate auf Blu-ray zu speichern. Zur Auswahl stehen die Formate Auro 3D, Dolby Atmos und DTS:X. So kann z.B. ein 5.1.4 codiertes Auro 3D Signal als 5.1 Ton abgelegt werden. In einem geeigneten AV-Receiver wird dann dieser Datenstrom nach Auro 3D decodiert und entsprechend wiedergegeben. Dolby Atmos wird in einem speziellen Dolby TrueHD encodiertem Format gespeichert, DTS:X wird in ein DTS-HD MA Format gebracht und auf der Blu-ray gespeichert. In jedem Fall muss die Decodierung im Receiver erfolgen, da die Blu-ray Player nicht über die geeigneten Decoder verfügen. Entsprechend ist es wichtig, dass der Player einen unveränderten Datenstrom (Bitstream) zum Receiver schickt. Kopierschutz Auf der Blu-ray Disc wird der AACS-Kopierschutz (Advanced Access Content System) verwendet. Grundsätzlich müssen alle Blu-ray Discs damit versehen werden. In den Playern sind
15.3 Digitale Tonarchive
1037
bereits Kopierschutz-Schlüssel implementiert, die nachträglich vom AACS verändert und gegebenenfalls gesperrt werden können. Dadurch kann auf etwaige Kopierschutzverletzungen reagiert werden. Regional Code Die Blu-ray Disc verfügt ähnlich wie die DVD-Video über einen Regional Code. Allerdings gibt es weltweit nur noch drei Bereiche. Europa liegt in Region B. 15.2.6.7 Audio-only Blu-ray / Pure Audio Blu-ray Bei der Blu-ray gibt es keinen speziellen Audio-only Standard. Das Format erlaubt aber das Herstellen von Audio-only Anwendungen innerhalb der Blu-ray Spezifikation. Im April 2011 wurde von der AES die [AES-21id]-Spezifikation veröffentlicht, die die Verwendung von Blu-ray als hochauflösendes und mehrkanaliges Speichermedium für Musikanwendungen definiert. Besondere Bedeutung hat die Verwendung der Blu-ray als reines Audioformat mit Navigation ohne Bildschirm. Die Bedienung einer Blu-ray nach AES-21id muss demnach komplett ohne Bildschirm allein über die Fernbedienung des Players möglich sein, das heißt, sämtliche Funktionen wie Play, Pause, Stop, Skip, Vor- und Rückspulen sowie Titelnummern können auf der Fernbedienung angewählt werden. Die Auswahl von verschiedenen Audiostreams erfolgt über dedizierte Tasten auf der Player-Fernbedienung. Dazu werden die vier auf der Fernbedienung befindlichen Farbtasten genutzt. Jeder Farbtaste wird ein Tonformat eindeutig zugeordnet. Die Umschaltung kann zu jedem Zeitpunkt erfolgen und macht keine Einstellungen im Player-Setup notwendig. Typischerweise werden die Formate Stereo, 5.1, Auro 3D und Dolby Atmos verwendet. Zusätzlich muss aber weiterhin die Bedienung über das Bildschirmmenü möglich sein; dabei sind alle Funktionen der Blu-ray wie bisher verfügbar.
15.3 Digitale Tonarchive Tonarchive spielen seit langer Zeit eine wichtige Rolle im Betriebsablauf der Rundfunkanstalten und anderer Unternehmen im Umfeld der Tonstudiotechnik. Die grundlegende Zielsetzung von Tonarchiven besteht zum einen in der sicheren Erhaltung und Bewahrung des Audiomaterials und zum anderen in der formalen Erfassung und inhaltlichen oder dokumentarischen Erschließung eben dieses Materials. Während mit der ersten Zielsetzung der langfristige – im Idealfall zeitlich unbegrenzte – Zugriff auf wertvolle Tondokumente sichergestellt wird, dient die zweite grundlegende Zielsetzung einer systematischen Verwaltung des Archivbestands und der gezielten Recherche darin. Ältere, nicht digitalisierte Tonarchive bestehen in der Regel aus den eingelagerten Tonträgern, bspw. Tonbändern, Schallplatten und CDs, und einem Karteikastensystem für die Verwaltung, formale Erfassung und dokumentarische Erschließung. Das papierbasierte Katalogsystem wird Anfang der 80er Jahre durch Datenbanken abgelöst, die die Erfassung, Erschließung und Recherche beschleunigen. Im Zuge der Digitalisierung der Studiotechnik
1038
15 Digitale Tonsignalspeicherung
werden Tondokumente nicht mehr auf klassischen Tonträgern, sondern mehr und mehr digital als Audiodateien gespeichert. Derartige Datenspeicherlösungen werden mit den bestehenden oder neuen Katalogsystemen verknüpft und um geeignete Import- und ExportMöglichkeiten ergänzt. Auf diese Art gelingt die weitgehende Integration digitaler Tonarchive mit anderen digitalen Studioprozessen (Abb. 15/29, vgl. auch Kap. 14.2.4.6).
Abb. 15/29. Prinzip der integrierten Prozesse.
Bei der Gegenüberstellung der Integrationsproblematik einerseits mit konventionellen Systemen und andererseits mit digitalen Archiven wird der Nutzen der digitalen Technik noch deutlicher (Abb. 15/30). In der konventionellen Umgebung erfordert der Informationsaustausch zwischen Dokumentation, Archiv und Programm manuelle Prozesse, z. B. in Form eines Bestell- und Ausleihverfahrens für archivierte Tonträger. Die integrierte Umgebung mit einem digitalen Tonarchiv ermöglicht hingegen den Online-Zugriff und den netzwerkgestützten Datenaustausch. Die Prozesse von Archiv und Programm bzw. Produktion können somit auf der Basis von informationstechnischen Lösungen integriert werden.
Abb. 15/30. Gegenüberstellung konventioneller und digitaler Lösungen.
Der grundlegende Aufbau digitaler Tonarchive lässt sich durch die Aufteilung in sechs Teilsysteme veranschaulichen (Abb. 15/31).
15.3 Digitale Tonarchive
1039
Abb. 15/31. Grundlegender Aufbau digitaler Tonarchive.
Zentrale Elemente sind zum einen das Katalogsystem mit Datenbank und Benutzeroberflächen und zum anderen der digitale Audiospeicher. Während das Katalogsystem den Inhalt des Archivs organisiert und strukturiert und die dazu erforderlichen beschreibenden Daten (Metadaten) enthält, dient der digitale Audiospeicher als Aufbewahrungsort für die als Audiodateien gespeicherten Audioinhalte (Essenzdaten). Ein- und Ausspielstationen ermöglichen die Übernahme bzw. die Abgabe von Archivinhalten über konventionelle Tonträger. Die Integration des digitalen Tonarchivs wird über geeignete Schnittstellen ermöglicht. Begriffsdefinitionen Digitale Tonarchive profitieren in umfangreicher Weise von der modernen Informationstechnologie. Aus diesem Grunde werden häufig Begriffe aus diesem Technologieumfeld verwendet, so dass zur Einführung einige Begriffsdefinitionen unerlässlich sind (Tab. 15/11). Tab. 15/11. Begriffe aus der Informationstechnologie. Digitaler Speicher
Im Zusammenhang mit digitalen Tonarchiven wird unter einem digitalen Speicher ein IT-Speichersystem verstanden, in dem die Audiodaten in Form einer Datei vorliegen und sie mithin über Dateioperationen einer Softwarelösung zugreifbar sind.
Datenbank
Der Begriff „Datenbank“ bezeichnet eine spezielle Form der softwarebasierten Datenspeicherung und -verwaltung, die sich insbesondere für die effiziente Organisation großer Datenbestände eignet. In der Datenbank werden in der Regel nur Metadaten und keine Essenzdaten gespeichert.
Benutzeroberfläche
Softwarekomponente, die die Nutzerinteraktion mit dem Softwaresystem ermöglicht. In der Regel sind Benutzeroberflächen heute grafisch aufbereitet, sie werden dann auch als Graphical User Interface (GUI) bezeichnet.
1040
15 Digitale Tonsignalspeicherung
Schnittstelle
Im Kontext dieses Kapitels: Softwarekomponenten, die die Kommunikation (Datenübertragung usw.) zwischen IT-basierten Systemen ermöglichen.
Essenzdaten
Unter Essenzdaten werden im Zusammenhang mit digitalen Tonarchiven (oder auch anderen Medienarchiven) die eigentlichen Mediendaten, also das digitale Abbild der Toninformation, verstanden.
Metadaten
Meta stammt aus dem Griechischen (μετα) und bedeutet u. a. zwischen, mit oder nach. Im Zusammenhang mit dem Wort Metadaten bezeichnet es Daten über Daten. In Medienarchiven werden unter Metadaten Begleitdaten verstanden, die die Essenzdaten näher beschreiben. Dabei wird zwischen technischen, formalen und beschreibenden Metadaten unterschieden.
Content
Der Begriff „Content“ bezeichnet die Verknüpfung aus Essenz- und Metadaten. Erst in dieser Verknüpfung werden Essenzdaten – hier Audiodaten – zu nutzbarer Information, da sie andernfalls nicht sinnvoll identifizierbar sind.
IT-Systeme
IT steht als Abkürzung für „Informationstechnologie“, der Begriff bezeichnet technische Systeme, die aus Computern und zugehöriger Software bestehen.
15.3.1 Anforderungen Ohne digitale Archivsysteme besteht ein systemtechnischer Bruch zwischen dem Organisationsbereich „Dokumentation und Archive“ einerseits und dem Organisationsbereich „Programm“ andererseits. Die Beseitigung dieser Bruchstelle durch eine technische Integration von digitalen, softwaregestützten Programm- bzw. Archivprozessen ist ein zentraler Mehrwert digitaler Archivsysteme. Die Anforderungen an diese technische Integration mit dem Ziel eines integrierten Prozessablaufs sind durch den jeweiligen spezifischen Blickwinkel des Programms bzw. des Archivs geprägt und somit unterschiedlich zu formulieren. Neben diesen aus einer primär prozessorientierten Sicht geprägten Aspekten tragen primär technisch geprägte Aspekte zum Gesamtkatalog der Anforderungen bei. 15.3.1.1 Funktionale Anforderungen aus Sicht des Archivs Aus Sicht des Archivs stehen die klassischen archivarischen und dokumentarischen Aufgaben bei der Formulierung von Anforderungen an ein digitales Archiv im Vordergrund. Dabei spielen neben der reinen Funktionalität zum einen Aspekte zur Datensicherheit und -integrität und zum anderen Überlegungen zur Effizienzsteigerung eine Rolle. –– Das digitale Archiv muss umfassende Möglichkeiten bieten, Audiomaterial über sehr lange Zeiträume zu erhalten und zu bewahren. Diese Forderung mündet in der Umsetzung in korrespondierende Anforderungen an die eingesetzten filebasierten Speichertechnologien und an Möglichkeiten der Qualitätskontrolle und der Konvertierung. –– Das digitale Archiv muss leistungsfähige Möglichkeiten zur Dokumentation des archivierten Audiomaterials bereitstellen. Im Rahmen der Dokumentation wird zu der Audioessenz ein beschreibender Datensatz mit Metadaten erzeugt. Erst durch diese dokumentarischen Metadaten wird eine gezielte Suche im Archivbestand möglich. Für die
15.3 Digitale Tonarchive
1041
technische Realisierung leiten sich daraus Anforderungen an die Struktur der eingesetzten Datenbank und der zugehörigen Benutzeroberfläche ab. –– Das digitale Tonarchiv muss die Rechercheaufgaben des Archivs umfassend unterstützen. Neben leistungsfähigen, auf dokumentarischen Metadaten basierenden Recherchemöglichkeiten gehört dazu auch die Möglichkeit, Tondokumente am Recherchearbeitsplatz „online“ vorzuhören. –– Das digitale Tonarchiv muss die Übernahme von Archivinhalten sowohl von extern beschafften Tonträgern als auch die Übernahme von sendefertig produziertem bzw. gesendetem Material in das Archiv erleichtern. Diese Forderung entspricht der einleitend formulierten Zielsetzung, Prozessbrüche durch die technische Integration von Teilsystemen aufzuheben. 15.3.1.2 Funktionale Anforderungen aus Sicht des Programms Der eingangs erwähnte Bruch zwischen den Systemen bedingt eine häufig nicht optimale Nutzungsmöglichkeit der konventionellen Archivbestände durch das Programm, bspw. bedingt durch langsame Zugriffszeiten. Um diese Schwäche durch den Einsatz digitaler Archive abzustellen, sind aus Sicht des Programms die nachfolgend beschriebenen Anforderungen umzusetzen: –– Ein digitales Archiv muss beschleunigte Abläufe ermöglichen, die frei von Medienbrüchen sind. Durch direktes Vorhören, Bestellen und Übertragen in die programmnahen Systeme muss die unmittelbare Nutzung des archivierten Materials ermöglicht werden. –– Ein digitales Archiv muss die gegenüber der Ist-Situation deutlich vereinfachte Überführung von gesendeten und archivierungswürdigen Beiträgen in den Archivkontext ermöglichen. Dies erlaubt die rasche archivarische Weiterverarbeitung und insbesondere Dokumentation. –– Bei der Einführung eines digitalen Archivs ist eine aus programmlicher Sicht geprägte Füllstrategie notwendig, die zeitnah ein hohes Nutzungspotenzial des Systems ermöglicht. –– Ein digitales Archiv sollte die Flexibilität bei der Wiederverwertung von Archivmaterial steigern. Für die bestehenden Programme, aber auch für neue Angebotsformen und medienübergreifende Arbeitsweisen, können Aktualität und Flexibilität des digitalen Archivs einen erheblichen Mehrwert bieten. 15.3.1.3 Systemtechnische Anforderungen Neben den beschriebenen funktionalen Anforderungen, die sich aus der prozessorientierten Sicht des Programms bzw. des Archivs ergeben, spielen auch systemtechnische Anforderungen an die Infrastruktur eines digitalen Tonarchivs eine wichtige Rolle. Die wichtigsten Anforderungen lassen sich in die Kategorien IT-Sicherheit, Nutzermanagement, Systemmanagement und Skalierbarkeit gliedern. IT-Sicherheit Unter der Überschrift IT-Sicherheit sind unterschiedliche Aspekte zusammengefasst wie u. a. auch in Kap. 16.4 beschrieben. Besonders hervorzuheben sind hierbei
1042
15 Digitale Tonsignalspeicherung
–– die Systemverfügbarkeit im Sinne von Zuverlässigkeit und Havarievermeidung, –– die Datensicherheit im Sinne einer fehlertoleranten Speicherarchitektur und eines tauglichen Backup-Konzeptes und –– die Zugangssicherheit im Sinne der Abwehr unberechtigter Zugangsversuche und Attacken von außen. Ebenfalls zum Thema IT-Sicherheit gehören die Aspekte Authentifizierung und Autorisierung; diese Gesichtspunkte werden im folgenden Abschnitt „Nutzermanagement“ erörtert. Nutzermanagement Einen anderen Aspekt der Sicherheit stellt das Berechtigungskonzept für den Zugriff auf den digitalen Audioarchivspeicher dar. Eine als sinnvoll etablierte Strategie basiert auf der Nutzung rollenbasierter Rechte, wobei jede Rolle (oder Gruppe) einen Satz an Rechten besitzt und jeder Nutzer einer oder mehreren Rollen angehört. Die Rechte selbst decken zwei Dimensionen ab: zum einen die funktionale Dimension, in welcher der Funktionsumfang für den Nutzer beschrieben ist (Import, Export, Ändern, Löschen), zum anderen die inhaltliche Dimension, in welcher der Zugriff auf Bestände oder Beiträge (Erstsenderecht, Verwendungsbeschränkung) geregelt ist. Systemmanagement Digitale Tonarchive bestehen aus einer Vielzahl informationstechnischer Komponenten. Die Gesamtfunktionalität erfordert das einwandfreie Zusammenspiel dieser Komponenten. Entsprechend komplex gestalten sich Fehlersuche und -behebung im Havariefall. Aus diesem Grunde kommt einem leistungsfähigen Überwachungssystem („Monitoring and Control“) eine zentrale Rolle zu, um einen möglichst störungsarmen Betrieb gewährleisten zu können. Skalierbarkeit Generell beschreibt die Forderung nach Skalierbarkeit die Fähigkeit des Systems, an im Fluss befindliche Anforderungen ohne grundlegende Änderungen möglichst gut anpassbar zu sein. Es liegt in der Natur der Sache, dass sich zukünftige Anforderungen in der Praxis nur in begrenztem Umfang vorhersagen lassen. Aus diesem Grund müssen Anforderungen an die Skalierbarkeit häufig abstrakt formuliert werden, ohne dabei allzu unspezifisch zu werden. Wesentlich ist die Forderung nach skalierbarer Speicherkapazität und -technologie. Die Zielsetzung digitaler Tonarchive nach „ewiger“ Aufbewahrung führt zwangsläufig zu einem kontinuierlich wachsenden Bedarf an Speicherplatz, der in sinnvoller Weise mit einem korrespondierenden Ausbau einhergeht. Da aber gleichzeitig die verfügbaren IT-Speichersysteme permanenten Technologiewechseln unterliegen, muss die simultane Nutzbarkeit unterschiedlicher Speichertechniken sowohl aus technischen als auch aus wirtschaftlichen Gründen gefordert werden. Ebenfalls wichtig ist die Forderung nach offenen und hinreichend universellen Schnittstellen. Die formulierte Forderung aus Sicht des Programms bzw. der Produktionstechnik nach einer engen Integration der digitalen Tonarchive erfordert vielfältige Schnittstellen mit peripheren Systemen. Die Forderung nach Skalierbarkeit umfasst ferner eine einfache Erweiterungsmöglichkeit der Benutzeroberfläche, um neue Funktionen und Arbeitsabläufe einzubetten.
15.3 Digitale Tonarchive
1043
15.3.2 Archivsysteme Ausgangspunkt für die Beschreibung der technischen Struktur digitaler Tonarchive ist die in Abb. 15/31 vorgestellte Anordnung. Grundsätzlich handelt es sich bei digitalen Tonarchiven auf Grund der heterogenen Systemlandschaft und integrativen Arbeitsabläufe um vergleichsweise komplexe Softwaresysteme. Daher spielt die eingesetzte Softwarearchitektur eine besonders wichtige Rolle. Ziel ist ein hinreichend modularer Aufbau der Gesamtlösung, um die geforderte Skalierbarkeit sicherzustellen. Naturgemäß existieren vielfältige Möglichkeiten, diese Softwarearchitektur geeignet zu definieren. Ein generelles Prinzip für komplexe Softwarelösungen – und damit auch für digitale Tonarchive – ist die Realisierung einer mehrschichtigen Softwarearchitektur. Jede Schicht bündelt einen bestimmten Teil der Gesamtfunktionalität. Ein gängiger Ansatz sieht vier derartige Schichten vor (s. Abb. 15/32). Schicht 1 bündelt alle Funktionen des Datenmanagements und der Datenspeicherung. Dazu gehören Softwaremodule für das Metadatenmanagement, für das Audiodatenmanagement und für die Speicherverwaltung.
Abb. 15/32. Mehrschichtige Softwarearchitektur digitaler Tonarchive.
In Schicht 2 ist die Systemlogik mit den systemweit genutzten Diensten zusammengefasst. Diese Schicht beinhaltet Module für die Metadatenverarbeitung, Dienste für die Audiodatenprozessierung, Systemdienste wie Benutzer- und Systemmanagement und als zentrale Komponente ein Prozessmanagement, das diese Module koordiniert. Schicht 3 stellt die interaktiven Benutzeroberflächen bereit. Auch hier werden in der Regel Teilfunktionen in separaten Oberflächenmodulen realisiert. In Schicht 4 werden Schnittstellenfunktionen gebündelt. Hier ist zwischen unterschiedlichen Technologien zu differenzieren, die für die Integration des digitalen Tonarchivs mit den verschiedenen externen Systemen genutzt werden können. Web Services sind im Zusammenhang mit sog. serviceorientierten Architekturmodellen (Service Oriented Architecture,
1044
15 Digitale Tonsignalspeicherung
SOA) wichtig, weiterhin spielen spezialisierte Programmierschnittstellen (Application Programming Interface, API) und für einfachere Aufgaben dateiorientierte Import- und Exportschnittstellen eine Rolle. Je nach Charakteristik und Funktionalität der Integration des jeweiligen externen Systems werden auf der Grundlage dieser Technologien differenzierte Schnittstellen realisiert. Zwischen den Schichten sind jeweils universelle Schnittstellen definiert. Auf diese Art ist es möglich, einzelne Module auszutauschen oder zu ergänzen, ohne dass dadurch die Gesamtarchitektur – und damit die übrigen Module – geändert werden müssen. Auf diese Art wird die geforderte Skalierbarkeit erreicht. Parallel zu der beschriebenen Softwarearchitektur ist die davon zunächst unabhängige Gesamt-Hardwarearchitektur zu betrachten. Auch hier gibt es zahlreiche unterschiedliche Ansätze, die sich nach dem konkreten Anforderungsprofil an das digitale Tonarchiv richten. Es soll hier eine grundlegende Möglichkeit aus dieser Variantenvielfalt beispielhaft dargestellt werden (Abb. 15/33).
Abb. 15/33. Mögliche Gesamt-Hardwarearchitektur eines digitalen Tonarchivs.
Zunächst ist erkennbar, dass ein Großteil der Elemente doppelt ausgeführt ist. Dadurch wird der Anforderung nach hoher Zuverlässigkeit Rechnung getragen; der Ausfall eines Teilsystems oder eines Gerätetyps führt nicht zum Ausfall des Gesamtsystems. Die einzelnen Hardwarekomponenten der Zentraleinheit des digitalen Tonarchivs sind über ein redundant ausgeführtes lokales Netzwerk (LAN 1) und ein ebenfalls redundantes Speichernetzwerk (Storage Area Network, SAN) verknüpft.
15.3 Digitale Tonarchive
1045
Für die Datenbank, die Audiodatenspeicherung und für die Logik bzw. für die Dienste stehen sog. Applikationsserver zur Verfügung. Als Massenspeichersystem kommen in dieser Darstellung redundante Festplattensysteme (RAID-Sets) und ein Bandsystem für die zusätzliche Datensicherung zum Einsatz. Von außen ist der Zugriff auf die Zentraleinheit durch eine Firewall gesichert (LAN 2 / Firewall). Über diese sichere Verbindung sind alle externen Systeme und die Arbeitsplatzrechner, d. h. die PCs und deren Benutzeroberflächen, mit der Zentraleinheit verbunden. 15.3.2.1 Speichersysteme Speichertechnologie Zum Einsatz gelangen durchweg Standard-Speichersysteme der Informationstechnologie. Hier sind insbesondere Festplatten und bandgestützte Systeme zu nennen. Festplattensysteme basieren dabei praktisch immer auf großen RAID-Systemen, während Bandsysteme wegen des hohen Kapazitätsbedarfs in der Regel als Bandbibliotheken (Tape Libraries) ausgeführt sind. Bandbibliotheken verwenden Robotersysteme, die durch eine geeignete Verwaltungs- und Steuersoftware aus einem großen Vorrat an Bandkassetten ein oder mehrere angeforderte Bänder automatisch in entsprechende Bandlaufwerke laden. Bei der Wahl des geeigneten Speichermediums ist stets eine Abwägung technischer und wirtschaftlicher Aspekte erforderlich. Bei Festplatten stehen der schnellen Zugriffszeit und dem wahlfreien parallelen Zugriff im Vergleich zu Bandsystemen hohe Kosten pro Kapazitätseinheit gegenüber. Demgegenüber sind Bandsysteme zu günstigeren Kosten verfügbar. Allerdings liegt die Zugriffszeit im Bereich von Minuten, und die Anzahl der parallelen Zugriffe ist durch die Anzahl der verfügbaren Laufwerke begrenzt. Oft wird aus wirtschaft lichen Gründen eine Mischform eingesetzt. Das Audiomaterial wird in den meisten Tonarchiven in zwei Qualitäten gespeichert. Das Quellmaterial muss für die spätere Wiederverwendung in der Produktion und Sendung entweder im Originalaudioformat der Digitalisierung oder in einem hochqualitativen Kompressionsformat, z. B. in MPEG-1 Audio Layer 2 (MP2), vorgehalten werden. Meistens wird das „Hausformat“ der jeweiligen Rundfunkanstalt dafür verwendet. Für die Vorhörmöglichkeit in Benutzeroberflächen wird das Quellmaterial im gängigen Kompressionsformat MPEG-1 Audio Layer 3 (MP3) zusätzlich zum hochwertigen Audio abgelegt. Um einen schnellen Zugriff auf Vorhöraudios zu gewähren, werden diese auf Festplattensystemen gespeichert. Inwiefern auch das hochqualitative Audio auf Festplattensystemen für eine schnelle Exportmöglichkeit vorgehalten werden kann, hängt von der Kapazität des Systems ab. Als Mischform können Festplattensysteme als MP3-Server für alle Audios und als Cache-Server für häufig angeforderte Audiobeiträge in hoher Qualität dienen. Speichersicherheit Die einfache Speicherung der im digitalen Tonarchiv verfügbaren Audiodateien ist auf Grund der Forderung nach hoher Speichersicherheit unzureichend. Zwar liegen die mittleren, statistisch ermittelten Ausfallzeiten (Mean Time Between Failures, MTBF) marktüblicher 150 GByte-Festplatten heute in der Größenordnung von 500.000 Stunden. Es sind jedoch
1046
15 Digitale Tonsignalspeicherung
Archivkapazitäten von mehreren hundert TByte keine Seltenheit, so dass in einem 150 TByte großen Archiv durchschnittlich nach zwanzig Tagen ein Plattenlaufwerk ausfällt. Es gelangen daher unterschiedliche Verfahren zur Erhöhung der Datensicherheit zur Anwendung, häufig auch in Kombination. Festplattensysteme werden durch RAID-Technologie (Redundant Array of Independent Disks) gesichert. Bei diesem Verfahren werden mehrere Platten zu einem RAID-Set verbunden, das die automatische Rekonstruktion der Daten auch beim Ausfall von einer Platte (RAID Level 5) oder von zwei Platten (RAID Level 6) ermöglicht. Dazu werden über einen RAIDController beim Schreibvorgang automatisch Korrekturinformationen (Parity) erzeugt und auf einer oder mehreren Platten zusätzlich gespeichert. Im Fehlerfall ist der RAID-Controller dazu in der Lage, aus den noch verfügbaren Daten zusammen mit der Parity-Information die Ursprungsdaten automatisch wiederherzustellen. Diese Form der Datensicherheit erfordert bei gleicher Netto-Kapazität eine höhere Anzahl Festplatten (Abb. 15/34).
Abb. 15/34. Prinzipieller Aufbau eines Festplatten-RAID-Systems.
Speicherkapazität Die zentrale Aufgabe des Speichersystems besteht in der sicheren Speicherung der digitalen Audiodateien. Dabei sollte grundsätzlich die bestmögliche Audioqualität gespeichert werden. Die heute überwiegend eingesetzte Quellcodierung verwendet Pulscodemodulation (PCM) mit einer Abtastrate von 48 kHz (oder von 44,1 kHz bei nativ gespeicherten CDs) mit einer Wortbreite von 16 Bit pro Mono-Abtastwert. Der rechnerische Netto-Kapazitätsbedarf für solche „linearen“ Audiofiles liegt bei ca. 650 GByte pro 1.000 Stunden Audiomaterial. Für die Speicherung der MP3-Vorhöraudiodateien wird nur etwa ein Zehntel dieser Kapazität benötigt. Zunehmend gewinnen höherwertige Quellcodierungen an Bedeutung. Beispiele hierfür sind Abtastraten von 96 kHz und mehr, bei Wortbreiten von 24 Bit. Ebenso wird die übliche Stereotechnik mehr und mehr durch Mehrkanaltechniken (Surround Sound) bspw. im 5.1-Ver-
15.3 Digitale Tonarchive
1047
fahren ergänzt. 1.000 Stunden Audiomaterial in 5.1 mit 96 kHz Abtastrate bei einer Wortbreite von 24 Bit benötigen bereits die 9-fache Netto-Kapazität oder ca. 5,7 TByte. Zur überschlägigen Abschätzung des Brutto-Kapazitätsbedarfs sind zusätzlich drei weitere Faktoren zu berücksichtigen: –– Der Ausnutzungsgrad üblicher IT-Speichermedien liegt auf Grund der Datenträgerfragmentierung bei maximal ca. 90 % der Nettokapazität. –– Die Sicherung von Festplattensystemen durch RAID-Technologie erzeugt wie beschrieben zusätzlichen Kapazitätsbedarf in Abhängigkeit von der Auslegung der RAID-Sets. Ein RAID5-Set des Typs 4+1 (s. Abb. 15/34) erzeugt z. B. einen Overhead von 25 %. –– Häufig werden im Sinne einer Desaster-Toleranz die gesamten Speichersysteme an zwei unterschiedlichen Orten identisch aufgebaut. Dies führt zu einer Verdopplung des Kapazitätsbedarfs. Würde man also ein Desaster-tolerantes Festplattensystem mit zusätzlicher RAID5-Technologie (4+1) pro Standort aufbauen, so wäre bei einem Nettokapazitätsbedarf von 100 TByte eine Brutto-Speicherkapazität von ca. 280 TByte anzusetzen. 15.3.2.2 Datenbanken Neben der Speicherung der Audiodateien spielt deren Verwaltung und auch ihre Verknüpfung mit beschreibenden Daten (Metadaten) eine entscheidende Rolle bei der Realisierung eines digitalen Tonarchivs; dies ist Aufgabe des Katalogsystems (vgl. Abb. 15/32). Die sich daraus ergebenden vielfältigen Anforderungen werden in der Regel mit Datenbanken umgesetzt. Datenbanken bestehen dabei aus einer sog. Datenbank-Engine, sowie aus der darauf aufbauenden speziellen Datenbankanwendung. Derart aufgebaute Datenbanken bieten den Vorteil, die Fülle der Metadaten besonders geschickt verwalten und bearbeiten zu können. Die heute häufigste Form sind relationale Datenbanken, in denen die unterschiedlichen Metadatenbereiche über Relationen zueinander in Beziehung stehen, man sagt auch, „relational verknüpft“ sind. Im Bereich der Tonarchive sind Volltextsuchen über alle und gruppenspezifische Teile der Metadaten notwendig, so dass neben den relationalen Datenbankfeldern auch verschiedene Volltextfelder zum Einsatz kommen, die während der Datenerfassung automatisch durch Hintergrundprozesse gefüllt werden. In der Informatik gibt es eine ausführliche Theorie zu Datenbanken. Eine detaillierte Erläuterung der zahlreichen Facetten ginge weit über das Konzept dieser Ausarbeitung hinaus. Wichtig ist, dass sowohl die Fülle der Metadaten in einem digitalen Tonarchiv – hier kann es ohne weiteres um einige Millionen Datenbankeinträge gehen – als auch ihre komplexe Beziehung zueinander den Einsatz leistungsfähiger Datenbanken erforderlich macht. 15.3.2.3 Benutzeroberflächen Die bisher beschriebenen technischen Elemente eines digitalen Tonarchivs arbeiten für den Nutzer unsichtbar. Der Nutzerzugang zum System erfolgt gemäß Abb. 15/32 primär über sog. Benutzeroberflächen. Generell gilt, dass sich die Ausformung der Benutzeroberflächen an unterschiedlichen Kriterien orientieren muss, um eine möglichst gute Bedienbarkeit sicherzustellen. Neben der Funktionalität (z. B. Suche, Dokumentation usw.) und den abzubilden-
1048
15 Digitale Tonsignalspeicherung
den Arbeitsabläufen spielt dabei auch das Nutzerprofil eine wichtige Rolle. So benötigen bspw. Dokumentare, Redakteure oder auch die Honorarabteilung jeweils andere Sichten auf die beschreibenden Daten. In der Konsequenz findet sich in der realen technischen Umsetzung digitaler Tonarchive häufig eine hohe Anzahl unterschiedlicher Benutzeroberflächen wieder. Im Folgenden sollen einige praktische Beispiele für derartige Oberflächen vorgestellt werden. Suchoberflächen Suchoberflächen dienen der gezielten Suche und dem Auffinden von archivierten Inhalten. Suchergebnisse werden häufig zunächst als Listen dargestellt. Ausgehend von der Listendarstellung stehen dem Nutzer weitere Funktionen zur Verfügung, z. B. eine Detailansicht der Metadaten oder insbesondere – und dies ist eine zentrale Eigenschaft digitaler Tonarchive – die Möglichkeit, Audiodateien in Vorhörqualität anzuhören und an andere Systeme via Netzwerk in Produktionsqualität zu übertragen. Für redaktionelle Nutzer werden häufig Web-basierte Oberflächen zur Verfügung gestellt, die sich durch einfache Funktionalität auszeichnen und die darüber hinaus in einem normalen Internet-Browser lauffähig sind (Abb. 15/35). Der linke Bereich dieser Suchoberfläche zeigt unterschiedliche logische Speicherbereiche, die auch physisch getrennt – bei Bedarf sogar an unterschiedlichen Standorten – realisiert sein können. Im oberen Bereich findet sich ein einfaches Suchfeld, das ohne nähere Kenntnis der Metadatenstruktur eine übergreifende Volltextsuche ermöglicht. In der Trefferliste stehen ausgewählte Informationen zu den gefundenen Einträgen, wie Titel, Person, Sende- und Aufnahmedatum, Audiolänge, Standort, Speicher und Archivnummer. Zusätzlich werden in jeder Zeile weitere Funktionen angeboten: Lautsprechersymbol für „Vorhören“, Versandsymbol zur Übertragung in externe Systeme, Warenkorb für nutzerspezifische Materialsammlungen, Verknüpfung zu Zusatzmaterial wie Manuskripten. Gerade in großen Archivbeständen führt die einfache Volltextsuche allerdings häufig zu sehr großen Ergebnismengen. Spezielle Archivinhalte können besser durch komplexere Suchanfragen gezielt gefunden werden. Derartige komplexe Suchvorgänge lassen sich über erweiterte Suchmasken definieren; in diesem Fall ist allerdings eine genauere Kenntnis der Metadatenstruktur vonnöten (Abb. 15/36). Der beispielhaft dargestellte erweiterte Suchdialog bietet neben der Vollsuche auch die Einschränkung der Suche auf bestimmte Suchfelder, die Einschränkung der Suche auf Datums- und Zeitbereiche, Standorte oder auch die logische Verknüpfung unterschiedlicher Suchkriterien. Erfassungsoberflächen Die vorgestellten Suchoberflächen greifen lesend auf den Archivbestand zu. Erfassungsoberflächen bieten ergänzend die Möglichkeit, die Metadaten zu Archiveinträgen anzulegen und zu bearbeiten. Häufig ist dies eine dokumentarische Aufgabe, so dass Erfassungsoberflächen, mit denen auch die dokumentarische Erschließung möglich ist, in der Regel nur einem speziellen Nutzerkreis zur Verfügung stehen. Das dargestellte Oberflächen-Beispiel ist in mehrere Bereiche strukturiert. Es existieren Bereiche für die Wahl der Betriebsart („Modusauswahl“, z. B. für „Titel / Beitrag archivieren“ oder „Titel / Beitrag ändern“), für das Anlegen
15.3 Digitale Tonarchive
1049
bzw. Ändern von Metadaten („Metadaten“), für die Zuordnung von Audiodaten zu Metadaten („Audio“) und für das Erzeugen („Archivieren“) von Audiodateien im Archivspeicher (s. Abb. 15/37).
Abb. 15/35. Einfache Suchoberfläche und Darstellung der Suchergebnisse in Listenform.
Abb. 15/36. Bildschirmdarstellung eines erweiterten Suchdialogs.
1050
15 Digitale Tonsignalspeicherung
Das Eingabeformular ist in sich nochmals über Reiter oder „Tabs“ gegliedert, um der Fülle der im Archiv relevanten Metadaten gerecht zu werden. Hervorzuheben sind hier die Rubrik „Erschließung“, die Archivaren und Dokumentaren eine systematische inhaltliche Nutzung z. B. anhand von Schlagworten ermöglicht, und die Rubrik „Zeitmarken“; hier werden Marken längs des Audiomaterials hinterlegt, über die spezielle Abschnitte einer Audiodatei gezielt angesprungen werden können.
Abb. 15/37. Erfassungsoberfläche für dokumentarische Metadaten.
Einspieloberflächen Während bei Erfassungsoberflächen die Metadaten im Zentrum stehen und eher zur umfassenden Dokumentation einzelner Beiträge dienen, ermöglichen Einspieloberflächen den
15.3 Digitale Tonarchive
1051
Abb. 15/38. Einspieloberfläche für den Import digitaler Files.
Abb. 15/39. Oberflächenkomponente für die Festlegung von Cuepunkten.
Umgang mit technischen Audiodaten und deren Zuordnung zu dokumentarisch erfassenden Beitragsstrukturen. Die in Abb. 15/38 dargestellte Erfassungsoberfläche ist für Masseneinspielungen konzipiert worden. Auf der linken Seite werden in einer Liste die zu archi-
1052
15 Digitale Tonsignalspeicherung
vierenden Tonträger (in diesem Fall CDs aus CD-Grabbing-Jukeboxen) als Archivnummern angezeigt. Die während des Grabbing-Vorganges erfassten technischen Audiodaten werden automatisch gegen die hierarchische Metadatenstruktur aus der Archivdatenbank validiert. Bei der Validierung werden die Anzahl der Tracks und die Trackzeiten in einer Aufnahme, optional die Tracknummern und Tonträgerfortsetzung, analysiert. Das Validierungsergebnis wird farblich und durch ein Icon gekennzeichnet. Bei einigen Validierungszuständen kann der Einspieler die zeitliche Struktur der technischen Audiodaten ändern oder die Zeitangaben in der Archivdatenbank überstimmen. Ein wesentlicher Aspekt ist die bereits erwähnte Festlegung von Marken oder „Cuepunkten“ längs einer Audiodatei; dies ist insbesondere zur Navigation in längeren Audiodateien wichtig. Es können während des Abhörens einer Audiodatei Marken und Klassifizierungen gesetzt werden. Eine Klassifizierung kann bspw. zur Unterscheidung zwischen künstlerischen und technischen Marken genutzt werden (s. Abb. 15/39). Die so erzeugten Marken wiederum werden als Metadaten im korrespondierenden Datensatz hinterlegt und erzeugen dadurch hierarchische Strukturen innerhalb einer Audiodatei. Je nach technischer Realisierung können diese Marken genutzt werden, um bei der Recherche die entsprechende Position in der Audiodatei, z. B. Tracks, direkt anzuspringen. Das dargestellte Beispiel zeigt eine Benutzeroberfläche, die diesen komplexen Vorgang der Erfassung und Zuordnung von zeitbasierten, über Marker oder Cuepunkte abgebildeten Metadaten ermöglicht. 15.3.2.4 Einspielstationen Einspielstationen bilden ein weiteres Teilsystem in der technischen Gesamtlösung digitaler Tonarchive. Die zentrale Aufgabe von Einspielstationen besteht in der Wandlung des Inhalts konventioneller Tonträger in Audiodateien. Als wichtigste konventionelle Tonträger sind dabei Magnetbänder, CDs, Schallplatten oder auch DAT-Bänder zu berücksichtigen. Unabhängig vom verwendeten Tonträger lassen sich für den Einspielvorgang einige zentrale Anforderungen formulieren: –– Die ursprüngliche Tonaufzeichnung muss mit möglichst hoher Qualität in eine digitale Form gewandelt werden. Die lange gültige Grenze der CD-Qualität (Pulscode-Modulation mit 16 Bit Wortbreite bei 44,1 kHz Abtastrate) kann durch heutige Codierungsverfahren (bis 24 Bit Wortbreite und 192 kHz Abtastrate) bereits deutlich überschritten werden. –– Es muss möglich sein, die technische Qualität des Einspielvorgangs möglichst weitgehend automatisiert zu dokumentieren. Diese Möglichkeit ist als Grundlage für ein Qualitätssicherungsverfahren wichtig, mit dem die Korrektheit des Einspielprozesses überwacht wird. Ohne solch ein Verfahren bestünde die Gefahr, defekte Audiodateien in das digitale Archiv zu übernehmen. –– Häufig ist es wünschenswert, im Rahmen des Einspielvorgangs Fehler des konventionellen Tonträgers zu korrigieren. Solch eine Anforderung ergibt sich z. B., wenn alte und beschädigte Magnetbänder oder Vinylschallplatten eingespielt oder digitalisiert werden (s. Kap. 15.1.14). –– Je nach Menge des einzuspielenden Materials kann auch der Aspekt einer weitgehenden Automatisierbarkeit dieses Prozesses eine Rolle spielen. Ist bspw. ein Archivbestand von
15.3 Digitale Tonarchive
1053
50.000 Stunden auf Magnetbändern zu digitalisieren, so würde dies in einem rein manuellen Prozess viele Jahre dauern und entsprechend viel Personal erfordern. –– Einspielsysteme müssen über geeignete Schnittstellen verfügen, um auf der Softwareebene in das Gesamtsystem eingebunden werden zu können.
Abb. 15/40. Bildschirmdarstellung einer Einspieloberfläche für DAT.
Ähnlich wie für die Benutzeroberflächen gilt auch für die Einspielsysteme, dass je nach Anforderungen sehr unterschiedliche technische Lösungen denkbar und sinnvoll sind. Zur Illustration ist an dieser Stelle die Abbildung der zentralen Oberfläche einer proprietären DAT-Einspielstation dargestellt (s. Abb. 15/40). Neben den Bedienelementen für die angeschlossenen DAT-Spieler und den darüber angeordneten Audiomessinstrumenten ist im linken Bildschirmbereich auch der automatisch generierte Bericht zu technischen Ereignissen des Einspielvorgangs zu erkennen. 15.3.2.5 Ausspielstationen Dieses Teilsystem bietet die Möglichkeit, Archivinhalte zu exportieren und auf andere Tonträger zu schreiben. Diese Aufgabe stellt sich insbesondere dann, wenn der Dateiexport über Netzwerkschnittstellen nicht möglich ist. Mögliche praktische Anwendungsfälle sind Automaten zum Brennen von CDs oder auch Stationen, die das Ausspielen auf konventionelle Audioaufnahmegeräte (Bandmaschinen) ermöglichen; der letztgenannte Anwendungsfall
1054
15 Digitale Tonsignalspeicherung
tritt aber angesichts der weit fortgeschrittenen Digitalisierung zunehmend in den Hintergrund. 15.3.2.6 Schnittstellen Bereits mehrfach erwähnt wurde die Bedeutung von Schnittstellen, über die sich das digitale Tonarchiv mit anderen IT-basierten Systemen integrieren lässt. Wie bereits aus Abb. 15/31 zu entnehmen war, kann diese Integration auf drei Ebenen greifen. Die Basisforderung an ein digitales Tonarchiv ist der Austausch von Audiodateien mit anderen Systemen. Diese Forderung bezieht sich insbesondere auf den Austausch mit filebasiert arbeitenden Systemen in den Programmbereichen. Der Austausch muss bidirektional möglich sein, d. h., Audiodateien werden über die Schnittstellen sowohl gelesen als auch geschrieben. Eine weitere Forderung an die Schnittstellenfunktionalität ist die Möglichkeit, unterschiedliche Quell- und Zielformate ineinander umzurechnen. Dies könnte z. B. die Umwandlung von linear codierten Audiodateien aus dem Tonarchiv in MPEG-encodierte Dateien für das Zielsystem sein. Des Weiteren ist die Forderung zu stellen, Metadaten mit anderen Systemen austauschen zu können. Der Umfang der auszutauschenden Metadaten ist je nach angeschlossenem System sehr unterschiedlich. So benutzt bzw. erzeugt ein Produktions- und Sendesystem im Programmbereich ganz andere Metadaten als ein System für die Honorarabrechnung. Gleichwohl ist die Integration des digitalen Tonarchivs mit all diesen unterschiedlichen externen Systemen wünschenswert (vgl. Kap. 15.3.3). Neben unterschiedlichen Implementierungstechniken vom reinen Dateiaustausch bis hin zu direkten Datenbankzugriffen spielt für die Schnittstellenebene die geeignete Transformation der Metadaten zwischen Quell- und Zielsystem eine besondere Rolle. Einen Sonderfall stellt die Verwendung sog. Wrapper- oder Containerformate dar. Solche Wrapperformate bieten Datenstrukturen, die den Transport von Audiodaten und Metadaten in einer Datei ermöglichen. Als Beispiele sind hier das Broadcast Wave Format (BWF) mit seinen diversen Erweiterungen oder auch MXF (Media eXchange Format) zu nennen (s. auch Kap. 12.6 und Kap. 18.5.3.3). Eine dritte Schnittstellenebene ist auf der Stufe der Benutzeroberflächen denkbar. Den möglichen Ansatz bieten hier die sog. Plug-in- oder Add-In-Komponenten, die in anderen Softwareapplikationen betrieben werden können und von dort ohne Wechsel des Applikationskontextes direkt den Zugriff auf das digitale Tonarchiv ermöglichen. Diese Form der Integration ist allerdings vergleichsweise selten, da sie wegen der sehr engen technischen Verzahnung zu einer erheblichen Abhängigkeit zwischen an sich unabhängig arbeitenden Systemen führt. Parallel zu den hier genannten drei Schnittstellenebenen werden die am Anfang des Kapitels erwähnten übergreifenden Dienste angeboten, die komplette Arbeitsabläufe im Archivsystem umfassen. Diese Dienste können von Benutzeroberflächen außerhalb des Archivkontextes aufgerufen werden, um z. B. ein Ausspielen oder ein Vorhören zu starten. Abschließend ist festzuhalten, dass ein hohes Maß an Schnittstellen-Flexibilität für die Wertigkeit eines digitalen Tonarchivs entscheidend ist; denn erst hierdurch kann die zu fordernde umfassende Integration gewährleistet und sichergestellt werden.
15.3 Digitale Tonarchive
1055
15.3.3 Metadaten Metadaten (als beschreibende Daten) sind seit jeher wichtige Bestandteile der Archivierung und auch der angrenzenden Prozesse. In der konventionellen Ära lagen bzw. liegen Metadaten einerseits in Katalogdatenbanken vor, häufig aber auch in Form von Schriftstücken oder als Text-Information auf Bandkartons oder CD-Hüllen. Digitale Tonarchive bieten die Möglichkeit, all diese Zusatzinformationen (als Metadaten) technisch mit dem Audiomaterial zu verknüpfen. Das Bindeglied ist dabei die entsprechend erweiterte Datenbank des Tonarchivs, die verschiedene Metadatenquellen vereint. Gelingt diese Verknüpfung auch über die Grenzen des digitalen Tonarchivs hinweg – wenn nämlich die entsprechenden Schnittstellen geschaffen werden –, so können Metadaten im Gesamtprozess genutzt, ergänzt und verändert werden. Diese Möglichkeit schafft einen besonderen Mehrwert, indem bspw. Doppeleingaben von Begleitdaten entfallen und Zusatzinformationen online in anderen Systemen genutzt und ausgewertet werden können. 15.3.3.1 Kategorien von Metadaten Unter dem Begriff Metadaten ist eine große Zahl unterschiedlicher Informationen zusammengefasst. Aus diesem Grund ist eine grobe Systematisierung hilfreich. Technische Metadaten Als „technische Metadaten“ werden solche Informationen bezeichnet, die sich aus technischen Bearbeitungsschritten ergeben und die somit objektiven Charakter haben. Beispiele hierfür sind Informationen über Dateigrößen, Codierungsverfahren, Datei-IDs, Track-Nummer, Audiolänge oder auch die Erfassung von Nutzertransaktionen („Wer hat einen archivierten Beitrag wann wohin exportiert?“). Technische Metadaten werden vom System automatisch generiert, sie müssen nicht manuell eingegeben werden. Formale Metadaten Die Bezeichnung „formale Metadaten“ ist ein Oberbegriff für Zusatzinformationen, die zwar im Gegensatz zu technischen Metadaten manuell eingegeben werden müssen, deren Inhalt aber gleichwohl feststeht. Dazu gehören u. a. Angaben zu Titel oder Autoren. Beschreibende Metadaten Die Kategorie der „beschreibenden Metadaten“ ermöglicht die nähere inhaltliche Beschreibung von Archivinhalten. Auch diese Information muss an irgendeiner Stelle im Prozess manuell eingeben werden, allerdings liegt hier der Inhalt nicht zwangsläufig fest. Beispiele sind die Vergabe von Stichworten oder auch von Genre- und Gattungsinformationen; all diese Informationen bedürfen letztlich einer subjektiven Bewertung. Umso wichtiger sind diese Daten allerdings für gezieltes Suchen und Finden im Archiv. Dies ist der Hintergrund für die Bedeutung einer systematischen dokumentarischen Erschließung mit dem Ziel, die gegebene Subjektivität durch die Einhaltung verbindlicher Regeln einzuschränken und quasi zu „normieren“.
1056
15 Digitale Tonsignalspeicherung
15.3.3.2 Bedeutung von Metadaten im digitalen Workflow Metadaten spielen in vielen Arbeitsschritten der Studio- und Hörfunktechnik eine zentrale Rolle. Abrechnungsinformationen, Einsatzstatistiken, Suchkriterien, Nutzungsrechte: all diese Informationen sind als Metadaten an irgendeiner Stelle – häufig in sehr unterschiedlicher Form – verfügbar. Die Nutzung IT-basierter Systeme schafft die technische Voraussetzung, Metadaten zwischen Systemen und damit zwischen Prozessschritten automatisiert auszutauschen. Aus diesem Grund lässt sich für unterschiedliche digitale Prozesse die übereinstimmende Aufgabenstellung formulieren, einen durchgängigen Metadatenfluss zu schaffen. Neben der technischen Umsetzung dieses Ziels ist dabei die Analyse aller prozessrelevanten Metadaten mit der Intention eines gemeinsamen Metadatenmodells und einer übergreifend definierten gemeinsamen Bedeutung eine zentrale Herausforderung. Diese Aufgabenstellung wird aus der Betrachtung der Metadatenflüsse im Gesamtablauf deutlich (Abb. 15/41).
Abb. 15/41. Metadaten im Gesamtablauf.
Die Vielfalt der als Pfeile dargestellten Metadaten-Verbindungen veranschaulicht, welche entscheidende Rolle diese Informationen in einem vernetzten, IT-basierten Workflow spielen. 15.3.3.3 Technischer Umgang mit Metadaten Metadaten liegen in aller Regel in textlicher Form vor. Allerdings gibt es auch andere Beispiele, wie Covergrafiken und Booklets einer CD oder Fotos eines Autors oder Komponisten. Unabhängig von der Datenausprägung, dem „Datentyp“, bietet sich aus technischer Sicht die Verwaltung und Speicherung von Metadaten in Datenbanken an. Datenbanken ermöglichen sowohl die flexible Beherrschung komplexer Metadatenstrukturen als auch die leistungsfähige Suche auf dem gesamten Datenbestand.
Titel
Black Magic Woman
Bochum
Currywurst Herbert Grönemeyer
Downtown Petula Clark
She Loves Beatles You
She Loves Beatles You
Strawberry Beatles Fields Forever
ID
001
002
003
004
005
006
007
Herbert Grönemeyer
Santana
Künstler
formale Metadaten
Paul McCartney/ Lennon / John Lennon
Paul McCartney/ Lennon / John Lennon/ Paul McCartney
Paul McCartney/ Lennon / John Lennon/ Paul McCartney
Tony Hatch/ Tony Hatch
Horst-Herbert Krause/ Diether Krebs/ Jürgen Triebel
Herbert Grönemeyer/ Herbert Grönemeyer
Peter A. Green/ Peter A. Green
Autor
AUDIO
Label
CAPITOL
A&M
Intercord
3‘ 37 2006-03-28; 2007-04-13; 2007-09-08;
Länge Sendedatum
technische Metadaten
Band; England
Rythm and Band; digitally Blues; Soul remastered
Rythm and Band; digitally Blues; Soul remastered
3‘ 29
2‘ 22 2006-11-30;
2‘ 22 2007-01-14; 2007-05-12;
3‘ 06
1‘ 54
Singer/Song3‘ 48 writer; Bochum; Ruhrgebiet; Band
digitally remastered
Schlagwort
Filmmusik USA, 90‘s
Rock
Rock
Stilrichtung
beschreibende Metadaten
The Red Album APPLE
20 Greatest Hits
Twin Town (Twintown) -Original soundtrack
Total Egal
4630 Bochum EMI
Rock Times, Vol. 8 1969/70
Media-Titel
15.3 Digitale Tonarchive 1057
Tab. 15/12. Beispiel einer tabellarischen Metadatensicht („Listendarstellung“).
Eine sehr gängige Form der Metadaten-Visualisierung – nicht aber zwingend der MetadatenHaltung – in Archivsystemen ist die Listenform, wie sie in abgewandelter Form auch schon in Abb. 15/35 dargestellt war (Tab. 15/12). Diese beispielhafte Darstellung zeigt die zuvor beschriebenen unterschiedlichen Ausprägungen (formal, beschreibend, technisch). Jede Zeile der Liste repräsentiert einen TitelDatensatz; die ID-Kennung (Archivnummer) dient der zweifelsfreien Identifizierung. Die
1058
15 Digitale Tonsignalspeicherung
einzelnen Spalten repräsentieren die Felder oder Datenelemente, die den Datensatz beschreiben. Einige Aspekte lassen sich bereits aus diesem einfachen Modell ableiten: –– Manche Nennungen in einer Spalte kommen in mehreren Datensätzen (Zeilen) vor; dies ist im Beispiel für die Datensätze ID 002 und 003 der Fall. Metadaten sind mithin nicht pro Datensatz einzigartig. –– In einigen Feldern tauchen Mehrfach-Einträge auf, wie z. B. in den Spalten „Autor“, „Schlagwort“ und „Sendedatum“. –– Mehrere Datensätze können den gleichen Titel haben, wie dies in den Datensätzen ID 005 und 006 der Fall ist. Die Unterscheidung ergibt sich lediglich aus Unterschieden in anderen Feldern. –– Nicht alle Felder sind gefüllt, wie bspw. im Datensatz ID 003. Neben dem ID-Feld, welches meistens automatisch beim Speichern von neuen Datensätzen gefüllt wird, gibt es in einigen Archiven weitere Pflichtfelder. Bereits aus diesen Aspekten stellt sich die Frage, mit welchen technischen Werkzeugen eine möglichst gute Ordnung in der Vielfalt der Metadaten erreicht werden kann. Ein sehr eta bliertes und leistungsfähiges Verfahren sind relationale Datenmodelle. Metadatenmodelle Um Metadaten systematisch in technischen Systemen behandeln zu können, bedarf es einer abstrakten Modellierung. Die Informatik stellt für diese Aufgabe unterschiedliche Methoden zur Verfügung, die hier nicht näher erörtert werden sollen. Als beispielhafte Begriffe für die Beschreibung solcher Modelle seien Entity-Relationship-Modelle oder Klassenhierarchien und -diagramme genannt. Ziel von Metadatenmodellen ist es, eine formale Beschreibung dafür zu finden, welche Metadaten in einem Prozess bzw. in einem System vorkommen und in welcher Beziehung sie zueinanderstehen. Das Ergebnis sind Felder, die gemeinsame inhaltliche Kategorien festlegen (z. B. der Titel eines Beitrags) und die dann spezifisch gefüllt werden. Es folgt die Gruppierung dieser Felder in „Tabellen“ und die Feststellung ihrer Beziehung oder „Relation“ zueinander. Das Metadatenmodell dient dann als Grundlage bei der Implementierung der Datenbankanwendung. Dem Benutzer stellt es sich in Form der Metadatenfelder in den Benutzeroberflächen dar (s. Kap. 15.3.2). Für das als Liste dargestellte Beispiel wird das Prinzip der Modellierung skizziert. Auch hier ist anzumerken, dass es sich um eine deutliche Vereinfachung der tatsächlich bestehenden Situation handelt; ebenso gibt es bei der Modellierung keineswegs „das einzig richtige“ Ergebnis. Ziel des betrachteten Beispiels ist es lediglich, wesentliche Prinzipien zu veranschaulichen (Abb. 15/42). Zunächst soll die Nomenklatur der Abbildung erläutert werden: –– Die Rechtecke stehen für Tabellen, identifiziert über einen entsprechenden Tabellennamen. –– Die Aufzählungspunkte in den Tabellen bezeichnen die Spalten oder Datenfelder in der jeweiligen Tabelle. –– Die Verbindungslinien zwischen den Tabellen beschreiben die Relationen der Tabellen untereinander; die Annotation (z. B. 1…*) beschreibt die Vielfachheit der jeweiligen Relation.
15.3 Digitale Tonarchive
1059
Abb. 15/42. Beispiel eines relationalen Metadatenmodells.
Abb. 15/43. Anwendung des Metadatenmodells aus Abb. 15/42 auf einen Teil der Titeldaten aus Tab. 15/12.
1060
15 Digitale Tonsignalspeicherung
Speziell die Begriffe „Relation“ und „Vielfachheit“ bedürfen der Erläuterung: Relationen stehen für die Verknüpfung zwischen unterschiedlichen Tabellen. Die vollständigen Daten zu einem Datensatz findet man in mehreren Tabellen unter Nutzung der definierten Relationen. In unserem Beispiel finden sich zu einem Titel alle Personen – sowohl Künstler als auch Autoren – in der Tabelle „Personen“. Definiert man weiterhin die Vielfachheit dieser Relationen, so kann man das Problem der mehrfach vorkommenden identischen Information elegant lösen: in unserem Beispiel kommt eine bestimmte Person nicht nur in einem, sondern in mehreren Titel-Datensätzen vor. Dieser Beispielfall wird im Modell durch die Annotation „1…*“ verallgemeinert: ein Element aus der Tabelle „Personen“ kann einem oder mehreren Elementen aus der Tabelle „Titel“ zugeordnet sein. Gleichzeitig können einem Titel mehrere Personen zugeordnet sein; dies ist durch die zweite Annotation „1…*“ modelliert. Man spricht in diesem Fall auch von einer n:m-Relation zwischen den Tabellen „Titel“ und „Personen“. Semantik und Mapping von Metadaten Gerade im Zusammenhang mit systemübergreifenden Metadaten muss neben der formalen Abstraktion und Modellierung auch die Bedeutung oder die Semantik der Metadaten berücksichtigt werden. So mag es sein, dass in einem Sendesystem lediglich ein Metadatum mit dem Feldnamen „Titel“ verwendet wird, während die Archivdatenbank zwischen unterschiedlichen Titeltypen (Sendetitel, Originaltitel usw.) differenziert. In solch einem Fall ist es unerlässlich zu definieren, wie die Informationen auch systemübergreifend miteinander in Beziehung stehen. Das bisherige Beispiel soll daher um ein fiktives externes System erweitert werden, das mit dem Archiv Metadaten austauscht. Für beide Systeme sind die verfügbaren Metadaten pro Datensatz dargestellt; das dahinter liegende Datenmodell im externen System wird der Einfachheit halber nicht berücksichtigt (Tab. 15/13). Tab. 15/13. Beispiel für Metadaten-Mapping. Synonyme (Mapping) Archivbezeichnung Titel Künstler Autor Media-Titel Label Stilrichtung Schlagwort Länge Sendedatum
Externes System Titel Untertitel Artist Komponist Album-Titel
Genre Schlagwort 1 Schlagwort 2 technische Länge Sendedauer
15.3 Digitale Tonarchive
1061
Auch hier fallen mehrere Dinge auf, die die grundlegende Problematik veranschaulichen: –– Nicht alle Informationen sind in beiden Systemen überall verfügbar. –– Gleiche Information wird nicht überall gleich bezeichnet. –– Zum Teil müssen Informationen zusammengefasst bzw. separiert werden, um eine Zuordnung zu ermöglichen. Neben der formalen Zuordnung einzelner Datenfelder und der mitunter komplexen Definition geeigneter Transformationsvorschriften ist auch die Frage nach den eigentlichen Inhalten relevant. Die unterschiedliche Schreibweise von Namen oder auch die unterschiedliche Nutzung von Auswahllisten bspw. für Schlagworte seien hier als zwei Beispiele für diese Problematik angeführt. Management von Metadaten Wie kann nun vor dem Hintergrund des Ziels eines einheitlichen übergreifenden Umgangs mit Metadaten ein geeignetes Metadatenmanagement technisch realisiert werden? Eine Möglichkeit besteht in der Realisierung einer unternehmensweit einheitlichen und übergreifend (d. h. von allen Systemen) genutzten Datenbank für das Metadatenmanagement. Allerdings besitzen praktisch alle IT-basierten Systemlösungen, ganz gleich welche spezifischen Teilaufgaben sie übernehmen, individuelle Formen des Metadatenmanagements; das Metadatenmanagement ist dabei auf den jeweiligen Anwendungsfall hin optimiert. So stellt die Umsetzung des Metadatenmodells innerhalb des digitalen Tonarchivs im Vergleich zu anderen Implementierungen in verbundenen Systemen häufig eine sehr komplexe Variante dar, während Produktions- und Sendesysteme spezifische Metadaten verwenden, die im Archiv nur in Teilen benötigt werden. In der Praxis ist daher der Ansatz einer gemeinsamen Datenbank für alle Systeme nicht praktikabel. Außerdem werden häufig externe Datenbanken zur Metadatenverwaltung herangezogen (z. B. die Hörfunkdatenbank / HFDB), auf deren Modell kein Einfluss genommen werden kann. Hinzu kommt, dass sich der Umfang der im Gesamtprozess verwendeten Metadaten im Laufe der Zeit ändert; mit neuen Anwendungen kommen auch neue Metadaten hinzu. Ein Beispiel ist der Umgang mit Mehrkanal-(Surround)-Produktionen, die vor einigen Jahren praktisch noch keine Rolle spielten. Gleichwohl werden nun für diese Anwendungen spezielle Metadaten erforderlich. Insofern lässt sich als eine wesentliche Eigenschaft der technischen Implementierung eines Metadatenmanagements fordern, dass es sich im Idealfall robust gegenüber allen Änderungen verhält. Anpassungen und Ergänzungen müssen möglich sein, ohne dass dadurch das gesamte Systemkonzept in Frage gestellt wird. Eine mögliche Lösung liegt in Datenbankimplementierungen, die Datenmodellierung und Datenzugriff verallgemeinern; man sagt auch „abstrahieren“. Auch hier ist allerdings in der Praxis stets eine Abwägung zwischen Abstraktion einerseits und Praktikabilität andererseits zu treffen. Schnittstellenproblematik Eine besondere Ausprägung der Abstraktionsproblematik ergibt sich für die technische Umsetzung von Schnittstellen. Eine Möglichkeit ist die spezifische Definition und Realisie-
1062
15 Digitale Tonsignalspeicherung
rung jeder einzelnen Schnittstelle entsprechend den aktuell bestehenden Anforderungen; konkret hinsichtlich der auszutauschenden Datenfelder und ihrer wechselseitigen Zuordnung. Der Nachteil wird offensichtlich, wenn sich Änderungen ergeben: in diesem Fall nämlich müssen alle Schnittstellen angepasst werden, was sehr aufwändig sein kann. In der heutigen Softwaretechnologie haben sich deshalb Verfahren herausgebildet, die in sich die Möglichkeit der Abstraktion bieten. Ein Beispiel ist die Verwendung von XML („eXtended Markup Language“) als Datenbeschreibungssprache. XML bietet die Möglichkeit, dass ein ausgetauschter Datensatz sich quasi selbst beschreibt. Er ist sowohl für Menschen als auch für Computer gut lesbar. Darüber hinaus bietet diese Technologie ein wiederum abstraktes Verfahren, die Struktur der Daten durch sog. Stylesheet-Transformationen umzuwandeln. Auf Grund dieser Eigenschaften ist XML für die Realisierung von Metadatenschnittstellen eine zweckmäßige Softwaretechnologie und in vielen Archivsystemen im Einsatz. Standardisierungsansätze Mit der Bedeutung von Metadaten und der gleichzeitig gegebenen Komplexität geht die Bemühung einher, den Umgang mit Metadaten zu standardisieren. Diese Standardisierungsbemühungen sind dabei keineswegs zwingend mit digitalen Systemen verknüpft; auch die Festlegung eines Bandbegleitformulars stellt eine Standardisierung von Metadaten dar. Allerdings hat mit dem Einzug der digitalen Technik, oder besser mit zunehmendem Einsatz von Software, die Notwendigkeit solcher Standards zugenommen. Erste Beispiele sind die Regelwerke der ARD, um Toninhalte mit Metadaten zu beschreiben. Daraus gingen verschiedene zentrale Archivdatenbanken hervor, die von fast allen ARD-Anstalten genutzt worden sind: MUSAD (Musik-Archivierung und Dokumentation), WOSAD (Worttonträgerund Schriftgut-Archivierungs- und Dokumentationssystem), ZSK (Zentrale Schallplatten-Katalogisierung). Mittlerweile sind die aufgezählten Archivdatenbanken mit ihren individuellen Datenmodellen durch die neue Hörfunkdatenbank (HFDB) abgelöst worden. Die drei Datenmodelle sind in der HFDB konsolidiert und erweitert worden. In aufwändigen Migrationsläufen sind die Altdatensätze in die HFDB überführt worden. Dabei mussten nicht nur die rundfunkspezifischen Dokumentationen automatisiert analysiert und korrigiert werden, sondern auch Feldinhalte mit der Normdatenbank der ARD abgeglichen werden, um ein einheitliches Vokabular (z. B. für die Schlagwort- und Personeneinträge) zu erhalten. Das Metadatenmodell ist hochgradig relational und hierarchisch. Aufgrund seiner Größe soll in diesem Abschnitt nur ein grober Überblick über das Metadatenmodell gegeben werden (Abb. 15/44). Das HFDB-Datenmodell unterteilt sich in Form und Inhalt und basiert auf Objekten, die vereinfacht als Datenbanktabellen angenommen werden können. Die Form beschreibt den Träger und enthält die formalen und technischen Metadaten. Sie wird durch das Audiobestandsobjekt, das Audiomedienobjekt und die Konfektionierung beschrieben. Als Audiobestandsobjekt wird das individuelle Exemplar eines Tonträgers bzw. der archivarischen Verwaltungseinheit bezeichnet, z. B. die im Regal befindliche CD einer Veröffentlichung. Es kann zu einem Audiomedienobjekt, das die Produktbeschreibung und Metadaten eines Tonträgers enthält, beliebig viele Audiobestandsobjekte geben, im Beispiel alle CDs dieser Veröffentlichung. Die Konfektionierung repräsentiert die örtliche und zeitliche Bestimmung des Vorkommens eines Audioereignisses auf einem Tonträger. Bei einer Audio-CD entspricht
15.3 Digitale Tonarchive
1063
die Konfektionierung einem Track. Sie enthält außerdem die Objekte Codierungsprofil, Pegel und Entstehungskonfektionierung.
Abb. 15/44. Grobes Metadatenmodell der neuen Hörfunkdatenbank [HFDB-FSS-IO].
Die Konfektionierung verknüpft Form und Inhalt. Der Inhaltsteil des HFDB-Datenmodells dient zur Strukturierung der beschreibenden Metadaten. Die Strukturierung erfolgt auch hierarchisch. Bspw. bestehen Opern aus Akten und Arien, Magazinsendungen aus mehreren Beiträgen und eine LP aus mehreren Titeln. Deshalb bietet die HFDB die Möglichkeit, Metadaten in bis zu drei Hierarchiestufen zu erfassen: –– Kompilation: Zusammenstellung von mehreren Werken (Korpora) bzw. Teilen (Segmenten), z. B. Konzertereignis mit mehreren Werken –– Korpus: Werk mit seinen Teilen (Segmenten), z. B. eine Sinfonie –– Segment: Teil eines Werkes (Korpus) bzw. einer Zusammenstellung (Kompilation), z. B. Satz oder Arie Jede Hierarchiestufe ist eine Audiokreation und beschreibt das Audioereignis in Form einer realisierten (hörbaren) Kreation mit allen Personen- und Produktionsdaten. Die Kreation ist Beschreibung der Idee eines Audioereignisses bzw. das künstlerische Werk. Neben dem Modell der HFDB in der ARD ergibt sich aus der Vielfalt der Anforderungen im Rundfunkbereich – ebenso wie aus ihrer Dynamik – geradezu automatisch auch eine Vielfalt der Standardisierungsbemühungen. Aktuelle Beispiele sind SMEF der BBC, Dublin Core
1064
15 Digitale Tonsignalspeicherung
oder auch BMF als ein Metadatenmodell des ehem. IRT. Zweifellos ist jeder dieser Ansätze durchaus sinnvoll, allerdings muss im praktischen Einzelfall stets die Anwendbarkeit kritisch hinterfragt werden. Die Forderung eines einzig existierenden, universellen Metadatenstandards ist aus den bereits erläuterten Gründen nur schwer in die Praxis umzusetzen. 15.3.3.4 Automatische Erzeugung von Metadaten Für die die automatische Erzeugung von Metadaten aus Audiodateien können für Beiträge mit hohem Wortanteil Spracherkennungsprogramme eingesetzt werden. Die sog. Audiomining-Software trennt zunächst durch eine Strukturanalyse Musik- von Sprachabschnitten und analysiert anschließend die Sprachabschnitte mit Hilfe eines Spracherkennungsmoduls (s. Abb. 15/45). Die erkannten Worte werden mit ihren jeweiligen Zeitstempeln in Textdateien oder Volltextdatenbank abgespeichert. Neben den erkannten Silben und Worten in Form von Audiotranskriptionen können auch Schlagworte anhand von Worthäufigkeit und Bewertung mit Schlagwortkatalogen automatisch angelegt werden. Außerdem lassen sich Sprecherwechsel und -wiedererkennung sehr gut analysieren und als weitere Daten speichern. Anhand von erfassten Sprecherprofilen können den Sprechern Namen zugeordnet werden.
Abb. 15/45. Ablauf von Audiomining (Initiale Segmentierungsstufen).
Zur Messung der Qualität von Spracherkennungssystem wird die Erkennungsrate verwendet. Als Erkennungsrate wird das Verhältnis aus richtig erkannten Worten und tatsächlich gesprochenen Worten bezeichnet. Die Erkennungsrate hängt stark von der Audio- und Sprecherqualität und der Zusammenstellung des Audiobeitrages ab. Sprache mit Hintergrundgeräuschen oder Überlagerungen wie z. B. Umweltgeräusche, Wind, Musikbett oder mehrere Stimmen ergeben eher schlechte Erkennungsraten, während Studioaufnahmen wie Nachrichten oder Interviews ohne Hintergrundgeräusche sehr gute Erkennungsraten über 90% erzielen. Durch den Einsatz von KI-Technologie wird die Spracherkennung, Sprechererkennung und die automatische Erstellung von Schlagwortlisten permanent verbessert. Die Audiomining-Software wird als serviceorientierter Dienst innerhalb der ARD angeboten und kann in bestehende Archivsysteme als weiterer Verarbeitungsschritt eingebunden werden, um eine automatische (Vor-)erfassung, Transkription und Verschlagwortung durchzuführen.
Standards
1065
Für einige Beitragstypen kann die Audiomining-Software den Dokumentar bei seiner täglichen Erfassungsarbeit unterstützen, aber nicht ersetzen, da die inhaltliche Beitragserschließung der relevanten Teile und deren thematische Einordnung im Moment noch nur durch jahrelange Erfassungspraxis durch Menschen zu leisten ist. Die automatische Transkription von Wortanteilen im Zusammenhang mit einem Transkriptions-Player (Abb. 15/46) bietet für redaktionelle Nutzer verschiedene Vorteile wie eine Volltextsuche im Transkript, synchrones Anzeigen und Positionieren im Audio und Transkript, Ausschneiden von gewünschten Audiopassagen anhand von Textmarkierungen, Auswählen eines bestimmten Sprechers und Visualisieren der Erkennungsgenauigkeit durch Wortformatierung.
Abb. 15/46. Transkriptions-Player
Standards [EBU R128] [ECMA-120] [ECMA-130] [ECMA-259] [ECMA-267] [ECMA-322] [ECMA-375] [HFBL-13IRT] [IEC 60908]
EBU – Recommendation R 128, Loudness normalisation and permitted maximum level of audio signals, 2nd Edition, 2011, EBU Standard ECMA-120, Data interchange on 12,7 mm 18-track magnetic tape cartridges, 3rd Edition, 1993, ECMA Standard ECMA-130, Data interchange on read-only 120 mm optical data disks (CD-ROM), 2nd Edition, 1996, ECMA Standard ECMA-259, Data Interchange on 12,7 mm 208-Track Magnetic Tape Cartridges - DLT 5 Format, 1st Edition, 1997, ECMA Standard ECMA-267, 120 mm DVD - Read-Only Disk, 3. Edition, 2001, ECMA Standard ECMA-322, Data Interchange on 130 mm Magneto-Optical Disk Cartridges Capacity: 9,1 GBytes per Cartridge, 1st Edition, 2001, ECMA Standard ECMA-375, Case for 120 mm HVD-ROM disk,1st Edition, 2006, ECMA HFBL-Empfehlung 13IRT, „Austausch digitaler Tonprogramme auf DAT-Kassetten”, 1993, IRT DIN EN 60908 Tonaufzeichnung - Digital-Audio-System Compact-Disc (IEC 60908:1999), 1999, Beuth
1066
15 Digitale Tonsignalspeicherung
[IEC 61119] [IEC 61120] [IEC 61595] [ISO 9660] [LTFS] [UDF]
DIN EN 61119 Digitales Tonband-Kassetten-System (DAT), 1. Aufl., 1994, Beuth DIN EN 61120 Digitales Tonbandgerät; Spulensystem mit Magnetband 6,3 mm für Studioanwendungen, 1. Aufl., 1994, Beuth DIN EN 61595 Digitales Mehrkanal-Tonbandgerät (DATR), Spulensystem für Studioanwendungen, 1. Aufl., 1998, Beuth DIN ISO 9660 Informationsverarbeitung; Datenträger- und Dateistruktur von CD-ROM für den Informationsaustausch; (ISO 9660:1988) EN 29660, 1990, Beuth Linear Tape File System (LTFS) Format Specification , Version 2.0, March 11, 2011, Quelle: Website „The LTO Program“,[http: //www.lto.org/] ISO/IEC 13346 Informationstechnik - Inhalt und Dateistruktur von einfach und mehrfach beschreibbaren Datenträgern unter Verwendung von nicht sequentiellen Aufzeichnungsverfahren für den Informationsaustausch [ECMA-167], 1999, Beuth
Nicht öffentliche Dokumente [Red Book]: [Orange Book I]: [Orange Book II]: [Scarlet Book]: [HFDB-FSS-IO]:
„Red Book”, Specification of the CD-DA, 1982, Philips „Orange Book”, Part I, Specification of the CD-МО (MiniDisk) „Orange Book”, Part II, Specification of the CD-WO (CD-R), 1990, Philips „Scarlet Book”, Specification of the Super Audio CD (SACD), 1999, Philips Spezifikation der Fremdsystemschnittstelle (FSS-IO) der neuen Hörfunkdatenbank
Literatur Beckers, T.: „Audiomining - Strategische Bedeutung von Technologieentwicklungen für Audio-Videoarchive“, WDR Köln / DW Bonn, 2012 Biaesch-Wiebke, C.: CD-Player und R-DAT-Recorder, 1. Aufl., 1988, Vogel Dirksen, F., Dittel, V., Marchlewitz, J.: „CD-Write-Once im Rundfunkbetrieb”, in: Tonmeistertagung 17, 1992, Saur, S. 558ff. Dittel, V., Kreisköther, K.-D.: „Vom Bandkarton zum Audiofile - Das Schallarchiv im Mittelpunkt moderner Funkhäuser”, in: Tonmeistertagung 18, 1994, Saur, S. 827ff. Furrer, F. J.: Fehlerkorrigierende Block-Codierung für die Datenübertragung, 1981, Birkhäuser Habermann, W.: Kanalkodierung und Kanalmodulation für die magnetische Aufzeichnung digitalisierter Videosignale, Technischer Bericht B39/82, 1982, IRT Hack, J. u. a.: Magnetische Informationsspeicher in der Daten-, Audio- und Videotechnik, 1. Aufl., 1990, Expert Herla, S., Houpert, J., Lott, F.: „From Single-Carrier Sound Archive to BWF Online Archive - A New Optimized Workstation Concept”, in: Journal of the Audio Eng. Society, Vol. 49, No. 7/8, 2001 Herla, S., Lott, F.: „Phönix aus dem Schallarchiv - Das Broadcast-Wave-File”, in: Rundfunktechnische Mitteilungen, Jahrgang 43, Heft 2, 1999 Herla, S., Mücke H.: „CD-R(ecordable) - Sprengsatz in unseren Schallarchiven?”, in: Tonmeistertagung 19, 1996, Saur, S. 759ff. Herla, S.: „Is R-DAT a Recording Format for Professional Use? - Measurements and Considerations”, in: AES-Convention February 1989, Preprint Number: 2769 Heubner, H.: „Kurzeinführung Objektmodell der neuen Hörfunkdatenbank“, Deutschlandradio Berlin, 2010 Johne, R.: Sound-Restaurierung: Praktische Tipps für die Klangverbesserung und Restauration schlechter Aufnahmen, 2020, Verlag Books on Demand Taylor, J.: DVD Demystified, 2nd Edition, 2001, McGraw-Hill Thomsen, D.: Digitale Audiotechnik, 1983, Franzis Watkinson, J.: The Art of Digital Audio, 1st Edition, 1988, Focal Press Zander, H.: Harddisk-Recording, 1. Aufl., 1993, Vogel
16 Digitale Betriebstechnik Heinz Peter Reykers Markus a Campo (16.4), Frank Lott (16.1), Maxim Graubner (16.5.6; 16.5.7), Andreas Hildebrand (16.3; 16.3.6; 16.3.7), Helmut Otto (16.3.4), Paul Vogt (16.2), Martin Wöhr (16.2.14) 16.1 Prozessstrukturen Durch die rasante Entwicklung der Digitalisierung nahm die Komplexität von Rundfunksystemen im Laufe der Zeit stark zu. Insbesondere die Vernetzung der Systeme und die medienübergreifende Zusammenarbeit zwischen Hörfunk, Fernsehen und Multimedia stiegen deutlich und wurden vielschichtiger. Analoge Produktions-, Bearbeitungs- und Sendestudios gehören heute der Vergangenheit an. Damit haben sich auch Arbeitsabläufe in den Rundfunkanstalten verändert. Ein moderner Hörfunkbetrieb muss Programmanforderungen flexibel umsetzen können und sog. Leistungspakete für Produktion und Sendeabwicklung anbieten. Technische, kaufmännische und strukturelle Anforderungen erfordern eine hohe Verfügbarkeit der Systeme, eine durchgängige Kostentransparenz sowie eine auf das Ziel gerichtete Ressourcenoptimierung. Es hat sich heute eine gemeinsame Sprache herausgebildet, die neben der originären Audiound Studiotechnik auch die damit verbundenen Abläufe, die sog. Workflows, standardisiert beschreiben kann. Um Ansatzpunkte für Optimierungen in den jeweiligen Workflows erkennen zu können und um parallellaufende Prozesse im Überblick zu behalten, ist es notwendig, sich mit den Strukturen der Prozesse und deren Vernetzung untereinander zu beschäftigen.
16.1.1 Prozessmodell Anhand eines Prozessmodells lassen sich notwendige Methoden und Arbeitsweisen im Hörfunk ableiten (s. Abb. 16/1.).
Abb. 16/1. Prozessmodell. Trotz großer Sorgfalt bei der Erstellung unserer Bücher lassen sich Fehler leider nicht immer vermeiden. Wir entschuldigen uns für die falsche Abbildung 16/42 auf Seite 1133. Die Abbildung wurde inzwischen ausgetauscht. https://doi.org/10.1515/9783110759921-016
1068
16 Digitale Betriebstechnik
Dieses Prozessmodell besteht im Wesentlichen aus den fünf Bereichen Programmanforderungen (1), Dienstleistungen (2), Kernprozesse (3), Serviceprozesse (4) und Führungsprozesse (5). Aus dem Gefüge der Prozesse ergeben sich die für die Umsetzung geeigneten Organisations- und Funktionsstrukturen. Ausgehend von der Struktur dieses Prozessmodells nach Abb. 16/1, lässt sich für einen Medienbetrieb ein weitgehend standardisiertes, sog. Prozessmapping (Prozessmap) des gesamten Unternehmens definieren, also eine Darstellung der einzelnen Prozesse innerhalb eines großen Ganzen (s. Abb. 16/2.). Daraus leiten sich die konkreten Prozessabläufe bis in kleinste Details ab.
Abb. 16/2. Prozessmap Hörfunkbetrieb.
Definition Eine Änderung der Programm-Anforderungen durch den Auftraggeber zieht naturgemäß eine Änderung / Anpassung beim Dienstleistungsangebot des Leistungserbringers nach sich. Umgekehrt können aber auch veränderte Dienstleistungsmöglichkeiten zu einer Veränderung im Programm führen. Es werden zunächst die gewünschten Anforderungen beschrieben und definiert, anschließend wird geklärt, welche Ausgangsbedingungen herrschen, um die Prozesse weiterentwickeln zu können. Mit der Definition der Leistungen wird festgelegt, welche Ziele verfolgt werden, d. h., welches Ergebnis erwartet wird. Dann werden die Kernprozesse definiert, die erforderlich sind, um die Leistungen zu erbringen. Die Kernprozesse beinhalten die grundlegenden wertschöpfenden Abläufe. Dabei werden zusätzlich Führungs- und Serviceprozesse festgelegt. Bei den Führungsprozessen handelt es sich um Aktivitäten, die den Kernprozess lenken; bei
16.1 Prozessstrukturen
1069
den Serviceprozessen um solche, die den Kernprozessen Ressourcen zur Verfügung stellen, um diese durchzuführen. Diese Überlegungen sind Grundvoraussetzung bei der Erstellung der Prozessmap.
16.1.2 Dienstleistungs-Beziehungen Die grundsätzliche Ausrichtung eines Dienstleistungsbereichs, wie ihn bspw. eine technische Abteilung einer Rundfunkanstalt darstellt, lässt sich mit Hilfe eines DienstleistungsDreiecks ableiten. Die Definition der Dienstleistungsbeziehung ist wichtig, um festzustellen, in welchem Rahmen Dienstleistungen erbracht werden sollen und können. In Abb. 16/3. wird die Dienstleistungsbeziehung im Spannungsfeld zwischen Produktstandardisierung, finanziellem Aufwand und Erfüllen von Kundenanforderungen (Programmbereiche) dargestellt. Dabei wird deutlich, dass hochwertige und exklusive Produkte nur zu Lasten von Standardisierung und Preis produziert werden können, oder aber bei hoher Produktstandardisierung und niedrigem Preis nicht alle Kundenwünsche erfüllt werden können. Die optimale Erfüllung aller Kriterien bleibt somit eine unerreichbare Idealvorstellung. Die Dienstleistungsbeziehung bewegt sich also zwischen den Extremen „schnell, billig, wenig Struktur, günstig“ und „exklusiv, hochwertig, teuer“.
Abb. 16/3. Dienstleistungs-Dreieck.
16.1.3 Organisationsstrukturen Bei der Umsetzung von Prozessen lassen sich grundsätzlich zwei Organisationsformen unterscheiden, die Funktions- und die Prozessstruktur (s. Abb. 16/4.). Grundlage der Funktionsstruktur ist das Fachspezifikum. Hierbei lassen sich z. B. die Säulen Hörfunk, Fernsehen und Multimedia definieren. Die Struktur ist hier medienspezifisch ausgerichtet und die Prozesse und Abläufe sind innerhalb der senkrechten Säulen definiert. Mit dem Einzug der Trimedialität und bei prozessualer Betrachtung steht nun das bereichsübergreifende Denken im Vordergrund. Die Prozesse und Abläufe werden an der Beschaffenheit der Inhalte definiert. Anhand dieser Kriterien wird dann auch die Organisa-
1070
16 Digitale Betriebstechnik
tionsstruktur angepasst und es kommt zu einem Perspektivenwechsel. Die Organisationsstrukturen wechseln von einer ehemals medienspezifischen Ausrichtung in eine produkt orientierte und somit trimediale Ausrichtung, so wie in Abb. 16/5. dargestellt.
Abb. 16/4. Funktions-/Prozessstruktur.
Abb. 16/5. Perspektivenwechsel.
Unter Produktorientierung versteht man die ganzheitliche und umfassende Betrachtung redaktioneller Bedürfnisse. Sie ermöglicht, je nach Produkt, d. h., je nach Welle, Hörfunk- / Fernsehprogramm, Online-Schiene etc., unterschiedliche Schwerpunkte zu setzen und die einzelnen Prozesse somit kundenbezogen, also umfassend und bis ins Detail umzusetzen. Die produktorientierte Ausrichtung und die Bündelung der Fachkompetenz haben sich als funktionierendes Konstrukt bewährt (s. Abb. 16/6.). Berücksichtigt wird dabei auch die Abbildung bspw. der Prozesse in einem Hörfunkbetrieb. Aus der konsequenten Weiterentwicklung der Prozessstruktur und des zunehmend trimedialen Ausbaus, hat sich in den Betriebsbereichen zwangsläufig ein Perspektivwechsel ergeben.
16.1 Prozessstrukturen
1071
Abb. 16/6. Organisationsstruktur.
Durch eine Bündelung der Fachkompetenz ist es möglich, die zu erbringenden Dienstleistungen Produktion und Sendeabwicklung, Service und Support, die Übertragung für die verschiedensten Distributionswege sowie alle notwendigen Zusatzdienste kompakt und reibungslos zu steuern.
16.1.4 Prozessanalyse Bei einer Prozessanalyse werden bestehende Prozesse, d. h., der IST-Stand, analysiert und dokumentiert. Kernpunkte hierbei sind: Was wird von wem, in welcher zeitlichen Abfolge und in welchem Zuständigkeitsbereich erledigt (s. Abb. 16/7.).
Abb. 16/7. IST-Prozess-Analyse.
Für eine bessere Strukturierung bei der Aufnahme von Prozessen werden die Arbeitsschritte für die Organisationsbereiche in Kategorien eingeteilt: –– Ablauforganisation, –– Arbeitsorganisation, –– Aufbauorganisation, –– Führungsorganisation.
1072
16 Digitale Betriebstechnik
16.1.4.1 Prozessoptimierung Es gibt zwei Wege zur Prozessoptimierung. Entweder anhand der IST-Analyse Schwachstellen erkennen oder einen neuen SOLL-Prozess entwickeln. Beides muss mit einer entsprechenden Dokumentation versehen sein. Bei der Prozessoptimierung stehen die beiden Phasen Analysieren und Korrigieren im Focus. In der Analysephase müssen Medienbrüche erkannt, unklare Zuständigkeiten herausgefiltert, Doppelarbeiten identifiziert und unklare Kriterien und Anforderungen aufgezeigt werden. In der Korrektur-Phase geht es darum, Prozesse umzugestalten bzw. zu verbessern. Dabei sollten Standards eingeführt werden, Prozesse vereinfacht, Arbeitsschritte zusammenzufasst oder parallelisiert werden. Doppelte Arbeitsschritte werden eliminiert und möglichst verschlankt, die Anzahl der Schnittstellen kann durch das Ausweiten von Entscheidungskompetenzen reduziert werden (s. Abb. 16/8.).
Abb. 16/8. Optimierungsmöglichkeiten.
Bei der Erstellung eines neuen SOLL-Prozesses werden Schwachstellen, Brüche und Potenziale analysiert und unter Berücksichtigung von Workflowanalysen neu gestaltet. Hierbei fließen alle durch Optimierungsmaßnahmen aufgezeigten Ansatzpunkte mit ein. Des Weiteren werden die Anforderungen aus den Strategievorgaben des Unternehmens berücksichtigt, die zuvor erarbeitet werden müssen. 16.1.4.2 Kontinuierlicher Verbesserungsprozess Prozesse müssen ständig hinterfragt, optimiert und weiterentwickelt werden. Dazu kann man die Kriterien der Methode des sog. Kontinuierlichen Verbesserungsprozesses (KVP) anwenden. Dabei werden die Phasen des plan-do-check-act-Zyklus (PDCA-Zyklus, Modell zur Umsetzung von Veränderungen) in regelmäßigen kleinen Schritten immer wieder durchlaufen. Ziel ist es, die Qualität von Prozessen unter Berücksichtigung gegebener Randbedingungen und unter Einbeziehung der Mitarbeiter zu verbessern (s. Abb. 16/9.).
16.1 Prozessstrukturen
1073
Abb. 16/9. PDCA-Zyklus.
Der KVP-Mechanismus wird in dem Moment angestoßen, in dem Verbesserungspotenzial wahrgenommen wird bzw. Störungen auftreten. Je öfter der Zyklus durchlaufen wird, desto höher ist der Optimierungsgrad.
16.1.5 Fazit und Ausblick Mit der Definition der Prozesse und der Formulierung von Zielen lässt sich ein Medienbetrieb strukturieren. Ein Mittel, um die Arbeitsabläufe und Prozesse allen Mitarbeiterinnen und Mitarbeitern leicht zugänglich zu machen, ist die Erstellung eines Online-Betriebshandbuchs, z. B. auf SharePoint-Basis. Das Online-Betriebshandbuch ist die zentrale Sammelstelle aller Informationen, die Mitarbeiterinnen und Mitarbeitern für ihre tägliche Arbeit benötigen. Es dient als Kommunikationsinstrument für zentrale Bereiche und als Nachschlagewerk für tätigkeitsspezifische und technische Informationen. Die definierten Prozesse können und sollen ebenso wie die formulierten Ziele veröffentlicht werden. Intuitive Benutzbarkeit und Navigation sind unerlässlich um Informationen schnell zugänglich zu machen. Eine Suchfunktion ermöglicht den direkten Weg zur gewünschten Information. Auf den Startseiten befinden sich außerdem grundlegende Dinge, wie aktuelle Nachrichten und bspw. ein Eventkalender. Manuals, Ziele, Vorhaben, Fehlerbücher, Tipps und Tricks, Organigramme, Dienstpläne und Formulare müssen leicht zu finden sein. Fach- und bereichsspezifische Informationen können auf den jeweiligen Bereichsseiten dargestellt werden, z. B. Checklisten, Protokolle, Beschreibungen zu Workflows und Wiki (Enzyklopädien). Sind aus dem Prozessmodell Kern-, Service- und Führungsprozesse mit den jeweiligen Aufgabenfeldern entstanden, müssen die dafür notwendigen Rollen definiert werden. Das Spektrum reicht vom Berater mit hoher Prozesskompetenz und Grundwissen, bis hin zum Experten, mit fundiertem Wissen und hoher Inhaltskompetenz im jeweiligen Bereich. Neben der klassischen Audioproduktion spielt die Podcast- sowie Web-Video-Erstellung, mit Bildmischung und Kameraführung, im modernen Medienbetrieb eine große Rolle.
1074
16 Digitale Betriebstechnik
Immer mehr Distributionswege mit verschiedenen Datendiensten erfordern eine Vielzahl unterschiedlich zu erstellenden Produkte. Neben UKW, DVB-S/C und DVB-T spielen zunehmend Digitalradio und Zusatzdienste, Podcast und Livestreaming eine große Rolle. Ebenso werden die begleitenden Bilddaten wie Slideshows, Teaserbild, Radio-Text und Inhaltsbeschreibungen per Electronic Programm Guides (EPG) ausgeweitet. Ergänzende Datendienste sind z. B. RDS, Dynamic Label, Dynamic Label Plus, Mailboxradio, Broadcast-Websites, Fahrgastinfo in Bussen und TPEG. Im Zuge der trimedialen Ausrichtung, der Ausweitung der Systemvielfalt und der damit verbundenen Zunahme der Aufgabenkomplexität, haben sich die Tätigkeitsfelder in den Medienbetrieben verändert. Das hat auch zur Folge, dass Berufsbilder angepasst und verändert werden mussten. Es ergibt sich die Notwendigkeit die Aufgaben den Prozessen zuzuordnen. Die klassischen Arbeitsfelder der Programmzentrale, der Sendetechnik, der Sprecher und Moderatoren sowie die Tätigkeiten in den Redaktionen verändern und vermischen sich, neue Berufssparten und Berufsbilder entstanden.
16.2 Betriebliche Einrichtungen Unter den zentralen Einrichtungen eines Funkhauses sind all jene Geräte, Anlagen und Systeme zu verstehen, die in ihrem Zusammenspiel die technischen Betriebsabläufe des Hörfunks ermöglichen. Die Ende des 20. Jahrhunderts einsetzende Digitalisierung des Hörfunks hat in diesem Bereich tiefgreifende technische und organisatorische Veränderungsprozesse in Gang gesetzt. Waren in der früheren Analogtechnik ausschließlich Einzelgeräte, meist in standardisierter 6 dBu-Technik durch diskrete Leitungen zusammengeschaltet, sind heutige tontechnische Anlagen und Audiosysteme nach den Regeln moderner Daten- und Informationstechnik über komplexe Schnittstellen miteinander verknüpft. Immer häufiger wird dabei auf IP-basierten Signaltransport gesetzt. Grundsätzlich ermöglicht netzwerkbasierte Studiotechnik eine sehr viel größere Flexibilität als AES/EBU und MADI basierte Systeme. Signale können auch in großer Zahl und ohne großen Mehraufwand zwischen den verschiedenen Systemen ausgetauscht werden. Gleichzeitig können Bedieneinheiten variabel den verschiedenen Verarbeitungssystemen zugeordnet werden. Vor Ort muss nur die Wandlung der Analogsignale (Lautsprecher, Mikrofone u. a.) nach bzw. aus IP erfolgen. Alle weiteren Verarbeitungsschritte können in zentralen Systemen ohne festen Bezug zum Bearbeitungsraum erfolgen. Dadurch wird es möglich, Teile der technischen Einrichtung zu virtualisieren und je nach Anforderung den Produktionsräumen zuzuweisen. Auch können mehrere Regien und Aufnahmeräume zu einer gemeinsamen Produktion zusammengeschaltet werden. So kann für eine Produktion die genau passende Infrastruktur bereitgestellt werden. Gleichzeitig können nicht verwendete Ressourcen an anderer Stelle verwendet oder gewartet werden, auch ohne Betriebsunterbrechung. Selbst die Erweiterung von Tonstudios um Videofunktionalität ist so in kleinen Schritten möglich und die Produktionsräume können trimedial genutzt werden, für bspw. die Ausspielwege Fernsehen, Hörfunk und Online. Aktuell befinden sich die oben genannten Möglichkeiten inmitten eines großen technologischen Veränderungsprozess.
16.2 Betriebliche Einrichtungen
1075
Die Erläuterungen dieses Kapitels haben deshalb nur Modellcharakter und stellen eine Momentaufnahme derzeit realisierter Einrichtungen dar. Hinzu kommen auch noch stark variierende Workflows im Zusammenspiel der Systeme, abhängig vom Anforderungsprofil der jeweiligen Rundfunkanstalt. Üblicherweise wird jedes Hörfunkprogramm in einer eigenen Senderegie abgewickelt. Sie bildet den Mittelpunkt der Zusammenschaltung von Produktionsräumen, Sprecherstudios, Tonregieanlagen, Audiospeichern und Steuersystemen sowie zahlreicher interner und externer Leitungs- und Verbindungswege. Für die Vorproduktionen von Beiträgen oder ganzen Sendungen stehen je nach Aufgabenstellung unterschiedlich ausgestattete Produktionsstudios für Wort- und Musikaufnahmen zur Verfügung. Bei entsprechender Leitungsanbindung können sie zudem auch als Vorschalt- oder Ausweichstudios für den Sendebetrieb verwendet werden, z. B. für Livesendungen von Konzerten. Für Konferenzschaltungen oder Programmübernahmen sind in den Regien zusätzliche ankommende und abgehende Leitungen vorhanden. Die für die Sendung bestimmten Tonsignale gelangen über die Senderegie in die Betriebszentrale und werden von dort aus den verschiedenen Verbreitungswegen zugeführt. Sämtliche im täglichen Betriebsablauf benötigten Signalwege werden in der Betriebszentrale über ein zentrales Koppelfeld hergestellt. Außer der Verteilung der Sendewege gehören dazu alle Schaltungen zu Übertragungswagen und Regionalstudios, zu externen Veranstaltungsstätten und zu anderen Rundfunkanstalten, sowie zu hausinternen Verbrauchern. Die interne und externe Signalführung zwischen den verschiedenartigsten Quellen und Senken findet ausschließlich auf der digitalen Ebene statt. Die zuverlässige Verteilung des AudioSystemtaktes ist dabei eine wesentliche Voraussetzung für das störungsfreie Zusammenspiel einer derart großen Zahl digitaler Audiokomponenten. Das komplette für den Betrieb benötigte Tonmaterial lagert dabei auf einem zentralen Serversystem und steht über ein Netzwerk auf dem gesamten Campus für Bearbeitung, Produktion und Sendung zur Verfügung. An jedem entsprechend eingerichteten Arbeitsplatz, im einfachsten Fall ein mit Soundkarte bestückter PC, ist es möglich, Recherchen im Audioarchiv durchzuführen und das aufgefundene Material vorzuhören. Bei erweiterter PC-Ausstattung ist eine Audiobearbeitung von Beiträgen und O-Tönen vor allem auch in Redaktionsräumen möglich. Diese Verbindung von zentraler Datenspeicherung und dezentralem Zugriff ist das herausragende und wohl auch sichtbarste Merkmal der Digitalisierung im Hörfunk. Der Transport physischer Tonträger entfällt und ist nur noch in Ausnahmefällen erforderlich. Zur Koordination derart vernetzter Betriebsabläufe in einem Hörfunkgebäude, zusammen mit seinem Korrespondentennetz im In- und Ausland und anderen Außenstellen, werden vielfältige Kommunikationseinrichtungen benötigt. Sie sind den Anforderungen entsprechend konfiguriert und können in ihrer Wirkungsweise flexibel kombiniert werden (s. Kap. 16.2.11, Intercom). Schließlich benötigt eine Medienanstalt mit ihrem elektrischen Leistungsbedarf auch eine zuverlässige Infrastruktur zur Energieverteilung (s. Kap. 16.2.13). Der Absicherung gegen Versorgungsausfälle kommt durch entsprechende Sicherungsmaßnahmen eine besondere Bedeutung zu.
1076
16 Digitale Betriebstechnik
16.2.1 Betriebszentrale Die Digitalisierung des Hörfunks brachte umfangreiche neue Einrichtungen und Systeme mit sich, deren betriebliche Betreuung im Wesentlichen in der Betriebszentrale koordiniert wird. Zu den wichtigsten Funktionen gehören: –– Übernahme der Signale aus den Sendekomplexen und Weitergabe auf alle Distributionswege: terrestrisch mit UKW und DAB, via Satellit mit DVB-S, über TV-Kabel mit DVB-C sowie über das Internet als Webstream, –– Konfiguration und Umschaltung von Sende-, Kommunikations- und Signalisierungs leitungen bei Studiowechsel oder für regionale Sendungen, –– Verbindungsaufbau zu anderen Rundfunkanstalten, Außenstudios, Korrespondenten, Übertragungswagen und Veranstaltungsorten über Satellitenverbindungen, zu Telefonnetzen und Netzwerkverbindungen, –– technische Koordination von Außenübertragungen und Events, –– Überwachung aller Distributionswege, –– Betreuung der Einrichtungen für Programmübernahme und -austausch mittels Filetransfer über Hörfunknetze (s. Kap. 16.2.10.1), –– betriebliche Überwachung der Hörfunk-Server und seiner Peripherie, –– Einleitung von Havariemaßnahmen im Störungsfall (Studiowechsel, Ersatzprogramm), –– Störungsortung und Fehlerbeseitigung in Zusammenarbeit mit den entsprechenden Fachabteilungen. Abb. 16/10 zeigt die beiden wichtigen Systeme des digitalen Hörfunks in einem vereinfachten Blockdiagramm: Koppelfeld und Leitungsanbindung.
Abb. 16/10. Die Systeme im digitalen Funkhaus.
16.2 Betriebliche Einrichtungen
1077
Neben den Verteilern und Koppelfeldern in einer Betriebszentrale gibt es noch zahlreiche weitere Einrichtungen der Betriebstechnik. So kommen der Überwachung und Kontrolle der Sende- und Empfangssignale, aber auch dem Routing der betrieblichen Kommunikation zwischen internen und externen Teilnehmerstellen hohe Bedeutung zu. Ein zentrales Tastenfeld gestattet das Vor- und Abhören aller ankommenden und abgehenden Tonsignale. Darüber hinaus können bestimmte Einrichtungen und Geräte mit eigenen Vorhörlautsprechern für direkten Zugriff ausgestattet sein, wie z. B. Lautsprecher an Kontrollempfängern. Auch lassen sich an Abhörpunkten der Tonsignalwege unterschiedliche Aussteuerungsmesser mit Korrelationsgradanzeige oder auch ein Goniometer einschleifen bzw. auftasten. Gleichzeitig mit dem Schalten von Signalwegen lassen sich auch komplexe Kommunikationswege routen. Zur Überwachung der einwandfreien Programmausstrahlung sind in der Betriebszentrale Kontrollempfänger installiert. Sie bilden das letzte Glied der Signalkette Senderegie Koppelfeld - Sendeverteilung - Sender. In den Zeiten terrestrischer Ausstrahlung über UKW und MW waren die wenigen benötigten Kontrollempfänger häufig als Festfrequenzempfänger ausgeführt. In dem Maße, in dem die Anzahl der Hörfunkprogramme pro Rundfunkanstalt zunahm, wurden diese von hochwertigen Universalempfängern abgelöst. Die Einführung von DAB und Satellitentechnik ließ die Gestelle zur Programmkontrolle weiter anwachsen, denn letztlich wird für jedes ausgestrahlte Programm pro Verbreitungsweg ein eigener Kon trollempfänger benötigt. Um eine Störung auf einem der vielen Distributionswege möglichst schnell zu erfassen, werden die aktuelle Pegelwerte aller Distributionswege parallel grafisch dargestellt. So kann der Umfang einer Störung schnell erkannt und das betroffene Signal auf die Abhöranlage geschaltet werden. Darüber hinaus existieren noch eine Reihe frei einstellbarer Empfänger für interne Mitschnitte oder für Programmübernahmen per Ballempfang, d. h. von Hauptsender zu Regionalsender mit anderer Frequenz. Die Geräte bieten die Möglichkeit einer zentralen Bedienung vom PC aus. Bei der Überwachung spielen auch die Zusatzdaten eine große Rolle. So werden auf nahezu allen Wegen, für jedes Programm begleitend, Zusatzdaten ausgesendet (s. Kap. 17.5, Programmbegleitende Dienste). In der Betriebszentrale muss überdies die korrekte Funktion der Signalisierung von Gefahrenmeldungen über UKW und DAB permanent überwacht werden können. Die weiteren Zusatzdienste gewinnen ebenfalls an Relevanz, da die Zahl der Endgeräte, die begleitende Texte oder Bilder darstellen können, stetig wächst. 16.2.1.1 Bedienung und Steuerung Die Bedienung der verschiedenen Systeme in einer Betriebszentrale erfolgt heute fast ausschließlich an Standard-PCs mit text- oder grafikbasierten Bedienoberflächen. Gelegentlich sind sog. Hardware-Controller in Verwendung, deren Bedienelemente bestimmte Funktionen in der zu steuernden Software auslösen. Kann aus Platzgründen nicht für jeden Rechner ein eigener Monitor samt Tastatur und Maus auf der Arbeitsfläche angeordnet werden, so ermöglichen geeignete Umschalter zumindest einen wechselnden Zugriff. Bei entsprechender Größe und Auflösung des Bildschirms ist auch eine Unterteilung in mehrere Anzeigebereiche möglich. Auch ist die Verwendung von Videoprojektoren (Beamer) gelegentlich im Einsatz. Die gesamte Rechnerhardware ist wegen der störenden Lüfter- und Laufwerksgeräusche entweder in schallisolierten Gestellschränken oder in einem gesonderten, meist klimatisier-
1078
16 Digitale Betriebstechnik
ten Geräteraum untergebracht und über Glasfaserleitungen mit dem Bedienplatz verbunden. In jedem Fall erfordert die abgesetzte Installation der Rechnertechnik einen beträchtlichen Aufwand beim Anschluss von Monitoren und Eingabegeräten, vor allem auch bei der Planung ergonomischer Vorschriften am Arbeitsplatz (s. auch Kap. 11.1.5, Gefährdungsbeurteilung).
16.2.2 Sendestudio Jedes Hörfunkprogramm benötigt zur Sendeabwicklung ein eigenes Sendestudio. Es ist derjenige Ort, an dem alle Elemente zusammengefügt werden, die in ihrer zeitlichen Abfolge die eigentliche Sendung ausmachen. Die Gesamtheit der Räumlichkeiten für Technik und Redaktion einer Programmwelle wird auch Sendekomplex genannt. Bei allen Gemeinsamkeiten hinsichtlich Anordnung und Ausstattung gibt es Unterschiede in der Ausführung, die sich an den Anforderungen der jeweiligen Programme orientieren. Ein zentrales Kriterium ist dabei immer, ob die Sendungen im Regie- oder im Selbstfahrerbetrieb abgewickelt werden sollen. Unabhängig vom inhaltlichen und gestalterischen Aufbau der Programme lassen sich in technischer Hinsicht eine Reihe wiederkehrender Standardfälle angeben: –– Ansagen, Moderationen und Gesprächsrunden aus dem Sprecherraum, –– Nachrichten, Wetterbericht oder Verkehrsmeldungen aus meist räumlich abgesetzten Studios, –– Musik, Beiträge und Layoutelemente aus dem digitalen Sendespeicher, –– Übernahme von Programmen oder Beiträgen einer anderen Rundfunkanstalt, bspw. einer Konzertübertragung, –– Abwicklung von Konferenzschaltungen mit Übertragungswagen, Korrespondentenplätzen, Außenstudios oder anderen Rundfunkanstalten per Leitung, Telefonnetz, Satellit oder AoIP-Verbindung, –– Übernahme eines eigenen, internen Programms bei Zusammenschaltung mehrerer Wellen, –– Übernahme einer Sendung aus einem Vorschaltstudio, bspw. eine komplexe Sportsendung oder ein Live-Hörspiel. Neben der Einhaltung der geplanten Beitragsabfolge ist die Gestaltung der Übergänge zwischen den einzelnen Programmelementen eine wichtige Voraussetzung für eine ansprechende Sendung. Das tontechnisch oft sehr unterschiedlich beschaffene Audiomaterial muss deshalb durch eine angepasste Aussteuerung im Pegel technisch und klanglich angeglichen werden. Für den Hörer soll sich ein stimmiges und in der Lautheit ausgewogenes Klangbild ergeben. In einer Hörfunkwelle mit einem breit gefächerten, anspruchsvollen Programmangebot lösen sich Inhalte ganz unterschiedlicher Dynamik und Lautheit ab, die möglichst ohne große Änderung am Lautstärkeregler wahrgenommen werden sollen: –– E-Musik - vom Soloinstrument über die Kammermusik bis zur Opernaufnahme mit großen Dynamikunterschieden, –– Popmusik - verschiedenste Stilrichtungen, die meist „laut” klingen,
16.2 Betriebliche Einrichtungen
1079
–– Jazz, Folk Chanson - kleine, vorwiegend akustisch besetzte Ensembles mit ausgeglichener Dynamik, –– Hörspiel - von der ruhigen Besinnlichkeit bis zum lautstarken Tumult, –– Livegespräch am Studiomikrofon - vielfach mit im Sprechen unerfahrenen Personen, –– Telefoninterview mit unterschiedlicher technischer Audioqualität - vom ruhigen Zimmertelefon bis zum Mobiltelefon im fahrenden Auto, –– Mitschnitt von Hörfunk- oder Fernsehprogrammen, die bereits eine sendeseitige Tonsignalaufbereitung durchlaufen haben, –– Umfragen oder Gespräche in unterschiedlicher Umgebung - vom ruhigen Park bis zur lauten Hauptverkehrsstraße oder Werkhalle. Ein angemessener Lautstärkeverlauf oder eine geglückte Mischung über den ganzen Sendetag hinweg, lässt sich bei einer solchen Materialvielfalt mit keiner automatisierten Dynamikbearbeitung erzielen. Letzte Instanz für die ausgewogene Aussteuerung und ihre technische, wie ästhetische Beurteilung ist nach wie vor ein geschultes Sendepersonal mit erfahrenem Gehör. Dabei ist es hilfreich, dass in der Senderegie nicht nur die abgehende Sendesumme, sondern das tatsächliche Sendesignal nach der Tonsignalaufbereitung abgehört wird. Der zunehmende Einsatz von kleinsten Audioelementen zur akustischen Ausgestaltung der Programme (Jingles, Teaser usw.), insbesondere in den Formatprogrammen, hat in klanglicher, wie auch zeitlicher Hinsicht zu einer starken Verdichtung des Sendungsablaufes geführt, dessen stimmige und lautheitsgerechte Sendeabwicklung eine große Herausforderung für Technik und Personal darstellt.
16.2.3 Konventioneller Regiebetrieb Der konventionelle Regiebetrieb ist die klassische Sendeform im Hörfunk. Hier wird das Programm von Moderator und Techniker arbeitsteilig abgewickelt. Je nach Komplexität des Sendungsablaufes kann noch eine zusätzliche Person, in der Regel ein redaktioneller Mitarbeiter, mit Regieaufgaben neben der Sendung betraut sein, z. B. Konferenzgespräche vorbereiten oder kurzfristig eintreffende Beiträge abhören und ggf. schneiden und in den Sendeplan übernehmen. Ein Sendekomplex umfasst in diesem Fall einen Regieraum und, durch schallisolierende Fenster von diesem getrennt, mindestens einen, häufiger jedoch zwei Sprecherräume. In der Senderegie sind sämtliche für die Programmabwicklung benötigten technischen Einrichtungen installiert, wie z. B. das Sendepult, die verschiedenen Bildschirme, Tastaturen und Steuergeräte für Zugriffe auf den Sendeplan und andere Ressourcen des Sendebetriebs, die Geräte für digitale und ggf. analoge Tonträger sowie verschiedene Kommunikationseinrichtungen mit eigenen Bildschirmen und Bediengeräten. Im Sprecherraum sind mindestens ein Mikrofon für den Moderator und zusätzlich mehrere Gästemikrofone angeordnet. Sie alle sind in der Regel als Monomikrofon mit nieren förmiger Richtcharakteristik ausgeführt. Das führende Sprechermikrofon kann über eine Räuspertaste kurzzeitig stumm geschaltet werden. Eine Besonderheit stellt die Möglichkeit eines Stereomikrofons mit der Richtcharakteristik eines waagerecht liegenden Torus für
1080
16 Digitale Betriebstechnik
Monowiedergabe dar, welches für Gespräche am runden Tisch gut geeignet ist. Dabei werden zwei gekreuzte Achten unter 90° Phasenverschiebung zusammengeschaltet; senkrecht einfallender Schall wird weitgehend ausgeblendet, während waagerechter Schalleinfall aus allen Richtungen aufgenommen wird (s. Kap. 5.6.2.2, Gesprächsrunden). Zum Abhören des laufenden Programms dienen Lautsprecher und Kopfhörer, wobei die Lautsprecher im Sprecherraum bei Öffnen eines beliebigen Mikrofons über den zugehörigen Rotlichtkontakt im Sendepult zur Vermeidung von Rückkopplungen stumm geschaltet werden. Eine Anwahltastatur gestattet ferner das Abhören des Sendesignals und weiterer Quellen. So können bspw. bei Sportsendungen ankommende Leitungen vorgehört oder bei Konferenzschaltungen Vorgespräche geführt werden. Auf Bildschirmen werden der aktuelle Sendeablaufplan angezeigt, aber auch Moderationstexte und Servicemeldungen. Ein Kommandomikrofon mit Sprechtaste dient der Verständigung zwischen Regie- und Sprecherraum, wobei das ankommende Kommando außer auf den Kopfhörer entweder auf einen der Abhörlautsprecher oder auf einen eigenen, im Sprechertisch eingelassenen Kommandolautsprecher gelegt sein kann. Dieser wird dann bei geöffnetem Mikrofon ebenfalls stumm geschaltet.
16.2.4 Selbstfahrerbetrieb Beim Selbstfahrerbetrieb übernimmt der Moderator die Aufgaben von Sendetechniker und Ablaufredakteur in Personalunion. Dies bedeutet zuallererst den Wegfall der räumlichen Trennung zwischen Regie- und Sprecherraum. An die Ergonomie des Arbeitsplatzes sind besondere Anforderungen zu stellen. Alle Bedienelemente müssen in Reichweite des Moderators angeordnet sein, ohne dass dabei die Position zum Mikrofon verlassen wird. Entsprechendes gilt für die Aufstellung der Bildschirme. Selbstfahrerstudios verfügen in der Regel über mehrere Gästemikrofone. Die Dimensionierung des Sendepults sowie Art und Anzahl der Wiedergabegeräte richten sich nach dem vorgesehenen Einsatzspektrum. Es existieren von vorneherein für Selbstfahrerbetrieb ausgelegte Pulte, deren Bedienelemente auf das Wesentliche reduziert sind. Ihr Einsatz ist aber nur dann sinnvoll, wenn das jeweilige Programm dem Sendekomplex dauerhaft zugeordnet ist und innerhalb dieses Komplexes ein vergleichbar ausgestattetes Ausweichstudio für Notfälle vorhanden ist. Häufig wird innerhalb eines Funkhauses eine weitgehend einheitliche technische Ausrüstung angestrebt, zur Erleichterung der Bedienbarkeit für das Personal, zur Ersatzteilhaltung u. a. Ein voll ausgebautes Selbstfahrerstudio ist in seiner technischen Ausstattung mit einer regulären Senderegie vergleichbar. Dennoch ergeben sich aus der Besetzung mit nur einer Person Einschränkungen hinsichtlich der abzudeckenden Betriebsfälle und Sendungsformen. Gelegentlich wird bei komplexen Sendungen, wie z. B. für die Sportberichterstattung, eine Art Mischbetrieb praktiziert, bei dem eine zweite Person zur technischen oder redaktionellen Unterstützung am Selbstfahrerplatz mit anwesend ist. Eine universelle Lösung für die vielseitigen Anforderungen an den Sendebetrieb stellt die Zusammenfassung einer Senderegie, eines Selbstfahrerstudios und zweier Sprecherräume zu einem Sendekomplex dar.
16.2 Betriebliche Einrichtungen
1081
16.2.4.1 Leitungsanbindung Die Signale sämtlicher im Betrieb benötigten Tonquellen müssen im Sendepult auf Pegelstellern verfügbar sein. Umgesetzt wird dies über eine auf der digitalen Signalebene arbeitende digitale Kreuzschiene, die logisch in das Sendepult integriert ist. An ihr sind eingangsseitig die Ausspielwege des Sendeservers, die digitalen Internleitungen aus der Betriebszentrale sowie weitere digitale Quellen über AES/EBU, MADI und IP angeschlossen. Auch können in der Senderegie die Eingänge mit frei wählbaren Leitungen belegt werden, wie z. B. die Ausgänge von Audiocodecs, hausinterne Tonsignale aus einem Vorschalt- oder Selbstfahrerstudio, Leitungen von Außenstudios oder Verteilleitungen des ARD-Sternpunktsystems. Analoge Geräte, wie Mikrofone, sind über entsprechende Wandlerkarten angebunden. Plattenspieler für Vinyl-Schallplatten kommen im digitalen Sendebetrieb nur bei Disc-JockeySendungen zum Einsatz. Die Abwicklung von Konferenzschaltungen erfolgt grundsätzlich unter Verwendung eigentonfreier Rückleitungen. Für dieses Verfahren hat sich auch der Ausdruck „n‑1 Technik“ eingebürgert. Bei einer Konferenz mit n Teilnehmern wird jeder Teilnehmer über die für ihn bestimmte Rückleitung nur mit den Anteilen der anderen Gesprächsteilnehmer versorgt, während das eigene Signal nicht zugespielt wird. War die n-1 Technik bspw. bei Verbindungen über ISDN-Audiocodecs auch im analogen Umfeld bereits notwendig, so ist sie bei ausschließlich digitaler Signalführung unverzichtbar. Die große Zahl aktiver Komponenten im Signalweg führt zu systembedingten Laufzeiten (Latenzen), die sich bei nicht eigentonfreier Rückführung beim entfernten Gesprächspartner im günstigsten Falle als unerwünschte Klangfärbung darstellen, bei längeren Laufzeiten jedoch ein flüssiges Sprechen unmöglich machen. Je nach Ausführung und Konfiguration des Regiepults wird diese Aufgabe unterschiedlich gelöst. Eine komfortable Variante besteht darin, zu jeder von der Betriebszentrale in die Regie geführten Leitung eine zugehörige Rückleitung vorzusehen. Die benötigten eigentonfreien Summensignale werden pultintern gebildet und können an Ausgängen der oben erwähnten Kreuzschiene abgegriffen werden. Zur Übernahme von Telefongesprächen gibt es mehrere Möglichkeiten, angefangen vom Telefon-Anschaltgerät (Telefonhybrid) bis hin zu kompletten Telefonanlagen, die umfangreiche Gestaltungsmöglichkeiten bieten, insbesondere bei Sendungen mit Hörerbeteiligung. Vom Sendeausgang des Regiepults wird das fertig gemischte Tonsignal schließlich über den Sendeschalter in die Betriebszentrale geführt und von dort über das Koppelfeld weiter verteilt; übliche Ausstattung sind zwei getrennte Stereo-Endsummen. Der Sendeschalter dient dann dazu, den zugehörigen Sendeweg in Betrieb zu nehmen, das Sendestudio frei zuschalten oder ein Havarieprogramm zu übernehmen. Darüber hinaus kann eine weitere Schaltposition bei Wechsel des Studios im laufenden Betrieb vorgesehen sein, bei der die Sendeleitung statt mit der eigenen Sendesumme mit dem Ausgang eines anderen Studios belegt wird. So kann ein und dasselbe Hörfunkprogramm auf einfache Weise abwechselnd in verschiedenen Studios abgewickelt werden. Zum Zeitpunkt der Umschaltung muss lediglich gewährleistet sein, dass das abzulösende und das neu hinzukommende Studio ein identisches Signal abgeben. Dies ist bspw. beim Lesen der Nachrichten aus einem Nachrichtenstudio der Fall, sofern in beiden Sendestudios der Pegelsteller in gleicher Stellung geöffnet ist.
1082
16 Digitale Betriebstechnik
Alternativ kann der Wechsel zwischen verschiedenen Sendestudios nicht ablösend, sondern summierend erfolgen. In diesem Fall werden die Signale der beiden Studios zusammen gemischt. An jedes Studio wird ein eigentonfreies Rückprogramm gesendet. Die Übernahme kann dann zum vereinbarten Zeitpunkt oder durch ein Stichwort in der Moderation erfolgen. 16.2.4.2 Weitere Einrichtungen Neben den tontechnischen Standardeinrichtungen in einer Senderegie sind noch weitere technische Einrichtungen zum reibungslosen Ablauf einer Sendung wichtig. Eine Kommando-Sprechstelle ermöglicht rasche und zielgerichtete Betriebsabsprachen sowohl innerhalb des Sendekomplexes, z. B. in die Sprecherräume, als auch mit der Betriebszentrale, den Nachrichtenstudios oder den diversen Außenstudios. Auch finden sich in den Senderegien und Sprecherstudios Tasten zum Auslösen der Verkehrsfunk-Durchsage-Signalisierung sowie zum Anzeigen der Rückmeldung des momentanen Zustandes (Durchsage ein / aus). Sie sind Bestandteil des RDS-Datenstroms, der über Datenleitungen zu den Senderstandorten gelangt (s. Kap. 17.5.3, Datenmanagement). Die Rückmeldung wird durch Auswertung des Schaltausgangs eines entsprechenden Kontrollempfängers in der Betriebszentrale gewonnen und gibt somit Aufschluss über den tatsächlichen Zustand „über Sender”. Als weitere Abhörquellen stehen mindestens die Sendesummen, die Sendewege vor und nach Sendeschalter sowie diverse Kontrollempfänger zur Verfügung. Das früher übliche Abhören des Empfängers während der Sendung ist heute wegen der unterschiedlichen Signallaufzeiten beim Rückempfang nur noch eingeschränkt möglich. Andererseits ist gerade bei einem starken Processing des Sendesignals die auditive Kontrolle des tatsächlichen Sende signals hinsichtlich Dynamik und der damit verbundenen Audioqualität wichtig. In diesem Fall besteht eine Abhörmöglichkeit hinter dem Ausgang des jeweiligen Audioprozessors. Nachrichten-, Wetter- und Verkehrsstudios, meist räumlich weit entfernt vom jeweiligen Sendekomplex, können, je nach Anforderung als einfacher Sprecherraum mit nur einem Mikrofon und einer kleinen Abhöreinrichtung ausgeführt sein, aber auch über die flexiblere Ausstattung eines Selbstfahrerplatzes verfügen.
16.2.5 Vorproduktion Zur Herstellung von Beiträgen und vorproduzierten Sendungen befinden sich in einem Funkhaus Technikräume, die sich je nach vorgesehener Produktionsarten im Umfang der tontechnischen Ausstattung unterscheiden. Eine gut ausgebaute Produktionsregie reicht dabei fast an ein Sendestudio heran. Abb. 16/11 zeigt die Einbettung eines universell einsetzbaren Studios in die Signalverteilung des Hörfunks. Weniger aufwändig eingerichtete Produktionsräume dienen vorwiegend dem Bearbeiten von Audiomaterial aus dem digitalen Archiv oder der Aufnahme von kurzen Reporter-OTönen. Auch die Variante eines Selbstfahrer-Produktionsstudios ist heute üblich.
16.2 Betriebliche Einrichtungen
1083
Abb. 16/11. Prinzipielle Leitungsanbindung eines Sende- oder Produktionsstudios.
16.2.6 Bearbeitungsräume Sind die Aufnahmen für eine Produktion oder einen Beitrag abgeschlossen, kann die weitere Bearbeitung auch in speziellen Tonbearbeitungsräumen erfolgen. Die Anforderungen bezüglich Raumakustik sind weniger streng als bei Räumen, in denen auch Aufnahmen angefertigt werden. Die Ausgestaltung ist daher auf eine ausreichend gute Abhörsituation ausgerichtet. Eine direkte Anbindung an die zentrale Audioinfrastruktur erfolgt bei klassisch gestalteten Bearbeitungsräumen nicht oder zumindest nicht in dem Umfang wie bei vollwertigen Produktionsstudios. Allerdings erfolgt die Trennung zwischen Büroarbeitsplatz und Produktionsarbeitsplatz zur Nachbearbeitung bis hin zum kleinen Produktionsstudio in modernen Produktionsumgebungen, häufig nicht mehr so strikt. Durch flexible Zuordnung von zentralen Ressourcen können Arbeitsplätze flexibel für die verschiedenen Anforderungen angepasst werden. So können Audioinfrastruktur wie Mischpulte und Rechnertechnik zentral installiert und je nach Bedarf einem Arbeitsplatz oder Raum zugeordnet werden. Auch mit einem fest zugeordneten PC, einer höherwertigen Soundkarte, einem Headset und moderner Softwareausstattung, können einfache Produktionsformate wie Telefoninterviews oder die Aufnahme von Moderationen, auch an Büroarbeitsplätzen oder in einfachen Bearbeitungsräumen erfolgen. Gerade bei nachrichtenbasierten Programmen ist diese Flexibilität sehr willkommen, und entsprechende Abstriche bei der Aufnahme in akustisch nicht perfekten Umgebungen werden unter Umständen in Kauf genommen.
16.2.7 Infrastruktur und Audiosignalverteilung 16.2.7.1 Koppelfelder AES Technisches Herzstück der Signalverteilung im Hörfunk sind die Koppelfelder für digitale Audio- und Videodaten, sowie für Zusatzinformationen (Metadaten wie Titel, Interpret,
1084
16 Digitale Betriebstechnik
Slideshow, etc.), welche Studios, Leitungen und Übertragungseinrichtungen aller Art gemäß den betrieblichen Anforderungen rückwirkungsfrei und flexibel miteinander verbinden (s. Kap. 8.4.2, Koppelfelder und Kap.14.1.3, Kreuzschienen). Eine frühe technische Lösung war der von Hand zu bedienende analoge Kreuzschienenverteiler. Die Tonsignale der ankommenden Quellen wurden über die Waagerechte einer rechteckigen Steckmatrix eingespeist, die Senkrechte dienten ihrer Ableitung und Weiterverteilung zu den Senken. An jedem Kreuzungspunkt konnten Waagrechte und Senkrechte durch Setzen eines Steckers miteinander verbunden werden. Diese Bauform gestattete zwar einen raschen und unmittelbaren Zugriff, stieß aber bei umfangreichen oder sich häufig ändernden Schaltungen rasch an ihre Grenzen. Die weitere technische Entwicklung führte dann zu sehr komplexen, aus mehreren kaskadierten Untereinheiten aufgebauten Verteilern, bei denen die Steckverbindungen von Koppelpunkten in Halbleitertechnik abgelöst wurden. Seitdem ist auch eher von Koppelfeldern als von Kreuzschienen die Rede. Die Handhabung erfolgte mit speziellen Bediengeräten, bald aber auch schon über Rechner mit entsprechender Steuerungssoftware. Das allen Koppelfeldern dieser Art zugrunde gelegene Strukturkonzept wurde als Raummultiplex bezeichnet. Eine Vielzahl gleichzeitig anliegender Signale wurde weitergegeben, indem für jedes einzelne Signal ein eigener physischer Übertragungskanal vorhanden war (s. Abb. 16/12).
Abb. 16/12. Prinzipielle Darstellung von Raumund Zeitmultiplex.
Im Gegensatz zur lange Zeit bewährten Analogtechnik, kommen digitale Koppelfelder durch das Zeitmultiplexverfahren ohne real existierende Koppelpunkte aus. Dabei werden die an den Eingängen anliegenden digitalisierten Audiosignale durch zyklische Abtastung zu einem Datenstrom gebündelt, der sämtliche Eingangssignale als zeitliche Abfolge kleinster Datenpakete enthält. Wird dieser Datenstrom zu definierten Zeitpunkten auf die verschiedenen Ausgänge des Koppelfeldes durchgeschaltet, erhält jeder Ausgang ausschließlich Anteile des für ihn bestimmten Eingangssignals, und zwar in seiner ursprünglichen Gestalt. Man spricht hier vom so genannten Zeitschlitzverfahren. Sowohl der geschilderte Mechanismus als auch die eigentliche Signalführung innerhalb des gesamten Koppelfeldes bleiben für den Anwender unsichtbar, da die Funktionalitäten von der in Festwertspeichern abgelegten Betriebssoftware des Systems übernommen werden. Das Schalten von Verbindungen und die Überwachung des Betriebszustands erfolgt über grafik- oder textbasierte PC-Bedienoberflächen. Auch externe Rechnersysteme und deren Bedienfunktionen können über geeignete Schnittstellen Zugriff auf bestimmte Teile des Koppelfeldes erhalten und dort Aktionen auslösen.
16.2 Betriebliche Einrichtungen
1085
Abb. 16/13. Dezentraler Aufbau eines modernen Koppelfeldes.
Einrichtungen dieser Art bilden keinen einheitlichen Geräteblock mehr, sondern bestehen aus einzelnen Modulen, die über den gesamten Standort einer Medienanstalt verteilt sein können. Sie sind über eigene, redundant ausgeführte Glasfaserstrecken miteinander verknüpft (s. Abb. 16/13). Durch einen solchen dezentralen Aufbau übernimmt das Koppelfeld heute nicht mehr nur die Verschaltung der Signale, sondern auch deren Transport in Form eines Datenstroms. Die Anbindung digitaler Geräte und Einrichtungen erfolgt dabei über AES/EBU- oder MADI-Schnittstellen. Für die noch wenigen analogen Signale stehen entsprechende Wandlerkarten an den Ein- und Ausgängen zur Verfügung. Die heute im Broadcastbereich gebräuchlichste Signaldarstellung nutzt systemweit eine Auflösung von 24 Bit pro Kanal bei 48 kHz Abtastfrequenz. Eine digitale Koppelfeldinstallation kann mehr als 1500 x 2500 Ein- und Ausgänge verwalten. Die Zahl der gleichzeitig schaltbaren Verbindungen hängt von der Anzahl verfügbarer Zeitschlitze ab und wird im Wesentlichen von der Bestückung und Topologie der einzelnen Module bestimmt. Ein exakter Wert für die Routing-Kapazität kann deshalb nicht ohne nähere Systemspezifikation angegeben werden; dies ist nur bei Koppelfeldern möglich, die aus realen Koppelpunkten aufgebaut sind. Ein großes Koppelfeld umfasst nicht nur die zur täglichen Betriebsabwicklung benötigten Quellen und Senken, sondern ist in der Lage, die gesamte Tonsignalverteilung eines Funkhauses zu übernehmen. Aufwändige, großflächige Rangierverteiler mit ihren fest verdrahteten Verbindungen gehören damit der Vergangenheit an und werden von rein softwaremäßig zu schaltenden Signalwegen abgelöst.
1086
16 Digitale Betriebstechnik
16.2.7.2 Übertragung im Netzwerk Neben den Verfahren AES/EBU und MADI wurden in den letzten Jahren eine Vielzahl neuer Standards zur Übertragung von Audiosignalen entwickelt. Ziel war es zunächst, als Verkabelungsinfrastruktur klassische Netzwerkkabel einzusetzen. Dadurch kann für PC-Netzwerke und den Audiosignaltransport die gleiche Verkabelungsinfrastruktur verwendet werden. Bereits bei frühen Varianten der Audionetzwerkstandards, wie z. B. Ethersound, kommt die Netzwerk- / Ethernet-Verkabelung zum Einsatz (s. Kap. 16.3.1). Allerdings unterscheiden sich diese frühen Standards mit ihren Merkmalen auf den höheren OSI-Schichten der IPNetzwerktechnik, so dass der Einsatz von aktiven Switches als Netzwerkkomponenten, bzw. -knoten, nicht möglich ist. Der Vorteil gegenüber einer klassischen Infrastruktur, bestehend aus Audio- und Netzwerkverkabelung, beschränkte sich darauf, dass für Audioverbindungen die gleichen Kabeltypen wie für Netzwerkverbindungen zum Einsatz kommen. Mittlerweile dominieren IP-basierte Systeme den Markt. Durch die Verwendung von standardisierten Switchen können hier Signale nahezu beliebig gebündelt und verteilt werden. Bei Endgeräten sind der Anzahl und Übertragungsbitraten kaum Grenzen gesetzt. So können mit Netzwerktechnik „virtuelle“ Koppelfelder entstehen, die in der Anzahl der Signalquellen und Senken klassische Audiokreuzschienen um Größenordnungen übertreffen. Der Übergang zu, sowie der Transport in Weitverkehrsnetzen (WAN) ist ebenfalls möglich. 16.2.7.2.1 Besonderheiten bei Audio über IP Bei der Verwendung von IP zum Transport von Audiodatenströmen ergeben sich einige grundlegende Unterschiede gegenüber den Systemen AES/EBU und MADI, auf die hier kurz eingegangen wird. Details sind im Kap. 16.3. Audionetzwerke erläutert. Audiokanäle im Stream Die Audioübertragung im Netzwerk erfolgt durch Netzwerkstreams. Ein Netzwerkstream wird durch eine Signalquelle erzeugt und ins Netzwerk abgegeben. Ein Stream kann aus einem oder mehreren Audiosignalen bestehen. Typische Streamkonfigurationen sind zum Beispiel zwei Signale (Stereo), acht Signale (Surround 5.1+Stereo), 64 Signale (MADI Umsetzung). Zu beachten ist an dieser Stelle, dass sowohl Sender als auch Empfänger nota bene die verwendete Streamkonfiguration unterstützen. Multicast Ein Stream kann an eine einzige (unicast) Signalsenke (Empfänger) gesendete werden. Viel häufiger wird jedoch das Multicastverfahren verwendet. Beim Multicastverfahren wird der Stream mit einer Multicast-Adresse ohne konkretes Ziel ins Netzwerk gestreamt. Mit Multi cast ist somit eine 1:n-Beziehung zwischen Quelle und Senke(n) möglich. Beliebig viele Empfänger können diesen Stream dann empfangen. Somit entstehen die gleichen Möglichkeiten wie bei klassischen Koppelfeldern. Paketierung Der kontinuierliche Audiodatenstrom einer AES/EBU oder MADI Übertragung muss in einzelne, diskrete Pakete aufgeteilt werden. Der Sender / die Signalquelle sammelt zunächst
16.2 Betriebliche Einrichtungen
1087
eine zu definierende Anzahl Audiosamples und bündelt diese in ein Paket. Erst wenn der Sammelvorgang abgeschlossen ist, kann das Paket gesendet werden. Das Absenden an sich dauert, abhängig von der Verbindungsgeschwindigkeit (Ethernet-Link Geschwindigkeit) und der Paketgröße, eine bestimmte Zeit. Beim Transport kommt es zu weiteren Verzögerungen. Diese bestehen aus zwei Komponenten: Einerseits die vernachlässigbare Zeit der Fort bewegung auf dem Träger, z. B. beim Cat. 7 Kupfer-Kabel, und der Verarbeitungszeit in den aktiven Netzwerkkomponenten, die das Paket auf dem Weg zwischen Sender und Empfänger passiert. Am Sender angekommen, wird das Paket vollständig im Arbeitsspeicher abgelegt, bevor die Samples weiterverarbeitet werden können. Insgesamt muss gegenüber dedizierten Audioübertragungssystemen wie AES/EBU und MADI meist mit größeren Übertragungszeiten gerechnet werden. Entscheidende Größen sind die Bitraten und Paketzeiten der Verbindungsgeschwindigkeit sowie die Anzahl der aktiven Netzwerkkomponenten, die das Signal zwischen Sender und Empfänger passiert. Redundante Streams Um die Zuverlässigkeit bei der Übertragung von Audiostreams im Netzwerk zu erhöhen, können diese redundant übertagen werden. Das Verfahren ist im Standard [SMPTE ST2022-7] definiert. Im Idealfall sind alle Netzwerk-Komponenten doppelt ausgeführt; der Sender gibt identische Audiosamples über zwei redundante Streams über zwei Netzwerkschnittstellen an das Netzwerk ab. Die Streams werden über zwei separate Netzwerk-Switch-Infrastrukturen bis zum Empfänger übertragen und dort auf zwei verschiedenen Netzwerkschnittstellen empfangen (s. Abb. 16/14). Auf diese Weise können kleinere Fehler, wie zum Beispiel der Verlust eines einzelnen Pakets kompensiert werden. Die Information des fehlenden Pakets kann aus dem redundanten Strom entnommen werden. Auch der komplette Ausfall eines Netzwerkswitchs kann auf diese Weise kompensiert werden, wenn die redundanten Streams nicht beide über den betreffenden Switch laufen.
Netzwerkschnittstelle A
Netz A
Signalquelle Netzwerkschnittstelle B
Netzwerkschnittstelle A
Signalquelle Netz B
Netzwerkschnittstelle B
Abb. 16/14. Redundante Streams.
Bei größeren Installationen im 24h Sende-Dauerbetrieb ist eine redundante Auslegung der Infrastruktur unerlässlich, da sonst keine Wartung des Netzwerks möglich ist. Im Bereich der Netzwerktechnik muss stets die Möglichkeit gewahrt sein, sicherheitsrelevante Updates einspielen zu können.
1088
16 Digitale Betriebstechnik
16.2.8 Synchronisation Alle zentralen Geräte und Einrichtungen der digitalen Audiotechnik in einem Rundfunkbetrieb benötigen zum Betrieb ein präzises Taktsignal. Es entspricht der Abtastrate der gewählten Audiocodierung, die im Rundfunkbetrieb üblicherweise fs = 48 kHz beträgt. Dieses Signal muss technisch bedingt aus einer einzigen Quelle zugeführt werden. Die Verwendung mehrerer Quellen oder interner Taktgeneratoren verbietet sich wegen unvermeidbarer minimaler Frequenz- und Phasenabweichungen der Signale untereinander. Die Folge wären Fehler und Störungen bei der Datenübertragung, die sich als wiederkehrende störende Klickgeräusche bemerkbar machen (s. Kap. 13.1). Zu den Geräten, die über die zentrale Taktversorgung getaktet werden müssen, zählen: –– zentrale Audiokreuzschienen, –– zentrale Videokreuzschienen, –– DSP-Träger der diversen Mischpultsysteme. Da die meisten Mischpulte und Kreuzschienen an den digitalen Eingängen mit SamplerateConvertern (SRC) ausgestattet sind, werden angeschlossene Zuspieler wie CD-Player oder filebasierte Zuspieler nicht extern getaktet, sondern laufen mit dem geräteeigenen Taktgenerator. Durch die SRCs ist gewährleistet, dass auch in diesem Fall das Signal ungestört übertragen werden kann. Ebenso ist hier eine Anpassung von diversen Taktraten auf den zentralen Haustakt möglich. Der Takt wird aus einem hochfrequenten Referenzsignal durch Frequenzteilung gewonnen. Zu dessen Generierung werden meistens Taktsignale aus hochgenauen GPS-Uhren verwendet, die dann durch entsprechende Teilungsverhältnisse sowohl die Video- als auch die Audiosysteme takten. Üblicherweise werden die Taktsysteme redundant ausgeführt, so dass bei Ausfall des Hauptgenerators das Ersatzsystem die Taktversorgung übernehmen kann. Bei einem Totalausfall dieses Systems werden die angeschlossenen Systeme automatisch auf MADI- oder AESTaktung umgeschaltet. Unter Ausnutzung der selbsttaktenden Eigenschaft des MADI- und AES/ EBU-Formatrahmens, kann in diesem Fall ein zentrales Audiokoppelfeld die Taktversorgung der angeschlossenen Subsysteme (Mischpulte, Subkreuzschienen o. ä.) übernehmen. Kommt in der Infrastruktur neben AES/EBU und MADI auch IP zum Einsatz, muss dies auch bei der Taktversorgung berücksichtigt werden. Der Takt für IP muss absolut synchron zum AES-Takt laufen, um störungsfreie Übergänge zu gewährleisten. Dies kann bspw. durch die entsprechende Systemarchitektur sichergestellt werden. Typischerweise kann eine hochpräzise PTP-Versorgung über Satellit aus dem GPS-, GLONASS-, GALILEO- oder BEIDou-Signal abgeleitet und über einen hochstabilen Quarz gegen Ausfall gesichert werden (s. Kap. 16.3.4.1). Aus dem PTP-Signal können dann, je nach Bedarf zentral oder dezentral, Takt signale für Audio und Video generiert werden.
16.2 Betriebliche Einrichtungen
1089
GP S
Zeit via GPS
Taktzentrale Zeit via PTP
IP-Netzwerk
Takt via Wordclock
Zeit via PTP
AES67 Mischpult
synchron
MADI Kreuzschiene
Abb. 16/15. Synchronisation.
16.2.9 Logik und Steuerung 16.2.9.1 Steuerung Die Bedienung eines digitalen Koppelfeldes orientiert sich im einfachsten Fall am Vorbild der analogen rechteckigen Matrix. In einer entsprechenden Bildschirmgrafik können Quellen und Senken durch Mausklick miteinander verbunden oder voneinander getrennt werden (s. Abb. 16/16). Diese Darstellung ist zwar anschaulich, aber nur bedingt praxistauglich. Neben der mangelhaften Übersichtlichkeit ist von Nachteil, dass eine Steuerung der Koppelpunkte zu definierten Zeiten nicht möglich ist. Dies schränkt den Workflow für ein modernes Schaltsystems deutlich ein.
1090
16 Digitale Betriebstechnik
Abb. 16/16. Matrix zur Koppelfeldbedienung.
Komplexe Koppelfelder werden deshalb heute überwiegend mittels textbasierter Steuerungssoftware ausgerüstet. Mit der namentlichen Eingabe von Quellen und Senken können in verschiedenen Varianten auch zeitgesteuerte Schaltungen ausgeführt werden, sei es einmalig oder wiederholt in frei festlegbaren Zyklen, wie z. B. täglich, jeden zweiten Tag, an einem bestimmten Wochentag, mit oder ohne Kollisionsprüfung usw. Darüber hinaus können mehrere Einzelschaltungen zu Blöcken zusammengefasst und unter frei wählbaren Namen abgespeichert und aufgerufen werden. Diese Funktionalitäten stellen nicht nur eine Vereinfachung der Bedienbarkeit dar, sondern reduzieren auch das Fehlerrisiko bei regelmäßig wiederkehrenden Aufgaben wie z. B. bei Studio- oder Senderkettenumschaltungen. Bereits erwähnt wurde die Möglichkeit, über geeignete Schnittstellen Aktionen auch von anderen Systemen in der Kreuzschiene auslösen zu lassen. Dies kann bspw. eine im Haus eingesetzte Dispositionssoftware sein. Bei Bestellung einer Konferenz mit einem Außenstudio werden dann nicht nur alle Beteiligten über den augenblicklichen Status informiert,
16.2 Betriebliche Einrichtungen
1091
sondern die zum Aufbau der Konferenz notwendigen Schaltungen werden auch automatisch zeitgesteuert ausgeführt. 16.2.9.2 Logik und Zustände In den betrieblichen Einrichtungen gibt es neben einer Vielzahl von Audiosignalen auch eine große Anzahl von Betriebszuständen, die zwischen verschiedenen Systemen und Produktionseinheiten ausgetauscht und verarbeitet werden müssen. Die Anforderung wird hier zunächst am Beispiel Rotlichtsignal (auch Raumsperre) grob erläutert: Der Zustand „Rotlicht“ an / aus wird typischerweise am Mischpult abgegriffen. Ist einer der Mikrofonregler geöffnet, wird der Zustand Rotlicht „an“ aktiviert. Dieser Zustand muss nun verschiedene Dinge auslösen. Im Mischpult selbst muss die Lautsprecherabschaltung erfolgen, um eine Rückkopplung zu verhindern. Sollte ein entsprechendes Mitschnittsystem vorhanden sein, muss der Zustandswechsel auch dort signalisiert werden, damit ein automatischer Mitschnitt der Moderation aktiviert werden kann. Weiterhin muss der Zustand ggf. an die Gebäudetechnik übergeben werden, um damit vor dem Raum eine Signalleuchte zu aktivieren, die vor dem Eintreten entsprechend zu warnen. Ist nun die Zuordnung von Sprecherraum und Regie flexibel, muss nicht nur die Zuordnung der Mikrofon- und Abhöraudiosignale korrekt erfolgen, sondern auch der Zustand des Rotlichts, sowie anderer Schalt zustände. Die Beziehung zwischen Signalquelle und Signalsenke ist also nicht fix. Ein weiteres, sendenahes Beispiel ist die Gefahrenmeldung für den Straßenverkehr: Zunächst läuft die Gefahrenmeldung der Polizei im Verkehrsredaktionssystem ein. Das System löst nun via Logik im Sendestudio eine optische Signalisierung aus. Der Moderator muss umgehend das laufende Programm unterbrechen. Bevor die Gefahrenmeldung gelesen wird, muss jedoch eine Signalisierung über eine aktive Gefahrenmeldung für die Distri butionswege UKW und DAB über die Radiozusatzdaten erfolgen (s. Kap. 17.5), damit Auto radios die Gefahrenmeldung aufschalten können. Nach der Verkehrsdurchsage muss die Signalisierung über die Zusatzdaten beendet werden und auch die optische Signalisierung im Sendestudio sollte mit dem Start der Verkehrsdurchsage abgeschaltet werden. Auch beim zweiten Beispiel müssen die genannten Schaltzustände flexibel schaltbar sein. Die optische Signalisierung einer neuen Gefahrenmeldung muss in allen Sendestudios signalisiert werden, die Verkehrsfunkdurchsagen durchführen. Die Abschaltung des optischen Hinweises muss dann wiederum separat nach der jeweils erfolgten Durchsage geschehen. Neben den in den Beispielen genannten Logikzuständen („Rotlicht“, „neue Gefahrenmeldung liegt im Verkehrsredaktionssystem vor“, „Gefahrenmeldung on-air“) gibt es eine Vielzahl weiterer Meldungen und Parameter die verteilt und verarbeitet werden müssen. Zur besseren Übersicht ist die Sammlung der Zustände in einem zentralen System angebracht. Einige Anforderungen im Bereich der Steuerung lassen sich jedoch erst durch die logische Verknüpfung (und/oder) von Zuständen erreichen. Somit gibt es im Bereich der Logik und Steuerung drei Aufgaben: –– Sammeln und Verteilen der logischen Zustände, –– Zuordnen von logischen Zuständen zwischen Sender und Empfänger, –– Verknüpfen von logischen Zuständen.
1092
16 Digitale Betriebstechnik
Für diese drei Aufgaben können verschiedene Lösungen eingesetzt werden. Früher erfolgte die Verarbeitung in den jeweiligen Mischpulten. Mit zunehmender Komplexität und demzufolge größerer Anzahl an Logikzuständen, kann dieser Ansatz jedoch unübersichtlich werden. Einige der am Markt verfügbaren Broadcaststeuersysteme bieten deshalb eine entsprechende Funktionalität für das gesamte Aufgabenpaket an zentraler Stelle. Sehr flexibel kann das Sammeln und Verteilen von Logikzuständen und anderer Informationen auch mit MQTT (Message Queuing Telemetry Transport) erfolgen. Bei diesem Serversystem können Clients Informationen in einer hierarchischen Struktur als sog. Topic publizieren. Andere Systeme können dieses Topic abonnieren und werden bei Änderungen informiert. Eine große Herausforderung im Bereich Logik und Steuerung ist die Integration von verschiedenen Geräten mit ihren jeweiligen Schnittstellen. Dabei ist die klassische Variante mit geschalteter Niederspannung (Relais / Optokoppler) nur noch selten anzutreffen. Aktuell kommen häufig Ember+ und andere netzwerkbasierte Varianten zum Einsatz. Auch MQTT ist bereits Teil des Broadcaststandards [AMWA IS-07, NMOS] (s. Kap. 17). Mit einer stärkeren Verbreitung in Zukunft ist daher zu rechnen. 16.2.9.3 Broadcaststeuersysteme Mit dem Broadcaststeuersystem werden Audiosignale ergonomisch von der Quelle auf die Senke geschaltet. Die Broadcaststeuerung ist das zentrale Werkzeug in der Betriebszentrale. Das Betriebspersonal kann mittels Tastenstreifen oder Software die für die jeweilige Produktion oder Sendung benötigten Signale und Rückleitungen schalten. Alternativ kann auch eine integrierte Ablaufsteuerung (Scheduler) für automatisierte und ggf. wiederkehrende Schaltungen verwendet werden. In die Broadcaststeuerung sind, neben der Verschaltung von Signalen, auch weitere Funktionalitäten integriert. Codecs können für den Aufbau von Telefonverbindungen durch die Broadcaststeuerung aktiviert werden. Dazu kann, bspw. in der Ablaufsteuerung, ein Eintrag angelegt werden, der zum definierten Zeitpunkt einen Codec anweist, direkt eine Telefonnummer anzurufen und das Signal in der richtigen Regie zur Verfügung zu stellen.
16.2.10 Zentraltechnik 16.2.10.1 Leitungsanbindung Jeder Studiokomplex ist über seine Sendewege meist redundant an das Koppelfeld angebunden. Bei Bündelung der Signale in einem MADI-Strom kann zur Erhöhung der Betriebssicherheit eine der beiden Summen zusätzlich über eine eigene AES/EBU-Verbindung zugeführt werden und als Ersatzweg zur Verfügung stehen. Auch für IP-Systeme kann eine MADI oder AES/EBU-Übertragung als Backup-System zum Einsatz kommen. Darüber hinaus werden in den Studios ankommende und abgehende Leitungen zur Abwicklung von Konferenzen und Programmübernahmen benötigt. Die abgehende Leitung einer Regie ist dabei eigentonfrei, bezogen auf die zugehörige ankommende Leitung. Wegen der unvermeidbaren Signallaufzeiten in der digitalen Audiotechnik, ist diese Forderung bei Konferenzschaltungen, wie bereits erwähnt, zwingend notwendig, da sonst störende Nebengeräusche und Echos entstehen.
16.2 Betriebliche Einrichtungen
1093
Auch wenn die routinemäßige Verschaltung von Quellen und Senken im Koppelfeld ausschließlich digital vorgenommen wird, so ist es doch gelegentlich sinnvoll, wichtige ankommende und abgehende Leitungen über diskrete Brückenstecker zu führen. Dies erleichtert den Zugriff bei Umbau- oder Wartungsarbeiten und bietet im Havariefall die Möglichkeit einer provisorischen Signalverteilung. Für Sonderschaltungen stehen in einem Steckfeld außerdem einige frei belegbare digitale und analoge Ein- und Ausgänge zur Verfügung. Sie gestatten die Verschaltung von möglicherweise noch vorhandenen analogen Querverbindungen zu Studios und Betriebsräumen älterer Bauart. Außenstellen Vielfach befinden sich im näheren Einzugsbereich einer Rundfunkanstalt Übertragungsorte, zu denen regelmäßig Verbindungen hergestellt werden müssen, bspw. Konzertsäle, Rathäuser und Sportstätten. Die örtlichen tontechnischen Einrichtungen sind dann zumeist dauerhaft über IP-Strecken mit garantierter und ausreichend großer Bitrate verbunden, um auch Mehrkanalübertragungen abzuwickeln. Für Stereo- oder Monoübertragungen werden Codec-Verbindungen (Voice over IP) benutzt. Vor Ort befindet sich im einfachsten Fall ein Ü-Wagen-Anschlusskasten für mobile Aufnahmeeinrichtungen, bis hin zu fest eingerichteten und vollständig ausgebauten Tonregien in Konzertsälen. Auch Landes- und Regionalstudios sind über IP-Verbindungen angebunden, die Audiosignale mit gesicherter Qualität, wie auch Dateiübertragungen, ermöglichen. Ü-Wagen Bei der aktuellen Berichterstattung besteht in der Regel keine direkte Leitungsverbindung zwischen dem Übertragungswagen und der Betriebszentrale im Funkhaus. Satellit
Mobilfunk
Funkhaus Internet
Abb. 16/17. Audioanbindung Ü-Wagen.
lokaler Anschluss Internet
Übertragungswagen
1094
16 Digitale Betriebstechnik
Häufig wird eine Codec-Verbindung verwendet, welche bei Bedarf von der Betriebszentrale aus angewählt wird (s. Kap. 16.2.9.2). Teilweise findet die Übertagung auch über das Mobilfunknetz statt. Bei schlechter Netzabdeckung können Systeme zum Einsatz kommen, die den Datenverkehr parallel über verschiedene Mobilfunknetze übertragen. So können Übertragungsprobleme kompensiert werden, zumindest wenn diese nur ein Netz betreffen. Eine noch weitergehende Unabhängigkeit bei der Standortwahl bietet der Verbindungsaufbau über Satelliten. Dabei richtet sich eine Parabolantenne auf dem Ü-Wagen vollautomatisch auf einen ausgewählten Satelliten aus, bspw. aus der Inmarsat-Gruppe, überprüft die Feldstärkeverhältnisse und leitet den Verbindungsaufbau ein (s. Abb. 16/17). Die eigentliche Datenübertragung erfolgt dann über ISDN-Audiocodecs oder per IP-Codec. Die Satellitenstrecke ermöglicht Übertragungskanäle in beide Richtungen, wobei allerdings nicht zu vernachlässigende Signallaufzeiten anfallen. Da Satellitenüberspielungen teuer sind, beschränkt sich die Anwendung meist auf kurze Aufsager oder das Überspielen von O-Tönen. Hörfunk-Dauerleitungsnetz Jede Rundfunkanstalt in Deutschland ist mit jeweils 32 Monoleitungen an das HörfunkDauerleitungsnetz der ARD angebunden. Damit können Signale im Mono-, Stereo- oder Mehrkanal-Modus verteilt werden. Empfangsseitig liegen alle Leitungen aller anderen 13 angebundenen Standorte ständig an, d. h. insgesamt 416 ankommende Monoleitungen je Rundfunkanstalt. Die Leitungen werden für Live-Übertragung aus anderen Funkhäusern, für Programmübernahmen bzw. -überspielungen und für Konferenzschaltungen benötigt. Sie haben jedoch in jüngerer Zeit durch die Einführung des ARD-weiten Filetransfers an Bedeutung verloren. Der technische Transport von Tonsignalen erfolgt seit Anfang der 2000er-Jahre über das sog. Hybnet. Der frühere zentrale ARD-Leitungsstern mit seinen Zuführungs- und Verteilleitungen (ZLT und VLT) wurde als logisches Konzept 2019 von dem heutigen dezentralen AES67Multicast-Netzwerk abgelöst, wird aber weiter auf der quasi Wagenrad-Struktur des Hybnet abgebildet (s. hierzu Kap. 16.5.7.3). Telefonie und Codecs Die flächendeckende Verfügbarkeit von ISDN-Anschlüssen im In- und Ausland hat in der Vergangenheit dazu geführt, dass hochwertige und kostspielige Rundfunktonleitungen nur noch bei besonderen Ansprüchen an die Übertragungsqualität angemietet und geschaltet werden mussten. Die ISDN-Technik wurde in den letzten Jahren allerdings Schritt für Schritt zurückgebaut. Die Netzbetreiber wickeln heute den Telefoniedienst komplett über ihre IPNetze ab. So verbleiben für die Rundfunkanforderungen nur noch Übertragungen per IPCodec oder die Verwendung der Telefondienste mit entsprechenden Einschränkungen bei der Klangqualität. Die Codecs bedienen sich einer großen Zahl verschiedener, häufig herstellerspezifischer Codierverfahren, die bedauerlicherweise nicht immer miteinander kompatibel sind. Entsprechend bedarf es eines umfangreichen Geräteparks, will man in einer Betriebszentrale zumindest den Großteil der weltweit verbreiteten Übertragungsverfahren abdecken. Vielfach verfügen die Geräte über eine Schnittstelle zu einer Steuersoftware, die bei Anwahl des
16.2 Betriebliche Einrichtungen
1095
Teilnehmers automatisch dessen Gerätetyp einschließlich Konfigurationsmerkmale erkennt. Sie ist auch in der Lage, alle Möglichkeiten der Zeitsteuerung ausführen zu können. Kennzeichnend für die Entwicklung der digitalen Verbindungstechnik ist die zunehmende Integration aller peripheren Systeme, verbunden mit einer dichter werdenden Vernetzung. Beispielhaft dafür ist die von einzelnen Rundfunkanstalten realisierte Einrichtung eigener regionaler Netze (RegioNet). Redundant ausgelegte, breitbandige Verbindungen übernehmen hier den gesamten Datentransfer zwischen den Standorten einer Rundfunkanstalt. Leitungen im traditionellen Sinne werden zunehmend von Diensten auf IP-Basis abgelöst. 16.2.10.2 Distribution Die Verteilung von Hörfunkprogrammen einer Rundfunkanstalt erfolgt entweder direkt aus dem Hauptkoppelfeld oder über einen abgesetzten, kleineren Sendeverteiler. Betriebstechnisch sind beide Lösungen gleichwertig, die zweite Variante bietet jedoch mehr Spielraum bei Wartungs- und Umbauarbeiten im Bereich des Intern-Koppelfeldes. In den Zeiten ausschließlich analoger, terrestrischer Programmausstrahlung wurden die Funkhaussignale an einer definierten Schnittstelle im Postübergaberaum an die technischen Anlagen der damaligen Deutsche Bundespost (DBP) zur Weiterleitung an die Senderstandorte übergeben. Die DBP hatte früher das alleinige Leitungsmonopol in Deutschland. Auf Ortssendeleitungen (OSL) gelangte das Signal zum Rundfunkverstärkeramt der DBP und von dort aus über Fernleitungen an die Senderstandorte, die wiederum von den Landesrundfunkanstalten betrieben wurden. Abb. 16/18 stellt die heute üblichen Wege schematisch dar. weitere Programme Sendebegrenzer
VorMultiplexer
Multiplexer DVB-S
weitere Programme Zentrale Audioinfrastruktur
Sendebegrenzer
VorMultiplexer
Multiplexer DAB
Sendebegrenzer
StreamingServer
Sendebegrenzer
Begrenzer Multiplexleistung
Abb. 16/18. Blockdiagramm zur Sendeverteilung.
Internet
UKWModulator UKW
1096
16 Digitale Betriebstechnik
Heute erfolgt die Distribution ausschließlich mittels redundanter IP-Ströme für Audio und Zusatzdaten. Signalaufbereitung Distribution Vor der endgültigen Übergabe an die verschiedenen Verbreitungswege wird das Sende signal einer zumeist mehrstufigen Signalaufbereitung unterzogen. Die dazu erforderlichen Geräte sind in die Sendewege eingeschleift. Ihre Aufgabe ist es, das Audiomaterial an die Anforderungen des jeweiligen Übertragungskanals anzupassen, wobei technische wie auch geschmackliche Aspekte zum Tragen kommen (s. auch Kap. 6.2.1.3). Im analogen Betrieb waren früher in allen Sendeleitungen Begrenzer zum Schutz vor Übersteuerungen des Sendehubs eingefügt. Heute haben digitale Audioprozessoren diese und zahlreiche weitere Funktionen übernommen. So kann bspw. durch die Anhebung der mittleren Aussteuerung die Leistung des Multiplexsignals erhöht und damit die Reichweite der belegten Bandbreite vergrößert werden, verbunden allerdings mit dem Nachteil der Zunahme von Nachbarkanalstörungen durch den übermodulierten Sender. Dies kann schlimmstenfalls zum Entzug der Betriebserlaubnis seitens der Regulierungsbehörde führen. Die Einhaltung der MPX-Leistung von 0 dBr wird in Deutschland nach internationalem Recht streng und unter Strafandrohung überwacht. Bestrebungen um einen erhöhten Lautheitseindruck sowie um ein eindeutiges akustisches Erscheinungsbild der einzelnen Rundfunkprogramme, haben der Tonsignalauf bereitung in den letzten Jahren ein hohes Gewicht zukommen lassen. Hinsichtlich Dynamik umfang und Klangfarbe können die eingesetzten Geräte drastische Veränderungen des Programmmaterials beim sog. Sound Processing bewirken, wobei Art und Ausmaß des Eingreifens weniger technisch-funktionalen Notwendigkeiten, als vielmehr klanglich-ästhetischen Vorstellungen seitens der Programmschaffenden entspringen. Die Folge dieses Profilierungsbedarfs ist eine regelrechte Spirale des Sound-Processing, deren Resultate sich zwangsläufig immer weiter vom Klangbild des Originalmaterials entfernen. Vor allem im Pop-Bereich spielt die produktionsseitige klangliche Ausgestaltung, das individuelle künstlerische Sound-Design, eine große Rolle. Eine überzogene Tonsignalaufbereitung kann auf solches Musikmaterial fatale Auswirkungen hinsichtlich eines verzerrten Klangbildes haben. Die Signalverzögerung ist ebenfalls eine Variante der Signalaufbereitung. Sie ist überall dort notwendig, wo Synchronitäten hergestellt werden müssen. So werden bspw. terrestrische Sender zwar meist über Leitungen, gelegentlich aber auch über Satellit versorgt. In angrenzenden Versorgungsgebieten können dann in der Überlappungszone störende Laufzeitunterschiede beim Rundfunkempfang auftreten. Schaltet bspw. ein Autoradio aufgrund sich ändernder Empfangsbedingungen wiederholt zwischen zwei Sendern hin und her, so wird der Zeitversatz von etwa 240 ms jedes Mal deutlich hörbar. Dieser störende Effekt kann durch Verzögerung des terrestrisch abgestrahlten Signals um den Betrag der Satellitenlaufzeit vermieden werden; s. Abb. 16/19.
16.2 Betriebliche Einrichtungen
1097
Abb. 16/19. Laufzeitunterschied bei gemischter Senderversorgung.
16.2.10.3 Mitschnitt Eine für eine Rundfunkanstalt wichtige Einrichtung ist das Mitschnittsystem. Aus rechtlichen Gründen müssen sämtliche Programme einer Rundfunkanstalt rund um die Uhr mitgeschnitten und 90 Tage lang archiviert werden. Früher geschah die Dokumentation auf Magnetband oder DAT-Kassetten, heute kommen Rechnersysteme mit Festplatten und schnellem Zugriff zum Einsatz. Neben dem gesetzlichen Mitschnitt gibt es auch für die alternative Verwertung einen Bedarf. So werden die programmlichen Mitschnitte verwendet um bestimmte Programmteile des Liveprogramms, wie Nachrichten, Wetter oder Verkehr zu nutzen oder sogar ganz Sendungen erneut zu verwerten. Den Hörern können die entsprechenden Programmteile z. B. zum zeitunabhängigen Anhören in den Mediatheken zur Verfügung gestellt werden. Eine weitere Anforderung ist ein „trockener“ Mitschnitt der Mikrofonsignale. Dabei sollen die Mikrofone ohne Hintergrundmusik o. ä. zur Verfügung stehen. Um die verschiedenen Anforderungen beim programmlichen Mitschnitt zu erfüllen, wird typischerweise eine Aufnahme-Softwareinstanz pro Mitschnittart reserviert. Diese Instanz wird dann über eine Logiksteuerung aus dem Mischpult gesteuert, um den Mitschnitt ereignisgesteuert zu starten und zu stoppen. Die Schnittstelle zum Mischpult wurde früher typischerweise als Schaltspannung ausgeführt und musste entsprechend direkt zwischen Mischpult Aufnahme-PC verdrahtet werden. Mit der Verbreitung von IP-basierten Schnittstellen (z. B. Ember+) kann zunehmend auf die Schaltspannung als Schnittstelle verzichtet werden. Gleichzeitig können immer mehr Instanzen der Aufnahme-Software auf einem PC parallel betrieben werden, so dass eine starke Bündelung der verschiedenen Mitschnitte möglich ist. 16.2.10.4 Programmverteilung An vielen Stellen in einem Funkhaus ist es erforderlich, dass Sendesignale und Produktionssignale zum Abhören zur Verfügung stehen. Benötigt werden häufig alle Sende- und Regionalsignale der Rundfunkanstalt, sowie bei bestimmten Produktionen weitere Signale, z. B. direkt aus Produktionsregien.
1098
16 Digitale Betriebstechnik
Die Versorgung mit diesen Signalen erfolgte klassisch mittels Koaxialverkabelung. An zentraler Stelle werden mit Modulatoren alle gewünschten Signale in die Programmverteilanlage (PVA) eingespeist. Durch eine strukturiertere Verkabelung werden dann alle relevanten Räume erschlossen. In den Räumen kann je nach Art der Einspeisung mit UKW- oder DAB-Empfängern das gewünschte Signal abgehört werden. Alternativ kann die Programmverteilung auch per IP und Multicast erfolgen. Der Empfang erfolgt dann jedoch am komfortabelsten mittels PC. Die Verteilung kann ohne Mehraufwand über ein evtl. bereits vorhandenes Netzwerk erfolgen. Typische Radiogeräte sind für den Empfang von individuellen erzeugten Signalen nicht geeignet.
16.2.11 Intercom Eine moderne Medienanstalt mit seinen komplexen, häufig zeitlich gedrängten Betriebsabläufen, wäre ohne die Möglichkeit der direkten raschen internen und externen Kommunikation nicht denkbar. Das Zusammenwirken der verschiedenen Kommunikationssysteme zeigt Abb. 16/20.
Abb. 16/20. Kommunikationseinrichtungen des Hörfunkbetriebs.
Im alltäglichen Sprachgebrauch steht der Begriff „Kommandoanlage“ für jede Art von Sprechanlage. Sie vereint die drei möglichen Funktionalitäten: –– Kommandoanlage: unidirektionale Sprechverbindungen in nur einer Richtung, der Angesprochene kann nicht antworten, –– Gegensprechanlage: bidirektionale Sprechverbindungen für gleichzeitiges Hören und Sprechen, heute vorherrschende Form einer Kommandoanlage,
16.2 Betriebliche Einrichtungen
1099
–– Wechselsprechanlage: bidirektionale Verständigung in beiden Richtungen, es kann immer nur eine Richtung aktiv sein. Die Sprechstellen können frei aufgestellt oder in einem Regietisch, Gerätegestell, etc. fest eingebaut sein. Sie verfügen über einen Lautsprecher, ein Mikrofon und über Tasten, die der Zielanwahl dienen und gleichzeitig als Sprechtasten fungieren. Ein Signalisierungsausgang kann dazu genutzt werden, bei einem an- oder abgehenden Ruf die Abhörlautstärke für die Dauer des Gesprächs abzusenken, um die Verständigung zu erleichtern. Kernstück einer Kommandoanlage ist ein digital angesteuertes Koppelfeld. Die Anbindung der Sprechstellen erfolgt über eine Datenverbindung. Die Audiosignale werden entweder analog über eine eigene Leitung oder seriell übertragen. Frei schaltbare Verbindungen in das Audiokoppelfeld der Betriebszentrale und in die hausinterne Telefonanlage ermöglichen die Einbindung beliebiger Quellen und Senken. Über Telefonhybride können Fernsprechverbindungen mit in das Kommandonetz einbezogen werden, während IP-Codecs nicht nur Sprache, sondern auch Steuerdaten an eine entfernte Sprechstelle übertragen können. Wird die IP-Strecke nicht dauerhaft benötigt, so kann deren Aufbau durch Drücken einer entsprechenden Zieltaste veranlasst werden. Schließlich ist es möglich, über eine Netzwerkverbindung auch komplette Anlagen miteinander zu verknüpfen. Moderne Kommandoanlagen dieser Art sind durch den Anwender in hohem Maße konfigurierbar. Die Eigenschaften jeder einzelnen Sprechstelle, die Belegung der Ruftasten, die Einrichtung von Gruppenrufen oder Antwortfunktionen können teils an den Sprechstellen direkt, überwiegend jedoch am PC durch ein Konfigurationsprogramm festgelegt werden (s. Abb. 16/21). Aufwändig aufgebaute Sprechstellen können mehrere Dutzend Tasten aufweisen, deren Belegung durch ein alphanumerisches Display angezeigt wird.
Abb. 16/21. Beispiel für die Konfigurationsoberfläche einer Kommandoanlage.
1100
16 Digitale Betriebstechnik
16.2.12 Dateibasierte Systeme In einem digitalen Funkhaus sind alle an Produktion, Bearbeitung, Verteilung und Speicherung von Audiodaten beteiligten Systeme über ein Netzwerk miteinander verbunden. Es kommt inzwischen flächendeckend Ethernet-Verkabelung zum Einsatz. Die in der allgemeinen IT verwendeten Grundsätze, strukturierte Verkabelung und Client-Server-Systeme, kommen auch hier zur Anwendung. Für die eingesetzten Systeme gibt es keinen einheitlichen Lösungsansatz, vielmehr sind bei den Rundfunkanstalten sehr auf den Bedarf zugeschnittene Systeme in Verwendung. 16.2.12.1 Server Herzstück eines digitalen Hörfunkbetriebs ist ein serverbasierter Massenspeicher für jegliches Audiomaterial. Diese Speicherarchitektur für Audio- und Metadaten bildet den logisch zentralen Mittelpunkt der Gesamtinstallation. Ihm folgt modellhaft der Aufbau einer ClientServer-Struktur. Als Speichermedium dient ein zu einem RAID-Array zusammengeschaltetes großes Festplattensystem. Durch redundante Speicherverfahren reduziert sich dabei die nutzbare Kapazität, die Datensicherheit nimmt allerdings zu. Speicherkapazitäten zwischen 5 bis 100 Terabyte sind dabei heute durchaus üblich. Legt man eine Codierung nach MPEG-1 Layer 2 mit einer Datenrate von 384 kBit/s zugrunde, so ergibt sich eine Audiolaufzeit von beinahe 6000 Stunden pro Terabyte Festplatten-Speicherplatz. Ein auf dem Server installiertes Datenbanksystem verwaltet die Audiobestände und deren programmbegleitende Zusatzinformationen; es bearbeitet ebenfalls die Anfragen der einzelnen Clients und kommuniziert mit den verschiedenen Modulen der Anwendersoftware. Alle Operationen innerhalb des Netzwerkes finden dabei asynchron auf Dateibasis statt. Audiodaten in Echtzeit werden ausschließlich über das Koppelfeld und die daran angeschlossenen Systeme übertragen. Jedes Sendestudio verfügt zusätzlich über einen eigenen Speicherbereich, dessen Aufgabe ausschließlich darin besteht, das für den Programmablauf benötigte Audiomaterial in der Größenordnung von 12 bis 15 Stunden zu speichern und auf Anforderung auszuspielen. Mit Hilfe eines Softwaremoduls zur Sendungsplanung werden Musik, Beiträge und Layout-Elemente zusammen mit ihren beschreibenden Daten vom zentralen Server über das Netzwerk auf den zuständigen Speicherbereich kopiert. In der Senderegie wird der Sendeablaufplan auf einem Bildschirm dargestellt. Mit der Maus oder über eine Bedienkonsole können die Elemente vorgehört sowie ihre Reihenfolge vertauscht werden. Die Ausspielwege des Servers sind im Regiepult auf Regler geführt, über deren Fernstartkontakte die Wiedergabe gestartet wird. Der Einsatz separater Speicherbereiche für Sendungsdokumente bietet zum einen den Vorteil, dass Störungen des Netzwerkes oder der Datenbank keinen unmittelbaren Einfluss auf eine laufende Sendung haben, zum anderen wird der Zentralserver von Ein- und Ausspielvorgängen in Echtzeit entlastet. Der vollständige Workflow einer Senderegie ist ausführlich in Kap. 14.2 beschrieben.
16.2 Betriebliche Einrichtungen
1101
16.2.12.2 Produktion Die Client-Server-Struktur ist auch zur Anwendung im Produktionsbetrieb der jeweiligen Programmwellen geeignet. Dabei erfolgen die Aufnahme und die anschließende Audiobearbeitung auf zentralen Produktionsservern, mit Zugriffen von Redaktionsarbeitsplätzen oder hochwertigen Audio-Workstations in Produktionsstudios. Die Rechner verfügen über spezielle Editoren mit zahlreichen Tools zur Bearbeitung und Beschreibung des Audiomaterials. Der fertige Beitrag wird mit einem entsprechenden Eintrag in der Datenbank abgespeichert und als Audiodatei in das Archiv des Zentralservers übertragen. Dort steht der Beitrag augenblicklich auf dem gesamten Campus zur Verfügung, sei es für den Sendeeinsatz oder zur weiteren Verwendung in der Produktion. Vernetzte audiofähige Computerarbeitsplätze kommen in verschiedenen Ausführungen und Ausstattungen in großer Zahl zum Einsatz: Leistungsstarke Audioworkstations im Produktionsstudio, einfache Aufnahme- und Bearbeitungsplätze im Redaktionsbereich incl. Headset-Mikrofon oder schlichte PCs mit Soundkarte, die ausschließlich der Wiedergabe des im Archiv recherchierten Materials dienen. 16.2.12.3 Kontribution von Programmbeiträgen Für das sendenahe Mitschneiden von Signalen über Leitung, Empfängern und anderen Audioquellen stehen spezielle Einspielrechner zur Verfügung, die über das Koppelfeld in der Betriebszentrale beschaltet werden können. Bei dieser Anwendung ist es wichtig, dass die entstehende Audiodatei sofort „on the fly“ in Echtzeit mitgehört und für Ausschnitte sofort markiert werden kann, bspw. beim Livemitschnitt eines Sportereignisses, welches in Ausschnitten kurzfristig gesendet werden soll, während die Berichterstattung noch weiterläuft. Beim laufenden Mitschnitt sendet die Einspielstation zyklisch kleine Datenpakete an den Zentralserver, der diese an die bisher aufgelaufene Datei anfügt und den Datenbankeintrag entsprechend aktualisiert. Dies geschieht zeitlich sehr rasch, so dass durchaus von QuasiEchtzeit gesprochen werden kann. Der Zugriff auf eine noch laufende Aufnahme ist somit jederzeit möglich, da stets eine lokale Kopie angelegt wird, die das bis zu diesem Moment aufgelaufene Audio enthält. Über eine geeignete Anwendersoftware können Einspielungen im Voraus disponiert und automatisch abgewickelt werden, wobei auch hier die Möglichkeit zu wochentag- oder datumsbasierter Wiederholung besteht. Umgekehrt kann aus dem System auch Audiomaterial ausgespielt werden. 16.2.12.4 Programmaustausch Die Verteilung und der Austausch aller Arten von Audiomaterial zwischen den Rundfunkanstalten erfolgen heute überwiegend dateibasiert, wobei der größte Anteil auf den ARD-weiten Filetransfer entfällt, heute mittels weConnect realisiert (s. Kap. 16.5.7). Die technische Grundlage des Datentransports ist das Hybnet, dessen Administration in den Aufgabenbereich des ARD-Sternpunkt in Frankfurt fällt (s. Kap. 16.5.6). Die sukzessive Erweiterung des zunächst nur der aktuellen Berichterstattung vorbehaltenen Systems ermöglicht seit dem Jahr 2005 auch die Übertragung längerer Beiträge in hoher Stereo- bzw. Mehrkanalqualität. Auf internationaler Ebene kommt der breitbandige Filetransfer (BAFT) bei der Verteilung von Konzertaufnahmen im Rahmen der EBU-Kooperation zum Einsatz.
1102
16 Digitale Betriebstechnik
Die technische Anbindung an das Hybnet und an das Internet, und vor allem die damit verbundenen Sicherheitsbelange, liegen nicht im Zuständigkeitsbereich des Hörfunks. Sie sind Bestandteil derjenigen Abteilungen einer Rundfunkanstalt, die mit dem Aufbau, dem Betrieb und dem Unterhalt der gesamten Rechner- und Netzwerkinfrastruktur befasst sind. Entsprechend sorgen strikte Sicherheitsmechanismen beim Filetransfer für den kontrollierten Datenaustausch zwischen der Außenwelt und dem Campus-Netzwerk (Firewall). Die einund ausgehende Dateien werden auf Pufferrechnern zwischengespeichert und dort in einer lokalen Datenbank verwaltet. Auf diese Weise entsteht eine Warteschlange von Transfer aufträgen, die von einer sog. Replikationssoftware abgearbeitet wird. Abgehende Dateien werden je nach Adressierung an den ARD-Sternpunkt oder an bestimmte Rundfunkanstalten übergeben, in ankommender Richtung wird die Weitergabe an den zentralen Audioserver angestoßen. Dabei wird gleichzeitig ein entsprechender Datenbankeintrag erzeugt, so dass das Audiomaterial gewöhnlich in weniger als einer Minute nach seinem Eintreffen dem Hörfunksystem zur Verfügung steht. Die Beauftragung eines abgehenden Filetransfers erfolgt über entsprechende Masken der im Haus verwendeten Archiv- oder Dispositionssoftware. Für Reporter und Korrespondenten im In- und Ausland besteht schließlich die Möglichkeit, über ein Web-Interface, eine Client-Applikation oder eine Smartphone-App den Zugang zum Audioarchiv einer Rundfunkanstalt zu bekommen. Eine entsprechende Zugriffsberechtigung vorausgesetzt, können dann überall Beiträge ins Funkhaus abgesetzt oder umgekehrt in den dortigen Beständen recherchierte Audiodateien auf den lokalen Rechner heruntergeladen werden. Unter der Bezeichnung Digitale Bemusterung (DigiBemus) sorgt ein eigenes Serversystem für die Bemusterung der ARD-Rundfunkanstalten mit den Neuerscheinungen der Musik industrie. Von den Redaktionen aus können Musiktitel in einem von der Tonträgerindustrie bestückten zentralen Serversystem am ARD-Sternpunkt in Frankfurt am Main vorgehört und bei Bedarf heruntergeladen werden. Das Material wird daraufhin in die Audiobestände der bestellenden Rundfunkanstalt übernommen und automatisch ein entsprechender Datenbankeintrag angelegt (DigiBemA). 16.2.12.5 Datensicherheit Zur Gewährleistung höchstmöglicher Betriebssicherheit ist der Zentralserver eines Funkhauses einschließlich seines Massenspeichers redundant ausgeführt. Datentechnisch gesehen werden dabei zwei Server stets auf demselben Stand gebracht. Im Gesamtsystem ist allerdings immer nur eine der Einheiten aktiv. Zusätzliche Sicherheit wird durch eine räumlich getrennte Aufstellung erreicht. Darüber hinaus werden die Gesamtbestände zyklisch auf Bandlaufwerken gesichert, wobei zumindest für den Audioanteil nur die Veränderungen zum jeweils vorigen Sicherungslauf festgehalten werden („inkrementelles Backup“). Nicht mehr benötigte Audiodateien werden nach festlegbaren Kriterien automatisch gelöscht, während zur Langzeitarchivierung vorgesehenes Material auf Magnetband ausgelagert wird. Die Metadaten werden dabei weiterhin in der Datenbank des Zentralservers geführt und bleiben für weitere Recherchen zugänglich. Ist das Archiv mit einem Bandroboter ausgestattet, so können
16.2 Betriebliche Einrichtungen
1103
ausgelagerte Audiodateien auf Bedieneranforderung innerhalb kurzer Zeit aus dem Langzeitarchiv zurück auf den Server überführt werden. 16.2.12.6 Anwendungssoftware Ein umfangreiches Paket an installierter Anwendungssoftware auf den digitalen Audioworkstations (AWS) ermöglicht dem Nutzer den Zugriff auf die verschiedenen Funktionen. Die einzelnen Module bilden in ihrer Gesamtheit alle Betriebsabläufe eines Hörfunks ab. Die Leistungsmerkmale einer AWS umfassen im Wesentlichen: –– Aufnahme und Bearbeitung von Audiomaterial, –– Recherche im Audioarchiv, –– Sendeplanung, –– Sendeabwicklung, –– Bestellen und Disponieren von Leitungsschaltungen und Mitschnitten, –– Systembetreuung, –– Agentur-Recherche, –– Moderationstexterfassung und -verwaltung. Die sich daraus ergebende Zusammenführung verschiedenartigster Hard- und Software für rechnergesteuerte Systeme unter einer einheitlichen Benutzeroberfläche ist nur über eine höchst differenzierte Vergabe von Zugriffsrechten möglich (s. Kap. 14.2.1).
16.2.13 Stromversorgung Die Versorgung einer Rundfunkanstalt mit elektrischer Energie erfolgt in der Regel über das öffentliche Stromversorgungsnetz. Die dreiphasig zugeführte Versorgungsspannung, in der Regel Mittelspannung bis 20kV, wird abwärts transformiert und steht mit den üblichen Werten von 400 V zwischen den Leitern und 230 V gegen Null zur Verfügung. Die Weitergabe an die Verbraucher erfolgt über Unterverteilungen in mehrere, nach Verwendungszwecken getrennte Netze. Vor allem die Einrichtungen der Daten- und Studiotechnik sind vor den Spannungsschwankungen und Störimpulsen, wie sie beim Schalten von Verbrauchern hohen Leistungsbedarfs entstehen, durch getrennte Netze zu schützen. Um den Sendebetrieb auch bei einem Ausfall der öffentlichen Stromversorgung gewährleisten zu können, steht in der Regel eine entsprechend dimensionierte Notstromversorgung im Hintergrund „stand by“. Die Energie-Versorgungsnetze, an die sämtliche senderelevanten Verbraucher angeschlossen sind, werden ebenfalls redundant ausgelegt. Im Störungsfall springen selbsttätig Dieselgeneratoren an und sind bereits nach kürzester Zeit in der Lage, die Stromversorgung zu übernehmen; es können dabei Anlaufzeiten von ca. 15 Sekunden erreicht werden. Bei Einrichtungen, die keinerlei Ausfällen oder Schwankungen der Netzversorgung ausgesetzt werden dürfen, erfolgt der Betrieb zusätzlich über eine batteriegepufferte unterbrechungsfreie Stromversorgung (USV). Die elektrische Energie wird dabei den Verbrauchern nicht direkt, sondern über eine Kombination von Gleichrichtersystem und
1104
16 Digitale Betriebstechnik
nachgeschaltetem Wechselrichtersystem zugeführt. Zwischen Gleich- und Wechselrichtersystem ist eine Akkumulatorenbatterie geschaltet, die ständig in voll aufgeladenem Zustand gehalten wird. Bei Auftreten einer Netzstörung übernimmt die Batterie über den Wechselrichter automatisch die Versorgung, ohne dass es auf Verbraucherseite zu Unterbrechung kommt (s. Abb. 16/22). Die Batterielaufzeiten können, je nach Dimensionierung zwischen wenigen Minuten und mehreren Stunden variieren. Die Dieselgeneratoren übernehmen nach kurzer Zeit die Stromversorgung und laden dann auch die Akkumulatorenbatterien wieder auf. Sorgfältige Wartung sowie regelmäßige Tests und Probeläufe sind eine wichtige Voraussetzung für das reibungslose Funktionieren einer solchen Anlage.
Abb. 16/22. Prinzip einer unterbrechungsfreien Stromversorgung (USV).
Die analoge Studiotechnik kannte im Wesentlichen zwei Arten der Stromversorgung. Geräte höherer Leistungsaufnahme, wie Bandmaschinen oder Leistungsverstärker, enthielten diskret eingebaute Netzteile und wurden direkt aus dem 230 V-Netz gespeist. Baugruppen mit geringerem Strombedarf, wie z. B. Regietische oder Gerätegestelle, wurden dagegen meist zentral mit einer 24 V-Betriebsgleichspannung versorgt. Die Netzteile waren überwiegend doppelt ausgeführt und derart miteinander verschaltet, dass bei Ausfall einer Einheit die Stromversorgung ohne betriebliche Einschränkungen vom zweiten Netzteil übernommen wurde. Durch die wachsende Vielfalt verfügbarer Geräte und Systeme und deren teils sehr unterschiedliche Anforderungen an die Stromversorgung, hat sich das Bild gewandelt. Die zentrale Gleichspannungsspeisung ist zwar noch in Anwendung, aber die überwiegende Mehrzahl der für freie Aufstellung oder Gestelleinbau vorgesehenen Komponenten ist heute mit eingebautem Netzteil und Kaltgeräteanschluss versehen. Auch die aus der Consumertechnik bekannten Steckernetzteile sind zunehmend im professionellen Bereich anzutreffen, vor allem bei kleineren Geräten der Digitaltechnik mit nur minimalem Leistungsbedarf. Ihr Einsatz gestattet zwar einen einfacheren und von vielen Sicherheitsaspekten unberührten Geräteaufbau, kann aber, je nach Ausführung, zu Einbußen bei der Betriebssicherheit führen. Probleme kann ferner der steigende Einsatz von Schaltnetzteilen bereiten, da sie als sog. „Nicht-lineare-Lasten“ auf Netz- und Verbraucherseite störende Einstreuungen verursachen, die zu hörbaren Störungen in den Audiosignalen führen können. Durch ihre nicht-sinusförmige Stromaufnahme verändern sie, aufgrund von Oberschwingungen, die ursprüngliche Sinusform von Strom- und Spannung.
16.2 Betriebliche Einrichtungen
1105
16.2.13.1 EMV-gerechte Stromversorgung Das 230 / 400 VAC / 50 Hz-Energieverteilsystem ist nicht nur die Grundvoraussetzung für elektrisch verstärkte, analog transformierte oder digital gewandelte Audiotechnik, es ist auch häufig Überträger unliebsamer Störungen. Moderne Stromnetze in einem Studio- und Sendebetrieb sollten deshalb so aufgebaut sein, dass keinerlei Störungen von ihnen ausgehen, die andere Geräte in Ihrer Funktion beeinträchtigen. Dabei dürfen nicht nur Geräte mit Anschluss an die Stromversorgung, sondern es müssen auch Geräte im Batteriebetrieb und solche mit Funkschnittstelle berücksichtigt werden. Dabei müssen, je nach Betriebsumgebung, verschiedene Grenzwerte eingehalten werden. Es wird zwischen Wohnraum und industrieller Umgebung unterschieden. Geräte aus dem Bereich der Studiotechnik werden der „ersten Umgebung“ zugeordnet und befinden sich damit in der Klasse C1. In der Klasse C2 befinden sich Geräte im überwiegend industriellen Einsatz. Für den rein industriellen Einsatz gilt die Klasse C3. Je höher die Klasse, umso höher die Grenzwerte für abgegebene Störungen und umso niedriger die Grenzwerte für die Störfestigkeit. Mediengeräte stellen erwiesenermaßen hohe Anforderungen bezüglich elektromagnetischer Störungen in ihrer Umgebung. Zudem zwingen die elektrischen Koppelmechanismen zwischen dem Energieverteilsystem und den Signalleitungen innerhalb eines Audiosystems zu einer getrennten Betrachtung der beteiligten elektromagnetischen Felder. Die Einkopplung von elektrischem Strom in Audiosysteme erfolgt sowohl galvanisch, als auch kapazitiv und induktiv. Probleme ergeben sich dann durch nahe und / oder parallel geführte Spannungswege innerhalb der Strukturen, oder durch Schleifen oder sogar auch bei direkten Verbindungen. Erfahrungsgemäß lassen sich elektromagnetische Unverträglichkeiten nie vollständig vermeiden. Stromnetzformen Für eine EMV-gerechte Stromversorgung kommen nur Netzformen in Frage, bei denen der Schutzleiter konsequent vom Neutralleiter getrennt ist. Dieses ungeerdete IT-Netz (frz. Isolé Terré, nicht zu verwechseln mit Informations-Technik) ist aus Gründen der Betriebssicherheit für Studioequipment empfehlenswert, da der erste Fehler mit Erdberührung nicht zur Abschaltung des Systems führt und durch optisches oder akustisches Signal mittel Isolationsüberwachung gemeldet wird (s. Abb. 16/23). Ein derartiges Netz eignet sich aus Gründen der Fehlersuche und des Personenschutzes jedoch nur für räumlich begrenzte Bereiche. Im Fehlerfall kommt es zu einer Spannungsüberhöhung der Außenleiter gegenüber Erde. In der Praxis wird diese Netzform v. a. in Krankenhäusern eingesetzt, im Rundfunk kommt sie nur in Sonderfällen zum Tragen (s. auch Kap. 11.2.5.5).
1106
16 Digitale Betriebstechnik
Abb. 16/23. IT-Netz.
Abb. 16/24. TNS-Netz.
Besonders günstig aus Sicht der EMV-gerechten Stromversorgung ist das TN-S Netz (s. Abb. 16/24). Die Auftrennung des PEN-Leiters in einen Schutzleiter PE und einen Neutralleiter N erfolgt unmittelbar nach dem Netztrafo in der Hauptverteilung. Nach Definition dürfen die Sternpunkte der Netztrafos und weiterer Erzeugeranlagen, wie bspw. Notstromgeneratoren, nur an einem einzigen zentralen Erdungspunkt geerdet werden. Da keine weiteren Verbindungen zum Neutralleiter vorhanden sind, können keine galvanisch eingekoppelten Betriebsströme auf dem Schutzleiter fließen. Diese Netzform bedarf einer dauerhaften und sorgfältigen Überwachung der Isolation durch Differenzstrommessungen. Durch fehlerhafte Installationen, z. B. durch Vertauschungen von Neutral- und Schutzleiter in Steckdosen oder Leuchtenklemmen, können PEN-Brücken entstehen. Auch durch Alterung der Isolation entstehen häufig Fehlerströme.
Abb. 16/25. TT-Netz.
Nur noch selten in Deutschland anzutreffen ist das TT-Netz (frz. Terre Terre). Die Erdung des Sternpunktes des Netztrafos und die Körper der Betriebsmittel sind vergleichsweise hoch ohmig über das Erdreich verbunden (s. Abb. 16/25). Auch diese Netzform genügt nicht den Ansprüchen an eine sachgerechte EMV-Versorgung.
16.2 Betriebliche Einrichtungen
1107
Netzumschalter Ist aus betrieblichen Gründen das Umschalten zwischen mehreren Zuleitungen in einem unter EMV-Gesichtspunkten aufgebauten System gefordert, müssen stets auch die Neutralleiter getrennt werden, z. B. durch vierpolige Schalter. Es kommt ansonsten zu einer Aufteilung des Rückstroms auf beide Neutralleiter und somit zu ausgeprägten Magnetfeldern in den jeweiligen Energiekabeln. Leiter Energiekabel sind aus Sicht der EMV meist nicht optimal aufgebaut. Eine paarige Verdrillung von Hin- und Rückleitern, wie in der Informationstechnik Standard, gibt es bei der Energieversorgung nicht. Auch führen Drehstromkabel in aller Regel nur einen gemeinsamen Neutralleiter für alle Außenleiter. Der noch mitgeführte Schutzleiter liegt dann, sofern nicht als Außengewebe ausgeführt, stets über die gesamte Leitungslänge nahe zum Außenleiter. Eine vollständige Kompensation der Magnetfelder im Schutzleiter wird somit verhindert. Der Schutzleiter ist in Stromversorgungsnetzen deshalb stets stromführend. Aus diesem Grund hat sich in Rundfunkanstalten und anderen sensiblen stromverbrauchenden Bereichen vorteilhaft die Verwendung eines separat verlegten Schutzleiters etabliert. Der im Kabel mitgeführte Schutzleiter PE wird nur einseitig bei der Einspeisung aufgelegt und dient als Leitungsschutz. Der zusätzliche Schutzleiter FPE wird separat in einem genügend großen Abstand verlegt. Erdung Der Schutzleiter PE ist zentraler Bestandteil einer elektrischen Schutzmaßnahme i. S. v. „Schutz durch automatische Abschaltung“ (s. Kap. 8.3.5 und 11.2.5.5). Alle berührbaren Körper elektrischer Betriebsmittel (Wasserrohre, Geländer, Armierungen, Klimaanlagen, Gestelle etc.), sofern sie Fremdspannung annehmen können, müssen niederohmig an den Schutzleiter angeschlossen werden. Im Fehlerfall müssen bis zur Abschaltung der Stromversorgung gefährliche Spannungsunterschiede zu metallischen, geerdeten Teilen der Gebäudetechnik vermieden werden. Sie sind konsequent mit dem Schutzleiter als Potenzialausgleich zu verbinden. Diese, für die Personensicherheit notwendige vermaschte Struktur, bildet unter Umständen jedoch unkoordiniert weiträumige Schleifen aus, die wiederum Ströme führen können. In der Folge treten dann in Audiogeräten unliebsame Brummschleifen auf. Abhilfe schafft ein zweites, nicht vermaschtes und streng baumförmig strukturiertes Schutzleitersystem für die Studiotechnik: Der Funktions-Schutzleiter (FPE) wird ab der Haupterdungsschiene isoliert zum Gebäude geführt und kontinuierlich auf Störströme überwacht. Dies führt zu signifikantem Mehraufwand und erfordert große Sorgfalt bei der Installation und Inbetriebnahme. Störeinflüsse auf den Signalleitungen können so aber in den meisten Fällen vermieden oder zumindest frühzeitig erkannt werden. Dieses zusätzliche, unvermaschte aber trotzdem vollwertige Schutzleitersystem wird in den gültigen VDE-Normen nur ansatzweise in Normbereichen wie der [VDE 0800/Fernmeldetechnik] beschrieben, aber im [VDE-Normenreich 0100] der ELT-Installationstechnik nicht berücksichtigt.
1108
16 Digitale Betriebstechnik
16.2.14 Klimatechnik In nahezu sämtlichen Systemen der Audio- und IT-Netzwerktechnik geht die elektrische Leistung, die vom Stromnetz oder der USV-Anlage an die Server und Prozessoren abgegeben wird, fast vollständig in Wärme über. Bei Überhitzung in Gestellschränken oder Serverräumen kann es dann rasch zu Datenverlusten und Ausfällen der gesamten IT-Infrastruktur kommen. Eine ausreichende Kühlung der Hardware ist deshalb von hoher Bedeutung für ein Medienunternehmen. Damit die Systemelektronik stets einwandfrei funktioniert, sollten Klimaanlagen rund um die Uhr in Betrieb sein. Deren Energiekosten gehen dann allerdings schnell ins Geld. Die jährlichen Kosten für den Stromverbrauch haben deshalb, neben den Investitionskosten, hohe Priorität bei der Planung. Zur eigentlichen Kühllast (Kälteleistung) in einem Gestellraum addieren sich ggf. auch noch Wärme durch Sonneneinstrahlung, Beleuchtung und Personen. Häufig kommt dann zur sog. „sensiblen Kühlung“, d. i. die messbare Wärme im Raum, noch eine „latente Kühlung“ hinzu, bspw. um den Raum Feuchtigkeit zu entziehen. Diese vielfach zusätzlich aufzubringende Kälteleistung kann kostentreibend sein. Kühlsysteme sollten meist ganzjährig, unabhängig von der vor Ort gerade herrschenden Außenlufttemperatur, in Betrieb gehalten werden, also auch im Winter. Hilfestellung bei der Planung und Berechnung thermischer Lasten und Raumtemperaturen geben die Richtlinien [VDI 2078, Juli 2015]. Im Folgenden werden die gängigsten Methoden zur Kühlung von Rechnergestellen beschrieben. Splitverfahren Kleine Serverräume werden meist mit Umluftkühlgeräten im sog. Splitverfahren gekühlt. Solch ein Kühlsystem besteht aus zwei einzelnen Geräten, die zu einer Einheit kombiniert werden: Das Kaltluftgebläse für den Innenbereich und der außenliegende Kühlkompressor bilden die Funktionseinheit. Sie sind mittels flexibler Schläuche verbunden. Durch den geringen Platzverbrauch des Kaltluftgebläses, kann dieses ohne großen Aufwand zwischen den IT-Schränken positioniert werden. Der Ventilator am Lüfter bläst die gekühlte Luft zielgenau und mit großer Effizienz dort in den Raum, wo die Kühlung benötigt wird. So wird verhindert, dass zu viel Energie verloren geht. Bei einfachen Raumkühlsystemen mit Deckengeräten entsteht eine Mischung von Raumluft und Zuluft. Es muss deshalb eine deutlich kühlere Zulufttemperatur erzeugt werden. Liegt diese unter dem aktuellen Taupunkt der Raumluft, bspw. bei 10° C, fällt neben der zur Raumkühlung erforderlichen sensiblen Kühlung noch Kälteleistung für die latente Kühlung an. Damit erhöht sich die elektrische Leistungsaufnahme der Kältetechnik und die Stromkosten steigen. Für größere Serverräume oder Klimatisierungen, die viel Kühlleistung erfordern, kann statt dem Split-Klimagerät auch ein luftgekühlter Kaltwassersatz genutzt werden. Die Leistung der Kaltwassersätze reicht von 80 bis 150 kW und können mit einem Kaltluftgebläse nach Bedarf verbunden werden. Über einen Kühlkreis wird eine Flüssigkeit, die sich in der Klimaanlage befindet, auf eine Temperatur von 6 – 7 Grad Celsius gekühlt. Kaltwassersätze sind klimafreundlicher und stoßen weniger C02 aus.
16.2 Betriebliche Einrichtungen
1109
Kaltgang- / Warmgangkühlung Bei dieser Kühlmethode werden die Serverracks im Raum so angeordnet, dass der kühle Luftstrom die Gestelle möglichst effizient durchläuft und eine Rückkopplungsschleife der erwärmten Luft zur neuerlichen Kühlung entsteht. Die kalte Luft strömt aus der Klimazentrale in den Serverraum ein, die erwärmte Luft tritt an anderer Stelle im Raum in Richtung Kühlanlage wieder aus. Häufig wird hierbei die Kühlluft unterhalb eines aufgeständerten Doppelbodens an die Serverracks herangeführt. Die Kühlluft dringt dann von unten durch die perforierten Bodenplatten und bildet einen Kaltgang. Die kalte Luft wird zur Kühlung im Gestell genutzt, die warme Abluft wird hinter den Racks in den Warmgang abgegeben. Kühlung dieser Art sorgt für eine konstante Luftzirkulation, Temperatur und Luftfeuchtigkeit im Raum. Ein variables Boden- und Deckenplenum, zielorientiert verlegt, verhindert die Vermischung von Kalt- und Warmluft. Flüssigkühlung Die Flüssigkühlung ist in einigen Bereichen eine etablierte Form der Kühlung geworden. Durch ein geschlossenes System wird mittels Pumpen eine spezielle Kühlflüssigkeit von einer zu kühlenden Komponente zur nächsten transportiert. Dieser Kreislauf enthält zahleiche Bauelemente: Röhren, Schläuche, Pumpen, Kühlblöcke und Radiatoren. In den Kühlblöcken wird dem System die Wärme entzogen, sie funktionieren ähnlich wie herkömmliche Wasserkühler. Als Kühlflüssigkeit kann de-ionisiertes Wasser oder ein elektrisch nicht leitfähiges und nicht-kapazitives künstliches Kühlmittel zum Einsatz kommen. Leitungswasser dagegen lässt sich für die Flüssigkühlung nicht verwenden, da die darin enthaltenen Ionen Korrosion verursachen. Aus demselben Grund ist es auch nicht empfehlenswert, innerhalb eines Kühlkreislaufs unterschiedliche Metalle zu verwenden. Zudem sollte Algen- und Bakterien-Wachstum verhindert werden. Die Flüssigkühlung sorgt für höhere Geschwindigkeiten im System und ist im Betrieb deutlich leiser als die Luftkühlung über Ventilatoren. Früher galt Flüssigkühlung als nahezu exklusiv. Heutige Haupt- und Grafikprozessoren hingegen erzeugen mehr Hitze als je zuvor. Einige Systeme werden daher inzwischen mit entsprechender Flüssigkühlung geliefert. Tauchkühlung Die Tauchkühlung (Immersionskühlung) gilt als eine der modernsten Kühltechnologien für Rerchnersysteme. Hierbei wird die Hardware direkt in eine dielektrische Flüssigkeit getaucht. Diese Flüssigkeit ist wärmeleitfähig und nutzt die Absorptions- und Verdunstungskühlung, um der Hardware die Wärme zu entziehen. Diese Form der Flüssigkühlung weist eine hohe Effizienz auf. Sie benötigt drastisch weniger Strom als herkömmliche Kühlmethoden. Je nachdem, wie viel Kühlflüssigkeit der Anwender verbraucht, kann das aber trotzdem ins Geld gehen. Die meisten solcher Systeme bestehen aus mehreren Komponenten wie Pumpen, Wannen, externe Kühler und Geräte zur Verdunstungskühlung. Systeme mit offenen Wannen, in denen die Hardware komplett in die dielektrische Kühlflüssigkeit eingetaucht ist, sind die kostengünstigste Variante der Tauchkühlung. Ihre Vorteile liegen im nahezu geräuschlosen Betrieb, weniger Bedarf nach Luftzirkulation und einer niedrigen Staubentwicklung im Innenbereich.
1110
16 Digitale Betriebstechnik
Freie Kühlung Eine weitere Technologie, mit der die Raumtemperatur reguliert werden kann, ist die freie Kühlung. Anstatt einer mechanischen Kühlung wird gekühlte Luft oder Wasser aus der örtlichen Umgebung genutzt. Diese Systeme pumpen, filtern und befeuchten das Kühlungsmittel, z. B. Wasser, aus einer Quelle im Umfeld. Diese Art der Kühlung ist allerdings nur dann eine Option, wenn entsprechend kühles Wasser oder Umgebungsluft aus natürlichen Ressourcen verfügbar ist. Das System zeichnet sich durch hohe Lebensdauer aus, was die gesamten Wartungskosten und den Energieverbrauch reduziert. Adiabatische Kühlung Die adiabatische Kühlung arbeitet mit dem vor Ort herrschenden Luftdruck. Sie verwendet Verdunstungskühlung, indem sie warme Luft durch feuchte Matten drückt, die solcherart die Raumluft abkühlen. Diese Technik basiert auf dem thermischen Grundgesetz, dass heiße Luft aufgrund ihrer geringeren Dichte über kältere Luft aufsteigt. Die adiabatische Kühlung hilft Luft effektiv zu kühlen und erlaubt die Temperatur stromsparend zu regulieren.
16.3 Audionetzwerke Seit Anfang der 1980er Jahre werden Audiodaten digitalisiert, gespeichert und digital übertragen. Im Gegensatz zur analogen Übertragungstechnik wurde es möglich, Daten verlustfrei von A nach B zu transportieren. Dabei haben sich Normierungen durchgesetzt, die den Austausch digitaler Signale zwischen den Geräten herstellerübergreifend ermöglichen, wie bspw. AES3, AES10 u. v. a. m. Herkömmliche zeitdiskrete Audionetzwerke werden heute global durch moderne Ethernet-basierte Übertragungstechnologien abgelöst. Paketorientierte, verlustfreie Verfahren ermöglichen den Transport von Daten beliebiger Formate und Inhalte. Über die reine Punktzu-Punkt-Verbindung hinaus lassen sich Audiodaten von hoher PCM-Auflösung und Kanalzahl, wie auch Metadaten und Steuerungssignale innerhalb eines IP-basierten Netzwerkes beliebig verteilen und synchron abgreifen. Ein weiterer Vorteil netzwerkbasierter Übertragung ist deren Skalierbarkeit. Mit ihr lassen sich Leistungsfähigkeit und Übertragungsbandbreiten steigern. So kann z. B. eine höhere Bandbreite zu einer Erhöhung der Anzahl gleichzeitig zu übertragender Kanäle führen, wie auch zu einer Reduzierung der Übertragungslatenz beitragen. Allerdings entstehen durch die Verwendung paketvermittelter, inhaltsunabhängiger („inhaltsagnostischer“) Datenübertragung auch Nachteile und neue Funktionsanforderungen. Diese müssen auf der Anwendungsebene der jeweils verwendeten Lösung abgefangen werden. So ist z. B. allein durch den physikalischen Anschluss eines Endgerätes an ein Netzwerk nicht mehr der jeweilige Kommunikationspartner oder -pfad festgelegt. Vielmehr wird nun mittels entsprechender Signalisierungsverfahren zwischen Sender und Empfänger kommuniziert. Nachteilig entstehen durch den Wegfall der leitungsgebundenen Übertragung variable Latenzen, denen am Zielgerät entsprechend entgegengewirkt werden muss. Die Synchronisation der Geräte untereinander muss ebenfalls von einer leitungsgebundenen
16.3 Audionetzwerke
1111
Basis auf eine im Netzwerk geeignete Methode umgestellt werden. Alle Datenpakete benötigen deshalb einen eindeutigen und präzisen Zeitstempel.
16.3.1 Einführung Netzwerkbasierte Ebenen und Lösungen lassen sich am einfachsten anhand ihrer Zuordnung zum OSI-Schichtenmodell klassifizieren. Der Ablauf der Kommunikation zwischen Applikationen auf verschiedenen Rechnern wird dazu in sieben aufeinander aufbauende Schichten (layer) modelliert (s. Abb. 16/26). Für jede Schicht existiert eine Beschreibung, in der festgelegt wird, was diese zu leisten hat. Auf jeder einzelnen Schicht setzt jeweils eine Instanz die Anforderungen um. Die Instanzen auf Sender- und Empfängerseite müssen nach festgelegten Regeln arbeiten, damit sie sich einig sind, wie die Daten zu verarbeiten sind. Die Festlegung dieser Regeln wird in einem zugeordneten Protokoll beschrieben, über welches eine virtuelle, horizontale Verbindung zwischen zwei Instanzen derselben Schicht auf den beteiligten Rechnern abgebildet wird. Innerhalb eines Rechners stellt jede Instanz Dienste zur Verfügung, die eine direkt darüber liegende Instanz nutzen kann. Zur Erbringung der Dienstleistung bedient sich eine Instanz selbst der Dienste der unmittelbar darunterliegenden Instanz. Der reale Datenfluss erfolgt daher vertikal. Layer 7
Application
Layer 6
Presentation
protocol-based layers
Layer 5
Session
POP3, Telnet, TCP,
Layer 4
Transport
Layer 3
Network
Internet Protocol (IP)
Network
Layer 2
Data Link
Ethernet, PPP …
Data Link
Layer 1
Physical
Application
Application and Presentation
HTTP, FTP, SMNP, UDP, RTP
Session
Transport
100111011
Physical
Physical Transmission
Abb. 16/26. OSI-Referenzmodell
Die unterste Schicht, Layer 1, ist die physikalische Übertragungsebene, auf der die einzelnen Bits übertragen werden. Sie stellt mechanische, elektrische und weitere funktionale Hilfsmittel zur Verfügung, um physische Verbindungen aufrechtzuerhalten.
1112
16 Digitale Betriebstechnik
Im Layer 2, liegt die Sicherungsschicht oder Verbindungsebene (data link), auf der der Zugriff auf das Übertragungsmedium geregelt und eine weitgehend fehlerfreie Übertragung gewährleistet wird. Auf dieser Schicht ist auch das Ethernet mit seinen Übertragungsprotokollen angesiedelt. Die 3. Schicht (Layer 3) wird als Vermittlungsschicht oder Paketebene (network layer) bezeichnet. Zu den wichtigsten Aufgaben der Vermittlungsschicht zählt das Bereitstellen netzwerkübergreifender Adressen, das Routing bzw. der Aufbau und die Aktualisierung von Routingtabellen sowie der Transport einzelner Datenpakete durch das Netzwerk. Basis für alle Protokolle auf dieser Schicht ist das IP-Protokoll (Internet Protocol). Darüber sind noch vier weitere Schichten definiert, die, je nach Applikation, von unterschiedlichen Protokollen bedient werden können: –– Transportschicht (transport layer) –– Sitzungsschicht (session layer) –– Darstellungsschicht (presentation layer) –– Anwendungsschicht (application layer) Für die Klassifizierung bzw. grundlegenden Unterscheidung von Audionetzwerken werden nur die unteren drei Schichten herangezogen, auch wenn eine vollständige Kommunikation auf weiteren, übergeordneten Schichten stattfindet. 16.3.1.1 Layer 1-Anwendungen Es existieren eine Reihe von Anwendungen, die ausschließlich auf dem physikalischen Übertragungs-Layer (Layer 1) basieren. Das sind Anwendungen, die zwar ein standardisiertes physikalisches Übertragungsmedium, z.B. eine Cat5-Leitung oder einen optischen Lichtleiter mit ihren jeweiligen Übertragern nutzen, hierüber aber proprietäre Protokolle und Daten übertragen. Beispiele dafür sind das A-Net, Rocknet, MediorNet, SoundWeb oder OptoCore. Da die einzelnen Lösungen aufgrund ihrer proprietären Protokolle und Mechanismen nicht interoperabel sind, werden diese meistens als Lösungen in geschlossenen Bereichen, durchaus auch in größeren Installationen, eingesetzt. Um Audiosignale zwischen diesen Insellösungen austauschen zu können, muss grundsätzlich immer in die diskrete, d. h. analoge oder digitale Signalebene gewandelt werden. 16.3.1.2 Layer 2-Anwendungen Layer 2-Anwendungen setzen auf dem Data Link Layer auf und verwenden praktisch immer das Ethernet-Protokoll. Dadurch ist es möglich, handelsübliche Ethernet-Switche für den Aufbau eines solchen Netzwerkes zu nutzen. Allerdings sind die transportierten Dateninhalte und ‑formate wiederum überwiegend proprietär, d. h. durch die jeweilige Lösung definiert. Zudem sind nahezu alle Layer 2-Lösungen auf eine bestimmte Ethernet-Technologie, meist Fast-Ethernet (100 MBit/s), beschränkt und beanspruchen meistens auch die gesamte zur Verfügung stehende Bandbreite, so dass auf dem jeweiligen Segment keine anderen Dienste betrieben werden können. Damit ist auch die maximale Kanalanzahl, sowie die max. Anzahl der an ein LAN-Segment anschließbaren Geräte festgelegt. Eine Überbrückung von verschiedenen Netzwerksegmenten ist prinzipbedingt nicht möglich.
16.3 Audionetzwerke
1113
Eine Ausnahme bildet hier die sog. AVB-Technologie (Audio Video Bridging), die zwar ebenfalls eine Layer 2-Technologie darstellt, jedoch in allen funktionalen Aspekten als Erweiterung des Ethernet-Protokolls [IEEE 802.1] standardisiert wurde, so dass eine Interoperabilität zwischen Geräten verschiedener Hersteller, welche den AVB-Standard unterstützen, grundsätzlich möglich ist (s. Kap. 16.3.6.1) 16.3.1.3 Layer 3-Anwendungen Layer 3-Anwendungen zeichnen sich dadurch aus, dass zur Datenübertragung die Netzwerkschicht (IP-Schicht) verwendet wird. Hier werden IP-Datagramme zum Transport der Dateninhalte verwendet, weshalb solche Lösungen auch als Audio-over-IP bezeichnet werden. Mit IP-basierten Anwendungen ist, im Gegensatz zu Layer 2-Anwendungen, prinzipiell auch ein netzwerkübergreifendes Routing möglich, auch wenn es hierzu weiterer Spezifikationen bedarf. Bekannte und verbreitete Layer 3-Anwendungen sind z. B. Livewire (Axia), QLAN (QSC) oder Dante (Audinate), die zwar standardisierte Transport- und Kommunikationsprotokolle verwenden, aber deren Dateninhalte überwiegend proprietär sind. Die eigentliche Kerntechnologie ist oft als „Black-Box“ ausgeführt, für deren Anwendung bzw. Integration entsprechend Lizenzgebühren zu entrichten sind. Eine Ausnahme in dieser Hinsicht bietet die RAVENNA-Plattform (ALC NetworX). Sie ist als offene Lösung konzipiert, bei der alle verwendeten Protokolle sowie Dateninhalte in einem White-Paper vollständig beschrieben werden. Die Implementierung unterliegt keiner Lizenzverpflichtung, so dass die Technologie herstellerübergreifend Akzeptanz und breite Verwendung gefunden hat.
OSI Layer
A-Net OptoCore MediorNet
EtherSound
CobraNet
Dante & Livewire
AVB
RAVENNA AES67 SMPTE 2110
Application Presentation Session
RTP
RTP
Transport
UDP
UDP
Network
IP
IP
Data Link Physical
Ethernet Copper / Fiber
Copper / Fiber
Ethernet
Ethernet
Ethernet
Ethernet
Copper / Fiber
Copper / Fiber
Copper / Fiber
Copper / Fiber
Abb. 16/27. Das OSI-Layer Modell mit typischen Netzwerktechnologien und -lösungen
1114
16 Digitale Betriebstechnik
Zu den Layer 3-Technologien sind auch die Codec-Anwendungen zu rechnen, die in der Regel nicht dienstgütegesicherte IP-Strecken, also frei verfügbare Internetverbindungen, mit der Zielsetzung nutzen, den Audioinhalt möglichst gut zu übertragen. Eine Interoperabilität zwischen Geräten verschiedener Hersteller wird durch den sog. ACIP-Standard der EBU [Tech3326] ermöglicht. ACIP ist allerdings nur bedingt für eine Echtzeit In-House-Datenübertragung geeignet, weil es nur für eine Punkt-zu-Punkt-Verbindung zwischen zwei Geräten definiert ist. Darüber hinaus arbeiten diese Lösungen in der Regel mit Datenkomprimierung und Fehlerkorrekturverfahren, die typischerweise zu höheren Latenzen führen. Abb. 16/27 zeigt, wie sich die genannten typischen Netzwerktechnologien und -lösungen in das OSI-Schichtenmodell einordnen.
16.3.2 Netzwerktopologien In Medienunternehmen trifft man häufig auf traditionelle Netzwerktopologien, die auf einem dreistufigen Layer-2-Netzwerk basieren. Für einen sicheren Betrieb kommt das „SpanningTree-Protokoll“ (STP) zum Einsatz, welches bei Ausfall einer Verbindung automatisch eine neue Route im Netz auswählt. Zentraler Bestandteil dieser Topologie sind die Core-Switche (Kerne), die auf einer hoch performanten Hardware basieren. Sie stellen die Routingdienste für die anderen Bereiche des Netzwerks sowie zu Bereichen außerhalb der Infrastruktur zur Verfügung. In der Aggregations- oder Verbindungsebene wird die Konnektivität zu den benachbarten Access-Layer-Switchen und der Spitze des STP-Kerns, dem Core, hergestellt (s. Abb. 16/28). Dahinter befindet sich, am unteren Ende des Baums, die Zugriffsebene. Hier werden die physischen oder virtuellen Netzwerkkomponenten angeschlossen und mithilfe verschiedener virtueller oder logischer Netze im Netzwerk, sog. VLANs, segmentiert.
Core (Kern)
Aggregation (Verbindung)
Access (Zugriff)
Abb. 16/28. 3-stufiges Layer-2 Spanning-Tree-basiertes Netzwerk
16.3 Audionetzwerke
1115
Die Anwendung von Layer-2 Netzwerken und STP bedeutet, dass auf der Zugriffebene VLANs verwendet werden, die über das gesamte Netzwerk verteilt sind. Bei der Konfiguration des STP ist besonders darauf zu achten, dass keine Loops (Rückkopplungsschleifen) entstehen, die zur völligen Überlastung des Netzwerks führen können. Die Layer-2-Topologie mit STP ist typischerweise für einen Netzwerkverkehr in Nord-SüdRichtung des Netzwerks entwickelt worden. In modernen Netzwerkumgebungen, mit Virtualisierung und hyperkonvergenter Infrastruktur (HCI), also softwarezentrierter Infrastruktur, entwickelt sich massiver Ost-West-Verkehr innerhalb der Netzwerkstruktur. Läuft dieser über die herkömmliche Architektur, entstehen bei Endgeräten, die an denselben Switch-Port angeschlossen sind, allerdings Bandbreitenprobleme. Sie äußern sich in höheren Latenzzeiten für den Benutzer. Abhilfe schafft hier ein modernes Netzwerklayout, die Spine-Leaf-Architektur. Sie basiert entweder auf Layer-2 oder Layer-3-Routing und zeichnet sich durch verbesserte Latenzzeiten, Skalierbarkeit, größere Bandbreite und geringere Engpässe aus. Die Spine-Switche übernehmen das Routing, müssen aber nicht mehr so hoch performant sein wie die Core-Switche und können bei Bedarf durch zusätzliche Spine-Switche ergänzt werden. Die Leaf-Switche stellen den Zugriff für die Endgeräte her: Jeder Leaf-Switch ist mit jedem Spine-Switch verbunden. Somit kann jedes angeschlossene Endgerät mit einem anderen Endgerät kommunizieren, ohne dass mehr als eine Switch-Verbindung zwischen zwei Leaf-Switches besteht (s. Abb. 16/29). Damit werden konstante und niedrige Latenzzeiten im Netzwerk ermöglicht.
Spine
Leave
Abb. 16/29. 2-stufiges Spine-Leaf-basiertes Netzwerk
Für den Einsatz von echter 2-Wege-Führung, wie sie in professionellen Mediennetzen erforderlich ist, bietet das Spine-Leaf-Modell aber im Standard keine sichere Lösung an, außer man setzt auf statisches Routing. Als Lösung wird das Netzwerk gedoppelt aufgebaut und in zwei Bereiche aufgeteilt. Jedes Endgerät, wie bspw. ein digitales Tonmischpult mit redundanter AES67-Schnittstelle nach SMPTE 2022-7 (s. Kap. 16.3.7.3), wird sowohl mit dem einen Leaf-Switch (rot gekennzeichnet), wie auch dem anderen Leaf-Switch (blau gekennzeichnet) verbunden (Abb. 16/30a +b).
1116
16 Digitale Betriebstechnik
rotes Netzwerk
Endgerät
blaues Netzwerk
Endgerät
Abb. 16/30 a + b. 2-Wege-Führung Standard mit rot/blau-Netzwerk
16.3.3 Netzwerke - Software-Defined Network Eine Telekommunikationsarchitektur lässt sich in drei integrale Komponenten in Form von Ebenen oder Planes aufteilen: 1. Management Plane: Zugang, Verwaltung und Überwachung der Netzwerkkomponenten. Zur Anwendung kommen verschiedene Netzwerkprotokolle, wie z.B. SNMP, Simple Network Management Protocol, SSH, Secure Shell, TELNET oder NETCONF, Network Configuration Protocol. 2. Control Plane: Austausch von Routinginformationen zwischen benachbarten Systemen oder Routern. Zur Anwendung kommen Routingprotokolle wie z.B. RIP, Routing Information Protocol, BGP, Border Gateway Protocol, OSPF, Open Shortest Path First [RFC 2328]), oder EIGRP, Enhanced Interior Gateway Routing Protocol. 3. Data Plane: Ausführung aller Anweisungen zu Routing und Datenraten-Reservierung. In Routern erfolgt dies über die Routingtabelle und/oder die Weiterleitungstabelle (Forwarding-Plane). In Switchen erfolgt das über die MAC-Adresstabelle und die Vermittlungslogik. In Mediennetzen ist es zwingend erforderlich die Steuerung des Netzwerks von der Datenweiterleitung zu trennen, z. B. um Vorgaben zu Signalwegen oder notwendigen Datenraten an die beteiligten aktiven Netzwerkkomponenten gezielt übermitteln zu können und dies nicht der internen Steuer-Intelligenz der Geräte selbst zu überlassen. Das zugehörige Konzept nennt sich Software-Defined Networking (SDN), welches ermöglicht, das Netzwerkverhalten dynamisch zu verändern. Hierbei werden die beiden zentralen Komponenten eines Switches oder Routers, die Data Plane und die Control Plane, voneinander getrennt. Der NetzwerkController im Switch, der die internen Datenströme auf der Hardware überwacht und regelt, wird für die Steuerung des Netzwerks von außerhalb über ein Application Programming
16.3 Audionetzwerke
1117
Interface (API) bedient. Je nach Hersteller kommen auch hier verschiedene API-Protokolle zum Einsatz wie OpenFlow oder sonstige proprietäre Implementationen. Im Gegensatz dazu hat die Firma Cisco ein eigenes Verfahren für Non Blocking Multicast (NBM) entwickelt, welches ohne externe Steuerung auskommt. Dies reduziert die Komplexität bei einer StandAlone-Installation erheblich, bspw. in einem Ü-Wagen mit ausschließlich Cisco-Lawo-Komponenten. Für den Einsatz solcher Switche in gemischten Netzen lässt sich NBM im passiven Modus betreiben und somit auch per SDN steuern (Software-Defined Networking). In geschlossenen Mediennetzen werden die Audio/Video-Daten meistens als MulticastStreams übertragen (s. Kap. 16.3.5.1). Zur Steuerung werden verschiedene Protokolle verwendet, wie z. B. das Protocol Independent Multicast (PIM) oder Interior Gateway Protocol (IGP). In komplexen Broadcastsystemen existieren gleichzeitig viele Audio-, Video- und Metadaten-Streams, die gesteuert und geschaltet werden müssen. Dabei kommt es häufig zu gleichzeitigen Schaltvorgängen mit einer großen Anzahl von Streams zu einem definierten Zeitpunkt, bspw. beim Abruf eines Salvos (vorbereitete Liste von Schaltaufträgen). In diesem Fall wäre eine Steuerung über das Internet Group Management Protocol (IGMP, s. Kap. 16.3.5.4) aus Zeitgründen nicht möglich, weil die Geschwindigkeit des sequenziellen Abarbeitens der Liste, u. a. im IP-Routing, der begrenzende Faktor ist. Der Flaschenhals ist dabei der Switch, bzw. das Endgerät. Die Entwicklung im Open-Source-Projekt OpenFlow hat zur Lösung dieses Problems beigetragen. Es handelt sich dabei um ein Kommunikationsprotokoll auf Basis eines offenen Standards, der von vielen Herstellern unterstützt wird und somit Hardwareunabhängig ist. OpenFlow erlaubt es, mit einer Software den Weg zu bestimmen, den die Pakete durchs Netzwerk nehmen sollen. Die OpenFlow-Software läuft dabei auf Routern und Switchen und hat Zugriff auf die physische und virtuelle Routingebene. Die Routingtabellen werden zentral im OpenFlow-Controller verwaltet, dadurch wird das Netzwerk segmentiert und virtualisiert; der Datenverkehr kann über das gesamte Netzwerk kontrolliert werden.
Open-Flow Controller
OpenFlow-Switch FlowTable Forwarding Plane
OpenFlow-Switch
FlowTable Forwarding Plane
OpenFlow-Switch FlowTable Forwarding Plane
Abb. 16/31. Funktionsweise OpenFlow
1118
16 Digitale Betriebstechnik
Im gesamten System übernehmen verschiedene Teilsysteme die Aufgaben vom Anschluss der Endgeräte, bis hin zur Bedienung im Studio.
VSM / KSC / etc.
Orchestrator
Broadcast-Controller Studio-Managament
Orchestrierungs-Layer
SDN / API
SDN: Netzwerk-Steuerung
Netzwerk
Physisches Netzwerk
Abb. 16/32. Orchestriertes SDN-Gesamtsystem
Die Wirkungsweise eines orchestrierten SDN-Gesamtsystem wird im Kap. 16.3.7 näher beschrieben. Im Kapitel 16.2.9.3 wird die Anwendung des Broadcastcontrollers in der betrieblichen Praxis erläutert.
16.3.4 Synchronisation in Mediennetzwerken 16.3.4.1 Precision Time Protocol IEEE-1588 Obwohl Ethernet heutzutage die führende Technologie in Weitverkehrs- und lokalen Netzwerken ist, wurde sie zunächst für Anwendungen entwickelt, die keine gemeinsame Synchronisation erwarten. Durch die Migration von Ethernet-Schnittstellen in Bereiche, die eine hochgenaue Synchronisation im Nano- oder Microsekundenbereichen benötigen, müssen deshalb Änderungen an der bestehenden Hardware und Netzinfrastruktur durchgeführt werden. In zahlreichen Anwendungsbereichen, u. a. auch in der Audiotechnik, übernimmt das Precision Time Protocol (PTP-Protokoll) die Synchronisation verteilter Netzwerkelemente zu einem Master-Takt, wobei Restungenauigkeiten nur noch im Nanosekundenbereich zu finden sind. Der Standard [IEEE-1588 Precision Time Protocol, PTP] beinhaltet ein Protokoll, welches unabhängige Uhren in verschiedenen Netzelementen über ein verteiltes Master-Slave‑Konzept mit hoher Genauigkeit hinsichtlich Frequenz, Phase und Zeit synchronisiert. Um die Aufgaben der Synchronisation durchzuführen, werden zwei Grundkomponenten benötigt:
16.3 Audionetzwerke
1119
–– Der Grandmaster-Server liefert einen hochgenauen Referenztakt innerhalb einer PTPDomain. Aus diesem Referenzsignal wird ein Zeitstempel abgeleitet, der kontinuierlich an die PTP-Slaves gesendet wird. –– Im PTP-Slave werden die Zeitpakete herausgefiltert und als Zeitstempel für den Abgleich ihres lokalen Taktes verwendet. Zusätzlich werden in den PTP-Slaves Laufzeitmessungen durchgeführt, um die Laufzeit zwischen Grandmaster und Slave zu ermitteln. Sie wird als Korrekturwert für den Abgleich benötigt. Master und Slave halten ihre Systemuhren synchron, indem in kontinuierlichen Abständen PTP-Nachrichten mit hochgenauen Zeitstempelinformationen untereinander ausgetauscht werden.
GP
S
vorher
GPS
Hochgenaue Zeitstempelgenerierung
Grandmaster Server Master Clock
vorher
nachher
1588 Slave Slave clock
PTP
PTP
UDP
UDP
IP
IP
MAC Physikalischer Layer
Sendet periodisch Timing-Nachrichten an den Slave
Timing Handshake
Netzwerk Daten-Pakete Timing-Pakete
nachher
MAC Physikalischer Layer
Der Slave antwortet mit Nachrichten an den Master
Abb. 16/33. Prinzipieller Aufbau eines Uhrenabgleichs
Um den Einfluss von Betriebssystem und Protokollstack (Protokollstapel) so gering wie möglich zu halten, wird beim Aussenden und beim Empfang von PTP-Nachrichten der hochgenaue Zeitstempel zwischen der Media-Access-Control-Adress (MAC-Schicht) und dem physikalischen Layer eingefügt. Der Takt des Masters wird als Zeitstempelinformation über das Netzwerk an die PTPSlaves übertragen. Die Genauigkeit der Synchronisation wird durch die Netzelemente im Übertragungsweg beeinflusst. Durch die Pufferfähigkeit von Switches und Routern variiert die Paketlaufzeit bei unterschiedlichen Paketlängen. Die Laufzeit und die Schwankung der Laufzeit muss vom PTP-Slave erkannt und korrigiert werden. Die Verifizierung des richtigen Offset- und Laufzeitwertes unterliegt dem Algorithmus des Herstellers und ist nicht standardisiert. Dies ist ein Unterscheidungsmerkmal der verschiedenen Anbieter von PTP-Komponenten. Je genauer die lokale Uhr zur Referenzuhr sein soll, um so ausgefeilter muss der Algorithmus im PTP-Slave sein.
1120
16 Digitale Betriebstechnik
Slave Clock
Master Clock PTP
T1
sync
follow_up
GP S
UDP IP
delay_req.
MAC T4
delay_resp.
Server
PTP T2
T3
PTP
UDP IP
IP
MAC Client
1 pps
Abb. 16/34. Grundsätzlicher Nachrichtenaustausch
Der Master sendet Sync-Nachrichten mit der hochgenauen Uhrzeit in zyklischen Intervallen zum PTP-Slave. Um eine Verzögerung beim Senden des Zeitstempels innerhalb des Systems (Protokollstack) zu verhindern, kann auch parallel dazu die exakte Uhrzeit mit einer FollowUp-Nachricht übermittelt werden. Erfolgt das Einfügen der Zeitstempel mit schnellen, kundenspezifisch programmierten Chips (FPGAs), kann der Zeitstempel direkt mit einer SyncNachricht gesendet werden. Es ist dann keine Follow-Up-Nachricht notwendig. Der Slave misst die exakte Ankunftszeit der SYNC-Nachricht und berechnet daraus den Offset zum Master-Takt. Die zeitliche Differenz zwischen Master und Slave wird um den Offset korrigiert. Voraussetzung ist ein symmetrisches Delay. Die Hin- und Rückrichtung der Nachrichtenpakete sollte gleich sein. Die Berechnung des Zeitversatzes erfolgt mit der Formel θ = ½ [(T2 – T1) - (T4 – T3)] θ = Offset T2 – T1 = master to slave delay T4 – T3 = slave to master delay
Um die Verzögerung der Übertragungsstrecke zu ermitteln, werden Delay Request- und Delay Response-Nachrichten ausgetauscht. Die Delaymessung wird kontinuierlich in kurzen Intervallen vom PTP-Slave durchgeführt. Der PTP-Slave sendet seine Delay Request-Nachricht an den Master, zusammen mit der exakten Sendezeit. Der Master ermittelte nun die genaue Empfangszeit und sendet diese an den PTP-Slave mit einer Delay Response-Nachricht zurück. Aus diesen Informationen werden im Slave die Laufzeitverzögerung zwischen Master und Slave berechnet. Bei der Berechnung geht man von einer symmetrischen Übertragungsstrecke aus. Mit den Werten der Offset- und der Delay-Messung korrigiert der Slave seine eigene Uhrzeit.
16.3 Audionetzwerke
1121
Die Berechnung der Laufzeit erfolgt mit der Formel: δ = ½ [(T2 – T1) + (T4 – T3)] δ = Mean delay
T2 – T1 = master to slave delay T4 – T3 = slave to master delay
S GP
GP
S
Das PTP-Protokoll setzt hohe technische Anforderungen an die Netzinfrastruktur: –– Durchlaufzeiten durch die Koppelelemente wie Switch und Router bestimmen die Genauigkeit des Zeitabgleichs. –– Laufzeit- und Lastschwankungen, sowie ausgelastete Puffer führen zu Ungenauigkeiten und verschlechtern die Genauigkeit. –– Lastspitzen (Microbursts) können zu Paketverlusten führen, haben aber einen geringeren Einfluss auf die Synchronisationsgenauigkeit. –– Erhöhung der Genauigkeit der Synchronisation wird erreicht bei geringen Netzlasten, beim Einsatz aktiver PTP-Komponenten in der Übertragungsstrecke, mit weniger Netzelementen im Übertragungsweg oder mit einer Segmentierung und Aufteilung aktiver PTP-Komponenten in mehrere, logische PTP-Domains (Gruppe von Taktgeräten, die sich innerhalb ihres Bereichs synchronisieren; eine Synchronisation mit Taktgeräten in anderen Domains ist nicht möglich).
PTP-Domain x
Masterclock 1 (aktiver Master)
PTP-Domain x
Boundary Clock
Masterclock 2 (passiver Master)
PTP-Domain x Boundary Clock PTP-Domain x
PTP-Domain x PTP-Domain x
Transparent Clock PTPSlave
PTPSlave
Transparent Clock PTPSlave
z. B. Mixer, Multiviewer …
PTPSlave
PTPSlave
Transparent Clock PTPSlave
z. B. Kameras, Audioquellen …
Abb. 16/35. Konfigurationsbeispiel mit PTP-Domain x
PTPSlave
PTPSlave
PTPSlave
z. B. Monitor, Media Devices …
1122
16 Digitale Betriebstechnik
Sollen Genauigkeiten im Micro- oder Nanosekundenbereich erreicht und diese Genauigkeit noch stabil über einen längeren Zeitraum gehalten werden, müssen aktive Komponenten im Übertragungsweg eingesetzt werden. Aktive Komponenten bedeuten, dass die Koppelelemente auf der Übertragungsstrecke eine eigene PTP-Fähigkeit besitzen. Damit sind sie aktiv am PTP-Nachrichtenaustausch beteiligt und verbessern dadurch die Genauigkeit und Stabilität des Abgleichs. Die dafür entwickelten Netzelemente besitzen zusätzlich zu ihrer Switching- und Routing-Aufgabe eine sog. Boundary- und Transparent-Clockfunktion. Boundary Clock Boundary Clocks sind Netzelemente mit mehreren Ports, die als Master oder Slave innerhalb einer Domain konfiguriert werden können. Sie reduzieren die Anzahl an Netzübergängen und die Durchlaufzeiten über die Switches und Router. Eine Zeitsynchronisation mittels Boundary Clock ist für hierarchische Netzarchitekturen gut geeignet. Gleichzeitig bedient der Master die im Downstream liegenden Slaves. Bei Netzen mit vielen PTP-Slaves wird dadurch zusätzlich eine Entlastung des Grandmaster erreicht.
Timing Nachrichten T
Boundary Switch
Slave Port
Master Port
Timing Nachrichten T
Abb. 16/36. Boundary Clock. Keine Durchlaufzeit der Timingpakete durch das Koppelelement, eigener stabiler Oszillator, Holdover-Funktion wird unterstützt.
Boundary Clocks besitzen eine gute Skalierbarkeit und ermöglichen eine bessere Kontrolle der Timing-Hierarchie. Sie unterbrechen den Ende-zu-Ende-Nachrichtenaustausch und belasten dadurch den Referenzmaster weniger. Zusätzlich stellt eine Boundary Clock eine redundante lokale Mastertaktquelle bei Ausfall der Referenztaktquelle zur Verfügung (Holdover). Transparent Clock Ein weiteres Element in einer Netzarchitektur ist der Transparent Clock. Er kann nicht als Master oder Slave konfiguriert werden. Es gibt zwei Konfigurationsarten, die beide die Paketverzögerungen beim Durchlaufen der Timingpakete durch die Netzelemente kompensieren und die Durchlaufzeit als Korrekturwert zusätzlich in die Timingpakete miteinfügen: –– End-To-End Transparent Clock; alle Netzelemente in der Übertragungsstrecke müssen den Transparent Clock Mode unterstützen. Er ist nicht Teil der Master-Slave-Hierarchie. –– Peer-to-Peer Transparent Clock-Modus; zusätzlich zur Durchlaufzeit durch die Netzelemente wird die Verzögerung der physikalischen Verbindung zwischen den Ports ermittelt. Dieser Wert wird zusätzlich als Korrekturwert mit in die Pakete eingefügt. Best Master Clock Algorithmus Ein Vorteil bei Ausfall des Referenzmasters ist der Best Master Clock-Algorithmus (BMCA). Sollte der aktive Grandmaster seine externe Synchronisation verlieren, oder nicht mehr im
16.3 Audionetzwerke
1123
Netzwerk verfügbar sein und mindestens ein zweiter Grandmaster ist als Redundanz verfügbar, wird dieser automatisch zum Referenzmaster. Alle Slaves übernehmen automatisch den Takt des vormals passiven Masters, der jetzt zum Referenzmaster geworden ist. Dieser Mechanismus lässt sich innerhalb einer Domain durch die Parameter „Priorität 1 und 2“in den Announcement-Nachrichten der Grandmasterclocks, sowie über die Intervalle der Announcement-Nachrichten und des zugehörigen Time-Outs steuern. Die verfügbaren Master kommunizieren dabei über die Announcement-Nachrichten auch untereinander und bestimmen den Master mit den besten Synchronisationswerten zum „Best Master“. Das alles muss gewissenhaft für das gesamte Netzwerk konfiguriert werden, damit es nicht zu unerwünschten und instabilen Umschaltvorgängen im Netzwerk kommt. Alle anderen Grandmasterclocks gehen in den Zustand passiver Master.
16.3.5 IT-Transport 16.3.5.1 Einführung in IP-Multicast Das Ethernet- und IP-Protokoll ist in der Regel das Netzwerk der Wahl für die Vernetzung von Rechnern heutzutage. Es ist überall zu finden und hat sich gegen viele andere Protokolle durchgesetzt. Durch die paketorientierte Übertragung werden die Pakete anhand ihrer Adressinformationen durch die Netze vermittelt. Dabei wird versucht, die Übertragung der Informationen mehr und mehr zielgerichtet durchzuführen. Anstatt mit Broadcast die Informationen an alle Teilnehmer des Netzes zu übertragen, werden die Informationen nur noch an diejenigen Teilnehmer gesendet, die diese auch benötigen. Durch die Multicastübertragung greifen mehrere Empfänger auf einen Datenstrom zu und reduzieren dadurch die Auslastung auf den Übertragungsstrecken. Dadurch kann eine Netzwerkinfrastruktur effizienter ausgenützt werden. –– Broadcast-Übertragung: Von der Quelle einmal abgesendet, wird der Transportstrom in jedem Knoten so vervielfacht, dass die Daten an jedem Punkt und an jedem aktiven Anschluss zur Verfügung stehen. Jeder Teilnehmer des Netzes ist Empfänger. Wer die Daten nicht benötigt oder empfangen will, muss diese nach dem Empfang verwerfen. Die Übertragung ist also sehr ineffizient. –– Unicast-Übertragung (Punkt-zu-Punkt): Die Quelle sendet die Pakete in Form eines klar adressierten Transportstroms zum Ziel. Jedes Paket ist nur einmal zwischen den beiden Kommunikationspartnern im Netzwerk vorhanden. Bei vielen Unicast-Verbindungen kann die zur Verfügung stehende Übertragungsstrecke überlastet werden. –– Multicast-Übertragung (Punkt-zu-Mehrpunkt): Die Quelle sendet die Pakete an mehrere Empfänger. Der Transportstrom wird von der Quelle einmal erzeugt und an Verteilpunkten im Netzwerk so vervielfacht, dass nur diejenigen Teilnehmer, die den Strom empfangen wollen, ihn auch erhalten. Alle diese Empfänger sind Mitglieder einer Gruppe. Mit dieser Art der Übertragung kann ein einzelner Datenstrom an viele Teilnehmer übertragen werden, ohne das Netzwerk zu überlasten.
1124
16 Digitale Betriebstechnik
16.3.5.2 Multicast-Adressen Multicast-Adressen können statisch oder dynamisch zugewiesen werden und erlauben damit vielseitige Anwendungen. Bei der dynamischen Adressierung erhalten die Teilnehmer eine Multicast Adresse für eine bestimmte Nutzungsdauer geliehen. Nur solange die Adresse gebraucht wird, soll sie der Anwendung zugewiesen werden. Statische Multicast-Adressen Sie sind ständig aktiv. Erfolgt die Kommunikation für diesen Prozess mittels Multicast, so muss die Gruppenadresse einerseits stets verfügbar sein und sollte andererseits auch jedem Teilnehmer bekannt sein. Zu diesem Zweck hat die ICANN (Internet Corporation for Assigned Names and Numbers) sog. „Well Known Multicast Adressen“ definiert. Durch das Reservieren von Adressen kann eine weltweite Eindeutigkeit garantiert werden. Any Source Multicast-Adressen, ASM Sie übertragen die Nutzdaten nur an eine Gruppe mit mehreren Mitgliedern. Die Gruppen können unabhängig vom Standort ihrer Mitglieder sein. Für die Empfänger ist es möglich, Multicast-Streams von allen Sendern zu empfangen. IP-Multicast überträgt die Daten an eine Empfängergruppe, die durch ihre Multicastadresse gekennzeichnet ist. Dies verhindert überflüssigen Verkehr und führt zur effektiven Ausnutzung des Netzwerkes bei gleichzeitiger Übertragung an mehrere Teilnehmer. ASM unterstützt dabei sowohl eine one-to-many-, als auch many-to-many-Gruppenkommunikation. One-to-many-Gruppenkommunikation bedeutet, dass es einen Sender für eine Vielzahl von Empfängern gibt. Bei many-to-manyGruppenkommunikation kann es hingegen eine Vielzahl von Sendern für eine Vielzahl von Empfängern geben. Source-Specific Multicast, SSM Bei Source-Specific Multicast, (SSM, RFC 4607) werden, im Gegensatz zu ASM, die Nutzdaten nur von einem einzigen spezifizierten Sender an eine Gruppe von mehreren Mitgliedern übertragen, es findet also nur eine one-to-many-Gruppenkommunikation statt. Ein MulticastChannel besteht aus einem Sender und einer Gruppe von Empfängern. Dadurch kann sowohl die Last innerhalb des Netzwerks reduziert, als auch die Netzwerksicherheit erhöht werden. Pro Gruppe können auch mehrere Multicast-Channels existieren. In größeren, gemanagten Netzen wird aus diesen Gründen diese Art der Multicast-Übertragung zunehmend wichtiger (s. Kap. 16.5.7.3), gleichwohl nicht immer notwendig. IP-Multicast Sie ist eine Ergänzung der IP-Protokolle und wird im RFC-Protokoll 1112 beschrieben. Multi castverbindungen erleichtern die Übertragung von IP-Paketen an Gruppen mit beliebiger Teilnehmerzahl und liefern die IP-Pakete an Gruppenmitglieder unabhängig von deren geographischen Standort. Teilnehmer können während des Betriebs einer Gruppe beitreten und diese auch wieder verlassen. Multicast Anwendungen skalieren sehr gut, da die Quelle theoretisch nur eine Multicast Adresse bedienen muss. In der Praxis ist eine Quelle aber in der Lage viele Gruppenadressen
1125
16.3 Audionetzwerke
zu bedienen. Die Anzahl der Empfänger und deren Unicast-Adressen sind der Quelle nicht bekannt. 16.3.5.3 Multicast-Kommunikation Eine Station, die an einer Multicastübertragung teilnehmen soll, muss in der Lage sein, Unicast-, Multicast- und Broadcast-Verkehr zu empfangen. Ist diese Station, wie heute meist üblich, an einem lokalen Ethernet-Netzwerk angeschlossen, so muss die IP-Multicast-Adresse folgerichtig auf eine MAC-Adresse (Media-Access-Control-Adresse) im Layer 2 abgebildet werden, da jedes IP-Paket in einem Ethernetrahmen transportiert werden muss. Eine Ethernet-Netzwerkkarte empfängt über ihre Schicht2-Funktion nur dann einen Rahmen, wenn im Feld „MAC Zieladresse“ eine ihr bekannte Multicastadresse steht. 16.3.5.4 Protokollstack Wird eine Multicastanwendung auf einem System aktiviert, baut das Betriebssystem parallel zum bestehenden Protokollstack (Protokollstapel) einen zusätzlichen Multicast-Protokollstack für die Dauer der Anwendung auf. Dies ermöglicht es dem System gleichzeitig Unicastund Multicastpakete zu empfangen. Über die Protokollzusammensetzung können die empfangenen Daten an die Anwendung weitergereicht werden. Netzwerkstream öffnen
Adresse http://www.Medien-Anbieter.com
Internetbrowser
Unicast Protokoll Stack
Datei
Medienplayersoftware
Medien
Netzwerk
Aufnahmegerät
Netzwerkprotokoll Bitte geben Sie eine Netzwerkadresse ein
rtp://239.0.0.5:1234
MPEG
HTTP Port:80
RTP Port:1234
TCP
UDP
IP 192.168.2.34
IP 239.0.0.5
MAC 00-04-3a-45-fe-0c
MAC 01-00-5e-00-00-05
Multicast Protokoll Stack
IP
MAC
vom IPTV Server
01-00-5e-00-00-05
d4-24-fa-04-e2-1c
239.0.0.5
13.0.0.99
DA
SA
DA
SA
MAC vom Webserver
IP
00-04-3a-45-fe-0c
d4-24-fa-04-e2-1c
192.168.2.34
67.16.223.124
DA
SA
DA
SA
Abb. 16/37. Beispiel eines Hosts mit Unicast- und zusätzlich Multicast Protokollstack für einen Medien-Player
Prinzipiell muss die Multicast-Quelle nicht wissen, wer die Empfänger sind. Streng genommen muss die Quelle noch nicht einmal Mitglied der Multicast-Gruppe sein, die von den Empfängern gebildet wird.
1126
16 Digitale Betriebstechnik
Ein Multicast-Empfänger benötigt Informationen, welche Multicastgruppen es im Netz gibt. Ein Host entscheidet selbst, welcher Multicastgruppe er beitreten will und führt den Prozess des Abonnierens durch. Mit dem Join-Prozess beantragt ein Host die Gruppenmitgliedschaft bei den Netzelementen, die für die Verteilung des Multicaststreams zuständig sind. Wird der Beitrittswunsch akzeptiert, so leiten die Netzelemente den Multicastverkehr der gewünschten Gruppe auf das Interface weiter, über den der Join-Prozess empfangen wurde. Aufwendiger wird es, wenn die Multicastverteilung über verschiedene IP-Netze erfolgen soll. Dann müssen die IP-Router in die Verteilung mit einbezogen werden, und die Router müssen entscheiden, auf welchen Ports und in welche Netze sie den Multicastverkehr replizieren. Dies funktioniert nur, wenn die Kommunikationsstruktur multicastfähig ist und Protokolle zum Einsatz kommen, die die Signalisierung, Verteilung und Festlegung der Verteilstruktur durchführen. Dazu ist eine Koordination in den beteiligten Elementen wie Switches und Routern notwendig. Diese benötigen Kenntnis der Gruppen und ihrer Mitglieder, um dann den optimalen Weg zur Festlegung des Verteilungsbaumes zu erstellen. Dabei werden Protokolle eingesetzt, s. Abb. 16/38, wie: –– IGMP, Internet Group Management Protocol; Kommunikationsprotokoll der Internet protokollfamilie TCP/IP. –– PIM, Protocol Independent Multicast; Verfahren in der Netzwerktechnik, das dynamisches Routing von Multicast-Paketen im Internet ermöglicht. –– MOSPF, Multicast Open Shortest Path First; Multicast-Erweiterung zur Abwicklung von Paketversand. –– DVRMP, Distance Vector Multicast Routing Protocol; wird in Netzwerken verwendet; Erweiterung einer Netzkopplung, um Multicastpakete an interessierte Hosts zu verteilen. 16.3.5.5 Einsatzbereich Multicast-Protokolle In Netzwerken liegt der Vorteil von Multicast darin, das ein Paket nur einmal versendet werden muss. Bei Versand via Unicast an mehrere Empfänger muss jedes Paket einzeln an jeden Empfänger versendet werden. Innerhalb eines Netzwerkes erfolgt bei Multicastbetrieb jeder Versand an ein benachbartes Netzwerkelement nur einmal und nur dann, wenn ein dort angeschlossenes Endgerät diesen Multicast abonniert hat. Ist das nicht oder nicht mehr der Fall, wird der Versand beendet. Somit kann durch den Multicasteinsatz die Netzauslastung sehr viel ökonomischer organisiert werden. Grundlage dafür ist die passende Netzwerk infrastruktur. Im öffentlichen Internet ist das z. B. nur in abgeschlossenen Teilbereichen möglich, z. B. bei Magenta TV. Für die Verbreitung von Streamingdiensten kommt ansonsten überwiegend multiple Unicast zum Einsatz. 16.3.5.6 IP-Multicasting in Layer 2-Switchingumgebung Layer 2-Netzstrukturen besitzen heutzutage eine hohe Popularität. Damit ist ein effizienter IP- Transportmechanismus ohne Routingaufwand möglich. Die Kombination von Layer 2 und Layer 3 ermöglichen die Verwendung von Layer 2-Switching und Layer 3‑Multicasting
16.3 Audionetzwerke
1127
anwendungen in einer gemeinsamen Layer 2-Netzinfrastruktur. Für Multicastkommunikationen sind folgende Parameter notwendig: –– Für die Registrierung wird das IGMP-Protokoll eingesetzt. –– Für die Kontrolle und Steuerung ist ein Querier zur periodischen Abfrage notwendig. –– Ist kein Multicast-Router im Netzwerk vorhanden, übernimmt ein Switch die Aufgabe periodisch IGMP-Nachrichten auszusenden, um die Multicast-Tabellen zu überwachen. –– IGMP-Snooping ist eine Funktion, die der Layer 2-Switch benötigt, um anhand der IGMPNachrichten die Multicast-Empfängeradressen zu erlernen und daraus eine MulticastSwitchingtabelle zu erstellen. Um eine Auswertung der Layer 3-Informationen in den IGMP-Nachrichten durchführen zu können, wird ein multicastfähiger Layer 2-Switch benötigt. Der Switch belauscht den IGMPTraffic an seinen Ports und sobald IGMP-Snooping aktiv ist, werden alle Multicast-Nachrichten überprüft. Join- und Leave-Nachrichten werden dann über den Routerport (Port an dem der Router/Querier angeschlossen ist) weitergeleitet. Sendequelle X
Sendequelle Y
IGMP Router
Switch
IGMP
IGMP
IGMP
Router DVRMP, MOSPF, PIM
Emfpänger Emfpänger
Emfpänger
IGMP
IGMP
Emfpänger Emfpänger
Router IGMP
Multicast Routing Protokolle
Switch IGMP
Switch
IGMP
IGMP-Signalisierung und Kontrolle
Emfpänger Emfpänger Abb. 16/38. Beispiel zum Einsatzbereich Multicastbetrieb.
Sobald der Switch einen IGMP-Multicast Report von einem Host empfängt, fügt er diese Multicast-Gruppenadresse in seine Multicast Adresstabelle ein. Durch eine IGMP-Join GroupNachricht wird die Gruppe in die Multicasttabelle eingetragen. Erkennt der Switch eine Leave Group-Nachricht für die Gruppe, wird diese wieder aus der Tabelle entfernt. Durch die Multicasttabellen wird verhindert, dass der Multicastverkehr das Netzwerk flutet. Die Nutzlast wird nur an diejenigen Ports weitergeleitet, an denen Mitglieder der Gruppe sind.
1128
16 Digitale Betriebstechnik
16.3.5.7 Multicast-Routing Das Ziel des Multicast-Routings ist, den optimalen Übertragungsweg in den Multicast-Routingtabellen zu erstellen. Die Multicastpakete werden dann anhand der Multicasttabellen weitergeleitet. Verschiedene Multicastarchitekturen sorgen für einen optimalen Aufbau dieser Verteilstrukturen. Funktionen wie Flooding und Pruning werden dafür eingesetzt. Beim Flooding werden die Multicastpakete von den Routern an allen aktiven Schnittstellen weitergeleitet, außer an denjenigen Schnittstellen, an denen das Multicastpaket empfangen wurde. Es ist keine Routingtabelle notwendig, sondern nur eine Liste der zuletzt weitergeleiteten Pakete. Die Pakete werden überallhin zugestellt. Wer sie nicht haben will, muss sie explizit abbestellen. An den Schnittstellen, an denen keine Multicast Mitglieder vorhanden sind, schickt der Router eine „Prune-Nachricht“ an den übergeordneten Router zurück, der daraufhin das Senden der Multicast-Pakete auf der zugeordneten Schnittstelle einstellt. Als Routingprotokolle sind im Einsatz: –– Distance Vector Multicast Routing Protocol (DVRMP). Hier handelt es sich um ein Dense-Mode-Protokoll, welches ein eigenes Routingprotokoll besitzt. –– Multicast Extension to Open Shortest Path First (MOSPF). Erweiterung des Unicast Protokolls OSPF (RFC1584). MOSFP kann nur mit OSPF genutzten Routern zusammenarbeiten. Jeder Router kennt alle verfügbaren Verbindungen im Netz. –– PIM-Protocol Independent Multicast (RFC3973, RFC7761). Dieses Protokoll arbeitet mit allen existierenden Unicast-Routing Protokollen zusammen. Es besitzt eine eigene Multi cast Routing Information Base (MRIB). Heutzutage ist es das am häufigsten eingesetzte Multicast-Routingprotokoll.
16.3.6 Datenaustausch in Audionetzen Eine Interoperabilität zwischen verschalteten Geräten funktioniert nur dann, wenn die Geräte sich untereinander verstehen. Es gibt die unterschiedlichsten Verfahren, dies zu gewährleisten. Dies schließt neben Lösungen bestimmter Hersteller oder Konsortien auch die in Standards beschriebene Verfahren ein. Die frei zugänglichen Standards, z. B. [AES67], [SMPTE ST 2110], [IEEE 802.1 AVB], dienen dabei als Grundlage zur Definition der Basisfunktionalitäten, wie z. B. Synchronisation, Datenformatierung und -transport etc., stellen aber noch keine eigenständige Lösung dar. Einige Verfahren basieren auf diesen frei zugänglichen Standards, die durch bestimmte Festlegungen funktional zu einer Lösung erweitert werden, wie z. B. von MILAN und RAVENNA. Darüber hinaus gibt es Lösungen von Herstellern, welche meist als geschlossene Technologien ausgeführt sind, die nur die Kommunikation zwischen Geräten ermöglichen, welche die Technologie dieses Herstellers verwenden, wie z. B. DANTE, LIVEWIRE u. a.. Durch zusätzliche Unterstützung der Interoperabilitätsstandards können die geschlossenen Lösungen auch Geräte anderer Hersteller einbinden, meist jedoch mit begrenztem Funktionsumfang.
16.3 Audionetzwerke
1129
16.3.6.1 AVB Übersicht AVB steht für „Audio Video Bridging for real-time sensitive media data“ und ist eine Erweiterung der Ethernet-Spezifikation, die von der [IEEE 802.1-Arbeitsgruppe] erarbeitet worden ist. Dabei stellt AVB an sich noch keine eigenständige Lösung dar, sondern ist vielmehr eine Sammlung von Protokollen auf dem Ethernet-Layer. Sie ermöglichen Echtzeit-sensitive Datenströme mit deterministischen Latenzen gesichert zu übertragen. Hierzu muss die verwendete Ethernet-Infrastruktur diese Protokolle durchgehend unterstützen, also alle beteiligten Netzwerkkomponenten und Endgeräte müssen die entsprechenden AVB-Erweiterungen implementiert haben. Die initial in den Jahren 2010 bis 2013 veröffentlichten AVB-Protokolle bzw. spezifischen Ethernet-Protokollerweiterungen umfassen: –– die AVB Basisprotokolle, die das präzise Timing IEEE 802.1 AS, die Bandbreitenreservierung [IEEE 802.1 Qat] und das Traffic Shaping [IEEE 802.1 Qav] regeln, –– ein Transportprotokoll, mit dem das Format und der Transport der eigentlichen Nutz daten festgelegt wird [IEEE 1722], –– und ein Protokoll, mit dem die Erkennung und Konfiguration der angeschlossenen Geräte geregelt wird [IEEE 1722.1]. In den Folgejahren wurden überarbeitete bzw. erweiterte Versionen dieser Protokolle unter dem Überbegriff Time-sensitive Networking (TSN) veröffentlicht, um den spezifischen Anforderungen der zwischenzeitlich erweiterten Anwendungsbereiche mit Schwerpunkten Automotive und Industrial Networking inhaltlich und technisch gerecht zu werden. Da die Festlegungen der AVB-Standards sehr umfangreich und weit gefasst sind, ist eine Interoperabilität zwischen AVB-Geräten verschiedener Hersteller nur sehr schwer bzw. nicht ohne weitere Festlegungen realisierbar. Daher wurden Anstrengungen seitens der AVIndustrie unternommen, die Möglichkeiten der AVB-Protokolle spezifisch zu nutzen und um notwendige Steuerungs- und Managementfunktionen zu ergänzen. Diese herstellerübergreifende Initiative führte dann im Jahr 2018 zur Vorstellung von MILAN (s. Kap. 16.3.6.2), einem speziell für die Bedürfnisse des ProAV-Bereichs entwickelten Protokolls, welches auf den AVB-Protokollen aufsetzt und weitere Festlegungen und Funktionalitäten spezifiziert. Protokolle a) gPTP, generalized Precision Time Protocol [IEEE 802.1 AS] Dieses Protokoll ist ein Timing- und Synchronisations-Protokoll, das auf dem Precision Time Protocol [IEEE 1588-2008] basiert. Dieses aus dem Bereich der industriellen Automatisationssteuerung stammende Protokoll zur hochgenauen Verteilung von absoluter Zeit in Netzwerken, ist in seiner ursprünglichen Form recht komplex. Für die Verwendung im Rahmen von AVB wurde es auf die Verwendung auf Layer 2 reduziert und an einigen Stellen vereinfacht, bleibt jedoch im Wesentlichen mit IEEE 1588-2008 kompatibel. Es ermöglicht die Zeitsynchronisation aller beteiligten Komponenten auf ca. 500 ns genau. Typischerweise werden hierüber die in den Endgeräten implementierten Uhren synchronisiert, so dass eine system-
1130
16 Digitale Betriebstechnik
weite, ausreichend genaue Synchronisation zur Verarbeitung von Audio- und Videodaten möglich wird. b) Qat, stream reservation protocol (clause 11 amendment to 802.1Q), [IEEE 802.1] Dieses Protokoll sorgt dafür, dass innerhalb des Netzwerkes garantierte Bandbreiten für reservierte Verbindungen bereitgestellt werden. Wenn bei einem Empfänger ein bestimmter Datenstrom ankommen soll, muss dieser eine sog. Stream Reservation vornehmen. Der Sender informiert über die Bandbreite, die der betreffende Stream benötigt: alle beteiligten Switche müssen die Anforderung zur Bereitstellung der benötigten Bandbreite quittieren. Jeder Switch darf max. 75% seiner verfügbaren Bandbreite für den AVB-Verkehr reservieren, damit andere Dienste auf dem Netz noch laufen können. Falls nicht mehr genügend Bandbreite an einer Stelle des ermittelten Pfades zur Verfügung steht, kommt die Reservierung nicht zustande und der Stream kann nicht aufgesetzt werden. c) Qav – traffic shaping (clause 12 amendment to 802.1 Q), [IEEE 802.1] Dieses Protokoll definiert das Verhalten eines Ausgangsports in Bezug auf die zeitliche Weiterleitung von AVB- und Nicht-AVB-Datenverkehr. Die Weiterleitung von anstehenden Datenpaketen wird so vorgenommen, daß AVB-Daten mit definierter Latenz ihr Ziel erreichen, aber nicht-AVB-Daten auch genügend Platz finden. Innerhalb von AVB gibt es zwei unterschiedliche Latenz-Klassen: in Klasse A beträgt die garantierte max. Latenz zwischen Sender und Empfänger 2 ms, in Klasse B sind es bis zu 10 ms.
Port Eingang
Port Eingang
AVB Klasse A
Shaper
AVB Klasse B
Shaper
nicht AVB
Auswahl Port Ausgang des nächsten Frames
nicht AVB
Queuing
Scheduling
Abb. 16/39. Schematische Darstellung des Traffic Shapings nach IEEE 802.1Qat
d) AVB systems & profiles definitions [IEEE 802.1 BA] In diesem Teilstandard werden Vorgaben und Profile definiert, mittels deren Hersteller von Switches und Endgeräten AVB-konforme Geräte entwickeln können. Im Rahmen der Profildefinitionen werden bestimmte Konfigurations- und Betriebsparameter für die einzelnen AVB-Protokolle vorgegeben, damit die beteiligten Komponenten dann automatisch ein AVBNetzwerk bilden können, in welchem zeitsensitive Audio- und Videodaten transportiert werden können. Dabei können u. a. auch nicht-AVB-fähige Netzwerkkomponenten identifiziert und bei der Bildung der sog. „AVB-Wolken“ ausgeschlossen werden.
16.3 Audionetzwerke
1131
e) Layer 2 transport protocol and payload format definition [IEEE 1722] Dieses AVB-spezifische Transportprotokoll (AVTP) beschreibt, wie Audio-/Videodaten auf einem AVB-Netzwerk transportiert werden. Hierfür wurde eine neue Kennung (Ethertype) im Ethernet Frame Header definiert, an der ein AVB-fähiger Switch erkennen kann, daß es sich um ein AVB-Paket handelt und es entsprechend verarbeiten kann. Die Nutzlastdefinition (Payload) ermöglicht die Übertragung einer Reihe verschiedener Audio- und Videoformate. Die Audioformat-Spezifikation basiert auf dem AM824-Format und ist aus dem bekannten Firewire-Format [IEEE 1394] abgeleitet worden; insofern kann man IEEE 1722 vereinfacht auch als „Firewire über AVB“ bezeichnen. f) Configuration & control protocol for IEEE 1722 devices [IEEE 1722.1] Dieses Protokoll definiert die Funktionen Discovery, Enumeration, Connection management and Control (AVDECC) für Geräte, welche das AVTP Protokoll IEEE 1722 zum Transport von Audio-/Videodaten verwenden. Dabei werden die Methoden und Einzelheiten zum Hinzufügen oder Entfernen von Geräten, zum Auslesen ihres spezifischen Entity Models, zum Verbindungsauf- und -abbau und zur Steuerung und Überwachung von Gerätefunktionen und deren Zuständen definiert. Aufbau eines AVB-basierten Systems Grundsätzlich gibt es in einem AVB-System einen Time Grandmaster, es gibt Talker, das sind die Geräte, die einen Datenstrom senden, und es gibt Listener, die Datenströme empfangen. Diese Unterteilung ist rein funktional, auf Geräteebene kann ein Talker auch gleichzeitig für andere Streams ein Listener sein und umgekehrt; ebenso kann ein Endgerät in Abwesenheit eines dedizierten Grandmasters auch diese Rolle übernehmen. Dazu wird eine AVBNetzwerkinfrastruktur mit entsprechenden Switchen benötigt. Wichtig ist, dass alle Devices, die AVB sprechen wollen - also auch die Switche -, die AVB-Basisprotokolle unterstützen müssen. Diese Devices formen dann per automatischer Erkennung eine so genannte AVBWolke oder AVB-Domain. In Abb. 16/40 sind zwei Wolken mit AVB-fähigen Switches dargestellt. Die in der Abbildung verwendete Terminologie ist auf den ersten Blick ein wenig verwirrend: Was im allgemeinen Sprachgebrauch als „Switch“ bezeichnet wird, ist in der Ethernet-Terminologie eine „Bridge“ (daher stammt auch die Bezeichnung „Audio-Video-Bridging“). Da die beiden automatisch gebildeten AVB-Wolken mit nicht-AVB-fähigen Switches verbunden sind, zerfällt das gesamte Netzwerk in zwei unabhängige AVB-Domains. AVB-Datenströme können aber nur innerhalb einer AVB-Domain transportiert werden; daher ist es nicht möglich, einen AVB-Stream zwischen Domain 1 und Domain 2 auszutauschen, also z. B. eine gesicherte AVB-Verbindung zwischen Endpunkt-1 und Endpunkt-5 herzustellen. Gleichermaßen bleibt der zentral im Bild dargestellte AVB-Endpunkt isoliert, da er über einen nicht-AVB-fähigen Switch mit er AVB-Domain-2 verbunden ist. Grundsätzlich kann ein AVB-Stream über beliebig viele Hops geführt werden. Ein Hop ist eine Verbindung zwischen einem Gerät und einem Switch (s. Abb. 16/41). Der Standard garantiert auf einem Fast Ethernet-Netzwerk (100 Mbit/s) aber nur für bis zu maximal sieben Hops eine maximale Latenz von 2 ms zwischen einem Sender und einem beliebigen Empfänger.
1132
16 Digitale Betriebstechnik
end point
end point
AVB end point 3
nonAVB bridge
AVB bridge Nicht-AVBfähige Switche
AVB bridge AVB end point 1 AVB domain 1
nonAVB bridge
AVB end point 2
end point
AVB end point
AVB domain 2 AVB-Streams innerhalb der Cloud möglich
AVB end point 5
AVB bridge
AVB bridge
AVB end point 4
end point
Nicht-AVBfähiger End-Point
AVB domain boundary port: filtering/retagging active non-AVB link AVB link AVB-fähige und Nicht-AVB-fähige Verbindung von Endpunkt 1 und 3
Abb. 16/40. Darstellung von AVB-Wolken: AVB-Stream zwischen endpoint 1 und endpoint 3 nicht möglich, da nicht-AVB-fähige Links im Verbindungsweg enthalten sind.
Bei dem Beispiel in Abb. 16/41 wird ein Stereo-Stream zu den Lautsprechern geschickt. Der erste Lautsprecher hängt direkt am ersten Switch, der zweite Lautsprecher am letzten Switch, wodurch eine Laufzeitdifferenz im Netzwerk entsteht. Durch die Festlegung einer gewünschten Presentation Time durch den Sender kann eine synchrone Ausspielung erreicht werden, indem die Lautsprecher die Daten unterschiedlich lang puffern, um sie dann zeitgleich auszuspielen. Voreingestellte Ausspielzeit (presentation time): 2 ms 2 Hops
Lautsprecher A und B puffern das einlaufende Audio bis die vorgesehene Ausspielzeit (presentation time) erreicht wird.
7 Hops
Abb. 16/41. AVB-Verbindungsbeispiel
Takterzeugung und Synchronisation Anders als bei AES67, SMPTE ST 2110 oder RAVENNA werden die benötigten Media Clocks nicht direkt aus der gemeinsamen Systemzeit abgeleitet, sondern AVB-Sender (Talker) über-
16.3 Audionetzwerke
1133
nehmen die inhärent im zugeführten Audiosignal enthaltene oder ggf. extern (z. B. durch Word Clock) zugeführte Media Clock zum Sampeln des Eingangssignals. Der jeweilige Sample-Zeitpunkt wird von der lokalen, auf die AVB-Wall Clock Time synchronisierte Systemzeit übernommen und zusammen mit dem Audiosample im Sendepuffer abgelegt; wie bei den oben genannten AoIP-Lösungen wird auch hier, analog zum RTP Timestamp, nur der Zeitwert für das erste Sample eines Sendeblocks geschrieben. Als Besonderheit ist in AVB verankert, dass nicht der Entstehungszeitpunkt als Zeitstempel übernommen wird, sondern bereits die berechnete bzw. gewünschte Wiedergabezeit (Presentation Time) für das erste Sample des Datenblocks: Tp= T0 + 2 ms Tp = gewünschte Presentation Time, T0 = Entstehungszeitpunkt des Audiosamples. Outgoing Stream
AVB timestamping & clock recovery system: Talker (sender):
Timestamps
• Das Audiosignal wird mit der extern angelegten Media Clock gesamplet • Die Sample-Zeitpunkte werden mit der 802.1 ASSystemzeit erfasst • N Audiosamples (abhängig von DBC*) werden zusammen mit der gewünschten Presentation Time des ersten Samples (üblicherweise sample time + 2 ms) im Paket abgelegt und verschickt 802.1 AS Wall time
*DBC = Data Block Count
9000000 8833333 8666667 … 7333333 7166667
Data 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
AVBTP timestamp generator
Media clock (local oscillator)
ADC
1722 Data
Incoming analog data
Abb. 16/42. AVB Media Clocking und Timestamp-Generierung (Talker)
Ein AVB-Empfänger (Listener) regeneriert aus den empfangenen Daten im nächsten Schritt die vom Sender verwendete Media Clock: der Zeitstempel der empfangenen Datenblöcke wird ausgelesen und es wird, entsprechend der Anzahl der Samples im Datenblock, eine entsprechende Anzahl von Media Clock-Zyklen neu generiert, bzw. seine bereits laufende
1134
16 Digitale Betriebstechnik
Media Clock entsprechend angepasst. Mittels der so regenerierten Media Clock werden die empfangenen Audiosamples zu den vorgesehenen Zeiten anhand der lokalen, ebenfalls auf die AVB Wall Clock Time synchronisierte Systemuhr ausgespielt. Incoming Stream
AVB timestamping & clock recovery system: Listener (receiver):
Timestamps
7166667
• Der Empfänger regeneriert die Media Clock aus dem DBC-Wert und den Timestamps aufeinanderfolgender Pakete (N Clockzyklen zwischen t₂–t₁)
7333333
• Die entpackten Audiosamples werden gepuffert und zur indizierten Presentation Time ausgespielt
… 8666667
802.1 AS Wall time
8833333 9000000
Data 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
AVBTP-timestamp comparator AVBTP timestamps
Clock generator
Generated media clock Outgoing analog data
DAC
Abb. 16/43. AVB Media Clock-Rückgewinnung und Signalausspielung (Listener)
Dieses Verfahren erlaubt den Transport und die frequenzstabile Wiedergabe von beliebigen, zueinander asynchronen Eingangssignalen innerhalb des AVB-Netzwerkes. Die Zeitsynchronisation auf eine gemeinsame Wall-Clock erlaubt dabei auch den Erhalt der zeitlichen Lage der Signale untereinander. Eine systemweite Synchronisation auf eine gemeinsame Media-Clock, wie es in professionellen Umgebungen über eine externe Taktverteilung, z. B. Word-Clock, üblich ist, ist grundsätzlich nicht vorgesehen. Sie muss mit zusätzlichen externen Definitionen und Mitteln realisiert werden, wie bspw. im Folgekapitel MILAN beschrieben wird. 16.3.6.2 MILAN Übersicht Die Audio-Signalverteilung und -Netzwerklösung MILAN (Media Integrated Local Area Networking) setzt auf den Ethernet-AVB-Standards auf und fügt ergänzende Funktionalitäten
16.3 Audionetzwerke
1135
und Definitionen, insbesondere im Bereich der Geräteerkennung und -konfiguration, hinzu. MILAN baut auf folgenden Standards auf: [IEEE 802.1AS-2011] Timing and Synchronization for Time-Sensitive Applications in Bridged Local Area Networks Media Access Control (MAC) Bridges and Virtual Bridged Local Area [IEEE 802.1Q-2011] Networks (die für AVB relevanten Sub-Standards Qat und Qav sind als Clause 11 und 12 enthalten) [IEEE 802.1BA-2011] Audio Video Bridging Systems [IEEE 1722-2016] Transport Protocol for Time-Sensitive Applications in Bridged Local Area Networks [IEEE 1722.1-2013] AVDECC Device Discovery, Connection Management, and Control Protocol for IEEE 1722 Based Devices Auf Basis dieser Standards definiert MILAN eine Reihe zusätzlicher Spezifikationen für die folgenden Bereiche: –– Media Clocking –– Stream Format –– Redundanz –– AVDECC Darüber hinaus wird über die AVnu Alliance - einer Dachorganisation für Hersteller, die im Bereich AVB / TSN / MILAN aktiv sind - noch ein Programm zur Zertifizierung von MILAN Geräteimplementierungen angeboten.
MILAN Zertifizierung Redundanz AVDECC IEEE 1722.1
AVTP
IEEE 1722
AVB Basisprotokolle
IEEE 802.1AS IEEE 802.1Q IEEE 802.1BA
Abb. 16/44. Aufbau der MILAN-Spezifikation
Media Clocking-Spezifikation AVB definiert zwar mit [IEEE 802.1AS], wie die beteiligten Geräte präzise auf eine gemeinsame Systemzeit synchronisiert werden können, nicht jedoch wie eine systemweit identische Media-Clock verteilt bzw. generiert wird. MILAN definiert hierfür die Verteilung eines Referenzdatenstromes, aus dem die Geräte jeweils ihre interne Media-Clock erzeugen. Hierzu wird das in IEEE 1722-2016 speziell definierte CRF (clock reference format) verwendet. Alle
1136
16 Digitale Betriebstechnik
MILAN-Geräte müssen dabei mindestens 48 kHz unterstützen; 96 kHz und 192 kHz sind optional definiert. Ein Gerät, welches einen clock reference stream erzeugen kann, muss hierfür eine Toleranz von < +/- 50 ppm einhalten. Stream Format-Spezifikation Während im ursprünglichen [IEEE 1722-2011]-Standard noch AM824 als das alleinige Audioformat festgelegt wurde, wurde im Zuge der Überarbeitung für die [IEEE 1722-2016]-Revision das effizientere und weniger komplexe AAF-Format hinzugenommen. MILAN beschränkt sich auf die Verwendung des AAF-Formats und legt diese drei Varianten fest: Tab. 16/1. Audioformate in MILAN AAF Standard Stream Format (32 bit)
Maximum 8 channels per stream, mandatory on all Milan endpoints
High Capacity 32 bit Format High Capacity 24 bit Format
Maximum 56 channels per stream, optional Maximum 64 channels per stream, optional
Redundanz-Spezifikation Für MILAN-Netzwerke wird Redundanz als optionale Möglichkeit zum Betrieb auf zwei unabhängigen Netzwerken definiert, bei der die Streamdaten unabhängig voneinander auf beiden Netzwerkinterfaces ausgegeben werden bzw. empfangen werden können. Dabei werden nicht nur die eigentlichen Streamdaten redundant abgesichert, sondern auch die Wall-ClockVerteilung. Optional kann auch die Gerätesteuerung via AVDECC redundant ausgeführt sein. AVDECC-Spezifikation für Endgeräte Das für AVB definierte [IEEE 1722.1-2013] AVDECC-Protokoll ist sehr umfangreich und erlaubt sehr viele, teilweise auch widersprüchliche Anwendungsmöglichkeiten. Daher wird für MILAN ein auf diesem Standard basierendes Profil, zugeschnitten auf die typischen Anforderungen und Funktionalitäten im professionellen AV-Bereich, definiert. Diese Festlegungen sind ihrerseits sehr umfangreich, um eine präzise und eindeutige Spezifikation zur Inter operabilität zwischen den Geräten verschiedener Hersteller zu erhalten. Dazu wird ein generisches Entity Model definiert, mittels dessen im wesentlichen folgende Funktionsbereiche beschrieben werden können: –– Automatische Erkennung von neu hinzugefügten oder entfernten Geräten –– Erkennung der Geräteklasse und seiner generischen Gerätemerkmale –– Verbindungsmanagement für verfügbare Streams –– Statusüberwachung von Geräten und Verbindungen –– Steuerung der angeschlossenen Geräte, soweit diese vom generischen Entity Model abgedeckt wird Weiterführende Details sind den entsprechenden MILAN-Dokumenten zu entnehmen.
16.3 Audionetzwerke
1137
16.3.6.3 AES67 Übersicht [AES67] ist ein Standard für die performante Interoperabilität in Audio-over-IP-Umgebungen (Standard for High-performance Audio-over-IP Interoperability), welcher von der AES initial zur IBC-2013 publiziert wurde. Als Umgebungsvoraussetzung wurde ein gemanagtes lokales Netzwerk (LAN) unter Verwendung von verfügbaren Standard-Netzwerkkomponenten (COTS, Conventional Off-TheShelf Komponenten) definiert. Durch die ausschließliche Verwendung von Protokollen und Methoden auf dem IP-Layer oder darüber, sollte es möglich sein, mittels passender Konfiguration Netzwerke gleichzeitig auch für andere Dienste nutzen zu können, wie z. B. Video, VoIP, Office Dienste u. a. Die Übertragung der Audiodatenströme sollten sich nicht gegenseitig stören und qualitativ beinträchtigen. AES67 basiert auf folgenden, grundlegenden Prinzipien: –– Synchronisation: sie definiert, wie Geräte synchronisiert und wie voneinander unabhängig erzeugte Audiodatenströme zeitlich exakt verarbeitet werden können; –– Pakettransport: er beschreibt, welche Protokolle, Mechanismen und Dienstgütemerkmale (QoS, Quality of Service) für den Transport der Pakete im Netzwerk verwendet werden; –– Paketformatierung; sie definiert die Codierung des Audiosignals und die Zusammenstellung der Paketnutzdaten (audio payload); –– Sitzungsbeschreibung (session information): sie definiert, wie die Systemsynchronisation und der Paketaufbau der einzelnen Audiodatenströme beschrieben wird, so dass ein Empfänger alle relevanten Informationen zum Empfang und zur synchronisierten Weiterverarbeitung bekommt. Die meisten bestehenden AoIP-Lösungen verfügen darüber hinaus noch über weitergehende Funktionalitäten zur automatischen Erkennung von anderen Geräten und Audiodatenströmen (Advertising & Discovery) sowie über spezifische Funktionen zum Verbindungsaufbau (Connection Management). AES67 trifft hierzu absichtlich keine weiteren Festlegungen, da bereits sehr verschiedene Methoden und Standards hierzu existieren, wie bspw. AES70, NMOS u.a., beide Funktionalitäten für eine grundlegende Interoperabilität jedoch nicht zwingend benötigt werden. Synchronisation Die Möglichkeit aller Netzwerkteilnehmer, sich auf eine gemeinsame Referenz-Clock zu synchronisieren, stellt ein wesentliches Unterscheidungsmerkmal von AES67 zu anderen Methoden und Lösungen dar, wie z.B. Internet-Streaming, VoIP oder auch dem EBU‑ACIP-Verfahren. Eine gemeinsame Referenz-Clock ermöglicht nicht nur den bittransparenten Betrieb mit identischen Abtastraten, sondern ermöglicht auch deterministische Latenzen zwischen beliebigen Sendern und Empfängern und somit die exakt zeitgleiche Ausspielung bzw. Weiterverarbeitung von einlaufenden Audiosamples. Dies ist die Voraussetzung für einen hoch performanten, latenzarmen Betrieb in professionellen Umgebungen.
1138
16 Digitale Betriebstechnik
Die Synchronisation in AES67 basiert auf dem Precision Time Protocol (PTP), einem bewährten Industriestandard, der seine Wurzeln in der Messtechnik und Industrieautomation hat. AES67 spezifiziert hierbei die Verwendung von PTPv2, welches in [IEEE 1588-2008] definiert wird. PTPv2 beinhaltet einen sog. Best Master Clock Algorithm (BMCA), welcher sicherstellt, dass in einem AES67-System immer das Gerät mit der besten Referenz-Clock die Rolle des Grandmasters übernimmt. Mittels PTP wird ein Endgerät zeitlich präzise auf die Systemzeit des Grandmasters synchronisiert. Aus der lokalen, zur Systemzeit synchronisierten Uhr des Endgeräts, kann nachfolgend jede gewünschte, bzw. benötigte Abtastrate (auch als media clock bezeichnet) lokal generiert werden.
GPS
Master Clock
PTP SlaveClocks Media Clocks Media clock (local oscillator)
Media clock (local oscillator)
Media clock (local oscillator)
Abb. 16/45. Verteilung der Systemzeit und lokale Erzeugung der Media Clocks
Durch die Verknüpfung von Media-Clock und Systemzeit können die unabhängig voneinander erzeugten Audiodatenströme im gesamten System jederzeit samplegenau und phasensynchron korreliert werden (s. Kap. 16.3.6.3, Verbindungslatenz). Pakettransport Alle in AES67 verwendeten Transportprotokolle basieren vollständig auf IPv4 gemäß [RFC 791]. PTP-Pakete werden ebenfalls auf Basis IPv4 transportiert. Da AES67 die Unterstützung des PTP-Default profiles erfordert, ist im Netzwerk zwingend auch die Unterstützung von Multicast notwendig. Der Transport der Audiodaten erfolgt mittels des Real-time-Transport-Protocols (RTP) gemäß [RFC 3550] unter Verwendung des RTP/AVP profiles gemäß [RFC 3551]. Die RTP-Pakete werden ihrerseits mittels User Datagram Protocol (UDP) gemäß [RFC 768] transportiert. Als Transportmodi werden dabei in AES67 sowohl Multicast als auch Unicast festgelegt. Die maximal zulässige Nutzlast orientiert sich dabei an der Forderung, eine Paketfragmentierung zu vermeiden.
1139
16.3 Audionetzwerke
Das nachfolgende Diagramm veranschaulicht die Zusammensetzung eines Netzwerk pakets mit den verschiedenen Protokollschichten: lAYERERD oAKCI ÄR§P
Layered Packet Encapsulation Bytes
„)?
1518 / 1522
14/18
20
12
12
1460
4
Ethernet Header
IP Header
UDP Header
RTP Header
RTP Payload (PCM Modulated Data)
Ethernet Trailer
Layer 5 (Session Layout) Layer 4 (Transport Layer) Layer 3 (Network Layer) Layer 2 (Link Layer) Abb. 16/46. Aufbau eines Netzwerkpakets mit den verschiedenen Protokollschichten
Multicastunterstützung Da in AES67 die Unterstützung von Multicast zwingend gefordert ist und auch die Audiodatenströme in der überwiegenden Anzahl der Fälle im Multicast-Modus transportiert werden, ist die Verwendung von gemanagten Switches in fast allen Fällen erforderlich. Nur mit Switches, die eine aktive, d. h. gemanagte Unterstützung von Multicast-Transport anbieten, lässt sich das sog. network flooding, bei dem Multicastpakete unkontrolliert ins Netzwerk verteilt werden, verhindern. Nicht-gemangte Switche replizieren alle einlaufenden Multicastpakete und verteilen diese auf alle Ports; dadurch kann es in größeren Netzwerken oder bei sehr vielen Audiodatenströmen schnell zu einer vollständigen Blockade durch Überlastung der Links bzw. der Switche kommen. In gemanagten Switches kann eine Multicast-Unterstützung aktiviert werden, die das Weiterleiten von Multicast-Paketen auf nicht beteiligte Ports unterbindet. Dies wird durch Verwendung des sog. Internet Group Management Protocol (IGMP) erreicht (vgl. Kapitel 16.2.5.6); AES67 fordert hier die Unterstützung von IGMPv2 gemäß [RFC 2236]. Quality of Service In einem Netzwerk, in dem neben Echtzeit-kritischen Daten wie AES67 auch andere, nicht Echtzeit-relevante Daten transportiert werden, wie bspw. Office-Dienste, ist eine Priorisierung des AES67-Verkehrs empfohlen oder sogar zwingend notwendig. Hierzu wird ein Quality of Service-Verfahren (QoS) verwendet. Zum Einsatz kommt das sog. Differentiated ServicesVerfahren (DiffServ) gemäß [RFC 2474]. Dabei werden den einzelnen IP-Paketen in einem speziell dafür im Header vorgesehenen Feld Prioritätswerte - Differentiated Services Code Points (DSCP) – mitgegeben, anhand derer die beteiligten Switche eine bevorzugte Weiterleitung der Pakete durchführen können.
1140
16 Digitale Betriebstechnik
QoS – Differentiated Services (DiffServ) Flow 1
BE
Flow 2
EF
Flow 3
CS6
EF CS6
Flow 4
BE
Flow 5 Flow 6 Flow 7
BE AF
AF
Flow 8
Classifier CS6 = q1 EF = q2 AF = q2 BE = q3
Highest Priority Middle Priority EF AF BE
Lowest Priority BE
CS6 EF
Sheduler
AF
Port CS6
BE BE
BE
Abb. 16/47. Veranschaulichung des DiffServ-Verfahrens
Die Unterstützung von DiffServ, sowie ggf. die passende DSCP-Konfiguration, ist bei den meisten Switches explizit zu aktivieren; sie muss bei allen beteiligten Switches durchgängig identisch konfiguriert sein. AES67 definiert die Verwendung von drei Dienstklassen, welche entsprechend vom Netzwerk zu unterstützen sind: Tab. 16/2. AES67 Dienstgüteklassen (QoS) und DiffServ-Zuordnungen Dienstklassenname
Art des Paketes
DiffServ Klassenzuordnung (DSCP Wert)
1) Clock
IEEE 1588-2008 Echtzeit-Telegramme: ANNOUNCE, SYNC, DELAY_REQUEST & DELAY_ RESPONSE
EF (46)
2) Media
RTP und RTCP Pakete
AF41 (34)
3) Best effort
IEEE 1588-2008 allgemeine Telegramme; anderer AES67-Verkehr (z. B. connection management); nicht-AES67-Verkehr (Office etc.)
DF (0)
Paketformatierung Im Zuge der Verwendung des RTP/AVP Protokolls bedarf es der Festlegung weiterer Parameter zur Erreichung einer Interoperabilität: –– Codierung des Audiosignals: Für die Codierung des Audiosignals wird die lineare PCMCodierung festgelegt, dabei müssen sowohl 16 Bit (L16) als auch 24 Bit (L24) unterstützt werden. Alle Geräte müssen mindestens 48 kHz Abtastrate unterstützen. –– Paketzeit (Anzahl der Audiosamples pro Paket): Als Paketzeit (packet time) wird die Dauer des in einem RTP Paket enthaltenen Audioabschnitts, jeweils pro Kanal, definiert. Aus der Paketzeit ergibt sich bei einer bestimmten Abtastrate die in einem Paket enthaltenen Audiosamples pro Kanal. Kleinere Paketzeiten ermöglichen eine kürzere Übertragungslatenz, erfordern aber eine höhere Paketrate, welche meistens mit einer geringeren Bandbreiteneffizienz einhergeht. Die Paketzeit ist immer als ein Kompromiss
16.3 Audionetzwerke
1141
zwischen erzielbarer Latenz und Bandbreiteneffizienz zu sehen. Alle AES67-fähigen Geräte müssen eine Paketzeit von 1 ms unterstützen können, d. h. 48 Audiosamples pro Kanal bei 48 kHz Abtastrate). –– Anzahl der Kanäle im Audiodatenstrom: Für die Realisierung einer guten Interoperabilität wird in AES67 festgelegt, dass ein Empfänger Audiodatenströme mit 1 bis 8 Kanälen empfangen können muss; ein AES67-Sender muss dementsprechend mindestens einen solchen Stream erzeugen können. Verbindungslatenz Um eine zeitlich synchronisierte Ausspielung zwischen unterschiedlichen Audiodatenströmen realisieren zu können, müssen entsprechende Referenzpunkte in der Signalverarbeitungskette spezifiziert und eine gewünschte Verbindungslatenz (link offset) konfiguriert werden. Die Verbindungslatenz beschreibt die Zeitdifferenz zwischen der Erfassung eines bestimmtes Audiosamples im Sender (ingress time) und der Ausspielung bzw. Weiterverarbeitung im Empfänger (egress time). Als Referenzpunkte für die Zeitberechnung werden in AES67 die Übergänge zwischen der Audio- und der Netzwerkebene in den beteiligten Geräten definiert. Beim Sender fällt dieser Zeitpunkt (ingress time reference point) typischerweise mit dem Sampling eines Audiowertes zusammen, also die Übernahme eines digitalen Audiosignalwertes in die Netzwerkverarbeitungsschicht. Dieser Zeitpunkt wird auch als origination timestamp bezeichnet und dient als Referenz für die Berechnung des dazugehörigen RTP Zeitstempel-Feldes (RTP timestamp; s. [RFC 3550], Abschnitt 5.1). Analog wird die Ausgabe bzw. Weiterleitung des betreffenden Audiosamples aus der Netzwerkverarbeitungsschicht an die Audiosignalverarbeitung als egress time reference point bezeichnet, der sich rechnerisch aus ingress time reference point + gewünschtem link offset ergibt. Die Zusammenhänge sind im nachfolgenden Diagramm skizziert: RTP Timestamp of (first) sample (in packet)
Desired playout time for sample
Ingress time reference point
RTP offset
SDP (a=mediaclk:direct=)
Egress time reference point
Link offset IEEE 1588 measurement planes
ADC
Sender packet buffer
Network stack and controller Network clock
Mediaclock
Sender network system
IP network
Receiver packet buffer
Network stack and controller Network clock Receiver network system
Mediaclock
Abb. 16/48. Temporäre Referenzpunkte und Link offset in einem AES67-System
DAC
1142
16 Digitale Betriebstechnik
In der Praxis wird der gewünschte, bzw. mindestens benötigte link offset am Empfänger konfiguriert. Dieser muss groß genug sein, um die verschiedenen zur Verbindungslatenz beitragenden Faktoren wie Paketzeit, Verarbeitungszeiten in den Netzwerkschichten von Sender und Empfänger und die Transferzeiten innerhalb des Netzwerkes, einschließlich des maximal möglichen Paket-Jitters (auch PDV, packet delay variation genannt), berücksichtigen zu können. Session Description Um sich zu einem verfügbaren Audiodatenstrom verbinden und dessen Daten verarbeiten zu können, benötigt ein Empfänger verschiedene Informationen. Diese Informationen werden als session description data bezeichnet, welche mittels des session description protocols (SDP) gemäß [RFC 4566] übertragen werden. Sämtliche Informationen in einem SDP werden als lesbarer ASCII-Text erfasst. Zu den Informationen, die mit dem SDP aufgeführt werden, gehören u. a. die Multicast-Adresse des betreffenden Audiodatenstroms, Informationen zur Paketformatierung und zur Nutzlast des enthaltenen Signals sowie Synchronisationsinformationen. Ein SDP ist dabei in mehrere Abschnitte gegliedert, in denen bestimmte Parameter enthalten sein müssen. So gibt es einen Abschnitt für allgemeine, mediaübergreifende Parameter (session level) und einen oder mehrere mediaspezifische Abschnitte (media level), in denen die in einer Session zusammengefassten Mediadatenströme beschrieben werden. In AES67 wird festgelegt, dass es für jeden verfügbaren Audiodatenstrom ein eigenes SDP geben muss, in dem dann typischerweise auch nur ein mediaspezifischer Abschnitt enthalten ist. Eine Übersicht über die in einer AES67 session description enthaltenen Parameter zeigt Tab. 16/3: Tab. 16/ 3. AES67 Dienstgüteklassen (QoS) und DiffServ-Zuordnungen Session level v= protocol version
SDP Protokollversion; immer „0“
o= originator and session identifier
Information zum Anbieter des SDP und eine eindeutige Session-ID
s= session name
Klartextname der Session
i=session description
freie Beschreibung der Session
a= session attributes
weitere Session-Attribute
Time description t= session start / stop times
beinhaltet Informationen, wann diese Session aktiv ist; eine permanent aktive Session wird mit einer „0“ für Start- und Stoppzeit gekennzeichnet
16.3 Audionetzwerke
1143
Media level m= media description
beschreibt den Mediatyp und das verwendete Format sowie die verwendete Portadresse; eine m-line leitet immer einen neuen medienspezifischen Abschnitt ein und muß daher als erstes in einem media level aufgeführt werden
c= connection information
enthält entweder die Multicast-Adresse des Streams oder bei Unicast die Anbieter IP-Adresse des Streams; dieser Parameter kann alternativ auch im session level des SDP stehen
a= media attributes
weitere Media-Attribute
Nachfolgend ist ein SDP-Beispiel für einen typischen AES67 Multicast-Audiodatenstrom aufgeführt. Der Audiodatenstrom wird an die Multicast-Adresse 239.0.0.1 versendet, ist mit einer Paketzeit von 1 ms bei 48 kHz Abtastrate formatiert und enthält 8 Kanäle linear codiertes PCM Audio mit einer Wortbreite von 24 Bit. Als Referenz-Clock wird ein PTP Grandmaster mit der angegebenen Grandmaster-Kennung (GMID) angegeben, der RTP-Offset für diesen Stream beträgt 963214424: v=0 o=- 1311738121 1311738121 IN IP4 192.168.1.1 s=Stage left I/O t=0 0 m=audio 5004 RTP/AVP 96 i=Channels 1-8 c=IN IP4 239.0.0.1/32 a=rtpmap:96 L24/48000/8 a=recvonly a=ptime:1 a=ts-refclk:ptp=IEEE1588-2008:39-A7-94-FF-FE-07-CB-D0:0 a=mediaclk:direct=963214424
Übertragung der SDP-Informationen Während AES67 die benötigten SDP-Attribute hinreichend spezifiziert, werden zur eigentlichen Übertragung dieser Informationen zwischen Sender und Empfänger bewusst keine weiteren Festlegungen getroffen. Dies vor dem Hintergrund, dass hierfür bereits eine Reihe gängiger Verfahren und Protokolle vorliegen, die von den verschiedenen Lösungen unterstützt werden (wie z. B. manuelle Übertragung, RTSP, SAP, SIP etc.), bzw. im jeweiligen Applikationskontext gefordert werden (z. B. NMOS). Verbindungsaufbau Zum Aufbau einer Multicast-Verbindung wird, wie bereits beschrieben, das IGMP-Protokoll verwendet. Dazu wird lediglich die Multicast-Adresse des betreffenden Audiodatenstroms aus den SDP-Daten benötigt. Für den Aufbau von Unicast-Verbindungen spezifiziert AES67 das session initiation protocol (SIP) gemäß [RFC 3261]. SIP ist ein weitverbreitetes Protokoll im Bereich der IP-basierten
1144
16 Digitale Betriebstechnik
Telefonie (VoIP) und wird ebenfalls in ACIP [EBU Tech 3326] verwendet. Die AES67-Arbeitsgruppe hat angenommen, dass AES67 auch in diesen Bereichen Anwendung finden würde und hat daher die Spezifikation von SIP für Unicast-Verbindungen für sinnvoll erachtet. Unicast und SIP werden allerdings von vielen Geräten nicht unterstützt, da in der Praxis überwiegend mit Multicast-Verbindungen gearbeitet wird. Zusammenfassung AES67 wurde mit dem Ziel entwickelt, Interoperabilität zwischen bestehenden IP-basierten Lösungen zu ermöglichen. Es wurde nach größtmöglichen Gemeinsamkeiten gesucht und notwendige Festlegungen für einzelne Funktionsbereiche getroffen, so dass an den einzelnen Lösungen lediglich kleinere Anpassungen bzw. Erweiterungen zur Bereitstellung eines AES67-Kompatibilitätsmodus bereitgestellt werden mussten. Durch ausschließliche Verwendung des IP-Layers und die steigende Leistungsfähigkeit von Netzwerk-Routern konnte sich AES67 auch sehr schnell für die Anwendung in größeren gerouteten Umgebungen von Unternehmensnetzwerken (Corporate LANs) etablieren. Schwierig bis unmöglich wird die direkte Verwendung von AES67 in Netzwerkumgebungen mit Firewalls und Netzwerkadressen-Übersetzung (NAT) oder in nicht gemanagten Umgebungen wie z.B. dem Internet, in denen wichtige Dienstgütemerkmale (Multicast, QoS, etc.) nicht zur Verfügung stehen. In Abb. 16/33 sind die einzelnen Funktionsblöcke sowie die zwingend zu unterstützenden Festlegungen dargestellt: Discovery
Not specified
Connection Management
SIP (unicast), IGMP (multicast)
Session Description
SDP (RFC4566, RFC7273)
Encoding
L16/L24, 1..8 ch, 48 samples
QoS
Differentiated Services (DiffServ w/ 3 CoS)
Transport
RTP / UDP / IP, unicast & multicast
Media Clock
48 kHz
Synchronisation
IEEE 1588-2008 (PTPv2)
Abb. 16/49. AES67 Funktionsblöcke und Festlegungen
16.3.6.4 SMPTE ST 2110 Übersicht [SMPTE ST 2110] ist eine Sammlung von Standards, die von der Society of Motion Picture and Television Engineers definiert wurden, zur Verteilung von Mediadaten über gemanagte IP-Netzwerke im professionellen Umfeld (Professional Media over Managed IP Networks). Die wesentlichen Teile dieses Standards wurden im Jahr 2017 veröffentlicht.
16.3 Audionetzwerke
1145
Das Ziel dieses Standards ist die Festschreibung einer Norm zur Übertragung von sog. „elementaren Essenzdaten“. Im Gegensatz zu der in [SMPTE ST 2022-6] beschriebenen Übertragung der Mediadaten eines SDI-Signals in einem gebündelten IP-Datenstrom, werden in SMPTE ST 2110 die jeweiligen Mediaessenzen, also Video, Audio und Metadaten in einzelnen, voneinander unabhängigen IP-Datenströmen übertragen. Audio
Audio Metadata
Embedder
Deembedder
One Stream
Video
Metadata Video
Abb. 16/50. SDI-Signal in einem SMPTE ST 2022-6 Stream
Der größte Vorteil dabei ist, dass Empfänger, die nur einen Teil der Mediaessenzen benötigen, z.B. ein Audiomischer, nicht mehr das komplette, gemultiplexte SDI-Signal empfangen müssen und das Extrahieren nicht benötigter Audioanteile (de-embedding) entfällt. Damit wird der Aufbau entsprechender Produktionsumgebungen vereinfacht und der Bandbreitenbedarf gegenüber SMPTE ST 2022-6 erheblich reduziert. IP Adress #1
Method: SMPTE ST 2110-20 Video
IP Adress #2
Method: SMPTE ST 2110-30 Audio IP Adress #3
weConnect Datenserver
Metadata
Method: SMPTE ST 2110-40
Abb. 16/51. SDI-Essenzdaten in eigenständigen SMPTE ST 2110 Streams
Im Gegensatz zu SMPTE ST 2022-6, welches auf die Übertragung eines SDI-Signals festgelegt ist, können mit SMPTE ST 2110 beliebige existierende und zukünftige Mediaformate übertragen werden, so z.B. SD, HD, 4K, 8K, HDR, usw. Um die einzelnen Datenströme am jeweiligen Empfänger wieder exakt synchronisiert verarbeiten zu können – um z.B. das originale SDI-Ausgangssignal wieder abzubilden oder auch um eine Sample-synchrone Ausspielung einzelner Essenzen auf verschiedenen betei-
1146
16 Digitale Betriebstechnik
ligten Geräten zu gewährleisten – werden die aus einer gemeinsamen Referenz-Zeitbasis (Common Reference Clock) gewonnen Zeitmarken der einzelnen Essenzen-Pakete ausgewertet und die Essenzdaten dann entsprechend angeordnet. Der SMPTE ST 2110-Standard umfasst verschiedene Basis-Dokumente, von denen die nachfolgenden für den Audiobereich relevant sind: –– [SMPTE ST 2110-10] - System Timing and Definitions Dieser Teil beschreibt die grundlegenden verwendeten Protokolle und Mechanismen zum Transport und zur Synchronisation und gilt für alle Essenzdaten. Die hier festgelegten Anforderungen sind nahezu identisch mit den entsprechenden Festlegungen in AES67. –– [SMPTE ST 2110-30] – PCM Digital Audio Dieser Teil beschreibt, wie lineare PCM Audiodaten innerhalb des SMPTE ST 2110-Ökosystems formatiert und übertragen werden. Dabei wird festgelegt, dass alle SMPTE ST 2110-30-konformen Audiostreams den Anforderungen von AES67 entsprechen müssen. –– [SMPTE ST 2110-31] - AES3 Transparent Transport Da SMPTE ST 2110-30 nur lineare PCM-codierte Audiodaten übertragen kann, in der Praxis jedoch auch häufig das AES3-Format zur Anwendung kommt, z.B. bei MADI, SDI, Dolby E u. a., wurde ein weiterer Standard für das SMPTE ST 2110-Ökosystem definiert. Der SMPTEVerband wollte nach Möglichkeit keine vollständig neue Formatdefinition einführen, und so wurde nach einem geeigneten, bereits in der Praxis verwendeten Format gesucht. Die RAVENNA-Lösung verfügte über eine entsprechende und gut dokumentierte Formatdefinition [AM824], die dann von [SMPTE ST 2110-31] übernommen wurde. SMPTE ST 2110-30 und AES67 Obwohl SMPTE ST 2110-30 in weiten Teilen den Festlegungen von AES67 entspricht, gibt es einige Abweichungen, die in der Praxis jedoch meist nicht zu größeren Inkompatibilitäten führen. a) Synchronisation: Beide Standards verwenden [IEEE 1588-2008]-PTPv2 als Basis für die Synchronisation. Während jedoch AES67 die Unterstützung des PTP-Default Profils erfordert, verwendet SMPTE ST 2110 das in [SMPTE ST 2059-2] definierte PTP-Profil. AES67 definiert zusätzlich ein AES67 PTP-Media Profile und empfiehlt dessen Unterstützung. Die einzelnen Profile unterscheiden sich aber im Wesentlichen in der Häufigkeit der einzelnen PTP-Telegramme. Um in einem Netzwerk mit gemischtem Betrieb von SMPTE ST 2110 und AES67-konformen Geräten nicht mit zwei verschiedenen PTP-Profilen arbeiten zu müssen, hat die AES einen Report veröffentlicht [AES-R16-2016], in dem die Gemeinsamkeiten zwischen den einzelnen Profilen beschrieben werden. Mittels entsprechender Konfiguration lässt sich der Betrieb mit einer einheitlichen PTP-Konfiguration ermöglichen. In einer weiteren Festlegung verbietet SMPTE ST 2110 die Verwendung von zufälligen Offsets für die Erzeugung der RTP-Timestamps für einzelne Streams, wie sie in RFC 3550 empfohlen und von AES67 auch unterstützt wird. Die entsprechende Signalisierung im SDP lautet also in diesem Fall immer a=mediaclk:direct=0
16.3 Audionetzwerke
1147
und muss von einem AES67-Sender in einem SMPTE ST 2110-Umfeld entsprechend berücksichtigt werden. Eine weitere Abweichung in SMPTE ST 2110 ist die Möglichkeit, einen Sender nicht an die systemweite Referenz-Clock zu koppeln, sondern mit einer gerätespezifischen internen oder externen Clock zu betreiben. Dies wird über ein entsprechendes SDP-Attribut signalisiert: a=ts-refclk:localmac=
Diese Möglichkeit ist in AES67 nicht vorgesehen, so dass ein AES67-Empfänger einen solchen Audiodatenstrom nicht oder zumindest nur unsynchronisiert empfangen bzw. verarbeiten kann. b) Transport Beide Standards fordern die Unterstützung von Multicast. Während in AES67 jedoch nur der administratively-scoped Multicast-Adressbereich (239.0.0.0 bis 239.255.255.255) unterstützt wird, ist in SMPTE ST 2110 grundsätzlich der gesamte definierte Multicast Adressbereich zulässig, mit Ausnahme der für Netzwerk-Steuerungsprotokolle definierten Multicast-Adressbereiche von 224.0.0.0 bis 224.0.1.255. Dies könnte bei einigen AES67-konformen Empfängern dazu führen, dass Audiodatenströme außerhalb des 239.x.y.z-Adressbereichs nicht akzeptiert werden. Zum Abonnieren von Multicast Datenströmen wird in beiden Standards die Unterstützung von IGMP (Internet Group Management Protocol) gefordert. Während AES67 lediglich IGMPv2 (RFC 2236) verwendet, fordert SMPTE ST 2110 die Unterstützung von IGMPv3 [RFC 3376]. Dies wirkt sich in der Praxis jedoch kaum beeinträchtigend aus, da in allen IGMP-Versionen jeweils eine automatische Rückfalloption enthalten ist, so dass sich alle Komponenten im Praxisbetrieb eigenständig auf eine gemeinsame Version einigen. Für Unicast-Verbindungen fordert AESA67 die Unterstützung des SIP-Protokolls [RFC 3261] zur Unterstützung des Verbindungsaufbau, SMPTE ST 2110 verzichtet explizit auf diese Unterstützung. In der Praxis hat dies nur wenig einschränkende Auswirkungen, da auch in einer AES67-Umgebung der Aufbau von Unicast-Verbindungen oft über andere Mechanismen erfolgt, z.B. durch manuelle Konfiguration oder unter Mitwirkung eines externen Controllers. c) Paketformatierung SMPTE ST 2110-30 führt hinsichtlich der Audiodatenpaketierung sog. „Conformance Levels“ ein, in denen bestimmte zu unterstützende Paketformatierungen definiert werden. Dabei entspricht der „Conformance Level A“, welcher zwingend zu unterstützen ist, den jeweiligen Mindestanforderungen von AES67. Die in Level B festgelegten Formatierungen sind optional und decken sich weitgehend mit den auch in AES67 beschriebenen optionalen Möglichkeiten. Level C ist ebenfalls optional und ermöglicht die Übertragung eines kompletten MADISignals in einem Stream. Weitere Details sind im entsprechenden White Paper der AIMS [AES67 / SMPTE ST 2110 Commonalities and Constraints] enthalten.
1148
16 Digitale Betriebstechnik
16.3.6.5 SMPTE ST 2022-7 Übersicht [SMPTE ST 2022-7] gehört zur Gruppe der SMPTE ST 2022-Standards, mit denen die Übertragung von digitalen Videosignalen über IP-Netzwerke beschrieben wird. Als Videoformate werden dabei MPEG-2 Transport Streams und SDI-Signale unterstützt. Zur Übertragungssicherung werden verschiedene Verfahren wie Forward Error Correction (FEC) und Seamless Protection Switching (SPS) beschrieben. Letzteres ist Bestandteil des SMPTE ST 2022-7-Teilstandards, welcher in der ursprünglichen Fassung von 2013 folgerichtig als „Seamless Protection Switching of SMPTE ST 2022 IP Datagrams“ (SPS) überschrieben wurde. Er beschreibt die Methodik zur redundanten Übertragung eines SMPTE ST 2022-formatierten Signalstroms über zwei oder mehrere unabhängige Netzwerksegmente, so dass der vollständige Datenstrom bei Fehlern oder Störungen auf einem Segment unterbrechungsfrei rekonstruiert werden kann, solange alle benötigten IP-Pakete wenigstens über eines der redundanten Netzwerksegmente empfangen werden können. Im Gegensatz zur FEC-Methode, die eine deutlich erhöhte Latenz nach sich zieht, geht mit dem SPS – abhängig von der Übertragungslatenz auf den einzelnen Netzwerksegmenten – nur eine geringfügige Erhöhung der Gesamtlatenz einher. Im Zuge der Standardisierungsarbeiten an SMPTE ST 2110 wurde erkannt, dass sich SMPTE ST 2022-7 auch hervorragend zur redundanten Übertragung von SMPTE ST 2110-Datenströmen und - in allgemeiner Konsequenz - zur redundanten Absicherung aller RTP-basierten Paketströme eignet. Der originale Standard wurde an einigen Stellen überarbeitet und erweitert und trägt in aktueller Revision von 2019 jetzt den Namen „Seamless Protection Switching of RTP Datagrams“. Funktionsweise Beim Seamless Protection Switching (gen. auch Hitless Merge) werden die beteiligten Geräte über zwei oder mehrere, ggf. physikalisch getrennte Netzwerke miteinander verbunden. Ein Sender kann jetzt auf allen zur Verfügung stehenden Netzwerksegmenten inhaltsgleiche RTP Paketströme versenden.
Path 1
RTP Sender
Path 2 …
Path n Abb. 16/52. Prinzipieller Aufbau von Seamless Protection Switching (SPS)
RTP Receiver w/ SPS
16.3 Audionetzwerke
1149
Die einzelnen Pakete werden unabhängig voneinander in den verschiedenen Netzwerken zum Empfänger transportiert. Dabei werden die Pakete in der Regel mit unterschiedlichen Laufzeiten und individuellem Paketjitter (PDV, packet delay variation) beaufschlagt. Ein SPSfähiger Empfänger kann die Paketströme aus den verschiedenen Netzwerken unabhängig voneinander empfangen. Nach dem Entpacken stehen jetzt mehrere identische Kopien für jedes RTP-Paketes zur weiteren Verarbeitung zur Verfügung. Solange für jedes RTP-Paket des originalen Paketstroms mindestens eine Kopie innerhalb der festgesetzten maximalen Latenz (Link Offset oder Playout Delay) beim Empfänger ankommt, kann der originale Paketdatenstrom fehlerfrei rekonstruiert und unterbrechungsfrei ausgespielt bzw. weiterverarbeitet werden. Auf den verschiedenen Netzwerkpfaden können unterschiedliche Latenzen entstehen. Diese sind von mehreren statischen und variablen Faktoren abhängig, u. a. von der zu überbrückende Entfernung, der Netzwerkbandbreite, der Anzahl der Hops auf dem Pfad und natürlich auch der dynamischen Auslastungssituation, verbunden mit den jeweils konfigurierten Dienstgütemerkmalen auf den verschiedenen Netzwerksegmenten. Prinzipiell ist am Empfänger ein auf die jeweils zu erwartende Situation angepasster Link Offset so einzustellen, dass die Pakete vom Netzwerkpfad mit der höchsten Latenz noch regelmäßig rechtzeitig empfangen werden können. Entsprechend groß muss der Empfangspuffer des Empfängers sein, der in diesem Anwendungsfall nicht nur den regelmäßig anfallenden Paketjitter (PDV) ausgleichen können muss, sondern auch die unterschiedlichen Laufzeiten – je stärker die regulär zu erwartenden maximalen Latenzen auf den einzelnen Pfaden auseinander liegen, desto größer muss der Puffer beschaffen sein. Das nachfolgende Diagramm visualisiert die Zusammenhänge: Link Offset MD
SPSReceiver
P1
RTP-Sender
P2
Reconstructed
…
RTP output
Pₙ
EA
PD
Abb. 16/53. Zeitliche Zusammenhänge SPS Dabei bedeuten: –– Pn: momentane Latenz auf dem Pfad n, inklusive Paketjitter. –– Link Offset: konfigurierte Latenz des gesamten Playout Offset; diese muss genügend groß sein, um den größten zu erwartenden Wert Pn ausgleichen zu können. –– EA: frühestmöglicher Zeitpunkt zum Empfang eines Pakets; minimal verarbeitbare momentane Latenz. –– MD: Größe des Empfangspuffers; entspricht der max. möglichen Differenz zwischen Link Offset und EA. –– PD: maximale Differenz zwischen allen momentanen Latenzen Pn.
1150
16 Digitale Betriebstechnik
Toleranzklassen Nach Konfiguration eines passenden Link Offsets und Aufbau aller Verbindungen, können die momentanen Latenzen Pn variieren und damit den Wert der maximalen Differenz PD verändern. SMPTE ST 2022-7 spezifiziert verschiedene Klassen, die angeben, welche Änderungen für maximale Latenzdifferenzen tolerierbar sind: Tab. 16/4. Empfänger-Klassifizierungen für SPS
Klasse / Δ Pn
Anwendungsfall
A / gering B / moderat C / groß D / sehr gering
In-house Verbindungen Kurze WAN-Verbindungen Lange WAN-Verbindungen Für Redundanz in LAN-Netzen
PD SBR Streams
HBR Streams