496 28 35MB
German Pages 1332 Year 2009
Michael Dickreiter Volker Dittel, Wolfgang Hoeg, Martin Wöhr
Handbuch der Tonstudiotechnik Band 1 7., völlig neu bearbeitete und erweiterte Auflage Mit 703 Abbildungen und 156 Tabellen
Herausgegeben von der ARD.ZDF medienakademie
K A G A Saur München 2008
Herausgeber: ARD.ZDF medienakademie Wallensteinstraße 121 90431 Nürnberg Internet: http://www.ard-zdf-medienakademie.de
Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie. Detaillierte bibliografische Dateien sind im Internet über http://dnb.d-nb.de abrufbar.
Gedruckt auf alterungsbeständigem Papier © 2008 by K. G. Saur Verlag, München Ein Imprint der Walter de Gruyter GmbH & Co. KG Alle Rechte vorbehalten. Jede Art der Vervielfältigung ohne Erlaubnis des Verlages ist unzulässig. Grafiken: ARD.ZDF medienakademie, Nürnberg Datenmanagement, -konvertierung und Umbruch: Michael Peschke, Berlin Druck: Strauss GmbH, Mörlenbach Bindung: Litges & Dopf, Heppenheim ISBN 978-3-598-11765-7
Gesamtübersicht Band 1 Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII Die Bearbeiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI Die Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XII Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XV 1
AKUSTIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2
SCHALLQUELLEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3
SCHALLWAHRNEHMUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4
SCHALLWANDLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5
TONAUFNAHME UND TONWIEDERGABE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6
KLANGGESTALTUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
7
ANALOGE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
8
ANALOGE TONREGIEANLAGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
9
BESCHALLUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
10
ANALOGE TONMESSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
Band 2 Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII 11 GRUNDLAGEN DER DIGITALEN TONTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 12 AUDIOCODIERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 13 DIGITALE STUDIOPROZESSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 14 DIGITALE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767 15 FILM- UND FERNSEHTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857 16 DIGITALE BETRIEBSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909 17 RUNDFUNKSYSTEME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963 18 QUALITÄTSSICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1109 19 ARBEITSSICHERHEIT UND GESUNDHEITSSCHUTZ . . . . . . . . . . . . . . . . . . . . . . . . . 1187 Fachwörter und Abkürzungen Englisch-Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . 1229 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1257 V
Vorwort
Das Handbuch der Tonstudiotechnik entwickelte sich seit seiner Erstausgabe im Jahr 1977 zu einem Klassiker unter den Fachbüchern der professionellen Audiotechnik. Hervorgegangen aus einem Ringordner für die Mitarbeiterinnen und Mitarbeiter des öffentlich-rechtlichen Rundfunks, wuchs es im Laufe der Jahrzehnte zu einem anerkannten Standardwerk für Generationen von Anwendern und Studierenden aus allen Bereichen der Audiobranche heran. Die ersten vier Auflagen waren geprägt von den Grundlagen der Akustik bis hin zu den technologischen Grenzen der seinerzeitigen analogen Aufnahme- und Betriebstechnik mit all ihren typischen Ausprägungen. Mit der rasanten Entwicklung der digitalen Signalverarbeitung in den späten 1980er Jahren begann dann eine Revolution in der Audiowelt. Es wandelten sich die Möglichkeiten bei der Aufnahme, Bearbeitung, Speicherung und Verbreitung von Tonsignalen und eröffneten bisher nicht gekannte Chancen im Umgang mit Audio. Gleichzeitig erhöhten sich aber auch die Ansprüche an die Dienste. Diesen ersten Entwicklungen passte sich in den Jahren 1987 und 1990 die inhaltliche Ausformung des Handbuchs in einer neu bearbeiteten und erweiterten 5. Auflage an, gefolgt von einer weiteren überarbeiteten 6. Auflage im Jahr 1997. Danach begann die Zeit tief greifender Veränderungsprozesse in den Studios und tontechnischen Medien. Der audiofähige Computer in Echtzeit sowie vernetzte Systeme ermöglichten neue Gestaltungsformen. Ton, Bild und Text begannen auf Grund datentechnischer Fortschritte näher aneinander zu rücken. Arbeitsabläufe und Berufsbilder änderten sich radikal. Parallel dazu weiteten sich die Verbreitungswege für digitale Medieninhalte aus, welche das Rezeptionsverhalten der Konsumenten drastisch veränderten. Es dauerte ein Jahrzehnt, bis sich schrittweise neue betriebliche Workflows auf Grund gesicherter Erkenntnisse und Standards etablierten. Ein Ende dieses dynamischen Veränderungsprozesses ist noch nicht in Sicht. Mit der vorliegenden 7. vollständig neu bearbeiteten und wesentlich erweiterten Auflage wird dieser Entwicklung Rechnung getragen. Das neue Werk befasst sich in zwei Bänden und 19 Kapiteln mit den wichtigsten aktuellen Aspekten der Tonstudiotechnik. Im ersten Band ist der Bestand der physikalisch-technischen Grundlagen des Schalls und verwandter Gebiete sowie die analoge Tonstudiotechnik aus der 6. Auflage grundsätzlich übernommen worden, allerdings nach einer erheblichen und nach neuesten Erkenntnissen abgestimmten Überarbeitung. Insbesondere Kapitel 5, das sich mit der Aufnahme- und Wiedergabetechnik, sowie Kapitel 6, das sich mit der Tongestaltung befasst, und Kapitel 9, Beschallung, sind vollständig neu verfasst VII
Vorwort
worden. Bei der Themenwahl für den zweiten Band war die möglichst umfassende Information über die führenden Sachgebiete der digitalen Audiotechnik maßgebend. Das sind in erster Linie die Grundlagen, beschrieben in Kapitel 11, sowie in den Folgekapiteln die aktuellen Codierformate, die Möglichkeiten der digitalen Signalspeicherung, die neuen Übertragungssysteme, die heutige Betriebstechnik, wie sie in der professionellen Studioumgebung und im digitalen Rundfunk zur Anwendung kommt sowie die Prozesse der gemeinsamen Ton- und Bildverarbeitung. Darüber hinaus erschien es wichtig, in den systemorientierten Kapiteln das Zusammengehen von technischem und redaktionellem Workflow herauszuarbeiten und darzustellen. Ebenso finden normierte und mittlerweile standardisierte Methoden und Richtlinien, z. B. bei der Qualitätssicherung, Eingang in das Buch. Mit dem abschließenden Kapitel 19 zu Arbeitssicherheit und Gesundheitsschutz wird dem Umstand Rechnung getragen, dass die Verästelungen von Vorschriften, Schutzmaßnahmen und Verantwortlichkeiten sich zunehmend auf alle Anwender in den tontechnischen Berufen verteilen und deshalb von allgemeinem Interesse sind. Vernetzte Strukturen, denen wir heute überall in der Audiotechnik begegnen, bedingen die enge Wechselwirkung von Funktionalität und Anwendung. Deshalb finden sich gelegentlich Begriffe und deren Erklärungen verteilt an mehreren Kapitelstellen, da sie dort dem besseren Sachverständnis dienen. Dies erhöht die Lesbarkeit, ohne zu viel auf Querverweise hindeuten zu müssen. Das Handbuch der Tonstudiotechnik entstand aus dem gemeinsamen Bemühen von Herausgeber, Bearbeitern und Autoren, dem Benutzer ein umfassendes, zuverlässiges und detailreiches Nachschlagewerk an die Hand zu geben, das durch die Konzentration der Darstellung des Inhalts über die kommenden Jahre größtmögliche Nachhaltigkeit in der Audiotechnik bietet. Die ausführliche Darstellung von Standards und Literaturangaben am Ende eines jeden Kapitels, die alphabetische Auflistung häufiger Fachwörter Englisch-Deutsch, die Erläuterung üblicher Abkürzungen und ein umfassendes Sachregister runden die sachdienliche Nutzung des Buches für den Leser ab. Grundsätzlich verzichtet wurde auf die Darstellung von Themen aus dem Consumerbereich. Das Bearbeiterteam, Martin Wöhr (Leitung), Michael Dickreiter, Volker Dittel und Wolfgang Hoeg, dankt den in der Autorenliste genannten Experten aus Forschung, Lehre, Industrie und Studiopraxis für die fachkundige Erstellung der Manuskripte. Der Dank richtet sich auch an Andreas Dittrich, Stefan Meltzer, Stephan Peus, Eberhard Sengpiel und Helmut Wittek für die kritische Durchsicht von Texten, er gilt ebenso Monika Gerber von der ARD.ZDF medienakademie für ihre engagierte Begleitung, Uwe Krämer für seine Vorarbeiten sowie Martin Bichler und Thomas Vogel, die mit viel Sachverstand die Abbildungen angefertigt haben. Der Dank der Bearbeiter geht schließlich auch an Michael Peschke, der mit der notwendigen Geduld das Layout erstellte. VIII
Vorwort
Die Hörfunkbetriebsleiter der öffentlich-rechtlichen Rundfunkanstalten in Deutschland haben das Projekt angeregt und gefördert. Die ARD.ZDF medienakademie hat als Herausgeberin die Realisierung ermöglicht und unterstützt. Der K. G. Saur Verlag, der das Handbuch der Tonstudiotechnik seit 1977 betreut, hat auch diese 7. Auflage mit gewohnter Sorgfalt und in angenehmer Zusammenarbeit ediert. Der Dank geht auch an den Verlag Publicis Publishing für die freundliche Genehmigung der Übernahme von Teilen aus dem Wörterbuch Hörfunk und Fernsehen, herausgegeben von Herbert Tillmann. Martin Wöhr, im November 2008
IX
Die Bearbeiter Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; Studium an der Musikhochschule in Detmold mit dem Abschluss Dipl.-Tonmeister, danach Aufbau eines Studiengangs zum Toningenieur an der Universidad Austral in Chile, anschließend Studium der Musikwissenschaft mit den Nebenfächern Physik und Psychologie an der Universität Heidelberg mit der Promotion zum Dr. phil. und einer Arbeit über den Musiktheoretiker Johannes Kepler (1973), von 1972 bis 2002 Dozent und Fachautor an dem zentralen Aus- und Fortbildungsinstitut der öffentlich-rechtlichen Rundfunkanstalten in Nürnberg – früher srt, heute ARD.ZDF medienakademie, Mitglied VDT. Autor der bisherigen Auflagen des „Handbuchs der Tonstudiotechnik“ (1. Aufl. 1976, 6. Aufl. 1997), weitere Buchveröffentlichungen, u. a.: „Musikinstrumente“ (7. Aufl. 2007), „Partiturlesen“ (5. Aufl. 1997), „Mikrofon-Aufnahmetechnik“ (3. Aufl. 2003). Dittel, Volker, Dipl.-Ing.; Studium der Elektrischen Nachrichtentechnik an der RWTH Aachen, Studienschwerpunkte Halbleitertechnik und Technische Akustik, von 1967 bis 2006 Mitarbeiter des Westdeutschen Rundfunks, Köln, in den Bereichen Hörfunktechnik, Systementwicklung und Schulung, Leiter der Fachabteilung Audiosystemtechnik, Mitglied VDT und GTA. Tätigkeitsfelder: Automatisierung von Sendeabläufen, programmbegleitende Systeme für Hörfunk und Fernsehen, digitale Aufzeichnungs-, Produktions- und Sendeeinrichtungen, Qualitätssicherung, langjähriger Vorsitzender des ARD-Arbeitskreises Audiosystemtechnik (AKAS), Lehrauftrag an der Fakultät Informations-, Medien- und Elektrotechnik der Fachhochschule Köln für Rundfunk- und Fernsehtechnik, Autor naturwissenschaftlicher Sendungen über Fernseh- und Satellitentechnik für die Dritten Programme der ARD und Mitautor der zu diesen Sendungen veröffentlichten Begleitbücher. Hoeg, Wolfgang, Dipl.-Ing.; Studium der Nachrichtentechnik/Elektroakustik mit dem Nebenfach Tonmeister an der Technischen Hochschule Dresden, postgrad. Studium der Automatisierungstechnik, seit 1959 für 40 Jahre tätig in Forschung und Entwicklung im Rundfunk- und Fernsehtechnischen Zentralamt (RFZ) der Deutschen Post, nach 1991 im Forschungsinstitut (FI) der Deutschen Telekom, Leiter der Abteilung Audiosysteme bei der Deutschen Telekom Berkom, Berlin, Mitglied VDT und Fellow AES. Tätigkeitsfelder: u. a. Psychoakustik, Tonstudiotechnologie, Rundfunk-Stereofonie und -Mehrkanalton, Beschallungstechnik sowie Digitaler Rundfunk (DAB), Mitarbeit in internationalen Standardisierungsgremien (OIRT, EBU, ITU-R, Eureka147/DAB), Lehrauftrag für die Tonmeisterausbildung an der Hochschule für Musik Hanns Eisler, Berlin, zahlreiche Veröffentlichungen, u. a. Mitautor bzw. Herausgeber von Fachbüchern zur Stereofonie, Akustik und Digital Audio Broadcasting (3. Aufl. Wiley, 2009). Wöhr, Martin, Dipl.-Ing. (FH); Studium der Nachrichten- und Hochfrequenztechnik an der FH München sowie Studium der Musik an der staatl. Musikhochschule und am Richard-Strauß-Konservatorium in München, von 1968 bis 2005 beim Bayerischen Rundfunk, Hörfunk, in München, zunächst als Tonmeister-Technik, ab 1990 Leiter der Abteilung Studioproduktion und Betrieb, seit 2005 Geschäftsführer des Bildungswerks des Verbandes Deutscher Tonmeister (VDT), Mitglied AES und VDT. Tätig als Tonmeister-Technik überwiegend in der Musikproduktion für Rundfunk und Tonträgerindustrie, Mitarbeit bei Projekten des Instituts für Rundfunktechnik (IRT), ab 1990 Mitarbeit in Arbeitsgruppen und Gremien der ARD und EBU, maßgebliche Mitarbeit bei der Einführung der Mehrkanalübertragung im Hörfunk in der ARD, mehrere Veröffentlichungen in Fachzeitschriften.
XI
Die Autoren Arasin, Peter, Dipl.-Ing.; seit 1985 bei Sennheiser, Lehrbeauftragter bei der Sennheiser Sound Academy, Veröffentlichungen zur Funkmikrofontechnik und zum In Ear Monitoring Autor der Kapitel 4.3 und 4.5.2 Bock, Stefan, Tonmeister; Inhaber und Geschäftsführer der msm-studios, München Autor des Kapitels 14.2 Büttner, Nikolaus, Dipl.-Ing. (FH); seit 1997 Mitarbeiter der Betriebszentrale des Hessischen Rundfunks Autor des Kapitels 16.1 Camerer, Florian, Ing.; Tonmeister der Fernsehproduktion und Nachbearbeitung beim Österreichischen Rundfunk, Seminartätigkeit zu den Themen Surround-Sound-Mikrofonie und Tondramaturgie Autor des Kapitels 5.5.3 Dickreiter, Michael, Dr. phil., Dipl.-Tonmeister; siehe Verzeichnis der Bearbeiter Autor der Kapitel 1, 2, 3.2. bis 3.4, 4.1, 4.2, 4.4 bis 4.5.1, 5.3, 5.5.1, 7, 8.2 bis 8.13, 10 Dohlus, Ernst, Dipl.-Volkswirt; Wirtschaftsredakteur, Gesamtprojektleiter HSB der ARD, Hauptabteilungsleiter Produktion und Sendung Hörfunk des Bayerischen Rundfunks Autor des Kapitels 18.8.2 Färber, Nikolaus, Dr.-Ing.; 2001 bis 2003 Forschungsingenieur bei Ericsson, Gruppenleiter Multimedia Transport am Fraunhofer-Institut für Integrierte Schaltungen (IIS); Veröffentlichungen zur Videoübertragung und zum IP-Streaming Autor des Kapitels 17.4 Feiten, Bernhard, Dr.-Ing.; 1999 bis 2002 Leiter der Abteilung Audiosysteme der Deutschen Telekom Berkom; Veröffentlichungen zu den Themen Internet-Streaming und Content-Adaptation Autor des Kapitels 11.5 Goeres-Petry, Jürgen, Dipl.-Ing. (FH), MBA; 1991 bis 1997 Tonmeister am Staatstheater Karlsruhe, seit 1997 beim Hessischen Rundfunk, Leitung Hörfunk-Produktions- und Ü-Technik; Veröffentlichungen zur Audiorestaurierung, Beschallung und Tontechnik Autor der Kapitel 3.1 und 19.2 bis 19.2.4 Graul, Wolfram, Dipl.-Tonmeister; Tonmeister beim Bayerischen Rundfunk, seit 2000 Leiter der Abteilung Musikproduktionen beim Bayerischen Rundfunk, freier Producer Autor des Kapitels 5.5.2 Grill, Bernhard, Dr.-Ing.; Entwicklung der Audiocodierstandards MP3 und MPEG-4, Leiter Abteilung Audio/Multimedia am Fraunhofer-Institut für Integrierte Schaltungen (IIS), Mitarbeit in internationalen Standardisierungsgremien (MPEG Audio); Veröffentlichungen zur Audiocodierung Autor der Kapitel 12.1 bis 12.4, Mitautor der Kapitel 12.5, 12.8 Heidrich, Klaus M., Dipl.-Ing.; Bereichsleiter Media Broadcasting Solutions bei der VCS Aktiengesellschaft; Veröffentlichungen zu softwarebasierten Lösungen für professionelle Broadcast-Unternehmen Autor des Kapitels 14.3 Herla, Siegbert, Dipl.-Ing.; 1983 bis 1996 Leiter des Arbeitsbereichs Tonstudiotechnik und Tonsignalspeicherung am Institut für Rundfunktechnik (IRT), danach dort Fachreferent Aufzeichnung und Archivierung, z. Zt. Fachreferent Produktionssysteme Fernsehen, Mitarbeit in internationalen Standardisierungsgremien; Veröffentlichungen zur analogen und digitalen Ton- und Fernsehstudiotechnik Autor des Kapitels 14.1
XII
Die Autoren Hoeg, Wolfgang, Dipl.-Ing.; siehe Verzeichnis der Bearbeiter Autor der Kapitel 8.1, 12.6 bis 12.9, 18.1, 18.6, Mitautor der Kapitel 17.2, 17.4, 18.2 bis 18.5 Lauterbach, Thomas, Prof. Dr. rer. nat., Dipl.-Phys; 1992 bis 1997 Forschungs- und Entwicklungstätigkeit Kommunikationstechnik bei Robert Bosch; seit 1997 Professor an der Georg-Simon-OhmHochschule Nürnberg; Veröffentlichungen zum digitalen Rundfunk Autor des Kapitels 17.2, Mitautor des Kapitels 17.3 Maempel, Hans-Joachim, Dr. phil., Dipl.-Tonmeister; tätig in Musikproduktion und Medienberatung, Forschung und Lehre am Fachgebiet Audiokommunikation der Technischen Universität Berlin; Veröffentlichungen zur Musikübertragung, Medienästhetik und Rezeptionspsychologie Autor des Kapitels 6 Meyer-Schwarzenberger, Gernot, Dipl.-Phys.; technischer Autor und Redakteur bei der ARD.ZDF medienakademie; Veröffentlichungen zur Fernseh- und Tontechnik, Datenkompression, DVB-S2, Video-, Audio- und Netztechnik und zu elektronischen Tricks Autor des Kapitels 11.6 Nicklaus, Klemens, Dipl. Ing. (FH); Projektingenieur bei der Rundfunkbetriebstechnik (RBT); Mitautor der RBT/AKAS-Richtlinien digitale Audiomesstechnik der ARD (DAR) Autor der Kapitel 18.2., 18.3, Mitautor des Kapitels 18.7.1 Reykers, Heinz Peter, Dipl.-Ing.; Systemingenieur beim Westdeutschen Rundfunk, Trainingspartner der ARD.ZDF medienakademie; Veröffentlichungen zum Mehrkanalton im Hörfunk Autor des Kapitels 16.2, Mitautor des Kapitels 12.4 Romahn, Götz, Dr.-Ing., Tonmeister; Forschung in den Bereichen Akustik und Telekommunikation, Hauptabteilungsleiter beim RIAS/Deutschlandradio, Lehrbeauftragter an der Technischen Universität Berlin; Veröffentlichungen zur Akustik und Telekommunikation Autor der Kapitel 11.1 bis 11.4 und 13.1 Schäfer, Michael, Dipl.-Ing. (FH); Sicherheitsingenieur beim Hessischen Rundfunk Autor der Kapitel 19.1 bis 19.1.6 und 19.2.5 bis 19.2.7 Schierbaum, Thomas, Dipl.-Fachwirt Medienmarketing, staatl. gepr. Nachrichtentechniker; seit 1985 Mitarbeiter am Institut für Rundfunktechnik (IRT), Entwicklung und Einführung digitaler Datendienste u. a. bei DAB, Öffentlichkeitsarbeit beim IRT; Veröffentlichungen zu Zusatzinformationen im Hörfunk, DAB, Mobilitätsinformationen Autor des Kapitels 17.5 Schullan, Bernhard, Dipl.-Ing.; Projektleitung für Audioinstallationen, Lehrtätigkeit an der Schule für Rundfunktechnik (ARD.ZDF medienakademie), Leiter Service-Center Hörfunktechnik beim Hessischen Rundfunk; Veröffentlichungen zu digitalen Audionetzwerken Autor des Kapitels 9 Schulze, Henrik, Prof. Dr. rer. nat.; 1987 bis 1993 Forschungs- und Entwicklungstätigkeit Kommunikationstechnik bei Robert Bosch, 1992 bis 1993 Mitglied des ETSI Project Teams zur Spezifikation des DAB-Systems, Lehrtätigkeit an der Fachhochschule Südwestfalen; Veröffentlichungen zu Modulationsverfahren der digitalen Breitbandübertragung Autor des Kapitels 17.1, Mitautor des Kapitels 17.3 Slavik, Karl M., Ing. (HTL), Dipl.-Päd.; seit 1981 Tonmeister, 1990 bis 1992 Planungsingenieur bei Siemens, 1999 bis 2005 Toningenieur beim Österreichischen Rundfunk, seit 2005 freier Berater und Trainer, Lehrbeauftragter an der Universität Wien; Veröffentlichungen zur Audiotechnik Autor des Kapitels 15
XIII
Die Autoren Spikofski, Gerhard, Dipl.-Ing.; wissenschaftlicher Mitarbeiter des Instituts für Rundfunktechnik (IRT), Mitarbeit in internationalen Standardisierungsgremien; Veröffentlichungen zur Aussteuerung, Lautstärke, Dynamik, Audioevaluierung und zu Abhörstandards Autor der Kapitel 18.2.8, 18.4, 18.5, Mitautor der Kapitel 5.6 und 18.6 Steuck, Ralf, Dipl.-Ing.; Systemplanung HF beim Norddeutschen Rundfunk, Projektleitung des ersten digitalen Funkhauses Europas 1996 in Schwerin; Veröffentlichungen zur analogen und digitalen Tonstudiotechnik Autor des Kapitels 13.2 Stoll, Gerhard, Dipl.-Ing.; Fachreferent beim Institut für Rundfunktechnik (IRT), Entwicklung und Standardisierung von MPEG-Layer II, derzeit Projektleiter interaktives mobiles Fernsehen, diverse Projekte und Veröffentlichungen zum Mehrkanalton bei Hörfunk und Fernsehen Autor von Kapitel 17.6 Theile, Günther, Dr.-Ing.; bis 2008 Leiter des Sachgebiets Audiosystemtechnik beim Institut für Rundfunktechnik, München (IRT); Forschungen, Entwicklungen und Veröffentlichungen zur Aufnahme- und Wiedergabetechnik, virtuellen Akustik und Datenreduktion Autor der Kapitel 5.1, 5.2, 5.4, 5.7, 5.8, Mitautor des Kapitels 5.6
XIV
Inhaltsverzeichnis (Band 1) 1 AKUSTIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Schallfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Schallausbreitung in Luft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1.1 1.1.1.2 1.1.1.3 1.1.1.4
Kugelwelle und ebene Welle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schalldruck, Schallschnelle und Schallkennimpedanz . . . . . . . . . . . . . . . . . . . . . . . Schalldruckpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schallleistung und Schallintensität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 5 7 8
1.1.2 Schallausbreitung im Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.2.1 1.1.2.2 1.1.2.3 1.1.2.4 1.1.2.5
Schallreflexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Schallbeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Schallbrechung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Schallabsorption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Schalldämmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2 Raumakustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.1 Zeitlicher Aufbau des Schallfelds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.2 Begriffe der Hörakustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.2.3 Direktschall und erste Reflexionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.2.3.1
Deutlichkeitsgrad und Klarheitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2.4 Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.4.1 1.2.4.2
Nachhallzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Hallradius und Hallabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3 Akustik der Aufnahmestudios und Regieräume . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.1 Störgeräuschpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.2 Raumakustik von Aufnahmestudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.3.2.1
Veränderbare Nachhallzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.3 Akustik von Regieräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.3.3.1
Akustik in Übertragungswagen und in kleinen Abhörräumen . . . . . . . . . . . . . . . . 37
1.4 Akustik von Konzertsälen, Opernhäusern und Kirchen . . . . . . . . . . . . . . . . . . . 37 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2 SCHALLQUELLEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.1 Schallformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.1.1 Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.1.1 2.1.1.2 2.1.1.3
Einfache Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Überlagerung von Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Zusammengesetzte Schwingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
XV
Inhaltsverzeichnis 2.2 Menschliche Stimme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.1 Akustische Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.1.1 2.2.1.2 2.2.1.3
Sprachspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Sprachschallpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Singstimme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Richtcharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.2.3 Sprachverständlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.3 Musikinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.1 Akustische Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.1.1 2.3.1.2 2.3.1.3 2.3.1.4 2.3.1.5
Klangeinsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quasistationärer Klangabschnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ausklingvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Musikalische Dynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stimmung der Instrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56 58 61 62 64
2.3.2 Akustische Instrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.2.1 2.3.2.2 2.3.2.3 2.3.2.4 2.3.2.5 2.3.2.6 2.3.2.7
Streichinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Holzblasinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Blechblasinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klavier und Cembalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Orgel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Akustische Gitarre und E-Gitarre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schlaginstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65 70 72 74 74 75 77
2.3.3 Richtcharakteristiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.3.3.1 2.3.3.2 2.3.3.3 2.3.3.4
Streichinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Holzblasinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Blechblasinstrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Flügel und Orgel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78 80 81 82
2.3.4 Elektronische Instrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2.3.4.1 2.3.4.2 2.3.4.3 2.3.4.4 2.3.4.5 2.3.4.6
Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klangerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klangveränderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klangverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Begriffe der Hüllkurvensteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Keyboards und Rhythmusgeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83 85 86 88 90 90
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3 SCHALLWAHRNEHMUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.1 Das Gehör . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.1.1 Cochlearer Verstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.2 Schallereignis und Hörereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.3 Eigenschaften der Wahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.3.1 Lautstärkepegel und Lautheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 XVI
Inhaltsverzeichnis 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.3.7
Anpassung und Verdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Tonhöhe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Verzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Rauheit und Schärfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Subjektive Tondauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Hörbarkeit von Phasenänderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4 Räumliches Hören natürlicher Schallquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.4.1 Wahrnehmung der Richtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.1.1 3.4.1.2
Horizontale Ebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Vertikale Ebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
3.4.2 Wahrnehmung der Entfernung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.4.2.1
Im-Kopf-Lokalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4 SCHALLWANDLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.1 Physikalische Prinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.2 Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.2.1 Eigenschaften von Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.2.1.1 4.2.1.2 4.2.1.3 4.2.1.4 4.2.1.5 4.2.1.6 4.2.1.7 4.2.1.8 4.2.1.9
Übertragungsfaktor und Übertragungsmaß, Empfindlichkeit . . . . . . . . . . . . . . . . Übertragungsbereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frequenzgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Störspannungen und Störpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grenzschalldruck und Aussteuerungsgrenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nennabschlussimpedanz und Nennimpedanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . Richtwirkung und ihre Frequenzabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . Wind- und Poppstörungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Störungen durch Körperschall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
116 117 117 121 123 123 123 136 137
4.2.2 Kondensatormikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.2.2.1 4.2.2.2 4.2.2.3 4.2.2.4 4.2.2.5 4.2.2.6 4.2.2.7 4.2.2.8
Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spannungsversorgung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mikrofon-Vorverstärker mit analogem Ausgang . . . . . . . . . . . . . . . . . . . . . . . . . Mikrofon-Vorverstärker mit digitalem Ausgang . . . . . . . . . . . . . . . . . . . . . . . . . . Druckempfänger mit ungerichtetem Schallempfang . . . . . . . . . . . . . . . . . . . . . . . Druckgradientenempfänger mit gerichtetem Schallempfang . . . . . . . . . . . . . . . . Umschaltbare Richtcharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Koinzidenzmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
138 138 140 142 145 145 146 149
4.2.3 Dynamische Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 4.2.3.1 4.2.3.2
Tauchspulmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Bändchenmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.2.4 Sonderbauformen von Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 4.2.4.1 4.2.4.2
Kardioidebenenmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Grenzflächenmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
XVII
Inhaltsverzeichnis 4.2.4.3 4.2.4.4 4.2.4.5
Großmembran- und Röhrenmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 Ansteckmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Kontakt- oder Körperschallmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.2.5 Mikrofonständer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 4.3 Einrichtungen für drahtlose Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 4.3.1 Sender . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 4.3.1.1 4.3.1.2
Frequenzzuteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Stromversorgung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
4.3.2 Antennen und Wellenausbreitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 4.3.3 Empfänger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 4.3.3.1
Diversity-Empfang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.4 Lautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.4.1 Bauformen von Lautsprechern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 4.4.1.1 4.4.1.2 4.4.1.3 4.4.1.4
Dynamische Lautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elektrostatische Lautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Akustischer Kurzschluss und Lautsprecherboxen . . . . . . . . . . . . . . . . . . . . . . . . . Regielautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
170 173 175 176
4.5 Kopfhörer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 4.5.1 Bauformen von Kopfhörern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 4.5.2 Einrichtungen für drahtlose Kopfhörer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5 TONAUFNAHME UND TONWIEDERGABE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.1 Prinzipien der räumlichen Tonübertragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.1.1 Binaurale Reproduktion der Ohrsignale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 5.1.2 Lautsprecher-Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 5.1.3 Synthese des umgebenden Schallfelds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 5.2 Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 5.2.1 Phantomschallquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.2.1.1 5.2.1.2 5.2.1.3 5.2.1.4 5.2.1.5
Pegeldifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zeitdifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenwirken von Pegel- und Zeitdifferenzen . . . . . . . . . . . . . . . . . . . . . . . . Seitliche Phantomschallquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stereohörflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
188 189 191 191 193
5.2.2 Aufnahmewinkel eines Stereomikrofons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.2.2.1 5.2.2.2 5.2.2.3 5.2.2.4
Aufnahmewinkel bei zweikanaligen Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen . . . . . . . . . Aufnahmewinkel bei dreikanaligen Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . Berechnungswerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
195 196 197 198
5.2.3 Theorien zur Lokalisation von Phantomschallquellen . . . . . . . . . . . . . . . . . . . 199 5.2.3.1 5.2.3.2
XVIII
Summenlokalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Assoziationsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Inhaltsverzeichnis 5.2.4 Räumliche stereofone Abbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.2.4.1 5.2.4.2
Zweikanal-Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Mehrkanal-Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.2.5 Begriffe zur stereofonen Richtungsabbildung . . . . . . . . . . . . . . . . . . . . . . . . . 207 5.2.6 Aspekte zur Anwendung der Aufnahmeverfahren . . . . . . . . . . . . . . . . . . . . . . 209 5.3 Zweikanal-Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 5.3.1 Übersicht über die Aufnahme- und Mikrofonverfahren . . . . . . . . . . . . . . . . . . 211 5.3.2 Intensitätsstereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 5.3.2.1 5.3.2.2 5.3.2.3 5.3.2.4
XY-Mikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MS-Mikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Äquivalenzen von XY- und MS-Mikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . Praktischer Einsatz von Stereomikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
214 217 218 219
5.3.3 Laufzeitstereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 5.3.3.1 5.3.3.2 5.3.3.3
Klein-AB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Groß-AB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Praktischer Einsatz der Laufzeitstereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
5.3.4 Kombination von Intensitäts- und Laufzeitstereofonie . . . . . . . . . . . . . . . . . . 224 5.3.4.1 5.3.4.2 5.3.4.3 5.3.4.4
ORTF-Mikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Mikrofonanordnungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kugelflächenmikrofon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Andere Trennkörper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
225 226 227 230
5.3.5 Stützmikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 5.3.5.1 5.3.5.2 5.3.5.3
Monostützmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Stereostützmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Stütztechnik und Raumeindruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
5.3.6 Einzelmikrofonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 5.3.7 Überwachung der Stereosignale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 5.3.8 Mono-Kompatibilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 5.4 Mehrkanal-Stereofonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 5.4.1 Mehrkanalstandard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 5.4.1.1 5.4.1.2 5.4.1.3
Lautsprecheranordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Hierarchie kompatibler Mehrkanal-Tonsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Tieftonwiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.4.2 Stereofonie in den Sektoren L-C und C-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 5.4.2.1 5.4.2.2 5.4.2.3 5.4.2.4
Doppel-Stereoverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrfach-AB-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Decca-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . OCT, Optimierte Nierenanordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
247 247 248 250
5.4.3 Einsatz der Surround-Kanäle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 5.4.3.1 5.4.3.2 5.4.3.3
Surround Sound-Hauptmikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Separate Raummikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 Reportage und Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
XIX
Inhaltsverzeichnis 5.4.4 Verwendung von Delay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 5.4.4.1 5.4.4.2 5.4.4.3
Delay bei Einsatz von Hauptmikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Delay-Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
5.5 Klanggestaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 5.5.1 Wortproduktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 5.5.1.1 5.5.1.2
Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Gesprächsrunden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
5.5.2 Klangliche Aspekte bei Aufnahmen klassischer Musik . . . . . . . . . . . . . . . . . . 278 5.5.2.1 5.5.2.2 5.5.2.3 5.5.2.4 5.5.2.5 5.5.2.6 5.5.2.7
Aufnahmeraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilung der Schallquellen auf der Stereobasis . . . . . . . . . . . . . . . . . . . . . . . . . Tiefenstaffelung innerhalb des Stereoklangbilds . . . . . . . . . . . . . . . . . . . . . . . . . Wiedergabedynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anforderungen bei Wiedergabe von 5.1-Mehrkanalstereofonie . . . . . . . . . . . . . . Neue Aspekte bei mehrkanaliger Wiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . Historischer Rückblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
279 281 286 286 287 288 288
5.5.3 Klangliche Aspekte bei Fernsehaufnahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 5.5.3.1 5.5.3.2 5.5.3.3 5.5.3.4 5.5.3.5 5.5.3.6
Unterhaltung und Show . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Oper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reportage, Magazin und Dokumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spielfilm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fernsehspiel und Sitcom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
290 292 293 294 295 296
5.6 Kunstkopfverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 5.6.1 Kopfbezogene binaurale Übertragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 5.6.2 Praktische Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 5.6.3 Lautsprecherwiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 5.7 Kopfhörerwiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 5.7.1 Phantomschallquellen im Kopf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 5.7.2 Entzerrung von Kopfhörern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 5.8 Wellenfeldsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 5.8.1 5.8.2 5.8.3 5.8.4
Prinzip der Aufnahme und Wiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 Neue Fähigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 Einschränkungen in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 Kombination von Wellenfeldsynthese und Stereofonie . . . . . . . . . . . . . . . . . . 309
5.8.4.1 5.8.4.2 5.8.4.3 5.8.4.4
Virtual Panning Spot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Virtuelle Lautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Virtueller Kopfhörer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Binaural Sky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
309 311 312 313
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
XX
Inhaltsverzeichnis
6 KLANGGESTALTUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 6.1 Abbildungsrichtung und Abbildungsbreite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 6.1.1 Panorama-Potentiometer und Balanceregler . . . . . . . . . . . . . . . . . . . . . . . . . . 322 6.1.2 Richtungsmischer, Stereobreitenregler und Stereoenhancer . . . . . . . . . . . . . . 326 6.2 Dynamik und Lautheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 6.2.1 Kompressor und Limiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 6.2.1.1 6.2.1.2 6.2.1.3
Statisches Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 Dynamisches Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 Erweiterte Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
6.2.2 Expander und Gate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 6.2.2.1 6.2.2.2 6.2.2.3
Statisches Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 Dynamisches Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 Erweiterte Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
6.2.3 Kombinierte Regelverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 6.3 Klangfarbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 6.3.1 Klassische Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 6.3.1.1 6.3.1.2 6.3.1.3 6.3.1.4 6.3.1.5
Hochpass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tiefpass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bandpass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bandsperre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spezialfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
339 340 341 341 342
6.3.2 Equalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 6.3.2.1
Glockenfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
6.3.2.2
Schelf-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
6.3.3 Verzerrer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 6.3.4 Enhancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 6.4 Tonhöhe und Tondauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 6.4.1 Pitch Shifting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 6.4.2 Time Stretching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 6.5 Raumeindruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 6.5.1 Analoge Hallerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 6.5.1.1 6.5.1.2 6.5.1.3
Hallfeder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 Hallplatte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Hallfolie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
6.5.2 Digitaler algorithmischer Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 6.5.3 Digitaler Faltungshall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 6.6 Komplexe Klangveränderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 6.6.1 Tremolo und Vibrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 6.6.2 Wah-Wah . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 6.6.3 Verzögerungseffekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 XXI
Inhaltsverzeichnis 6.6.4 6.6.5 6.6.6 6.6.7 6.6.8
Phaser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 Ringmodulator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 Leslie-Kabinett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 Vocoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Kombinierte und neue Audiobearbeitungsmittel . . . . . . . . . . . . . . . . . . . . . . . 362
6.7 Klangästhetische Aspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 6.7.1 6.7.2 6.7.3 6.7.4
Zusammenhang von Reiz- und Wahrnehmungsmerkmalen . . . . . . . . . . . . . . . 363 Klang und Bedeutung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 Medienästhetische Ideale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 Der Kampf um die Aufmerksamkeit des Hörers . . . . . . . . . . . . . . . . . . . . . . . 366
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7 ANALOGE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 7.1 Magnetische Tonsignalspeicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372 7.1.1 Grundlagen des Magnetismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372 7.1.1.1 7.1.1.2 7.1.1.3
Magnetisches Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372 Magnetische Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 Hysteresisschleife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
7.1.2 Magnettonverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 7.1.2.1 7.1.2.2 7.1.2.3 7.1.2.4 7.1.2.5 7.1.2.6 7.1.2.7
Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Magnettonbänder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufzeichnungsvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elektroakustische Eigenschaften von Magnetbändern . . . . . . . . . . . . . . . . . . . . . Wiedergabevorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entzerrung des Frequenzgangs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Löschvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
377 378 380 385 392 394 398
7.1.3 Systeme zur Rauschverminderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 7.1.3.1 7.1.3.2
Telcom-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 Dolby-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
7.1.4 Schnittbearbeitung von Magnetbändern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 7.1.4.1
Bandschnitt und Kennbänder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
7.1.5 Studio-Magnettonanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 7.1.5.1 7.1.5.2 7.1.5.3 7.1.5.4
Studio-Magnettonlaufwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Magnettonköpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrspur-Magnettonanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufzeichnung von Mono- und Stereosignalen . . . . . . . . . . . . . . . . . . . . . . . . . . .
407 409 411 412
7.2 Mechanische Schallspeicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 7.2.1 Aufzeichnungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 7.2.1.1 7.2.1.2 7.2.1.3
XXII
Mono- und Stereoaufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 Lichtbandbreite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 Schneidkennlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
Inhaltsverzeichnis 7.2.2 Plattenherstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 7.2.2.1 7.2.1.2
Lackplatten-Schneidverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 DMM-Schneidverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
7.2.3 Wiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 7.2.3.1 7.2.3.2 7.2.3.3 7.2.3.4 7.2.3.5
Abtastsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tonarm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Geometrische Abtastverzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Laufwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
420 422 423 425 426
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8 ANALOGE TONREGIEANLAGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 8.1 Historische Entwicklung: die Generationen der Tonstudiotechnik . . . . . . . . . 431 8.2 Aufbau von Tonregieanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 8.3 Leitungsführung und Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 8.3.1 8.3.2 8.3.3 8.3.4 8.3.5 8.3.6
Symmetrie und Unsymmetrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 Schirmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 Kabellänge und Kabelführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 Zusammenschaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 Erdung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
8.4 Leitungsverbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 8.4.1 Klinkensteckverbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 8.4.2 Koppelfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450 8.4.2.1
Komplexe Koppelfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
8.4.3 Kabelsteckverbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 8.4.4 Schalter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 8.5 Mikrofonverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 8.5.1 8.5.2 8.5.3 8.5.4 8.5.5
Verstärkungseinstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 Frequenzgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 Störpegel und Aussteuerungsfestigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 Mikrofon-Trennverteiler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 Kommandoverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
8.6 Anschluss externer Geräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 8.6.1 Brummstörungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466 8.6.1.1 8.6.1.2 8.6.1.3
Brummstörungen bei Verwendung eines Netz-Trenntransformators . . . . . . . . . . 466 Brummstörungen durch Masseschleifen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 Brummstörungen durch Mehrfacherdung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
8.6.2 Trennübertrager für Tonsignale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
XXIII
Inhaltsverzeichnis 8.7 Pegelsteller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 8.7.1 VCA- und Motorpegelsteller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 8.7.2 Überblendregler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 8.7.3 Elektronische Blender . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473 8.8 Richtungsmischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 8.8.1 Panorama-Potentiometer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 8.8.2 Richtungsmischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 8.9 Knotenpunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 8.9.1 Knotenpunkte mit Spannungsanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 8.9.2 Knotenpunkte mit Stromanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 8.9.2.1
Universalverstärker als Knotenpunktverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . 482
8.10 Hilfssummen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485 8.10.1 Schaltungen für künstliche Verhallung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 8.10.2 Schaltungen für Ausspielwege . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 8.11 Spezial- und Universalverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490 8.11.1 Spannungsverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 8.11.1.1 Aufholverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 8.11.1.2 Trenn- und Verteilerverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
8.11.2 Universalverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 8.11.2.1 Pegelverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 8.11.2.2 Knotenpunktverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 8.11.2.3 Trennverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
8.11.3 Anpassverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496 8.11.4 Leistungsverstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 8.12 Akustische und optische Signalüberwachung . . . . . . . . . . . . . . . . . . . . . . . . . 498 8.12.1 Einrichtungen und Kontrollpunkte für Abhören . . . . . . . . . . . . . . . . . . . . . . 498 8.12.1.1 Abhöreinheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.12.2 Vorhören, Solo, Mute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 8.12.3 Mithören . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 8.12.4 Pegeltongenerator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 8.13 Tonregieanlagen in Streifentechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
9 BESCHALLUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 9.1 Raumakustik unter der Berücksichtigung von Beschallungsanlagen . . . . . . . 512 9.1.1 Reflexionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 9.1.2 Erste Reflexionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 9.1.3 Fokussierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 XXIV
Inhaltsverzeichnis 9.1.4 Stehende Wellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 9.1.5 Raumresonanzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 9.1.6 Nachhall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 9.1.7 Hallradius . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514 9.2 Grundlegende Beschallungskonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 9.2.1 Von der zentralen zur dezentralen Beschallung . . . . . . . . . . . . . . . . . . . . . . . . 516 9.2.1.1 9.2.1.2
Zentrale Beschallung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516 Dezentrale Beschallung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
9.2.2 Überwindung des Hallradius und Nutzung des Diffusfeldes . . . . . . . . . . . . . . 518 9.2.3 Lautsprecherpositionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 520 9.2.3.1 9.2.3.2 9.2.3.3 9.2.3.4 9.2.3.5 9.2.3.6 9.2.3.7 9.2.3.8
Frontalbeschallung mit horizontaler Position . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frontalbeschallung mit vertikaler Position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einsatz von Delay-Lautsprechern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bühnenrandbeschallung, Nahfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einsatz und Positionierung von Subwoofer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Centercluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lokalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Richtungsbezogene Beschallung, Delta-Stereofonie . . . . . . . . . . . . . . . . . . . . . . .
520 521 522 524 524 525 526 527
9.3 Beschallungsausrüstung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 9.3.1 Lautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 9.3.1.1 9.3.1.2 9.3.1.3 9.3.1.4 9.3.1.5 9.3.1.6 9.3.1.7 9.3.1.8 9.3.1.9 9.3.1.10 9.3.1.11 9.3.1.12
Kennschalldruck und Wirkungsgrad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nennleistung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spitzenschalldruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frequenzgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Phasenlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Richtwirkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Abstrahlwinkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methoden für Richtwirkung von Lautsprechern . . . . . . . . . . . . . . . . . . . . . . . . . . Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Line-Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Monitorbeschallung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . In-Ear-Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
527 529 529 529 530 530 532 533 535 536 538 539
9.3.2 Mischpulte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 9.3.2.1 9.3.2.2
FOH – Front-Of-House . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 Monitormischpulte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540
9.3.3 Equalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 9.3.3.1 9.3.3.2
Parametrischer Equalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 Grafischer Equalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
9.3.4 Effekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 9.3.4.1 9.3.4.2 9.3.4.3 9.3.4.4
Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Delay-Echo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Delay-Signallaufzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kompressor, Limiter, Noise-Gate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
543 543 543 544
9.3.5 Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 9.3.5.1 9.3.5.2
Rückkopplungsempfindlichkeit bei Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . 544 Bühnentauglichkeit und Grenzschalldruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
XXV
Inhaltsverzeichnis 9.3.6 Controller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 9.3.6.1 9.3.6.2 9.3.6.3
Frequenzgangkorrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 Phasenkorrektur, Alignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 Schutzschaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
9.3.7 Verstärker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 9.3.7.1 9.3.7.2
Dimensionierung von Verstärkern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546 Rückwärtsdämpfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
9.3.8 Kabel, Querschnitte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 9.4 Strukturierte Inbetriebnahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 9.4.1 9.4.2 9.4.3 9.4.4
Systemanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 Delayanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 Raumentzerrung und Hauptequalizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 Sonderfall Open Air Beschallung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550
9.5 100 V-Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 9.6 Planungs- und Simulationssoftware für Beschallungsanlagen . . . . . . . . . . . . . 552 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
10 ANALOGE TONMESSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555 10.1 Verstärkung und Dämpfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555 10.1.1 Betriebsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556 10.1.2 Ein- und Ausgangsscheinwiderstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 10.1.3 Symmetrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558 10.2 Verzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 10.2.1 Lineare Verzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 10.2.2 Nichtlineare Verzerrungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 10.2.2.1 Messverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564
10.3 Störspannungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567 10.3.1 10.3.2 10.3.3 10.3.4
Unbewertete Störspannungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567 Bewertete Störspannungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568 Systemrauschen und Betriebskennlinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569 Tief- und Hochfrequenzfestigkeit, Knackstörungen . . . . . . . . . . . . . . . . . . . 570
10.4 Stereoparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571 10.4.1 Pegeldifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571 10.4.2 Phasendifferenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571 10.4.3 Übersprechen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573 10.5 Schalldruckpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574 10.5.1 Bewertete Schalldruckpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575 10.5.2 Bewertung des Schalldruckpegels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576
XXVI
Inhaltsverzeichnis 10.6 Messungen an Mikrofonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577 10.6.1 Feld-Übertragungsfaktor und Feld-Übertragungsmaß . . . . . . . . . . . . . . . . . 577 10.6.2 Frequenzgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 10.6.3 Gerichteter Schallempfang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578 10.6.3.1 Richtungsfaktor, Richtungsmaß und Richtcharakteristik . . . . . . . . . . . . . . . . . . . 578 10.6.3.2 Bündelungsgrad und Bündelungsmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579
10.6.4 Klirrfaktor und Grenzschalldruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 10.6.5 Störpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579 10.7 Messungen an Lautsprechersystemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 580 10.7.1 Analoge Messmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 580 10.7.1.1 10.7.1.2 10.7.1.3 10.7.1.4
Übertragungsmaß und Frequenzgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Scheinwiderstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Richtcharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kennschalldruckpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
580 581 582 582
10.7.2 Digitale Messmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583 10.8 Messungen an Magnettonanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584 10.8.1 Einstellungen und Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584 10.8.1.1 Mechanische Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584 10.8.1.2 Elektrische Messungen am Wiedergabekanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585 10.8.1.3 Elektrische Messungen am Aufnahmekanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587
10.9 Messungen an Plattenspielern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588 10.10 Pegel und Pegelmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 10.10.1 Pegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 10.10.2 Relativer und absoluter Spannungspegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591 10.10.3 Andere Pegelangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594 10.10.4 Rechnen mit Pegeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594 10.10.4.1 Verstärkung und Dämpfung im Pegelmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594 10.10.4.2 Überlagerung von Spannungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 10.10.4.3 Pegeldiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598
XXVII
1
Akustik
Akustik ist die Wissenschaft vom Schall. Schall sind mechanische Schwingungen und Wellen eines elastischen Mediums. Schwingungen werden von einzelnen Teilchen ausgeführt, z. B. von Luftmolekülen, während die Gesamtheit einzelner schwingenden Teilchen in einem Raum die Schallwelle darstellt. Das Medium kann z. B. Luft (Luftschall), Wasser (Wasserschall) oder ein Festkörper (Körperschall) sein. Dem Ohr wird Schall durch das Medium Luft übermittelt. Liegen diese Schallwellen im Hörbereich, haben sie also Frequenzen zwischen etwa 16 Hz und 16 kHz, so spricht man von Hörschall, liegen ihre Frequenzen unter 16 Hz, spricht man von Infraschall, liegen sie über 16 kHz, von Ultraschall. Bei Frequenzen über 109 Hz spricht man von Hyperschall. Hertz, abgekürzt mit Hz, bezeichnet die Anzahl der Schwingungen pro Sekunde.
1.1
Schallfeld
Wenn eine Schallquelle das sie umgebende Medium, z. B. Luft, zum Mitschwingen anregt, so entsteht um die Schallquelle eine sich ausbreitende Schallwelle, ein Schallfeld. Ohne Medium, also im Vakuum, wird kein Schallfeld erzeugt. Jede Schallwelle ist verbunden mit räumlichen und zeitlichen Schwankungen von Dichte und Druck des Mediums sowie mit Schwankungen der Geschwindigkeit der um ihre Ruhelage schwingenden Teilchen. Im „freien Schallfeld” kann sich der Schall völlig ungehindert ausbreiten, er trifft nicht auf Hindernisse; er erreicht den Hörer oder das Mikrofon nur auf direktem Wege, daher auch Direktschall genannt. Im „diffusen Schallfeld” wird der Schall vielfach an den Wänden und Gegenständen eines Raumes reflektiert, gebeugt, zerstreut oder gebündelt; im diffusen Schallfeld sind praktisch sehr viele verschiedene freie Schallfelder einander überlagert. Die Schallenergie ist im diffusen Schallfeld im Gegensatz zum freien Schallfeld im Idealfall gleichmäßig über den ganzen Raum verteilt, eine Vorzugsrichtung der Schallausbreitung gibt es nicht. Zur vollständigen Beschreibung eines komplexen Schallfeldes ist die Angabe von Druck und Schnelle, der Bewegungsgeschwindigkeit der Teilchen, erforderlich; die Angabe des Drucks enthält keine Information über die Bewegungsrichtung der Teilchen, die Schnelle gibt keine Auskunft über die Kraft dieser Bewegung. [1.1 bis 1.5, 1.17, 1.18]
1.1.1
Schallausbreitung in Luft
Die Schallquelle bringt in ihrer unmittelbaren Umgebung die Luftteilchen zum Schwingen; diese übertragen bei Zusammenstößen die Schwingungen weiter auf die ihnen benachbarten Teilchen usw., so dass sich die Schwingung der Schallquelle als Schallwelle über das Medium ausbreitet. Dabei schwingen die Teilchen um ihre Gleichgewichtslage herum in der Ausbreitungsrichtung der Welle (Longitudinal- welle). Sie ändern dabei periodisch ihre Bewegungsgeschwindigkeit und ihre Bewegungsrichtung. Durch ihre Auslenkung aus der Gleichgewichtslage verursachen sie periodische Dichteschwankungen, also Verdichtungen und Verdünnungen und damit Druckschwankungen. Abb. 1/1 macht anhand der Auslenkung der Luftteilchen die Ausbreitung einer Schallwelle anschaulich.
1
Akustik Die Ausbreitungsgeschwindigkeit der Schallwelle in Luft wird als Schallgeschwindigkeit c bezeichnet. Sie hängt von der Temperatur ab, was sich z. B. in der Stimmung noch kalter Blasinstrumente und der Orgel auswirkt. Bei 10/ C beträgt die Schallgeschwindigkeit etwa 338 m/s, pro 1/ C nimmt sie um 0,6 m/s zu und beträgt demnach bei 20/ C etwa 344 m/s und bei 30/ C etwa 350 m/s. Einen vernachlässigbaren Einfluss auf die Schallgeschwindigkeit haben der stationäre Luftdruck, die Feuchtigkeit und der Gehalt an Kohlendioxyd unter in der Praxis auftretenden Bedingungen.
Abb. 1/1. Schematische Darstellung der Ausbreitung einer Schallwelle in Luft in 15 aufeinander folgenden Zeitpunkten.
Wenn sich eine Schwingung in einem Medium als Welle ausbreitet, treten zu einem bestimmten Zeitpunkt in jeweils gleichen Abständen in der Ausbreitungsrichtung immer wieder dieselben Schwingungszustände (Phasen) auf, z. B. die größte Bewegungsgeschwindigkeit oder die größte Dichte der Luftmoleküle. Diesen Abstand bezeichnet man als Wellenlänge 8 (Abb. 1/2). Betrachtet man z. B. den Schalldruckverlauf an einer Stelle im zeitlichen Ablauf, so kann dasselbe Schwingungsbild beobachtet werden wie bei der Betrachtung entlang einer Welle in einem bestimmten Zeitpunkt. Beim Zeitbild der Schwingung ergibt sich aus dem zeitlichen Abstand zweier gleicher Schwingungszustände die Dauer einer Schwingungsbewegung als Periodendauer T. Die Anzahl der Schwingungen pro Sekunde heißt Frequenz f.
f =
1 T
f = Frequenz [Hz] T = Periodendauer [s]
Zwischen der Schallgeschwindigkeit c, der Wellenlänge 8 und der Frequenz f eines Tons besteht die folgende Beziehung:
λ=
2
c f
c = Schallgeschwindigkeit [m/s] f = Frequenz [Hz] 8 = Wellenlänge [m]
Schallfeld
Abb. 1/2. Periodendauer und Wellenlänge einer Schwingung.
Tab. 1/1 gibt für Luftschall einige Frequenzen und die dazugehörigen Wellenlängen an. Tab. 1/1. Frequenz und Wellenlänge in Luft. Frequenz f
Wellenlänge 8
16 Hz 20 Hz 100 Hz 1000 Hz 10 000 Hz 16 000 Hz 20 000 Hz
21,2 m 17 m 3,4 m 0,34 m 0,034 m 0,021 m 0,017 m
Die Zeit, die eine Schallwelle benötigt, um eine bestimmte Strecke zurückzulegen, wird als Laufzeit t bezeichnet. Sie errechnet sich aus der Beziehung:
t=
d c
t = Laufzeit [s] d = Distanz, den die Schallwelle zurücklegt [m] c = Schallgeschwindigkeit [m/s] = 344 m/s bei 20/ C
Für 34 m ist die Laufzeit also 0,1 s = 100 ms, für 1 m rund 3 ms. Während die Luftteilchen einer Schallwelle stets in der Ausbreitungsrichtung dieser Welle schwingen, also Longitudinalschwingungen ausführen, gibt es bei Festkörpern bzw. Flüssigkeiten neben der Longitudinalwelle, die hier als Dichtewelle auftritt, mehrere andere Wellenformen: Oberflächenwelle, Biegewelle, Torsionswelle, Transversal- oder Schubwelle und Dehnwelle (Abb. 1/3). Die Schallgeschwindigkeit ist in Festkörpern i. Allg. wesentlich höher als in Luft, sie liegt bei einigen tausend m/s, und damit ist auch die Wellenlänge wesentlich größer als in Luft. Mit den Vorgängen bei der Schallausbreitung in Wasser befasst sich die Hydroakustik. Wie in Luft gibt es im Wasser Longitudinalwellen, die sich allerdings mit einer viel höheren 3
Akustik Schallgeschwindigkeit ausbreiten, nämlich mit ca. 1440 m/s bei 10/ C Wassertemperatur. Die Dämpfung der Schallwelle in Wasser ist besonders gering, weshalb sie sich über sehr große Entfernungen ausbreiten kann. Da elektromagnetische Wellen unter Wasser sehr stark bedämpft werden, nimmt Wasserschall hier bei der sog. Sonar-Ortung die Funktion des Radars ein, z. B. bei der Messung der Wassertiefe (Echolot), beim Erfassen von Fischschwärmen u. a.
Abb. 1/3. Wellenformen in Festkörpern.
1.1.1.1
Kugelwelle und ebene Welle
Da die Ausbreitung der Schallwelle in Luft geradlinig nach allen Richtungen erfolgt, liegen die Punkte gleicher Phasen, d. h. gleicher Verdichtung oder Verdünnung, auf konzentrischen Kugelflächen um eine allseitig gleichmäßig abstrahlende punkt- oder kugelförmige Schallquelle. Mit zunehmendem Abstand von der Schallquelle nähern sich die Flächenelemente dieser Kugelflächen immer mehr ebenen Flächenelementen, die Kugelwelle nimmt mit wachsender Entfernung zur Schallquelle allmählich die Eigenschaften einer ebenen Welle an. Bei Kugelwellen sind alle Schallfeldgrößen auf Kugelschalen um die Schallquelle konstant, während sie bei ebenen Wellen in Ebenen senkrecht zur Ausbreitungsrichtung konstant sind (Abb. 1/4).
4
Schallfeld
Abb. 1/4. Kugelwelle und ebene Welle.
In der ebenen Welle sind Druck und Schnelle stets in Phase. Wo also der Druck seinen größten Wert erreicht, ist auch die Bewegungsgeschwindigkeit der Teilchen am größten. In der Kugelwelle sind Druck und Schnelle in Abhängigkeit von der Frequenz und dem Abstand zur Schallquelle gegeneinander in der Phase verschoben. 1.1.1.2
Schalldruck, Schallschnelle und Schallkennimpedanz
Der Schalldruck ist der durch die Schallschwingung hervorgerufene Wechseldruck. Die Druckschwankungen der Schallwelle überlagern sich dem atmosphärischen Gleichdruck. Akustische Berechnungen werden häufig mit dem Schalldruck durchgeführt, da er durch eine einzige Zahlenangabe definiert – man spricht von skalarer Größe - und somit mathematisch relativ einfach zu verwenden ist. Der Schalldruck wird in Pascal oder Newton/m2 (1 Pa = 1 N/m2), früher bevorzugt in :bar (1 :bar = 0,1 Pa), angegeben. Die im Hörschall üblicherweise vorkommenden Schalldruckwerte liegen zwischen p0, dem geringsten bei 1000 Hz wahrnehmbaren Schalldruck von 2 A 10 -5 Pa, und dem Schalldruck der Schmerzgrenze von etwa 1,5 A 102 Pa. Ein mäßig lauter Ton hat einen Schalldruck von etwa 0,1 Pa. Der normale atmosphärische Luftdruck beträgt etwa 1000 Hektopascal entsprechend 1 bar; der durchschnittliche Schalldruck ist damit nur 1 Millionstel des Atmosphärendrucks. Die Schallschnelle ist die Wechselgeschwindigkeit eines schwingenden Teilchens. Man benutzt den Ausdruck „Schnelle” statt „Geschwindigkeit”, um Verwechslungen mit der Ausbreitungsgeschwindigkeit zu vermeiden. Die Schallschnelle der Teilchen, die in einer Schallwelle schwingen, ist sehr gering. Sie beträgt z. B. bei einem Schalldruck von 0,1 Pa in Luft nur 0,25 mm/s. Schalldruck und Schallschnelle werden meist als Effektivwert angegeben, dem quadratischen Mittelwert einer Wechselgröße. Bei sinusförmigen Schwingungen ist der Effektivwert gleich dem Spitzenwert dividiert durch 2 , also etwa das 0,7-fache des Spitzenwerts. Bei anderen Schwingungsformen nimmt der Effektivwert andere Werte an. Schalldruck p und Schallschnelle v haben im Fernfeld einer Schallquelle, also im annähernd ebenen Schallfeld, einen analogen Verlauf; sie sind bei gleich bleibender Amplitude der Frequenz f direkt und dem Abstand von der Schallquelle r umgekehrt proportional, bei konstanter Schallleistung und somit annähernd konstanter Lautstärke sind Schalldruck und Schallschnelle nur der Entfernung umgekehrt proportional; für die Augenblickswerte gilt:
5
Akustik p = Schalldruck [N/m2] f = Frequenz [Hz] r = Abstand der Schallquelle [m] t = Zeit [s] 8 = Wellenlänge [m] v = Schallschnelle [m/s]
r⎞ ⎛ p~ ⋅ sin2π ⎜ f ⋅ t − ⎟ r λ⎠ ⎝ f
p~v
Während sich der Wert des Schalldrucks im Nahfeld der Schallquelle wie im Fernfeld verhält, steigt die Schallschnelle im Nahfeld viel stärker als der Schalldruck an; das ist bei Mikrofonen, die auf die Schallschnelle oder die Schalldruckdifferenz - auch Schalldruckgradient genannt - reagieren, zu beachten, man spricht hierbei vom Nahbesprechungseffekt (siehe Kap. 4.2.1). 2
⎛ ⎞ ⎡ ⎤ p ~ f 1 + ⎜ λ ⎟ ⋅ sin ⎢ 2π ⎛⎜ f ⋅ t − r ⎞⎟ + φ ⎥ ⎝ 2 π⋅ r ⎠
r
⎣
⎝
λ⎠
⎦
mit tgφ =
λ 2π⋅ r
Der Schnelleanstieg an einem bestimmten Punkt im Nahfeld ist von der Frequenz abhängig: je tiefer die Frequenz, um so stärker ist der Anstieg, der durch Schnelle- und Druckgradientenwandler als Anhebung tiefer Frequenzen wirksam wird, sofern er nicht elektrisch ausgeglichen wird. Weiterhin ist bei gegebener Frequenz der Druckgradienten- bzw. der Schnelleanstieg vom Abstand zur Schallquelle abhängig. Tab. 1/2 gibt für verschiedene Frequenzen an, bei welchem „kritischen Abstand” von der Schallquelle eine Pegelerhöhung um 3 dB gegenüber hohen Frequenzen eintritt. Tab. 1/2. Kritische Schallquellenabstände für verschiedene Frequenzen bzw. Töne. Frequenz 16,25 Hz 32,50 Hz 65 Hz 130 Hz 260 Hz 520 Hz
musikalischer Ton C" C' C c c' c"
kritischer Abstand 6,4 m 3,2 m 1,6 m 0,8 m 0,4 m 0,2 m
Der Quotient aus Schalldruck und Schallschnelle ist in der ebenen Welle stets und an jedem Raumpunkt konstant, er wird als Schallkennimpedanz bezeichnet, früher als Schallwellenwiderstand.
p v
= Z0
p = Schalldruck [Pa] v = Schallschnelle [m/s] Z0 = Schallkennimpedanz der ebenen Welle [Ns/m3]
Die Schallkennimpedanz der ebenen Welle Z0 errechnet sich aus der Dichte und der Schallgeschwindigkeit. Bei Normaldruck und 20/ C ist die Schallkennimpedanz der Luft Z0 = 408 Ns/m3. Im Nahfeld einer Schallquelle, d. h. in einer Kugelwelle, ist die Schallkennimpedanz nicht mehr überall konstant, die in diesem Fall als spezifische Schallkennimpedanz bezeichnete Größe ist eine komplexe Größe mit Wirk- und Blindanteil. 6
Schallfeld 1.1.1.3
Schalldruckpegel
Um die auftretenden großen Unterschiede des Schalldrucks besser erfassen zu können, verwendet man i. Allg. zur Kennzeichnung des Schalldrucks den absoluten Schalldruckpegel L, auch kurz einfach Schallpegel genannt. Der Schallpegel entspricht zudem besser dem menschlichen Lautstärkeempfinden. Der Schallpegel ist das 20-fache logarithmierte Verhältnis des Schalldrucks zu einem vereinbarten Bezugsschalldruck p0. Maßeinheit ist das dB (DIN 5493), siehe zum Pegelmaß auch Kap. 10.8. L p = 20lg
p p0
Lp = absoluter Schalldruckpegel [dB] p = Schalldruck [Pa] p0 = Bezugsschalldruck 2 A 10-5 Pa
Die Größe p0 ist ein genormter Bezugsschalldruck (DIN 45 630), der etwa der Hörschwelle entspricht. Die Hörschwelle liegt für 1000 Hz bei 4 dB, für 2000 Hz bei -4 dB; die Schmerzgrenze ist für 1000 Hz bei 130 dB, für 2000 Hz bei 120 dB. Der Bereich mittlerer Lautstärke entspricht einem Schallpegel von ungefähr 70 - 80 dB. Verwendet man als Bezugsschalldruck einen beliebigen, frei gewählten Druck, so handelt es sich um den „relativen Schalldruckpegel”. Da das Gehör den Schalldruck in Abhängigkeit von der Frequenz unterschiedlich bewertet, hat man für Messungen auch einen „bewerteten Schalldruckpegel” oder Schallpegel eingeführt, der entsprechend den Eigenschaften des Gehörs insbesondere Frequenzen zwischen 500 und 5000 Hz bei der Messung berücksichtigt. Je nach der Lautstärke wird dabei eines der drei genormten Filter nach DIN EN 60651 entsprechend den Bewertungskurven A, B oder C der Messung zugrunde gelegt (Abb. 1/5). Das Filter A gilt für kleine Schallpegel, es ergibt die niedrigsten und damit meist günstigsten Messwerte auch für größere Schallpegel und wird deshalb gerne auch für diese verwendet. Die zeitliche Bewertung des Schalls spielt dabei eine große Rolle, deshalb wird mit der schnellen und definierten Bewertung I (Impuls) gemessen.
Abb. 1/5. Bewertungskurven zur Messung des bewerteten Schallpegels.
Ein Maß für die empfundene Lautstärke ist der bewertete Schallpegel nur in erster Näherung. Wie laut man subjektiv ein Schallereignis empfindet, beschreiben der Lautstärkepegel und die Lautheit genauer, siehe Kap. 3.3.1.
7
Akustik 1.1.1.4
Schallleistung und Schallintensität
Während die mathematische Beschreibung des Schallfelds am einfachsten mit Hilfe des Schalldrucks oder Schalldruckpegels erfolgt, verwendet man zur Beschreibung der Schallquelle in erster Linie die Energiegrößen Schallleistung und - wie auch zur Beschreibung des Energiegehalts eines Schallfelds - die Schallintensität. Die Schallintensität I ist die Schallleistung, die durch eine Flächeneinheit, die senkrecht zur Ausbreitungsrichtung der Schallwelle steht, hindurchströmt. Die Einheit ist also W/m2. Die Schallintensität I einer ebenen Welle ist gleich dem Produkt aus effektivem Schalldruck und effektiver Schallschnelle:
I = p eff ⋅ v eff oder unter Verwendung der Schallkennimpedanz Z0
I=
peff
I peff veff Z0
2
Z0
= = = =
Schallintensität [W/m2] effektiver Schalldruck [Pa] effektive Schallschnelle [m/s] Schallkennimpedanz [Ns/m3]
Für Normalbedingungen im Raum gilt also
I=
1 408
⋅ peff
2
Die gesamte Schallleistung einer Schallquelle ergibt sich als Summe aller Schallintensitäten, die auf Flächenelementen, die zur Ausbreitungsrichtung senkrecht stehen. Diese Flächenelemente liegen auf der Oberfläche einer Kugel, in deren Mittelpunkt die Schallquelle strahlt. Damit ergibt sich im freien Schallfeld für die Schallintensität im Abstand r von einer kugelförmig nach allen Seiten gleichmäßig abstrahlenden Schallquelle in Abhängigkeit von der Schalleistung P die Beziehung:
I=
p 4π ⋅ r 2
I = r = P =
Schallintensität [W/m2] im Abstand r von der Schallquelle Abstand von der Schallquelle [m] Schalleistung [W]
Tab. 1/3. Schalleistungen einiger Schallquellen (Größenordungen). Schallquelle Unterhaltungssprache Menschliche Stimme (Höchstwert) Geige (fortissimo) Klarinette, Hörn (fortissimo) Klavier (fortissimo) Trompete (fortissimo) Orgel, Pauke (fortissimo) Orchester (75 Musiker) Alarmsirene
8
Schallleistung P [Watt] 10-6... 10-5
10-3... 10-2 39.723 5 A 10-2 2 A 10-1
39.721 10 70 1.000
Schallfeld Die akustische Leistung der Schallquellen ist, gemessen an Größenordnungen von mechanischen Leistungen und Wärmeleistungen, recht gering (Tab. 1/3). So wie der Schalldruck auch im dB-Maß als Schalldruckpegel L angegeben wird, so kann auch die Schallleistung als Schallleistungspegel Lp und die Schallintensität als Schallintensitätspegel LI in dB angegeben werden. Als Bezugswert ist für die Schallleistung 1 pW = 10-12 W und für die Schallintensität 1 pW/m2 = 10-12 W/m2 gebräuchlich (DIN 1320).
1.1.2
Schallausbreitung im Raum
Ein freies Schallfeld in einem Raum existiert praktisch nur in eigens dafür hergerichteten sog. „schalltoten”, besser reflexionsarmen Räumen, im Freien angenähert auch z. B. über einer schneebedeckten Fläche oder einer Sandwüste. In Räumen stellen sich der ungehinderten, geradlinigen Schallausbreitung immer Hindernisse entgegen, nämlich die Raumbegrenzungen und Gegenstände im Raum, die die Schallausbreitung beeinflussen; diese Einflüsse sind stets frequenzabhängig: - Totale oder teilweise Reflexion der Schallwelle bewirkt eine Änderung der Ausbreitungsrichtung entweder im gesamten Frequenzbereich oder nur im Bereich höherer Frequenzen durch Schallbündelung und Schallzerstreuung. - Beugung der Schallwelle bewirkt eine Änderung der geradlinigen Ausbreitungsrichtung besonders im Bereich der tieferen Frequenzen oder ein Umgehen von Hindernissen. - Totale oder teilweise Absorption der Schallwelle bewirkt, dass der Schallwelle Energie entzogen wird, wodurch sie geschwächt oder vernichtet wird, in der Regel ist die Absorption frequenzabhängig. 1.1.2.1
Schallreflexion
Für die Betrachtung der Schallreflexion eignet sich die Darstellung der Schallausbreitung als Schallstrahl analog der Lichtausbreitung. Es gelten dabei die aus der Optik bekannten Gesetze der Reflexion an ebenen Spiegeln bzw. an Streu- und Hohlspiegeln. Bedingung für die Gültigkeit der Gesetze ist, dass die reflektierende Fläche groß gegen die Wellenlänge der reflektierten Schallwelle ist, d. h. eine Ausdehnung von wenigstens einigen Wellenlängen besitzt. Schallreflexion an ebenen Flächen Trifft ein Schallstrahl auf eine hinreichend große ebene Fläche (Abb. 1/6), so wird er unter demselben Winkel ("' in Abb. 1/6) reflektiert, unter dem er auf die Wand trifft ("). Einfallender und reflektierter Strahl liegen dabei in einer Ebene, die senkrecht auf der reflektierenden Fläche steht. Durch entsprechende Ausrichtung der reflektierenden Fläche kann der Schallstrahl in jede gewünschte Richtung gelenkt werden, was bei der raumakustischen Gestaltung Anwendung findet. Trifft ein Schallstrahl auf eine rechtwinklige Ecke, so wird er zweimal so reflektiert, dass er parallel zum einfallenden Strahl zurückkehrt (Abb. 1/6).
9
Akustik
Abb. 1/6. Schallreflexion an einer ebenen Fläche und an einer rechtwinkligen Ecke, je zwei Beispiele.
Zwischen parallelen, reflektierenden Wänden kann es zu „stehenden Wellen” kommen: Eine senkrecht auftreffende Schallwelle wird hier immer wieder mit ihrer eigenen Reflexion überlagert. Dadurch können sich an gewissen Punkten die Schallwellen ganz oder teilweise gegenseitig auslöschen, an anderen verstärken. Im Gegensatz zur fortschreitenden Welle gibt es also ortsfeste Auslöschungen, die bei Aufnahmen - z. B. bei tiefen Orgeltönen - und bei Messungen stören können. Bedingung für das Zustandekommen stehender Wellen ist, dass der Wandabstand gleich der halben Wellenlänge oder einem ganzzahligen Vielfachen davon ist. Abb. 1/7 zeigt die Druckverteilung in stehenden Wellen; bei vollständiger Reflexion - wie in Abb. 1/7 - ist der Schall in den Druckknoten ausgelöscht, in den Druckbäuchen verdoppelt. Eine stehende Welle kann bei einem bestimmten Wandabstand also immer nur für eine Frequenz und deren harmonische Obertöne auftreten. Ferner entsteht eine stehende Welle nur bei einem Dauerton. In der Praxis treten stehende Wellen als sog. Raummoden oder Raumresonanzen besonders in kleineren Räumen auf; sie kennzeichnen neben den wenig verzögerten Reflexionen die typische „Wohnzimmerakustik”. Bei der Aufnahme können solche Resonanzen durch oft nur geringfügiges Verschieben des Mikrofons unschädlich gemacht werden.
Abb. 1/7. Druckverteilung in stehenden Wellen zwischen zwei parallelen Wänden.
10
Schallfeld Bei impulsartigem Schall entsteht zwischen parallelen Wänden ein Flatterecho, da das Signal dauernd hin und her reflektiert wird. Bei größerem Wandabstand ist dabei die schnelle Abfolge einzelner Echos wahrnehmbar, bei kleinerem Wandabstand von weniger als etwa 8 m wird die Abfolge der Echos so rasch, dass ein sog. „Klangecho” entsteht: Der Schallimpuls erhält eine Art Nachhall, der indes nur eine bestimmte Tonhöhe hat, die vom Wandabstand und dem Standort des Hörers abhängt. Schallreflexion an gekrümmten Flächen Trifft eine Schallwelle auf eine nach innen gewölbte (konkave) Fläche, so müssen - je nach dem Abstand zwischen Schallquelle und reflektierender Hohlfläche - vier verschiedene Situationen unterschieden werden: 1. Der Abstand Schallquelle zu reflektierender Fläche ist größer als der halbe Krümmungsradius r/2 der Fläche, jedoch kleiner als r: Der gesamte reflektierte Schall wird in einem Punkt, der außerhalb des Krümmungsradius liegt, gesammelt (Abb. 1/8).
Abb. 1/8. Schallreflexion an einer gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der halbe Krümmungsradius r/2.
Abb. 1/9. Schallreflexion an einer gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche gleich dem halben Krümmungsradius r/2.
2. Der Abstand Schallquelle zu reflektierender Fläche ist gleich dem halben Krümmungsradius r/2 der Fläche: Die auseinander laufenden Schallstrahlen verlaufen nach der Reflexion parallel (Abb. 1/9). 3. Der Abstand Schallquelle zu reflektierender Fläche ist kleiner als der halbe Krümmungsradius r/2 der reflektierenden Fläche: Die Schallstrahlen streben nach der Reflexion auseinander, die Anordnung zerstreut den Schall (Abb. 1/10). 4. Der Abstand Schallquelle zu reflektierender Fläche ist größer als der Krümmungsradius r: Auch in diesem Fall ergibt sich eine zerstreuende Wirkung (Abb. 1/11), die sogar noch stärker ist. 11
Akustik
Abb. 1/10. Schallreflexion an einer gekrümmten Fläche, Abstand Schallquelle zu reflektierende Fläche kleiner als der halbe Krümmungsradius r/2.
Abb. 1/11. Schallreflexion an einer gekrümmten Fläche, Abstand Schallquelle zu reflektierender Fläche größer als der Krümmungsradius r.
Solche gewölbten Flächen sind vor allem die Gewölbe und Kuppeln alter Kirchen und anderer historischer Gebäude. Es ist in jedem einzelnen Fall zu prüfen, inwieweit ein Gewölbe eine den Schall zerstreuende oder sammelnde Wirkung hat. Nach außen gewölbte (konvexe) Flächen haben unabhängig vom Abstand Schallquelle Wand bzw. - Hörer eine den Schall zerstreuende Wirkung. Die Fokussierung einer Schallwelle kann bei Darbietungen und Aufnahmen zu einer unerwünschten Heraushebung einzelner Schallquellen aus einem größeren Schallkörper führen, die besonders auch deshalb als störend empfunden wird, weil die Schallquelle im Gewölbe zu sein scheint. Demgegenüber erhöht die Schallzerstreuung die i. Allg. erwünschte Diffusität eines Raums und führt damit zu einer gleichmäßigeren Raumerfüllung durch den Schall. 1.1.2.2 Schallbeugung Ist die Ausdehnung eines Gegenstandes, auf den eine sinusförmige Schallwelle bei ihrer Ausbreitung trifft, in der Größenordung der Wellenlänge des Schalls oder kleiner, so wird dieses Hindernis von der Schallwelle so umgangen, als ob es nicht vorhanden wäre (Abb. 1/12). Da die Wellenlänge des Hörschalls zwischen etwa 20 m und 2 cm liegt, wird es i. Allg. in einer aus vielen Teilfrequenzen zusammengesetzten Schallwelle relativ tieffrequente Anteile geben, die um das Hindernis herumgebeugt werden; höherfrequente Anteile hingegen werden von dem Hindernis reflektiert, gelangen also nicht hinter das Hindernis, wo ein Schallschatten entsteht. Damit wird ein komplex zusammengesetzter Klang durch ein Hindernis, das sich zwischen Schallquelle und Hörer oder Mikrofon befindet, klanglich dumpfer 12
Schallfeld (lineare Verzerrung). An einer Kante wird eine Schallwelle in den Schallschatten hineingebeugt, und zwar um so stärker, je tiefer die Frequenz ist. Einfluss der Wellenlänge Um den Schall reflektieren zu können, muss eine Fläche mindestens einen Durchmesser haben, der mehreren Wellenlängen der zu reflektierenden Schallwelle entspricht. Ist die Ausdehnung geringer, so wird der Schall um das Hindernis herumgebeugt. Selbst wenn der Durchmesser des Hindernisses doppelt so groß wie die Wellenlänge ist, wird der Schall noch fast vollständig herumgebeugt. Erst bei 5-facher Ausdehnung erscheint ein deutlicher Schallschatten. Abb. 1/12 zeigt an einigen Beispielen die Schallschattenbildung.
Abb. 1/12. Schallbeugung an einem Zylinder für verschiedene Verhältnisse von Wellenlänge 8 zu Zylinderdurchmesser d.
Wenn eine Schallwelle nicht mehr um das Hindernis herumgebeugt wird, wirkt das Hindernis als Reflektor. Die Bedingungen für das Zustandekommen einer vollständigen Reflexion hängen von verschiedenen Faktoren ab: Der Wirkungsbereich eines Reflektors reicht zu um so tieferen Frequenzen hinab, je größer die reflektierende Fläche ist, weiterhin je kleiner ihr Abstand zur Schallquelle ist, je kleiner ihr Abstand zum Hörer ist und je steiler die Schallwelle auf den Reflektor trifft. Für die tiefste noch reflektierte Frequenz fu gilt:
a ⋅a 2c fu = ⋅ 1 2 2 a +a ( d − cos α ) 1 2
1.1.2.3
fu c d " a1 a2
= = = = = =
tiefste reflektierte Frequenz [Hz] Schallgeschwindigkeit [m/s] Durchmesser des Reflektors [m] Einfallswinkel des Schallstrahls [/] Entfernung Reflektor - Schallquelle [m] Entfernung Reflektor - Hörer [m]
Schallbrechung
Unter Brechung versteht man die Richtungsänderung des Schallstrahls beim Übergang zu einem Medium mit anderer Schallgeschwindigkeit. Die Brechung ist in der Raumakustik nur für die Schallabsorption von Bedeutung. Im Freien, wo der Schall weit größere Strecken zurücklegen kann, kommt es aber durch Temperaturunterschiede einzelner Luftschichten zu 13
Akustik Brechungserscheinungen, da die Schallgeschwindigkeit von der Temperatur abhängt. Liegt eine wärmere Luftschicht über einer kälteren, also bei einer Inversionswetterlage, wird der Schall zur Erde hin gebeugt, es entstehen Überreichweiten des Schalls; das ist typisch für Föhnwetterlagen oder am frühen Morgen, wenn die Sonne erst die oberen Luftschichten erwärmt hat. Bei umgekehrter Schichtung, also im Normalfall, wird der Schall von der Erde weg nach oben gebeugt, der akustische Horizont liegt deshalb höher als der optische Horizont. 1.1.2.4
Schallabsorption
Bereits bei der Schallausbreitung in Luft, besonders aber beim Auftreffen auf Hindernisse wird dem Schall durch Absorption Energie entzogen [1.35]. Als Maß für die Absorption wird der Absorptionsgrad " angegeben. Er ist eine Zahl zwischen 1 (totale Absorption) und 0 (keine Absorption, totale Reflexion); er kann auch in % angegeben werden. Der Absorptionsgrad " ist gleich dem Verhältnis von absorbierter Energie zu auftreffender Energie; bei der absorbierten Energie ist die durch die Wand hindurchgehende Energie eingeschlossen. Das Verhältnis der Schallleistungen oder Schallintensitäten führt zu demselben Ergebnis. Die Bestimmung des Absorptionsgrades erfolgt im Hallraum (DIN 52 212) oder in einem Rohr (DIN 52 215). Absorptionsgradwerte über 1 findet man gelegentlich angegeben, sie sind unter praxisnahen Bedingungen bestimmt und tragen der Tatsache Rechnung, dass die wirksame Fläche eines Absorbers etwas größer ist als seine geometrische Fläche. Die Gesamtabsorption einer Wand oder eines Raumes, das sog. Absorptionsvermögen A, ergibt sich als Produkt von Absorptionsgrad " und der absorbierenden Fläche S. A ist also gleich der äquivalenten Absorptionsfläche mit a = 1, auch „Fläche offenes Fenster” genannt.
A = α ⋅S
A = Absorptionsvermögen [m2] " = Absorptionsgrad [dimensionslos] S = absorbierende Fläche [m]
Bei unterschiedlichen Materialien mit verschiedenen Absorptionsgraden ergibt sich A als Summe der Teilabsorptionsvermögen: A = "1 A S 1 + "2 A S 2 + … Eine wesentliche Eigenschaft eines Absorbers ist die Frequenzabhängigkeit seines Absorptionsgrades, die sich einerseits aus den Materialeigenschaften, andererseits aus der konstruktiven Anordnung (Wandabstand, Abdeckung usw.) ergibt. Man unterscheidet im Hinblick auf die spektrale Wirksamkeit Höhenabsorber, Mittenabsorber und Tiefenabsorber. Die wichtigsten Funktionsprinzipien der Schallabsorption sind: - Reibung durch Luftbewegung in Poren: Durch die Bewegung der schwingenden Luftteilchen in offenporigen Materialien (Faserstoffen, offenporige Schäume) wird Schallenergie durch Reibung entzogen und in Wärmeenergie umgewandelt. Die Absorption ist bei höheren Frequenzen in einem relativ breiten Frequenzbereich wirksam. - Reibung von durch Resonanz verstärkter Luftbewegung in Helmholtz-Resonatoren: Die Luftbewegung wird im „Hals” der Hohlraum-Resonatoren durch Resonanz verstärkt; dadurch wird die Reibung und damit die Absorption vergrößert. Diese Absorber sind in einem relativ schmalen Frequenzband um die Resonanzfrequenz wirksam. 14
Schallfeld - Anregung von Platten zum Mitschwingen: Dem Schallfeld wird dadurch Energie entzogen, dass Platten, die verglichen mit Luft ein sehr hohes spezifisches Gewicht haben, zum Mitschwingen angeregt werden, in ihrer Bewegung aber durch federnde Unterlagen und innere Reibung gedämpft werden. Die Absorption ist schmalbandig, kann aber durch Kombination verschiedener Elemente breitbandig gemacht werden. Die Absorber müssen an der Decke und auf mindestens zwei zueinander senkrecht stehenden Wandflächen angeordnet werden und sollten anteilmäßig zur Größe der jeweiligen Raumbegrenzungsfläche verteilt werden. Der dabei auf den Boden entfallende Anteil der Absorber wird zusätzlich an der Decke angeordnet. Die genaue Lage der Absorber richtet sich danach, welche Flächenanteile für nützliche Schallreflexionen, z. B. Deckenspiegel in Konferenzräumen und Konzertsälen, benötigt werden bzw. wo schädliche Reflexionen unterdrückt werden müssen. Die Absorption in Luft macht sich nur im Bereich hoher Frequenzen von etwa 5 kHz an bemerkbar und nimmt mit steigender Frequenz zu, wodurch die Nachhallzeit insbesondere größerer Räume bei hohen Frequenzen weitgehend durch die Luftabsorption bestimmt wird. Höhenabsorber Höhenabsorber absorbieren hauptsächlich im Bereich hoher Frequenzen. Meist handelt es sich dabei um sog. „poröse Absorber”, zu denen in erster Linie Faserstoffe zählen (Vorhänge, Teppiche, Polstermöbel, Platten aus Stein- und Glaswolle usw.). Bei diesen Absorbern strömt die Luft bei ihrer Schwingungsbewegung in den zahlreichen Poren und Kanälen des Materials hin und her. Die dabei durch die Reibung erzeugte Wärmeenergie wird der Schallenergie entzogen. Da die Absorptionswirkung eines Materials mit der Schallschnelle im Absorber ansteigt, ist ein Absorber dann am wirksamsten, wenn er sich im Bereich eines Schnellemaximums der Schallwelle befindet, in einem Schnellenullpunkt ist er praktisch nicht wirksam. Eine an einer harten Wand reflektierte Welle hat aber an der Reflexionsfläche einen Schnellenullpunkt, im Abstand von ¼ Wellenlänge von der Wand ein Schnellemaximum. Deshalb ist die Absorption zu tieferen Frequenzen hin um so wirksamer, je dicker die poröse Schicht ist oder/und je größer ihr Abstand zur Wand ist (Abb. 1/13). Die Verbesserung der Absorption bei einem Lattenunterbau zeigt Abb. 1/14. Oft haben Schallschlucker für hohe Frequenzen aus optischen und akustischen Gründen Abdeckungen aus Holz, Metall usw., die mit einer großen Zahl von Öffnungen versehen sind. Die Abdeckungen bewirken eine Ausdehnung der Absorption nach tieferen Frequenzen hin, während Schall hoher Frequenzen etwas weniger absorbiert werden. Ein universeller, bei Bedarf leicht anzubringender Höhenabsorber ist ein frei hängender Vorhang aus nicht zu leichtem Stoff. Der Vorhang absorbiert wirksam bei Wellenlängen, die kürzer als der 4-fache Abstand Wand-Vorhang sind. Daraus lässt sich die Formel für die untere Grenzfrequenz fu ableiten, oberhalb der die Absorption einsetzt; Falten ergeben einen gleichmäßigeren Frequenzgang der Absorption. Tab. 1/3 nennt die Absorptionsgrade einiger Höhenabsorber.
15
Akustik
Abb. 1/13. Einfluss der Wellenlänge 8, der Absorptionsdicke d und des Abstandes Absorber - Wand a auf die Absorption.
Abb. 1/14. Verlauf des Absorptionsgrades " handelsüblicher Akustikplatten, a. direkt auf die Wand gesetzt, b. auf Lattenrost, 2 cm vor der Wand befestigt.
fu =
8500
fu = untere Grenzfrequenz [Hz] d = Abstand Wand - Vorhang [cm]
d
Tab. 1/3. Absorptionsgrade verschiedener Materialien. Material
Absorptionsgrade bei verschiedenen Frequenzen 125 Hz
250 Hz
500 Hz
1000 Hz
2000 Hz
4000 Hz
Beton, unverputzt
0,01
0,01
0,02
0,02
0,02
0,03
Putz auf Mauerwerk
0,02
0,02
0,03
0,04
0,05
0,05
Teppich, mittlere Dicke
0,05
0,08
0,20
0,30
0,35
0,40 1,0
Akustikplatte 2 cm dick, auf Wand aufgeklebt
0,05
0,15
0,55
0,90
1,0
Akustikplatte 2 cm dick, 2 cm Wandabstand
0,10
0,20
0,85
1,0
1,0
1,0
Vorhänge
0,05
0,10
0,25
0,30
0,40
0,50
Auch Publikum hat eine starke Absorptionswirkung. Damit kann es die Akustik eines Raums erheblich beeinflussen. Die Absorption wirkt bereits von 200 bis 500 Hz an aufwärts und erreicht für höhere Frequenzen Werte, die denen von Akustikplatten vergleichbar sind 16
Schallfeld (Abb. 1/15). Bei einer Ausstattung mit Polsterstühlen ist der Unterschied in der Akustik von besetztem und unbesetztem Saal nicht sehr groß, bei Verwendung von Holzstühlen oder Bänken hingegen kann sich die Akustik durch das Publikum grundlegend verändern; dies trifft insbesondere für Kirchen zu, vor allem, wenn sie relativ klein sind. [1.6 bis 1.8]
Abb. 1/15. Absorptionswirkung von Publikum. a. Personen auf Holzstühlen, b. Polsterstühle ohne Personen, c. Polsterstühle mit Personen.
In wenig bedämpften Räumen mit viel Publikum bestimmt die Absorption des Publikums weitgehend die Nachhallzeit, so dass in solchen Räumen in erster Linie das Raumvolumen pro Hörer die Nachhallzeit ergibt. Bei 8 - 9 m3 Raumvolumen pro Zuhörer ergibt sich eine Nachhallzeit von etwa 2 s, ein sehr guter Wert für Musikaufführungen, bei 6 - 7 m3 pro Hörer liegt sie bei etwa 1,5 s, für Musik der geringste akzeptable Wert, für das Wort ein günstiger Wert. Mittenabsorber Durch konstruktive Maßnahmen an Höhenabsorbern, wie vergrößerter Wandabstand, größere Schichtdicke und perforierte Abdeckung des Absorbers, wird ein Höhenabsorber auch im mittleren Frequenzbereich um 500 Hz wirksam. Seltener werden spezielle Mittenabsorber, sog. Lochabsorber, verwendet, gelochte oder geschlitzte Platten vor einem Hohlraum, dessen Begrenzungsflächen teilweise mit Fasermaterial belegt sein können. Man bezeichnet solche Konstruktionen als „Helmholtz-Resonatoren”, da sie als schwingungsfähiges, lufterfülltes Hohlraumsystem mit einer Eigenfrequenz, bei der die Absorption am stärksten ist, wirken. Die Lage der Frequenz größter Absorption kann durch die Konstruktion gewählt werden. Abb. 1/16 zeigt den typischen Absorptionsverlauf eines Helmholtz-Mittenabsorbers. HelmholtzResonatoren wirken relativ schmalbandig; die Auskleidung des Hohlraums macht die Absorption breitbandiger. 17
Akustik
Abb. 1/16. Typischer Absorptionsverlauf eines Helmholtz-Mittenabsorbers.
Tiefenabsorber Tiefenabsorber bestehen meist aus Sperrholzplatten, die auf einem Lattenrahmen möglichst luftdicht vor eine Wand montiert werden. Der Zwischenraum zwischen Sperrholz und Wand wird mit schalldämpfenden Faserstoffen ausgefüllt. Die Schallwelle bringt die Platte zum Schwingen, durch innere Reibung der Platte und durch die Dämpfung der bewegten Luft im Fasermaterial wird dieser Schwingung Energie entzogen. Tiefenabsorber sind wie Mittenabsorber Resonanzsysteme, die Resonanzfrequenz nimmt mit zunehmendem Flächengewicht der schwingenden Platte (Masse/Fläche) und mit größer werdendem Wandabstand ab. Die Resonanzfrequenz wird zwischen etwa 70 und 300 Hz gelegt, je nach den jeweiligen raumakustischen Anforderungen (Abb. 1/17). Durch aufgesetzte Gewichte kann die Resonanzfrequenz verändert bzw. korrigiert werden. So können etwa die Holzkassetten einer Decke unterschiedlich abgestimmt werden; damit kann die Gesamtabsorption auf einen breiten Frequenzbereich ausgedehnt werden. Bei entsprechender Dimensionierung können auch Helmholtz-Resonatoren als Tiefenabsorber verwendet werden. Ein besonders hohes Flächengewicht haben Metallplatten, sie können damit besonders Platz sparend eingesetzt werden, z. B. in Übertragungswagen.
Abb. 1/17. Typischer Absorptionsverlauf eines Tiefenabsorbers, a. Plattenabsorber, b. nicht hinterpolsterte Platte.
18
Schallfeld Bei Platten, die frei im Raum schwingen (aufgehängte Decken, Fenster, Türen), sinkt die Resonanzfrequenz wegen der fehlenden Federwirkung, die sonst durch das eingeschlossene Luftpolster entsteht, so tief ab, dass sich ein gleichmäßiger Verlauf der Absorptionskurve einstellt (Abb. 1/17b). Besetzte oder unbesetzte Saalbestuhlung kann - je nach Konstruktion der Stuhllehnen - auch als Tiefenabsorber wirken, der bei etwa 130 bis 170 Hz eine Pegelabsenkung von 15 bis 20 dB hervorruft, nachdem der Schall eine Bestuhlung von 20 bis 25 m überstrichen hat. 1.1.2.5
Schalldämmung
Als Schalldämmung bezeichnet man die Fähigkeit von Baumaterialien, den Durchgang von Schall durch Wände und Decken eines Raumes zu hemmen. Ein Maß für die Schalldämmung ist das Schallisolationsmaß (DIN 1320) oder Schalldämmmaß R (DIN 4109). Hierunter versteht man das in dB angegebene Verhältnis der auf eine Wand auftreffenden Schallintensität I1 oder des Schalldrucks p1 zur gesamten durchgelassenen Schallintensität I2 bzw. zum gesamten durchgelassenen Schalldruck p2 (DIN 52 21).
R = 101g
I1 I2
= 201g
p1 p2
R = Schalldämmmaß [dB] I1 = auf eine Wand auftreffende Schallintensität [W/m2] I2 = gesamte durch die Wand durchgelassene Schallintensität [W/m2] p1 = auf eine Wand auftreffender Schalldruck [Pa] p2 = gesamter durch eine Wand durchgelassener Schalldruck [Pa]
Die Schalldämmmaße sind frequenzabhängig, sie steigen meist mit der Frequenz erheblich an. Um dennoch mit einer einzigen Zahl das Schalldämmverhalten von Wänden, Decken usw. angeben zu können, wird in DIN 4109 das Luftschallschutzmaß LSM definiert. Der Wert des LSM - angegeben in dB - gibt an, wie sich die gemessene Schalldämmung zu der in DIN 4109 angegebenen Bezugskurve im Mittel verhält. LSM = 0 dB bedeutet, dass die Schalldämmanforderungen nach DIN 4109 erfüllt sind; Wände zwischen Wohnungen sollen LSM $ 0 dB haben. Gute Schalldämmung gegen Luftschall ergeben luftdichte, schwere und harte Materialien wie Stein und Holz. Das Schalldämmmaß hängt in erster Linie von der Masse einer Trennwand ab. Aus diesem Grunde sind die meist sehr leichten Akustikplatten und andere Absorber schlechte Dämmstoffe. Eine wesentliche Verbesserung der Schalldämmung ergeben zweischalige Konstruktionen. Körperschall, der durch das Mitschwingen von Konstruktionsteilen weitergeleitet wird, wird durch schallweiche, elastische Zwischenteile wie Gummi oder Kork gedämpft. Eine häufig störende Form des Körperschalls ist der Trittschall. Er wird als Körperschall durch elastische Schichten bedämpft, also durch den sog. schwimmenden Estrich - eine harte Platte auf einer elastischen Schicht - und Teppichboden. Als Luftschall kann Trittschall z. B. durch abgehängte Decken vermindert werden.
19
Akustik Tab. 1/4. Schalldämm-Maße verschiedener Materialien. Material, Dicke Blocksteine, 25 cm
Schalldämm-Maß in dB 49 bis 54
Kalksandstein, 12 cm (20 cm)
46 bis 50 (50 bis 55)
Beton, 12 cm (20 cm)
47 bis 52 (53 bis 59)
Gipsplatten, 6 cm (10 cm)
30 bis 34 (36 bis 40)
Holzspanplatten, 1 cm (4 cm)
17 bis 20 (26 bis 30)
Backsteinwand, 11 cm, verputzt
44 bis 48
leichte Zimmertür
10 bis 20
schalldämmende Spezialtür
35 bis 45
doppelt verglaste Fenster
30 bis 40
Regiefenster
1.2
bis 65
Raumakustik
Die Raumakustik befasst sich mit den akustischen Erscheinungen in geschlossenen Räumen. Bei der Akustik von Räumen spielt der subjektive Höreindruck stets eine entscheidende Rolle, er muss immer in die Betrachtungen einbezogen werden. [1.1], [1.9 bis 1.12]
1.2.1
Zeitlicher Aufbau des Schallfelds
Strahlt eine Schallquelle in einem Raum allseitig einen Schallimpuls ab, so wird dieser von den Raumbegrenzungsflächen und von den Gegenständen im Raum in Abhängigkeit vom Material und der geometrischen Form der Gegenstände reflektiert, absorbiert oder gebeugt; dabei kann der Schall auch zerstreut oder gebündelt werden. Dadurch treffen am Hörort nach dem Direktschall zunächst einige einzelne Reflexionen, die sog. „ersten Reflexionen” ein, deren Verzögerung, Stärke und Einfallsrichtung für das Hörereignis von großer Bedeutung sind. Die Folge der Reflexionen verdichtet sich rasch und bildet den Nachhall, der daher mit einer Verzögerung gegenüber dem Direktschall einsetzt (Abb. 1/18). Die Dauer und Stärke des Nachhalls ist i. Allg. überall im Raum gleich. Die Gesamtheit des reflektierten Schalls stellt das im Idealfall gleichmäßig den Raum erfüllende „diffuse Schallfeld” dar, das dadurch gekennzeichnet ist, dass es keine Vorzugsrichtung der Schallausbreitung enthält. Das diffuse Schallfeld baut sich um so schneller auf, je kleiner der Raum ist, d. h. je häufiger der Schall pro Zeiteinheit reflektiert und gebeugt wird. Wenn ein Raum viele Streukörper wie Säulen usw. aufweist, bzw. Wände und Decke eines Raumes nicht eben, sondern strukturiert sind, ist die Gleichmäßigkeit des Diffusschallfelds am größten. Dabei müssen die streuenden Flächen und Körper in ihren Abmessungen groß gegenüber der Wellenlänge des zu reflektierenden Schalls sein. Eine z. B. in Form von Kassetten strukturierte Wand kann daher gleichzeitig für tiefe Frequenzen wie eine große, ebene Fläche wirken, während der Schall bei höheren 20
Raumakustik Frequenzen diffus gestreut wird. Hohlflächen wirken meist Schall sammelnd und beeinträchtigen die Diffusität des Schallfelds.
Abb. 1/18. Zeitliche Folge der Reflexionen in einem Raum bei Impulsschall.
Ein gleichmäßig über den Raum verteiltes, wirklich diffuses Schallfeld kann sich nur bei breitbandigem, impulshaltigem Schall (z. B. Sprache, Musik, Rauschen) aufbauen. Besteht dagegen der Schall aus sinusförmigen Dauertönen oder stationärem, schmalbandigem Rauschen, so bilden sich auch in schiefwinkligen Räumen, auch bei strukturierten Raumbegrenzungsflächen, stehende Wellen, deren Druckmaxima und -minima sich ortsfest an bestimmten Raumpunkten befinden und beim Abschreiten des Raumes leicht zu lokalisieren sind. Solche stehenden Wellen treten zunehmend in kleineren Räumen und bei tiefen Frequenzen auf. Wenn sie bei der Aufnahme stören, kann oft durch eine kleine Verschiebung des Mikrofons aus dem Druckmaximum oder -minimum Abhilfe geschaffen werden.
Abb. 1/19. Zeitlicher Aufund Abbau des Schalldrucks im diffusen Schallfeld bei Dauerschall.
Bei andauernden Schallsignalen, nicht nur bei Rauschen und Sinustönen z. B., sondern vielfach auch bei Musik, ergibt sich ein anderer zeitlicher Aufbau des diffusen Schallfelds. Der Schalldruck steigt bei Einschalten einer Schallquelle im diffusen Schalldruck Feld erst auf seinen endgültigen Wert an und bildet damit den sog. Anhall, der einen Klangeinsatz weich oder hart wirken lässt; kurzer Anhall macht den Klangeinsatz prägnant bis hart, langer Anhall weich bis verschwommen. Nach Abschalten der Schallquelle schließt sich wie bei Impulsschall der abklingende Nachhall an (Abb. 1/19). Zur akustischen Raumgestaltung gehören v. a. folgende Aufgaben: Gute Abstrahlmöglichkeit der Schallquelle, geeignete Lenkung und Verzögerung der ersten Reflexionen (siehe Kap. 21
Akustik 1.1.2 und 1.2.3), optimale Gestaltung der Nachhallzeit und ihrer Frequenzabhängigkeit einschließlich der Realisierung einer guten Diffusität des Nachhalls, d. h. gleichmäßige Verteilung der Hallenergiedichte (siehe Kap. 1.2.4).
1.2.2
Begriffe der Hörakustik
Die Akustik eines Raums und ihre Qualität ergibt sich aus dem komplexen Zusammenwirken der geometrischen Formen des Raums und seiner Einrichtung, der akustischen Wirksamkeit der Oberflächen und den Eigenschaften des abgestrahlten Schalls als objektive Faktoren auf der einen Seite und der subjektiven, bewertenden Wahrnehmung das Raumschalls durch den Hörer mit seinen Anforderungen, Erfahrungen und Erwartungen auf der anderen Seite. Einen Zusammenhang zwischen den objektiven und subjektiven Faktoren herzustellen, ist das oberste Ziel der Raumakustik. Diese Zusammenhänge sind inzwischen soweit bekannt, dass die akustische Planung eines Saales zu einem guten Ergebnis führt, sofern nicht Kompromisse durch unerfüllbare Anforderungen insbesondere im Hinblick auf sehr unterschiedliche Nutzungen geschlossen werden müssen. Bereits im frühen 19. Jahrhundert wurden die auch aus heutiger Sicht besten Säle gebaut, deren Konzeption mehr auf Erfahrungen der Architekten als auf genauem akustischem Wissen beruhte. Um die subjektiven Aspekte der Raumakustik erfassen zu können, mussten Begriffe definiert werden, die einerseits akustisch definiert sind, andererseits die subjektive Bewertung erfassen. Die folgenden übergreifenden Begriffe werden für die Hörakustik eines Raums verwendet [1.13], [1.14], Tab. 1/5 fasst sie zusammen, weitere Begriffe werden unten erläutert. Die Hörsamkeit ist ganz allgemein die Eignung eines Raumes für bestimmte Schalldarbietungen. Gute Hörsamkeit eines Raums für Sprachdarbietungen besagt z. B., dass ohne Benutzung elektroakustischer Verstärkung eine gute Sprachverständlichkeit an allen Plätzen des Raums gewährleistet ist. Die Durchsichtigkeit kennzeichnet bei Musikdarbietungen trotz überlagertem Raumschall als Zeitdurchsichtigkeit die Unterscheidbarkeit zeitlich aufeinanderfolgender Töne und als Registerdurchsichtigkeit die Unterscheidbarkeit gleichzeitig gespielter Instrumente oder Instrumentengruppen oder deren Register (Tonhöhenbereiche). Die Durchsichtigkeit bezeichnet also die Klarheit einer Musikdarbietung, sie ist vergleichbar der Wortverständlichkeit bei Sprachdarbietung. Schallreflexionen, die bei Musik bis spätestens 80 ms nach Beginn des Schallereignisses eintreffen, erhöhen die Durchsichtigkeit und die Empfindung der Räumlichkeit, spätere Reflexionen mindern die Durchsichtigkeit und erhöhen die Halligkeit. Für Sprache ist diese Zeitgrenze bei 50 ms anzusetzen. Raumeindruck ist die Hörempfindung, die man in einem teilweise (Hof) oder ganz umschlossenen Raum beim Erklingen eines Schallereignisses von dem Raum hat. Der Raumeindruck hat mehrere Komponenten: 1. die Empfindung, im gleichen Raum wie die Schallquelle zu sein, nicht - wie z. B. bei Zweikanal-Stereowiedergabe - durch ein Fenster in den Aufnahmeraum hineinzuhören, 2. die Empfindung von der Größe - insbesondere Breite und Tiefe - des Raums, 3. die Empfindung der Halligkeit, d. h. die Tatsache, dass außer dem Direktschall Diffusschall vorhanden ist, der nicht als Wiederholung des Direktschalls (Echo) wahrgenommen wird, 22
Raumakustik 4. die Empfindung der Räumlichkeit, d. h. die Wahrnehmung, dass der Raum eine größere Ausdehnung als die Schallquelle besitzt. Im Gegensatz zur Halligkeit ist das Echo eine Wiederholung eines Schallereignisses; es gibt dem Hörer über die Entfernung einer weiter entfernten Wand Auskunft. Tab. 1/5. Begriffe der Hörakustik. Begriff Hörsamkeit
Unterbegriffe 1. Sprachhörsamkeit 2. Musikhörsamkeit
Kurzdefinition Akustische Eignung eines Raums für Sprach- bzw. Musikdarbietung
Durchsichtigkeit
1. Registerdurchsichtigkeit 2. Zeitdurchsichtigkeit
Klarheit einer akustischen Darbietung durch Unterscheidbarkeit gleichzeitiger (1) bzw. aufeinander folgender Schallereignisse (2)
Raumeindruck
1. Einbezogensein des Hörers Empfindung von Größe und Ausgestaltung 2. Raumgröße eines Raumes 3. Halligkeit 4. Räumlichkeit
1.2.3
Direktschall und erste Reflexionen
Die ausreichende Versorgung der Hörer mit Direktschall ist eine Grundbedingung für gute Hörsamkeit in Räumen für Sprach- und Musikdarbietung. Optische Sichtverbindung gewährleistet noch nicht die notwendige Direktschallversorgung; der Anteil an Direktschall im Schallfeld muss denjenigen an Diffusschall übertreffen oder die ersten, weniger als 50 bis 80 ms verzögerten Reflexionen müssen in ihrer Gesamtheit stark genug sein, um ein klares Klangbild vor dem Hintergrund des Diffusklangs zu zeichnen. Die Stärke und Verzögerung der ersten Reflexionen beeinflusst das Hörereignis in verschiedener Weise. Alle Reflexionen erhöhen die Lautstärke des Direktschalls, die Deutlichkeit aber nur dann, wenn sie um weniger als 50 ms (entsprechend 17 m Umweg) verzögert sind. Frühe Reflexionen mit einer Verzögerung von 0,8 ms bis etwa 20 ms entsprechend 0,3 m bis 7 m Umweg verursachen bei der Tonaufnahme gleichzeitig eine unangenehme Klangfärbung, die durch Summierungen und Auslöschungen zwischen Direktschall und Reflexionen entsteht; sie stören also bei Tonaufnahmen und sind möglichst zu unterdrücken. Dies betrifft Reflexionen mit einem Umweg von weniger als 7 m. Reflexionen mit einer Laufzeitdifferenz von 20 ms bis 50 ms entsprechend 7 m bis 17 m Umweg bestimmen die empfundene Raumgröße; ein Raum erscheint um so größer, je mehr die erste Reflexion verzögert ist, um so kleiner und enger, je früher sie eintrifft. Außer der Verzögerung haben Richtung und Stärke der ersten Reflexionen erheblichen Einfluss: seitlich einfallender Schall wird deutlicher gehört und hat sich für das Hörereignis als wesentlich günstiger erwiesen als vertikal oder von hinten einfallender Schall. Die Reflexionen an den Seitenwänden vergrößern die Räumlichkeit einer Darbietung, d. h. die Empfindung, dass z. B. ein Soloinstrument auf der Bühne für den Hörer akustisch nicht punktförmig, sondern ausgedehnt erscheint. Ein Maß hierfür ist der Seitenschallpegel LF (Lateral Fraction, 23
Akustik nach Barron und Marshall). Weniger wahrnehmbar sind Reflexionen, die aus derselben Richtung wie der Direktschall kommen. Der Pegel einer Reflexion darf bei Sprache bis zu 10 dB über dem des Direktschalls liegen, ohne dass sie die Ortung des Direktschalls stört. Je größer die Verzögerung ist, um so eher werden die Reflexionen wahrgenommen. Deutliche Einzelreflexionen mit einer Verzögerung von mehr als 50 ms werden als störendes Echo wahrgenommen. Der Einfluss von ersten Reflexionen, d. h. ihr positiver oder negativer Beitrag zur Hörsamkeit bei Musikdarbietungen hängt in sehr starkem Maße von der Art der Musik ab.
Abb. 1/20. Reflektogramme von Räumen unterschiedlicher Hörsamkeit (Zeitraster 10 ms), a. schlechte Hörsamkeit durch starke Einzelreflexion nach Reflexionslücke, b. gute Hörsamkeit durch gleichmäßig abnehmende Reflexionsfolge ohne herausragende Einzelreflexionen.
Zur Beurteilung der Reflexionen in einem Raum werden sog. Reflektogramme aufgenommen, auch Echogramme oder Impulsantworten eines Raums genannt. Dabei wird der Schalldruck in Abhängigkeit von der Zeit nach einer Impulsanregung, z. B. durch einen Pistolenschuss, dargestellt. Störende Einzelreflexionen können so leicht identifiziert werden. Abb. 1/20 zeigt Reflektogramme eines Raumes mit guter (a) und schlechter (b) Hörsamkeit. Solche Reflektogramme können auch bei akustischen Raummodellen, die z. B. im Maßstab 1:10 hergestellt werden, gewonnen werden. Um die Sprachverständlichkeit bzw. die Durchsichtigkeit und den Raumeindruck bei Musikwiedergabe zu verbessern, werden die ersten Reflexionen nach den Gesetzen der Schallreflexion auf die Hörerplätze geleitet (siehe 1.1.2), wobei auch spezielle freihängende Reflektoren Verwendung finden. Wichtig für eine gute Verständigung der Musiker untereinander sind die Deckenreflexionen über der Bühne. 1.2.3.1
Deutlichkeitsgrad und Klarheitsmaß
In Zusammenhang mit der Bewertung des Reflektogramms eines Raums wurde der Begriff der Deutlichkeit eingeführt. Die für die Hörsamkeit eines Raums wichtigen Reflexionen treffen innerhalb von 100 bis 200 ms nach dem Direktschall beim Hörer ein. Reflexionen mit einer Verzögerung bis 50 ms erhöhen dabei die Silbenverständlichkeit oder Deutlichkeit der Sprache. Setzt man die Schallenergie, die innerhalb dieser 50 ms eintrifft, zur gesamten eintreffenden Schallenergie ins Verhältnis, so erhält man die Definition der Deutlichkeit in Prozentwerten ausgedrückt. Hohe Deutlichkeit entspricht einer hohen Silbenverständlichkeit, Musik lässt sie aber trocken wirken. Eine Deutlichkeit unter 50 % entspricht einem harten 24
Raumakustik Klangeinsatz, von über 50 % einem weichen. Zwischen der physikalisch definierten Deutlichkeit an einem Ort im Raum und der subjektiv erfassten Durchsichtigkeit lässt sich kein enger Zusammenhang feststellen; deshalb sollte besser von „Deutlichkeitsgrad” oder „50-ms-Energieanteil” gesprochen werden. Die Definition des Klarheitsmaßes verfolgt ähnliche Ziele wie der Deutlichkeitsgrad. Danach ist das Klarheitsmaß definiert als 10-facher Logarithmus des Verhältnisses der bis 50 ms (Sprachklarheitsmaß, Deutlichkeitsmaß) bzw. 80 ms (Musikklarheitsmaß, Durchsichtigkeitsmaß) eintreffenden Schallenergie zur gesamten danach eintreffenden Schallenergie. Wenn die Werte positiv sind, ist die Deutlichkeit der Sprache bzw. die Durchsichtigkeit der Musik ausreichend.
1.2.4
Hall
Hall als Oberbegriff ist der gesamte diffuse Schall in einem Raum. Wird eine Schallquelle in einem Raum plötzlich eingeschaltet, so baut sich das diffuse Feld erst danach als Anhall auf, es begleitet dann das Schallereignis als Mithall und klingt nach Abschalten der Schallquelle als Nachhall ab. Dabei haben die verschiedenen Schallfeldgrößen einen unterschiedlichen Verlauf (Abb. 1/21). Die Lautstärkeempfindung entspricht weitgehend dem Schalldruckpegel.
Abb. 1/21. Schematische Darstellung des Nachhalls für Schalldruckpegel, Schalldruck und Energiedichte.
Nachhall - die wichtigste Erscheinungsform des Halls - ist die Abnahme des Schallfelds in einem Raum nach Abschalten der Schallquelle, d. h. das Abklingen des diffusen Schallfeldes, das im Idealfall unabhängig vom Ort und von der Richtung den Raum gleichmäßig erfüllt; in der Hörakustik ist Nachhall das Leiserwerden des Hörereignisses nach Abschalten der Schallquelle. Je länger der Nachhall dauert, um so besser verteilt sich der Schall i. Allg. auf alle Raumpunkte und auf alle Richtungen. Die Schallenergie nimmt dann exponentiell ab, der Schalldruckpegel linear. Die Abnahme der Schallenergie erfolgt um so schneller, je größer die Absorption der Raumbegrenzungen ist und je häufiger die Schallstrahlen reflektiert werden, d. h. also je kleiner ein Raum ist. Die Schallenergiedichte w des diffusen Schallfelds in einem Raumvolumen von 1 m3 hängt von dem Absorptionsvermögen A und der zugeführten Schallleistung P ab; das Absorptionsvermögen wird durch die Nachhallzeit T erfasst. Die Schallenergiedichte w steigt dabei proportional mit der Nachhallzeit T und sinkt mit zunehmendem Raumvolumen.
25
Akustik
w=
P⋅T 13,8V
w = Schallenergiedichte [Ws/m3] P = von der Schallquelle abgestrahlte Leistung [W] T = Nachhallzeit [s] V = Raumvolumen [m3]
In der Praxis sind die Werte für die Schallenergiedichte w relativ klein: typische Werte für eine laute Musikdarbietung in einem Konzertsaal liegen im Bereich um 10-4 Ws/m3, denn die Leistung einer Schallquelle (Tab. 1/3) ist sehr gering und verteilt sich zudem auf den ganzen Raum. 1.2.4.1
Nachhallzeit
Nach dem Vorschlag des Akustikers Sabine (1868-1919) wird unter der Nachhallzeit T derjenige Zeitabschnitt - gemessen in s - verstanden, innerhalb dessen nach Abschalten einer Schallquelle die Schallenergie in einem Raum auf den millionsten Teil abfällt. Diesem Energieabfall entspricht ein Abfall des Schalldrucks auf 1/1000 bzw. des Schalldruckpegels um 60 dB (Abb. 1/22).
Abb. 1/22. Definition der Nachhallzeit durch den Abfall des Schalldruckpegels nach Abschalten der Schallquelle.
Die Nachhallzeit kann berechnet oder gemessen werden. Für die Berechnung wird am häufigsten die relativ einfache sog. Sabinesche Nachhallformel verwendet; sie wurde von Sabine empirisch gefunden, von Jäger dann auch aus Energiebetrachtungen theoretisch abgeleitet. Die Formel gilt insbesondere für längere Nachhallzeiten. Demnach ist die Nachhallzeit um so länger, je größer der Raum ist und je geringer die Absorption der Raumbegrenzungen ist. Da das Volumen eines Raums mehr zunimmt als die gesamte Oberfläche, haben größere Räume bei gleicher Beschaffenheit der Begrenzungsflächen längere Nachhallzeiten als kleinere. Die Anzahl der Reflexionen pro Zeiteinheit sinkt mit der Raumgröße, weil die Wege dazwischen größer werden. T = 0,163
26
V A
T = Nachhallzeit [s] V = Raumvolumen [m3] A = Absorptionsvermögen [m2]
Raumakustik Da dieser Formel einige Vereinfachungen zu Grunde liegen, hat Eyring 1930 eine genauere Formel abgeleitet. Die sog. Eyringsche Nachhallformel gilt auch bei kürzeren Nachhallzeiten. Dabei wird in der Sabineschen Formel das Absorptionsvermögen A – die gesamte Absorption der Raumbegrenzungsflächen - ersetzt durch A = !S A ln (1-"m)
A = Absorptionsvermögen [m2] S = Gesamtoberfläche des Raums [m2] "m = mittlerer Absorptionsgrad [dimensionslos]
Die noch genauere Nachhallformel nach Knudsen berücksichtigt auch die Luftabsorption, wird aber in der Praxis kaum angewendet, da sie oft genauer als entsprechende Messungen ist. Im Gegensatz zur gemessenen Nachhallzeit ist die subjektiv wahrgenommene Nachhalldauer von der jeweiligen Lautstärke der Schallquelle abhängig und wird häufig durch die Lautstärke des Störschalls, seltener durch die Hörschwelle begrenzt. Normgemäß (DIN 52 216) werden Nachhallzeiten in dem Frequenzbereich von 125 Hz bis 4,0 kHz in Terz-, d. h. 1/3-Oktav-Schritten bestimmt, in Ausnahmefällen von 100 Hz bis 6,3 kHz. Bei den öffentlich-rechtlichen Rundfunkanstalten wird die Kontrolle der Nachhallzeiten in Studios und den für die Tonproduktion wichtigen Räumen auf den Frequenzbereich von 50 Hz bis 10 kHz ausgedehnt. Als Schallsignal für die Messung dienen vorzugsweise Weißes Rauschen oder Rauschen in Terzbandbreite. Pistolenschüsse werden nur in großen Räumen mit langer Nachhallzeit verwendet. Der Schallpegelverlauf beim Nachhallvorgang wird aufgezeichnet. Zur Auswertung wird die mittlere Steigung der Kurve ermittelt. Dabei wird normgemäß nur der Bereich zwischen -5 und -35 dB ausgewertet. Spezielle Messgeräte drucken die Nachhallkurve oder geben die Nachhallzeiten aus [1.15]. Man unterscheidet bei der Nachhallzeit von Zuhörerräumen drei verschiedene Zustände (DIN 52 216): 1. unbesetzter Zustand, 2. Studiozustand (nur Orchester in üblicher Stärke), 3. besetzter Zustand (mit 80 bis 100 % Publikumsbesetzung). Da bei der Darbietung von Musik besonders der Beginn des Abklingvorgangs bestimmend ist für die Wahrnehmung der Raumakustik - das weitere Ausklingen wird meist durch neue Schallereignisse überdeckt -, wurde die sog. Anfangsnachhallzeit gesondert definiert; dabei wird der Pegelbereich der Nachhallkurve zwischen 0 und -15 dB (Initial Reverberation Time), zwischen 0 und -20 dB (nach Kürer und Kurze) oder zwischen 0 und -10 dB (Early Decay Time, EDT, nach Jordan) ausgewertet. Die Dauer des Abklingvorgangs, der bei Abschalten eines Schallereignisses tatsächlich wahrgenommen wird, stimmt nur in Ausnahmefällen mit der Nachhallzeit überein. Deshalb wird als Nachhalldauer die Zeitspanne definiert, innerhalb der ein Nachhallvorgang hörbar ist. Die Nachhalldauer hängt vom Schallpegel der Schallquelle, von deren spektraler Zusammensetzung sowie vom Störgeräusch im Raum ab. Dabei hat der Schallpegel in der Praxis der Tonaufnahme die größte Bedeutung. Die Nachhalldauer nimmt mit dem Schallpegel stark zu. Deshalb wirkt ein Raum umso halliger, je lauter die Schallquelle ist. Bei leisen Stellen ist oft nur wenig Raumhall hörbar. So verändert sich der hörbare Anteil des Raums am Schallereignis ständig mit der Lautstärke: Die Intimität von leisen Stellen in der Musik wird durch den geringeren Raumeindruck unterstützt, laute Stellen erhalten Gewicht durch einen starken Raumeindruck. 27
Akustik Optimale Nachhallzeit Die von den meisten Mitwirkenden einer Darbietung, vom Publikum bzw. von den Hörern einer entsprechenden Aufnahme in ihrer Mehrheit als optimal empfundene Nachhallzeit hängt von verschiedenen Faktoren ab: in erster Linie von der Art der Darbietung, bei Musik vom Stil, vom Tempo und Rhythmus sowie von der Besetzung, ja von der Interpretation eines Musikstücks, aber auch ganz erheblich von der Raumgröße, weiterhin von der Feinstruktur des Nachhallverlaufs - Verteilung und Stärke der ersten Reflexionen, Anfangsnachhallzeit sowie der Frequenzabhängigkeit der Nachhallzeit. Diese vielfältigen Einflüsse haben dazu geführt, dass die Nachhallzeit eines Raumes heute als nicht mehr so entscheidend angesehen wird. Da ein Raum ohnedies i. Allg. für mehrere Darbietungsarten genutzt wird, kann es sich bei der optimalen Nachhallzeit nur darum handeln, Richtwerte für den Nachhall im mittleren Frequenzbereich anzugeben, die möglichst nicht unter- oder überschritten werden sollten. Neben physikalischen, hörpsychologischen und darbietungsbezogenen Gesichtspunkten einer optimalen Nachhallzeit hat sich auch gezeigt, dass ein gewisser Zeitgeschmack von Einfluss ist. So wurden in den 50er Jahren des 20. Jahrhunderts kürzere Nachhallzeiten im Konzertsaal- und Studiobau gewünscht als in den folgenden Jahrzehnten. Für Opernhäuser gelten wegen der erforderlichen Sprachverständlichkeit kürzere Werte als in Konzertsälen. Die Nachhallzeit für Kirchen ist demgegenüber zumindest in historischen Bauwerken länger. Tab. 1/6 gibt Richtwerte für Nachhallzeiten in verschiedenen Räumen mit unterschiedlicher Zweckbestimmung an, detaillierte Angaben hierzu siehe Kap. 1.4. Tab. 1/6. Richtwerte für optimale Nachhallzeiten. Art des Raums
optimale Nachhallzeit T [s]
Volumenkennzahl K [m3/Platz]
Sprecherstudio
0,3
Hörspielstudio
0,6
großes Fernsehstudio
0,8
Vortragssaal, Theater
0,7 bis 1,2
3 bis 5
Opernhaus
1,5
6
Konzertsaal, großes Musikstudio
2,0
8
2,5 bis 3,0
10 bis 12
Kirchen
Bei Räumen mit Sprechakustik steht die Sprachverständlichkeit im Vordergrund, die kürzere Nachhallzeiten verlangt. Da aber die Lautstärke am Ort des Hörers mit der Nachhallzeit ansteigt, muss mit steigender Raumgröße auch die Nachhallzeit etwas zunehmen. Für Sprecherräume bei Tonaufnahmen gelten die kürzesten Nachhallzeiten. Bei mittleren und hohen Frequenzen besteht für größere Räume eine relativ hohe Korrelation zwischen der Nachhallzeit T und der Volumenkennzahl K, da hier die Luftabsorption wegen der längeren Schallwege überwiegt. K gibt das Raumvolumen pro m3 pro Zuhörerplatz an:
28
Raumakustik T.
K
T = Nachhallzeit [s]
4
K = Volumenkennzahl [m3/Platz]
Damit kann für eine gegebene Raumgröße die optimale Zuhörerzahl abgeschätzt werden oder umgekehrt für eine geplante Hörerzahl die optimale Raumgröße bestimmt werden (Tab. 1/6). Frequenzabhängigkeit Eine wesentliche Qualität des Nachhalls bzw. des Klangs eines Raums ganz allgemein ergibt sich aus der Frequenzabhängigkeit der Nachhallzeit, die praktisch in allen Räumen gegeben ist; frequenzunabhängigen Nachhall können nur elektronische Hallgeräte liefern, ein solcher Hall kann deshalb unnatürlich wirken. Die Frequenzabhängigkeit der Nachhallzeit führt dazu, dass sich der Nachhall im Verklingen färbt bzw. dass das Diffusfeld gefärbt ist und somit eine allgemeine Klangfärbung der Darbietung zur Folge hat, sofern der Diffusanteil nicht nur klein ist. Diese Klangfärbung wird durch die Frequenzabhängigkeit der Absorber verursacht. Höcker in den Frequenzkurven sind dabei leichter zu hören als Senken. Die Frequenzkurve des Nachhalls ändert ihre Gestalt mit dem Messort in einem Raum in gewissem Umfang, was bei tiefen Frequenzen - z. B. Orgeltönen - zu hörbaren Klangfärbungen führen kann. Bei streifendem Schalleinfall über Bestuhlung und Publikum werden Frequenzen zwischen 0,5 und 1,5 kHz um bis 10 dB bedämpft. [1.16]
Abb. 1/23. Schematische Nachhallkurven mit verschiedenen Frequenzabhängigkeiten: a. Nachhall unnatürlich spitz - nur mit elektronischen Hallgeräten realisierbar, b. Nachhall klangneutral - Aufnahmestudios und moderne Konzertsäle, c. Nachhall mittenbetont und warm - historische Säle mit Holzvertäfelung, d. Nachhall dumpf - große Kirchen mit großen Steinflächen.
Räume mit vorwiegend offen liegenden Steinwänden haben die längste Nachhallzeit im Bereich tiefer Frequenzen, der Klang einer Darbietung wird dumpf. Längere Nachhallzeit im mittleren Frequenzbereich gibt dem Klang eine warme Färbung, schwingungsfähige Raumbegrenzungen wie Holzverkleidungen und Bilder fördern diesen Klangcharakter. In Aufnahmestudios und modernen Konzertsälen versucht man, die Frequenzabhängigkeit des Nachhalls relativ gering zu halten. Die Klangfärbung des Nachhalls wird durch das sog. 29
Akustik Bassverhältnis (Bass Ratio, BR, nach Beranek) als Verhältnis der Nachhallzeiten bei tiefen Frequenzen (125 und 250 Hz) zu derjenigen bei mittleren Frequenzen (500 und 1000 Hz) beschrieben. Allen Räumen ist eine Abnahme der Nachhallzeit mit steigender Frequenz oberhalb von 1 bis 2 kHz gemeinsam; sie wird von der Absorption der Luft verursacht. Dadurch kann die Nachhallzeit 3,1 s bei 5 kHz und 1,2 s bei 10 kHz niemals überschreiten. Ist die Nachhallzeit mit einem einzigen Wert angegeben, so bezieht sich diese Angabe auf 500 oder 1000 Hz. Abb. 1/23 zeigt die sich ergebenden Typen der Nachhallkurven. Anhall Betrachtet man die Energieverhältnisse beim Aufbau des Raumschallfelds, also beim Anhall, so ist eine Unterscheidung des Höreindrucks nach „hartem” und „weichem” Schalleinsatz sinnvoll. Harter Schalleinsatz liegt vor, wenn mehr als die Hälfte der gesamten Schallintensität bis spätestens 50 ms nach dem Einsetzen der Schallquelle beim Hörer eintrifft, weicher Schalleinsatz, wenn weniger als die Hälfte erst nach diesem Zeitabschnitt eintrifft. Harter Schalleinsatz ist der Sprachverständlichkeit und Präsenz dienlich, weicher Schalleinsatz fördert ein weiches, rundes Klangbild insbesondere bei Musik, während es bei Sprache zur Undeutlichkeit führt. Auf dieser Unterscheidung beruht auch die Definition des Begriffs der Deutlichkeit (siehe 1.2.3). 1.2.4.2
Hallradius und Hallabstand
In unmittelbarer Nähe einer Schallquelle dominiert - auch in halligen Räumen - der Direktschall über den Diffusschall. Mit zunehmender Entfernung von der Schallquelle verringert sich im Nahbereich einer kugelförmig abstrahlenden Schallquelle der Schallpegel mit jeder Entfernungsverdoppelung um jeweils 6 dB, bei den meisten Schallquellen sind es wegen ihrer gerichteten Schallabstrahlung eher 3 bis 4 dB. Demgegenüber ist der Schallpegel des diffusen Schalls bei längeren Nachhallzeiten im ganzen Raum gleich. Direkter und diffuser Schall überlagern sich. In einem bestimmten Abstand rH von der Schallquelle, dem sog. Hallradius auch Grenzradius oder Äquivalententfernung -, sind die Schalldruckpegel von direktem und diffusem Schall gleich groß. Der Gesamtschallpegel in diesem Punkt ist um 3 dB größer als jede der beiden Komponenten (Abb. 1/24). Innerhalb des Hallradius überwiegt der Direktschall mit seiner Richtungsinformation über den Ort der Schallquelle, außerhalb überwiegt der Diffusschall ohne Richtungsinformationen. Der Hallradius rH nimmt mit dem Raumvolumen V zu, verringert sich aber mit zunehmender Nachhallzeit T: rH = 0,057 @
V T
rH = Hallradius [m] V = Raumvolumen [m3] T = Nachhallzeit [s]
In Abb. 1/25 kann der Hallradius rH für verschiedene Raumvolumina V und Nachhallzeiten T abgelesen werden. Die sich aus der Formel bzw. Abb. 1/25 ergebenden Hallradien sind überraschend klein. So beträgt der Hallradius in einem 120 m3 großen Hörspielstudio mit einer Nachhallzeit von 0,35 s, also einem stark gedämpften Raum, etwa 1 m und selbst z. B. in dem 15 680 m3 großen 30
Raumakustik Sendesaal des NDR-Hannover bei einer Nachhallzeit ohne Publikum von 2,1 s nur etwa 5 m. Der Hallradius ist jedoch für allseitig gleiche Schallabstrahlung und gleichen Schallempfang definiert, Bedingungen, die in der Praxis nur selten erfüllt sind. Musikinstrumente und Lautsprecher zeigen mit steigender Frequenz eine zunehmende Richtwirkung, erfasst durch den Bündelungsgrad (, die den sog. „effektiven Hallradius” rH e£f frequenzabhängig vergrößert; er gilt für Tonaufnahmen mit einem ungerichteten Mikrofon:
rH eff
= 0,057 @ γ A
T
= Nachhallzeit [s]
V
rH eff
= effektiver Hallradius [m]
T
(
= Bündelungsgrad der Schallquelle [dimensionslos] = Raumvolumen [m3]
V
Abb. 1/24. Überlagerung von Direkt- und Diffusschall und Hallradius rH.
Bei Musikinstrumenten ist der Bündelungsgrad ( frequenzabhängig, besonders stark bei Blechblasinstrumenten; bei 10 kHz z. B. kann er auf Werte um 5 ansteigen, d. h. der Hallradius vergrößert sich auf den 2,2-fachen Wert. Auch durch den gerichteten Schallempfang wird der Hallradius vergrößert, bei nieren- und achtförmiger Richtcharakteristik um den Faktor 1,7, bei der Superniere um den Faktor 1,9, bei der Hyperniere um den Faktor 2, bei der Keule um einen noch etwas größeren Wert. Mit diesen Werten muss der Hallradius rH ebenfalls noch multipliziert werden. In der Praxis der Tonaufnahme multiplizieren sich die Korrekturen des Hallradius aus gerichteter Schallabstrahlung und gerichtetem Schallempfang. Der tatsächlich zu berücksichtigende Hallradius z. B. bei Nierenmikrofonen liegt damit um den Faktor 2 bis 5 über dem nach der Formel für rH errechneten Wert. Während der Hallradius den Abstand von der Schallquelle bezeichnet, an dem Direkt- und Diffusschall gleiche Pegel haben, beschreibt der Hallabstand die Pegeldifferenz von Direktzu Diffusschall in einem beliebigen Abstand von der Schallquelle. Im Abstand des Hallradius von der Schallquelle ist der Hallabstand also 0 dB. Gelegentlich wird der Hallradius fälschlich auch als Hallabstand bezeichnet. Der Hallabstand hat Einfluss auf die Wahrnehmung des 31
Akustik Raums an einem Hörerplatz. Es wurde festgestellt, dass man nur je sieben 3 dB-Stufen des Hallabstands unterscheiden kann für überwiegenden Direkt- bzw. Diffusschall [1.19].
Abb. 1/25. Hallradius rH [m], abhängig vom Raumvolumen V [m3] und der Nachhallzeit T [s].
1.3
Akustik der Aufnahmestudios und Regieräume
Die Akustik der Aufnahmestudios ist unter bau- und raumakustischen Gesichtspunkten zu betrachten: Bauakustische Probleme sind in erster Linie die Schalldämmung gegen Außengeräusche wie Verkehrs- und Fluglärm, Trittschall, Aufzüge u. a., aber auch die Unterdrückung von Geräuschen der Klimaanlage. Raumakustische Gesichtspunkte sind u. a. die ersten Reflexionen und der Nachhall mit ihren verschiedenen Parametern, aber auch Gesichtspunkte wie etwa die akustische Verständigung der Musiker untereinander. Die Anforderungen an ein Studio bzw. die günstigsten Werte der akustischen Daten eines Studios hängen von seiner Zweckbestimmung ab. [1.20], [1.36], [1.37]
1.3.1
Störgeräuschpegel
Im Bereich des Hörfunks bzw. der Wort- und Musikproduktion, der Bearbeitung und Beurteilung von Aufnahmen, werden an die Raumruhe sehr hohe Anforderungen gestellt, die in bauakustischer Hinsicht und im Hinblick auf Klima- und Lichtanlagen einen hohen Aufwand erfordern. Für die höchstzulässigen Störgeräusche sind die Empfindlichkeit des Gehörs, die Lautstärke der Schallquellen, die Abstände der Mikrofone, die spektrale Zusammensetzung der akustischen Inhalte, die technische Ausrüstung bei der Aufnahme – wie z. B. das Betriebsrauschen und die Anzahl der Mikrofone, der betriebliche Ablauf und andere Faktoren von 32
Akustik der Aufnahmestudios und Regieräume komplexem Einfluss. In den Jahrzehnten des ausgehenden 20. Jahrhunderts war ein ausschlaggebender Faktor das Rauschen der Mikrofone und insbesondere der Aufzeichnungsanlagen, das aber keine Berücksichtigung mehr findet, weil seine Werte so verbessert wurden, dass eine Berücksichtigung zu unrealistisch hohen Anforderungen führen würde. Es ist nicht möglich, die höchstzulässigen Störgeräusche durch einen einzigen Wert anzugeben, da in erster Linie die Empfindlichkeit des Gehörs stark frequenzabhängig ist. Für den Bereich des öffentlich-rechtlichen Rundfunks mussten demnach Grenzkurven definiert werden, die Terz-Schallpegel nach DIN 45 641 im Bereich von 50 Hz bis 10 kHz als Tabelle oder als Grenzkurven (GK) angeben [1.21]. Neben der Raumnutzung z. B. als Sprecherraum wird auch die zugehörige Programmsparte berücksichtigt, was zu einer Differenzierung der Anforderungen in mehrere verschiedene Grenzkurven geführt hat. Die Störgeräusche dürfen unabhängig von ihrem Pegel keine tonalen oder periodischen Schallstrukturen enthalten, dies gilt für den gesamten Frequenzbereich von 125 Hz bis 20 kHz, auch dürfen Bildmonitore die an sie gestellten Anforderungen für Schallemission nicht überschreiten. Tab. 1/7 gibt zur Orientierung für einige Räume und Programmsparten die höchstzulässigen Grenzkurven an, die nicht überschritten werden dürfen, wenn nicht Qualitätsminderungen hingenommen werden können. Die Kurven orientieren sich im unteren Frequenzbereich an den international v. a. in der Klimatechnik verwendeten Noise-Rating-Kurven (NR) nach ISO R 1996. Diese folgen grob den Kurven gleicher Lautstärkepegel bzw. den Messkurven für den A-bewerteten Schalldruckpegel. Abb. 1/26 zeigt die Grenzkurven. Tab. 1/7. Beispiele für die Grenzkurven von höchstzulässigen Störgeräuschen [1.21]. Raum
Grenzkurve
entspricht etwa
GK0 GK0 GK5 GK15 GK10 bis GK15
14 dBA 14 dBA 18 dBA 26 dBA 22 dBA bis 26 dBA
FernsehProduktionsstudios
bis GK20
bis 30 dBA
Bearbeitungsräume mit Bürocharakter, Redaktionen
bis GK25
bis 34 dBA
HörfunkProduktionsstudios
Programmsparte Hörspiel Kammermusik Orchestermusik U-Musik, Popmusik Sprachaufnahmen Tonbearbeitung, -beurteilung
33
Akustik
Abb. 1/26. Grenzkurven GK für höchstzulässige Schalldruckpegel in Studios des Hörfunks und Fernsehens [1.21].
1.3.2
Raumakustik von Aufnahmestudios
Für die Ausbreitung des Direktschalls und die Bedeutung der ersten Reflexionen gilt zunächst das oben (Kap. 1.2.3) Gesagte. Abweichend davon müssen die ersten Reflexionen mit besonderer Aufmerksamkeit gemessen, oft zusätzlich unterdrückt oder bedämpft werden. Während die ersten Reflexionen beim Hören im natürlichen Schallfeld nützlich sind, weil sie die Lautstärke und Deutlichkeit erhöhen, können sie bei Mikrofonaufnahmen das Klangbild negativ beeinflussen. Tonaufnahmen aus „trockenen” Studios, d. h. aus Studios mit kurzer Nachhallzeit, können bei zu starken ersten Reflexionen topfig, auch merkwürdig hallig klingen, Musikaufnahmen aus hinreichend großen Räumen kleinräumig erscheinen. Die Ursache hierfür bilden zu starke oder zu frühe Schallrückwürfe, die - immer auf den Mikrofonort bezogen - gegenüber dem Direktschall eine Laufzeitdifferenz von etwa 15 bis 50 ms aufweisen. Störend ist die besonders bei Schallaufzeichnungen aus kleinen Studios hörbare Klangfärbung, die durch Schallrückwürfe entsteht, deren Laufzeitdifferenz gegenüber dem Direktschall nur 0,8 ms bis 15 ms beträgt. Diese Klangfärbung bleibt unhörbar, wenn der Schalldruckpegel einer Reflexion mindestens 13 dB unter dem des Direktschalls liegt. Sind zwei derartige Reflexionen vorhanden, so muss diese Pegeldifferenz für jeden der Rückwürfe etwa 15 dB, bei vier Reflexionen etwa 18 dB betragen. Ein Hörspielkomplex besteht neben dem schalltoten Raum üblicherweise aus zwei Studios mit unterschiedlichen Nachhallzeiten von etwa 0,4 s und 0,6 s bis maximal 1,0 s. Die Studios können zusätzlich eine gedämpfte Ecke oder Schnecke enthalten, in der die Studionachhallzeit ohne Einfluss bleibt. Wie in allen Studios, in denen nur Wortproduktionen durchgeführt werden, wird die Nachhallzeit nur für Frequenzen über 80 Hz konstant gehalten, da die Sprache für tiefere Frequenzen keine hörbaren Komponenten enthält, Raumresonanzen somit nicht anregt. Reflexionsarme bzw. schalltote Räume für Hörspielzwecke mit einer Nachhallzeit unter 0,2 s werden an der Decke und den Wänden mit Mineralfasermatten belegt. Wenn die Einbautiefe dieser Mattenanordnung etwa 0,3 m beträgt und der Boden mit einem dicken, weichen Teppich bedeckt ist, lässt sich ein nachhallfreier Raum für diese Zwecke ausreichend realisieren. 34
Akustik der Aufnahmestudios und Regieräume Im Gegensatz zu Hörspielstudios benötigt man für Sprecher- und Interviewstudios keine Mindestraumgrößen. In Räumen mit einem Volumen von 30 m3 und weniger lassen sich einwandfreie Produktionen durchführen, wenn sich Sprecherplätze und Mikrofonorte festlegen lassen. In diesem Fall ist es möglich, durch eine gezielte raumakustische Verkleidung die schädliche Wirkung der ersten Schallreflexionen, die vom Sprechertisch und von Boden, Decke und Wänden kommen, zu vermeiden. Kleine Studios liegen dann mit ihrer Nachhallzeit an der Hörbarkeitsgrenze von etwa 0,2 bis 0,3 s; für tiefe Frequenzen ist die Nachhallzeit i. Allg. etwas länger, schon deshalb, weil sie nicht so leicht zu bedämpfen ist wie bei höheren Frequenzen. In großen Musikstudios für E-Musik sorgen nahe Wandflächen und eine ebene Decke bzw. Reflektoren in optimaler Höhe für den akustischen Kontakt zwischen den Musikern. Durch ein Zusammenrücken des Orchesters lässt sich dieser Kontakt verbessern. Die Nachhallzeit des Studios mit Orchester und Publikum sollte etwa 1,8 bis 2,0 s betragen. Studios für konventionelle unterhaltende Musik oder Soundtracks für Filme mit traditioneller Instrumentalbesetzung sollen die Möglichkeit bieten, einzelne Instrumente und Instrumentengruppen, deren Schalldruckpegel sehr unterschiedlich sein können, gleichzeitig, aber akustisch getrennt aufzuzeichnen. Ein Auseinanderrücken der einzelnen Gruppen, das Vermeiden von Reflexionen sowie eine kurze Nachhallzeit, d. h. geringerer Diffusschallpegel, sind dafür notwendig, aber nicht immer ausreichend. Dämmende bzw. absorbierende Schallschirme müssen in diesem Fall die Ausbreitung des direkten Schalls zwischen den Gruppen verhindern bzw. das Mikrofon vor Diffusschall abschirmen. Es kann darüber hinaus sogar erforderlich sein, dass besonders lautstarke oder extrem leise Instrumente in kleinen, fast völlig geschlossenen, schalldämmenden Kojen gespielt und aufgenommen werden müssen. In Fernsehstudios verzichtet man aus wirtschaftlichen Gründen auf den Einbau von speziellen Tiefenabsorbern. Dicke Mineralfasermatten, mit denen Decke und Wände vollflächig belegt sind, bilden eine ausreichende Absorberanordnung. Der sich dabei ergebende Anstieg der Nachhallzeit für Frequenzen unter 125 Hz bleibt unhörbar, da bei Fernseh-Tonproduktionen eine elektrische Absenkung der tiefen Frequenzen üblich ist. Kritisch sind bei Fernsehaufnahmen die Reflexionen an Kulissen, da diese Rückwürfe oft mit einer geringen, den Räumlichkeitseindruck ungünstig beeinflussenden Laufzeitdifferenz auf das Mikrofon treffen. Ein Synchronstudio für Nachvertonungen entspricht etwa einem Hörspielstudio mit einer Nachhallzeit bis 0,4 s. 1.3.2.1
Veränderbare Nachhallzeit
Trotz der Möglichkeit, einer Aufnahme künstlichen Hall aus Hallgeräten hinfügen zu können, kann in bestimmten Fällen auch eine veränderbare Nachhallzeit eines Raums sinnvoll sein [1.22]. Damit kann in einem Hörspielkomplex u. U. ein Studio eingespart werden. Musikstudios müssen nicht nur akustische Bedingungen für die Aufnahme, sondern auch für die Musiker und ggf. auch für das Publikum erfüllen; so kann z. B. die Anpassung der Nachhallzeit an die veränderten akustischen Gegebenheiten bei Anwesenheit von Publikum oder an die Musik verschiedener Stilarten wünschenswert sein. Schließlich kann ein Studio damit multifunktional gestaltet werden. Bei aller Problematik mechanisch veränderbarer Anordnungen von Absorbern haben sich doch Lösungen in der Praxis bewährt. 35
Akustik Zur Nachhallverlängerung und zur Korrektur unbefriedigender akustischer Verhältnisse können auch rein elektrisch arbeitende Systeme eingesetzt werden [1.23]. Dabei nehmen je nach Saalgröße 50 bis weit über 100 Mikrofone, die an der Decke montiert sind, Diffusschall des Raums auf; nach Frequenzgangkorrektur und Verstärkung wird der Diffusschall jedes Mikrofons je einem oder mehreren Lautsprechern zugeführt. Die Lautsprecher sind ebenfalls an der Decke oder an den Wänden montiert. Mit diesem System kann nicht nur die Nachhallzeit verlängert und deren Frequenzgang beeinflusst werden, es sind auch Beschallungen möglich.
1.3.3
Akustik von Regieräumen
Regieräume sollen optimale Bedingungen für die Beurteilung von Aufnahmen bieten. Die akustischen Eigenschaften des Raums beeinflussen allerdings den Klang der Lautsprecherwiedergabe. Deshalb wird mit gewissem Recht immer wieder gefordert, dem Regieraum die Akustik eines durchschnittlichen Wohnzimmers zu geben. Da es angesichts der äußerst unterschiedlichen Abhörbedingungen nicht möglich ist, einen durchschnittlichen Raum zu definieren, werden Regieräume akustisch so ausgestattet, dass sie im Vergleich zu durchschnittlichen Wohnräumen reflexionsarm sind, d. h., dass der Raum möglichst wenig Einfluss auf die Schalldarbietung nimmt [1.24 – 1.28]. Die Anforderungen für Bezugsabhörräume und sog. High-quality-Regieräume sind in nationalen und internationalen Empfehlungen festgelegt (EBU Tech 3276, ITU-R BS.1116 u. a.), ebenso die entsprechenden Tests, im Detail erläutert in Kap. 18.6. Wichtige Merkmale sind hier zusammengefasst: Die Grundfläche soll für einen Bezugsabhörraum mindestens 40 m2, für einen Regieraum mindestens 30 m2 betragen, das Volumen weniger als 300 m3; erforderlich ist eine geometrische und akustische Symmetrie bezüglich der Achse Lautsprecher - Abhörplatz, die Freiheit von Flatterechos, stehenden Wellen u. a. Die Nachhallzeit universell benutzbarer Regieräume liegt bei etwa 0,3 s, bei Wohnräumen liegt sie um 0,4 s; meist steigt sie unterhalb 125 Hz an. Längere Nachhallzeiten sind für E-Musik durchaus geeignet, bei Sprache und rhythmischer Popmusik hingegen machen sie den Raum zu hallig [1.28], [1.29]. Wichtiger als ein ganz bestimmter Wert der Nachhallzeit ist, dass ihr Frequenzgang um nicht mehr als etwa 10 % für terzbreites Rauschen vom Durchschnittswert abweicht. Die Angaben zur Nachhallzeit haben bei solch kurzen Nachhallzeiten weniger Aussagekraft als bei längeren Nachhallzeiten. Die besten Erkenntnisse liefert hier das Reflektogramm (Impulsantwort) eines Raums (siehe Kap. 1.2.3). Auf ihm können einzelne zu starke Reflexionen erkannt und danach im Regieraum gezielt abgedämpft werden [1.81]. Die absorbierenden Flächen werden i. Allg. gleichmäßig auf Wände und Decke verteilt, wobei mit der jeweiligen Anordnung gezielt zu starke Reflexionen besonders im Bereich der Abhörplätze vermieden werden. Beim Abhören mit Nahfeldmonitoren - das sind kleine Lautsprecherboxen, die, unmittelbar auf den Regietisch gestellt, wegen des geringen Abstands den Abhörplatz überwiegend mit Direktschall versorgen - kann der Einfluss des Regieraums minimiert werden; allerdings erfüllen solche Lautsprecher nicht oder nur eingeschränkt die Qualitätsforderungen an Regielautsprecher.
36
Akustik von Konzertsälen, Opernhäusern und Kirchen 1.3.3.1
Akustik in Übertragungswagen und in kleinen Abhörräumen
Die Abhörbedingungen in kleinen Abhörräumen, also ganz besonders in Übertragungswagen, sind besonders kritisch. Ursache hierfür sind stehende Wellen, auch Raumresonanzen oder Raummoden genannt (siehe 1.1.2). Sie kommen zwar in Räumen jeder Größe zustande, jedoch treten sie in kleinen Räumen in dem besonders kritischen Frequenzbereich zwischen 100 und 1000 Hz auf; je größer der Raum ist, um so tiefer liegt der kritische Bereich störender Raumresonanzen. Im Gegensatz zu sich frei ausbreitenden Schallwellen, bei denen der Schallpegel gleichmäßig mit der Entfernung abnimmt, die Klangfarbe also im Raum gleich bleibt, bilden stehende Wellen im Raum ein Muster von Schalldruckminima und -maxima, die zur Ortsabhängigkeit der Klangfarbe führen. Diese Raummuster sind zudem frequenzabhängig. Die Klangfarbe kann sich damit von Ort zu Ort ganz erheblich ändern, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Es ist nicht möglich, durch Frequenzgangkorrekturen der Lautsprechersignale Verbesserungen vorzunehmen. Diese Raummuster sind frequenzabhängig. Die Klangfarbe kann sich damit im Raum ganz erheblich ändern, eine Tatsache, die bei der Tonaufnahme große Probleme aufwirft. Stehende Wellen können nur durch völlige Reflexionsfreiheit bzw. vollständige Absorption der Wände unterbunden werden. Je mehr Schall von den Wänden reflektiert wird, desto ausgeprägter sind die ortsabhängigen Klangfarbenänderungen. Es gelingt heute durch Schichtung unterschiedlicher Absorbermaterialien, auch in Übertragungswagen stehende Wellen oberhalb von 200 Hz weitgehend zu vermeiden und somit die Abhörbedingungen akzeptabel zu gestalten. [1.30]
1.4
Akustik von Konzertsälen, Opernhäusern und Kirchen
Grundsätzlich sind die Anforderungen an Konzertsäle und an große Aufnahmestudios, die i. Allg. ja zugleich als Konzertsäle genutzt werden, gleich (siehe oben). Im Gegensatz zu Rundfunkstudios gehören Konzertsäle jedoch unterschiedlichen historischen Bauepochen an. Die raumakustischen Eigenschaften können von Saal zu Saal sehr verschieden sein, weil stilistische Gestaltungselemente, aber auch unterschiedliche akustische Ziele die Raumakustik mitbestimmen [1.11], [1.12], [1.29], [1.30]. Die Nachhallzeit von Opernhäusern wird einerseits wegen der notwendigen Wortverständlichkeit kürzer gewählt, andererseits bedingen die traditionellen Bauformen der Opernhäuser große Absorptionsflächen und damit kürzere Nachhallzeiten. Die Nachhallzeiten von Kirchen können außerordentlich verschieden sein, je nach Baustil und Größe [1.31]. Eine Orientierung über die Grenzen, innerhalb derer die Nachhallzeiten im mittleren Frequenzbereich i. Allg. liegen, gibt Abb. 1/27 für Konzertsäle, Opernhäuser und Kirchen in Abhängigkeit von der Raumgröße. Bei der Frequenzabhängigkeit der Nachhallzeit ist meist eine Anhebung der Nachhallzeit im Frequenzbereich zwischen 500 und 2000 Hz zu beobachten. Abb. 1/28 zeigt dies für besetzten und unbesetzten Zustand einiger bekannter Konzertsäle. Interessant ist die Tatsache, dass gute Säle auffallend unterschiedliche Frequenzabhängigkeiten der Nachhallzeit haben; dieser Größe kommt also innerhalb gewisser Grenzen keine sehr große Bedeutung für die Qualität der Akustik zu. Tab. 1/8 nennt die Daten einiger international als raumakustisch gut anerkannter Konzertsäle, Opernhäuser und Kirchen. 37
Akustik
Abb. 1/27. Zweckmäßige Bereiche der Nachhallzeit bei mittleren Frequenzen für vollbesetzte Konzertsäle und Opernhäuser in Bezug auf die Raumgröße.
Abb. 1/28. Frequenzabhängigkeit der Nachhallzeit bekannter Konzertsäle, 1. .7 unbesetzt, 1', 2', 5', 7' besetzt, nach [1.32]. 1. Musikvereinssaal, Wien, 2. alte Philharmonie, Berlin (zerstört), 3. Symphony Hall, Boston, 4. Oetkerhalle, Bielefeld, 5. Herkulessaal, München, 6. Musikhalle, Hamburg, 7. Royal Festival Hall, London.
38
Akustik von Konzertsälen, Opernhäusern und Kirchen Tab. 1/8. Daten von als raumakustisch gut anerkannten Konzertsälen und Opernhäusern [1.12]. erbaut im Jahr
Raumvolumen V [m3]
Anzahl der Plätze N
Volumenkennzahl K = V/N [m3/Platz]
Nachhallzeit besetzt (leer) [s]
Musikvereinssaal, Wien
1870
15.000
1.680
8,9
2,0 (3,0)
Conzertgebouw, Amsterdam
1887
18.780
2.037
9,2
2,0 (2,6)
Carnegie Hall, New York
1891
24.270
2.804
8,7
1,8 (2,0)
Tonhalle, Zürich
1895
11.400
1.546
7,4
2,0 (3,2)
Symphony Hall, Boston
1900
18.750
2.625
7,1
1,9 (2,5)
Konserthus, Göteborg
1935
11.900
1.286
9,3
1,6 (1,7)
Herkulessaal, München
1953
13.590
1.287
10,6
1,8 (2,3)
Liederhalle, Stuttgart
1956
16.000
2.000
8,0
1,6 (23,1)
Philharmonie, Berlin
1963
21.000
2.218
9,5
1,9 (2,2)
Philharmonie im Gasteig, München
1985
29.700
2.487
11,8
1,8 (2,2)
Kammerphilharmonie, Berlin
1987
11.000
1.138
9,7
1,8 (2,1)
Teatro alla Scala, Mailand
1778
11.652
2.289
5,1
1,2 (1,2)
Semperoper, Dresden
1841 (1985)
12.480
1.284
9,7
1,2 (1,2)
Festspielhaus, Bayreuth
1876
10.308
1.800
5,7
1,6
Festspielhaus, Baden-Baden
1998
20.100
2.500
8,0
1,9 (2,1)
Festspielhaus, Luzern
1998
21.000
1.900
11,0
2,0 (2,2)
Neues Gewandhaus, Leipzig
1991
21.000
1.900
11,0
2,0 (2,2)
20.379
2.163
9,4
1,8 (2,2)
Saal, Stadt
durchschnittliche Werte von als gut anerkannten Sälen
39
Akustik
Standards [DIN 1320]
Akustik; Begriffe
[DIN 1332]
Akustik; Formelzeichen
[DIN 4109]
Schallschutz im Hochbau; Anforderungen
[DIN 5493-2]
Logarithmierte Größenverhältnisse, Maße, Pegel und Einheiten
[DIN 18 041]
Hörsamkeit in kleinen bis mittelgroßen Räumen
[DIN 45 401]
Akustik, Elektroakustik; Normfrequenzen für akustische Messungen
[DIN 45 405]
Störspannungsmessung in der Tontechnik
[DIN 45 630]
Bl. l Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall B1.2 Normalkurven gleicher Lautstärkepegel
[DIN 52 210]
Bl. l Bauakustische Prüfungen; Luft- und Trittschalldämmung, Meßverfahren
[DIN 52 215]
Bauakustische Prüfungen; Bestimmung des Schallabsorptionsgrades und der Impedanz im Rohr
[DIN 52 216]
Bauakustische Prüfungen; Messung der Nachhallzeit in Zuhörerräumen
[DIN EN 60651]
Schallpegelmesser
Literatur [1.1]
Kuttruff, H.: Akustik, 2004, Hirzel
[1.2]
Veit, I: Technische Akustik, 6. Aufl. 2005, Vogel
[1.3]
Müller, G. und Möser, M.: Taschenbuch der technischen Akustik, 3. Aufl. 2004, Springer
[1.4]
Möser, M.: Technische Akustik, 2005, Springer
[1.5]
Meyer, E. und Neumann, E. G.: Physikalische und Technische Akustik, 3. Aufl. 1985, Vieweg
[1.6]
Meyer, E., Kuttruff, H. und Schulte, P.: „Versuche zur Schallausbreitung über Publikum”, in: Acustica 1965, S. 175ff.
[1.7]
Kath, U. und Kuhl, W.: „Messungen zur Schallabsorption von Personen auf ungepolsterten Stühlen”, in: Acustica 1964, S. 50ff.
[1.8]
Kath, U. und Kuhl, W.: „Messungen der Schallabsorption von Polsterstühlen mit und ohne Personen”, in: Acustica 1965, S. 127ff.
[1.9]
Fasold, W. und Veres, E.: Schallschutz und Raumakustik in der Praxis, 2003, Bauwesen
[1.10]
Cremer, L. und Müller, H. A.: Die wissenschaftlichen Grundlagen der Raumakustik, 1997, Hirzel
40
Akustik [1.11]
Meyer, J.: Akustik und musikalische Aufführungspraxis, 5. Aufl. 2004, ppv Medien
[1.12]
Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2.Aufl. 2004, Springer New York
[1.13]
Kuhl, W.: „In der Raumakustik benutzte hörakustische Termini”, in: Acustica 1977, S. 57ff.
[1.14]
Lehmann, P. und Wilkens, H.: „Zusammenhang subjektiver Beurteilungen von Konzertsälen und raumakustischen Kriterien”, in: Acustica 1980, S. 256ff.
[1.15]
Vorländer, L. und Bietze, H.: „Comparison of Methods for Measuring Reverberation Time”, in: Acustica 1994, S. 205ff.
[1.16]
Mommertz, E.: „Einige Messungen zur streifenden Schallausbreitung über Publikum und Gestühl”, in: Acustica 1993, S. 42ff.
[1.17]
Fasold, W., Kraak, W. und Schirmer, W.: Taschenbuch Akustik, 1984, VEB Technik
[1.18]
Reallexikon der Akustik, hg. von Rieländer, M., 1982, Bochinsky
[1.19]
Reichardt, W.: „Definition und Messgrundlagen eines ‚wirksamen Hallabstandes’ als Maß für den Raumeindruck bei Musikdarbietungen”, in: Zeitschr. f. elektr. Informations- und Energietechn., 1974, S. 225ff.
[1.20]
Preissig, Chr. und Veit, J.: Studio Akustik, 2007, ppV Medien
[1.21]
Höchstzulässige Schalldruckpegel von Dauergeräuschen in Studios und Bearbeitungsräumen bei Hörfunk und Fernsehen, IRT, Akustische Information 1.11-1/1995
[1.22]
Rümer, C.: „Brauchen wir eine wandelbare Akustik. Konzertsäle und Rundfunkstudios mit veränderbaren Nachhalleigenschaften”, in: Runfunktechn. Mitt. 1990, S. 101ff.
[1.23]
Griesinger, D.: „Verbesserung der Raumakustik durch zeitvariablen künstlichen Nachhall”, in: Bericht 16. Tonmeistertagung Karlsruhe 1990, S. 451ff., 1991, Saur
[1.24]
Völker, E.-J.: „Regieräume für Musikwiedergabe”, in: Rundfunktechn. Mitt. 1982, S. 112ff.
[1.25]
Völker, E.-J.: „Akustik und Abhörqualität in Regieräumen – das leidige Thema”, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 612ff., 1993, Saur Schneider, R. und Spikowski, G.: „Untersuchungen zur Wahrnehmbarkeit früher Reflexionen und des Nachhalls in Abhörräumen”, in: Bericht 17. Tonmeistertagung Karlsruhe 1992, S. 631ff., 1993, Saur Spikowski, G. und Holzkämper, S.: „Wahrnehmbarkeit von Reflexionen in Regieräumen – neue Ergebnisse”, in: Bericht 15. Tonmeistertagung Mainz 1988, S. 463ff., 1989, Saur Wollherr, H.: „Gestaltung des Abhörbereiches in einem Tonübertragungswagen”, in: Rundfunktechn. Mitt. 1983, S. 62ff. Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur Sotiropoulou, A. G., Hawkes, R. J. und Fleming, D. B.: „Concert Hall Acoustic Evaluations by Ordinary Concert Goers”, in: Acustica 1995, S., 1ff. und 10ff.
[1.26]
[1.27]
[1.28] [1.29] [1.32]
41
Akustik [1.33]
Meyer, J.: Kirchenakustik, 2002, Bochisnsky
[1.34]
Thienhaus, E.: Artikel “Akustik”, in: Die Musik in Geschichte und Gegenwart (MGG), 1. Aufl., Bd. 11, Sp. 31ff., 1962]
[1.35]
Fuchs, H. V.: Schallabsorber und Schalldämpfer, 2. Aufl., 2007, Springer
[1.36]
Steinke, G.: Raumakustische und technologische Aspekte für Mehrkanal-Aufnahmen klassischer Musik, 112. AES-Convention 2002, paper 5561
[1.37]
Friesecke, Andreas: Studio Akustik – Konzepte für besseren Klang, 2007, PPV Medien
42
2
Schallquellen
Schallquellen sind Energiewandler, die eine zugeführte mechanische oder elektrische Energie in Schallenergie umwandeln. Bei den „akustischen” Musikinstrumenten und bei der menschlichen Stimme wird mechanische Energie vom Menschen aufgebracht, bei elektronischen Musikinstrumenten - aber z. B. auch bei der Orgel - wird die Schallenergie aus elektrischer Energie gewonnen. Weiterhin kann Schall in der Natur entstehen, es können Geräusche aus der technischen Umwelt sein, von Maschinen u. a., diese Schallquellen werden hier nicht besprochen.
2.1
Schallformen
Zur Bezeichnung der verschiedenen Schallformen kann man sich entweder der physikalischakustischen Begriffe oder der ästhetischen bzw. musikalisch psychologischen Begriffe bedienen; eine Vermischung beider Begriffsfamilien führt zu Missverständnissen, da gleiche Wörter in verschiedenen Bedeutungen verwendet werden. In der Akustik unterscheidet man je nach der Form hauptsächlich folgende Arten eines Schallsignals (Grundbegriffe in DIN 1320), zunächst die Schallformen, die aus einzelnen, diskreten, in der Praxis endlich vielen sinusförmigen Komponenten bestehen: - Ton oder reiner Ton: Sinusförmige Schallschwingung im Hörbereich. Die in der Musik übliche Bestimmung des Begriffes Ton weicht von der in der Akustik üblichen ab; in der Musik wird das Schallereignis, das einer einzelnen Note entspricht, Ton genannt. In der Terminologie der Akustik wäre dies ein Klang, der meist zusätzlich auch Geräuschanteile enthält. - Tongemisch: Aus Tönen beliebiger Frequenzen zusammengesetzter Schall. - Einfacher oder harmonischer Klang: Hörschall, der aus einem Grundton und einer Reihe von Obertönen besteht, deren Frequenzen ganzzahlige Vielfache dieses Grundtons sind. In der Begriffssprache der Musik entspricht dies weitgehend dem musikalischen Ton im Sinne einer Note. - Mehrfacher Klang oder Klanggemisch: Hörschall, der aus mehreren einfachen Klängen besteht. Eine zweite Gruppe von Schallformen ist komplex aus theoretisch unendlich vielen, dicht nebeneinander liegenden Komponenten zusammengesetzt, diese Schallformen sind als Höreindruck geräuschhaft: - Schallimpuls: Einmaliges Schallereignis von kurzer Dauer. - Tonimpuls: Ton von kurzer Dauer. - Rauschen: Schallsignal statistischer Natur, bei dem nur ein kontinuierliches Frequenzspektrum angegeben werden kann, besondere Formen sind das „Weiße Rauschen” und das „Rosa Rauschen”.
43
Schallquellen - Weißes Rauschen: Andauerndes Schallsignal, das theoretisch aus unendlich vielen, in ihrer Frequenz sehr dicht nebeneinander liegenden sinusförmigen Schwingungen besteht. Theoretisch ist der Frequenzbereich bei Weißem Rauschen nach oben hin nicht begrenzt, wodurch Weißes Rauschen aus unendlich vielen Schwingungskomponenten mit in ihrer Summe unendlich hoher Leistung bestehen würde. Praktisch erstreckt sich aber das Frequenzband des Weißen Rauschens von 0 Hz aufwärts nicht bis ins Unendliche, sondern ist mehr oder weniger bei hohen Frequenzen begrenzt, z. B. bei der Obergrenze hörbaren Schalls, also bei der Hörgrenze mit 16 bis 20 kHz, oder mit steigender Frequenz zunehmend bedämpft. Die sinusförmigen Komponenten, also Töne im physikalischen Sinn, haben nur statistisch betrachtet gleiche Amplituden, d. h., ihre Amplituden sind nicht in jedem Augenblick gleich, sondern nur im statistischen Mittel über einen längeren Zeitraum; ihre Phasenwinkel sind ebenfalls statistisch und voneinander unabhängig verteilt. Es ist deshalb nicht möglich, aus Weißem Rauschen ein schmalbandiges Rauschen oder gar einen Sinuston mit jeweils konstanter Amplitude herauszufiltern. In der subjektiven Wahrnehmung als Hörereignis ist Weißes Rauschen am ehesten dem Laut „sch” vergleichbar, tiefe Frequenzen scheinen zu fehlen, mit steigender Tonhöhe werden die Komponenten zunehmend lauter. Das Gehör fasst nämlich - etwas vereinfacht gesagt - nicht gleich breite Frequenzbänder zu einem Lautstärkeeindruck zusammen, sondern Frequenzbänder mit Grenzfrequenzen, die gleiche Intervalle, also gleiche Frequenzverhältnisse bilden; z. B. nimmt das Gehör die Summe aller Schwingungen zwischen 100 und 110 Hz ebenso laut wahr wie die Summe aller Schwingungen zwischen 1000 und 1100 Hz, das aber sind 10 mal so viele. Wie viele Schwingungen das tatsächlich sind, hängt vom Übertragungsbereich des Systems ab. Weißes Rauschen ist ein für verschiedene Messungen geeignetes Signal, die statistischen Eigenschaften von Musik oder Sprache jedoch kann es bei Messungen nicht simulieren. Die Bezeichnung Weißes Rauschen resultiert aus der Analogie zum weißen Licht, das ebenfalls aus allen sichtbaren Wellenlängen mit gleicher Amplitude zusammengesetzt ist, eine Analogie gilt entsprechend für das Rosa Rauschen. - Rosa Rauschen: Beim Rosa Rauschen nimmt die Amplitude pro Frequenzverdopplung um den Faktor 0,7 ab, der Pegel also um 3 dB. Es handelt sich um ein Rauschen, dessen spektrale Leistungsdichte umgekehrt proportional der Frequenz ist. Beim Weißen Rauschen bleibt die Leistung in einem absoluten Frequenzband konstant, z. B. in einem Band von 100 Hz Breite, bei Rosa Rauschen bleibt sie in einem relativen Frequenzband, also einem bestimmten Intervall konstant, z. B. in einem Terzbereich mit dem Frequenzverhältnis 5:4 von oberer zu unterer Frequenz. Rosa Rauschen entspricht in seiner Frequenz-Amplitudenverteilung im Gegensatz zu Weißem Rauschen relativ gut demjenigen von Musik und Sprache. - Geräusch: Schallsignal, das oft ein nicht zweckbestimmtes Schallereignis darstellt und meistens Anteile von Rauschen, Ton- und Klanggemischen enthält. Eine exakte musikalisch-psychologische Begriffsbestimmung von „Ton” und „Klang” ist im Gegensatz zur physikalisch-akustischen Definition nicht möglich. Der „Ton” eines Musikinstruments, z. B. einer Violine, kann sich auf eine einzelne gespielte Note oder auf den Klangcharakter aller Töne, also auf den Klangcharakter des Instruments überhaupt beziehen. Ein „Klang” kann im engeren Sinn ein Akkord sein, aber auch der Klangcharakter eines 44
Schallformen Instruments („Hörnerklang”) oder auch des ganzen Orchesters. Ein Ton oder ein Klang kann physikalisch-akustisch gesprochen Anteile eines „einfachen” oder „mehrfachen Klangs”, eines „Schallimpulses” und von „Rauschen” enthalten. Die Begriffe „Ton” und „Klang” sind als musikalisch-psychologische und ästhetische Begriffe nicht genau definierbar; man könnte sie allenfalls als „sinnvoll durchstrukturierte, gewollte Schallereignisse” bezeichnen, „die die Elemente der Musik bilden”. Das Gegenteil eines „sinnvoll durchstrukturierten Schallereignisses” ist „Lärm”. Er stört, belästigt, verursacht Ärger. Auch dem Lärm entsprechen nicht ganz bestimmte physikalische Eigenschaften eines Schallereignisses. Denn auch ein einzelner Sinuston oder sogar Musik können Lärm sein, wenn sie als störend empfunden werden; hierbei ist also die Einstellung des Hörers zum jeweiligen Schallereignis bestimmend. Tab. 2/1 fasst die terminologischen Entsprechungen in Akustik und Musik zusammen. Da die musikalisch-psychologischen Begriffe nicht objektiv und eindeutig definierbar sind, werden bei der Beschreibung der Schallformen nachfolgend soweit wie möglich physikalisch-akustische Begriffe verwendet. Tab. 2/1. Terminologische Entsprechungen zum Ton-Klang-Begriff. Begriffe in der Akustik Ton, Sinuston, reiner Ton, einfacher Ton
Ton
Tongemisch
-
Klang, einfacher Klang, harmonischer Klang
Ton
Klanggemisch, mehrfacher Klang
Klang, Zusammenklang, Akkord
2.1.1
Begriffe in der Musik
Schwingungen
Vorgänge, deren Verhalten nach bestimmten, periodischen Zeitabschnitten stets wieder den gleichen Zustand erreichen, werden als Schwingungen bezeichnet [2.1]. 2.1.1.1
Einfache Schwingungen
Lässt sich die Zeitabhängigkeit eines Vorgangs durch eine Sinus- oder Cosinusfunktion beschreiben, deren Argument eine lineare Funktion der Zeit ist – z. B. TAt = 2BAfAt, so heißt dieser Vorgang Sinusschwingung oder einfache Schwingung, die dazugehörige physikalische Größe heißt Sinusgröße, z. B. Sinusspannung. Abb. 2/1 zeigt eine sinusförmige Schwingung. Zu ihrer Beschreibung werden die folgenden Begriffe verwendet (DIN 1311): - Amplitude: Der maximale Augenblickswert â, also der Scheitelwert einer Sinusgröße a, heißt Amplitude. - Periodendauer: Der Zeitabschnitt, nach welchem eine Schwingung sich periodisch wiederholt, heißt Periodendauer T. - Frequenz: Der Kehrwert der Periodendauer T heißt Frequenz f. Sie gibt an, wie viele Schwingungsperioden auf eine Sekunde entfallen. Die Einheit ist Hertz, abgekürzt Hz mit der Dimension [1/s]. 45
Schallquellen - Kreisfrequenz: Das 2B-fache der Frequenz heißt Kreisfrequenz T. - Phasenwinkel: Das Argument der Sinus- oder Cosinusfunktion heißt Phasenwinkel N; er stellt eine lineare Funktion der Zeit dar: N = TAt. Der Phasenwinkel tritt bei der Darstellung einer Sinusschwingung durch Projektion der Drehung eines Zeigers als Winkel zwischen Zeiger und Projektionsachse in Erscheinung. Der Phasenwinkel für t = 0 heißt Nullphasenwinkel N0 (Abb. 2/2). Die mathematische Darstellung einer einfachen Schwingung lautet: a = â A cos Tt = â A cos 2Bft = â A cos 2Bt/T T = 2Bf f = 1/T
a = Augenblickswert der Amplitude der Sinusschwingung [cm, m] â = Amplitude [cm, m] t = Zeit [s] T = Periodendauer = Umlaufdauer des Zeigers [s] f = Frequenz [Hz]T = Kreisfrequenz [Hz]
An Stelle des Cosinus kann auch der Sinus stehen; dies hat auf den Schwingungsverlauf keinen Einfluss, sondern nur auf den Nullphasenwinkel. Cosinus- und Sinusschwingung haben bei gleichem Nullphasenwinkel eine gegenseitige Phasendifferenz von 90/, oder anders ausgedrückt: die Sinusfunktion hat im Zeitpunkt t = 0 den Wert a = 0, die Cosinusfunktion den Wert a = â.
Abb. 2/1. Begriffe bei sinusförmigen Schwingungen.
Abb. 2/2. Einfache Schwingung als Projektion eines rotierenden Zeigers.
Sinusverwandte Schwingungen sind Schwingungen, bei denen die Amplitude â sich verglichen mit der Periodendauer T langsam mit der Zeit ändert und/oder bei denen der Phasenwinkel innerhalb einer Periodendauer nur wenig von der linearen Zunahme mit der Zeit abweicht. 46
Schallformen Solche sinusverwandten Schwingungen sind gedämpfte Schwingungen, bei denen die Amplitude mit der Zeit abnimmt, und Schwebungen, deren Amplitude und Frequenz sich langsam mit der Zeit periodisch ändern, sowie amplitudenmodulierte Schwingungen, die eine periodische Änderung der Amplituden ohne Frequenzschwankungen kennzeichnet. 2.1.1.2
Überlagerung von Schwingungen
Die Überlagerung von zwei harmonischen Schwingungen gleicher Frequenz ergibt wieder eine harmonische Schwingung derselben Frequenz, deren Amplitude und Phase von den Amplituden der beiden sich überlagernden Schwingungen und ihrer Phasendifferenz abhängen. Abb. 2/3 zeigt drei Fälle einer solchen Überlagerung.
Abb. 2/3. Überlagerung zweier Schwingungen mit gleicher Amplitude und Frequenz a. mit beliebiger, b. ohne, c. mit 180/ Phasendifferenz
a1 ………….., a2 -----------, a1 + a2 _________. Weichen die Frequenzen der beiden Schwingungen ein wenig voneinander ab und sind ihre Amplituden â gleich groß, so entsteht eine Schwingung, deren Amplitude sich zwischen den Werten 0 und 2â periodisch ändert. Diese Schwingung nennt man „vollkommene Schwebung”, bei ungleichen Amplituden „unvollkommene Schwebung” (Abb. 2/4). Die Frequenz der Schwebung schwankt ebenfalls geringfügig periodisch, bei der sehr ähnlichen amplitudenmodulierten Schwingung mit dem Modulationsgrad 1 bleibt die Frequenz hingegen konstant. Weichen die Frequenzen der beiden sich überlagernden Schwingungen erheblich voneinander ab, so ergibt sich keine harmonische Schwingung mehr. 2.1.1.3
Zusammengesetzte Schwingungen
Jede auch noch so unregelmäßig verlaufende, aber periodische Schwingung lässt sich in sinusförmige Teilschwingungen zerlegen. Diesen Vorgang nennt man harmonische Analyse oder Fourier-Analyse. Sie umfasst das Ermitteln der Frequenzen der einzelnen Teilschwingungen und die Bestimmung ihrer Amplituden. Das Ergebnis einer harmonischen Analyse ergibt ein sog. Amplitudenspektrum. Dies ist die grafische Darstellung der Gesamtheit aller Teilschwingungen eines Signals mit den dazugehörigen Amplitudenwerten. Die Frequenzen der einzelnen Teilschwingungen sind immer ganzzahlige Vielfache einer Grundschwingung, deren Frequenz mit der Frequenz der zu analysierenden Schwingung übereinstimmt. Das Amplitudenspektrum genügt allerdings nicht, um den Zeitverlauf der periodischen Schwingung exakt zu beschreiben; hierzu ist die zusätzliche Angabe der Nullphasenwinkel aller Teilschwingungen in einem Phasenspektrum erforderlich. Für viele praktische Zwecke, wie 47
Schallquellen Erkenntnisse über die Klangfarbe eines musikalischen Klangs oder über die Zusammensetzung und Störwirkung eines Störgeräuschs, kann auf das Phasenspektrum verzichtet werden.
Abb. 2/4. Durch Überlagerung zweier Schwingungen mit gleicher Amplitude und geringem Frequenzunterschied entstehende „vollkommene Schwebung”.
Abb. 2/5. Einige Schwingungsverläufe mit den dazugehörigen Amplitudenspektren; die Spektren sind nach der 12. Harmonischen abgeschnitten, setzen sich aber bei b, c und d theoretisch bis ins Unendliche fort; die Amplituden der Teilschwingungen sind etwa dreimal vergrößert gezeichnet. Die Spektren gelten nur für den eingeschwungenen Zustand. Bei b, c und d entsteht noch eine Teilschwingung mit der Frequenz 0, d. h. eine Gleichkomponente (z. B. eine Gleichspannung).
Alle periodischen Vorgänge haben Linienspektren; sie setzen sich aus ganzzahligen Vielfachen einer Grundfrequenz f zusammen. Sie errechnet sich aus der Periodendauer T der zu analysierenden Schwingung: f = l/T. Je größer die Periodendauer T wird, umso tiefer liegt also die Grundfrequenz f und um so näher beisammen liegen die Vielfachen dieser Grundfrequenz. 48
Schallformen Lässt man im Gedankenexperiment die Periode beispielsweise einer Rechteckschwingung immer länger, schließlich unendlich werden, so kommt man zur sog. Sprungfunktion (Abb. 2/6a), einem einmaligen Vorgang, der sinngemäß eine extrem tiefe Grundfrequenz - eigentlich 0 Hz - und eigentlich unendlich dicht beieinander liegende Teilschwingungen entsprechen. Somit haben Einzelvorgänge so dicht liegende Komponenten, dass ein kontinuierliches Spektrum entsteht, das durch die Einhüllende der eigentlich unendlich vielen Komponenten gekennzeichnet ist, durch eine sog. Spektralfunktion. Dies gilt sinngemäß allgemein für nichtperiodische Signale, z. B. Rauschen oder Geräusche, die als eine Folge von Einzelereignissen aufgefasst werden können, Die Spektralfunktion wird durch die Leistungsdichte, d. h. durch die Leistung pro relative oder absolute Bandbreiteneinheit beschrieben und grafisch dargestellt. In der Praxis liegen die Teilschwingungen umso weniger dicht und die Grundfrequenz umso weiter von 0 Hz entfernt, wie der Übertragungsbereich des Systems oben begrenzt ist. Abb. 2/5 zeigt einige Beispiele periodischer Schwingungen und ihrer Teiltonspektren, Abb. 2/6 einiger nichtperiodischer Vorgänge mit ihren Spektralfunktionen.
Abb. 2/6. Spektralfunktionen einiger einmaliger Vorgänge. a. Spektralfunktion der Sprungfunktion (z. B. Einschalten einer Gleichspannung), b. Spektralfunktion eines Rechteckimpulses, c. Spektralfunktion einer plötzlich einsetzenden (eingeschalteten) Sinusschwingung, d. Spektralfunktion eines Nadelimpulses (Stoßfunktion, sehr kurzer Knack, Dirac-Stoß), e. Spektralfunktion eines Knalls.
49
Schallquellen
2.2
Menschliche Stimme
2.2.1
Akustische Eigenschaften
Die menschliche Stimme [2.2] ist ein sehr vielseitiger Schallerzeuger. Sie kann Klänge und Geräusche verschiedenster akustischer Zusammensetzung, anhaltend oder rasch wechselnd, erzeugen. Abb. 2/7 zeigt schematisch das Stimmorgan mit den angeschlossenen Resonanzräumen sowie ein mechanisches Modell der Stimmlippen (Stimmbänder) und ihre Schwingungen. Der Luftstrom, der beim Ausatmen aus der Lunge kommt (Exspirationsluft), erregt bei stimmhaften Lauten erzwungene Schwingungen der Stimmlippen im Kehlkopf, die in dem angeschlossenen „Ansatzrohr” (Mund, Nase, Nebenhöhlen, Rachen) modifiziert werden. Bei stimmlosen Lauten wie z. B. H, P, T, K schwingen die Stimmlippen bei geöffnetem Zustand nicht, es werden nur durch die Luftströmung die Hohlräume des Ansatzrohres angeblasen, oder es entstehen Strömungsgeräusche beim Durchströmen von Einengungen des Luftstroms an den Zähnen, der Zunge oder im Rachen. Für die stimmlosen Zischlaute F, S, SCH und CH sind Strömungsgeräusche charakteristisch, die insbesondere beim S bis in hohe Frequenzbereiche hineinreichen. Beim stimmhaften S und SCH treten zu den Geräuschkomponenten der stimmlosen Form periodische Schwingungen der Stimmlippen hinzu. Die stimmlosen Explosivlaute P, T, K, B, D und G entstehen durch plötzliches Öffnen des durch die Lippen (P, B) oder die Zunge (T, D, K, G) verschlossenen Luftwegs. Dabei entlädt sich der angestaute Überdruck explosionsartig. Bei den Vokalen erregen die teiltonreichen Stimmlippenschwingungen (Abb. 2/7) in Mund, Nase und Rachen Resonanzen, deren Frequenzlagen insbesondere von der Mund- und Zungenstellung abhängen. Jeder Vokal wird so charakterisiert durch sog. „Formantbereiche”; das sind Frequenzbereiche, innerhalb derer unabhängig vom Stimmlippengrundton alle Teiltöne durch Resonanz verstärkt werden. Die wichtigsten Formantbereiche der Vokale gibt Abb. 2/8 an.
Abb. 2/7. Stimmorgan, mechanisches Modell der Stimmlippen, Schwingungen der Stimmlippen.
Emotionen, wie Freude, Angst, Wut, prägen sich in der Klangfarbe der Stimme durch unterschiedliche Hervorhebungen der Formanten im Frequenzbereich bis 3,7 kHz aus. Durch Filterung können Emotionen zurückgenommen, aber nicht glaubhaft verstärkt werden. [2.3] Bei den stimmhaften Halbvokalen M, N, R und L tritt neben die Klangerzeugung durch die Stimmlippen die Klangerzeugung durch das Anblasen von Hohlräumen. Das R ist durch eine ausgesprochene Amplitudenmodulation gekennzeichnet. Tab. 2/2 fasst die akustischen Eigenschaften der Sprachlaute oder Phoneme als die kleinsten akustischen Bestandteile der Sprache zusammen. Die Grundfrequenz der Stimmlippenschwingung - die Sprechmelodie 50
Menschliche Stimme ändert sich bei Sprache dauernd; sie liegt bei Männern zwischen etwa 120 und 160 Hz, bei Frauen und Kindern zwischen etwa 220 und 330 Hz.
Abb. 2/8. Formantbereiche der Vokale der deutschen Sprache.
Tab. 2/2. Akustische Eigenschaften von Sprachlauten. Lautart Vokale: A, E, I, O, U
stimmhafte Konsonanten: L, M, N, R, W u. a.
stimmlose Konsonanten: H Zischlaute: F, S, SCH, Z Explosivlaute: B, D, G, P, T,K
akustische Eigenschaften harmonische Klänge, Grundfrequenz ist die Sprechtonhöhe mit 120 – 160 Hz (Männer) bzw. 220 – 330 Hz (Frauen), Charakterisierung durch Formantgebiete (Abb. 2/8), Komponenten bis etwa 5 kHz harmonische Klänge mit der Grundfrequenz der Sprechtonhöhe, zusätzlich kontinuierliche Spektralanteile durch Strömungsgeräusche an Einengungen des Ansatzrohres nur geräuschhafte, kontinuierliche Spektren nur geräuschhafte, kontinuierliche Spektren mit Komponenten bis über die obere Hörgrenze, besonders beim S kurzzeitige, impulsartige Vorgänge mit kontinuierlichen Spektren
51
Schallquellen 2.2.1.1
Sprachspektrum
Die folgenden Ausführungen beziehen sich auf statistisch ermittelte Durchschnittsspektren der Sprache, nicht auf Einzellaute. Komponenten unter 80 Hz (männliche Sprache) bzw. 100 Hz (weibliche Sprache) fallen bei üblichem Abstand des Zuhörers von einem Sprecher unter die Hörschwelle, können also bei der Aufnahme weggefiltert werden, ohne dass klangliche Verfälschungen der Sprache hörbar werden. Bei tiefen Frequenzen ist der absolute Schalldruckpegel annähernd unabhängig von der Sprechstärke, nur der Abstand des Sprechers hat hierauf einen bestimmenden Einfluss. Nimmt man das Spektrum laut gesprochener Sprache als Bezug, sind die tieffrequenten Anteile von im Original leise gesprochener, aber z. B. um 20 dB verstärkter, „künstlich lauter” Sprache um denselben Betrag relativ stärker als bei tatsächlich laut gesprochener Sprache. Normalerweise bei männlicher Sprache unhörbare Komponenten unter 80 Hz erscheinen dabei im Klangbild. Das ist die Ursache der unnatürlichen Klangfärbung, des „Dröhnens” leise aufgenommener, aber laut wiedergegebener Sprache. Dabei ist männliche Sprache empfindlicher gegen diesen Effekt als weibliche; für Durchsagen im öffentlichen Bereich oder für Ansagen in lärmerfüllter Umgebung, z. B. Verkehrsdurchsagen im Radio, sind demnach weibliche Stimmen besser geeignet. Die Sprachspektren sind von der Sprechlautstärke abhängig, je lauter gesprochen wird, umso obertonreicher ist das Sprachspektrum (Abb. 2/9 und 2/10).
Abb. 2/9. Durchschnittliche Spektren deutscher Sprache von männlichen Sprechern, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
Abb. 2/10. Durchschnittliche Spektren deutscher Sprache von weiblichen Sprecherinnen, für leise, mittellaut und laut gesprochene Sprache, Schalldruckpegel je Terzbereich.
52
Menschliche Stimme Die statistischen Sprachspektren zeigen charakteristische Maxima: das erste Maximum ist geschlechtsspezifisch und kennzeichnet die Sprechtonhöhe; bei männlichen Sprechern liegt es um 150 Hz, bei Sprecherinnen um 250 Hz. Weitere Maxima liegen bei Sprecherinnen um 500 Hz und um 1500 Hz, bei laut sprechenden Männern ebenfalls um 1500 Hz. Die wesentlichen Komponenten der Sprache beschränken sich auf das Frequenzband von 100 Hz (Männer) bzw. 200 Hz (Frauen) bis 10 kHz. 2.2.1.2
Sprachschallpegel
Der Sprachschallpegel ist der durch Sprache hervorgerufene Schallpegel in einem gegebenen Abstand vom Sprecher. Da sich Sprache in ihrem Pegel und Spektrum dauernd ändert, ist die Angabe eines gemittelten Spitzenpegels sinnvoll; die Angabe in bewerteten Pegeln erleichtert den Vergleich mit Störgeräuschen. Demnach beträgt der Schallpegel in 60 cm Entfernung vor dem Mund etwa 60 dBA, er erhöht sich bei lauterem Sprechen um 6 dB und erreicht bei unnatürlich lautem Sprechen Werte von etwa 76 dBA (Männer) bzw. 68 dBA (Frauen). Die Werte liegen bei 30 cm Abstand rund 4 dB höher, bei 120 cm 4 dB niedriger. Die extremen Formen des Sprechens, Murmeln und sehr lautes Sprechen, erweitern die Dynamik nach unten bzw. oben nochmals um etwa 5 dB. Die genannten Werte gelten für die „Mikrofonstimme”, die durch einen gleichmäßigeren Lautstärkeverlauf gekennzeichnet ist als die „Bühnenstimme” [2.4], [2.5]. Die Pegelstruktur von Sprache kann als Abfolge von Impulsen gekennzeichnet werden, gebildet durch die einzelnen Phoneme. Das führt zu einem Durchschnittspegel, der um rund 12 dB unterhalb des Spitzenpegels liegt. Dadurch wirkt Sprache leiser als U-Musik mit derselben Aussteuerung, aber lauter als E-Musik. Dies ist wichtig für ein Gleichgewicht der Lautstärken von Musik und Sprache z. B. bei der Sendung (siehe Kap. 18.4.1). 2.2.1.3
Singstimme
In akustischer Hinsicht sind die Unterschiede zwischen Sprech- und Singstimme nicht so erheblich, wie dies vom Höreindruck her erscheint. Da nur Laute mit harmonischen Spektren eine Tonhöhe besitzen, werden diese im musikalischen Ablauf der Stimmführung besonders hervorgehoben und gedehnt. Während sich die Sprechtonhöhe gleitend und häufig ändert, ist die Singtonhöhe an bestimmte Tonstufen, nämlich an die Tonstufen der Tonleiter, gebunden. Die Formantlagen werden besonders bei der weiblichen Stimme der jeweiligen Grundtonhöhe in einem gewissen Rahmen angepasst; i. Allg. entsteht daraus eine Verdunklung des Vokalcharakters. Von erheblicher Bedeutung für die Klangfarbe der männlichen Singstimme ist der sog. Singformant zwischen 2,8 und 3 kHz verbunden mit einer generellen Verstärkung höherer Klangkomponenten, der der Stimme ein Durchsetzungsvermögen auch gegen ein lautes Orchester gibt. Er tritt bei der Sprache nicht auf. Kennzeichnend für die ausgebildete Stimme ist weiterhin das Vibrato bzw. Tremolo der Stimme, also Tonhöhen- und Lautstärkeschwankungen. Besondere Betonung und Dehnung der Vokale, Umstimmung der Formanten, Singformant, Vibrato und größere Lautstärke und Dynamik kennzeichnen rein akustisch also im Wesentlichen die Stimme mit besonderer Gesangsausbildung. Dynamik und Höchstpegel der Singstimme hängen selbstverständlich von der Musik und dem jeweiligen Sänger ab. Hohe Frauen- (Sopran) und Männerstimmen (Tenor) erreichen die 53
Schallquellen größte Dynamik (50 bis 60 dB), die Spitzenpegel der Soprane liegen bei üblichem Mikrofonabstand über 100 dB. Der Tonhöhenbereich einer Singstimme ist ihre Stimmlage (Abb. 2/11). Sopran, Alt, Tenor und Bass sind die Hauptstimmlagen. Die Eignung einer Stimme bzw. eines Gesangssolisten für bestimmte Rollentypen kennzeichnet das Stimmfach (z. B. dramatischer Sopran, Koloratursopran, lyrischer Alt, Heldentenor, jugendlicher Liebhaber, Bassbuffo).
Abb. 2/11. Ton- und Frequenzlagen der Singstimmen.
2.2.2
Richtcharakteristik
Wie die Musikinstrumente hat auch die menschliche Stimme keine allseitig gleiche Schallabstrahlung, sondern eine frequenzabhängige Schallbündelung, besonders im Frequenzbereich über 2000 Hz. Wandert man mit einem Mikrofon um einen Sprecher, so ändert sich also die Klangfarbe der Stimme. Abb. 2/12 zeigt, wie sich die Spektren bei Aufnahme von der Seite und von hinten vom Spektrum bei Aufnahme von vorne unterscheiden.
Abb. 2/12. Unterschiede der Spektren von Gesang bei verschiedenen Aufnahmerichtungen
Der gewohnte und erwartete Sing- und Sprachklang ergibt sich in der Hauptabstrahlrichtung des Mundes. Oft werden aber die von Rednern oder Reportern benutzten Mikrofone an einer um den Hals gelegten Schnur oder an der Kleidung befestigt vor der Brust getragen. Solche Mikrofone werden Lavalier-Mikrofone genannt. Dadurch ergeben sich aber am Ort des Mikrofons Klangverfälschungen, hervorgerufen durch die Schallabstrahlung der Brust und die Abstrahleigenschaften des Mundes. Neben verstärkter Tiefen- und verringerter Höhenabstrah54
Menschliche Stimme lung verursacht eine Anhebung von etwa 6 dB in einem schmalen Frequenzband bei 700 Hz (männliche Sprache) bzw. etwas darüber (weibliche Sprache) eine Klangfärbung (Abb. 2/13). Wird der Frequenzgang des Mikrofons entsprechend korrigiert (Abb. 4/36), wie das bei einigen Lavalier-Mikrofonen geschieht, ist ein Unterschied zwischen Aufnahmen vor dem Mund und der Brust nicht hörbar.
Abb. 2/13. Frequenzgang von Sprache vor der Brust des Sprechers.
2.2.3
Sprachverständlichkeit
Die Sprachverständlichkeit ist ein grundlegendes Kriterium für die Beurteilung der Hörsamkeit von Räumen für Sprachdarbietungen und für die Übertragungsqualität in der Tontechnik. Die Silbenverständlichkeit wird ermittelt, weil bei Übertragungen auch Einzelsilben - z. B. Zahlen - verständlich sein sollen. Sie wird gemessen in % der richtig verstandenen Silben bezogen auf die Gesamtzahl einer Reihe von Prüfsilben. Dabei werden Testsilben ohne Bedeutung verwendet (z. B. pus, fog). Die Wortverständlichkeit liegt grundsätzlich über der Silbenverständlichkeit, die Satzverständlichkeit über der Wortverständlichkeit. Eine Silbenverständlichkeit von 80 % kann als gute Verständlichkeit bezeichnet werden; dies entspricht einer Satzverständlichkeit von 100 %, weil nicht verstandene Silben aus dem Zusammenhang heraus ergänzt werden.
Abb. 2/14. Sprachverständlichkeit.
55
Schallquellen Abb. 2/14 zeigt die Silben-, Wort- und Satzverständlichkeit in Abhängigkeit von der oberen Grenzfrequenz der Übertragung und die Wortverständlichkeit in Abhängigkeit vom Störabstand der Übertragung. Auf die Verständlichkeit haben weitere Gegebenheiten Einfluss, in Räumen besonders die Nachhallzeit und ihr Frequenzgang. Neben der Messung mit Versuchspersonen steht ein genormtes Messverfahren mit Geräten zur Verfügung (DIN EN 60 849).
2.3
Musikinstrumente
2.3.1
Akustische Eigenschaften
Für akustische Untersuchungen der Klangeigenschaften von Musikinstrumenten [2.6 – 2.9], [2.29], [2.30] ist es wegen der großen Zahl einzelner Messdaten notwendig, anschauliche Formen der grafischen Darstellung zu finden. Für die Erfassung der Klangeigenschaften müssen zwei Größen angegeben werden: die Frequenzen der Klangkomponenten und ihre Stärke; notwendig ist in bestimmten Fällen dabei die Darstellung des zeitlichen Verlaufs dieser Größen. Damit ergibt sich für die vollständige Darstellung eines Schallereignisses eine dreidimensionale bzw. pseudodreidimensionale grafische Darstellung. Je nach dem Ziel einer akustischen Veranschaulichung kann aber auch eine der drei Darstellungsebenen herausgegriffen werden (Abb. 2/15). Ein Beispiel einer pseudodreidimensionalen Darstellung zeigt Abb. 2/16. Die Schallgrößen können entweder linear als Amplitude bzw. Frequenz angegeben werden oder logarithmiert und auf einen zweiten Wert bezogen (Bezugswert) als Pegel bzw. Intervall. Als Intervalle kommen v. a. Terzen (Frequenzverhältnis 5:4), Oktaven (Frequenzverhältnis 2:1) und Dekaden (Frequenzverhältnis 10:1) in Betracht. Die Wahl der jeweiligen Darstellungsweise hängt davon ab, was untersucht oder gezeigt werden soll. Jeder Einzelton eines Instruments kann in zwei oder drei zeitlich aufeinander folgende Abschnitte geteilt werden (Abb. 2/17): - Klangeinsatz, Einschwingen: Zeitabschnitt, in dem sich der Klang aus der Ruhe bis zu seinem eingeschwungenen Zustand entwickelt. - Quasistationärer Schwingungszustand: zentraler Zeitabschnitt des Tons, in dem der Klang als relativ unveränderlich betrachtet werden kann; auch die immer vorhandenen, für die Klangcharakteristik sehr wichtigen kleinen Schwankungen können noch im Rahmen des quasistationären Zustandes gesehen werden. - Ausklingen: Zeitabschnitt, in dem der Klang nach dem Ende seiner Anregung bis zur völligen Ruhe ausklingt, vergleichbar dem Nachhall eines Raums. Die nachfolgend im Einzelnen erläuterten akustischen Eigenschaften der Musikinstrumente werden im Detail in Tab. 2/5 zusammengefasst. 2.3.1.1
Klangeinsatz
Der Klangeinsatz ist ein jeweils einmalig ablaufender Vorgang kurzer Dauer. Kurze Klangeinsätze dauern bis etwa 10 ms, lange Klangeinsätze, wie etwa beim Kontrabass, zwischen 100 und 500 ms; meist liegt die Dauer bei 15 bis 50 ms. Kurzen Klangeinsätzen kann kein 56
Musikinstrumente Spektrum, das aus einzelnen Linien zusammengesetzt ist, zugeordnet werden, sondern nur eine sog. Spektralfunktion, die Einhüllende einer Unzahl dicht nebeneinander liegender Spektrallinien. Ein solches kontinuierliches Spektrum empfindet man als kurzzeitiges Geräusch, als Knack. Das trifft z. B. auch bei einem plötzlich eingeschalteten Tonsignal zu, bei dem Geräuschanteile entstehen, die als Einschaltknack hörbar werden. Erfolgt der Einschaltvorgang nicht plötzlich, sondern kontinuierlich während eines längeren Zeitabschnitts, so verringern sich auch die Geräuschanteile bzw. der Einschaltknack.
Abb. 2/15. Möglichkeiten der Darstellung eines Klangs bzw. musikalischen Tons.
Dementsprechend sinkt der Anteil geräuschhafter Komponenten mit der Dauer des Klangeinsatzes. Je länger ein linear schwingendes System ausklingt, desto länger dauert auch das Einschwingen. Je größer die Bandbreite eines Resonanzsystems oder eines Filters ist, umso kürzer ist die Einschwingzeit. Da ein Einschwingvorgang theoretisch nie endet, betrachtet man ihn als beendet, wenn die Amplitude den Bereich von ± 10 % ihres Wertes im eingeschwungenen Zustand nicht mehr verlässt. 57
Schallquellen
Abb. 2/16. Beispiel für eine pseudodreidimensionale Klangdarstellung: Ausschnitt aus dem gesprochenen Wort „MontrEAl”.
Abb. 2/17. Zeitliche Abschnitte eines musikalischen Klangs.
Musikinstrumente sind sehr komplizierte Schwingungssysteme, bei denen Resonanzen eine besondere Rolle spielen. Gerade aber Resonanzen verhindern einen raschen, „knackenden” Klangeinsatz, weshalb die Klangeinsätze der meisten Musikinstrumente weicher als geschaltete Sinustöne klingen. Der spezifische Klangeinsatz prägt einen Instrumentenklang ebenso wie der Teiltonaufbau, die Formanten, Geräuschanteile und Pegelschwankungen. Es herrscht eine sehr große Vielfalt der Natur des Klangeinsatzes: Harte Klangeinsätze von wenigen Millisekunden Dauer (z. B. Schlaginstrumente, Zungenpfeifen der Orgel) bilden das eine Extrem, weiche Klangeinsätze von mehr als 0,5 s Dauer (tiefe Lippenpfeifen der Orgel, Kontrabass) das andere. Lange, deutlich hörbare Klangeinsätze verdeutlichen einen Melodieverlauf, besonders wenn andere Stimmen gleichzeitig gespielt werden. Wichtig für den Klangcharakter ist auch, in welcher Reihenfolge und mit welcher Stärke die einzelnen Teiltöne einsetzen. Blechblasinstrumente können sog. Vorläuferimpulse haben, die dem Klang - je nach ihrer Länge - Prägnanz verleihen oder als sog. Kiekser störend wirken. 2.3.1.2
Quasistationärer Klangabschnitt
Der quasistationäre Klangabschnitt ist bei akustischen Musikinstrumenten praktisch immer, bei elektronischen Musikinstrumenten je nach Art der Klangerzeugung dauernden Veränderungen unterworfen: Durch Überlagerung sich geringfügig in der Frequenz unterscheidender Klangkomponenten oder Töne entstehen Schwebungen, also Pegelschwankungen 58
Musikinstrumente (siehe oben), so beim Klavier, bei der Orgel, bei Chören und bei mehrfach besetzten Orchesterstimmen. Das Vibrato der Singstimme, der Streichinstrumente und der meisten Blasinstrumente entsteht durch periodische Frequenzschwankungen, verbunden mit Pegelschwankungen. Der Begriff Tremolo wird für reine Pegelschwankungen, entstanden durch dichte Aneinanderreihung kurzer Klänge, verwendet. [2.10], [2.11] Zu diesen leicht wahrnehmbaren Schwankungen können geringere oder stärkere unregelmäßige, mikrozeitliche Schwankungen, also Rauheiten (siehe Kap. 3.3.5) hinzukommen, die meist nicht bewusst als solche wahrgenommen werden. Sie entstehen bei der Überlagerung von Geräuschkomponenten mit den harmonischen Komponenten und charakterisieren das sog. Gattungstimbre: es lässt den Hörer sofort erkennen, ob es sich bei einem Instrument um ein Streich-, Holzblas-, oder Blechblasinstrument handelt, bevor er noch erkannt hat, ob es sich z. B. um eine Bratsche oder um ein Violoncello handelt. Tab. 2/3. Eigenschaften von Klangspektren und ihre Bedeutung für die Wahrnehmung und die Tonübertragungstechnik. Eigenschaft des Spektrums Frequenzumfang und Teiltonstärke gering Frequenzumfang und Teiltonstärke groß harmonisches Linienspektrum unharmonisches Linienspektrum Geräuschspektrum (kontinuierlich) Formanten (resonanzartiges Hervortreten bestimmter Frequenzbereiche)
Bedeutung für die Wahrnehmung Tonübertragungstechnik Klang weich, nichtlineare empfindlich gegen nichtlineare Verzerrungen leicht Verzerrungen hörbar und Übersteuerungen Klang scharf und laut deutlicher Tonhöhencharakter, Klarheit des Klangs undeutlicher Tonhöhencharakter, Klang „unsauber” Klang geräuschhaft Vokalcharakter (z. B. A-, O-, Ä-Charakter), kennzeichnet v. a. Doppelrohrblatt- und Blechblasinstrumente
Tab. 2/3 fasst die wesentlichen Eigenschaften des Spektrums des quasistationären Klangabschnitts zusammen. Das Amplitudenspektrum gibt keine Auskunft über die Phasenlagen der einzelnen Komponenten. Ihr Einfluss kann hörbar sein, wenn auch nicht so bestimmend wie Pegel und Frequenzen der Klangkomponenten. Etwas vereinfachend können die Einflüsse von Änderungen der Phasenlage auf die Wahrnehmung so zusammengefasst werden [2.12] (siehe auch Kap. 3.3.7): Die Hörbarkeit hängt stark von der jeweiligen Struktur des Spektrums ab; Kopfhörerwiedergabe ist am „phasenempfindlichsten”. Um 1000 Hz nimmt das Gehör 59
Schallquellen Phasenänderungen am deutlichsten wahr. Sie bewirken eine Klangfarbenänderung oder eine Änderung der Klangrauheit. 10/ bis 30/ Phasenverschiebung sind i. Allg. noch nicht hörbar. Diese Forderung wird von den Geräten der Tonstudiotechnik erfüllt. Teiltonaufbau Die periodischen Schwingungsvorgänge des eingeschwungenen Klanges setzen sich aus dem Grundton und Obertönen zusammen, deren Frequenz jeweils ein ganzzahliges Vielfaches der Frequenz des Grundtons ist. Spricht man von Teiltönen, Partialtönen oder Harmonischen, so wird die Grundfrequenz mitgezählt, spricht man von Obertönen, so wird die Grundfrequenz nicht mitgezählt. Naturtöne werden bei den Blasinstrumenten die durch das sog. Überblasen erklingenden Töne genannt; sie entsprechen etwa, aber nicht genau, den Teiltönen. Abb. 2/18 zeigt die ersten 16 Teiltöne der Teiltonreihe. Der 7., 11. und 14. Teilton liegt tiefer, der 13. Teilton höher als der entsprechende Ton in der heute üblichen sog. temperierten Stimmung der Instrumente. Die übrigen Töne sind in der sog. reinen Stimmung, unterscheiden sich also geringfügig von den entsprechenden Tönen unserer temperierten Stimmung. Wegen der einfachen, ganzzahligen Frequenzverhältnisse der Teiltöne zueinander verschmelzen diese vollkommen zu einem einheitlichen Klangeindruck.
Abb. 2/18. Teiltonaufbau eines Klanges entsprechend dem Ton C. Die Teiltöne mit Pfeil nach unten klingen tiefer als notiert, mit Pfeil nach oben höher als notiert.
Der 1. Teilton ist keineswegs immer am stärksten, sehr oft - gerade bei lauten Klängen - liegt die größte Intensität bei höheren Teiltönen. Fällt der Grundton in den Bereich sehr tiefer Frequenzen, so ist seine Intensität meist recht gering. In diesem Fall bildet das Gehör - auch wenn der Grundton völlig fehlt - aus dem Obertonspektrum den Grundton subjektiv nach, den sog. Residualton. Liegt der 1. Teilton im Bereich hoher Frequenzen, so überwiegt er meist in seiner Intensität über die anderen Teiltöne. Sind die ungeradzahligen Teiltöne stärker als die geradzahligen ausgebildet, so wird der Klang gedeckt bis hohl. Beispiele hierfür sind die Klänge der sog. gedackten Orgelpfeifen und der tiefen Tonlage der Klarinette. Das Hervortreten der geradzahligen Teiltöne, insbesondere des 2., 4., und 8. Teiltons, fördert ein helles, offenes Klangbild. Über den jeweiligen Frequenzumfang des Klanges eines Musikinstruments kann nur eine allgemeine Aussage gemacht werden. Dies hängt nicht nur von der Spielweise und dem jeweiligen Instrument ab, sondern insbesondere von der gespielten Dynamikstufe, aber auch von den raumakustischen Verhältnissen. Angaben über Frequenzumfänge haben also stets statistischen Charakter. Unterhalb des 1. Teiltons gibt es keine stationären Schwingungen mehr; nur die Geräuschanteile des Klangs reichen unter die Grundtonfrequenz. Formanten Viele Musikinstrumente haben über ihren ganzen Tonbereich hinweg einen bestimmten, für sie typischen Klangcharakter. Dieser wird einerseits durch die relative Stärke der einzelnen 60
Musikinstrumente Teiltöne bestimmt, andererseits durch sog. Formanten. Wie es bei den Vokalen von Sprache und Gesang bestimmte feste Frequenzbereiche gibt, in denen die Teiltöne - unabhängig von der Lage des Grundtons - verstärkt werden, so wird auch die Klangfarbe von Musikinstrumenten durch einen oder mehrere solcher Formantbereiche charakterisiert. Während bei Streichinstrumenten diese Formantbereiche durch Resonanzen des Resonanzkörpers und des darin eingeschlossenen Luftvolumens aus dem Spektrum der schwingenden Saite herausgehoben werden, werden die Formanten bei den Blasinstrumenten bei der Tonbildung im Mundstück erzeugt. Durch die besondere Schwingungsform des Anblasvorgangs entstehen die Formanten bereits bei der Tonerzeugung, nicht erst durch Resonanzen. Hat ein Instrumentenklang zwei Formanten, so bilden deren Maxima ein charakteristisches einfaches Zahlenverhältnis. Beim Wechsel von einem leisen zu einem lauten Klang springt das Maximum von der tieferen in die höhere Formantstrecke. Geräuschkomponenten Weiterhin sind Geräuschanteile im stationären Klang eine wesentliche Komponente des Klangcharakters eines Musikinstruments. Sie entstehen bei Streichinstrumenten durch das Streichen des Bogens auf der Saite, bei Blasinstrumenten als Anblasgeräusch. Bei Doppelrohrblattinstrumenten (Oboe, Englisch Horn, Fagott) sinkt mit wachsender Gebrauchsdauer des Rohrblatts der Pegel des Geräuschspektrums. Die Nebengeräusche tragen nicht nur zur Klangcharakteristik bei, sondern erhöhen auch die Lebendigkeit des Klangs. Die Flöte enthält als charakteristische Klangkomponente einen besonders deutlich wahrnehmbaren Geräuschhintergrund. 2.3.1.3
Ausklingvorgang
Nach Beendigung der Erregung eines Klanges ist in den Resonanzsystemen des Musikinstrumentes noch Energie gespeichert, die im Ausklingvorgang abgegeben wird. Je weniger ein Resonanzsystem bedämpft ist, desto länger klingt es nach. Meist sind höhere Teiltöne stärker bedämpft, so dass sich beim Ausklingen die Klangfarbe dunkler und weicher färbt. Die längste Nachklingzeit haben Instrumente mit gezupften und geschlagenen Saiten (Cembalo, Gitarre, Harfe, Klavier) und Schlaginstrumente. Da bei diesen Instrumenten eine kontinuierliche Klanganregung fehlt, besteht der ganze Klang nur aus dem Einschwing- und Ausklingvorgang. Die kürzeste Ausklingzeit haben Blasinstrumente. Der Nach- oder Abklingvorgang kann durch verschiedene Kenngrößen erfasst werden (DIN 1311) [2.2]. In der musikalischen Akustik ist eine Definition analog zur Nachhallzeit oder Nachhalldauer (siehe Kap. 1.2.4) als Nachklingzeit bzw. Nachklingdauer besonders anschaulich. Bei Tonaufnahmen kann es bei der langen Ausklingdauer z. B. des Klaviers mit 20 bis 40 s, des Cembalos und der Zupfinstrumente dadurch zu Problemen kommen, dass einzelne Töne z. B. am Schluss eines Satzes sehr lange nachklingen, wenn sie vom Musiker nicht bewusst abgedämpft werden; oft müssen sie dann durch Blenden beendet werden. Ein anderes Phänomen lange nachklingender Instrumente ist die Tatsache, dass sie sozusagen ihren eigenen Nachhall mitbringen, der den Raumhall überdecken kann. So kann es z. B. bei einer Gesangsaufnahme mit Klavier geschehen, dass der Sänger mit Explosivlauten den Raumhall deutlicher anstößt als das Klavier, er also scheinbar in einem größeren Raum ist als das Klavier. Räume mit viel Hall sind für solche Aufnahmen also weniger geeignet. 61
Schallquellen 2.3.1.4
Musikalische Dynamik
Musikalische Dynamik beschreibt die Stärkegrade, mit denen ein Klang auf einem Musikinstrument oder mit der menschlichen Stimme hervorgebracht wird. Die Stufen der Dynamik tragen traditionell italienische Bezeichnungen (Tab. 2/4), wie auch die Tempo- und Vortragsbezeichnungen. Tab. 2/4. Stufen der musikalischen Dynamik. Abkürzung ppp pp p mp mf f ff fff
Dynamikstufe, italienisch pianissimo possibile pianissimo piano mezzopiano mezzoforte forte fortissimo forte fortissimo
Dynamikstufe, deutsch so leise wie möglich sehr leise leise halbleise halblaut laut sehr laut so laut wie möglich
Die einzelnen Dynamikstufen oder -grade sind zwar durch den Pegel des Klangs gegeben, weit wichtiger ist aber ihre jeweils spezifische Klangstruktur. Es ist nämlich nicht möglich, durch einfaches Erhöhen der Abhörlautstärke oder durch Annäherung an die Schallquelle – in beiden Fällen steigt der Pegel an - aus einem pp-Klang einen ff-Klang zu machen. Die verschiedenen Dynamikstufen sind wohl mit verschiedenen Pegelabstufungen verbunden, umgekehrt können aber verschiedene Pegelabstufungen allein nicht unterschiedliche Dynamikstufen erzeugen. Die Abstufung der Dynamik ist eines der wesentlichen musikalischen Gestaltungsmittel. Sie wird durch unterschiedliche Klangerzeugung erreicht. Die dynamischen Grade unterscheiden sich außer in Dauer und Struktur des Einschwingvorgangs hauptsächlich im spektralen Aufbau des quasistationären Klangs. Je stärker der dynamische Grad ist, umso mehr Teiltöne werden ausgebildet und umso mehr erhöht sich der Pegel der höheren Teiltöne. Abb. 2/19 zeigt dies am Beispiel verschiedener Klarinettenspektren. Abb. 2/19 lässt deutlich erkennen, dass die spektralen Unterschiede der Dynamikstufen bei dem tiefen Ton viel ausgeprägter sind als bei dem hohen. Wegen der geringeren Anzahl von Teiltönen bei hohen Tönen sind hier nicht nur die Spektren der Dynamikstufen relativ ähnlich, überhaupt nähern sich die verschiedenen Instrumente in ihren Spektren einander an. Natürlich steigt mit der Stärke eines Klanges auch sein Pegel an, aber dies geschieht auch, wenn man sich einer Schallquelle nähert, wenn man die raumakustischen Gegebenheiten verändert oder bei der Aufnahme den Pegel anhebt. Dies bewirkt aber keine Klangveränderung im Sinne einer Steigerung des Dynamikgrades. Abb. 2/20 gibt einen ungefähren Überblick über die zu erwartenden Dynamikbereiche bei Ausnutzung der spieltechnischen Möglichkeiten, auch über das Verhältnis der Pegel der verschiedenen Instrumente zueinander [2.13]. Besonders starke Pegelunterschiede zeigen Klarinette, Horn, Posaune und Pauke. Bei den Tasteninstrumenten haben Klavier und Orgel eine sehr große Variationsbreite des Pegels, das Cembalo eine recht geringe.
62
Musikinstrumente
Abb. 2/19. Klarinettenspektren in verschiedenen Dynamikstufen, links: tiefer Ton, rechts: hoher Ton.
Abb. 2/20. Dynamikumfang von Musikinstrumenten, Orchester und Stimme.
Streichinstrumente sind durchschnittlich halb so laut wie Holzblasinstrumente, d. h. um etwa 10 dB niedriger im Pegel; Holzblasinstrumente sind ihrerseits 5 bis 10 dB niedriger als Blechblasinstrumente. Die Gesamtdynamik eines Orchesters kann bis 60 bis 80 dB betragen, je nach Besetzung und Stil der Musik sowie je nach ihrer Interpretation. Die Dynamikwerte bei Studioproduktionen sind i. Allg. höher als bei Konzerten mit Publikum, weil die Abwesenheit von Saalgeräuschen hier ein besonders leises Pianissimo zulässt. 63
Schallquellen 2.3.1.5
Stimmung der Instrumente
Die Stimmung eines Instruments umfasst zwei Festlegungen: 1. die Festlegung der absoluten Tonhöhe durch Definition des Kammertons a', 2. die Festlegung der relativen Tonhöhen der einzelnen Töne zueinander. Die absolute Tonhöhe wird nach einer Stimmgabel oder einem elektrischen Generator auf Grund des geltenden Stimmtons (DIN 1317, ISO 16) eingestimmt. Orchester übernehmen den Stimmton traditionell von der Oboe bzw. dem Klavier oder der Orgel. Seit 1939 hat der Stimmton bei 20/ C die Frequenz 440 Hz (Londoner Konferenz), 1971 wurde diese Empfehlung vom Europarat nochmals bekräftigt. Meist wird jedoch höher als der genormte Stimmton eingestimmt, z. B. oft bei 442, aber auch bis 445 oder gar 450 Hz. Die Stimmtonhöhe hat in der Vergangenheit verschiedenste Werte angenommen. Sie hing von der Gattung ab (Opernton, Kammerton, Chorton, Cornettton), war aber auch von Ort zu Ort verschieden. Demnach kann es keine einheitlich richtige „historische Stimmung” geben, i. Allg. versteht man heute darunter einen Kammerton von 415 Hz; ein Halbton unterhalb 440 Hz. Für die relative Stimmung der einzelnen Töne untereinander ist heute die sog. „temperierte Stimmung” oder genauer „gleichschwebend temperierte Stimmung” in Gebrauch. Temperiert gestimmt sind alle Instrumente, bei denen der Spieler keinen oder wenig Einfluss auf die Bildung der Tonhöhe hat, wie z. B. das Klavier. Bei dieser Stimmung sind alle Halbtöne gleich groß und haben das Frequenzverhältnis von 12 2 /1 oder etwa 106:100 (ein Halbton = 100 Cent). Damit gibt es keine Unterschiede zwischen den Tonarten auf Grund der relativen Stimmung. Demgegenüber werden Instrumente, bei denen der Spieler erst während des Spiels die genaue Tonhöhe fixiert, was hauptsächlich bei Streichinstrumenten zutrifft, teils in der sog. „reinen Stimmung” gespielt, zumal dann, wenn sie nicht mit temperiert gestimmten Instrumenten zusammenspielen, sondern untereinander Akkorde intonieren. Bei dieser Stimmung haben die Intervalle ganzzahlige, einfache Frequenzverhältnisse; sie klingt deshalb besonders rein; in der reinen Stimmung hat z. B. eine Quinte das Frequenzverhältnis 3/2, in der temperierten Stimmung 7 2 /1. Allerdings kann diese Stimmung in der Praxis nur angewendet werden, wenn die Tonhöhe ständig beeinflusst werden kann, also besonders bei Sängern sowie Streich- und Blasinstrumenten. Bevor sich die gleichschwebend temperierte Stimmung nach 1800 durchsetzen konnte, waren verschiedene andere „temperierte Stimmungen” in Gebrauch, die die unterschiedlichsten Kompromisse zwischen reiner und gleichschwebend temperierter Stimmung darstellen: in der Renaissance die sog. „mitteltönigen Stimmungen”, zwischen 1600 und 1800 die sog. „Barockstimmungen”. Sie geben den einzelnen Tonarten unterschiedliche Intervallstrukturen und damit auch einen speziellen, individuellen Klangcharakter [2.14], [2.15].
2.3.2
Akustische Instrumente
Nachfolgend werden die akustischen Eigenschaften der Musikinstrumente beschrieben. Für instrumentenkundliche Fragen wird auf die zahlreich vorhandene Literatur verwiesen, z. B. [2.9], [2.16], [2.17], [2.18]. Tab. 2/5 fasst die wichtigsten akustischen Eigenschaften der Instrumente zusammen.
64
Musikinstrumente 2.3.2.1
Streichinstrumente
Von den verschiedenen Typen der Streichinstrumente, die im Laufe der Geschichte entwickelt und gespielt wurden, sind in der heutigen Musikpraxis v. a. die Violine oder Geige (franz.: violon, ital.: violino, engl.: violin), die Viola oder Bratsche (franz.: alto, ital.: viola, alto, engl.: viola), das Violoncello, oft umgangssprachlich mit Cello abgekürzt, (franz.: violoncelle, ital.: Violoncello, engl.: Violoncello) und der Kontrabass (franz.: contrebasse, basse double, ital.: violone, contrabasso, basso, engl.: double bass) in Gebrauch. Im grundsätzlichen Aufbau gleichen sich diese Instrumente, sie unterscheiden sich aber in ihrer Größe und damit in ihrem Tonbereich. Lediglich der Kontrabass weicht in einigen Konstruktionsmerkmalen vom Typus dieser Instrumente ab. Der Spieler streicht mit dem mit Pferdehaar bespannten Bogen oberhalb des Steges über die Saiten, die er dadurch zum Schwingen erregt. Die Saitenschwingungen werden über den Steg auf den Schallkörper (Resonanzkörper) übertragen und von diesem umgeformt und abgestrahlt. Das Streichen wird in den Noten mit „(col) arco”, das Zupfen mit „pizzicato” (Abk. pizz.) bezeichnet. Durch einen auf den Steg aufgesetzten Dämpfer („sordino”) wird die Eigenresonanz des Stegs herabgesetzt, der Klang wird dadurch schwächer.
Abb. 2/21. Grundtonbereiche der Streichinstrumente (schwarze Noten), Saitenstimmung (weiße Noten).
Den Tonumfang der Grundtöne der Instrumente sowie die Stimmung der Saiten zeigt Abb. 2/21. Der Kontrabass, der im Orchester gespielt wird, hat noch eine fünfte Saite. Kontrabass und Violoncello werden hauptsächlich im Bassschlüssel notiert. Der Kontrabass wird eine Oktave höher notiert als er klingt. Für Aufführungen der Musik des Barocks werden oft Gamben, insbesondere die Tenorgambe (Viola da gamba), die etwa in der Tonlage des Violoncellos steht, verwendet. Der Kontrabass, der aus der Familie der Gamben stammt, hat noch Merkmale dieser Instrumente. Es gibt allerdings auch Kontrabässe in Violinform, sog. Violinbässe (Violone). Die Violine [2.19], [2.20] hat einen relativ unregelmäßigen Teiltonaufbau, der sich oft von Ton zu Ton ändert. Ursache hierfür sind die komplizierten Resonanzeigenschaften des Resonanzkörpers, auf die Materialeigenschaften und Konstruktion großen Einfluss nehmen. Der Pegel des Grundtons überragt nur im Frequenzbereich oberhalb etwa 640 Hz den Pegel höherer Teiltöne, bei den tiefsten Tönen liegt er sogar bis 25 dB unter dem Pegel des jeweils stärksten Teiltons. Ein wichtiges Qualitätsmerkmal des Violinklangs ist die Ausprägung von Formanten, die der Violine einen gesanglichen Klangcharakter verleihen. Eine typische Formantlage für die tiefen Töne ist der Bereich um 275 Hz, verursacht von der Hohlraumresonanz des Resonanzkörpers; ein wichtiges zweites Formantgebiet liegt zwischen 500 und 700 Hz.
65
Schallquellen Tab. 2/5: Übersicht über die Klangeigenschaften der Musikinstrumente. Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Violine
Violinschlüssel
g - etwa c'''' – 196-2100 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Frequenzkomponenten bis etwa 10 kHz
Viola
Bratschenschlüssel (Altschlüssel)
c - etwa c'" – 130-1050 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Frequenzkomponenten bis etwa 7 kHz, max. 10 kHz
Violoncello
Bassschlüssel (hohe Stellen im Tenor- bzw. Violinschlüssel)
C - etwa c" – 65-520 Hz
große Variabilität, im tiefen Bereich Grundton schwach, Frequenzkomponenten bis etwa 7 kHz, max. 10 kHz
Kontrabass
Bassschlüssel transponierend (wird eine Oktave höher notiert)
E' (C) - etwa c' – 41 (33) - 260 Hz
große Variabilität, Grundton schwach, Frequenzkomponenten bis 7 kHz, über 1,5 kHz (hohe Lage 2,5 kHz) schwach
Horn in F
H' - etwa f' – 62 - 700 Hz Violinschlüssel (Bassschlüssel) trans- (Instrument in F) ponierend, wird eine Quinte höher (Quarte tiefer) notiert
Trompete in B
Violinschlüssel transponierend (wird ein Ganzton höher notiert)
unterer Tonbereich durch Formanten, oberer durch das Überwiegen des Grundtons gekennzeichnet, Frequenzkomponenten bis über 5 kHz (ff)
e - etwa d'" – 164 - 1175 Hz (Instrument in B)
sehr obertonreich, Frequenzkomponenten bis 15 kHz (ff), Grundton im ganzen Tonbereich schwach
E - etwa c" – 82 - 520 Hz (Tenorposaune)
Grundton schwach, obertonreich, Frequenzkomponenten bis 5 kHz (mf), über 10 kHz (ff)
Posaune Altposaune Tenorposaune Bassposaune
Altschlüssel Tenorschlüssel Bassschlüssel
Tuba
Bassschlüssel
etwa B" - a' – 29-440 Hz
Grundton schwach, Frequenzkomponenten nur bis 1,5-2 kHz
Klavier
Violin- und Bassschlüssel
A" - c'"" – 27,5 - 4200 Hz
gleichmäßig abnehmende Obertonamplitude, Grundton überwiegt (außer in der tiefen Lage), Frequenzkomponenten bis über 10 kHz
Cembalo
Violin- und Bassschlüssel
C - f" (u.a.) – 65 - 1400 (2800) Hz
Grundton schwach, sehr obertonreich, Frequenzkomponenten bis über 6 kHz
66
Musikinstrumente
Quasistationärer Zustand Formantbereiche um 400 Hz, 800-2000 Hz, 2000-2600 Hz, 3000-4000 Hz um 220, 350, 600 und 1600 Hz (3000-3500 Hz)
Einschwingvorgang
Ausklingvorgang
Geräuschkomponenten relativ starkes, typisches Anstrichgeräusch, starker Einfluss der Streichart
30-60 ms, bei weichem Klangeinsatz bis 300 ms, Geräuschkomponenten, beim pizz. 10 ms
beim gestrichenen Ton Abreißen des Klangs, beim pizz. 40-800 ms
30-60 ms, bei weichem Klangeinsatz bis 200 ms, Geräuschkomponenten, beim pizz. 10 ms
beim gestrichenen Ton Abreißen des Klangs, beim pizz. 50-600 ms
60-100 ms, bei kurzen beim gestrichenen Ton Abreißen Klangen sehr geräuschhaltig, des Klangs, beim pizz. 50-200 ms Grundton spricht zuletzt an (pp), bis 1,4 s (ff)
um 250 Hz, zwischen 300 und 500 Hz, 600 und 900 Hz, Senke zwischen 1000 und 1200 Hz zwischen 70 und 250 Hz, um 400 Hz (um 800 Hz nur in der hohen Lage)
relativ starkes, typisches Anstrichgeräusch („Sirren") Frequenzkomponenten bis 10 kHz
100-200 ms, bei kurzen Tönen sehr geräuschhaltig und näselnd, beim pizz. 15-25 ms
beim gestrichenen Ton Abreißen des Klangs, beim pizz. durchschnittlich etwa 1 s (max. 1,6 s)
um 340 Hz (750, 1225, 2000 und 3500 Hz), nur im unteren Tonbereich
schwach
20-100 ms, „Vorläuferimpuls” (Frequenzkomponenten bis 1 kHz)
Abreißen des Klangs
1200-1500 Hz (2000 und 3000 Hz)
20-180 ms, sehr prägnanter Klangeinsatz durch kurzen „Vorläuferimpuls” (Frequenzkomp. bis 2-3 kHz)
480-600 Hz, 1200 Hz
schwacher „Vorläuferimpuls”, 20-40 ms, bei weichem Klangeinsatz etwa 70 ms
210-230 Hz
kurzer Klangeinsatz
selten vorhanden
vorhanden, in einzelnen Bereichen mit größerer Amplitude
10-30 ms, sehr geräuschhaltig
20-30 s (tiefer Tonbereich), 5-10 s (hoher Tonbereich), wenn nicht früher abgedämpft wird
500-700 Hz, 2000-3000 Hz
schwach
sehr kurz
ähnlich wie beim Klavier
67
Schallquellen
Instrument
Notation
Quasistationärer Zustand Grundtonumfang
Obertonstruktur
Große Flöte
Violinschlüssel
h - etwa c"" – 247 - 2100 Hz Grundton überwiegt, mit steigender Obertonfrequenz abnehmende Teiltonintensität, Frequenzbereich bis 3-6 kHz
Kleine Flöte
Violinschlüssel transponierend (wird eine Oktave tiefer notiert)
d" - c'"" – 587 - 4200 Hz
wie Große Flöte, jedoch Frequenzkomponenten bis 10 kHz
Oboe
Violinschlüssel
h(b) - etwa f" – 247 - 1400 Hz
obertonreich, Grundton schwach, Frequenzkomponenten bis 9 kHz (mf), über 12 kHz (ff)
Englisch Horn
Violinschlüssel trans- e (es) - b" – 165 - 933 Hz ponierend (wird eine Quinte höher notiert)
wie Oboe
Klarinette in B (A)
Violinschlüssel trans- d (eis) - etwa g"' ponierend, wird einen – 147 - 1570 Hz Ganzton (kleine Terz) höher notiert
d-d': ungeradzahlige Obertöne schwach, es'-g": nur noch 1. Oberton schwach, über g": gleichmäßiger Obertonaufbau
Bassklarinette in B
Violinschl. transpon., D (Cis) - etwa f'' eine None höher no- – 74 - 700 Hz tiert, Bassschl. transponierend ein Ganzton höher notiert
Grundton stark, ungeradzahlige Obertöne noch schwächer als bei der Klarinette
Fagott
Bassschlüssel (Tenorschlüssel)
Kontrafagott
Bassschlüssel transB" - etwa c' – 29 - 260 Hz ponierend (wird eine Oktave höher notiert)
obertonreich, Grundton schwach
Pauke
Bassschlüssel
keine harmonische Struktur, jedoch dominierende Komponenten, die dem Paukenschlag eine bestimmbare Tonhöhe geben
Trommel
in einem Notensystem keine bestimmbare Tonhöhe oder auf einer einzelnen Linie (moderne Notation)
Becken
Triangel
68
B' - etwa c" – 58 - 520 Hz
Große Pauke: etwa D - c – 73 - 130 Hz Kleine Pauke: etwa H - g – 124 - 196 Hz
obertonreich, Frequenzkomponenten im ff bis über 12 kHz
Musikinstrumente
Quasistationärer Zustand Formantbereiche keine typischen Formanten
Einschwingvorgang
Geräuschkomponenten Geräuschkomponenten mit Tonhöhencharakter (mit dem jeweiligen Grundton identisch)
charakteristisch durch Vorläuferton (etwa 50 ms) und Geräuschanteile, von allen Holzblasinstrumenten am längsten
wie Große Flöte keine typischen Formanten (gelegentlich Nebenformant bei 3000Hz)
ähnlich wie Große Flöte
bei 1100 Hz, gering bei 2700 und 4500 Hz
sehr klar, keine Geräuschanteile, 20-40 ms, auch im staccato noch klar
bei 1000 Hz, bei 2000 und 4000 Hz (bei 750 Hz)
wie Oboe, im staccato noch kürzer (im ganzen Tonbereich 15 ms)
nur im oberen Tonbereich (über g"), zwischen 3000 und 4000 Hz
klar und prägnant (15-20 ms) ohne Geräuschanteile, weicher Einsatz etwa 50 ms
keine typischen Formanten
ähnlich wie Klarinette
500 Hz (1150, 2000 und 3500 Hz)
im pp besonders im Bereich um 3000 Hz
250 Hz (400-500, 800 Hz) keine Formatstruktur
Ausklingvorgang
Abreißen des Klangs
klar und prägnant, ohne Geräuschanteile klar (etwa 35 ms)
starke Frequenzkomponenten bis 1000 Hz, schwächer bis etwa 4 kHz
bis 50 ms, keine Geräuschanteile bis 300 ms, harmonischen Komponenten 1. Oberton bis 1 s
Frequenzkomponenten bis 1500 kHz (Große Tr.), 8000 Hz (Kleine Tr.)
maximal 50 ms
Frequenzkomponen- etwa 400 ms ten zwischen 800 und 9500 Hz Frequenzkomponenten zwischen 1000 und 17000 Hz, stark um 13000 Hz
etwa 200 ms
69
Schallquellen Gute Instrumente zeigen besonders zwischen 190 und 650 Hz sowie zwischen 1300 und 4000 Hz relativ starke Teiltonbereiche. Weitere Formanten sind zwischen 2000 und 2600 Hz sowie zwischen 3000 und 4000 Hz. Relativ stark sind die Geräuschanteile ausgebildet, die durch das Streichen entstehen. Sie können bis 30 dB stärker als bei Blasinstrumenten sein. Der Geräuschpegel nimmt in demselben Maße zu wie der Gesamtpegel. Der Spieler kann die Klangfarbe und Lautstärke mit der Bogenführung innerhalb bestimmter Grenzen beeinflussen: Die Streichgeschwindigkeit bestimmt vor allem die Lautstärke, der Bogendruck und die Anstrichstelle auf der Saite die Klangfarbe [2.21]. Da die Viola im Bau der Violine entspricht und nur unerheblich größer als diese ist, sind ihre Klangeigenschaften auch sehr ähnlich. Die Viola ist etwas obertonärmer als die Violine. Die Formantgebiete liegen etwas tiefer, nämlich bei etwa 220, 350 und 600 Hz. Ein weiteres Formantgebiet um 1600 Hz gibt der Viola oft einen etwas näselnden Klang. Wie bei der Violine sind die Grundtöne der tiefsten Töne beim Violoncello sehr schwach ausgeprägt, sie liegen oft bis zu 20 dB unter den stärksten Komponenten dieser Klänge. Oberhalb von etwa 3000 Hz sind die Teiltöne relativ schwach. Typische Formantgebiete liegen um 240 Hz, zwischen 300 und 500 Hz sowie zwischen 600 und 900 Hz. Manche Instrumente haben bei 1500 Hz beim Spiel auf der A-Saite einen Formanten, der ähnlich wie bei der Viola dem Klang näselnden Charakter verleiht. Andere Instrumente besitzen zwischen 2000 und 3000 Hz ein Formantgebiet, das den Klang hell färbt. Typisch für den Violoncelloklang ist eine ausgesprochene Senke im Spektrum zwischen 1000 und 1200 Hz, also im Bereich des stärksten Violinformanten. Die Einschwingzeit des Violoncelloklanges liegt bei 60 bis100 ms. Dadurch spricht bei schnellen Tonfolgen der Grundton oft nicht richtig an, der Klang wird in diesem Fall spitz und geräuschhaltig. Auch beim Kontrabass sind die Grundtöne im tiefsten Tonbereich schwach ausgebildet, ihr Pegel ist sogar um etwa 30 dB geringer als derjenige der stärksten Teiltöne. Die wichtigsten Klangkomponenten für die tiefen Kontrabasstöne liegen im Frequenzbereich zwischen etwa 70 und 250 Hz, ein Nebenformant liegt bei 400 Hz. Harmonische Anteile über 1500 Hz treten kaum auf. Im Bereich der höheren Kontrabasstöne erweitert sich das Spektrum bis etwa 2500 Hz. Höher als die harmonischen Klanganteile reicht das Geräuschspektrum mit seinem typischen „Sirren”, hervorgerufen durch das Anstreichen. Es tritt vor allem dann hervor, wenn die Kontrabässe allein spielen, da es anderenfalls durch den Klang höherer Instrumente im Gehöreindruck verdeckt wird. Der Einschwingvorgang dauert verglichen mit anderen Streichinstrumenten relativ lange. Deshalb entwickelt der Kontrabass bei schnellen Tonfolgen nicht seine Klangfülle; außerdem treten hierbei die starken Geräuschanteile des Einschwingvorgangs besonders hervor. 2.3.2.2
Holzblasinstrumente
Holzblasinstrumente [2.22], [2.23], kurz auch einfach „Holz” genannt, ist die Sammelbezeichnung für eine Gruppe von Instrumenten des Orchesters, die vor allem Flöte (franz.: flute, ital.: flauto, engl.: flute), Oboe (franz.: hautbois, ital.: oboe, engl.: oboe), Klarinette (franz.: clarinette, ital.: clarinetto, engl.: clarinet), Saxophon (franz. und engl.: Saxophone, ital.: saxofono) und Fagott (franz.: basson, ital.: fagotto, engl.: basson) einschließlich ihrer Sonderformen umfasst. Wohl ist die Mehrzahl dieser Instrumente aus Holz, aber auch entsprechende Konstruktionen aus Metall (Flöte, Saxophon) werden zu den Holzblasinstrumenten gezählt, da sie 70
Musikinstrumente sich in ihrer Spielweise grundsätzlich von den Blechblasinstrumenten unterscheiden. Der Klang wird entweder durch das Anblasen einer Kante (Flöte), die Schwingung eines „einfachen Rohrblatts” (Klarinette, Saxophon) oder eines „doppelten Rohrblatts” (Oboe, Fagott) als stehende Welle einer Luftsäule erzeugt. Die Tonhöhe wird hauptsächlich durch Schließen oder Öffnen der Grifflöcher, was eine Längenveränderung der schwingenden Luftsäule bewirkt, verändert. Außer dem Grundton der schwingenden Luftsäule können auch deren Obertöne angeblasen werden. Da sie nicht ideal harmonisch zum Grundton liegen, werden sie zur Unterscheidung Naturtöne genannt. Die Grundtonumfänge der wichtigsten Holzblasinstrumente zeigt Abb. 2/22.
Abb. 2/22. Grundtonumfänge der Holzblasinstrumente.
Den Klang der Flöte (Große Flöte, Querflöte) charakterisiert ein sehr gleichmäßiger Teiltonaufbau: mit Ausnahme der tiefsten Töne und sehr lauter Töne ist der Grundton am stärksten, was so deutlich sonst bei keinem Orchesterinstrument zutrifft; die Amplitude der Teiltöne nimmt mit steigender Ordnungszahl ziemlich stetig ab. Formanten gibt es dabei kaum; wenn solche doch vorhanden sind, kennzeichnen sie nicht den Flötenklang als solchen, sondern den individuellen Klangcharakter des einzelnen Instruments. Die Anblasgeräusche können ziemlich stark hervortreten. Die höchsten Klangkomponenten liegen je nach der Höhe des angeblasenen Tones bei 3000 bis 6000 Hz. Typisch für den leisen Flötenklang ist eine starke Schwankung in der zeitlichen Pegelfeinstruktur. Von allen Blasinstrumenten benötigt die Flöte die längste Zeit zum Einschwingen. Kennzeichnend dafür sind die sog. „Vorläufertöne”, kurze Töne im Frequenzbereich zwischen 2000 und 4000 Hz, die vor dem eigentlichen Ton anklingen und dem Klangeinsatz eine besondere Eigenart verleihen. Die Kleine Flöte oder Piccoloflöte steht im Tonumfang etwa eine Oktave höher als die Große Flöte. Ihre Klangeigenschaften entsprechen denjenigen der Großen Flöte. Die harmonischen Klangkomponenten reichen aber bis etwa 10 000 Hz. Der Klang der Oboe ist sehr hell und offen. Dies bewirken einerseits die stark ausgeprägten Obertöne, die im Mezzoforte-Klang bis etwa 9000 Hz, im Fortissimo-Klang bis 12 000 Hz reichen, andererseits der deutlich ausgeprägte Hauptformant bei 1100 Hz und die Nebenformanten bei 2700 und 4500 Hz. Die Grundtöne sind schwach ausgebildet und liegen etwa 25 dB unter dem Pegel der stärksten Komponenten. Im Bereich der höchsten Oboentöne treten die Formanten weitgehend zurück. Der Klang verliert hier deshalb an Eigenart. Piano- und Forteklang unterscheiden sich in der Klangfarbe sehr stark. Die Einschwingzeit des Klanges ist sehr kurz, Geräuschanteile treten dabei kaum auf. Deshalb eignet sich die Oboe auch für das Spiel sehr kurzer Töne. Das Englisch Horn (franz.: cor anglais, ital.: corno inglese) ist eine Variante der Oboe mit um eine Quinte tieferen Tonbereich. Sie besitzt einen birnenförmigen Schallbecher. Die Klangeigenschaften entsprechen denen der Oboe, der Hauptformant liegt etwas tiefer, nämlich bei 71
Schallquellen 1000 Hz. Bei 700 Hz liegt ein charakteristischer Nebenformant. Eine weitere Variante der Oboe ist die Oboe d'amore, sie ist ähnlich wie das Englisch Horn gebaut, ihr Tonbereich beginnt jedoch zwei Ganztöne höher als bei diesem. Der Klang der Klarinette ist nicht im ganzen Tonbereich einheitlich, man spricht deshalb von den verschiedenen Registern der Klarinette. Im Tonbereich zwischen d und d' ist das Übergewicht der ungeradzahligen Teiltöne klangbestimmend, dieses lässt sich bis zum 15. Teilton verfolgen. Die Pegelunterschiede zu den geradzahligen Teiltönen betragen etwa 25 dB, teilweise sogar bis 40 dB. Im Tonbereich von es' bis g” ist nur noch der zweite Teilton schwach ausgebildet, im Übrigen ist der Teiltonaufbau relativ gleichmäßig. Oberhalb von gis” ist schließlich der Grundton am stärksten, an ihn schließt sich eine stetig fallende Obertonreihe an (Abb. 2/19). Für dieses höchste Register bildet sich ein Formant zwischen 3000 und 4000 Hz aus, während bei den tieferen Registern keine charakteristischen Formanten zu finden sind. Kennzeichnend für den Klarinettenklang ist auch der geringe Geräuschanteil, der v. a. im obersten Register die Klarheit und Helligkeit des Klangs fördert. Die Klarinette bietet eine außerordentlich große Dynamik. Mit der Dynamikstufe ändert sich der Teiltonaufbau sehr stark. Während im pp in der eingestrichenen Oktave das Spektrum nur bis etwa 1500 Hz reicht, enthält es im ff Komponenten bis über 12 000 Hz. Die Einschwingvorgänge sind wie die der Oboe kurz, prägnant und ohne wesentliche Geräuschanteile. Bei der Bassklarinette treten die ungeradzahligen Teiltöne noch stärker hervor als bei der normalen Klarinette, ihr Klang ist dadurch noch düsterer und hohler. Das Saxophon besitzt wie die Klarinette ein einfaches Rohrblatt, ist aber konisch und aus Metall. Es ist aus der Kombination der Bassklarinette mit der Ophikleide, einem Blechblasinstrument in der Basslage, um 1840 von dem Belgier Adolf Sax entwickelt worden. Das Instrument wird in acht Tonlagen gebaut: Sopranino, Sopran, Alt, Tenor, Bariton, Bass, Kontrabass. Im Klang sind die ersten Obertöne stark ausgebildet. Auf Grund seiner konischen Form werden die geradzahligen Obertöne ebenso stark wie die ungeradzahligen angeregt. Der Fagottklang ist wie der Oboenklang sehr obertonreich. Kennzeichnend ist ein scharf ausgeprägter Hauptformant bei 500 Hz, der dem Fagottklang den Vokalcharakter eines „o” verleiht. Nebenformanten liegen bei 1150, 2000 und 3500 Hz. Im ff geht das Spektrum bis über 12 000 Hz hinaus. Der Klangeinsatz ist wie bei der Oboe präzis und kurz, Geräuschanteile spielen dabei keine wesentliche Rolle. Das Kontrafagott reicht mit seinem Tonumfang eine Oktave tiefer als das Fagott. Seine Grundtonfrequenzen gehen bis etwa 30 Hz hinunter. Der Hauptformant liegt um 250 Hz. 2.3.2.3
Blechblasinstrumente
Blechblasinstrumente [2.25], Sammelbezeichnung für Trompete (franz.: trompette, ital.: tromba, clarino, engl.: trumpet), Horn (franz.: cor, ital.: corno, engl.: french horn), Posaune (franz., ital., engl.: trombone) und Tuba nebst ihren Nebeninstrumenten besitzen verglichen mit den Holzblasinstrumenten eine sehr lange Resonanzröhre aus Blech. Die einzelnen Instrumententypen unterscheiden sich hauptsächlich in der Formgebung dieser Röhre und des Mundstücks. Beim Spiel wird weitgehend von der Naturtonreihe der Röhre Gebrauch gemacht, indem durch verschiedene Lippenspannungen die einzelnen Naturtöne der stehenden Welle im Rohr angeblasen werden. Zur Erzeugung der Töne, die zwischen den Naturtönen 72
Musikinstrumente liegen, kann die Länge des Rohrs und damit der Tonhöhe durch Ventile (Trompete, Horn, Tuba) oder ein ausziehbares Rohrstück, einen Zug, (Posaune) um bis zu etwa 40 % verlängert werden. Die Tonumfänge zeigt Abb. 2123.
Abb. 2/23. Grundtonumfänge der Blechblasinstrumente.
Wie bei allen Blechblasinstrumenten lassen sich auch beim Horn die Spektren in zwei Gruppen aufteilen: Im unteren Tonbereich kennzeichnet ein Formant den Klang, während im oberen Tonbereich der Grundton am stärksten hervortritt und die Obertöne mit steigender Ordnungszahl relativ gleichmäßig in ihrem Pegel abnehmen. Im unteren Tonbereich ist ein Formant um 340 Hz kennzeichnend. Mit zunehmender Lautstärke gewinnen noch weitere Formanten bei 750, 1250 und 2000 Hz an Bedeutung. Im pp reicht das Spektrum etwa bis 1500 Hz, im ff bis über 5000 Hz. Die Geräuschanteile sind sehr gering. Frequenzanteile unter 200 Hz nehmen relativ wenig Einfluss auf den Klangcharakter, da sie schwach ausgeprägt sind. Der Klangeinsatz ist durch einen kurzen „Vorläufer-Impuls” gekennzeichnet, der vorwiegend harmonische Klangkomponenten unter 1000 Hz enthält. Ein zu stark ausgeprägter Vorläufer-Impuls tritt als „Kiekser” störend in Erscheinung. Beim „gestopften” Horn, bei dem die rechte Hand des Spielers die Stürze teilweise verschließt, werden die Klangkomponenten um 3000 und über 10 000 Hz formantar-tig verstärkt. Gestopft wirkt der Klang wie aus größerer Entfernung. Die Trompete ist eines der obertonreichsten Instrumente des Orchesters. Bereits bei geringen Lautstärken reicht ihr Spektrum bis über 5000 Hz hinaus, im ff sogar bis an die Hörgrenze. Ein starker Hauptformant liegt bei 1200 bis 1500 Hz, Nebenformanten bei 2000 und 3000 Hz. Der Grundton überwiegt nur bei den höchsten Tönen, wodurch ein gleichmäßig heller Klang gefördert wird. Geräuschanteile sind sehr schwach. Den prägnanten Klangeinsatz der Trompete kennzeichnet - wie den des Horns - ein Vorläufer-Impuls, dessen Spektrum im Bereich zwischen 2000 und 3000 Hz ein Maximum hat. Durch verschiedene, in die Klangstürze eingesetzte Dämpfer kann der Klang stark verändert werden: Der normale, konische Dämpfer unterdrückt vor allem die Frequenzen unter 1500 Hz und hebt Frequenzen über 4000 Hz an, der gewölbte Dämpfer unterdrückt die Komponenten über 2500 Hz. Mit dem Wah-WahDämpfer kann die Klangfarbe durch Verschieben der Formanten während des Spiels variiert werden. Das Posaunenspektrum ist durch einen Formanten zwischen etwa 480 und 600 Hz gekennzeichnet, ein weiterer wichtiger Formant liegt um 1200 Hz. Darüber nimmt die Amplitude der Teiltöne relativ langsam ab, so dass im mf das Spektrum noch bis 5000 Hz reicht. Der Grundton dominiert selten. Beim Einschwingvorgang tritt nur ein schwacher Vorläufer-Impuls auf. Das Spektrum der Tuba (Basstuba und Kontrabasstuba) reicht nur etwa bis 1500 Hz, im oberen Tonbereich bis 2000 Hz, der Klang ist also obertonarm. Auch die Grundtöne sind 73
Schallquellen relativ schwach ausgebildet. Der Hauptformant liegt zwischen 210 und 250 Hz. Die Einschwingzeit der Töne ist sehr kurz; dadurch wirkt die Tuba prägnant trotz des geringen Obertonanteils. 2.3.2.4
Klavier und Cembalo
Der Klavierklang setzt sich aus dem Einschwing- und Ausklingvorgang zusammen. Einen quasistationären Zeitabschnitt wie bei Blas- und Streichinstrumenten gibt es nicht. Der Einschwingvorgang dauert sehr kurz, er ist durch die Spielweise bei gleich bleibender Lautstärke praktisch nicht zu beeinflussen. Beim Ausklingvorgang überwiegt der Grundton, abgesehen von dem Bereich der tiefen Töne. Der Pegel der Obertöne nimmt mit steigender Ordnungszahl stetig ab. Charakteristische Formanten treten nicht auf. Das Spektrum reicht bis über 10 000 Hz in den oberen Tonlagen, bis etwa 3000 Hz in den unteren Tonlagen. Die Stärke der Obertöne ist von der erzeugten Klangstärke und damit vom Anschlag abhängig. Mit einer Taste des Klaviers werden jeweils - mit Ausnahme der tiefsten Töne - mehrere Saiten gleichzeitig angeschlagen. Dadurch entstehen Schwebungen (Amplitudenschwankungen). Kennzeichnend für den Klavierklang sind auch die relativ ausgeprägten Geräuschanteile beim Einschwingvorgang. Eine weitere Besonderheit ist, dass die Obertöne nicht streng harmonisch liegen, also nicht exakt ganzzahlige Vielfache der Grundfrequenz sind, sondern jeweils etwas höher liegen, die Obertonreihe ist gespreizt. Dieser Effekt - verursacht durch die relative Dicke der Saiten - tritt besonders bei kleinen Instrumenten mit ihren kürzeren Saiten auf und mindert deren Klangqualität. Das Cembalo, wichtigstes Tasteninstrument des Barock, zeichnet sich durch großen Obertonreichtum und besonders langsames Ausklingen aus. Ein Bereich starker Klangentwicklung liegt zwischen 500 und 700 Hz, ein weiterer Bereich zwischen 2000 und 3000 Hz. Tiefe Klangkomponenten sind schwach. Das Cembalo weist eine außerordentlich hohe zeitliche Klangdichte auf, die es - bei gleicher Aussteuerung – viel lauter erscheinen lässt als z. B. das Klavier. 2.3.2.5
Orgel
Die Orgel ist das größte, bautechnisch komplizierteste Musikinstrument. Ihr Platz ist in Kirchen und großen Konzertsälen. Neben der großen Kirchen- und Konzertorgel gibt es kleinere, transportable Instrumente, die sog. Orgelpositive oder einfach Positive. Insbesondere der Klang großer Orgeln ist in einem Maße wandelbar wie sonst bei keinem anderen Instrument. Schallerzeuger sind ausschließlich die Orgelpfeifen, die durch unterschiedliche Bauarten eine breite Palette unterschiedlichster Klänge erzeugen können. Orgeln sind Einzelanfertigungen, die entsprechend ihrer musikalischen Funktion, aber auch - was es sonst bei keinem Instrument gibt - entsprechend der jeweiligen Raumakustik geplant und gebaut sind. Bei der Aufnahme ist nicht nur zu beachten, dass der Orgelklang in besonderem Maße mit der Erwartung des Raumklangs aus einem großen Raum verbunden ist, sondern dass die Orgel selbst erhebliche räumliche Ausdehnung besitzt. Barocke Orgeln, aber auch moderne Orgeln, die nach dem sog. Werkprinzip der Barockorgeln gebaut sind, sind in einzelne Werke gegliedert; jedem Manual ist dabei eine Gruppe von Registern zugeordnet, die in sich eine ausgewogene, aber von den übrigen Werken der Orgel sich unterscheidende sog. Disposition besitzt. Die einzelnen Werke sind nach traditionellen Regeln angeordnet: Oberhalb des Spieltischs 74
Musikinstrumente befindet sich das größte Werk, das sog. Hauptwerk, darüber und darunter sind zwei kleinere Werke, das Oberwerk und das Brustwerk; das Pedalwerk ist in die beiden Pedaltürme aufgeteilt, die links und rechts des Hauptwerks stehen. Das Rückpositiv steht im Rücken des Spielers. Fernwerke sind von der eigentlichen Orgel getrennt im Raum aufgestellt. 2.3.2.6
Akustische Gitarre und E-Gitarre
Die Gitarre gibt es heute in einer Typenvielfalt wie sonst nur wenige Instrumente. Grundsätzlich muss zwischen der akustischen und der Elektro-Gitarre (E-Gitarre) unterschieden werden. Dazu existiert eine kombinierte Form dieser beiden Typen, nämlich die halbakustische oder Semi-Akustikgitarre. Alle traditionellen Gitarren, die ohne elektrische Tonabnahme und Tonverstärkung arbeiten, gehören zu den Akustikgitarren; der Begriff wurde erst geschaffen, als es notwendig wurde, diese Gitarren von der Gruppe der Elektro-Gitarren zu unterscheiden. Die Konzertgitarre oder Spanische Gitarre ist der klassische Typ der traditionellen Gitarre; sie ist mit sechs Nylonsaiten bespannt und wird mit den Fingerkuppen gezupft oder geschlagen. Akustik-Gitarren mit Stahlbesaitung (Westerngitarren) werden entweder mit einem Plektrum, mit den Fingern gezupft oder als Schlaggitarre geschlagen. Schlaggitarren haben neben dem Schallloch eine Schutzplatte. Neben der sechssaitigen Gitarre gibt es auch die voller klingenden zwölfsaitigen Instrumente; die beiden hohen Saiten sind hierbei im Einklang verdoppelt, die vier tiefen in der Oktave. Zwölfsaitige Gitarren haben Stahlbesaitung, weil Nylonsaiten zu weit ausschwingen. Das Schalloch ist der Ort größter Schallabstrahlung sowohl tiefer als auch hoher Frequenzkomponenten. Die Elektro-Gitarre oder E-Gitarre kombiniert akustische Tonerzeugung mit elektrischer Verstärkung und Formung des Tons. Sie verfügt über ein bis drei Tonabnehmer (Pickups), die die Saitenschwingungen an verschiedenen Stellen abnehmen; der stegnahe Pickup gibt einen spitzeren, der Pickup am Griffbrett gibt einen weicheren Klang. E-Gitarren benötigen Stahlsaiten, weil die Pickups auf Kunststoffsaiten nicht ansprechen. Die Tonabnehmer sind i. Allg. elektromagnetische Wandler, deren Bauweise und Qualität Einfluss auf den Grundklang einer E-Gitarre hat. Es werden Einfachspulabnehmer (Single Coil) und Doppelspulabnehmer (Humbucker) verwendet; Single Coil-Pickups sind heller, metallischer im Klang, HumbuckerPickups mittenbetonter. Die Humbucker-Systeme haben eine bessere Brummunterdrückung. Die verschiedenen Tonabnehmer einer Gitarre können einzeln oder parallel geschaltet werden. An der Gitarre selbst können nur einfache Klangformungen eingestellt werden. Aufwändigere Klangbeeinflussungen werden in separaten Effektgeräten - auch kombiniert mit dem Gitarrenverstärker - realisiert. Die Effektgeräte können natürlich auch für die Klangformung von Keyboards verwendet werden (Tab. 2/6). Es gibt die folgenden Grundtypen von Elektro-Gitarren: - Solid Body: Eine E-Gitarre benötigt vom Prinzip her keinen Resonanzkörper. Die Solid Body hat keinen schwingungsfähigen Resonanzkörper, sondern nur ein massives Brett (Solid Body) in der Form eines Resonanzkörpers oder in einer anderen Form. Die Solid Body ist die klassische Form der E-Gitarre. - Akustikgitarre mit Pickup: Um die akustische Gitarre in die Musikpraxis der populären Musik trotz ihres relativ schwachen Klangs einbeziehen zu können, wird sie auch mit Pickups versehen. 75
Schallquellen - Semiakustik-Gitarre: Ihr Korpus nimmt konstruktiv eine Zwischenstellung zwischen akustischer Gitarre und Solid Body ein. - E-Bass: Die Elektro-Bassgitarre ist in ihrer musikalischen Funktion zunächst ein Ersatz für den gezupften Kontrabass gewesen, bildet aber inzwischen eine Ergänzung der Gitarrenpalette im tiefen Tonbereich. Sie wird mit oder ohne Resonanzkörper gebaut. - Doppelhalsgitarre (Double Neck): Dieses Instrument vereint zwei Gitarren in einem Instrument; an dem verbreiterten Korpus sind zwei Hälse angebracht. Die Double Neck besteht entweder aus einer sechs- und einer zwölfsaitigen Gitarre oder einer sechssaitigen und einer Bassgitarre. - Pedal Steel Gitarre: Von der Solid Body abgeleitetes Instrument mit zwei Hälsen mit jeweils 10 oder 12 Saiten. Die linke Hand führt einen Gleitstahl (Steel Bar) zur Saitenverkürzung, mit der rechten Hand wird durch Zupfringe gezupft. Mit acht Pedalen ist das auf vier Beinen waagrecht liegende Instrument durch verschiedene Effekte beeinflussbar. - Elektro-Hawaiigitarre: Der charakteristische Glissando-Klang der Hawaii-Gitarre entsteht dadurch, dass auf dem Griffbrett ein sog. Kamm die Saiten niederdrückt, der gleitend von Griff zu Griff bewegt wird. Dieser Effekt kennzeichnet auch die Pedal-Steel-Gitarre und ist mit dem Slide-Spiel auch bei anderen Gitarren möglich. Tab. 2/6. Gitarren-Effekte. Effekt (englisch) Chorus Compression, Sustain Delay Distortion Equalizer (EQ) Flanger
Reverb Leslie Noise Gate Over Drive Tube Screamer Phaser Spectrum Talkbox Touch Wah Vibrato Wah Wah
Erläuterung Stimmvervielfachung durch gering zeitverzögerte und in der Tonhöhe versetzte Zumischung desselben Signals, subjektive Intensivierung Kompressor, der eine Tonverlängerung ohne abfallenden Pegel bewirkt Signalverzögerung Verzerrungen mit einstellbaren Eigenschaften einstellbare Filter zeitverzögerte Zumischung desselben Signals mit fester Verzögerung (Kammfilter-Frequenzgang), Verzögerungszeit schwingend sich verändernd (Vibrato-Effekte) Verhallung mit Hallgerät Lautsprecherkabinett mit rotierenden Lautsprechern, auch elektronisch Abschaltung in Signalpausen Verzerrungen wie ein Röhrenverstärker, d. h. zunehmend mit steigendem Pegel zeitverschobene Zumischung desselben Signals, Frequenzgang einer Kammfilterkurve, auch schwingend einstellbare Anhebung in einem stufenlos einstellbaren Frequenzbereich (Formantwirkung) Klangbeeinflussung durch die Mundresonanz des Musikers bei jedem Ton automatisch durchlaufendes Filter mechanische Zusatzeinrichtung am Gitarrensteg oder elektronisches Effektinstrument Durchlauffilter, das individuell gesteuert wird
Bei der Aufnahme der E-Gitarren kann der Klang entweder vom Gitarrenlautsprecher mit Mikrofon abgenommen oder als elektrisches Signal direkt vom Gitarrenverstärker übernommen 76
Musikinstrumente werden (Direct Injection). Vielfach werden auch beide Möglichkeiten kombiniert. Für den EBass ist die elektrische Direktabnahme üblich. Bei der Direktabnahme und bei der Mikrofonabnahme können Sicherheitsprobleme dadurch entstehen, dass bei gleichzeitiger Berührung fehlerhafter, Spannung führender Geräteteile der Gitarrenanlage und des geerdeten Mikrofons gefährliche Körperströme fließen können. Durch Verwendung von Trenntransformatoren für die Instrumente oder sog. DI-Boxen (Direct Injection Boxen) oder Mikrofontrennverstärkern können diese Gefahren ausgeschlossen werden. 2.3.2.7
Schlaginstrumente
Schlaginstrumente [2.25], [2.26] besitzen - anders als Streich- und Blasinstrumente - keinen quasistationären Zeitabschnitt in ihrem Klang. An den Anschlagvorgang schließt sich wie bei Klavier und Cembalo unmittelbar der Ausklingvorgang an. Die meisten Schlaginstrumente werden durch geräuschhafte und unharmonische Schwingungskomponenten gekennzeichnet, damit hat ihr Klang keinen deutlichen Tonhöhencharakter; im gesamten Klang überwiegen meist Geräuschanteile. Für einige Schlaginstrumente sind allerdings quasiharmonische Klangkomponenten im Ausklingvorgang charakteristisch, die einen Tonhöhencharakter erzeugen. Bei der Pauke reicht das Frequenzspektrum des Anschlags bis etwa 4000 Hz, die stärksten Komponenten liegen unter 1000 Hz; im Ausklingvorgang bewirkt eine Reihe quasiharmonischer Teiltöne, insbesondere der zweite Teilton, dass eine bestimmbare Tonhöhe hörbar wird. Dadurch kann die Pauke eine Bassstimme spielen. So wird sie u. a. in der Barockmusik und teilweise auch in der klassischen Musik als spezifisches Bassinstrument der Blechbläser eingesetzt. Auch die Tom-Toms lassen eine diskrete Tonhöhe erkennen. Große und Kleine Trommel besitzen keine bestimmbare Tonhöhe, sondern nur Geräuschcharakter. Die wichtigsten Frequenzkomponenten liegen bei der Großen Trommel zwischen 100 und 1500 Hz, bei der Kleinen Trommel zwischen 100 und 8000 Hz. Auch das Becken hat keine bestimmbare Tonhöhe. Beim Anschlag baut sich der geräuschartige Klang langsam auf, um erst nach etwa 0,4 s seine größte Intensität zu erreichen. Das Spektrum reicht von 800 bis 10 000 Hz, Komponenten außerhalb dieses Frequenzbereiches sind sehr schwach. Einzelne Frequenzbereiche im Spektrum treten hervor. Auch beim Triangel liegen die einzelnen Klangkomponenten so dicht und unharmonisch, dass sich keine bestimmbare Tonhöhe ausbildet. Das Spektrum reicht von 1000 bis 17 000 Hz mit hervortretenden Komponenten zwischen 12 000 und 14 000 Hz, damit hat das Triangel unter den Orchesterinstrumenten das nach hohen Frequenzen hin am weitesten reichende Spektrum.
2.3.3
Richtcharakteristiken
Schallquellen, die klein gegenüber den Wellenlängen des abgestrahlten Schalls sind, strahlen den Schall weitgehend ungerichtet ab; größere Schallquellen konzentrieren die Schallabstrahlung auf eine oder mehrere Richtungen. Da die Wellenlängen der Spektralkomponenten musikalischer Klänge zwischen etwa 10 m und 2 cm liegen können, bündeln die Instrumente den Schall frequenzabhängig, dabei teilweise auch in sehr komplexer Form. Als grobe Faustregel kann gelten, dass Frequenzen im Bassbereich - unter etwa 250 Hz – kugelförmig ungerichtet, Frequenzen darüber zunehmend gerichtet abgestrahlt werden. [2.6] 77
Schallquellen Die gerichtete Schallabstrahlung wirkt sich auf Klangfarbe und Schallpegel im Direktfeld mehr oder weniger stark aus, nicht aber im Diffusfeld. Da die Mikrofone aber meist im Direktfeld aufgestellt werden, hat die Richtcharakteristik der Instrumente bei Tonaufnahmen größere Bedeutung als beim direkten Hören. Die Richtcharakteristik der Instrumente macht es möglich, mit dem Mikrofon den Klangcharakter des Instruments bei der Aufnahme mitzubestimmen. Mikrofonstandort und Richtcharakteristik der Instrumente haben einen größeren Einfluss auf die Aufnahme als die Mikrofonwahl; dies gilt in erster Linie bei relativ geringem Mikrofonabstand und besonders bei der Anwendung von Einzelmikrofonen (Polymikrofonie). Stark gerichtete Abstrahlung lässt den Klang eines Musikinstruments auch über größere Entfernungen noch präsent erscheinen, sie erhöht damit die Lokalisierbarkeit der Instrumente, verringert aber gleichzeitig die Klangverschmelzung z. B. bei einem Sinfonieorchester. Gerichtete Klangabstrahlung kann den Hallradius ganz erheblich vergrößern, im höheren Frequenzbereich der Blechblasinstrumente durchaus um den Faktor 10, im Schnitt etwa um den Faktor 1,5 bis 2 (siehe Kap. 1.2.4). Die folgenden Darstellungen der Richtwirkung der Instrumente zeigen die Bereiche, innerhalb derer der Pegel um nicht mehr als 3 dB unter den Maximalwert abfällt. Die dargestellten Bereiche sind - etwas vereinfacht gesagt - also die Bereiche, innerhalb derer eine Klangfarbenänderung praktisch nicht wahrnehmbar ist. Die Betrachtung muss sich dabei auf ausgewählte Frequenzen oder Frequenzbänder beschränken, die einen guten Einblick in das Schallabstrahlungsverhalten geben. 2.3.3.1
Streichinstrumente
Die Richtcharakteristiken der Streichinstrumente kommen dadurch zustande, dass Decke und Boden des Korpus, in einzelnen Zonen mit unterschiedlicher Amplitude und Phase schwingen; hinzu kommt die Abstrahlung des im Resonanzkörper eingeschlossenen Luftvolumens über die sog. f-Löcher. Da die Form der Instrumente weitgehend standardisiert ist, können allgemein gültige Abstrahleigenschaften festgestellt werden, obwohl auch individuelle Eigenschaften der Holzstruktur und der Ausarbeitung darauf Einfluss nehmen. Grundsätzlich ist die Richtwirkung bei den Streichinstrumenten nicht so ausgeprägt wie bei den Blasinstrumenten. Sie ist komplexer und stärker vom Einzelinstrument abhängig. Kleine Veränderungen des Mikrofonstandorts wirken sich nicht so deutlich aus. Der Wahl des Mikrofontyps aber kommt unter diesen Umständen eine größere Bedeutung zu. Eine Besonderheit, die sich bei Tonaufnahmen auswirken kann, sind die teilweise in schmalen Winkelbereichen wirksamen und starken Einbrüche in der Schallabstrahlung. Das wird z. B. deutlich beim Frequenzgang der Geige in Abb. 2/24: Bei der Aufnahme im Nahbereich mit nur einem Mikrofon ist der Frequenzgang sehr stark zerklüftet, fast einer Kammfilterkurve vergleichbar. Bei der Aufnahme mit sechs Mikrofonen, angeordnet in einem größeren Winkelbereich, und anschließender Mischung, also Mittelung der Frequenzgänge, wird der Frequenzgang deutlich geglättet. Das Diffusfeld in einem Raum wirkt ähnlich Mittelwert bildend und den Frequenzgang glättend. Die stark zerklüftete Frequenzkurve kann zu einer ungewohnten Klangschärfe, einem metallischen Klang führen, der beim natürlichen Hören wegen des hierbei größeren Diffusschallanteils nicht oder weniger in Erscheinung tritt. Für die Praxis ergibt sich daraus, dass ein gewisser Diffusfeldanteil, d. h. ein eher größerer Mikrofonabstand zu empfehlen ist. 78
Musikinstrumente
Abb. 2/24. Frequenzkurven einer Geige im Direktfeld, gemessen mit einem Mikrofon in Hauptabstrahlrichtung bzw. mit sechs Mikrofonen und anschließender Mittelung [2.27].
Bis etwa 500 Hz ist die Schallabstrahlung weitgehend kugelförmig. Darüber verengt sie sich allmählich, um zwischen 1000 und 1200 Hz senkrecht zur Decke des Resonanzkörpers eine deutliche Bündelung zu erfahren. Darüber wird der Abstrahlbereich insgesamt wieder breiter, spaltet sich dabei aber wechselnd in einzelne Abstrahlbereiche auf, zwischen denen schmale Zonen geringerer Abstrahlung liegen (Abb. 2/25). Die Abstrahlung etwa senkrecht über der Decke ist die günstigste Richtung für die Aufnahme; zum einen wird in diese Richtung bevorzugt der Schall des Hauptformanten des Instruments abgestrahlt, zum anderen ist in diesem Winkelbereich der Abstand zwischen dem Geräuschpegel des Instruments und seinen harmonischen Komponenten am größten.
Abb. 2/25 Abstrahlcharakteristik der Violine und Viola, wie die folgenden Abb. nach [2.6].
Allseitig ungerichtet abgestrahlt wird Schall beim Violoncello nur bis etwa 200 Hz wegen der größeren abstrahlenden Flächen. Um 1000 Hz wird der Schall bevorzugt nach oben hin abgestrahlt, für Frequenzen zwischen 2000 und 5000 Hz teilt sich die Richtwirkung in zwei Zonen, eine zum Boden, eine senkrecht nach oben gerichtet (Abb. 2/26). Gerade dieser Frequenzbereich trägt aber wesentlich zum Klangcharakter der Geigen bei. Bei gleicher Grundtonhöhe wirken die Violoncelli tatsächlich oft schärfer als die Geigen; eine Mikrofonposition über dem Violoncello kann diesen durchaus wünschenswerten Unterschied hervorheben. Schon von Frequenzen um 100 Hz an aufwärts strahlt der Kontrabass den Schall gerichtet ab. Dabei sind für die einzelnen Frequenzbereiche wechselnde Hauptabstrahlrichtungen festzustellen, die sich teilweise auch in zwei getrennte Zonen aufspalten. Sie liegen jedoch in dem Halbraum vor der Decke des Instruments. 79
Schallquellen
Abb. 2/26. Abstrahlcharakteristik des Violoncellos [2.6].
2.3.3.2
Holzblasinstrumente
Die Holzblasinstrumente strahlen die Klangkomponenten bis rund 1000 Hz bevorzugt aus den Grifflöchern ab, also senkrecht zur Schallröhre; mit ansteigender Frequenz neigt sich der Abstrahlbereich zunehmend zur Schallstürze hin. Die höheren harmonischen Komponenten werden schließlich besonders aus der Schallstürze abgestrahlt (Abb. 2/27).
Abb. 2/27. Abstrahlcharakteristik der Oboe und Klarinette [2.6}.
Die Richtwirkung ist bei den Holzblasinstrumenten so ausgeprägt, dass sie bei Tonaufnahmen eine weit wichtigere Rolle spielt als die Wahl des Mikrofontyps. Es ist möglich, allein durch die Mikrofonaufstellung zwischen einem weichen, vollen Klang vor den Grifflöchern und einem scharfen, engen, aber auch präsenterem Klang vor der Stürze sowie allen Klangcharakteristiken dazwischen zu wählen. Mit zunehmender Entfernung vom Instrument werden diese Unterschiede immer geringer, weil der den Klang integrierende Diffusfeldanteil stetig zunimmt. Bei der Querflöte verursacht das Zusammenwirken der Schallabstrahlung von Schallstürze (Fußstück) und Anblasloch auch schon unter 1000 Hz eine Aufspaltung der Schallabstrahlung in einzelne getrennte Zonen. Der Klang aus dem Fußstück wirkt so eng und scharf, dass 80
Musikinstrumente Mikrofone in diesem Bereich i. Allg. nicht aufgestellt werden. Über dem Mundstück ist relativ viel Atemluft hörbar, was z. B. bei Jazzflötisten durchaus erwünscht sein kann. Rund und weich ist der Klang über den Grifflöchern. Im Nahfeld ist der Klang ausgeglichener als im Fernfeld [2.28]. Beim Fagott ist zu beachten, dass die Stürze nach oben gerichtet ist, hohe Klangkomponenten entsprechend auch nach oben abgestrahlt werden. Über dem Fagott wirkt sein Klang u. U. aber etwas eng. Bei den Saxophonen - mit Ausnahme des Sopransaxophons - fallen die Zonen der Abstrahlung tieferer Klangkomponenten aus den Grifflöchern und höherer Komponenten aus der Stürze im Nahbereich in derselben Richtung zusammen. 2.3.3.3
Blechblasinstrumente
Die Schallstürze der Blechblasinstrumente ist wesentlich größer als die der Holzblasinstrumente, sie vermag deshalb den Schall verstärkt zu bündeln. Die Schallröhre ist zwischen Mundstück und Stürze völlig geschlossen, von ihr wird also praktisch kein Schall abgestrahlt. Verglichen mit den Holzblasinstrumenten wird der Schall bei tieferen Frequenzen gebündelt; schon bei Frequenzen um 500 Hz ist die Richtwirkung deutlich. Die Richtcharakteristik ist abgesehen vom Horn - rotationssymmetrisch. Durch die Wahl des Mikrofonstandorts kann wie bei den Holzblasinstrumenten im Direktschallbereich, also innerhalb des Hallradius, in erheblichem Umfang die Klangcharakteristik gewählt werden; auch hier ist der Mikrofonstandort wesentlich wichtiger als der Mikrofontyp (Abb. 2/28).
Abb. 2/28. Abstrahlcharakteristik der Blechblasinstrumente, ohne Horn [2.6].
81
Schallquellen Der Klangcharakter der Instrumente direkt vor der Stürze ist hell bis scharf, aber im Gegensatz zu den Holzblasinstrumenten ist dieser Mikrofonstandort durchaus für die Tonaufnahme interessant oder zu bevorzugen, da tiefe und mittlere Frequenzkomponenten im Gegensatz zu den Holzblasinstrumenten auch von der Stürze abgestrahlt werden. Die Abstrahleigenschaften des Horns weisen einige Besonderheiten auf, da das Instrument im Gegensatz zur Trompete und Posaune schräg nach hinten und mit der rechten Hand im Trichter gehalten wird. Das führt - verglichen mit den anderen Orchesterinstrumenten - zu einem diffusen, indirekten Hornklang, der bei den Komponisten auch zu einer entsprechenden musikalischen Verwendung führt. Beim Einzelmikrofonverfahren ist es aus aufnahmetechnischen Gründen notwendig, das Mikrofon dennoch vor die Stürze zu stellen; damit wird die Klangcharakteristik im Orchesterklang nicht horngemäß. Die Abstrahlcharakteristik des Horns ist verglichen etwa mit derjenigen der Posaune, die in demselben Tonbereich spielt, relativ komplex. Die Schallbündelung im Bereich hinter dem Spieler beginnt bereits bei etwa 150 Hz. 2.3.3.4
Flügel und Orgel
Gemeinsam ist den Richtcharakteristiken dieser Instrumente, dass die Klangabstrahlung komplexer ist und damit nicht so klare Angaben wie bei Blas-, aber auch bei Streichinstrumenten möglich sind. In beiden Fällen ist die Balance von Direktschall mit dem Raumschall von besonderer Wichtigkeit. Der geöffnete Konzertflügel strahlt für das Publikum den Schall insbesondere über die Reflexionen an dem um 45/ geöffneten Deckel ab, die hohen Frequenzen am stärksten in dem Winkelbereich von ± 5/ um die Mittelachse, ein deutlicher Höhenabfall ergibt sich außerhalb ± 30/, tiefere Frequenzen werden allseitig abgestrahlt. Die wahrgenommene Gesamtlautstärke wird davon praktisch nicht beeinflusst, ebenso wenig wie von dem geschlossenen Deckel, der natürlich hohe Frequenzen deutlich bedämpft. Im Nahbereich der Mikrofonaufnahme sind die Verhältnisse komplexer, da hier die direkte Abstrahlung der Saiten, die Bodenreflexionen des Resonanzkörpers und mit zunehmender Nähe zunehmende Anschlagsgeräusche der Hämmer hinzukommen, je nach Position des Mikrofons. Gerade die Balance zwischen dem Hammergeräusch, das einen deutlichen Anschlag vermittelt, und dem Klang der schwingenden Holzteile ist hier maßgebend. Nimmt man die Unterschiede zwischen einzelnen Instrumenten hinzu, wird die Frage der Schallabstrahlung noch komplexer, so dass in der Praxis die Suche einer optimalen Mikrofonposition sich weniger auf ein theoretisches Vorwissen stützen kann als bei anderen Instrumenten. Die Orgel ist in ihrer konstruktiven Gestalt noch weit komplexer als ein Flügel, die konstruktiven Unterschiede zwischen den verschiedenen Instrumenten und ihre Ausdehnung sind so groß, dass allgemeingültige nützliche Aussagen zur Schallabstrahlung kaum möglich sind. Hinzu kommt, dass die einzelnen Orgelpfeifen des Pedals Ton für Ton abwechselnd auf die beiden Pedaltürme aufgeteilt sind, was keinen musikalischen, damit hörenswerten Sinn ergibt. Die große Kirchenorgel als Musikinstrument ist konzipiert als komplexes, den Raum klanglich füllendes Instrument, bei dem die örtliche Herkunft des Klangs keine Rolle spielt und auch nicht spielen soll. Ihre Aufgabe erfüllt die Orgel in erster Linie in der klanglichen Ausgestaltung des Gottesdienstes und einer emotionalen Einbindung seiner Besucher. Aus diesem Grund wird auch bei Orgelaufnahmen größter Wert auf die Vermittlung eines eindrucksvollen Raumklangs gelegt, für den die Abstrahlcharakteristik eine untergeordnete Bedeutung hat. 82
Musikinstrumente
2.3.4
Elektronische Instrumente
Elektronische Instrumente und Verfahren sind heute aus der Musikproduktion nicht mehr wegzudenken, sie tragen geradezu den Bereich der Popularmusik, weite Teile der Filmmusik, von Musicals, Tonunterlegungen von Fernsehspielen, Werbung usw. Es handelt sich dabei nicht nur um Musikinstrumente im klassischen Sinn, sondern in hohem Maße um Musikproduktion und Klangmanipulation in komplexen Verfahren. Ermöglicht hat diese Entwicklung die digitale Tonverarbeitung mit sog. DSPs, digitalen Signalprozessoren oder auch digitalen Sound-Prozessoren, die eine Bearbeitung von Signalen, z. B. analogen Audiosignalen kontinuierlich in Echtzeit ermöglichen. Nicht vergleichbar mit traditionellen akustischen Instrumenten, die nach einer teils Jahrhunderte langen Entwicklungsphase weitgehend standardisiert sind und nur in Details weiterentwickelt werden, verläuft die Entwicklung bei elektronischen Instrumenten und Verfahren parallel mit der Entwicklung der Digitaltechnik geradezu stürmisch. In kurzen Abständen erscheinen neue Geräte auf dem Markt und verdrängen die bisherigen. Es ist deshalb hier nur vorgesehen, grundlegende Verfahren und Begriffe zu behandeln, beginnend mit einem kurzen Rückblick auf die historische Entwicklung, aus der auch heute noch wichtige Instrumente geblieben sind, zumindest als Vorbild für digitale Simulationen. 2.3.4.1
Historische Entwicklung
Elektroakustische Instrumente und Musik entwickelten sich einerseits aus dem Wunsch von Komponisten und Musikern, neue Klänge für eine neue Musik zu erzeugen, andererseits aus den Möglichkeiten, die die Elektrotechnik seit den 1920er Jahren schuf, also Verstärker, Tongeneratoren, Motoren u. a. Schon bald wurden mit Strom betriebene Instrumente entwickelt, darunter 1928 die Ondes Martinot, 1930 das Trautonium und 1934 die Hammond-Orgel. Mit der Erfindung des Tonbandgeräts in den 1940er Jahren wurde es möglich, aufgenommene Töne bei der Tongebung abzuspielen wie etwa beim Mellotron und komplexe Klangentwicklungen in kleine Schritte zu zerlegen, um sie dann hintereinander zu bearbeiten und auf mehrspurigen Tonbandgeräten zusammenzuführen. Aus diesen Entwicklungen gingen im Bereich ernster Musik zwei Strömungen hervor: Die elektronische Musik, die Klänge synthetisierte und einen Schwerpunkt beim WDR hatte, und die in Paris entwickelte „musique concrète”, die sich bevorzugt mit Montagen von aufgenommenen Geräuschen und Klängen befasste. Zu den ersten rein elektronischen Musikinstrumenten gehört das 1930 von F. Trautwein entwickelte Trautonium, das über ein Bandmanual die Frequenz einer Sägezahnschwingung steuert, und mit dem zweimanualigen Mixturtrautonium von O. Sala weiterentwickelt wurde; es baut auf subharmonische Schwingungen, die neue ungewöhnliche Klangfarben ermöglichen, sowie auf weiteren den Klang gestaltenden Komponenten. Subharmonische Schwingungen sind Vielfache der Wellenlänge des Grundtons im Gegensatz zu Harmonischen, die Vielfache der Frequenz des Grundtons sind. Salas Instrument erlangte in der Filmmusik zu Hitchcocks „Die Vögel” bleibende Bedeutung, namhafte Komponisten haben für diese Instrumente komponiert, die aber keine Verbreitung fanden. In der Entwicklung der Popularmusik haben einige historische „Klassiker”, auch Vintages genannt, größere Bedeutung erlangt und in gewissem Umfang auch behalten. 83
Schallquellen Hammondorgel: Die Hammond-Orgel, auch kurz Hammond, ist eine nach ihrem Erfinder L. Hammond benannte elektromechanische Orgel. 1934 erfunden und in den USA als Ersatz für die Pfeifenorgel gedacht, wurde sie über den Einsatz als Unterhaltungsinstrument schnell zum Instrument des Jazz. Als Orgelersatz in amerikanischen Kirchen verwendet, fand sie in die Gospel-Musik Eingang. Von dort breitete sich die Hammond-Orgel in Rock, Soul, Funk, Reggae, u. a. aus. Popularität erlangte sie in den 1960er und 1970er Jahren, als viele Mainstream-Bands das Instrument benutzten, v. a. das legendäre Modell B3. Aber auch heute noch ist ihr unverwechselbarer Klang bzw. seine digitale Simulation in der Popularmusik verbreitet. Allen Instrumenten gemeinsam ist der Aufbau mit zwei Manualen und Pedal. Das Obermanual wird als Swell, der Kirchenorgel entlehnt für Schwellwerk, das Untermanual als Great für Hauptwerk bezeichnet. Zur Tonerzeugung rotieren, angetrieben von dem von Hammond entwickelten Synchronmotor, metallene Tonräder mit einem gewellten Rand vor elektromagnetischen Tonabnehmern, für jeden Ton der Klaviatur ein Rad mit der Anzahl von Zähnen, die seiner Frequenz entspricht. Auf Grund der Form der Tonräder ergibt sich eine sinusähnliche Schwingung, die durch Filterschaltungen weiter geglättet wird, so dass praktisch eine Sinusform entsteht, die Wiedergabe erfolgt über einen Lautsprecher, meist in Verbindung mit einem Leslie-Kabinett, einem sich drehenden Lautsprechersystem, das durch den Doppler-Effekt den Klang in der für die Hammondorgel typischen Weise moduliert (siehe auch Kap. 6.6.6). Mellotron: Das Mellotron ist ein elektromechanisches Tasteninstrument, das um 1960 erfunden wurde. Es arbeitet mit bespielten Tonbändern. Jeder Taste ist dazu ein eigener Tonbandstreifen zugeordnet, der auf Tastendruck abgespielt wird und z. B. originale Streicher- oder Bläsertöne enthalten kann. Das Mellotron ist ein charakteristisches Instrument des Progressive Rock der I 970er Jahre. Das Mellotron nimmt die Idee des Samplers vorweg. Clavinet: Das Clavinet ist ein analoges, elektromechanisches Keyboard, der Klang ähnelt dem eines Cembalos. Es wurde besonders in den 1970er Jahren bei vielen Funk- und Rock-Aufnahmen eingesetzt. Das Instrument folgt dem Prinzip des Clavichords, einem bis ins 18. Jahrhundert verbreiteten Tasteninstrument. Es hat für jeden Ton eine stimmbare Saite, die an einem Ende bedämpft ist. Unter jeder Taste der Klaviatur befindet sich eine Tangente, die beim Drücken der Taste die Saite auf einen kleinen Block schlägt. Die Saite schwingt nun im ungedämpften Teil und wird dort über einen elektromagnetischen Tonabnehmer abgenommen. Nach Loslassen der Taste wird die gesamte Saite wieder bedämpft. Lautstärke und Charakter des Tons können durch die Anschlagstärke beeinflusst werden. Auf Grund der Anschlagsgeräusche entsteht ein charakteristischer Klangeinsatz, der von vielen Spielern erwünscht ist und als wichtiges Element des Klangs aufgefasst wird. Fender Rhodes-Piano und Wurlitzer-E-Piano: Wie beim Clavinet werden über eine Klaviatur mechanische Schwingungen, beim Fender Rhodes aber von Stäben erzeugt, elektromagnetisch abgenommen, verstärkt und über Lautsprecher wiedergegeben. Beim Wurlitzer-E-Piano erfolgt die Tongebung durch Metallzungen, die eine Platte eines Kondensators darstellen. Die Instrumente werden nicht mehr hergestellt, 84
Musikinstrumente fanden jedoch im Jazz, Funk, Pop u. a. der 60er bis 80er Jahre Verwendung. Der RhodesKlang ist wegen unharmonischer Oberschwingungen glockenähnlich, das Wurlitzer-Piano ist im Forte hart und durchsetzungsfähig, im Piano eher weich und dem Vibrafon ähnlich. E-Gitarre: Die E-Gitarre gehört mit ihrer akustischen Klangerzeugung, aber elektrischen Verstärkung und Klangformung wie Hammondorgel und Clavinet zu den elektromechanischen Instrumenten, den sog. Elektrofonen. Zur E-Gitarre siehe Kap. 2.3.2 2.3.4.2
Klangerzeugung
Um das komplexe Feld der elektronischen Instrumente und Verfahren zu verstehen, kann man zwischen Klangsynthese und Klangveränderung oder –manipulation unterscheiden. Synthesemethoden stellen dabei Techniken dar, mit deren Hilfe Klänge elektronisch, d. h. heute in erster Linie digital erzeugt werden, bei den Methoden der Klangveränderung handelt es sich um Strategien, vorhandene akustische oder elektrische Klänge zu verändern. Für den Musiker ist es allerdings oft unerheblich, wie die Klänge tatsächlich erzeugt werden. Die elektronischen Klangerzeuger generieren Klänge, meist gesteuert durch eine Klaviatur, ein Keyboard, wie man bei elektronischen Instrumenten sagt, aber auch durch ein digitales Steuersignal, meist im MIDI-Format. Es gibt eine ganze Reihe von Prinzipien zur Klangerzeugung, von denen hier nur die wichtigsten erläutert sind. Die vielfach angewandte subtraktive Synthese geht bereits von vorhandenen Sounds aus, die sie verändert, für den Musiker ist dies allerdings unerheblich. Bei den Verfahren der Klangveränderung im engeren Sinn kommen wieder akustisch bzw. mechanisch erstellte Klänge ins Spiel, die verändert werden. Zur Klangveränderung siehe insbesondere auch Kap. 6.6. Die wichtigsten Verfahren der Klangerzeugung sind: Additive Synthese: Bei der additiven Synthese oder Fourier-Synthese wird das Klangspektrum aus einem Grundton und dazu harmonischen Obertönen zusammengesetzt, also aus sinusförmigen Tönen mit Frequenzen, die ein Vielfaches der Grundfrequenz haben. Jedem Einzelton wird Amplitude, Frequenz und Phase zugewiesen; um die Klänge lebendiger zu machen, kann jeder Tonkomponente eine eigene Hüllkurve zugeordnet werden. Diese Synthese folgt dem Fourierschen Prinzip, wonach jede Gestalt einer periodischen Schwingung aus einzelnen Sinuskomponenten zusammengesetzt werden kann (siehe Kap. 2.1.1). Das Verfahren erfordert eine große Zahl von Oszillatoren, ist deshalb analog sehr aufwändig zu realisieren. Physical Modeling: Diese Methode der Klangerzeugung versucht, den physikalischen Vorgang der Klangerzeugung selbst durch Algorithmen zu erfassen, für einen Streicherklang etwa wird die Saitenanregung durch den Bogen, die Schwingung der Saiten und die Funktion des Resonanzkörpers rechnerisch dargestellt. Dies kann vereinfacht bis sehr aufwändig geschehen. Zu diesem Verfahren wird auch die Karplus-Strong-Synthese gezählt: Ausgangspunkt ist hier ein explosives Geräusch oder ein Pulsklang, der eine Verzögerungseinheit mit Rückkopplung anregt; bei bestimmten Voraussetzungen kommt es zu einem Klang mit definierter Tonhöhe. Diese Synthese wird zur Bildung von Klängen gezupfter Saiten, Schlaginstrumenten oder anderer Klänge mit perkussivem Charakter benutzt. 85
Schallquellen Wavetable-Synthese: Man versteht unter dieser Synthese die Klangerzeugung auf der Basis fertiger, digitaler Schwingungsformen, die entweder durch additive oder subtraktive Nachbearbeitung geformt und zu Klängen verarbeitet werden. Diese Schwingungen liegen als fest abgespeicherte Zahlentabellen, sog. wavetables, im ROM-Speicher des Synthesizers vor. Das Verfahren braucht deutlich weniger Rechenleistung als z. B. Granularsynthese oder Physical Modeling. Subtraktive Synthese: Bei der subtraktiven Synthese geht man von sehr obertonreichen Wellenformen aus, z. B. einer sägezahnförmigen Schwingung, die alle Teiltöne enthält (siehe dazu auch Kap. 2.1.1.3). Mit einfacher oder mehrfacher Filterung werden bestimmte Teile des Spektrums entfernt. Das Filter kann von außen zeitabhängig steuerbar sein, damit es durch Modulationen, Hüllkurven o. a. lebendiger, „echter” wirkt. Dieses Verfahren ist auch analog gut realisierbar und gehört zu den ersten, vielfach angewandten Verfahren, stellt aber eigentlich ein Verfahren der Klangveränderung dar. 2.3.4.3
Klangveränderung
Bei den folgenden Verfahren steht die Veränderung vorhandener Klänge oder Sounds im Vordergrund, siehe dazu auch Kap. 6.2 bis 6.6: Amplitudenmodulation: Bei der Amplitudenmodulation oder AM z. B. einer Schwingung wird die Amplitude bzw. die Lautstärke periodisch durch eine zweite Schwingung verändert, indem die Schwingungen miteinander multipliziert werden, musikalisch ausgedrückt ist dies ein sog. Tremolo. Erfolgt die Modulation eines Sinustons ebenfalls durch einen Sinuston mit mehr als etwa 20 Hz, so werden mit den zwei Sinustönen mehrere weitere Teiltöne erzeugt. Dadurch entsteht aus einer Frequenz von z. B. 1000 Hz und einer Modulationsfrequenz von 400 Hz ein Spektrum aus der Summe und der Differenz der beiden Frequenzen, also zusätzliche Sinustöne mit 600 und 1400 Hz. Mit AM werden insbesondere komplexe Spektren verändert bzw. verzerrt. Analog wird eine AM realisiert, indem zwei Signale gemischt und über eine nichtlineare Kennlinie übertragen werden. Überträgt man einen einzelnen Sinuston über eine solche Kennlinie, so entstehen neue Töne mit dessen ganzzahligen Vielfachen. Frequenzmodulation und Phasenmodulation: Bei der Frequenzmodulation oder FM wird eine Schwingung, allg. ein Klang durch eine zweite Schwingung in seiner Tonhöhe periodisch verstimmt, bei wenigen Frequenzänderungen pro Sekunde musikalisch ein Vibrato. Wird bei diesem Verfahren eine Schwingung mit einer Frequenz von mehr als 20 bis 30 Hz verstimmt, entstehen neue komplexe Schwingungen. Die FM wurde in den 80er Jahren in der Popmusik zu einer mit Synthesizern häufig benutzten Methode. Sie ist allerdings eine schwer zu kontrollierende Art der Klangveränderung. Bei digitalen Verfahren wird die verwandte Phasenmodulation oder PM bevorzugt, bei der die zu modulierende Schwingung mit derselben Schwingung, deren Phase zwischen 0/ und 180/ schwingt, moduliert. Auch die Ergebnisse dieser Form der Modulation sind nicht einfach vorauszusehen. Granularsynthese: Bei diesem digitalen Verfahren wird eine komplexe Schwingung z. B. von einem Instrument 86
Musikinstrumente in viele sehr kurze Klangabschnitte zerschnitten, die dann über Rechenanweisungen, sog. Algorithmen, in Gestalt, Wiederholungsmustern und Reihenfolge verändert neu zusammengesetzt werden. Im Unterschied zum Wave Sequencing sind hier die Zeitabschnitte so kurz, dass sie nicht mehr als Impulse empfunden werden, sondern als Klangfarben. Die grains, also die Mikro-Klangabschnitte, können in vielfältigster Weise bearbeitet und verändert werden, wiederholt, gedreht, überlappt, vertauscht usw. Diese Technik eröffnet weitere, ungeahnte Möglichkeiten der Klangveränderung, besser Neugestaltung: Man kann einen Klang z. B. verlängern oder sehr stark aufrauen, ihm ein anderes Spektrum geben oder beliebige Veränderungen der Tonhöhen erstellen. Das Verfahren besitzt ein großes kreatives Potential. Der resultierende Klang ist zwar abhängig von dem bearbeiteten Klang, jedoch sind die Gestaltungsmöglichkeiten der einzelnen grains immens, so dass sich neue Klangkombinationen bzw. Klangstrukturen ergeben. Dies macht die Granularsynthese praktisch zu einem Verfahren der Klangerzeugung. Phase-Vocoder: Der Phase-Vocoder wurde 1965 von Flanagan und Golden entwickelt. Wie der Name schon sagt, ist der Phase-Vocoder eine Art Vocoder (siehe Kapi. 6.6.7), d. h. ein Gerät zur Ver- und Entschlüsselung von Stimmen. Phase-Vocoder funktionieren allgemein gesagt wie eine Filterbank, bei der die Filter in Reihe geschaltet sind und jeder Filter einen bestimmten Bereich der Frequenzen herausfiltert und deren Lautstärke ermittelt. Die Daten der Lautstärke und Frequenz der einzelnen Frequenzbänder werden zur Resynthese eines Klanges benutzt. Dadurch wird der Klang wieder neu zusammengesetzt. Man ersetzt einen Klang durch einen anderen, wobei wesentliche Klangeigenschaften und zeitliche Strukturen erhalten bleiben. Filtert man im Vocoder z. B. Sprache und setzt bei der Resynthese an die Stelle der Oszillatoren einen Bläserakkord, so kann man diesen Akkord sprechen oder singen lassen. Der PhaseVocoder kann auch Übergänge zwischen verschiedenen Klänge erzeugen: eine Stimme kann langsam in einen Flötenton übergehen, das sog. Morphing, oder es kann eine Zeitkompression oder Zeitdehnung erzielt werden, ohne das Spektrum zu verändern, man kann einen Titel beschleunigen, ohne seine Tonhöhen zu verändern. Ringmodulator: Mit der Ringmodulation lassen sich unharmonische Obertonspektren erzeugen, metallische Klänge, siehe Kap. 6.6.5. Transitional Synthesis: Rechnerisch wird durch Interpolieren ein fließender Übergang zwischen zwei ähnlichen Ereignissen gestaltet. Direct Digital Synthese: Ein Computer rechnet das digitale Material vorhandener Schwingungsformen nach bestimmten Rechenvorschriften um, wodurch neue Klänge entstehen. Composite Synthesis: Bei diesem Verfahren mischt man künstliche und „natürliche” Klänge in Form von Samples zu einem neuen Klang.
87
Schallquellen 2.3.4.4
Klangverarbeitung
Die Weiterverarbeitung von Klängen zu kompletten Musikstücken oder Titeln kann entweder live erfolgen, d. h. die Interpretation und die Wiedergabe über Lautsprecher sind zeitgleich, oder ein Titel wird produziert, die Wiedergabe erfolgt dann stets von einem Tonträger zu einem anderen Zeitpunkt. Für die Aufnahme, Speicherung, Steuerung von elektronischen Musikinstrumenten und die Bearbeitung von elektronischen oder akustischen Klängen werden einige Geräte oder Softwaremodule benutzt, die hier nur kurz definiert werden. Für die digitale Musikproduktion selbst wird auf die Literatur verwiesen, z. B. [2.31 bis 2.34]. MIDI MIDI, eine digitale Schnittstelle für MIDI-fähige Musikinstrumente (Musical Instrument Digital Interface) ist ein Datenübertragungsprotokoll für die Übermittlung, Aufzeichnung und Wiedergabe von umfassenden Steuerinformationen zur Klangerzeugung bzw. Musikproduktion zwischen Geräten, Instrumenten, Computern, Regiekonsolen u. a. Neben elementaren Befehlen zu einzelnen Tönen wie Tonhöhe, Dauer, Beginn und Ende, Informationen zur Einhüllenden u. a. werden auch weitere komplexe und spezielle Befehle übermittelt. MIDI kann keine dem Original klanglich folgende Wiedergabe bieten, diese liefern die gesteuerten Instrumente. MIDI ist also kein Audioformat; insofern kann man einen MIDI-Datensatz mit den Informationen einer Notenpartitur für Klavier vergleichen. Das Format wird von sehr vielen elektronischen Instrumenten und Soundkarten, Drumcomputern, aber auch Effektgeräten jeglicher Art unterstützt, des Weiteren von Lichtanlagen, über Konverter auch von akustischen Instrumenten wie E-Gitarren. Die MIDI-Schnittstelle ist eine serielle Schnittstelle mit einer Übertragungsrate von 31,25 kBaud, also eine relativ langsame Schnittstelle, was bei komplexen Zusammenschaltungen zu hörbaren Verzögerungen führen kann. Mit vier verschiedenen Modes wird die Zuordnung der Stimmen und der MIDI-Kanäle (Channels) festgelegt. Der MIDI-Standard setzt voraus, dass alle MIDI-fähigen Geräte genormte MIDI-Anschlussbuchsen haben, sie entsprechen den 5-poligen Stereo-DIN-Buchsen, sind aber anders beschaltet. In der Regel haben die Geräte drei Buchsen: MIDI-In für den Datenempfang, MIDIOut für den Datenexport und MIDI-THRU (= Through) für die Durchschaltung der Daten. Die Verkabelung erfolgt über MIDI-Kabel, die nach der MIDI-Norm beschaffen und verschaltet sind. Es gilt immer die Steckrichtung: OUT nach IN, IN nach OUT, THRU nach IN. Um MIDI-Instrumente mit einem Computer ansteuern zu können, muss der Computer mit einem MIDI-Interface ausgerüstet sein. Moderne Soundkarten haben eine MIDI-Schnittstelle. MIDI-Files sind komplett arrangierte Songs für Keyboards, die über Diskette geladen werden. MIDI-Files sind quasi Playbacks, sie geben die Instrumente eines Musikstücks komplett wieder mit Schlagzeug, Gitarre, Bass, Keyboard usw. Ein MIDI-File besteht aus 16 Spuren, wovon jede mit einem Instrument belegt ist. Ein Song im MIDI-Format kann in Tempo, Tonhöhe, Instrumente u. a. verändert werden. Jedes einzelne Instrument kann ein- und ausgeschaltet werden. Es hat sich ein Markt für MIDI-Files gebildet. MIDI-Standard: 1983 legt die MMA (MIDI Manufacturers Association) die Vorschriften für die MIDI-Hardund -Software in der MIDI-Spezifikation fest. Um die Einhaltung dieser Spezifikation zu 88
Musikinstrumente überwachen, wird die Internationale MIDI Association (IMA) gegründet. 1990 erfolgt die Einigung auf ein Standard-MIDI-File-Format (SMF). Dieser Standard gewährleistet, dass alle abgespeicherten Musikstücke auch auf verschiedene Computertypen geladen und in allen Musikprogrammen bearbeitet werden können. Bisher gibt es bei diesen Files drei Formate: Bei Format 0 sind alle Kanäle auf einer Spur, bei Format 1 auf bis zu 16 Spuren, bei Format 2 gibt es beliebig viele Kanäle. 1991 wird der General-MIDI-Standard (GM-Standard) vereinbart. Er wird benötigt, wenn man fertige Musikstücke im MIDI-File-Format abspielen oder die MIDI-Files weitergeben will. Er ist mindestens 24-stimmig und gewährleistet, dass die einzelnen Klänge von einem Instrument derselben Art wiedergegeben werden, d. h. ein Klavierpart wird nur von einem Klavierklang gespielt. 127 Instrumente sind Klangnummern zugeordnet. Dazu gibt es weitere 16 Spuren bzw. Kanäle. Nachdem sich das grundlegende Konzept des GM-Standards bewährt hat, kommt es 1994 zu den firmenspezifischen Erweiterungen GS und XG; XG z. B. ist mindestens 32-stimmig, beinhaltet 676 Instrumente, zusätzliche Drumsets und ermöglicht flexiblere Effekte z. B. für Hall. GS und XG sind zu GM abwärtskompatibel. Masterkeyboard: Ein Masterkeyboard ist eine Klaviatur zur Erzeugung von MIDI-Steuerdaten ohne eigene Klangerzeugung. Es kann an beliebige MIDI-fähige Instrumente, z. B. einen Sampler oder Synthesizer zur direkten Klangansteuerung angeschlossen werden oder an einen MIDISequenzer zur Aufzeichnung von MIDI-Befehlen. Professionelle Masterkeyboards verfügen über eine dem Klavier ähnliche mechanische Klaviatur sowie weitere Spielhilfen und Steuerfunktionen. Neben einem MIDI-Ausgang ist u. U. auch ein USB-Ausgang vorhanden. Masterkeyboard-Funktionen haben meist auch Digitalpianos und andere Instrumente mit Keyboard. Sampler: Der Sampler ist ein elektrisches Musikinstrument, das Töne elektronischer oder akustischer Herkunft aufnimmt, digitalisiert und als Samples in einer Audiodatei z. B. auf einer Festplatte speichert. Über ein Masterkeyboard oder eine MIDI-Steuerung können diese über einen Prozessor in jeder gewünschten Tonhöhe wiedergegeben werden. Hardwaresampler sind im Prinzip spezialisierte PCs, Softwaresampler sind Computerprogramme, die zusätzlich mit A/D- und D/A-Wandlern und Soundkarten arbeiten. Professionelle Sampler verfügen über eine größere Zahl klangformender Komponenten wie Filter und Effekte, was sie dann im Prinzip zu Synthesizern macht. Da die Aufnahme und der Schnitt von Samples relativ aufwändig sind, greifen Musiker vielfach auf fertige Sample-Libraries z. B. auf CD zurück oder sampeln Töne aus vorhandenen Aufnahmen. Sampler ohne Aufnahmemöglichkeit werden als ROM-Sampler oder Rompler bezeichnet. Sequenzer: Der Sequenzer ist ein Computer zur Speicherung, Bearbeitung und Ausgabe von Steuerdaten für Klangerzeuger, z. B. Synthesizer, Sampler oder elektronische Instrumente. Beim MIDISequenzer sind die Steuerdateien als MIDI-Dateien vorhanden und steuern alle wichtigen Eigenschaften eines musikalischen Tons wie Zeitpunkt des Beginns, Dauer, Lautstärke und Zuweisung des Klangerzeugers. Die erklingenden Noten können über ein Masterkeyboard in Echtzeit gespielt oder über einen PC editiert werden. 89
Schallquellen Synthesizer, Workstations und Pcs: Durch die immer günstiger herzustellenden digitalen Systeme haben die einzelnen Geräte, Instrumente oder Softwareprogramme mit jeder Generation immer neue Fähigkeiten erhalten, so dass zwischen den genannten Komponenten die Grenzen immer offener werden. Ein entsprechend ausgestatteter PC kann bei entsprechender Leistungsfähigkeit mit einem Masterkeyboard alle Funktionen für eine Musikproduktion übernehmen. Die digitale Audio-Workstation (DAW, AWS) ist ein spezialisierter Computer, der Synthesizer ein Computer, der für andere Aufgaben nicht zur Verfügung steht. 2.3.4.5
Begriffe der Hüllkurvensteuerung
Zu den Begriffen, die bei der Ton- und Klanggestaltung verwendet werden (Tab. 2/7 und Kap. 6), kommen bei elektronischen Instrumenten und Verfahren Begriffe der Steuerung der Hüllkurve (Abb. 2/30) hinzu.
Abb. 2/29. Begriffe der Hüllkurvensteuerung.
2.3.4.6
Keyboards und Rhythmusgeräte
Die genannten Verfahren der Synthese, Bearbeitung und Speicherung werden in Tasteninstrumenten, sog. Keyboards, bzw. Geräten mit besonderen Aufgaben angewendet. Deren Fähigkeiten sind sehr unterschiedlich, es gibt spezialisierte Keyboards mit besonderen Bezeichnungen, von denen nachfolgend einige genannt sind, es gibt universelle Keyboards, die Grenzen sind fließend; auch zwischen professionellen und nicht professionellen Geräten. Zudem werden mit jeder neuen Gerätegeneration neue Features eingeführt. Oft werden die Geräte mit ihrer Typenbezeichnung und /oder dem Hersteller benannt, um Klarheit zu haben. Nachfolgend soll dennoch eine firmenneutrale Einteilung eingehalten werden. Keyboards werden i. Allg. direkt, nicht über Mikrofon aufgenommen (Direct Injection). Um die Sicherheit auch bei fehlerhaften Geräten zu gewährleisten, muss die Verbindung der Geräte mit Erde unterbrochen werden. Entweder werden die Geräte über Trenntransformatoren am 230 V-Netz angeschlossen oder die Leitungen über Trennmodule für Tonsignale, sog. 90
Musikinstrumente DI-Boxen (siehe Kap. 8.6). Ein Leslie-Kabinett muss immer mit Mikrofon abgenommen werden. Tab. 2/7. Einige Begriffe der Klangsteuerung. Abkürzung englisch ADSR
BP HP LFO LP VCA VCF VCO VCQ VCW
Begriff englisch attack - decay - sustain release, auch: envelope generator band-pass hight-pass low frequency oscillator low-pass voltage controlled amplifier voltage controlled filter voltage controlled oscillator voltage controlled quality voltage controlled wave form
Begriff deutsch Hüllkurvengenerator (siehe Abb. 2.29) Bandpass Hochpass Tieffrequenzgenerator Tiefpass spannungsgesteuerter Verstärker spannungsgesteuertes Filter spannungsgesteuerter Generator spannungsgesteuerte Filtergüte spannungsgesteuerte Schwingungsform
Elektronische Pianos Aus dem Wunsch, Klaviere oder Flügel elektronisch nachzubilden, wurden zunächst eine Reihe elektromechanischer Instrumente entwickelt, einige davon sind in Kap. 2.3.4.1 genannt. Hybrid-Pianos sind mechanische Klavierinstrumente mit kürzeren Saiten und teils ohne Resonanzkörper, die elektrisch verstärkt werden, teils auch zusätzlich komplette E-Pianos enthalten. Dem Ziel, den Klavierklang nachzubilden, kommen aber erst seit den 1990er Jahren E-Pianos und E-Flügel mit Sampleplayern nach, d. h., es werden real aufgenommene Klavierklänge abgespielt, die Instrumente verfügen in der Regel auch über MIDI-Steuerungen. StagePianos sind Instrumente ohne eingebauten Lautsprecher oder nur einem kleinen Kontrollmonitor. Digital- oder E-Pianos und E-Flügel sind also auf den Klavierklang spezialisierte Keyboards oder Synthesizer. Sie können auch weitere Sounds enthalten, zusätzlich Begleitrhythmen, Begleitautomatik und weitere Funktionen. Piano-Workstations sind sehr umfassend ausgestattete Instrumente. E-Orgeln und Sakralorgeln Wie sich das E-Piano aus der Nachahmung des Klavierklangs entwickelt hat, hat die E- oder Digitalorgel ihren Ursprung in der Kirchenorgel. Ein bis drei Manuale, ein Pedal für die Bassstimme, gesampelte Einzelstimmen von Orgelaufnahmen, sog. Register, die zu sog. Dispositionen oder Werken zusammengefügt werden können. Dazu kommen Nachhall und ein breites Spektrum weiterer Klangeffekte. Die kleinsten Varianten aus nur einem Keyboard bestehend, sind die E-Orgel oder Keyboard-Orgel. Heimorgeln, Sakralorgeln und Konzertorgeln sind die leistungsfähigen Varianten. Drum-Computer, Grooveboxen und E-Schlagzeug Drum-Computer oder Drum Machine sind Geräte zur Erzeugung der perkussiven Klänge eines Schlagzeugs und kompletter Rhythmen, entweder analog z. B. subtraktiv oder digital aus 91
Schallquellen Samples. Angesteuert werden die Geräte entweder über MIDI oder ein anderes Interface, über eingebaute Pattern-Sequenzer oder Drum-Pads, ein elektronisches Schlagzeug. Der DrumComputer liefert meist komplette Rhythmusmuster, sog. Styles, die auf bis zu acht Spuren ein akustisches Schlagzeug ersetzen. Ausgelöst wird ein Rhythmus z. B. durch die linke Hand des Keyboarders über eine Einzeltaste oder einen Akkord. Das E-Schlagzeug wird wie ein akustisches Schlagzeug gespielt, erzeugt aber z. B. MIDI-Signale ähnlich der Funktionsweise des Masterkeyboards, die Schlaginstrumente sind hier durch Pads ersetzt. Grooveboxen sind umfangreich ausgestattete Kombinationen aus Sampler oder ROM-Sampler, Synthesizer, Sequenzer und Drum-Computer, bis hin zu eigenständigen Geräten zur Musikproduktion.
Standards [DIN 1317]
Bl. 1 Norm-Stimmton; Norm-Stimmtonhöhe Bl. 2-; Stimmgabel
[DIN 1320]
Akustik; Begriffe
[DIN 13 320]
Akustik; Spektren und Übertragungskurven, Begriffe, Darstellung
[DIN 45 630]
Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall
[DIN 45 651]
Oktavfilter für elektroakustische Messungen
[DIN 45 652]
Terzfilter für elektroakustische Messungen
[DIN 45 654]
Veränderbare Hoch- und Tiefpässe für elektroakustische Messungen
Bl. 2 -; Normalkurven gleicher Lautstärkepegel
Literatur [2.1]
Magnus, K. und Popp, K.: Schwingungen, 7. Aufl., 2005, Teubner
[2.2]
Seidner, W. und Wendler, J.: Die Sängerstimme. Phoniatrische Grundlagen des Gesangs, 2004, Henschel
[2.3]
Bisping, R., van der Velden, U. und Wingartz, P.: „Welche Frequenzbereiche im Stimmspektrum sind für die Übermittlung menschlicher Emotionen von besonderer Bedeutung?”, in: Bericht 16. Tonmeistertagung 1990, S. 329ff., 1991, Saur
[2.4]
Fastl, H.: „Schallpegel und Lautstärke von Sprache”, in: Acustica 1976, S. 341ff.
[2.5]
Völker, E.-J.: Schallpegelverhältnisse bei der Übertragung von Sprache, Preprint C4 der 53. AES-Conventiom, 1976
[2.6]
Meyer, J.: Akustik und musikalische Aufführungspraxis, 2004, ppv Medien
[2.7]
Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 2000, Springer
[2.8]
Fletcher, N. H. und Rossing Th. D.: The Physics of Musical Instruments, 2. Aufl. 1998, Springer
92
Schallquellen [2.9]
Dickreiter, M.: Musikinstrumente. Moderne Instrumente, Historische Instrumente. Klangakustik, 7. Aufl. 2007, Bärenreiter
[2.10]
Meyer, J.: „Zur klanglichen Wirkung des Streicher-Vibratos”, in: Acustica 1992, S. 283ff.
[2.11]
Meyer, J.: „Zur zeitlichen Struktur von Vibrato-Klängen”, in: Bericht 16. Tonmeistertagung 1990, S. 338ff., 1991, Saur
[2.12]
Fleischer; H.: „Hörbarkeit von Phasenunterschieden bei verschiedenen Arten der Schalldarbietung”, in: Acustica 1976/77, S. 90ff.
[2.13]
Meyer, J.: „Zur Dynamik und Schalleistung von Orchesterinstrumenten”, in: Acustica 1990, S. 277ff.
[2.14]
Forss, C.-J.: Piano- und Flügelstimmung, 2007, Bochinsky
[2.15]
Ernst, F.: Über das Stimmen von Cembalo, Spinett, Clavichord und Klavier, 2004, Bochinsky
[2.16]
Baines, A.: Lexikon der Musikinstrumente, 2005, Metzler
[2.17]
Marinovici, C.: Musikinstrumentenkunde. Von der Klassik zur Elektronik, 2007, Leu
[2.18]
Pape, W.: Instrumentenhandbuch Streich-, Zupf-, Blas- und Schlaginstrumente in Tabellenform, 2004, Laaber
[2.19]
Cremer, L.: Physik der Geige, 1998, Hirzel
[2.20]
Leonhardt, K.: Geigenbau und Klangfrage, 3. Aufl. 1997, Bochinsky
[2.21]
Meyer, J.: Physikalische Aspekte des Geigenspiels, 2. Aufl., 1992, Respublica
[2.22]
Wackernagel, B.: Holzblasinstrumente, 2005, Schneider
[2.23]
Baines, A.: Holzblasinstrumente. Geschichte, Technik, Bauformen, 1986 Artemis & Winkler
[2.24]
Bahnert, H., Herzberg, Th. und Schramm, H.: Metallblasinstrumente. Handbuch für Musiker und Instrumentenbauer, 2003, Nötzel
[2.25]
Peinkofer, K. und Tannigel, F.: Handbuch des Schlagzeugs. Praxis und Technik, 1981, Schott
[2.26]
Hofmann, S.: Das große Buch für Schlagzeug und Perkussion, 1994, Voggenreiter
[2.27]
Meyer, J.: „Zum Klangphänomen der altitalienischen Geigen”, in: Acustica 1982, S. 1ff,
[2.28]
Bork, J.: „Klang und Schallabstrahlung der Querflöte”, in: Bericht 16. Tonmeistertagung 1990, S. 351ff., Saur
[2.29]
Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer
[2.30]
Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 3. Aufl., 2006, Focal
[2.31]
Bremm, P.: Das Digitale Tonstudio. Technische Grundlagen der Musikproduktion, mit dem Computer, 2. Auflage, 2007, ppv medien
[2.32]
Bremm, P.: Das digitale Tonstudio. Praktische Hilfe zur digitalen Tonstudiotechnik,2004, ppv medien 93
Schallquellen [2.33]
Conrad, J.-F.: Recor[DINg. Einführung in die Technik der Musikproduktion, 5. Aufl., 2003, ppv medien
[2.34]
Hömberg, M.: Recor[DINg Basics, 2. Aufl. 2002, ppv medien
94
3
Schallwahrnehmung
3.1
Das Gehör
Das Ohr hat als menschliches Organ eine Doppelfunktion. Es ist sowohl ein Hör-, als auch ein Gleichgewichtsorgan. Es gliedert sich medizinisch in das Außenohr, das Mittelohr und das Innenohr Abb. 3/1 zeigt einen Schnitt, Abb. 3/2 ein Schema des Aufbaus des menschlichen Gehörs. [3.1 bis 3.6, 3.10] Das Außenohr dient der Schallankoppelung des Gehörs an das akustische Feld. Es besteht aus der Ohrmuschel und dem äußeren Gehörgang (Ohrkanal). Die zahlreichen Erhebungen und Vertiefungen der Ohrmuschel bilden akustische Resonatoren, die jeweils bei Schalleinfall aus einer bestimmten Richtung angeregt werden. Hierdurch entstehen richtungsabhängige spektrale Minima und Maxima, die vom Gehör zur Bestimmung der Einfallsrichtungen genutzt werden. Der äußere Gehörgang ist ein mit Haut ausgekleidetes, knorpeliges Rohr von etwa 3 bis 4 cm Länge und 5 bis 10 mm Weite. Er wird durch das Trommelfell abgeschlossen. Das äußere Ohr enthält außerdem die sog. Ohrschmalzdrüsen, die ein hellgelbes Sekret liefern, und die Talgdrüsen, die das eigentliche Ohrenschmalz (Cerumen) produzieren. Das Ohrschmalz übt eine Schutzfunktion gegenüber äußeren Einflüssen aus und verhindert das Eindringen von Verunreinigungen und Krankheitserregern. Größere Ohrenschmalzpfröpfe können jedoch den äußeren Gehörgang verstopfen und die Schallleitung beeinträchtigen und müssen entfernt werden. Zum Mittelohr gehören das Trommelfell, die Gehörknöchelchen, bestehend aus Hammer, Amboss und Steigbügel, das ovale Fenster und die Eustachische Röhre, auch Trompete oder Paukengang genannt. Die Knöchelchen des Mittelohres übertragen die Bewegung des Trommelfells auf das ovale Fenster und bilden die Verbindung zwischen Mittel- und Innenohr. Die Knöchelkette wirkt dabei als Drucktransformator bzw. Impedanzwandler: Der auf das ovale Fenster übertragene Druck ist bei kleiner Membranauslenkung des ovalen Fensters wesentlich größer als der Schalldruck, der auf das Trommelfell einwirkt; umgekehrt wird die Membranauslenkung entsprechend reduziert. Das Mittelohr ist luftgefüllt, über die Eustachische Röhre, die sich beim Schlucken öffnet, findet ein Druckausgleich zwischen Mittelohr und Außenluft statt. Luftdruckdifferenzen zwischen Außen- und Mittelohr, verursacht z. B. durch einen Verschluss der Eustachischen Röhre, drücken auf das Trommelfell und können zu schmerzhaft „geschlossenen Ohren“ führen. Das spiralförmige Innenohr besteht aus der Gehörschnecke, in der der Schall in Nervenimpulse umgesetzt wird, und dem Labyrinth, auch Bogengänge genannt, das als Gleichgewichtsorgan dient. Gehörschnecke und Labyrinth sind ähnlich gebaut: Beide sind mit einer Flüssigkeit gefüllt und besitzen Haarzellen, bei denen feine Härchen in die Flüssigkeit hineinreichen. Hier im Innenohr erfolgt die eigentliche Umwandlung von Schall in Nervenimpulse, die dann zum Gehirn weitergeleitet werden. Im Hinblick auf Hörverluste durch Lärm ist insbesondere das nach dem italienischen Anatomen Corti benannte Cortische Organ entscheidend. Das Cortische Organ liegt innerhalb der knöchernen Schnecke (Cochlea) und ist ein mit Endolymphe gefüllter Schlauch. Es ist die 95
Schallwahrnehmung Schnittstelle zwischen den akustisch-mechanischen Schwingungen und den elektrischen Nervensignalen in der Hörschnecke. Die Schnecke besteht aus drei übereinander liegenden Kanälen, die zur Schneckenform gebogen sind. Diese Kanäle heißen Scala tympani (Paukentreppe), Ductus cochlearis (Schneckengang) und Scala vestibuli (Vorhoftreppe). Sie sind durch dünne Wände, die so genannte Reissnersche Membran oder auch Basilarmembran, voneinander getrennt. Die Reissnersche Membran separiert die Scala media von der Scala vestibuli. Die zweite Trennung erfolgt durch die Basilarmembran. Man kann sich die Basilarmembran als eine über einen weiten Frequenzbereich gestimmte Harfe vorstellen. Die kurzen, straffen Saiten für hohe Töne bis 20 kHz liegen in der Nähe der Fenster, die langen, weichen Saiten für tiefe Töne bis 16 Hz hinunter liegen nahe dem Helikotrema am Ende der Cochlea. Die unterschiedlichen physikalischen Eigenschaften werden dadurch erreicht, dass das Proteingewebe der Basilarmembran im unteren Teil der Cochlea dichter und dicker ist als im oberen Teil. Die Basilarmembran ist etwa 33 mm lang, am Ovalen Fenster etwa 0,1 mm breit und hart, am anderen Ende etwa 0,5 mm breit und weich. Das gegen hohe Schallbelastung empfindliche Cortische Organ enthält innere und äußere Haarzellen sowie Stützzellen und eine Deckmembran. Die zylinderförmigen Haarzellen haben ihren Namen von etwa 30 bis 150 haarartigen, aus Stereozilien bestehenden Fortsätzen am oberen Ende der Zelle. Durch Bewegungen der Flüssigkeit werden die Haarzellen gebogen und lösen dabei Nervenimpulse aus. Die V-förmig angeordneten Zilien der äußeren Haarzellen sind Proportional-Rezeptoren und Intensitätsdetektoren, die linienförmig angeordneten Zilien der inneren Haarzellen fungieren dabei als Differential-Rezeptoren und Geschwindigkeitsdetektoren. Die inneren Haarzellen sind die eigentlichen Rezeptoren für die auditive Sinnesübertragung, ca. 95 % aller Hörnervenfasern entspringen dort. Am unteren Ende des Cortischen Organs befindet sich eine Synapse mit einem sensorischen Neuron. Diese schüttet schon im Ruhezustand Neurotransmitter aus, die die Informationen von einer Nervenzelle zur anderen über die Kontaktstelle der Nervenzellen, der Synapse, weitergeben. Wird nun der Haarfortsatz in Richtung der längsten Stereozilie ausgelenkt, vermehrt sich die Menge der Neurotransmitter. Von der Gehörschnecke leitet der Hörnerv schließlich die Signale zum Gehirn, wo die Schallereignisse am Trommelfell als Hörereignisse ins Bewusstsein treten.
Abb. 3/1. Schnitt durch das menschliche Gehör.
96
Schallereignis und Hörereignis
Abb. 3/2. Schema des Aufbaus des menschlichen Gehörs.
3.1.1
Cochlearer Verstärker
Cochleare Verstärkung ist der Fachausdruck für den Verstärkungseffekt der Wanderwelle in der Cochlea im Innenohr. In der Cochlea werden Klänge und Sprache mittels eines der Fourieranalyse vergleichbaren Prozesses in ihre einzelnen Tonfrequenzen zerlegt. Der cochleare Verstärker verstärkt diese Zerlegung so stark, dass einzelne Tonhöhen unterschieden werden können. Grundlage der Verstärkung ist die extrem schnelle Beweglichkeit der äußeren Haarzellen, die Schwingungen mit bis zu 20 000 Hz folgen können und die Wanderwelle bis tausendfach verstärken. Das passive Mitschwingen der Basilarmembran mit ihrer vom runden Fenster (Schneckenbasis) zum Helicotrema (Schneckenspitze) abnehmenden Steife und zunehmenden Masse, und die sich ortsspezifisch ausbildenden Schwingungsmaxima der Wanderwelle, erklären nicht allein die Selektivität der Tonhöhe und den hohen Dynamikumfang der Schallwahrnehmung. Das Schallintensitätsverhältnis beträgt bis 1:10.000.000 oder 140 dB. Die äußeren Haarzellen spielen bei diesem Prozess eine ebenso aktive Rolle, vergleichbar einem elektrischen Verstärker. Unter Einsatz neuronaler Energiequellen wird dieser Prozess jedoch vom Gehirn gesteuert. Die äußeren Haarzellen können bei Anregung Kontraktionen oder Elongationen synchron zu den Reizen ausführen und damit ortsspezifische Bewegungen. Diese Auslenkungen der Membran verstärken z. B. bei sehr leisen Tönen das Signal um das 100-fache, wohingegen bei sehr lauten Tönen durch diesen aktiven Prozess die Amplitude der Schwingungen gedämpft wird. Dies schützt die Membran vor mechanischem Zerreißen oder anderer Überlastung. [3.1], [3.4], [3.10]
3.2
Schallereignis und Hörereignis
Eine Schallwelle, die auf das Ohr trifft, ist eindeutig physikalisch definierbar. Ein Sinuston z. B. hat eine eindeutig bestimmbare Frequenz, Dauer, Einfallsrichtung und einen eindeutig bestimmbaren Schalldruckpegel. Dieses Schallereignis trifft als Reiz auf das Gehör, wandert durch das komplizierte mechanische System des Gehörs und wird schließlich als elektrisches Signal durch die Nervenbahnen, diverse Schaltstellen und Nervenzentren zum Gehirn geleitet. Erst jetzt wird uns der Reiz als Hörereignis, als Empfindung, bewusst. Diese Empfindung kann aber nicht mehr durch die physikalischen Größen des Schallereignisses beschrieben werden, da Empfindungen keine physikalischen Größen sind und somit nicht mit physikalischen Messmethoden unmittelbar erfassbar sind. Wir wissen auch, dass bereits bei der mechanischen Reizweiterleitung im Mittel- und Innenohr die Reizgestalt verändert wird. Ein 97
Schallwahrnehmung Sinuston z. B. erhält zusätzliche Obertöne, er wird verzerrt. In den Nervenzellen wird der Reiz in ganz anderer Gestalt, nämlich als Folge von Impulsen weitergeleitet. Eine weitere Komplikation ergibt sich daraus, dass zwar die Größen des Schallereignisses voneinander unabhängig messbar sind, beim Hörereignis hängt aber z. B. die empfundene Tonhöhe des Sinustons zwar hauptsächlich von der Frequenz, aber außerdem auch von der Dauer und dem Schalldruckpegel des Schallereignisses ab. Der Zusammenhang von Schallereignis (Reiz) und Hörereignis (Empfindung) ist also komplex, beide Größen können nicht gleichgesetzt werden. Mit den Zusammenhängen von Reizen und Empfindungen befasst sich die Psychoakustik [3.7]. Um über das Hörereignis gültige Angaben machen zu können, können nur die Aussagen von Versuchspersonen ausgewertet werden. Diese sind aber zunächst ganz allgemein: ein Hörereignis ist laut oder leise, meist werden sogar Ausdrücke aus anderen Sinnesbereichen verwendet (hell, dunkel, schwach, spitz usw.). Diese Worte sind ungenau. Man möchte den Zusammenhang von Reiz und Empfindung genauer, möglichst durch Kurven angeben. Dies ist tatsächlich möglich, weil eine Versuchsperson ihre Aufmerksamkeit auf einzelne Komponenten des Hörereignisses richten kann. Sie kann z. B. die Lautheit zweier verschieden langer oder hoher Töne vergleichen, weil ein geübtes Gehör in der Lage ist, Tondauer und Tonhöhe bei der Beurteilung der Lautheit weitgehend unberücksichtigt zu lassen. Diese Komponenten der Empfindung, auf die man achten und die man getrennt von den anderen Komponenten beurteilen kann, sind die sog. Empfindungsgrößen (z. B. Lautheit). Sie erhalten - wie die Reizgrößen - eine Einheit (die Lautheit z. B. das sone). Jede Empfindungsgröße kann nun durch eine Kurve in ihrer Abhängigkeit von jeweils einer Reizgröße beschrieben werden. So kann man die Empfindungsgröße Tonhöhe in Abhängigkeit von den Reizgrößen Frequenz, Schalldruckpegel oder Schalldauer angeben. Dabei müssen die jeweils unberücksichtigten Reizgrößen konstant gehalten werden. Betrachten wir am Beispiel der Empfindungsgröße Lautheit, die in erster Linie vom Schalldruckpegel bestimmt wird, wie Empfindungsgrößen definiert und mit Einheiten versehen werden können (Genaueres hierzu siehe unten). Will man die Lautheit eines Tons messen, so hält man bei allen Versuchen die Reizkomponenten Frequenz und Dauer konstant, z. B. die Frequenz bei 1000 Hz und die Dauer bei 1,0 s. Dem Ton mit dem Schalldruckpegel L = 40 dB schreibt man nun für diese Frequenz und Dauer willkürlich die Lautheit S = 1 sone zu. Nach wiederholter Verdopplung und Halbierung der Lautheit durch Verändern des Schalldruckpegels erhält man die Lautheit des 1000 Hz-Tons für eine so große Zahl von Schalldruckpegeln, dass man schließlich die Abhängigkeit zwischen Reizgröße L in dB und Empfindungsgröße S in sone als stetige Kurve angeben kann (siehe Abb. 3/6). Besonders Aussagen über die Verdopplung oder Halbierung einer Empfindungsgröße zu machen, gelingt relativ einfach und zuverlässig. Die unten dargelegten Beziehungen von Reizgrößen und Empfindungsgrößen wurden bei Versuchen in einem „objektivierten, wissenschaftlichen Klima" meist mit Sinustönen oder Rauschen, gewonnen. Diese Hörbedingungen und Schallereignisse sind andere als wir sie z. B. beim Hören von Musik vorfinden. Denn ein Ton in einem Musikstück hat nicht nur Lautheit, Dauer und Tonhöhe, sondern ist auch musikalischer Sinnträger. Er hat eine bestimmte Stellung in der Melodie oder Harmonie, oder er ist Träger eines Wortes. Weiterhin kann dieser Ton aber auch Teil eines lästigen Geräuschs sein. Diese verschiedenen Sinnfunktionen, die ein Ton annehmen kann, beeinflussen natürlich die Hörempfindung 98
Eigenschaften der Wahrnehmung außerordentlich. Sie sind aber so komplex, dass sie nicht auf dieselbe Weise wie Empfindungsgrößen erfassbar sind. Sie überlagern sich aber den Reiz-Empfindungs-Beziehungen. Weiteren Aufschluss können hier nur spezielle psychometrische Testmethoden erbringen.
3.3
Eigenschaften der Wahrnehmung
3.3.1
Lautstärkepegel und Lautheit
Hörfeld, auch Hörfläche oder Hörbereich, nennt man den Bereich, in dem - in Abhängigkeit von Frequenz und Schalldruckpegel - ein Schallereignis ein Hörereignis auslöst. Das Hörfeld ist bei kleinen Schalldruckpegeln durch die Hörschwelle, bei großen Schalldruckpegeln durch die Schmerzschwelle begrenzt. Nur Schallereignisse mit Frequenzen zwischen 16 und 16 000 Hz, maximal 20 000 Hz, rufen Hörereignisse hervor. Mit dem Alter verschiebt sich die Hörschwelle im oberen Frequenzbereich: Im Alter von 60 Jahren ist die Hörschwelle bei 10 kHz etwa um 20 dB, bei 5 kHz etwa um 15 dB angehoben, unter 2 kHz gibt es keine Veränderungen; im Alter von 40 Jahren ist die Verschiebung der Hörschwelle etwa halb so groß. Diese Richtwerte gelten nicht für Personen, die in lärmerfüllter Umgebung arbeiten. Die allgemeine Hörfähigkeit wird durch die Altersschwerhörigkeit aber relativ geringfügig beeinträchtigt, da der optimale und wichtigste Hörbereich unter 4000 Hz liegt (siehe auch Kap. 19). Abb. 3/3 zeigt das Hörfeld; eingezeichnet ist außerdem der Bereich, den Sprache und Musik etwa einnehmen. Durchläuft ein Sinuston mit einem konstanten Schalldruckpegel von angenommen 20 dB den gesamten hörbaren Frequenzbereich, also z. B. von 125 Hz bis 16 kHz, so bleibt der Ton keineswegs gleich laut. Er wird vielmehr mit steigender Frequenz zunächst lauter, über etwa 4000 Hz wieder leiser. Um diese Feststellung für verschiedene Schalldruckpegel genau zu erfassen, hat man die „Kurven gleicher Lautstärkepegel" ermittelt (Abb. 314). Sie geben in Abhängigkeit von der Frequenz den Schalldruckpegel L an, der die jeweils gleiche Lautstärkeempfindung hervorruft, und beschreiben damit eine der wichtigsten Eigenschaften des menschlichen Gehörs. Man ordnet jeder der Kurven einen bestimmten Lautstärkepegel zu, der in phon angegeben wird. Für 1000 Hz stimmen Schalldruckpegel in dB und Lautstärkepegel in phon zahlenmäßig überein. Bei der Gewinnung der Kurven gleicher Lautstärkepegel spielen die Bedingungen, unter denen gemessen wird, und die Auswahl der Versuchspersonen eine wichtige Rolle. Es ist deshalb sinnvoll, die Kurven gleicher Lautstärkepegel zu normen, um für alle Überlegungen, die an diesen Kurven anschließen, eine gemeinsame Basis zu haben. Abb. 3/4a zeigt die nach DIN 1318 und 45 630 (1971) genormten Kurven, die mit den internationalen ISOEmpfehlungen (R 226 und R 454) übereinstimmen; 2003 wurde von ISO eine überarbeitete Empfehlung herausgegeben, die die Forschungen der letzten Jahrzehnte berücksichtigt und nun i. Allg. verwendet wird. Die Hörschwelle - gestrichelt dargestellt - liegt bei 4 phon, nicht bei 0 phon. Der Grund dafür ist, dass als Bezugsschalldruck der runde Wert 20 :N/m2 bzw. 20 :Pa international vereinbart wurde. Die DIN-Kurven beziehen sich auf Personen mit normalem Gehör zwischen etwa 18 und 25 Jahren bei zweiohrigem Hören im freien Schallfeld, also bei Beschallung von vorne im reflexionsarmen Raum. Für andere Schallsignale, 99
Schallwahrnehmung z. B. Bandrauschen, oder für andere Abhörbedingungen, wie z. B. im Diffusfeld, (Abb. 3/5) ergeben sich etwas abweichende Normalkurven.
Abb. 3/3. Hörfeld mit Sprach- und Musikbereich.
Abb. 3/4. Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld bei zweiohrigem Hören nach DIN 45 630 (1971) und ISO-Empfehlung R 226-2003.
100
Eigenschaften der Wahrnehmung
Abb. 3/5. Differenz der Pegel von Schmalbandrauschen gleicher Lautstärke von diffusem und freiem Schallfeld.
Während die Lautstärkepegel von Sinustönen relativ einfach und zuverlässig ermittelt werden können und dafür Phon-Angaben sinnvoll sind, sind die Verfahren zur Feststellung des Lautstärkepegels von Klängen und Geräuschen komplizierter und ergeben je nach angewandtem Verfahren recht unterschiedliche Werte; das früher hierfür verwendete Phon-Maß ist hier nicht mehr sinnvoll anwendbar. Eine erste Annäherung an den Lautstärkepegel erbringen in diesem Fall i. Allg. die Messungen des bewerteten Schalldruckpegels nach DINIEC 651, siehe Kapitel 10, Abb. 10/13. Der Lautstärkepegel kann auch auf Grund der psychoakustischen Kenntnisse über das Gehör berechnet werden. Hierfür sind verschiedene Verfahren angegeben worden, die allerdings beträchtliche Abweichungen im ihren Ergebnissen aufweisen. Das Verfahren der Lautstärkeberechnung aus dem Geräuschspektrum nach E. Zwicker wurde in DIN 45 631 normiert und als ISO-Empfehlung (R 532) international verbreitet. Ein weiteres Verfahren zur Feststellung des Lautstärkepegels beliebiger Schalle (DIN 1318) beruht auf dem im Versuch durchgeführten Vergleich des zu erfassenden Schallereignisses mit einem definierten Lautstärkepegel. Man verändert den Pegel eines 1 kHz-Tons, bis er subjektiv mit dem zu beurteilenden Schall übereinstimmt, man erhält dann den Standardlautstärkepegel. Passt man aber den zu beurteilenden Pegel an den Standardschall an, erhält man ein abweichendes Ergebnis, den sog. Objektlautstärkepegel. Das arithmetische Mittel heißt „interpolierter Lautstärkepegel"; er soll bei diesem Verfahren ermittelt werden.
Abb. 3/6. Zusammenhang zwischen Lautheit S und Lautstärkepegel LS.
Der Lautstärkepegel eignet sich für den Vergleich der Lautstärkeempfindung gleich lauter Schallereignisse. Er eignet sich aber nicht dafür, verschieden laute Schallereignisse miteinander zu vergleichen. Während nämlich z. B. beim Schalldruckpegel einer Druckverdopplung eine Pegelzunahme von 6 dB entspricht, bedeutet eine Verdopplung der empfundenen 101
Schallwahrnehmung Lautstärke in dem praktisch wichtigen Lautstärkebereich über 30 phon eine Lautstärkepegelzunahme um 10 phon. Die Lautheit S erfasst die tatsächlichen Lautstärkeverhältnisse verschiedener Lautstärkepegel LS zueinander; sie wird in sone angegeben. 40 phon bei 1000 Hz werden definiert als 1 sone. Dem doppelt so laut empfundenen Wert von 50 phon entsprechen 2 sone. Die Abhängigkeit zwischen sone und phon gibt Abb. 3/6 an.
3.3.2
Anpassung und Verdeckung
Eine wichtige Eigenschaft des menschlichen Gehörs ist die Fähigkeit, seine Empfindlichkeit einem bestimmten, gerade herrschenden mittleren Schallpegel anzupassen, ähnlich wie sich das Auge an verschiedene Helligkeitsgrade anpassen kann. Dadurch werden z. B. gleichmäßige Hintergrundgeräusche im Höreindruck stark zurückgedrängt, dadurch kann sich das Gehör aber auch innerhalb bestimmter Grenzen z. B. an verschiedene Wiedergabepegel beim Anhören von Tonproduktionen anpassen, ohne dass dabei ein wesentlicher qualitativer Unterschied besteht. Denn das Gehör bildet sich aus den mannigfaltigen Reizeinwirkungen ein Bezugssystem, Anpassungsniveau genannt, an dem sich die einzelnen Urteile wie laut - leise, aber auch hell - dunkel und hoch - tief als an einem Mittelwert orientieren. Diese Anpassung hat aber auch zur Folge, dass ein gleichmäßiger Dauerton mit zunehmender Zeitdauer immer leiser erscheint; das Gehör ermüdet und ordnet diesen Dauerschall als unwichtigeres Hintergrundgeräusch ein. Mit der Anpassung verbunden ist eine weitere Erscheinung, die man als Verdeckung bezeichnet. Ein auf das Gehör einwirkender Reiz setzt gleichzeitig die Empfindlichkeit für andere Reize herab. Allgemein gilt, dass Schall höherer Frequenz Schall tieferer Frequenz nur dann verdeckt, wenn der Frequenzabstand gering ist. Schall tieferer Frequenz verdeckt Schall höherer Frequenz nur dann, wenn der tieffrequente Schall vergleichsweise große Intensität besitzt. Verdeckung gibt es nicht nur für gleichzeitige Signale, sondern auch für zeitlich aufeinander folgende Signale. Die Nachverdeckung lässt Signale, die auch bei simultaner Darbietung verdeckt werden, nach Abschalten des verdeckenden Signals eine kürzere Zeit lang unhörbar bleiben. Die Zeitspanne der Nachverdeckung hängt sehr von den Signalarten und -dauern ab; sie liegt im Bereich einiger ms bis einiger 10 ms. Auch eine Vorverdeckung für bis etwa 20 ms voreilende Signale kann beobachtet werden, ein lauter Klangeinsatz kann demnach z. B. ein leises, vorangehendes Störgeräusch verdecken.
3.3.3
Tonhöhe
Die Frequenz eines Sinustons bestimmt hauptsächlich die Tonhöhenempfindung des Höreindrucks. Von einem gewissen Einfluss ist dazu bei Sinustönen oder annähernd sinusförmigen Klängen der Schallpegel: Bei Frequenzen unter 2000 Hz sinkt die Tonhöhenempfindung geringfügig mit zunehmendem Pegel, bei Frequenzen darüber steigt sie mit zunehmendem Pegel. Die Frequenz des Sinustons gibt nun also nicht mehr genau die Tonhöhe an. Man nennt die empfundene, nicht mit der Frequenz übereinstimmende Tonhöhe „spektrale Tonhöhe". Bei aus Grund- und Obertönen zusammengesetzten Klängen bestimmt der Grundton, auch wenn er nur schwach ausgebildet ist, die Tonhöhe. Aber selbst wenn der Grundton und sogar die ersten Obertöne fehlen, wie z. B. bei der Musikwiedergabe mit sehr kleinen Lautsprechern, 102
Eigenschaften der Wahrnehmung bildet das Gehör aus den verbleibenden Klangkomponenten einen Tonhöheneindruck, der dem fehlenden Grundton entspricht. Die empfundene Tonhöhe bezeichnet man als „virtuelle Tonhöhe”; sie wird vom Gehör aus den spektralen Tonhöhen der einzelnen Klangkomponenten gebildet. Weiterhin erzeugt die Verschiebung von Formantregionen, wie das bei elektronischer Klangerzeugung aber auch z. B. bei der Maultrommel möglich ist, einen bestimmten Tonhöheneindruck, die sog. Formanttonhöhe. Das Gehör kann bei Sinustönen unterhalb 500 Hz eine Frequenzänderung bei Tonfolgen von etwa 3,5 Hz gerade noch feststellen. Bei Frequenzen über 500 Hz beträgt die hörbare Änderung 0,7 % der sich ändernden Frequenz. Langsamere Schwankungen der Tonhöhe werden Vibrato genannt, schnelle Schwankungen machen einen Ton rau (siehe unten 3.3.5). Die Fähigkeit, musikalische Töne mit geringem Tonhöhenunterschied zu unterscheiden, verbessert sich deutlich mit der Schulung des Gehörs; dabei zeigt sich, dass das Gehör bevorzugt Fähigkeiten bei solchen Instrumenten oder allgemein Klangfarben entwickelt, die es besonders gut kennt.
3.3.4
Verzerrungen
Das Gehör verzerrt das Schallereignis bei seiner Weiterleitung zum Gehirn. Ein einzelner Sinuston wird dadurch mit Obertönen versehen, die unter besonderen Bedingungen direkt hörbar sind. Ein obertonreicher Klang erhält zusätzliche Obertöne, die indessen mit den bereits vorhandenen zusammenfallen und damit ebenfalls weitgehend unbemerkt bleiben. Anders als bei Einzeltönen sind die Verzerrungen des Gehörs bei Tonpaaren u. U. sehr deutlich zu hören. Hierbei entstehen nicht nur Obertöne, sondern auch sog. Kombinationstöne, nämlich Summen- und Differenztöne. Wenn f1 und f2 die Frequenzen zweier verzerrter Sinustöne sind, entstehen Kombinationstöne mit den Frequenzen mAf2 ± nAf1 (für m und n = 1, 2, 3, ...), insbesondere treten die Kombinationstöne mit den Frequenzen f2 – f1 und f2 + f1 in Erscheinung; bei geeigneten Versuchsanordnungen kann eine sehr große Zahl von Verzerrungsprodukten des Gehörs hörbar gemacht werden. Kombinationstöne sind am deutlichsten bei einem Paar von Sinustönen wahrnehmbar, besonders wenn ihre Frequenzen nahe beisammen liegen, kritisch ist auch das Intervall 3:2 (Quinte). Fast ebenso empfindlich bezüglich der Hörbarkeit von Verzerrungen des Gehörs sind die obertonarmen Klänge einiger Musikinstrumente wie z. B. Blockflöten und Hörner bei größeren Lautstärken. Die Kombinationstöne des Gehörs spielen auch eine wichtige Rolle bei der Einteilung der Intervalle in Konsonanzen und Dissonanzen. Verzerrungen von Tonsignalen (siehe hierzu Kapitel 10.2.2) sind dann hörbar, wenn sie größer als die Eigenverzerrungen des Gehörs sind. Die quadratischen Verzerrungen des Gehörs sind regulären quadratischen Verzerrungen gut angenähert; sie betragen rund 0,1 % bei 70 dB Lautstärkepegel und etwa 1 % bei 90 dB. Diese Verzerrungen des Gehörs sind also recht gering. Die weiteren Verzerrungen zeigen eine verwirrende Irregularität. Die Stärke der Verzerrungen hängt bei zwei Sinustönen von deren Stärke und Frequenzabstand ab, ohne dass einfache Abhängigkeiten genannt werden können. Diese irregulären Verzerrungen sind aber wesentlich höher als die quadratischen Verzerrungen. Sie können unter bestimmten Bedingungen weit über 10 % liegen. Diese gehöreigenen Verzerrungen können leicht beobachtet werden z. B. beim zweistimmigen Pfeifen oder Blockflötenspiel. 103
Schallwahrnehmung
3.3.5
Rauheit und Schärfe
Rauheit und Schärfe eines Klangs sind Begriffe, die sich zur Beschreibung von Klangeigenschaften gut eignen und auch gehörakustisch relativ gut erfasst werden können. Rauheit kennzeichnet Schallereignisse, die eine starke zeitliche Strukturierung besitzen. Während langsame Pegelschwankungen als sog. Tremolo empfunden werden, lassen schnelle Pegelschwankungen vor allem zwischen 20 und 150 Hz einen Ton oder Klang rau erscheinen. Die Rauheit nimmt mit steigender Frequenz zu, bei etwa 70 Schwankungen pro Sekunde ist sie am größten; die messtechnische Einheit ist das asper. 1 asper hat ein Sinuston von 1 kHz und 60 dB Schalldruckpegel, der mit 70 Hz und dem höchst möglichen Modulationsgrad m = 1 moduliert ist; m = 1 bedeutet, dass das modulierende und das modulierte Signal die gleichen Amplituden haben. Die Schärfe eines Klanges ist eine wesentliche Komponente der Klangfarbe, die man getrennt beurteilen kann. Sie wird durch die Umhüllende des Spektrums akustisch charakterisiert. Dabei ist es unerheblich, ob das Spektrum geräuschhaft kontinuierlich ist oder aus diskreten, also z. B. harmonischen Komponenten besteht. Bei einem schmalbandigen Klangspektrum steigt die Schärfe mit der Mittenfrequenz des Frequenzbandes an. Bei nur einseitiger Bandbegrenzung mit der unteren Grenzfrequenz und wesentlich stärker - mit der oberen Grenzfrequenz. Außer den Grenzfrequenzen hat die Form der Umhüllenden einen Einfluss auf die Klangschärfe.
3.3.6
Subjektive Tondauer
Wird die Dauer von Tonimpulsen und die Dauer von kürzeren Pausen zwischen Tönen subjektiv bewertet, so zeigt sich, dass diese subjektive Dauer bei kürzeren Tönen und Pausen nicht mit der objektiven Dauer übereinstimmt. Einzelne Tonimpulse wirken bei einer objektiven Dauer unter 50 ms länger als sie tatsächlich sind. Ein ganz erstaunlicher Zusammenhang wird jedoch beim Vergleich der subjektiven Dauer von Tonimpulsen mit dazwischen liegenden gleichlangen Pausen offenbar: Während bei einer Dauer über 1 s subjektive und objektive Dauern übereinstimmen, wirken bei kürzerer Dauer die Pausen länger als die Töne, dies auch abhängig von der Frequenz des Tonimpulses. Die Unterschiede von subjektiver und objektiver Dauer sind sehr groß; so wirkt z. B. ein 3,2 kHz-Tonimpuls mit 100 ms Dauer ebenso lang wie eine Pause von 400 ms. Sollen also kurze Töne und die dazwischen liegenden Pausen gleich lang wirken, müssen die Pausen ganz erheblich länger als die Töne sein.
3.3.7
Hörbarkeit von Phasenänderungen
Die einzelnen Komponenten eines Spektrums sind durch ihre Frequenz, ihren Pegel und durch ihre Phasenlage definiert. Ausgehend von Helmholtz' Theorie der Klangfarbe war man lange Zeit der Meinung, dass die Phasenlage für die Klangfarbe unbedeutend sei. Tatsächlich hat sie aber einen gewissen, relativ komplexen Einfluss darauf. Phasenänderungen werden am deutlichsten bei Kopfhörerwiedergabe, am undeutlichsten bei Lautsprecherwiedergabe in halligen Räumen wahrgenommen. Die Untersuchungen ergeben folgende Zusammenhänge: Die Hörbarkeit von Phasenänderungen in einem Klang hängt von seiner Zusammensetzung ab. Die Auswirkungen derselben Phasenänderung werden bei tiefen und bei hohen Frequenzen 104
Räumliches Hören natürlicher Schallquellen geringer eingeschätzt als bei mittlerer Frequenzlage; um 1000 Hz hat das Gehör die größte Phasenempfindlichkeit. Bei tiefen Tönen werden eher Änderungen der Rauheit wahrgenommen, bei hohen Tönen eher Änderungen der Tonhöhen und Klangfarbe. Bei kleinen Frequenzabständen der Teiltöne sind Phasenänderungen von 10/ bis 30/ wahrnehmbar, bei großen Abständen wird die Wahrnehmbarkeit, v. a. abhängig vom Pegel, geringer. Die in der Tonstudiotechnik zugelassenen Phasenverschiebungen der Geräte orientieren sich an diesen Erkenntnissen (siehe Kapitel 10.4.2).
3.4
Räumliches Hören natürlicher Schallquellen
Richtungswahrnehmung oder Lokalisation ist die Zuordnung der vom Gehör zum Bewusstsein gebrachten Hörereignisrichtung zur Schallereignisrichtung. Zusammen mit der Entfernungswahrnehmung bildet sie die räumliche Wahrnehmung des Gehörs. Richtungs- und Entfernungswahrnehmung schließen auch die Wahrnehmung der räumlichen Ausdehnung einer Schallquelle ein. Die sog. Räumlichkeit einer Schallquelle ist nicht ihre tatsächliche Ausdehnung, sondern die Empfindung, dass der Raum um die Schallquelle mit Schall erfüllt ist, die Räumlichkeit nimmt mit der Lautstärke und mit der Stärke seitlicher Reflexionen in einem Raum zu. [3.8], [3.9] Die elektroakustische Wiedergabe und Wahrnehmung von Klangbildern wird teils von denselben psychoakustischen Phänomenen beschrieben wie das räumliche Hören im natürlichen Schallfeld; dies ist z. B. der Fall, wenn von nur einem Lautsprecher ein Schallsignal ohne zusätzliche Räumlichkeit abgestrahlt wird. Sollen aber räumlich ausgedehnte Schallfelder also stereofone Klangbilder - zu Gehör gebracht werden, treten ganz neue Phänomene auf, in der Hauptsache handelt es sich um sog. Phantomschallquellen. Phantomschallquellen sind Schallwahrnehmungen an Orten, wo sich keine Schallquelle befindet. Es handelt sich um Phänomene, die beim natürlichen Hören praktisch nicht auftreten. Da sie in engster Verbindung stehen zur stereofonen oder allgemein zur mehrkanaligen Aufnahme und Wiedergabe von Klangbildern, werden sie in Kapitel 5 erläutert. Für die Beschreibung der Hörereignisorte wird ein auf den Kopf des Hörers bezogenes, ein sog. kopfbezogenes Koordinatensystem verwendet (Abb. 3/7). Man unterscheidet dabei die Richtungswahrnehmung in der horizontalen Ebene, der vertikalen oder Medianebene und der Frontalebene.
Abb. 3/7. Kopfbezogenes Koordinatensystem für die Beurteilung der Hörereignisrichtungen.
105
Schallwahrnehmung Der einfachste Fall von Richtungshören ergibt sich bei der Wahrnehmung einer einzigen, in ihrem Frequenzumfang breitbandigen Schallquelle. Schallereignisrichtung und Hörereignisrichtung stimmen hierbei i. Allg. überein. In der Horizontalebene führen dabei Laufzeitunterschiede zwischen den Zeitpunkten des Eintreffens der beiden Ohrsignale und frequenzabhängige Pegelunterschiede, also Klangfarbenunterschiede, zwischen den Ohrsignalen zur Lokalisierung des Hörereignisses. In der vertikalen Ebene wird der Erhebungswinkel nur auf Grund spektraler Veränderungen der hier gleichen Ohrsignale gebildet. Auch die Entscheidung, ob eine Schallquelle vor oder hinter dem Hörer lokalisiert wird, beruht auf spektralen Merkmalen. In der Frontalebene erzeugen wie in der horizontalen Ebene Laufzeit- und komplexe Klangfarben- bzw. Pegelunterschiede die Hörereignisrichtung. Bei mehreren Schallquellen und in geschlossenen Räumen treten zusätzliche Effekte der Richtungswahrnehmung auf. Es kommt hierbei darauf an, ob die Schallsignale unähnlich, d. h. nicht oder schwach korreliert, oder ob sie ähnlich, d. h. hoch korreliert sind. Das Gehör kann bei Hörereignissen, die aus unterschiedlichen Richtungen kommen, die zugehörigen Klangbilder besser trennen und verfolgen, als wenn sie aus derselben Richtung eintreffen. Diese Fähigkeit wird mit „intelligentem Hören" oder mit „Cocktailparty-Effekt" nach C. Cherry, 1953, bezeichnet. Wichtig für die Fähigkeiten der räumlichen Wahrnehmung sind neben physiologischen und psychologischen Mechanismen auch Lernprozesse und Erfahrungen, was z. B. durch die äußerst differenzierten Hörfähigkeiten Blinder belegt wird.
3.4.1
Wahrnehmung der Richtung
3.4.1.1
Horizontale Ebene
Die Lokalisation in der horizontalen Ebene wird durch Unterschiede der Signale an den Ohren ermöglicht, die sich dann ergeben, wenn die Schallquelle aus der Mitte (0/) auswandert. Dabei treten beim natürlichen Hören zwischen den beiden Ohrsignalen stets sowohl interaurale Laufzeit- als auch frequenzabhängig interaurale Pegeldifferenzen auf. Sie führen aber auch einzeln zur Richtungswahrnehmung, wovon bei der stereofonen Wiedergabe über zwei oder mehr Lautsprecher Gebrauch gemacht wird. Je nach angewendetem Aufnahmeverfahren können die Lautsprechersignale nur Laufzeit- oder nur Pegeldifferenzen oder aber beide gleichzeitig erhalten. Interaurale Laufzeitdifferenzen Interaurale Laufzeitdifferenzen sind beim natürlichen Hören die wichtigsten Merkmale der Ohrsignale für die Lokalisation. Sie betragen auf Grund des Abstands der Ohren von 17 cm höchstens 0,63 ms. Die geringste noch wahrnehmbare Laufzeitdifferenz von etwa 0,03 ms entspricht einem Schallwegunterschied von nur einem cm und führt zu einer Auswanderung der Hörereignisrichtung um 3° bis 5° aus der Mitte Für die interaurale Laufzeitdifferenz gilt bei parallelem Schalleinfall vereinfacht der folgende Zusammenhang (Abb. 3/8):
106
Räumliches Hören natürlicher Schallquellen
Δs d Δt = = ⋅ sinα c c = 0,5 ⋅ sinα
)t )s d c ".
= Laufzeitdifferenz [s] = Wegunterschied [m] = Abstand der Ohren [m] = 0,17 m = Schallgeschwindigkeit [m/s] = Einfallwinkel [°]
Abb. 3/8. Interaurale Laufzeitdifferenzen )t.
Für die Feststellung der Zeitdifferenzen kann sich das Gehör am Schwingungsverlauf und an der Einhüllenden der Schwingung orientieren. V. a. für Frequenzen unterhalb von 800 Hz, höchstens aber 1600 Hz, kann das Gehör dem Schwingungsverlauf direkt Zeit- bzw. Phasendifferenzen entnehmen; deshalb können nur in diesem Frequenzbereich auch unmodulierte Sinusschwingungen zu einer Lokalisation führen. Für höhere Frequenzen kann das Gehör aus dem Vergleich der Hüllkurven der Signale Zeitdifferenzen entnehmen. Übliche „natürliche" Schallereignisse wie Sprache und Musik sind breitbandige, impulshaltige Signale mit stark strukturierten Einhüllenden. Solche Signale werden viel leichter lokalisiert als Sinussignale. Die Laufzeitdifferenz )t steigt für den wichtigen vorderen Bereich der Lokalisierung weitgehend linear mit dem Winkel an.
Interaurale Pegeldifferenzen Gegenüber interauralen Laufzeitdifferenzen sind die interauralen Differenzen der mittleren Schalldruckpegel von geringerer Bedeutung für die Lokalisation von Schallquellen. Pegeldifferenzen werden verursacht von Abschattungen durch Kopf und Ohrmuscheln. Das Ohr ist fähig, im gesamten hörbaren Frequenzbereich Pegeldifferenzen zu erkennen und in Richtungsinformationen umzusetzen. Die Ohrsignale werden selektiv in einzelnen Frequenzgruppen verglichen. Unterhalb von etwa 300 Hz entstehen jedoch wegen der Beugungserscheinungen des Schalls um den Kopf praktisch keine Pegeldifferenzen mehr. Über 300 Hz nehmen sie mit der Frequenz zu; allerdings nimmt die Pegeldifferenz sinusförmiger Signale nicht in einfacher 107
Schallwahrnehmung Weise mit dem Winkel zu, sondern sehr unregelmäßig. Damit kann keine feste Zuordnung zwischen Pegeldifferenz und Schallereignisrichtung bestehen, die für jede Signalart gültig ist; nur für definierte Signale wie Weißes Rauschen oder Sinustöne können feste Werte zugeordnet werden. Die Zuordnung hängt ganz von der spektralen Zusammensetzung des Signals ab. Für breitbandige Signale werden die Zusammenhänge einfacher und übersichtlicher, da sich statistische Mittelwerte bilden können. Es ergeben sich Klangfarbenunterschiede, sog. Spektraldifferenzen, zwischen den Ohrsignalen, die zwar nicht bewusst wahrgenommen werden, aber sicher für die Lokalisation wichtig sind. Hierbei sind jedoch im Gegensatz zur Lokalisation durch Zeitdifferenzen umfangreiche Lernprozesse Voraussetzung, die den Rückgriff auf die Klangfarbenmuster bei frontalem Schalleinfall ermöglichen. Auf Grund der komplexen, teilweise auch mehrdeutigen Zusammenhänge zwischen Frequenz bzw. Klangfarbe, Pegel und Einfallswinkel ist eine Schalllokalisation allein durch Pegelunterschiede u. U. nur beschränkt möglich bzw. kann zu Fehlurteilen führen. Zusammenwirken von interauralen Laufzeit- und Pegeldifferenzen Bei der „natürlichen" Schallwahrnehmung wirken stets interaurale Laufzeit- und Pegeldifferenzen zusammen. Für bestimmte Signale lässt sich deshalb angeben, welcher Laufzeitdifferenz welche Pegeldifferenz entspricht; je nach Signal wurden Werte zwischen 2 :s/dB und 200 :s/dB ermittelt. Es zeigt sich, dass dieser Wert zusätzlich vom Schalldruckpegel sowie von der Schalleinfallsrichtung abhängt. Die sehr komplexen Zusammenhänge von Laufzeitund Pegeldifferenzen lassen erkennen, dass das Gehör über zwei weitgehend unabhängig voneinander arbeitende Mechanismen der Lokalisation verfügt. Der erste Mechanismus wertet interaurale Laufzeitdifferenzen von Trägerschwingungen mit Frequenzen unter 1600 Hz aus; er bestimmt nur dann die Hörereignisrichtung, wenn Frequenzkomponenten über 1600 Hz fehlen. Der zweite Mechanismus wertet sowohl Laufzeitdifferenzen der Hüllkurven als auch Pegeldifferenzen aus; er bestimmt die Hörereignisrichtung, sobald Frequenzanteile über 1600 Hz wesentlicher Bestandteil des Signals sind, also ist er für die Lokalisation „natürlicher" Schallquellen wie Musik, Sprache und Geräusche dominierend. Lokalisationsunschärfe Die Lokalisationsunschärfe in Blickrichtung erreicht 2/ bis 3/, sie nimmt bei seitlichem Schalleinfall auf etwa 4,5/ zu. Ein Richtungswechsel von links nach rechts wird nach etwa 150 ms, von vorn nach hinten nach etwa 250 ms wahrgenommen. Impulshaltiger Schall - wie ihn die meisten Schallquellen abgeben - ist schneller und präziser zu lokalisieren als stationärer Schall. Treffen beim Hörer zwei gleiche Schallereignisse kurz nacheinander ein, was z. B. bei Wandoder Deckenreflexionen in einem Raum zutrifft, so gilt für eine Verzögerung zwischen etwa 1 und 30 ms das „Gesetz der ersten Wellenfront", auch „Haas-Effekt" oder „PrecedenceEffekt" (nach Wallach und Newman, 1949) genannt. Danach bestimmt der zuerst eintreffende Schall den Richtungseindruck, unabhängig davon, aus welcher Richtung der nachfolgende Schall kommt. Dabei darf der Pegel des nachfolgenden Schalls bei Laufzeitdifferenzen zwischen 5 und 30 ms z. B. für Sprache sogar bis 10 dB über dem des Primärschalls liegen, ohne dass dadurch das Gesetz der ersten Wellenfront seine Gültigkeit verliert. 108
Räumliches Hören natürlicher Schallquellen Das sog. „Gesetz der ersten Wellenfront“ – besser als psychoakustisches Phänomen denn als Gesetz zu bezeichnen - wird in der Beschallungstechnik (siehe Kap. 9) zur richtungstreuen Beschallung von Publikum eingesetzt, es ermöglicht, die Lautstärke zu erhöhen, ohne die Richtung des Schalleinfalls zu verändern. Auch bei der Schallausbreitung in Räumen oder im Freien spielt dieses Phänomen eine Rolle, indem es dafür sorgt, dass der tatsächliche Ort der Schallquelle auch bei lauteren Reflexionen noch erkannt wird; bei zu lauten Reflexionen kommt es natürlich zu Täuschungen der Lokalisation, ebenso bei einem Zeitabstand von mehr als 40 bis 50 ms, der dann zur Echobildung führt, d. h. zur Wahrnehmung zweier getrennter Schallereignisse. 3.4.1.2
Vertikale Ebene
Auch in der vertikalen Ebene, der Medianebene, ist eine Lokalisierung der Schallquelle möglich. Da die vertikale Ebene die Symmetrieebene des Kopfes ist, ergeben sich bei Schalleinfall aus dieser Ebene keine Unterschiede zwischen den Signalen an beiden Ohren. Hingegen entstehen Klangfarbenunterschiede bezogen auf die Klangfarbe des aus Blickrichtung eintreffenden Signals, die durch die Form und Beschaffenheit von Kopf und Ohren verursacht werden, beim Hören aber nicht bewusst wahrgenommen werden. Je nach Einfallsrichtung werden bestimmte, sog. „richtungsbestimmende Frequenzbänder" angehoben (Abb. 3/9). Abb. 3/9. Richtungsbestimmende Frequenzbänder bei der Richtung swahrnehmung in der Medianebene nach [3.8].
Anhebungen in diesen Frequenzgebieten führen also zu einer entsprechenden Lokalisierung der Hörereignisse. Es wird angenommen, dass jeweils eine spezifische Kombination von spektralen Gipfeln und Einbrüchen die Hörereignisrichtung bestimmt. Eine solche Lokalisierung in der Medianebene kann aber nur zu einer guten Übereinstimmung von Schallereignisund Hörereignisort führen, wenn das Schallsignal breitbandig ist und wenn das Gehör über Erfahrungen verfügt, wie dieses Signal strukturiert ist; so ist die Lokalisierung in erheblichem Maße von der Art des Schallsignals abhängig, Lerneffekte spielen eine wichtige Rolle, schmalbandige Signale können in der Medianebene nicht lokalisiert werden. Das Richtungshören in der Medianebene gewinnt besondere Bedeutung bei der Schallübertragung mit Kunstkopftechnik (siehe Kapitel 5.5). Die Lokalisationsunschärfe des Erhebungswinkels ist wesentlich größer als in der horizontalen Ebene. Für einen unbekannten Sprecher z. B. liegt sie bei etwa 17/, für einen bekannten Sprecher bei etwa 9/ in Vorwärtsrichtung. Mit zunehmender Erhebung der Schallquelle nimmt die Unschärfe auf etwa den 3-fachen Betrag zu. Weißes Rauschen wird in Blickrichtung genauer lokalisiert.
3.4.2
Wahrnehmung der Entfernung
Die interauralen Signalunterschiede werden für die Richtungswahrnehmung in der horizontalen Ebene ausgewertet, die durch die Abschattungen und Beugungserscheinungen an Kopf und Ohr entstehenden Klangfarbenänderungen geben dem Gehör die Möglichkeit, den Erhebungswinkel einer Schallquelle zu bestimmen. Für die Wahrnehmung der Entfernung 109
Schallwahrnehmung einer Schallquelle bleiben somit keine einfachen Signalmerkmale für das Gehör auswertbar, vielmehr gibt es mehrere Merkmale des Schallsignals, die in komplexer Weise auf die Entfernungswahrnehmung einwirken. Grundsätzlich sind hierbei die Erfahrung des Gehörs, die Übung und damit die Bekanntheit einer Schallquelle von sehr großer Bedeutung. Im Wesentlichen tragen die Lautstärke des Hörereignisses und Veränderungen des Spektrums auf dem Weg zum Ohr zur Bildung der Hörereignisentfernung bei. Der Lautstärkepegel eines Schallereignisses nimmt mit jeder Entfernungsverdopplung bei allseitiger Abstrahlung um 6 dB ab, bei gerichteter Abstrahlung um einen geringeren Wert. Da die meisten Schallquellen wie Musikinstrumente z. B. tiefere Frequenzkomponenten ungerichtet, höhere Frequenzkomponenten aber mit der Frequenz zunehmend gerichtet abstrahlen, ergibt sich i. Allg. mit der Pegelverminderung bei wachsender Entfernung von der Schallquelle auch eine Klangfarbenänderung, da der Anteil tiefer Frequenzkomponenten relativ geringer wird; diese Klangfarbenänderung wird noch dadurch verstärkt, dass das Gehör für tiefe Frequenzen um so unempfindlicher wird, je geringer der Schallpegel ist (Kurven gleicher Lautstärkepegel, Abb. 3/4). Die Entfernungswahrnehmung auf Grund von Lautstärkepegeln setzt grundsätzlich voraus, dass das Gehör die Lautstärke der Schallquelle in einer bestimmten Entfernung kennt. Der hierfür notwendige Lernprozess kann auf längerer allgemeiner Hörerfahrung oder auf einem aktuellen Lernprozess beruhen. Voraussetzung für die Entfernungswahrnehmung auf Grund der Lautstärke ist ferner eine gewisse Konstanz der Schallleistung. Die Lautstärke spielt v. a. bei einer Schallquellenentfernung bis etwa 15 m eine Rolle. Die Entfernungswahrnehmung im Freien bei Entfernungen über 3 m zeigt einen typischen Fehler: Das Hörereignis ist näher als das Schallereignis, das Gehör schätzt die Schallquellenentfernung zu gering ein (Abb. 3/10). Der Fehler steigt mit der Schallquellenentfernung an und kann erheblich sein; ein 10 m entferntes Schallereignis scheint nur halb so weit vom Hörer entfernt erzeugt zu sein. Diese Feststellungen scheinen der Erfahrung zu widersprechen, sie gelten allerdings ohne Zuhilfenahme des Auges und logischer Gegebenheiten der Hörsituation. Interessant ist, dass Flüstern stets deutlich näher und Schreien deutlich ferner lokalisiert wird als Umgangssprache. Auch dies zeigt den großen Einfluss von Erfahrung und Erwartung. Ein wichtiger Aspekt des Entfernungshörens ist aber auch, dass das Gehör im Grunde nicht gefordert ist, Hörerfahrungen beim Entfernungshören zu sammeln, da das Auge diese Leistung schnell und präzise erbringt. Über das Entfernungshören bei größeren Entfernungen liegen kaum Untersuchungen vor; neben dem Lautstärkepegel ist hier offensichtlich eine Klangfarbenänderung maßgeblich, die durch die Absorption hoher Frequenzkomponenten in der Luft entsteht. Auch bei Entfernungen unter 25 cm sind zusätzlich Merkmale der Klangfarbenveränderung - nun verursacht durch Beugungs- und Abschattungserscheinungen am Kopf - für das Entfernungshören von Einfluss. In geschlossenen Räumen ist eine Abschätzung der Hörereignisentfernung auch auf Grund des Verhältnisses von direktem zu diffusem Schall (Nachhall) möglich, da der Pegel des diffusen Schalls unabhängig von der Schallquellenentfernung konstant bleibt, während der Pegel des direkten Schalls mit zunehmender Entfernung geringer wird. Da neben dem Abstand zur Schallquelle aber auch das Raumvolumen und die Nachhallzeit auf das Verhältnis von direktem zu diffusem Schall Einfluss nehmen, ist die Kenntnis der raumakustischen Verhältnisse, also auch hierbei eine gewisse Hörerfahrung erforderlich. 110
Räumliches Hören natürlicher Schallquellen
Abb. 3/10. Zuordnung von Schallereignis- und Hörereignisentfernung bei einem Sprecher als Schallquelle nach Bekesy.
3.4.2.1
Im-Kopf-Lokalisation
Bei der normalen Lokalisation werden Schallereignisse als Hörereignisse außerhalb des Kopfes lokalisiert. Unter bestimmten Bedingungen können aber Hörereignisse auch im Kopf des Hörenden lokalisiert werden. Solche Bedingungen herrschen bevorzugt bei der Wiedergabe mit Kopfhörern, weshalb sie zunächst auf diese spezielle Wiedergabeart zurückgeführt wurden. Im-Kopf-Lokalisation kann aber z. B. auch bei der Abstrahlung eines Signals über eine Lautsprecheranordnung für Stereowiedergabe auftreten, wenn ein Lautsprecher verpolt wird. Das Gehör wertet nicht nur die momentan eintreffenden Signale aus, sondern vergleicht diese als Reizmuster mit erfahrenen und gespeicherten Reizmustern. Dies zeigt z. B. die wesentlich schärfere Lokalisation von Sprechern in der Medianebene, wenn deren Stimme bekannt ist. Im-Kopf-Lokalisation entsteht nun dann, wenn die Schallreize so geartet sind, dass sie nicht einer möglichen „natürlichen" Schallquelle außerhalb des Kopfes zugeordnet werden können, oder wenn das Reizmuster für das Gehör völlig neuartig ist. Vom Gehör für die Lokalisation nicht auswertbare Signale werden also für die Wahrnehmung deutlich durch die Im-KopfLokalisation gekennzeichnet. Das wichtigste Beispiel für Im-Kopf-Lokalisation ist die Wiedergabe raumbezogener Stereofonie über Kopfhörer. Das Klangbild spannt sich hierbei nicht außerhalb des Kopfes, sondern im Kopf zwischen den Ohren auf. Es wird im Kopf lokalisiert, weil für die jeweilige Einfallsrichtung typische Klangfärbungen der Signale fehlen, eine Tatsache, die den Erfahrungen des Gehörs aus dem Bereich des „natürlichen" Hörens fehlt. Werden diese Klangfarbenunterschiede wie im Kunstkopfverfahren mit einem künstlichen Kopf erzeugt, lokalisiert das Gehör trotz Kopfhörerwiedergabe außerhalb des Kopfes.
111
Schallwahrnehmung
Standards [DIN 1318 ]
Lautstärkepegel; Begriffe, Meßverfahren
[DIN 1320]
Akustik; Begriffe
[DIN 13 320]
Akustik; Spektren und Übertragungskurven, Begriffe, Darstellung
[DIN 45 500]
Bl. 10 Heimstudio-Technik (Hi-Fi); Mindestanforderungen an Kopfhörer
[DIN 45 619]
Bl. 1 Kopfhörer; Bestimmung des Freifeld-Übertragungsmaßes durch Lautstärkevergleich mit einer fortschreitenden Schallwelle
[DIN45 619]
Bl. 2 Bestimmung des Freifeld-Übertragungsmaßes durch Lautstärkevergleich
[DINEN 60 645-1] Audiometer [DIN 45 630]
Bl. 1 Grundlagen der Schallmessung; Physikalische und subjektive Größen von Schall
[DIN 45 631]
Bl. 2 -; Normalkurven gleicher Lautstärkepegel Berechnung des Lautstärkepegels und der Lautheit aus dem Geräuschspektrum; Verfahren nach E. Zwicker DINIEC 651 Schallpegelmesser
[ISO R 226-2003]
Acoustics – Normal equal-loudness-level-contours
Literatur [3.1]
Fastl, H. und Zwicker, E.: Psychoacoustics. Facts and Models, 2006, Springer
[3.2]
Hellbrück, J. und Ellermeier, W.: Hören. Physiologie, Psychologie, Pathologie, 2004, Hogrefe
[3.3]
Hartmann, W. M.: Signals, Sound, and Sensation. Modern Acoustics and Signal Processing, 1998, Springer
[3.4]
Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik, 2000, Springer
[3.4]
Terhardt, E.: Akustische Kommunikation. Grundlagen mit Hörbeispielen, 1998, Springer
[3.5]
Howard, D. und Angus, J.: Acoustics and Psychoacoustics, 3. Aufl., 2006, Focal Press
[3.6]
Kalivoda, M. und Steiner, J.: Taschenbuch der Angewandten Psychoakustik, 1998, Springer
[3.7]
Spitzer, M.: Musik im Kopf. Hören, Musizieren, Verstehen und Erleben im neuronalen Netzwerk, 2005, Schattauer
[3.8]
Blauert, J.: Räumliches Hören, 2000, Hirzel
[3.9]
Blauert, J.: Spatial Hearing. The Psychophysics of Human Sound Localization, 1997, MIT Press
[3.10]
Hellbrück, J.: Hören: Physiologie, Psychologie und Pathologie, 1993, Hogrefe
112
4
Schallwandler
4.1
Physikalische Prinzipien
Schallwandler, auch elektro-akustische Wandler genannt, sind Systeme, die Schallenergie in elektrische Energie oder elektrische Energie in Schallenergie umzuwandeln vermögen. Zur Aufnahme der Schallwellen aus einem Raum und für die Abstrahlung der Schallwellen in einen Raum wird i. Allg. eine Membran verwendet. In der Tonstudiotechnik gehören Mikrofone, Lautsprecher und Kopfhörer zu den Schallwandlern; von ihrem Wirkungsprinzip her gehören aber auch die Tondosen der Schallplattenabspielgeräte dazu. Reversible Schallwandler können in beiden Wirkungsrichtungen betrieben werden, also als Mikrofon und als Lautsprecher, irreversible Wandler nur in einer Richtung. Für die Umwandlung von aus dem Schallfeld entnommener mechanischer Energie in elektrische Energie und umgekehrt gibt es mehrere Möglichkeiten; sie werden nach der Art der mechanisch-elektrischen bzw. elektrisch-mechanischen Energiewandlung bezeichnet und eingeteilt [4.1], [4.2], [4.3]. Der elektromagnetische Wandler: Er besteht aus einem Permanentmagneten mit einer festen Leiterwicklung sowie einem beweglichen Anker, der mit einem Luftspalt dicht über dem Magneten gehalten wird; der Anker ist mit einer Membran verbunden. Permanentmagnet und Anker bilden somit einen magnetischen Kreis, der durch einen Luftspalt unterbrochen ist. Bewegt sich die Membran und damit auch der Anker, so wird in die Wicklung wegen des vorhandenen permanenten Magnetfelds eine Spannung induziert, die der Bewegungsgeschwindigkeit der Membran proportional ist. Wird umgekehrt an die Wicklung eine Spannung gelegt, bewegt sich der Anker mit der Membran im Rhythmus dieser Spannung, der Wandler ist also reversibel. Elektromagnetische Wandler können mit relativ gutem Wirkungsgrad hergestellt werden; sie eignen sich u. a. für Miniaturmikrofone (Ansteckmikrofone, Knopflochmikrofone) und -hörer.
Abb. 4/1. Elektrodynamischer Wandler, Anwendung als Lautsprecher und Tauchspulmikrofon.
Der elektrodynamische Wandler: Er arbeitet wie der elektromagnetische Wandler mit einem Permanentmagneten, die mit Strom durchflossene Spule ist hierbei jedoch nicht um den Magneten gewickelt, sondern ist im Magnetfeld meist als Schwingspule frei, aber geführt, beweglich; an die Schwingspule ist die 113
Schallwandler Membran angekoppelt. Dieser Wandler ist ebenfalls reversibel. Vorteilhaft gegenüber dem elektromagnetischen Prinzip ist, dass hierbei kein Wechselmagnetfeld erzeugt wird, das inhomogen und damit mit Verzerrungen verbunden ist. Trägt man konstruktiv dafür Sorge, dass die Schwingspule auch bei großen Bewegungsamplituden im homogenen Magnetfeld bleibt, so lassen sich mit dem elektrodynamischen Wandlerprinzip besonders verzerrungsarme, robuste Wandler herstellen. Dynamische Mikrofone, also Tauchspul- und Bändchenmikrofone, sowie dynamische Lautsprecher und Kopfhörer arbeiten nach diesem Prinzip, das Abb. 4/1 in der Anwendung bei einem Lautsprecher und einem Tauchspulmikrofon zeigt.
Abb. 4/2. Elektrostatischer Wandler, Anwendung als Kondensatormikrofon.
Der magnetostriktive Wandler: Er nutzt die Längenänderung, die ferromagnetische Materialien erfahren, wenn sie einem Magnetfeld ausgesetzt werden. Diese sind zwar sehr klein, jedoch mit großen Kräften verbunden. Diese Wandler eignen sich deshalb besonders für die Erzeugung von Unterwasserschall (Sonar-Ortung), aber auch im Ultraschallbereich. Der Wirkungsgrad dieses ebenfalls reversiblen Wandlers ist hoch. Der elektrostatische oder dielektrische Wandler: Er ist im Prinzip ein Kondensator mit einer festen Platte als Elektrode und einer beweglichen, als Membran wirkenden Gegenelektrode. Dieser Kondensator erhält eine konstante elektrische Vorspannung und damit eine konstante Ladung Q. Schwingungen der Membran führen zu periodischen Änderungen des Elektrodenabstands und somit der Kapazität C. Es fließt ein Ausgleichsstrom, der an einem Widerstand, der in den Stromkreis aus Spannungsquelle und Wandler gelegt wird, einen den Bewegungen der Membran proportionalen Spannungsabfall U bewirkt. U = Q/C, Q ist durch die konstante Vorspannung konstant, also ist der Spannungsabfall U proportional zum Kehrwert der Kapazität 1/C. Anders als bei dieser sog. Niederfrequenzschaltung können die Änderungen der Kapazität aber auch in einem Schwingkreis die Frequenz einer HF-Schwingung modulieren, aus der durch Demodulation dann die entsprechende NF-Spannung gewonnen wird, man spricht hier von Hochfrequenzschaltung. In der Tonstudiotechnik wird das elektrostatische Wandlerprinzip bei einem der wichtigsten 114
Mikrofone Werkzeuge, dem Kondensatormikrofon, dem klassischen hochwertigen Studiomikrofon, in beiden Schaltungsvarianten angewendet (siehe 4.2.2), in umgekehrter Wirkungsrichtung bei elektrostatischen Lautsprechern und Kopfhörern. Abb. 4/2 zeigt das elektrostatische Prinzip am Beispiel des Kondensatormikrofons in Niederfrequenzschaltung. Eine besondere Bauform ist das Elektretmikrofon, das heute im Bereich der Sprachkommunikation als preiswertes Massenprodukt mit vergleichsweise guten Mikrofondaten v. a. als Miniaturmikrofon zur Verfügung steht; es benötigt nur eine Batterie zur Spannungsversorgung. Der piezoelektrische Wandler: Er nutzt den sog. piezoelektrischen Effekt: Danach treten an der Oberfläche bestimmter Kristalle oder polykristalliner Stoffe elektrische Ladungen auf, wenn die Kristalle verformt werden. Umgekehrt können diese Kristalle auch durch elektrische Spannungen verformt werden. In der Tonstudiotechnik werden solche Wandler nicht mehr verwendet. Die verschiedenen Wandlerprinzipien haben gemeinsame Gesetzmäßigkeiten: Elektromagnetische, magnetostriktive und elektrostatische Schallsender arbeiten nach quadratischen Kraftgesetzen; um Verzerrungen zu vermeiden, ist deshalb eine Polarisation mit einer Gleichgröße als Magnetfeld oder Vorspannung notwendig, die groß gegenüber der Wechselgröße sein muss. Hingegen gelten für elektrodynamische und piezoelektrische Schallsender lineare Kraftgesetze, die verzerrungsarme Wandler bedingen. Schallwandler, die mit einem magnetischen Feld arbeiten, reagieren auf die Geschwindigkeit der bewegten Membran; Schallwandler, die mit einem elektrischen Feld arbeiten, reagieren auf die Auslenkung der Membran. Die mit einem magnetischen Feld arbeitenden Wandler geben eine frequenzabhängige Signalspannung ab, die durch besondere konstruktive Maßnahmen linearisiert werden muss. Schallwandler, die mit dem elektrischen Feld arbeiten, geben eine frequenzunabhängige Signalspannung ab, sofern ihre Eigenresonanz oberhalb des Übertragungsbereichs liegt.
4.2
Mikrofone
Mikrofone wandeln Schallschwingungen in elektrische Wechselspannungen um. Dieser Umwandlungsprozess erfolgt in zwei Stufen: zunächst wird eine Membran als Schallempfänger von den Schallwellen zu erzwungenen Schwingungen angeregt; diese mechanischen Schwingungen wandelt dann das an den Schallempfänger gekoppelte Wandlersystem des Mikrofons in elektrische Schwingungen um (Abb. 4/3). Das Prinzip der Umwandlung von akustischen Schwingungen in mechanische ist das sog. Empfängerprinzip des Mikrofons, das Prinzip der anschließenden Umwandlung in elektrische Schwingungen ist das Wandlerprinzip des Mikrofons. [4.4] Das Empfängerprinzip eines Mikrofons wird von der Konstruktion der Mikrofonkapsel, der Art des Einbaus der Membran, bei Doppelmembranmikrofonen auch von dem elektrischen Zusammenwirken der beiden Membranen bestimmt. Das Empfängerprinzip bedingt die Richtcharakteristik und das Verhalten im Nahfeld der Schallquelle, es bestimmt den Frequenzgang mit. Man unterscheidet die Empfängerprinzipien und damit die Mikrofone nach der Schallfeldgröße, die die Membran antreibt: Beim Druckempfänger bewegt der Schalldruck die Membran, der nur einseitig auf diese einwirkt, es entsteht eine Kugelrichtcharakteristik. Beim Druckgradientenempfänger wird die Membran durch die Druckdifferenz zwischen 115
Schallwandler Membranvorder- und Membranrückseite bewegt, wenn der Schall auf beide Membranseiten einwirkt, es entsteht eine Nierenrichtcharakteristik (Kardioide), eine Achterrichtcharakteristik oder deren Zwischenformen (breite Niere, Superniere, Hyperniere, Keule).
Abb. 4/3. Prinzipieller Aufbau eines Mikrofons.
Im Interesse eines großen Abstandes zwischen Stör- und der Signalspannung soll die Membranauslenkung möglichst groß sein. Die Schwingungsweite der Membran findet ihre Grenze, wenn die Verzerrungen eine gerade noch zulässige Größe erreichen. Bei zu großer Membranauslenkung entstehen Verzerrungen u. a. dadurch, dass die Membran durch ihre Trägheit und Steifigkeit den Schallschwingungen nicht mehr exakt folgen kann. Zwischen diesen beiden Grenzen, große Auslenkung für eine große Ausgangsspannung und möglichst kleine Auslenkung für geringe Verzerrungen, liegt die optimale Membranauslenkung. Dabei führt die Membran durch Dämpfungselemente wie z. B. Luftpolster und die Lage der Eigenresonanz der Membran immer erzwungene Schwingungen aus und gerät nicht in Resonanz. Von den verschiedenen Wandlerprinzipien finden bei Studiomikrofonen das elektrostatische Wandlerprinzip bei Kondensatormikrofonen Anwendung, das elektrodynamische Wandlerprinzip bei dynamischen Mikrofonen (Tauchspul- und Bändchenmikrofone).
4.2.1
Eigenschaften von Mikrofonen
Die Datenblätter der Mikrofonhersteller geben Auskunft über die Qualitätsmerkmale der Mikrofone, insbesondere handelt es sich um die folgenden Eigenschaften [4.5], [4.7]: 4.2.1.1
Übertragungsfaktor und Übertragungsmaß, Empfindlichkeit
Die Größe der Spannung, die von einem Mikrofon bezogen auf den einwirkenden Schalldruck abgegeben wird, wird durch den Übertragungsfaktor oder das Übertragungsmaß angegeben. In DIN 45 590 werden u. a. die folgenden Begriffe mit den dazugehörigen Einheiten definiert; DIN 45 591 regelt die Messbedingungen und Messverfahren bei Typprüfungen. Feld-Übertragungsfaktor: Der Feld-Übertragungsfaktor bei einer bestimmten Frequenz - 1 kHz, wenn nicht anders angegeben - ist der Quotient aus der effektiven Ausgangsspannung und dem effektiven Schalldruck am Ort des Mikrofons, wenn dieses aus dem Schallfeld entfernt ist; in der Regel ist das Schallfeld eine ebene Welle. Er wird angegeben in mV/Pa. 1 Pa (Pascal) entspricht einem Schalldruckpegel von 94 dBSPL. Der Übertragungsfaktor gibt also die Empfindlichkeit eines Mikrofons an, je höher der Faktor, desto empfindlicher ist das Mikrofon. 116
Mikrofone Feld-Leerlaufübertragungsfaktor, Feld-Betriebsübertragungsfaktor: Man unterscheidet beim Feld-Übertragungsfaktor Leerlauf- und Betriebsgrößen, je nachdem, ob die Ausgangsspannung des Mikrofons als Leerlaufspannung (sehr hochohmiger Abschlusswiderstand) oder als Klemmenspannung unter betriebsmäßigem Abschluss (Nennabschlussimpedanz, siehe unten) gemessen wird. Der Feld-Leerlaufübertragungsfaktor liegt bei dynamischen Mikrofonen bei etwa 1 bis 2 mV/Pa, bei Kondensatormikrofonen zwischen 5 und 20 mV/Pa. Kondensatormikrofone geben damit einen um rund 10 bis 20 dB höheren Pegel als dynamische Mikrofone ab. Empfindlichkeit, sensitivity: Einige Hersteller und viele Praktiker bezeichnen mit diesem Begriff den Feld-Betriebsübertragungsfaktor. DIN 45 590 sieht diesen Begriff für Mikrofone nicht vor. Feld-Übertragungsmaß: Das Feld-Übertragungsmaß ist der 20-fache Zehnerlogarithmus des Verhältnisses FeldÜbertragungsfaktor zu einem Bezugs-Übertragungsfaktor von z. B. 1 V/Pa; er wird in dB angegeben. 4.2.1.2
Übertragungsbereich
Der Übertragungsbereich ist der zur Schallaufnahme nutzbare Frequenzbereich. Für ihn werden die vom Hersteller angegebenen Übertragungseigenschaften eines Mikrofons und deren Toleranzen angegeben. Der Übertragungsbereich verschiedener Mikrofone kann deshalb oft nicht direkt miteinander verglichen werden, weil z. B. unterschiedliche Toleranzen zugelassen werden. Ein typischer Übertragungsbereich für Studiomikrofone ist 40 bis 20 000 Hz, mindestens aber bis 16 000 Hz. Frequenzen unterhalb 40 Hz werden bei Studiomikrofonen durch einen Hochpass weggefiltert, bei 15 Hz soll der Pegelabfall mindestens 12 dB betragen. Auch Frequenzen oberhalb des Übertragungsbereichs müssen vom Übertragungsweg ferngehalten werden; durch Demodulationseffekte erzeugen sie Störungen im Hörschallbereich. Oberhalb 40 kHz (bis 1 MHz) soll die Dämpfung größer als 20 dB sein. 4.2.1.3
Frequenzgang
Der Frequenzgang oder die Frequenzkurve eines Mikrofons ist die grafische Darstellung der Abhängigkeit des Übertragungsmaßes von der Frequenz bei senkrecht auf die Membran auftreffendem Schall, die Messung erfolgt also im Direktfeld. Die Toleranzzone ist bei Studiomikrofonen i. Allg. mit ±2 dB angegeben; eine diesbezügliche Norm gibt es nur für den Consumer-Sektor (DIN 45 500, Tl. 5). Die beim Übertragungsmaß angegebene Toleranz bezieht sich nicht auf den Frequenzgang, sondern auf das Übertragungsmaß bei 1 kHz. Frequenzgänge im Direkt- und Diffusfeld Einer der Gründe, warum Mikrofone mit gleichen Frequenzkurven sich klangfarblich unterscheiden können, ist die Tatsache, dass die Bedingungen, unter denen die Frequenzkurve gemessen wird - frontal einfallender Direktschall - nur bei der Aufnahme im Nahbereich der Instrumente Gültigkeit haben. Sobald das Mikrofon aus dem unmittelbaren Nahbereich der Schallquelle entfernt wird, erhöht sich der Diffusfeldanteil zunehmend; der Diffusfeldfrequenzgang weicht aber i. Allg. vom Direktfeldfrequenzgang ab, u. U. ganz erheblich. Der 117
Schallwandler Diffusfeldfrequenzgang wird in Datenblättern üblicherweise aber leider nicht angegeben, wohl weil er nicht die Linearität des Direktfeldfrequenzgangs haben kann. Er kann zwar durch Mittelung der Richtcharakteristiken für die verschiedenen Messfrequenzen näherungsweise aus den Herstellerdaten ermittelt oder abgeschätzt werden, für den praktischen Anwender ist dies jedoch zu aufwändig. Wenn die verschiedenen Richtcharakteristiken jedoch erheblich voneinander abweichen, so kann daraus auf einen erheblichen Unterschied zwischen Direktund Diffusfeldfrequenzgang geschlossen werden. Abb. 4/4 zeigt die Frequenzgänge und die Richtcharakteristiken für verschiedene Frequenzen am Beispiel eines Studiomikrofons. Direkt- und Diffusfeldfrequenzgang stimmen hier gut überein; der Pegel des Diffusfeldfrequenzgangs liegt in diesem Fall um 5 dB unterhalb demjenigen des Direkt- oder Freifeldfrequenzgangs, diese Differenz ist das Bündelungsmaß des Mikrofons. Auf den Unterschied von Freifeld- und Diffusfeldfrequenzgang hat das Empfängerprinzip sowie die Konstruktion der Mikrofonkapsel Einfluss.
Abb. 4/4. Mikrofon-Frequenzgänge eines Druckgradientenempfängers für verschiedene Einfallsrichtungen und für Diffusschall. Der 0/-Frequenzgang ist der in Datenblättern der Hersteller angegebene Frequenzgang.
Druckempfänger haben bei einem Membrandurchmesser um 16 mm im Frequenzbereich um 10 kHz eine Anhebung des Übertragungsmaßes um etwa 6 dB für Direktschall, der senkrecht auf die Membran trifft. In diesem Frequenzbereich ist die Membranausdehnung in der Größenordnung der Wellenlänge des Schalls; deshalb wird die Schallwelle an der Membran reflektiert, der Schalldruck auf die Membran verdoppelt sich dabei, was der Anhebung von 6 dB entspricht. Dieser Anstieg kann durchaus erwünscht sein, da er eine gewisse Klangpräsenz fördert. Der Diffusfeldfrequenzgang zeigt demgegenüber einen Höhenabfall; Schallwellen kleiner Wellenlänge werden nicht mehr um die Mikrofonkapsel herum gebeugt, das Mikrofon ist für höhere Frequenzen ein ausgesprochenes Richtmikrofon, es wird nicht mehr 118
Mikrofone soviel rückwärtiger und seitlicher Schall aufgenommen. Der Höhenabfall wird dadurch reduziert, dass auch hier für frontal eintreffende Schallanteile durch Reflexion ein Pegelanstieg von 6 dB besteht. Studiomikrofone nach dem Druckempfängerprinzip haben also i. Allg. entweder - einen geraden Direktfeldfrequenzgang, man nennt solche Mikrofone „freifeldentzerrt“, - einen geraden Diffusfeldfrequenzgang, man nennt solche Mikrofone „diffusfeldentzerrt“, - oder einen Kompromiss zwischen diesen Möglichkeiten. Abb. 4/5 zeigt ein Beispiel mit Diffusfeldentzerrung und damit einen weitgehend geraden Diffusfeldfrequenzgang.
Abb. 4/5. Beispiel der Frequenzgänge eines Druckempfängers im Direktfeld und Diffusfeld bei Diffusfeldentzerrung.
Grenzflächenmikrofone sind ebenfalls Druckempfänger (siehe 4.2.2). Wegen der bündig in eine größere Fläche integrierten Membran sind die Bedingungen für Schallreflexion, die bei üblichen Studiomikrofonen nur bei höheren Frequenzen erfüllt sind, bei diesen Mikrofonen für den gesamten Übertragungsbereich gegeben. Bei Grenzflächenmikrofonen sind also Direkt- und Diffusfeldfrequenzgang weitgehend gleich, was so bei keinem Mikrofontyp zutrifft. Bei Druckgradientenempfängern gibt es zwischen Direktfeld- und Diffusfeldfrequenzgang keine physikalisch bedingten Unterschiede. Moderne, hochwertige Studiomikrofone haben denn auch zwischen den beiden Frequenzgängen nur relativ geringe Abweichungen. Abb. 4/4 zeigt dies am Beispiel eines Studiomikrofons; im Gegensatz zum Druckempfänger zeigt hier das Diffusfeld sogar einen geringen Höhenanstieg bei 10 kHz. Ein wenig beachtetes Phänomen ist der Einfluss des Mikrofonständers und der -halterung auf den Freifeldfrequenzgang. Durch Störungen des Schallfelds können kammfilterartige Störungen des Frequenzgangs von bis zu ±l dB entstehen. Senkrechte Stangen im Bereich des Mikrofons verursachen solche Störungen, durch ausgefahrene waagrechte Ausleger können sie vermieden werden. Frequenzgang bei Nahbesprechung von Gradientenempfängern Richtmikrofone mit Nieren- oder Achterrichtcharakteristik oder deren Zwischenformen (Super- und Hypernieren, Keulen) sind sog. Druckgradientenempfänger (siehe dazu unten). Diese Mikrofone haben für nahe Schallquellen einen anderen Frequenzgang als für entfernte Schallquellen, nämlich eine Überbetonung tiefer Frequenzen; man nennt diese in der Physik der Schallwellen begründete Erscheinung den Nahbesprechungseffekt eines Mikrofons. 119
Schallwandler Die Tiefenanhebung beim Nahbesprechungseffekt ist umso größer, je tiefer die Frequenz und je kleiner der Mikrofonabstand ist. Die Anhebung setzt etwa da ein, wo der Mikrofonabstand kleiner als die Wellenlänge wird. Sie kommt deshalb zustande, weil die Druckdifferenz (Druckgradient) zwischen Membranvorder- und -rückseite, die die Membran auslenkt, aus zwei Komponenten zusammengesetzt ist, nämlich aus dem frequenzabhängigen Druckgradienten (Fernfeldkomponente) und aus der entfernungsabhängigen Abnahme mit der Entfernung (Nahfeldkomponente). Die Druckdifferenz ist umso geringer, je größer die Wellenlänge bzw. je tiefer die Frequenz ist; dieser Tiefenabfall der Fernfeldkomponente wird im Mikrofon elektrisch durch die Anhebung tiefer Frequenzen ausgeglichen. Dazu kommt im Nahfeld die Druckabnahme, die durch die Schallausbreitung bedingt ist; da auch diese frequenzunabhängige Komponente über die Frequenzgangkorrektur (Bassanhebung) der Fernfeldkomponente geführt wird, ergibt sich im Nahfeld eine ganz erhebliche Bassanhebung (Abb. 4/6).
Abb. 4/6. Fernfeld- und Nahfeldkomponenten des Druckgradienten einer Schallwelle.
Abb. 4/7 zeigt die Bassanhebung bei Nahbesprechung bei drei verschiedenen Mikrofonabständen. Sie ist bei Mikrofonen mit Achterrichtcharakteristik um 6 dB höher als bei Nierenmikrofonen. Nur bei Abständen unter 50 bis 100 cm spielt der Nahbesprechungseffekt in der Praxis eine beachtenswerte Rolle. Richtmikrofone, die für den Einsatz bei geringen Entfernungen vorgesehen sind, müssen die Bassanhebung durch den Nahbesprechungseffekt ausgleichen. Sie sind i. Allg. bezüglich ihres Frequenzgangs auf eine Entfernung von etwa 10 cm optimiert, diese Angabe fehlt meistens in den Datenblättern der Hersteller. Sie heißen Solisten-, Gesangs- oder Nahbesprechungsmikrofone. Universalmikrofone haben oft einen Sprache/Musik-Schalter, die Tiefen sind abgesenkt in Schalterstellung „Sprache“, linear ist der Frequenzgang in Stellung „Musik“. Bei sog. Zweiwegmikrofonen gelingt es durch konstruktive Maßnahmen, den Nahbesprechungseffekt verhältnismäßig gering zu halten. Nahbesprechungsmikrofone haben für entfernte Schallquellen selbstverständlich eine den Klang färbende Bassabsenkung, die sie für größere Mikrofonabstände ungeeignet machten; sie eignen sich aber besonders für die Nahbesprechung in lärmerfüllter Umgebung, weil sie den entfernten Lärm im Bereich tiefer Frequenzen dämpfen. 120
Mikrofone
Abb. 4/7. Bassanhebung beim Nahbesprechungseffekt.
4.2.1.4
Störspannungen und Störpegel
Für die Erfassung der Störspannung oder des Störpegels eines Mikrofons sind nach DIN 45 590 und 45 405 mehrere Begriffe und Messverfahren in Gebrauch. Eigenstörspannung (früher Fremdspannung): Die Eigenstörspannung ist die an der Nennabschlussimpedanz gemessene effektive Störspannung, wenn kein Schall auf das Mikrofon trifft und wenn auch sonst keine elektrischen oder magnetischen Störfelder vorhanden sind. Dieser Begriff wird in Datenblättern kaum verwendet. Geräuschspannung: Die Geräuschspannung von Mikrofonen ist nach DIN 45 590 die mit dem Geräuschspannungsmesser nach DIN 45 405 - entspricht CCIR 468 bzw. ITU-R BS 468 mit Frequenzbewertung und Quasi-Spitzenwertanzeige an der Nennabschlussimpedanz gemessene Störspannung. Das Bewertungsfilter berücksichtigt die größere subjektive Störwirkung der Frequenzen über 1 kHz. Bewerteter Stör- oder Geräuschspannungspegel: Der Geräuschspannungspegel ist das in dB (dBV) ausgedrückte Verhältnis von Geräuschspannung zur Bezugsspannung 1 V. Wegen des in der Tonstudiotechnik in Europa unüblichen Bezugswerts 1 V erhält man eine ungefähre Angabe in dBu durch Subtraktion von 4 dB. Bewerteter Stör- oder Geräuschspannungsabstand: Der Geräuschspannungsabstand ist die in dB ausgedrückte Differenz des Pegels, den das Mikrofon bei einem Schalldruck von 1 Pa (1 Pa = 10 :bar) und der Frequenz 1 kHz bezogen auf 1 V abgibt, und seinem Geräuschspannungspegel. 1 Pa entspricht einem Schalldruckpegel von 94 dB. Nach neuerer Normung (DIN 45 405) sollen die Begriffsbildungen mit „Geräusch..." durch „bewertete Stör..." ersetzt werden. Der Bezug auf 1 V, den DIN 45 590 hier vorsieht, ist unerheblich und kann durch einen beliebigen Bezugswert, z. B. 0,775 V ersetzt 121
Schallwandler werden, wenn der Mikrofonpegel bei 1 Pa und die Geräuschspannung auf denselben Wert bezogen sind. Ersatzlautstärke: Dieser früher, aber teilweise auch noch heute verwendete Begriff soll die Störwirkung der Eigenstörungen eines Mikrofons mit akustischen Störungen des Aufnahmeraums vergleichbar machen. Er muss deshalb den Feldübertragungsfaktor des jeweiligen Mikrofontyps berücksichtigen. Die Ersatzlautstärke ist gleich der Differenz in dB des Mikrofonpegels bei einem Schalldruck von 94 dB und des Geräuschspannungspegels. Äquivalentschalldruck: Der Äquivalentschalldruck dient zur Erfassung spezieller Störungen wie Windgeräusche oder Magnetfeldeinstreuungen. Er kann auch als Pegel bezogen auf 20 :Pa angegeben werden. A-bewerteter Äquivalentschalldruck, -pegel: DIN 45 590 sieht neben der Bewertung der Geräuschspannung nach DIN 45 405 unter diesen Begriffen eine zweite Bewertung vor: bewertet wird nach der Bewertungskurve A nach DIN IEC 651 (bis 1982 DIN 45 633) für Schallpegelmesser; die Kurve entspricht nicht der Kurve nach DIN 45 405, gemessen wird der Effektivwert. Der A-bewertete Äquivalentschalldruckpegel ergibt also notwendigerweise einen günstiger erscheinenden Wert als der Geräuschspannungspegel. E DIN 45 412 sieht diese Bewertung seit 1984 für den Heimtonbereich vor. Magnetfeldstörfaktor: Bei dynamischen Mikrofonen ist der störende Einfluss äußerer Magnetfelder von Interesse. Der Magnetfeldstörfaktor gibt die induzierte Spannung bei 5 :Tesla und 50 Hz an. Mikrofone geringer Magnetfeldempfindlichkeit haben 3 - 5 :V/:T. Für die Geräuschbewertung eines Mikrofons stehen also mehrere verschiedene Messmethoden zur Verfügung. Da sich die Messwerte erheblich unterscheiden, ist beim Datenvergleich Sorgfalt notwendig. In der gegebenen Situation sollten diesbezügliche Angaben also stets das zu Grunde gelegte Messverfahren beinhalten; anderenfalls muss vorsichtshalber die Messung in dBA nach DIN IEC 651 bzw. E DIN 45 412 angenommen werden. Auch wenn eine Bewertung des Mikrofonstörpegels im Bezug auf die Störgeräusche der Regie- oder Aufzeichnungsanlage angestellt wird, ist auf Gleichheit der Geräuschbewertung zu achten. Bei den Studiomikrofonen, die nach Frequenzumfang und Frequenzlinearität vergleichbar sind, ergeben sich ähnliche Messwerte, da als Ursache der Störspannungen hauptsächlich das physikalisch bedingte und unvermeidliche Wärmerauschen auftritt. Auch zur Definition des Geräuschspannungsabstands nach DIN 45 590 gibt es eine ähnliche Größe, die günstiger erscheinende Werte angibt: Während der Geräuschspannungsabstand auf einen Schallpegel von 94 dB entsprechend einem Schalldruck von 1 Pa bezogen ist, wird der Dynamikumfang eines Mikrofons von manchen Herstellern auf einen Schalldruck bezogen, bei dem die Verzerrungen einen Wert von 0,5 oder 1 % erreichen, Werte, die gemessen am heutigen Standard der Tonstudiotechnik nicht mehr als gering zu bezeichnen sind. Dabei stehen den Geräuschspannungsabständen üblicher Studiomikrofone von 75 bis 80 dB Dynamikumfänge von 110 bis 140 dB gegenüber; von Einfluss ist hier natürlich auch die verwendete Störpegelbewertung sowie die zugelassenen Verzerrungen; über beides fehlen oft die Angaben. 122
Mikrofone 4.2.1.5
Grenzschalldruck und Aussteuerungsgrenze
An Stelle des Klirrfaktors wird bei Mikrofonen derjenige Schalldruck oder Schalldruckpegel angegeben, unterhalb dessen der Hersteller die Einhaltung eines bestimmten Klirrfaktors meist 0,5 %, gelegentlich aber auch 1 %, bei 1 kHz - garantiert. Man bezeichnet diesen Schalldruck als Grenzschalldruck. Für Kondensatormikrofone liegt er in der Regel zwischen etwa 20 und 200 Pa; dem entspricht ein Schalldruckpegel von 120 bis 140 dB. Dynamische Mikrofone können meist sehr hohen Schalldruck verarbeiten, ohne dass ihre Verzerrungen unzulässig ansteigen; deshalb wird bei ihnen oft auf die Angabe eines Grenzschalldrucks verzichtet. 4.2.1.6
Nennabschlussimpedanz und Nennimpedanz
Die Nennabschlussimpedanz eines Mikrofons (DIN 45 590) ist der elektrische WechselstromAbschlusswiderstand, für den es ausgelegt ist und mit dem es mindestens abgeschlossen werden soll; er stellt die höchst zulässige Belastung dar. Die Nennabschlussimpedanz ist also die minimale Eingangsimpedanz des Mikrofonverstärkers der Regieanlage. Je nach Hersteller und Mikrofontyp sind verschiedene Werte üblich, sie liegen zwischen 200 und 1000 S, selten höher. Die elektrische Impedanz (DIN 45 590) eines Mikrofons ist der Quellwiderstand, also der Quotient aus der an dessen Klemmen angelegten Spannung und dem dabei fließenden Strom bei Abschluss mit der Nennabschlussimpedanz; die Angabe wird meist auf 1 kHz bezogen. Die meisten Mikrofone haben eine Nennabschlussimpedanz von 150 oder 200 S. Nur wenn die Nennabschlussimpedanz wesentlich höher als die Impedanz des Mikrofons ist, wirken sich Frequenzabhängigkeiten der Impedanzen nicht auf den Frequenzgang des Mikrofonpegels aus. Bei Kondensatormikrofonen reduziert eine zu kleine Abschlussimpedanz die Aussteuerbarkeit. Die vom Hersteller angegebenen Werte sollten keinesfalls unterschritten werden. 4.2.1.7
Richtwirkung und ihre Frequenzabhängigkeit
Die Abhängigkeit der Mikrofonspannung bzw. des Mikrofonpegels von der Einfallsrichtung des Schalls wird durch verschiedene Begriffe erfasst, die in DIN 45 590 definiert sind. Richtungsfaktor: Der Richtungsfaktor eines Mikrofons für eine bestimmte Frequenz und Richtung ist das Verhältnis des Feld-Übertragungsfaktors für eine ebene Schallwelle, die das Mikrofon aus einer bestimmten Richtung trifft, zu demjenigen aus der Bezugsrichtung (Richtung 0/, Bezugsachse, Symmetrieachse). Der Richtungsfaktor hängt von der Einfallsrichtung und der Frequenz ab. Er ist dimensionslos. Richtungsmaß: Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Er wird in dB angegeben. Richtcharakteristik: Erst die grafische Darstellung des Richtungsfaktors oder bevorzugt des Richtungsmaßes für alle Richtungen und einige wichtige Frequenzen (z. B. 125, 250, 500, 1000, 2000, 4000, 8000, 16 000 Hz) in einem Polarkoordinatensystem macht die Richtwirkung eines Mikrofons für den 123
Schallwandler Anwender deutlich (Abb. 4/8.1). Da alle Richtcharakteristiken symmetrisch zur 0/-Richtung liegen, wird das Richtungsmaß vielfach für eine bestimmte Frequenz nur einseitig angegeben. Das Richtdiagramm ist die zentrale Schnittebene der räumlichen Richtcharakteristik; diese liegt rotationssymmetrisch zu der senkrecht die Membran schneidenden Achse (Abb. 4/8.2). In Abb. 4/8 sind die Richtdiagramme auf Grund des Richtungsfaktors und Richtungsmaßes einander gegenübergestellt. Die Darstellung des Richtungsfaktors lässt die Richtcharakteristik deutlicher erscheinen als die Darstellung des Richtungsmaßes. Tab. 4/1 stellt einige Werte von Richtungsmaß und -faktor gegenüber. Tab. 4/1. Richtungsmaß und Richtungsfaktor. Richtungsmaß [dB]
= Richtungsfaktor [dimensionslos]
0 -3 -6 -10 -12
1 0,7 0,5 0,3 0,25
Abb. 4/8. Richtdiagramme am Beispiel zweier Rohrrichtmikrofone: 1. Darstellung des Richtungsmaßes, 2. Darstellung des Richtungsfaktors.
Mikrofone mit Richtwirkung werden eingesetzt, um Schall bevorzugt aus einer bestimmten Richtung zu empfangen, den Direktschall aus anderen Richtungen und den Diffusschall aber auszublenden. Um diese Eigenschaft mit einem einzigen Zahlenwert ausdrücken zu können, werden die Begriffe Bündelungsgrad und Bündelungsmaß verwendet (DIN 45 590): Bündelungsgrad: Der Bündelungsgrad gibt an, wie viel mal größer die aufgenommene Leistung des Raumschalls wäre, wenn das Mikrofon bei gleichem Feldübertragungsfaktor Kugelcharakteristik hätte. Er ist eine reine Zahl. Bei einem idealen Nierenmikrofon z. B. beträgt der Bündelungsgrad 3. Das heißt, nur 1/3 der Raumschallleistung - verglichen mit einem Kugelmikrofon 124
Mikrofone desselben Feldübertragungsfaktors wie das Nierenmikrofon in der Richtung 0/ - wird aufgenommen. Praktisch bedeutet das, wenn man statt der Schallleistung den Schallpegel betrachtet, dass bei einem Nierenmikrofon der Besprechungsabstand um den Faktor 1.73 = 3 größer sein kann als bei einem Kugelmikrofon. Erst bei einem Besprechungsabstand von z. B. 1,73 m hat man also bei einem Nierenmikrofon den gleichen Einfluss des Raumschalls, den man bei einem Kugelmikrofon bereits in einem Abstand von 1 m beobachtet. Für die Achterrichtcharakteristik gilt dasselbe. Bündelungsmaß: Das Bündelungsmaß ist der l0-fache Zehnerlogarithmus des Bündelungsgrades; er wird in dB angegeben. Die Richtcharakteristik eines Mikrofons wird von seiner akustischen Arbeitsweise, d. h. von seiner mechanisch-akustischen Konstruktion bestimmt. Die Konstruktion legt fest, ob ein Mikrofon auf den Schalldruck anspricht und damit kugelförmige Richtcharakteristik hat oder ob es auf den Druckgradienten anspricht und damit nieren- oder achterförmige Richtcharakteristik bzw. Zwischenformen (Super- und Hyperniere, Keule) besitzt. Richtcharakteristiken in der Praxis Abb. 4/9 zeigt in räumlicher Darstellung die Hauptformen der Richtcharakteristiken, Abb. 4/10 die Richtdiagramme der Grundformen Kugel, Niere und Acht sowie der Zwischenformen zwischen Niere und Acht, Superniere, Hyperniere und Keule, es handelt sich um idealisierte
Abb. 4/9. Hauptformen der Richtcharakteristik in idealisierter pseudo-dreidimensionaler Darstellung.
Darstellungen, die außer Acht lassen, dass in der Praxis die Richtdiagramme eine Frequenzabhängigkeit zeigen. Während Nieren und Achten sowie ihre Zwischenformen noch relativ frequenzunabhängige Richtdiagramme haben, sind Kugeln und Keulen für Direktschall vergleichsweise erheblich frequenzabhängig; die in Abb. 4/10 dargestellten Kurven gelten in dem Frequenzbereich bis 1000 Hz. 125
Schallwandler Für den praktischen Einsatz der Richtmikrofone ist zunächst wichtig, dass die Richtwirkung nur für Direktschall wirksam ist, also nicht weit über den Hallradius (siehe 1.2.4) hinaus. Nur im Freien oder in sehr trockenen Räumen kann demnach ein Mikrofon aus größerer Entfernung Störschall aus anderen Richtungen als aus derjenigen der Schallquelle ausblenden. In sehr halligen Räumen können nur Keulen-Richtmikrofone bis zum 2- bis 3-fachen Wert des Hallradius noch Schall ausblenden. Die Ausblendung von Störschall bzw. Nachhall ist umso besser, je näher das Mikrofon an die Schallquelle herangebracht wird.
Abb. 4/10. Richtdiagramme von Mikrofonen (idealisierte Kurven).
Das Verhältnis von Direktschall zu Diffusschall ist bei der Mikrofonaufnahme ein wichtiges Kriterium für die Wahl der geeigneten Richtcharakteristik. In relativ halliger Umgebung und/oder bei störenden Nebengeräuschen ist es bei Sprachaufnahmen praktisch immer, bei Musikaufnahmen vielfach wünschenswert, möglichst viel Direktschall verglichen mit dem Diffusschall aufzunehmen. Der Mikrofonabstand ist bei Richtmikrofonen für ein bestimmtes Verhältnis von Direkt- zu Diffusschall stets größer als bei ungerichteten Mikrofonen. Dieser Vergrößerungsfaktor ist in Abb. 4/11 für die verschiedenen Richtmikrofone angegeben. Er ist 126
Mikrofone gleich der Wurzel aus dem Bündelungsgrad des Mikrofons.Ein weiteres Kriterium für die Mikrofonwahl ist das Maß der Ausblendung bzw. Dämpfung von Schallquellen, die seitlich oder hinter dem Mikrofon sind; Direktschall von solchen Schallquellen wird entsprechend Tab. 4/2 gegenüber dem Schall von vorne gedämpft aufgenommen. Demnach hat die Niere die beste Rückwärtsdämpfung bei nicht allzu großer Seitwärtsdämpfung. Die Acht bietet die beste Seitwärtsdämpfung, ist aber nach hinten ebenso empfindlich wie nach vorne. Super- und Hyperniere stellen als Zwischenformen Kompromisse zwischen diesen beiden Richtcharakteristiken dar: die Superniere verbindet recht gute Rückwärtsdämpfung mit geringerer Seitwärtsdämpfung, bei der Hyperniere ist dies umgekehrt. Abb. 4/11. Vergrößerungsfaktoren für die verschiedenen Richtmikrofone bei gleichem Direktschall/ DiffusschallVerhältnis wie bei einem ungerichteten Mikrofon. Der Faktor ist bei Keulenrichtcharakteristik stark frequenzabhängig: für tiefe Frequenzen liegt er wie bei der Niere bei rund 1,7, bei hohen Frequenzen steigt er bis etwa 3,3.
Tab. 4/2. Spannungs- und Pegelverhältnisse für verschiedene Schalleinfallsrichtungen bei Richtmikrofonen (theoretische Werte). Schalleinfall
Spannung in % der Spannung des Schalls von vorne (0/) und Pegel gegenüber dem Pegel des Schalls von vorne (0/) Niere
von vorne (0/) seitlich (90/) von hinten (180°)
50 %, !6 dB 0 %, !4 dB
Superniere Hyperniere 100 %, 0 dB 38 %, !9 dB 25 %, !12 dB 25 %, !12 dB 50 %, !6 dB
Acht 0 %, !4 dB 100 %, 0 dB
Druckempfänger Abb. 4/12 zeigt im Schnittbild den prinzipiellen Aufbau der Kapsel eines Druckempfängers. Das Innere der Kapsel ist durch die Membran von dem umgebenden Raum schalldicht getrennt; in der Kapsel herrscht wegen des Druckausgleichs durch eine kleine Öffnung der äußere Luftdruck, die raschen Druckschwankungen des Schalls werden dabei aber nicht ausgeglichen. Die Membran wird immer dann bewegt, wenn der Druck von außen auf die Membran vom Kapselinnendruck abweicht. Auch von hinten oder von der Seite auf den Druckempfänger auftreffender Schall verursacht Änderungen des Schalldrucks vor der Membran, wenn die Schallwellen um das Mikrofon gebeugt werden. Ein Druckempfänger nimmt Schallereignisse aus allen Richtungen in gleicher Weise auf, Druckempfänger haben also eine kugelförmige Richtcharakteristik. 127
Schallwandler Die Richtcharakteristik erfährt durch drei Phänomene Abweichungen von ihrer idealen Form; sie wirken sich nur im Bereich höherer Frequenzen aus. Es handelt sich um die Abschattung von Schall, der rückwärtig oder von der Seite auf das Mikrofon trifft, um Auslöschungen für schräg auf die Membran treffenden Schall und um den Druckstau für an der Membran reflektierte Schallwellen (Abb. 4/13):
Abb. 4/12. Prinzip des Aufbaus der Kapsel eines Druckempfängers.
Schallabschattung: Schall wird nur dann um ein Hindernis gebeugt, wenn seine Wellenlänge groß ist verglichen mit dem Hindernis. Ist also die Wellenlänge des auf die Rückseite der Kapsel auftreffenden Schalls kleiner als der Durchmesser der Mikrofonkapsel, so entsteht ein mit steigender Frequenz zunehmender Schallschatten vor der Membran; das führt mit steigender Frequenz zu einer Ausblendung rückwärtigen Schalls. Auslöschung oder Interferenz: Senkrecht von vorn kommende Schallwellen treffen auf die gesamte Membranoberfläche gleichphasig auf. schräg ankommende Schallwellen hingegen treffen mit unterschiedlichen Phasenlagen auf die einzelnen Membranzonen, was zu einer teilweisen Aufhebung der Membranauslenkung, also zu einer teilweisen Auslöschung des Signals führt. Ist der Mem-
Abb. 4/13. Richtcharakteristik eines Druckempfängers bei verschiedenen Frequenzen.
128
Mikrofone brandurchmesser gleich der Wellenlänge, so wird exakt seitlich auftreffender Schall ganz ausgelöscht. Man nennt diesen Effekt Interferenz. Solche Auslöschungen engen also die Richtcharakteristik auf Keulenform ein. Bei Richtmikrofonen mit Keulenrichtcharakteristik, den sog. Rohrrichtmikrofonen, wird der Interferenzeffekt auf mittlere Frequenzen ausgedehnt (siehe dazu unten). Schallabschattung und Auslöschungen ließen sich dadurch vermeiden, dass der Durchmesser der Membran kleiner gewählt wird als ein Viertel der Wellenlänge der höchsten zu übertragenden Frequenz, also kleiner als etwa 5 mm. Dem entgegen steht jedoch die Forderung nach einer möglichst großen Empfindlichkeit, die ihrerseits mit der Membrangröße zunimmt, so dass eine bestimmte Größe der Membran - für Studiomikrofone etwa 15 mm - nicht unterschritten werden kann. Bei Spezialmikrofonen kann man - bei entsprechend geringerem Störabstand - die Membran bis auf wenige mm verkleinern. Druckstau: Durch die Reflexion der Schallwelle an der Membran verdoppelt sich der Schalldruck auf die Membran und führt zu einem Höhenanstieg des Frequenzgangs um etwa 6 dB, den Druckempfänger mit geradlinigem Diffusfeldfrequenzgang bei Schalleinfall von vorn grundsätzlich aufweisen. Der Höhenanstieg liegt mit seinem Maximum bei Mikrofonen mit kleiner Membran (ca. 15 mm) um 15 kHz, bei sog. Großmembranmikrofonen (ca. 30 mm) um 10 kHz. Druckgradientenempfänger Während die Membran des Schalldruckempfängers nur einseitig dem Schalldruck ausgesetzt wird, wirkt beim Schalldruckgradientenempfänger der Schalldruck auf beide Seiten der Membran ein; nur wenn diese Drücke unterschiedlich sind, wird die Membran ausgelenkt. Schall von der Seite z. B. bewegt die Membran nicht. Die Schalldruckdifferenz wird Schalldruckgradient oder Druckgradient genannt. Druckgradientenempfänger haben im Gegensatz zu Druckempfängern einen gerichteten Schallempfang; Richtmikrofone mit Ausnahme der Keule nützen die Eigenschaften dieses Empfängerprinzips. Der Druckgradientenempfänger in seiner einfachsten Form besteht also nur aus einer beidseitig für den Schall zugänglichen Membran. Eine solche Anordnung hat Achterrichtcharakteristik. Denn seitlich eintreffender Schall lässt keine Druckdifferenz an der Membran entstehen, Schall senkrecht von vorn oder hinten hingegen lenkt die Membran maximal aus. Durch Laufzeitglieder zwischen Membranvorderseite und -rückseite für den Schall oder durch Überlagerung von Achter- mit Kugelrichtcharakteristik können jedoch auch Mikrofone nach dem Druckgradientenprinzip mit Nieren-, Super- und Hypernierenrichtcharakteristik gebaut werden. Jeder Schalldruckunterschied im Schallfeld verursacht eine Luftbewegung in Richtung des Druckunterschieds. Deshalb ist die Spannung, die ein Druckgradientenmikrofon abgibt, auch der Schallschnelle proportional. Gelegentlich werden deshalb Druckgradientenempfänger - vor allem im Ausland – fälschlich auch als Schnelleempfänger (Velocity Microphones) bezeichnet. Bei frequenzunabhängiger Druckamplitude steigen der Druckgradient und damit die Membranauslenkung zunächst mit der Frequenz an. Maximal ausgelenkt wird die Membran dann, wenn die mittlere Wegdifferenz zwischen Membranvorderseite A und -rückseite B einer halben Wellenlänge bzw. einer Phasendifferenz von 180/ entspricht. Bei größerer Phasendifferenz wird die Auslenkung wieder geringer; bei 360/ wird sie zu 0, um danach erneut anzusteigen (Abb. 4/14). Die mittlere Wegdifferenz ist abhängig von der Konstruktion der 129
Schallwandler Mikrofonkapsel. Ohne zusätzliche Maßnahmen wäre die Membranauslenkung also frequenzabhängig. Um zu einer Membranauslenkung zu gelangen, die von den tiefsten bis zu den höchsten zu übertragenden Frequenzen in einfacher Weise mit der Frequenz zunimmt, wird die mittlere Wegdifferenz zwischen Membranvorder- und -rückseite so festgelegt, dass sie etwa der halben Wellenlänge der höchsten zu übertragenden Frequenz entspricht. Damit arbeitet das Mikrofon abgesehen von seinem oberen Übertragungsbereich im ansteigenden Teil der Frequenzkurve nach Abb. 4/14. Oberhalb der Frequenz fÜ wird das Druckgradientenprinzip unwirksam, das Mikrofon wird zu einem Druckempfänger. Um das Ansteigen der Membranauslenkung von tiefen zu hohen Frequenzen zu korrigieren, wird nun eine Dämpfung eingesetzt, deren Wirkung ebenfalls mit der Frequenz zunimmt. Zur frequenzabhängigen Dämpfung werden Massehemmung und Reibungshemmung angewendet.
Abb. 4/14. Entstehung von Schalldruckdifferenzen )p1 ... )p4 zwischen zwei Punkten, die den Abstand A - B von einander haben, bei vier verschiedenen Frequenzen in ebenen Schallwellen und Frequenzgang des Druckgradienten bzw. der Druckdifferenz )p zwischen zwei Punkten mit dem Abstand 25 mm im ebenen Schallfeld.
Massehemmung entsteht dadurch, dass eine bewegte Masse ihrer eigenen Bewegung durch ihre Trägheit Widerstand entgegensetzt. Dieser Widerstand ist umso größer, je schneller die Bewegung erfolgt. Die Masse bildet die bewegte Membran selbst, sie setzt also der Bewegung einen zunehmenden Widerstand entgegen, der mit der Geschwindigkeit und somit mit der Frequenz ansteigt. Reibungshemmung entsteht dadurch, dass - verursacht durch die Membranbewegungen - Luft durch die Öffnungen der Kapselrückseite strömt. Dabei reiben sich die Luftmoleküle an den Wänden der Öffnungen. Durch diese Reibung wird der Luftströmung und damit der Membranbewegung Widerstand entgegengesetzt. Die Reibung ist umso stärker, je schneller die Luft durch die Öffnungen strömt. Der Einfluss der Reibung auf die Luftbewegung und damit auf die Membran steigt also ebenfalls mit steigender Frequenz. Druckgradientenempfänger mit Achterrichtcharakteristik Die Mikrofonkapsel des Druckgradientenempfängers mit Achterrichtcharakteristik besteht aus einer beidseitig für den Schall frei zugänglichen Membran (Abb. 4/15).
Abb. 4/15. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Achterrichtcharakteristik.
130
Mikrofone Bei seitlicher Beschallung der Membran entsteht zwischen Membranvorder- und Membranrückseite keine Druckdifferenz, das Mikrofon ist für seitlich auftreffenden Schall unempfindlich. Schall von vorn oder hinten führt dagegen zur größten Membranauslenkung. So entsteht die achterförmige Richtcharakteristik (Abb. 4/16). Sie ist über den gesamten Übertragungsbereich hinweg weitgehend unabhängig von der Frequenz. Anders als bei Druckempfängern führt Schall, der auf die Membranrückseite trifft, verglichen mit Schall von vorne zu gegenphasiger Auslenkung. Diese Gegenphasigkeit zwischen Schall von vorne und von hinten ermöglicht erst das Mikrofonverfahren der MS-Stereoaufnahmetechnik. Mikrofone, die nur Achterrichtcharakteristik besitzen, gibt es nur wenige auf dem Markt. Meist steht diese Richtcharakteristik bei Mikrofonen zur Verfügung, die über umschaltbare Richtcharakteristiken verfügen. Die Achterrichtcharakteristik ist dann für den praktischen Einsatz vorteilhaft, wenn seitlicher Schall bestmöglich ausgeblendet werden soll oder wenn zwei Sprecher oder Instrumente, die einander gegenüberstehen, mit nur einem Mikrofon aufgenommen werden sollen.
Abb. 4/16. Richtcharakteristik eines Druckgradientenempfängers mit Achterrichtcharakteristik bei verschiedenen Frequenzen.
Druckgradientenempfänger mit Nierenrichtcharakteristik Nieren- oder Kardioidrichtcharakteristik eines Mikrofons kann auf zwei verschiedene Arten realisiert werden: Am häufigsten wird diese Richtcharakteristik mit einem sog. Laufzeitglied vor der Membranrückseite erreicht. Da aus der Überlagerung von Kugel- und Achterrichtcharakteristik ebenfalls Nierenrichtcharakteristik entsteht, kann auch dieses Prinzip herangezogen werden. Abb. 4/17 zeigt das Bauprinzip eines Nierenmikrofons mit einem Laufzeitglied. Dabei ist die Laufzeitdifferenz zur Membranvorderseite und Membranrückseite von der Schalleinfallsrichtung abhängig (Abb. 4/18). Bei Beschallung von vorn (0/) hat der Schallanteil, welcher an die Rückseite der Membran gelangt, gegenüber dem auf die Vorderseite auftreffenden Schall eine Verzögerung, die durch die Wegdifferenz (2 1) bestimmt wird. Der so entstandene Druckunterschied führt zur Membranauslenkung (Abb. 4/18a). Bei Beschallung von hinten sind die Laufzeiten zur Membranorderseite und -rückseite etwa gleich. Es besteht keine 131
Schallwandler Druckdifferenz; dadurch kommt es auch zu keiner Membranbewegung (Abb. 4/18b). Bei Beschallung aus einer seitlichen Richtung (±90/) ist eine Laufzeitdifferenz vorhanden, die jedoch kleiner ist als die der Beschallungsrichtung 0/ (Abb. 4/18c). Wird die Schallquelle von der Richtung 0/ zur Rückseite (±180/) bewegt, so wird die Laufzeit- bzw. Druckdifferenz und damit die Membranauslenkung geringer. So entsteht die nierenförmige Richtcharakteristik (Abb. 4/19).
Abb. 4/17. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied.
Abb. 4/18. Prinzipieller Aufbau der Kapsel eines Druckgradientenempfängers mit Nierenrichtcharakteristik durch ein Laufzeitglied bei verschiedenen Schalleinfallsrichtungen.
Abb. 4/19. Richtcharakteristik eines Druckgradientenmikrofons mit Nierenrichtcharakteristik bei verschiedenen Frequenzen.
132
Mikrofone Eine nierenförmige Richtcharakteristik kann auch durch ein weiteres Verfahren erzeugt werden: Die Kugelrichtcharakteristik eines Druckempfängers und die Achterrichtcharakteristik eines Druckgradientenempfänger werden einander überlagert. Dies kann durch Addition der Signale eines eng benachbarten Kugel- und Achtersystems geschehen oder dadurch, dass ein Teil der Membran nur mit der Vorderseite, der andere Teil beidseitig dem Schall ausgesetzt wird. Die Nierenrichtcharakteristik entsteht dabei durch Überlagerung der Kugel- und Achterrichtcharakteristik (Abb. 4/20). Mathematisch in Polarkoordinaten ausgedrückt heißt das: Richtfaktor der Kugel Richtfaktor der Acht Richtfaktor der Niere
rK = 1/2 rA = 1/2 A cosN rN = rK + rA = 1/2 A (1 + cosN)
Abb. 4/20. Gewinnung der Nierenrichtcharakteristik als Summe von Kugel- und Achterrichtcharakteristik.
Druckgradientenempfänger mit Hyper- und Supernierenrichtcharakteristik Die Richtcharakteristik der Nierenmikrofone kann durch einfache konstruktive Maßnahmen so verändert werden, dass die Ausblendung von seitlich auftreffendem Schall erhöht, zugleich aber von hinten auftreffender Schall weniger gedämpft wird als bei der Niere. Es entstehen damit Richtcharakteristiken, die zwischen Niere und Acht liegen. Diese Zwischenformen können bei der Anwendung eines Laufzeitglieds durch geringere Laufzeiten erreicht werden, bei der Überlagerung von Kugel- und Achterrichtcharakteristik durch einen größeren Anteil der Acht. Bei der Richtcharakteristik der Hyperniere gibt das Mikrofon bei seitlichem Schall 25 % der Spannung bezogen auf Schalleinfall von vorne ab oder bezogen auf den Pegel -12 dB, bei Schall von hinten 50 % oder -6 dB. Bei der Supernierenrichtcharakteristik ergibt seitlicher Schall 38 % oder -9 dB, Schall von hinten 25 % oder -12 dB (Abb. 4/21, Tab. 4/2).
133
Schallwandler
Abb. 4/21. Richtcharakteristik, a. Niere, b. Hyperniere, c. Superniere.
Die Nierencharakteristik ist am günstigsten, wenn hinter dem Mikrofon aufgestellte Schallquellen ausgeblendet werden sollen. Die Hyperniere bevorzugt noch etwas stärker den unter 0/, also von vorn einfallenden Schall gegenüber dem Diffusschall, vermag demnach z. B. den Direktschall von einem Sprecher oder Solisten noch etwas mehr gegenüber dem Nachhall hervorzuheben. Niere und Acht nehmen im diffusen Schallfeld ein Drittel, die Hyperniere nur ein Viertel der Schalleistung auf, die ein ungerichtetes Mikrofon aufnehmen würde, das für Schalleinfall unter 0/ den gleichen Pegel abgibt. Die Größen, durch die die Superniere gekennzeichnet ist, liegen zwischen Niere und Hyperniere. Denkt man sich den Aufnahmeraum durch eine Fläche, in die die Mikrofonmembran einbezogen ist, in einen vorderen und einen hinteren Halbraum geteilt, so stellt die Superniere denjenigen Sonderfall dar, bei dem der Unterschied der aus beiden Halbräumen aufgenommenen Schallanteile am größten ist. Mit dem Richtmikrofon kann man einen größeren Mikrofonabstand wählen, ohne dass der Direktschallanteil und damit die Durchsichtigkeit und die Präsenz leiden: Verglichen mit einem Mikrofon mit Kugelcharakteristik darf der Abstand für Niere und Acht das l,7-fache, für die Superniere das l,9-fache und für die Hyperniere das 2-fache betragen (Abb. 4/11). Die Schallanteile, die von hinten auf die Super- oder Hyperniere auf treffen, sind wie bei der Acht gegenüber Schallanteilen von vorn um 180/ in der Phasen gedreht. Interferenzempfänger mit Keulenrichtcharakteristik Für den Fernsehton, für Beschallungen oder für Live-Aufnahmen auf der Bühne werden Mikrofone mit möglichst hoher Richtwirkung benötigt. Solche Mikrofone werden durch Anwendung des Interferenzprinzips meist in Zusammenwirkung mit einem Druckgradienten134
Mikrofone empfänger mit Nieren- oder Supernierencharakteristik verwirklicht. Vor der Membran ist ein Richtelement angeordnet. Das Richtelement besteht aus einem seitlich geschlitzten oder gelochten, vorne offenen Rohr (Abb. 4/22).
Abb. 4/22. Prinzipieller Aufbau des Interferenzempfängers.
Die Richtwirkung eines solchen Mikrofons kommt dadurch zustande, dass Schallanteile aus Richtung der Rohrlängsachse (0/) kommend sich im Rohr gleichphasig addieren; Schallanteile, die aus anderen Richtungen eintreffen, werden in der Phase verschoben überlagert und löschen sich dadurch gegenseitig je nach Phasenlage mehr oder weniger aus. Die entstehende Keulenrichtcharakteristik und damit der Bündelungsgrad sind abhängig vom Verhältnis der Länge des Richtelements zur Wellenlänge. Die Richtwirkung nimmt demnach mit der Länge des Richtrohrs und der Frequenz zu. Bei tiefen Frequenzen entspricht sie der Niere bzw. Superniere; mit steigender Frequenz engt sich die Richtcharakteristik zunehmend ein (Abb. 4/23).
Abb. 4/23. Richtcharakteristik eines Druckgradientenempfängers mit Richtrohr.
Beim praktischen Einsatz der Interferenzempfänger oder in der Praxis meist bezeichnet als Rohrrichtmikrofone sind einige Besonderheiten zu beachten: Die Richtwirkung kann sich wie bei allen Richtmikrofonen nur solange auswirken, wie für die Aufnahme noch nennenswert Direktschall zur Verfügung steht; im Fernfeld kann das Mikrofon bei halligen Räumen also keinen Gewinn bringen. Auf Grund des engen Aufnahmebereichs und seiner starken Frequenzabhängigkeit kann der Einsatz bei bewegten Schallquellen vor allem bei geringerem Abstand zu dauernden Klangfarbenänderungen führen. Rohrrichtmikrofone sollten nur da verwendet werden, wo sie tatsächlich Vorteile zeigen. 135
Schallwandler Breite Niere Erst seit wenigen Jahren stehen Mikrofone mit einer Richtcharakteristik zur Verfügung, die zwischen Niere und Kugel einzuordnen ist und die als breite Niere bezeichnet werden; breite Kugel wäre ein weiterer Begriff für diesen Druckgradientenempfänger, denn in der Praxis ist diese Richtcharakteristik eher eine Alternative zur Kugel. Die breite Niere bietet bei weitgehend frequenzunabhängiger Richtcharakteristik (Abb. 4/24) v. a. in klangfarblicher Hinsicht interessante Vorteile: Die Wiedergabe tiefer Frequenzen ist besser als bei Nieren, wenngleich nicht ganz so gut wie bei Druckkugeln; andererseits ist sie vorteilhaft einzusetzen bei stark tiefenbetontem Nachhall. Der Nahbesprechungseffekt ist weniger ausgebildet als bei Nieren. Direkt- und Diffusfeld sind - wie bei Nieren - klangfarblich sehr ähnlich, weil die Richtwirkung relativ unabhängig von der Frequenz ist. Insgesamt ergibt dies einen vergleichsweise warmen Klang der breiten Nieren. Die Dämpfung nach hinten liegt bei ca. 10 dB, zur Seite etwa 5 dB für Frequenzen bis etwa 8 kHz; als Stützmikrofon muss deshalb der Abstand etwas geringer als bei Nieren gewählt werden. Für das XY-Aufnahmeverfahren ist das Mikrofon nicht geeignet, aber sehr vorteilhaft für das MS-Verfahren.
Abb. 4/24. Richtcharakteristik der breiten Niere.
4.2.1.8
Wind- und Poppstörungen
Wenn Wind oder allgemein gesagt bewegte Luft auf die Mikrofonmembran trifft, aber auch, wenn ein Mikrofon in ruhender Luft bewegt wird, also z. B. auch bei schnellen Bewegungen der Mikrofonangel, bewegen der Winddruck bzw. Luftwirbel die Membran u. U. erheblich und führen zu gravierenden Störgeräuschen [4.6]. Solche Störungen bezeichnet man als Windstörungen, Wind in diesem Sinne kommt turbulent, also verwirbelt aus allen Richtungen, man kann ein Mikrofon nicht aus dem Wind drehen. Bei Nahbesprechung dagegen entstehen impulsartige Luftströmungen bei Explosivlauten (z. B. p, k, t, Popplaute); die aus einer definierten Richtung kommen als laminare Strömung. Die dadurch verursachten Störungen werden Poppstörungen genannt. Nur bis ca. 10 cm vor dem Mund sind Poppstörungen laminar, dann gehen sie in Turbulenz über. Im Bereich laminarer Strömung kann man das Mikrofon „aus dem Wind“ drehen, dafür wird das Mikrofon etwas unterhalb des Mundes gehalten und auf diesen ausgerichtet. Schall aus Wind- und Poppstörungen hat v. a. im Frequenzbereich bis 100 Hz, abnehmend bis 1 kHz hohe Pegel, auch im Infraschallbereich unter 16 Hz. Dies führt zu hohen Aussteuerungen, 136
Mikrofone die nur teilweise angezeigt werden können, und damit zu starken Verzerrungen. Übertrager und andere Bauelemente werden übersteuert, in Pegelspitzen wird das Signal auch unterbrochen, man sagt, das Mikrofon wird „zugestopft“. Ohne Wind- oder Poppschutz sind Druckempfänger wegen der stark gespannten Membran deutlich - um 10 bis 20 dB - unempfindlicher als Druckgradientenempfänger, am empfindlichsten sind ohne Gegenmaßnahmen dynamische Richtmikrofone. Die Verwendung eines Windschutzes ist grundsätzlich empfehlenswert oder unerlässlich bei Aufnahmen im Freien, bei Verwendung der Mikrofonangel und bei Nahbesprechung von Mikrofonen. Es gibt eine Reihe von wirksamen Gegenmaßnahmen: Allgemein sollten die Tiefen durch den Trittschallfilter am Mikrofon bzw. Mikrofonverstärker auf die höchste einstellbare Frequenz eingestellt werden. Die mechanischen Schutzvorrichtungen richten sich bei optimalen Einsatz nach dem Mikrofontyp und der Situation: Kondensatormikrofone sind zwar vom Prinzip her unempfindlicher, jedoch verfügen dynamische Mikrofonkapseln grundsätzlich über einen integrierten Schutz. Zur Verminderung der Störungen werden Wind- und Nahbesprechungsschutzkörbe verwendet (Abb. 4/25). Sie reduzieren die Windgeschwindigkeit und damit die Störungen, wirken dabei auf den Nutzschall verhältnismäßig wenig ein. Die Wirksamkeit eines Schutzkorbes steigt mit seiner Größe, wobei die verwendeten Materialien ebenfalls von Bedeutung sind. In der Praxis können Dämpfungen der Windstörungen um 20 bis 30 dB erreicht werden. Allerdings verändern wirksame Windschutzkörbe auch etwas die Richtcharakteristik und den Frequenzgang der Mikrofone. Zwischen Wind- und Nahbesprechungsschutz wird i. Allg. nicht unterschieden. Druckmikrofone werden besser durch Vollschaumstoff, gerichtete Mikrofone durch Hohlschaumstoff oder Körbe geschützt. Ein fellartiger sog. „Windjammer“ über einen Korb gezogen ist der wirksamste Schutz. Im Studio sind gegen Poppstörungen sog. Poppschirme am wirksamsten, sie beeinflussen den Klang praktisch nicht, können aber nur in Zusammenhang mit Mikrofonständern eingesetzt werden, also bei statischen Aufnahmesituationen.
Abb. 4/25. Verschiedene Ausführungen von Windund Poppschutzvorrichtungen.
4.2.1.9
Störungen durch Körperschall
Schwingungen, verursacht durch Schritte, schlagende Türen, Verkehrsmittel u. ä. werden über den Fußboden und den Mikrofonständer auf die Mikrofonkapsel übertragen und bewegen die den Mikrofonkörper relativ zur Membran. Hoch gespannte Membranen wie bei der Druckkugel sind weniger empfindlich, sie folgen den Bewegungen des Gehäuses. Die Störungen betreffen wie bei Wind den tiefsten Frequenzbereich, daher der Name „Trittschallfilter“ für einen Hochpass. Maßnahmen gegen Trittschall sind Mikrofonspinnen, in denen die Mikrofone federnd gehalten werden und Gummifüße an Stativen; der höhenverstellbare Mittelstab des Stativs darf den Boden nicht berühren. 137
Schallwandler Reibgeräusche an der Kleidung und am Mikrofonkabel sind ebenfalls Körperschall. Gegen sie schützt am besten die Verwendung von Druckempfängern; durch die zu diesem Zweck schwere Ausführung des Gehäuses dynamischer Mikrofone verringert sich deren Empfindlichkeit. Die Kabel sollten bei Handmikrofonen stets mit Schlaufen, also entspannt, gehalten werden.
4.2.2
Kondensatormikrofone
4.2.2.1
Prinzip
Der in der Tonstudiotechnik am meisten eingesetzte Mikrofontyp ist das Kondensatormikrofon oder elektrostatische Mikrofon. Bei ihm wirken eine Membran und eine feste Gegenelektrode zusammen als Kondensator, dessen Kapazität sich entsprechend den Schwingungen der Membran ändert; denn die Kapazität eines Kondensators hängt u. a. vom Abstand der Kondensatorplatten ab. Die Membran besteht aus einer 1 bis 10 :m starken Metallfolie oder metallbedampften Kunststofffolie. Ihr Abstand von der festen Gegenelektrode beträgt 5 bis 50 :m. Ihr Gewicht bestimmt die Einschwingzeit, sie ist umso kürzer, je leichter die Membran ist. Das Gewicht der Membran von Kondensatormikrofonen liegt bei wenigen mg, was ganz wesentlich die hohe Qualität der Kondensatormikrofone begründet; die Membran dynamischer Mikrofone hingegen wiegt etwa das 20-fache, entsprechend kann sie schnellen Einschwingvorgängen schlechter folgen. Kondensatormikrofone bieten hohe Qualität, haben einen weitgehend frequenzunabhängigen Übertragungsfaktor und geringe Verzerrungen und Körperschallempfindlichkeit, benötigen aber eine Betriebsspannung zum Erhalt der Ladung des Kondensators und zur Versorgung des Impedanzwandlers bzw. Verstärkers im Mikrofon, in der Praxis ist dies jedoch unproblematisch. Eine Variante des Kondensatormikrofons ist das Elektretmikrofon oder dauerpolarisierte Mikrofon, das keine externe Spannungszuführung benötigt, sondern lediglich eine Batterie zur Speisung des mit dem Mikrofon konstruktiv vereinten Impedanzwandlers. Bei diesen Mikrofonen ist die Ladung des Kondensators sozusagen in Kunststofffolien „eingefroren", ähnlich wie in einem Dauermagneten der Magnetismus. Elektretmikrofone sind heute beherrschend in allen Bereichen der Sprachkommunikation, sie sind bei relativ guter Klangqualität vornehmlich als Miniaturmikrofone in hohen Stückzahlen preisgünstig herzustellen. Im Tonstudiobereich konnten sich Elektretmikrofone nicht durchsetzen. Sie finden nur da Verwendung, wo keine Mikrofonspeisespannung zur Verfügung steht und dynamische Mikrofone nicht benutzt werden können. 4.2.2.2
Spannungsversorgung
Transistorisierte Mikrofone werden über zweiadrige, geschirmte Mikrofonkabel an die Mikrofonverstärker angeschlossen. Die Versorgungsspannung für den Betrieb der transistorisierten Mikrofone wird durch Mehrfachnutzung der Mikrofonleitung, also ohne besondere Versorgungsleitungen bereitgestellt. Zwei verschiedene Speisungsarten sind dabei möglich: Phantom- oder Mittelpunktspeisung und Tonaderspeisung. Beide Speisungsarten haben bestimmte Vor- und Nachteile (Tab. 4/3). Nachdem die beiden Verfahren nach Entwicklung der ersten transistorisierten Mikrofone in den sechziger Jahren des 20. Jahrhunderts zunächst 138
Mikrofone konkurrierend nebeneinander standen, hat sich im Tonstudiobereich die Phantomspeisung durchgesetzt, da sie qualitative und betriebliche Vorteile bietet, insbesondere geringere Störanfälligkeit und problemlosen Anschluss dynamischer Mikrofone. Die Tonaderspeisung konnte sich in bestimmten Bereichen noch etwas halten, weil sie mit 12 V Speisespannung auskam, während sich die Phantomspannung zunächst mit 48 V etablierte. Röhrenmikrofone erfordern zur Erzeugung der benötigten Heiz-, Anoden- und Polarisationsspannungen stets ein eigenes Netzteil über spezielle mehradrige Kabel. Tab. 4/3. Phantom- und Tonaderspeisung bei Kondensatormikrofonen. Merkmal Stromzuführung
Symmetrie Anschluss dynamischer Mikrofone
Umpolen der Leitung Speisung mehrerer Mikrofone aus einer Stromquelle Störspannungen aus der Speisung Spannung Strom maximal Spannungszuführung über gepaarte Widerstände
Phantomspeisung nach DIN 45 596 gemeinsam über beide Adern, Rückführung über den Kabelschirm
zulässig keine Weiche erforderlich
Tonaderspeisung nach DIN 45 595 nur über die a-Ader, Rückführung über die b-Ader des Mikrofonkabels, der Kabelschirm ist frei von Gleichstrom für symmetrischen und unsymmetrischen Verstärkereingang beim Anschluss muss die Speisespannung abgeschaltet werden, da sie die Aufnahme verzerren und zur Beschädigung des Mikrofons führen kann nicht zulässig Speisungsweiche erforderlich
überlagern sich nicht der Modulation 12 bis 52 V, meist 12 oder 48 V 10 mA 2 x 6,81 kS
überlagern sich direkt der Modulation 9 bis 12 V, meist 12 V 10 mA 2 x 180 S
nur für symmetrischen Verstärkereingang beim Anschluss nicht gefährdet, da keine Gleichspannung zwischen den beiden Adern des Mikrofonkabels liegt
Bei der Phantomspeisung nach DIN 45 596 wird die Versorgungsspannung des Mikrofons von 12 oder meist 48 V parallel über die beiden Adern hin und über den Kabelschirm zurück dem Mikrofon zugeführt (Abb. 4/26). Durch Anschließen des Mikrofons an eine Mikrofondose wird über die symmetrische Mikrofonleitung eine Brückenschaltung hergestellt: die beiden Adern a und b bilden mit dem Kabelschirm einen Phantomkreis; vier gleichgroße Widerstände stellen den geforderten Brückenabgleich her und sollen bei der 48-V-Versorgung je 6,8 kS, bei der 12-V-Versorgung je 680 S betragen. [4.10] Der Mikrofonstrom fließt vom Mikrofonnetzgerät je zur Hälfte über beide Tonadern zum Mikrofon und über den Kabelschirm zurück zum Mikrofonnetzgerät. Die Versorgungsspannung von 48 V liegt zwischen der Tonader a bzw. b und dem Kabelschirm, zwischen a und b besteht keine Gleichspannung. Dynamische Mikrofone können deshalb ohne weiteres 139
Schallwandler in symmetrischer Schaltungstechnik angeschlossen werden, ohne dass die Versorgungsspannung abgeschaltet werden muss; unsymmetrische dynamische Mikrofone können nicht angeschlossen werden. Da keine Spannung zwischen den Adern liegt, haben auch Schwankungen der Versorgungsspannung keinen Einfluss auf das Tonsignal; eine Restwelligkeit der Phantomspannung ist deshalb unschädlich. Auch Störspannungen, die in den Kabelschirm induziert werden, haben geringen Einfluss. An einem Speisegerät können ohne besondere Entkopplungsmaßnahmen mehrere Mikrofone angeschlossen werden.
Abb. 4/26. Schaltung der Phantomspeisung.
An die Brückenwiderstände werden bezüglich ihrer Toleranz keine hohen Anforderungen gestellt, ± 20 % sind zulässig. Jedoch sind die Anforderungen an die Gleichheit der Widerstände außerordentlich hoch, um Gleichspannungen zwischen den Adern zu unterbinden. Innerhalb eines Widerstandspaares darf nach DIN 45 596 die Differenz der Widerstandswerte 0,4 des Widerstandswertes nicht überschreiten. Die Forderungen gelten einzeln für die Widerstandspaare im Mikrofon und im Versorgungsteil, das i. Allg. in der Regieanlage untergebracht ist. Ist die Gleichheit der Widerstände nicht erfüllt, so erhalten die Übertrager von Mikrofon und Regieanlage, soweit vorhanden bzw. soweit nicht durch Entkoppelungskondensatoren gleichstromgeschützt, eine Gleichspannung, die zu Verzerrungen führt. Die zulässige Größe der Restgleichspannung darf in der Praxis umso größer sein, je größer die Eingangsübertrager dimensioniert sind. Auch wenn am Regiepulteingang Entkoppelungskondensatoren vorhanden sind oder wenn die Eingangsschaltung ohne Übertrager aufgebaut ist, müssen die Widerstände gepaart sein, damit Störungen, die auf den Kabelschirm gelangen, weitgehend unwirksam bleiben und dadurch der besondere Vorteil der Phantomspeisung erhalten bleibt. Bei der Tonaderspeisung nach DIN 45 595 werden für die Zuführung der Versorgungsspannung die beiden Tonadern a und b der Mikrofonleitung benutzt. Damit nimmt der Versorgungsstrom denselben Weg wie der Tonfrequenzstrom. Über zwei gleich große Widerstände von je 180 S wird die Tonader a mit dem Pluspol, die Tonader b mit dem Minuspol des Mikrofonnetzgeräts verbunden. Um die auf den Tonadern befindliche konstante Gleichspannung von 12 V vom Eingangsübertrager des nachfolgenden Mikrofonverstärkers fernzuhalten, sind Trennkondensatoren eingefügt. Weitere Details enthält Tab. 4/3. 4.2.2.3
Mikrofon-Vorverstärker mit analogem Ausgang
Die mechanischen Schwingungen der Membran des Kondensatormikrofons müssen in elektrische Schwingungen umgewandelt werden. Dafür hat sich weitgehend die sog. Niederfrequenzschaltung durchgesetzt, daneben wird auch die Hochfrequenzschaltung verwendet. 140
Mikrofone Für den Anwender ist dies unwesentlich, es handelt sich um herstellerspezifische Unterschiede. [4.9] Bei der Niederfrequenzschaltung wird die Mikrofonkapsel über einen Widerstand auf eine feste Gleichspannung, die zwischen 40 und 200 V liegen kann, aufgeladen. Trifft eine Schallwelle auf die Membran, so ändert sich die Kapazität des Kondensators im Rhythmus der Schallschwingungen. Das führt zu einem entsprechenden Ladungsausgleich und damit zu einer entsprechenden Wechselspannung am Widerstand (Abb. 4/27). Der Spannungsabfall am Widerstand R ist zur Änderung der Kapazität und zur angelegten Gleichspannung (Polarisationsspannung) proportional.
Abb. 4/27. Prinzipschaltbild des Kondensatormikrofons in Niederfrequenzschaltung.
Die Anordnung stellt eine RC-Schaltung als Hochpass dar, deren untere Grenzfrequenz unterhalb des Frequenzbereichs des Mikrofons - also unter 20 Hz - liegen muss. Für den Widerstand R gilt: R=
1 2π fu ⋅ C
.
1 125 ⋅ 100 ⋅ 10 −12
= 80 MS
R = Widerstand [MS] fu = untere Grenzfrequenz [Hz] = 20 Hz C = Kapazität [F] = 100 A 10-12 F
Bei einer Kondensatorkapazität zwischen 100 und 20 pF - je nach Mikrofontyp - muss der Widerstand also einen Wert zwischen 80 und 400 MS haben. An eine so hochohmige Quelle kann wegen ihrer enormen Störanfälligkeit keine längere elektrische Leitung angeschlossen werden; deshalb befindet sich in jedem Kondensatormikrofon ein Mikrofon-Vorverstärker, der in erster Linie den Innenwiderstand herabsetzt, aber auch den Pegel anheben kann. Die Speisespannung wird in der professionellen Technik dem Mikrofon über das Mikrofonkabel zugeführt und vom Mikrofonverstärker der Tonregieanlage bzw. des mobilen Aufnahmegeräts geliefert; selten ist zur Versorgung ein eigenes batterie- oder netzversorgtes Speisegerät erforderlich. Um Schwingungen im Infraschallbereich vom Verstärker fernzuhalten, verfügt dieser über einen Hochpass, der auch mit wählbarer Grenzfrequenz als schaltbares Trittschallfilter ausgebildet sein kann. Weiterhin enthält der Vorverstärker meist eine Vordämpfung, die das Mikrofon auch für hohe Schalldrücke geeignet macht. Der elektrische Aufbau des Verstärkers bestimmt die Mikrofoneigenschaften wesentlich mit, besonders seinen Geräuschpegel und seine Dynamik. 141
Schallwandler Bei der Hochfrequenzschaltung werden die Membranschwingungen durch die Verstimmung eines Schwingkreises umgesetzt. Die Kapazität der Mikrofonkapsel steuert hier die Frequenz oder die Phase einer HF-Schwingung. Das Mikrofon enthält dazu einen HF-Generator und einen Demodulator. Für den Anwender ist einem Mikrofon nicht anzusehen, ob es in der HFoder NF-Schaltung arbeitet; die NF-Schaltung hat sich aber weitgehend durchgesetzt. Moderne Kondensatormikrofone haben eine transformatorlose oder eisenlose Endstufe, was zu folgenden Vorteilen der Übertragungsqualität gegenüber älteren mit Ausgangstransformator bestückten Verstärkern führt: Die Verzerrungen im tiefen Frequenzbereich sind ebenso gering wie im übrigen Übertragungsbereich; die Ausgangsimpedanz bleibt bis zur oberen Grenze des Übertragungsbereichs konstant; das Mikrofon ist gegenüber äußeren Magnetfeldern unempfindlich; der Amplituden- und Phasenfrequenzgang sowie Verzerrungen sind gegenüber Schaltungen mit Transformator verbessert, schließlich sind solche Verstärkermodule kleiner und leichter. Mit der allgemeinen Digitalisierung der gesamten Tonstudiotechnik entstand auch eine Nachfrage nach Mikrofonen, die bereits ein digitalisiertes Signal liefern. Sie arbeiten mit konventionellen Mikrofonkapseln und einem Impedanzwandler bzw. Verstärker, der die Analog-Digitalumsetzung vornimmt (siehe dazu unten den Abschnitt „Digitalmikrofone“). 4.2.2.4
Mikrofon-Vorverstärker mit digitalem Ausgang
Mikrofone bilden wie Lautsprecher die Schnittstelle zwischen der stets analogen akustischen Welt und der heute schon weitgehend digitalen Welt der Tonstudiotechnik. Digitale Mikrofone kann es demnach eigentlich nicht geben, korrekt gesagt gibt es nur Mikrofone mit integriertem Analog-Digitalwandler (AD-Wandler). Wenn die Baugruppe AD-Wandler in das Mikrofongehäuse integriert ist, spricht man heute dennoch allgemein von Digitalmikrofonen. Das digitale Ausgangssignal könnte, so wie die ersten sog. Digitalmikrofone, ausschließlich das Tonsignal nach dem üblichen digitalen Signalstandard AES/EBU, S/PDIF oder USB enthalten. Sinnvoller ist es allerdings, nicht nur die Einstellmöglichkeiten, die bei analogen Mikrofonen üblich sind (Vordämpfung, Trittschallfilter, Richtcharakteristik, Phase), auch bei Digitalmikrofonen beizubehalten, sondern auch Funktionen, die bisher von der Tonregieanlage wahrgenommen werden, z. B. die des Mikrofonverstärkers und der Regelverstärker sowie weitere Informationen, z. B. über den Mikrofontyp, die Aufnahmesitzung, die Zuordnung zu bestimmten Aufnahmepositionen u. a., in das Mikrofon selbst und seine Softwaresteuerung zu verlegen. Dafür wurde der AES-Standard AES42 „Digital interface for microphones“ erarbeitet und im Jahr 2001 als AES42-2001, 2006 überarbeitet als AES42-2006 veröffentlicht. Der Standard legt die Signalübertragung und Synchronisierung fest, beschreibt die Speisung und definiert die Daten zur Fernsteuerung von Mikrofonparametern (Tab. 4/4). Digitale Mikrofone gemäß AES42 übertragen die Modulation als AES/EBU-Datenstrom. Dieser kann von jedem entsprechenden Studiogerät empfangen und verarbeitet werden. Es bedarf nur einer Stromversorgung für das Mikrofon, die als „digitale Phantomspeisung“ auf die symmetrischen Datenleitungen gegeben wird. Dies erfolgt zum Beispiel mit Hilfe eines Steckernetzteils mit Einspeisung durch einen Zwischenstecker. Der Standard ist offen für die Integration heute 142
Mikrofone typischer Mischpultfunktionen wie Equalizer, Kompressor, Limiter u. a., damit steht die Aufgabenverteilung zwischen Regieanlage und Mikrofonen in Zukunft zur Disposition. Darüber hinaus werden sog. Interfaces angeboten, die neben der Stromversorgung auch die komplette Fernsteuerbarkeit und Synchronisierung der Mikrofone übernehmen. Anzeige und Fernsteuerung erfolgen über PC oder MacIntosh-Rechner, solange Mischpulte oder andere Studiogeräte noch über keine Mikrofoneingänge gemäß AES42 verfügen. Die Rechner können neben der Steuerfunktion für die Mikrofone auch als Harddisc-Recorder verwendet werden. Digitale Mikrofon-Interfaces können 2- oder 8-kanalig sein und können für einen höheren Kanalbedarf kaskadiert werden. Zur Zeit gibt es sowohl komplette digitale Studiomikrofone, bei denen die A/D-Wandlung fest eingebaut ist, als auch Digitalmodule, die mit von analogen Mikrofonen vorhandenen Kapseln zu digitalen Mikrofonen kombiniert werden können. Tab. 4/4. Festlegungen nach AES42-2001. Feature Abrufbare Informationen Anzeigen Einstellungen
Taktung
Festlegung Hersteller, Typ, Seriennummer, Hard- und Software-Version, implementierte Steuerfunktionen, Status u. a. Aussteuerung, individuelle Informationen über den Mikrofonort (z. B. „Stützmikrofon für …“) u. a. Richtcharakteristik, Trittschallfilter, Pegel, Vordämpfung, Mute, Phase, Signallicht, Synchronisationsmodus, auch weitere Funktionen wie Limiter, Kompressor, Delay u. a. Zwei Betriebsarten: Mode 1: Das Mikrofon ist selbsttaktend und wird durch einen Abtastratenwandler im Empfänger synchronisiert,
Phantomspeisung Anschlüsse
Mode 2: Das Mikrofon wird extern getaktet, synchron zum Studio-Wordclock. Digitale Phantomspeisung (DPP): 10 V, max. 250 mA XLR-Stecker/Buchsen
Es gibt demnach drei Möglichkeiten des Einsatzes der Digitaltechnik bei Mikrofonen: analoges Mikrofon mit Stage-Box mit A/D-Wandlung, digitales Mikrofon mit Interface, digitales Mikrofon ohne Interface (Abb. 4/28). Der eigentliche Schallwandler, also der Schallempfang durch eine Membran und die Umsetzung von deren Schwingungen in ein analoges elektrisches Signal, sind und werden aus heutiger Sicht Bestandteile auch der Digitalmikrofone bleiben; deshalb werden die bisher verwendeten „analogen“ Kapseln auch in den Digitalmikrofonen weiterverwendet oder mit abweichender Anschlusstechnik angepasst. Die Kapseltechnik erfüllt auch heute schon höchste Qualitätsansprüche, sie bestimmt die wesentlichen Eigenschaften und Qualitäten eines Mikrofons bezüglich des aufzunehmenden Schalls. Daher bieten Digitalmikrofone gegenüber analogen Mikrofonen in klanglicher Hinsicht keine qualitativen Vorteile, u. U. aber im Umgang mit großen Dynamikbereichen. 143
Schallwandler Bei A/D-Wandlung im Mikrofon können nämlich notwendige Pegelanpassungen vorteilhaft in der digitalen Ebene vorgenommen werden. Dies ist dann ein mathematischer Prozess, der sich nicht auf die Signalqualität auswirkt, wie es bei analogen Mikrofon-Vorverstärkern der Fall ist oder sein kann. Ein weiterer Vorteil der Digitalmikrofone liegt in einer einfacheren und flexibleren Handhabung, wenn regieseitig die nötigen Voraussetzungen vorhanden sind, da das digitale Mikrofon den A/D-Wandler und den Vorverstärker bereits beinhaltet und diese sonst dem Mikrofon nachgeschalteten Geräte entfallen. Neben der Kostenersparnis kann der geringere Hardwareaufwand besonders bei mobilem Einsatz vorteilhaft weil Gewicht sparend sein, was z. B. im Ü-Wagen einen hohen Stellenwert hat.
Abb. 4/28. Anschlussmöglichkeiten digitaler Mikrofone.
Aus heutiger Sicht werden auch in Zukunft analoge Mikrofone in großem Umfang verwendet werden, das zeigt auch die große, eher zunehmende Beliebtheit „historischer" Mikrofone, die zuerst einen klanglichen Gestaltungswillen ausdrücken. In Verbindung mit abgesetzten A/DWandlern auf der Bühne, den sog. Stage-Boxen, können sie in der digitalen Tonstudiotechnik problemlos beibehalten werden, so dass ein Nebeneinander analoger und digitaler Mikrofone zu erwarten ist. Auf der anderen Seite können mit Hilfe der digitalen Signalbearbeitung Eigenschaften im Mikrofon verwirklicht werden, die analog nicht möglich sind. So zum Beispiel eine Limiterfunktion, die automatisch, wirkungsvoll und unhörbar Übersteuerungen durch Popplaute verhindert, ohne aufwändige Windschutze oder unschöne Poppfilter verwenden zu müssen. Auch wenn in Mischpulten standardmäßig Kompressor- und Limiterfunktionen vorhanden sind, können entsprechende Störungen direkt an der Kapsel als Entstehungsort wirksamer bekämpft werden als weit hinten im Signalfluss, wo in den verschiedenen Schaltungsstufen bereits Sekundärstörungen entstanden sein können. Der Standard AES42 beschreibt zwei Arten der Synchronisation des Mikrofonsignals mit dem Empfänger, also z. B. Mischpult oder einem Mikrofon-Interface: In Mode 1 arbeitet das Mikrofon unsynchronisiert mit der Abtastrate seines internen Quarzoszillators und benötigt auf der Empfängerseite einen Abtastratenwandler (Sample-Rate-Converter). Dieser Modus 144
Mikrofone kann benutzt werden, wenn eine Synchronisation nach Mode 2 nicht möglich ist; SampleRate-Converter können die Signalqualität verschlechtern. In Mode 2 wird das Mikrofon extern getaktet: Im AES42-Empfänger wird ein Frequenz/Phasenvergleich mit dem Master-Wordclock durchgeführt und ein Steuersignal erzeugt, das über den Fernsteuerdatenstrom zum Mikrofon übertragen wird und dort die Frequenz des internen Quarzoszillators steuert. Für die Datenübertragung wurde der dreipolige XLR-Stecker beibehalten, der somit in der analogen und digitalen Studiotechnik einheitlich verwendet wird. Es wird ein bidirektionales Signal gemäß AES42 übertragen, welches das symmetrische digitale Mikrofonausgangssignal, die Phantom-Stromversorgung und einen Fernsteuerdatenstrom enthält. [4.11] 4.2.2.5
Druckempfänger mit ungerichtetem Schallempfang
Die Kapsel des Druckempfängers, also sein Kondensatorelement, ist schalldicht geschlossen, damit kein Schall an die Membranrückseite gelangen kann und nur der absolute Druck der Luft Auslenkungen erzwingt. Diese würden ohne weitere Maßnahmen mit steigender Frequenz abnehmen. Um nun eine von der Frequenz unabhängige, konstante Ausgangsspannung zu erreichen, nutzt man die ansteigende Flanke einer Resonanzkurve. Man legt deshalb die Eigenresonanz der Kapsel in den Bereich der höchsten zu übertragenden Frequenz; dies wird erreicht durch eine sehr leichte, stark gespannte Membran und ein kleines im Kondensator eingeschlossenes Luftvolumen mit dem entsprechend geringer mitschwingender Luftmasse und hoher Rückstellkraft; man sagt, die Membran sei hoch abgestimmt. Im ansteigenden Teil der Resonanzkurve wird so die Membranauslenkung mit steigender Frequenz zunehmend verstärkt und die geforderte frequenzunabhängige Membranauslenkung erreicht. Um das Luftvolumen zwischen Membran und Gegenelektrode in erforderlichem Maß komprimierbar zu machen, wird die Gegenelektrode mit sog. Sacklöchern versehen. Dies macht die Rückstellkraft für den gesamten Frequenzbereich praktisch konstant, damit werden nichtlineare Verzerrungen vermieden, es gibt nur sehr geringe Phasenverzerrungen im gesamten Übertragungsbereich und das Mikrofon ist relativ unempfindlich für Körperschall (Abb. 4/29).
Abb. 4/29. Prinzipieller Aufbau der Kapsel des Kondensator- Druckempfängers.
In einer Konstruktionsvariante ist die feste Gegenelektrode ersetzt durch zwei akustisch unwirksame, beidseitig der Membran angeordnete Gitter, die die ohnedies geringen nichtlinearen Verzerrungen nochmals reduzieren. 4.2.2.6
Druckgradientenempfänger mit gerichtetem Schallempfang
Bei Druckgradientenempfängern muss der Schall auch die Membranrückseite erreichen können, damit eine Druckdifferenz zwischen Vorder- und Rückseite entstehen kann, die dann die Membran auslenkt, entweder nach dem Überlagerungsprinzip oder mit einem Laufzeitglied 145
Schallwandler (siehe oben). Beim Überlagerungsprinzip, das v. a. bei Doppelmembran-Mikrofonen mit umschaltbarer Richtcharakteristik angewendet wird, werden Teilbereiche der Gegenelektrode mit durchgehenden Bohrungen zur Erzeugung einer Achterrichtcharakteristik, andere Bereiche mit Sacklöchern zur Erzeugung einer Kugelrichtcharakteristik versehen (Abb. 4/30). Da der Druckgradient bereits eine proportional zur Frequenz größer werdende Antriebskraft darstellt (siehe oben), darf die Membran nicht wie beim Druckempfänger hoch abgestimmt sein. Sie soll im Übertragungsbereich nur eine frequenzunabhängig wirkende Reibungshemmung besitzen. Praktisch wird die Membranresonanz, die sich aus der Membranmasse und -rückstellkraft ergibt, in die Mitte des Frequenzbereichs gelegt. Die Resonanz wird durch die Luftreibung in den Vertiefungen und Durchbohrungen der Gegenelektrode so bedämpft, dass sie sich nicht mehr auswirkt. Bei den meisten Druckgradientenmikrofonen mit Nierenrichtcharakteristik oder mit Hyperbzw. Supernierenrichtcharakteristik wird die Gegenelektrode zu einem Laufzeitglied erweitert und mit Bohrungen, Schlitzen und Hohlräumen versehen, die teils als akustische Energiespeicher (akustische Induktivitäten und Kapazitäten), teils als Reibungswiderstände wirksam sind; dadurch erhält die Gegenelektrode den Charakter eines akustischen Tiefpasses. Im Sperrbereich dieses Tiefpasses, also im oberen Frequenzbereich (über fü in Abb. 4/14), wird die Membran nur noch von dem von vorn auf die Membran treffenden Schall ausgelenkt; das Mikrofon wird damit in diesem Frequenzbereich zum Druckempfänger. Bei der Hyper- und Supernierencharakteristik wird die Laufzeit des Laufzeitglieds geringer angesetzt. Ein Beispiel für die mechanische Ausführung eines Nierenmikrofons mit Laufzeitglied zeigt Abb. 4/31.
Abb. 4/30. Prinzipieller Aufbau des Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik nach dem Überlagerungsprinzip.
Die Achterrichtcharakteristik erfordert eine beidseitig dem Schall ausgesetzte Membran; die Gegenelektrode darf demnach akustisch nicht wirksam werden. Mikrofone nach diesem Prinzip werden wenig gebaut. Die Achterrichtcharakteristik steht meist nur bei Mikrofonen mit umschaltbarer Richtcharakteristik zur Verfügung (s. u.). 4.2.2.7
Umschaltbare Richtcharakteristik
Kondensatormikrofone mit umschaltbarer Richtcharakteristik können entweder durch rein mechanisch wirkende Elemente oder durch die Kombination zweier Nierenmikrofone realisiert werden. Bei den meisten Herstellern hat sich die zweite Lösung in der Ausführung als Doppelmembran-Mikrofon durchgesetzt. Umschaltbare Kondensatormikrofone nach dem Doppelmembranprinzip besitzen auf beiden Seiten der teils angebohrten, teils durchbohrten Gegenelektrode eine Membran. Sie vereinen 146
Mikrofone zwei Mikrofonsysteme mit Nierencharakteristik, die in entgegengesetzte Richtungen ausgerichtet sind, jedes einzelne System arbeitet nach dem Überlagerungsprinzip (Abb. 4/32).
Abb. 4/31. Beispiel für den mechanischen Aufbau eines Kondensator-Druckgradientenempfängers mit Nierenrichtcharakteristik mit einem Laufzeitglied.
Je nachdem, ob beide Membranen elektrisch wirksam werden und mit welcher Polarität sie zusammengeschaltet werden, kann ein solches Mikrofon Kugel-, Nieren- oder Achterrichtcharakteristik erhalten, außerdem alle gewünschten Zwischenformen, die auch Hyper- und Superniere einschließen (Abb. 4/34). Wird nur eine Membran der Kapsel mit einer Spannungsquelle verbunden, so hat die Kapsel Nierencharakteristik (Abb. 4/33, Schalterstellung 3). Werden beide Membranen mit gleich großen Spannungen gleicher Polarität belegt, so ergeben sich zwei entgegengesetzt ausgerichtete Nieren, deren Spannungen sich zu einer Kugelcharakteristik addieren (Abb. 4/3, Schalterstellung 1). Werden beide Membranen mit gleich großen Spannungen entgegengesetzter Polarität belegt (Abb. 4/33, Schalterstellung 2), so ergeben sich auch hierbei zwei Nierencharakteristiken, deren Spannungen sich jetzt jedoch subtrahieren, das Ergebnis ist eine achterförmige Richtcharakteristik. Sie kommt dadurch zustande, dass bei seitlicher Besprechung die beiden erzeugten Spannungen gegenphasig sind und sich somit aufheben, während bei einer Besprechung von vorn oder hinten die volle Wandlerempfindlichkeit erhalten bleibt.
Abb. 4/32. Prinzipieller Aufbau des umschaltbaren Kondensatormikrofons mit Doppelmembran.
Der Umschalter in Abb. 4/3 kann durch ein Potentiometer ersetzt werden. Die Charakteristiken können dann stufenlos ineinander überführt werden. Dieses Potentiometer kann im Mikrofongehäuse oder im Netzanschlussgerät eingebaut sein (Abb. 4/34).
147
Schallwandler
Abb. 4/33. Beschaltung eines DoppelmembranKondensatormikrofons.
Abb. 4/34. Mögliche Richtcharakteristiken eines Doppelmembran-Mikrofons und ihr Zustandekommen aus der Überlagerung zweier Nierenrichtcharakteristiken.
Die Kugelcharakteristik des umschaltbaren Kondensatormikrofons mit Doppelmembran, die aus zwei Nierencharakteristiken gewonnen wird, zeigt eine andere Frequenzabhängigkeit der Richtwirkung als die Kugelcharakteristik des Druckempfängers. Der Schallschatten, der bei 148
Mikrofone hohen Frequenzen hinter einem Druckempfänger entsteht und ihn in diesem Frequenzbereich eine der Nieren- bzw. Keulencharakteristik ähnliche Richtcharakteristik verleiht, existiert beim umschaltbaren Druckgradientenempfänger nicht, da beide Membranen wirksam sind. Dieses Mikrofon ist nach dem Umschalten auf „Kugel" von vorn und hinten für alle Frequenzen gleich empfindlich und nimmt eher Achterrichtcharakteristik an; dieses Phänomen ist bei Mikrofonen mit großer Membran besonders deutlich, bei kleiner Membran ist die Richtwirkung hingegen auch für hohe Frequenzen gering. Somit kann die Kugelcharakteristik drei verschiedene Frequenzabhängigkeiten aufweisen (Abb. 4/35).
Abb. 4/35. Verschiedene Typen der Frequenzabhängigkeit bei Kugelmikrofonen. a. Druckempfänger, b. Druckgradientenempfänger mit kleiner Doppelmembran, c. Druckgradientenempfänger mit großer Doppelmembran.
4.2.2.8
Koinzidenzmikrofone
Bei Aufnahmen in reiner Intensitätsstereofonie werden für das XY- und MS-Mikrofonverfahren Mikrofonanordnungen benötigt, bei denen zwei Mikrofone unmittelbar übereinander angeordnet sind. Eine solche Anordnung kann man entweder mit einem geeigneten Mikrofonhalter und zwei Einzelmikrofonen zusammenstellen oder - für den praktischen Gebrauch einfacher - durch die konstruktive Zusammenfassung zweier Mikrofonsysteme. Solche Stereo- oder Koinzidenzmikrofone vereinen dicht übereinander und gegeneinander drehbar zwei identische Mikrofone mit örtlicher oder ferneinstellbarer Richtcharakteristik. Bei Fernumschaltung sind die Mikrofonsysteme mit einer Doppelmembran aufgebaut, bei örtlicher Umschaltung stehen Mikrofone mit Doppelmembran oder mit Einzelmembran zur Verfügung. Koinzidenzmikrofone können in XY- oder MS-Aufnahmetechnik betrieben werden, jedoch werden heute in der Tonregie stets XY- bzw. LR-Signale weiterverarbeitet, MS-Signale werden also sofort nach dem Mikrofonverstärker in LR-Signale umgewandelt (Näheres siehe Kap. 5.3). Eine interessante Form eines Koinzidenzmikrofons ist auch das Mehrkapselsystem nach der Sound Field-Technologie. Es vereint nicht nur zwei Mikrofonkapseln wie das Koinzidenzmikrofon, sondern vier Kapseln, die in einer festen, berechneten Position alle drei Raumrichtungen erfassen. Die Signale aller Kapseln können zu einem Monosignal, das alle Richtcharakteristiken erhalten kann und in verschiedene Richtungen ausgerichtet werden kann, summiert 149
Schallwandler werden, aber ebenso zu einem Stereo- oder Surroundsignal. Durch unterschiedliche Pegelanteile und Phasendifferenzen der einzelnen Mikrofonsignale werden die verschiedenen Richtcharakteristiken gewonnen. Der Anwender bewegt und steuert das Mikrofon zudem elektronisch über eine Steuereinheit vom Regieraum aus, entweder während der Aufnahme oder erst bei der Endabmischung. Abgesehen von den üblichen Parametern für die Mikrofoncharakteristik stehen zusätzlich drei Parameter zur Verfügung, die es sonst bei keinem Mikrofonsystem gibt: Mit Azimuth wird das Mikrofon elektronisch und stufenlos um 360/ in der horizontalen Ebene gedreht, mit Elevation kann es elektronisch vertikal geneigt werden, Dominance bestimmt die scheinbare Entfernung des Mikrofons von der Schallquelle. Mikrofonpaar mit variabler Richtcharakteristik Montiert man ein Mikrofon mit Kugelcharakteristik (Kapsel 1) und eines mit Achterrichtcharakteristik (Kapsel 2) dicht übereinander und summiert deren Signale, so erhält man ein Monomikrofon mit speziellen Eigenschaften: Zunächst kann durch die Einstellung der Pegel und Polarisation von der Kugel über die Niere bis zur Acht jede gewünschte Richtcharakteristik einschließlich aller Zwischenformen eingestellt werden (Kugel = Kapsel 1, Niere nach vorn = Kapsel 1 + 2, Niere nach hinten = Kapsel 1 - 2), ebenso wie bei einem Doppelmembranmikrofon. Interessant wird das System aber erst bei Betrachtung der Frequenzgänge: die Kugel hat bis 20 Hz hinab einen ebenen Frequenzgang, die Acht hat unter 50 Hz praktisch kein Signal mehr; nach Addition von Kugel und Acht erhält man also eine Bassabsenkung um 6 dB bei gleichzeitiger Kugelrichtcharakteristik für den tiefsten Frequenzbereich. Ein Mikrofonpaar aus Kugel und Niere hat ebenfalls eine Bassabsenkung um 6 dB bei der Richtcharakteristik einer breiten Niere; diese Kombination wird auch als „Straus-Pärchen“ bezeichnet.
4.2.3
Dynamische Mikrofone
Dynamische Mikrofone sind elektrodynamische Wandler. Dabei wird in einem durch einen Permanentmagneten erzeugten magnetischen Feld eine Leiterschleife von den Schallwellen (Bändchenmikrofon) oder eine kleine Spule (Tauchspulmikrofon) von der Membran bewegt. Dynamische Mikrofone benötigen keine Speisespannung, sie sind robust und arbeiten auch bei hohen Lautstärken der Schallquellen verzerrungsarm. Verglichen mit Kondensatormikrofonen ist die Feinstruktur des Frequenzgangs bei Tauchspulmikrofonen unregelmäßiger, was aus den Datenblättern wegen der gemittelten Frequenzgänge nicht ablesbar ist; ebenso ist ein Phasenfrequenzgang unvermeidlich. Wegen der verglichen mit Kondensatormikrofonen wesentlich größeren bewegten Masse von Membran und Schwingspule ist das Einschwingverhalten beim Tauchspulmikrofon langsamer als bei Kondensatormikrofonen. Bei hohen Qualitätsanforderungen werden deshalb Kondensatormikrofone bevorzugt. Dennoch erreichen dynamische Mikrofone heute einen beachtlichen Qualitätsstandard. Besonders im Popmusiksektor werden sie vielfach verwendet, wohl deshalb, weil hier der subjektive Klang eines Mikrofons meist wichtiger ist als objektive, messtechnisch begründete Anforderungen. Die Ausgangsspannung an den Klemmen einer Schwingspule oder eines Bändchens ist der Bewegungsgeschwindigkeit der Spule bzw. des Bändchens proportional, während die Spannung, die eine Kondensatorkapsel abgibt, zur Auslenkung der Membran proportional ist. Damit muss die mechanische Konstruktion, v. a. die Lage der Membranresonanz und die Bedämpfung der Membranschwingungen bzw. deren Verstärkung durch Resonanzen des 150
Mikrofone konstruktiven Aufbaus für dynamische und Kondensatormikrofone verschieden gestaltet werden. Bei dynamischen Druckmikrofonen wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt und durch akustische Reibung bedämpft. Zusammen mit der Wirkung weiterer Resonanzen von Hohlräumen in der Mikrofonkapsel kann die Bewegungsgeschwindigkeit der Membran dem Schalldruck proportional gemacht werden. Dynamische Druckgradientenmikrofone hingegen erfahren eine mit der Frequenz ansteigende Krafteinwirkung; eine mit der Frequenz zunehmende Dämpfung würde die Ausgangsspannung zu gering werden lassen. Also wird die Membran tief abgestimmt; die Membranresonanz verstärkt die Bewegung im tiefen Bereich und nimmt mit der Frequenz ab, wieder entsteht eine frequenzunabhängige Ausgangsspannung. Für die Praxis bedeutet die tiefe Membranabstimmung, dass Körperschall - Trittschall und Reibgeräusche - und Windgeräusche die Aufnahme erheblich mehr stören als bei höher abgestimmten Membranen; dies gilt v.a. für Bändchenmikrofone. In dieser Hinsicht sind Kondensatormikrofone nach dem Druckempfängerprinzip allen anderen Mikrofonen überlegen; nur diese Mikrofone haben eine hoch abgestimmte Membran. Tab. 4/5 fasst die Membranabstimmung bei den verschiedenen Mikrofonprinzipien zusammen. Tab. 4/5. Resonanzabstimmung der Membran bei Mikrofonen. Membran durch Membran durch hohe Spannung mittlere Spannung abgestimmt auf abgestimmt auf hohe Frequenzen mittlere Frequenzen Kondensatormikrofone: Kugel (Druckkugel) Nieren, Acht, Keule Dynamische Mikrofone: Kugel (Druckkugel) Nieren, Acht, Keule Bändchenmikrofone Empfindlichkeit für Trittschall, Windund Poppgeräusche 4.2.3.1
Membran durch geringe Spannung abgestimmt auf tiefe Frequenzen
! ! ! !
gering
mittelmäßig
hoch, Bändchenmikrofon: sehr hoch
Tauchspulmikrofone
Am Beispiel eines Tauchspulmikrofons mit Kugelcharakteristik nach dem Druckempfängerprinzip zeigt Abb. 4/36 die Wirkungsweise des dynamischen Mikrofons. An der Membran ist eine Spule befestigt, welche in den Luftspalt eines Topfmagneten eintaucht; dieser besteht aus einem Dauermagneten und einem Topf aus magnetisch leitendem Material (äußere Polplatte) und dem Kernpolschuh Die Spule ist ohne Körper gewickelt und erhält ihre mechanische Steifigkeit dadurch, dass ihre einzelnen Windungen miteinander verklebt sind. Sie ist meist so bemessen, dass ihre Impedanz bei 1000 Hz 200 S beträgt. Die Größe der Signalspannung dieses Mikrofons ist 151
Schallwandler abhängig von der magnetischen Induktion, von der Dimensionierung der Spule und von der Geschwindigkeit, mit der die Spule im Magnetfeld bewegt wird. Die beiden erstgenannten Größen werden durch die Konstruktion festgelegt. Um eine frequenzunabhängige Signalspannung zu erhalten, sind besondere konstruktive Maßnahmen erforderlich: Die Geschwindigkeit einer Membran ohne Masse und damit die Signalspannung würde mit der Frequenz ansteigen. Durch die Masse der Membran einschließlich der mitschwingenden Spule wird die Geschwindigkeit bedämpft. Der Einfluss dieser Dämpfung ist so stark, dass die Membrangeschwindigkeit mit steigender Frequenz abnimmt und sogar durch Resonanzen wieder angehoben werden muss. Deshalb wird die Membranresonanz in die Mitte des Übertragungsbereichs gelegt. Als weitere Resonatoren werden verwendet: das Luftvolumen zwischen Windschutzkorb und Membran, das Luftvolumen zwischen Membran und Magnet, der Innenraum des Topfmagneten und der Innenraum des Gehäuses. Durch die Bemessung der Öffnungen und Kanäle, welche die Resonatoren miteinander verbinden, und durch dämpfende Filzscheiben z. B. werden diese aufeinander abgestimmt.
Abb. 4/36. Tauchspulmikrofon nach dem Druckempfängerprinzip.
Dynamische Mikrofone werden hauptsächlich als Richtmikrofone angeboten. Sie unterscheiden sich von den ungerichteten Tauchspulmikrofonen durch die tiefe Abstimmung der Membranresonanz und durch die Ausbildung des hinteren Kapselabschlusses als Laufzeitglied. Die Technologie dieser Mikrofone baut auf jahrzehntelanger Erfahrung; der mechanische Aufbau ist kompliziert, aber ausgereift. Tauchspulmikrofone können sowohl in preiswerter Massenfertigung als auch mit hohem Qualitätsstandard hergestellt werden. Die Forderung nach tiefer Abstimmung der Membranresonanz ergibt sich daraus, dass die Antriebskraft des Druckgradienten mit fallender Frequenz abnimmt; zum Ausgleich verstärkt die Eigenresonanz der Membran die Bewegungsgeschwindigkeit. Die Membran sollte deshalb auf die tiefste zu übertragende Frequenz abgestimmt sein, was praktisch erhebliche Probleme mit sich bringt, da einerseits die Körperschall- und Windempfindlichkeit sehr groß wird, andererseits die Führung der Spule bei zu weicher Aufhängung nicht präzise genug wird. Deshalb wird die Membranresonanz etwas höher gelegt und die Antriebskraft dadurch gesteigert, dass für tieffrequenten Schall Schalleinlässe mit größerer Verzögerung angebracht werden; akustische Filterelemente sorgen dafür, dass die Verlängerung des Laufzeitglieds nur für tiefe Frequenzen wirksam wird. Dieses Prinzip heißt Variable Distance-Prinzip. Eine konsequente Weiterentwicklung des Variable Distance-Prinzips führt zum ZweiwegTauchspulmikrofon, bei dem - ähnlich wie bei Lautsprecherboxen - für den tieffrequenten und 152
Mikrofone höherfrequenten Schall je ein eigenes Empfänger- und Wandlersystem vorhanden ist, deren Laufzeitglieder viel besser auf den jeweils zu übertragenden Frequenzbereich abgestimmt werden können. Ein Vorteil dieser Technik ist auch, dass der Nahbesprechungseffekt praktisch nicht existiert. Magnetische Störfelder, die von Netztransformatoren, Trenntransformatoren oder Motoren kommen können, induzieren in die Spule des Tauchspulmikrofons Störspannungen. Um solche Störungen zu unterdrücken, ist nahe bei der Schwingspule eine feste Kompensationsspule untergebracht, die - mit der Schwingspule in Reihe geschaltet, aber entgegengesetzt gewickelt - magnetische Störfelder kompensiert. 4.2.3.2
Bändchenmikrofone
Die Membran des Bändchenmikrofons, eben ein Metallbändchen, ist gleichzeitig der elektrische Leiter, der im Magnetfeld eines starken Permanentmagneten bewegt wird. Eine 2 bis 3 :m dickes und 3 bis 4 mm breites Aluminiumbändchen von etwa 4 cm Länge mit vielen Querfalten ist lose zwischen den Magnetpolen aufgehängt (Abb. 4/37). Seine Eigenfrequenz liegt dabei am unteren Ende des Übertragungsbereichs. Diese Maßnahme und die Masse des Bändchens bewirken die Unabhängigkeit seiner Geschwindigkeit und damit der Ausgangsspannung von der zu übertragenden Frequenz. Die Impedanz dieses Mikrofons wird durch den Widerstand des Bändchens gebildet und beträgt ca. 0,1 S. Ein im Mikrofongehäuse untergebrachter Übertrager erhöht die Impedanz auf meist 200 S, damit wird gleichzeitig die Ausgangsspannung erhöht. Bändchenmikrofone sind wie Tauchspulmikrofone als Druckgradienten- oder Druckempfänger konstruierbar. Wegen der sehr geringen Masse des Bändchens und seiner weichen Aufhängung zeigt das Mikrofon ein sehr gutes Impulsverhalten. Der Frequenzgang ist vom Prinzip her weitgehend linear, auch in seiner Feinstruktur. Typisch ist eine mehr oder weniger deutliche Höhenanhebung, verursacht durch die Hohlraumresonanz des Topfmagneten. Wegen der tiefen Membranabstimmung sind Bändchenmikrofone gegen Wind-, Popp- und Trittschall sehr empfindlich.
Abb. 4/37. Prinzip des Bändchenmikrofons.
153
Schallwandler Bändchenmikrofone wurden in der Anfangszeit des deutschen Rundfunks ab 1924 verwendet, bis 1931 das von Neumann erfundene Kondensatormikrofon eingeführt wurde. V. a. aber in den USA blieb das „Bändchen" das Standardmikrofon bis in die fünfziger Jahre. So sind die meisten der berühmten Bigband-Aufnahmen der 40er und 50er Jahre des 20. Jahrhunderts mit Bändchenmikrofonen von RCA gemacht worden. Ähnlich wie Mikrofone mit Röhren gehört das Bändchenmikrofon zu den Mikrofonen, die nicht durch messtechnisch optimale Eigenschaften geschätzt werden, sondern wegen ihres besonderen Klangs. So wird dem Bändchen besondere Klangtransparenz bei weichen Höhen nachgesagt; der Höhenabfall beginnt schon unter 10 kHz. Die geringe Ausgangsspannung des Bändchens führt zu vergleichsweise hohem Rauschen, das das Mikrofon v. a. für den Nahbereich oder bei lauten Schallquellen, eben z. B. bei einer Big band, geeignet erscheinen lässt. „Bändchen“ (ribbon mic) werden noch heute gefertigt und haben wie z. B. Röhrenmikrofone ihren Kreis von Liebhabern.
4.2.4
Sonderbauformen von Mikrofonen
4.2.4.1
Kardioidebenenmikrofone
Das Empfängerprinzip des Rohrrichtmikrofons, nämlich die phasen- bzw. zeitverschobene Aufnahme seitlich und vertikal auftreffenden Schalls zur Erzielung einer stark eingeengten Richtwirkung, wird beim Kardioidebenenmikrofon, kurz auch KEM, nur für vertikal eintreffenden Schall angewendet. Dafür sind senkrecht übereinander mehrere Mikrofonkapseln montiert, deren Signale - in einem Zusatzgerät verzögert und im Pegel geregelt - addiert werden. Es entsteht dabei eine Richtcharakteristik, die horizontal eine Niere darstellt, vertikal eine Keule. Das KEM ist als feststehendes Rednermikrofon für den Deutschen Reichstag entwickelt worden, es gibt dem Redner große Bewegungsfreiheit ohne Änderungen der Klangfarbe bei gleichzeitig guter Diffusschallausblendung (Abb. 4/38).
Abb. 4/38. Richtcharakteristiken des Kardioidebenenmikrofon.
4.2.4.2
Grenzflächenmikrofone
Das Grenzflächenmikrofon - auch PZM (Pressure Zone Microphone, geschützter Handelsname des Herstellers Crown) oder BLM (Boundary Layer Microphone) genannt - nutzt die besonderen akustischen Bedingungen, die an einer den Schall reflektierenden Grenzfläche herrschen. Ganz dicht vor reflektierenden Flächen haben alle Schallwellen, sowohl die des Direktschalls als auch die von ersten Reflexionen und Diffusschall, Druckbäuche und damit einen verdoppelten Schalldruck. Aus dieser Tatsache und aus der Ausstattung dieser Mikrofone 154
Mikrofone mit einer kleinen Membran, schließlich aus der Bauweise als Kondensator-Druckempfänger ergeben sich die besonderen Eigenschaften der Grenzflächenmikrofone. Bei den ersten Konstruktionen wurde das Mikrofon in geringem Abstand auf die Grenzfläche gerichtet. Durchgesetzt hat sich dann aber eine Konstruktion, bei der das Mikrofon selbst Teil der Grenzfläche ist. Mehr oder weniger flach konstruiert, wird es einfach auf den Boden gelegt oder an der Wand befestigt Das Mikrofon hat die folgenden, besonderen Eigenschaften: - Störabstand: die Verdopplung des Schalldrucks an einer Grenzfläche und damit die Erhöhung der Empfindlichkeit um 6 dB ergibt einen vergrößerten Störpegelabstand, der sich bei den Mikrofondaten mit etwa 3 dB niederschlägt, - Richtcharakteristik: sie ist halbkugelförmig und in idealer Weise frequenzunabhängig, - Klangfarbe: Direkt- und Diffusschall haben keine unterschiedliche Klangfarbe, was bei üblichen Druckempfängern unvermeidlich ist, - Aufnahme bewegter Schallquellen: wegen der gleichen Klangfarbe von Direkt- und Diffusfeld stören Bewegungen von Schallquellen nicht oder wenig, das Mikrofon ist also besonders geeignet bei Aufnahmen im Sprechtheater oder bei Diskussionsrunden mit sich bewegenden Sprechern, vorausgesetzt, der Raum ist dabei nicht zu hallig; ein sich abwendender Gesprächsteilnehmer z. B. erfährt keine starke Klangfarbenänderung durch wechselnde Anteile von Direkt- und Diffusschall. Das Mikrofon wurde zunächst auch als Konferenzmikrofon entwickelt, - keine Kammfiltereffekte: die insbesondere bei Stützmikrofonen durch Reflexionen am Fußboden oder bei Tischmikrofonen durch Reflexionen an der Tischoberfläche (Sprechertisch) entstehen, können bei Grenzflächenmikrofonen nicht auftreten, - praktischer Einsatz: bei Publikumsveranstaltungen ist die Betriebssicherheit u. U. nicht gegeben, da das Mikrofon leicht übersehen wird. Druckbäuche an Grenzflächen kommen nur dann zustande, wenn die Schallwelle reflektiert wird; dafür muss die Auflagefläche schallhart sein und die Ausdehnung der reflektierenden Fläche muss mindestens die halbe Wellenlänge des reflektierten Schalls besitzen (Tab. 4/4). Die Einbauplatten der Mikrofone sind i. Allg. für Frequenzen über 1000 Hz ausreichend. Für tiefere Frequenzen muss die Reflexionsfläche dadurch vergrößert werden, dass das Mikrofon auf eine größere Fläche, z. B. auf den Boden, gelegt wird. Unterhalb der in Tab. 4/6 angegebenen Grenzfrequenz liefert das Mikrofon 6 dB Pegel weniger. Auf die Reflexionswirkung der Fläche hat ihre mechanische Oberflächenstruktur Einfluss; je akustisch härter die Oberfläche ist, umso geradliniger ist der Frequenzgang des Mikrofons. Gängige Fußbodenbeläge außer Teppichen und Wandoberflächen dürften i. Allg. für Grenzflächenmikrofone geeignet sein, da im kritischen Frequenzbereich über 1000 Hz die Einbauplatte des Mikrofons ausreichend reflektiert. Da die Kanten und die Dicke der Einbauplatte das Schallfeld stören, muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen möglichst breiten Frequenzbereich verteilt werden. Aus diesem 155
Schallwandler Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. Tab. 4/6. Mindestausdehnung der Grenzfläche bei Grenzflächenmikrofonen. untere Grenzfrequenz 30 Hz 50 Hz 100 Hz 200 Hz 500 Hz 1000 Hz
notwendiger Durchmesser der Grenzfläche ca. 5m 3m 1,50 m 0,75 m 0,30 m 0,15 m
Auf Grund ihrer Richtcharakteristik können Grenzflächenmikrofone v. a. für Laufzeitstereofonie verwendet werden. Aus dem praktischen Umgang haben sich größere Basisbreiten als bei der AB-Mikrofontechnik üblich ist, als günstig erwiesen, also das sog. Groß-AB-Verfahren (siehe Kap. 5.3). Die Raumabbildung und die räumliche Durchsichtigkeit dieser Mikrofone sind beeindruckend; sie zeigen ihre Vorteile deshalb bevorzugt in akustisch guten Räumen. Da sie auf Grund der Aufnahmetechnik in Laufzeitstereofonie in größerem Abstand von den Schallquellen aufgelegt werden, eignen sie sich vorwiegend für E-Musikaufnahmen. Dabei sind auch unkonventionelle Mikrofonorte zu erwägen. Als Druckempfänger sind Grenzflächenmikrofone wenig empfindlich für Körperschall- und Windgeräusche. Trittschall stört deshalb auch bei der Auflage des Mikrofons auf dem Boden meist nicht. Grenzflächenmikrofone auf dem Boden werden leicht übersehen, deshalb haben die Mikrofone trittstabile Schutzkörbe. Da die Kanten und die Dicke der Einbauplatte das Schallfeld stören, muss auch für die Form der Platte nach einer optimalen Lösung gesucht werden. Sie liegt dann vor, wenn der Abstand der Membran zur Kante in allen Richtungen möglichst unterschiedlich ist, damit die Schallfeldstörungen auf einen möglichst breiten Frequenzbereich verteilt werden. Aus diesem Grunde werden die Membranen nicht in die Mitte der Einbauplatten gesetzt; eine optimierte Lösung kann z. B. mit einer dreieckigen Platte realisiert werden. 4.2.4.3
Großmembran- und Röhrenmikrofone
Kondensatormikrofone sind mit Membranen unterschiedlicher Größe auf dem Markt. Bei Kleinmembranmikrofonen oder einfach Kleinmikrofonen beträgt ihr Durchmesser 12 bis 17 mm, bei Großmembranmikrofonen 28 – 34 mm. Großmembranmikrofone – oft in historischer Schaltungstechnik der Jahre 1930 bis 1960 mit Elektronenröhren - genießen eine guten Ruf und häufige Verwendung für die Singstimme und Einzelinstrumente, nicht jedoch als Hauptmikrofone. Es wird ihnen eine besondere Präsenz, eingebettet in ein warmes, voluminöses Klangbild, nachgesagt. Neben dem Bestand historischer Mikrofone sind ihre Nachfolger weiter in Herstellung und Entwicklung. Der subjektiven Wertschätzung stehen akustische Daten gegenüber, die keinesfalls optimal sind: Bässe werden grundsätzlich nicht besser aufgenommen, die Richtcharakteristik ist deutlich frequenzabhängig, weil das Mikrofon 156
Mikrofone wegen seiner Größe das Schallfeld verändert. Bei tiefen Frequenzen nehmen diese Mikrofone Kugelcharakteristik an, sie nehmen mehr Diffusschall auf, was die Wärme und Volumen erklären könnte, in den Höhen setzt die Richtwirkung früher ein als bei Kleinmikrofonen, was die besondere Präsenz erklären könnte, Auch die optische Wirkung ist durchaus nicht zu unterschätzen. Im Übrigen gibt es für Kleinmikrofone auch aufschiebbare Kugeln, die diesen Mikrofonen die Eigenschaften von Großmembranmikrofonen geben sollen. Die elektrischen Schaltungen des Impedanzwandlers wurden bis 1960 als Röhrenschaltungen realisiert, denen man ähnliche Eigenschaften wie der Großmembran nachsagt. Bei dieser Technologie gibt es vermehrt nichtlineare Verzerrungen mit steigendem Pegel, verursacht durch eine nicht ganz gerade Kennlinie der Verstärkung. Bei der Stimme und z. B. Trompete erhöht dies durch Hinzufügen harmonischer Obertöne die Präsenz, auch entsteht eine geringe Kompressionswirkung, die die Instrumente „druckvoller“ macht. Betrachtet man Großmembranmikrofone und Röhrentechnologie als Mittel der Klanggestaltung, dann haben beide auch in der modernen Tonstudiotechnik ihren Platz und ihre Daseinsberechtigung. 4.2.4.4
Ansteckmikrofone
Sprecher, die während ihres Vortrags sich oder ihre Hände frei bewegen wollen, werden vorteilhaft mit sog. Lavalier- oder Ansteckmikrofonen ausgestattet. Diese Mikrofone - zumeist Druckempfänger, da diese wegen der hoch abgestimmten, also sehr straff gespannten Membran gegen Körperschall unempfindlich sind - werden mit einer um den Hals gehenden Schnur oder durch eine Klammer an der Kleidung befestigt vor der Brust getragen. Ihr Wandlersystem ist gegen Körperschall-Übertragung durch das Gehäuse geschützt. Einige LavalierMikrofone weisen entsprechend ihrer besonderen Verwendung einen speziellen Frequenzgang auf. Das Übertragungsmaß steigt zu hohen Frequenzen hin um 8 bis 10 dB an, weil der Mund die höherfrequenten Schallanteile vorzugsweise in Sprechrichtung und weniger stark zur Brust hin abstrahlt. Außerdem zeigt sich bei männlichen Sprechern bei 700 Hz, bei weiblichen bei etwa 800 Hz, eine resonanzartige Überhöhung im Frequenzgang, die durch vom Brustkorb abgestrahlten Schall zustande kommt und bei einigen Lavalier-Mikrofonen akustisch oder elektrisch entzerrt wird (Abb. 4/39). Ob ein Mikrofon eine spezielle Lavalier-Entzerrung besitzt oder nicht, kann nicht aus seiner Typenbezeichnung als Ansteck- oder LavalierMikrofon geschlossen werden. Nach Lavalier entzerrte Mikrofone sind nur entsprechend ihrer Zweckbestimmung verwendbar. Optimale Bewegungsfreiheit hat der Vortragende, wenn das Mikrofonsignal drahtlos über einen Taschensender weitergeleitet wird. Lavalier-Mikrofone können als Kondensatormikrofone oder als dynamische Mikrofone ausgeführt sein, im professionellen Bereich wird die Ausführung als hochwertiges Kondensatormikrofon bevorzugt. Für Moderatoren von Radiosendungen empfehlen sich auch Headsets, eine Kombination von zumeist Elektretmikrofonen und Kopfhörern. Sie garantieren insbesondere einen definierten, auch bei Bewegungen unveränderten Mikrofonabstand, erreichen aber nicht die Klangqualität der Studiomikrofone.
157
Schallwandler
Abb. 4/39. Frequenzgang des Lavalier-Mikrofons.
4.2.4.5
Kontakt- oder Körperschallmikrofone
Diese Mikrofone nehmen nur die Schwingungen von schwingenden Festkörpern ab, z. B. Musikinstrumenten, aber keine Luftschwingungen. In der Studiotechnik haben sich Kontaktmikrofone nicht durchsetzen können. Einer der Gründe hierfür ist, dass der Körperschall der Instrumente andere Eigenschaften hat als der abgestrahlte Luftschall, dass die Instrumente also ungewohnt klingen. Dennoch sind Körperschallaufnehmer für Musikinstrumente auf dem Markt. Sie arbeiten nach dem elektrostatischen Wandlerprinzip mit Elektretsystemen, die als flexible Bänder auf schwingende Flächen aufgeklebt werden oder nach dem piezoelektrischen Prinzip. Körperschallmikrofone werden bei Bass und Gitarre bevorzugt eingesetzt. Für Aufnahmen beim Fernsehen können Körperschallabnehmer dann vorteilhaft sein, wenn Mikrofone im Bild nicht sichtbar sein sollen. Vorteilhaft sind sie besonders aber bei schwierigen Beschallungssituationen.
4.2.5
Mikrofonständer
Abb. 4/40. Verschiedene Mikrofonständer: 1. Mikrofonwinde, 2. Mikrofonboom, 3. Stativ, 4. Tischstativ, 5. Mikrofonangel.
158
Einrichtungen für drahtlose Mikrofone Für die Aufstellung der Mikrofone stehen für verschiedene Aufnahmesituationen geeignete Ständer zur Verfügung (Abb. 4/40); bei ihrem Einsatz ist darauf zu achten, dass Trittschall nicht übertragen wird, d. h. der senkrechte Trägerstab soll niemals auf dem Boden aufstehen. Bei starkem Trittschall empfiehlt sich die Verwendung von Mikrofonspinnen oder mit Gummibändern gefederte Mikrofonhalter.
4.3
Einrichtungen für drahtlose Mikrofone
Oftmals sind Kabelverbindungen zum Mikrofon eine unerwünschte Einschränkung der Aufnahmesituation, besonders bei bewegten Schallquellen wie agierenden Sängern, Schauspielern oder Conferenciers. Drahtlose Mikrofone oder Funkmikrofone können hier die Mobilität der Agierenden auf der Bühne, im Studio oder bei Außenaufnahmen gewährleisten. Zur Sprachübertragung werden sie in Kongress- und Schulungsräumen eingesetzt. Auch die Empfänger für drahtlose Mikrofonsignale können bewegt sein, sie können z. B. in Filmkameras oder, am Körper getragen, für sog. "In-Ear-Monitoring" eingesetzt werden. Drahtlose Mikrofone können auch in Musikinstrumenten eingesetzt werden. Sie dürfen qualitativ Kabelverbindungen nicht oder nur unwesentlich unterlegen sein; gefordert wird deshalb bei sehr hoher Übertragungssicherheit ein Frequenzumfang der Übertragung bis 20 kHz Audiobandbreite und ein Dynamikumfang von 100 dB. Für die Erfüllung dieser Anforderungen sind die Rahmenbedingungen entscheidend. Das Funkfeld wird von einer komplexen Vielfalt verschiedenster Funkdienste parallel genutzt und bei großen Bühnenereignissen können durchaus 500 Funkübertragungsfrequenzen belegt sein. Neben den regulär belegten Funkfrequenzen muss die große Vielzahl ungewollter Störstrahlung beachtet werden; die Hochfrequenzstörleistung von Lichteffekten z. B. kann die maximal zulässige Strahlungsleistung der drahtlosen Mikrofone übertreffen, die verwendeten Frequenzen müssen dann den gestörten Bereichen ausweichen. Es hat sich in der Praxis bewährt, die Systeme grundsätzlich redundant zu planen, um bei unerwartet auftretenden Herausforderungen über Reserven zu verfügen, das betrifft v. a. die Anzahl nutzbarer Kanäle und die Feldstärken an den Empfangsantennen. Denn das Besondere in der Funkmikrofontechnik sind die ständigen Veränderungen der Übertragungsbedingungen, wenn bei der Aufnahme oder Übertragung die Mikrofone nicht ortsfest sind. Feldstärkeschwankungen und gegenseitige Beeinflussung der Sender verlangen bei den Beteiligten Erfahrung und eine hoher Betriebssicherheit genügende Technik. Die Nutzung drahtloser Mikrofone für feste Funkverbindungen ist nicht zulässig. Geräte, die im Rahmen einer Allgemein- oder Einzelzuteilung von Frequenzen eingesetzt werden, unterliegen den Bestimmungen des "Gesetzes über Funkanlagen und Telekommunikationsendeinrichtungen" (FTEG) und des "Gesetzes über die Elektromagnetische Verträglichkeit von Geräten" (EMVG) und müssen die grundlegenden Anforderungen nach diesen Gesetzen erfüllen und dementsprechend durch das Kennzeichen „CE“ ausgewiesen sein. Drahtlose Mikrofone genießen keinerlei Schutz vor Beeinflussungen gegenüber gleichberechtigten Anwendern im gleichen Einsatzgebiet. Die verschiedenen Betreiber müssen den Einsatz der Mikrofone untereinander selbst koordinieren. Da drahtlose Mikrofone durch ihre Frequenznutzung andere Funkanwendungen stören bzw. selbst gestört werden können, ist ihr Betrieb von der Zuweisung bestimmter Frequenzbänder durch die Bundesnetzagentur (BNetzA) abhängig. 159
Schallwandler Im Folgenden wird der Weg des Audiosignals durch die Übertragungskette vom Sender über die Antenne, die Wellenausbreitung und den Empfänger dargestellt, es werden praktische Hinweise zur Vermeidung häufiger Fehler gegeben. [4.12]
4.3.1
Sender
Für die drahtlose Übertragung von Mikrofonsignalen gibt es drei Varianten batteriegetriebener Sender: - Handsender, die im Mikrofonschaft untergebracht sind, - Taschensender, die meist mit einem Clip am Gürtel befestigt werden (Bodypack, Beltpack) und über Kabel mit dem Mikrofon verbunden sind, - Aufstecksender (Plug On) mit XLR-Buchse und 48 V-Phantomspeisung, die in Verbindung mit jedem analogen Mikrofon betrieben werden können. Die Betriebssicherheit und Forderung nach Studioqualität basiert auf den Faktoren: - störsichere Hochfrequenzeigenschaften bei Einhaltung der Zulassungsvorschriften, - mechanische Stabilität der Sender, - ein Stromversorgungskonzept, das die Geräteleistung konstant hält, - rechnergestützte Kontrolle aller Parameter. Das Blockschaltbild eines Senders zeigt Abb. 4/41. Das Mikrofonsignal wird im Vorverstärker des Senders verstärkt und angepasst sowie zwei rauschvermindernden Maßnahmen unterzogen, einer Preemphasis und einer Kompression. Die Preemphasis hebt wie beim UKWRundfunk den Frequenzbereich oberhalb ca. 2 kHz um 6 dB/Oktave an (Abb. 4/42). Damit wird der bei ansteigender Frequenz sich verringernde Rauschabstand kompensiert, weil Musik und Sprache bei steigender Frequenz im Pegel abnehmen.
Abb. 4/41. Blockschaltbild eines Taschensenders mit prozessorgesteuerter PLL (Phase-looked loop, Taktsynchronisation), Gleichspannungswandler und Infrarotdatenschnittstelle.
160
Einrichtungen für drahtlose Mikrofone
Abb. 4/42. Preemphasis des Signalfrequenzgangs im Sender und Deemphasis im Empfänger um 6 dB/Oktave zur Rauschverminderung bei hohen Frequenzen.
Die international ähnlichen Einschränkungen der belegten HF-Bandbreite durch die Telekommunikationsbehörden erfordern für die Übertragung zusätzlich eine Kompression der Dynamik. Meistens wird die Eingangsdynamik des Audiosignals um den Faktor 2 komprimiert; ein Signal mit einem Pegel von z. B. 40 dB unter Vollaussteuerung erhöht der Kompressor also auf 20 dB unter Vollaussteuerung (Abb. 4/43). Im Empfänger wird die komprimierte Dynamik dann wieder um den Faktor 2 expandiert, so dass am Empfängerausgang der ursprüngliche Pegel zur Verfügung steht. Ohne dieses Kompandersystem aus Kompressor und Expander kann Studioqualität im Rahmen der Anforderungen der Zulassungsbehörden nicht erreicht werden. Das nun linear durch die Deemphasis verzerrte und komprimierte Signal wird in Frequenzmodulation (FM) einer Hochfrequenzträgerschwingung aufgeprägt und von der Senderantenne allseitig als Funkfeld abgestrahlt. Der Rauschabstand des Übertragungssystems kann bis 120 dB betragen. In der Praxis muss allerdings eine Aussteuerungsreserve vorgesehen werden, die tatsächlichen Werte verbleiben im Bereich von 70 bis 90 dB. Akustische Nebengeräusche auf der Bühne oder im Studio, z. B. durch Lüfter, Nebelmaschinen, das Publikum etc. bestimmen im Übrigen den Rauschabstand ohnedies oft viel mehr.
Abb. 4/43. Kompandersystem des Senders bzw. Empfängers.
Der Sender arbeitet wie der UKW-Rundfunk mit Frequenzmodulation (FM), d. h., eine Trägerwelle in Hochfrequenz wird entsprechend dem Tonsignal in ihrer Frequenz moduliert. Die Trägerfrequenz wird durch ein Audiosignal ständig nach höheren und niedrigeren 161
Schallwandler Frequenzen verschoben. Der Änderungsbetrag, der sog. Hub der Funkfrequenz, übermittelt den Signalpegel, also die Lautstärke, die Geschwindigkeit der Änderungen repräsentiert den Schwingungsverlauf des Audiosignals (Abb. 4/44).
Abb. 4/44. Frequenzverhältnisse bei der HF-Übertragung
Ohne Audiosignal bleibt der Hochfrequenzträger konstant in seiner Frequenz, es liegt am Empfängerausgang kein Signal an. Die belegte Hochfrequenzbandbreite, der Hub, nimmt mit der Lautstärke zu. Die Regulierungsbehörde, die Bundesnetzagentur (BNetzA) legt die maximal zulässige belegte HF-Bandbreite fest, nicht den maximalen Hub. Bei voller Leistung darf maximal nur ±50 kHz um die Mittenfrequenz moduliert werden. Sie zertifiziert alle für den Betrieb zugelassenen Sender. Der Bedarf an HF-Bandbreite ist näherungsweise der maximale Hub plus die doppelte Audiobandbreite. Ein Funkmikrofon belegt mit z. B. 100 kHz bzw. ±56 kHz Frequenzhub und 2 mal 20 kHz Audiobandbreite 152 kHz HF-Bandbreite.
Abb. 4/45. ETSI-Maske EN 300 zur Definition des HF-Übertragungskanals,fc = transmitter carrier frequency (Trägerfrequenz) = 800 MHz, B = belegte Bandbreite = 200 kHz.
162
Einrichtungen für drahtlose Mikrofone Ein Funkmikrofon darf nach europäisch harmonisierten Regeln maximal 200 kHz HF-Bandbreite belegen. An den Grenzen des Bandes muss das Funksignal bereits um 60 dB abgefallen sein, also auf 1/1000 seiner maximalen Leistung. Die diesbezüglichen Vorschriften werden herausgegeben vom European Telecommunications Standards Institute (ETSI) und in Deutschland von der Bundesnetzagentur überwacht. Die ETSI-Maske definiert das Fenster, in dessen Rahmen das Sendersignal im HF-Spektrum auch bei Vollaussteuerung zu bleiben hat (Abb. 4/45). Übersteuerungen müssen abgeschnitten werden durch einen „harten“ Limiter (Peak Limiter) ab 48 kHz Hub. Der Limiter ist Pflicht für jeden Sender mit dem CE-Zeichen und verhindert wirksam, dass er übermoduliert, und damit zu viel Bandbreite im HF-Spektrum belegt. Das bevorzugte Band für Funkmikrofone ist der UHF-Bereich von 470 bis 862 MHz. Die einzustellende Vorverstärkung im Sender verhindert einerseits eine Übersteuerung, andererseits Untersteuerung, d. h. eine verrauschte Übertragung. Der mittlere Pegel ist am zweckmäßigsten auf 20 dB unter Vollaussteuerung einzustellen. Signale mit hohem Obertonanteil sollten noch vorsichtiger verstärkt werden, weil die Preemphasis die hohen Frequenzen überproportional anhebt und abgeschnittene Pegelspitzen durch den harten Limitereinsatz zu hörbaren Verzerrungen führen können. Funkmikrofonsender arbeiten mit HF-Leistungen zwischen 10 und 100 mW. Die tatsächlich ins Funkfeld abgegebene Leistung liegt darunter, weil durch den körpernahen Einsatz die Antenne undefiniert verstimmt wird und Strahlungsenergie im Körper in Wärme umgewandelt wird. Dabei ergeben sich Verluste von 3 bis 30 dB, das sind 50 bis 99,9 % der Leistung. Hohe Dämpfungen haben selbstverständlich großen Einfluss auf die Reichweite und die Übertragungssicherheit. Ein größerer Abstand zum Körper begünstigt die Abstrahlung erheblich. Mehrere Sender, die eng benachbart zum Einsatz kommen, beeinflussen sich gegenseitig, indem die HF-Felder über die Sendeantennen Zugang zum Endstufentransistor finden und dabei neue Sendefrequenzen erzeugen. Dieser physikalisch bedingte Vorgang wird Intermodulation, abgekürzt mit IM, benannt und lässt sich auf Grund der dynamischen Feldstärkesituation bei bewegten Verhältnissen auf der Bühne nicht immer vermeiden (siehe Kap. 10.2.2). Auch Sender mit einem hohen Intermodulationsabstand, abgekürzt IMA, können betroffen sein. Die Störungen können vorausberechnet werden. Besonders kritisch sind die Intermodulationsprodukte dritter Ordnung, weil hier große Störpegel mit doppeltem Hub und Frequenzverdopplung auftreten. Vermeidet man in mehrkanaligen Funkmikrofonsystemen diese Frequenzen mit ausreichendem Sicherheitsabstand, ist die Anlage intermodulationsfrei. Intermodulationsprodukte höherer Ordnung sind im Pegel schwächer und spielen meist eine untergeordnete Rolle. Unabdingbare Voraussetzung für eine sichere Übertragung ist die Sichtverbindung zwischen Sende- und Empfangsantenne. Unter guten Bedingungen ist ein Betrieb bis über 5 km Entfernung möglich. Die Sendeantenne hat einen Wirkungsgrad von maximal 70 %. Bei Hand- und Taschensendern reduziert die Nähe zum Körper grundsätzlich die Leistung. Die Antenne wird verstimmt, ihr Wirkungsgrad lässt nach, und die abgestrahlte HF-Leistung wird oft zum großen Teil im Körper absorbiert. Die Funkwellen werden auf ihrem Weg zur Empfangsantenne durch den Körper abgeschattet. Diese Einschränkungen addieren sich. Von einem 30 mW-Sender gehen u. U. über 20 dB verloren. Der tatsächlich erreichte Wert wird mit ERP (Effective Radiated Power) bezeichnet. und kann im ungünstigsten Fall zu sehr geringen Reichweiten von nur vielleicht nur 10 m führen. 163
Schallwandler Faustregeln sind, dass Sendeantennen nicht berührt werden dürfen und ein Mindestabstand der Sender von 5 mm zwischen Haut und Antenne sicherzustellen ist, weiter ist ein Mindestabstand von ca. 4 m zu den Empfangsantennen einzuhalten, damit einzelne Träger nicht zu stark einfallen. Selbst Mehrkanalsysteme mit 100 Funkmikrofonen und mehr gleichzeitig im Raum funktionieren zuverlässig, wenn diese Regeln beachtet werden. 4.3.1.1
Frequenzzuteilung
Die Bundesnetzagentur (BNetzA) hat Richtlinien für die Nutzung erlassen (www.bundesnetzagentur.de): Die UHF-Bänder 790 bis 814 und 838 bis 862 MHz sind exklusiv für die professionelle Nutzung für drahtlose Mikrofone allgemein zugeteilt. Bei einem Einsatz in diesem Bereich müssen die Frequenzen nicht bei der BNetzA angemeldet und von dieser zugeteilt werden. Es fallen keine Gebühren an. Voraussetzung ist, dass der Betreiber sich an die in der Allgemeinzuteilung aufgeführten Bedingungen hält. Grundsätzlich muss zwischen den Nutzergruppen a bis f und der örtlichen Umgebung unterschieden werden (Tab. 4/7). Der eingeschränkt zugeteilte Bereich 862 bis 865 MHz oberhalb des Fernsehkanals 69 hat ebenfalls eine allgemeine Zuteilung und ist anmeldefrei für jedermann nutzbar. Hier gelten etwas andere Bestimmungen wie z. B. eine maximale Sendeleistung von 10 mW. Es ist zu beachten, dass dieser Bereich auch von anderen Audio-Anwendungen, z. B. Funkkopfhörern, verwendet wird. Durch die rasante Erweiterung von Funkdiensten jeglicher Art, durch neue Funkdienste und die Notwendigkeit internationaler Zusammenarbeit wird zur Zeit der Drucklegung innerhalb der betroffenen Gruppen der Anbieter und Nutzer und der politischen Institutionen über eine Neuzuteilung von Funkfrequenzen auch für drahtlose Mikrofone und Kopfhörer beraten. Noch ist nicht abzusehen, welche Einschränkungen oder Änderungen sich dabei ergeben. 4.3.1.2
Stromversorgung
In den Sendern werden vielfach zwei Alkaline-Mignon-Batterien in Reihenschaltung verwendet. Im frischen Zustand liefern sie zusammen eine Spannung von 3 bis 3,5 V. Die erforderliche Betriebsspannung von 7,5 V wird durch einen Spannungswandler erzeugt, der sie unabhängig vom Entladezustand der Batterien stabil hält. So bleiben die wichtigen technischen Daten wie Aussteuerungsbereich, Geräuschspannungsabstand und abgestrahlte Leistung über die gesamte Betriebszeit der Batterien konstant. Der Spannungswandler nutzt den Energievorrat der Batterien optimal aus. Er schaltet sich ab, wenn die Spannung unter ca. 2,2 V, also unter 1,1 V Spannung pro Batterie, der sog. Zellenspannung, abfällt. Typische Betriebszeiten mit einem Batteriesatz sind 6 bis 12 Stunden. Überzogene Stromsparkonzepte, d. h. Sender mit sehr langen Betriebszeiten, bergen die Gefahr von Instabilitäten in kritischen HF-Situationen, wenn z. B. mehrere Sender einander sehr nahe kommen. Eine Alternative ist der Einsatz von wieder aufladbaren Akkus. Im häufigen Routineeinsatz sind sie betriebssicherer als Batterien. Ein neuer Akku braucht etwa vier Lade-EntladeZyklen, bis er seine volle Leistung bringt. Danach hält er über ca. 150 Zyklen konstant seine 164
Einrichtungen für drahtlose Mikrofone volle Leistung, bei sorgfältiger Behandlung kann man mit NiMh-Akkus bis zu 300 Zyklen erreichen. Im Laufe weiterer Perioden von Ladung und Entladung verliert ein Akkupack dann allmählich an Kapazität, ab 500 Zyklen rechnet man noch mit einer Energie von etwa 60 % (IEC 61951). Die Langlebigkeit der Akkus wird durch sorgfältigen Umgang erhöht. Das erfordert, dass der Akku immer gleichmäßig zwischen voll (1,35 V) und leer (1,1 V) pendelt. Im Alltagsbetrieb hat sich bewährt, dass ein Team möglichst immer mit demselben Satz von Funkmikrofonen bzw. Akkus arbeitet; der Ladezustand ist hierbei an den Rhythmus der Einsätze gekoppelt, eine Überladung findet nur selten statt. Wird ein Drahtlos-Set dagegen von häufig wechselnden Teams benutzt, führt das erfahrungsgemäß zu einem schnellen Verschleiß der Akkus durch häufiges Überladen aus Unsicherheit über den Ladezustand. Tab. 4/7. Nutzergruppen und zugewiesene Frequenzen. Nutzergruppe a, b Öffentlich-rechtliche Rundfunkanstalten, Private Rundfunk-Programmanbieter, Programmproduzenten c sonstige professionelle Veranstalter, z. B. Bühnen aller Art und Dienstleister der Veranstaltungstechnik, bei denen die Frequenznutzung durch Dritte im Beisein der professionellen Veranstalter erfolgt d weitere professionelle Anwender, die die Frequenzen in eigener Verantwortung nutzen und ihre Mikrofone an verschiedenen Orten zum Einsatz bringen e ausschließlich innerhalb geschlossener Räume für Schauspielhäuser, Theater, Produktionsstudios, Kongresszentren, Messen, Mehrzweckhallen der Kreise, Städte und Gemeinden
f
Regie- und Kommandofunk als sog. "breitbandiger Rückkanal" zur einseitigen Übertragung von Regie- und Kommandosignalen sowie für das In-EarMonitoring bei Veranstaltungen sowie bei Rundfunk- und Bühnenproduktionen
nutzbare Frequenzen pro Fernsehkanal: 790 bis 814, 838 bis 862 MHz 13
4 Frequenzgruppen A - D mit jeweils 10 bis 12
jeweils 74
beliebige Frequenzen nutzbar, zu beachten ist: 1. Der Mindestabstand zur Fernsehkanalgrenze muss 100 kHz betragen. Beispiel: nutzbar im Fernsehkanal 61: 790.100 MHz – 797.900 MHz, 2. Die Nutzfrequenzen müssen in einem 25 kHz-Raster liegen, Beispiel: 790.100/790.125/790.150 … MHz Es gelten die o. g. Bestimmungen für drahtlose Mikrofone. Kommt es zu Frequenzengpässen, so haben drahtlose Mikrofone Vorrang. Entsprechende Festlegungen sind vor Ort im Vorfeld zu treffen.
165
Schallwandler Optimal gepflegt werden Akkus durch Schnell-Ladegeräte, die mit Pulsen schonend laden und per Zustandserkennung rechtzeitig die Pulsabstände auf Erhaltungsladung reduzieren. Aber auch mit moderner Ladetechnik kann man überladen, wenn man volle Akkus immer wieder aus Unsicherheit nachlädt. Dabei entstehen Temperaturen über 45/ C, sie lassen den Akku deutlich schneller altern.
4.3.2
Antennen und Wellenausbreitung
Antennen sind Anpassglieder zwischen dem Hochfrequenzkabel und dem uns umgebenden Raum. Es sind zumeist Dipole, elektrisch leitfähige Gebilde in räumlicher Ausdehnung mit zwei freien Enden in den unterschiedlichsten Ausführungsformen. Ihre Abmessungen stehen stets in Beziehung zur Wellenlänge der zu übertragenden Hochfrequenz. Die Antennen von Taschensendern scheinen nur einen Pol zu haben. Der zweite Pol wird hier aber durch das Metallgehäuse des Senders dargestellt, was auch als Gegengewicht bezeichnet wird. Funkmikrofone haben stets abgestimmte Sendeantennen für einen bestimmten Frequenzbereich, abgestimmt für ein Fenster von ca. ±2 % der Mittenfrequenz. Eine Taschensenderantenne für 800 MHz erbringt also in einer Bandbreite von 40 MHz - von ca. 780 bis 820 MHz volle Leistung. Größere Schaltbandbreiten von 90 MHz und mehr erfordern spezielle Antennenformen, z. B. mit einigen cm Durchmesser. An den Bereichsgrenzen fällt die Leistung mit zunehmender Entfernung von der Mittenfrequenz ab. Falsch abgestimmte Sendeantennen können die zur Verfügung stehende Leistung nicht voll in den Raum abstrahlen. Die HF wird stets ohne Vorzugsrichtung abgestrahlt und breitet sich mit 300 m/:s aus. Allgegenwärtig sind Dämpfungen und Reflektionen der ausgestrahlten Signale, sie dürfen jedoch das Funkfeld nicht um mehr als 80 dB dämpfen. Der Sender erzeugt ca. 1,3 V HF-Spannung, davon müssen mindestens etwa 130 :V am Empfängereingang anliegen, um im Betrieb noch Reserven bei weiterer Signalschwächung zu haben. Die unmittelbare Umgebung der Sendeantenne hat umfassenden Einfluss bei der körpernahen Abstrahlung und den einwirkenden Verlusten durch Verstimmung, Absorption und Abschattung. Eine Hallendecke aus Blech bietet sehr gute Reflektionen der Signale, im Außeneinsatz mit geringeren Reflektionen wird deutlich weniger Feldstärke an den Empfangsantennen eintreffen. Das Auffinden guter Positionen für Sender und Empfänger ist wichtig für die Betriebssicherheit. Ausreichende HF-Pegel während der Proben können allerdings während der Veranstaltung durch Absorptionseffekte des Publikums überraschend tief fallen. Reichweitentests unter betrieblich schlechten, aber realistischen Bedingungen, z. B. mit von der Hand abgedeckten Sendeantennen, sind im Probebetrieb unerlässlich. Abb. 4/46 zeigt das Blockdiagramm einer breitbandigen Empfangsantenne für den UHFBereich von 450 bis 960 MHz. Sie hat einen Öffnungswinkel von ± 45/, das Polardiagramm entspricht etwa dem der Superniere. Das Bandfilter engt das weitergeleitete Spektrum auf 36 MHz ein. Entfernte Störquellen werden ausgeblendet bevor sie, verstärkt vom Booster, Störungen in den Empfängern verursachen können. Bei Feldstärkeproblemen muss die Antennensituation sowohl auf der Sende- wie auf der Empfangsseite optimiert werden. Die Auswahl der passenden Empfangsantennen, ob mit oder 166
Einrichtungen für drahtlose Mikrofone ohne Richtwirkung, muss individuell unter den herrschenden Betriebsbedingungen getroffen werden. Richtwirkung erhöht nicht nur den Nutzpegel aus der Hauptstrahlrichtung, sie gibt auch die Möglichkeit, Störstrahlung, z. B. aus digital betriebenen Lichtsteuerungen, wenn diese aus einer anderen Richtung eintreffen, zu dämpfen.
Abb. 4/46. Blockdiagramm einer aktiven Empfangsantenne.
Der Empfang eines Senders über mehrere Wege auf Grund von Reflexionen kann bei gegenphasigen Signalen zu Totalauslöschungen an der Empfangsantenne führen. Nur zwei räumlich getrennt aufgebaute Antennen, zwischen denen der intern doppelt aufgebaute Empfänger wählen kann – das sog. True Diversity-Verfahren –, beseitigt dieses ständig präsente Problem. Sehr große Aktionsflächen, die sich über Hunderte von Metern erstrecken, müssen mit verteilten Netzwerken von Empfangsantennen abgedeckt werden. Multikanalsysteme für eine Bühne mit ca. 16 bis 120 Funkmikrofonen können mit Antennenverteilern so aufgebaut werden, dass alle Empfänger ihre Signale aus zwei Antennen beziehen.
Abb. 4/47. Beispiel für den Pegelverlauf einer 16-Kanal-Anlage mit Verteilernetzwerk zum Empfang aus mehreren Räumen. Für den unabdingbaren Diversity-Empfang ist die Verteilung doppelt aufzubauen.
167
Schallwandler Abb. 4/47 zeigt als Beispiel eine 16-Kanal-Anlage mit Verteilernetzwerk zum Empfang aus mehreren Räumen. Gerechnet wurde mit 800 MHz Betriebsfrequenz, die Kabeldämpfung nimmt mit der Frequenz zu. Jeder Doppelempfänger hat zwei Zweifach-Verteiler eingebaut, deren 4 dB Dämpfung mitkalkuliert werden muss. Die Verteilung wird wegen des DiversityEmpfangsverfahrens zweimal gleichartig aufgebaut. Bei kaskadierten Verstärkern muss eine ausreichende Dämpfung zwischen dem Ausgang des ersten und dem Eingang des zweiten Verstärkers gegeben sein, damit der nachfolgende Verstärker nicht übersteuert wird. Auch muss sichergestellt sein, dass die Spannungsversorgung vom zweiten an den ersten Verstärker durchgereicht wird (DC-Feed).
4.3.3
Empfänger
Die HF-Eingangspegel am Empfänger sind großen Schwankungen unterworfen, wenn der Sender bewegt wird. 5 :V ist der kleinste Wert, der einen noch brauchbaren Störpegelabstand liefert, bei geringerer Spannung schaltet meist eine Rauschsperre –Squelch genannt - den NF-Ausgang ab. Nach oben findet man Werte bis 150 000 :V bzw. 0,15 V, die bei zu geringen räumlichen Abstand zwischen Sender und Empfangsantenne auftreten können, wobei das Risiko für Intermodulationsstörungen bei Vielkanalbetrieb erhöht wird, besonders wenn gleichzeitig andere Empfänger des Systems mit geringen Pegeln auskommen müssen. Die Übertragungssicherheit wächst, wenn extreme Werte vermieden werden. Die Antennenstandorte sind stets so zu wählen, dass kein Akteur sich ihnen weniger als ca. 4 m nähern kann. Der menschliche Körper verursacht ca. 20 dB Durchdringungsdämpfung, deshalb sollten Antennen möglichst in geeigneter Höhe angebracht werden.
Abb. 4/48. Messung der Intermodulationsstörungen.
Im Mittel soll ein Bereich von ca. 100 :V bis 2000 :V Eingangsspannung nicht verlassen werden. Bei Vielkanalbetrieb sind große Unterschiede zwischen den empfangenen Pegeln die Hauptursache für Intermodulationstörungen. Den täglichen Routineanforderungen auf der Bühne im Studio oder in der Außenübertragung werden Geräte mit hohem Intermodulationsabstand am Besten gerecht. Werte ab 60 dB sind im professionellen Einsatz akzeptabel, hochwertige Empfänger erreichen ca. 86 dB. Die Messung des Intermodulationsabstands IMA des Empfängers zeigt Abb. 4/48. Dafür wird der Pegel des Senders soweit erhöht, bis der Empfänger die Signale nicht mehr tolerieren kann 168
Einrichtungen für drahtlose Mikrofone und Intermodulationsstörungen einsetzen. Erreicht der Pegel von des Intermodulationsabstands 3. Ordnung IM3 1 :V, wird dieser mit den Pegeln p1 und p2 von Sender 1 und 2 mit den Trägerfrequenzen f1 und f2 in Beziehung gesetzt. Z. B. sei p1 und p2 = 2000 :V, dann beträgt der Intermodulationsabstand 2000:1 = 2000 entsprechend 66 dB. 4.3.3.1
Diversity-Empfang
Die elektromagnetischen Wellen werden an metallischen Gegenständen und Strukturen reflektiert, sie erreichen die Empfangsantennen deshalb auf unterschiedlich langen Wegen mit allen möglichen Phasendifferenzen. Die sich überlagernden Reflexionen lassen an der Empfangsantenne durch gegenphasig eintreffende Signale Auslöschungen entstehen. Das sog. True Diversity-Verfahren kann diese Störungen beheben. Dabei werden zwei gleich aufgebaute Empfänger mit jeweils eigenen Antennen ständig hinsichtlich der HF-Eingangsspannung verglichen. Ein schneller Schalter schaltet das jeweils stärker einfallende Signal auf, er kann bis ca. 1000-mal pro Sekunde unhörbar wechseln (Abb. 4/49). Aus Kostengründen eingesetzte Diversity-Verfahren mit nur einem Empfänger und zwei Antennen mit logischem Umschaltverfahren sind dem True Diversity in der Übertragungssicherheit unterlegen.
Abb. 4/49. True-Diversity-Empfang.
Der Abstand zwischen den Antennen für True-Diversity beträgt für den besten Nutzen minimal ¼ Wellenlänge. Bei weitläufigen Aktionsflächen können größere Abstände nützlich sein, um Abschattungsrisiken zu verringern. Der elektromagnetischen Verträglichkeit (EMV) kommt eine ständig wachsende Bedeutung zu. Auf der Bühne, im Studio oder an beliebigen Orten der Außenübertragung trifft der Anwender auf eine hohe Zahl digital arbeitender Hochfrequenzquellen mit starken Störsignalen, die sich besonders in den Empfängern der Funkmikrofone bemerkbar machen. DVB-T, DVB-H, Fernsehsignalgemische und Licht-Wände, die aus Millionen getakteter Leds bestehen mit breitbandigen Störspektren, erfordern sorgfältige Vorbereitung auf den Einsatz. Freie Frequenzen findet der Betreiber vor Ort am einfachsten durch die Abtastfunktion (Scanmode) der Empfänger. Alle Parameter von Multikanalsystemen werden zur besseren Übersichtlichkeit auf einem Rechnerbildschirm zusammengefasst und ggf. ferngesteuert. Mit der Einbindung in Rechnernetzwerke können die Anzeigeparameter wie Aussteuerung, HF-Pegel, Senderbatteriezustand, Diversity-Umschaltung, aufgezeichnet und gleichzeitig an 169
Schallwandler vielen Orten überprüft werden (Inspizientenpult, Backstage, Tonregie, Tonassistenz etc.), was die Betriebssicherheit erheblich verbessert; bis zu 50 Funkmikrofone können so auf einem Bildschirm überwacht werden.
4.4
Lautsprecher
Lautsprecher sind elektroakustische Wandler, die elektrische Schwingungen in akustische Wellen, also in Luftschall umwandeln. Mit Lautsprecher kann sowohl ein einzelnes Lautsprechersystem als auch eine Kombination mehrerer Lautsprechersysteme in einem gemeinsamen Gehäuse gemeint sein; i. Allg. sind Anordnungen zur Schallwiedergabe nur zusammen mit akustischen Schallführungen (Schallwänden, Boxen, Trichtern) qualitativ befriedigend realisierbar. Entsprechend dem Wandlerprinzip unterscheidet man zwischen elektrodynamischen oder dynamischen Lautsprechern - dem wichtigsten Lautsprecherprinzip -, elektrostatischen Lautsprechern, piezoelektrischen und magnetischen Lautsprechern; die beiden letztgenannten Wandlerprinzipien haben in der Tonstudiotechnik keine Bedeutung. [4.13 bis 4.15] Außer nach dem Wandlerprinzip können Lautsprechersysteme auch nach ihrem Übertragungsbereich unterschieden werden: Breitbandlautsprecher, Tieftonlautsprecher, Hochtonlautsprecher und Mitteltonlautsprecher, die jeweils ihre konstruktiven Besonderheiten haben. Schließlich bestimmt der Einsatzbereich eines Lautsprechers auch seine Abstrahlcharakteristik (Kugellautsprecher, Schallzeile), seine Leistung und elektroakustische Qualität (Studio- oder Monitorlautsprecher, Kommandolautsprecher, Beschallungslautsprecher u. a.). Eine weitere Unterscheidung bezieht sich auf den Antrieb der den Schall abstrahlenden Membran: Üblich bei dynamischen Lautsprechern ist der zentrale Antrieb, der auf eine steife oder elastische (Biegewellenlautsprecher) Membran einwirkt; durch auf eine Fläche verteilte Antriebselemente kann aber auch eine Platte oder Folie als Flächenstrahler zum Schwingen gebracht werden, z. B. beim elektrostatischen Lautsprecher. In diesem Kapitel werden die richtungsabhängige Schallabstrahlung, die Richtcharakteristik nicht behandelt, es wird hierfür verwiesen auf Kap. 10.7.1.3 sowie auf die Kap. 9.3.1.6 und 18.6.1.5.
4.4.1
Bauformen von Lautsprechern
4.4.1.1
Dynamische Lautsprecher
Dynamische Lautsprecher mit Schwingspule sind seit einigen Jahrzehnten die am weitesten verbreiteten Wandler zur Wiedergabe von Musik und Sprache. Mit ihnen lassen sich im Gegensatz zu anderen Systemen verhältnismäßig einfach und wirtschaftlich große Schallpegel breitbandig bei relativ geringen Verzerrungen erzeugen. Der Wirkungsgrad von breitbandigen dynamischen Lautsprechern ist allerdings gering; er liegt bei wenigen Prozenten, nur als Druckkammersystem kann er sich auf 10 % oder mehr erhöhen. In seiner Wirkungsweise beruhen dynamische Lautsprecher auf der Kraftwirkung, die ein von Strom durchflossener Leiter im Magnetfeld eines Dauermagneten erfährt. Diese Kraftwirkung 170
Lautsprecher wird zur Anregung von Membranen oder anderen zur Schallabstrahlung geeigneten Systemen genutzt. Zur Gruppe der dynamischen Lautsprecher gehören die Konus-, Kalotten-, Druckkammer- und Bändchenlautsprecher sowie verschiedene Flachmembranlautsprecher. Der dynamische Lautsprecher arbeitet wie ein dynamisches Mikrofon, aber in umgekehrter Richtung. Konuslautsprecher Abb. 4/50 zeigt den Querschnitt durch einen Konuslautsprecher, der seinen Namen der konisch geformten Membran (10) verdankt. Die konische Form gibt der Membran die erforderliche Steifigkeit. Der Topfmagnet besteht aus dem Permanentmagneten (1), dem Joch (2), der Polplatte (3) und dem Polkern (4). Im Luftspalt, gebildet durch Polkern und Polplatte, befindet sich die auf den Schwingspulenträger (5) gewickelte Schwingspule (6), die von dem tonfrequenten Wechselstrom durchflossen wird. Hierdurch wird in der Spule ein magnetisches Wechselfeld erzeugt, das im Zusammenwirken mit dem permanenten Gleichfeld im Luftspalt eine Bewegung der Schwingspule analog der Wechselspannung in Pfeilrichtung zur Folge hat. Die Schwingspule wird durch die Zentriermembran (7), eine radial steife, axial jedoch sehr weiche und nachgiebige Federmembran, geführt und in der Ruhelage gehalten. Die meist aus dünnem Pappguss, teils aus Kunststoffen oder Aluminium, auch in Sandwichbauweise geformte Membran (10) ist mit dem Schwingspulenträger fest verbunden und am äußeren Rand über konzentrisch verlaufende Sicken (11) oder über einen weichen Balg aus hochelastischem Material im Lautsprecherkorb (13), der mit großen Durchbrüchen versehen ist, eingespannt. Eine Kalotte zum Staubschutz (8) und der Schutzring (9) verhindern das Eindringen von Fremdkörpern in den Luftspalt. Über die sehr weichen Litzen (12) wird der Wechselstrom der Schwingspule zugeführt.
Abb. 4/50. Dynamischer Lautsprecher als Konuslautsprecher. 1 Permanentmagnet, 2 Joch, 3 Polplatte, 4 Polkern, 5 Schwingspulenträger, 6 Schwingspule, 7 Zentriermembran, 8 Kalotte als Staubschutz, 9 Schutzring, 10 Membran, 11 Membraneinspannung mit Sicken oder Scharnier, 12 Zuführungslitzen, 13 Lautsprecherkorb.
Konuslautsprecher eigenen sich als Tief- und Mitteltöner sowie als Breitbandlautsprecher. Der Frequenzbereich des abgestrahlten Schalls ist nach tiefen Frequenzen hin durch die Resonanzfrequenz der wie ein Kolben schwingenden Membran begrenzt. Man legt daher diese 171
Schallwandler Resonanzfrequenz, die sog. Eigenresonanz des Lautsprechers, an das untere Ende des Übertragungsbereichs, erreicht wird das u. a. durch eine sehr weiche Membraneinspannung. Bei mittleren und höheren Frequenzen schwingt die Membran nicht mehr in ihrer Gesamtheit. Die Schwingspule regt vielmehr konzentrische Biegeschwingungen an, die vom Membranrand teilweise reflektiert werden, und so bildet sich eine komplizierte Schwingungsverteilung aus. Dabei entstehen kreisförmige Knotenlinien zwischen ringförmig schwingenden Zonen. Dies wirkt sich ungünstig auf den Frequenzgang bzw. auf die Richtcharakteristik aus. Bei sehr hohen Frequenzen schwingt praktisch nur noch die innerste Membranzone. Man begünstigt dies durch eine zum Rand hin dünner werdende Membran oder durch eine spezielle Formgebung („Nawimembran" = nicht abwickelbare Membran), um die sonst mit der Frequenz zunehmende Schallbündelung bei Breitbandlautsprechern zu reduzieren. Kalottenlautsprecher Der Kalottenlautsprecher ist im Wesentlichen ein Konuslautsprecher ohne Korb und Konusmembran, der Schall wird nur über die Kalotte abgestrahlt (Abb. 4/51). Die Kalotte mit angepressten Sicken (7) ist aus einem hinreichend steifen Material mit hoher innerer Dämpfung hergestellt. Ihr Durchmesser ist in den meisten Fällen kleiner als die zu übertragende Wellenlänge.
Abb. 4/51. Dynamischer Lautsprecher als Kalottenlautsprecher. 1 Ringmagnet, 2 Magnetplatte, 3 Polplatte, 4 Polkern, 5 Schwingspule, 6 Schwingspulenträger, 7 Kalotte mit Sicken, 8 Montageplatte, 9 Zuführungslitze
Die Kalotte schwingt im gesamten Übertragungsbereich kolbenförmig, Partialschwingungen der Kalotte treten praktisch nicht auf. Die Abstrahlung erfolgt in einem breiten Winkelbereich gleichmäßig und gleichphasig. Kalottenlautsprecher werden deshalb bevorzugt als Hochtonlautsprecher bei einem Kalottendurchmesser von etwa 20 bis 25 mm eingesetzt. Aber auch für den Mitteltonbereich bis hinunter zu 400 Hz eignen sich Kalottenlautsprecher mit etwa 60 mm Kalottendurchmesser. Wegen der relativ kleinen Abmessungen der schwingenden Membran und der großen Luftspaltlänge sind besonders starke Permanentmagnete zur Erzeugung einer großen Luftspaltinduktion notwendig, um einen den Konuslautsprechern entsprechenden Wirkungsgrad zu erzielen. Kalottenlautsprecher sind auch Bestandteil von Hornlautsprechern. Hornlautsprecher Ein Kalottenlautsprecher, der über einen genau definierten, im Querschnitt zunehmenden Schalltrichter an den umgebenden Raum angekoppelt ist, ist ein Hornlautsprecher oder Horn. Diese Form der Schallabstrahlung nutzen Blechblasinstrumente, die ersten Grammophone, 172
Lautsprecher Megafone, u. a. Das akustische Prinzip ist das eines Impedanzwandlers, der die hohe akustische Impedanz des Lautsprechersystems an die niedrige Impedanz eines Raums anpasst und damit neben anderen Effekten durch Leistungsanpassung den Wirkungsgrad etwa verzehnfacht; der Wirkungsgrad wird durch den Kennschalldruckpegel angegeben, das ist der Schalldruckpegel in 1 m Entfernung bei 1 W zugeführter Leistung, er liegt bei Hörnern also rund 10 dB höher. Das Horn transformiert eine kleinere Fläche, die mit größerer Amplitude schwingt, in eine größere Fläche, die mit kleinerer Amplitude schwingt (Abb. 4/52). Die effektivste Form des Trichters ist das Exponentialhorn, eine Schallführung (siehe dazu Kap. 4.4.1.3), deren Querschnittsflächen pro Längeneinheit um einen konstanten Prozentsatz zunehmen. Dies ergibt einen Querschnitt entsprechend einer Exponentialfunktion. Diese Anordnung stellt einen akustischen Hochpass dar mit großer Flankensteilheit; seine untere Grenzfrequenz sinkt mit größer werdender Trichteröffnung. Das bedeutet, dass für tiefe Frequenzen sehr ausgedehnte Hörner notwendig sind, die in Studios und Wohnräumen nicht realisierbar sind; hier können nur Hochtonsystem verwendet werden. Mehrere nebeneinander angeordnete Hörner, wie sie bei großen Beschallungen verwendet werden, haben dieselbe Wirkung wie ein einzelnes Horn gleicher Gesamtgröße. Die Aufstellung in einer Raumecke verbessert die Wiedergabe tiefer Frequenzen erheblich. Bei rechteckigen Querschnitten kann das Horn mit akzeptablen Einschränkungen der Klangqualität zu einem "Falthorn" werden, das in einem Gehäuse Platz findet. Eine Variante ist der Druckkammerlautsprecher, der zwischen einer großen Kalottenlautsprechermembran und dem Horn eine kleine Druckkammer besitzt, die den Wirkungsgrad nochmals erhöht; dieser Lautsprecher eignet sich besonders für Alarm, Kommandos und Ansagen.
Abb. 4.52. Hornlautsprecher, hier in der Ausführung als Druckkammerlautsprecher, 1. Membran des Kalottenlautsprechers, 2. Druckkammer, 3. Trichterhals, 4. Schalltrichter.
Ein großer Vorteil des Hornprinzips ist, dass die Lautsprechermembran infolge der Impedanztransformation sehr viel stärker belastet wird und deshalb weniger weit ausschwingt. Somit produziert das Hornsystem geringere lineare Verzerrungen und - ein besonderer Vorteil wesentlich geringere Intermodulationsverzerrungen. Die systembedingte starke Schallbündelung und Richtwirkung spielt v. a. dort eine Rolle, wo Schall gezielt abgestrahlt werden soll und/oder wo bestimmte Flächen nicht oder nur gering beschallt werden sollen. Bei der professionellen Beschallung großer Flächen von Stadien oder Sälen sind Hornlautsprecher unverzichtbar; breitbandige Hörner werden auch als Musikhörner bezeichnet. 4.4.1.2
Elektrostatische Lautsprecher
Bei elektrostatischen Lautsprechern wird die Kraftwirkung, die elektrisch entgegengesetzt geladene Platten oder Membranen aufeinander ausüben, für die Wandlung von elektrischen Schwingungen in Schallwellen benutzt. Elektrostatische Lautsprecher stellen also im Prinzip 173
Schallwandler Kondensatoren dar. Die einzige realisierbare Anordnung besteht aus zwei festen Gitterelektroden (Statoren) und einer beweglichen Membran dazwischen (Abb. 4/52). Die Kraft, die auf die bewegliche Elektrode bzw. Membran ausgeübt wird, ist dem Quadrat der angelegten Spannung direkt und dem Quadrat des Elektrodenabstands umgekehrt proportional. Für den Betrieb ist eine relativ hohe Vorspannung von einigen kV Gleichspannung erforderlich. Der Abstand der Elektroden, der zur Vermeidung eines Aufschlagens der Membran relativ groß gewählt werden muss, fordert eine große Signalspannung bis zu einigen 100 V. Nur so ist eine ausreichende Kraftwirkung zu erzeugen. Die hohe Spannung kann durch einen Transformator oder Röhrenverstärker erzeugt werden. Da bei großen Amplituden die Abstände der Membran zu den Elektroden deutlich ungleich werden, entstehen dabei Verzerrungen.
Abb. 4/53. Prinzip des elektrostatischen Lautsprechers.
Für den Tieftonbereich ist der elektrostatische Lautsprecher wenig geeignet, was der aufwändigen Betriebsschaltung mit der hohen Vorspannung und dem begrenzten Membranausschlag im tieferen Frequenzbereich zuzuschreiben ist. Bereits im mittleren Frequenzbereich strahlt der Lautsprecher den Schall stark gebündelt ab, was bei der Stereowiedergabe zu sehr begrenzten Hörflächen, sog. sweet Spots, führt, was durch unterschiedliche Lösungen wie eine gebogene Anordnung oder eine Segmentierung und weitere Entwicklungen verbessert werden kann. Der Wirkungsgrad ist sehr gering; so werden für leistungsstarke Lautsprecher erhebliche Membrangrößen notwendig; es wurden Lautsprecher bis 2 m2 Membranfläche konstruiert. Ein weiteres Problem ist die bipolare Schallabstrahlung, also gleichzeitig nach vorn und hinten mit um 180/ verschobener Phase, was zu einem akustischen Kurzschluss besonders bei tieferen Frequenzen führt. Wegen der sehr leichten Membran zeigt der Lautsprecher aber ein ausgezeichnetes Impulsverhalten; er kann auch sehr hohe Frequenzen (bis 100 kHz) wiedergeben. Meist wird er mit einem Konuslautsprecher für die Bässe kombiniert. Generell konnte sich dieses Prinzip nicht in größerem Umfang durchsetzen, hat aber bei vielen Liebhabern als „Elektrostat“ einen gewissen legendären Ruf. 174
Lautsprecher 4.4.1.3
Akustischer Kurzschluss und Lautsprecherboxen
Bewegt sich die Membran eines Lautsprechers gemäß Abb. 4/54 in Pfeilrichtung, entsteht vor dem Lautsprecher eine Zone mit Überdruck, auf seiner Rückseite eine Zone mit Unterdruck. Ist der Membrandurchmesser klein gegen die Wellenlänge des abzustrahlenden Schalls, so gleichen sich die Zonen von Über- und Unterdruck über den Lautsprecherrand aus. Es ergibt sich ein sog. akustischer Kurzschluss; dadurch wird bei tiefen Frequenzen praktisch kein Schall mehr abgestrahlt.
Abb. 4/54. Akustischer Kurzschluss (a.) und seine Unterdrückung durch eine Schallwand (b.).
Zur Vermeidung dieses Kurzschlusses ist eine Schallführung erforderlich. In der einfachsten Form besteht sie aus einer Schallwand (b., 2), die bei ausreichender Größe den Druckausgleich verhindert. Die gebräuchlichsten Schallführungen sind hinten offene Gehäuse, die abgeknickte Schallwände darstellen, allseitig geschlossene Gehäuse (Studio- und HiFiLautsprecherboxen) und Hornlautsprecher (Exponentialtrichter und Druckkammerlautsprecher); zur Verbesserung der Abstrahlung tiefer Frequenzen werden Resonanzboxen oder Bassreflexboxen mit tief liegender Eigenresonanz und Boxen mit abgestimmter akustischer 8/4-Leitung (Transmission-Line-Box) verwendet. Wird ein Lautsprecher in eine sehr große Wand eingebaut, so sind die zwei Schallfelder auf beiden Membranseiten völlig getrennt; die abgestrahlte Leistung wird bis zur Grenzfrequenz f0 hinab nur von den Eigenschaften des Lautsprechers bestimmt. In der Praxis sind unendliche Schallwände nicht notwendig, da Frequenzen unter 30 Hz nicht abgestrahlt werden müssen. Bei einer Grenzfrequenz f0 von 30 Hz für die Schallabstrahlung sollte die Schallwand bei etwa mittigem Einbau des Lautsprechers eigentlich einen Durchmesser von 6 m haben. Unterhalb der Grenzfrequenz f0 fällt der Frequenzgang mit 6 dB/Oktave ab. Allgemein gilt für die Mindestgröße einer Schallwand:
d=
c 4f 0
f0 = Grenzfrequenz [Hz] c = Schallgeschwindigkeit = 340 m/s d = kürzester Abstand zwischen Lautsprecher und Schallwandkante [m]
Wird der Lautsprecher nicht genau in die Mitte einer Schallwand eingebaut, so verteilen sich die Frequenzgangeinbrüche durch akustischen Kurzschluss. Der Tiefenabfall von 6 dB/Oktave bei nicht ausreichend großer Schallwand kann teilweise durch höhere Lautsprecherleistung in diesem Frequenzbereich ausgeglichen werden. Die Eigenresonanz des Lautsprechers soll 175
Schallwandler dabei möglichst tief liegen. Unterhalb der Lautsprechereigenresonanz fällt der Pegel zusätzlich mit 12 dB/Oktave ab. Für Studiolautsprecher und HiFi-Lautsprecher werden geschlossene Lautsprecherboxen verwendet. Bei ihnen wird das vom Lautsprecher nach hinten abgestrahlte Schallfeld durch absorbierendes Material vernichtet, akustischer Kurzschluss ist ausgeschlossen. Dafür müssen Gehäuseresonanzen sowie die durch die erhöhte Rückstellkraft des eingeschlossenen Luftvolumens heraufgesetzte Lautsprecherresonanz bedämpft werden. Das zu übertragende Frequenzband wird bei Studiolautsprechern und qualitativ anspruchsvolleren Lautsprecherboxen für den Heimtonbereich auf zwei (Zweiwegebox) oder drei Lautsprecher (Dreiwegebox) aufgeteilt. Damit sind die folgenden Vorteile verbunden: Es können Lautsprechersysteme verwendet werden, die in ihrem Frequenzgang, Wirkungsgrad und Schallbündelungsverhalten auf ein bestimmtes Frequenzband optimiert sind; weiterhin können Klangrauhigkeiten und Intermodulationsverzerrungen dadurch wesentlich minimiert werden. Diese Übertragungsfehler kommen in einem Breitbandlautsprecher dadurch zustande, dass hohe und tiefe Frequenzen gleichzeitig von demselben Lautsprechersystem abgestrahlt werden. Zur Abstrahlung der höheren Frequenz bewegt sich die Membran mit kleiner Amplitude, zur Abstrahlung der tieferen Frequenz mit größerer Amplitude; die Gesamtbewegung ist derjenigen einer angeschlagenen Glocke ähnlich. Durch den Dopplereffekt wird die höhere Schwingung frequenzmoduliert, der höhere Ton wirkt rau, es entstehen Intermodulationsverzerrungen, die sehr störend wirken können, da Summen- und Differenztöne der Frequenzkomponenten entstehen. Bei Studio- oder Regielautsprechern werden mehrere Lautsprechersysteme kombiniert, ein Tieftöner, ein Mitteltöner und ein oder zwei Hochtöner. Die für die einzelnen Lautsprecher vorgesehenen Frequenzbänder werden bei Studiolautsprechern elektronisch ausgefiltert, verstärkt und den Lautsprechersystemen zugeführt. Der Lautsprechereingang ist für 6 dBu ausgelegt. Lautsprecherboxen mit integrierten Verstärkern und Frequenzweichen benötigen eine eigene Stromversorgung, sie werden als Aktivboxen bezeichnet. 4.4.1.4
Regielautsprecher
Regielautsprecher, auch Studiolautsprecher, Studiomonitore o. ä. genannt, sind StudioAbhöreinrichtungen, die aus Lautsprechersystemen in einem Gehäuse einschließlich Verstärkern und Frequenzweichen bestehen und höchste Qualitätsanforderungen erfüllen, insbesondere bezüglich des Frequenzgangs, der Richtcharakteristik, nichtlinearer Verzerrungen u. a. Sie sollten stets den neuesten Stand der Entwicklung repräsentieren. Zur rein messtechnischen Bewertung kommt bei Lautsprechern wie bei Mikrofonen stets auch eine subjektive Bewertung, in die die komplexen messbaren und nicht messbaren Eigenschaften eingehen. Die Anforderungen an Regielautsprecher sind in internationalen Empfehlungen erfasst, siehe dazu Kap. 18.6. Monitorlautsprecher werden auch Beschallungslautsprecher für die Bühnenbeschallung genannt, an die solche Anforderungen nicht gestellt werden. Für eine hohen Anforderungen entsprechende Abhörsituation genügt es allerdings nicht, die Eigenschaften der Lautsprecher zu definieren, ebenso muss die akustische Umgebung hohen Anforderungen genügen, insbesondere der Abhörraum und seine geometrischen und akustischen Eigenschaften, die Aufstellung der Lautsprecher, der Abhörpegel und weitere Parameter, Details hierzu siehe Kap. 18.6. Besondere Aufmerksamkeit hinsichtlich der Anordnung 176
Kopfhörer der Lautsprecher erfordert die Abhörsituation bei Mehrkanalstereofonie, siehe dazu Kap. 5.4.1.
4.5
Kopfhörer
Für die Kontrolle bei Aufnahmen und Übertragungen sind Kopfhörer im Tonstudiobereich verhältnismäßig selten in Verwendung, Ausnahmen sind akustisch ungeeignete, lärmerfüllte Abhörsituationen bei Außenaufnahmen mit ungeeigneten Abhörräumen; bei Musikgruppen, die mit Verstärkeranlagen arbeiten, und im Consumerbereich haben sie dagegen weite Verbreitung gefunden. Hinsichtlich ihrer elektroakustischen Eigenschaften stehen gute Kopfhörer Studiolautsprechern nicht nach; hohe Qualität ist bei Kopfhörern mit vergleichsweise geringem Aufwand realisierbar. Ein weiterer Vorteil ist die vollständige Unabhängigkeit beim Abhören von den Eigenschaften des Wiedergaberaums; damit sind einheitliche Abhörsituationen praktisch nur mit Kopfhörern realisierbar, im Gegensatz zu Lautsprecherwiedergabe auch gleichzeitig für viele Zuhörer. Da hohe Lautstärken problemlos dargeboten werden können, kann eine große Dynamik verwirklicht und auch adäquat gehört werden. Schließlich wird das Hörerlebnis mit Kopfhörern als besonders intensiv empfunden. Zu den Abhörbedingungen im professionellen Bereich siehe Kap. 18.6. Diesen Vorteilen stehen eine Reihe von Nachteilen gegenüber, die den Gebrauch im Tonstudio erheblich einschränken: Der Höreindruck bei Kopfhörerwiedergabe unterscheidet sich grundsätzlich von dem bei Lautsprecherwiedergabe. Wird nämlich beiden Ohrhörsystemen dasselbe Signal zugeführt – dies entspricht einem Mono- oder Stereomittensignal - nimmt der Zuhörer bei Kopfhörerwiedergabe den Ort der Schallquelle in der Mitte des Kopfes wahr, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei Lautsprecherwiedergabe hingegen wird die Schallquelle im Lautsprecher bzw. bei zweikanaliger Wiedergabe etwas erhoben in der Mitte zwischen den Lautsprechern, also vor dem Zuhörer, lokalisiert, bei Pegel- und/oder Laufzeitdifferenzen seitlich verschoben. Bei reiner Intensitätsstereofonie und Kopfhörerwiedergabe werden die Seitenschallquellen unnatürlich dicht an den beiden Ohren gehört. Da ein Kopfhörer im Prinzip ein Kleinlautsprecher ist, entsprechen seine Wandlerprinzipien und ihre elektroakustischen Eigenschaften denen eines Lautsprechers (siehe oben Kap. 4.4). Genormte Anforderungen gibt es nur für den Heimtonbereich (DIN 45 500, Teil 10). Die darin genannten Mindestanforderungen an die Übertragungskurve sehen relativ weite Toleranzen vor, so dass sich Kopfhörer von Typ zu Typ deutlich unterscheiden können; die Hersteller bieten Kopfhörer für bestimmte Anwendungsbereiche oder Musiksegmente an, was unter dem Gesichtspunkt der Qualität nur sehr bedingt sinnvoll ist. Diese Tatsache problematisiert die Verwendung beliebiger Kopfhörer zur Qualitätskontrolle im Tonstudio außerordentlich. Daher sind für den professionellen Gebrauch vom IRT (Institut für Rundfunktechnik, München) Richtlinien für hochwertige Studio-Kopfhörer mit engen Toleranzen und von der DIN abweichendem Frequenzgang herausgegeben worden. Es ist relativ einfach, mit Kopfhörern dieselben Qualitätskriterien bezüglich Lautstärke, Übertragungsbereich und Verzerrungen wie mit Lautsprechern zu erreichen. Die Problematik liegt im Frequenzgang des Übertragungsmaßes und der dabei zulässigen Toleranzen, aber auch in der Messmethode. 177
Schallwandler Kopfbezogene binaurale Übertragung ist ein Tonübertragungssystem, das aufnahmeseitig mit einem Kunstkopf – deshalb auch Kunstkopf-Verfahren genannt – und wiedergabeseitig mit speziellen, sog. diffusfeldentzerrten Kopfhörern arbeitet. Bei diesem eigenständigen, qualitativ hervorragenden Verfahren können ausschließlich Kopfhörer zum Einsatz kommen. Das Verfahren wird in Kap. 5.2.5 beschrieben. Kap. 5.6 geht auf die besonderen akustischen Eigenschaften, insbesondere auf den Frequenzgang der Kopfhörer ein, der nicht linear sein kann, sondern wegen der akustischen Ausschaltung des Außenohrs in spezifischer Weise gestaltet werden muss. Maßgeblich hierfür ist das Aufnahme- und Übertragungsverfahren.
4.5.1
Bauformen von Kopfhörern
Ein Kopfhörer besteht aus zwei elektroakustischen Wandlern, verbunden mit einem zur Anpassung an die individuelle Kopfform verstellbaren Kopfbügel. Die Anordnung wird durch leichtes Anklemmen am Kopf des Zuhörers gehalten. Da es auch spezielle Ausführungen mit nur einem Hörer gibt, wird die beschriebene Bauform normgemäß (DIN 45 580) und exakt als „Doppelkopfhörer“ bezeichnet. Als Wandlersysteme finden magnetische und elektrostatische, meist aber elektrodynamische Wandler Verwendung. Man unterscheidet zwischen offenen, sog. „supra-auralen“ und geschlossenen, sog. „circumauralen“ Kopfhörern. Bei den offenen oder halboffenen Hörern liegen die Wandler auf den Ohrmuscheln auf, oder die Wandler werden durch sog. Ohrkissen, einer akustisch voll durchlässigen Schaumstoffzwischenlage, in definiertem Abstand zu den Ohrmuscheln gehalten. Der Benutzer offener Kopfhörer ist gegen Schall aus dem umgebenden Raum nur wenig abgeschirmt; erst oberhalb 5 kHz wird Fremdschall um etwa 10 dB bedämpft. Der geschlossene Kopfhörer umschließt das gesamte äußere Ohr mit einem kalottenförmigen Gehäuse, das über einem weichen Dichtungsrand am Kopfbein anliegt. Es wird daher kein Druck auf die Ohrmuscheln ausgeübt. Die typische Schalldämmung geschlossener Kopfhörer gegen Außengeräusche steigt von etwa 5 dB bei 100 Hz auf 40 dB bei 10 kHz. Beim geschlossenen Kopfhörer sind die Wandler sehr definiert über ein vorgegebenes Volumen an das Ohr angekoppelt, während beim offenen Hörer die Systeme mehr oder weniger frei abstrahlen. Durch Anpressen der Wandler gegen die Ohrmuscheln wird beim offenen Hörer der Bereich tiefer Frequenzen stärker wiedergegeben. Geschlossene Kopfhörer verhindern den akustischen Kurzschluss, der bei offenen Hörern durch aufwändigere Konstruktionen ausgeglichen werden muss. Eine Sonderform ist der Ohrhörer, ein „Im-Ohr-Kopfhörer“. Das Wandlersystem wird hier in eine Silikon- oder Schaumstoff-Ohrplastik (Otoplastik) eingearbeitet, es wird in den Gehörgang eingeschoben und sollte bei professioneller Verwendung individuell angepasst werden. Das In-ear-Monitoring (IEM), wie das Abhören mit solchen Hörern bezeichnet wird, wird in jüngster Zeit zunehmend an Stelle konventioneller Kopfhörer bei der der Beschallung der Musiker v. a. bei Live-Beschallungen eingesetzt. In Verbindung mit drahtlosen Übertragungssystemen bietet es große Vorteile im praktischen Betrieb (siehe nachfolgend Kap. 4.5.3). Die weiteste Verbreitung als Wandler bei Kopfhörern haben die dynamischen Systeme gefunden. Ihre Wirkungsweise entspricht derjenigen von dynamischen Konus- bzw. Kalottenlautsprechern. Sie zeichnen sich durch gute Übertragungseigenschaften aus. Mit sehr kleinen 178
Kopfhörer elektrischen Leistungen lassen sich große Lautstärken bei geringen Verzerrungen erzeugen; bereits mit 1 mW elektrischer Leistung kann ein Schalldruck von 1 Pa bzw. 94 dBSPL am Ohr erreicht werden.Elektrostatische Kopfhörersysteme arbeiten nach dem gleichen Prinzip wie elektrostatische Lautsprecher (siehe Kap. 4.3.1). Die Übertragungseigenschaften sind ausgezeichnet. Jedoch erfordert die Bereitstellung der notwendigen Kondensatorvorspannung von mehreren hundert Volt, die auch z. B. aus dem niederfrequenten Nutzsignal gewonnen werden kann, gegenüber den anderen Systemen einen erheblich größeren technischen Aufwand und führt damit auch zu höheren Kosten, so dass dieses Prinzip nur bei Kopfhörern seltener anzutreffen ist.
4.5.2
Einrichtungen für drahtlose Kopfhörer
Akteure auf der Bühne, auf dem Catwalk oder Backstage, aber v. a. Musiker und Sänger brauchen für das musikalische Zusammenwirken mit ihren Partnern bei hohen Anforderungen an ihre Mobilität eine spezielle Abmischung, den Monitoringmix, vom Mischpult. Dies kann über Monitorlautsprecher auf der Bühne realisiert werden, drahtlos in Stereo auf Kopfhörer oder weitgehend unsichtbar direkt über Ohrhörer in das Ohr. Für die Akteure bei Film, Funk und Fernsehen ist diese Kommunikationsmethode seit vielen Jahrzehnten als "Rückkanal", "Talkback" oder auch "Reportercue" in Mono und für nur ein Ohr im Einsatz. In vielen Musikgenres v. a. bei sich bewegenden Künstlern ist die zuverlässige Funktion der drahtlosen HF-Übertragung überhaupt Bedingung für die Qualität des Zusammenspiels. Diese Situation ist i. Allg. kritischer einzuschätzen als die der Funkmikrofone. Auf Bühnen wird heute die Beschallung mit Bühnen- oder Monitorlautsprechern, die oft schwierige Bedingungen für die Tontechnik und die Musiker darstellen, zunehmend durch das In-Ear-Monitoring (IEM) oder Wireless Monitoring ersetzt. Beim In-Ear-Monitoring ist vorteilhaft, dass im Gegensatz zu Bühnenlautsprechern keine Rückkopplungen auftreten und dass die Akteure ein konstantes, vom Standort auf der Bühne unabhängiges Hörbild erhalten, zudem ist ein In-Ear-Set, das neben den Ohrhörern aus einer Sendestation und einem am Körper zu tragendem Empfänger (Bodypack) besteht, wesentlich leichter zu transportieren und zu installieren ist als eine herkömmliche Monitoranlage. Nachteilig ist die Tatsache, dass der Klangeindruck bei Bewegung oder Drehung nicht entsprechend der Raumsituation mitgeht, was zu Orientierungsschwierigkeiten im Raum führen kann. Spielt das optische Auftreten der Künstler keine Rolle wie etwa bei Studioaufnahmen, so sind geschlossene Kopfhörer vorteilhafter. Vielfach wird gleichzeitig zum In-Ear-Monitoring-Empfänger am Körper in direkter Nähe ein Hand- oder Taschensender des drahtlosen Mikrofons betrieben, eine Situation, die durch das sog. Blocking gefährdet ist. Der IEM-Empfänger verliert an Empfindlichkeit, und eine akzeptable Qualität der Übertragung mit gutem Störabstand ist auf nur wenige Meter Entfernung zum Ear-Monitoring-Sender beschränkt. Die Durchführung der Messung des Blocking zeigt Abb. 4/55. Der unmodulierte 801 MHz-Sender wird im Pegel soweit angehoben, bis der Störabstand des Empfängers von ca. 20 dB bei dem geringen Nutzsignal des 800 MHzSenders von 1,5 :V auf 10 dB abgesunken ist. Das Pegelverhältnis der beiden Sender gibt den Wert für das Empfängerblocking an: 15 mV:1,5 :V = 10.000 entsprechend 80 dB.
179
Schallwandler Das Blocking wird durch einen Frequenzabstand zwischen Sender und Ear-MonitoringEmpfänger von mindestens 8 MHz weitgehend vermieden. Eine klare Trennung der Systeme gewährleistet sicheren Betrieb.
4/55. Messung des Blocking.
Für den mehrkanaligen Einsatz ist ein intermodulationsfreies Frequenzraster nach Herstellerempfehlungen zu verwenden. Die Sendeleistungen sind mit Antennencombinern zu entkoppeln. Nur beide Maßnahmen gemeinsam sichern den Betrieb ohne Intermodulationsstörungen, die als „Zwitschern“ und „Krachen“ in Erscheinung treten. Das In-Ear-Monitoring im Vielkanaleinsatz muss 200 kHz Sicherheitsabstand von Intermodulationsfrequenzen 3. Ordnung einhalten, d. h. die Packungsdichte im UHF-Band kann nicht so dicht sein wie bei Funkmikrofonen, die schon ab 50 kHz Abstand zu Intermodulationsprodukten sicher arbeiten. Beim Einsatz von mehr als zwei Kanälen entstehen leicht Intermodulationsstörungen, weil HF-Leistung in die Ausgangsstufen der Sender eindringt und neue Träger mit doppeltem Hub und Audiofrequenzverdopplung entstehen (Birdies). Antennen-Combiner verhindern diesen Effekt und sammeln alle angeschlossenen Sendesignale ohne Leistungseinbußen auf einen Antennenausgang. Der interne Leistungsverlust von 10 dB (90 %) beim Zusammenführen der Einzelsignale wird mit vorgeschalteten Verstärkern kompensiert. Diese sorgen auch dafür, dass keine Hf-Leistung rückwärts in die Nachbarsender fließt. Fremde Signale werden von den Sendern ferngehalten (Abb. 4/56).
Abb. 4/56. Funktionsweise des Antennen-Combiners.
180
Kopfhörer In-Ear-Monitoring-Systeme sind stereofon nach dem Verfahren des UKW-Rundfunks ausgelegt. Für denselben Störpegelabstand wie im Monobetrieb ist im Stereobetrieb ca. 20 dB mehr Antenneneingangspegel erforderlich. Bei nicht ausreichendem Störpegelabstand kann deshalb auch auf Monobetrieb umgeschaltet werden. Komplexe Vielkanalsysteme, die an wechselnden Einsatzorten betrieben werden, sind am einfachsten an wechselnde HF-Umfelder anzupassen, wenn die Parameter über spezielle Rechnersteuerungen wie auch die Funkmikrofone verwaltet werden.
Standards [DIN45405]
Störspannungsmessung in der Tontechnik
[DIN45500]
Tl. 1 Heimstudio-Technik (Hi-Fi); Allgemeines, Mindestanforderungen Tl. 5 -; Mindestanforderungen an Mikrofone Tl. 7 -; Mindestanforderungen an Lautsprecher
[DIN45 570]
Tl. 1 Lautsprecher; Begriffe, Formelzeichen, Einheiten Tl. 2 -; Systematische Einteilungen, Benennungen
[DIN45 571]
Kreisrunde und ovale Lautsprecherkörbe, Maße
[DIN45 580]
Kopfhörer; Begriffe, Formelzeichen, Einheiten
[DIN45 581]
Kopfhörer; Messbedingungen und Messverfahren für Typprüfungen
[DIN45 582]
Kopfhörer; Prüfung der Nennbelastbarkeit
[DIN45 590]
Mikrofone; Begriffe, Formelzeichen, Einheiten
[DIN45 591]
Entwurf Mikrofonprüfverfahren; Messbedingungen und Messverfahren für Typprüfungen
[DIN45 591]
Mikrofonprüfverfahren; Messbedingungen und Messverfahren für Typprüfungen
[DIN45 593]
Mikrofone; Angabe von Eigenschaften
[DIN45 594]
Mikrofone; Kennzeichen für austauschbare Mikrofone, Kontaktbelegung der Steckverbinder
[DIN45 595]
Anschluß von Transistormikrofonen mit Tonaderspeisung
[DIN45 596]
Mikrofone; Phantomspeisung
[DIN45 599]
Studiomikrofone; Kennzeichen für austauschbare Mikrofone, Kontaktbelegung der Steckverbinder
[DIN45 619]
Tl. 1 Kopfhörer; Bestimmung des Freifeld- Übertragungsmaßes durch Lautstärkevergleich mit einer fortschreitenden Welle Tl. 2 -; Bestimmung des Freifeld-Übertragungsmaßes durch Lautstärkevergleich mit einem Bezugs-Kopfhörer
181
Schallwandler [DIN IEC651]
Schallpegelmesser
[ITU-R BS 708] Determination of the electro-acoustical properties of studio monitor headphones [AES42-2001]
Digital interface for microphones
[AES42-2006]
Digital interface for microphones, revidierte Fassung
Literatur [4.1]
Zollner, M. und Zwicker, E.: Elektroakustik, 3. Aufl. Berlin 1998, Springer
[4.2]
Lerch, R., Sessler, G. und Dietrich Wolf, D.: Technische Akustik. Grundlagen und Anwendungen: Grundlagen Und Anwendungen, 2007, Springer
[4.3]
Möser, M.: Technische Akustik, 2007, Springer
[4.4]
Görne, Th.: Mikrofone in Theorie und Praxis, 2. Aufl. 2007, Elector-Verlag
[4.5]
Wuttke, J.: „Mikrofondaten und ihre Bedeutung in der Praxis", in: Bericht 12. Tonmeistertagung, 1981, Saur
[4.6]
Wuttke, J.: „Betriebsverhältnisse von Mikrofonen bei Wind und Popp“, in: Bericht 14. Tonmeistertagung, 1985, Saur
[4.7]
Wuttke, J.: „Wie universell kann ein Mikrofon sein“, in: Bericht 19. Tonmeistertagung, 1997, Saur
[4.8]
Wuttke, J.: „Kondensatormikrofone mit Kugelcharakteristik“, in: Bericht 13. Tonmeistertagung, 1985, Saur
[4.9]
Wuttke, J.: „Elektrische Betriebstechnik von Kondensatormikrofonen“, in: Mikrofonaufsätze Nr. 12, Firmenschrift Schoeps, 2. Aufl.
[4.10]
Wuttke, J.: „Die 48 V-Phantomspeisung und ihre Geister“, in: Mikrofon Spezial, Sonderheft Studio Magazin 1998
[4.11]
Peus, S.: „The digitally interfaced microphone“, preprint 110. AES-Convention Amsterdam 2001
[4.12]
Arasin, P. und Hoemberg, M.: Funkmikrofone und Wireless Monitoring, Grundlagen, unmittelbare Praxis-Tipps, 2007, Sennheiser-Firmenschrift
[4.13]
Stark, B.: Lautsprecher-Handbuch. Theorie und Praxis des Boxenbaus, 8. Aufl. 2003, Pflaum
[4.14]
D’Appolito, J.: Lautsprecher-Messtechnik. PC-gestützte Analyse analoger Systeme, 1999, Elektor-Verlag
[4.15]
Görne, Th. und Bergweiler, St.: Monitoring. Lautsprecher in Studio- und HiFiTechnik, 2004, ppV Medien
182
5
Tonaufnahme und Tonwiedergabe
Bis in die 1990er Jahre war es angemessen und üblich, die Verfahren der damals zweikanaligen Stereofonie getrennt von ihrer Wiedergabe über Lautsprecher oder Kopfhörer zu behandeln. Mit fortschreitender Entwicklung kamen jedoch neue Systeme der Tonübertragung hinzu, die die Frage einer systemgerechten Wiedergabe ganz eng an die Aufnahmetechnik gebunden haben, so dass sie in diesem Kapitel zusammengeführt werden. Zunächst wird ein Überblick über die grundsätzlich möglichen Verfahren der Tonübertragung gegeben (Kap. 5.1): die konventionelle Lautsprecherstereofonie in einem zweikanaligen oder mehrkanaligen System, die binaurale Aufnahme durch einen Kunstkopf und Wiedergabe mit Kopfhörern sowie die Reproduktion des Schallfelds mit der sog. Wellenfeldsynthese. Die Grundlagen der zwei- und mehrkanaligen Lautsprecherstereofonie als wichtigstes Verfahren werden in Kap. 5.2 behandelt, die Aufnahmetechnik für Zweikanal-Stereofonie in Kap. 5.3, für MehrkanalStereofonie in Kap. 5.4. Es folgen Überlegungen zur Gestaltung des Klangbilds bei Lautsprecherstereofonie (Kap. 5.5). Thema von Kap. 5.6 ist die heute hauptsächlich klangdokumentarisch eingesetzte Kunstkopfstereofonie, die die Frage der Eigenschaften von Kopfhörern aufwirft (Kap. 5.7). Den Abschluss bildet eine Einführung in die viel versprechende, aber in ihrer Entwicklung noch nicht abgeschlossene Wellenfeldsynthese (Kap. 5.8).
5.1
Prinzipien der räumlichen Tonübertragung
Bei der Tonwiedergabe gibt es für die Darstellung der räumlichen Eigenschaften von Schallquellen, also ihre Platzierung im Raum bezüglich Richtung, Entfernung und Ausdehnung, sowie die Darstellung des Raums und seiner Akustik drei grundsätzlich unterschiedliche Prinzipien: 1. Binaurale Reproduktion der Ohrsignale: Wiedergabe von Ohrsignalen aus dem Aufnahmeraum an den Ohren des Hörers, bekannt als Kunstkopfverfahren (siehe Kap. 5.1.1), 2. Lautsprecher-Stereofonie: Wiedergabe von Mikrofonsignalen aus dem Aufnahmeraum durch Lautsprecher, also die allgemein verbreitete Form der Tonwiedergabe (siehe Kap. 5.1.2), 3. Synthese des umgebenden Schallfelds bei der Wiedergabe, die sog. Wellenfeldsynthese (WFS), die neueste Entwicklung auf dem Gebiet der Tonaufnahme und -wiedergabe (siehe Kap. 5.1.3). Alle bekannten räumlichen Tonübertragungs- bzw. Tonwiedergabeverfahren lassen sich auf diese drei Methoden zurückführen oder stellen Mischformen daraus dar mit dem Ziel, bestimmte Vorteile einzelner Methoden - abhängig vom praktischen Anwendungsbereich – zu nutzen bzw. ihre Nachteile zu umgehen.
5.1.1
Binaurale Reproduktion der Ohrsignale
Die ursprüngliche Ausführung dieser Methode ist die bekannte Kunstkopfstereofonie. Dabei wird nicht versucht, am Wiedergabeort ein geeignetes Schallfeld zu reproduzieren, vielmehr 183
Tonaufnahme und Tonwiedergabe werden die Ohrsignale eines künstlichen Kopfs, eines Kunstkopfs, im Aufnahmeraum aufgenommen und – im Prinzip durch Kopfhörer – wiedergegeben. Im Idealfall sind die reproduzierten Kunstkopfsignale identisch mit den individuellen Ohrsignalen, die der Hörer im Aufnahmeraum am Ort des Kunstkopfs empfangen würde. Das virtuelle Hörereignis im Kopfhörer entspricht dem realen Schallereignis im Aufnahmeraum. Einzelheiten werden in den Kap. 5.6 und 5.7 behandelt. Für den praktischen Einsatz dieses Verfahrens gibt es leider gravierende Einschränkungen: - Die Reproduktion der Ohrsignale muss sehr genau erfolgen, Unterschiede des individuellen Außenohrs zum Kunstkopf-Außenohr verursachen bereits Beeinträchtigungen. Auch wirken Eingriffe wie Dynamikeinengung, Lautstärkeeinstellung und Störgeräusche, nachteilig auf die Wiedergabe ein. - Neuere Untersuchungen haben nachgewiesen, dass die Ohrsignale sogar fortlaufend an die momentane Kopfhaltung des Hörers angepasst werden müssten, man nennt das Headtracking, insbesondere um die korrekte Lokalisation in der senkrechten Ebene, der sog. Medianebene (siehe Kap. 3.4) sicherzustellen. [5.1]. - Die Reproduktion der Ohrsignale muss grundsätzlich über Kopfhörer erfolgen. Sog. Transauralisationsverfahren, die für die Lautsprecherwiedergabe vorher eine inverse Filterung der Übertragungsfunktion des Außenohrs durchführen, sind nicht genau genug und schränken die Hörzone auf wenige Zentimeter ein. - Eine künstlerische Gestaltung des Klangbilds ist praktisch nur in sehr engem Rahmen möglich. Das gilt für die klangliche und räumliche Balance der Instrumente ebenso wie für die Darstellung des Raums und der einhüllenden Atmosphäre. Die Abhängigkeit von den Gegebenheiten der Aufführung ist extrem groß und in den meisten Fällen unpraktikabel. - Ein gelungenes Klangbild für die Kopfhörerwiedergabe stellt die Abbildung eines Hörerplatzes im Aufnahmeraum, z. B. einem Konzertsaal, dar, bei Lautsprecherwiedergabe in einem Wohnraum wirkt es nicht optimal, es besteht eine mangelnde künstlerische Kompatibilität.
5.1.2
Lautsprecher-Stereofonie
Die Abbildung eines akustischen Geschehens durch Lautsprecher gewinnt mit der Stereotechnik an Durchsichtigkeit, Räumlichkeit und Klangfülle gegenüber der Abbildung mit Monotechnik. Mit Durchsichtigkeit wird die Möglichkeit, eine einzelne Schallquelle bzw. einzelne Schallquellen eines Klangkörpers getrennt zu lokalisieren und zu verfolgen, bezeichnet. Außerdem erweitert die Stereofonie die Möglichkeiten, Bewegungsabläufe bei Fernsehtonaufnahmen, Hörspielen und Musikaufnahmen akustisch abzubilden oder rein elektronisch in einer Nachbearbeitung zu erzeugen und Schallquellen mit den Mitteln der Tonregie in gewünschte Positionen zu bringen. Die Vermittlung der Raumillusion wird gegenüber der Monofonie entscheidend verbessert. Stereofonie - der Wortbedeutung nach „räumlicher Schall” - werden die Übertragungsverfahren genannt, die durch Verwendung von zwei und mehr Übertragungskanälen die räumliche Dimension des Klangbilds übertragen. Zu der räumlichen Dimension gehören die 184
Prinzipien der räumlichen Tonübertragung Positionen der Schallquellen im Raum; hierzu gehören auch ihre Ausdehnung und Entfernung. Zur räumlichen Dimension eines Klangbilds gehört auch die Richtungsverteilung der ersten Raumreflexionen und des Nachhalls. Stereofonie beruht im Prinzip auf den Gesetzmäßigkeiten der Lokalisation im überlagerten Schallfeld von zwei Lautsprechern. Die Richtungsdarstellung erfolgt in der Abbildungsebene zwischen zwei benachbarten Lautsprechern. Die Wahrnehmung des natürlichen Raumeindrucks und der räumlichen Tiefe ist mit der einfachen Zweikanalstereofonie, der sog. 2/0Stereofonie, nicht erreichbar, sondern nur eine perspektivische Darstellung, ähnlich der perspektivischen Darstellung in einem flächigen Bild [5.2]. Bei der sog. 3/2-Stereofonie – ein Verfahren mit drei frontalen und zwei seitlichen sog. Surround-Lautsprechern - kann mit Hilfe der seitlichen Lautsprecher, der Surround-Kanäle, die Abbildungsebene zwischen den frontalen Lautsprechern erweitert werden. Daraus ergeben sich Möglichkeiten für die Reproduktion des frühen Seitenschalls zur Darstellung der räumlichen Tiefe sowie des Nachhalls zur Darstellung des Raumeindrucks und der Umhüllung [5.3]. Eine besondere Einschränkung zeigt sich bei der 3/2-Stereofonie für die Darstellung der akustischen Nähe. Wie bei der konventionellen Zweikanal-Stereofonie ist es normalerweise nicht möglich, im Bereich zwischen dem Hörer und den Lautsprechern Hörereignisse abzubilden bzw. zu lokalisieren. Die Entfernung einer Phantomschallquelle zum Hörer kann nicht kleiner sein als die der beteiligten Lautsprecher. Aus diesem Grund ist die Darstellung einer sehr nahen akustischen Umgebung trotz sehr nah aufgestellter Mikrofone problematisch. Eine überzeugende akustische Einhüllung des Hörers ist oft schwierig und gelingt selten so überzeugend, wie das etwa mit der Kunstkopftechnik möglich ist, z. B. der Applaus in einem Konzertsaal. Ein weiterer Nachteil der Lautsprecherstereofonie betrifft die begrenzte Hörzone, die sich einerseits aus der geringen Richtungsstabilität der Phantomschallquelle ergibt – der Hörer darf den optimalen Hörplatz nicht verlassen -, andererseits aus der stark platzabhängigen Lautstärkebalance der Wiedergabekanäle. Die geringe Stabilität der Richtungsabbildung ist auf die platzabhängigen Laufzeitverschiebungen zurückzuführen. Verschiebungen der Lautstärkebalance machen sich für die Surround-Kanäle besonders schnell bemerkbar, wenn das Pegelverhältnis von direktem zu indirektem Schall betroffen ist. Dieses Problem lässt sich dadurch reduzieren, dass man die Entfernung der Lautsprecher zum Hörer vergrößert. Auf Einzelheiten wird in den Kap. 5.2 bis 5.5 ausführlich eingegangen.
5.1.3
Synthese des umgebenden Schallfelds
Neben der Tonwiedergabe mit dem Kunstkopfverfahren und der Lautsprecher-Stereofonie ist die Darstellung virtueller Schallquellen und Räume durch ein akustisch korrektes Schallfeld bei der Wiedergabe in der Umgebung des Hörers möglich. Dieses anspruchsvolle Ziel wird seit mehreren Jahren, begonnen an der TU Delft [5.4], [5.5], mit der Entwicklung der Wellenfeldsynthese, auch kurz WFS genannt, intensiv verfolgt. Bei der Wellenfeldsynthese wird durch sog. Lautsprecherarrays – viele nebeneinander angeordnete Einzellautsprecher - ein Schallfeld in der Hörzone erzeugt, das mit einem entsprechenden realen Schallfeld identisch ist. Wegen der akustischen Entsprechung zur optischen Holografie wird das Verfahren auch als „Holofonie” bezeichnet. 185
Tonaufnahme und Tonwiedergabe Die für das Hörereignis wirksamen Ohrsignale entstehen also im Gegensatz zur Binauraltechnik oder Kunstkopftechnik auf natürlichem Wege im Schallfeld, nicht nur an den Ohren. Der Hörer kann sich in der gesamten Hörzone frei bewegen und den Kopf drehen, wobei die virtuellen Schallquellen an ihrem Ort stabil lokalisierbar bleiben und eine natürliche Perspektive wahrgenommen wird [5.6 bis 5.10], was bei Stereofonie nicht möglich ist. Abb. 5/1 zeigt eine Phantomschallquelle bei Zweikanal-Stereofonie im Vergleich mit einer virtuellen Schallquelle in einer Wellenfeldsynthese. Die resultierenden Ohrsignalspektren, interauralen Signaldifferenzen und -korrelationen sind völlig unterschiedlich, obwohl in beiden dargestellten Fällen die Hörereignisse bezüglich Klangfarbe, Richtung und Entfernung ähnlich sind. Nur bei idealer Wellenfeldsynthese entspricht das synthetische WFS-Schallfeld dem einer entsprechenden Realschallquelle, was beim Schallfeld bei Stereofonie nicht zutrifft, Einzelheiten dazu im Kap. 5.8.
Abb. 5/1. Vergleich der Ohrsignale einer Phantomschallquelle im überlagerten Schallfeld bei ZweikanalStereofonie mit den Ohrsignalen der virtuellen Schallquelle bei Wellenfeldsynthese bei gleicher Hörereignisrichtung [5.11].
5.2
Stereofonie
Bei der üblichen Stereoanordnung, bei der zwei Lautsprecher mit dem Hörer ein gleichseitiges oder nahezu gleichseitiges Dreieck bilden (Abb. 5/2, siehe auch Abb. 5/1), ergeben sich ganz andere Verhältnisse als beim „natürlichen” Hören. Sie sind wesentlich komplizierter und werfen eine Reihe von Fragen auf. Zunächst werden deshalb nur die Hörphänomene beschrieben, die mit der Bildung der für Stereowiedergabe wesentlichen Phantomschallquellen zusammenhängen, sowie die sich daraus ergebenden Möglichkeiten der Anwendung. Danach wird in Kap. 5.2.3 auf Fragen zu den Ursachen dieser Phänomene der Stereofonie näher eingegangen. Darauf aufbauend werden im folgenden Kap. 5.2.4 die Prinzipien der räumlichen stereofonen Abbildung dargestellt, die Möglichkeiten und Grenzen der konventionellen Zweikanal-Stereofonie einerseits und der Mehrkanal-Stereofonie andererseits. Kap. 5.7 geht auf die psychoakustischen Phänomene sowie auf praktische Konsequenzen ein, die mit der Wiedergabe der stereofonen Signale über Kopfhörer zusammenhängen. 186
Stereofonie
5.2.1
Phantomschallquellen
Stellt man - wie in Abb. 5/2 dargestellt - zwei Lautsprecher L1 und L2, die gleichzeitig exakt dasselbe Signal abstrahlen, in einem bestimmten Abstand, der Basis b, zueinander auf, so lokalisiert ein Hörer H nicht zwei getrennte Schallquellen bei L1 bzw. L2, sondern nur eine einzige fiktive Schallquelle, eine sog. Phantomschallquelle oder virtuelle Schallquelle in der Mitte der Basis. Sie ist fiktiv oder virtuell, weil an diesem Punkt keine wirkliche Schallquelle existiert, der Ort der Schallquelle also nur in der auditiven Verarbeitung der Ohrsignale durch den Hörer gebildet wird. Erzeugt und verändert man innerhalb bestimmter Grenzen kontinuierlich Pegel- oder/und Laufzeitdifferenzen zwischen den Signalen an L1 bzw. L2, so wandert die fiktive Schallquelle S entlang der Lautsprecherbasis, bis sie schließlich in einem der beiden Lautsprecher stehen bleibt. Dieser Effekt ist grundlegend für die raumbezogene stereofone Schallwiedergabe, er macht die Illusion einer räumlichen Schallwiedergabe erst möglich.
Abb. 5/2. Standard-Lautsprecheranordnung in einem gleichschenkligen Dreieck mit dem Hörer für Zweikanal-Stereowiedergabe.
Während bei der Lokalisierung einer realen Schallquelle das Schallsignal nur von einem Punkt ausgeht, der Richtungseindruck also aus einem einzigen Schallsignal gewonnen wird, überlagern sich bei der stereofonen Lautsprecherwiedergabe die Signale von zwei Schallquellen bzw. Lautsprechern. Hierbei erhält jedes Ohr von jedem der beiden Lautsprecher einen bestimmten Schallanteil, woraus der Richtungseindruck einer fiktiven Schallquelle abgeleitet wird. Abb. 5/3 zeigt für einige spezielle Fälle schematisch die Signalkonfigurationen an den Ohren des Hörers. Daraus wird ersichtlich, dass sich bei jedem Ohr zwei Signale zu einer einzigen Wahrnehmung überlagern. Voraussetzungen für die einwandfreie Lokalisierbarkeit sind, dass die Lautsprecher von derselben Schallquelle stammende, sog. kohärente Signale ohne Phasenumkehrung abstrahlen, dass die Pegel- und/oder Laufzeitdifferenzen innerhalb bestimmter Grenzen bleiben und dass sich der Hörer in einer bestimmten geometrischen Anordnung zu den Lautsprechern befindet, nämlich innerhalb der sog. Stereohörfläche oder -hörzone (Abb. 5/9). Je nach angewandtem Aufnahmeverfahren treten Pegel- und Laufzeitunterschiede zwischen den Lautsprechersignalen L1 und L2 allein oder gleichzeitig auf. 187
Tonaufnahme und Tonwiedergabe
Abb. 5/3. Signalkonfigurationen an den Ohren bei Stereowiedergabe nach Abb. 5/2.
Als erster erkannte und patentierte Alan Dower Blumlein 1931 die Möglichkeiten, stereofone Klangbilder auf Grund von Phantomschallquellen zu übertragen. Versuche zur kopfbezogenen Stereofonie haben schon vorher stattgefunden. Bereits 1933 wurde ein Konzert stereofon von Philadelphia nach Washington übertragen und über zwei Lautsprecher stereofon wiedergegeben. Die ersten klassischen Versuche zur Abbildung von Phantomschallquellen wurden 1940 von de Boer durchgeführt; danach wurden die Versuche von zahlreichen Autoren unter verschiedenen Versuchsbedingungen fortgeführt [5.12]. 5.2.1.1
Pegeldifferenzen
Strahlen bei einer Wiedergabeanordnung nach Abb. 5/2 die beiden Lautsprecher dasselbe Signal phasengleich ab, so wird bei gleichem Pegel von L1 und L2 eine fiktive Schallquelle S genau in der Mitte der Basis lokalisiert. Bei Pegeldifferenzen wandert die fiktive Schallquelle auf der Basis seitlich aus, um bei einer Pegeldifferenz von 15 bis 25 dB ganz an dem Ort des Lautsprechers mit dem höheren Pegel stehen zu bleiben. Bereits bei nur 12 bis 15 dB Pegeldifferenz befindet sich die fiktive Schallquelle aber so nahe an diesem Lautsprecher, dass in der Praxis eine Pegeldifferenz von etwa 15 dB zur Lokalisierung „ganz seitlich” führt.
Abb. 5/4. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Pegeldifferenz )L. Dicke bzw. gepunktete Kurve nach Wittek und Theile [5.13], Kurven A: nach Leakey [5.14], B: nach Mertens [5.15], C: nach Brittain and Leakey [5.16], D: nach Simonson [5.17].
188
Stereofonie Die Abbildungsrichtungen der Phantomschallquellen, die durch Pegeldifferenzen bedingt sind, sind in relativ geringem Maß von der akustischen Gestalt des Signals und von anderen Bedingungen abhängig. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Pegeldifferenz )L zeigt Abb. 5/4. Angegeben sind die Auslenkungen der Phantomschallquelle relativ zur Lautsprecher-Basisbreite. In der Standard-Lautsprecheranordnung auf den Ecken eines gleichseitigen Dreiecks gemäß Abb. 5/2 entsprechen 100 % Auslenkung der Phantomschallquellenrichtung ± 30/. Man erkennt, dass im Bereich um die Mitte der Lautsprecherbasis die Kurven weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 7,5 %/dB zu Grunde gelegt. Die Tatsache, dass die Phantomschallquellen-Auslenkungen relativ zur Basisbreite weitgehend unabhängig vom Basisöffnungswinkel sind, wird im Kap. 5.2.3 näher erläutert. Das ist nicht nur hinsichtlich der Bewegungsfreiheit des Hörers nach vorne und hinten von großer praktischer Bedeutung, sondern auch bei der Mehrkanal-Stereofonie, bei der mit Hilfe des Center-Kanals C die Lautsprecherbasis zwischen L und R in die Sektoren L bis C und C bis R geteilt ist, so dass an Stelle von einer Basis mit Basisöffnungswinkel 60/ nebeneinander zweimal eine Basis mit jeweils 30/ Basisöffnungswinkel vorhanden ist. In allen Abbildungsbereichen gelten dieselben Gesetzmäßigkeiten. Die Pegeldifferenzen, die zu einer bestimmten Abbildungsrichtung der Phantomschallquelle führen, sind deshalb auch nicht identisch mit den resultierenden Pegeldifferenzen zwischen den beiden Ohren beim „natürlichen” Hören, wenn sich die reale Schallquelle am Ort der Phantomschallquelle befinden würde (siehe Kap. 5.1 und 5.2.3). Dies gilt sinngemäß auch für Phantomschallquellen bei Zeitdifferenzen, siehe dazu unten. Es ist also möglich, durch reine Pegeldifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür ausschließlich entsprechende Pegeldifferenzen zwischen dem linken und rechten Kanal L und R erzeugt werden, man nennt dieses Aufnahmeverfahren Intensitätsstereofonie (siehe Kap. 5.3.2). 5.2.1.2
Zeitdifferenzen
Bei der Stereowiedergabe nach Abb. 5/2 führen auch Laufzeitunterschiede von 0 bis etwa 1 ms zwischen identischen Lautsprechersignalen zu Phantomschallquellen auf der Stereobasis. Bei Laufzeitunterschieden zwischen 3 und 30 ms wird das sog. „Gesetz der ersten Wellenfront” wirksam, auch als „Haas-Effekt” oder „Precedence-Effekt” bekannt, wonach bei breitbandigen Signalen nur derjenige Lautsprecher als Ort der Schallquelle gehört wird, der das Schallsignal zuerst abstrahlt, auch wenn der andere Lautsprecher einen höheren Pegel hat. Bei Laufzeitunterschieden von mehr als 30 bis 90 ms - je nach Struktur des Schallsignals werden schließlich zwei in ihrer Richtung und zeitlich getrennte Signale gehört. Der Übergang zwischen diesen Zeitbereichen ist gleitend und von der Art des Signals abhängig. Laufzeitdifferenzen im Übergangsbereich können Hörereignisse hervorrufen, die über die ganze Basis ausgedehnt erscheinen. Ab einem Laufzeitunterschied von etwa 0,6 ms bis hin zu der Echos erzeugenden Verzögerungszeit von ca. 40 ms bewirken Kammfiltereffekte am Ohr des Hörers eine Verfärbung des Klangbilds; sie hängen stark von der Natur der Schallquelle und 189
Tonaufnahme und Tonwiedergabe von der Anzahl von Reflexionen in der Aufnahme ab. Abb. 5/5 fasst die verschiedenen Wirkungen der Laufzeitdifferenzen zusammen.
Abb. 5/5 Wirkungen der Zeitverzögerung zwischen identischen Signalen an den Lautsprechern L1 und L2 nach Abb. 5/2.
Anders als bei Phantomschallquellen, die durch Pegelunterschiede ausgelenkt werden, können Laufzeitdifferenzen die Richtungsstabilität der Phantomschallquelle mit steigendem Signalunterschied beeinträchtigen. Ab etwa 0,5 ms steigt die Unsicherheit der Richtungswahrnehmung an. Dies ist stark von der Art der Schallquelle abhängig. Bei Sprache genügen schon verhältnismäßig geringe Laufzeitunterschiede zwischen den Lautsprechersignalen, bei tiefen sinusförmigen Dauertönen sind vergleichsweise große Laufzeitunterschiede zur Auslenkung notwendig. Sinusförmige Dauertöne im mittleren Frequenzbereich werden insofern nicht eindeutig abgebildet, weil einer Abbildungsrichtung zwei oder mehr unterschiedliche Phasen- bzw. Laufzeitdifferenzen zuzuordnen sind. Den von verschiedenen Autoren experimentell ermittelten Zusammenhang zwischen der Auslenkung der Phantomschallquelle aus der Mitte und der Laufzeitdifferenz )t zeigt Abb. 5/6. Angegeben sind auch hier die Auslenkungen der Phantomschallquellen relativ zur Lautsprecher-Basisbreite. Man erkennt, dass im inneren Bereich der Lautsprecherbasis die Kurven wie bei Pegeldifferenzen weitgehend linear verlaufen. Bis zu einer Auslenkung von 75 % wird im Folgenden ein Auslenkungskoeffizient von 13 %/0,1 ms zu Grunde gelegt.
Abb. 5/6. Relative Auslenkung der Phantomschallquelle in Abhängigkeit von der Laufzeitdifferenz )t. Dicke bzw. gepunktete Kurve nach Wittek und Theile [5.13], Kurve A: nach Leakey [5.14], B: nach Mertens [5.15], D: nach Simonson [5.16], E: nach Sengpiel [5.18].
190
Stereofonie Es ist also möglich, durch reine Laufzeitdifferenzen zwischen den Lautsprechersignalen Klangbilder auf einer Verbindungsgeraden zwischen zwei Lautsprechern darzustellen. In der Aufnahmetechnik müssen hierfür auch reine Laufzeitdifferenzen zwischen dem linken und rechten Kanal erzeugt werden, man nennt dieses Aufnahmeverfahren Laufzeitstereofonie (siehe Kap. 5.3.3). 5.2.1.3
Zusammenwirken von Pegel- und Zeitdifferenzen
Bei reiner Intensitätsstereofonie treten nur Pegeldifferenzen zwischen den Lautsprechersignalen auf, bei reiner Laufzeitstereofonie nur Laufzeitdifferenzen. Es gibt aber auch eine Reihe von Aufnahmeverfahren, bei denen Pegel- und Laufzeitdifferenzen gleichzeitig und gleichsinnig auftreten. Dazu gehören alle Verfahren mit unterschiedlich ausgerichteten Richtmikrofonen, die mit distanzierten Mikrofonen arbeiten, sowie alle Trennkörperverfahren. Bei diesen „gemischten” Aufnahmeverfahren wirken Pegel- und Laufzeitdifferenzen gleichsinnig zusammen. Die Auslenkung der Phantomschallquelle ist bei solchen Bedingungen größer als sie es auf Grund von Pegel- oder Laufzeitdifferenz allein wäre. Der Frage, in welcher Weise gleichsinnige Laufzeit- und Pegeldifferenzen auf die Abbildungsrichtung der Phantomschallquelle wirken, wird ausführlich im Kap. 5.2.2 im Zusammenhang mit der Bestimmung des Aufnahmewinkels eines Stereomikrofons nachgegangen. Bezüglich der Lokalisationsschärfe sind Pegel- und Laufzeitunterschiede im Bereich kleiner Signaldifferenzen gleichwertig. Dagegen gibt es Unterschiede im Bereich größerer Auslenkungen: Eine wachsende Pegeldifferenz führt zu einer Zunahme, eine wachsende Laufzeitdifferenz zu einer Abnahme der Lokalisationsschärfe. Mikrofonanordnungen der „gemischten” Aufnahmeverfahren, deren Anteile aus Pegel- und Laufzeitdifferenzen ungefähr gleichgewichtig sind, nehmen eine gewisse Sonderstellung ein, offenbar kann die Lokalisationsschärfe in diesem Fall ein Optimum erreichen. Eine solche Mikrofonanordnung kann als „Äquivalenzmikrofon” bezeichnet werden. Gegensinnige Pegelund Laufzeitdifferenzen können nur begrenzt zu einer Aufhebung der Auslenkungen führen, vielmehr aber zu einer starken Abnahme der Lokalisationsschärfe. 5.2.1.4
Seitliche Phantomschallquellen
Auf Grund praktischer Erfahrungen und Untersuchungen weiß man, dass seitliche Phantomschallquellen äußerst instabil und empfindlich bezüglich des Abhörpunkts sind, auch hinsichtlich des Signalspektrums. Stereofonie funktioniert nur dann in der gewohnten Weise, wenn die zwei an der Phantomschallquellenbildung beteiligten Lautsprecher weitgehend symmetrisch zum Hörer, genauer zur Medianebene des Hörers, angeordnet sind. Dreht der Hörer seinen Kopf im Referenzpunkt der Anordnung geringfügig, so verändern sich die Auslenkung der Phantomschallquelle und die Lokalisationsschärfe nur unwesentlich. Dreht der Hörer seinen Kopf jedoch soweit, dass einer der Lautsprecher hinter der Ohrenachse liegt und einer davor, so werden die Lokalisationskurven steiler und die Lokalisationsschärfe geringer. Ein Lautsprecherpaar, das seitlich genau symmetrisch zur Ohrenachse aufgestellt ist, ermöglicht keine stabile Lokalisation, seitliche Phantomschallquellen sind praktisch nicht vorhanden. Die Versuchsergebnisse für verschiedene Ausrichtungen eines Lautsprecherpaars, das mit dem Hörer ein gleichseitiges Dreieck bildet, zeigt Abb. 5/7. 191
Tonaufnahme und Tonwiedergabe
Abb. 5/7. Auslenkung der Phantomschallquellen mit ihren Unschärfebereichen bei Pegelunterschieden in Abhängigkeit von dem Ausrichtungswinkel zum Hörer [5.18].
Abb. 5/8. Wahrnehmung von seitlichen Phantomschallquellen in Abhängigkeit vom Pegelunterschied. 1: Versuchspersonen im Referenzpunkt, 2: ein Sitz links vom Referenzpunkt, 3: ein Sitz vor dem Referenzpunkt [5.19].
192
Stereofonie Testergebnisse für die Standard 5.1-Lautsprecheranordnung im Studio mit einem Lautsprecherabstand zum Hörer von 2,5 m zeigt Abb. 5/8. Die wahrgenommenen Richtungen sind als Funktion der Pegeldifferenzen der Lautsprecherbasis C-L sowie die Lautsprecherbasis L-LS dargestellt. Die eingetragenen Streuungen sind für die Lautsprecherbasis L-LS wesentlich größer als für die Basis C-L. Sie zeigen, dass selbst im Referenzpunkt die Lokalisation der seitlichen Phantomschallquelle verschwommen und instabil ist. Ferner besteht im Seitenbereich keine ausreichende Richtungsstabilität. Bewegt sich der Hörer nur gering vom Referenzpunkt weg, so führt das zu gravierenden Richtungsverzerrungen, die Lokalisationskurve ist wesentlich steiler als im Bereich der vorderen Lautsprecher L-C-R, es besteht die Gefahr eines „Lochs an der Seite”. In der Mischung ist der seitliche Abbildungsbereich nicht so nutzbar wie der vordere Abbildungsbereich L-C-R. Mit Ausnahme von bewegten Schallquellen sollte deshalb auf eine Richtungsabbildung von lokalisierbaren seitlichen Schallquellen verzichtet werden. 5.2.1.5
Stereohörflächen
Bisher wurde zunächst davon ausgegangen, dass der Hörer sich genau im Referenzpunkt der stereofonen Lautsprecheranordnung gemäß Abb. 5.2 befindet. Dies ist natürlich in der Praxis selten der Fall. Deshalb ist es wichtig, die Robustheit der Wiedergabeeinrichtung gegenüber Abweichungen vom Referenz-Hörort zu kennen. Darauf basierend kann man im Rahmen bestimmter Toleranzen die Stereohörflächen oder -hörzonen einer Lautsprecheranordnung festlegen, so dass verschiedene zwei- und mehrkanalige Wiedergabeeinrichtungen diesbezüglich vergleichbar sind. Verlässt der Hörer die Symmetrieachse der Lautsprecheranordnung, entstehen Verzerrungen der Richtungsdarstellung. Diese sog. Abbildungsverzerrungen – angegeben in % - ergeben sich, weil die von den Lautsprechern abgestrahlten Signale mit zusätzlichen Laufzeitdifferenzen beim Hörer eintreffen und damit ein Auswandern der Phantomschallquellen in Richtung des näheren Lautsprechers verursachen. Die resultierende Auslenkung lässt sich den in Abb. 5/6 gezeigten Kurven entnehmen. Bei nur 10 cm seitlicher Abweichung des Hörers aus der Mitte der Standard-Stereoanordnung ergibt sich eine Zeitdifferenz von 0,3 ms und daraus nach Maßgabe des Auslenkungskoeffizienten von 13 %/0,1 ms eine Richtungsverschiebung der Mitten-Phantomschallquelle um 39 %. Für die Standard-Stereoanordnung mit Basisöffnungswinkel 60/ sind dies etwa 12/. Bezieht man diese Auslenkung auf die gesamte Abbildungsbreite, so ergibt sich daraus eine Abbildungsverzerrung, die in diesem Beispiel 20 % beträgt. Die Abbildungsverzerrung bezieht sich auf die Mitten-Phantomschallquelle, hier ist die Wirkung dieser ungewollten Laufzeitdifferenzen am größten. Die Breite der Hörzone ist bei der Zweikanal-Stereofonie sehr gering. Sie beträgt 20 cm, wenn eine Abbildungsverzerrung von 20 % zugelassen wird. Zu beachten ist, dass dies im Prinzip unabhängig von der Breite der Lautsprecherbasis gilt. Eine kleinere Lautsprecherbasis führt theoretisch nicht zu einer entsprechend schmäleren Hörzone. Dies scheint der praktischen Erfahrung z. B. mit Nearfield-Lautsprechern zu widersprechen; Ursache hierfür ist die Wirkung des reflektierten Schalls im Wiedergaberaum auf die Ausdehnung der Phantomschallquelle. Die Lokalisationsschärfe ist im Nahfeld der Lautsprecher besonders groß [5.20] und daher auch die Empfindlichkeit des Gehörs für Abbildungsverzerrungen [5.21, 5.22]. 193
Tonaufnahme und Tonwiedergabe Es ist nicht sinnvoll, die Hörzone mit Hilfe besonders ungerichtet strahlender Lautsprecher zu Ungunsten der Lokalisationsschärfe zu verbreitern, da hierdurch der nun vermehrt reflektierte Schall des Wiedergaberaums die Abbildung des Aufnahmeraums in den meisten Fällen beeinträchtigen wird. Die Mehrkanalstereofonie erzielt die gewünschte Verbreiterung der Stereohörfläche bei gleichzeitiger Verbesserung der Lokalisationsschärfe. Zusätzliche Lautsprecher zwischen L und R bewirken, dass der Abbildungsbereich in stereofone Teilbereiche aufgeteilt ist. Wendet man auf die Teilbereiche den Zusammenhang zwischen Hörzonenbreite und Abbildungsverzerrungen an, so ergeben sich brauchbare Hörzonenbreiten bereits für zwei oder drei Teilbereiche, siehe dazu die Kap. 5.2.2. und 5.4.2. Abb. 5/9 zeigt die Hörzonen für stereofone Wiedergabeanordnungen mit 2, 3 und 4 Lautsprechern. Man erkennt, dass die Hörzonenbreite überproportional mit der Lautsprecheranzahl wächst. Da die Hörzonenbreite nicht von der Abbildungsbreite B abhängt, müsste die Lautsprecheranzahl mit B wachsen, wenn das Verhältnis Abbildungsbreite zu Hörzonenbreite etwa konstant sein sollte. Auch aus diesem Grund haben deshalb im Kino mit großer Leinwand Tonsysteme mit beispielsweise 5 Lautsprechern im vorderen Abbildungsbereich ihre Berechtigung. In der Praxis sind die Hörzonen oft etwas breiter, weil der Raumanteil im stereofonen Signal die Ausdehnung der Phantomschallquelle vergrößert. Darüber hinaus bezieht sich der Grenzwert der Abbildungsverzerrung auf den kritischsten Fall der Phantomschallquelle in der Mitte eines stereofonen Teilbereichs. Alle anderen Hörereignisrichtungen, insbesondere diejenigen in der Nähe der Lautsprecher, sind stabiler.
Abb. 5/9. Hörzonenbreiten für Stereofonie mit 2, 3 oder 4 Lautsprechern. Hörzonenbreite im Referenzpunkt etwa 20 cm, 60 cm bzw. 150 cm bei einer zugelassenen Abbildungsverzerrung von 20 %. Die Hörzonenbreiten sind von der Abbildungsbreite B unabhängig.
Beim 5.1-Mehrkanal-Standard (siehe Kap. 5.4.1) hat sich in der Praxis gezeigt, dass schon ein einziger Center-Lautsprecher die Stabilität der Abbildungen in den beiden stereofonen Teilbereichen ausreichend erhöht. Das gilt auch für bildbezogene Tondarstellungen, da bei normalem Programmmaterial die Toleranzschwelle des Hörers höher liegt, einerseits wegen der Ablenkung durch den Programminhalt, andererseits wegen der assoziativen Verknüpfung von Seh- und Hörereignis und der Quellenausdehnung. Bei der Mehrkanal-Stereofonie entstehen natürlich auch Abbildungsverzerrungen, wenn sich der Hörer vom Referenzpunkt - beispielsweise auf der Symmetrielinie - nach vorn oder hinten bewegt. Speziell in der Konfiguration L-C-R verursachen Laufzeitunterschiede ein Auswandern der Phantomschallquellen in den Teilbereichen L-C bzw. C-R. Diese Abbildungsverzerrungen begrenzen jedoch in der Praxis nicht die Hörflächen nach vorne und hinten, sondern vielmehr beschränken die dabei entstehenden Verschiebungen der Lautstärkebalance 194
Stereofonie zwischen den vorderen Lautsprechern und den Surround-Lautsprechern die Hörfläche. Sie können z. B. besonders die beabsichtigte Wirkung des indirekten Schalls bei Musikaufnahmen beeinträchtigen, siehe dazu auch die Kap. 5.2.4 und 5.4.3. Die Stereo-Standard-Abhörposition sieht bei Zweikanal-Stereofonie ein gleichseitiges Dreieck vor, entsprechend ist der „sweet spot” bei Mehrkanal-Stereofonie definiert (siehe Kap. 5.4.1). In der Praxis der Tonaufnahme beurteilen in der Regel zumindest zwei Personen das Klanggeschehen, Tonmeister und Toningenieur; beide können sich nicht zugleich am optimalen Abhörpunkt befinden. Wie wirkt sich dies auf die Hörzone aus? Sitzen beide hintereinander um den optimalen Platz, so gibt es – auch bei drei Zuhörern - keine Einschränkungen der Beurteilungsfähigkeit. Hingegen ist eine Klangbeurteilung bei Plätzen nebeneinander völlig unbrauchbar. Bei einer AB-Aufnahme mit 40 cm Mikrofonbasis z. B. bewirkt eine Deplatzierung aus der Mitte um nur 5 bis 10 cm bereits eine inakzeptable Verschiebung des Klangbilds. Bei einer Aufnahme in XY-Technik ist diese Verschiebung zwar geringer, aber dennoch inakzeptabel. Ein Ausgleich des Abbildungsfehlers bei der Wiedergabe über den Abhörbalancesteller ist nicht zulässig. Bei Mehrkanal-Stereofonie gilt im Prinzip dasselbe, wenn auch der Einfluss der seitlichen Verschiebung deutlich geringer ist; dafür wird aber der Einfluss der Verschiebung vorne/hinten in geringem Umfang wirksam.
5.2.2
Aufnahmewinkel eines Stereomikrofons
Stereomikrofone – Mikrofonsysteme, die aus zwei einzelnen Mikrofonen zusammengesetzt sind - erzeugen Pegel- und/oder Laufzeitunterschiede, die die Phantomschallquelle nach Maßgabe der in Kap. 5.2.1 behandelten Lokalisationskurven seitlich auslenken. Entspricht ein bestimmter Schalleinfallswinkel einer Schallquelle " am Stereomikrofon beispielsweise einer Laufzeitdifferenz von 0,4 ms, so ergibt sich dadurch gemäß Abb. 5/6 eine Auslenkung der Phantomschallquelle um 50 %, was in der Standard-Zweikanalanordnung einer Richtungsverschiebung um 15° entspricht, die Phantomschallquelle wird auf der Lautsprecherbasis halb seitlich abgebildet. Man kann mit dieser Methode für beliebige stereofone Mikrofonanordnungen, die frequenzunabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, Abbildungskurven bestimmen, die den Zusammenhang zwischen dem Schalleinfallswinkel " und der Phantomschallquellenauslenkung direkt beschreiben. Abbildungskurven von Stereomikrofonen, die frequenzabhängige Pegel- und/oder Laufzeitdifferenzen erzeugen, z. B. Trennkörperverfahren (dazu Kap. 5.3.4) werden durch Messungen im Experiment mit Testhörern ermittelt. 5.2.2.1
Aufnahmewinkel bei zweikanaligen Mikrofonen
Abb. 5/10 zeigt beispielhaft eine Abbildungskurve eines zweikanaligen Mikrofons; die Schallquellenrichtung " = 20° ergibt hier eine Auslenkung der Phantomschallquelle von 50 % entsprechend einer Abbildungsrichtung von 15/ in der konventionellen Zweikanal-Stereoanordnung. Man erkennt, dass nur die Schallquellen aus Richtungen bis maximal ± 45/ zwischen dem linken bzw. rechten Lautsprecher abgebildet werden, sie befinden sich innerhalb des sog. Aufnahmewinkels, in diesem Beispiel beträgt er 90/. Innerhalb dieses Bereichs findet eine ausgeglichene Richtungsabbildung statt. Schallquellen, die außerhalb ± 45/ liegen, erzeugen zu große Signalunterschiede und erscheinen in den Lautsprechern L bzw. R. 195
Tonaufnahme und Tonwiedergabe
Abb. 5/10. Abbildungskurve und Aufnahmewinkel eines zweikanaligen Stereomikrofons. Schallquellen in den schraffierten Richtungsbereichen werden in den Lautsprechern L bzw. R abgebildet.
Die Lokalisationskurven für Pegel- bzw. Laufzeitdifferenzen (Abb. 5/4 bzw. 5/6) zeigen in den inneren Bereichen bis zu einer Auslenkung von 75 % einen weitgehend linearen Verlauf. Für diese Bereiche gelten Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms. Diese Linearität findet sich in den Abbildungskurven der Stereomikrofone wieder, siehe Abb. 5/10. Für größere Werte gibt es Übergangsbereiche, die durch eine unsichere Wahrnehmung der Richtung nahe der beiden Lautsprecher gekennzeichnet sind; auch ist dieser Winkelbereich in der Praxis für die Abbildung des stereofonen Klangbilds nicht sehr wichtig. Um für Mikrofonanordnungen zuverlässige und eindeutige Angaben über deren Aufnahmebereich zu machen, wurde deshalb vorgeschlagen, als „Aufnahmewinkel 75 %” bzw. „recording angle 75 %” für den Winkelbereich der Lautsprecherbasis von ± 75 % einzuführen [5.23]. Der Aufnahmewinkel 75 % ist in der Abbildungskurve in Abb. 5/10 eingetragen, er beträgt in diesem Beispiel 60/. Dies ist der Bereich, in dem die einzelnen Schallquellen linear und deutlich lokalisierbar abgebildet werden, der also eine gute Basis für die Planung einer Aufnahme darstellt. 5.2.2.2
Aufnahmewinkel bei gleichsinnigen Pegel- und Laufzeitdifferenzen
Es besteht im Auslenkungsbereich ± 75 % eine Gleichwertigkeit von Pegel- und Laufzeitdifferenzen gemäß der beiden Auslenkungskoeffizienten von 7,5 %/dB bzw. 13 %/0,1 ms: 1 dB Pegelunterschied erzeugt demnach etwa dieselbe Auslenkung wie 60 :s Laufzeitunterschied (Abb. 5/11). Für Auslenkungsbereiche über 75 %, also für die äußeren Flanken der Stereobasis, sind diese Äquivalenzen nicht mehr anwendbar. Tragen die Pegel- und Laufzeitdifferenzen etwa gleich viel zur Abbildungsrichtung bei, so spricht man auch von „Äquivalenzmikrofonverfahren”. Die Abbildungskurven und Aufnahmewinkel sind auch für Stereomikrofone bestimmbar, bei denen Pegel- und Laufzeitdifferenzen gleichsinnig zusammenwirken. Eine wichtige Regel lautet: Wird eine Phantomschallquelle auf Grund von Pegeldifferenzen )L gebildet und zusätzlich um Laufzeitdifferenzen )t in gleicher Richtung ausgelenkt, so ist die gesamte Auslenkung etwa gleich der Summe der beiden einzelnen Auslenkungen. Auf dieser Grundlage und in Kenntnis der Mikrofon-Richtcharakteristiken, der daraus resultierenden Pegeldifferenzen, der durch den Abstand zweier Mikrofonkapseln gegebenen Laufzeitdifferenzen sowie der in Kap. 5.2.1 angegebenen Lokalisationskurven können die 196
Stereofonie Abbildungskurven und Aufnahmewinkel von Stereomikrofonanordnungen bestimmt werden. Prinzipiell existiert eine unendliche Anzahl möglicher Kombinationen von Mikrofonanordnungen. Einige davon werden in Kap. 5.3.4 vorgestellt. Für jede Anordnung lässt sich der Aufnahmewinkel bestimmen. Systematisch hat Michael Williams ihn für alle Richtmikrofontypen errechnet mit dem Ergebnis der sog. „Williams-Diagramme” [5.23]. Abb. 5/12 zeigt die Zusammenhänge der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nieren. Als Beispiel sind die Werte für die ORTF-Anordnung (siehe Kap. 5.3.4) eingetragen, die Mikrofonbasis beträgt hier 17,5 cm und die Mikrofon-Versatzwinkel ± 55/, der Mikrofon-Öffnungswinkel 110/. Man findet im Diagramm einen Aufnahmewinkel von etwa 95/. Der Versatzwinkel ist der Winkel, um den ein Mikrofon aus der Hauptrichtung, der Richtung zur Schallquelle oder zum Zentrum der Schallquelle, ausgeschwenkt wird.
Abb. 5/11 Äquivalenzen von Laufzeitund Pegeldifferenzen bei der Auslenkung von Phantomschallquellen, zugehöriger Lautsprecherwinkel ± 75 % um die Mitte.
5.2.2.3
Aufnahmewinkel bei dreikanaligen Mikrofonen
Die Kenntnis des Aufnahmewinkels des einzusetzenden Stereomikrofons hat in der Praxis eine große Bedeutung. Das trifft ebenso für heutige Mehrkanal-Aufnahmen zu, denn auch bei Anwendung von dreikanaligen Stereomikrofonen möchte man die Ausdehnung des Klangkörpers oder die Richtungsverteilung der aufzunehmenden Schallquellen mit Hilfe des Aufnahmewinkels optimal abbilden. Wie bereits in Kap. 5.2.1.5 erläutert, ist der vordere Abbildungsbereich in zwei nebeneinander liegende stereofone Teilbereiche L-C und C-R aufgeteilt, so dass die Lokalisationskurven für Pegel- und Laufzeitdifferenzen (Abb. 5/6 bzw. 5/8) ihre Gültigkeit behalten. Die gesamte Abbildungsebene L-R setzt sich aus dem linken und rechten Bereich zusammen. Die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, jedoch mit dem Vorteil der vergrößerten Stereohörfläche, wie in Kap. 5.2.1 erläutert. Man erkennt in Abb. 5/13, dass die Richtungsübersetzung eines geeigneten dreikanaligen Mikrofons nach Maßgabe der für die Teilbereiche relevanten Abbildungskurven erfolgt, siehe auch 197
Tonaufnahme und Tonwiedergabe Abb. 5/10. Das setzt allerdings voraus, dass die äußeren Mikrofonkapseln L und R einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h. dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Dies ist möglich und wird in Kap. 5.4.2 näher erläutert.
Abb. 5/12. Zusammenhang von Aufnahmewinkel, Versatzwinkel und Mikrofonbasis für zwei Nierenmikrofone nach Williams [5.23], die sog. ORTF-Anordnung ist als Beispiel eingetragen, Einstellungen in den schraffierten Flächen sind für Aufnahmen ungeeignet.
Abb. 5/13. Abbildungskurven für die stereofonen Teilbereiche L-C und C-R eines dreikanaligen Stereomikrofons und der resultierende Aufnahmewinkel.
5.2.2.4
Berechnungswerkzeuge
Ein nützliches Werkzeug, der „Image Assistant”, zur Berechnung der Abbildungskurven und Abbildungswinkel für beliebige zwei- oder dreikanalige Anordnungen mit Mikrofonen unterschiedlicher Richtcharakteristiken ist von Helmut Wittek entwickelt und in Hörversuchen bestätigt worden [5.24, 5.36]. Es bietet zusätzlich die Berechnung der vom Schalleinfallswinkel abhängigen Pegel- und Zeitdifferenzen zwischen den Kanälen, den Gesamtschallpegel für jede Zweikanal- oder Dreikanal-Mikrofonanordnung in Abhängigkeit von den Richtcharakteristiken Kugel, breite Niere, Niere, Superniere und Acht. Grundlage der Berechnung sind die bei der jeweiligen Mikrofonanordnung auftretenden Pegel- und Laufzeitdifferenzen. Aus ihnen wird auf Basis der in Kap. 5.2.1 beschriebenen Gesetzmäßigkeiten die Abbildungskurve ermittelt. Gleichzeitig wird der Aufnahmewinkel und 198
Stereofonie der „Aufnahmewinkel 75 %” angegeben. Dieses im Internet frei verfügbare JAVA-Applet (Abb. 5/14) hilft nicht nur dem Tonmeister bei der Auswahl und Platzierung der Mikrofone, sondern vermittelt auch die grundlegenden Eigenschaften der verschiedenen Stereomikrofontechniken wie z. B. die Gleichmäßigkeit oder die Stabilität der Abbildung. Außerdem können mit Hilfe des Werts „Aufnahmewinkel 75 %” verschiedene, im Hinblick auf die Abbildungskurve gleichwertige Anordnungen ermittelt werden. Der Tonmeister kann somit fundierter entscheiden, welche dieser Anordnungen seinem Ziel am nächsten kommen, indem er weitere Qualitätsaspekte berücksichtigt wie Klangfarbe, Stabilität, Abbildungsschärfe und oft die physische Größe der Mikrofonanordnung.
Abb. 5/14. Screenshot des „Image Assistant”. Die Abbildungskurve sowie der Aufnahmewinkel einer beliebigen zwei- oder dreikanaligen Mikrofonanordnung kann grafisch dargestellt werden, hier ist die ORTFAnordnung dargestellt [5.24].
5.2.3
Theorien zur Lokalisation von Phantomschallquellen
Zur Erklärung der Phänomene der Lokalisation von Phantomschallquellen wurde bisher i. Allg. die sog. Theorie der Summenlokalisation herangezogen. Sie kann einige Phänomene 199
Tonaufnahme und Tonwiedergabe der Wahrnehmung zufriedenstellend erklären, andere Phänomene sind im Rahmen dieser Theorie nicht schlüssig zu interpretieren. Dabei bleibt eine Reihe von Fragen völlig offen; insbesondere ist ihr grundsätzlicher Mangel, dass sie nur für Lautsprecherwiedergabe gilt, für andere Phänomene der Richtungs- und Entfernungswahrnehmung aber keine Erklärungen liefern kann. 1980 hat Günther Theile ein Assoziationsmodell der Wahrnehmung vorgestellt, das eine große Zahl unterschiedlicher Phänomene der Richtungs- und Entfernungswahrnehmung bei Lautsprecher- und Kopfhörerdarbietung sowie beim „natürlichen” Hören in einheitlicher Weise erklären kann. Theile geht gegenüber früheren Theorien, die mehr an nachrichtentechnischen Modellen orientiert sind, von einem gestaltpsychologischen Ansatz aus, der die Hörerfahrung und Lernprozesse des Hörens zum Ausgangspunkt nimmt. 5.2.3.1
Summenlokalisation
Die Summenlokalisation geht von der grundlegenden Annahme aus, dass bei der Wahrnehmung von Phantomschallquellen bei Lautsprecherdarbietung aus den Schallfeldüberlagerungen an den beiden Ohren Summensignale resultieren, deren Komponenten das Gehör nicht trennen kann. Es wird vermutet, dass die Signale an den beiden Ohren bei der Lokalisation einer Phantomschallquelle und bei der Lokalisation einer entsprechenden realen Schallquelle an demselben Ort gleichwertig sind, obwohl sie nicht identisch sind, wie Abb. 5/1 deutlich zeigt. In der Literatur werden verschiedene Summenlokalisationstheorien beschrieben, die jedoch nur einzelne Bereiche der räumlichen Wahrnehmung erfassen, eine allgemein gültige Theorie ist nicht aufgestellt worden [5.12]. Ausgehend von Tonimpulsen, die entweder mit einer Pegeldifferenz oder mit einer Zeitdifferenz von zwei Lautsprechern in Stereoanordnung abgestrahlt werden, und den dazugehörigen Reizmustern an den beiden Ohren (Abb. 5/3), liegt zunächst die Vermutung nahe, dass der am Ohr jeweils zuerst eintreffende Impuls bzw. bei gleichzeitigem Eintreffen der lautere Impuls die Richtungswahrnehmung bestimme; demgegenüber konnte in Versuchen gezeigt werden, dass auch die weiteren, später eintreffenden Impulse von Einfluss auf die Richtungswahrnehmung sind. Bei Dauertönen kann eine für die stereofone Übertragung brauchbare Zuordnung von Lautsprecher- und Ohrsignalen nur unter etwa 800 Hz bestehen. Ein wesentlicher Einwand gegen die Summenlokalisation bezieht sich auf die wahrgenommene Klangfarbe der Phantomschallquellen. Da es an den Ohren zu einer Überlagerung zweier zeitverzögerter Signale kommt, die auf den unterschiedlichen Abstand der beiden Ohren zu jeweils einem Lautsprecher zurückzuführen sind (Abb. 5/3), müssten Phantomschallquellen eigentlich eine Klangfärbung aufweisen, wie sie durch ein Kammfilter erzeugt wird. Abb. 5/1, linkes Bild unten, zeigt den Frequenzgang am linken Ohr, wie er durch die Überlagerung der beiden identischen, gleichzeitig abgestrahlten Lautsprechersignale entsteht. Zu sehen ist ein Pegeleinbruch von mehr als 10 dB bei 2 kHz. Die beiden Ohrsignale sind identisch. Trotz dieser objektiv vorhandenen deutlichen linearen Verzerrung wird eine Klangfärbung kaum wahrgenommen. Dies weist auf Wirkungsmechanismen der Wahrnehmung von Phantomschallquellen hin, die die Theorie der Summenlokalisation nicht erklären kann.
200
Stereofonie 5.2.3.2
Assoziationsmodell
Das Assoziationsmodell von Theile ermöglicht eine weitgehend einheitliche Erklärung aller wichtigen Phänomene des räumlichen Hörens [5.25], [5.26]. Es macht auch den Einwand der Klangfärbung bei der Wiedergabe von Phantomschallquellen gegenstandslos. Das Modell geht von der Grundhypothese aus, dass die Wahrnehmung von Ort und Klanggestalt eines Hörereignisses stets durch einen Vergleich mit gespeicherten Mustern erfolgt. Die dabei ablaufende spontane „assoziative Mustererkennung” ist ein Prozess, der ein eintreffendes akustisches Muster mit einem im Gehirn gespeicherten Muster verknüpft, selbst dann, wenn nur Teile des gespeicherten Musters im eintreffenden akustischen Muster enthalten sind. Dieser Mustervergleich läuft z. B. auch bei einem Telefonat ab, bei dem der Anrufer – wenn bekannt – bereits beim ersten Wort automatisch identifiziert wird. Die räumliche Wahrnehmung resultiert dabei grundsätzlich aus zwei unterschiedlichen, nacheinander ablaufenden Verarbeitungsprozessen: Entsprechend den beiden grundlegenden und getrennten Hörereigniseigenschaften Ort und Gestalt durchläuft ein akustischer Reiz in der ersten Stufe eine Ortsassoziation, in der zweiten Stufe eine Gestaltassoziation. Beide Prozesse bestimmen stets gemeinsam die Hörereigniseigenschaften. Abb. 5/15 zeigt das Prinzip des Assoziationsmodells.
Abb. 5/15. Assoziationsmodell der Hörwahrnehmung nach Theile [5.25].
Das Assoziationsmodell führt die Lokalisation auf einen Prozess zur Decodierung eines Lokalisationsreizes zurück. Ein Lokalisationsreiz liegt vor, wenn hinreichend breitbandige Ohrsignale sich hinsichtlich der Zeit- und spektralen Merkmale einem einzigen Schallereignisort zuordnen lassen. Im überlagerten Schallfeld sind unter bestimmten Bedingungen gleichzeitig mindestens zwei Lokalisationsreize unterscheidbar. Sowohl in der Situation bei Phantomschallquellen als auch in Experimenten zur Lateralisation, also der Lokalisation von Hörereignisorten im Kopf, führen zwei unterschiedliche Lokalisationsreize zu einem einzigen Hörereignisort. Die Funktion des Gehörs bei der Lokalisation einer Schallquelle kann nur unter Lokalisationsbedingungen untersucht werden. Das setzt voraus, dass das Schallereignis ein ausreichend breitbandiges Spektrum aufweist. Der Wahrnehmungsprozess, der zur Lokalisation führt, ist nur möglich, wenn spektrale Merkmale die Zuordnung der Hörereignisentfernung zulassen. Die Modellvorstellung kann Erklärungen einiger wichtiger Hörphänomene liefern: Stereofone Lautsprecherwiedergabe: Bei stereofoner Lautsprecherwiedergabe treten Hörereignisse auf, die sich ebenso mit entsprechend zugeordneten realen Einzelschallquellen im freien Schallfeld erzeugen lassen. Es ist aber nicht möglich, den in beiden Fällen identischen Hörereignissen entsprechend auch identische Ohrsignale zuzuordnen (Abb. 5/1). Relativ große Unterschiede der Ohrsignalmerkmale hinsichtlich Spektrum und interauralem Kohärenzgrad führen zu dem Schluss, dass keine Summenlokalisation stattfindet: Die Phantomschallquelle lässt sich nicht als Ersatzschall201
Tonaufnahme und Tonwiedergabe quelle auffassen. Vielmehr muss angenommen werden, dass die Schallsignale auf Grund der unterschiedlichen Sendeorte im Gehör zunächst räumlich entschlüsselt werden als Wirkung der Ortsassoziationsstufe. Erst nach erfolgter Decodierung des Orts verschmelzen die Reize als Wirkung der Gestaltassoziationsstufe, weil die Lautsprecher hinreichend ähnliche Signale abstrahlen. Phantomschallquellen und Gesetz der ersten Wellenfront: Die Grenze für den Gültigkeitsbereich des Gesetzes der ersten Wellenfront (siehe Kap. 3.4.1) wird zu kleinen Verzögerungszeiten hin durch den Übergang zur Phantomschallquellenbildung definiert. Beide Phänomene lassen sich zurückführen auf die zeitabhängige Bewertung nacheinander eintreffender Reizantworten der Ortsassoziationsstufe an der Gestaltassoziationsstufe. Die Ortsassoziationsstufe wirkt im überlagerten Schallfeld als Filter zur Befreiung der Sendesignale von der räumlichen Information, man kann von einer „räumlichen Decodierung” sprechen, so dass in der darauf folgenden Gestaltassoziationsstufe nur die Sendesignalbeziehung bewertet wird. Zwei Sendesignale mit Laufzeitunterschieden führen dazu, dass zwei Lokalisationsreize nicht zeitgleich eintreffen. Die Gesetzmäßigkeiten für die daraus resultierenden Hörereignisorte, nämlich Phantomschallquellen und das Gesetz der ersten Wellenfront, lassen sich als „Gesetz des ersten Lokalisationsreizes” verstehen. Cocktailparty-Effekt: Der „Cocktailparty-Effekt” besagt, dass ein Nutzsignal, das aus einer bestimmten Richtung eintrifft, von einem Störsignal, das aus einer anderen Richtung eintrifft, bei zweiohrigem Hören weniger stark verdeckt wird als bei einohrigem Hören. Der Effekt ist zurückzuführen auf die Wirkung der Ortsassoziationsstufe: Zwei Schallquellen rufen normalerweise nicht nur zwei verschiedene Ortsassoziationen, sondern zusätzlich zwei verschiedene Gestaltassoziationen hervor. Die resultierenden beiden Hörereignisse treten dann also nach zweistufiger Selektion auf, woraus sich die größtmögliche Auflösung ergibt. Bei einohrigem Hören geht die Selektionswirkung der Ortsassoziationsstufe zumindest teilweise verloren, weil die ortsbestimmenden Reizmuster unvollständig vorliegen. Die gemeinsame Wirkung der beiden Verarbeitungsstufen, die von elementaren Hörerfahrungen geprägt werden, kommt besonders deutlich durch den Cocktailparty-Effekt zum Ausdruck. Er wurde 1953 von C. Cherry erstmals wissenschaftlich beschrieben, nachdem er Konversationen auf Partys monofon aufgenommen hatten und die Sprachverständlichkeit überraschend schlecht war. Lateralisation bei Kopfhörerdarbietung: Lateralisation ist die seitliche Verschiebung einer „Schallquelle im Kopf” bei Kopfhörerwiedergabe. Experimente zur Lateralisation geben also Aufschlüsse über die Auswertung interauraler Signalunterschiede bei Kopfhörerwiedergabe, bei der die Signale nur jeweils ein Ohr erreichen. Sie geben nur Auskunft über die Funktion der Gestaltassoziationsstufe, weil die beiden Sendesignale unabhängig von der Senderentfernung einzeln entschlüsselt und der Gestaltassoziationsstufe zugeführt werden. Experimente zur Lateralisation lassen deshalb grundsätzlich keine Rückschlüsse zu auf die Funktion des Gehörs bei der Lokalisation einer Einzelschallquelle. Sie führen vielmehr zu Gesetzmäßigkeiten einer „Phantomschallquelle im Kopf”, siehe auch Kap. 5.7. Eine „Ersatzschallquelle im Kopf” gibt es nicht. Die Auswertung unterschiedlicher Ohrsignale, die das Gehör bei der Lokalisation einer Schallquelle vornimmt, lässt sich prinzipiell nicht mit zwei hinreichend nahe an den Ohren befindlichen Schallquellen 202
Stereofonie untersuchen. Hörversuche mit Kopfhörern sind Hörversuche mit zwei Schallquellen - es sei denn, es werden Kunstkopfsignale dargeboten, in diesem Fall existiert eine Ersatzschallquelle. Das aus dem Assoziationsmodell gewonnene Verständnis der Funktion des Gehörs beim räumlichen Hören hat maßgeblich zu verschiedenen Entwicklungen und Anwendungen im Bereich der stereofonen Aufnahme- und Wiedergabetechnik beigetragen. Dazu gehören die Weiterentwicklung der Kunstkopftechnik (siehe Kap. 5.6), die Diffusfeldentzerrung für Studio-Kopfhörer (siehe Kap. 5.7), die Entwicklung des Kugelflächenmikrofons (siehe Kap. 5.2.4 und 5.3.4.3), das Konzept der raumbezogenen Stütztechnik (siehe Kap. 5.2.4 und 5.3.5), Konzepte der Verbindung von Wellenfeldsynthese und Stereofonie (siehe Kap. 5.8.4), die Beurteilung der Eigenschaften der Wellenfeldsynthese (siehe Kap. 5.8.3).
5.2.4
Räumliche stereofone Abbildung
Das Gehör wertet verschiedene Merkmale des Schallfelds zu räumlichen Hörereignismerkmalen aus, dazu gehören neben der Hörereignisrichtung einschließlich ihrer Erhebung die Entfernung, die räumliche Tiefe, der Raumeindruck und die Umhüllung. Der Begriff Raumeindruck umfasst zwei Attribute des Klangbilds: Das erste ist „Räumlichkeit”, eine räumliche Verbreiterung des Hörereignisses, verursacht durch frühe Reflexionen mit einer Verzögerung von 10 bis 80 ms. Das zweite ist „Halligkeit”, eine zeitliche Verwischung des Hörereignisses, verursacht von späten Reflexionen und Nachhall. In Tab. 5/1 ist grob dargestellt, welche Bedeutung der Direktschall, die frühen Reflexionen, der Nachhall und der umhüllende Schall für die einzelnen Klangbildattribute besitzen. Der umhüllende Schall kann sowohl umgebenden diffusen Schall, in der Praxis meist „Atmo” genannt; als auch den hörbar ausklingenden Nachhall enthalten. Siehe auch Kap. 1.2. Tab. 5/1. Zusammenhang von Klangbildattributen und Schallfeldtypen. Attribute des Klangbilds
Komponenten des Schallbilds Direktschall
Richtung und Erhebung Entfernung, Tiefe Räumlichkeit Halligkeit Raumeindruck Umhüllung Klangfarbe
!!
frühe, sog. erste Reflexionen !
Nachhall
!! !!
!
!! !!
!
!! !! ! !!
umhüllender Schall
!!
Die Wirkung des reflektierten Schalls ist in Abb. 5/16 dargestellt. Man erkennt, dass das natürliche Muster der frühen Reflexionen mit einer Verzögerung von 15 bis 50 ms für das räumliche Hören eine besonders wichtige Rolle spielt. Die Attribute Entfernung, räumliche Tiefe, Räumlichkeit - in der Literatur auch „apparent source width”, scheinbare Quellenausdehnung genannt - sind von diesem Schallanteil beeinflusst. Das Gehör entnimmt den 203
Tonaufnahme und Tonwiedergabe frühen Reflexionen auch die Informationen über die Größe des Raums. Besonders dieser Teil des reflektierten Schalls erfordert für die Aufnahme Kenntnis und Sorgfalt. Hinzu kommt, dass die Möglichkeiten der räumlichen Darstellung bei Anwendung stereofoner Verfahren mehr oder weniger eingeschränkt sind, besonders bei der Zweikanal-Stereofonie. Die Kenntnis auch darüber ist hilfreich, um das gewünschte Klangbild im gegebenen Rahmen zufriedenstellend realisieren zu können. In den folgenden beiden Abschnitten werden die entsprechenden Eigenschaften der Zwei- und Mehrkanalstereofonie erläutert.
Abb. 5/16. Zuordnung der Klangbildattribute zum zeitlichen Ablauf des Raumschalls.
5.2.4.1
Zweikanal-Stereofonie
Welche Qualität der stereofonen Darstellung eines räumlichen Klangbilds ist grundsätzlich möglich bei zweikanaliger Lautsprecherwiedergabe, welche stereofonen Lautsprechersignale benötigt das Gehör dazu? Die Antworten lassen sich so zusammenfassen: Entfernung der Phantomschallquelle: Die Entfernung der Phantomschallquelle ist gleich der mittleren Entfernung der beiden StereoLautsprecher. Phantomschallquellen außerhalb der stereofonen Lautsprecherbasis sind nicht möglich. Verfahren, welche durch Kompensation der interauralen Übersprechanteile der Lautsprecher die kopfbezogene Reproduktion binauraler Signale anstreben, arbeiten nicht mit Phantomschallquellen.
Abb. 5/17. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie.
204
Stereofonie Akustisches Umfeld: Alle Schallfeldanteile - Direktschall, frühe Reflexionen und Nachhall - erreichen den Hörer nur aus dem vorderen Abbildungssektor ± 30/ und erzeugen nur vor ihm ein stereofones Klangbild. Die räumliche und zeitliche Auflösung des in Abb. 5/16 dargestellten Direktschalls und der frühen Reflexionen zeigt Abb. 5/17. Die im Originalraum vorhandenen Richtungen der frühen Reflexionen sowie die Richtungsdiffusität des Nachhalls sind auf den Abbildungssektor ± 30/ zusammengedrängt. Das akustische Umfeld des Hörers ist allein durch den Wiedergaberaum festgelegt und für die Darstellung des Originalraums normalerweise nicht oder nur sehr bedingt geeignet. Räumliche Tiefe: Die räumliche Perspektive wird lautsprecherbezogen, d. h. in einer Simulationsebene zwischen den Lautsprechern dargestellt, ähnlich der perspektivischen Darstellung auf einem Bild. Die reale Entfernung der stereofonen Abbildungsebene entspricht der realen Entfernung eines Bilds (Abb. 5/18). Im Bild wird räumliche Tiefe durch visuelle räumliche Merkmale dargestellt. In ähnlicher Weise werden Tiefe und Entfernung in der stereofonen Abbildungsebene durch räumliche Merkmale eines Schallfelds dargestellt, v. a. also durch frühe Reflexionen, Nachhall, Lautstärkenverhältnisse und Klangfarbe.
Abb. 5/18. Simulation von räumlicher Tiefe in einer Abbildungsebene. Der Abstand des Bilds kann mit dem Abstand von Stereolautsprechern vor dem Zuhörer verglichen werden.
Darstellung der räumlichen Perspektive: Die Darstellung der räumlichen Perspektive in der Simulationsebene gelingt umso besser, je genauer die interauralen Signaldifferenzen beim natürlichen Hören durch die Unterschiede der Lautsprechersignale nachgebildet werden. Das Gehör erkennt die Beziehungen zwischen linkem und rechtem Lautsprechersignal und wertet sie gemäß der Hörerfahrung aus. Zusammenfassend ist somit festzustellen, dass die zweikanalige stereofone Abbildung auf der direkten Auswertung der Beziehungen der Lautsprechersignale durch das Gehör beruht, nicht 205
Tonaufnahme und Tonwiedergabe die resultierenden Unterschiede der Ohrsignale beim Hörer im Wiedergaberaum sind entscheidend. Vielmehr lassen sich die räumlichen Eigenschaften des Klangbilds optimieren, indem sowohl das Hauptmikrofon als auch die Verarbeitung der Stützsignale möglichst natürliche interaurale Signaldifferenzen erzeugen (siehe auch Kap. 5.3.4.3 sowie 5.3.5.3). Besonders die reine Intensitätsstereofonie sowie die gebräuchliche Intensitätsstütztechnik oder Multimikrofonie erfüllen diese Forderung ohne unterstützende Signalverarbeitung nicht ausreichend. 5.2.4.2
Mehrkanal-Stereofonie
Durch den Einsatz zusätzlicher Surround-Lautsprecher im seitlichen bzw. hinteren Bereich des Hörers wird eine zweite Dimension hinzugefügt, so dass sich das akustische Umfeld des Hörers real gestalten lässt. Die zwei Surround-Kanäle im 3/2-Standardformat ermöglichen es, die Richtungsverteilung von Direktschall und reflektiertem Schall zweidimensional zu reproduzieren. Das in Abb. 5/16 gezeigte Reflexionsmuster wirkt - im Gegensatz zur Zweikanal-Stereofonie - in der notwendigen Richtungsauflösung, siehe Abb. 5/19.
Abb. 5/19. Räumliche und zeitliche Verteilung der frühen Reflexionen bei Zweikanal-Stereofonie.
Die dargestellte Richtungsverteilung basiert auf stereofoner Wiedergabe der Reflexionen. Die für die Seiten mangelhafte Stabilität von Phantomschallquellen (siehe Kap. 5.2.1) ist hier nicht störend, weil die von allen Seiten am Surround-Mikrofon eintreffenden Reflexionen ganz unterschiedliche Laufzeitdifferenzen in den Kanälen aufweisen. Der gewünschte Effekt ist in der Hörzone deshalb weitgehend unabhängig vom Hörerplatz. Die stereofone Qualität ändert sich von einem simulierten hin zu einem wirklichen Eindruck räumlicher Tiefe, wenn die seitlichen Reflexionen tatsächlich den Zuhörer von der Seite erreichen. Sie erzeugen eine natürliche raumspezifische interaurale Dekorrelation der beiden Ohrsignale und damit Tiefe und Räumlichkeit. Man weiß aus der Raumakustik von Konzertsälen, dass seitliche Reflexionen besonders wichtig sind. In Vergleich dazu sind frühe Reflexionen aus der Medianebene, in einem Konzertsaal Reflexionen von der Decke, eher schädlich. Das Hinzufügen der zweiten Dimension bedeutet im Prinzip, dass die Anzahl der im stereofonen Signal für Zweikanal-Wiedergabe enthaltenen Reflexionen sich nicht erhöht. Vielmehr 206
Stereofonie werden diese Reflexionen nun räumlich verteilt abgebildet, wie in den Abb. 5/16 und 5/19 dargestellt. Das hat natürlich Konsequenzen für die Aufnahme. Es ist in Hinblick auf korrekte Abbildung der frühen Reflexionen wichtig, dass die Mikrofon-Konfiguration diese Trennung der Abbildungsrichtungen weitgehend gewährleistet. Geschieht das nicht, so ist die reproduzierte Reflexionsdichte zu hoch, da einzelne Reflexionen mehrfach abgebildet werden. Näheres dazu in Kap. 5.4.3. Bei der Wiedergabe seitlicher Reflexionen werden die Lautsprecher des linken und rechten Surroundkanals LS und RS nicht als solche seitlich wahrgenommen, sondern sie verbessern die Qualität der stereofonen Abbildung vor dem Hörer durch Schaffung von Tiefe - ein alter Wunsch in der Zweikanal-Stereofonie. Der eigentliche stereofone Abbildungsbereich vergrößert sich dadurch nicht. Auch bezüglich der Wirkung des Nachhalls sind die Lautsprecher bei richtiger Handhabung der Aufnahmetechnik (siehe Kap. 5.4) nicht als Schallquellen wahrnehmbar. Ausreichende Dekorrelation des Nachhalls und des umgebenden diffusen Schalls in den vier Kanälen L, R, LS und RS ermöglicht im Bereich der Hörzone eine ausgewogene Umhüllung. Insgesamt geht durch das Hinzufügen der Surround-Lautsprecher die Darstellung räumlicher Attribute des Klangbilds von der Qualität einer Simulation in die Qualität einer realen Wahrnehmung über. Der Hörer fühlt sich in das akustische Geschehen einbezogen. Das akustische Umfeld des Hörers ist nicht durch den Wiedergaberaum geprägt, vielmehr kann es bei der Aufnahme durch den Tonmeister gestaltet werden im Sinne einer optimalen Reproduktion räumlicher Attribute oder zur Erzeugung eines neuen künstlichen Raums.
5.2.5
Begriffe zur stereofonen Richtungsabbildung
In Tab. 5/2 sind die wichtigsten Begriffe zur stereofonen Richtungsabbildung, so wie sie in Kap. 5.2 eingeführt und erläutert wurden, mit kurzen Definitionen zusammengestellt. Sie gelten übergreifend für Stereofonie bei Lautsprecherwiedergabe, für die in Kap. 5.3 dargelegte Aufnahmetechnik der Zweikanal-Stereofonie ebenso wie für die in Kap. 5.4 dargelegte Aufnahmetechnik der Mehrkanal-Stereofonie. Für Versatzwinkel wird auch der Ausdruck Achswinkel benutzt, er ist für Nierenmikrofone anschaulich, bei Achtermikrofonen und auf Acht umschaltbaren Mikrofonen jedoch verwirrend, da die Achse der Mikrofone hier um 90/ gedreht ist. Tab. 5/3 fasst die Ergebnisse für den Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Phantomschallquellenauslenkung, wie in Kap. 5.2 erläutert, zusammen, auch sie gilt für Zweiund Mehrkanalstereofonie in gleicher Weise.
207
Tonaufnahme und Tonwiedergabe Tab. 5/2. Begriffe zur stereofonen Richtungsabbildung. Begriff Lautsprecherwiedergabe
Basisbreite, Lautsprecherbasis Basisöffnungswinkel
ZweikanalStandardanordnung Referenzpunkt
Abbildungsverzerrungen Auslenkung der Phantomschallquelle, (phantom source shift)
Auslenkungskoeffizient
Mikrofonaufnahme
Stereomikrofon
Basis, Mikrofonbasis (base) Abbildungskurve, (localisation curve) Aufnahmewinkel, Aufnahmewinkel 100 % (recording angle)
Aufnahmewinkel 75 %, (recording angle 75 %) Schalleinfallswinkel (input source angle) Versatzwinkel (epsilon) Äquivalenzmikrofonanordnung
208
Definition gegenseitiger Abstand zweier Lautsprecher, die Phantomschallquellen bilden Winkel, unter dem die zwei Lautsprecher, die Phantomschallquellen bilden, vom Hörort aus erscheinen, bei Zweikanal-Standardanordnung 60/ Anordnung der Stereolautsprecher in einem gleichseitigen Dreieck mit dem Hörer, Basisöffnungswinkel also 60/ Position des Hörers bei der Zweikanal-Standardanordnung, Referenzpunkt und Lautsprecher bilden ein gleichseitiges Dreieck Verfälschung der Auslenkung der Phantomschallquellen durch Hörerposition außerhalb des Referenzpunkts Auslenkung der Phantomschallquelle aus der Mitte in % der halben Basis, Auslenkung bis in den Lautsprecher gleich 100 %, bei gegebenem Basisöffnungswinkel auch in / angegeben, in der Zweikanal-Standardanordnung gleich 30/ Auslenkung der Phantomschallquelle aus der Mitte der Lautsprecherbasis in % bei Pegel- oder Laufzeitdifferenzen: Pegeldifferenzen: 7,5 %/dB Laufzeitdifferenzen: 13 %/0,1 ms Mikrofonsystem, das aus zwei (ZweikanalStereofonie) oder mehr (Mehrkanalstereofonie) einzelnen Mikrofonen zusammengesetzt ist Abstand zwischen zwei Mikrofonen bzw. Kapseln einer Stereomikrofonanordnung Zusammenhang zwischen Schalleinfallswinkel am Stereomikrofon und Phantomschallquellenauslenkung gesamter Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schalleinfallsrichtungen gemäß Abbildungskurve abgebildet werden, Schallquellen außerhalb dieses Bereichs erzeugen Signale in den Lautsprechern L bzw. R Winkelbereich eines zwei- oder mehrkanaligen Stereomikrofons, innerhalb dessen Schallquellen im Auslenkungsbereich ± 75 % abgebildet werden Winkel, unter dem sich eine Schallquelle vom Mono- oder Stereomikrofon aus gesehen befindet, bezogen auf dessen Mittelachse Winkelabweichung der Mikrofon-Mittelachsen von der Mittelachse einer Stereo-Mikrofonanordnung Mikrofonanordnung, die Pegel- und Laufzeitdifferenzen liefert, die gleichsinnig und etwa mit gleichen Beträgen zur Phantomschallquellenauslenkung beitragen
Stereofonie Tab. 5/3. Zusammenhang von Pegel- bzw. Laufzeitdifferenzen und Phantomschallquellenauslenkung, Werte teilweise gerundet. Laufzeitdifferenzen für 100 % Auslenkung sind nicht eindeutig definiert, siehe oben Kap. 5.2.1.2.
Auslenkungskoeffizienten
Pegeldifferenzen
Laufzeitdifferenzen Äquivalenz von Pegelund Laufzeitdifferenzen
5.2.6
1 dB bewirkt 7,5 % 0,1 ms bewirken 13 % 0,06 ms entsprechen 1 dB
Signaldifferenzen für die Auslenkungen ±50 %
±75 %
±100 %
± 7 dB
± 10 dB
± 15 dB
± 0,4 ms
± 0,6 ms
(± 1 ms)
± 0,4 ms oder ± 7 dB
± 0,6 ms oder ± 10 dB
±1 ms oder ±15 dB
Aspekte zur Anwendung der Aufnahmeverfahren
Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maß. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum, seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber keine Räumlichkeit. Aus diesen Gesichtspunkten heraus ergeben sich grundsätzliche Zuordnungen zwischen Aufnahmetechniken sowie ihren Klangergebnissen (Tab. 5/4) und die bevorzugte Zuordnung zu Programmsparten (Tab. 5/7). Natürlich wirken in der Praxis viele weitere Faktoren auf die optimale Mikrofonaufstellung ein, dazu gehört die Akustik des Raums, gewohnte Sitzanordnungen, Sichtprobleme, Lautstärkenbalance, musikalische, künstlerische Erfordernisse u. v. m., aber auch Gesichtspunkte wie Möglichkeiten für Soundchecks bzw. ihr Fehlen, die im Einzelfall die hier angeführten grundsätzlichen Gesichtspunkte relativieren. Jede Aufnahme ist ein hoch komplexes Zusammenwirken unterschiedlichster Bedingungen, die in jedem einzelnen Fall berücksichtigt und gegeneinander abgewogen werden müssen. Ziel einer Aufnahme ist nicht die Erfüllung von aufnahmetechnischen Grundsätzen, sondern die Realisierung des gewünschten Klangbilds. Das kann auf Grund der sehr komplexen Bedingungen bei Aufnahmen auch zu unkonventionellen Lösungen führen, für die es zunächst keine technische Plausibilität zu geben 209
Tonaufnahme und Tonwiedergabe scheint. Die Aufnahmetechnik ist im besonderen Maß der Bereich der Tonstudiotechnik, der kreatives Engagement erlaubt. [5.18, 5.19, 5.20] Tab. 5/4. Eigenschaften des Klangbilds bei den verschiedenen Mikrofonverfahren bei Stereoaufnahmen und ihre Eignung für verschiedene Programmsparten. Eigenschaften des Klangbilds bei der Wiedergabe
gute Abbildung der Richtung gute Präsenz der Schallquellen gute Tiefenstaffelung der Schallquellen guter Raumeindruck besonders geeignet für aktuelles und dokumentarisches Wort Hörspiel populäre Musik Jazz klassische Musik
5.3
Intensitätsverfahren (MS, XY)
Einzelmikrofonverfahren
!
!
Laufzeit- gemischte Stützverfahren Verfah- mikrofon(AB) ren (z. B. verfahren ORTF, KFM) ! !
!
!
!
!
! ! !
! ! !
!
!
!
!
!
!
!
! !
! !
Zweikanal-Stereofonie
Die Gestaltung und Kontrolle der Qualität einer Tonaufnahme, die Abhörkontrolle, erfordert geeignete qualitativ hochwertige Studiolautsprecher, einen akustisch geeigneten Abhörraum (siehe hierzu Kap 18.6.1 ) sowie die Festlegung der Geometrie der Anordnung von Hörer und Lautsprecher. Als internationale Empfehlung der EBU sind die Kriterien für die Qualitätskontrolle in EBU R22 „Listening conditions for the assessment of sound programme material” und wichtige Details in EBU Tech 3276 vereinbart worden. Suppl. 1 zu Tech 3276 legt die Geometrie der Abhörsituation fest: Die Lautsprecher sollen mindestens 1,2 m über dem Fußboden aufgestellt oder aufgehängt sein, ihre Achsen zeigen auf den festgelegten Abhörplatz, wobei eine Neigung von 10° in der vertikalen Ebene nicht überschritten werden soll. Lautsprecher sollen an der Wand oder mit einem Abstand von höchstens 1 m von der Wand montiert werden. Der Abhörplatz soll mindestens 1,5 m von den Wänden entfernt sein. Die zwei Lautsprecher und der optimale Abhörplatz bilden zusammen ein gleichseitiges Dreieck (siehe Abb. 5/2), vom Hörer aus beträgt die Lautsprecherbasis demnach 60°. Die Lautsprecherbasis soll zwischen 2,0 und 4,0 m liegen. Für die Kontrolle der Kompatibilität einer Aufnahme wird ein Mittenlautsprecher auf der Lautsprecherbasis empfohlen. 210
Zweikanal-Stereofonie
5.3.1
Übersicht über die Aufnahme- und Mikrofonverfahren
Innerhalb der Zweikanal-Stereofonie – in diesem Kapitel einfach mit Stereofonie bezeichnet gibt es verschiedene Aufnahme- und Mikrofonverfahren, die zum Teil auch miteinander kombiniert werden können. Die Aufnahmeverfahren beruhen darauf, dass die Richtungseinordnung von Real- und Phantomschallquellen bei der Wiedergabe entweder ausschließlich durch Pegeldifferenzen zwischen dem linken Kanal L und dem rechten Kanal R oder ausschließlich durch Laufzeitdifferenzen zwischen L und R oder aber auch durch deren Kombination realisiert wird. Mit reinen Pegeldifferenzen arbeiten die Aufnahmeverfahren der Intensitätsstereofonie, mit reinen Laufzeitdifferenzen diejenigen der Laufzeitstereofonie. Die gemischten Aufnahmeverfahren kombinieren Pegel- und Laufzeitunterschiede. Die Mikrofonverfahren legen die Richtcharakteristik, die Ausrichtung und die Anordnung der Mikrofone innerhalb des Aufnahmeverfahrens fest. Tab. 5/5 gibt einen Überblick über gebräuchliche Aufnahme- und Mikrofonverfahren der Stereofonie und ihre Kombinationsmöglichkeiten; Abb. 5/20 stellt die Prinzipien der Verfahren dar. Man unterscheidet die Hauptmikrofonverfahren von den Einzelmikrofonverfahren: Mit einem Hauptmikrofon versucht man, die gesamte Schallquellenanordnung, z. B. einen Chor, mit einem einzigen Mikrofonsystem für stereofone Aufnahme aufzunehmen, in der Regel besteht es aus zwei kombinierten Einzelmikrofonen. Bei den Einzelmikrofonverfahren wird aus den Signalen mehrerer oder vieler Einzelmikrofone das stereofone Klangbild in der Tonregie durch den Tonmeister erstellt.
Abb. 5/20. Aufnahmeverfahren der Zweikanal-Stereofonie mit verschiedenen Mikrofonverfahren, )p = Pegeldifferenzen, )t = Laufzeitdifferenzen.
Das bei reiner Intensitätsstereofonie als Hauptmikrofon verwendete Mikrofonsystem besteht aus zwei getrennten Mikrofonen, die dicht über- oder bei XY auch nebeneinander als Einzelmikrofone oder als komplettes System, als Koinzidenz-Mikrofon, angeordnet sind, es handelt sich um ein Stereomikrofon. Völlig anders konzipiert ist das Einzelmikrofonverfahren bei Intensitätsstereofonie, bei dem im Nahbereich der Teilschallquellen, z. B. bei Einzelinstrumenten, ein Mikrofon aufgestellt wird, dessen Abbildungsrichtung in der Tonregie mit dem sog. Panorama-Potentiometer oder Panpot bestimmt wird; das Panpot erzeugt Pegeldifferenzen bei der Zumischung zu den Kanälen L und R. Schließlich kann das Hauptmikrofonverfahren mit dem Einzelmikrofonverfahren kombiniert werden zu dem bei großen Klangkörpern viel angewendetem Hauptmikrofon-Stützmikrofonverfahren oder einfach Stützmikrofonverfahren; hierbei ergibt 211
Tonaufnahme und Tonwiedergabe die Gewichtung des Hauptmikrofons gegenüber der Gesamtheit der Stützmikrofone wieder unterschiedliche Philosophien der Aufnahmetechnik. Tab. 5/5. Aufnahme- und Mikrofonverfahren der Zweikanal-Stereofonie. Aufnahmeverfahren Intensitätsstereofonie
Laufzeitstereofonie
gemischte Stereoverfahren, Kombination von Intensitäts- und Laufzeitstereofonie
Mikrofonverfahren
Bemerkungen
Hauptmikrofonverfahren: - XY-Verfahren, - MS-Verfahren
auch KoinzidenzMikrofonverfahren genannt
Einzelmikrofonverfahren
auch Poly- oder Multimikrofonie genannt.
Stützmikrofonverfahren
Kombination von Hauptund Einzelmikrofonverfahren
Hauptmikrofonverfahren: - AB-Verfahren kein Einzelmikrofonverfahren Hauptmikrofonverfahren: - Anordnungen nach den WilliamsKurven, z. B. ORTF-Verfahren, - Anordnungen mit Trennkörpern, z. B. Kugelflächenmikrofon Kombination von Haupt- und Einzelmikrofonverfahren
Die Laufzeitstereofonie gewinnt das stereofone Klangbild mit dem AB-Mikrofonverfahren aus Laufzeitdifferenzen zwischen den Signalen zweier Einzelmikrofone, die einen Abstand zueinander haben, die sog. Mikrofonbasis. Ein Stützmikrofonverfahren in reiner Laufzeitstereofonie müsste jedem einzelnen Mikrofon die notwendige Laufzeitdifferenz zwischen L und R zuweisen, was in der Aufnahmepraxis sehr aufwändig wäre, auch bezüglich der notwendigen Geräte. In der Praxis wird das AB-Verfahren, wenn es mit Stützmikrofonen optimiert werden soll, deshalb mit Stützmikrofonen in Intensitätsstereofonie ergänzt. Bei den gemischten Stereoaufnahmeverfahren wirken Intensitäts- und Laufzeitdifferenzen zwischen L und R gleichgerichtet zusammen. Die Intensitätsunterschiede können unabhängig von der Frequenz sein, wie bei den Anordnungen nach Williams mit dem ORTF-Verfahren z. B., oder abhängig von der Frequenz wie bei den Trennkörperverfahren, z. B. dem Kugelflächenmikrofon. Tragen die Intensitäts- und Laufzeitdifferenzen etwa gleich viel zur Auslenkung der Phantomschallquelle bei, so können die Verfahren als „Äquivalenz-Mikrofonverfahren” bezeichnet werden. Gemeinsam ist allen Hauptmikrofonverfahren, dass die Auswahl des Mikrofontyps, der Aufstellungsort, die Einstellungen der Richtcharakteristiken und die Ausrichtung der Mikrofone sorgfältiger Vorüberlegung und Planung bedürfen, um optimale Ergebnisse zu erhalten; die dazu notwendigen Kenntnisse vermitteln die folgenden Kapitel. Eine Einstellung mit dem Gehör kann nur in kleineren Korrekturen bestehen oder im Vergleich mehrerer Alternativen, 212
Zweikanal-Stereofonie die stets möglich sind. Im Gegensatz dazu führt beim Einzelmikrofonverfahren eine sorgfältige Abhörkontrolle zu einem guten Ergebnis. Sind die Einzelmikrofone Bestandteil des Stützmikrofonverfahrens, so sollten ungeeignete Einstellungen des Hauptmikrofons nicht durch Stützmikrofone korrigiert oder verschleiert werden. Die Feststellungen der folgenden Kapitel zu den Aufnahmewinkeln der einzelnen Mikrofonverfahren sind vorwegnehmend in Tab. 5/6 für die gebräuchlichsten Verfahren zusammengeführt; sie beruhen auf den in Kap. 5.2 dargelegten und in Tab. 5/2 zusammengefassten Zusammenhängen zwischen Pegel- und Laufzeitdifferenzen mit der Auslenkung der Phantomschallquellen. Die Wahl des richtigen Aufnahmewinkels ist Voraussetzung für eine korrekte Verteilung der Phantomschallquellen auf der Lautsprecherbasis und damit für eine optimale Aufnahmetechnik. Die genannten Winkelgrade sind errechnete Werte, die in der Praxis so genau nicht eingehalten werden können und müssen. [5.29, 5.30, 5.31, 5.69] Tab. 5/6. Mikrofonverfahren und ihre Aufnahmewinkel mach dem „Image Assistant” [5.24] bei 5 m Abstand zur Schallquelle. Mikrofonverfahren Mikrofonbasis XY: 0 cm
Richtcharakteristik 2 x Niere
2 x Superniere 2 x Acht (Blumlein) AB: 30 cm 2 x Kugel 40 cm 50 cm 60 cm gemischte Verfahren nach den Williams-Kurven: 17 cm (ORTF) 2 x Niere 10 cm (ORTF, Var. 1) 20 cm (ORTF, Var. 2) gemischte Verfahren mit Trennkörpern: Kugelflächenmikrofon: Durchmesser 20 cm Durchmesser 18 cm
Aufnahmewinkel Versatz- 50 % 75 % winkel
100 %
± 45/ ± 60/ ± 75/ ± 90/ ± 35/ ± 45/
100/ 76/ 56/ 44/ 96/ 42/
142/ 108/ 84/ 66/ 128/ 58/
180/ 146/ 116/ 92/ 152/ 72/
0/
50/ 38/ 30/ 25/
84/ 60/ 48/ 40/
180/ 98/ 74/ 60/
± 55/ ± 50/ ± 30/
44/ 60/ 52/
68/ 90/ 84/
102/ 132/ 132/
90/ 120/
Die verschiedenen Aufnahme- und Mikrofonverfahren bewirken unterschiedliche Qualitäten des Klangbilds, sie eignen sich deshalb auch für die einzelnen Anwendungen in unterschiedlichem Maße. Die Verfahren der Intensitätsstereofonie zeichnen sich durch vergleichsweise gute Lokalisierbarkeit der Phantomschallquellen aus, während die Tiefenstaffelung der 213
Tonaufnahme und Tonwiedergabe Schallquellen und der Raumeindruck, also die Wahrnehmung des Einbezogenseins in den Raum, seine Größe, Halligkeit und Räumlichkeit (siehe Kap. 1.2.2) weniger ausgeprägt sind. Die Laufzeitstereofonie hingegen bildet bei etwas diffuser Lokalisierbarkeit der Schallquellen die Tiefenstaffelung und den Raumeindruck besser ab. Alle Hauptmikrofonverfahren unterstützen wegen des notwendigerweise größeren Mikrofonabstands nicht die Präsenz, geben aber einen besseren Raumeindruck als das Einzelmikrofonverfahren. Der geringe Mikrofonabstand beim Einzelmikrofonverfahren fördert die Präsenz einer Aufnahme, übermittelt aber kaum die Räumlichkeit. Daraus ergeben sich Zuordnungen zwischen Aufnahmetechniken und Programmsparten, die Tab. 5/6 angibt, ergänzend zu ihren Klangergebnissen.
5.3.2
Intensitätsstereofonie
Bei Intensitätsstereofonie bestehen zwischen den Stereosignalen L und R für seitliche Phantomschallquellen ausschließlich Pegeldifferenzen, keine Laufzeit- bzw. Phasendifferenzen; bei mittigen Phantomschallquellen sind die Pegel von L und R gleich. Aufnahmen in dieser Technik sind daher prinzipiell monokompatibel. Nach Einführung der Stereofonie in den späten 1950er und 1960er Jahren war die Frage der Kompatibilität eine zentrale Frage der Aufnahmetechnik, da zunächst noch eine große Zahl von Monogeräten in den Haushalten existierte. Damit empfahl sich die Intensitätsstereofonie v. a. im Bereich des öffentlichrechtlichen Rundfunks als Aufnahmetechnik erster Wahl. Der allgemein eingeführte Begriff „Intensitätsstereofonie” ist zwar nicht falsch, aber im Hinblick darauf, dass man stets von Pegeln spricht, etwas verwirrend. Bei der Intensitätsstereofonie gibt es drei Mikrofonverfahren: das Hauptmikrofonverfahren in MS- oder XY-Technik, das Einzelmikrofonverfahren und das Stützmikrofonverfahren als Kombination beider Verfahren. [5.32, 5.33] Die Genauigkeit der Lokalisation ist beim Hauptmikrofonverfahren in MS- und XY-Technik gut, sie liegt in der Praxis bei üblicher Lautsprecheranordnung im Bereich von ± 5/; damit können bis etwa 10 unterschiedliche Positionen der Phantomschallquellen beim Abhören bei Standard-Stereoanordnung mit 60/ Lautsprecheröffnungswinkel ausreichend unterschieden werden. Die Tiefenstaffelung ist weniger deutlich als bei den Hauptmikrofonverfahren der Laufzeit- und gemischten Verfahren. Das Einzelmikrofonverfahren bietet durch die getrennte Aufnahme der Schallquellen bei guter Lokalisierbarkeit größere Freiheit bei der Gestaltung des Klangbilds: Die Position der Phantomschallquellen kann weitgehend frei bestimmt werden. Wichtiger ist aber, dass die Balance der Lautstärken der Einzelschallquellen sowie ihre jeweiligen klanglichen Eigenschaften getrennt gestaltet werden können, die Abbildung der Raumakustik des Aufnahmeraums ist dabei nicht möglich. Vielfach angewendet wird das Stützmikrofonverfahren, mit dem die Stärken von Haupt- und Einzelmikrofonverfahren kombiniert werden können. 5.3.2.1
XY-Mikrofonverfahren
Das XY-Mikrofonverfahren verwendet ein Stereomikrofon, dessen zwei Mikrofonsysteme auf dieselbe Richtcharakteristik - entweder Niere (Cardioide), Superniere, Hyperniere (Hypercardioide)) oder Acht, nicht aber Kugel - eingestellt werden. Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale X und Y 214
Zweikanal-Stereofonie bezeichnet. Ihre Summe M = L + R ergibt ein einwandfreies Monosignal. Die Achsen der Hauptempfindlichkeit der Systeme liegen gekreuzt und symmetrisch zur fiktiven, auf das Zentrum des Klangkörpers gerichteten Mittelachse, sie schließen jeweils mit ihr den sog. Versatzwinkel d, auch Achswinkel genannt, ein (Abb. 5/21). System I zeigt dabei nach links, System II nach rechts bei Blickrichtung vom Mikrofon auf die Schallquelle. Die beiden Mikrofone schließen also den Winkel dx + dy = 2d ein. Für die Abbildung ganz seitlich ist eine Pegeldifferenz von mindestens 15 dB erforderlich. Betrachtet man aber Abb. 5/21, so ergibt sich für die Position der Schallquelle ganz rechts, dass System I kein Signal abgibt, System II gibt einen Pegel von - 6 dB bezogen auf den Maximalpegel des Systems ab; die Pegeldifferenz ist demnach unendlich groß, nicht aber 15 dB, wie für die Abbildung ganz seitlich benötigt würde. Auch eine unendlich große Pegeldifferenz führt natürlich zur Abbildung ganz seitlich, also im Lautsprecher L bzw. R, aber auch alle Pegeldifferenzen über 15 dB ergeben diesen Abbildungsort, somit wird der ganze Außenbereich im Lautsprecher zusammengefasst, während der Bereich um die Mitte korrekt abgebildet wird. Die Abbildung der Schallquelle wird damit erheblich verzerrt. Um dies zu vermeiden, wird der Aufnahmewinkel ermittelt und definiert. Berücksichtig man bei der Aufnahme, dass der Aufnahmewinkel und die Ausdehnung der Schallquelle übereinstimmen, werden alle Schallquellen durch die Phantomschallquellen bei der Wiedergabe so gut, wie das Verfahren es zulässt, abgebildet. Der Aufnahmewinkel definiert also den Winkelbereich, den das Mikrofonverfahren für die korrekte Aufnahme und Abbildung der Phantomschallquellen erfassen muss.
Abb. 5/21. Versatzwinkel *X und *Y bei einer XY-Mikrofonanordnung mit zwei gekreuzten Mikrofonen mit Nierenrichtcharakteristik.
Die Aufnahmewinkel und Auslenkungen der Phantomschallquellen der Anordnung nach Abb. 5/21 zeigt Abb. 5/22. Man erkennt, dass die Anordnung einen Aufnahmewinkel von 180/ besitzt und nicht 270/. Der Aufnahmewinkel wird rechnerisch ermittelt auf Grund der in Versuchen ermittelten Zusammenhänge für die Abbildung von Phantomschallquellen (siehe Kap. 5.2.2). Für die Position der Phantomschallquelle halb seitlich ist der Aufnahmewinkel 50 % maßgeblich, er liegt bei 100/; der Aufnahmewinkel 75 % mit 142/ definiert die Position dreiviertel seitlich, zugleich den Winkelbereich, innerhalb dessen die Phantomschallquellen 215
Tonaufnahme und Tonwiedergabe korrekt analog der Aufnahmesituation abgebildet werden. Tab. 5/7 nennt die Aufnahmewinkel 50 %, 75 % und 100 % für einige Versatzwinkel der XY-Anordnung Niere/Niere, Superniere/Superniere und Acht/Acht. Aufnahmewinkel und Versatzwinkel verlaufen entgegengesetzt: Mit kleiner werdendem Versatzwinkel wird der Aufnahmewinkel größer.
Abb. 5/22. Abbildungskurve für die XY-Anordnung Niere/Niere mit dem Versatzwinkel ± 45/ [5.24]
Tab. 5/7. Zusammenhang von Versatzwinkel und Aufnahmewinkel für die Anordnungen Niere/Niere, Superniere/Superniere und Acht/Acht [5.24]. Versatzwinkel 2 x Niere ± 45/ 2 x Niere ± 60/ 2 x Niere ± 75/ 2 x Niere ± 90/ 2 x Superniere ± 30/ 2 x Superniere ± 45/ 2 x Superniere ± 60/ 2 x Superniere ± 75/ 2 x Acht ± 30/ 2 x Acht ± 45/ 2 x Acht ± 60/
50 % 100/ 76/ 56/ 44/ 108/ 76/ 52/ 38/ 66/ 42/ 24/
Aufnahmewinkel 75 % 142/ 108/ 84/ 66/ 142/ 104/ 76/ 54/ 87/ 58/ 36/
100 % 180/ 146/ 116/ 92/ 166/ 130/ 98/ 72/ 102/ 72/ 46/
Die Kombination Niere/Niere erlaubt – wie aus Tab. 5/5 ersichtlich – insbesondere Aufnahmewinkel zwischen 90/ und 180/. Bei den praxisnahen Aufnahmewinkeln von 90/ bis 120/ ist der Versatzwinkel mit Winkeln um ± 50/ allerdings sehr groß, d. h. dass die Mikrofone, weil sie weit nach außen gedreht sind, nicht mehr auf die Schallquelle gerichtet sind und damit vom Schall aus Richtungen getroffen werden, in denen sie bezüglich ihres Frequenzgangs je nach Typ möglicherweise nicht optimal arbeiten. Die Kombination Niere/Niere eignet sich demnach besonders für größere Aufnahmewinkel oder, anders ausgedrückt, für geringere Entfernungen von der Schallquelle. Die Kombination Hyperniere/Hyperniere erlaubt – wie aus Tab. 5/5 bzw. 5/6 ersichtlich – deutlich kleinere Aufnahmewinkel. Bei den praxisnahen Aufnahmewinkeln von 90/ bis 120/ 216
Zweikanal-Stereofonie ist der Versatzwinkel mit rund 70/ bis 50/ zwar kleiner als bei der Kombination Niere/Niere, aber auch hier sind die Mikrofone nicht direkt auf die Schallquelle gerichtet. Die Kombination Acht/Acht erlaubt – wie aus Tab. 5/5 bzw. 5/6 ersichtlich – die kleinsten Aufnahmewinkel, sie bietet also die höchste Richtungsauflösung. Bei den praxisnahen Aufnahmewinkeln ist der Versatzwinkel mit 45/ bis 30/ relativ klein, die Mikrofone sind gut auf die Schallquelle gerichtet. Besonders für kleinere Aufnahmewinkel bzw. für größere Entfernungen von der Schallquelle eignet sich die Kombination Acht/Acht. Zwei unter einem Versatzwinkel von ± 45/ rechtwinklig gekreuzte Achten ergeben einen Aufnahmewinkel von 72/, diese Anordnung heißt „Blumlein-Verfahren”, also ein vergleichsweise sehr präzises Verfahren für kleine Aufnahmebereiche bzw. größere Entfernungen der Mikrofone von den Schallquellen. 5.3.2.2
MS-Mikrofonverfahren
Das MS-Mikrofonverfahren verwendet wie das XY-Mikrofonverfahren ein Koinzidenz- oder Stereomikrofon. Die Systeme I und II geben aber nicht unmittelbar die Signale L und R ab, sondern die Signale M und S, M für Mono-, Mitten- oder Summensignal, auch Tonsignal, und S für Stereo-, Seiten- oder Differenzsignal, auch Richtungssignal. Erst durch Summen- und Differenzbildung werden die Signale L und R gewonnen und umgekehrt. Da die Summe zweier gleich großer, aber unterschiedlicher Signale wie L und R eine Erhöhung des Gesamtpegels um 3 dB ergibt, muss bei der Umsetzung der Summenpegel um 3 dB bedämpft werden bzw. in der linearen mathematischen Ausdrucksweise mit dem Faktor 1/ 2 multipliziert werden. Weiter ist zu beachten, dass diese Formeln eigentlich für die Behandlung der Signale in der Übertragungstechnik gelten, in der Aufnahmetechnik werden die Signale nicht grundsätzlich mit ihrem vollen Pegel, also z. B. 100 % Aussteuerung, gemischt, sondern einem Pegel, der durch den gewünschten Aufnahmewinkel und durch die gewählte Richtcharakteristik des M-Signals bestimmt wird; somit ist z. B. L = k A L0. L = (M + S) A 1/ R = (M ! S) A 1/ M = (L + R) A 1/ S = (L ! R) A 1/
2 2 2 2
L R M S
= linker Kanal = rechter Kanal = Mittensignal = Seitensignal
Das M-Signal wird von System I, der feststehenden Kapsel eines Stereomikrofons geliefert, es ist unmittelbar das Monosignal, das also im Gegensatz zum XY-Verfahren von einem einzigen Monomikrofon stammt, das auf das Zentrum des Klanggeschehens gerichtet ist. Jede einstellbare Richtcharakteristik ist möglich, also Kugel, Nieren, Acht und alle Zwischenformen. Das S-Signal stammt von System II, der drehbaren Kapsel eines Stereomikrofons; sie ist stets auf Achterrichtcharakteristik und einen Versatzwinkel von -90/, mit Blick vom Mikrofon auf die Schallquelle also nach links, einzustellen. Wenn die positive Seite der Acht nach rechts anstatt nach links ausgerichtet ist, ergibt sich ein Seitentausch. Abb. 5/23 zeigt eine MSMikrofonanordnung mit Acht und Niere.
217
Tonaufnahme und Tonwiedergabe
Abb. 5/23. MS-Mikrofonanordnung aus Niere und Acht.
Der Aufnahmewinkel hängt vom Pegelverhältnis des M- und S-Signals ab, er wird mitbestimmt von den eingestellten Verstärkungen der Mikrofone und von der Richtcharakteristik des M-Signals. Er kann somit von der Regie aus, auch bei laufender Aufnahme, eingestellt oder verändert werden, wohingegen dies beim XY-Verfahren stets am Mikrofon selbst durch Veränderung des Versatzwinkels geschehen muss. Besondere Beachtung bei der Anwendung des Verfahrens muss dem Winkelbereich, bei dem das S-Signal größer als das M-Signal wird, gewidmet werden, in Abb. 5/23 die seitlichen Bereiche außerhalb der Schnittpunkte von M- und S-Signal. Wird M sehr klein gegen S und somit vernachlässigbar, so wird L = + S und R = ! S, ein identisches, jedoch verpoltes Signal für L und R, aufnahmetechnisch inakzeptabel, da nicht monokompatibel, allenfalls als besonderer Stereo-Effekt brauchbar. Zu 0 kann M werden nur bei der Niere bei 180/ und bei der Acht bei ± 90/. In der Aufnahmepraxis ist also stets besondere Aufmerksamkeit auf die Bereiche zu richten, in denen das S-Signal größer als das M-Signal ist. Als Beispiel kann die MS-Kombination Acht/Acht genannt werden, hier wird der rückwärtige Bereich grundsätzlich verpolt abgebildet, z. B. der Beifall von Publikum, der bei Monowiedergabe also teilweise ausgelöscht würde. 5.3.2.3
Äquivalenzen von XY- und MS-Mikrofonverfahren
XY- und MS-Mikrofonverfahren sind unter der Annahme idealer Richtcharakteristiken äquivalent, d. h. sie können in beiden Richtungen ineinander umgewandelt werden, nach den obigen Formeln. Diese Umwandlung wird als Stereomatrix oder Stereoumsetzung bezeichnet. Da M und S nach derselben Beziehung aus L und R gewonnen werden wie L und R aus M und S, kann die Umwandlung in beiden Richtungen mit demselben Gerät – dem Richtungsmischer, auch Stereomatrix, Stereoumsetzer, Differentialübertrager oder Summen-Differenzübertrager genannt, erfolgen; auch die Betriebsrichtung Eingang-Ausgang ist dabei dieselbe. Bei der Aufnahme wird nur MS nach LR bzw. XY gewandelt; bei der Übertragung über UKW-Rundfunk oder als analoger Fernsehton werden LR-Signale in MS-Signale umgewandelt und erst im Empfänger wieder dematriziert. Siehe Kap. 6.1.2 und 8.8.2 zu Details des Richtungsmischers. Eine schematische Zuordnung von XY- und MS-Richtcharakteristik-Kombinationen ist unter der Annahme idealer Richtcharakteristiken mathematisch schlüssig, allerdings gibt es eine Fülle von Kombinationen, z. B. bei MS nicht nur abhängig von der Richtcharakteristik des 218
Zweikanal-Stereofonie M-Signals, sondern auch von dem Pegelverhältnis M zu S. In der Praxis erhebt sich die Frage nach äquivalenten Richtcharakteristiken indessen kaum, da man es mit nicht idealen Richtcharakteristiken zu tun hat. 5.3.2.4
Praktischer Einsatz von Stereomikrofonen
Ergänzend zu den obigen Ausführungen sollen im Folgenden noch einige praktische Hinweise angefügt werden: Empirische Ermittlung des Aufnahmewinkels Möchte man bei Verwendung reiner Intensitätsstereofonie für eine gegebene Aufnahmesituation in der Praxis den optimalen Aufnahmewinkel einstellen, so kann man anstatt die vorhandenen Kenntnisse oder Hilfsmittel zu nutzen, ihn auch in der praktischen Situation empirisch finden, allerdings mit geringerer Genauigkeit, weil die Raumakustik das Ergebnis mehr oder weniger beeinflusst: Man stellt z. B. ein Metronom auf den seitlichsten Punkt der Schallquelle, z. B. eines Chors, und zieht bei einer MS-Anordnung den S-Pegel solange hoch, bis die Pegeldifferenz zwischen L und R 15 dB erreicht, wobei der Korrelationsgrad in jedem Fall positiv bleiben muss. Bei der XY-Anordnung müssen die Mikrofonkapseln symmetrisch nach außen oder innen verdreht werden, bis eine Pegeldifferenz von 15 dB erreicht wird. Möchte man umgekehrt den Aufnahmewinkel eines Stereomikrofons in der jeweiligen Situation ermitteln, geht man unter Hinwendung zum Mikrofon sprechend oder mit einer kleinen Schallquelle, z. B. einem Metronom, den Winkelbereich vor dem Mikrofon ab, beobachtet den Aussteuerungsmesser und bestimmt den Ort links und rechts für das Erreichen einer Pegeldifferenz von 15 dB, auch hier ergibt sich nur ein näherungsweises, aber brauchbares Ergebnis. Schall aus Richtungen außerhalb des Aufnahmewinkels Bei der Auswahl der Mikrofonanordnung in XY- bzw. MS-Technik ist auch die Frage wichtig, wie Schallquellen aus dem Bereich außerhalb des Aufnahmewinkels auf der Lautsprecherbasis abgebildet werden. Die MS-Anordnungen Kugel/Acht sowie die XY-Anordnung mit zwei Nieren mit dem Versatzwinkel ± 90/ nehmen Schall von vorne und von hinten mit gleicher Empfindlichkeit auf, der rückwärtige Bereich wird seitenrichtig nach vorne geklappt und den vorderen Schallquellen überlagert. Demgegenüber nehmen die Anordnungen Niere/Acht in MS und zwei Nieren mit Versatzwinkeln unter etwa 60/ in XY Schall von hinten deutlich vermindert seitenrichtig auf. Mit besonderer Sorgfalt sind die Kombinationen Acht/Acht in MS und XY einzusetzen, da rückwärtige Schallquellen hier mit derselben Empfindlichkeit, aber spiegelverkehrt eingeordnet werden. Kritisch sind seitliche Schallquellen: Sie erscheinen, sobald das S-Signal größer als das M-Signal ist ,bzw. sobald beim XY-Verfahren zwischen L und R gegenphasige Signale auftreten, nicht oder diffus lokalisierbar als verpolte Signale. Diese Mikrofonanordnungen sind also ungeeignet bei Schallquellen außerhalb des Aufnahmewinkels. Ausrichtung des Stereomikrofons Stereomikrofone bestehen aus zwei gegeneinander drehbaren, dicht nebeneinander oder auf einer gemeinsamen Achse dicht übereinander montierten Mikrofonkapseln. Ihre Richtcharakteristik ist auf alle möglichen Richtcharakteristiken umschaltbar. Die feststehende, mit dem Verstärker fest verbundene Kapsel von System I gibt das X- bzw. M-Signal ab; sie ist beim 219
Tonaufnahme und Tonwiedergabe XY-Verfahren bei Blick auf das Klanggeschehen nach links ausgerichtet, beim MS-Verfahren auf die Mitte bzw. auf das Zentrum der Schallquelle, die Ausrichtung wird durch einen Punkt, eine Leuchtdiode oder ein Firmenzeichen markiert. Die drehbare Kapsel von System II gibt das Y- bzw. S-Signal ab; sie ist beim XY-Verfahren spiegelbildlich zum X-System um den Versatzwinkel nach rechts gerichtet. Beim MS-Verfahren - System II ist hier stets eine Acht – ist die Kapsel mit ihrer positiven Seite nach links, unter - 90/ zur Achse des M-Signals ausgerichtet; ihre positive Seite ist ebenfalls durch einen Punkt o. ä. markiert. Bei hängendem Mikrofon - drehbare Kapsel nach unten gerichtet, Kabelanschluss oben herausgeführt - ändert sich am M-Signal nichts, das drehbare System II muss entsprechend nachgeführt werden. Laufzeitdifferenzen zwischen den beiden Mikrofonsystemen des Stereomikrofons und dadurch hervorgerufene Phasendifferenzen zwischen den Stereosignalen können das Klangbild bei hohen Frequenzen insbesondere bei Stereomikrofonen mit großen Membranen verfälschen. Schräger Schalleinfall ist demnach bei der Ausrichtung des Mikrofons möglichst zu vermeiden.
5.3.3
Laufzeitstereofonie
Das Mikrofonverfahren der Laufzeitstereofonie ist das sog. AB-Verfahren. Zwei Mikrofone werden in einem bestimmten Abstand zueinander, der Mikrofonbasis, nebeneinander vor der Schallquelle aufgestellt (Abb. 5/24). Sie liefern direkt die Signale L und R, oft zur Kennzeichnung ihrer Herkunft und Eigenschaften auch als Signale A und B bezeichnet.
Abb. 5/24. Prinzip des AB-Mikrofonverfahrens.
Wenn zwischen einem Punkt P des Klangkörpers und den beiden Mikrofonen A und B eine Wegdifferenz )l entsteht, ergeben sich Laufzeitdifferenzen zwischen den Mikrofonsignalen, die bei Lautsprecherwiedergabe Phantomschallquellen bilden. Die geringen Pegeldifferenzen, die sich wegen der unterschiedlichen Wege ergeben, spielen in der Praxis keine Rolle. A und B sind Monomikrofone mit bevorzugt Kugelrichtcharakteristik von Druckempfängern, aber auch parallel ausgerichtete Nieren- oder Achterrichtcharakteristik ist möglich; beide Mikrofone haben die gleiche Richtcharakteristik. Vorteilhafte Eigenschaften des AB-Mikrofonverfahrens sind in erster Linie die Darstellung räumlicher Merkmale einer Aufnahme, soweit dies mit einem Stereomikrofon in Zweikanal-Stereofonie möglich ist, dazu gehört eine gute Tiefenstaffelung der Schallquellen, also eine bessere Unterscheidbarkeit der Entfernungen der Schallquellen und eine bessere Raumdarstellung als bei Intensitätsstereofonie. 220
Zweikanal-Stereofonie 5.3.3.1
Klein-AB
Sollen die gegenüber dem Koinzidenzmikrofon vorteilhaften Eigenschaften eines Laufzeitmikrofons genutzt und gleichzeitig eine ausgewogene Richtungsabbildung des Klangkörpers erzielt werden, so müssen die bekannten Gesetzmäßigkeiten de Aufnahmewinkels beachtet werden, wie in Kap. 5.2.2 beschrieben. In Tab. 5/8 sind die Aufnahmewinkel 50 %, 75 % und 100 % für Werte der Mikrofonbasis zwischen 25 und 40 cm angegeben. Bei Laufzeitstereofonie müssen v. a. die 75 %-Werte betrachtet werden, die noch zuverlässige Angaben ermöglichen, für größere Aufnahmewinkel, also gerade den 100 %-Wert, machen komplexe Phänomene eine eindeutige Definition nur eingeschränkt möglich. Man sieht, dass der Aufnahmewinkel sensibel auf die Mikrofonbasis wirkt, schon kleine Änderungen zeigen beachtliche Auswirkungen. Bei Werten unter 25 cm und über 40 cm ist das AB-Mikrofonverfahren, soweit eine korrekte Abbildung der Phantomschallquellen erreicht werden soll, ungeeignet. Beim AB-Verfahren spielen der subjektive Klangeindruck und das Experimentieren allerdings eine wichtigere Rolle als bei Intensitätsstereofonie; z. B. kann die präzise Abbildung der Phantomschallquellen nicht alleiniges Ziel einer Aufnahme sein, insofern kann die Mikrofonbasis auch Werte über 40 cm haben, vielfach werden gerade Werte zwischen 40 und 80 cm oder größer bevorzugt. Bei einer Orgelaufnahme etwa, wo – bedingt durch die Konstruktion des Instruments – die Töne des Pedals abwechselnd auf den linken und rechten Pedalturm verteilt sind, ist eine Richtungsinformation nicht primär, vielleicht sogar verwirrend. Hier spielt die Einbeziehung des Raums eine besondere Rolle, die durch den Aufnahmewinkel nicht beschrieben wird. Überhaupt ist die Übertragung der Raumakustik gerade bei klassischer Musik – besonders hier wird AB eingesetzt - ein Qualitätsfaktor, der nicht unterschätzt werden darf. Sollen auch tiefe Frequenzanteile des Raumschalls beeindruckend übertragen werden, ist eine „korrekte” Mikrofonbasis nicht mehr hilfreich. Tab. 5/8. Zusammenhang von Mikrofonbasis und Aufnahmewinkel für die Anordnungen Kugel/Kugel bei 5 m Abstand zur Schallquelle [5.24]. Mikrofonbasis 25 cm 30 cm 32,5 cm 35 cm 37,5 cm 40 cm
50 % 62/ 50/ 46/ 44/ 40/ 38/
Aufnahmewinkel 75 % 108/ 84/ 76/ 70/ 66/ 60/
100 % 180/ 180/ 136/ 116/ 106/ 98/
Gelegentlich wird die Meinung vertreten, der Abstand der Ohren mit 17,5 cm sei eine optimale, „natürliche” Mikrofonbasis. Dies entspricht einer maximal möglichen Laufzeitdifferenz für ganz seitlich unter ± 90/ zur Blickrichtung eintreffenden Schall von 0,5 ms. Das reicht nicht aus für eine Abbildung der Phantomschallquellen seitlich auf der Lautsprecherbasis. so dass der Ohrabstand keine brauchbare Mikrofonbasis darstellt. Wählt man dennoch eine solche Mikrofonbasis, so müssen zusätzlich zu den Laufzeitunterschieden Pegeldifferenzen erzeugt werden durch Verwendung gerichteter Mikrofone; das führt dann aber zu den „gemischten” 221
Tonaufnahme und Tonwiedergabe Stereoverfahren, im Fall des Ohrabstands als Mikrofonbasis zum ORTF-Mikrofonverfahren. Diese werden weiter unten in Kap. 5.3.5 besprochen. 5.3.3.2
Groß-AB
Vielfach werden Kugelmikrofone, i. Allg. Druckempfänger, mit relativ großer Mikrofonbasis aufgestellt, oft auch als Grenzflächenmikrofone. Bei diesem Mikrofonverfahren erzeugen Schallquellen um die Mitte des Aufnahmebereichs vorwiegend Laufzeitdifferenzen, Schallquellen in den Randzonen des Aufnahmebereichs bei vergleichsweise sehr großen Laufzeitdifferenzen zusätzlich Pegeldifferenzen, hervorgerufen durch die sehr unterschiedlichen Entfernungen zu den Mikrofonen. Die Laufzeitdifferenzen führen nur in einem relativ schmalen Bereich um die Mitte zu Phantomschallquellen, dabei wird dieser Bereich bei der Wiedergabe stark gespreizt. Bei einem Mikrofonabstand zur Schallquelle von z. B. 6 m und einer Mikrofonbasis von 2 m wird nur ein Aufnahmewinkel von ca. ± 7/ auf der gesamten Lautsprecherbasis abgebildet. So entsteht eine inakzeptabel ungleichmäßige Verteilung der Schallquellen auf der Basis. Um dem entgegenzuwirken, wird oft ein drittes Mikrofon in der Mitte der Mikrofonbasis aufgestellt. Da dieses Mikrofon auf den linken und rechten Kanal eingemischt wird, entstehen erhebliche Klangfärbungen durch Kammfiltereffekte. Das Mehrkugelverfahren wird meist mit dem Einzelmikrofonverfahren zum Stützmikrofonverfahren kombiniert, hierbei wird es v. a. die Rauminformationen aufnehmen und den Stützmikrofonen hinzufügen, eigentlich handelt es sich dann um ein Einzelmikrofonverfahren mit Raumstützmikrofonen; in diesem Fall ist die große Mikrofonbasis richtig, Kammfiltereffekte entstehen beim Raumschall nicht. Als Hauptmikrofonverfahren ist Groß-AB also nur geeignet, wenn die Übertragung des Raumschalls im Vordergrund steht. Für Groß-AB werden oft Grenzflächenmikrofone (siehe Kap. 4.2.2) eingesetzt. Sie benötigen eine akustisch nicht oder wenig absorbierende Auflagefläche mit einer Ausdehnung von mindestens 1,5 m, die der Mikrofonmembran die notwendige akustisch wirksame Ausdehnung verleiht. Meist. werden dafür der Fußboden des Aufnahmeraums, evtl. auch seine Wände verwendet. Grenzflächenmikrofone bieten die Übereinstimmung und Linearität von Freifeldund Diffusfeldfrequenzgang in idealer Weise. Da sie zudem noch Klangfärbungen durch wenig verzögerte Reflexionen am Boden vermeiden, erfüllen sie besonders gut die Anforderungen der Laufzeitstereofonie, bei der ja in weit höherem Maße Raumschall aufgenommen wird als bei Intensitätsstereofonie. Die Bedingungen zum Einsatz von Grenzflächenmikrofonen sind in der Praxis nicht immer erfüllbar: oft stehen in angemessener Entfernung nicht genügend große reflektierende Flächen zur Verfügung. Zudem verdecken z. B. Musiker der ersten Reihe diejenigen der zweiten. Bei öffentlichen Veranstaltungen kann das Verhalten des Publikums bei dieser Mikrofontechnik nicht akzeptable Nebengeräusche bedingen. Die auf dem Boden liegenden Mikrofone stellen außerdem beim Publikum ein gewisses Risiko für die Betriebssicherheit dar, siehe zu diesem Mikrofontyp ausführlich Kap. 4.2.4.2. 5.3.3.3
Praktischer Einsatz der Laufzeitstereofonie
Bedeutung der Raumakustik Bei der Mikrofonaufstellung für eine Aufnahme in Laufzeitstereofonie handelt es sich wie 222
Zweikanal-Stereofonie beim Aufnahmeverfahren in XY- oder MS-Technik um ein Hauptmikrofonverfahren. Das bedeutet, dass mit nur einem Mikrofonpaar das gesamte Klanggeschehen aufgenommen wird. Die Klangbalance kann hierbei aber nur dann gewahrt werden, wenn der Abstand der Mikrofone zur Schallquelle nicht wesentlich kleiner ist als dessen Ausdehnung; anderenfalls werden die Abstände zu den Einzelschallquellen zu unterschiedlich. Damit befindet sich das Mikrofon nicht mehr im Nahbereich der Schallquellen mit überwiegend Direktschall, sondern in einem Bereich, in dem Diffusschall einen relativ großen Anteil besitzen kann, je nach der Akustik des Raums. Gerade die bei Laufzeitstereofonie vorteilhafte und übliche Verwendung ungerichteter Mikrofone ergibt einen größeren Diffusschallanteil als bei dem XY- bzw. MSMikrofonverfahren der Intensitätsstereofonie. So erhält die Akustik des Aufnahmeraums eine größere Bedeutung bei der Laufzeitstereofonie, als ihr bei den Verfahren der Intensitätsstereofonie zukommt: Das AB-Verfahren eignet sich deshalb nur bei akustisch guten Räumen, das Hinzufügen künstlichen Nachhalls sollte sich bei AB-Aufnahmen also weitgehend erübrigen. Mikrofonauswahl Einer der Vorteile des AB-Mikrofonverfahrens, die gute Wiedergabe des Raumeindrucks des Aufnahmeraums, beruht wesentlich auf der Wiedergabe des Diffusschalls. Die adäquate Aufnahme des Diffusschalls erfordert i. Allg. Mikrofone mit Kugelcharakteristik. Grundsätzlich können besonders bei übermäßig halligen Räumen aber auch parallel ausgerichtete Richtmikrofone verwendet werden. Hierbei ist zunächst an die breite Niere mit ihrer weitgehend frequenzunabhängigen Richtcharakteristik zu denken, aber auch an die Niere, es gelten dabei praktisch die Aufnahmewinkel von Tab. 5/8. Bereits in der Zeit der Monofonie wurden Druckempfänger bei Verwendung nur eines Mikrofons aus klanglichen Gründen gegenüber Druckgradientenempfängern bevorzugt. Das ABMikrofonverfahren ist die stereofone Weiterentwicklung dieser Klangästhetik. Maßgeblich dafür ist die technisch nicht vollständig zu dokumentierende Klangqualität dieser Mikrofone. Sie beruht möglicherweise auf der guten Aufnahme tiefer Frequenzen. Im hohen Frequenzbereich sind Druckmikrofone dadurch gekennzeichnet, dass zwischen Freifeld- und Diffusfeldfrequenzgang ein Unterschied besteht, der auch durch Filterung nicht zu beseitigen ist (siehe Kap. 4.2.1). Es gibt drei Typen von Kugelmikrofonen: - diffusfeldentzerrte Druckempfänger, mit linearem Diffusfeld- und ansteigendem Freifeldfrequenzgang, - freifeldentzerrte Druckempfänger, mit linearem Freifeld- und abfallendem Diffusfeldfrequenzgang, - freifeldentzerrte Druckempfänger mit leichtem Höhenanstieg, mit leicht ansteigendem Freifeld- und leicht abfallendem Diffusfeldfrequenzgang, - Grenzflächenmikrofone, mit linearem Freifeld- und linearem Diffusfeldfrequenzgang. Welchem Typ der Entzerrung im Einzelfall der Vorzug gegeben wird, ist keine aufnahmetechnische Entscheidung, sondern eine Frage der Klanggestaltung, abhängig von vielen Faktoren wie der Art der Schallquellen und dem Stil der Darbietung sowie der Raumakustik. Da sich die genannten Mikrofontypen nur in der Entzerrung ihres Frequenzgangs unterscheiden, können die verschiedenen Entzerrungen auch mit einem modernen Filter z. B. aus einem 223
Tonaufnahme und Tonwiedergabe diffusfeldentzerrten Mikrofon nachgebildet werden: Eine Höhenabsenkung um 6 dB ergibt ein freifeldentzerrtes Mikrofon, eine Absenkung um 3 dB ein solches mit leichtem Höhenanstieg. Abstand von der Schallquelle Der Abstand des Mikrofonpaars zur Schallquelle wirkt sich bei gleich bleibender Mikrofonbasis in folgender Weise auf das Klangbild aus: Je größer der Abstand ist, um so halliger wird das Klangbild, um so schmaler wird die Schallquelle abgebildet und um so geringer wird die Tiefenstaffelung ausgedehnter Klangkörper wie z. B. Orchester. Andererseits gewinnt eine Aufnahme mit zunehmendem Mikrofonabstand an Homogenität. Da mit wachsendem Abstand sich die Klangqualitäten einer Aufnahme teils verbessern, teils verschlechtern, ist stets nach einem optimalen Kompromiss zu suchen, der kaum in einer theoretischen Formel ausgedrückt werden kann. Die Abbildungsbreite kann durch die Mikrofonbasis optimiert werden, so dass Hallanteil und Tiefenstaffelung die wesentlichen Gesichtspunkte für die richtige Wahl des Mikrofonabstands von der Schallquelle sind. Um eine räumliche Auflösung der Schallquellen bei der Wiedergabe zu realisieren, muss das Mikrofonpaar in einem Abstand von der Schallquelle aufgestellt werden, bei dem noch ein hörbarer Direktschallanteil vorhanden ist, also innerhalb des Hallradius (siehe Kap. 1.2,4). Bei Verwendung von Kugelmikrofonen ist der Bereich um die Schallquelle, in dem der Direktschallanteil überwiegt, deutlich kleiner als bei Verwendung von gerichteten Mikrofonen (siehe Abb. 5/29). Das Laufzeitverfahren kann mit den Aufnahmeverfahren der Intensitätsstereofonie ohne weiteres kombiniert werden. Da das AB-Mikrofonverfahren ein Hauptmikrofonverfahren ist, bietet sich insbesondere die Kombination mit dem Einzelmikrofonverfahren als Stützmikrofone an. Es ergibt sich dabei ein Verfahren, das Intensitäts- und Laufzeitdifferenzen gleichzeitig enthält; diese Verfahren werden im nachfolgenden Kapitel behandelt.
5.3.4
Kombination von Intensitäts- und Laufzeitstereofonie
Die Aufnahmeverfahren der Intensitäts- und Laufzeitstereofonie können nicht nur einzeln für sich angewendet werden, sondern führen gerade in ihrer Kombination zu den aufnahmetechnisch sehr interessanten „gemischten” Verfahren, bei denen das XY- mit dem AB-Verfahren kombiniert wird. Da es sich wie XY/MS und AB auch hier um ein Hauptmikrofonverfahren handelt, sollte der Abstand der Anordnung zur Schallquelle nicht zu gering sein, schon damit die positiven Eigenschaften des AB-Anteils zur Geltung kommen. Weiterhin hat es sich als günstig erwiesen, die Wirkungen der Laufzeit- und Pegeldifferenzen ähnlich groß zu wählen, also sog. äquivalente Mikrofonverfahren zu bevorzugen. Die gemischten Aufnahmeverfahren können die Qualitäten von Intensitätsstereofonie - präzise Phantomschallquellen auf der Lautsprecherbasis - und der Laufzeitstereofonie - guter Raumeindruck und Tiefenstaffelung - miteinander verbinden. Die Laufzeitdifferenzen sorgen auch im tiefen Frequenzbereich bei Diffusschall für die Bildung von Phantomschallquellen und damit für eine Abbildung des Raums auf der Stereobasis; die Pegeldifferenzen sichern im höheren Frequenzbereich, wo Laufzeitdifferenzen zu unklaren, mehrdeutigen Abbildungen führen können, deutlich wahrnehmbare Phantomschallquellen. So ergänzen sich die Verfahren. Die Aufnahmeverfahren werden deshalb auch vergleichsweise oft verwendet. In der 224
Zweikanal-Stereofonie Praxis lassen sich allerdings die Anteile von Laufzeit- und Pegeldifferenzen an der Stereoabbildung meist nur grob abschätzen, da zu viele Faktoren darauf Einfluss nehmen. Bei XY/MS und AB gibt es im Idealfall keine Abhängigkeiten der Signale von der Frequenz, in der Praxis sind sie relativ gering. Da aber beim natürlichen Hören und z. B. bei Kunstkopfstereofonie Laufzeit- und Pegeldifferenzen kombiniert auftreten, hier aber zusätzlich mehr oder weniger frequenzabhängig sind, liegt es nahe, auch bei den gemischten Verfahren bewusst mit frequenzabhängigen Differenzen von Pegel und Laufzeit zu arbeiten. Diese Verfahren werden mit Trennkörpern zwischen den Mikrofonen einer AB-Anordnung realisiert, man nennt sie deshalb zusammenfassend auch Trennkörpermikrofonverfahren oder kurz Trennkörperverfahren; für die Formgebung der Trennkörper gibt es eine große Palette von Möglichkeiten: Scheiben, Zylinderscheiben, Kugeln, Keile u. a., auch in der Kombination mit Grenzflächenmikrofonen. Einige bewährte Anordnungen werden unten besprochen. Von Theoretikern und Praktikern wurde eine große Anzahl von Mikrofonverfahren in der gemischten Aufnahmetechnik entwickelt. Man kann die Verfahren in folgende Gruppen einteilen: - Verfahren mit gerichteten Mikrofonen ohne Frequenzabhängigkeit der Pegeldifferenzen, besprochen werden das ORTF-Verfahren und einige andere Anordnungen nach den Williams-Kurven, - Verfahren mit gerichteten oder ungerichteten Mikrofonen mit Frequenzabhängigkeit der Pegeldifferenzen, sog. Trennkörperverfahren, besprochen wird das Kugelflächenmikrofon, auf andere Trennkörper wird hingewiesen. Für die Anwendung der gemischten Aufnahmeverfahren gilt etwa dasselbe wie für alle Hauptmikrofonverfahren der XY-, MS- und AB-Aufnahmetechnik: Sie sind bevorzugt geeignet für in sich klanglich ausgewogene Ensembles in akustisch guten Räumen, also besonders für Aufnahmen im Bereich der klassischen Musik und für in der Aufnahmetechnik vergleichbare Aufnahmen. Trennkörperverfahren haben einen festen, unveränderbaren Aufnahmewinkel, den der Anwender kennen und bei der Mikrofonaufstellung beachten muss. Ein weiterer Vorteil der gemischten Verfahren ist ihre gute Monokompatibilität, da trotz vorhandener Laufzeitdifferenzen bei der Monobildung die sonst unvermeidlichen Auslöschungen gering ausfallen. Ursache hierfür sind die stets mit den Laufzeitdifferenzen zusammen auftretenden Pegeldifferenzen, die nur geringe, in der Praxis nicht oder kaum hörbare Klangfärbungen erzeugen; sie treten wegen der verglichen mit dem reinen Laufzeitverfahren relativ geringen Laufzeitdifferenzen erst oberhalb 1 kHz auf. 5.3.4.1
ORTF-Mikrofonverfahren
Das am häufigsten benutzte Mikrofonverfahren aus der großen Zahl möglicher Kombinationen von Mikrofonbasis, Versatzwinkel und den dazugehörigen Aufnahmewinkeln ist das sog. ORTF-Verfahren. Es kann heute praktisch als eine der Standard-Anordnungen betrachtet werden. Es vereint das AB-Mikrofonverfahren mit einer Mikrofonbasis, die – beabsichtigt oder nicht – mit 17 oder 17,5 cm dem Ohrabstand entspricht, mit dem XY-Mikrofonverfahren mit zwei Nieren bei einem Versatzwinkel von ± 55/; der Aufnahmewinkel 100 % entspricht 102/, der Aufnahmewinkel 75 % 68/ und 50 % 44/ (Abb. 5/25, siehe auch Tab. 5/6). Das Verfahren erhielt den Namen der ehemaligen staatlichen Rundfunkorganisation Frankreichs, von wo aus es seine Verbreitung gefunden hat. Laufzeit- und Pegeldifferenzen sind bei 225
Tonaufnahme und Tonwiedergabe ORTF etwa gleichgewichtig, ein Grund für die gute Qualität dieser Anordnung. Zu Laufzeitunterschieden von höchstens 0,5 ms kommen hierbei frequenzunabhängige Pegeldifferenzen bis maximal etwa 6 dB, da die verwendeten Mikrofone Nierencharakteristik haben und um ± 55/ nach außen gedreht sind. Diese bewährte Mikrofonaufstellung kann auch variiert werden: Einerseits kann durch eine andere Ausrichtung der Mikrofone die Pegeldifferenz vergrößert oder verkleinert werden, andererseits kann die Laufzeitdifferenz durch eine größere Mikrofonbasis erhöht werden, Für die Mikrofonaufstellung nach dem ORTF-Verfahren gibt es geeignete Halterungen für die Mikrofone oder fest montierte Zwillingsmikrofone (Abb. 5/25).
Abb. 5/25. ORTF-Mikrofonverfahren, Realisierung mit Einzelmikrofonen und einer Spezialhalterung bzw. mit einem Zwillingsmikrofon.
5.3.4.2
Weitere Mikrofonanordnungen
Das ORTF-Verfahren ist nur ein Sonderfall aus einer fast unendlichen Zahl möglicher Kombinationen von AB- und XY-Anordnungen, die zusammen ihren Aufnahmewinkeln zuerst von M. Williams systematisch für alle Richtmikrofontypen errechnet wurden [5.23]. Abb. 5/12 zeigt die Zusammenhänge für zwei Nieren. Die Abhängigkeit der drei Größen Aufnahmewinkel, Versatzwinkel und Mikrofonbasis kann in der Praxis nicht ohne weiteres abgeschätzt werden, man muss sich der Williams-Diagramme bedienen; ein nützliches Hilfsmittel hierfür ist der im Internet frei verfügbare „Image Assistant” [5.24], auch als Handwerkzeug das „Tonmeister Survival Kit” [5.29]. Eine Vergrößerung der Mikrofonbasis ergibt eine eindrucksvollere Raumdarstellung, eine Verkleinerung eine präzisere Lokalisierbarkeit und Präsenz. Praktisch kann man z. B. von der beabsichtigten Mikrofonbasis ausgehen, ermittelt den Aufnahmewinkel anhand der Aufnahmesituation und bestimmt schließlich den Versatzwinkel. In Tab. 5/9 sind zur Orientierung eine Auswahl weiterer praxisbezogener Kombinationsmöglichkeiten mit zwei Nieren zusammengestellt, geordnet in der Reihenfolge Aufnahmewinkel, Mikrofonbasis, Versatzwinkel; hier beginnt man mit der Festlegung des Standorts des Hauptmikrofons bzw. seines Abstands zum Klangkörper, wählt die Mikrofonbasis und stellt den Versatzwinkel ein. Die Winkelangaben sind gerechnet und ohne Rundung. Angegeben sind die Aufnahmewinkel 100 % und 75 %. Es sei daran erinnert, dass die 100 %-Werte in der angegebenen Genauigkeit theoretische Werte 226
Zweikanal-Stereofonie sind, da die Phantomschallquellen nahe bzw. in den Lautsprechern in der Wahrnehmung etwas problematisch sind (siehe Kap. 5.2); deshalb sind zusätzlich die Aufnahmewinkel 75 % angegeben, innerhalb derer eine zuverlässige Zuordnung von Schallquellen und Phantomschallquellen gegeben ist. Tab. 5/9. Aufnahmewinkel, Mikrofonbasis und Versatzwinkel für ausgewählte Hauptmikrofonvarianten nach den Williams-Kurven für zwei Nieren bei 5 m Abstand zur Schallquelle [5.23]. Aufnahmewinkel 100 %
Aufnahmewinkel 75 %
100/
70/ 66/ 64/ 62/ 60/ 58/ 54/ 54/ 52
90/ 80/
5.3.4.3
Mikrofonbasis 10 cm 20 cm 30 cm 10 cm 20 cm 30 cm 10 cm 20 cm 30 cm
Versatzwinkel 69/ 50/ 25/ 78/ 58/ 35/ 87/ 69/ 48/
Kugelflächenmikrofon
Mikrofonanordnungen mit Trennkörpern bieten Laufzeitdifferenzen, die wie bei AB von der Mikrofonbasis bzw. der Wegdifferenz zu den Mikrofonen abhängig sind, und Pegeldifferenzen, die wegen Abschattungen durch einen Trennkörper mit steigender Frequenz zunehmen. Die ursprüngliche Idee dabei war, sich an den Verhältnissen beim natürlichen Hören mit dem Trennkörper Schädel zu orientieren und dafür vereinfachte technische Lösungen zu realisieren. [5.34, 5.35] Bei Anordnungen mit Trennkörpern werden grundsätzlich Druckmikrofone verwendet, weil die besonderen klanglichen Eigenschaften - hervorragende Tiefenwiedergabe, natürliche Präsenz, gute Tiefenstaffelumg und guter Raumeindruck - hier ohne Einschränkung genutzt werden können. Ansonsten ist Stereofonie mit Druckempfängern nur in Laufzeitstereofonie möglich, wobei Einschränkungen der Lokalisierbarkeit hingenommen werden müssen. Schon in den 1930er Jahren wurde mit Kugeln als Trennkörper experimentiert, aber erst ein Vorschlag von Theile 1986 mit einem präzisen Pflichtenheft mit Anforderungen führte zu einem System, das objektive Qualitätskriterien im Rahmen der Trennkörpersysteme erfüllt [5.18]. Das Kugelflächenmikrofon oder KFM als markteingeführtes Aufnahmesystem steht seit 1990 nach den von Theile entwickelten Kriterien zur Verfügung. Die Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser – dem Durchmesser eines durchschnittlichen Kopfs - zeigt Abb. 5/26. Man erkennt, dass mit zunehmend zur Seite wandernder Schallquelle die Pegeldifferenz zunächst bis zu einem Einfallswinkel von ca. ± 50/ ansteigt, dann aber wieder bis ± 90/ auf Grund von Beugungseffekten zurückfällt, und dies bei einer starken Frequenzabhängigkeit. D. h. dass für die Entwicklung eines qualitativ hochwertigen Kugelflächenmikrofons weitere Entwicklungsschritte nötig waren, um zu den in Abb. 5/27 gezeigten gleichmäßigen Frequenzgängen zu 227
Tonaufnahme und Tonwiedergabe kommen. Anders gesagt, eine einfache selbst gebaute Vorrichtung kann die Erwartungen an das System nicht erfüllen.
Abb. 5/26. Pegeldifferenzen zwischen zwei gegenüberliegenden Punkten auf einer Kugel mit 17,5 cm Durchmesser.
Abb. 5/27. Frequenzgänge des Kugelflächenmikrofons bei Direktschall für ± 20/ und ± 60/.
Schall, der seitlich eintrifft, erfährt eine Höhenanhebung (Abb. 5/27), zunehmend mit ansteigender Frequenz. Dies ist notwendig, um die ebenfalls mit ansteigender Frequenz zunehmenden Abschattungen der Kugel am gegenüberliegenden Mikrofon auszugleichen. Die Summe der Klangfärbungen aus den beiden entsprechenden Richtungen bleibt also klangneutral. Nur so kann auch der Diffusfeldfrequenzgang linear sein, eine ganz wichtige Anforderung an ein Hauptmikrofon, das in größerem Abstand zur Schallquelle aufgestellt wird und damit verhältnismäßig viel Diffusschall aufnimmt. Dies kann systembedingt für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. Vermieden wird dies durch einen größeren Abstand des KFMs und damit einem höheren Anteil von Hall. Abb. 5/28 zeigt den mechanischen Aufbau des Systems. In einer Kugel von 20 oder 18 cm Durchmesser sind seitlich mit ihrer Membran bündig zwei Druckempfänger eingebaut. 228
Zweikanal-Stereofonie
Abb. 5/28. Mechanischer Aufbau des Kugelflächenmikrofons.
Beim Kugelflächenmikrofon sind die folgenden Anforderungen realisiert, die zugleich die wichtigsten Kriterien für den Mikrofoneinsatz ergeben: - Die Laufzeit- und Pegeldifferenzen an den beiden Mikrofonen sind denjenigen beim natürlichen Hören ähnlich und etwa gleichwertig, es handelt sich also um ein Äquivalenzmikrofon. - Der Frequenzgang des direkten Schalls von vorn ist linear. - Der Frequenzgang des diffusen Schalls, also des Halls, ist ebenfalls linear. Dies ist wichtig, da ein Hauptmikrofon durch seine größere Entfernung von den Schallquellen relativ viel Diffusschall aufnimmt. - Schall, der seitlich eintrifft, erfährt eine Höhenanhebung, zunehmend mit ansteigender Frequenz. Dies kann für seitliche Schallquellen bei geringerer Entfernung zu erhöhter Präsenz führen bis hin zu einer gewissen Schärfe. - Das KFM ist ein nahezu perfekter Kugelempfänger, besser als ein Druckmikrofon. Der deshalb relativ große Diffusschallpegel, der nur 3 dB niedriger ist als der Direktschallpegel bei 0/, macht es erforderlich, ausschließlich in akustisch guten Räumen aufzunehmen. Das KFM ist sozusagen ein „ehrliches” Mikrofon. - Durch den bündigen Einbau der Mikrofone in die Kugeloberfläche gibt es keinerlei Kammfiltereffekte, die bei anderen Trennkörperverfahren teilweise auftreten. - Die Klangfärbung seitlichen Schalls nimmt mit der Entfernung kontinuierlich ab, während der Hallanteil klanglich gleich bleibt, so wie bei diffusfeldentzerrten Druckempfängern. Damit erhält jede seitliche Schallquelle eine für die Entfernung typische Klangfärbung, möglicherweise auch eine der Ursachen für die gute Darstellung der Tiefenstaffelung. - Durch den Kugeldurchmesser von 20 cm bzw. 18 cm entsteht ein Aufnahmewinkel von 90/ bzw. 120/, nur durch die Wahl der Entfernung kann also das KFM an die Aufnahmesituation angepasst werden. - Bei der Kombination mit Stützmikrofonen gehen die besonderen und guten Eigenschaften des KFM schneller verloren als bei anderen Hauptmikrofonverfahren. 229
Tonaufnahme und Tonwiedergabe - Raumakustische Probleme wie stehende Wellen liegen vielfach im Bereich tiefer Frequenzen; deshalb muss auch mit kleinen Verschiebungen des KFMs nach einer optimalen Position, auch in der Höhe, gesucht werden. 5.3.4.4
Andere Trennkörper
Bei der Wahl der Trennkörper gibt es naturgemäß eine große Vielfalt an denkbaren Trennkörpern, und so wurde gerade hier viel experimentiert. Da alle Trennkörper Laufzeit- und Pegeldifferenzen liefern, überraschen solche Anordnungen zunächst durchaus mit einer eindrucksvollen Abbildung des Raums. Bei genauerer Untersuchung zeigen Formen wie Keile, flache oder dicke Scheiben gerade bei ihren Frequenzgängen erhebliche Mängel. Beim OSS-Verfahren (OSS = Optimales Stereo-Signal), auch Jecklin-Scheibe, befindet sich als akustische Trennung zwischen den Mikrofonen – grundsätzlich diffusfeldentzerrte Druckempfänger - eine den Schall absorbierende Scheibe. Bei einer ersten Version ist die Mikrofonbasis mit 17,5 cm gleich dem Ohrabstand und die Scheibe hat einen Durchmesser von 30 cm, in einer zweiten Version beträgt die Basis 36 cm und der Scheibendurchmesser 35 cm. Neben den eingeführten Trennkörperanordnungen KFM und OSS sind weitere Anordnungen mit unterschiedlichen Trennkörpern und Größenverhältnissen möglich. Die definierte akustische Qualität des Kugelflächenmikrofons erreichen sie nicht; sie können im semiprofessionellen Bereich oft als Eigenbau mit überraschendem Erfolg eingesetzt werden. Zunächst können dicke Scheiben, die den Raum zwischen den Mikrofonen ausfüllen und z. B. aus Schall schluckender Steinwolle bestehen, verwendet werden, weiterhin einfache oder doppelte Keile, ebenfalls Schall schluckend. Die Verwendung von Grenzflächenmikrofonen hat dabei sicher Vorteile, sie finden z. B. in der Trennkörperanordnung nach Peters, dem System Clara, Anwendung. Der Kunstkopf als Aufnahmesystem wird allgemein nicht zu den Trennkörperverfahren gerechnet, obwohl er letztendlich auch diesen zuzuzählen ist. Seine Zielsetzung ist aber nicht die Zweikanal-Stereofonie für Lautsprecherwiedergabe, sondern die Kopfhörerwiedergabe mit klangdokumentarischer Zielsetzung. Diese binaurale kopfbezogene Übertragungstechnik, auch die Möglichkeiten ihrer Lautsprecherwiedergabe, werden in Kap. 5.6 behandelt.
5.3.5
Stützmikrofonverfahren
Aufnahmen ausgedehnter Klangkörper, z. B. Orchester, auch mit Chor und Solisten, stellen hohe Anforderungen an die Durchsichtigkeit und Brillanz des Klangs, an die gleichmäßige Ausnutzung der gesamten Stereobasis, an gute und eindeutige Richtungsauflösung und an die übermittelte Raumillusion. Um das gewünschte Klangbild für den Hörer verwirklichen zu können, ist es besonders bei akustisch unbefriedigenden Räumen oft erforderlich, mehrere Hauptmikrofone aufzustellen oder neben dem Hauptmikrofon mehrere Stützmikrofone einzusetzen. Mehrere Hauptmikrofone sind dann sinnvoll, wenn ein einziges Hauptmikrofon zu weit entfernt aufgestellt werden müsste, um das gesamte Klangbild erfassen zu können. Als Stützmikrofone können Monomikrofone für wenig ausgedehnte Schallquellen (siehe dazu Kap. 5.3.5.1) oder Stereomikrofone für ausgedehnte Schallquellen bzw. -gruppen verwendet werden (Kap. 5.3.5.2). 230
Zweikanal-Stereofonie Vielfach kann mit einem oder mehreren Hauptmikrofonen nicht das gewünschte Klangbild realisiert werden. Hierfür kann es neben anderen die folgenden Gründe geben: - Der Klangkörper in sich nicht ausbalanciert, d. h. die Lautstärkeverhältnisse zwischen den Teilschallquellen, z. B. Musikinstrumente, sind unausgeglichen. Die Stützmikrofontechnik bietet die Möglichkeit, die Klangbalance zwischen den einzelnen Schallquellen zu beeinflussen; einerseits können unterschiedliche Lautstärken korrigiert werden, andererseits kann durch Hervorhebungen z. B. eine Partitur nach musikalischen Gesichtspunkten in die Aufnahmetechnik übersetzt werden. - Der Saal ist akustisch ungeeignet, d. h. es kommen zu starke und/oder zu frühe oder zu späte erste Reflexionen zum Mikrofon und/oder der Nachhall überzeugt nicht, weil er unangemessen lang, zu dumpf oder zu hart ist oder Echos auftreten. - Unabhängig von Saal, Gesamtklang und der klanglichen Balance soll ein besonderes Klangbild geschaffen werden. Die Aufnahme soll z. B. Grundlage von Fernsehaufnahmen sein, wobei einzelne Instrumente zeitweise nah ins Bild kommen sollen. - Es besteht nicht die Möglichkeit, ein Hauptmikrofon zu platzieren, z. B. wenn ein Orchester im Orchestergraben eines Opernhauses spielt. - Für eine gleichzeitige Saal- oder Freiflächenbeschallung muss Diffusschall weitest möglich vermieden werden. - Die durch ein Hauptmikrofon bedingten größeren Mikrofonabstände stehen u. U. einer gewünschten Präsenz – einer Nähe und Intensität der Instrumente oder allgemein der Schallquellen - entgegen. Die Stützmikrofontechnik ist im Stande, in den genannten Fällen Abhilfe zu schaffen. Kennzeichen der Stützmikrofontechnik ist, dass einigen oder allen Schallquellen zusätzlich zum Hauptmikrofon in relativ geringem Abstand ein weiteres Mikrofon zugeordnet wird. Stereomikrofone müssen dabei einen größeren Abstand haben als Monomikrofone, da sie ausgedehnte Schallquellen aufnehmen. Der Abstand von Monostützmikrofonen wird i. Allg. zwischen 0,5 und 2 m liegen. Dabei erfordern Klangkörper aus Schallquellen sehr unterschiedlicher Lautstärke, wie Unterhaltungsorchester, Pop-Gruppen, Bigbands, oft auch Jazzgruppen, weit mehr Stützmikrofone als ein in sich ausgeglichener konventioneller Klangkörper, wie z. B. Kammermusikgruppen oder das klassische Sinfonieorchester. Die Stützmikrofontechnik steht aufnahmetechnisch zwischen den Hauptmikrofonverfahren und dem Einzelmikrofonverfahren. Sie kann einerseits ein Hauptmikrofonverfahren unterstützend optimieren, andererseits das Hauptmikrofon dominieren, dazwischen gibt es einen gleitenden Übergang. Grundsätzlich sollte es nicht dazu dienen, ein unkorrekt eingesetztes Hauptmikrofon zu korrigieren. Jede Aufnahmesituation, in der die Stütztechnik geplant ist, sollte also mit der optimalen Einstellung des Hauptmikrofons beginnen. Danach erfolgt die Zumischung der Stützsignale. Dominieren diese, so dient das Hauptmikrofon nur noch der Aufnahme des Raumeindrucks, wofür dann wieder ganz andere Gesichtspunkte maßgeblich sind. Stützmikrofone liefern in erster Linie Direktschall. Wegen des geringeren Mikrofonabstands verglichen mit dem Hauptmikrofon trifft Direktschall bei den Stützmikrofonen aber früher ein als beim Hauptmikrofon. Im Ergebnis bilden die Stützmikrofone die Lokalisierung, das Einschwingen und die Präsenz, das Hauptmikrofon liefert den Raumeindruck. Nachteilig an 231
Tonaufnahme und Tonwiedergabe der konventionellen Stützmikrofontechnik ist demnach, dass die Schallquellen dabei ohne Entfernungsmerkmale abgebildet werden, die Aufnahme also ohne Tiefenstaffelung bleibt. Diesen Mangel kann eine zeitverzögerte und ggf. verhallte Zumischung oder Stützmikrofone beseitigen helfen (siehe dazu Kap. 5.3.5.3). Die Stützmikrofone werden in Übereinstimmung mit der Richtung der Schallquelle aus der Perspektive des Hauptmikrofons mit dem Panorama-Potentiometer (Pan-Pot) in das Gesamtklangbild eingegliedert; sie stellen - sofern sie nicht ganz seitlich eingeordnet sind - Phantomschallquellen auf Grund reiner Pegeldifferenzen dar und sind dadurch gut auf der Stereobasis lokalisierbar. 5.3.5.1
Monostützmikrofone
Als Monostützmikrofone eignen sich Richtmikrofone am besten, da über ein Stützmikrofon nur Direktschall der jeweiligen Schallquelle aufgenommen werden soll. Neben der Nierenrichtcharakteristik, die die beste Ausblendung des Direktschalls nach hinten bietet, kommen dafür die Super- und Hypernierenrichtcharakteristik in Betracht, die bei etwas geringerer Rückwärtsdämpfung eine erhöhte seitliche Ausblendung des Direktschalls bieten. Die Achterrichtcharakteristik hat die beste Ausblendung für seitlichen Schalleinfall, hat aber nach hinten dieselbe Empfindlichkeit wie nach vorne. Ein Stützmikrofon mit Kugelrichtcharakteristik ist nur in sehr geringem Abstand sinnvoll; ein Grund für die Verwendung eines Kugelmikrofons kann aber der Wunsch sein, mit Druckempfängern zu arbeiten, die u. a. eine besonders gute Wiedergabe extrem tiefer Frequenzen bieten. Abb. 5/29 veranschaulicht die Fähigkeit gerichteter Mikrofone, Diffusschall auszublenden. Z. B. kann man eine Acht oder Niere um den Faktor 1,7 weiter entfernt von der Schallquelle aufstellen, ohne dass sie mehr Diffusschall aufnimmt als eine Kugel in einfacher Entfernung. Mit der Super- und Hypernieren kann man den Abstand in etwa verdoppeln. Aber bereits die Breite Niere kann in vielen Fällen bei einem etwas geringeren Abstand als die Niere ein klanglich sehr ausgewogenes Stützmikrofon sein.
Abb. 5/29. Gleiches Verhältnis von Direkt- zu Diffusschall bei unterschiedlichen Mikrofonabständen.
232
Zweikanal-Stereofonie 5.3.5.2
Stereostützmikrofone
Stereostützmikrofone sind nur dann sinnvoll, wenn räumlich ausgedehnte Klanggruppen gestützt werden sollen, die in sich ausbalanciert sind. Da Stereo-Stützmikrofone in aller Regel gerichtete Schallempfänger sein müssen, kommen nur die Aufnahmeverfahren in Betracht, die dies leisten: die XY-Verfahren mit Nieren- und Supernierenmikrofonen und ihre äquivalenten Anordnungen in MS, also XY nicht mit Achten und MS nicht mit Kugel für das M-Signal, sowie gemischte Verfahren mit gerichteten Mikrofonen, also z. B. nicht das Kugelflächenmikrofon. Beim Einsatz mehrerer Stereomikrofone, egal ob als gleichberechtigte Hauptmikrofone oder als Stützmikrofone, kommt es stets darauf an, die Perspektiven der einzelnen Mikrofone in Übereinstimmung zu bringen, um mehrfache Abbildungen der Schallquellen zu vermeiden. Erfasst z. B. ein Hauptmikrofon über dem Dirigenten das gesamte Orchester, so muss ein Stereostützmikrofon für die Holzbläsergruppe bei der Abbildung zwischen den Lautsprechern auf die Breite eingeengt werden, die sie vom Hauptmikrofon aus gesehen im Bezug auf das Gesamtklangbild einnimmt. 5.3.5.3
Stütztechnik und Raumeindruck
Eine Möglichkeit, die den Klang bestimmende Funktion des Hauptmikrofons zu unterstützen, besteht darin, das zeitliche Voreilen der Stützmikrofone durch Verzögerung ihrer Signale aufzuheben, sie also zeitlich nach dem Signal des Hauptmikrofons einzuordnen. Hierzu schätzt man die Differenz der Strecken Hauptmikrofon - Schallquelle und Stützmikrofon Schallquelle ab und rechnet sie in die Verzögerungszeit um, für 1 m rechnet man mit 3 ms Laufzeit. Es hat sich als günstig erwiesen, dem so errechneten Wert noch mindestens 15 ms hinzuzufügen. Ein Beispiel: Hauptmikrofon – Hörnergruppe = 10 m, Stützmikrofon – Hörnergruppe 3 m, die Differenz sind 7 m entsprechend 21 ms; die Verzögerung der Stützen könnte dann bei 35 bis 50 ms liegen. In Abwandlung dieser einfachen Verzögerung der Stützmikrofone ist die raumbezogene Stützmikrofontechnik eine Stütztechnik, die ohne Pan-Pots arbeitet; als Stützmikrofone werden Monomikrofone verwendet. Wie bereits oben erläutert, liefern Stützmikrofone in erster Linie Direktschall, der vor dem Signal des Hauptmikrofons wiedergegeben wird und damit eine Abfolge von Direktschall, ersten Reflexionen und Nachhall ergibt, die in ihrer zeitlichen Struktur nicht der Realität entspricht (Abb. 5/30). Der starke Anteil von Direktschall und weitgehend fehlende Merkmale der Schallquellenentfernung führen dabei zu dem Gehöreindruck, dass alle Schallquellen „wie auf einer Schnur” in gleichem Abstand vor dem Hörer zwischen den Lautsprechern aufgereiht sind. Der konventionellen Stützmikrofontechnik fehlt also Raumtiefe. Das wird in vielen Fällen durchaus gewünscht, kann doch nur so eine für alle Schallquellen geltende Präsenz der Aufnahme realisiert werden. In jüngerer Zeit wächst aber der Wunsch vor allem bei E-Musikaufnahmen, die „Natürlichkeit” eines akustisch guten Raums adäquat abzubilden. Zu dieser Klangästhetik passt schlecht eine Aufnahmetechnik ohne Tiefenstaffelung. Deshalb wurde von Theile eine „raumbezogene” oder „pan-potfreie” Stütztechnik vorgeschlagen [5.16]. Sie geht davon aus, dass die Stützmikrofone zeitlich nicht vor den Signalen des Hauptmikrofons, sondern danach eingeordnet werden müssen. Damit wird nicht nur das Voreilen des Direktschalls der Stützmikrofone 233
Tonaufnahme und Tonwiedergabe ausgeglichen, was schon früher gefordert bzw. praktiziert wurde, vielmehr wird das Signal des Stützmikrofons nach den Direktschall des Hauptmikrofons gesetzt und somit nicht als Direktschall, sondern als erste Reflexion behandelt. Die so gewonnene künstliche erste Reflexion erhöht zunächst die Lautstärke der Schallquelle; dieses Phänomen ist auch aus der Raumakustik bekannt und wird entsprechend z. B. zur Verbesserung der Sprachverständlichkeit in einem Saal genutzt. Diese Reflexion schafft aber keine Lokalisierbarkeit der Schallquelle. Diese kommt vielmehr vom Direktschallanteil des Hauptmikrofons. Entsprechend den natürlichen Bedingungen in einem Raum ist es günstig, die „künstliche erste Reflexion” des Stützmikrofons nicht als korreliertes Signal abzubilden, also eine lokalisierbare Phantomschallquelle zu schaffen, sondern das Stützmikrofon in den beiden Kanälen etwas unterschiedlich zu verzögern, z. B. mit einem Zeitabstand von 3 bis 5 ms.
Abb. 5/30. Vergleich der konventionellen und raumbezogenen Stützmikrofontechnik, oben: nur Hauptmikrofon, Mitte: zusätzlich Stützmikrofon ohne Verzögerung des Hauptmikrofons, unten: zusätzlich Stützmikrofon mit Verzögerung des Hauptmikrofons.
Die Grundverzögerung der Stützmikrofone sollte so gewählt werden, dass sie etwa 20 bis 30 ms nach den Signalen des Hauptmikrofons eintrifft. Eine Einordnung dieser Signale über Panoramapotentiometer entfällt also. Diese Stützmikrofontechnik hat die natürlichen Verhältnisse in einem Raum als Vorbild. Abb. 5/30 demonstriert anschaulich den Unterschied zwischen den Verhältnissen bei einem Hauptmikrofon, zusätzlich mit konventioneller und mit raumbezogener Stützmikrofontechnik. Mit dieser Stützmikrofontechnik ist selbstverständlich ein Verlust an Lokalisierbarkeit verbunden. Gewonnen ist eine Annäherung an die Hörbedingungen, die beim „natürlichen” Hören herrschen. Ob dies wünschenswert ist, hängt von der jeweiligen klangästhetischen Zielsetzung ab. 234
Zweikanal-Stereofonie
5.3.6
Einzelmikrofonverfahren
Beim Einzelmikrofonverfahren werden für jede Einzelschallquelle eines Klangkörpers üblicherweise gerichtete Monomikrofone eingesetzt, deren Einzelsignale in der Regieeinrichtung durch geeignete Einstellung von Pegel und Abbildungsrichtung zu einem stereofonen Klangbild zusammengesetzt werden. Es handelt sich also um ein Aufnahmeverfahren reiner Intensitätsstereofonie. Mikrofon I wird z. B. ausschließlich dem linken, Mikrofon III dem rechten Kanal zugeordnet, während Mikrofon II als Mittensignal gleichmäßig auf beide Kanäle aufgeteilt wird. Voraussetzung für das einwandfreie Funktionieren des Einzelmikrofonverfahrens ist die weitgehende akustische Trennung der Mikrofone; so wird erst die von den Positionen der Schallquellen im Aufnahmeraum unabhängige Richtungszuordnung ermöglicht. Zwei Einzelmikrofone können dann als ausreichend akustisch entkoppelt angesehen werden, wenn ihre Übersprechdämpfung mindestens 12 bis 15 dB beträgt. Dieser Wert muss nur für die den Richtungseindruck bestimmenden ersten Wellenfronten gelten; der mit dem Aussteuerungsmesser abgeschätzte Wert kann also i. Allg. geringer sein, weil bei ihm auch Diffusanteile gewertet werden; in der Praxis kommt man deshalb mit einem Wert um 10 dB aus, weicht die Aufstellung nicht allzu sehr von der Anordnung der Klangquellen auf der Lautsprecherbasis ab, können auch schon 6 dB ausreichend sein. Die akustische Trennung der Schallquellen wird durch distanzierte Anordnung der Klangquellen, durch Verwendung stark gerichteter Mikrofone und durch Trennwände und Kojen erreicht, durch geschickte Anordnung der Schallquellen - laute Schallquellen zu lauten, leise zu leisen - noch verbessert. Durch Einsatz von Filtern, die nur den Frequenzbereich der zugeordneten Schallquellen durchlassen, kann sie u. U. noch weiter verbessert werden. Das Einzelmikrofonverfahren ist besonders dann anzuwenden, - wenn die gewünschte Anordnung der Schallquellen im stereofonen Klangbild nicht der tatsächlichen Anordnung im Aufnahmeraum entspricht, - wenn die einzelnen Schallquellen sich in ihrer natürlichen Lautstärke stark unterscheiden und von sich aus kein ausbalanciertes Klangbild ergeben, - wenn an den Einzelschallquellen unterschiedliche Manipulationen durch die Tonregie vorgenommen werden sollen, also unterschiedliche Klangbeeinflussung, Verhallung, Verzögerung usw. - Unverzichtbar ist das Verfahren, wenn aus derselben Aufnahme unterschiedliche Abmischungen gewonnen werden sollten, z. B. für den Hörfunk, die Schallplatte und das Fernsehen. Durch den geringen Mikrofonabstand kommt der Akustik des Aufnahmeraums beim Einzelmikrofonverfahren eine geringere Bedeutung zu, sofern nicht die Nachhallzeit besonders lang oder der Raum besonders klein ist. Das Verfahren ist bei Musikaufnahmen in der Regel an die künstliche Verhallung gebunden. Es fordert von der Tonregie in hohem Maß die Gestaltung eines Klangbilds, das in der akustischen Realität des Aufnahmeraums nicht vorhanden ist. Tonmeister und Toningenieur werden gerade bei dieser Aufnahmetechnik künstlerische Mitgestalter. Die Richtcharakteristik der Schallquellen wirkt sich bei diesem Aufnahmeverfahren wegen des geringen Mikrofonabstands so stark aus wie bei sonst keinem Aufnahmeverfahren. Der 235
Tonaufnahme und Tonwiedergabe Aufstellungsort des Mikrofons ist deshalb in besonderem Maße an die Klangabstrahlung der Instrumente gebunden (siehe Kap. 2.3.3). Bei gleicher Richtcharakteristik der Mikrofone ist die Wahl des geeigneten Mikrofonorts von größerem Einfluss auf den Klang als die Wahl eines klanglich optimalen Mikrofons. Die Suche nach dem geeigneten Mikrofonort ist auch der Suche nach einer geeigneten Filtereinstellung vorzuziehen. Die Auswahl der geeigneten Richtcharakteristik hängt von der Akustik des Aufnahmeraums und von der Anordnung der Musiker bei der Aufnahme ab. Meist wird beim Einzelmikrofonverfahren gefordert, dass so wenig Diffusschall wie möglich durch die Mikrofone aufgenommen wird. Niere und Acht nehmen den gleichen Diffusfeldanteil auf, die Diffusschallausblendung verbessert sich demgegenüber bei Supernieren, Hypernieren bzw. Keulen. Dies gilt aber nur dann, wenn am Mikrofonort der Direktschall größer als der Diffusschall ist, also innerhalb des jeweils gültigen Hallradius. Abb. 5/29 zeigt, bei welchen Mikrofonabständen jeweils dasselbe Verhältnis von Direktschall zu Diffusschall besteht wie bei einem Kugelmikrofon. Als Spezialmikrofone für besondere Anwendungen stehen Ansteckmikrofone zur Verfügung. Sie werden v. a. bei Saiteninstrumenten, aber auch bei Blas- und Schlaginstrumenten eingesetzt und ergeben einen Klang mit interessanter Präsenz. Bei Streich- und Zupfinstrumenten werden die Mikrofone meist am Steg befestigt, beim Flügel am Gußrahmen. Bei Blasinstrumenten sind Ansteckmikrofone problematisch, weil die Klangstrahlung in starkem Maße frequenzabhängig auf die einzelnen Teile der Instrumente verteilt ist. Durch die Mischung der Mikrofonsignale liegt die Gesamtheit der Einzelpegel ganz erheblich über den Pegeln der Einzelsignale. Aus diesem Grund muss die Aussteuerung in den Einzelkanälen reduziert werden. Bei der Mischung zweier Mikrofone mit gleichem Pegel entsteht ein durchschnittlich um 3 dB höherer Gesamtpegel, in Pegelspitzen kann er aber 6 dB höher liegen; bei vier Mikrofonen ergibt sich durchschnittlich ein um 6 dB höherer Gesamtpegel. Bei acht Mikrofonen mit gleichem Pegel liegt die Aussteuerung des Einzelkanals deshalb bereits bei -9 dB oder weniger.
5.3.7
Überwachung der Stereosignale
Für die umfassende Qualitätskontrolle steht an erster Stelle die Kontrolle mit dem Gehör. Außer dem Pegel sind die meisten Parameter damit und mit Unterstützung der Abhöreinheit zu beurteilen. Dazu gibt es weitere optische Kontrollinstrumente, die die Beurteilung erleichtern oder ein schnelleres und sichereres Urteil ermöglichen, diese Instrumente werden in Kap. 18.4 genauer behandelt. Tab. 5/10 fasst ihre Eigenschaften zusammen. Korrelationsgradmesser oder Goniometer und Stereosichtgerät sind nur für Aufnahmen in reiner oder annähernd reiner Intensitätsstereofonie vorgesehen, bei Laufzeitstereofonie sind ihre Anzeigen unbrauchbar, ja irreführend, und dürfen deshalb nicht beachtet werden. Dies gilt auch für die gemischten Verfahren, mit der Einschränkung, dass hier die vorhandenen Pegeldifferenzen immerhin Hinweise geben für Aufnahmefehler, die im Einzelfall oft schwer zu bewerten sind. Überwiegen z. B. negative Korrelationswerte, so liegt sicher die Verpolung eines Mikrofons vor. Oder wenn der Korrelationsgrad eng um 0 schwankt, wird die Abbildungsbreite gering sein. Das wichtigste Instrument zur Überwachung der Stereosignale 236
Zweikanal-Stereofonie beim Laufzeitverfahren ist das Gehör. Sichtgerät und Korrelationsgradmesser ergänzen sich in ihren Aussagen und erlauben zusammen ein sicheres Beurteilen der Stereoparameter Kompatibilität, Basisbreite, „Loch in der Mitte” u. a. Tab. 5/10. Kontrollinstrumente für die Tonaufnahme.
Pegelkontrolle Kompatibilität Breite des Klangbilds Richtungsverteilung Phasenlage/Verpolung Details in Kapitel
Aussteuerungsmesser !
18.4.1
Korrelationsgradmesser
Stereosichtgerät
Abhöreinheit
! !
(!) ! ! ! 18.4.6
! ! ! ! 8.12.11
! 18.4.5
Korrelationsgradmesser: Der Korrelationsgrad r ist ein Maß für die Gleichartigkeit der Signale im linken und im rechten Kanal, unabhängig vom jeweiligen Pegel. Wird bei einer Stereoaufnahme die Basis immer mehr eingeengt, so nimmt damit ihr monofoner Charakter mehr und mehr zu; gleichzeitig werden die Stereosignale L und R immer ähnlicher und damit nimmt auch der Korrelationsgrad r zu. Es bedeuten: - Korrelationsgrad 1: die Signale sind gleich, können aber unterschiedliche Pegel haben, bei gleichen Pegeln Abbildung in der Basismitte (Mono). - Korrelationsgrad 0: entweder nur Abbildung auf der Basis ganz außen ohne Mittenschallquellen oder ein oder beide Kanäle sind ohne Signal. - Kompatibel sind alle Aufnahmen mit einem Korrelationsgrad deutlich über 0, u. U. auch bei 0, inkompatibel sind alle Aufnahmen mit negativem Korrelationsgrad. - Ein Korrelationsgrad zwischen 0,2 und 0,7 ist normal, bei Aufnahmen, deren Schallquellen gleichmäßig über die gesamte Basisbreite verteilt sind, ist der Korrelationsgrad mit 0 bis 0,3 relativ niedrig, bei Aufnahmen mit herausgehobenen Mittenschallquellen, z. B. Gesangssolisten, liegt der Korrelationsgrad wesentlich höher, oft bis 0,8, ohne dass damit die Stereowirkung geringer wäre. Bei der Interpretation der Anzeige ist zu beachten, dass bei Signalen mit kurzzeitigen Unterbrechungen mit r = 0 wie etwa bei Sprache die Anzeige auf Grund der Trägheit des Messinstruments einen geringeren Wert ergibt; auch bei Monoaufnahmen erreicht deshalb Sprache nicht den Wert 1, sondern pendelt zwischen 0 und 1. Ebenfalls erniedrigt Nachhall den Korrelationsgrad; reiner Nachhall hat den Wert 0. Stereoaufnahmen in Laufzeitstereofonie sind durch eine um 0 pendelnde Anzeige gekennzeichnet, da hier abhängig von der Tonhöhe stets wechselnde Phasenlagen auftreten. Der Korrelationsgradmesser zeigt nicht Laufzeitdifferenzen, sondern Phasendifferenzen an, diese sind frequenzabhängig. Die Anzeige z. B. einer einfachen Tonfolge oder Melodie schwankt demnach unentwegt zwischen verschiedenen Werten, abhängig von der Frequenz oder Tonhöhe, mit positiven und negativen Werten, im statistischen Mittel liegt sie bei 0. Bei einem Klanggemisch ist sie entsprechend komplexer, aber unbrauchbar. Immerhin kann an 237
Tonaufnahme und Tonwiedergabe einer solchen Anzeige erkannt werden, ob eine Aufnahme in reiner Laufzeittechnik erstellt wurde. Es ist falsch, die Anzeige als eine Aussage über die Kompatibilität zu interpretieren, dies muss in erster Linie durch Kontrolle mit dem Gehör erfolgen. Bei Laufzeitstereofonie sollte der Korrelationsgradmesser nicht oder nur mit großer Vorsicht – unter Kenntnis seiner Anzeigeeigenschaften - beachtet werden. Stereosichtgerät: Für die Anzeige und Überwachung von Stereosignalen bei Intensitätsstereofonie haben sich Stereosichtgeräte wegen ihrer anschaulichen und informativen Darstellung immer mehr durchgesetzt. Stereosichtgeräte zeigen Richtung und Intensität von Stereosignalen an; auch die Phasenbeziehungen sind ablesbar. Das Stereosichtgerät ist wie der Korrelationsgradmesser zur Kontrolle von Aufnahmen in Laufzeit- und gemischter Stereofonie nicht geeignet. Laufzeitstereofone Signale zeigen bei der Abbildung entsprechend ihrer ständig wechselnden Phasenbeziehungen eine Struktur, die bei punktförmigen Schallquellen zu deutlich sichtbaren rotierenden Ellipsen und Kreisen führt. Bei reiner Intensitätsstereofonie zeigt das Schirmbild bei punktförmigen Schallquellen nur Geraden. Insofern ist es mit dem Stereosichtgerät auch möglich, die Aufnahmetechnik einer Aufnahme zu erkennen. Aussteuerungsmesser: Der Aussteuerungsmesser dient in erster Linie der Aussteuerungskontrolle. Gerade bei der Intensitätsstereofonie leistet er beste Dienste, um erforderliche Pegeldifferenzen zu ermitteln. Um den Aufnahmebereich einer gegebenen Mikrofonanordnung praktisch zu ermitteln, genügt es, dass eine Person den Aufnahmebereich abschreitet und dabei spricht; man kann die Pegeldifferenz beobachten und wenn 12 bis 15 dB Differenz erreicht sind, den Punkt im Aufnahmeraum markieren. Abhöreinheit: Mit der Abhöreinheit kann neben der Aussteuerung die Kompatibilität geprüft werden. Das geschieht mit den Funktionen „Mono Mitte” oder „Mono Seite”. Diese Prüfung ist v. a. dann notwendig, wenn bei teilweise negativem Korrelationsgrad Zweifel an der Kompatibilität bestehen. Die Funktion „Phase” bewirkt eine Verpolung in einem Kanal; damit werden Mittenschallquellen bei ursprünglich richtiger Phasenlage beim Abhören „Mono Seite” ausgelöscht, bei ursprünglich um 180/ verpolter Phase wieder hörbar gemacht.
5.3.8
Mono-Kompatibilität
Ziel einer Aufnahme oder Produktion ist zunächst ein vollwertiges zwei- oder abwärts kompatibles mehrkanaliges Stereosignal. Man geht davon aus, dass die Mehrzahl der Hörer als Erstgeräte über Zweikanal-Stereo- oder Mehrkanal-Stereoanlagen verfügt. Aber Zweitgeräte in Mono und ungünstige Abhörbedingungen erfordern auch die Möglichkeit einer Wiedergabe in Mono in akzeptabler Qualität; d. h. dass aus den Stereosignalen ein weitgehend vollwertiges Monosignal ableitbar sein soll, das gegenüber einer unter vergleichbaren Bedingungen entstandenen Monoaufnahme keine wesentlichen Verschlechterungen aufweist. Ist diese Anforderung erfüllt, so ist das Stereosignal monokompatibel, verkürzt kompatibel. 238
Zweikanal-Stereofonie Das kompatible Monosignal M entsteht durch Summenbildung des linken und rechten Kanals L und R des Stereosignals: M = L + R. Nur L oder R allein sind i. Allg. keine vollwertigen Monosignale. Grundsätzlich sollte das Programmmaterial nicht nur aufnahmetechnisch, sondern auch in künstlerischer und dramaturgischer Hinsicht in einer Monofassung keine wesentliche Entwertung erfahren. Die Erfüllung der Forderung nach Kompatibilität Zweikanalstereofonie/Monofonie wird in letzter Zeit im Konfliktfall eher zurückgestellt, um die Möglichkeiten der Stereofonie voll nutzen zu können; die Abwärtskompatibilität Mehrkanal/Zweikanal-Stereofonie, der sog. Downmix, hingegen ist voll zu beachten. Folgende Einschränkungen sind im Monoklangbild zu beurteilen: - Hervorhebung der Mittenschallquellen und damit die Verschiebung des musikalischen bzw. dramaturgischen Gleichgewichts, - erhöhte Spitzenpegel, - vollständige Auslöschungen durch Phasendrehungen um 180/, - Hallbalance durch Reduktion des Hallanteils, - Wiedergabe sehr tiefer Frequenzen. Mittenschallquellen und erhöhte Spitzenpegel: Eine unvermeidbare Einschränkung der Kompatibilität ergibt sich bei der Monowiedergabe von Mittenschallquellen der Stereoaufnahme. Mittensignale existieren mit gleichen Pegeln im L- und R-Signal, sie addieren sich bei der Monobildung. Dies führt bei der Wiedergabe über einen Lautsprecher zu einer Pegelerhöhung um 3 dB, vorausgesetzt, dass sich die Signale statistisch mit zufälligen, aber unvermeidbaren Phasendifferenzen überlagern. Überlagern sie sich exakt ohne Phasendifferenz, so kann der Pegel um bis zu 6 dB ansteigen. Teilweise wurde zur Pegelreduzierung des Mittensignals ein sog. 90/-Filter eingesetzt, das bei allen Frequenzen eine Phasenverschiebung von 90/ bewirkt und die Pegelerhöhung unterdrückt. Für die Kompatibilität ist in erster Linie das Aufnahmeverfahren verantwortlich. Aufnahmen in reiner Intensitätsstereofonie sind grundsätzlich kompatibel. Bei der reinen Laufzeitstereofonie können Klangfärbungen die Qualität des Monosignals beeinträchtigen, wenn es als Summe aus L und R gebildet wird. Das Monosignal erhält dabei den Frequenzgang einer Kammfilterkurve. Abb. 5/31 zeigt einen solchen Frequenzgang in idealisierter und realer Form; er ist gekennzeichnet durch regelmäßige Auslöschungen im Spektrum. Die Verfahren der gemischten Stereofonie, bei denen in unterschiedlichen Anteilen Intensitäts- und Laufzeitdifferenzen zwischen L und R vorhanden sind, sind entsprechend mehr oder weniger kompatibel. Nur bei größeren Mikrofonbasen der Laufzeitstereofonie entstehen auffällige kammfilterartige Frequenzgänge mit deutlichen Klangfarbenänderungen. Aus diesem Grunde muss bei Einsatz der Laufzeitstereofonie die Frage der Kompatibilität mit dem Produzenten abgesprochen werden. Erfolgt die Monobildung nicht automatisch als Summierung von L und R, so kann bei Aufnahmen in reiner Laufzeitstereofonie die Verwendung von nur L oder R ein günstigeres Monosignal ergeben. Kompatibilität ist nicht nur ein technisches Problem. Die Veränderung der Lautstärken von Teilschallquellen greift auch in die musikalische und dramaturgische Gestaltung des Klangbilds ein; vorteilhaft ist dabei immerhin, dass Mittenschallquellen vielfach bevorzugte Schallquellen sind, z. B. Gesangssolisten. 239
Tonaufnahme und Tonwiedergabe
Abb. 5/31. Frequenzgang eines Monosignals aus Laufzeitstereofonie: 1. Teilauslöschungen bei Pegeldifferenzen zwischen A und B, 2. Totalauslöschung bei Pegelgleichheit von A und B (Kammfilterkurve).
Vollständige Auslöschungen: Vollständige Auslöschungen kommen bei der Monobildung nur dann vor, wenn die Signale L und R exakt gleich groß und für alle Frequenzen gegenphasig sind, sie löschen sich auch nur bei den Signalen des Direktschalls gegenseitig aus, nicht beim Diffusschall bzw. Nachhall, da sich die Phasendifferenzen hier ständig ändern. Da eine AB-Mikrofonanordnung aber i. Allg. bevorzugt in größerem Abstand von der Schallquelle, also mit Diffusanteil, aufgestellt wird, sind Dämpfungen bzw. Auslöschungen in der Praxis nicht so gravierend wie oft befürchtet wird. Hallbalance: Da der Hall in einer Aufnahme gleichmäßig in Pegel- und Phasendifferenzen auf L und R verteilt ist und damit an der Anhebung der Mittenschallquellen nicht teilnimmt, kommt es zu einer Reduktion des Hallanteils, die Monoaufnahme ist trockener in dem Maß wie Mittenschallquellen hervorgehoben sind. Dieser Effekt ist nicht vermeidbar. Wiedergabe sehr tiefer Frequenzen: Immer wieder ist festzustellen, dass sehr tiefe Frequenzen im Monoklangbild zurückgenommen scheinen. Dies, obwohl bei den sehr großen Wellenlängen, z. B. 6,8 m bei 50 Hz, Phasendifferenzen auch bei Laufzeitstereofonie praktisch keine Rolle spielen. Der Grund hierfür ist wohl darin zu sehen, dass bei der Basswiedergabe über nur einen Lautsprecher eine Kugelwelle mit 6 dB Pegelrückgang pro Entfernungsverdopplung entsteht, bei zwei Lautsprechern aber eine Zylinderwelle mit nur 3 dB Pegelrückgang. Allerdings ist hier die jeweilige Aufstellung der Lautsprecher und der Wiedergaberaum von erheblichem Einfluss. [5.70]
5.4
Mehrkanal-Stereofonie
5.4.1
Mehrkanalstandard
Dieser Abschnitt fasst die wichtigsten Merkmale der internationalen Standards der MehrkanalTonwiedergabe zusammen, insbesondere die der Empfehlung ITU-R BS. 775-1, die 1992 verabschiedet wurde. Dieser Standard ist weltweit in allen Branchen, also auch beim Film, anerkannt. Obgleich Mehrkanal-Stereofonie im Prinzip nicht auf eine bestimmte Anzahl von Kanälen beschränkt ist, wurde in internationaler Übereinstimmung eine Konfiguration erreicht, die einerseits einen Kompromiss darstellt zwischen der Forderung nach optimaler 240
Mehrkanal-Stereofonie räumlicher Tondarstellung in einer breiten Hörzone und andererseits einer Lösung, die praktikabel und kompatibel ist mit konventioneller Zweikanal-Wiedergabe. Das Referenz-System enthält gegenüber der konventionellen Zweikanal-Stereofonie den zusätzlichen Center-Kanal C sowie die zwei Surround-Kanäle LS und RS. Darüber hinaus steht ein spezieller optionaler Kanal mit begrenzter Bandbreite für Tieffrequenz-Effekte zur Verfügung, der sog. LFE oder low frequency effect. Die Lösung ist umgangssprachlich als 5.1-Standard bekannt geworden auf Grund der Verwendung von fünf Kanälen voller Bandbreite und einem LFE-Kanal (0.1-Kanal). Die konventionelle Zweikanal-Stereofonie erhält in diesem System die Bezeichnung 2.0-Stereofonie. Dieser prinzipielle Wiedergabe-Standard ist völlig unabhängig von dem angewandten Übertragungs-System und sollte nicht mit den unterschiedlichen Codierformaten verwechselt werden wie z. B. ISO/MPEG oder Dolby Digital. Das 5.1-Format hat seinen Ursprung in Konfigurationen, die für Filmtonwiedergabe entwickelt wurden, wo ein zentraler bildbezogener sog. Dialog-Kanal von größter Bedeutung ist. Um die Kompatibilität zwischen der Wiedergabe von Filmton im Kino oder im Heim und anderen Arten von Programmmaterial in Surround-Sound aufrecht zu erhalten, ist für alle Anwendungen im Prinzip die gleiche Konfiguration vorgesehen. 5.4.1.1
Lautsprecheranordnung
Die 3/2-Lautsprecheranordnung auf der Grundlage der Empfehlungen in ITU-R BS.775-1 und SMPTE RP-173 zeigt Abb. 5/32. Eingetragen sind dazu zwei unterschiedliche BilddisplayGrößen, das kleinere 16 : 9-Bildformat ergibt den Betrachtungsabstand 3H (H = Bildhöhe), das größere den für hohe Bildqualität möglichen Abstand 2H. Die Surround-Lautsprecher LS und RS können im Toleranzbereich ± 100/ bis 120/ aufgestellt werden, um zumindest in geringem Umfang eine Anpassung an die Raumsituation zu ermöglichen. Bei den meisten Hörern lässt es die häusliche Einrichtung nicht zu, die Surround-Lautsprecher im Bereich hinter dem Hörer anzuordnen, weil sich hier die Wand befindet. Für eine 3/2-Stereo-Wiedergabe wird aus praktischen Gründen deshalb eine eher seitliche Aufstellung der SurroundLautsprecher bevorzugt. Wie in Kap. 5.2.4.2 und 5.4.3 dargestellt, ist diese Aufstellung zudem vorteilhaft für die Darstellung von räumlicher Tiefe, von Räumlichkeit und Raumeindruck. Auch die reguläre kreisförmige Anordnung der Lautsprecher gestaltet sich in vielen praktischen Situationen schwierig. Sollte eine kreisförmige Anordnung der Lautsprecher nicht möglich sein, schreiben die Empfehlungen vor, dass die Lautsprechersignale entsprechend verzögert werden. Entfernungsunterschiede lassen sich für Center und Surround dadurch in gewissen Grenzen kompensieren (Abb. 5/33). Jedoch gibt es für die Surround-Lautsprecher in der Praxis relativ große Toleranzen in Bezug auf Richtung und Entfernung. Optionale Lautsprecher LL und RR zwischen Front- und Surround-Lautsprechern nach Abb. 5 /34 bieten die Möglichkeit, die stereofone Qualität bei der seitlichen Abbildung zu verbessern und die Hörzone zu vergrößern. Interessante Abbildungsbereiche sind L-LL und R-RR, z. B. um das „Loch” zwischen frontseitiger und seitlicher Abbildung zu schließen. Insgesamt ergibt sich eine größere Freiheit für die räumliche Darstellung, insbesondere bei wichtigen seitlichen Hörereignissen.
241
Tonaufnahme und Tonwiedergabe
Bildfläche 1: Hörabstand = 3H (2$1 = 33°) Bildfläche 2: Hörabstand = 2H (2$2 = 48°)
H = Bildhöhe B = Lautsprecher-Basisbreite
akustisches Zentrum C
Winkel
Höhe
Neigung
0°
L, R LS, RS
± 30° ± 100° bis 120°
1,2 m (abhängig von Form und Größe der Bildfläche) 1,2 m > 1,2 m
0° (abhängig von Form und Größe der Bildfläche) 0° # 15°
Abb. 5/32. 3/2-Referenz-Lautsprecheranordnung mit den Lautsprechern L-C-R und den Surround-Lautsprechern LS und RS.
Abb. 5/33. Kompensation der Entfernung des Centerlautsprechers durch Verzögerung, 2,94 ms für 1 m „zu nahe”.
242
Mehrkanal-Stereofonie
Abb. 5/34. Standard 3/2- und optionale 3/4-Lautsprecheranordnung gemäß ITU-R 775.
Um eine größere Hörzone bzw. verbesserte Einhüllung beim 3/2-Format zu erzeugen, kann man auch weitere Surround-Lautsprecher mit den zwei Standard-Kanälen LS und RS betreiben. Bei größeren Wiedergaberäumen wie z. B. Kinos ist dies unbedingt notwendig. In diesem Fall ist eine ausreichende Dekorrelation der zusätzlich angeschlossenen Lautsprecherkanäle wünschenswert, z. B. durch geeignete Verzögerungen, sowie der Anschluss über geeignete Signalverteiler (Matrizen) oder Prozessoren. 5.4.1.2
Hierarchie kompatibler Mehrkanal-Tonsysteme
Das 3/2-System ist in eine Hierarchie von Mehrkanal-Tonformaten eingebettet. Für eine derartige Hierarchie, abwärtskompatibel bis zum Monoformat, sind einfache Bedingungen der Matrizierung zur Addition von Teilsignalen an den Übertragungs- und Speicherungs- oder Wiedergabestufen einer Signalkette in der internationalen Empfehlung ITU-R BS.775-1 angegeben, wodurch die technische Kompatibilität zwischen den Kanalformaten ermöglicht wird. Das 3/1-Format z. B., also drei Frontsignale und ein Surround-Kanal, ist in diese Hierarchie integriert und kann mit der 3/2-Konfiguration wiedergegeben werden; in diesem Fall speist das monofone Surround-Signal S die zwei Surround-Lautsprecher LS und RS, die Verstärkung der Surround-Kanäle wird dabei um 3 dB reduziert. Systeme mit mehr Kanälen als beim 3/2-Format sind möglich und können an dieses angepasst werden, z. B. 3/3, 5/2, 5/4 usw. Diese Formate sind aber nicht im ITU-Standard enthalten. Formate mit fünf Frontlautsprechern werden im Filmbereich verwendet, natürlich sollte bei der Produktion beachtet werden, dass sie zu den 3/2- und 2/0-Formaten abwärtskompatibel sind. Für alle möglichen Formatkombinationen sollte die Referenzkonfiguration 3/2 die Grundlage darstellen. 5.4.1.3
Tieftonwiedergabe
Um Verwechslungen zu vermeiden, wird hier klar unterschieden zwischen einem Signal zur Erweiterung des Tieffrequenzbereichs, das über einen separaten sog. Low Frequency EffectKanal (LFE) in einem Übertragungs- oder Aufzeichnungssystem übertragen wird, und einer separaten Abstrahlung des tieffrequenten Programminhalts über Tieftonlautsprecher, sog. Subwoofer. LFE-Kanal Im Filmbereich wurde ein spezieller Übertragungskanal für den Bassbereich von 20 Hz bis etwa 80 bis120 Hz eingeführt, um den tieffrequenten Übertragungsbereich der Filmtonsysteme 243
Tonaufnahme und Tonwiedergabe praxisgerecht zu erweitern. Dieser wurde in die Standards ITU-R BS.775-1 und SMPTE RP-173 übernommen. Er kann optional als Ergänzung der Formate im Studio oder im Heim verwendet werden. Die Bezeichnung wird wegen des schmalen benutzten Frequenzbereichs mit „0.1" oder „…/1" abgekürzt. Daher sind die Bezeichnungen 5.1 bzw. 3/2/1 oder 7.1 bzw. 5/2/1 in Gebrauch. Die Nutzung des LFE-Kanals ist optional. Sie kommt in Betracht, wenn ergänzend zur Tonmischung in den Hauptkanälen tieffrequente Effekte hinzukommen sollen. Dies trifft für Musik normalerweise nicht zu. EBU- und SMPTE-Dokumente [5.37] und EBU-Dokument R22 zum Mehrkanalton enthalten einige Anmerkungen über die Verwendung des LFEKanals, das SMPTE-Dokument führt dazu aus: „Soll ein Tonprogramm, das ursprünglich für Filmtheaterversionen produziert wurde, in Konsumer-Medien übertragen werden, wird der LFE-Kanal meist von dem speziellen Kino-Subwoofer-Kanal abgeleitet. Im Kino erfolgt eine Wiedergabe stets über den speziellen Subwoofer-Kanal, daher kann bei Filmabmischungen der LFE-Kanal zur Übertragung von wichtigem tieffrequenten Programminhalt benutzt werden. Sollen Programme, die ursprünglich für den Film produziert wurden, z. B. über Fernsehen oder DVD übertragen werden, kann es notwendig sein, Anteile vom Inhalt des Subwoofer-Kanals wieder in die Kanäle mit voller Bandbreite einzumischen. Es ist wichtig, dass jegliche Anteile tiefer Frequenzen, die für die Vollständigkeit des Programminhaltes sehr bedeutsam sind, nicht in dem LFE-Kanal untergebracht werden. Der LFE-Kanal sollte Programminhalten mit extrem tiefen Frequenzen sowie sehr hohen Pegeln unter 120 Hz vorbehalten bleiben, deren Fehlen bei der Wiedergabe die künstlerische Vollständigkeit des Programms nicht beeinträchtigt.” Bei Kinowiedergabe ist die innere Verstärkung im LFE-Kanal üblicherweise 10 dB kleiner als die der anderen einzelnen Kanäle. Gemäß SMPTE [5.37] wird dies durch eine Pegelerhöhung des Wiedergabekanals kompensiert. Dies muss aus Gründen der Kompatibilität im Studiobereich auch bei der Heimwiedergabe beachtet werden. Separate Tieftonlautsprecher oder Subwoofer Es kann nützlich sein, zusätzlich zu den Hauptlautsprechern (L, C, R, LS, RS) getrennte BassStrahler (Subwoofer) zur Erweiterung des Tieftonbereichs zu verwenden, so dass die untere Grenzfrequenz der fünf Hauptlautsprecher auf etwa 80 Hz erhöht und dementsprechend ihre Volumina reduziert werden können. Ein Bass-Management-System in der Wiedergabeanlage des Hörers gemäß Abb. 5/35 ermöglicht es normalerweise, dass der oder die Bass-Lautsprecher sowohl 5.1-Filmton mit LFE-Signal als auch 3/2-Formatmaterial ohne separates LFESignal wiedergeben. Natürlich können auch mehrere Subwoofer für spezifische einzelne Kanäle eingesetzt werden, z. B. einer für die Front- und einer für die Surround-Kanäle. Dies bietet den Vorteil, dass Subwoofer und Hauptlautsprecher näher beieinander stehen können und deshalb die im unteren Frequenzbereich fehlende Kanaltrennung auch bei höheren Übergangsfrequenzen nicht wahrgenommen wird. Nichtlineare Verzerrungen des Subwoofers können im starken Maße dazu beitragen, dass Lokalisationsfehler auftreten. Untersuchungen haben gezeigt, dass Eigengeräusche, Verzerrungen, und Informationen über 120 Hz, die vom Ort des Subwoofers abgestrahlt werden, ihn lokalisierbar machen können. Die getrennte Wahrnehmung eines Subwoofers ist zudem stark vom Programmmaterial abhängig. 244
Mehrkanal-Stereofonie
Abb. 5/35. Ableitung von kombinierten Subwoofer- und LFE-Signalen.
Über die optimale Aufstellung eines einzelnen Subwoofers in einem Hörraum gibt es geringe Übereinstimmung der Auffassungen, obgleich die Anordnung eines einzelnen Subwoofers in einer Raumecke den günstigsten Frequenzgang ergibt [5.38]. Lautsprecher, die in den Ecken angeordnet werden, können eine merkliche Bassverstärkung aufweisen und sind gut an die meisten Raummoden anzukoppeln. Einige Subwoofer sind speziell für die Anordnung an besonderen Orten geeignet, während für andere subjektiv der optimale Aufstellungsort zu suchen ist, meist können befriedigende Ergebnisse erzielt werden. Es sind u. U. Entzerrungen notwendig, um einen flachen Gesamtfrequenzgang am Hörort zu erhalten. Teils werden Phasenverschiebungen oder Verzögerungen vorgenommen, um die Zeitbeziehungen zwischen dem Subwoofer und den anderen Lautsprechern zu korrigieren. Eine Phasenverschiebung beim Subwoofer wird mitunter auch angewendet, um die Pegelsumme des Subwoofers und der Hauptlautsprecher im Übergangsbereich in Bezug auf einen flachen Frequenzgang zu optimieren.
5.4.2
Stereofonie in den Sektoren L-C und C-R
Aufgabe des zusätzlichen Center-Kanals ist es, die Richtungsstabilität der Abbildung zu verbessern und die Hörzone zu vergrößern [5.40] wie in Kap. 5.2.1 beschrieben. Die für die Zweikanal-Stereofonie bekannten Abbildungseigenschaften bleiben im Prinzip erhalten, denn es bestehen zwischen den Lautsprecherpaaren in den stereofonen Sektoren L-C und C-R die gleichen Möglichkeiten wie in der Stereobasis L-C. Hinsichtlich der Klangfarbe gibt es einen zusätzlichen Vorteil: Ein diskretes Dreikanalsystem wird im Vergleich zu einem Zweikanalsystem bezüglich Klarheit und Klangfarbe der Mittenabbildung vom Hörer bevorzugt, selbst wenn er sich genau auf der Mittelachse befindet [5.41, 5.42]. Man vermutet, dass der Centerlautsprecher „einfacher” zu hören ist, außerdem verursacht eine Phantomschallquelle als Mitte nachweislich Klangfärbungen [5.42]. Prinzipiell werden für die L–C–R-Lautsprecheranordnung zwei verschiedene Aufnahmephilosophien angewendet (Abb. 5/36): Im linken Bild bietet der Centerkanal C eine wachsende 245
Tonaufnahme und Tonwiedergabe Richtungsstabilität der kompletten L–C–R-Stereoabbildung. Dabei werden die psychoakustischen Prinzipien der Lautsprecherstereofonie in den stereofonen Teilbereichen L-C und C-R angewendet. Das stereofone Klangbild setzt sich aus zwei Bereichen zusammen [5.40] (siehe Kap. 5.2.2). Theoretisch kann auf diese Weise mit dem zusätzlichen Center-Kanal ein stereofones Klangbild geschaffen werden, das mit einer entsprechenden zweikanaligen Aufnahme identisch ist. Dieser sog. „unaufdringliche Centerkanal” hat allein die Funktion der Richtungsstabilisierung für Hörer außerhalb der Symmetrielinie.
Abb. 5/36. Wiedergabe mit zwei bzw. drei Frontkanälen: Durch den Centerkanal C wird die Lautsprecherbasis L-R mit 60/ in zwei stereofone Teilbereiche L-C und C-R mit je 30/ aufgeteilt.
Abb. 5/37. Links: „echte” L-C-R-Stereofonie, rechts: L-R-Stereofonie mit zusätzlich C.
Die zweite Möglichkeit ist rechts in Abb. 5/37 skizziert. Der Centerkanal C wird zur Stabilisierung der Mittenabbildung verwendet, z. B. für einen Solisten, zusätzlich zur üblichen Zweilkanaldarstellung des Klangkörpers. Diese Technik hat sich seit langer Zeit in der Filmund Fernsehmischung bewährt. Dort werden Phantomschallquellen nur sehr selten für wichtige bildbezogene Quellen wie z. B. Dialoge verwendet; dieser wird in der Regel dem Centerkanal zugeordnet. Stereofone Signale wie z. B. Musik, Atmo u. a. werden über L-R verteilt ohne große Berücksichtigung einer stabilen Lokalisation. Im Gegensatz zum Konzept der stereofonen Teilbereiche sind die Signale von benachbarten Lautsprechern kaum korreliert. In der Praxis können und werden bei Musikaufnahmen beide Verfahren benutzt oder auch miteinander kombiniert. 246
Mehrkanal-Stereofonie 5.4.2.1
Doppel-Stereoverfahren
Die konsequente Umsetzung der L–C–R-Stereofonie bei der Aufnahme von größeren Klangkörpern wird mit einer in Abb. 5/38 dargestellten Anordnung verfolgt. Zwei getrennte Zweikanalhauptmikrofone werden jeweils für den linken bzw. rechten Teil des Orchesters verwendet. Da der Centerkanal Signale von zwei Mikrofonen erhält, sollte die Summe um 3 dB bedämpft werden. Eine dabei entstehende Richtungsverschiebung der Phantomschallquellen kann z. B. durch eine entsprechende Verzögerung kompensiert werden. Kritisch könnte allerdings der überlappende Bereich der zwei Aufnahmewinkel (vgl. Kap. 5.2.2) sein. Eine Schallquelle in der Mitte der Bühne wird von beiden Hauptmikrofonen gleichstark aufgenommen. In der Praxis hat sich allerdings gezeigt, dass weder die Lokalisationsschärfe noch die Klangfarbe beeinträchtigt werden. Positiv wirkt sich hier der große Abstand zwischen den zwei Hauptmikrofonen aus.
Abb. 5/38. Doppel-Stereo: Zwei Hauptmikrofone werden weit voneinander aufgestellt, um jeweils die linke bzw. rechte Hälfte des Orchesters wie gewohnt aufzunehmen. Überlappende Aufnahmewinkel sollten möglichst vermieden werden.
Der Einsatz von zwei getrennten Zweikanal-Hauptmikrofonen hat den Vorteil, dass Orte und Aufnahmewinkel der zwei Stereomikrofone entsprechend der Situation im linken und rechten Aufnahmebereich individuell optimiert werden können. Die Hauptmikrofone müssen nicht in einer Linie stehen. Alle für die Zweikanal-Stereofonie praktizierten gestalterischen Maßnahmen lassen sich bei jedem der beiden Hauptmikrofone anwenden wie bei nur einem Hauptmikrofon. Beispielsweise werden Stützmikrofone im linken Bühnenbereich dem linken Hauptmikrofon hinzugefügt, Stützmikrofone im rechten Bühnenbereich dem rechten Hauptmikrofon. 5.4.2.2
Mehrfach-AB-Verfahren
Die Mehrfach-AB-Konfiguration (Abb. 5/39) beruht auf der Laufzeitstereofonie. Fünf Mikrofone werden entlang der Bühne in einer Linie verteilt aufgestellt, wobei der Abstand zwischen benachbarten Mikrofonen im Bereich von 2 m oder mehr liegt. Man erhält eine Phantomschallquelle zwischen L und C für den halblinken Bühnenbereich und entsprechend eine Phantomschallquelle zwischen C und R. Die großen Abstände der einzelnen Mikrofone bewirken Laufzeitverhältnisse, die das Problem der mehrfachen Abbildung von Phantomschallquellen nach dem „Gesetz der ersten Wellenfront” verringern. 247
Tonaufnahme und Tonwiedergabe
Abb. 5/39. Mehrfach-AB: Fünf Mikrofone werden in einer Linie weit voneinander aufgestellt und stellen so fünf wenig korrelierte Signale bereit, um drei stabile Quellen und zusätzlich zwei Phantomschallquellen für die Richtungsabbildung zu erzeugen.
Bei der Wiedergabe sind fünf deutlich lokalisierbare Quellen für die Richtungsabbildung des Klangkörpers vorhanden. Obwohl dies nur einen Kompromiss darstellt, ergibt sich eine relativ stabile und ausgewogene Stereoabbildung, verbunden mit den typischen klanglichen und räumlichen Eigenschaften der Laufzeitstereofonie. Durch Positionierung der Mikrofone kann in gewissen Grenzen - auf die Hallbalance und die Balance der einzelnen Orchesterelemente zueinander Einfluss genommen werden. Es dürfen auch Nierenmikrofone benutzt werden, um den Pegel des indirekten Schalls in den Frontkanälen zu reduzieren. Erfahrungsgemäß kann diese Konfiguration nur für größere Klangkörper benutzt werden. Sowohl die Doppel-Stereoals auch die Mehrfach-AB-Anordnung führen bei kleineren Besetzungen meist nicht zu befriedigenden Ergebnissen. 5.4.2.3
Decca-Tree
Für diverse Anwendungen wird ein echtes dreikanaliges Stereo-Hauptmikrofon benötigt. In diesem und dem folgenden Kapitel werden mit dem Decca-Tree und dem OCT-Verfahren zwei völlig unterschiedliche Dreikanal-Verfahren beschrieben. Schon lange bekannt und bereits für Zweikanal-Aufnahmen eingesetzt ist die sog. DeccaTree-Hauptmikrofon-Anordnung [5.43]. Die drei Mikrofone werden in Form eines Dreiecks aufgestellt, jedoch in relativ großem Abstand zueinander und unter Verwendung von Kugelmikrofonen (Abb. 5/40). Das Centermikrofon bewirkt eine Verbesserung der Laufzeitstereofonie, indem das „Loch in der Mitte” mit einer stabilen und sauberen Mitteninformation gefüllt wird. Auf Grund der räumlichen Trennung von L, C und R kommt es auch zu keinen störenden Kammfiltereffekten, die bei der Zweikanalwiedergabe entstehen könnten, falls das Mittensignal zu L und bzw. R gemischt wird. Der Decca-Tree wird gerne verwendet, wenn das offene, räumliche Klangbild des AB-Laufzeitverfahrens in Kombination mit einer dominierenden Mittenabbildung erwünscht ist.
248
Mehrkanal-Stereofonie
Abb. 5/40. Decca-Tree: Drei Mikrofone mit Kugelcharakteristik werden in relativ großen Abständen zueinander in Form eines Dreiecks aufgestellt.
Nachteilig sind die weit voneinander aufgestellten Mikrofone in Bezug auf Richtungsabbildung. Das erkennt man deutlich bei Betrachtung der Abbildungskurven für die Mikrofonpaare L-C und C-R, die sich mit Hilfe des Berechnungswerkzeugs „Image Assistant” [5.24] leicht bestimmen lassen (siehe Kap. 5.2.2.4). Abb. 5/41 zeigt die Kurven. Man erkennt, dass auf Grund der Laufzeitverhältnisse die Mikrofonpaare L-C und C-R eine sehr starke Konzentration zur Mitte bewirken. Alle Schalleinfallsrichtungen im Bereich ± 45/ erscheinen im Center-Lautsprecher oder sehr nah um ihn herum. Dieser „Mitteneffekt” kann durch ein Delay im Centerkanal etwas gemildert werden. Schallquellen außerhalb des Aufnahmewinkels 120/ werden ausschließlich in L bzw. R wiedergegeben. Neben den Mikrofonpaaren L-C und C-R liefert das Mikrofonpaar L-R natürlich ebenfalls einen Beitrag zum Klangbild. Dieser ergibt sich hinsichtlich des Diffusschalls aus den Eigenschaften des Groß-AB-Verfahrens, die in den Kap. 5.3.3.2 und 5.3.3.3 beschrieben sind. Dagegen wirkt hinsichtlich des Direktschalls infolge des „Gesetzes der ersten Wellenfront” nicht die Groß-AB-Abbildungskurve (L-R, gestrichelt eingetragen in Abb.5/41). Diese Abbildungskurve kann unberücksichtigt bleiben, da die L-R-Informationen etwa 3 bis 5 ms später eintreffen als L-C bzw. C-R und folglich die Richtungswahrnehmung nicht beeinflussen. Nur die Kurven L-C und C-R können in Bezug auf die Lokalisation herangezogen werden.
Abb. 5/41. Prinzipielle Abbildungskurven des Decca-Tree.
Insgesamt liegen die Stärken der Decca-Tree-Konfiguration in den klanglichen Eigenschaften der eingesetzten Kugelmikrofone und der Wirkung von Laufzeitverfahren im diffusen Schallfeld, 249
Tonaufnahme und Tonwiedergabe siehe dazu auch Kap. 5.3.3.3. Eine ausgewogene Abbildung der Richtungsverteilung der aufzunehmenden Schallquellen ist wegen der starken Mittenkonzentration nicht möglich. In vielen Aufnahmesituationen möchte man den Pegel des direkten Schalls im Verhältnis zum indirekten Schall anheben, besonders in Räumen mit kleinem Hallradius und bei Einsatz von Raummikrofonen für die Surround-Kanäle. Es ist in diesen Fällen durchaus üblich, die Kugelmikrofone des Decca-Tree durch Nierenmikrofone zu ersetzen, wobei bei jedem Mikrofon der Versatzwinkel 0/ betragen sollte. Dies ändert die Richtungsabbildung nur unwesentlich, aber der Schallpegel des indirekten Schalls ist theoretisch 4,8 dB niedriger, bei Hypernieren sogar 5,7 dB. 5.4.2.4
OCT, Optimierte Nierenanordnung
Im Kap. 5.2.2.3 wurde bereits erläutert, dass ein optimales dreikanaliges L–C–R-Stereomikrofon die für Zweikanal-Stereofonie bekannten Abbildungseigenschaften gewährleisten soll, jedoch mit dem Vorteil größerer Richtungsstabilität in einer breiteren Stereohörfläche. Dazu müssen für die stereofonen Teilbereiche L-C und C-R zwei entsprechende Abbildungskurven dergestalt realisiert werden, dass im Idealfall Schallquellenrichtungen im linken Sektor nicht in der rechten Teilzone abgebildet werden und Schallquellenrichtungen im rechten Sektor nicht in der linken Teilzone. Die äußeren Mikrofonkapseln L und R sollen dabei einen vernachlässigbaren Beitrag zur Abbildung liefern, d. h. dass keine relevante Abbildungskurve für das Mikrofonpaar L-R existiert. Diese Vorgaben verdeutlicht Abb. 5/42. Es gibt prinzipiell in allen Fällen, in denen drei Mikrofone mit Kugelcharakteristik verwendet werden, ein Übersprechen zwischen den Kanälen, das mehr oder weniger zu einer Beeinträchtigung der Richtungsübersetzung, Lokalisationsschärfe, Klarheit und Klangfarbe führt. Jede beteiligte Zweikanal-Stereobasis C-L, C-R und L-R erzeugt ihre eigene Phantomschallquelle, welche an unterschiedlichen Orten erscheinen würde. Es ist nicht möglich, eine geometrische Anordnung der Mikrofone zu finden, bei der die drei Phantomschallquellen für jede Richtung übereinstimmen. Aus diesem Grund muss mit Hilfe richtender Mikrofone eine ausreichende Kanaltrennung realisiert werden, 15 dB sind jedoch ausreichend.
Abb. 5/42. Übersprechen von Phantomschallquellen bei Dreikanal-Stereomikrofonen. In diesem Beispiel sind die Phantomschallquellen C-R und L-R unerwünscht.
Eine geeignete Konfiguration ist das sog. OCT-Verfahren (Optimised Cardioid Triangle) [5.44]. Die prinzipielle Anordnung ist in Abb. 5/43 dargestellt. Als Mikrofoncharakteristiken für L und R werden Supernieren verwendet, welche um jeweils 90/ nach außen gerichtet sind, um eine größt mögliche Übersprechdämpfung zu erhalten. Sie sollten für den Schalleinfalls250
Mehrkanal-Stereofonie winkel " = 30° freifeldentzerrt sein. Als Centermikrofon findet die Nierencharakteristik Anwendung, es ist um den Abstand h = 8 cm nach vorn versetzt, für Superniere ist h = 12 cm. Die Basisbreite b ist wählbar und bestimmt den Aufnahmewinkel der OCT-Anordnung gemäß Tab. 5/11.
Abb. 5/43. OCT-Anordnung (Optimised Cardioid Triangle). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 8 cm, Basisbreite b: variabel, siehe Tab. 5/11.
Tab. 5/11. Aufnahmewinkel der OCT-Mikrofonanordung (h = 8 cm). Basis b 85 cm
Aufnahmewinkel 75 % 72/
Aufnahmewinkel 100 % 102/
70 cm
80/
118/
50 cm
96/
144/
Die Basisbreite b = 85 cm ergibt beispielsweise etwa die gleichen Aufnahmewinkel wie ein ORTF-Mikrofon (vgl. Kap. 5.3.4.1) oder wie eine Klein-AB-Konfiguration mit der Mikrofonbasis 38 cm (vgl. Kap. 5.3.3.1). Auch die Abbildungskurven entsprechen den in Kap. 5.2.2.3 geforderten Verläufen. Der Centerkanal ermöglicht eine natürliche und ausgewogene Verteilung von Schallquellen über die stereofone Basis L-C-R. In der Mitte des Aufnahmesektors (" = 0°) beträgt die Übersprechdämpfung in den Kanälen L und R gegenüber dem Centerkanal C ca. 10 dB. Sie wird zur Seite hin größer und ist bei " = ± 30° bereits größer als 18 dB. Damit ist das Übersprechen vernachlässigbar klein, die Lokalisationskurve L-C ist nur für den linken Bereich wirksam, und L-R nur für den rechten Bereich. Auch die Eigenschaften insbesondere hinsichtlich Klang- und Raumeindruck lassen sich mit zusätzlichen Maßnahmen optimieren. Raumeindruck und Abwärtskompatibilität, OCT2 Eine Modifikation gemäß Abb. 5/44 ermöglicht es, die oft gewünschte klangliche Wirkung von Laufzeitverfahren im diffusen Schallfeld zu erzielen, vergleichbar beispielsweise mit Klein-AB oder dem Decca-Tree. Gleichzeitig wird erreicht, die Wiedergabequalität zu erhalten, wenn im Falle des Downmixes für Zweikanal-Wiedergabe der Center mit -3 dB den Kanälen L und R zugemischt wird, siehe Kap. 5.4.5. Das Center-Mikrofon befindet sich 40 cm vor der Mikrofonbasis. Um die Abbildungskurven weitgehend unberührt zu lassen, wird das Centersignal um 1 ms verzögert. Man kann sich mit Hilfe des „Image Assistant” (Kap. 5.2.2.4) 251
Tonaufnahme und Tonwiedergabe leicht überzeugen, dass die sog. OCT2-Konfiguration im Prinzip identische Eigenschaften bezüglich der Richtungsabbildung hat wie die ursprüngliche OCT-Version. Die Aufnahmewinkel sind jedoch kleiner bei gleicher Basisbreite, siehe Tab. 5/12.
Abb. 5/44. OCT2-Anordnung (Optimierter Tiefenwiedergabe). Mikrofon C: Niere, Mikrofone L und R: Superniere, Abstand h = 40 cm, Basisbreite b: variabel, Delay )t: 1 ms.
Tab. 5/12. Aufnahmewinkel der OCT2-Anordung (h = 40cm, t = 1 ms) Basis b 70 cm
Aufnahmewinkel 75 % 66°
Aufnahmewinkel 100 % 90°
50 cm
74°
100°
35 cm
82°
111°
Übertragung tiefer Frequenzen Druckempfänger zeichnen sich durch ihren hervorragenden Frequenzgang im tieffrequenten Bereich aus. Um diese Eigenschaft in der OCT-Konfiguration zu nutzen, können zwei Wege beschritten werden, sie sind in Abb. 5/45 skizziert. In Konfiguration A werden die Supernieren L und R mit zwei Kugeln ergänzt, wobei die Signale mit jeweils einem Tiefpass begrenzt sind, so dass die systembedingten Bass-Schwächen der Supernieren aufgehoben werden. Die Kugeln können bei Bedarf mit größerer Basisbreite angeordnet sein. Dies hat den Effekt, dass auch der aufgenommene tieffrequente diffuse Schall eine Dekorrelation aufweist. Konfiguration B erspart zwei zusätzliche Mikrofone, liefert aber lediglich ein monofones tieffrequentes Signal im Center-Kanal. Die Abbildungskurven gemäß Abb. 5/13 in Kap. 5.2.2.3 bleiben weitgehend erhalten. Der Anteil des Diffusschalls im Center-Kanal wird allerdings um etwa 5 dB erhöht. Im praktischen Einsatz erfordert die OCT-Anordnung eine genaue Einhaltung der Mikrofonabstände und die sorgfältige Wahl der Positionierung und der Einstellung des Aufnahmewinkels. Da die gewünschte Balance zwischen Direkt- und Diffusschall (R/D-Ratio) wegen der 252
Mehrkanal-Stereofonie gegebenen Mikrofoncharakteristiken nur durch die Wahl der Entfernung zum Klangkörper hergestellt werden kann, muss dies der erste Schritt sein. Steht die Entfernung fest, wird daran der Aufnahmewinkel angepasst. Platziert man das Hauptmikrofon hoch, können bei einem tief gestaffelten Klangkörper die akustischen Ungleichheiten zwischen näheren und entfernteren Schallquellen verringert werden.
Abb. 5/45. OCT-Anordnung mit optimierter Tiefenwiedergabe. Mikrofon C1: Niere, Mikrofone L1 und R1: Superniere, Mikrofone L2 und R2: Kugel mit Tiefpass, Mikrofon C0: Kugel.
5.4.3
Einsatz der Surround-Kanäle
Mit den Surround-Kanälen ergeben sich in vielerlei Hinsicht besondere künstlerische Möglichkeiten der Klangdarstellung. Das betrifft nicht nur die räumliche Auffächerung von lokalisierbaren statischen und bewegten Schallquellen außerhalb der stereofonen Abbildungsebene L-C-R bei Musik, Hörspiel, Off-Effekten im Film u. a. Oft von größerer Bedeutung sind die erreichbaren Wiedergabequalitäten für verschiedene Attribute des Hörens, beispielsweise reale räumliche Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung, die vom akustischen Ambiente geprägt sind (vgl. Kap. 5.2.4). Hinsichtlich der Aufnahmetechnik sind zwei Arten des darzustellenden akustischen Ambientes zu unterscheiden: indirekter Schall aus Reflexionen und Nachhall und Atmo aus diffusem, nicht reflektierten Schall und nicht lokalisierbaren Quellen: Indirekter Schall, Reflexionen und Nachhall: Die indirekten Schallanteile dienen der Darstellung bzw. Simulation des Aufnahmeraums und können eine „akustische Transformation” des Hörers aus dem Wiedergabe- in den Aufnahmeraum ermöglichen, wenn die Surround-Kanäle hierzu eingesetzt werden. Besonders für Aufnahmen klassischer Musik besteht – verstärkt durch die Möglichkeiten der Mehrkanalstereofonie – häufig der Wunsch, die „Natürlichkeit” eines akustisch guten Raums adäquat abzubilden oder zu generieren. Die verschiedenen Wege, einen solchen Surround zu realisieren, entsprechen dabei den bekannten Techniken, z. B. mit Hilfe von Raummikrofonen im Aufnahmeraum oder durch die künstliche Nachbildung der indirekten Schallanteile mittels digitaler Effektgeräte. Diese Raumprozessoren basieren meistens auf Faltungstechniken, wobei die Rauminformationen entweder aus Messungen in bestehenden, als akustisch gut anerkannten Räumen oder aus Modellrechnungen gewonnen werden. Atmo, diffuser nicht reflektierter Schall und nicht lokalisierbare Quellen: Damit sind Umgebungsgeräusche gemeint, die keinen Beitrag für raumbezogene Attribute des 253
Tonaufnahme und Tonwiedergabe Klangbilds liefern, allgemein spricht man hier von der vom Filmton bekannten „Atmo”. Das akustische Ambiente wird gebildet aus vielen einzelnen, in ihrer Gesamtheit nicht individuell lokalisierbaren, aber räumlich verteilten Schallquellen. Beispiele dafür sind das Blätterrauschen des Walds, Publikumsgeräusche und -reaktionen und Applaus während eines Konzerts oder einer Veranstaltung. Im Gegensatz zum indirekten Schall kann dieser Anteil des akustischen Ambientes nicht mit Effektgeräten hergestellt werden. Für die Aufnahme gibt es oft besondere Anforderungen, die sich nicht mit denen für die Aufnahme der Rauminformationen decken. Sowohl für die Wiedergabe der Rauminformation als auch der Atmo werden die SurroundKanäle LS und RS in Verbindung mit den vorderen Lautsprechern L und R eingesetzt, d. h. stereofone Beziehungen in den Signalpaaren L-LS bzw. R-RS sind notwendig für eine überzeugende Darstellung der räumlichen Situation (Abb. 5/46). Fehlen diese Signalbeziehungen, so kann der Höreindruck auseinander fallen in ein vorderes und ein hinteres Klangbild. Wie in Kap. 5.2.1.5 gezeigt, gewährleistet allerdings der seitliche Abbildungsbereich der 3/2Lautsprecheranordnung nicht die stereofonen Darstellungsmöglichkeiten wie der vordere Abbildungsbereich L-C-R. Glücklicherweise ist Richtungsstabilität von seitlichen Phantomschallquellen für die räumliche Abbildung entbehrlich. Es zeigt sich, dass die Qualität der stereofonen Darstellung in Bezug auf räumliche Tiefe, die scheinbare Schallquellenbreite, der räumliche Eindruck und die Umhüllung überraschenderweise gegen Abweichungen des Abhörpunktes vom Referenzpunkt immun ist.
Abb. 5/46. Anwendung der seitlichen stereofonen Bereiche für die räumliche Abbildung.
Vollkommen dekorrelierte Signale, die von zwei Lautsprechern wiedergegeben werden, erzeugen extrem stabile Höreindrücke, weil offensichtlich keine Phantomschallquellen vorhanden sind. Sind diese dekorrelierten Signale von unterschiedlicher Gestalt [5.26], spricht man von zwei getrennten Hörereignissen, zum Beispiel das erste in L und das andere in LS. Reproduzieren die Lautsprecher jedoch dekorrelierten Nachhall, vereinigen sich die zwei Schallquellen mehr oder weniger stark, was zu einer breiten wahrnehmbaren „Wolke” zwischen den Lautsprechern führt. Diese „stereofone” Abbildung ist stabil, aber sie enthält dementsprechend keine Rauminformation. Die Situation ändert sich auch nicht, wenn vier Lautsprecherpaare gemäß Abb. 5/47 anstatt zwei verwendet werden, um dekorrelierten Nachhall wiederzugeben. Man bekommt das Gefühl der Umhüllung vermittelt, als sei man im akustischen Geschehen, jedoch stellt sich kein Raumeindruck ein. Vollständige Inkohärenz zwischen den Frontsignalen und den Surround-Signalen bedeutet, dass die seitlichen stereofonen Bereiche nicht für die Wiedergabe 254
Mehrkanal-Stereofonie der Reflexionsmuster genutzt werden. Aus der Raumakustik weiß man, dass die natürlichen Reflexionsmuster in den seitlichen Bereichen L-LS und R-RS besonders wichtig sind. Die seitlichen stereofonen Signale müssen diese Rauminformation enthalten.
Abb. 5/47. Verwendung von vier stereofonen Bereichen zur Darstellung von Raumeindruck, Halligkeit und Umhüllung.
Um mit der Aufnahme von diffusem einhüllenden Schall optimale subjektive Diffusität und subjektive Umhüllung zu erzielen, sollten für die vier Mikrofone geeignete Abstände gewählt werden. Abb. 5/48 zeigt experimentelle Ergebnisse mit durch einen Bandpass begrenztem Rauschen (0,25 bis 2,5 kHz) zur Wirkung der Kohärenz zwischen den Kanälen in einer quadratischen Lautsprecheranordnung [5.44]. Man erkennt, dass der Grad der subjektiven Diffusität oder der subjektiven Umhüllung vom Abstand d der quadratischen Mikrofonanordnung abhängt. Ist d zu groß, folgt daraus eine Verminderung der subjektiven Umhüllung. Die ausgewogene Verteilung der umhüllenden Quellen bricht ein und es bilden sich „Hörereigniswolken” in den Bereichen um die Lautsprecher. Ist d allerdings zu klein, so wird eine instabile Phantomquelle über dem Kopf des Hörers wahrnehmbar und die subjektive Umhüllung verschwindet entsprechend.
Abb. 5/48. Auswirkung der Kohärenz auf die subjektive Diffusität [5.44]. Richtungswahrnehmung in einem diffusen Schallfeld, welches durch das abgestrahlte Rauschen (0,25 bis 2,5 kHz) von vier Lautsprechern mit Kohärenzfaktoren k = 0,2 und k = 0,35 erzeugt wurde. Das Rauschen wurde in einem Hallraum mittels verteilter Kugelmikrofone, Abstände d = 60 und = 25 cm aufgenommen. Dunklere Bereiche markieren höhere statistische Häufigkeiten von richtungsindizierenden Hörereignissen.
Praktische Erfahrungen in Aufnahmesituationen mit diffusem, nicht durch einen Bandpass begrenzten Schall zeigen, dass optimale Mikrofonabstände im Bereich von d = 50 cm bis 2 m 255
Tonaufnahme und Tonwiedergabe liegen. Die Wahrnehmung von Umhüllung und Homogenität hängt in großem Maße von den Mikrofoneigenschaften und der Schallfeldkonstellation ab. Zu berücksichtigen ist zudem die beabsichtigte Größe der Hörfläche. Soll sie so groß wie möglich sein, so muss die Korrelation zwischen den einzelnen Kanälen klein gehalten und demnach der Abstand d vergrößert werden. Wenn andererseits optimaler Raumeindruck und optimale Umhüllung die vorrangigen Anforderungen sind, dann sollte der Wert d im Bereich über 1 m liegen. Prinzipiell sind aber immer mindestens vier äquivalente stereofone Kanäle wünschenswert, um einen realistischen Raumeindruck und eine umhüllende Atmosphäre zu erreichen. Das gilt auch für Aufnahmen, die mit einem zusätzlichen Raummikrofon gemacht werden. Das für konventionelle Zweikanal-Stereoaufnahmen üblicherweise eingesetzte zweikanalige Raummikrofon ist für 3/2-Stereo-Abmischungen wenig geeignet, da der akustische Bezug vorne hinten und seitliche Reflexionen fehlen. 5.4.3.1
Surround Sound-Hauptmikrofone
Der Begriff „Hauptmikrofon” wird heutzutage in verschiedener Art und Weise benutzt und die Gewichtung der charakteristischen Eigenschaften kann in Zwei- oder Fünfkanalanwendungen unterschiedlich sein. Im Prinzip sollte das 3/2-Stereo-Hauptmikrofon zwei psychoakustische Funktionen kombinieren: - Richtungsabbildung: Aufnahme des Direktschalls für die Richtungsdarstellung der aufgenommenen Schallquellen gemäß der Abbildungskurve, - räumliche Abbildung: Aufnahme des indirekten und diffusen Schalls für die Darstellung räumlicher Tiefe, Räumlichkeit, Halligkeit, Raumeindruck, Umhüllung. Diese Doppelfunktionen kann bei konventioneller Zweikanalstereofonie mit einem geeigneten Stereo-Hauptmikrofon mit guten Ergebnissen bewältigt werden. Auch für Mehrkanalhauptmikrofone gibt es inzwischen Lösungen. Im Folgenden werden zwei Lösungen erörtert, welche auf den in Kap. 5.4.2 gezeigten L-C-R-Konfigurationen basieren. Voraussetzungen für gute Aufnahmen sind natürlich immer geeignete Aufnahmebedingungen und der richtige Mikrofonstandort, der eine adäquate Richtungsabbildung wie auch die adäquate Balance zwischen Direktschall und indirekten Schallanteilen ermöglicht (R/D-Ratio). Hierauf wird auch in den weiteren Abschnitten eingegangen. Fukada-Tree Der sog. Fukada Tree (Abb. 5/49) basiert für die Abbildung des Klangkörpers auf der Dreiecksaufstellung L-C-R, die eine modifizierte Variante des Decca-Trees darstellt, wobei an Stelle der Kugelcharakteristik Nieren benutzt werden [5.46]. Dies reduziert den Pegel des diffusen Schallfelds. Auf Grund der großen Mikrofonabstände gibt es wie beim Decca-Tree keine brauchbare Abbildungskurve (vgl. Kap. 5.4.2.3). Als Folge des „Gesetzes der ersten Wellenfront” werden alle Schallquellen von der linken Seite links und Schallquellen von der rechten Seite rechts lokalisiert. Schallquellen im Aufnahmewinkelbereich um ± 35/ werden in der Nähe des Centers wiedergegeben, Schallquellen außerhalb des Bereichs ± 55/ im oder nahe der Lautsprecher L oder R (Abbildungswinkel 110/). Die räumliche Darstellung wird durch die Mikrofone L, R, RS, LS realisiert, die ein ca. 1.8 m großes Quadrat bilden: Ihre Abstände können je nach Gegebenheiten variiert werden. Die 256
Mehrkanal-Stereofonie 45/-Ausrichtungen der L- bzw. R-Nieren bewirken einerseits eine Reduktion des Übersprechens um etwa 4 bis 6 dB, abhängig von der Schalleinfallsrichtung, und andererseits eine gute Erfassung der Seitenbereiche. Die 135/-Ausrichtungen der LS- bzw. RS-Nieren dient ebenfalls zwei Zwecken: Der Direktschall wird um 8 bis 18 dB bedämpft, abhängig von der Schalleinfallsrichtung. Gleichzeitig arbeiten die Mikrofonpaare L-LS bzw. R-RS für den wichtigen Seitenschall quasi als Groß-AB-Anordnung, die Richtcharakteristiken erzeugen nur kleine Pegeldifferenzen bis maximal etwa 3 dB. Zusätzlich ergänzen die Kugelmikrofone LL und RR die Seiten (LL, RR). Sie werden den Signalpaaren L-LS bzw. R-RS vorsichtig zugemischt, um die Orchesterbreite zu vergrößern und die klangliche Verbindung zwischen Front- und Surround-Lautsprechern zu verstärken.
Abb. 5/49. Fukada-Tree. Mikrofone L, C, R, LS, RS: Niere, Mikrofone LL und RR: Kugel.
Diese Anordnung mit großen Mikrofonabständen liefert zwar keine ausgewogene Richtungsabbildung, jedoch ein offenes Klangbild, das durch räumliche Tiefe, Raumeindruck und Umhüllung gekennzeichnet ist. Der Aufstellungsort für diese Konstellation liegt normalerweise einige Meter über und hinter dem Dirigenten, wobei der genaue Standort – wie allgemein üblich – durch mehrmaliges Hören optimiert werden muss. OCT-Surround Ergänzt man die OCT- bzw. die OCT2-Mikrofonanordnung mit Surround-Mikrofonen LS und RS mit Nierencharakteristik gemäß Abb. 5/50, so lassen sich Vorteile der ausgewogenen stabilen Richtungsabbildung und des variablen Abbildungswinkels vereinen mit guten räumlichen Abbildungseigenschaften. Es ist wichtig, dass das Direktsignal von vorne in den Surround-Kanälen möglichst weitgehend unterdrückt wird. Aus diesem Grund sind die Nieren LS und RS nach hinten ausgerichtet, die damit erzielte Unterdrückung ist für alle Richtungen im Abbildungswinkel der OCT-Anordnung größer als 15 dB. Gleichzeitig ermöglicht die Anordnung der Nieren LS und RS in Verbindung mit L und R eine stereofone Aufnahme der ersten Reflexionen aus dem seitlichen und hinteren Richtungsbereich. Der mit 40 cm relativ nahe Abstand von LS und RS zu den vorderen Mikrofonen L und R führt zu den gemäß Lokalisationskurven gewünschten Laufzeitdifferenzen. Betrachtet man das seitliche stereofone Paar L-LS oder R-RS unter der Annahme einer seitlichen Reflexion, 257
Tonaufnahme und Tonwiedergabe so ergibt sich aus der Richtcharakteristik der Mikrofone ein Pegelunterschied von 6 dB. Die geometrische Konfiguration bewirkt jedoch, dass seitliche Reflexionen etwa 0.3 ms später von den Mikrofonen L bzw. R aufgenommen werden. Damit kompensiert das Delay den um 6 dB kleineren Pegel in LS bzw. RS. Im rückseitigen stereofonen Mikrofonpaar LS-RS beträgt die Pegeldifferenz immer )L = 0 dB, d. h. für die rückseitige Aufnahme ist eine reine ABMikrofonierung mit dem Mikrofonabstand b + 20 cm wirksam.
Abb. 5/50. Mehrkanal-HauptmikrofonAnordnung OCT-Surround. Mikrofone L und R: Superniere, Mikrofon C: Niere, Mikrofone LS und RS: Niere.
Insgesamt erfüllt das OCT-Surround-Hauptmikrofon die oben gestellten Anforderungen hinsichtlich Richtungs- und Räumlichkeitsabbildung. Die natürliche Pegelbalance von Direktschall, frühen Reflexionen von allen Seiten und Nachhall bleiben erhalten, der Pegel des Diffusschalls ist in allen Kanälen ausgeglichen, eine genügende Korrelation ist sichergestellt. Wie bei allen Mikrofonierungen hängt beim OCT-Surround-System der Erfolg von der richtigen Positionierung ab, die viele Parameter berücksichtigen und in Übereinstimmung bringen muss wie Lautstärke- und Richtungsbalance, Direkt-Diffusschall-Verhältnis (R/DRatio), Klangfarbe, Breite des Klangkörpers, Applaus, Atmo des Publikums usw. Ein variabler Aufnahmewinkel erleichtert diese Aufgabe. Damit kann zunächst der optimale Mikrofonstandort hinsichtlich R/D-Ratio und Klangfarbe gewählt werden. Erst wenn dieser gefunden ist, wird der Aufnahmewinkel entsprechend der gegebenen Ausdehnung des Klangkörpers eingestellt. Doppel-MS Das MS-Mikrofonverfahren (siehe Kap. 5.3.2.2) bietet gewisse Vorteile gegenüber diskreten Mikrofonierungen. Sie bestehen v. a. in der Flexibilität des Formats und der Möglichkeiten der Bearbeitung in der Postproduktion. Es liegt nahe, diese Vorteile auch bei Mehrkanaltonaufnahmen zu nutzen. Weitere Argumente sind die hohe Kompaktheit des Aufbaus und die perfekte Monokompatibilität. Daher wurde in den 1990er Jahren eine MS-Aufnahmetechnik für Surround entwickelt, die später den Namen Doppel-MS-Technik erhielt, man kann auch von einem Mehrkanal-Koinzidenzmikrofon sprechen. Bei dieser Technik wird einem nach vorne gerichteten MS-Mikrofonpaar, bestehend aus Niere und Acht noch eine nach hinten gerichtete Niere hinzugefügt. Diese Niere bildet mit derselben Acht ein weiteres MS-Mikrofonpaar, daher der Name Doppel-MS-Technik. Aus drei Mikrofonen werden also zwei MSPaare gebildet. Abb. 5/51 veranschaulicht das Prinzip. 258
Mehrkanal-Stereofonie
Abb. 5/51. Prinzip der Doppel-MS-Mikrofonanordnung.
Die praktische Realisierung dieser Mikrofontechnik erfordert hinreichend kleine Mikrofone und eine geeignete Aufhängung, um größere Abstände zwischen den Kapseln und damit Kammfiltereffekte im hörbaren Bereich zu vermeiden. Abb. 5/52 zeigt als Beispiel eine solche Standardaufhängung für Doppel-MS-Aufnahmen.
Abb. 5/52. Realisierungsbeispiel der Doppel-MS-Technik mit gemeinsamer, gefederter Aufhängung von Kompaktmikrofonen.
Analog zur Zweikanal-MS-Technik müssen die drei Mikrofonsignale durch Summen- und Differenzbildung zu diskreten Signalen dematriziert werden. Die einfachste und am meisten verbreitete Methode ist eine separate Dekodierung der Mikrofonpaare vordere Niere/Acht, die L und R ergibt, und hintere Niere/Acht, die LS und RS ergibt. Das Signal der vorderen Niere kann außerdem dem Center zugeführt werden. Eine verbesserte Dekodierung hinsichtlich der Signaltrennung und der Vermeidung von Übersprechen zwischen den dekodierten Lautsprechersignalen kann erreicht werden, wenn jeweils alle drei Mikrofone zur Dekodierung herangezogen werden. Dies löst ein grundsätzliches Problem der MS-Technik: Bei der konventionellen Zweikanal-MS-Aufnahme hängen Versatzwinkel und Richtcharakteristik der dematrizierten virtuellen Mikrofone voneinander ab, denn eine Zumischung des Achtermikrofons bewirkt stets sowohl die Vergrößerung des Versatzwinkels als auch die Veränderung der dekodierten Richtcharakteristik. Bei der DoppelMS-Technik hingegen kann jedes virtuelle Mikrofon jede beliebige Ausrichtung und Richtcharakteristik erhalten. Hierdurch verbessert sich die Signaltrennung und dies führt zu einer Verringerung der Korrelation der Kanäle mit klanglichen Vorteilen. 259
Tonaufnahme und Tonwiedergabe Die Doppel-MS-Technik wird vielfach bei Reportagen und Dokumentationen eingesetzt, wo es auf Kompaktheit, einfache Handhabbarkeit und Flexibilität besonders ankommt. Näheres dazu in Kap. 5.4.3.3. KFM-Surround Diese Aufnahmetechnik für Mehrkanalton basiert auf einem speziellen Kugelflächenmikrofon, dem KFM 360 [5.46]. Eigenschaften des Kugelflächenmikrofons, wie die besonders natürliche räumliche Abbildung (siehe Kap. 5.3.4.3), sollen so auf Mehrkanalton übertragen werden. Die vorderen und rückwärtigen Signale werden dadurch erzeugt, dass die Halbkugeln zusammen mit jeweils einem Achtermikrofon ein MS-Paar ergeben. Die Summe der Mikrofonsignale ergibt jeweils den vorderen Kanal, die Differenz den hinteren Kanal. Dies ist für die rechte Seite der Aufnahmezone in Abb. 5/53 veranschaulicht, eine konkrete Realisierung zeigt Abb. 5/54.
Abb. 5/53. Die Lautsprechersignale entstehen beim KFM-Surround durch Dematrizierung analog zur MS-Technik
Abb. 5/54. Realisierung des KFM-Surround-Verfahrens mit dem KFM 360.
Wie bei der MS-Technik kann mit diesem System die Dematrizierung abgestuft erfolgen und eine flexible Mischung auch in der Postproduktion erstellt werden. Die hierdurch entstehenden Mikrofoncharakteristiken sind – wie die seitlichen Achten – nach vorn und hinten ausgerichtet. Sie lassen sich jeweils über die Niere bis zur Acht variieren, wobei die Charakteristik der beiden rückwärtigen Kanäle eine andere sein kann als bei den vorderen. Das erlaubt eine auch nachträgliche flexible Anpassung an die Aufnahmesituation. 260
Mehrkanal-Stereofonie Die vier so erhaltenen Kanäle ergeben eine Surround-Wiedergabe ohne Center-Kanal. Dieser kann in verschiedenen Fällen auch entbehrlich sein, wenn zusätzliche Stabilität im vorderen Abbildungsbereich keinen Vorteil bringt. Er kann natürlich auch zusätzlich gewonnen werden, beispielsweise durch Zumischung eines Solistenmikrofons. Die Nutzung des Centerkanals allein für die stabile und präzise Darstellung eines Solisten ist sicherlich lohnend. Jedoch sollte nicht übersehen werden, dass zu diesem Zweck mit studiotechnischen Mitteln ein passender Entfernungs- und Raumeindruck geschaffen werden muss, so dass sich der Solist harmonisch in das akustische Umfeld einfügt (siehe Kap. 5.4.4). 5.4.3.2
Separate Raummikrofone
Im vorangegangenen Abschnitt ist deutlich geworden, dass 3/2-Stereo-Hauptmikrofone nur sinnvoll eingesetzt werden können, wenn Schallfeldverhältnisse bei der Aufnahme sowohl Richtungs- als auch Raumabbildung zulassen. Es muss ein Mikrofon-Standort existieren, wo der Direktschall eine ausgewogene Richtungsdarstellung und gleichzeitig der indirekte und diffuse Schall die Darstellung der räumlichen Tiefe, der Räumlichkeit, der Halligkeit, des Raumeindrucks und der Umhüllung ermöglichen. Wesentlich flexiblere Lösungen bilden aber die Verfahren, die das Hauptmikrofon lediglich zur Richtungsdarstellung in der L-C-R-Abbildungsebene einsetzen und separat davon spezielle Raummikrofon-Anordnungen für die räumlichen Eigenschaften des Klangbilds nutzen. Grundsätzlich ist aus den in Kap. 5.4.3 behandelten Gründen als Raummikrofon nur eine vierkanalige Konfiguration zu empfehlen, wobei die Signale der rückwärtigen Mikrofone auf die Surround-Kanäle LS bzw. RS gegeben und die des vorderen Raumikrofonpaars den Kanälen L bzw. R beigemischt werden. Welche Konfiguration eines Vierkanal-Raummikrofons geeignet ist, hängt von der Schallfeldsituation und von den praktischen Gegebenheiten ab. Hamasaki-Square Hervorragend bewährt hat sich bei diversen Konzertsaal-Aufnahmesituationen der sog. Hamasaki-Square [5.47], entsprechend Abb. 5/55. Er besteht aus vier in einem Quadrat angeordneten Mikrofonen mit Achtcharakteristik, die Mikrofonabstände d betragen 1 bis 3 m. Die Mikrofonachsen liegen quer zur Bühne, um den Pegel des Direktsignals so weit wie möglich zu reduzieren. Die Unterdrückung ist im vorderen Schalleinsfallsbereich bei ± 15/ größer als 12 dB. Sie nimmt zur Seite hin ab, bei ± 30/ sind es nur noch 6 dB. Die Mikrofone LB und RB können den Kanälen L und R zugeordnet oder zwischen L-LS bzw. R-RS „gepannt” werden. Ebenso wird natürlich der rückwärtige Direktschall stark abgeschwächt, dies hat manchmal Vorteile in Hinblick auf Geräusche aus dem Auditorium. Auch weiß man, dass erste Reflexionen aus der Medianebene eher schädlich als nützlich sind. Zur Seite hin wirken die Mikrofonpaare LS-LB bzw. RS-RB wie Groß-AB-Anordnungen. Hierin liegen die besondere Eigenschaft und der große Vorteil bei Aufnahmen im Konzertsaal, nur der Seitenschall wird erfasst, dies geschieht mit Groß-AB-Laufzeitstereofonie. Abb. 5/56 zeigt das Zusammenwirken der zwei „Werkzeuge”, das L-C-R-Hauptmikrofon für die Richtungsabbildung des Klangkörpers und die separate Konfiguration LB, RB, RS, LS für 261
Tonaufnahme und Tonwiedergabe die räumliche Abbildung. Die Kanäle LF und LB werden kombiniert zu L, die Kanäle RF und RB zu R. Das L-C-R-Hauptmikrofon wie auch die Raummikrofonkonfiguration lassen sich unabhängig voneinander nach der jeweiligen künstlerischen Intention positionieren. Das Raummikrofon kann beispielsweise problemlos weit entfernt vom Hallradius entfernt aufgestellt werden, um frühe Reflexionen, ein optimales R/D-Verhältnis, adäquate Dichte und Klangfarbe zu erhalten, aber auch weit entfernt vom Auditorium, um Störgeräusche zu vermeiden. Die optimale Verzögerung zwischen Haupt- und Raummikrofonanordnung ist ebenfalls konfigurierbar, ohne dass die stereofone Information des Hamasaki-Square verändert werden muss (vgl. Kap. 5.4.4). Dies gilt natürlich für jede räumlich getrennte Hauptmikrofonanordnung.
Abb. 5/55. Raummikrofon-Konfiguration Hamasaki-Square.
Nieren-Trapez In vielen Aufnahmesituationen haben die frühen seitlichen Reflexionen nur eine geringe oder keine Bedeutung. Beispielsweise geht es bei der Aufnahme von Live-Popmusik eher darum, die Reaktion des Publikums und das akustische Ambiente darzustellen. Dabei muss ebenfalls der Direktschall, der in diesem Fall von der Beschallungsanlage kommt, möglichst stark unterdrückt werden, und eine korrekte Richtungsabbildung ist meistens unwesentlich. Daher kann die Anordnung aus vier richtenden Mikrofonen so konfiguriert und ihre Platzierung so gewählt werden, dass das akustische Ambiente einerseits ohne störenden Direktschall bleibt und andererseits eine zufrieden stellende akustische Umhüllung erzeugt wird. Alle Nieren weisen nach hinten, um Direktschall aus dem vorderen Halbraum auszublenden (d = 60 cm). Ein Beispiel dafür zeigt Abb. 5/57. Die nach rückwärts ausgerichteten Nieren in der trapezförmigen Anordnung bewirken, dass Schall aus dem vorderen Halbraum weitgehend ausgeblendet wird. Die Unterdrückung ist im Schalleinsfallsbereich ± 45/ größer als 15 dB und damit wesentlich wirkungsvoller im Vergleich zum oben erläuterten Hamasaki-Square. Der Pegel einer Schallquelle, die von hinten nach vorne wandert, nimmt kontinuierlich ab gemäß der Richtwirkung der Niere, also bezogen auf die Richtung von hinten nach vorne, beginnend hinten bei 180/ mit 0 dB, bei 120/ -3 dB, bei 60/ -11 dB, bei 30/ -18 dB. Alle drei Stereo262
Mehrkanal-Stereofonie Mikrofonpaare LB-LS, LS-RS und RS-RB wirken dabei in identischer Weise als reine KleinAB-Anordnungen, aus den Abständen d = 60 cm ergibt sich ein Aufnahmewinkel von 60/ für jeden der drei Aufnahmesektoren.
Abb. 5/56. Berücksichtigung von psychoakustischen Phänomenen für natürliche Aufnahmen.
Abb. 5/57. Nieren-Trapez für Atmo-Aufnahmen aus dem rückwärtigen Halbraum.
5.4.3.3
Reportage und Dokumentation
Für Surround-Aufnahmen der akustischen Atmosphäre, der „Atmo”, sind verschiedene, mindestens vierkanalige Mikrofon-Konfigurationen geeignet. Um die gewünschte Umhüllung gemäß Abb. 5/56 zu erreichen, muss nicht der Center-Kanal einbezogen werden, denn eine richtungsstabile Abbildung von Schallquellen ist nicht wichtig. Vielmehr geht es um die Darstellung umgebender Geräusche und diffusen Schalls, wobei alle vier Seiten eine gleichwertige Bedeutung haben. In der Praxis der Atmo-Aufnahme kommt es zudem darauf an, dass die Mikrofon-Konfigurationen möglichst kompakt und einfach handhabbar sind. Doppel-MS Diesbezüglich besonders geeignet ist die in Kap. 5.4.3.1 bereits beschriebene Doppel-MSTechnik. Sie wird in der Praxis besonders da eingesetzt, wo die Möglichkeit der flexiblen Bearbeitung in der Nachbearbeitung, Kompaktheit - die gesamte Anordnung lässt sich in einem Windkorb unterbringen - sowie Mono-Kompatiblität vorrangig sind. Dies ist hauptsächlich bei 263
Tonaufnahme und Tonwiedergabe Filmton und Sportübertragungen sowie für Publikumsatmo in TV-Shows der Fall, aber auch bei Hörspielen, Features und Dokumentationen. Das Doppel-MS-Verfahren kann auch mit einem Richtrohr aufgebaut werden, das beim Filmton für die Dialogaufnahme Standard ist. Da bei Dokumentationen und in der aktuellen Berichterstattung kein separates Atmo-Mikrofon möglich ist, wird der Mehrkanalton aus dem Richtrohr und zwei an ihm angebrachten Kompaktmikrofonen gebildet. Abb. 5/58 zeigt diese Speziallösung.
Abb. 5/58. Beispiel einer Mikrofonanordnung in Doppel-MS-Technik mit einem Richtrohr.
IRT-Kreuz Ein Alternative für die Atmo-Aufnahme ist das sog. IRT-Kreuz (Abb. 5/59). Die vollkommen symmetrische Kapselanordnung gewährleistet für die Signalpaare L-R, R-RS, RS-LS und LS-L eine gleichwertige Korrelation im diffusen Schallfeld sowie eine gute stereofone Qualität der umgebenden Geräusche. Die Versatzwinkel zwischen den Mikrofonachsen betragen 90/. Der Abstand der Mikrofone sollte 25 cm betragen, damit sich für jedes der Mikrofonpaare ein Abbildungswinkel von 90/ ergibt. Besonders bewährt hat sich das kompakte Atmo-Kreuz bei Sportübertragungen, Talkshows und im Bereich der Dokumentation, wobei der Centerkanal frei bleibt und eine separate Handhabung von Kommentar, Dialog oder anderen, z. B. bildbezogenen Signalquellen erlaubt. Für den Einsatz als Raummikrofon im Konzertsaal ist die Anordnung weniger geeignet, da der Direktschall des Klangkörpers nicht unterdrückt wird. Für den Einsatzbereich einer wirklichkeitsnahen Dokumentation der akustischen Umgebung ist die Positionierung des Atmo-Mikrofons in den meisten Situationen unkritisch. Die folgenden Einschränkungen sind zu beachten: - Im Fall einer Bilddokumentation besteht die Gefahr einer Diskrepanz zwischen akustischer und optischer Richtung, wenn das Mikrofon bildbezogene Quellen aufnimmt. Besonders störend ist natürlich eine Seitendiskrepanz - z. B. linke Bildquelle erscheint akustisch rechts, und umgekehrt. Generell sollten Richtungsdarstellungen für bildbezogene Quellen vermieden werden. 264
Mehrkanal-Stereofonie - Schallquellen in der Nähe des Atmo-Mikrofons sollten bei einem Mindestabstand von 3 m vermieden werden. Eine Quelle nahe am Mikrofon wird bei der Wiedergabe ähnlich nahe am Lautsprecher wahrgenommen. Für die realitätsnahe Umhüllung, d. h. für die Illusion einer „kopfnahen” akustischen Umgebung ist dies problematisch, weil die Lautsprecherentfernung verstärkt als Grenze des Hörereignisraumes wahrgenommen werden kann. Beispielsweise würde beim Applaus der Hörer um sich herum leicht eine „akustisch leere Blase” empfinden, wenn das Atmo-Mikrofon zu nahe am Publikum aufgestellt wäre.
Abb. 5/59. IRT-Kreuz für Atmo-Aufnahmen.
5.4.4
Verwendung von Delay
Die natürliche Abbildung der Tiefe und der Räumlichkeitseindruck erfordern eine sorgfältige Handhabung der Verzögerungssituation; darauf beruht z. B. das Prinzip der raumbezogenen Stütztechnik [5.2], [5.48], [5.49], das in Kap. 5.3.5.3 beschrieben wurde. Dies gilt entsprechend für die Mehrkanaltechnik, jedoch muss sichergestellt sein, dass das Raummikrofon die im vorangegangenen Abschnitt beschriebene Abbildung des indirekten Schalls auch hinsichtlich der zeitlichen Struktur gewährleistet. Die Verzögerungen werden so gestaltet, dass sie dem Reflexionsmuster des Aufnahmeraums bzw. eines anderen Raums bei künstlicher Verhallung entsprechen. Dies unterstützt die Natürlichkeit des Raumeindrucks und die Darstellung räumlicher Tiefe. Hervorzuheben ist, dass dieses Konzept nicht auf das HauptStützmikrofonverfahren beschränkt ist, sondern auch entsprechend für die Einzelmikrofonverfahren (Kap. 5.3.6) angewandt werden kann [5.38], [5.39], [5.50]. 5.4.4.1
Delay bei Einsatz von Hauptmikrofonen
Am Beispiel der Aufnahme eines Orchesters mit einem Hauptmikrofon, einem Raummikrofon und Stützmikrofonen. zeigt Abb. 5/60 das Grundkonzept notwendiger Verzögerungen. Für die nicht verzögerten Mikrofonsignale ergeben sich die fehlerhaften Zeitverhältnisse, dargestellt in der oberen Grafik. Nach korrekt eingesetzten Verzögerungen ergibt sich das gewünschte Reflexionsmuster in der unteren Grafik. Man erkennt, dass das Stützmikrofonsignal in der ursprünglichen Situation, wie oben dargestellt, früher wiedergegeben wird als das entsprechende Hauptmikrofonsignal. Als Folge davon interpretiert das Gehör das Stützmikrofonsignal als den Direktsignal, so dass die Lokalisation und die bevorzugten Abbildungseigenschaften des Hauptmikrofons verloren gehen. Solche Aufnahmen klingen unnatürlich, ohne räumliche Tiefe und ohne adäquaten Raumeindruck. Dem lässt sich entgegenwirken, indem jedes Stützmikrofonsignal bezüglich 265
Tonaufnahme und Tonwiedergabe Zeit- und Pegelverhältnissen als eine Anzahl von frühen Reflexionen dargestellt wird. Die Verzögerungen werden so gestaltet, dass das resultierende „Stütz-Reflexionsmuster” in den Bereich der frühen Reflexionen fällt, die vom Haupt- oder Raummikrofon aufgenommen werden. Um Klangfärbungsprobleme zu vermeiden und die Wahrnehmung der räumlichen Tiefe und des Raumeindrucks wirkungsvoll zu unterstützen, sollten mindestens vier räumlich und zeitlich verteilte Seitenreflexionen generiert werden. Die Qualität des Raumeindrucks für die gestützte Schallquelle kann ferner durch Hinzufügen eines adäquaten Nachhalls optimiert werden. Auf diese Weise kann die räumliche Qualität der stereofonen Aufnahme erhalten bleiben, und zugleich trägt das Stützmikrofonsignal zur gewünschten Klangbalance von Lautstärke, Transparenz usw. bei.
Abb. 5/60. Raumbezogene Stütztechnik für Haupt-, Stütz- und Raummikrofone.
Da das Stützmikrofonsignal in Form einer Anzahl von verzögerten Reflexionen dem stereofonen Hauptmikrofonsignal hinzugefügt wird, ändert sich nicht die vom Hauptmikrofon gegebene Richtungsinformation. Folglich ist die raumbezogene Stütztechnik nicht geeignet, um die eventuell unbefriedigende Richtungsabbildung eines bestimmten Hauptmikrofons oder gravierende Mängel in der Lautstärkebalance zu verbessern. Vielmehr muss in diesen Fällen das Stützmikrofon den Direktschall des Hauptmikrofons ersetzen, d. h. mit Hilfe einer geeigneten Nachbearbeitung muss der passende indirekte Schall erzeugt werden, so dass er sich in das Reflexionsmuster des übrigen Klangkörpers einfügt. Da die Signale des Stützmikrofons und die entsprechenden Signalanteile des Hauptmikrofons inkohärent sind, gibt es keine Klangfärbungsprobleme durch Kammfiltereffekte. Das gestützte Instrument entspricht mit der raumbezogenen Nachbearbeitung bezüglich Entfernung und Klangfarbe dem gesamten Klangbild und kann problemlos mit der gewünschten Balance zugemischt werden. Auf diese Weise können natürlich beliebig viele Teile des Klangkörpers gestützt werden. Im Extremfall entfällt das Hauptmikrofon ganz, die raumbezogene Stütztechnik wird dann durch das Einzelmikrofonverfahren ersetzt. Auch ohne Hauptmikrofon kann die gewünschte zeitliche Struktur von Direktschall, frühen Reflexionen und Nachhall für den gesamten Klangkörper hergestellt werden. Das ist mit den heutigen technischen Möglichkeiten in vielen Situationen ein praktikabler und sinnvoller Weg, denn er bietet Flexibilität und macht von den 266
Mehrkanal-Stereofonie gegebenen raumakustischen, aufführungs- und produktionsbedingten Realitäten in hohem Maße unabhängig. Die Wahl der Positionierung des Raummikrofons ist bestimmt durch die Optimierung der frühen Reflexionen, des R/D-Verhältnisses und der Diffusität hinsichtlich räumlicher Tiefe, Raumeindruck und Umhüllung. Dies kann unabhängig von der Entfernung zum Hauptmikrofon geschehen. Wie aus Abb. 5/60 hervorgeht, wird zur Vermeidung von Echowirkungen die zu große Entfernung korrigiert, indem sowohl das Stützmikrofonsignal als auch das Hauptmikrofonsignal soweit verzögert werden, dass der fiktive Abstand etwa 10 m beträgt, entsprechend einer Verzögerung von ca. 30 ms. 5.4.4.2
Delay-Plan
Erfahrungen haben gezeigt, dass die genaue Beachtung der Zeitverhältnisse unerlässlich ist, um räumliche Tiefe und Raumeindruck zu gewährleisten. Dazu ist die Erstellung eines DelayPlans für alle beteiligten Mikrofone enorm hilfreich. Im ersten Schritt ist dazu festzulegen, welches Mikrofonsignal den Direktschall bei der Wiedergabe erzeugen und damit die Richtungsabbildung leisten soll. Im Beispiel gemäß Abb. 5/61 ist dies das L-C-R-Hauptmikrofon. Die Zeit- oder Verzögerungswerte beziehen sich auf den Bezugszeitpunkt dieses Mikrofons (t = 0 ms), alle weiteren Mikrofone liefern entweder vor- oder nacheilende Signale.
Abb. 5/61. Setzen des Bezugspunkts für den Delay-Plan.
Der Delay-Plan enthält die individuellen Delays der Mikrofonsignale, die sich am Reflexionsmuster der konkreten Situation im Saal orientieren. Es werden darin die zeitliche Reihenfolge und die räumliche Zuweisung festgelegt. Ein Beispiel zeigt Tab. 5/13, es entspricht der in Abb. 5/61 gezeigten Aufnahmesituation mit einem L-C-R-Hauptmikrofon und einem vierkanaligen Raummikrofon. Es wird angenommen, dass sich das Raummikrofon etwa 20 m hinter dem Hauptmikrofon befindet und dass drei Stützmikrofone A, B und C eingesetzt sind. 267
Tonaufnahme und Tonwiedergabe Tab. 5/13. Delay-Plan für die Mikrofonsignale, Beispiel für die in Abb. 5/61 gezeigte Aufnahmesituation, 1 m entspricht 3 ca. ms, 1 ms entspricht ca. 0,33 m. 1
2
Mikrofone
Entfernungskompensation [ms]
Hauptm. L Hauptm. C Hauptm. R Stützm. A
Stützm. B
Stützm. C Raumm. L Raumm. R Raumm. LS Raumm. RS
Refl. 1: Refl. 2: Refl. 3: Refl. 4: Refl. 1: Refl. 2: Refl. 3: Refl. 4: Refl. 1: Refl. 2: Refl. 3: Refl. 4:
3
4
5
6
0 0 0
Abstand vom Direktschall [ms] 0 0 0
Kompensation + Abstand [ms] 0 0 0
benötigtes Delay [ms]
Routing
- 35 - 35 - 35
L C R
-25 - 25 - 25 -25 -35 - 35 - 35 - 35 -45 - 45 - 45 - 45
- 22 - 19 - 27 - 30 - 29 - 31 - 32 - 35 - 27 - 21 - 29 - 33
- 47 - 44 - 52 - 55 - 64 - 66 - 67 - 70 - 72 - 66 - 74 - 78
- 82 - 79 - 87 - 90 - 99 - 101 - 102 -105 - 107 - 101 - 109 -113
L R LS RS L R LS RS L R LS RS
+ 60 + 60 + 60 + 60
- 25 - 25 - 25 - 25
+ 35 + 35 + 35 + 35
0 0 0 0
L R LS RS
Von jedem Stützmikrofonsignal werden hier vier virtuelle „frühe Reflexionen” abgeleitet, Spalte 2 zeigt zusätzlich die Laufzeit zwischen Stütz- und Hauptmikrofon bzw. Haupt- und Raummikrofon. Spalte 3 enthält die beabsichtigten und frei gewählten zeitlichen Abstände der frühen Reflexionen, sie sollten im Bereich 20 bis 50 ms liegen. Daraus resultieren für die Stützen die individuellen Delays, bezogen auf das Hauptmikrofon. Da die vom Hauptmikrofon aufgenommenen Reflexionen auf Grund der Entfernung von 20 m vom Hauptmikrofon zu spät eintreffen, muss der Ausgleich durch zusätzliches Delay für Haupt- und Stützmikrofone erfolgen, in diesem Fall sind es 35 ms (Spalte 4, vgl. auch Abb. 5/60). Daraus ergeben sich die individuell einzustellenden Gesamt-Delays in Spalte 5. Spalte 6 zeigt das beabsichtigte Routing. In diesem Fall werden die vier abgeleiteten Signale eines Stützmikrofons auf die Kanäle L, R, RS, LS gegeben, so dass sich neben der zeitlichen Verteilung auch eine Richtungsverteilung ergibt. Der Delay-Plan enthält keine Pegelanpassungen; diese können nun innerhalb eines breiten Bereichs in bestimmten Grenzen variiert werden, ohne die Wahrnehmung von Richtung und räumlicher Tiefe zu verändern. 268
Mehrkanal-Stereofonie 5.4.4.3 Digitale Signalverarbeitung An Stelle des einfachen Routings eines Stützsignals auf die vier Kanäle L, R, RS, LS kann mit der heutigen digitalen Signalverarbeitung das „Stützsignal-Reflexionsmuster” wesentlich feiner dargestellt werden. Schon ältere Untersuchungen mit Zweikanal-Stereofonie [5.48] haben gezeigt, dass das vom Hauptmikrofon gewonnene Klangbild eines Instruments im Saal im Prinzip ebenso mit einem geeignet nachbearbeiteten Stützmikrofonsignal hergestellt werden kann und ein derartiges Stützsignal einen hohen „Stützgewinn” bei hervorragender Einfügung in das gesamte Klangbild hinsichtlich Tiefenstaffelung und Raumeindruck gewährleistet. Entsprechende Mischpulte sind seit einigen Jahren verfügbar. Die digitalen Signalverarbeitungen erlauben z. B. eine hohe Anzahl von räumlich verteilten Reflexionen pro Stützmikrofon, ergänzenden adäquaten Nachhall und „Entfernungs-Equalizing”, d. h. Berücksichtigung von spektralen Veränderungen auf Grund der Absorption während der Schallausbreitung. Im Prinzip ermöglichen die digitalen Werkzeuge ein „natürliches” Panning der Richtung und Entfernung der gestützten Schallquelle. In der Fortführung dieser Entwicklung können Einzelmikrofonverfahren prinzipiell ein sehr ähnliches klangliches Ergebnis hervorbringen wie die raumbezogene Stütztechnik. Dazu muss theoretisch jedes „trockene” Einzelmikrofonsignal mit den entsprechenden Raumimpulsantworten gefaltet werden, welche mit der Haupt- und Raummikrofon-Konfiguration im Saal gemessen werden. Hier eröffnen sich bisher nicht realisierte Möglichkeiten der kreativen räumlichen Gestaltung stereofoner Aufnahmen. Sie sind nicht gebunden an raumakustische Bedingungen im Aufnahmeraum oder an aufführungspraktische Gegebenheiten.
5.5
Klanggestaltung
Die Ton- und Übertragungstechnik steht im Dienst von Inhalten, die sie mit ihren medienspezifischen Mitteln darstellt, übermittelt und bewahrt. Es ist deshalb gerechtfertigt, in diesem Handbuch über die Technik der Aufnahme, Speicherung, Übertragung und Wiedergabe von Klangereignissen hinaus den Blick auch auf die Darstellung und Gestaltung der Inhalte zu lenken. Denn jedes zu übertragende Klangereignis vermittelt einerseits Informationen, Bedeutungen, Botschaften und emotionale Inhalte, andererseits ist es gestaltet nach ästhetischen Richtlinien, nach dramaturgischen Grundsätzen und künstlerischen Intentionen. Viele Produktionen sind rein handwerklicher Art, gekennzeichnet durch eine möglichst fehlerlose Technik und eine Klanggestaltung, die allgemeine Erfahrungen berücksichtigt, Erwartungen erfüllt und die klangliche Darstellung in Übereinstimmung bringt mit allgemein anerkannten Prinzipien der Gestaltung; diese können beschrieben werden. Die klangliche Darstellung beschränkt sich aber nicht auf diese „handwerklichen” Klangprodukte, sondern reicht hin bis zur Schaffung von hörbaren Kunstwerken, bis zu künstlerischen Werken eines Urhebers und geistigen Eigentümers. Während bei der Tongestaltung (Kap. 6) die Klangeigenschaften einzelner Elemente des Klangs bearbeitet werden, also z. B. die Klangfarbe, den zeitlichen Verlauf einzelner Töne oder den Raumeindruck, wird die Klanggestaltung als übergreifend aufgefasst, sie hat das Gesamtklangbild und dessen zeitlichen Ablauf im Blick, also etwa die Dynamik, die Balance zwischen Teilen des Klangs, den Bezug zum dargestellten Raum usw. Klangdramaturgie kann 269
Tonaufnahme und Tonwiedergabe verstanden werden als eine dem Gesamtklangbild noch übergeordnete Ordnungs- und Gestaltungsebene die künstlerische Umsetzung mitbestimmt. Der Mittler zwischen Technik und Musik ist der Tonmeister oder Tonregisseur, im Wortbereich der Regisseur. Die folgenden Ausführungen beziehen sich bevorzugt auf die „handwerkliche” Ebene, also auf beschreibbare Grundsätze und Möglichkeiten der Gestaltung; Ton- und Klanggestaltung gehen da fließend ineinander über. Die Gestaltungsdimensionen, die bei der Klanggestaltung zur Verfügung stehen, spielen sich bei Zweikanalstereofonie zwischen den beiden Abhörlautsprechern ab, bei Mehrkanalstereofonie zwischen allen beteiligten Lautsprechern, es sind also zunächst die Orte und Dimensionen des Raums, die es zu besetzen gilt. Dazu gehört im erweiterten Sinn auch die Darstellung des Raums, in dem das Klanggeschehen stattfindet. Bei der klassischen Zweikanalstereofonie etwa ist die Frage zu beantworten nach der Verteilung der Schallquellen zwischen den beiden frontalen Lautsprechern, bei der Mehrkanalstereofonie kommen Fragen der Zuweisung von Schallquellen oder Rauminformationen an die seitlichen Surround-Lautsprecher hinzu. Die möglichen Schallquellenorte bei der Wiedergabe können so gekennzeichnet werden: Mittenschallquelle: Die Mitte einer Darstellung oder Klangdarstellung, ist ein hervorgehobener Ort, der seine Bevorzugung aus den Erfahrungen und Gewohnheiten des Alltags bezieht. Was für uns wichtig ist, das sehen wir an, es steht also in unserer Wahrnehmung in der Mitte, eine tiefe Erfahrung, an der keine Gestaltung vorbei gehen kann, der allerdings auch bewusst zuwider gehandelt werden kann. Es ist unüblich, den Gesangssolisten eines Titels der Populärmusik oder einen Instrumentalsolisten in einem klassischen Konzert außerhalb der Mitte anzuordnen, hier werden Erwartungen erfüllt und es wird den Erfahrungen des Hörers entsprechend verfahren. Nachteilig ist bei Zweikanalstereofonie, dass die Mittenschallquelle eine Phantomschallquelle darstellt mit all ihren Nachteilen: sie erscheint nur dann in der Mitte, wenn auch der Hörer innerhalb der Hörzone – eigentlich genau in der Mitte zwischen den Lautsprechern ist, sie scheint eine geringere Präsenz zu haben und unterscheidet sich mit ihrer etwas dunkleren Klangfarbe von einer Realschallquelle, sie ist weniger real und weniger direkt, sie ist über die Verbindungslinie der Lautsprecher erhoben. Aus diesen Nachteilen ergibt sich ein ständiger Konflikt mit den oben genannten gestalterischen Gesichtspunkten. Die Mehrkanalstereofonie mit einem Centerlautsprecher hebt die genannten Einwände auf; dieses Problem wurde beim Filmton schon früh erkannt und durch den sog. Dialogkanal behoben. Frontale Seitenschallquellen: Frontale Seitenschallquellen sind bei allen Arten der Stereofonie grundsätzlich Realschallquellen, d. h., sie kommen nur aus einem der Lautsprecher und behalten auch außerhalb der Hörzone ihren ursprünglichen Ort, sie stabilisieren die räumliche Dimension einer Aufnahme. Seitenschallquellen machen eine Aufnahme also auch bei schlechten oder untauglichen Abhörbedingungen zu einer Stereoaufnahme, allerdings eingeschränkt, weil die Phantomschallquellen in einen der Lautsprecher verschoben werden. Als Realschallquellen haben Seitenschallquellen eine besondere Präsenz und eine „klangliche Glaubwürdigkeit”. Bisweilen wird ein stereofones Klangbild, das sich stark auf Seitenschallquellen stützt, abwertend als „Ping-Pong”-Stereofonie bezeichnet, in Erinnerung an die Anfangszeit der 270
Klanggestaltung Stereofonie, als ihre neuen Fähigkeiten durch ein Tischtennismatch deutlich demonstriert werden sollten. Wenn sich ein stereofones Klangbild tatsächlich auf die Wiedergabe der Seitenschallquellen beschränkt, wird die Leistungsfähigkeit des Systems nicht voll genutzt, andererseits sollte die klangliche Qualität von Realschallquellen durchaus bedacht und gewürdigt werden. Phantomschallquellen vorne: Phantomschallquellen stellen – wie Mittenschallquellen bei Zweikanalstereofonie - an den Hörer immer die Forderung, sich innerhalb der Hörzone zu befinden und den Kopf symmetrisch zu den Lautsprechern zu halten, für viele praktische Hörsituationen zu Hause sicher eine oft unerfüllte Forderung. Ungeachtet dessen muss bei der Aufnahme von weitgehend optimalen, zumindest guten Aufnahmebedingungen ausgegangen werden. Tiefenstaffelung: Die Tiefenstaffelung einer Aufnahme erweitert den darstellbaren Klangraum, sie schafft die Möglichkeit, auch Bedeutungsebenen zuzuweisen, das Wichtigste nahe, Begleitendes weiter entfernt, oder auch: das Besondere vorne, das Allgemeine weiter entfernt. Da die Dimension der Entfernung bei Lautsprecherstereofonie nur simuliert werden kann wie auf einem zweidimensionalen Bild, ist ihre Darstellbarkeit nicht sehr differenziert. Zwei bis drei Entfernungsebenen sind mit einiger Sicherheit unterscheidbar. Kunstkopfstereofonie bietet hier weitaus bessere Bedingungen. Raumschall: Zunächst stellt sich die Frage, ob der Raum der Aufnahme überhaupt übertragen werden soll oder nicht. Bei Aufnahmen von Schallquellen, die im Wiedergaberaum denkbar wären oder Platz finden würden, ist zu erwägen, ob der Aufnahmeraum übertragen werden soll, die Aufnahme also ganz „trocken” sein soll oder nicht. Am deutlichsten wird die Frage bei Sprachaufnahmen, die meist ohne eigene Raumakustik aufgenommen werden. Die Wiedergabelautsprecher vertreten die Schallquelle, die Aufnahme wirkt glaubhaft und natürlich. Soll aber z. B. ein öffentlicher Vortrag mit Publikum aufgenommen werden, so gehört die akustische Atmosphäre dazu, sie vermittelt dokumentarisch die besondere Situation der Aufnahme. Auch eine Schallquelle wie eine Gitarre könnte einerseits ohne, aber auch mit der Akustik des Aufnahmeraums übertragen werden, denn der Gitarrist könnte durchaus in einem üblichen Wiedergaberaum spielen, die Lautsprecher könnten ihn vertreten. Anders stellt sich die Situation etwa bei einem großen Orchester oder Chor, bei einer Blaskapelle oder einem populären Musiktitel dar, solche Schallquellen sind im Wiedergaberaum nicht denkbar, sie müssen die Raumakustik mit der Aufnahme mitbringen, der Hörer wird mit in den Konzertsaal genommen. Über die Phänomene der Wahrnehmung des Raumschalls, wie sie in Kap. 1.2.2 beschrieben wurden, hat der Raum aber weiter gehende Bedeutung bei der Aufnahme, vielleicht vergleichbar der Beleuchtung einer Szene oder eines Gegenstands. Ein kleiner Raum – hörbar durch die wenig verzögerten Reflexionen, vermittelt Privatheit, Intimität, aber auch Eingeschlossenheit, der große Raum verleiht Öffentlichkeit, Festlichkeit, Feierlichkeit, die Würde eines sakralen Raums – hörbar durch länger verzögerte Reflexionen. Der Nachhall gibt durch seine Dauer, Feinstruktur und Klangfärbung Auskunft über die Beschaffenheit der Raumoberfläche (siehe Kap. 1.1.2.4), ob es sich eher um die stoffbezogene Oberfläche eines Opernhauses handelt, 271
Tonaufnahme und Tonwiedergabe den holzverkleideten Konzertsaal oder die steinerne Kirche. Diese akustischen Eigenschaften transportiert der Raumschall für den Hörer wohl meist nicht bewusst wahrnehmbar, aber auch stark abhängig von der Hörerfahrung und der Wahrnehmungsfähigkeit des Hörers. Symmetrie: Ein allgemein über die Geschichte der Kunst hinweg erfolgreicher Gestaltungsansatz ist die Symmetrie, in diesem Fall die Klangsymmetrie. Sie ist eine der Platzierung der Schallquellen übergeordnete Gestaltungsdimension. Sie kann bei Musik z. B. so realisiert werden, dass links und rechts gleich hohe, gleich bedeutende, gleich laute Musikinstrumente gesetzt werden. Aber bereits eine starke, wichtige Mittenschallquelle schafft eine Symmetrieachse, die ein Minimum von Symmetrie vermittelt. So zeigt sich, dass neben der Zweiheit gerade eine Dreiheit von Klanggruppen „auf klassische Art” symmetrisch sein kann. Einen ersten Konflikt gibt es bei vier Klanggruppen, weil hier unter dem Gesichtspunkt der Symmetrie die Mitte unbesetzt bleibt. Fügt man diesen Überlegungen eine weitere, weiter entfernte, dahinter liegende Ebene hinzu, so gelten für diese zunächst dieselben Überlegungen. Sie steht aber nun in Beziehung zur vorderen Ebene: so könnte der Konstellation hoch – tief – hoch in der zweiten Ebene ein tief – hoch – tief in der ersten Ebene zur Seite stehen. Es gibt gut lokalisierbare Musikinstrumente wie etwa ein Klavier oder ein Snare Drum, andere Instrumente wie ein Base Drum oder eine Pauke sind auf Grund ihrer Klangeigenschaften schwerer zu lokalisieren; es ist sinnvoll – wenn die Möglichkeit besteht – gut lokalisierbare Instrumente für die Darstellung der Symmetrie zu nutzen, also seitlich anzuordnen, und weniger gut lokalisierbare Instrumente in der Mitte zu platzieren. Verallgemeinernd bedeutet das, dass die weniger gut lokalisierbaren tiefen Instrumente eher als Phantomschallquellen in der Mitte angeordnet werden, die besser lokalisierbaren hohen Instrumente eher seitlich; auch bei dieser Überlegung ergibt sich ein Konflikt zu dem Grundsatz, dass der Solist in der Mitte zu platzieren sei. Aber gerade die Konflikte bei den Gestaltungsgrundsätzen sind es, die kreative Lösungen fordern und die Klanggestaltung vor Routine bewahren. Die genannten räumlichen Gestaltungsprinzipien stellen meist noch keine künstlerischen Entscheidungen dar, sondern gehören zum „Handwerk”, sie können deshalb auch konkret beschrieben werden und spielen bei den meisten Wortaufnahmen (Kap. 5.51) eine tragende Rolle. Bei Musikaufnahmen behalten sie ihre Geltung, sind aber einbezogen in ein komplexes Gewebe von Gestaltungskriterien. Kap. 5.5.2 versucht, einige Gesichtspunkte für die Aufnahme klassischer Musik zusammenzustellen; wegen des zunehmenden Einflusses künstlerischer Intentionen wird es dabei schon schwieriger, konkrete Gestaltungsgesichtspunkte zu beschreiben, Ähnliches gilt für Fernsehtonaufnahmen (Kap. 5.5.3). Der Bereich populärer Musik bleibt in diesem Zusammenhang unberücksichtigt. Wie bei klassischer Musik ist die Komplexität der Thematik beachtlich, die Möglichkeiten, die Phänomene und Vorgänge in Worten darzustellen, beschränkt. Gerade bei populärer Musik spielen zudem Entwicklungen, Trends, Moden, individuelle Ausprägungen eine solche Rolle, die Verallgemeinerungen kaum zulassen und die Möglichkeiten eines Handbuchs überschreiten, denn hierfür müssten in erster Linie Klangbeispiele stehen.
272
Klanggestaltung
5.5.1
Wortproduktionen
Wortproduktionen nennt man Aufnahmen, bei denen das gesprochene Wort im Mittelpunkt steht. Es kann sich dabei z. B. um Nachrichten, Interviews, die Lesung eines einzelnen Sprechers oder auch um die szenische, künstlerisch anspruchsvolle Darstellung eines Hörspiels mit Musik- und Geräuscheinblendungen handeln. Der Ablauf einer Wortproduktion muss nicht in der endgültigen Reihenfolge ihrer Teile erfolgen. Oft unterteilt man das Manuskript oder Textbuch aus Gründen rationeller Produktion in mehrere Abschnitte: Diejenigen Szenen oder Sequenzen werden nacheinander aufgenommen, die mit denselben Sprechern besetzt sind. Wenn alle Teilaufnahmen vorliegen, werden sie in der richtigen Reihenfolge zusammengesetzt, ggf. auch nachträglich mit Geräuschen gemischt. Zum Aufnahmeteam eines aufwändigen Hörspiels gehören Regisseur, Regieassistent, Toningenieur und Tontechniker - eventuell mit Assistent. Für einfache Wortaufnahmen sind nur der Regisseur oder Aufnahmeleiter und ein Tontechniker erforderlich, Interviews o. ä. werden auch vom Reporter ohne technische Assistenz ausgeführt. Jede Rundfunkanstalt verfügt über für Wortaufnahmen geeignete Studios, vom einfachen Sprecherstudio bis hin zum Hörspielkomplex mit Aufnahmeräumen, die verschiedene raumakustische Eigenschaften haben. Die Nachbearbeitung liegt – bedingt durch die Entwicklungen der digitalen Tontechnik – schon weitgehend in der Hand der Programmmitarbeiter, sofern es sich um einfache Wortaufnahmen handelt. In Tab. 5/14 sind wichtige Stilformen von Wortproduktionen aufgezählt. Man kann sie unterteilen in informierende Darstellungen - wie Nachrichten, Feature, Reportage, Interview -, Meinungen äußernde Darstellungsformen - Interview, Statement, Rundgespräch, Glosse, Kommentar - und phantasiebetonte Darstellungsformen – Feuilleton und Hörspiel. Die Grenzen zwischen den einzelnen Stilformen sind fließend. Tab. 5/14. Stilformen von Wortproduktionen. Begriff Nachricht
Definition nach bestimmten Regeln gestaltete aktuelle Information über Ereignisse und Sachverhalte
Reportage
tatsachenorientierter, aber auch persönlich gefärbter Erlebnisbericht eines Reporters, der meist als Augenzeuge berichtet.
Erläuterungen Man unterscheidet „harte” und „weiche” Nachrichten. Harte Nachrichten sind knapp und prägnant formuliert, sie informieren über die „vier Ws. einer Nachricht”, das Was, Wer, Wie und Wo eines Ereignisses oder Sachverhalts. Die Teile der Nachricht sind meist nach ihrer Wichtigkeit geordnet, so dass sie von ihrem Ende her gekürzt werden können. „Weiche” oder „leichte” Nachrichten sind in einem etwas persönlicheren, farbigeren Ton gehalten. Kennzeichnend ist eine Vielfalt von Stilmitteln, die häufig wechseln. Bei der Reportage werden v. a. optische Ereignisse durch das Wort beschrieben.
273
Tonaufnahme und Tonwiedergabe Interview
Statement
Gesprächsrunde, Roundtable
Glosse Kommentar
Feuilleton
Feature
Hörspiel
274
Befragung eines oder mehrerer Gesprächspartner durch einen Reporter, bei der Tatsachen und Meinungen wiedergegeben werden kurze Erklärung oder eine Stellungnahme einer Person zu einem bestimmten Thema Gespräch von Politikern, Journalisten, Wissenschaftlern usw., mit unterschiedlichen Ansichten geführt
kurzer meinungsbetonter, vielfach witziger Beitrag sachbezogene Form der Meinungsäußerung betont persönliche Form der Darstellung von Nebensächlichkeiten und Kleinigkeiten des Lebens Sammelbegriff für alle journalistischen Stilformen, die nicht nur sachliche Information geben
eine für die Gegebenheiten und Möglichkeiten des Hörfunks bzw. eines reinen Hörmediums entwickelte Kunstform
Oft handelt es sich dabei um die Befragung bekannter Persönlichkeiten, auch per Telefon, aber z. B. auch von Straßenpassanten, zu aktuellen Themen. Im Gegensatz zum Interview tritt dabei kein befragender Reporter in Erscheinung. Es soll dem Hörer ein breit aufgefächertes Meinungsspektrum zu einem Thema darbieten. Spannend und interessant werden solche Diskussionen durch Konflikte zwischen den Verfechtern unterschiedlicher Meinungen. Meist wird eine überspitzte Argumentation verwendet. Es werden Tatsachen erläutert und interpretiert, Hintergründe dargelegt sowie Meinungen begründet oder widerlegt. Es versucht, diesen Dingen eine bewegende, interessante Seite abzugewinnen.
Es handelt sich um eine Dokumentation, die durch verschiedene Sprecher, durch erdachte Szenen, durch Einblendungen von Kurzinterviews, Statements, Originalgeräuschen, Musik usw. eine hörfunkspezifische Form darstellt, die durch die umfangreiche Verwendung von Originaltönen neben Informationen durch das gesprochene Wort besonders Stimmungen, Atmosphäre und andere nicht-verbale Informationen übermittelt. Das Feature vereint also Information, Dokumentation, Meinung und Unterhaltung. Der Autor nutzt allein die Aussagekraft des gesprochenen Worts unter Verzicht auf die Sichtbarkeit des Geschehens. Akustische und elektronische Gestaltungsmittel verdeutlichen den Ablauf und den szenischen Hintergrund.
Klanggestaltung Das Manuskript für eine Wortproduktion ist das vollständige Textbuch, versehen mit allen Angaben über szenische Abläufe, Ausdrucksvarianten, Originalgeräusche, Geräuscheinblendungen usw. Es wird aus einer Idee über ein Exposé, also ein kurzer Handlungsaufriss, und das Treatment, ein ausführlicher Handlungsaufriss, hin zum vollständigen Textbuch entwickelt. Nachdem es der zuständige Redakteur redigiert hat, wird es zur Aufnahme freigegeben. 5.5.1.1
Sprachaufnahmen
Bereits bei einfachen Sprachaufnahmen in Stereo werden dramaturgische Prinzipien angewendet: Ein einzelner Sprecher wird stets in der Mitte der Abhörbasis abgebildet, also als reine Phantomschallquelle, obwohl dies im Prinzip für die Klangdarstellung keine optimale Lösung ist, denn der Sprecher wandert auf der Lautsprecherbasis, wenn sich der Hörer aus der Mitte der Abhörbasis entfernt. Klanglich günstiger wäre die Abbildung eines einzelnen Sprechers seitlich als Realschallquelle in einem der Lautsprecher, das indessen widerspricht der Erwartung des Hörers, einen Sprecher in der Mitte vor sich, in Blickrichtung, zu haben. Von der Möglichkeit, Sprecher in den Lautsprechern als Realschallquellen abzubilden, kann deshalb nur bei zwei Sprechern Gebrauch gemacht werden. In der Praxis werden auch diese oft zur Mitte hin verschoben, aus dem Bedenken heraus, zwischen den Sprechern könne zu viel Abstand entstehen. Bei drei Sprechern bietet sich die Lösung links – Mitte – rechts ohne Alternative an. Abhörlautstärke Zwischen Abhörlautstärke, natürlicher Lautstärke der Sprecher und Klangfärbung, also Frequenzabhängigkeit der Wahrnehmung, besteht bei Tonaufnahmen ein Zusammenhang, der bei Sprache besonders deutlich wahrgenommen wird, weil der Klang der menschlichen Stimme zu den tiefsten und genauesten Erfahrungen des Menschen gehört. Die Lautstärke der Klangkomponenten der Stimme ist unterhalb etwa 100 Hz bei Männern und 200 Hz bei Frauen relativ unabhängig von der Sprechlautstärke (siehe Kap. 2.2), wird also hauptsächlich von der Entfernung zum Sprecher bestimmt. Bei jeder elektroakustischen Wiedergabe, bei der die Abhörlautstärke aber von der „natürlichen” Lautstärke am Mikrofonort abweicht, muss sich somit eine unnatürliche Wiedergabe der Tiefen ergeben; bei „unnatürlich” lautem Abhören dröhnt die Stimme, weil die tiefen Komponenten relativ zu den höheren zu stark sind, bei „unnatürlich” leiser Wiedergabe wird ihr Klang flach, weil die Tiefen fehlen. Sinnvoll ist es deshalb, die Abhörlautstärke der „natürlichen” Lautstärke anzupassen, also der Lautstärke, die herrschen würde, wenn sich die Sprecher am Ort der Abhörlautsprecher befinden würden. Störungen Bei normaler Sprechweise herrscht in einer Entfernung von etwa 60 cm vom Sprecher ein Schalldruckpegel von rund 60 dB, der sich bei Annäherung auf etwa 30 cm um rund 4 dB auf 64 dB erhöht; wird laut gesprochen, erhöht sich der Pegel um jeweils nochmals etwa 6 dB. Damit ergibt sich in einem Studio, das den an ein Rundfunkstudio gestellten Anforderungen gerecht wird (siehe Kap. 1.3.1), ein Störpegelabstand zu dem allgemeinen Studio- und Mikrofongeräusch von rund 50 dB. Dabei bestimmt das Eigenrauschen des Mikrofons v. a. den erreichbaren Geräuschpegelabstand. Kürzere Pausen in Sprachaufnahmen bestehen aus einer 275
Tonaufnahme und Tonwiedergabe Aufnahme der „Studioatmosphäre” („Atmo”, „Raum statisch”); es empfiehlt sich deshalb bei hohen Anforderungen, zu einer Sprachaufnahme stets noch einige Sekunden Atmo als Mischung aus Studio- und Mikrofongeräusch für evtl. einzufügende Pausen aufzunehmen. Bei relativ geringem Mikrofonabstand - unter 30 bis 50 cm - ruft der Nahbesprechungseffekt (siehe Kap. 4.2.1) durch eine hörbare Anhebung der Tiefen ein unnatürliches Dröhnen hervor; für diesen Fall stehen Mikrofone mit einschaltbarer Bassabsenkung zur Verfügung bzw. Mikrofone mit einer festen Bassabsenkung, sog. Solistenmikrofone; selbstverständlich kann auch eine Filterung in der Tonregie erfolgen. Bei der vielfach v. a. im Studio üblichen Entfernung von etwa 60 cm spielt der Effekt keine nennenswerte Rolle. Störender sind bei geringerem Mikrofonabstand Poppeffekte durch die Explosivlaute des Sprechers; ein Windschutz schafft hier Abhilfe (siehe Kap. 4.2.1.8). Störende Klangfärbungen entstehen, wenn das Mikrofon zugleich mit dem Direktschall Reflexionen vom Sprechertisch oder Manuskript aufnimmt. Je nach Anordnung lassen sich solche Reflexionen jedoch vermeiden (Abb. 5/62). Klangfärbungen machen sich v. a. dann störend bemerkbar, wenn die durch die Reflexion entstehende Kammfilterkurve sich durch Bewegungen des Sprechers verschiebt. Im Gegensatz zu Hörspielstudios benötigen reine Sprecherstudios keine Mindestgröße; durch Festlegung des Sprechplatzes und des Mikrofonorts kann die raumakustische Gestaltung alle akustischen Anforderungen erfüllen. Die Nachhallzeit beträgt i. Allg. etwa 0,2 bis 0,3 s; erste Reflexionen werden dabei so weit wie möglich unterdrückt.
Abb. 5/62. Vermeidung von Klangfärbungen bei Wortaufnahmen.
Nachrichten Nachrichten werden sachlich, ohne persönliche Anteilnahme der Sprechers gelesen. Ziel ist eine möglichst hohe Wortverständlichkeit. Sie wird nicht nur durch angemessene Sprechgeschwindigkeit erreicht, sondern v. a. auch durch einen möglichst gleichmäßigen Verlauf des Pegels, d. h. ohne laut hervorgehobene Wörter oder in der Lautstärke zurückgenommene Satzteile oder Wörter. Auch bei Einsatz eines Kompressors müssen diese Grundsätze beachtet werden. Interview und Reportage Das Interview-Mikrofon wird zunächst nach seiner Richtcharakteristik ausgewählt: Die Kugelrichtcharakteristik eignet sich, wenn zugleich mit einem Interview oder einer Reportage die akustische Atmosphäre übertragen werden soll; sofern es sich um Druckempfänger handelt, sind Kugelrichtmikrofone weniger wind- und handempfindlich als Richtmikrofone. Die Niere eignet sich für Aufnahmesituationen, in denen Nebengeräusche ausgeblendet werden und nur der Reporter und der Befragte aufgenommen werden sollen; das Störgeräusch entscheidet über die Haltung bzw. Führung des Mikrofons (Abb. 5/63). Eine Acht blendet 276
Klanggestaltung Störgeräusche ebenso gut wie die Niere aus; sie kann deshalb bei zwei Gesprächspartnern gut eingesetzt werden, muss allerdings fast in Mundhöhe gehalten werden. Grundsätzlich ist ein Wind- und Poppschutz zu empfehlen (siehe Kap. 4.2.1.8). Bei Mikrofonabständen unter 30 cm sollte bei der Verwendung von Richtmikrofonen ein Nahbesprechungsmikrofon gewählt werden (siehe unten); dieser Mikrofontyp verfälscht aber die akustische Atmosphäre, indem er die Tiefen bedämpft. Bei sehr geringem Besprechungsabstand wird die Mikrofonmembran möglichst nicht frontal angesprochen, sondern zur Vermeidung von Übersteuerungen durch Popplaute schräg. Da Richtmikrofone ziemlich empfindlich gegen Körperschall sind, müssen Reibgeräusche am Mikrofon und am Mikrofonkabel unbedingt vermieden werden. Dafür ist es nützlich, das Kabel mit einer Schlaufe durch die Hand zu ziehen, wie in Abb. 5/63 dargestellt.
Abb. 5/63. Mikrofonhaltung bei Interviews und Reportagen.
5.5.1.2 Gesprächsrunden Für eine Gesprächsrunde oder Roundtable gelten zunächst dieselben Gesichtspunkte bezüglich Schallpegel, Studiogeräusch, Nahbesprechungseffekt und Klangfärbung durch Reflexionen wie bei einem Einzelsprecher. Bei der Mikrofonaufstellung kommen zwei Möglichkeiten in Betracht: Zunächst kann jedem Gesprächspartner nach dem Einzelmikrofonverfahren ein Mikrofon zugeteilt werden, das dann bei Stereoaufnahmen in der Tonregie durch PanoramaPotentiometer in seine Abbildungsrichtung eingeordnet wird. Dieses Verfahren bietet zugleich die Möglichkeit, die Mikrofone nur bei Bedarf zu öffnen. Diese Funktion kann auch ein Schwellwertschalter (Noisegate) übernehmen; ein Expander reduziert ebenfalls unnötige Geräusche in Pausen. Um in Gesprächspausen kein akustisches Loch entstehen zu lassen, muss zusätzlich ein Raummikrofon aufgestellt werden. Einen besseren Eindruck von der akustischen Atmosphäre im Gesprächsraum gibt eine Aufnahme mit einem oder zwei Stereomikrofonen in etwas größerem Abstand. Dabei können die Gesprächsteilnehmer auf einem Kreisbogen von 270/ angeordnet werden, in XY-Aufnahmetechnik werden dann zwei Nieren unter ± 45/ eingestellt. Sitzen die Teilnehmer um den ganzen Tisch, können zwei Nieren mit ± 90/ in XY-Technik aufgestellt werden. Die Verwendung von zwei Stereomikrofonen „Rücken an Rücken” ist nicht sinnvoll. Gelegentlich wird für Monoaufnahmen ein Stereomikrofon mit unter 90/ gekreuzten Achten verwendet, die über ein sog. 90 /-Filter zusammengeschaltet werden; es entsteht dabei die Richtcharakteristik einer rotierten Acht, ein sog. Torus, der waagrecht allseitig gleich empfindlich ist, senkrecht aber diffusen Schall ausblendet (Abb. 5/64, 4). Auch mit Grenzflächenmikrofonen werden gute Erfahrungen gemacht; sie sind unauffällig und zeigen besonders auch bei sich vom Mikrofon abwendenden Sprechern gute Ergebnisse, da bei diesen Mikrofonen zwischen Direkt- und Diffusschall keine Klangfarbenunterschiede bestehen. 277
Tonaufnahme und Tonwiedergabe
Abb. 5/64. Mikrofonaufstellung bei Gesprächsrunden. 1. MS: Acht/Acht, XY: Acht/Acht unter ± 45/, 2. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90/, 3. MS: Kugel oder Niere/Acht, XY: Niere/Niere unter ± 90/, 4. Torus für Monowiedergabe (gekreuzte Achten unter 90/ Phasenverschiebung).
5.5.2
Klangliche Aspekte bei Aufnahmen klassischer Musik
Die Klangästhetik von Musikaufnahmen ist wie die Ästhetik anderer Kunstformen einer ständigen Veränderung unterworfen. Neben allgemeinen Strömungen gibt es auch kurzlebige Trends oder spezielle Anforderungen der Produzenten. Dennoch soll versucht werden, einige „klassische” Prinzipien der Klangästhetik von Musikaufnahmen darzustellen. Klangästhetische Überlegungen werden umso wichtiger, je komplexer und je räumlich ausgedehnter eine Komposition oder Aufführung angelegt ist. So ist es bei der Aufnahme eines Sängers mit Gitarrenbegleitung nicht erheblich, ob der Sänger links oder rechts von der Gitarre abgebildet wird oder ob die Gitarre genau in derselben Entfernung wie der Sänger, etwas weiter weg oder etwas näher wiedergegeben wird. Bei der Aufnahme eines großen Werks mit Gesangsolisten, Soloinstrumenten, Orchester und Chor hingegen wird die Klangästhetik zu einer künstlerischen Frage größter Wichtigkeit, die, ebenso wie die Darbietungen der Sänger und Musiker, zur musikalischen Interpretation des Werks gehört. Klangästhetische Entscheidungen beginnen aber meist schon bei relativ kleinen Besetzungen. Sie sind nicht frei von aufführungspraktischen Notwendigkeiten, tragen also vielfach einen gewissen Kompromisscharakter. Allerdings sind die traditionellen Platzierungsschemata natürlich auch unter klangästhetischen Gesichtspunkten entstanden; ein gutes Beispiel hierfür ist die traditionelle deutsche Orchesteraufstellung, die durch Klangsymmetrie gekennzeichnet ist. Möglicherweise hat aber heute der Gesichtspunkt des präzisen Zusammenspiels oft Vorrang, wie z. B. bei der amerikanischen Orchesteraufstellung, die wegen der fehlenden Symmetrie der Klangquellenverteilung für Stereoaufnahmen eine gewisse Problematik darstellt. Zur Beschreibung des Klangbilds bei Aufnahmen klassischer Musik dienen im Wesentlichen die drei Parameter Richtung, Tiefenstaffelung und Räumlichkeit. Darüber hinaus spielen die Faktoren Aufnahmeraum, Orchesteraufstellung und Größe des Ensembles eine wichtige Rolle für ein der Komposition angemessenes Klangbild. Kommen zum Orchester noch Solisten und ein Chor dazu, stellt sich die Frage der Hierarchie in der Klangpräsenz. 278
Klanggestaltung Die Grundlage für alle Entscheidungen einer künstlerischen Klangdramaturgie ist die Partitur. Hier ist die Vorstellung des Komponisten festgelegt. Es bleibt über das Notenbild hinaus ein Spielraum, in welcher Weise die musikalischen Vorgaben von den Künstlern, aber auch vom Tonmeister umgesetzt werden sollen. Der musikalische Verlauf mit Haupt- und Nebenstimmen muss plastisch dargestellt werden. Die natürliche Akustik eines weitgehend guten Aufnahmeraums soll vorteilhaft genutzt werden, Schwächen eines Raums dagegen unterdrückt werden. Die natürliche Balance des Ensembles soll zu hören sein, jedoch überall dort, wo Unterstützung nötig ist, kann und muss die Aufnahmetechnik helfend eingreifen. Der Dirigent einer Orchester- oder Opernaufführung steht an einem akustisch eher ungünstigen Ort, an dem die vorderen Streicher überproportional stark, andere Teile des Orchesters möglicherweise zu schwach sind. Ein guter Dirigent korrigiert diesen Nachteil durch seine Erfahrung. Die zusätzliche fachliche Beratung durch den Tonmeister, der sich im Saal einen Eindruck verschaffen kann, ist für das Gelingen einer guten Aufnahme oftmals willkommen. Wenn es die Produktionszeit zulässt, ist der auditive Vergleich des Klangeindrucks zwischen Saal und Lautsprecherwiedergabe ein wichtiges Hilfsmittel für die Ausgewogenheit einer Aufnahme. Hohe Produktionskosten, insbesondere bei Aufnahmen mit großen Besetzungen, geben allerdings zunehmend einen knappen Zeitrahmen vor. Für Probeaufnahmen klanglich schwieriger Passagen ist vielfach keine Zeit verfügbar. Aus diesem Grund ist es heute zwingend notwendig geworden, die Anordnung und Typenauswahl des Hauptmikrofonsystems und der Stützmikrofone vor Beginn der Aufnahme sorgfältig zu planen. Notwendige Korrekturen in der Klangbalance werden überwiegend am Mischpult realisiert, ohne während der Aufnahmesitzungen, z. B. durch zeitaufwändige Änderungen der Sitzordnung im Orchester, in die Balance eingreifen zu müssen. Deshalb sind Aufnahmen auf Mehrspursystemen eine hilfreiche Option für spätere Klangkorrekturen ohne Zeitdruck im Rahmen der Nachbearbeitung. [5.55] 5.5.2.1
Aufnahmeraum
Viele Kompositionen klassischer Musik sind für bestimmte Räume komponiert worden. Bis ins 19. Jahrhundert haben die Komponisten überwiegend für Kirchen, Opernhäuser und höfische Räume geschrieben. Die Raumgrößen waren sehr unterschiedlich, vielfach nur für wenige Hundert Hörer, teils auch recht groß. Der Redoutensaal in Wien von 1752 mit etwa 1500 Plätzen z. B., in dem viele Werke der Wiener Klassiker aufgeführt wurden, war mit seiner Größe schon eher eine Ausnahme; demgegenüber ist das berühmte Alte Gewandhaus in Leipzig von 1781 mit rund 400 Plätzen, nach einem Umbau 1842 mit 570 Plätzen, in dem viele Werke der deutschen Romantik aufgeführt wurden, auffallend klein. Der weltberühmte Goldene Saal des Wiener Musikvereins wurde 1870 eröffnet. Er hat heute 1744 Sitzplätze sowie zusätzlich rund 300 Stehplätze. Erst seit dem ausgehenden 19. Jahrhundert stehen Konzertsäle im heutigen Sinn für öffentliche Aufführungen, vielfach nach dem Vorbild des Musikvereinsaals oder des Neuen Gewandhauses in Leipzig - das heute nicht mehr existiert in der Form einer Schuhschachtel gestaltet, zur Verfügung; sie werden vielfach für Aufnahmezwecke genutzt. [5.51 – 5.53], siehe hierzu insbesondere Kap. 1.2. Die Verteilung des Direkt- und des Diffusschalls in einem Konzertsaal ist durchaus ortsabhängig. Es gibt akustisch gute und weniger gute Plätze. Durch die Richtwirkung der Instrumente und Schallreflexionen an Wandoberflächen kann der Schall eines Instruments in 279
Tonaufnahme und Tonwiedergabe seiner Richtung akustisch anders wahrgenommen werden als die tatsächliche Position dieses Instruments zum Hörer; gerade in Opernhäusern, in denen das Orchester unterhalb der Bühne in einem „Orchestergraben” sitzt, erreicht der Schall den Hörer teils erst über die Seitenwandung sowie die Untersicht des oberen Abschlusses (Soffitten) der Bühne. Im Konzert gibt das Auge die korrekte Position eines Instruments an, bei Aufnahmen kann diese Fehlortung zum Problem werden. Ein allgemein gültiges Prinzip der Klangästhetik bei Lautsprecherwiedergabe lautet, dass der Hörer die Darbietung wie auf dem besten Platz eines Konzertsaals wahrnehmen soll. Das Fehlen der optischen Information des Aufnahmeraums bei der Wiedergabe zu Hause muss durch genaue, in manchen Fällen möglicherweise durch eine verdeutlichend übertriebene Richtungs- und Entfernungswiedergabe bei der Aufnahme ersetzt werden; eine u. U. überzogene Verdeutlichung der Darstellung rechtfertigt sich durch die vielfach nicht idealen Wiedergabebedingungen beim Hörer. Dem Tonmeister stehen hierfür vielfache Gestaltungsmittel zur Verfügung. Wichtig ist die dem Werk und dem Raum adäquate Mikrofonierung. In aller Regel besteht ein Mikrofon-Setup aus einer stereofonen Hauptmikrofonanordnung, z. B. Klein-AB, Groß-AB oder einer der anderen Hauptmikrofonanordnungen und zusätzlichen Stützmikrofonen (siehe Kap. 5.3). Während das Hauptmikrofonsystem in einer ausgewogenen Distanz zum Klangkörper und in der Nähe, aber innerhalb des Hallradius’ positioniert ist, befinden sich die Stützmikrofone im Nahfeld der Instrumente. Das Hauptmikrofonsystem soll Direktschall und Raumanteile des Saals möglichst homogen wiedergeben, während die Stützmikrofone wichtige musikalische Details der Partitur aufnehmen. Bei kleinen Besetzungen in einem gut und ausgewogen klingenden Raum kann häufig eine einzige Hauptmikrofonanordnung in einer sorgfältig erarbeiteten Distanz vom Schallereignis bereits ein sehr gutes Ergebnis liefern. Ist die Akustik des Aufnahmeraums jedoch problematisch oder steht wenig Zeit für die Einstellung des Klangbilds zur Verfügung, werden zusätzliche Stützmikrofone an geeigneten Positionen aufgestellt. Bei besonders ungünstigen akustischen Verhältnissen, sei es in zu halligen Räumen oder bei störenden Nebengeräuschen, muss möglicherweise ohne Hauptmikrofon, d. h. nach dem Einzelmikrofonverfahren aufgenommen werden. Auf elektronischem Weg können dann nach Bedarf raumbezogene Anteile, also erste Reflexionen und Nachhall dem Klangbild zugemischt werden. In einem zu kleinen Aufnahmeraum entstehen frühe erste Reflexionen, die den räumlichen Eindruck entscheidend prägen. Diese störenden frühen Reflexionen können im Klangbild kaum eliminiert werden, gerichtete Mikrofone und ein relativ geringer Mikrofonabstand sind mögliche Gegenmaßnahmen. Es ist unter dieser Voraussetzung schwierig, einen adäquaten Raumeindruck zu realisieren. Bei Aufnahmen in sog. überakustischen Räumen ist der Hallradius klein und die Nachhallzeit lang, der Diffusschallpegel ist bezogen auf den Direktschallpegel hoch. Der zu groß wirkende Raumeindruck kann mittels geschickter Wahl der Mikrofonpositionen reduziert werden. Der Abstand von der Hauptmikrofonanordnung zum Orchester wie auch der Abstand der Stützmikrofone zu den Schallquellen wird kleiner gewählt, um das Verhältnis von Direktschall zu Raumanteil zugunsten des Direktschalls zu erhöhen. Die natürliche Nachhallzeit bleibt allerdings erhalten. 280
Klanggestaltung 5.5.2.2
Verteilung der Schallquellen auf der Stereobasis
Kleine Besetzungen, Kammermusik Die Basisbreite bei der stereofonen Abbildung der Instrumente soll der Logik der räumlichen Perspektive nicht widersprechen. Große Klangkörper werden stets so breit wie möglich abgebildet, kleinere können entsprechend schmaler abgebildet werden. Unabhängig von der Abbildungsbreite soll der Raumschall immer die ganze Basisbreite einnehmen. Die Position eines kleineren Klangkörpers auf der Stereobasis ergibt sich in der Regel aus der Sitzordnung des Ensembles. Bei einem Streichtrio z. B. mit Geige, Violoncello und Bratsche ist es vorteilhaft, die Geige im Klangbild halblinks, das Violoncello in der Mitte und die Bratsche halbrechts abzubilden. Bedingt durch das Abstrahlverhalten der Instrumente erreicht man mit dieser Aufstellung eine klare Richtungsabbildung auf der Stereobasis, wobei ein überbreiter „Pingpong-Effekt”, hin zur Abbildung im Lautsprecher, vermieden werden sollte. Die Tiefenstaffelung spielt in der Kammermusik eine eher untergeordnete Rolle. Eine natürliche und ausgeglichene Balance lässt sich bei kleineren Besetzungen bereits durch unterschiedliche Sitzpositionen der Musiker zum Hauptmikrofon finden, auf Stützmikrofone kann dann verzichtet werden. Dieses Verfahren ist zwar zeitaufwändiger, gibt aber die Balance des Ensembles und die Klangfarbe der Instrumente in natürlicher Weise wieder. Orchester Groß besetzte Orchesterwerke weisen mehrere Klangebenen auf. Neben einer differenzierten Richtungsabbildung der verschiedenartigen Instrumente kommt als weitere Dimension die Tiefenstaffelung hinzu. Vorne sind die Streichinstrumente abgebildet, etwas entfernter die Holz- und Blechbläser, und sofern vorhanden, dahinter der Chor. Solistische Darbietungen werden noch vor den Streichern im Vordergrund positioniert. Es gibt in der Aufführungspraxis klassischer Musik verschiedene Orchesteraufstellungen, deren Unterschiede sich v. a. in der Anordnung der Streichergruppen darstellen. Die drei gebräuchlichsten Varianten sind die deutsche, die amerikanische und die gemischte Aufstellung [5.54]: Im Sinne eines ausgewogenen Klangbilds hat die deutsche Aufstellung (Abb. 5/65), von der sog. Mannheimer Schule um 1750 entwickelt, den Vorteil der Klangsymmetrie: Die Tonlagen der hohen Streichinstrumente kommen seitlich von links und rechts, während die tiefen Töne der Violoncelli und insbesondere der Kontrabässe sich eher um die Mitte gruppieren. Diese Sitzordnung wirkt sich nicht nur vorteilhaft für die Aufnahme, sondern ebenso für die Wiedergabe im Saal aus. V. a. die Bässe strahlen direkt in den Saal und werden mit einem idealen Abstand vom Hauptmikrofon abgebildet. Oft kann man daher bei dieser Sitzordnung auf Stützmikrofone für die beiden Gruppen verzichten. Bei der amerikanischen Aufstellung (Abb. 5/66), von Leopold Stokowski mit dem Ziel eines präzisen Zusammenspiels der Streicher nach dem Vorbild der Streichquartettaufstellung eingeführt, ist die Klangverteilung der hohen Tonlagen von links nach tiefen Tonlagen rechts gestaffelt. Da in allen Orchesteraufstellungen auch die hohen Holzbläser mit Flöten, Klarinetten und oft auch die Trompeten auf der linken Seite platziert sind, erreicht man hier statt eines homogenen Mischklangs ein Tonlagengefälle von links nach rechts, von hoch nach tief. Die 281
Tonaufnahme und Tonwiedergabe Hauptabstrahlrichtung der Violoncelli und Kontrabässe ist in dieser Sitzordnung überdies auf die gegenüberliegende Seite der Bühne gerichtet. Diese Instrumente werden mit ihren hohen Frequenzanteilen sowohl im Saal als auch über die Hauptmikrofone weniger stark wahrgenommen, fehlende Präsenz ist oftmals die Folge.
Abb. 5/65. Anordnung der Streicher bei der deutschen Orchesteraufstellung.
Abb. 5/66. Anordnung der Streicher bei der amerikanischen Orchesteraufstellung.
Die dritte Variante (Abb. 5/67), von Wilhelm Furtwängler bei den Berliner Philharmonikern eingeführt und oft praktiziert, gleicht den Nachteil des Tonlagengefälles aus. Hier sind die Positionen der Bratschen und der Violoncelli gegenüber der amerikanischen Anordnung vertauscht; die Violoncelli spielen nun vorteilhaft in Richtung des Saals. Für die Bässe bleibt der Nachteil der amerikanischen Aufstellung bestehen. Nachteilig erscheint auch, dass die gerade bei Aufnahmen wichtige akustische Markierung des rechten Rands des Klangbilds durch die oft nur klangfüllende Mittelstimme der Bratschen ausgefüllt wird.
Abb. 5/67. Mischform der Orchesteraufstellung nach Furtwängler.
Die deutsche Aufstellung der Streicher war im 19. und beginnenden 20. Jahrhundert allgemein üblich; diese Anordnung lag zu jener Zeit auch den Klangvorstellungen der Komponisten zu Grunde. So spielen beispielsweise im Vorspiel zur Oper Lohengrin von Richard Wagner in den ersten 34 Takten ausschließlich die vierfach geteilten Violinen mehr als drei Minuten lang 282
Klanggestaltung zu Beginn des Werks. Sind die Streicher nach der deutschen Aufstellung angeordnet, füllen die ersten und zweiten Violinen vorteilhaft die gesamte Basisbreite aus, während sich bei den beiden anderen Varianten die Wiedergabe dieser Musik nur auf die linke Hälfte der Stereobasis beschränkt. Beispiele ähnlicher Art, die die deutsche Anordnung zur Voraussetzung haben, finden sich in großer Zahl beginnend bei Ludwig van Beethoven bei allen wichtigen Komponisten der Orchestermusik des 19. Jahrhunderts. Holz- und Blechbläser Für die Anordnung der Holz- und Blechbläser findet man ebenfalls zahlreiche Varianten. Diese kommen oft aus der Tradition der Orchester oder ergeben sich aus den Bedingungen des Saals. Üblicherweise wird bei der Aufnahme allen Gruppen ein Stützmikrofon zugewiesen. Sind zusätzliche Sonderinstrumente wie z. B. Englischhorn, Bassklarinette oder Kontrafagott besetzt, werden auch hierfür meist Stützmikrofone verwendet, um deren Klanganteile präsent zu beleben. Da die Blechbläser in der Regel kräftig genug spielen, kann bei guter Raumakustik oft auf Stützmikrofone verzichtet werden. Abb. 5/68 zeigt in einer ersten Variante eine kompakte Anordnung der Bläser. Der für das Zusammenspiel wichtige Kontakt der Musiker untereinander ist hier sehr gut. Die entfernten Seiten- und Rückwände erzeugen darüber hinaus vorteilhafte Reflexionen für die Hörner auf der linken Orchesterseite und sorgen für einen instrumententypischen Klang. Problematisch aus Sicht der Aufnahme ist das Übersprechen der Trompeten und Posaunen in die Mikrofone der Holzbläser.
Abb. 5/68. Anordnung der Blasinstrumente im Orchester, Variante 1.
In der Variante nach Abb. 5/69 ist das Übersprechen der Blechblasinstrumente in die Mikrofone der Holzbläser ebenfalls von Nachteil. Hinzu kommt, dass die Hörner direkt in Richtung der Oboen und Fagotte abstrahlen und von diesen zusätzlich bedämpft werden. Auch entsteht der unerwünschte Effekt, dass die Hörner in die Stützmikrofone der Oboen und Fagotte übersprechen. Eine günstige Anordnung für die Aufnahme der Holzblasinstrumente zeigt Abb. 5/70. In dieser Variante ist das Blech neben den Holzbläsern aufgestellt, ein Übersprechen auf Stützmikrofone wird dadurch weitgehend vermieden. Hinter den Stufen für die Holzbläser bleibt das Podium frei, erst dahinter sind die Pauken und das Schlagzeug angeordnet. Diese Distanz zu den Holzbläsern wirkt sich positiv auf das Übersprechen aus. Wie in der Variante 1 sitzen auch hier die Hörner auf dem akustisch günstigsten Platz hinsichtlich deren Abstrahlcharakteristik und Klangfarbe. 283
Tonaufnahme und Tonwiedergabe
Abb. 5 /69. Anordnung der Blasinstrumente im Orchester, Variante 2.
Abb. 5/70. Anordnung der Blasinstrumente im Orchester, Variante 3.
Oper, Oratorium und geistliche Musik Zu den genannten Aspekten bei Orchesteraufnahmen kommen bei großen Werken mit Chor und Gesangssolisten die Fragen der Präsenz der Solisten, die Sprachverständlichkeit bei Sängern und Chor und das Klangverhältnis von Chor zu Orchester hinzu. In der modernen Aufnahmepraxis ist es üblich geworden, Solisten, insbesondere Sänger, in der stereofonen Abbildung sehr präsent vor dem Orchester zu platzieren. Oft genug unterscheidet sich diese Darstellung deutlich von der Klangbalance der Aufführung im Saal. Die Intention einer besonders prominenten Wiedergabe des Solisten - verursacht durch auf die Künstler bezogene Vermarktungsstrategien - birgt nicht nur die Gefahr, mögliche Schwächen der Stimmen überproportional offen zu legen, sondern verhindert vielfach auch ein angemessenes Verhältnis der Instrumente zu den Gesangsstimmen. Stützmikrofone für den Chor sind wegen der Textverständlichkeit in der Regel unverzichtbar. Günstig für die Tiefenstaffelung ist es, wenn die Mikrofone im Bezug zum Hauptmikrofon verzögert zugemischt werden. Die Obergrenze im Verhältnis der Stützmikrofone zur Hauptmikrofonanordnung ist dann erreicht, wenn der Chor im Klangbild zu dicht nach vorne kommt oder die Homogenität des Chorklangs leidet, weil Einzelstimmen hervortreten. Generell können bei Chor-/Orchesteraufnahmen bessere Ergebnisse erzielt werden, wenn der Chor in Blockaufstellung singt statt in der gemischten Aufstellung. Man spricht von Blockaufstellung, wenn Sopran, Alt, Tenor und Bass als Gruppen nebeneinander aufgestellt werden im Gegensatz zur gemischten Choraufstellung mit Sopran und Alt vor Tenor und Bass. Die Stützmikrofone lassen sich in der Blockaufstellung leichter zuordnen, bei Bedarf kann z. B. der Tenor gestützt werden, ohne andere Stimmengruppen anzuheben. 284
Klanggestaltung Ferne Instrumente Gelegentlich findet man bei Kompositionen Anweisungen wie „hinter der Bühne”, „von Ferne” oder „vorbeiziehend”. Die einfachste und oft wirkungsvollste Möglichkeit, den gewünschten akustischen Effekt zu erzielen, ist die Aufstellung der Musiker in natürlicher räumlicher Entfernung. Hat man die Möglichkeit, die Musiker außerhalb des Aufnahmeraums, z. B. im Foyer oder einem Nebenraum zu platzieren, erhält man durch den Öffnungswinkel der dazwischen liegenden Türen eine natürliche Regelmöglichkeit für einen variablen Entfernungs- und Lautstärkeeindruck. Setzt man Stützmikrofone für die fernen Instrumente ein, lässt sich der vor dem Pegelsteller ausgekoppelte Hallanteil für den Ferneffekt nutzen. Oft liefert auch eine Kombination der beiden Techniken ein gutes Ergebnis. Aufnahme szenischer Opern Die anspruchsvollste Aufgabe für den Tonmeister besteht in der Aufnahme von szenischen Aufführungen in einem Opernhaus. Hier muss man zunächst die Inszenierung kennen lernen und danach ein Konzept für die Mikrofonpositionen auf der Bühne und deren Anordnung auf der Stereobasis erstellen. Ziel einer guten Opernaufnahme ist die Darstellung der räumlichen Disposition, d. h. die seitlichen und in die Tiefe gehenden Wege der Solisten auf der Bühne korrekt nachzubilden. Es ist sinnvoll, nur die momentan für die Abbildung benötigten Stützmikrofone aufzuziehen. Dies hilft der Präsenz und Sprachverständlichkeit der Sänger und vermeidet andererseits das Entstehen von Kammfiltereffekten durch Übersprechen. Klassik-Open Air Bei Aufführungen im Freien erzeugt die Schallquelle praktisch keine Reflexionen, eine Durchmischung der Instrumentalklänge auf der Bühne findet nicht statt. Daher macht der Einsatz von Hauptmikrofonen bei Open Air-Veranstaltungen meist wenig Sinn. Wenn man allerdings das Schallfeld einer Beschallungsanlage als Ersatz der Raumakustik auffasst, kann der Einsatz von Hauptmikrofonen durchaus einen wünschenswerten Effekt haben. Die musikalische Balance und die räumliche Disposition der Instrumente werden synthetisch am Mischpult erzeugt. Das Klangbild entsteht nahezu ausschließlich nach dem Einzelmikrofonverfahren mit Hilfe einer Vielzahl von Mikrofonen. Die eigentlich dem Dirigenten zustehende Aufgabe, für eine partiturgerechte und raumbezogene Klangbalance des Orchesters zu sorgen, geht hier nahezu vollständig auf den Tonmeister über. Daher muss die Klangvorstellung des Tonmeisters für die jeweilige Partitur besonders ausgeprägt sein. Gelegentlich kann es wegen einer sehr großen Anzahl von Mikrofonen notwendig sein, dass zwei Tonmeister gleichzeitig am Mischpult arbeiten. Insbesondere bei großen Ensembles mit vielen solistischen Darbietungen ist ein ausgewogener Mix von einem Einzelnen kaum mehr zu bewältigen. Nicht selten arbeiten z. B. bei aufwändigen Popkonzerten die Tonmeister an mehreren Mischpulten mit geteilten Verantwortlichkeiten. Bei der Mikrofonierung eines großen symphonischen Klangkörpers werden üblicherweise Stützmikrofone mit Nierencharakteristik je Pult im Nahfeld platziert. Damit wird das Übersprechen anderer Schallquellen weitgehend vermieden. Für eine Orchesterdarbietung ist eine Größenordnung von mehr als 60 Mikrofonen keine Seltenheit. Der Einsatz von entsprechenden Hall- und Verzögerungsgeräten ist hier besonders wichtig. Die räumliche Tiefenstaffelung kann bei diesem Verfahren nur über Verzögerung der rückwärtigen Mikrofone erreicht werden. 285
Tonaufnahme und Tonwiedergabe 5.5.2.3
Tiefenstaffelung innerhalb des Stereoklangbilds
Das Klangbild und der Raumeindruck einer Orchesteraufnahme werden durch Schallinformationen über die Richtung und Entfernung geprägt. Die Tiefenstaffelung, d. h. die räumliche Darstellung von Instrumenten in ihrer Entfernung zum Hauptmikrofon, kann umso differenzierter sein, je größer die Besetzung und je größer der erwünschte hörbare Raum sein soll. Das Hauptmikrofonsystem empfängt Schall ausgedehnter Klangkörper aus unterschiedlichen Richtungen und Entfernungen. Eine natürliche Tiefenstaffelung ergibt sich bereits durch die Laufzeitunterschiede von Schallquellen mit unterschiedlichem Abstand zum Hauptmikrofon. Um die gewünschte Raumillusion bei Lautsprecherwiedergabe verwirklichen zu können, ist es erforderlich, neben dem Hauptmikrofon mehrere Stützmikrofone zu verwenden und diese mit Entfernungsmerkmalen zu versehen, z. B. mit Laufzeit- und Hallanteilen. Während der Hörer im Saal das Ohr auf ein bestimmtes Klangereignis konzentrieren kann (Cocktailpartyeffekt), ist dies bei der Lautsprecherwiedergabe nur bedingt möglich. Spielt beispielsweise ein Instrument oder eine Instrumentengruppe zu schwach, muss der Tonmeister während der Aufnahme eine Korrektur der Klangbalance vornehmen. Für diese Aufgabe verwendet man bei Aufnahmen mit größeren Besetzungen Stützmikrofone. Das Pegelverhältnis zwischen Hauptmikrofon und Stützmikrofon prägt die natürliche Tiefenstaffelung wesentlich. Liegt der Pegel des Stützmikrofons etwa 6 dB unter dem des Hauptmikrofons, tritt keine Beeinflussung der Entfernungswahrnehmung ein. Muss aber das Stützmikrofon z. B. aus Gründen der Klangbalance mit einem höheren Pegelanteil zugemischt werden, besteht die Gefahr, dass das gestützte Instrument aus dem Klangbild hervortritt. Durch eine entsprechende Verzögerung dieses Signals, die mindestens der Laufzeit des Schalls für die Entfernung von der Schallquelle zum Hauptmikrofon entspricht, wird der unerwünschte Effekt gemindert. 5.5.2.4
Wiedergabedynamik
Ein schwieriges und nahezu unlösbares Problem ist die allseits befriedigende Wiedergabedynamik von Aufnahmen bei Lautsprecherwiedergabe. Die Originaldynamik von Schallereignissen aus großen Konzertsälen, Opernhäusern und Musikstudios erreicht oftmals Werte über 70 dB. Für eine adäquate Wiedergabe im Wohnraum muss diese hohe Dynamik entsprechend angepasst werden, siehe Kap. 18.3. Ist die erwünschte Wiedergabedynamik kleiner als die Originaldynamik, so wird eine Dynamikeinengung auf die sog. Programmdynamik notwendig. Diese soll so groß sein, dass ohne Änderung der Einstellung am Lautstärkeregler die Wiedergabe sowohl sehr leiser als auch sehr lauter Stellen zu Hause möglich ist. Die Wiedergabedynamik wird einerseits bei den kleinen Pegeln durch häusliche Störgeräusche wie eindringender Straßenlärm begrenzt. Für eine durchschnittliche Abhörsituation muss ein Schalldruck-Störpegel von 35 bis 40 dB angenommen werden. Andererseits muss bei einem Mehrfamilienhaus angenommen werden, dass der Nutzpegel nach dem Wanddurchgang zum Nachbarn von diesem als Störpegel aufgefasst wird und dort somit nicht lauter als etwa 35 dB sein darf. Bei einer Wanddämpfung von 40 bis 50 dB ergibt sich dann ein maximal zulässiger Abhör-Schalldruckpegel von 75 bis 85 dB. Eine sinnvolle Wiedergabedynamik liegt demnach ebenfalls bei nur 40 bis 50 dB. Siehe hierzu auch Kap. 18.5. Für eine gut ausgesteuerte Aufnahme, die nichts von ihrer emotionalen Wahrnehmungsqualität einbüßen soll, sind ein ausgewogenes Klangempfinden des Tonmeisters und die 286
Klanggestaltung einfühlsame Vorwegnahme zu hoher Pegeldifferenzen während der Aufnahme gefordert. Neben der Pegelbeeinflussung am Mischpult helfen auch technische Geräte wie Kompressoren und Begrenzer zu hohe Pegelsprünge auszugleichen. Die Einstellungen der Regelkennlinien erfordern dabei einen behutsamen Umgang. Siehe hierzu ausführlich Kap. 6.2. 5.5.2.5
Anforderungen bei Wiedergabe von 5.1-Mehrkanalstereofonie
Bei Aufnahmen für mehrkanalige Stereowiedergabe gelten grundsätzlich dieselben ästhetischen Kriterien wie für die stereofone Wiedergabe: Symmetrie der Schallverteilung über die Stereobasis, Transparenz der Klangebenen, Richtungs- und Tiefenstaffelung der Schallinformationen. Das Ziel, Musik nach den Vorgaben der Partitur in einer dem Wiedergaberaum zuträglichen Perspektive abzubilden, gilt bei den erweiterten Möglichkeiten der Mehrkanaltechnik ganz besonders. Die mehrkanalige Wiedergabe ermöglicht durch den Einsatz von Surround-Mikrofonen das natürliche Schallfeld des Aufnahmeraumes weitgehend abbilden zu können. Daher können Schallereignisse bei entsprechender Lautsprecheranordnung aus allen horizontalen Richtungen realistisch wiedergegeben werden, siehe Kap. 5.4. Bei stereofoner Zweikanalwiedergabe finden die Klangereignisse auf der Basis zwischen den beiden Lautsprechern und dem dahinter liegenden virtuellen Raum statt. Die Richtungswahrnehmung bleibt somit begrenzt auf ein schmales zweidimensionales Band zwischen den Frontlautsprechern. Bei der mehrkanaligen Wiedergabe erweitert sich der Hörbereich über die Basis zwischen den Frontlautsprechern hinaus zu den rückwärtigen oder seitlichen SurroundLautsprechern bei abnehmender Lokalisierungsschärfe, siehe Kap. 5.2. Die Wiedergabe einer Surround-Aufnahme über drei Frontlautsprecher links – Mitte - rechts und zwei rückwärtig angeordnete Lautsprecher bezieht den Hörer in den Aufnahmeraum ein. Der Center-Lautsprecher hat überwiegend die Aufgabe, aus der Mitte kommende Schallanteile richtungsstabil abzubilden. Der sog. Effektkanal LFE als sechster Kanal der Übertragungskette in einem 5.1-System wird bei klassischer Musik nur selten z. B. für besonders tieffrequente Effekte wie die Kanonen bei der Ouvertüre 1812 von Peter Tschaikowsky, genutzt. Die Ästhetik der Musikwiedergabe muss in der Mehrkanaltechnik nach Jahrzehnten der Zweikanal-Stereofonie neu definiert werden. So ist es z. B. durchaus möglich, ein Quintett, welches üblicherweise zwischen den Frontlautsprechern abgebildet wird, über die fünf Surround-Kanäle diskret zu verteilen. Auch gibt es Ansätze, ein Orchester aus der eindimensionalen Klangebene zwischen den frontalen Lautsprechern herauszulösen und konkreter in den Wiedergaberaum zu holen. Dies wird erreicht durch die Abbildung direkter Klanganteile in den Surround-Kanälen. Da die Richtungsabbildung zwischen den Seitenkanälen L-LS und R-RS allerdings nicht stabil und unscharf ist, sind der adäquaten Ortung und damit der Klangdramaturgie Grenzen gesetzt. Verwendet man eine höhere Anzahl von Kanälen für die Wiedergabe, lässt sich die Seiteninformation jedoch entsprechend genauer abbilden. Beispiele hierfür gibt es im Einzelfall; sie reichen bis hin zu 22 Kanälen. Der Aufwand für Aufnahmeund Wiedergabeeinrichtungen ist allerdings enorm. Andere Entwicklungen der Surroundtechnik beziehen die Elevationsebene mit ein und verwenden zusätzliche Lautsprecher oberhalb der Frontalebene. Diese Technik wird „Surround with Heights” genannt. In vielerlei Hinsicht stellen sich dieselben Fragen und Probleme beim Übergang zur Mehrkanalstereofonie wie in den 1960er Jahren beim Übergang von der Mono- zur Stereofonie; wie damals ist 287
Tonaufnahme und Tonwiedergabe die Forderung nach Abwärtskompatibilität der Systeme ein die Entwicklung hemmender Faktor. 5.5.2.6
Neue Aspekte bei mehrkanaliger Wiedergabe
Das einfachste Modell einer neuen Ästhetik ist, kleine bis mittlere Besetzungen kreisförmig wiederzugeben, beispielsweise dadurch, dass jedem Instrument oder einer bestimmten Instrumentengruppe ein eigener Wiedergabekanal zugeordnet wird. Die Praxis zeigt, dass sich damit im Bereich der Kammermusik oder der Volks- und Popmusik interessante Ergebnisse erzielen lassen. Bei dieser Klangdramaturgie spielt der Aufnahmeraum eine untergeordnete Rolle, da die Lautsprecher als Repräsentanten der Ausführenden dienen. Dieser ästhetische Ansatz funktioniert allerdings nur für Kompositionen aus jüngerer Zeit oder aus der Pop- und Unterhaltungsmusik. So liegen z. B. neue Werke für Streichquartett vor, bei denen die Komposition auf eine spezielle Form der Aufführung und auf eine mehrkanalige Wiedergabe konzipiert ist. Die Partitur schreibt hier explizit vor wie die Instrumente bei der Aufführung im Saal zu verteilen sind. Auch Komponisten zeitgenössischer Orchesterliteratur berücksichtigen zunehmend die Surroundtechnik für die Wiedergabe ihrer Werke. Verwendet man die räumliche Orchesteranordnung jedoch für z. B. Werke der Wiener Klassik, ist diese Aufführungs- und Wiedergabepraxis nicht sonderlich geeignet. Der musikalische Kontext, sowohl in der homofonen als auch in der polyfonen Struktur, erfordert hier ein Verschmelzen des Klangs und nicht dessen analytische Zerlegung. Selbst bei kontrapunktischen Passagen wirkt dann ein Zuviel an Trennung eher störend. Ausgedehnte Klangkörper und große Orchesterbesetzungen erfordern naturgemäß einen größeren Saal für die Aufführung. Daher sollte in der Regel diese Raumakustik auch für die Lautsprecherwiedergabe vorteilhaft genutzt werden. Zusätzlich zur üblichen stereofonen Mikrofonierung für den Klangkörper werden weitere Mikrofone zur Abbildung der seitlichen und rückwärtigen Raumreflexionen verwendet. Die Richtwirkung der Mikrofone sowie deren Position im Raum sind hierbei von entscheidender Bedeutung für die Qualität der Aufnahme. Die Mehrkanalwiedergabe bietet beste Möglichkeiten, wirkungsvolle Effekte wie Ferntrompeten, Echos oder Bühnenmusiken aus unterschiedlichen Richtungen über die SurroundKanäle überzeugend zu realisieren. Besonders deutlich kommen die Stärken der mehrkanaligen Wiedergabe auch bei Orgelaufnahmen in Kirchen zur Geltung, da hierbei der Aufnahmeraum über die Surround-Kanäle stärker in die Aufnahme eingebunden werden kann. Ein Verlust der Durchhörbarkeit im musikalischen Sinne tritt dabei nicht auf. Den eindrucksvollen Effekt räumlich verteilter Klanggruppen nutzten schon die Komponisten der Renaissance- und Barockzeit in ihren sakralen Werken. Mit Hilfe der Surroundtechnik ist heute eine Annäherung an frühe Klangideale wieder vorstellbar. 5.5.2.7
Historischer Rückblick
Die ersten Jahrzehnte nach Erfindung der mechanischen Schallaufzeichnung (Wachswalze 1877, Schellackplatte 1895) waren in klangästhetischer Hinsicht gekennzeichnet durch die Aufzeichnungstechnik: der Schall wurde durch Trichter aufgenommen und durch Schläuche der Membran zugeleitet, an die über einen Hebelarm der Schneidstichel angekoppelt war. Die geringe Empfindlichkeit und die hohen Nebengeräusche zwangen die Musiker zu extremer 288
Klanggestaltung Nähe zu den Trichtern; musikalische Dynamik war nicht möglich, größte Lautstärke war eine Forderung an die Musiker, ohne die keine brauchbaren Aufnahmen möglich waren. Dennoch wurden diese Aufnahmen als sensationell empfunden - der Vergleich mit den ersten Fotos liegt hier nahe -, weil erstmals der Künstler selbst zu hören war und nicht ein Musikautomat mit mechanischer Tonerzeugung, so war der erste Künstler, der mit den ersten Schallplatten größte Erfolge hatte, der Tenor Enrico Caruso. Sofern bei den rein mechanischen Aufnahmen überhaupt von einer Klangästhetik gesprochen werden kann, ist sie gekennzeichnet durch extreme Nähe der „Mikrofone” und fehlende Dynamik. Eine Weiterentwicklung der Aufnahmetechnik brachte die Einführung der elektroakustischen Übertragung mit Mikrofonen und Verstärkern in den Jahren zwischen 1920 und 1930. Dadurch erweiterte sich nicht nur der Frequenzbereich von etwa 600 bis 2.000 Hz auf 100 bis 5.000 Hz, sondern auch die nichtlinearen Verzerrungen konnten erheblich reduziert und die Dynamik erweitert werden. Die Dynamikeinengung wurde nun zunehmend von den Musikern an die Tonmeister übergeben, die Klangbalance konnte elektrisch hergestellt werden durch Einsatz mehrerer Mikrofone. Nähe zur Klangquelle und geringe Dynamik waren aber weiterhin kennzeichnend für die Aufnahmetechnik. Die nächste Entwicklungsstufe der Tonaufnahmetechnik war erreicht, als mit der Entdeckung der Hochfrequenzvormagnetisierung 1940 und der Entwicklung der Langspielplatte 1948 sowie der Einführung des UKW-Rundfunks in den 1950er Jahren die Schallaufzeichnung und nun auch die Bearbeitung der Tonaufnahmen nochmals erheblich verbessert wurden. Nun war es möglich, auch den Raum in die Aufnahmetechnik einzubeziehen, also nicht nur die Schallquellen, sondern auch den Konzertsaal zu übertragen. Als Gegenpol zur Nahfeldmethode entstand die Aufnahmetechnik mit einem Kugeldruckmikrofon über dem Klangkörper, die sog. „one point”-Technik. Das Hauptmikrofonverfahren war somit geschaffen. Nach der Einführung der Stereofonie nach 1960 entstand allmählich eine spezifische Medienästhetik. Die verbesserten klanglichen Möglichkeiten führten zu einer verfeinerten Umsetzung der Partitur und zu einer eigenen Ästhetik. Die fehlende optische Information, wie sie ein Zuhörer im Konzertsaal oder einem Opernhaus hat, wurde durch eine zunehmend ausgefeilte Klangbalance der Aufnahmen kompensiert. Mit Beginn der Digitaltechnik Ende der 1970er Jahre kamen die Aspekte hoher technischer Aufnahmequalität und verlustfreier Übertragung vom Studio bis zur Heimwiedergabe hinzu. Insbesondere die Entwicklung digitaler Mischpulte und rechnergestützter Schnittsysteme führte zu einer Perfektionierung der Aufnahme, wie sie zuvor nicht möglich war. Seitdem hat der Zeitaufwand für die Nachbearbeitung zwar wesentlich zugenommen, andererseits konnte der kostenintensive Aufwand bei den Studiozeiten, insbesondere bei Orchester- und Opernproduktionen, reduziert werden. Es bleibt festzustellen, dass jüngste Erkenntnisse in Forschung und Entwicklung, insbesondere in der Psychoakustik und Rechnertechnik, die musikalische Perfektion von Aufnahmen sowie das Hörerlebnis deutlich gesteigert haben. Vielfach wird allerdings beklagt, dass diese Perfektion oft auf Kosten einer glaubhaften, ansprechenden und emotional berührenden Interpretation geht. Eine gute Aufnahme sollte deshalb beim Hörer vergleichbare Empfindungen erzeugen können, wie sie im Konzertsaal erlebbar sind.
289
Tonaufnahme und Tonwiedergabe
5.5.3
Klangliche Aspekte bei Fernsehaufnahmen
In einem audiovisuellen Medium wie dem Fernsehen hat die Kombination von Ton und Bild eine hohe produktionstechnische Relevanz für die Gestaltung der Tonmischung. Dies schließt auch eine zum Teil deutlich andere Mikrofonierung im Vergleich zu Produktionen ohne Bild wie bei Hörfunk und Schallplatte ein. Je mehr eine Produktion sich beispielsweise dem Genre des Spielfilms nähert, desto größere Bedeutung gewinnt die Tongestaltung hinsichtlich der erzählerischen Möglichkeiten. Das „Sound Design”, also die künstlerische Gestaltung der klanglichen Ausformung, hilft wesentlich, eine „Story” zu tragen, zu ergänzen, zu verstärken oder auch bewusst Gegensätze zu schaffen. Oberstes Ziel einer guten Tonmischung ist, die dramaturgische Wirkung des Bilds durch gleichwertige akustische Elemente zu unterstützen. Die Tonebene dient immer der Etablierung einer überzeugenden Illusion des Geschehens, bei der Live-Übertragung einer Show oder einer Sportveranstaltungen ebenso wie bei einer Konzert- oder Opernsendung. Die Abbildung des Direktschalls einer Schallquelle sowie der räumlichen Attribute des Produktionsorts sollen beim Rezipienten eine emotionale Wahrnehmungen hervorrufen, die vergleichbar ist mit dem Eindruck des Betrachters vor Ort. Im Spannungsfeld von Ton und Bild haben sich heute dramaturgische Gestaltungsmittel in der Audiotechnik bewährt, auf deren Besonderheiten bei den verschiedenen Genres im Folgenden näher eingegangen wird. 5.5.3.1
Unterhaltung und Show
Die vollkommene Bewegungsfreiheit von Darstellern, Moderatoren, Gästen sowie der Kameras setzen Fernsehregisseure heute als selbstverständlich voraus. Dabei eine ausgewogene Klangbalance zwischen der Szene und dem Publikum im Auditorium zu erreichen, ist eine große Herausforderung für die Tonregie, insbesondere bei Live-Sendungen ohne die Möglichkeit der Wiederholung. Gute Sprachverständlichkeit einerseits und ein lautes, enthusiastisches Publikum andererseits stehen oftmals zueinander im Widerspruch, wobei die Sprachverständlichkeit der Darsteller zusätzlich durch eine Beschallung häufig beeinträchtigt wird. Vor der Endmischung einer großen Show werden üblicherweise die vier Elemente Moderation/Gäste, Musik, Playback und Publikum auf getrennten Wegen vorgemischt und ggf. vorproduziert. Dadurch wird es möglich, die einzelnen Tongruppen Sprache, Live-Musik, Zuspielung und Applaus unabhängig voneinander klanglich zu bearbeiten und ausgewogen auszusteuern. Eine moderne Bilddramaturgie bei pegelintensiven Shows ist ohne drahtlose Ansteckmikrofone und gerichtete Handmikrofone nicht mehr denkbar. Ansteckmikrofone mit Kugelcharakteristik nehmen nicht nur Nutzsignal auf, sondern auch einen großen Teil der Publikumsreaktionen und der Beschallungssignale. Der Abstand zwischen Nutzsignal und Störsignal ist deshalb klein. Sie eignen sich also mehr für ruhigere Diskussionsrunden mit wenig Publikumsgeräusch. Für große Shows sind Ansteckmikrofone mit Nierencharakteristik besser geeignet. Sie minimieren die Gefahr des Rückkoppelns, erhöhen den Nutzsignalabstand und ermöglichen eine unabhängigere Mischung. Allerdings ist dann die Positionierung des Mikrofons kritischer und bei extremen Kopfbewegungen schwankt der Nutzsignalpegel stark. In letzter Zeit findet man deshalb häufig Nackenbügelmikrofone, welche durch ihren sehr geringen Abstand zum Mund ein Signal liefern, das relativ wenig Applaus und Schall der Beschallungsanlage 290
Klanggestaltung enthalten und darüber hinaus eine hohe Rückkopplungssicherheit gewährleisten. Vielfach kommen auch gerichtete Handmikrofone zum Einsatz. Sie ermöglichen dem Moderator ein schnelles Reagieren auf den Studiogast und beeinträchtigen bei Bewegungen die Mischung kaum. Als Handmikrofone können nur solche Typen verwendet werden, die weitgehend griffunempfindlich und mit einem internen Nahbesprechungsschutz gegen Poppgeräusche ausgerüstet sind. Die bei Druckgradientenempfängern unvermeidliche Tiefenanhebung bei Nahbesprechung wird dabei bereits im Mikrofon durch akustische oder elektrische Gegenmaßnahmen kompensiert. Bei Live-Musik ist es i. Allg. kein Problem, wenn Mikrofone im Bild sichtbar sind. Unterhaltungsorchester und Popgruppen werden ausschließlich mit Polymikrofonie aufgenommen, wobei u. U. jedes einzelne Instrument mit speziellen Mikrofonhalterungen im extremen Nahbereich abgenommen wird. Als optisch attraktives Element werden aber auch bewusst Großmembran- und sog. Vintage-Mikrofone, also historische Mikrofone, gerne verwendet. Über ein Hilfsmischpult wird eine Vormischung des Klangkörpers erstellt, die dann als Zweioder Mehrkanalquelle am Hauptmischpult aufliegt. Sowohl die Mikrofonierung als auch die eigentliche Mischung weisen große Ähnlichkeiten zum Popmusik-Genre auf, wo aus vielen direkt aufgenommenen Einzelelementen ein stimmiges Klangbild erzeugt wird. Das Voll- oder Halbplayback-Verfahren kommt vielfach in Volksmusik- und Schlagersendungen zur Anwendung. Bei Vollplayback wird die gesamte Tonmischung zugespielt. Der Akteur bewegt nur noch stumm, möglichst synchron, seine Lippen oder Hände für ein Instrument. Der „künstlerische” Vorteil eines Vollplaybacks ist die fehlerfreie Wiedergabe durch den Solisten. Bei Halbplayback hingegen spielen oder singen die Solisten live, während die Instrumentalbegleitung zugespielt wird. Bei Shows in sehr großen Hallen wird bei PlaybackZuspielungen das Tonsignal für die Sendung verzögert, um die Laufzeit von den Beschallungslautsprechern zu den Mikrofonen auszugleichen und somit ein störendes Echo bzw. eine unangenehm wirkende Halligkeit zu verhindern. Diese Verzögerung des Audiosignals lässt sich sehr gut ohne Verlust der Synchronität zwischen Ton und Bild ausgleichen, da auf der Videoseite immer auch Bildeffekte, sog. Digital Video Effects (DVE) zur Anwendung kommen, die systembedingt eine Signalverzögerung von mindestens einem Frame nach sich ziehen, entsprechend 40 ms bei einer Bildwechselfrequenz von 25 Hz. Die vorproduzierten Videoeffekte triggern dabei oft automatisch die Zumischung dynamischer Toneffekte. Die Mikrofonierung des Publikums für Applaus und Reaktionen gestaltet sich oft sehr aufwändig, vor allem bei Mischungen in Mehrkanalstereofonie. Einen einhüllenden, wirkungsvollen und gleichmäßigen Surround-Sound herzustellen, das Gefühl zu erzeugen, „dabei” zu sein, ist eine anspruchsvolle Aufgabe für die Klangregie. Einerseits sollen die Äußerungen des Publikums möglichst isoliert eingefangen werden, andererseits sollen individuelle Stimmen und Klatscher nicht so stark in den Vordergrund treten, ebenso wenig wie die störenden Signale von Beschallungslautsprechern. Hinzu kommt die meist viel zu große Originaldynamik im Auditorium. Zwischen dem verhaltenem Lachen eines Studiogastes und dem tosendem Applaus einer kreischenden Menschenmenge liegen nicht selten mehr als 60 dB. Wenn nun die Empfindlichkeit der Publikumsmikrofone auf die leiseren Anteile ausgerichtet sind, bringen die hohen Pegelspitzen von Applaus einen notwendigerweise eingeschleiften Kompressor derart stark zum „Pumpen”, dass das Klangbild sehr gepresst wirkt und Kompressionsartefakte rasch hörbar werden. 291
Tonaufnahme und Tonwiedergabe Eine schaltungstechnisch trickreiche Lösung besteht darin, die Applausmischung parallel dreimal dem Mischpult aufzuführen (Abb. 5/71): einmal mit geringerem Pegel für lauten Applaus und weitere zweimal mit höherem Pegel, etwa + 6 dB, für zarten Applaus oder z. B. leises Lachen; eine dieser Mischungen wird gegenphasig über einen Expander zugemischt. Wird das Publikum lauter, schaltet der Expander zunehmend das gegenphasige Signal durch, wodurch sich die beiden Anteile für leisen Applaus auslöschen. Bei geeigneten Schwellwerten (Thresholds) des Expanders und eines meist notwendigen Kompressors lässt sich so die Dynamik des Publikums gut kontrollieren.
Abb. 5/71. Applausschaltung zur halbautomatischen Kontrolle von hoch dynamischen Publikumsreaktionen.
5.5.3.2
Oper
Bei Opernproduktionen hat sich in den letzten Jahren vielfach eine Produktionsmethode etabliert, die eine Reaktion auf die Großaufnahmen einzelner Sänger und dem daraus resultierenden Wunsch nach mehr Präsenz der Stimmen darstellt. Die Gesangssolisten werden dabei mit Kleinstmikrofonen ausgestattet, deren Signale über Funk zur Tonregie übertragen werden, siehe dazu Kap. 4.3. Die Montage erfolgt dabei häufig beim Haaransatz an der Stirn, was einen gleichbleibenden Pegel unabhängig von Kopfdrehungen garantiert. Entscheidend bei dieser Technik ist das „Einbetten” des sehr direkten Klangbilds der Ansteckmikrofone mit den nach wie vor zu verwendenden Rampenmikrofonen, diese meist mit Supernierencharakteristik. Dabei kommen Filter und Delays zum Einsatz. Nachteil dieser Technik ist das Fehlen bzw. die eingeschränkte Verwendbarkeit der Entfernungsperspektive bezüglich der Distanz von der Bühnenkante und die Panoramaverteilung auf der Bühne – das akustische Geschehen spielt sich nahezu in einer einzigen Ebene ab. Der Vorteil ist eine deutlich höhere Bild-TonKongruenz bei Nahaufnahmen der Sänger. Man mag nun einwenden, dass das wiederum ein 292
Klanggestaltung Problem der Bildregie darstellt – die Praxis zeigt leider, dass eine Bildgestaltung bei dieser Art von Produktionen auf tondramaturgische Gesichtspunkte vielfach wenig Rücksicht nimmt. 5.5.3.3
Sport
Sportarten, die in offenen Stadien oder Hallen stattfinden, unterscheiden sich vom tontechnischen Aufwand gesehen wenig von Unterhaltungsshows. Vier akustische Gestaltungsebenen müssen in ihrer Wirkung so zusammengefügt werden, dass wiederum eine packende und informative Sendung entsteht, die neben einem Unterhaltungswert einen deutlichen Reportagecharakter hat, also über Ereignisse berichtet. Darsteller beim Ton sind die meist im off sitzenden Kommentatoren, das Bildereignis kommt vom Sportfeld, seine Audioelemente haben sehr niedrigen Pegel, z. B. entfernte Spielgeräusche und Rufe, die vorproduzierten Zuspielungen zur Erläuterung und Ergänzung des Geschehens kommen überwiegend aus einer anderen akustischen Umgebung; das Publikum, welches sich in der unmittelbaren Atmosphäre des sportlichen Geschehens befindet, ist ein weiteres Element der Tonmischung. Für die Kommentatoren werden üblicherweise Spezialmikrofone eingesetzt, die extrem dicht am Mund positioniert sind. Sie eliminieren weitgehend störenden Umgebungsschall und zeichnen sich durch einen hohen Nutzsignalanteil aus. Als günstigste Bauform hat sich das so genannte Head-Set etabliert, welches aus einem Kopfhörer für die Kommando- und Rückleitung und einem integrierten Nahbesprechungsmikrofon mit Tiefenabsenkung besteht. Auch Handmikrofone mit starker Richtwirkung und extremer Nahbesprechungsdämpfung für Popplaute werden verwendet, die zusätzlich einen speziellen Bügel am Besprechungskorb haben können, der einen konstanten Abstand zur Oberlippe garantiert. Die Spiel- und Aktionsgeräusche auf dem Sportfeld können, je nach Anzahl und Abstand der Mikrofone sowie abhängig von der Mischstrategie, mehr präsent oder mehr distant sein. Hier ist die Intention der Bildregie von Bedeutung, aber auch das Bildübertragungsformat mit seiner technischen Auflösungsqualität. Populäre Großaufnahmen erfordern eine entsprechend akustische Nähe, während die bei High-Definition-TV üblicheren Totalen und Halbtotalen eher nach einem entfernteren Ton verlangen. Beim Fußball ist eine Entwicklung zu beobachten, bei der die Geräuschanteile mit geringem Pegel auf dem Spielfeld über eine automatische Nachführung der Richtmikrofone eingefangen werden. Diese „Tracking System” genannte Technik verwendet zur Erkennung spezielle Kamerasignale in Echtzeitauswertung. Für Zuspielungen gelten bei Sportveranstaltungen nicht die hohen Ansprüche an Synchronität, da es sich hier nicht um echte Playbacks handelt. Auf die Verzögerung des Audiosignals kann deshalb verzichtet werden. Die Zuspielungen sollten aber akustisch derart unterlegt sein, dass kein vollständiger Bruch zwischen dem originalen Schauplatz und dem Ort der Einblendung entsteht. Bei einer Sportveranstaltung in einem großen Stadion hat die akustische Atmosphäre der Umgebung einen hohen Stellenwert für die Übertragung. Idealerweise lässt sich die enthusiastische Begeisterung am besten in Mehrkanalstereofonie darstellen. Dies bedeutet aber wiederum einen hohen Aufwand an Mikrofonierung für einen ausgeglichenen Rundumklang. Die Stimmung von mehreren zehntausend Besuchern zu übertragen und ein akustisches Bild entstehen zu lassen von Weiträumigkeit einerseits und von filigraner Dichte am Geschehen andererseits, ist immer wieder eine Herausforderung. 293
Tonaufnahme und Tonwiedergabe Bei weitläufigen Sportarten wie Skiwettbewerben, Langlaufen, Radfahren oder auch Formel1-Rennen ist eine adäquate Tondramaturgie zum Bild deutlich schwieriger. Durch den unverhältnismäßig großen Zoom-Bereich moderner Kameras können selbst modernste Interferenzmikrofone mit hoher Richtwirkung nicht mithalten. Die häufige Verwendung von Großaufnahmen führt dann u. U. zu einem nicht mehr dazu passendem Ton und zu einem sehr rasch sinkenden Qualitätseindruck. Für einzelne Sportarten haben sich deshalb verschiedene Konzepte herauskristallisiert, wie z. B. mobile Funkübertragungssysteme mit HubschrauberRelaisstationen für Audio und Video bei Radrennen oder ausgeklügelte Mikrofonstandorte bei Skisprung-Schanzentischen und Autorennen. Hauptziel der Mikrofonierung bei diesen Sportproduktionen ist, einen möglichst hohen Pegel der Spielgeräusche bzw. der Geräusche der Akteure und ihres Materials, isoliert vom Umgebungsgeräusch, zu erhalten. Dabei kommt es nicht so sehr auf die möglichst realitätsnahe Signalqualität an, sondern auf einen möglichst hohen Nutzsignalabstand. Innovative Lösungen wie das Vergraben von Kontaktmikrofonen in der Sandgrube beim Weitsprung lassen zunehmend den Begriff „Sound Design” für diese Arbeit zu. 5.5.3.4
Reportage, Magazin und Dokumentation
Bei der Produktion dieser Programmbeiträge, die in der Regel nicht im Studio entstehen, muss sich die Mikrofonierung weitgehend an den Gegebenheiten des Schauplatzes orientieren. Hauptziel der Aufnahmetechnik ist, Sprache und Interviews so sauber wie möglich aufzunehmen, frei von jeglichen störenden Nebengeräuschen. Die bei Bedarf notwendigen Effekte und atmosphärischen Geräusche werden separat in höchstmöglicher Qualität aufgezeichnet, um in der Nachbearbeitung verwendet zu werden. Für eine gute Aufnahme hat sich die Verwendung eines gerichteten Mikrofons in Nieren- oder Supernierencharakteristik bis hin zum Interferenzmikrofon bewährt, montiert in einer elastische Mikrofonhalterung zur mechanischen Entkopplung von Griffgeräuschen (siehe Kap. 4.2.1.8), und geführt sowie platziert mit Hilfe einer Mikrofonangel, einem Boom oder Galgen. Zur Unterdrückung von Windgeräuschen, auch von Bewegungswind bei schnellem Schwenks der Angel, wird entweder bei Innenaufnahmen ein Schaumstoffwindschutz oder bei Außenaufnahmen ein das Mikrofon mit einem Luftvolumen umfassender Windkorb mit Fellüberzug verwendet (siehe Kap. 4.2.1.8 bzw. Abb. 4/25). Bei geschickter Führung und Platzierung der Angel, Position meist schräg vor und über dem Kopf des Protagonisten mit einem Abstand von 40 bis 100 cm je nach Bildausschnitt, ergibt sich ein sehr ausgeglichenes, konsistentes Klangbild mit adäquater räumlicher Perspektive. Der Einsatz von Lavalier- oder Ansteckmikrofonen setzt sich im Reportagebereich zunehmend durch, doch stehen deren Anwendung häufig Hindernisse entgegen, z. B. durch ungeeignetes Material der Oberbekleidung, an der sich kein Ansteckmikrofon befestigen lässt oder durch mangelnde Aussteuerungs- und Kontrollmöglichkeit, die zu Über- bzw. Untersteuerung und zu unbemerkten Störgeräuschen bei Einstreuungen, Funkaussetzern usw. führen kann. Windgeräusche oder unangenehme Brustresonanzen könnten zwar in der Nachbearbeitung ausgeglichen werden, aber aus Gründen der schnellen Aktualität wird häufig darauf verzichtet. Bei der Mischung muss ganz besonders auf die Verständlichkeit der Sprache geachtet werden, sowohl auf den Originalton, wie auch auf den Kommentar. Bei der Auswahl 294
Klanggestaltung von Musik ist darauf zu achten, dass die Frequenzverteilung nicht zu stark mit den Formanten der Sprache kollidiert. Während bei Reportagen und magazinartigen Interviews ausschließlich monofon aufgenommen wird, ist bei der Dokumentation die Zweikanalstereofonie Standard. Der höhere Anteil an Szenen ohne Sprache macht diese Erweiterung sinnvoll. Atmosphären und Effekte mit großer Basisbreite, also einem Korrelationsgrad um 0, leisten einen wichtigen Beitrag für eine überzeugende Illusion, am Geschehen virtuell beteiligt zu sein. Als Universalwerkzeug hat sich dabei die MS-Mikrofonie bewährt (siehe Kap. 5.3.2.2) und hier wiederum eine Anordnung mit einer Super- oder Hyperniere als M-Mikrofon. Das M-Mikrofon liefert ein exzellentes Mittensignal und ist somit auch für Interviews, Gespräche und dergleichen einsetzbar; mit dem S-Signal ergibt sich ein flexibles Stereo-System, welches in der Tonnachbearbeitung eine Anpassung der Basisbreite an den Bildausschnitt ermöglicht. Mit der Weiterentwicklung der digitalen Video- und Audiotechnik steigt das technische und kreative Potential für hochwertige Dokumentationen im Fernsehen. Sowohl die Bildqualität, aber auch die neuen Möglichkeiten der computerunterstützten Audiotechnik ermöglichen interessante Produktionen. Die am meisten beeindruckenden Dokumentationen sind jene, wo durch bewusste dramaturgische und kreative Verwendung von Stimmen, Musik und Geräuschen eine erzählende Einheit mit dem Bild entsteht. Im Film ist die psychologische Wirkung des Tons schon lange unumstritten, im Fernsehen werden zunehmend derartig „durchkomponierte” Werke produziert. Sie sind in der Herstellung zeitaufwändig und kostenintensiv. 5.5.3.5
Spielfilm
Die Anforderung an die Sprachverständlichkeit beim Film ist oft noch höher als bei Dokumentationen und Fernsehspielen. Im deutschen Sprachraum ist dies zusätzlich noch stärker ausgeprägt als beispielsweise im englischsprachigen Raum. Dies führt zu Synchronfassungen fremdsprachiger Spielfilme, bei denen der Pegel des Dialoges tendenziell höher ist als bei der Originalfassung. Hier hat sich in den vergangenen Jahrzehnten eine eigene Ästhetik speziell im deutschsprachigen Synchronfilm etabliert. Die Perfektion der tontechnischen und auch ausdrucksseitigen Qualität des Dialoges hat beim amerikanischen Mainstream-Kino zu einer Diversifizierung und Spezialisierung der befassten Berufsbilder geführt. So gibt es z. B. den Dialog-Editor, den ADR-Editor und –mixer (ADR, Automatic Dialogue Replacement) sowie den Dialogue-Rerecording Mixer. Der Aufwand bei diesem Arbeitsprozess ist oft sehr hoch, v. a. bei der Angleichung des nachträglich aufgenommenen Dialogs in der ADR-Session an den Originalton. Das Ergebnis ist ein qualitativ konstant guter, perspektivisch stimmiger und verständlicher Dialog [5.65, 5.66]. Durch die Wichtigkeit der Sprache steht die Dialogvormischung in der Gesamtmischung an erster Stelle. Alle anderen Audioelemente haben sich diesem Qualitätsaspekt anzupassen. Auch im Film entfaltet die Tonebene ihre maximale Wirkung in der vollständigen Ausnutzung ihrer erzählerischen Kraft. Wenn die „Story” auch, gelegentlich sogar hauptsächlich durch den Ton erzählt wird, so stimuliert dies in besonderem Maße die Vorstellungskraft des Rezipienten. Die Gesetzmäßigkeiten des Erzählens, des „Storytelling”, treffen beim Spielfilm in gleicher Weise zu wie beim Roman oder Essay [5.66, 5.67]. 295
Tonaufnahme und Tonwiedergabe 5.5.3.6
Fernsehspiel und Sitcom
Obwohl zeitweise aus der Mode gekommen, feiert das Fernsehspiel in Form der sog. Sitcom, Situationskomödie bzw. Situational Comedy, in den letzten Jahren eine preisgünstige Renaissance. Bei der Mikrofonierung handelt es sich dabei um einen Sonderfall, der ansonsten kaum mehr anzutreffen ist. Durch den hohen Anteil an Improvisation der Schauspieler ist ein individuelles Bestücken mit Ansteckmikrofonen nicht praktikabel, da eine Mehrspuraufzeichnung der Einzelsignale einen zusätzlichen, kostenintensiven Zeitaufwand in der Tonnachbearbeitung bedeuten würde. Zum Einsatz kommen daher fahrbare Mikrofongalgen, wo ein eigener Tontechniker, auf einer Plattform sitzend, mit Seilzügen die Länge des ausfahrbaren Auslegers sowie die Rotation des Mikrofons mit Nierencharakteristik steuert. In den Kopfhörer des Technikers wird eine Mischung aus dem Mikrofonsignal und etwaigen Kommandos oder Ansagen des Tonmeisters bzw. Regisseurs eingespielt. Derartige Galgen kamen früher in der Fernsehproduktion und beim Mainstream-Spielfilm zum Einsatz. Heute sind sie in diesem Bereich nur noch sehr selten auf „sound stages” anzutreffen. Das Abhängen von Mikrofonen ist bei Sitcoms ebenso gebräuchlich wie das Verstecken in der Szene beim Spielfilm. Das am Galgen verwendete Mikrofon muss elastisch gelagert und mit einem Schaumstoffwindschutz umgeben sein. Die einzelnen Mikrofone werden bereits bei der Aufnahme Zeit sparend zusammengemischt, um einen schnellen und effizienten Workflow in der Nachbearbeitung zu unterstützen.
5.6
Kunstkopfverfahren
5.6.1
Kopfbezogene binaurale Übertragung
Das Verfahren der kopfbezogenen binauralen Übertragung, die kopfbezogene Stereofonie oder Kunstkopfstereofonie, ist vom Prinzip her das Übertragungsverfahren, das am besten eine originalgetreue Übertragung ermöglicht; es ist ein übertragungstechnisch einfaches und logisches Verfahren. Das Schallfeld, das im Aufnahmeraum am Ort der beiden Ohren eines Hörers herrschen würde, wird durch einen sog. Kunstkopf aufgenommen und an den Ohren des Hörers mit Hilfe von Kopfhörern reproduziert. Der Kunstkopf ist in akustischer Hinsicht dem menschlichen Kopf weitest möglich nachgebildet. Statt Trommelfelle trägt der Kunstkopf an entsprechender Stelle im Gehörkanal Mikrofone, deren resultierende Richtcharakteristik und Pegel- und Laufzeitdifferenzen den Verhältnissen an den menschlichen Ohren entsprechen. Das Kunstkopfverfahren bietet von allen Übertragungsverfahren dem Hörer ein Hörereignis, das im Idealfall demjenigen der Originaldarbietung vollkommen entspricht. Anders als bei anderen Stereoübertragungsverfahren können alle Richtungen im oberen Halbraum und besonders gut alle Entfernungen bei der Wiedergabe korrekt und überzeugend abgebildet werden. Ebenso sind das räumliche Erlebnis, der Raumeindruck und die Umhüllung sehr gut; es gibt dem Hörer das Gefühl, selbst im Aufnahmeraum zu sein, was mit stereofoner Lautsprecherwiedergabe in Zweikanaltechnik nicht erreicht werden kann. In Tab. 5/15 sind die prinzipiellen Möglichkeiten der Kunstkopftechnik den Möglichkeiten der Zwei- und Mehrkanalstereofonie gegenüber gestellt. 296
Kunstkopfverfahren Tab. 5/15. Attribute der räumlichen Abbildung und prinzipielle Möglichkeiten der Übertragungsverfahren. Attribute der Richtungs- und Raumabbildung horizontale Richtungen Elevation kopfnahe Entfernungen Entfernungen, Tiefe interaktive räumliche Perspektive Raumeindruck Umhüllung
2/0-Stereofonie
+30/ bis – 30/
3/3-Stereofonie
Kunstkopfstereofonie ohne Headtracking
nicht möglich nicht möglich
+30/ bis – 30/, Einschränkungen für andere Richtungen eingeschränkt möglich nicht möglich
alle Richtungen, Einschränkungen für den Frontalbereich möglich möglich
simuliert nicht möglich
möglich nicht möglich
möglich nicht möglich
simuliert nicht möglich
möglich möglich eingeschränkt möglich möglich
Derzeit sind noch nicht alle Probleme der Kunstkopfstereofonie so gelöst, dass alle Hörer ein optimales Hörerlebnis haben; Schwierigkeiten bereitet insbesondere noch die Ortung frontaler Schallquellen, die vielfach hinter oder über dem Kopf lokalisiert werden. Dafür seien hier zwei wichtige Lösungsansätze genannt: Individualanpassung: Im Idealfall arbeitet das Verfahren bei völliger Übereinstimmung der akustischen Eigenschaften von Kunstkopf und Kopf des Hörers. Der Kunstkopf ist zwar nach Durchschnittsmaßen gearbeitet, fußt aber letztlich auf dem Abguss eines bestimmten, typischen individuellen Kopfs, von dem die individuellen Kopfmaße eines Hörers mehr oder weniger abweichen. Der zweite Aspekt sind interindividuelle Unterschiede der Kopfhörerübertragungsmaße, die u. a. von Kopfform und Kopfhörerbauart abhängen und dadurch erheblichen Streuungen aufweisen. Eigentlich wäre eine individuelle Kopfhöreranpassung notwendig, aber bisher gibt es dafür keine praxistaugliche Lösung. Nachführung der Kopfdrehung, sog. Headtracking: Untersuchungen am Institut für Rundfunktechnik (IRT) haben gezeigt [5.71], dass die fehlende Individualanpassung nicht die wesentliche Ursache darstellt für die Probleme der Lokalisation in der Medianebene. Besonders gravierend macht sich die Tatsache bemerkbar, dass das Gehör kleinste Änderungen der binauralen Ohrsignalsignaleigenschaften auswertet, die durch Kopfdrehungen entstehen. Bewegt der Hörer den Kopf, so erwartet das Gehör die damit einhergehenden natürlichen Änderungen insbesondere der interauralen Ohrsignalbeziehungen, die jedoch ein starr aufgestellter Kunstkopf nicht liefert. Wichtige Voraussetzung für optimale Kunstkopfübertragungen ist die dynamische Anpassung der binauralen Signale an die momentane Kopfausrichtung des Hörers mittels Headtracking. Abgesehen von Schwierigkeiten der Lokalisation von frontalen Schallquellen gewährleistet die Kunstkopftechnik auch ohne Headtracking und Individualanpassung bezüglich vieler 297
Tonaufnahme und Tonwiedergabe Attribute des räumlichen Hörens besonders gute Eigenschaften bei der statischen Abbildung eines Hörerplatzes. Eine Aufnahme mit starr aufgestelltem Kunstkopf erfordert im Prinzip, dass der Kopf des Hörers bei der Wiedergabe ebenso starr gehalten wird. Die Übertragung aller Schallquellenrichtungen und räumlicher Attribute mit nur zwei Kanälen ist mit diesen Einschränkungen möglich, weil der Kunstkopf im Originalschallfeld die binauralen Signale des Hörers erzeugt, es wird kein Schallfeld in der Umgebung des Hörers reproduziert, Kopfbewegungen oder Positionsänderungen des Hörers verändern nicht in natürlicher Weise die Perspektive der akustischen Szene. Das Klangbild. ist ohne Headtracking auf den Kopf des Hörers bezogen. Experimente mit einem Kunstkopf wurden – nach ersten Versuchen bereits 1933 - in größerem Umfang zunächst mit dem Kunstkopf KU 80 durchgeführt. Neben der durchaus beeindruckenden Wiedergabe insbesondere des Raumeindrucks und der Entfernungen der Schallquellen zeigten sich aber bald erhebliche Mängel: die Klangfarbe war unbefriedigend, die Lokalisierung von Schallquellen vorne aus dem Bereich ± 15/ war oft nicht möglich - die Hörereignisse wurden hinter dem Kopf lokalisiert -, die Wiedergabe über Lautsprecher war insbesondere bezüglich der Klangfarbe und Richtungstreue unbefriedigend, praktisch waren Aufnahmen mit dem Kunstkopf KU 80 damit nicht kompatibel. Gerade die letztgenannte Einschränkung wiegt im Bereich von Hörfunk und Fernsehen schwer; deshalb blieb die Anwendung des Kunstkopfverfahrens auf einzelne Sendungen des Hörfunks, v. a. in den Bereichen Feature und Hörspiel, beschränkt. Das erste im deutschen Rundfunk ausgestrahlte Hörspiel in Kunstkopfstereofonie war zur Funkausstellung 1973 in Berlin die RIAS/BR/WDR-Produktion „Demolition” nach dem Roman von Alfred Bester „The Demolished Man”. Durch Verbesserungen, die erstmalig beim Kunstkopf KU 81 und anderen vergleichbaren Produkten realisiert wurden, stehen heute Kunstköpfe zur Verfügung, bei denen die genannten Mängel weitgehend beseitigt werden konnten. Folgende Maßnahmen wurden u. a. getroffen: Die durchschnittlichen Kopfmaße und auch alle Details der Ohr- und Kopfform wurden nochmals sorgfältig ermittelt und nachgebildet, auf die genaue Nachbildung von Gehörgang und Trommelfell konnte verzichtet werden. Als Ergebnis theoretischer Überlegungen von Theile [5.56] wurde eine Entzerrung unter Bezug auf das Diffuse Schallfeld („Diffusfeldentzerrung”) realisiert, wodurch insbesondere die Kompatibilität zur Lautsprecherwiedergabe erreicht werden konnte. Umgekehrt muss auch der Kopfhörer diffusfeldentzerrt sein; nicht nur, um die optimale Anpassung an den diffusfeldentzerrten Kunstkopf zu gewährleisten, sondern auch um eine klangneutrale Wiedergabe normaler stereofoner Aufnahmen sicher zu stellen. Die Messung des Kopfhörer-Übertragungsmaßes erfolgt mit Hilfe eines Sondenmikrofons im Ohrkanal, Einzelheiten legt die internationale Empfehlung ITU-R BS.708 fest, siehe dazu Kap. 5.7.
5.6.2
Praktische Anwendung
Das Kunstkopfverfahren simuliert die Situation des „natürlichen” Hörens von allen Verfahren elektroakustischer Klangübertragung am besten. Es fordert demgemäß einen „adäquaten” Standort des Kunstkopfs bei der Aufnahme. Adäquat heißt, dass derjenige Ort im Aufnahmeraum für die Aufstellung des Kunstkopfs gesucht werden sollte, wo auch beim „natürlichen” Hören der optimale Klangeindruck entsteht. 298
Kunstkopfverfahren Da die Kombination eines Kunstkopfs mit herkömmlichen Stützmikrofonen die Vorteile und Systemmerkmalen des Kunstkopfverfahrens einschränkt oder aufhebt, muss nach neuen Wegen gesucht werden, die eine Lautstärkenbalance zwischen einzelnen Instrumenten oder Instrumentengruppen zulassen. Dies ist z. B. durch eine Playbackaufnahme möglich, die eine gewisse Freiheit in der Gestaltung der Lautstärkenbalance zu realisieren gestattet. Die Instrumente oder Gruppen werden im Playbackverfahren nacheinander aufgenommen. Dabei bleibt der Kunstkopf während der ganzen Aufnahme an demselben Ort. Die Musiker nehmen jeweils den Platz im Aufnahmeraum ein, den sie bei der fertigen Abmischung haben sollen. Die Einstellmöglichkeiten bei der Abmischung sind dadurch z. B. allerdings insofern eingeschränkt, dass größere Lautstärken, als sie den Lautstärken am Ort der Aufnahme entsprechen würden, gleichzeitig zu größerer Nähe der Schallquellen führen können. Eine sehr interessante Erweiterung der Aufnahmetechnik mit Kunstkopf kann ein „elektronischer Kunstkopf” eröffnen. Dieses Gerät leitet aus einem trockenen Monosignal, also z. B. aus dem Signal eines normalen Stützmikrofons, Signale ab, die den Signalen bei einer Kunstkopfaufnahme entsprechen. Dazu werden aus dem Monosignal entsprechend der gewünschten Abbildungsrichtung zwei Signale mit einer Laufzeitdifferenz und zusätzlich mit einer frequenzabhängigen Pegeldifferenz, wie sie der Einfallsrichtung des Signals entspricht, abgeleitet. [5.57] Die Verwendung von Kunstköpfen als Stützmikrofone ist mit dem Verfahren nur in bestimmten Fällen vereinbar. In allen Fällen, bei denen eine Schallquelle gleichzeitig unter verschiedenen Winkeln oder auch nur in unterschiedlicher Entfernung aufgenommen wird, ergeben sich mehr oder weniger hörbare Einschränkungen der Klangqualität. Mehrere Kunstköpfe können dann gleichzeitig eingesetzt werden, wenn sie akustisch getrennte Schallquellen aufnehmen, also z. B. einen Chor, der deutlich getrennt von einem Orchester aufgestellt wird. Bei Kunstkopfaufnahmen ist die Wahl der Abhörlautstärke wesentlich wichtiger als bei Aufnahmen in raumbezogener Stereofonie. Bei kopfbezogener Stereofonie ist die Abhörlautstärke so genau wie möglich der Lautstärke am Ort des Kunstkopfs anzupassen. Bewährt hat es sich, für die Kalibrierung des Wiedergabepegels vor der Aufnahme einen Sprecher aufzunehmen, der in 1 m Abstand seitlich des Kunstkopfs eine kurze Ansage macht. Der Hörer findet auf Grund seiner großen Erfahrung mit dem Klang des gesprochenen Worts den korrekten Wiedergabepegel damit mit einer Genauigkeit von ca. ± 1 dB. Dennoch ist für die praktische Anwendung die genaue Einhaltung der Originallautstärke ein beachtliches Hindernis. Selbstverständlich sind deshalb beispielsweise auch Kompressoren im Übertragungsweg schädlich.
5.6.3
Lautsprecherwiedergabe
Eine optimale Wiedergabe der binauralen Signale ist nur über Kopfhörer oder Kopfhörer nachbildende Anordnungen möglich. Eine korrekte und stabile Reproduktion der binauralen Signale über Lautsprecher ist problematisch. Um zu verhindern, dass Anteile des linken binauralen Signals das rechte Ohr erreichen und umgekehrt, werden den Lautsprechern sog. Crosstalk Cancellation-Filter oder Transaural-Filter vorgeschaltet, die die Übersprechanteile an den beiden Ohren aufheben. Die Vorfilterungen sollen bewirken, dass die bei der 299
Tonaufnahme und Tonwiedergabe Überlagerung der Lautsprechersignale an den Ohren des Hörers entstehenden Übersprechanteile möglichst gut unterdrückt werden und auf der jeweils zugewandten Seite ein möglichst linearer Frequenzgang entsteht. Die Anzahl und Position der beteiligten Lautsprecher beeinflusst die Qualität der Übersprechkompensation. Das grundlegende Verfahren verwendet eine normale Lautsprecheranordnung für Zweikanal-Stereofonie. Durch zusätzliche Lautsprecher im hinteren Bereich lassen sich jedoch die Qualität und v. a. die Stabilität der Übersprechkompensation erhöhen. Die Filter, die die Kompensationssignale erzeugen, sind bei einer gegebenen Lautsprecheranordnung immer nur für eine bestimmte Kopfposition und Kopfausrichtung gültig. Soll sich der Hörer in diesem Umfeld bewegen können, müssen die momentane Position und Ausrichtung des Kopfs durch ein sog. Headtracking laufend ermittelt und die Filter dementsprechend fortwährend angepasst werden. Entsprechende Wiedergabesysteme mit dynamisch veränderbaren Filtern sind bekannt, jedoch noch nicht praxistauglich. Verzichtet man bei der Lautsprecherwiedergabe auf die Anwendung der Übersprechkompensation, so arbeitet der Kunstkopf als eine Art Stereomikrofon im Trennkörperverfahren in gemischter Stereofonie, siehe Kap. 5.3.5. In dieser Anwendung entfalten die interauralen Signalunterschiede des Kunstkopfs die Wirkung stereofoner Lautsprechersignale. Jedoch werden die binauralen Übertragungsfunktionen des Außenohrs des Kunstkopfs nun nicht mehr für das räumliche Hören ausgewertet und führen im Prinzip zu Klangverfärbungen, wenn der Kunstkopf richtungsspezifisch entzerrt ist, z. B. „freifeldentzerrt für 0/, also für vorne (siehe hierzu Kap. 5.7). Bei richtungsneutraler, d. h. bei der „Diffusfeldentzerrung”, wirkt sich dies in der Praxis bei Musikaufnahmen jedoch nicht aus, da in diesem Fall Kompatibilität mit einem Stereomikrofon gegeben ist. Wird bei der Aufnahme besonderer Wert auf optimale Qualität der Lautsprecherwiedergabe gelegt, so sollte anstatt des Kunstkopfs ein Kugelflächenmikrofon eingesetzt werden. Es liefert einerseits die gewünschten stereofonen Signale, andererseits aber insbesondere wegen der fehlenden Ohrmuscheln entsprechende Klangfarbenneutralität (siehe Kap. 5.3.4.3).
5.7
Kopfhörerwiedergabe
Obwohl Lautsprecherwiedergabe im Tonstudiobereich die übliche Wiedergabeform ist, bietet Kopfhörerwiedergabe Vorteile, die in bestimmten Situationen eine echte Alternative zur Lautsprecherwiedergabe darstellen können. Die nach 1970 eingeführte Kunstkopfstereofonie ist prinzipiell nur mit Kopfhörern wiederzugeben, wenn die speziellen Vorteile dieser Übertragungstechnik zur Geltung kommen sollen. Kopfhörer können bei wesentlich geringerem Aufwand zumindest dieselbe Bandbreite, Freiheit von nichtlinearen und linearen Verzerrungen und am Ohr denselben maximalen Schalldruck erreichen wie Lautsprecher. Besonders vorteilhaft bei Kopfhörerwiedergabe ist, dass die Akustik des Wiedergaberaums ohne Einfluss auf die Wiedergabe ist, dass mangelnde Schalldämmung und in einem gewissen Rahmen Umweltgeräusche nicht störend sind; eine Abhörlautstärke, die der Originallautstärke entspricht, ist immer möglich. Damit ist die Kopfhörerwiedergabe bei schlechten Abhörbedingungen prinzipiell als Alternative zur Lautsprecherwiedergabe geeignet. Wenn bei entsprechenden Beurteilungen keine StudioLautsprecherabhöranordnung (vgl. Kap. 18.6) zur Verfügung steht, hat sich gezeigt, dass 300
Kopfhörerwiedergabe bestimmte Störgeräusche oder andere Audioartefakte, wie z. B. Bitfehler oder Codierartefakte mit Kopfhörern besser erkannt werden können. Schließlich können mit Kopfhörern an verschiedenen Orten auch für größere Hörerzahlen absolut gleiche und im Rahmen der Kopfhörerwiedergabe optimale Abhörbedingungen geschaffen werden. Weiterhin können einige Gehöruntersuchungen nur auf Kopfhörern durchgeführt werden. Ein grundsätzlicher Unterschied zur Lautsprecherdarbietung ist, dass jedem Ohr ganz definiert ein elektroakustischer Wandler zugeordnet ist, der nur in vernachlässigbarem Maße auf das jeweils andere Ohr einwirkt, Gegebenheiten, die bei der üblichen Lautsprecherwiedergabe nicht realisierbar sind. Nachteilig ist bei Kopfhörerwiedergabe - soweit es sich nicht um Kunstkopfaufnahmen handelt - die Lokalisiertheit des Hörereignisses im oder am Kopf, also die sog. Im-Kopf-Lokalisation oder IKL. Dazu kommen eine gewisse Lästigkeit des Tragens des Kopfbügels und das Mitwandern des Klangbilds bei Kopfdrehungen, also die Kopfbezogenheit des Klangbilds, sofern diese nicht durch das relativ aufwändige Headtrackingverfahren überwunden wird. Man unterscheidet drei Arten der Kopfhörerdarbietung: nur ein Ohrhörer, zwei Ohrhörer mit gleichen und zwei Ohrhörer mit verschiedenen Signalen (Tab. 5/16). Tab. 5/16. Darbietungsarten von Tonsignalen über Kopfhörer. Darbietungsart nur ein Ohrhörer erhält ein Signal beide Ohrhörer erhalten dasselbe Signal die beiden Ohrhörer erhalten unterschiedliche Signale
5.7.1
Bezeichnung monotisch diotisch dichotisch
Phantomschallquellen im Kopf
Wird eine Zweikanal-Stereoaufnahme über Kopfhörer abgehört, so entsprechen den Phantomschallquellen auf der Lautsprecherbasis Phantomschallquellen im Kopf auf einer Verbindungslinie zwischen den Ohren. Die Lokalisation eines Hörereignisses auf dieser Linie wird als Lateralisation bezeichnet. Diese Linie ist nach oben gebogen, so dass Mittenschallquellen erhöht zur Schädeldecke hin erscheinen. Wie bei den Phantomschallquellen bei Lautsprecherwiedergabe führen Pegel- und/oder Laufzeitdifferenzen zur Auswanderung des Hörorts. Während bei Lautsprecherwiedergabe der Hörereignisort bereits bei rund 15 dB Pegeldifferenz zwischen den Lautsprechersignalen ganz zur Seite der Lautsprecherbasis auswandert, wird bei Kopfhörerwiedergabe eine wesentlich größere Pegeldifferenz für eine Abbildung ganz seitlich benötigt. Damit wird eine intensitätsstereofone Aufnahme i. Allg. nicht auf der ganzen Lateralisationsgeraden abgebildet, wie allerdings auch die stereofone Lautsprecherwiedergabe nur ein Drittel des Halbkreises belegt, der sich vom linken zum rechten Ohr spannt. Bei monotischer Darbietung wird das Hörereignis im Gehörgang lokalisiert, was oft als unangenehm empfunden wird.
5.7.2
Entzerrung von Kopfhörern
Beim natürlichen Hören werden die spektralen Merkmale der Ohrsignale. die sich aus der Richtcharakteristik des Außenohres ergeben, im Lokalisationsprozess so verrechnet, dass sie 301
Tonaufnahme und Tonwiedergabe nicht als Klangfarbenmerkmal in Erscheinung treten. Die Wahrnehmung der Klangfarbe ist vom Ort der Schallquelle weitgehend unabhängig. Diese sog. „inverse Filterung” [5.72] der Außenohr-Übertragungsfunktion durch das Gehör erfolgt jedoch nur dann. wenn die Wirkung des Außenohrs an der Bildung der Ohrsignale erkannt und als solche gedeutet wird; dies ist beim natürlichen Hören normalerweise der Fall. Bei der Kopfhörerwiedergabe dagegen wird die Außenohr-Übertragungsfunktion durch die Kopfhörer- Übertragungsfunktion ersetzt. Würde die Kopfhörer-Übertragungsfunktion eine bestimmte richtungsspezifische Außenohr-Übertragungsfunktion exakt nachbilden - z. B. die Freifeld-Übertragungsfunktion für vorne -, so würde für ein Monosignal der Lokalisationsprozess und damit die inverse Filterung stattfinden. Damit würde das Hörereignis am Bezugsort. also vorne auftreten. Wegen der inversen Filterung würde die Freifeld-Übertragungsfunktion des Kopfhörers keine Klangfarbenfehler verursachen. Jedoch lässt sich aus verschiedenen Gründen mit Hilfe einer Kopfhörerentzerrung praktisch keine Außer-Kopf-Lokalisation erzielen. Insbesondere bei der Wiedergabe stereofoner Signale erzeugt eine richtungsspezifische Kopfhörerentzerrung spektrale Ohrsignalmerkmale, die nicht zu den interauralen stereofonen Merkmalen passen und nicht zur räumlichen Wahrnehmung beitragen. Sie werden infolgedessen vom Gehör nicht im Sinne einer inversen Filterung verarbeitet. so dass Klangfarbenfehler die Folge sind. Bei der Kopfhörerwiedergabe existiert keine bevorzugte Schalleinfallsrichtung. Sie lässt sich mit Hilfe der Kopfhörerentzerrung auch nicht simulieren. Deshalb muss für die Entzerrung an Stelle eines richtungsspezifischen Bezugs ein richtungsneutraler Bezug zu Grunde gelegt werden. Damit ist ein Kopfhörer-Übertragungsmaß, das die Ankopplung des Kopfhörers an den Ohrkanaleingang ohne lineare Verzerrungen sicherstellt, physikalisch definiert: Das Kopfhörer-Übertragungsmaß muss übereinstimmen mit demjenigen Außenohr-Übertragungsmaß, welches in einem richtungsneutralen Schallfeld gemessen wird. In einem richtungsneutralen Schallfeld ist die Richtcharakteristik des Außenohrs ebenso wirkungslos wie bei der Kopfhörerwiedergabe; dies ist z. B. im diffusen Schallfeld eines Hallraums der Fall. Die Forderung eines frequenzunabhängigen Diffusfeld-Übertragungsmaßes für Kopfhörer, die unabhängig von der Aufnahmetechnik Klangfarbenfehler vermeidet, bedeutet also, dass das Kopfhörer-Übertragungsmaß und das Außenohr-Übertragungsmaß im diffusen Schallfeld übereinstimmen müssen. Nicht ein bestimmtes Freifeldübertragungsmaß, sondern das Diffusfeldübertragungsmaß von Kunstkopf und Kopfhörern muss einen frequenzunabhängigen Verlauf aufweisen. Allgemein stellt die Diffusfeldentzerrung die aufnahme- und wiedergabeseitig gültige Lösung des Entzerrungsproblems dar, das an der Schnittstelle Aufnahme - Wiedergabe auftritt, sobald kopfbezogene Signale über Lautsprecher oder raumbezogene Signale über Kopfhörer wiedergegeben werden sollen. Die Situation ist in Abb. 5.72 skizziert: Die diagonalen Verfahren Lautsprecherstereofonie - Lautsprecherwiedergabe als raumbezogenes Verfahren und Kunstkopfstereofonie - Kopfhörerwiedergabe als kopfbezogenes Verfahren sind definitionsgemäß verträglich. Die Wahl der Entzerrung an der Schnittstelle Aufnahme-Wiedergabe ist im Prinzip beliebig. Im Prinzip unverträglich dagegen sind die Verfahren Lautsprecherstereofonie - Kopfhörerwiedergabe, ebenso wie Kunstkopfstereofonie - Lautsprecherwiedergabe. Die Strecken setzen 302
Kopfhörerwiedergabe sich aus je einem raumbezogenen und einem kopfbezogenen Verfahren zusammen. Für beide Übertragungsfälle ist abgeleitet worden [5.73], dass für die Entzerrung von Kunstköpfen und Kopfhörern nicht eine einzige Bezugsrichtung zu Grunde gelegt werden darf, sondern dass als richtungsneutraler Bezug das Integral über alle Freifeldübertragungsfunktionen des Außenohres zu Grunde gelegt werden muss, um Klangfarbenfehler zu vermeiden. Für die Lautsprecherwiedergabe von Kunstkopfsignalen und für die Kopfhörerwiedergabe von raumbezogenen Signalen ergibt sich damit größtmögliche Klangneutralität.
Abb. 5.72. Kompatibilitätsproblem an der Schnittstelle von raum- und kopfbezogenen Übertragungsverfahren.
Zumindest für hochwertige Studiokopfhörer hat sich die Diffusfeldentzerrung – durch ITUEmpfehlung ITU-R BS.708 auch international standardisiert - weitgehend durchgesetzt; sie werden oft mit dem Zusatz „Monitor…”, „Studio…” oder „nach IRT-Norm” gekennzeichnet (siehe auch Kap. 18.6.2). Das in ITU-R BS.708 festgelegte enge Toleranzfeld gewährleistet die Reproduktion eines einheitlichen und unverfälschten Klangbilds. Entsprechend entzerrte Studiokopfhörer stellen daher einen sinnvollen alternativen Abhörstandard dar, dies sowohl für den nationalen und internationalen Programmaustausch als auch für die Beurteilung der Tonqualität in standardisierten Hörtests; eine Kopfhörerwiedergabe wird auch in der diesbezüglichen ITU-R BS 562-1 empfohlen. Lineare Verzerrungen bei Kopfhörerwiedergabe sind physikalisch definiert als Abweichung des Kopfhörerübertragungsmaßes vom Außenohrübertragungsmaß im diffusen Schallfeld. Sie werden durch Schalldruckmessung im Gehörgang von Versuchspersonen mit Hilfe eines Sondenmikrofons gemessen. Lautstärke-Vergleichsmessungen verursachen aus psychoakustischen Gründen systematische Fehler und sind daher prinzipiell ungeeignet [5.72]. Die physikalische Messung gemäß ITU-R BS.708 unterscheidet das direkte Verfahren und das indirekte Verfahren. Das direkte Verfahren geht vom Vergleich der vom Bezugsschallfeld und vom Kopfhörer erzeugten Schalldrücke im Gehörgang aus; das indirekte Verfahren sieht an Stelle des Schallfelds einen nach der direkten Methode kalibrierten Bezugskopfhörer vor [5.74].
303
Tonaufnahme und Tonwiedergabe
5.8
Wellenfeldsynthese
5.8.1
Prinzip der Aufnahme und Wiedergabe
Die Wellenfeldsynthese oder abgekürzt WFS ist ein Verfahren, mit dem ein Schallfeld eines Raums in einem anderen Raum realistisch nachgebildet werden soll. Wegen der Ähnlichkeit mit der optischen Holografie spricht man bei der WFS auch von Holofonie. Während bei Zwei- oder Mehrkanalstereofonie die Schallquellen als Phantomschallquellen auf den Linien zwischen den Lautsprechern positioniert sind, wird mit der WFS ein akustischer Raum mit virtuellen Schallquellen erzeugt; diese haben prinzipiell die gleichen akustischen Eigenschaften wie reale Schallquellen. Virtuelle Schallquellen werden überall in der Hörzone ortsstabil und realistisch positioniert und lokalisiert, auch außerhalb der Lautsprecheranordnung. Die virtuellen Schallquellen können bei entsprechenden Anlagen durch den Raum wandern, sie können auch bedingt umwandert werden. Was das binaurale Verfahren mit Kunstkopfaufnahme und Kopfhörerwiedergabe leistet, nämlich die realistische Simulation von Hörereignissen, leistet die WFS für Lautsprecherwiedergabe. Das Verfahren wurde ab 1988 zuerst an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Weitere Forschungen und Entwicklungen erfuhr die WFS mit dem 2001 bis 2003 von der EU geförderten Projekt CARROUSO, an dem mehrere Universitäten, Institute und Firmen mitwirkten. In den vergangenen Jahren wurden verschiedene WFS-Systeme installiert, im industriellen Bereich, in Kinos, für die Bregenzer Festspiele sowie an verschiedenen Universitäten. Die Wellenfeldsynthese ist eine Simulation auf einer horizontalen Fläche im Raum. Eine große Zahl von Lautsprechern ist auf Kopfhöhe angeordnet, optimal als Lautsprecherkreis. Der Bereich, in dem die Hörbedingungen optimal sind, die Hörfläche, ist begrenzt durch die endliche Zahl an Lautsprechern, sie ist aber sehr groß verglichen mit herkömmlicher Stereofonie, wo optimale Hörbedingungen nur an einem Ort, dem „sweet spot” bestehen. Die vertikale Dimension wird bei der WFS derzeit aus praktischen Gründen weggelassen, auch weil die Richtungswahrnehmung in der Vertikalen deutlich geringer ausgebildet ist als in der Horizontalen. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt; so wurde schon 1965 im physikalischen Institut der Universität Göttingen ein System mit 65 Lautsprechern in einer Halbkugelanordnung realisiert. Das physikalische Prinzip der WFS ist das Huygenssche Prinzip. Danach kann jede von einer Quelle erzeugte Wellenfront - und damit auch sich ausbreitender Schall - als Summe von unendlich vielen Einzelquellen betrachtet werden. Durch Überlagerung aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Welle identisch ist. Sind Schalldruck und Schallschnelle aller Punkte der Umgrenzung einer geschlossenen Fläche bekannt oder eines Volumens im dreidimensionalen Modell -, kann der Schalldruck jedes Punkts in dieser Fläche bzw. in diesem Volumen berechnet werden. Jedes Schallfeld kann demnach theoretisch durch unendlich viele Lautsprecher nachgebildet werden. In der Nachbildung ergibt sich die ursprüngliche Quelle als sog. virtuelle Schallquelle. Der „akustische Vorhang” zeigt nochmals anschaulich das Prinzip der WFS: Wenn in die Wand zwischen einem Aufnahmeraum und einem Wiedergaberaum dicht nebeneinander Löcher gebohrt würden, so 304
Wellenfeldsynthese könnte man die Schallereignisse durch diese Wand perfekt hören. Man kann nun jedes dieser Löcher durch ein Mikrofon und einem Lautsprecher mit gleichen Richtcharakteristiken ersetzen (Abb. 5/73).
Abb. 5/73. Prinzip des „akustischen Vorhangs”.
Im Unterschied zum Prinzip des akustischen Vorhangs werden bei der Wellenfeldsynthese aber nicht die einzelnen Signale des Mikrofonarrays übertragen, sondern getrennt die trocken, also ohne Raumanteile, aufgenommenen Signale der Schallquelle und die des Raumanteils. Zuerst wird zur Ermittlung der akustischen Eigenschaften des Aufnahmeraums eine sog. Raumimpulsantwort aufgenommen, gemessen und abgespeichert (Abb.5/74, oben), dies kann auch nach der Aufnahme der Schallquellen geschehen. Regt man einen Raum mit einem Knall, einem sog. Dirac-Impuls, zum Schwingen an, so gibt der Raum darauf eine „ImpulsAntwort”, er hallt nach. Diese Impulsantwort stellt quasi einen Fingerabdruck des Raums dar. aus dem wichtige akustische Kriterien des Raums wie Nachhallzeit, Klarheitsmaß usw. abgeleitet werden können. Der Raum wird also bei der WFS getrennt von der Gestalt der Schallquelle übertragen, man spricht von objektorientierter Übertragung. Nach der Aufnahme des Raums erfolgt nahe an der Schallquelle die Aufnahme ihres Direktschalls. Durch die Trennung von Gestalt und Raum oder Direkt- und Diffusschall kann der Aufnahme auch die Akustik eines anderen Aufnahmeraums zugeordnet werden, die Schallquellen sozusagen in einen akustisch besser geeigneten Raum versetzt werden. Wiedergabeseitig werden Gestalt und Raum im Wave Field Synthesiser durch einen mathematischen Prozess (convolution) wieder zusammengefügt. Das „trockene” Quellsignal wird dabei mit der vorliegenden Impulsantwort des Raums verrechnet, genauer gefaltet (FIRFilterung) und den Lautsprecherkanälen zugeführt (Abb. 5/74, unten). Die Schallquelle erhält 305
Tonaufnahme und Tonwiedergabe also ihre räumlichen Eigenschaften, gegeben durch ihren Ort, frühe Reflektionen und Nachhall, im Prinzip vollständig zurück. Die Raumimpulsantworten können auch nach Maßgabe eines raumakustischen Modells dynamisch berechnet und ebenso wie gemessene Raumdaten abgespeichert werden. Im Gegensatz zum datenbasierten Verfahren, welches die Reproduktion der originalen Raumakustik erlaubt, erzeugen die modellbasierten Verfahren mit berechneten Raumimpulsantworten synthetische Räume. Im wiedergabeseitigen WFS-Prozessor können Impulsantworten beliebiger Räume als Datensätze gespeichert vorliegen und wahlweise eingesetzt werden.[5.4 bis 5.10]
Abb. 5/74. Prinzip der Wellenfeldsynthese.
5.8.2
Neue Fähigkeiten
Die Wellenfeldsynthese ist ein leistungsfähiges System für eine räumliche, perspektivisch überzeugende Gestaltung der akustischen Szene. Einige typische Schwächen der konventionellen Lautsprecher-Stereofonie gibt es grundsätzlich nicht bei der Wellenfeldsynthese, ihre besonderen Merkmale sind: 306
Wellenfeldsynthese - Virtuelle Punktschallquellen können an jedem Ort im Wiedergaberaum an der gleichen Stelle der Szene wie im Aufnahmeraum lokalisiert werden, auch im Bereich zwischen dem Hörer und den Lautsprechern, solange sich der Hörer innerhalb der Hörfläche bewegt. In Abb. 5/75 sind die Hörereignisrichtungen an unterschiedlichen Orten für zwei Punktquellen PQ 1 und PQ 2 angedeutet. - Es können ebene Schallwellen entsprechend einer unendlich großen Entfernung der virtuellen Quellen erzeugt werden. Die Hörereignisrichtung ist an jedem Ort der Hörfläche dabei dieselbe, sie wandert mit dem Hörer wie die Sonne (Abb. 5/75). Dabei wird die Richtung ebenso präzis wahrgenommen wie bei Punktschallquellen. - Es entsteht eine realistische Perspektive durch ortsfeste Punktschallquellen unterschiedlicher Entfernungen einerseits und ebenen Wellen andererseits. Der Hörer empfindet Präsenz in der virtuellen akustischen Szene. - Der Hörer wird umhüllt durch einen realistisch empfundenen Raumeindruck mit einer ausgewogenen Hallbalance in weiten Bereichen der Hörzone mit Hilfe der Synthese von ebenen Wellen für die Wiedergabe des Nachhalls bzw. der Atmo. Insgesamt ist die Synthese komplexer akustischer räumlicher Szenen möglich, die der Hörer besonders realistisch erleben kann, wenn er in der Hörzone umherwandert. Abb. 5/75 deutet an, in welcher Weise sich der Höreindruck bei Wechsel des Hörorts verändert. Darüber hinaus hat sich gezeigt, dass im Vergleich zur Stereofonie die Wellenfeldsynthese eine gesteigerte räumliche Transparenz gewährleisten kann.
Abb, 5/75. Die WFS ermöglicht die Wiedergabe sowohl von ortsfesten Punktquellen (PQ 1, PQ 2) als auch von stabilen Einfallsrichtungen ebener Wellen im gesamten Bereich der Hörfläche.
307
Tonaufnahme und Tonwiedergabe
5.8.3
Einschränkungen in der Praxis
Die theoretischen Möglichkeiten der Wellenfeldsynthese sind in der Praxis nicht ohne zahlreiche Einschränkungen realisierbar. Aufnahme- und wiedergabeseitig gibt es praktische Zwänge und technische Unzulänglichkeiten, die das Ergebnis in vielen Situationen negativ beeinflussen. Folgende Effekte und Nachteile sind zu nennen, deren Überwindung der Forschung der nächsten Jahre zur Aufgabe gestellt sind: 1. Spatial Aliasing: Der unvermeidbare Abstand der Array-Lautsprecher voneinander verursacht oberhalb einer Grenzfrequenz räumliche und spektrale Fehler. Oberhalb dieser Spatial Aliasing-Frequenz kann das Schallfeld physikalisch bedingt nicht mehr korrekt synthetisiert werden. Beträgt der minimale gegenseitige Abstand für größere Lautsprecher z. B. 20 cm, so ist die Grenzfrequenz 1 kHz. Nur das Spektrum unterhalb dieser Frequenz kann vom Gehör für die Lokalisation der virtuellen Schallquellen ausgewertet werden. 2. Spatial Truncation: Die Theorie geht von einem unendlich langen Lautsprecher-Array aus. Bei begrenzten Array-Abmessungen entstehen von den Rändern her Beugungswellen, die sich als Nach- und Vorechos bei fokussierten Schallquellen bemerkbar machen und Klangverfärbungen verursachen können. Es gibt jedoch Methoden zur Reduzierung dieser Effekte, z. B. die Anwendung von „tapering windows”, welche die Amplituden der äußeren Lautsprechersignale reduzieren. Dies verkleinert allerdings auch die Hörfläche. 3. Spatial Interference: Ein WFS-Array kann das angestrebte Schallfeld nicht optimal synthetisieren, wenn störende Reflexionen des Wiedergaberaums hinzukommen. Dies wirkt sich besonders aus auf die Wahrnehmung von Entfernungen, der räumlichen Tiefe sowie des Raumeindrucks. Das Gehör ist äußerst empfindlich und erkennt die reale Situation von Lautsprecher und Wiedergaberaum bevorzugt, auch auf Grund visueller Informationen. Das „Eigenleben” des Wiedergaberaumes muss stark unterdrückt werden, damit die virtuellen Schallquellen und der virtuelle Raum nicht verdeckt werden. Das Reflexionsmuster des Wiedergaberaums darf also in keinem Fall dominieren. 4. Beschränkung auf die horizontale Ebene: Die durch die praktische Realisierbarkeit bedingte Beschränkung auf die horizontale Ebene hat verschiedene Nachteile. Zunächst ist klar, dass in einer horizontalen Anordnung der Arrays nur virtuelle Quellen in der Horizontalebene synthetisiert werden können. Auch die Reproduktion des indirekten Schalls ist auf die horizontale Ebene beschränkt, obwohl zur Messung der Raumimpulsantwort bei den üblichen Methoden nahezu alle Reflexionen im oberen und unteren Halbraum erfasst werden. Das nur zweidimensionale Reflexionsmuster ist entsprechend ungenau und kann die Wahrnehmung von Raumeindruck und Umhüllung negativ beeinflussen. Hinzu kommt, dass eine Kugel- oder ebene Welle nur dreidimensional generiert werden kann. Eine mit einem Linienarray erzeugte ebene Welle beispielsweise hat dann die Form eines Zylinders, der das Array umgibt. Deshalb nimmt im Gegensatz zu einer idealen ebenen Welle ohne Pegelabnahme mit der Entfernung der Pegel um 3 dB bei Verdopplung der Entfernung ab. 5. Erforderliche Übertragungskapazität: Bei der Wellenfeldsynthese steigt die Zahl der erforderlichen Übertragungskanäle etwa proportional mit der Anzahl der zu übertragenden Schallquellen. Für den erfolgreichen Einsatz der WFS müssen in der Mehrzahl der Anwendungen deshalb Methoden entwickelt werden, die die Zahl der erforderlichen Kanäle für die Übertragung und Speicherung begrenzen, ohne dabei gleichzeitig die Qualität zu beeinträchtigen. 308
Wellenfeldsynthese 6. Übertragung ausgedehnter Schallquellen: Am Beispiel der Übertragung eines Chores wird deutlich, dass das Konzept der getrennten Übertragung von Gestalt und Raum nicht immer praktikabel ist. Die Qualität der Aufnahme würde im Vergleich zu einer stereofonen Aufnahme nicht wachsen, wenn die Zahl der Stützmikrofone, d. h. die Zahl der zu übertragenden „trockenen” monofonen Quellsignale der Chormitglieder oder Chorgruppen, beliebig gesteigert werden könnte. Sie wäre wahrscheinlich selbst dann nicht optimal, wenn jedes Chormitglied ein eigenes Stützmikrofon bekäme, wovon die Theorie ausgeht. Hinzu kommt, dass für jedes der Stützmikrofone die Raumimpulsantworten gemessen und diese Datensätze übertragen werden müssten. Auf der Wiedergabeseite müssen entsprechend viele der rechenintensiven Operationen durchgeführt werden. Ebenso anspruchsvoll ist beispielsweise die Übertragung eines Klaviers im Konzertsaal. Ein Klavierklang setzt sich aus vielen räumlich verteilten Klangelementen zusammen, es ist keine punktförmige Schallquelle. Die reine Lehre der Wellenfeldsynthese wird dieser Aufgabe nicht gerecht. 7. Übertragung der Atmo: Auch die Atmo, Umgebungsgeräusche aller Art, setzen sich aus vielen räumlich verteilten Quellen zusammen, beispielsweise Applaus im Konzertsaal. Hunderte von Einzelschallquellen, die im ganzen Raum fern und nah verteilt sind, formen das Hörerlebnis Applaus oder Atmosphäre. Mit dem Konzept der binauralen Reproduktion der Ohrsignale (Kunstkopftechnik) ist im Prinzip eine realitätsgetreue Übertragung erreichbar. Mit Einschränkungen gilt das ebenso für Verfahren der Mehrkanalstereofonie. Das Konzept der Aufnahme trockener Einzelschallquellen bei der WFS kann dies aber nicht leisten. Diese Liste lässt erkennen, dass das System in der Theorie zwar hervorragende Eigenschaften zeigt, eine praktische Umsetzung mit ihren Einschränkungen noch viele Forschungsaufgaben offen lässt. Auch werden allein schon wegen des hohen Aufwands zunächst nur Anwendungen für besondere Fälle wie Kinos, Freiluftbühnen, künstlerische Installationen u. ä. realisiert werden können.
5.8.4
Kombination von Wellenfeldsynthese und Stereofonie
Die genannten praktischen Einschränkungen der Wellenfeldsynthese lassen sich zum Teil mit technischen Maßnahmen mildern, das trifft besonders für die o. g. Punkte 1 bis 4 zu. Die Punkte 5 bis 7 dagegen zeigen, dass die getrennte Übertragung von Einzelquellen und Rauminformationen offenbar in vielen Fällen wenig sinnvoll ist. Die Lautsprecherstereofonie besitzt aber erstaunlicherweise gerade dort Stärken, wo das WFS-Übertragungsverfahren die o. g. prinzipiellen Schwächen aufweist. Nahe liegend sind deshalb Konzepte, welche durch Einbindung von stereofonen Aufnahme- und Wiedergabetechniken die Eigenschaften der Wellenfeldsynthese für praktische Anwendungen entscheidend verbessern können wie das Verfahren „Virtual Panning Spot” (VPS). 5.8.4.1
Virtual Panning Spot
Um die Vorteile der herkömmlichen Zwei- oder Mehrkanalstereofonie nutzen und mit der WFS kombinieren zu können, werden sog. „Virtual Panning Spots” (VPS) eingeführt. Das Prinzip ist in Abb 5/76 dargestellt. Obgleich neben dem Solisten ein Chor - mit vielen Einzelschallquellen - aufgenommen werden soll, werden insgesamt nur vier virtuelle Schallquellen 309
Tonaufnahme und Tonwiedergabe vorgesehen. Eine davon repräsentiert den Solisten nach dem Prinzip der WFS, also separate Übertragung der Nahfeld-Aufnahme und der dazugehörigen Raumimpulsantwort. Für die Aufnahme des Chors ist dagegen eine konventionelle stereofone Technik vorgeschaltet (L-C-R). Die Mischung sollte so beschaffen sein, dass sie einerseits wenig Rauminformation enthält, andererseits aber die flächige Verteilung der Chormitglieder adäquat wiedergibt. Das dreikanalige stereofone Signal des Chors wird in der folgenden WFS-Übertragungskette wie drei diskrete Einzelquellensignale behandelt, also ebenfalls zusammen mit den zugehörigen Raumimpulsantworten übertragen. Die drei WFS-Signale repräsentieren somit virtuelle „Lautsprecher”, welche das stereofone Klangbild des Chors im Aufnahmeraum wiedergeben.
Abb. 5/76. Virtuelle Panning Spots (VPS) zur Nutzung stereofoner Techniken.
Da die Virtual Panning Spots virtuelle Quellen darstellen, müssen wiedergabeseitig natürlich auch die passenden Raumimpulsantworten zur Verfügung stehen. Diese können im Ursprungsraum gemessen oder synthetisiert werden. In der Praxis müssen Messungen einzelner Raumimpulsantworten bestimmter Räume natürlich nicht für jede Aufnahme neu gemessen werden, sondern stehen in einer Datenbank zur Verfügung. Im Beispiel gemäß Abb. 5/76 wird der Chor also von drei VPS dargestellt, die per Wellenfeldsynthese wiedergeben werden und dadurch hinsichtlich Lokalisation, Ausdehnung und Entfernung relativ frei konfigurierbar sind. Die stereofone Aufnahme des Chors erzeugt im Gesamtbild einen großen Klangkörper, denn es existiert eine Abbildung zwischen den VPS nach den Gesetzen der Stereofonie. Die „Lautsprecher” sind virtuelle Quellen, per WFS generiert und mit den räumlichen Eigenschaften des Aufnahmeraums versehen. Die Orte der VPS verhalten sich für den Bereich der Hörzone richtungsstabil. Die bekannten Nachteile der Lokalisation der Phantomschallquellen, insbesondere die geringe Richtungsstabilität, lassen sich leicht vermeiden, indem eine ausreichende Anzahl von VPS gesetzt wird, z. B. 3 bis 5 VPS für den vorderen Abbildungsbereich. Dies ist allein eine Frage der technischen Möglichkeiten während der Aufnahme und 310
Wellenfeldsynthese der verfügbaren Übertragungskapazität, nicht aber eine Frage der Lautsprecheranordnung beim Hörer. Das VPS-Konzept hat für die WFS-Übertragung wesentliche prinzipielle Vorteile, sowohl hinsichtlich der Wiedergabequalität als auch bezüglich der Handhabung der Aufnahmetechniken. Es basiert auf der Anwendung stereofoner Techniken, es gibt keine völlig neuen Konzepte der Mikrofonierung, die Abmischung auf die VPS-Positionen benötigt keine neuen Methoden. Neu ist allerdings, dass die Entfernungsdarstellung einfach mit der Festlegung der VPS-Positionen vollzogen wird. Wie bereits erwähnt, befindet sich die Schallquelle bei ebenen Wellen theoretisch unendlich weit entfernt. Diese Eigenschaft ist günstig für die Darstellung von Atmo oder Umhüllung des Nachhalls. Es hat sich gezeigt, dass bereits wenige ebene Wellen aus unterschiedlichen Richtungen ausreichen, um einen als subjektiv diffus empfundenen Nachhall zu erzeugen. Schon mit heute üblichen Hallgeräten lassen sich unkorrelierte Nachhallfahnen mit mindestens vier Kanälen herstellen, die dann als ebene Wellen über das Lautsprecherarray synthetisiert werden. 5.8.4.2
Virtuelle Lautsprecher
Einen wichtigen Sonderfall für die VPS-Anwendung stellt eine spezielle wiedergabeseitige Voreinstellung der VPS dar, die die Wiedergabe von konventionellen Mehrkanal-Aufnahmen in einem virtuellen Abhörraum ermöglicht. Zu diesem Zweck sind für den wiedergabeseitigen WFS-Decoder zwei Maßnahmen vorgesehen (Abb. 5./77): 1. Die Konfiguration der VPS hinsichtlich Raumimpulsantworten und räumlicher Anordnung erfolgt nicht nach Maßgabe der im WFS-Kanal übertragenden Informationen, sondern gemäß der voreingestellten Darstellung virtueller Lautsprecher in einem virtuellen Abhörraum. Beliebige Anordnungen der virtuellen Lautsprecher können voreingestellt sein und abhängig vom wiederzugebenden Stereofonie-Format aktiviert werden. 2. Die virtuellen Quellsignale werden nicht aus dem WFS-Übertragungskanal empfangen, sondern vom wiedergabeseitigen Mehrkanaldecoder, z. B. einem DVD-Player. Die WFS-Wiedergabeanlage arbeitet hier völlig losgelöst von einer WFS-Übertragung, kann aber in diesem Modus prinzipiell bereits einige attraktive Vorteile im Vergleich mit einer konventionellen Wiedergabeanlage bieten: - Diverse stereofone Mehrkanal-Formate lassen sich problemlos durch Wahl einer VPSVoreinstellung optimal wiedergeben, ohne die Lautsprecheranordnung z. B. im Wohnzimmer entsprechend anpassen zu müssen, - auch in beengter Raumsituation ist durch die größeren Entfernungen der virtuellen Lautsprecher die Hörzone für Mehrkanal-Stereofonie ausreichend groß, - ebene Wellen für die Surround-Signale vergrößern die Hörzone, weil erstens der Schalldruckpegel bei Verdopplung der Entfernung nur um 3 dB abnimmt und zweitens die Hörereignisrichtung in der Hörzone ortsunabhängig ist, - eine hochwertige WFS-Wiedergabeanlage erlaubt eine elektronische Kompensation verschiedener Mängel des Wiedergaberaums, insbesondere die Reduktion der Wirkung von frühen Reflexionen sowie den Ausgleich unsymmetrischer Anordnungen der Lautsprecherarrays. 311
Tonaufnahme und Tonwiedergabe
Abb. 5/77. VPS als virtuelle Lautsprecher für konventionelle Mehrkanalformate.
Diese rein wiedergabeseitige Anwendung der Wellenfeldsynthese für Mehrkanal-Stereofonie könnte aus technischer und praktischer Sicht der erste Schritt für die Einführung auf dem Markt sein. Interessant ist hier die Entwicklung der MAP-Technologie [5.58, 5.59]. Diese flachen, mit einer Glasfaser gespeisten Panels sind in Wohnräumen meistens besser zu integrieren als Lautsprecherboxen. Die Praktikabilität der Panels, verbunden mit den oben dargestellten Vorteilen der WFS-gestützten virtuellen Lautsprecher, könnte schon in naher Zukunft zum ersten Markterfolg der Wellenfeldsynthese führen. Dabei ist nicht nur an die Anwendung im Heim („Home Theatre”) gedacht, sondern auch an den Einsatz in Kinos, Theatern oder ähnlichen Wiedergaberäumen. Verfahren der echten WFS-Übertragung werden wohl erst später folgen. Wichtige Faktoren für die Akzeptanz der Wellenfeldsynthese in den verschiedenen Anwendungsbereichen werden die Praktikabilität sowie die tatsächlich erreichbare Wiedergabequalität sein, dies nicht nur hinsichtlich räumlicher Merkmale wie Lokalisation, räumliche Tiefe, Perspektive und Transparenz, sondern insbesondere auch bezüglich der Klangfarbe. 5.8.4.3
Virtueller Kopfhörer
Die binauralen Signale einer Kunstkopfaufnahme werden über Lautsprecher mit einem sog. crosstalk cancellation-Filter (XTC) wiedergegeben, um die Beschallung des jeweils abgewandten Ohrs zu verhindern. Dazu müssen die Übertragungseigenschaften dieser Wege gemessen oder berechnet werden, das Filter hat dann dementsprechend inverse Filterkenn312
Wellenfeldsynthese linien für alle Richtungen, diese müssten durch head-tracking mit jeder Kopfdrehung nachgestellt werden, was mit realen Lautsprechern kaum zu verwirklichen ist. Die WFS hingegen kann die Lautsprecher durch virtuelle Punktschallquellen ersetzen. Wenn diese nahe bei den Ohren des Hörers positioniert werden, kann eine stabile virtuelle Kopfhörersimulation erreicht werden ohne XTC-Filter. An Stelle einer linearen WFS-Standardanordnung bietet eine Kreisanordnung über dem Hörer einen konstanten Abstand zwischen den Ohren, den virtuellen Schallquellen und den Lautsprechern, dies wieder führt zu einer konstanten und hohen Aliasing-Frequenz und stark reduzierten Klangfärbungen während der Kopfbewegungen. Die tiefen Frequenzen werden über Subwoofer abgestrahlt, der Lautsprecherkreis kann unsichtbar über dem Kopf des Hörers angebracht werden. 5.8.4.4
Binaural Sky
Eine mögliche Anwendung des virtuellen Kopfhörers ist der Binaural Sky, ein neuartiges Wiedergabesystem speziell für die binauralen Signale einer Kunstkopfaufnahme, wobei die Wellenfeldsynthese und die dynamische Kompensation des Übersprechens bei Lautsprecherwiedergabe kombiniert werden. Der 2005 entwickelte Prototyp besteht aus einem über dem Kopf des Hörers befestigten Lautsprecherring. Mit Hilfe der Wellenfeldsynthese werden damit Quellen in Ohrnähe fokussiert, wodurch Ohrsignale so reproduziert werden können, dass eine dreidimensionale Abbildung von Schallereignissen ohne die Verwendung von Kopfhörern oder im Sichtfeld aufgestellten Lautsprechern möglich ist. Unabhängig von der Akustik des jeweiligen Abhörraums kann z. B. in einem kleinen Übertragungswagen die Akustik der gewohnten Tonregie simuliert werden. Die Basis des Systems bildet das Verfahren der „Binauralen Raumsynthese” (binaural room scanning, BRS), das Mitte der 1990er Jahre ebenfalls am IRT entwickelt wurde. Ein realer Abhörraum wird mit Hilfe eines Kunstkopfs vermessen, wodurch man die binaurale Raumimpulsantwort (binaural room impulse response, BRIR) eben dieses Raums ermitteln kann. Diese enthält neben der kopfbezogenen Übertragungsfunktion (head related transfer function, HRTF) einer oder mehrerer im Raum vorhandener realer Quellen, z. B. Lautsprecher, auch die akustischen Eigenschaften des Raums. Mit Hilfe dieser BRIR lassen sich sog. Ohrsignale generieren, die dann bei der Wiedergabe über Kopfhörer einen Raumeindruck vermitteln. So lässt sich ein virtueller Abhörraum synthetisieren. Wird das System auf diese Weise realisiert, ergibt sich ein gravierender Nachteil: Da die ermittelte Raumimpulsantwort nur für eine diskrete Kopfausrichtung gültig ist, wird der virtuelle Abhörraum bei Kopfrotationen einfach mitgedreht. Um dies zu verhindern, werden im realen Raum auch Messungen mit gedrehtem Kunstkopf durchgeführt. Dabei wird eine Datenbank erstellt, in der die Raumimpulsantworten für eine volle Kopfdrehung mit einer Rasterung von 1/ abgespeichert sind. Bei der Wiedergabe wird der aktuelle Drehwinkel des Kopfes mittels eines Headtracking-Systems ermittelt, so dass auf den passenden Satz Impulsantworten aus der Datenbank zugegriffen werden kann. Durch diese Vorgehensweise bleibt der virtuelle Abhörraum auch bei Kopfdrehungen stabil, außerdem verbessert sich so die Lokalisation der virtuellen Quellen. Mit dem BRS-System ist es also möglich, eine gewohnte Abhörsituation mit Hilfe von Kopfhörern zu synthetisieren, oder, wenn die entsprechenden Datenbanken mit Impulsantworten verfügbar sind, auch zwischen verschiedenen Abhörsituationen umzuschalten [5.59], [5.60], dazu auch Kap. 18.6.3. 313
Tonaufnahme und Tonwiedergabe Grundsätzlich funktioniert der Binaural Sky wie ein Kopfhörer, d. h. es gibt zwei Ausgangskanäle, deren Signale direkt am rechten und linken Ohr wiedergegeben werden. Besonders interessant ist aber das komplette System, also Wellenfeldsynthese mit Übersprechkompensation in Kombination mit der Binauralen Raumsynthese, weil es faszinierende Möglichkeiten eröffnet: Es lassen sich stabile dreidimensionale Abhörsituationen mit beliebigen Quellenkonstellationen generieren und zwar ohne störende Kopfhörer oder im Sichtfeld befindliche Lautsprecher. Der Hörer kann damit in eine virtuelle akustische Umgebung versetzt werden. Das System eignet sich daher speziell für „virtual reality”-Anwendungen oder z. B. für Computerspiele. Durch eine subjektive Beurteilung in Hörversuchen zeigte sich, dass das System eine stabile räumliche Abbildung von binauralen Signalen mit einer sehr guten Lokalisationsschärfe bietet. Bis etwa 7 kHz ist das System weitgehend ohne Klangfärbungen, darüber machen sich wegen Alias-Effekten der WFS geringe Klangfärbungen bemerkbar. Der Prototyp wurde vorerst für eine zentrale Kopfposition optimiert. Kopfdrehungen kann das System für alle Winkel kompensieren, Abweichung von der Mitte hingegen mindern die Klangqualität, da die Quellen nicht nachgeführt werden und die Übersprechkompensation nachlässt. Die Hörzone hat derzeit noch einem Durchmesser von nur etwa 15 cm, befindet sich der Kopf außerhalb davon, wird die Wiedergabe automatisch stumm geschaltet [5.61, 5.62, 5.63].
Standards [ITU-R BS.775-1]
Multichannel stereophonic sound system with and without accompanying picture, ITU-Rec., 1992/1994
[SMPTE RP-173]
Loudspeaker placements for audio monitoring in high definition electronic production, Rec., SMPTE N 15.04/152-300B, 1991
[SMPTE]
Channel assignments and levels on multichannel audio media, Proposed Standard for Television, ITU Information doc. ITU-R 10C/11 and 1011R/2, 1998
[EBU R22]
Listening conditions for the assessment of sound programme material, EBU-Rec., 2000, weitere Details siehe EBU Tech 3276 mit Suppl. 1
[ISO1996]
One-third octave band background noise level limits noise rating curves (NR),” ISO-Rec., 1972
[ITU-R BS.1116-1] Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems, ITU-Rec., 1997 [EBU R 91]
Track allocations and recording levels for the exchange of multichannel recording, EBU-Rec.,1998);
[EBU R 96 ]
Formats for production and delivery of multichannel programme, EBURec., 2000
[ISO Rec. 1996 ]
One-third octave band background noise level limits noise rating curves (NR), 1972
314
Tonaufnahme und Tonwiedergabe [ITU-R BS.1384]
Parameters for international exchange of multi-channel sound recording, ITU-Rec., 1998
[SSF Recommended Practice 01-E3] Listening Conditions and Reproduction Arrangements for Multichannel Stereophony, 2000 [SSF Recommended Practice 02/1-E2] Multichannel Recording in 3/2 Format, 2000 [ITU-R BS.708 ]
Determination of the Electro-Acoustical Properties of Studio Monitor Headphones, ITU-Rec. 1990/1997
Literatur [5.1]
Mackensen, P., Reichenauer, K. und Theile, G.: „Einfluss der spontanen Kopfdrehungen auf die Lokalisation beim binauralen Hören”, in: Bericht 20. Tonmeistertagung, 1998, S. 218ff., Saur
[5.2 ]
Theile, G.: „On the Naturalness of Two-Channel Stereo Sound”, in: Journal Audio Eng. Soc. 39, Nr. 10, 1991, S. 761ff.
[5.3 ]
Theile, G.: „Multichannel natural music recording based on psychoacoustic principles”, AES 19th. Intern. Conference June 2001, Proceedings S. 201ff., korrigierte Version: www.irt.de/wittek/hauptmikrofon/theile/Multich_Recording_30.Oct. 2001_.PDF
[5.4 ]
Berkhout, A. J., de Vries, D. und Vogel, P: „Acoustic Control by Wave Field Synthesis,” in: Journal Acoust. Soc. Am., Vol. 93, 1993, S. 2764ff.
[5.5 ]
Boone, M. M, Verheijen, E. N. G. und van Tol, P.F.: „Spatial sound field reproduction by wave field synthesis”, in: Journal Audio Eng. Soc., Vol. 43, 1995, S. 1003ff.
[5.6]
Horbach, U. und Boone, M.: „Practical Implementation of Data-based Wave Field Reproduction System”, 108. AES Convention, 2000, Preprint
[5.7]
de Vries, D., Hulsebos, E. und Bourdillat, E.: „Auralization by Wave Field Synthesis”, in: Bericht 21. Tonmeistertagung 2000, S. 121ff.
[5.8]
Pellegrini, R.S. und van Zan, R.: „Vergleich gemessener Impulsantworten für die Darstellung virtueller Räume mittels Schallfeldsynthese”, in: Bericht 22. Tonmeistertagung, 2002
[5.9]
Theile, G., Wittek, H., Reisinger, M.: „Wellenfeld-Synthese-Verfahren: Ein Weg für neue Möglichkeiten der räumlichen Tongestaltung”, in: Bericht 22. Tonmeistertagung, 2002
[5.10]
Wittek, H.: „Bericht zum Workshop „Wellenfeldsynthese” im „Forum Neues Musiktheater” der Staatsoper Stuttgart”. in: VDT-Magazin 3/2004, S. 36ff.
[5.11]
Theile, G.: „Über die Lokalisation im überlagerten Schallfeld”, Diss. TU Berlin, 1980 315
Tonaufnahme und Tonwiedergabe [5.12]
Blauert, J.: Räumliches Hören, 2000, Hirzel
[5.13]
Wittek, H. und Theile, G.: „Investigations into directional imaging using L-C-R stereo microphones”, in: Bericht 21. Tonmeistertagung 2000, S. 432ff.
[5.14]
Leakey, D. M.,: „Further thoughts on stereophonic sound systems”, in: Wireless World 1960, S. 154ff.
[5.15]
Mertens, H.: „Directional hearing in stereophony theory and experimental verification”, in: Europ. Broadcasting Union Rev. Part A, 1965, 92, S. 1ff.
[5.16]
Brittain, F. H. und Leakey, D. M.,: „Two-channel stereophonic sound systems”, in: Wireless World 1956, S. 206ff.
[5.17]
Simonson, G., 1984: Master's Thesis, 1984, Lyngby, Denmark
[5.18]
Sengpiel, E.: www.sengpielaudio.com, 2002
[5.18]
Theile, G.und Plenge, G.: „Localization of lateral phantom-sources”, in: Journal Audio Eng. Soc. 25, 1976, S. 196ff.
[5.19]
Zieglmeier, W. und Theile, G.: „Darstellung seitlicher Schallquellen bei Anwendung des 3/2 Formates”, in: Bericht 19. Tonmeistertagung 1996, S. 159ff., 1997, Saur
[5.20]
Barron, M. und Marshall, H. A.: „Spatial Impression due to early lateral reflections in concert halls”, in: Journal of Sound and Vibration 77, 1981, S. 211ff.
[5.21]
Theile, G.: „Multichannel Natural Music Recording Based On Psychoacoustic Principles”, AES-Preprint 5156, 2001, ergänzte Version: www.irt.de/IRT/indexpubli.htm
[5.22]
Herrmann, U., Henkels, V. und Braun, D.: „Vergleich von 5 verschiedenen Hauptmikrofonverfahren”, in: Bericht 20. Tonmeistertagung 1998, S. 508ff., 1999, Saur
[5.23]
Williams, M.: „Unified theory of microphone systems for stereophonic sound recording”, 1987, AES-Preprint No. 2466
[5.24]
Wittek, H.: Image Assistant, www.hauptmikrofon.de
[5.25]
Theile, G.: Untersuchungen zur Richtung und Entfernung von Phantomschallquellen bei 2-Kanal-Stereofonie, Techn. Ber. des Instituts für Rundfunktechnik 24/80, München 1980
[5.26]
Theile, G.: „Zur Theorie der optimalen Wiedergabe von stereofonen Signalen über Lautsprecher und Kopfhörer”, in: Rundfunktechn. Mitt. 1981, S. 155ff und Rundfunktech. Mitt., Sonderdruck, 9/1981, S. 32ff.
[5.27]
Theile, G.: „Untersuchungen zur Standardisierung eines Studiokopfhörers”, in: Rundfunktechn. Mitt. 1983, S. 17ff.
[5.28]
Theile, G.: „Zur Theorie der optimalen Wiedergabe stereofoner Signale über Lautsprecher und Kopfhörer”, in. Rundfunktechn. Mitt. 1981, S. 155ff.
[5.29]
Dickreiter, M.: Mikrofon-Aufnahmetechnik (mit Survival Kit), 3. Aufl., Stuttgart 2003, Hirzel
[5.30]
Pawera, N.: Mikrofonpraxis, 2004, ppv medien
316
Tonaufnahme und Tonwiedergabe [5.31]
Edenhof, A.: Das Mikrofonbuch, 2006, Carstensen
[5.32]
Theile, G.: „Hauptmikrofon und Stützmikrofone – neue Gesichtspunkte für ein bewährtes Verfahren”, in: Bericht 13. Tonmeistertagung 1984, S, 170ff., Saur
[5.33]
Qualitätsunterschiede zwischen Stereoaufnahmen in X/Y- und M/S-Mikrophontechnik, Akustische Informationen 3.4.-2 des Instituts für Rundfunktechnik (IRT)
[5.34]
Theile, G.: „Das Kugelflächenmikrofon”, in: Bericht 14. Tonmeistertagung 1986, S. 277ff., 1987, Saur
[5.35]
Wuttke, J.: „Zwei Jahre Kugelflächenmikrofon”, in: Bericht 17. Tonmeistertagung 1992, S. 832ff., 1993, Saur
[5.36]
Wittek, H. und Theile, G.: „The recording angle – based on localisation curves”, 112. AES-Convention, 2002, paper 5568
[5.37]
„Channel assignments and levels on multichannel audio media,” SMPTE-Proposed Standard for Television, ITU Information doc. ITU-R 10C/11 und 10-11R/2, 1998
[5.38]
Nousaine, T.: „Multiple subwoofers for home theatre”, 103. AES-Convention, Preprint 4558, in: J. Audio Eng. Soc. Vol. 45, S. 1015ff., 1997
[5.39]
Zacharov, N., Bech, S. und Meares, D.: „The use of subwoofers in the context of surround sound program reproduction”, in: J. Audio Eng. Soc., Vol. 46, S. 276ff., 1998
[5.40]
Kügler, C. und Theile, G.: „Loudspeaker reproduction: study on the subwoofer concept”, 92. AES-Convention, Preprint 3335, in: J. Audio Eng. Soc., Vol. 40, S. 437ff., 1992
[5.41]
Griesinger, D.: „Spatial impression and envelopment in small rooms”, 103. AESConvention, Preprint 4638, in: J. Audio Eng. Soc., Vol. 45, S. 1013f., 1997
[5.42]
“One-third octave band background noise level limits noise rating curves (NR),” Rec. ISO1996, International Standards Organization, Geneva, Switzerland, 1972
[5.43]
Streicher, R.: „The Decca Tree in stereo and surround recording, 106. AES-Convention, Workshop Note, 1999
[5.44]
Theile, G.: „Multichannel natural music recording based on psychoacoustic principles”, AES-Convention, 2000, Preprint 5156, supplementing handout 2.2000
[5.45]
Damaske, P.: „Subjektive Untersuchung von Schallfeldern”, in: Acustica, Bd. 19, S. 199ff., 1967/68
[5.46]
Bruck, J.: „Solving the surround dilemma”, in: Bericht 19. Tonmeistertagung, 1996, S. 117ff., 1998, Saur
[5.47]
Hamasaki, K., Fukada, A., Kamekawa, T. und Umeda, Y.: „A concept of multichannel sound production at NHK”, in: Bericht 21. Tonmeistertagung, 2000
[5.48]
Wöhr, M., Theile, G., Goeres, H.-J. und Persterer, A.: „Room-related balancing technique: a method for optimising recording quality”, in: J. Audio Eng. Soc., Vol. 39, S. 623ff., 1991 317
Tonaufnahme und Tonwiedergabe [5.49]
Hugonnet, C., Walder, P.: Stereophonic Sound Recording, John Wiley & Sons, 1998
[5.50]
Griesinger, D.: „The theory and practice of perceptual modeling – how to use electronic reverberation to add depth and envelopment without reducing clarity”, in: Bericht 21. Tonmeistertagung 2000, S. 766ff.
[5.51]
Beranek, L.: Concert Halls and Opera Houses. Music, Acoustics and Architecture, 2.Aufl. 2004, Springer New York
[5.52]
Forsyth, M.: Bauwerke für Musik, Konzertsäle und Opernhäuser, Musik und Zuhörer vom 17. Jahrhundert bis zur Gegenwart, 1992, Saur
[5.53]
Meyer, J.: Kirchenakustik, 2002, Bochisnsky
[5.54]
Meyer, J.: Akustik und musikalische Aufführungspraxis, 5. Aufl. 2004, ppv Medien
[5.55]
Schlemm, W. „Musikproduktion”, in: MGG – Die Musik in Geschichte und Gegenwart, Bd. 6, Sp. 1534ff., 1997, Bärenreiter
[5.56]
Ausgewählte Aufsätze zum Thema Kunstkopf Stereofonie, Sonderheft Sept. 1981 der Rundfunktechn. Mitt.
[5.57]
Gierlich, H- W,: „Aufbau und Anwendung eines elektronischen Kunstkopfs”, in: Bericht 13. Tonmeistertagung 1984, S. 103 ff., Saur
[5.58]
Boone, M.M.: „Multi-Actuator Panels (MAPs) as loudspeaker arrays for wave field synthesis”, in: J. Audio Eng. Soc, 52 (7-8), S. 712ff.
[5.59]
Bauck, J. und Cooper, D. H.: „Generalized Transaural Stereo and Applications”, in: J. Audio Eng. Soc. 44 (1996), S. 683ff.
[5.60]
Horbach, U., Pellgrini, R., Felderhoff, U. und Theile, G.: Ein virtueller Surround Sound Abhörraum im Ü-Wagen in: Bericht 20. Tonmeistertagung 1998, S. 238ff., 1999, Saur
[5.61]
Horbach, U., Karamustafaoglu, A., Pellegrini, R., Mackensen, P. und Theile, G.:Design and Applications of a Data-based Auralization System for Surround Sound, 106. AES convention 1999, München
[5.62]
Menzel, D.: Realisierung und Evaluierung binauraler Raumsynthesen mittels Wellenfeldsynthese (Diplomarbeit), TU München, 2005
[5.63]
Menzel, D., Wittek, H., Theile, G. und Fastl, H.: The Binaural Sky: A Virtual Headphone for Binaural Room Synthesis, präsentiert auf dem Tonmeistersymposium des VDT 2005 in Hohenkammer
[5.64]
Menzel, D., Wittek, H., Fastl, H. und Theile, G.: Binaurale Raumsynthese mittels Wellenfeldsynthese - Realisierung und Evaluierung, in: Tagungsbericht DAGA 2006 Braunschweig, S. 255f.
318
Tonaufnahme und Tonwiedergabe [5.65]
Yewdall, D. L.: Practical Art of Motion Picture Sound, , 3.Aufl. 2007, ocal Press
[5.66]
Purcell, J.: Dialogue Editing for Motion Pictures, 2007, Focal Press
[5.67]
Flückiger, B.: Sound Design – Die virtuelle Klangwelt des Films, 2006, Schüren
[5.68]
Chion, M.: Audio-Vision – Sound on Screen, 1994, Columbia University Press
[5.69]
Hoeg, W. und Steinke, G.: Stereofonie-Grundlagen., 2. Aufl., 1975, Verlag Technik, Hoeg, W. und Wagner, K.: Stereofonie-Aufnahmetechnik., 1970, Verlag Technik
[5.70]
Hoeg, W.: „Kompatibilitätsprobleme der Zweikanalstereofonie”,in: Tech . Mitt. RFZ 16, 1972, H.3, S. 65ff.
[5.71]
Mackensen, P., Reichenauer, K., Theile, G.: Einfluss der spontanen Kopfdrehungen auf die Lokalisation beim binauralen Hören in: Bericht der die 20. Tonmeistertagung Karlsruhe 1988, 1989, S. 218ff., Saur
[5.72]
Theile, G.: „On the standardisation of the frequency response of high-quality studio headphones”, in: J. of the Audio Eng. Soc. 34, 1986, S. 956ff.
[5.73]
Theile, G.: „Die Bedeutung der Diffusfeldentzerrung für die stereofone Aufnahme und Wiedergabe”. in: Bericht 13. Tonmeistertagung München 1984, 1985, S. 112ff. Saur
[5.74]
Spikofski, G.: „The diffuse-field probe transfer function of studio-quality headphones”. in: EBU ReviewATechnical No. 229, June 1988
319
6
Klanggestaltung
Klanggestaltung bezeichnet die technische Bearbeitung von Audiosignalen mit dem vornehmlichen Ziel der Beeinflussung einzelner oder mehrerer Aspekte der klanglichen bzw. musikalischen Wahrnehmung der Lautstärke und Dynamik, der Klangfarbe, der Lokalisation und räumlichen Anordnung, des Raumeindrucks und der Tonhöhe sowie zumeist auch deren Zeitverläufe. Klanggestalterische Maßnahmen werden in vielen Stufen der Audioübertragungskette vorgenommen und können dabei verschiedene technische, künstlerische und hörpsychologische Zielsetzungen verfolgen. Im Zuge der Weiterentwicklung der digitalen Signalverarbeitung hat sich die Palette klanggestalterischer Werkzeuge deutlich vergrößert. Klanggestaltungswerkzeuge sind heute als analoge und digitale Hardware-Geräte, als Software-Anwendungen, als Plug-ins (Software-Komponenten mit standardisierten Schnittstellen), als Hardware-Plug-in-Kombinationen ausgeführt oder auch in Mischpulte integriert. Die digitale Realisation bietet bei vielen Bearbeitungsmitteln höhere Audio-Qualität, in jedem Fall aber den Vorteil der genauen numerischen oder grafischen Darstellung, Speicherung, Wiederherstellbarkeit und ggf. dynamischen Automation der Einstellungen. Für Details zur digitalen Tonverarbeitung wird auf Kap. 13.1.1 verwiesen. Im Bereich der Klanggestaltung bzw. ihrer Geräte haben sich, so wie in der digitalen Tontechnik in hohem Maße auch, in der täglichen Praxis englischsprachige Fachausdrücke etabliert; sie werden neben den deutschen Ausdrücken – soweit gebräuchlich – aufgeführt, siehe dazu auch den Anhang mit englisch-deutschen Fachwörtern.
6.1
Abbildungsrichtung und Abbildungsbreite
Die Erkennung der Richtung und Entfernung von Schallquellen bezeichnet man als Lokalisation. Bei natürlichen Schallquellen wertet das Gehör zur Gewinnung dieser Ortsinformation Pegel, Zeitpunkte und Frequenzspektren sowohl des Direktschalls als auch der frühen Reflexionen aus. Die Ausprägung dieser physikalischen Merkmale an einem Ohr und deren Differenz zwischen den beiden Ohren, sog. cues, hängen von der Schalleinfallsrichtung ab (siehe Kap. 3.4). Bei der zwei- oder mehrkanaligen stereofonen Wiedergabe von Schallereignissen hingegen geht diese Richtungsveränderlichkeit fast vollständig verloren, da die Anzahl der Schalleinfallsrichtungen auf die Anzahl der Wiedergabekanäle bzw. Lautsprecher beschränkt ist. Dennoch ist die Lokalisation nicht auf die Lautsprecherpositionen reduziert: Sie kann außerhalb der Lautsprecher in der Entfernung und auf Grund des Phänomens der Phantomschallquellen auch zwischen den Lautsprechern wahrgenommen werden (siehe hierzu Kap. 5.2). Die Festlegung des Abbildungsorts bei der stereofonen Audioproduktion erfolgt insoweit fast ausschließlich durch Erzeugung von cues, die für die Entfernungs- und die horizontale Lokalisation wesentlich sind. Die Distanz einer Klangquelle hinter den Lautsprechern hängt wie in der natürlichen Situation von der Lautstärke, dem Frequenzspektrum und dem Zeit- und Pegelverhältnis von direktem 321
Klanggestaltung und reflektiertem Schall ab. Ihre Festlegung erfolgt meist mit den Mitteln der Mikrofonierung und der Raumsimulation durch Hallgeräte, einfache und zugleich universelle Bearbeitungswerkzeuge stehen für diese Aufgabe nicht zur Verfügung. Die Abbildungsrichtung kann hingegen vergleichsweise einfach durch die Erzeugung einer Pegeldifferenz bei der sog. Intensitätsstereofonie und/oder Zeitdifferenz bei der sog. Laufzeitstereofonie zwischen den Wiedergabekanälen erreicht werden (siehe Kap. 5.3). Regler, die entsprechende Differenzen erzeugen, werden als Panorama-Potentiometer oder kurz Pan-Pot bezeichnet. Bei bereits stereofon aufgenommenen Klangquellen erfolgt die Richtungszuweisung durch einen Balance-Regler, der nur Differenzen der Übertragungsmaße verursacht. Auch die Abbildungsbreite wird mit technischen Mitteln zu beeinflussen versucht. Zu diesem Zweck wird die Gewichtung von gleich- und gegenphasigen Signalanteilen verändert. Eine dynamische Regelung der Abbildungsbreite in Abhängigkeit von Signaleigenschaften bieten moderne Stereoprozessoren.
6.1.1
Panorama-Potentiometer und Balanceregler
Mit einem Panorama-Potentiometer wird bei stereofoner Übertragung die Abbildungsrichtung einer Klangquelle zwischen den Lautsprechern festgelegt (siehe auch Kap.8.8.1). Dazu wird das psychoakustische Phänomen der Wahrnehmung von Phantomschallquellen ausgenutzt (siehe Kap. 5.2). Obwohl sowohl Pegel- als auch Zeitunterschiede die gewünschte Auslenkung einer Phantomschallquelle aus der Mitte der Lautsprecherbasis bewirken, werden Zeitdifferenzen in den meisten Fällen nicht zur Panoramaregelung eingesetzt, da ein so erzeugtes Stereosignal eine geringere Monokompatibilität aufweist, die sich in kammfilterbedingten Klangverfärbungen der Monosumme zeigt. Das Pan-Pot war und ist daher v. a. ein Werkzeug der sog. Intensitätsstereofonie. Ein Panorama-Potentiometer besitzt einen Eingang und zwei oder mehr Ausgänge entsprechend der Anzahl stereofoner Kanäle (Abb. 6/1). Das monofone Eingangssignal wird mit einer einstellbaren Pegeldifferenz auf die stereofonen Kanäle aufgemischt. Digital lässt sich dieselbe Funktion durch eine gegensinnige Gewichtung der Amplitudenwerte erreichen. Die Pegeldifferenz zwischen den Kanälen erzeugt eine seitliche Auslenkung )a der Phantomschallquelle aus der Mitte der Lautsprecherbasis a (Abb. 6/2).
Abb. 6/1. Pan-Pot für Zweikanal-Stereofonie: Regler, Schaltungssymbol und -prinzip.
322
Abbildungsrichtung und Abbildungsbreite Die Auslenkung kann in relativen Längeneinheiten (z. B. % der halben Lautsprecherbasis a/2) oder als Lokalisationswinkel N ausgedrückt werden. In diversen Lokalisationsversuchen wurde der Zusammenhang zwischen Pegeldifferenz und Hörereignisauslenkung bei Zweikanal-Stereofonie empirisch ermittelt. Aus denjenigen Tests, die mit breitbandigen Signalen durchgeführt wurden, können durch Mittelung die in Tab. 6/1 genannten Richtwerte abgeleitet werden. Damit Reglerstellung und Hörereignisauslenkung übereinstimmen, müssten diese Pegeldifferenzen bei den entsprechenden Reglerstellungen wirksam werden. Allerdings muss unter der Annahme unkorrelierter Ohrsignale die Leistungssumme der beiden Lautsprecher bzw. Kanäle konstant bleiben, soll die Lautstärke nicht mit der Richtung variieren. Diese Vorgabe wird durch eine Mittendämpfung von 3 dB und einen cosinus- bzw. sinusförmigen Verlauf der Verstärkungsfaktoren der Panoramakanäle erfüllt (Abb. 6/3). Dabei ist die Spannungssumme für die Mittenposition 3 dB höher als für die Außenpositionen.
Abb. 6/2. Hörereignisauslenkung in der Zweikanal-StandardStereoaufstellung.
Tab. 6/1. Richtwerte für den Zusammenhang von Pegeldifferenz )L und Hörereignisauslenkung )a. )L [dB] )a [%]
0 0
1,5 12,5
3 25
4,5 37,5
6 50
8 62,5
11 75
14 87,5
20 100
Die für die Leistungssummen optimierten Panoramakurven bedingen jedoch Pegeldifferenzen, die deutlich von den empirisch optimalen gemäß Tab. 6/1 abweichen können, und zwar nicht nur in den Außenbereichen, sondern bereits bei Reglerstellungen um 50%. Die gepunkteten 323
Klanggestaltung Linien in Abb. 6/3 zeigen jeweils das Soll-Übertragungsmaß eines Kanals für richtige Lokalisation, das sich aus der empirisch optimalen Pegeldifferenz und dem für die Leistungssummen optimierten Ist-Übertragungsmaß des anderen Kanals ergibt. Idealerweise ist aus der Schar von Kurven mit konstanter Leistungssumme daher diejenige mit der größten Übereinstimmung von Ist- und Soll-Übertragungsmaß auszuwählen (Kurve 2).
Abb. 6/3. Verläufe von Übertragungsmaßen für Pan-Pots mit konstanter Leistungssumme (durchgezogen) und von sich daraus ergebenden SollÜbertragungsmaßen hinsichtlich Lokalisationsrichtigkeit (gepunktet). Die mittlere Funktion (2) zeigt die beste Übereinstimmung beider Kriterien. Für sie gilt auch die dargestellte Spannungssumme (2).
In der Praxis zeigen die tatsächlichen Charakteristiken von Panoramareglern selbst großer Musikproduktionskonsolen allerdings recht unterschiedliche Verläufe [6.1]. In der Regel nimmt die Pegeldifferenz mit der Reglerstellung zu den Seiten hin schneller zu als gemäß Tab. 6/1. Daher ist es für ein schnelles, zielgerichtetes und zuverlässiges Arbeiten sinnvoll, die Charakteristik der verwendeten Panoramaregler zu kennen, auch wenn die Kontrolle der Richtungszuweisung in der Praxis vornehmlich nach Gehör erfolgt. Bei mehr als zwei stereofonen Wiedergabekanälen, wie bei Surround-Produktionen, ergeben sich mehrere Lautsprecherbasen: Durch den Center-Kanal zwei Basen im vorderen Bereich und durch die Surround-Kanäle zwei seitliche und eine hintere Basis. Auf allen Basen entstehen Phantomschallquellen, wobei seitliche und hintere wesentlich unschärfer und unzuverlässiger lokalisiert werden als vordere. Die Panoramaregelung für den vorderen Bereich zwischen links und rechts erfolgt unter Einbeziehung einer realen Schallquelle in Form des Center-Lautsprechers. Auch hierbei sind verschiedene Dämpfungskurven denkbar, die sich an der Leistungssumme, dem Lokalisationsverlauf oder anderen Kriterien orientieren. Auf der 324
Abbildungsrichtung und Abbildungsbreite Suche nach einem Optimum wird auch mit gegenphasigen Signalen gearbeitet (Abb. 6/4, links). Mit dem Parameter Divergenz kann stufenlos eingestellt werden, inwieweit Schallquellen im mittleren Bereich als Phantomschallquelle, also ohne Center-Kanal, dargestellt werden. Bei manchen Panorama-Sektionen ist die grundsätzliche Dämpfung des Mittenkanals einstellbar. Für die Lokalisationsrichtungen vorne/hinten ist entweder ein gesonderter Pan-Pot vorhanden, oder die Panoramaregelung erfolgt für beide Flächendimensionen durch einen Joystick.
Abb. 6/4. Links: Nach mehreren perzeptiven Kriterien optimierter Verstärkungsverlauf für drei vordere Lautsprecher in 30/-Anordnung nach Gerzon [6.2]. Bei negativ dargestellten Verstärkungswerten wird das Signal invertiert. Rechts: Verstärkungsverlauf mit konstanter Leistungssumme für dieselbe Lautsprecheranordnung.
Viele Surround-Panoramasysteme bieten eine Visualisierung der eingestellten Panoramaposition. Dabei wird die Schallquelle als Punkt auf einer von den Lautsprechern umstellten Fläche gezeigt. Diese Form der Darstellung ist insoweit irreführend, als die Lokalisation nur für den Sweet Spot, also den optimalen Abhörort, richtig ist, seitlich allenfalls instabile Phantomschallquellen entstehen können und eine Lokalisation von Phantomschallquellen innerhalb der umstellten Fläche im Grunde nicht möglich ist, weil die entsprechenden Lautsprecherbasen (z. B. links vorne – rechts hinten) zu nah am Hörer verlaufen. In einigen großen Audioproduktionskonsolen oder spezialisierten Plug-ins finden sich Panoramaregler, die neben Pegel- auch Zeit- und Spektraldifferenzen erzeugen können, ggf. kombiniert. Ein unter der Bezeichnung Virtual Surround Panning vermarktetes Panoramasystem generiert zusätzlich richtungsabhängige Muster früher Reflexionen sowie optional einen abgestimmten Nachhall direkt im Mischpult und berücksichtigt insofern die Überschneidung von Lokalisation und Raumwahrnehmung [6.3]. Da selbst neueste Surround-Panoramasysteme auf psychoakustischen Modellen basieren und daher nicht immer situationsspezifisch genau passende cues erzeugen können, ist es für eine anspruchsvolle Vermittlung der räumlichen Verhältnisse sinnvoll, die geeigneten Pegeldifferenzen, Laufzeitdifferenzen und Reflexionen möglichst schon mit den Mitteln der 325
Klanggestaltung Aufnahmeverfahren bzw. ihrer Mikrofonierungen herzustellen, sofern die Aufnahmebedingungen es erlauben. Bei bereits zweikanal-stereofon codierten Signalen erfolgt die Richtungseinordnung nicht mit einem Pan-Pot, sondern einem zweikanaligen Balanceregler, der die Pegel beider Eingangskanäle gegensinnig variiert und dadurch die Lokalisation und/oder das Lautstärkeverhältnis der Seiten verschiebt. Laufzeit- und Spektraldifferenzen kommen dabei nicht zum Einsatz. Die getrennte Verarbeitung der Kanäle durch den Balance-Regler folgt der Regel, vollständig oder teilweise laufzeitstereofon codierte Signale grundsätzlich außen zu positionieren, da deren Einengung durch Panoramaregler und damit deren Mischung Kammfiltereffekte verursachen würde (siehe Kap. 6.6.3). Die Abbildungsbreite zweikanal-stereofoner Signale kann mit dem Parameter „Width“ geregelt werden. Dabei wird eine Einengung der Stereobreite durch eine Zumischung der vertauschten Kanäle erreicht, eine Stereoverbreiterung durch eine Zumischung der invertierten vertauschten Kanäle (siehe Kap. 6.1.2). Dieser Vorgang ist gemäß obiger Regel also nur für nicht-laufzeitstereofone Signale ohne klangfarbliche Beeinträchtigung möglich. Der Einsatz von Spektraldifferenzen, gleich ob durch entsprechende Mikrofonverfahren (Trennkörperstereofonie, Kunstkopf) oder rechnerisch durch Audiobearbeitung erzeugt, folgt der Idee einer Annäherung an typische Eigenschaften von Ohrsignalen und stellt keine rein stereofone, sondern eine partiell oder vollständig binaurale Codierung dar. Es sollte daher stets kritisch geprüft werden, inwieweit Spektraldifferenzen für die Schaffung einer Illusion natürlicher Abbildung mittels Stereofonie und Lautsprecherwiedergabe überhaupt ein geeignetes Mittel sind. In Audioproduktionen, die ausschließlich für Kopfhörerwiedergabe bestimmt sind, kann der Einsatz von Plug-ins für eine dreidimensionale Panoramaregelung sinnvoll sein. Die binauralen Lokalisationscues, d. h. auch Spektraldifferenzen, werden durch Filterung mit den richtungsabhängigen Außenohrübertragungsfunktionen (HRTFs) wählbarer Kunstköpfe generiert. Außerdem können frühe Reflexionen und Nachhall sowie Dopplereffekte erzeugt werden [6.4]. Ein Problem besteht in der meist unbekannten Übertragungsfunktion des WiedergabeKopfhörers, deren eigentlich erforderliche Kompensation somit nur unzureichend möglich ist. Die räumliche Einordnung von Klangquellen entspricht bei bildbezogenen Audioinhalten und Kunstmusik in der Regel deren Positionen im Bild oder im Aufnahmeraum. Dies gilt nicht für Popularmusik, bei der die Positionierung häufig der Bedeutsamkeit der Klangquelle und dem Kontrastprinzip folgt [6.5]. Die Genres Hörspiel, Klangkunst und elektroakustische Musik schließlich erlauben völlige künstlerische Freiheit hinsichtlich der räumlichen Einordnung der Klangquellen.
6.1.2
Richtungsmischer, Stereobreitenregler und Stereoenhancer
Mit dem Richtungsmischer, auch als Summen-Differenzübertrager oder Stereo-Matrix bezeichnet, können bei reiner Intensitäts-Stereofonie MS- und XY-Signale (siehe Kap. 5.3.3) ineinander überführt werden, man bezeichnet dies als Stereo-Umsetzung. Die beiden Ausgangssignale werden durch Regelung und Summen- bzw. Differenzbildung der Eingangssignale (Abb. 6/6) sowie Dämpfung um 3 dB erzeugt. Richtungsmischer sind in Mischpulte 326
Abbildungsrichtung und Abbildungsbreite integriert, um Aufnahmen in MS-Stereofonie zu vereinfachen, oder als Stand-alone-Geräte (Abb. 6/5) verfügbar. In der Regel ist die Codierung des Eingangssignals zwischen MS und XY umschaltbar, wobei im Folgenden für den einstufigen Richtungsmischer von einer vorliegenden MS-Codierung ausgegangen wird. Einstellbar sind außerdem die Parameter Abbildungsbreite (Base) und Abbildungsrichtung (Direction). Zum Richtungsmischer siehe auch Kap. 8.8.2.
Abb. 6/5. Richtungsmischer, Schaltungssymbol.
Durch die Veränderung des Verhältnisses von M- und S-Signal wird das Verhältnis von gleich- und gegenphasigen Anteilen im stereofonen Signal verschoben und damit – sofern beide Komponenten vorhanden sind – der Korrelationsgrad (siehe Kap. 18.4.5), mit dem die wahrgenommene Abbildungsbreite zusammenhängt. Für sie bezeichnet der Wert 0 ein MonoSignal, also nur M-Anteil, der Wert 1 die originale Breite, also M- und S-Anteil, und Werte größer 1 eine Überbreite, also überwiegend oder nur S-Anteil. Bei überbreiten Einstellungen besteht die Gefahr des Verlustes mittiger und/oder eindeutiger Lokalisation.
Abb. 6/6. Prinzipschaltbild des aktiven Richtungsmischers.
327
Klanggestaltung Im Normalfall wird der S-Kanal mit dem reinen S-Signal gespeist, die Abbildungsrichtung ist dann mittig. Sie kann mit dem gleichnamigen Regler zur Seite verschoben werden: nach links, indem dem S-Kanal ein Gemisch aus S-Signal und M-Signal zugeführt wird, oder nach rechts, indem dem S-Kanal ein Gemisch aus dem S-Signal und dem invertierten M-Signal zugeführt wird. Dabei bestimmt das Mischungsverhältnis der M- und S-Komponente die Größe der Auslenkung, mit der sich auch die Abbildungsbreite verringert. An den Außenpositionen wird also die Monosumme hörbar, im Unterschied zur Balance-Regelung gemäß Kap. 6.1.1, bei der außen nur jeweils ein Stereo-Kanal erscheint. Da die Stereoumsetzung umkehrbar ist, kann die Regelung von Abbildungsbreite und -richtung auch für stereofon codierte Signale erfolgen, indem zwei Stereo-Matrizen für die LR/MS/LRUmwandlung hintereinander geschaltet werden. Das sich so ergebende universelle Werkzeug für die Regelung der Stereobreite (Width), das als eigenständiges Gerät, als Plug-in oder als Teil der Panorama-Sektionen von Mischpulten ausgeführt sein kann, ist heute weitaus gebräuchlicher als der klassische einstufige Richtungsmischer und wird sowohl für die Korrektur von Signalen aus elektronischen Klangerzeugern und Effektgeräten als auch für die Nachbearbeitung von Abmischungen, das Pre-Mastering, eingesetzt. Bei der letztgenannten Anwendung kommt zum Tragen, dass mit der Veränderung der ursprünglichen Stereobreite auch das Mischungsverhältnis verschoben wird, etwa zwischen mittig positionierten Monosignalen, z. B. Solisten, und gering korrelierenden außen positionierten Signalen, z. B. Nachhall. Änderungen der Stereobreiten von Abmischungen werden wegen dieser mitunter starken Beeinflussung der Klangbildbalance und des Raumeindrucks nur in geringem Umfang vorgenommen. Eine Stereoverbreiterung ist klangästhetisch dennoch oft erwünscht, allerdings zu tiefen Frequenzen hin immer weniger hörbar. Mit einem gegebenenfalls vorhandenen sog. elliptischen Equalizer kann die Stereobreite in diesem Frequenzbereich durch dosiertes Übersprechen verringert werden, wobei die Übergangsfrequenz einstellbar ist (Abb. 6/5). Damit kann der Korrelationsgrad und damit die Monokompatibilität des Stereosignals nach einer vorgenommenen Stereoverbreiterung weitgehend unhörbar wieder erhöht werden. Ebenfalls interessant ist beim Mastering die Möglichkeit der korrelationsabhängigen Audiobearbeitung von Stereosignalen durch das Einschleifen von Regelverstärkern und/oder Equalizern in den M- und S-Kanal. Stereo-Enhancer sind Stereobreitenregler mit adaptiver Parametersteuerung, die eine Verstärkung oder Homogenisierung des Stereoeindrucks bewirken sollen. Es gibt hierzu verschiedene Ansätze. Ein verbreitetes Funktionsprinzip ist die automatische Regelung des M/SVerhältnisses in Abhängigkeit von der Korrelation des Stereosignals und ggf. anderen Signaleigenschaften, typischerweise z. B. nur bei Signalspitzen des M-Signals. Auf diese Weise kann der Spielraum der Korrelation eingeschränkt bzw. die Abbildungsbreite homogenisiert werden, was bei Übertragung stark variierender Audioprogramme zu einem einheitlichen Klangeindruck beiträgt. Stereo-Prozessoren werden daher v. a. in Sendewegen eingesetzt, meist als Bestandteil von spezialisierten Sendewegsprozessoren. Eine automatische Stereo/Mono-Erkennung sorgt dabei für ein Zu- und Abschalten der Nachführung bzw. eine Aktivierung der jeweils geeigneten Einstellungen z. B. für Musik und Sprache.
328
Dynamik und Lautheit
6.2
Dynamik und Lautheit
Die Kontrolle der technischen Dynamik von Audiosignalen (zur musikalischen Dynamik siehe Kap. 2.3.1) kann manuell durch Fader oder automatisch durch Regelverstärker erfolgen. Regelverstärker ändern ihre Verstärkung in Abhängigkeit von dem Pegel eines Steuersignals, normalerweise des Eingangssignals. Sie können in Mikrofonwegen, Gruppenwegen, Summen, Sende- und Aufnahmeleitungen eingesetzt werden; sie sind fest zugeordnet oder werden im Bedarfsfall über Steckverbindungen oder als Plug-ins eingeschleift. Man unterscheidet die folgenden Arten von Regelverstärkern, je nach der Art der Beeinflussung des Nutzsignals, ergänzende Angaben finden sich in Kap. 18.5: - der Kompressor komprimiert seine Dynamik, - der Limiter oder Begrenzer begrenzt seinen Höchstpegel, - der Expander vergrößert seine Dynamik, - das Gate schaltet leise Abschnitte stumm.
6.2.1
Kompressor und Limiter
Kompressoren dienen der automatisierten Dynamikeinengung, es sind Regelverstärker, deren Verstärkung sich gegenläufig zum Pegel des Eingangssignals verändert, sobald dieser eine Schwelle überschreitet; steigende Pegel bewirken also eine geringere Verstärkung. Limiter oder Begrenzer sind Kompressoren, deren Parameter für die zuverlässige obere Begrenzung des Nutzsignalpegels optimiert sind. Vorrangige Ziele der automatischen Dynamikkompression sind die Erhöhung der Zuverlässigkeit der Aussteuerung, die Einengung der wahrgenommenen Programmdynamik, die Lautheitserhöhung, die Klangverdichtung oder die Beeinflussung des Verlaufs von Einschwingvorgängen – das sog. Hüllkurvendesign. Kompressoren und Expander können außerdem kombiniert vor und hinter Übertragungsstrecken oder -medien zur Rauschverminderung oder -unterdrückung eingesetzt werden (siehe Kap. 7.1.3); diese sog. Kompandersysteme finden v. a. in analogen Systemen Verwendung und haben mit zunehmender Digitalisierung der Audioübertragung an Bedeutung verloren. Kompressoren werden in vielen Übertragungsschritten verwendet: bei der Aufnahme einzelner Schallquellen, bei der Mischung oder Abmischung in einzelnen Kanälen oder an Summenausgängen, beim Pre-Mastering, beim Rundfunk in Aufnahme-, Misch- und Sendewegen, in der Beschallung und sogar in Hörgeräten. Mediale Audioinhalte sind demnach heute fast immer komprimiert, meistens mehrfach, ohne dass die seriellen Dynamikbearbeitungen aufeinander abgestimmt wurden. Im Sinne einer Wahrung der Klangqualität sollte dem Umgang mit Dynamikkompressoren insoweit besondere Beachtung geschenkt werden. In analoger Bauweise wird ein Kompressor durch einen spannungsgesteuerten Verstärker (VCA) realisiert, vor dessen Steuereingang ein Gleichrichter und eine Integrationsstufe geschaltet sind. Diesem Steuerzweig, der side chain, wird das Nutzsignal zugeführt – bei der Vorwärtsregelung das ungeregelte Signal, bei der Rückwärtsregelung das geregelte Signal. Für die Erzielung von Effekten kann der Steuerzweig über einen „key input“ auch mit einem Fremdsignal gespeist werden. Digital wird Dynamikkompression durch eine Multiplikation der Amplitudenwerte des Nutzsignals mit einem signalabhängig veränderlichen Faktor 329
Klanggestaltung erreicht. Im Modus „RMS“ reagiert der Kompressor auf den Effektivwert, im Modus „peak“ auf den Spitzenwert des Steuersignals. Die Regelvorgänge des Kompressors sind zum einen pegelabhängig, man spricht von statischem Verhalten, zum anderen zeitabhängig, man spricht von dynamischem Verhalten. 6.2.1.1
Statisches Verhalten
Auf dem statischen Verhalten des Kompressors beruhen im Wesentlichen die perzeptiv erwünschten Effekte einer verminderten Programmdynamik und erhöhten Lautheit. Diese Wirkungen werden allerdings auch durch das dynamische Verhalten beeinflusst.
Abb. 6/7. Kompressor, typische Kennlinienverläufe [6.1].
Das statische Verhalten eines Kompressors wird durch seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung meist als Pegel angibt. Sie hat Gültigkeit unter statischen Bedingungen, d. h. bei konstantem oder sich nur langsam änderndem Eingangspegel. Kompressorkennlinien sind nicht linear, sie setzen sich aus einem neutralen und einem abgeflachten Abschnitt zusammen (Abb. 6/7). Häufig ist ein geglätteter Übergang der Abschnitte wählbar (soft knee). Das statische Verhalten wird von drei wesentlichen Parametern bestimmt, die in der Regel auch einstellbar sind: - threshold, auch umgekehrt als input level oder input gain bezeichnet, - ratio, - output gain, auch output level, make up oder compression gain genannt. Im Arbeitsbereich des abgeflachten Kennlinienabschnitts, also oberhalb des Schwellwerts threshold bewirkt eine Pegelerhöhung am Eingang nur eine verminderte Pegelerhöhung am Ausgang. Das Kompressionsverhältnis ratio ergibt sich durch das Verhältnis dieser Pegeldifferenzen R = LE/LA bzw. R = tan α und wird als Verhältnis ausgedrückt, z. B. R = 5:1, was einer mittleren Kompression entspräche. Für die Arbeitsweise als Limiter- oder Begrenzer ist ein hohes Kompressionsverhältnis von 20:1 bis 4:1 erforderlich, in der Regel kombiniert mit einem hohen Schwellwert. 330
Dynamik und Lautheit Durch Absenken der Schwelle (Abb. 6/7, dicker diagonaler Pfeil) erhält man einen ungenutzten oberen Dynamikbereich, den sog. Kompressionshub. Durch Erhöhung des Parameters output gain kann man das komprimierte Signal wieder in den ungenutzten oberen Pegelbereich schieben (Abb. 6/7, dicker senkrechter Pfeil). Indem so auch die unter der Schwelle liegenden, leisen Signalabschnitte im Pegel angehoben werden (Abb. 6/7, durchgezogene Linie), nimmt die akustische Leistung und Lautheit des so bearbeiteten Audiosignals bei gleichem Maximalpegel zu. Die Wirkung einer solchen Dynamikbearbeitung auf ein Audiosignal zeigt Abb. 6/8.
Abb. 6/8. Lautheitserhöhung durch Kompression, Audiosignal unkomprimiert (oben) und stark komprimiert (unten). Mit dem mittleren Pegel bzw. der Leistung nimmt trotz gleich bleibenden Maximalpegels auch die Lautheit zu [6.1].
Man nennt einen Kompressor mit der beschriebenen Arbeitsweise Downward-Kompressor, diese Funktionsweise wird meist realisiert. Der Upward-Kompressor arbeitet dagegen umgekehrt: Die Dynamik-Reduktion erfolgt unterhalb des Schwellwertes. Hochpegelige Einschwingvorgänge werden so weniger beeinflusst und können anderweitig, z. B. mit einem Limiter, bearbeitet werden. 6.2.1.2
Dynamisches Verhalten
Die statische Kennlinie gilt bei schnellen Pegeländerungen erst nach einer bestimmten Übergangszeit, da der Kompressor auf die Änderungen reagieren muss. Diese Ausregelvorgänge nach Über- oder Unterschreiten des Schwellwerts bezeichnet man zusammenfassend als dynamisches Verhalten. Sie werden dargestellt, indem man die Spannung des Ausgangssignals über die Zeit für einen Zeitraum aufträgt, in dem das Eingangssignal den Schwellwert des Kompressors plötzlich um 10 dB überschreitet, also ein Ansprechvorgang ausgelöst wird, bzw. von diesem Niveau wieder auf den threshold-Pegel abfällt, also ein Abklingvorgang ausgelöst wird. Wie schnell der Kompressor auf die Pegeländerungen reagiert, kann mit den Zeitparametern attack für den Ansprechvorgang, d. h. für die Verstärkungsreduktion, und release, auch recovery oder decay, für den Abklingvorgang, d. h. die Verstärkungsrückstellung auf den Faktor 1, eingestellt werden. Da die Regelvorgänge exponentiell verlaufen und theoretisch unendlich lange andauern, sind die Zeitparameter als die Zeit definiert, die der Kompressor zum Ausregeln von 63 % (1 - 1/e) der Spannungsdifferenz zwischen Ist- und Sollpegel benötigt. 331
Klanggestaltung Abb. 6/9 zeigt einen Ansprechvorgang. Der Ist-Pegel steigt im dargestellten Fall plötzlich auf 10 dB über dem Schwellwert, der Soll-Pegel ergibt sich aus dem eingestellten Kompressionsverhältnis. Auf ihn wird die Ist-Spannung heruntergeregelt. Aus dem Spannungsverlauf lässt sich die Attackzeit ermitteln. Beim Abklingvorgang findet der umgekehrte Vorgang statt. Der 10 dB über der Schwelle liegende Eingangspegel fällt gemäß Definition wieder auf den Schwellwert zurück. Damit fällt der Ist-Pegel am Ausgang 10 dB unter den alten kompressionsabhängigen Sollwert, also auch weit unter den Schwellwert, der nun den neuen Sollwert darstellt. Ansprechzeiten liegen typischerweise zwischen 0,05 und 50 ms, Abklingzeiten zwischen 0,01 und 3 s. Für eine Limitereinstellung müssen eine geringe Ansprechzeit und eine mittlere oder geringe Abklingzeit gewählt werden. Reine Limiter ermöglichen ggf. noch kürzere Attackzeiten bis hinunter zu 20 :s. Zu beachten ist, dass das reale Ausregeln stets länger dauert als der eingestellte Wert, der sich auf das 63 %-Kriterium bezieht.
Abb. 6/9. Ansprechvorgang des Kompressors. Die Absenkung der Ausgangsspannung erfolgt mit exponentiellem Verlauf.
Abb. 6/10. Auswirkungen des Ansprechvorgangs auf ein hoch- und ein tieffrequentes Sinussignal [6.1].
Den Einfluss zweier unterschiedlich langer Ansprechzeiten auf ein hoch- und ein tieffrequentes Sinussignal veranschaulicht Abb. 6/10. Es zeigt sich, dass eine langsame Verstärkungsreduktion Transienten, also schnelle Einschwingvorgänge, nur unzureichend abfängt, eine schnelle hingegen tieffrequente Signalanteile deutlich erkennbar deformiert und dadurch den Klirrfaktor erhöht. Dieser Effekt wird durch den Modus soft knee abgemildert. Auch die 332
Dynamik und Lautheit Abklingzeit eines Kompressors ist nicht für alle Situationen optimal einstellbar. Ist sie kurz, sind Regelvorgänge häufig, bei einer langen release-Zeit reduzieren einzelne Kompression auslösende Signale für längere Zeit den Ausgangspegel. Auf Grund des beschriebenen Dilemmas ist das dynamische Verhalten des Kompressors auch Ursache für Wahrnehmungen, die überwiegend unerwünscht sind: Die wichtigsten sind Verzerrungen oder Knackstörungen auf Grund der Klirrfaktorerhöhung durch kurze Ansprechzeiten sowie nicht optimaler und hörbar veränderter Signalpegel, das sog. Pumpen, und zu geringe Lautheit auf Grund längerer Pegelreduktion durch lange Abklingzeiten. Klein gewählte Zeitparameter führen allgemein zu einer hörbaren Klangverdichtung. Sie kann klangästhetisch im Hinblick auf eine hohe Lautheit und bestimmte Soundvorstellungen beabsichtigt sein, verursacht jedoch mittelfristig auch eine Lästigkeit des Audioprogramms [6.6]. Dem Dilemma der Stör- und Nutzeffekte kann man durch den Einsatz zweier Kompressoren begegnen: Einen Kompressor mit ‚weicher’ Einstellung, also niedriger Schwelle und Ratio sowie großen Zeitkonstanten, für die Reduktion der wahrgenommenen Dynamik eines Einzelsignals und einen Kompressor mit ‚harter’ Einstellung, also hoher Schwelle und Ratio sowie kleinen Zeitkonstanten, für den technischen Übersteuerungsschutz an Gruppenund Summenausgängen. Effektiver im Hinblick auf die Unauffälligkeit von Regelvorgängen arbeiten Geräte mit programmabhängig veränderlichen Parametern (s. u.). 6.2.1.3
Erweiterte Anwendungen
Auf Grund der vielfältigen Einsatzgebiete des Kompressors gibt es zahlreiche Erweiterungen und Schaltungsvarianten, die für bestimmte Anwendungsfälle optimiert sind, erweiterte gestalterische Möglichkeiten bieten oder weniger störende Veränderungen des Klangbilds produzieren. Diese Varianten können auch kombiniert werden: Verkopplung von Kanälen: Soll eine identische Dynamikregelung mehrerer Kanäle gewährleistet sein, um z. B. BalanceSchwankungen bei zwei- oder mehrkanal-stereofonen Signalen, z. B. Summensignalen, zu vermeiden, werden die Steuereingänge der einzelnen Kompressoren über stereo link verbunden und deren Parameter zumeist auf dieselben Werte eingestellt. So lösen Regelvorgänge eines jeden Kanals entsprechende Regelvorgänge in allen Kanälen aus. Nutzsignalverzögerung: Durch eine Verzögerung des Eingangssignals – nicht jedoch des Steuersignals – in der Größenordnung der Ansprechzeit, erfolgt der Regelvorgang des Kompressors bereits vor dem Eintreffen der auslösenden Pegeländerung. Auf diese Weise werden Pegelspitzen bei Einschwingvorgängen wirksam abgefangen und störend hörbare Veränderungen des Signals verringert. Die Verzögerungsfunktion - predict oder look ahead - ist häufig in MasteringProzessoren vorgesehen sowie Hauptmerkmal von sog. Transienten-Limitern, die z. B. vor Übertragungsstrecken eingesetzt werden. Ansteuerung durch Fremdsignal: Wird der Steuereingang nicht von dem zu komprimierenden, sondern einem anderen Signal gespeist, so veranlasst das Steuersignal die Pegelreduktion des bearbeiteten Signals, was für gestalterische Klangeffekte genutzt werden kann. Als hörbarer Bestandteil einer Mischung dominiert es auch ohne höheren Pegel dynamisch das komprimierte Signal. Diese Wirkung wird als Ducking-Effekt bezeichnet. Typische Fremd-Steuersignale sind Rundfunksprecher, 333
Klanggestaltung die Musik oder Atmosphären, und Rhythmus-Tracks, die die restliche Musikmischung beeinflussen. Filter im Regelkreis: Besteht das Steuersignal aus dem gefilterten Nutzsignal, so ergibt sich eine frequenzabhängige Kompression. Häufig werden mittlere und hohe Frequenzbereiche angehoben oder ausgewählt, um Gesangs- oder Sprachsignale durch die dynamischsten oder störendsten Komponenten zu komprimieren. Sog. De-Esser sind speziell für die Unterdrückung von S- bzw. allgemein Zischlauten ausgelegte Kompressoren mit einem Bandpass im Regelkreis, dessen Eckfrequenz sich typischerweise in einem Bereich von 0,8 bis 8 kHz einstellen lässt. Sie sollten eine höhere Aussteuerbarkeit besonders auf analogen Magnetbändern zulassen. Der Regelvorgang selbst kann im Prinzip breitbandig oder für das gewählte Frequenzband selektiv erfolgen. Mehrband-Kompression: Mehr- oder Multiband-Kompressoren teilen das Audiosignal über eine Filterbank in üblicherweise 3 bis 5 Frequenzbereiche auf, die parallel von jeweils einem eigenen Kompressor bearbeitet und danach wieder zusammengeführt werden. Einzelne Frequenzkomponenten können auf diese Weise keine breitbandige Regelung mehr auslösen, für jeden EinzelbandKompressor können spezifische Parameter gewählt werden. Das Funktionsprinzip und die differenzierte Einstellbarkeit führen zu einer Verminderung der Veränderlichkeit des relativen Gewichts von Frequenzbereichen, auf der Wahrnehmungsebene mithin zu einer klangfarblichen Homogenisierung, und ermöglichen eine effektive Lautheitsmaximierung. Typischerweise werden Mehrband-Kompressoren daher beim Pre-Mastering eingesetzt sowie in Sendewegen, wo sie neben hoher Lautheit einen spezifischen, für den jeweiligen Sender typischen ‚Wellensound’ erzeugen sollen. Da die Übergangsfrequenzen der Frequenzbänder vielfach in der spektralen Ausdehnung von Klängen liegen, die als einheitliche Gestalten wahrgenommen werden, kommt es durch die frequenzselektiven Regelvorgänge zu hörbaren klangstrukturellen Veränderungen. Die beschriebenen Effekte lassen sich zusammenfassend als starke Klangverdichtung oder als ‚kommerziellen Sound’ bezeichnen. Ob mit solchen Audiobearbeitungen eine Erhöhung der Einschaltquote auf Grund der hohen Lautheit erreicht wird – so das Argumente für den Einsatz dieser Programmverdichter – oder eine Erhöhung der Ausschaltquote auf Grund der mittelfristig erhöhten subjektiven Lästigkeit überwiegt, ist nicht ausreichend geklärt. Ein Zusammenhang von Senderwahl und Senderprocessing ließ sich im Experiment jedenfalls nicht nachweisen [6.53}. Adaptive Parameter: Eine hohes Maß an klangfarblicher Treue bei gleichzeitig zuverlässiger Einhaltung von Aussteuerungsgrenzen erreichen Dynamikprozessoren, deren Parameter kontinuierlich den Signaleigenschaften angepasst werden. Die Kompressionsstufen solcher für den Einsatz in Sendewegen spezialisierter Geräte sind oft nicht wie beim Multiband-Kompressor parallel, sondern in einer sog. Multiloop-Architektur seriell angeordnet. Zur perzeptiven Unauffälligkeit der Signalbearbeitung tragen eine Nutzsignalverzögerung, die Einbeziehung verschiedener Signalmaße und die Berücksichtigung psychoakustischer Zusammenhänge bei.
334
Dynamik und Lautheit
6.2.2
Expander und Gate
Expander sind Regelverstärker, die der Dynamikvergrößerung dienen. Ihre Verstärkung verändert sich gleichsinnig mit dem Pegel des Eingangssignals, sobald dieser eine Schwelle unterschreitet. Ein Gate (Tor) ist eine Extremeinstellung des Expanders, die ein Stummschalten leiser Signalabschnitte bewirkt. Expander bzw. Gates werden überwiegend mit dem Ziel der Störgeräuschverminderung in Sprech- und Spielpausen eingesetzt, zur Verminderung von Übersprechen in der Mischung, z. B. bei Diskussionsrunden oder Schlagzeugaufnahmen, sowie zur kreativen Klanggestaltung in der Popularmusikproduktion. Außerdem sind sie Teil von Kompandersystemen. Dementsprechend kommen sie beim Pre-Mastering, in Aufnahme- und Sendewegen, in der Abmischung und in der Beschallung zum Einsatz. Technisch entspricht ein Expander einem Kompressor mit umgekehrter Funktionsweise. Allerdings entfällt die Möglichkeit der Rückwärtsregelung, und die Bezeichnung side chain für den Steuereingang ist ungebräuchlich, man spricht hier von key input. Auch beim Expander muss zwischen statischem und dynamischem Verhalten unterschieden werden. 6.2.2.1
Statisches Verhalten
Abb. 6/11. Expander, typische Kennlinienverläufe [6.1].
Das statische Verhalten eines Expanders wird durch seine Kennlinie dargestellt, die den Zusammenhang von Ausgangs- und Eingangsspannung meist als Pegel angibt. Sie hat Gültigkeit unter statischen Bedingungen, d. h. bei konstantem oder sich nur langsam änderndem Eingangspegel. Expanderkennlinien setzen sich in der Regel aus einem steilen Abschnitt und 335
Klanggestaltung zwei neutralen Abschnitten zusammen (Abb. 6/11). Besteht die Kennlinie nur aus zwei Abschnitten, unterscheidet man zwischen einem Downward-Expander – der steile Abschnitt ist unten – und einem weniger gebräuchlichen Upward-Expander – der steile Abschnitt ist oben. Das statische Verhalten wird von drei wesentlichen Parametern bestimmt: threshold, auch umgekehrt als input level oder input gain bezeichnet, range und ratio, nicht immer einstellbar. Im Arbeitsbereich des steilen Kennlinienteils, also unterhalb des Schwellwerts threshold bewirkt eine Pegelerhöhung am Eingang nicht dieselbe, sondern eine größere Pegelerhöhung am Ausgang. Die ratio ergibt sich wie beim Kompressor durch R = LE/LA bzw. R = tan α und kann vorgegeben sein. Der Parameter range gibt in dB an, wie stark in dem unteren Kennlinienbereich liegende Signale abgesenkt werden. Im Normalfall 0 < R < 1 bestimmt range zugleich den unteren Einsatzpunkt des steilen Kennlinienteils, wie in Abb. 6/11 zu erkennen. Sofern die Dynamikbereiche von Störsignal, z. B. Übersprech- oder Hintergrundgeräusch, und Nutzsignal nicht überlappen, kann deren Pegeldifferenz gezielt vergrößert werden. Bei der Funktion als Noise Gate ist R = 0 und range unendlich, so dass kein Signal unterhalb der Schwellwerts, also z. B. Rauschen, übertragen wird. 6.2.2.2
Dynamisches Verhalten
Analog zum Kompressor (siehe Kap..6.1.1) reagiert auch der Expander auf eine Schwellwertüber- bzw. -unterschreitung mit Ausregelvorgängen, deren Dauern mit Zeitparametern eingestellt werden können. Sie sind attack für den Ansprech- und release, auch recovery oder decay, für den Abklingvorgang. Oft ermöglicht außerdem ein hold-Regler die Einstellung einer Verzögerung des Abklingvorgangs. Damit kann eine Dämpfung von Ausklingvorgängen des Nutzsignals verhindert werden, die bereits unter der Schwelle liegen. Übliche Einstellbereiche sind 0,01 bis 20 ms für attack, 0,05 bis 10 s für release und 0 bis 10 s für hold. Auch die Regelvorgänge des Expanders verlaufen exponentiell und sind länger, als die Einstellung angibt. In der Praxis werden Expander für das Ausregeln eines im Vergleich zum Kompressor sehr großen Dynamikbereichs eingesetzt. Dabei liegen die Regelvorgänge bei der Störgeräuschverminderung in Sprech- oder Spielpausen idealerweise vor dem Einschwingen bzw. nach dem Ausklingen des Nutzsignals, also in unmittelbarer Nähe zu den perzeptiv bedeutsamen sog. On- und Offset-cues. Die Herausforderung beim Einstellen von Expandern besteht darin, eine Beschädigung dieser cues durch die schnellen und umfänglichen Regelvorgänge zu vermeiden, die sich in wahrnehmbaren Pegelsprüngen, An- und Abschnitten oder Knackstörungen äußern können. Gelingt dies, können je nach Anwendung Störgeräusche oder Übersprechen in Nutzsignalpausen vermindert und damit die Wahrnehmung der Klangquelle vor ihrem akustischen Hintergrund verdeutlicht werden (sog. Figur-Grund-Differenzierung) bzw. die Transparenz des Klangbilds erhöht werden. 6.2.2.3
Erweiterte Anwendungen
Die Möglichkeiten eines erweiterten Einsatzes von Expandern sind prinzipiell dieselben wie bei Kompressoren (siehe hierzu Kap. 6.2.1), jedoch nicht alle gleichermaßen effektiv, üblich oder sinnvoll. Wichtig ist die Verkopplung der Steuereingänge bei der Bearbeitung stereofoner 336
Dynamik und Lautheit Signale. Auch die Nutzsignalverzögerung ist bei Studioproduktionen praktikabel und von Vorteil. Da sich diese jedoch verbietet, wenn Synchronität gewährleistet sein muss, z. B. in Live-Situationen, werden – falls vorhanden – vorauseilende Signale zum Steuern des Expanders eingesetzt, etwa Kontaktmikrofone bei Schlaginstrumenten. Ein zeitlich begrenztes Freischalten bzw. ‚Zerhacken’ von Klängen, der ‚Gater-Effekt’, entsteht durch Ansteuerung eines Gates durch ein typischerweise impulshaftes Fremdsignal. In aufwändigen Dynamikprozessoren kommt mit dem Ziel perzeptiver Unauffälligkeit der Regelvorgänge eine signalabhängige Steuerung der Parameter zum Einsatz.
6.2.3
Kombinierte Regelverstärker
Für die Praxis ist es hilfreich, neben Regelverstärkern mit nur einer Funktion Geräte mit mehreren Funktionen zur Verfügung zu haben. Das Anheben von Störgeräuschen in Nutzsignalpausen bei Kompression des Tonsignals z. B. kann durch eine Kombination von Kompressor und Expander in einem Gerät vermieden werden; wird diesen Funktionen noch eine Begrenzerfunktion hinzugefügt, so steht ein universeller Regelverstärker zur Verfügung. Abb. 6/12 zeigt eine typische Kennlinie eines solchen Regelverstärkers. In dem dargestellten Beispiel besteht eine Kompressionswirkung zwischen -20 und +13 dB Eingangspegel, darüber wird das Signal begrenzt. Zwischen -40 und -50 dB wirkt der Expander. Zwischen –40 und –20 dB wird der dadurch nutzbare Hub von 15 dB ausgeschöpft. Für Pegel unter –50 dB bleibt das Eingangssignal unverändert. Danach ergeben sich drei Schwellwerte und drei RatioEinstellungen. Kombinierte Regelverstärker erlauben eine weitgehend zuverlässige automatische Dynamikkontrolle und werden z. B. in fest installierten Beschallungsanlagen und anderen Übertragungssystemen eingesetzt. Moderne Dynamikprozessoren, die z. B. für die Verwendung in Sendewegen optimiert sind, beinhalten ebenfalls kombinierte Regelverstärker, ggf. in Multiband- oder Multiloop-Architektur (siehe Kap. 6.2.1).
Abb. 6/12. Kombinierter Regelverstärker, typischer Kennlinienverlauf.
Die Sicherstellung einer bestimmten Nutzsignaldynamik erfolgt sowohl aus klangästhetischen, als auch aus wahrnehmungspsychologischen Gründen, d. h. im Hinblick auf einen gewissen ‚Hörkomfort‘ oder auf eine Gewährleistung der Programm-, besonders Sprachverständlichkeit. 337
Klanggestaltung So tolerieren Hörer im Kino mit 38 dB einen weitaus größeren Dynamikbereich als im Wohnzimmer mit 20 dB oder gar beim Autofahren mit 8 dB [6.7].
6.3
Klangfarbe
Klangfarbe ist ein komplexes Wahrnehmungsmerkmal, das auch mit der Lautheits- und der Tonhöhenwahrnehmung zusammenhängt. Zu Theorien der Klangfarbe vgl. [6.8]. Je nach Schallquellen, Hörversuchsmethoden und Definition von Klangfarben lassen sich verschiedene Dimensionen feststellen, beispielsweise Helligkeit, Abgeschlossenheit als resonanzartige Färbung und Rauheit, die sich unabhängig voneinander verändern und gemeinsam verschiedene Klangfarbeneindrücke erklären können. So lässt sich etwa das Merkmal Schärfe durch eine Kombination von Abgeschlossenheit und Helligkeit beschreiben. Komplexe Klangfarbeneindrücke lassen sich nur zum Teil aus einfachen physikalischen Signalmaßen bestimmen [6.9]. Die wichtigste Bestimmungsgröße ist das Frequenzspektrum des Audiosignals. Seine Veränderung erfolgt im elektrischen Signalweg durch Filter. Der Begriff Filter wurde im Zuge der Digitalisierung zwar auf viele andere Bearbeitungsvorgänge ausgeweitet, beschreibt aber in der Audiotechnik traditionell Geräte bzw. Komponenten, die den Frequenzgang gezielt beeinflussen. Man kann hierbei unterscheiden zwischen klassischen Filtern mit einfacher Bau- und Funktionsweise und hauptsächlich übertragungsqualitativen Anwendungsbereichen und Equalizern oder Entzerrern mit komplexerem Design und vorwiegend klanggestalterischen Einsatzzielen. Die Klangfarbe eines Audiosignals kann aber nicht nur durch die Gewichtung seiner Frequenzkomponenten mit dem Frequenzgang eines Filters verändert werden, also durch lineare Verzerrungen, sondern auch durch die Erzeugung neuer Frequenzkomponenten. Audiobearbeitungsmittel, die gezielt solche nichtlinearen Verzerrungen erzeugen, sind unter den allgemeinen Begriffen Verzerrer und Enhancer bekannt (siehe hierzu auch Kap. 10.2). Audiobearbeitungsmittel zur Klangfarbenveränderung stehen in unterschiedlichen Ausführungen zur Verfügung: in Mischpulten, in digitalen Audioworkstations ggf. als Plug-ins oder als unabhängige Geräte.
6.3.1
Klassische Filter
Als Filter wurden in der Audioübertragungstechnik ursprünglich Schaltungen bezeichnet, deren Betrags-Frequenzgang über oder unter einer bestimmten Grenzfrequenz fG stetig frequenzabhängig absinkt. Die Stärke dieser frequenzabhängigen Dämpfung, die sog. Flankensteilheit, wird in dB pro Frequenzverdopplung, d. h. pro Oktave, oder pro Frequenzverzehnfachung, d. h. pro Dekade angegeben und steigt mit der Ordnung des Filters. Die Ordnungszahl n ergibt sich aus dem Schaltungsaufbau bzw. aus der Anzahl der Energiespeicher, meist Kondensatoren. Für ein Filter n-ter Ordnung ergibt sich die Flankensteilheit durch nA6 dB/Oktave bzw. nA20 dB/Dekade. Bei klassischen Filtern ist in der Regel nur die Grenzfrequenz als Parameter einstellbar. Sie ist die Frequenz, bei der die Dämpfung 3 dB beträgt. Die feste Flankensteilheit und die Justierbarkeit nur der Grenzfrequenz sind Merkmale der klassischen Filter und grenzen sie von aufwändigeren und von mit differenzierteren Parametern arbeitenden Filtern ab, die meist als Equalizer oder Entzerrer bezeichnet werden. 338
Klangfarbe Klassische Filter sind heute zumeist entweder analog als aktive RC-Schaltungen mit Operationsverstärkern aufgebaut oder digital realisiert, z. B. durch Allpass-Filter, deren Ausgangssignale als Mitkopplung den Originalsignalen überlagert werden. Digital sind heute Filter mit wesentlich steileren Flanken oder komplexeren Eigenschaften realisierbar als in der analogen Technik. Gleichwohl bemüht man sich aus klanglichen Gründen und im Hinblick auf gewohnheitsmäßige Handhabbarkeit um die Nachbildung des Verhaltens analoger Filter. Zur digitalen Realisation von Audiofiltern vgl. [6.10] 6.3.1.1
Hochpass
Der Hochpass oder das Hochpassfilter, engl. high-pass, senkt Signalanteile mit Frequenzen unterhalb der einstellbaren Grenzfrequenz fG mit der schaltungstechnisch vorgegebenen oder seltener schaltbaren Flankensteilheit ab und lässt in der Frequenz darüber liegende Signalanteile passieren. Abb. 6/13 zeigt die Betragsfrequenzgänge von Hochpassfiltern erster und zweiter Ordnung. Die Grundschaltung eines analogen passiven Hochpassfilters erster Ordnung mit einem RC-Glied zeigt Abb. 6/14. Die Grenzfrequenz ergibt sich aus fG = 1/2BARC, gültig für hohen Lastwiderstand RL. Filter höherer Ordnung basieren in der Regel auf aktiven Schaltungen unterschiedlichen Aufbaus.
Abb. 6/13. Betragsfrequenzgang von Hochpassfiltern.
Abb. 6/14. Passives Hochpassfilter 1. Ordnung als RC-Glied.
Hochpassfilter sind u. a. in Mikrofonverstärkern integriert (siehe Kap. 8.5) und Bestandteil von Equalizern in den Kanalzügen von Mischpulten; sie sind auch als Plug-ins bzw. Teil einer digitalen Audioworkstation (DAW oder AWS) verfügbar. Sie werden v. a. mit dem Ziel der Verbesserung der Übertragungsqualität im Sinne einer Absenkung tieffrequenten Störschalls 339
Klanggestaltung eingesetzt, dazu gehören Trittschall, Geräusche bei Kamerafahrten, Klimaanlagen, Verkehrslärm, Popp-Störungen, wofür man v. a. steilflankige Filter verwendet. Hochpassfilter können aber auch gestalterisch für die klangfarbliche Veränderung des Nutzsignals eingesetzt werden, z. B. für eine Bassabsenkung, sowie zu Verfremdungseffekten beitragen. 6.3.1.2
Tiefpass
Das Tiefpassfilter, engl. low-pass, dämpft Frequenzen oberhalb der einstellbaren Grenzfrequenz fG gemäß der gegebenen oder schaltbaren Flankensteilheit. Abb. 6/15 zeigt die Betragsfrequenzgänge von Tiefpassfiltern erster und zweiter Ordnung. Die Grundschaltung eines passiven analogen Tiefpassfilters mit einem RC-Glied zeigt Abb. 6/16. Die Grenzfrequenz ergibt sich wie beim Hochpass als fG = 1/2BARC , gültig für hohen Lastwiderstand RL. Tiefpässe finden sich meist als Ergänzung zu Equalizern, z. B. in Kanalzügen von Mischpulten, in DAWs bzw. Plug-ins oder eigenständigen Geräten.
Abb. 6/15. Betragsfrequenzgang von Tiefpassfiltern.
Abb. 6/16. Passives Tiefpassfilter 1. Ordnung als RC-Glied.
Tiefpassfilter können zur Verbesserung der Übertragungsqualität eingesetzt werden, wenn im oberen Frequenzbereich kein Nutzsignal, jedoch Störsignale vorhanden sind, z. B. Rauschen oder die Geräusche von Klimaanlagen. Außerdem werden sie gestalterisch zur Verminderung der Helligkeit des Nutzsignals verwendet, als Beitrag zur Erhöhung der wahrgenommenen Entfernung der Schallquelle oder deren Reflexionen, oder um Übertragungen mit beschränkter Bandbreite nachzubilden, z. B. historische Übertragungssysteme. 340
Klangfarbe 6.3.1.3
Bandpass
Ein Bandpass ergibt sich im Prinzip durch die Kombination eines Hochpass- und eines Tiefpassfilters mit höherer Grenzfrequenz, wobei spezielle Schaltungsdesigns möglich sind. Eine einfache, passive analoge Schaltung ist die sog. Wien-Brücke (Abb. 6/17). Die Mittenfrequenz fM des Bandpasses ist das geometrische Mittel der unteren Grenzfrequenz fu und der oberen Grenzfrequenz fo: f M = f u ⋅ f o , die Bandbreite B ist die Differenzfrequenz: B = fu - fo. Die relative Filterbreite F ergibt sich durch den Quotienten F = fo/fu. Ist z. B. F = 2, handelt es sich um ein Oktavfilter. Die Güte des Filters, engl. quality, ist Q = fM/B. Breitbandige Bandpässe werden zur Beschränkung der Nutzsignalbandbreite auf einen definierten Übertragungsbereich, z. B. 40 Hz bis 15 kHz beim terrestrischen analogen UKWRundfunk oder zur Störsignaldämpfung außerhalb des Frequenzspektrums des Nutzsignals verwendet, schmalbandige Bandpassfilter v. a. gestalterisch zur Nachbildung von Übertragungswegen mit geringer Bandbreite, z. B. historischen Aufnahmen, oder zur Schaffung der Klangfarbe einer Telefonstimme.
Abb. 6/17. Wien-Brücke.
6.3.1.4
Bandsperre
Eine Bandsperre ergibt sich im Prinzip durch die Kombination eines Hochpass- und eines Tiefpassfilters kleinerer Grenzfrequenz, wobei spezielle Schaltungsdesigns möglich sind. Eine einfache, passive analoge Schaltung ist das Doppel-T-Filter (Abb. 6/18). Mittenfrequenz sowie absolute und relative Bandbreite werden wie für den Bandpass bestimmt.
Abb. 6/18. Doppel-T-Filter.
Bandsperren stehen v. a. als Stand-alone-Geräte und Plug-ins zur Verfügung und werden hauptsächlich bei der Restaurierung historischer oder technisch fehlerhafter Aufnahmen eingesetzt, nämlich für die Reduktion schmalbandiger Störsignale im Nutzsignalspektrum. Extrem schmalbandige Bandsperren werden als Notch-Filter bezeichnet, nach engl. notch für Nut. Sie dienen der Reduktion oder Eliminierung einzelner konstanter Störfrequenzen oder Raumresonanzen. Spezielle Brummfilter bestehen aus einer Filterbank von einzeln zuschaltbaren Notch-Filtern; sowohl die Grundfrequenz von z. B. 50 Hz bei Netzeinstreuungen, engl. hum, als auch deren 2., 3., 4. …Teilton mit 100, 150, 200 … Hz können auf diese Weise wirksam bedämpft werden, ohne dass die Klangfarbe des Nutzsignals mehr als nötig verändert wird. Zur Anpassung der Filterung an das Störsignal trägt auch die getrennte Regelbarkeit für 341
Klanggestaltung die gerad- und ungeradzahligen Teiltöne bei. Moderne digitale Restaurationstools, De-Hum, De-Buzz, ermöglichen eine Bearbeitung, die sich auf eine fortlaufende Signalanalyse stützt, um einzelne Teiltöne im Hinblick auf Dämpfung und mögliche Frequenzabweichungen zu regeln. 6.3.1.5
Spezialfilter
Rückkopplungsfilter Bei Darbietungen mit gleichzeitiger Beschallung in demselben Raum kann unter ungünstigen Bedingungen das Problem einer akustischen Rückkopplung vom Lautsprecher auf das Mikrofon oder einen Tonabnehmer auftreten, das als Pfeifen oder Brummen hörbar ist (siehe Kap. 9). Die entsprechende Frequenz kann mit einem Notch-Filter bedämpft werden. Das Problem besteht in der Bestimmung der nicht hinreichend genau vorhersagbaren Frequenz. Moderne Rückkopplungsfilter, sog. feedback suppressors, arbeiten daher signalanalysebasiert und ermöglichen außerdem die Verfolgung und Dämpfung einer oder mehrerer Rückkopplungsfrequenzen. Dynamisches Rauschfilter Sind im oberen Frequenzbereich Störsignal-, jedoch nicht andauernd Nutzsignalkomponenten enthalten, wie bei verrauschten Aufzeichnungen, kann ein dynamisches Rauschfilter oder Denoiser eingesetzt werden, um spektral freistehende und damit nicht verdeckte Störsignalanteile zu dämpfen. Dazu analysiert das Filter fortlaufend den Frequenzumfang des Nutzsignals und begrenzt automatisch bei der jeweils höchsten Nutzfrequenz den Durchlassbereich eines Tiefpassfilters. Der Pegel, der noch als zum Nutzsignal gehörig gewertet werden soll, ist einstellbar, ebenso die Rücklaufzeit der Grenzfrequenz. Die Wirksamkeit der Rauschsperre reicht bis 1 kHz herab; eine Wirksamkeit zu noch tieferen Frequenzen hin würde die Klangfarbe des Hintergrundrauschens zu stark verändern. Unterhalb 1 kHz kann oft ein Expander störende Geräuschanteile reduzieren.
Abb. 6/19. Blockschaltbild eines dynamischen Rauschfilters.
Abb. 6/19 zeigt das Blockschaltbild eines dynamischen Rauschfilters. Auf den Eingangsverstärker folgt ein Expander mit Vorwärts-Regelung der Frequenzanteile unter 1kHz. Daran schließt sich eine Parallelschaltung eines Tief-, Band- und Hochpasses mit gemeinsamer, rasch variabler Grenz- bzw. Mittenfrequenz an. Vom Tiefpassfilter führt das Signal an den Ausgangsverstärker. Die Ausgänge des Hoch- und Bandpassfilters hingegen werden einem Komparator zugeführt, der ihre Signale durch Verschieben der gemeinsamen Grenz- und Mittenfrequenz auf gleichen Energieinhalt regelt. Ist der Energieinhalt des Signals am Ausgang 342
Klangfarbe des Hochpasses größer als derjenige am Ausgang des Bandpasses, so wird die gemeinsame Grenzfrequenz der Filter nach oben verschoben; der Tiefpass erweitert seinen Durchlassbereich entsprechend. Die analoge dynamische Rauschfilterung ist selten zufriedenstellend. Der Zielsetzung perzeptiver Unauffälligkeit des Störsignals läuft zuwider, dass das Gehör zum einen sehr empfindlich für Klangfarbenunterschiede ist und zum anderen Reizänderungen generell eine gerichtete Aufmerksamkeit hervorrufen. Häufig wird das zu vermindernde Rauschen durch die ihm aufgeprägte klangfarbliche Dynamik eher noch auffälliger und störender als ohne Bearbeitung. Weit bessere Möglichkeiten als die analoge Filtertechnik bieten spezielle digitale Restaurationstools als Plug-ins oder eigenständige Software-Anwendungen. Solche Systeme analysieren Art und Spektrum des Rauschsignals aus dem Stör-Nutzsignal-Gemisch oder effektiver aus dem freistehenden Störsignal als fingerprint und rechnen es dann aus der Aufnahme heraus. Eine zu stark eingestellte Rauschdämpfung führt allerdings zu irreversiblen Artefakten in Form von Veränderungen der Klangstruktur und Klingeln, ‚musical noise’ [6.11]. Hier muss abgewogen werden, inwieweit im konkreten Fall perzeptive Unauffälligkeit, ein konservativer Umgang mit der Audioaufzeichnung und medienästhetische Authentizität eine Rolle spielen. Unter Umständen ist eine Beibehaltung von ursprünglichem Rauschen eine sinnvolle Lösung. [6.12]
6.3.2
Equalizer
Equalizer oder Entzerrer sind Filter, die eine Anhebung oder Absenkung des Pegels innerhalb definierter Frequenzbereiche ermöglichen. Sie weisen also keine feste Flankensteilheit auf, vielmehr kann für jedes Frequenzband ein Zielverstärkungspegel L eingestellt werden. Dies ermöglicht eine differenziertere Gestaltung der Klangfarbe von Audiosignalen als mit klassischen Filtern. Equalizer sind heute entweder analog als aktive RC-Netzwerke mit Operationsverstärkern aufgebaut oder digital realisiert, z. B. durch Allpass-Filter, deren Ausgangssignale den Originalsignalen abgeschwächt zugemischt werden. Man unterscheidet zum einen in Anlehnung an die Form des Betragsfrequenzgangs für L … 0 dB zwischen Filtern mit Glockencharakteristik (bell- oder peak-Filter) und Kuhschwanz- bzw. Schelfcharakteristik (shelf, shelving). Zum anderen lässt sich bezüglich der Einstellmöglichkeiten zwischen grafischen, halbparametrischen – auch semi- oder teilparametrischen – und vollparametrischen Filtern differenzieren. 6.3.2.1
Glockenfilter
Filter mit Glockencharakteristik, auch peak-Filter, bell-Filter, Präsenzfilter, Absenzfilter, ermöglichen für ein Frequenzband mit unterer und oberer Grenzfrequenz fu und fo im Übertragungsbereich die Einstellung eines Verstärkungspegels L. Der Betragsfrequenzgang in diesem Frequenzbereich hat für L > 0 dB die Form einer Glocke. Die Verstärkung bzw. Dämpfung des zu regelnden Frequenzbereichs, passband genannt, geht beidseitig über ein transition band stetig in den nicht zu regelnden Bereich, stopband genannt, über (Abb. 6/20). Ein spezifisches Glockenfilter kann außer durch den Verstärkungspegel L wie ein Bandpass oder eine Bandsperre durch 343
Klanggestaltung die Mittenfrequenz
fM =
f u ⋅ fo
,
die Bandbreite B = fo ! fu, die Güte Q = fM/B und die relative Filterbreite F = fo/fu beschrieben werden. Die Definition der Grenzfrequenzen bzw. der Bandbreite nach dem 3dB-Kriterium wie bei klassischen Filtern (siehe Kap. 6.3.1) ist für Glockenfilter nicht eindeutig, etwa bei Verstärkungspegeln unter 3 dB. Alternativ können als Grenzfrequenzen entweder die Wendepunkte des Frequenzgangs definiert werden, oder es wird die sog. äquivalente Bandbreite zwischen den Eckfrequenzen eines idealen rechteckförmigen Filterfrequenzgangs gleicher Mittenfrequenz und gleichen Flächeninhalts angegeben.
Abb. 6/20. Betragsfrequenzgänge von Equalizern: Peak-Filter mit verschiedenen Verstärkungspegeln (4, 8, 12 und 16 dB, oben links), Mittenfrequenzen (200, 400, 800 und 1600 Hz, oben rechts) und Güten (0,5, 1, 2 und 4, unten links) sowie Low-Shelf- und High-Shelf-Filter mit verschiedenen Verstärkungspegeln (5, 10 und 15 dB, unten rechts). Dargestellt sind jeweils Verstärkung und Dämpfung.
Grafische Equalizer Grafische Equalizer bestehen in der Regel aus Bänken von meist 6 bis 30 parallel geschalteten Glockenfiltern mit festen, im gleichen Frequenzverhältnis benachbarten Mittenfrequenzen und festen, meist gleichen relativen Filterbreiten, z. B. Oktaven entsprechend 2:1 oder Terzen entsprechend 3 2 : 1 . 5:4. Für jedes Filter ist also nur der Verstärkungspegel einstellbar, meist über einen Schieberegler mit ± 12 oder ± 15 dB Regelbereich. Der Betragsfrequenzgang für auf Maximalstellung gesetzte Regler ähnelt der Darstellung in Abb. 6/20, oben rechts. Die benachbarte Anordnung der Schieberegler am Gerät bietet ein ungefähres anschauliches Bild des über den gesamten Übertragungsbereich eingestellten Betragsfrequenzgangs. Die beiden Außenbänder können auch Schelf-Filter sein (s. u.). 344
Klangfarbe Die meisten grafischen Filter sind mit Mittenfrequenzen nach ISO R.266 entsprechend DIN 45 651 und 45 652, jeweils Reihe b, aufgebaut. Terzfilter nach ISO enthalten meist 27 Einzelfilter für den Frequenzbereich von 35,5 Hz bis 18 kHz entsprechend Mittenfrequenzen von 40 Hz bis 16 kHz, Oktavfilter haben meist 10 Einzelfilter für den Frequenzbereich von 22,4 Hz bis 22,4 kHz entsprechend Mittenfrequenzen von 31,5 Hz bis 16 kHz. An den Außengrenzen des bearbeitbaren Frequenzbereichs können zusätzlich Hoch- und Tiefpässe vorhanden sein. Grafische Equalizer werden als Plug-ins oder Stand-alone-Geräte in Mono- oder Stereoausführung benutzt. Nicht alle Geräte erfüllen hohe Anforderungen an Phasengang und Störabstand. Bevorzugter Einsatzbereich ist die Korrektur des Frequenzgangs von Beschallungsanlagen in Verbindung mit dem nicht ohne weiteres veränderbaren Übertragungssystem Raum. Daneben wird der grafische Entzerrer in der Popularmusik sowie der Film- und Hörspielproduktion für die Gestaltung der Klangfarbe eingesetzt. Parametrische Equalizer Parametrische Equalizer bestehen aus einer Gruppe von meist 3 bis 5 Filtern, die eine Einstellung mehrerer Parameter erlauben. Sog. halb-, semi- oder teilparametrische Equalizerbänder lassen die Einstellung nicht nur des Verstärkungspegels (Abb. 6/20, oben links), sondern auch der Mittenfrequenz zu (oben rechts), vollparametrische Equalizer ermöglichen zusätzlich die Veränderung der Güte (unten links) sowie ggf. eine Umschaltung auf Schelf-Charakteristik (s. u.). Mit parametrischen Equalizern lassen sich das Frequenzspektrum und damit der Klangfarbeneindruck effektiv und zugleich differenziert beeinflussen. 6.3.2.2
Schelf-Filter
Schelf-Filter, auch Kuhschwanz-Filter, engl. shelf- oder shelving-Filter, ermöglichen für ein Frequenzband zwischen einer Grenzfrequenz fg und der oberen oder unteren Grenze des Übertragungsbereichs, dementsprechend high-shelf- oder low-shelf-Filter, die Einstellung eines Verstärkungspegels L. Der Betragsfrequenzgang in diesem Band hat für L … 0 dB nicht die Form einer Geraden, sondern die Form eines Kontinentalschelfs oder eines Kuhschwanzes (Abb. 6/20, unten rechts), da sich der zu regelnde Frequenzbereich bis zum Ende des Übertragungsbereichs erstreckt. Ein spezifisches Schelf-Filter kann durch den Verstärkungspegel L, durch die Grenzfrequenz fg und die Steilheit beschrieben werden, die Steilheit analoger Geräte ist allerdings selten einstellbar. Neuerdings ermöglichen digitale sog. continuousslope-Filter eine kontinuierliche Veränderung der Flankensteilheit von Schelf-Filtern und Pässen [6.13]. Grafische Equalizer V. a. in Hifi-Verstärkern sind Equalizer anzutreffen, die aus zwei Schelf-Filtern mit festen Grenzfrequenzen um typischerweise 100 Hz bzw. 10 kHz bestehen und als bass bzw. treble bezeichnet werden. Ihre Verstärkungspegel sind üblicherweise mit Drehstellern in einem Bereich von ± 9, ± 12 oder ± 15 dB regelbar. Grafische Equalizer mit Schelf-Filtern sind als Komponente zur ergänzenden Klangeinstellung auch in viele Audiobearbeitungsgeräte integriert, z. B. in Mikrofonvorverstärker, Channel-Strips, semiprofessionelle Mischpulte, Effektgeräte oder Mastering-Prozessoren.
345
Klanggestaltung Parametrische Equalizer Schelf-Filter mit einstellbarer Grenzfrequenz und bisweilen auch Flankensteilheit kommen meist als Außenbänder von Equalizern in Kanalzügen von Mischpulten vor. Häufig können sie auf Glockencharakteristik umgeschaltet werden. Niveau-Filter Niveau-Filter dienen der Ausbalancierung zweier Hälften des Frequenzspektrums eines Signals durch die gleichzeitige gegensinnige Veränderung der Verstärkungspegel eines höhenund eines tiefenwirksamen Shelf-Filters um einen Rotationspunkt. Neben diesem als Balance bezeichneten Parameter ist die Höhe des Verstärkungspegels einstellbar mit level, boost/cut. Niveau-Filter werden meist zur klanglichen Nachbearbeitung (Premastering) eingesetzt.
6.3.3
Verzerrer
Der Begriff Verzerrer wird in engerem Sinne für Audiobearbeitungsgeräte verwendet, die in deutlich hörbarem Umfang nichtlineare Verzerrungen erzeugen. Sie werden verursacht durch den Betrieb von Röhren oder Halbleitern im nichtlinearen Kennlinienbereich. Mit höherem Übersteuerungspegel, einstellbar mit einem Steller gain, boost oder drive, wird der Schwingungsverlauf zunehmend verformt, sozusagen ‚platt gedrückt’ oder sogar hart abgeschnitten, sog. clipping. Dadurch wird zum einen der Pegel begrenzt, so dass das bearbeitete Signal bei Kompensation der Aussteuerung eine höhere Lautheit aufweist, zum anderen enthält es zusätzliche Obertöne. Da in der Regel bereits das Eingangssignal ein aus mehreren Teiltönen bestehender, musikalischer Ton ist, wird der bearbeitete Klang auf Grund der entstehenden Summen- und Differenzfrequenzen als geräuschhaft und rau empfunden. Sowohl die Härte des Einsatzes der Verzerrung als auch die Ausprägung gerad- und ungeradzahliger Obertöne hängen von der verwendeten Kennlinienform ab (siehe hierzu auch Kap. 10.2.2). Sie bestimmt die Klangfarbe des Effekts, die oft noch mit einfachen Filtern verändert werden kann. In Anlehnung an das Erzeugungsprinzip oder den klanglichen Charakter der Verzerrung haben sich zum Teil anschauliche Bezeichnungen wie Over Drive, Crunch, Distortion oder Fuzz etabliert. Der Effekt wirkt wegen der erhöhten Obertonhaltigkeit und akustischen Leistung klangfarblich auffällig und durchsetzungsstark. Er wird vorwiegend zur Bearbeitung von EGitarren-Signalen eingesetzt und ist daher häufig als Stand-alone-Effektgerät anzutreffen (siehe Kap. 2.3.2). Verzerrer-Effekte können auf digitaler Ebene durch eine numerische Simulation des analogen Vorgangs realisiert werden. Aber auch Artefakte der digitalen Audiosignalverarbeitung werden zur Schaffung neuer Effekte ausgenutzt. Beispielsweise verursacht der Bitcrusher eine klirrende und störgeräuschbehaftete Verzerrung durch die Übertragung des Signals mit geringer Wortbreite und einen entsprechend hohen Quantisierungsfehler.
6.3.4
Enhancer
Enhancer dienen wie Verzerrer der Oberton-Anreicherung, allerdings soll diese weitgehend unauffällig sein und vielmehr die Helligkeit, Lebhaftigkeit und Verständlichkeit von Einzelklängen oder Abmischungen verbessern. Die Obertöne werden aus dem band- oder hochpassgefilterten Eingangssignal erzeugt (Abb. 6/21). Der Übersteuerungsgrad wird mit drive, die 346
Tonhöhe und Tondauer Mitten- oder Grenzfrequenz des Filters mit tune bestimmt. Je höher die Filterfrequenz, desto weniger Obertöne entstehen innerhalb des Übertragungsbereichs. Die Zumischung des Obertonsignals zum Eingangssignal erfolgt mit sehr geringem Pegel über den Regler mix.
Abb. 6/21. Blockschaltbild des Enhancers.
Einige Geräte ermöglichen zusätzlich eine völlig andere Bearbeitung tiefer Frequenzen, z. B. Kompression und Verzögerung. In ähnlicher Weise, durch Erzeugung geradzahliger bzw. ungeradzahliger Teiltöne, arbeiten Plug-ins zur Röhren- bzw. Bandsättigungssimulation.
6.4
Tonhöhe und Tondauer
6.4.1
Pitch Shifting
Pitch Shifting bzw. die Verschiebung der Tonhöhe wurde in der analogen Tontechnik durch schnelleres oder langsameres Abspielen der Tonbänder realisiert, was aber zugleich z. B. die Sprechgeschwindigkeit verändert und die Sprachformanten verschiebt, wie etwa beim Mickey-Mouse-Effekt W. Disneys. Durch Geräte, die eine Zeitdehnung bewirken, konnte die Sprechgeschwindigkeit korrigiert werden, nicht aber die Formantverschiebung. Moderne Pitch Shifter können jedoch die Tonhöhe von Audiosignalen weitgehend unabhängig von den Formanten verschieben. Die hierzu erforderliche digitale Signalverarbeitung basiert entweder auf dem Prinzip der Granularsynthese oder auf dem Prinzip des Phasen-Vocoders (siehe Kap. 2.3.4). Die Granularsynthese ist eine Operation im Zeitbereich [6.14]. Wie ein Film, der durch die Abfolge einzelner Bilder einen kontinuierlichen Ablauf vortäuscht, wird ein als kontinuierlich wahrgenommener Klang aus einzelnen Abschnitten zusammengesetzt. Bei diesen sog. Grains handelt es sich um sehr kurze, digitale Klangfragmente, die weniger als 50 ms dauern und für die Tonhöhenverschiebung bearbeitet bzw. angeordnet werden. Der Phasen-Vocoder führt eine Operation im Frequenzbereich durch [6.15]. Er funktioniert im Prinzip wie eine Filterbank, die den Klang in seine einzelnen Teiltöne zerlegt, die für die Tonhöhenverschiebung bearbeitet werden. Neben Geräten oder Plug-ins, die eine fest einstellbare Tonhöhenverschiebung bewirken, gibt es Geräte, sog. Harmonizer, die Mehrklänge erzeugen und Prozessoren, die eine Tonhöhenveränderung in Abhängigkeit von der Tonhöhe des Eingangssignals vornehmen, also für automatische Tonhöhenkorrekturen geeignet sind [6.16]. Geräte, die nur zusätzliche Oktaven ober- oder unterhalb der Original-Tonhöhe generieren, werden als Octaver bezeichnet. 347
Klanggestaltung Je nach Gerätefunktion können mit pitch oder detune eine feste Tonhöhenverschiebung in Halbtönen, Cent oder Prozent (siehe Tab. 6/2), mit amount und attack oder retune speed Umfang und Geschwindigkeit der Tonhöhenkorrektur, mit window das Tonhöhenfenster für eine Korrekturauslösung und mit scale die Bezugstonart oder -skala eingestellt werden. Tonhöhenverschiebungen von einigen Cent bewirken leichte Verstimmungen oder bei Mischung mit dem Originalsignal Schwebungen. Durch die Wahl von Halbtönen oder größeren Intervallen können Stimmen transponiert oder, bei mehrfacher Verschiebung, zu Mehrklängen gruppiert werden. Dabei ist oft anstelle einer intervallstarren Verschiebung eine Transposition in eine anzuwählende Tonart möglich, sog. intelligent pitch shift. Der Einsatz moderner Frequenzbereichsverfahren ermöglicht eine getrennte Veränderung von Tonhöhe und Formanten, so dass z. B. bei einer Transposition nach oben kein Mickey-MouseEffekt mehr auftritt [6.17]. Dennoch ist auf Grund von Artefakten die Bearbeitung mit einer automatischen Tonhöhenkorrektur oft noch wahrnehmbar, v. a. bei einem gebundenen oder gleitenden Tonhöhenwechsel. Tab. 6/2 gibt verschiedene Maße für Tonhöhenunterschiede musikalischer Intervalle bei der üblichen gleichschwebend temperierten Stimmung an. Tab. 6/2. Maße für Tonhöhenunterschiede musikalischer Intervalle bei gleichschwebend temperierter Stimmung. Das Frequenzverhältnis für einen Halbton ist mit 12 2 ≈ 1, 05946 .
Im Consumerbereich bieten Karaoke-Systeme eine Transpositionsfunktion, um ungeübten Sängern eine einfach vorzunehmende Anpassung der Musik an die Tonlage ihrer Singstimme zu ermöglichen.
348
Raumeindruck
6.4.2
Time Stretching
Unter time stretching, auch time expansion oder time compression, versteht man die Veränderung von Abspielgeschwindigkeit bzw. -dauer ohne Beeinflussung der Tonhöhe. Die entsprechende Signalverarbeitung beruht auf denselben Prinzipien wie die des Pitch Shiftings (siehe Kap. 6.4.1). Zentraler Parameter ist der Faktor der Zeitskalierung. Daneben können häufig Analyseeinstellungen für typische Audioinhalte ausgewählt werden, was zu einer Minimierung eventueller Störgeräusche oder Klangbeeinträchtigungen beitragen kann. Das Time Stretching gehört neben dem Schnitt, dem Sampling und dem Pitch Shifting zu den Bearbeitungstechniken, die zusammen einen weitgehend flexiblen Umgang mit Audiomaterial nach dem Baukastenprinzip ermöglichen, z. B. das Einpassen von Retakes oder auch fremden Klangquellen in bestehende musikalische Strukturen [6.18]. Time-Stretching-Werkzeuge sind entweder als Komponenten von Audioproduktionssystemen oder als eigenständige SoftwareAnwendungen ausgeführt.
6.5
Raumeindruck
Befindet sich in einem umschlossenen Raum eine Schallquelle, so wird deren Schall an den Begrenzungsflächen reflektiert. Diese richtungsabhängigen Reflexionsmuster stellen sich an einer Empfängerposition als gefilterte Signalwiederholungen mit unregelmäßiger Verzögerung und zunehmender zeitlicher Dichte dar. Dabei wird unterschieden zwischen diskreten frühen Reflexionen, die durch in der Nähe der Schallquelle befindliche Flächen verursacht werden, und einem diffusen Nachhall, der aus einer Fülle von Raumreflexionen besteht, keine bevorzugte Einfallsrichtung mehr aufweist und sinnvoll nur noch statistisch beschreibbar ist. Die Signalwiederholungsmuster bewirken die auditive Wahrnehmung eines umgebenden Raums. Der so entstehende Raumeindruck ergänzt die akustische Information, die direkt von der Schallquelle kommt, um wesentliche Informationen über die Größe und Beschaffenheit des Raums. Innerhalb des Raumeindrucks lassen sich spezifischere Wahrnehmungsmerkmale unterscheiden, u. a. Raumgröße, Halligkeit und Räumlichkeit [6.19]. Halligkeit ist die Wahrnehmung der Verlängerung jedes von einer Schallquelle hervorgerufenen Hörereignisses durch Nachhall bzw. die dadurch bedingte Verschmelzung mit nachfolgenden Hörereignissen. Unter Räumlichkeit wird die Empfindung einer auditiv vergrößerten Schallquellenausdehnung und/oder einer räumlichen Umhüllung verstanden, die insbesondere durch frühe seitliche Reflexionen auftritt. Als Echo wird die auch außerhalb geschlossener Räume auftretende wiederholte Wahrnehmung eines Schallereignisses bezeichnet (siehe hierzu Kap. 6.6.3). Es gibt dem Hörer Aufschluss über die Entfernung und Beschaffenheit weit entfernter reflektierender Flächen. (siehe hierzu Kap. 1.2). In der Regel werden während einer Tonaufnahme die im Aufnahmeraum entstehenden Signalwiederholungsmuster gleichzeitig mit dem Direktsignal der Schallquelle aufgezeichnet, je nach Mikrofonverfahren mit unterschiedlichem Anteil und ggf. durch gesonderte Raummikrofone. Gleichwohl kann der Nachhall des Aufnahmeraums zu kurz, klanglich ungeeignet oder – wie bei der gängigen Produktionsweise von Popularmusik – wenig oder nicht vorhanden sein. Seit der Verfügbarkeit elektroakustischer Tonübertragungsverfahren in den 1920er Jahren ist daher immer auch die Erzeugung zusätzlichen Nachhalls von Bedeutung. Die 349
Klanggestaltung älteste von Aufnahmestudios genutzte und in den 1930er Jahren etablierte Methode bestand darin, das zu verhallende Signal über einen Lautsprecher in einen speziellen Hallraum einzuspielen, im Diffusfeld das Hallsignal mit Mikrofonen aufzunehmen und dem ursprünglichen Signal zuzumischen. Hallräume haben in der Tonaufnahmetechnik praktisch keine Bedeutung mehr, dienen aber als akustische Messlabors. Geräte für künstlichen Hall, Hallgeräte, haben die Verhallung der Aufnahmen übernommen. In den ersten Geräten zur Erzeugung künstlichen Nachhalls kamen elektromagnetische Verzögerungssysteme mit rotierenden magnetischen Rädern und mehreren Tonköpfen für Aufnahme und Wiedergabe zum Einsatz [6.20]. Durch Auf- und Abspielen des Quellsignals konnte ein von den Positionen der Tonköpfe abhängiges Signalwiederholungsmuster erzeugt werden. Dieses Verfahren ist nur noch historisch von Bedeutung, jedoch werden andere elektromagnetische oder -mechanische Verfahren der Hallerzeugung wegen ihrer spezifischen Klangcharakteristik bis heute gelegentlich eingesetzt, sei es durch die Nutzung der historischen Geräte selbst oder durch die digitale Nachbildung ihrer Funktion; aus diesem Grund werden sie hier kurz behandelt.
6.5.1
Analoge Hallerzeugung
6.5.1.1
Hallfeder
Hallfedern oder Hallspiralen zum Schwingen anzuregen, ist ein altes und einfaches Prinzip der Erzeugung künstlichen Nachhalls. Es wird bis heute in qualitativ anspruchslosen Hallgeräten oder Verstärkern eingesetzt. Typische Merkmale des Federhalls sind Flatterechos und eine metallische Klangfärbung auf Grund zu geringer Eigenfrequenzdichte. 1971 wurde mit dem AKG BX-20 ein studiotaugliches Hallfedersystem entwickelt, das kaum derartige Qualitätseinschränkungen aufweist. Eine 1,2 m lange, mehrfach umgelenkte Wendelfeder wird zu Torsionsschwingungen angeregt. Dies geschieht durch je zwei gekreuzte, fest miteinander verbundene Drehspulen an den beiden Enden der Feder, die sich in einem Magnetfeld befinden. Je eine der Spulen dient zur Anregung der Schwingung, die andere zur Abnahme. Eine einfache, auf diese Weise angeregte Feder liefert nur eine Serie von Einzelreflexionen mit abnehmendem Pegel, da die Torsionswelle die Feder durchläuft und an den Enden reflektiert wird. Um einen dem natürlichen Nachhall ähnlichen Nachhall zu erzielen, wird die Zahl und zeitliche Dichte der Reflexionen durch mechanische Störstellen gesteigert: Ätzstellen auf dem Federdraht, die v. a. bei höheren Frequenzen wirksam sind, Dellen, die im mittleren Frequenzbereich Reflexionen hervorrufen und Dämpfungsscheiben für den Bereich unter 200 Hz. Durch diese Maßnahmen entstehen zwischen den Flatterechos in dichter Folge weitere Reflexionen geringerer Stärke. Die unabhängig von der Durchlaufrichtung identischen Flatterechos werden durch gegenphasige Summierung der beiden Nehmerspulen weitgehend eliminiert. Die mittlere Nachhallzeit kann in einem gewissen Bereich variiert werden, indem den Aufsprechspulen durch Dämpfungsverstärker das abgenommene Signal phasengedreht zugeleitet wird, wodurch sich die mechanische Abschlussimpedanz an den Federenden verändert. Die Wirkung dieser Dämpfung ist frequenzabhängig, so dass sich selbst innerhalb kleinster Frequenzbereiche starke Streuungen der Nachhallzeit ergeben. Die Studionachhallfeder ist als zweikanaliges Gerät ausgelegt und kann für eine stereofone oder doppelte monofone Verhallung 350
Raumeindruck verwendet werden. Die Eingangssignale können am Gerät zusammengeschaltet werden. Die Nachhallzeit, decay time, ist über eine Fernbedienung für beide Kanäle getrennt einstellbar [6.21] [6.22]. 6.5.1.2
Hallplatte
Das erste klanglich akzeptable Prinzip zur Erzeugung künstlichen Nachhalls war die mechanische Anregung einer schwingungsfähig aufgehängten Stahlplatte. Ein entsprechendes Gerät kam 1957 unter der Bezeichnung EMT 140 auf den Markt, fand relativ weite Verbreitung und ist noch heute in einigen Studios anzutreffen. Die 0,5 mm dicke und zwei Quadratmeter große Hallplatte wird durch einen elektrodynamischen Wandler mit dem Quellsignal zu Biegewellen angeregt. Diese werden an den Plattenbegrenzungen vielfach reflektiert, können sich aber, anders als bei einem Raum, nur in zwei Dimensionen ausbreiten. Die Schwingungen der Platte werden je nach Baujahr an ein, zwei oder vier Punkten mit piezoelektrischen Elementen abgenommen, so dass ein monofones, zweikanal-stereofones oder quadrofones Nachhallsignal zur Verfügung steht, das dem Originalsignal zugemischt werden kann. Die Nachhallzeit ist durch den Abstand zwischen Hallplatte und einer nahen Dämpfungsplatte veränderbar und kann am Gehäuse oder durch Fernbedienung zwischen etwa 1 bis 5 s bezogen auf 500 Hz eingestellt werden [6.23]. Außerdem verfügt das Gerät über eine dreistufige Tiefenabsenkung zur spektralen Kompensation der zunehmenden relativen Nachhallzeitüberhöhung im Bassbereich bei eingestellten Nachhallzeiten über 2 s. Typisches Klangmerkmal der Hallplatte ist ihr metallisch gefärbter und auch bei langer Nachhallzeit noch kleinräumig wirkender Klang, der auf die geringe Eigenfrequenzdichte des Systems zurückzuführen ist [6.24] [6.25]. 6.5.1.3
Hallfolie
1971 wurde unter der Bezeichnung EMT 240 die Hallfolie als Weiterentwicklung der Hallplatte eingeführt. Die Nachhallerzeugung erfolgt nach demselben Prinzip, als schwingendes Medium dient jedoch eine 18 :m dicke und 27 x 29 cm große Folie aus einer Goldlegierung [6.26]. Die Schwingungsanregung erfolgt piezoelektrisch und stereofon, die Hallabnahme elektrodynamisch. Ein Begrenzer in der Eingangsstufe und ein Expander in der Ausgangsstufe bieten einerseits Schutz vor Übersteuerungen und bilden andererseits ein Kompandersystem zur Störgeräuschreduktion. Sowohl auf Grund ihrer vergleichsweise geringen Abmessungen als auch auf Grund ihrer Luftschalldämmung von mehr als 50 dB ist eine Aufstellung direkt im Regieraum oder ÜWagen möglich. Die Nachhallzeit ist in einem Bereich von 1 bis 5 s bezogen auf 500 Hz variierbar, besonders für lange Einstellungen fällt sie über 1 kHz mit steigender Frequenz stark ab (Abb. 6/22). Der Klang des Folien-Nachhalls ist verglichen mit dem der Hallplatte heller und auf Grund der höheren Eigenfrequenzdichte des Systems dichter und weitgehend frei von metallischer Klangfärbung. Besonders in Verbindung mit einer Hallverzögerung genügt dieser Hall bereits hohen Anforderungen.
351
Klanggestaltung
Abb. 6/22. Hallfolie, Frequenzgänge der Nachhallzeit für verschiedene Einstellungen der Nachhallzeit bei 500 Hz.
6.5.2
Digitaler algorithmischer Hall
Erste Realisierungen künstlichen Nachhalls auf der Basis digitaler Signalverarbeitung wurden bereits in den 1960er Jahren von Manfred R. Schroeder entwickelt. Er entwarf eine Berechnungsvorschrift für die Erzeugung von Nachhall, einen sog. Nachhall-Algorithmus, der auf vier parallelen, jeweils rückgekoppelten Verzögerungen mit Kammfilterwirkung und zwei hintereinander geschalteten Allpass-Filtern beruhte [6.27]. Bei geeigneter Dimensionierung der entsprechenden Zeitkonstanten und Gewichtungsfaktoren konnte damit ein relativ färbungsfreier und dichter Nachhall produziert werden – zunächst jedoch nur durch zeitintensive Vorausberechnung. Das erste echtzeitfähige und im Tonstudio einsetzbare digitale Hallgerät kam Mitte der 1970er Jahre unter der Bezeichnung EMT 250 auf den Markt, wurde später ein Klassiker und auch als Software nachgebildet. Hallgeräte waren zusammen mit Verzögerungsgeräten die ersten digitalen Geräte im Tonstudio. Im Zuge der Erhöhung der technischen Leistungsfähigkeit von Computern verbesserte sich in den folgenden Jahren die Audioübertragungsqualität, und es kamen erweiterte Algorithmen zum Einsatz [6.28]. Dabei werden sowohl verschachtelte Allpass-Filter-Strukturen verwendet [6.29] als auch parallele Kammfilter-Strukturen in der Tradition von Schroeder und Moorer. Letztere lassen sich durch die Einbeziehung einer feedback matrix, die eine variable Aufteilung und Gewichtung von Rückkopplungspfaden erlaubt, generalisiert darstellen. Im „Modified general delay network“ von Jot und Chaigne [6.30] werden dabei durch Tiefpassfilter in den Verzögerungspfaden auch raumakustische Absorptionseffekte simuliert (Abb. 6/23). Der Abhängigkeit des Frequenzgangs des Übertragungsmaßes vom Frequenzgang der Nachhallzeit wird durch ein nachgeschaltetes Korrekturfilter begegnet. Auf diese Weise sind zeitliche und spektrale Eigenschaften des Nachhalls weitgehend unabhängig voneinander regelbar. Mit dem dargestellten Signalverarbeitungsprinzip können eine hohe Eigenfrequenzdichte und eine komplexe Zeitstruktur des Signalwiederholungsmusters erreicht werden. In modernen Hallgeräten sind außerdem eine Nachhallverzögerung, sparse-FIR-Filter bzw. 352
Raumeindruck Delays für die Erzeugung früher Reflexionen sowie ggf. eine nicht rückgekoppelte MatrixDelay-Kombination für die Erzeugung einer Gruppe weiterer dichterer Reflexionen, sog. cluster, vorgeschaltet [6.31]. Die jeweiligen Ausgänge der Stufen können meist verschiedenen räumlichen Wiedergabepositionen zugeordnet werden, wobei ggf. mehrere Wiedergabeformate unterstützt werden, z. B. stereofon, binaural, ambisonics. Weiterhin wird mit zufälligen oder tieffrequenten periodischen Modulationen der Verzögerungszeiten und Filter gearbeitet, um die Lebendigkeit des Effekts zu erhöhen oder Bewegung im Raum zu simulieren.
Abb. 6/23 Prinzip des „Modified general delay network“ für die Nachhallerzeugung nach Jot und Chaigne, 1991, [6.30, S. 16].
Die aufwändige Architektur bedingt eine Vielzahl von hochspeziellen Parametern im Signalfluss, von denen die meisten nicht einstellbar sind, sondern in Sets durch übergeordnete Parameter gesteuert werden, die einen engeren Bezug zu raumakustischen oder für die Wahrnehmung bedeutsamen Merkmalen aufweisen und ggf. nach diesen benannt sind. In der Regel kann zwischen verschiedenen Programmen gewählt werden, sog. presets, die in verschiedenen übergeordneten Parametern einstellbar sind. Tab. 6/3 zeigt eine Auswahl der Bezeichnungen von Programmen und Parametern. Programme mit veränderten Parametern können auf eigenen Speicherplätzen, user presets, abgelegt werden. Aufwändige Geräte erlauben eine Anordnung mehrerer autonomer Hallmaschinen in Reihenschaltung, cascade, oder Parallelschaltung mono split, stereo split, neuere Geräte sind zudem Surround-fähig und besitzen v. a. diesbezüglich weiter ausdifferenzierte Parameter [6.32]. Die vielfältigen Einstellmöglichkeiten eröffnen ein breites räumliches Gestaltungsspektrum und ermöglichen so eine Anpassung des künstlichen Nachhalls an verschiedenste Gegebenheiten. Digitale algorithmische Hallgeräte stellen insofern ein unverzichtbares klanggestalterisches Werkzeug dar und haben durch den Einzug des digitalen Faltungshalls kaum an Bedeutung verloren.
353
Klanggestaltung Tab. 6/3. Nachhallprogramme und -parameter. Programmkategorie Räume
Simulation analoger Hallerzeuger Effekte
Parameter
Programm bzw. Parameter Room Concert Hall Small Hall Cathedral Church Hall Spring Plate Gated Reverb Stage Reverse Predelay Size Reverb Time, RT Bass Multiply, BR Crossover Shape, Spread Wander Preecho Level Diffusion Randomization
6.5.3
Bedeutung mittelgroßer Raum Konzertsaal kleiner Raum Kathedrale Kirche Halle Hallfeder Hallplatte abgeschnittener Nachhall Verbreiterung umgekehrter Hallhüllkurvenverlauf Verzögerung des Nachhalls Raumgröße Nachhallzeit bei Frequenzen um 500 Hz Multiplikationsfaktor der Nachhallzeit tiefer Frequenzen, dazugehörige Übergangsfrequenz Form des Nachhallauf- und -abbaus zeitliche Ausdehnung des Nachhallaufund -abbaus Modulation einzelner früher Reflexionen Pegel früher Reflexionen Dichtezunahme früher Reflexionen Modulation des Frequenzspektrums des Nachhalls
Digitaler Faltungshall
Die Leistungsfähigkeit von Prozessoren erlaubt seit einigen Jahren die künstliche Erzeugung von Nachhall durch Faltung in Echtzeit. Das mathematische Prinzip der Faltung, convolution, erlaubt die Verrechnung eines Audiosignals mit der Impulsantwort eines Raums (siehe Kap. 1.2.3). Von Interesse sind dabei in erster Linie die Impulsantworten, die in existierenden Räumen aufgenommen wurden. Mit ihnen lassen sich jedem beliebigen, mit möglichst wenig Hall bzw. Reflexionen aufgenommenen Audiosignal die Reflexionen bzw. der Nachhall des jeweiligen natürlichen Raums aufprägen. Da sich der so erzeugte Nachhall nicht von einem am entsprechenden Ort aufgenommenen Nachhall unterscheidet, können z. B. Instrumente akustisch in verschiedene reale Räume versetzt werden. Faltungshall in Echtzeit, d. h. mit sehr geringer Verzögerung oder Latenzzeit, wurde seit den späten 1990er Jahren zunächst durch spezielle Stand-alone-Geräte realisiert. Mittlerweile ist 354
Komplexe Klangveränderungen er auch in Form von Plug-ins verfügbar, die auf mitgelieferte oder beliebige andere Raumimpulsantworten zugreifen. Da die Faltungsoperation ein festes Ergebnis liefert, sind keine differenzierten Parameter des Nachhalls veränderbar. So sind häufig nur das Mischungsverhältnis und eine zusätzliche Vorverzögerung einstellbar. Zunehmend ermöglichen Plug-ins außerdem eine Variation der Nachhallzeit, indem die Raumimpulsantwort zeitabhängig gewichtet und so die Steigung des Abklingvorgangs verändert wird, eine echte Nachhallzeitverlängerung ist jedoch nicht möglich. Sofern reale Reflexionsmuster verwendet werden, wirkt durch Faltung gewonnener Nachhall in der Regel zwar natürlicher als berechneter Nachhall, auf Grund der fehlenden Zeitveränderlichkeit von Parametern allerdings nicht notwendigerweise lebendiger.
6.6
Komplexe Klangveränderungen
6.6.1
Tremolo und Vibrato
Tremolo bezeichnet eine zeitlich periodische Tonwiederholung oder Lautstärkemodulation beim Instrumentalspiel, Vibrato eine periodische leichte Tonhöhenmodulation beim Instrumentalspiel oder Gesang. Beide Effekte sind spieltechnisch meist nicht unabhängig voneinander herstellbar, sie können jedoch einzeln mit den entsprechend benannten Audiobearbeitungsmitteln nachgeahmt werden. Dazu wird von einem Tieffrequenz-Oszillator (LFO) ein Sinus- oder Dreiecksignal erzeugt, dessen Frequenz mit rate oder speed in einem Bereich von ca. 2 bis 10 Hz eingestellt werden kann. Beim Tremolo-Effekt wird mit diesem die Amplitude, beim Vibrato-Effekt die Laufzeit des Audiosignals moduliert. Die Modulationstiefe ist mit dem Parameter depth oder intensity einstellbar. Die Amplitudenmodulation wird analog durch einen spannungsgesteuerten Verstärker oder digital durch die Multiplikation der Amplitudenwerte von Audiosignal und in den positiven Wertebereich verschobenem Modulationssignal realisiert. Die Tonhöhenänderung erfolgt bei analoger Tonerzeugung durch einen spannungsgesteuerten Oszillator (VCO). Bereits bestehende Audiosignale durchlaufen ein digitales Verzögerungsglied, dessen Zeitparameter durch das modulierende Signal variiert wird.
6.6.2
Wah-Wah
Der schon im Jazz der 1930er Jahre mit einem Dämpfer auf Blechblasinstrumenten erzeugte Wah-Wah-Effekt wurde in den 1960er Jahren auch als elektronische Ausführung in Effektgeräten für E-Gitarren populär. Er wird durch ein Resonanzfilter erzeugt, dessen Resonanzfrequenz mit einem Fußpedal stufenlos in einem Bereich von etwa 250 Hz bis 2 kHz verändert werden kann. Um den Verschleiß zu minimieren, wurden außer einer mechanischen Verbindung von Pedal und Potentiometer auch berührungsfreie Kopplungen realisiert, etwa durch eine bewegliche Blende vor einem Fotowiderstand oder einen beweglichen Spulenkern. Das Eingangssignal bleibt in der Ruhestellung des Pedals unbearbeitet. Bei einigen Geräten sind zusätzlich Regelbereich, Filtergüte und Mischungsverhältnis einstellbar. Eine Variante ist das Auto-Wah mit automatischer Steuerung der Resonanzfrequenz durch den Pegel des Eingangssignals oder eines Fremdsignals. 355
Klanggestaltung
6.6.3
Verzögerungseffekte
Eine ganze Reihe von Klangeffekten basieren auf einer Verzögerung des zu bearbeitenden Audiosignals. Die Verzögerung wurde früher durch die Laufzeit eines Magnetbands zwischen Aufnahme- und Wiedergabekopf erreicht und wird heute praktisch ausschließlich durch digitale Zwischenspeicherung hergestellt, wobei die Verzögerungszeit in einem weiten Bereich wählbar ist. Wird ein um die Zeit t verzögertes Signal dem ursprünglichen Signal zugemischt, entsteht eine lineare Verzerrung, die als nichtrekursives Kammfilter bezeichnet wird und den in Abb. 6/24 dargestellten Frequenzgang aufweist. Dieser besitzt je nach Dämpfung des verzögerten Signals Überhöhungen von maximal 6 dB und Absenkungen bis zur vollständigen Auslöschung der entsprechenden Frequenz. Die Frequenzen der n-ten Überhöhung bzw. Absenkung liegen bei fÜn = n/ t bzw. fAn = (2n-1)/2 t.
Abb. 6/24. Betragsfrequenzgang des Kammfilters bei verschiedenen Dämpfungen des verzögerten Signals )L.
Je nach Verzögerungszeit, Pegeldifferenz, Filterung, Anzahl der Verzögerungsglieder bzw. -zeiten, räumlich identischer oder getrennter Wiedergabe sowie Rückkopplung des verzögerten Signals ergeben sich Effekte, die die Klangfarbe, die Tonhöhe, den Raumeindruck, die Hörereigniswiederholung und/oder die Lokalisation betreffen. Nicht behandelt werden nachfolgend räumliche Wirkungen, die auf komplexe Signalwiederholungsmuster zurückgehen (siehe hierzu Kap. 1.2, 3.4 und 6.5), und Lokalisationsphänomene wie Summenlokalisation und Präzedenzeffekt (siehe hierzu Kap. 3.4 und 5.2). Bei Verzögerungszeiten zwischen 0 und 50 ms ist das kammgefilterte Signal an verschiedenen Merkmalen zu erkennen: Klangverfärbung, Tonhöhenempfindung, Raumeindruck und Echo. Die Bedeutsamkeit dieser cues hängt von der Verzögerungszeit und den Signaleigenschaften 356
Komplexe Klangveränderungen wie z. B. Impulshaftigkeit, Tonhaltigkeit und Frequenzspektrum ab. So kommt es vor allem bei breitbandigen Signalen mit quasi kontinuierlichem Spektrum wegen der regelmäßigen, partialtonähnlichen Lage von Überhöhungen und Absenkungen zur Empfindung einer Tonhöhe, auch repetition pitch genannt. Die Empfindlichkeit des menschlichen Gehörs für Kammfiltereffekte wurde lange unterschätzt. Geübte Hörer können Kammfiltereffekte bei Dämpfungen des verzögerten Signals von durchschnittlich 18 dB, im Einzelfall sogar bis 27 dB zuverlässig wahrnehmen [6.33]. Der Bereich der größten Empfindlichkeit liegt zwischen 0,5 und 3 ms. Da Kammfiltereffekte u. a. bei der Mikrofonierung auftreten, entweder durch Überlagerung von Direktschall und Schallreflexionen z. B. am Boden, an den Wänden oder auch an Pulten, oder durch Überlagerung der Signale verschiedener Mikrofone, sollten insbesondere Schallwegdifferenzen von 0,17 bis 1 m vermieden werden.
Abb. 6/25. Prinzipschaltbild eines digitalen Verzögerungsgeräts. Die hier vereinfacht analog dargestellten Komponenten werden in der Regel digital realisiert.
Tab. 6/4. Einstellbare Parameter bei digitalen Verzögerungsgeräten. Parameter Delay Time Modulation, Depth Speed Random Envelope Feedback Mix
Beschreibung Verzögerungszeit Stärke der Modulation der Verzögerungszeit Frequenz der Modulation Zufallsgenerator für die Modulation Hüllkurvengenerator für die Modulation Rückkopplung des verzögerten Signals Mischungsverhältnis von Original- und Effektsignal
Die oben genannten Wahrnehmungsqualitäten werden jedoch v. a. in der Produktion populärer Musik gezielt als Effekt hervorgerufen und oft durch Modulation der Signalverzögerung zeitveränderlich gestaltet. Auf Effekterzeugung ausgelegte Verzögerungsgeräte, Delays, erlauben hierfür die Einstellung der Verzögerungszeit in einem weiten Bereich, z. B. zwischen 0,1 ms und 2 s, sowie von Modulations- und weiteren Parametern, siehe Tab. 6/4. Die 357
Klanggestaltung Modulation erfolgt in der Regel periodisch durch einen Tieffrequenzoszillator (LFO), dessen Frequenz und Wellenform einstellbar sind, ggf. auch per Zufalls- oder Hüllkurvengenerator. Weiter kann das verzögerte Signal als Rückkopplung wieder zugemischt werden. Bei aufwändigen Geräten oder Plug-ins sind auch Pegel, Filterung und Panoramarichtung modulierbar [6.34]. Abb. 6/25 zeigt ein Prinzipschaltbild. Delays können nicht nur zur Erzeugung, sondern auch zur Vermeidung von auffälligen Kammfiltereffekten verwendet werden. So werden sie gelegentlich bei der Mikrofonaufnahme größerer Klangkörper zur Kompensation von akustischen Laufzeitdifferenzen eingesetzt. Auch bei komplexeren Beschallungen werden Laufzeitdifferenzen kompensiert, wobei spezialisierte Delay-Lines zum Einsatz kommen (siehe Kap. 9). Das häufigste Einsatzgebiet ist jedoch die Erzeugung von Klangeffekten. Tab. 6/5 zeigt die Beteiligung wesentlicher Parameter an den klassischen Delayeffekten. Chorus, Flanger und Phaser (Kap. 6.6.4) werden auch als Modulationseffekte bezeichnet. Tab. 6/5. Effekte bei Verzögerungsgeräten. Effekt Verzögerung Verdopplung Echo Multitap Delay Chorus Flanger
Verzögerungszeit über 40 ms 20 bis 40 ms über 100 ms mehrere unterschiedliche Verzögerungszeiten parallel 15 bis 30 ms 1 bis 10 ms
Modulation nein nein nein beliebig
Rückkopplung nein nein ja beliebig
ja ja
nein ja
Einfache Verzögerung, Verdopplung und Echo: Mit einfachen gefilterten Verzögerungen können Rückwürfe entfernter größerer Flächen simuliert werden. Wird das verzögerte Signal außerdem rückgekoppelt, ergibt sich ein Echo, wobei meistens Verzögerungszeiten über 100 ms gewählt werden. Oft wird die Verzögerungszeit einem bestimmten Notenwert bei einem gegebenen Musiktempo angepasst. Die entsprechende Delayzeit ergibt sich aus T = kA60/b [s], wobei b das Tempo in Schlägen pro Minute [bpm] angibt und k den Notenwert in Bruchteilen des Grundschlag-Wertes, meist der Viertelnote. Für eine ‚Verdopplung’ von Stimmen, double tracking, erfolgt die Ausspielung von Original- und verzögertem Signal zumeist über getrennte Kanäle; es werden Verzögerungszeiten im Bereich der sog. Echoschwelle gewählt, die u. a. abhängig vom Audiosignal ist und etwa zwischen 10 und 100 ms liegt. Multitap Delay: Beim Multitap-Delay sind mehrere Verzögerungsglieder parallel angeordnet. Die Verzögerungszeiten und ggf. andere Parameter dieser Delaystrecken sind separat einstellbar. Auf diese Weise können auch nicht-periodische Wiederholungsmuster bzw. Rhythmen erzeugt werden. Chorus und Flanger: Typisches Merkmal von Chorus und Flanger sind zum einen die Mischung von Original- und verzögertem Signal und zum anderen die meist periodische Modulation der Verzögerungszeit, die eine Tonhöhenänderung des verzögerten Signals (siehe Kap. 6.6.2) und eine Dehnung und 358
Komplexe Klangveränderungen Stauchung der Kammfilterübertragungsfunktion (Abb. 6/24) bewirkt. Auf Grund der geringeren Delayzeit und des Feedback-Einsatzes steht beim Flanger-Effekt eine starke Klangfärbung mit Tonhöhencharakter im Vordergrund. Der Chorus-Effekt hingegen bewirkt wegen des dichteren und schon bei tieferen Frequenzen wirksamen Kammfilters eine dezentere, dunklere und tonhöhenfreie Klangfärbung sowie eine gewisse Räumlichkeit, so dass der bearbeitete Klang voluminöser erscheint. Zur Herstellung von Modulationseffekten siehe auch [6.35].
6.6.4
Phaser
Der Phaser ist dem Flanger in Klang und Funktionsweise verwandt. Auch hier werden verzögerte Signalkomponenten dem Originalsignal überlagert. Jedoch wird die Verzögerung durch in Reihe geschaltete Allpassfilter hergestellt [6.36] und ist daher frequenzabhängig: Allpassfilter erster Ordnung besitzen einen konstanten Amplitudengang, filtern oder färben also im Gegensatz zu Hoch-, Tief- oder Bandpass das Signal nicht, haben aber einen zu hohen Frequenzen hin von 0/ bis auf -180/ abfallenden Phasengang. Da der Gesamtphasengang einer Serie von Allpassfiltern ein Vielfaches von -180 umfasst, entstehen in Überlagerung mit dem Originalsignal bei den ungeraden Vielfachen von -180/ Auslöschungen im Betragsspektrum. Der Abstand der Dämpfungstellen beim Phaser ist also nicht wie beim Flanger konstant, sondern nimmt mit der Frequenz zu, trägt also eher der logarithmischen Frequenzwahrnehmung des Gehörs Rechnung. Die Klangfärbung ist auf diese Weise noch deutlicher, und es entsteht kein repetition pitch. Durch eine periodische Modulation der Allpassfilter wird die nicht auf gleichen Abständen beruhende Kammfilterkurve auf der Frequenzachse gedehnt und gestaucht. Einstellbar sind die Modulationsfrequenz rate oder speed sowie ggf. die Modulationstiefe depth, intensity oder amount, der Modulationsmittelpunkt manual oder sweep und die Stärke der Rückkopplung des phasenmodulierten Signals feedback, regen oder resonance. Einige Geräte ermöglichen außerdem die Umschaltung der Anzahl der Filterstufen, stage, sowie der Polarität des phasenmodulierten Signals mit phase, mode oder colour [6.37]. Phaser werden v. a. zur Verfremdung von E-Gitarren-Sounds eingesetzt und sind häufig als Bodeneffektgeräte ausgelegt.
6.6.5
Ringmodulator
Der Ringmodulator wurde klanggestalterisch zunächst nur als Komponente in Synthesizern eingesetzt, denn seine Funktion besteht darin, zwei Wechselspannungen miteinander zu multiplizieren (Abb. 6/26). Das Ergebnis dieser sog. Zweiseitenbandmodulation mit unterdrücktem Träger besteht in der Summen- und der Differenzfrequenz der beiden Eingangssignale ohne die Eingangssignale selbst. Als Audio-Effekt zur Bearbeitung eines einzigen Eingangssignals wird das Prinzip der Ringmodulation nutzbar gemacht, indem das erforderliche zweite Signal – oft als Trägersignal bezeichnet – von einem integrierten Oszillator erzeugt wird [6.38]. Einstellbar sind die Modulationstiefe, drive oder level, und die Mischung von Original- und Effektsignal. Für das Trägersignal ist die Frequenz wählbar, die meist selbst durch einen Tieffrequenz-Oszillator (LFO) moduliert werden kann. Mit amount, intensity oder depth wird dabei die Modulationstiefe geregelt. Die Wellenform und die Frequenz des LFO werden mit waveform und rate oder speed eingestellt. Die produzierten Summen- und Differenztöne erzeugen nichtharmonische Frequenzspektren, ähnlich denen von selbstklingenden 359
Klanggestaltung Instrumenten, sog. Idiophonen. Von leichten Vibrato- und Verstimmungseffekten über Glockenklänge bis zu stark geräuschhaften und als deformiert wahrgenommenen Klängen lassen sich sehr unterschiedliche Klangeffekte erzielen. Die klangstrukturell destruktive Wirkung steigt mit der harmonischen Komplexität und Geräuschhaftigkeit des Eingangssignals.
Abb. 6/26. Ringmodulation zweier Sinussignale mit den Frequenzen fA = 100 Hz (oben links) und fT = 1000 Hz (unten links). Im Betragsspektrum des modulierten Signals (rechts) sind die Eingangsfrequenzen nicht mehr enthalten.
6.6.6
Leslie-Kabinett
Ein Beispiel für eine nicht auf elektronischem, sondern elektro- und raumakustischem Wege realisierte Klangbearbeitung ist das nach seinem Erfinder D. J. Leslie benannte Leslie-Kabinett, das schon in den 1940er Jahren zum Einsatz kam. Das auch als Rotary Speaker bezeichnete aktive Zwei-Wege-Lautsprechersystem für die Wiedergabe von Instrumenten beinhaltet neben Verstärker, Frequenzweiche und den Schallwandlern als Besonderheit ein horizontal rotierendes Schalltrichtersystem über dem nach oben abstrahlenden Mittel-Hochtöner und einen zylinderförmigen Holzrotor unter dem nach unten abstrahlenden Tieftöner. Der Schall der Wandler wird so gebündelt in verschiedene horizontale Richtungen gelenkt, die bei eingeschaltetem Motor kontinuierlich umlaufen. Die Rotoren arbeiten mit unterschiedlicher Geschwindigkeit, sie ist gemeinsam in zwei Stufen einstellbar mit chorale/tremolo. Im Laufe der Zeit wurden zahlreiche Modelle konstruiert [6.39]. Die rotationsbedingte Variation des Schalleinfallswinkels an den Begrenzungsflächen des Wiedergaberaums bzw. die Änderung des Reflexionsmusters bewirken eine kontinuierliche Änderung des Raumeindrucks sowie geringfügig der Lautstärke und der Klangfarbe. Da auch die Entfernung der Schallaustrittsöffnungen 360
Komplexe Klangveränderungen zu den Flächen in kleinem Umfang variiert, kommt es außerdem zu minimalen Änderungen der Lokalisation sowie auf Grund von Dopplereffekten zu Tonhöhenschwankungen. Das übertragene Signal gewinnt durch die zeitliche Veränderung dieser wichtigen Klangmerkmale an Komplexität. Das Leslie-Kabinett ist v. a. bei statischen Klängen wirkungsvoll und wurde seit jeher gerne für elektrische Orgeln, v. a. die Hammond-Orgel, eingesetzt. Elektronische Nachbildungen des Effekts modellieren in der Regel den Dopplereffekt und die Lautstärkeänderung (siehe Kap. 6.6.1), jedoch keine Reflexionsmusteränderungen und bieten im Rahmen stereofoner Wiedergabeformate v. a. keine allseitige Schallabstrahlung, so dass die Wirkung eines originalen Geräts kaum zufriedenstellend erreicht wird.
6.6.7
Vocoder
Der Vocoder wurde in den 1930er Jahren in den USA konstruiert mit dem Ziel, codierte Sprache über Leitungen zu übertragen. Bereits in den 1940er Jahren wurde er auch zur Erzeugung künstlerischer Klangeffekte genutzt – eine Verwendung, die in der Tontechnik bis heute anhält. Der Vocoder separiert in einem Analyseteil Tonhöhe, Geräuschhaftigkeit und Spektralanteile des Eingangssignals und codiert die Merkmale als Steuerspannungen. Anhand dieser Steuerspannungen werden in einem nachfolgenden Syntheseteil Ton und Rauschen künstlich generiert und spektral gewichtet. Abb. 6/27 zeigt das Prinzipschaltbild des Vocoders. Zunächst durchläuft das Nutzsignal, das als program oder analysis input bezeichnet wird und oft Sprache ist, eine Filterbank. Jedes der sich ergebenden bandgefilterten Audiosignale wird durch einen Gleichrichter und einen Tiefpass zu einer Steuerspannung umgeformt. Außerdem werden Sprachgrundfrequenz, Stimmhaftigkeit und Sprechpausen ermittelt und in Steuerspannungen umgesetzt. Die zeitveränderlichen Steuerspannungen können nun mit einer Bandbreite übertragen werden, die wesentlich geringer ist als die des Nutzsignals. Die Übertragung spielt für den Vocoder als Audio-Effekt jedoch nur insoweit eine Rolle, als bei manchen Geräten einzelne Steuerspannungen über ein Steckfeld (matrix) vertauscht werden können. Für die Resynthese wird von einem Tongenerator (VCO), der in der Regel ein Sägezahnsignal liefert, und einem Rauschgenerator ein Ersatzsignal erzeugt. Die Umschaltung zwischen beiden Generatoren folgt der Spannung des Stimmhaftigkeits-Kanals, die Frequenz des Tongenerators der Spannung des Tönhöhen-Kanals oder ggf. eines anschließbaren Keyboards. Zur Schaffung außergewöhnlicher Klangeffekte wird jedoch meist nicht das Signal des Tongenerators als tonhaltige Komponente des Ersatzsignals verwendet, sondern ein von außen zugeführtes beliebiges Audiosignal, das als carrier, synthesis input oder replacement signal bezeichnet wird. Das Ersatzsignal durchläuft seinerseits eine Filterbank, die derjenigen im Analyseteil entspricht. Über einen spannungsgesteuerten Verstärker (VCA) wird die Amplitude jeder spektralen Komponente von der Steuerspannung des entsprechenden Spektralkanals moduliert. Durch die Mischung dieser Signale ergibt sich als gewünschtes Effektsignal das spektral modulierte Ersatzsignal, meist als vocoder output bezeichnet. Es besitzt die Tonhöhe und Grundklangfarbe des Trägersignals, aber die zeitlichen Klangfarbenverläufe des Nutzsignals. Soll das Trägersignal wiedererkennbar sein, darf es nicht häufig unterbrochen werden. Hierfür sorgt ggf. eine silence bridging-Funktion, die in Nutzsignalpausen die Steuerspannungen 361
Klanggestaltung kompensatorisch erhöht und so dem Ersatzsignal das Passieren des Syntheseteils ermöglicht [6.40] [6.41].
Abb. 6/27. Prinzipschaltbild des Vocoders.
Das Prinzip der Aufprägung von Klangfarbenverläufen eröffnet u. a. die Möglichkeit, Geräusche, Instrumente oder ganze Orchester ‚sprechen’ zu lassen. Auf diese Weise kann z.B. Wind wirklich flüstern, ein Löwe einen Namen brüllen oder ein Synthesizer singen. Die Sprachverständlichkeit bleibt dabei in hohem Maße erhalten. Durch die Verwendung anderer Audiosignale und die Ausnutzung der umfangreichen Einstellmöglichkeiten können Klänge jedoch noch weitgehender und auf vielfältige Weise verfremdet werden – ggf. bis zur Unkenntlichkeit. Vocoder sind heute auch in Software-Ausführung verfügbar und bieten neben einer hohen Anzahl von Spektralkanälen oft zusätzliche Funktionen wie spektrale Modulation oder Morphing – das Verwandeln eines Klangs in einen anderen [6.42]. In der klanglichen Wirkung mit dem Vocoder verwandt ist die Talkbox: Die Schallwellen des zu bearbeitenden Signals werden über einen Schlauch in den Mund des Sprechers geleitet, wo die Aufprägung von Sprachformanten stattfindet, und über ein Mikrofon wieder aufgenommen.
6.6.8
Kombinierte und neue Audiobearbeitungsmittel
Einige der beschriebenen Audiobearbeitungsmittel werden von Herstellern zu Geräten kombiniert, die speziell auf den Einsatz in bestimmten Produktionsschritten, auf die Erzeugung bestimmter Effekte oder die Bearbeitung bestimmter Klangquellen zugeschnitten sind. 362
Klangästhetische Aspekte Dazu gehören diskrete „Channel Strips“, die nach dem Vorbild der Kanalzüge großer Mischpulte einen Vorverstärker, eine Filter-Sektion, einen Regelverstärker sowie ggf. einen ADWandler enthalten. Am Ende der Produktionskette sorgen spezielle Mastering- bzw. Sendewegsprozessoren für eine klangliche Aufbereitung des zu verteilenden Signals. Sie enthalten Filter, Mehrband-Regelverstärker und Stereobreitenregler oder Stereoenhancer. Multieffektgeräte beinhalten schwerpunktmäßig Hall-, Delay- und Modulationseffekte, die das Audiosignal wahlweise parallel oder kaskadiert durchlaufen kann. Gitarreneffektgeräte vereinen vor allem Verzerrer, Equalizer und Modulationseffekte, und Voice-Prozessoren kombinieren Regelverstärker, Filter und Pitch Shifter mit automatischer Tonhöhenkorrektur sowie ggf. Delay- und Halleffekte. Weiterhin gibt es Softwarepakete, die zugleich Klangsteuerung (Sequenzer), Klangerzeugung (Synthesizer, Sampler) und Klangbearbeitung ermöglichen, sowie auf spezielle Anwendungsbereiche (z. B. Sound Design) zugeschnittene Werkzeuge. Aber Innovationspotenzial liegt nicht nur in der Kombination, sondern auch in der Neu- oder Weiterentwicklung einzelner Klangbearbeitungsmittel, v. a. unter Ausnutzung der Möglichkeiten von Frequenzbereichsverfahren. So erlaubt etwa das Spektral Delay die unabhängige Verzögerung verschiedener Frequenzkomponenten [6.43]. Künftig werden auf der Basis von Merkmalsanalysen (feature extraction) Audiobearbeitungen möglich sein, die weniger an physikalisch, sondern mehr an auditiv grundlegenden Merkmalen orientiert sind, z. B. der Unterscheidung von tonhaltigen und geräuschhaften Klangbestandteilen. Die Entwicklung solcher ‚wahrnehmungsrelevanteren‘ Gestaltungsmittel wird die konventionelle, bislang technisch orientierte Parametrisierung wenn nicht in Frage stellen, so doch mit Sicherheit um perzeptive Merkmale erweitern.
6.7
Klangästhetische Aspekte
Die vielfältigen Audiobearbeitungsmöglichkeiten werfen die Fragen auf, wie und mit welcher Zielsetzung diese eingesetzt werden sollten – insbesondere vor dem Hintergrund, dass eine akustische Darbietung durch ihre mediale Übertragung in verschiedener Hinsicht transformiert wird: Sowohl das reproduzierte Schallfeld als auch der Klangeindruck werden verändert, meist wird zu einer anderen Zeit und in einer anderen räumlichen Umgebung abgehört, die persönliche und soziale Rezeptionssituation unterscheidet sich von einer Aufführungssituation, und nicht zuletzt bestimmen technische und künstlerische Entscheidungen weiterer Personen, z. B. eines Tonmeisters, das mediale Produkt mit. Experimente haben gezeigt, dass allein schon klanggestalterische Maßnahmen im Rahmen des post-processings nicht nur die klangliche, sondern auch die ästhetische, emotionale, interpretatorische und ggf. sogar musikalisch-strukturelle Beurteilung einer Audioproduktion beeinflussen können, was sich auch auf die Rezeptions- und Kaufbereitschaft auswirken kann [6.44] [6.45] [6.5].
6.7.1
Zusammenhang von Reiz- und Wahrnehmungsmerkmalen
Für eine Betrachtung der Wirkung von Maßnahmen der Audiobearbeitung ist es sinnvoll, klar zwischen physikalischer und psychologischer Domäne zu unterscheiden. Durch die Audiobearbeitung werden zunächst nur physikalische Maße des Audiosignals und – bei elektroakus363
Klanggestaltung tischer Wiedergabe – des entsprechenden Schallereignisses verändert, z. B. die Amplitude zu bestimmten Zeitpunkten. Das Hörereignis hingegen ist ein reiner Wahrnehmungsinhalt, der vielfältige Eigenschaften besitzt. So können wir als grundlegende Klangmerkmale Lautstärke, Klangfarbe, ggf. Tonhöhe, räumliche Position, Ausdehnung, Zeitpunkt, Dauer und Raumeindruck unterscheiden sowie deren jeweilige Ausprägung angeben. Außerdem entstehen weitere Wahrnehmungsinhalte und -vorgänge, z. B. variable Aufmerksamkeit, Erkennung von Schallquellen, Bedeutungen, Bewertungen, Assoziationen und Emotionen. Physikalische und psychologische Merkmale beschreiben also unterschiedliche Phänomene und bilden eine unterschiedliche Struktur. Entgegen einer relativ verbreiteten Auffassung bestehen zwischen physikalischen und psychologischen Merkmalen nur überwiegend schwache, sog. probabilistische Zusammenhänge, die nicht streng kausal sind. Eine Vorhersage von Wahrnehmungsinhalten aus Audiosignaleigenschaften ist insoweit kaum möglich – ein Umstand, der etwa beim Lärmschutz oder bei Messmethoden für Diskussionen sorgt. Außerdem sind die Zusammenhänge komplex. So müssen zur Beeinflussung der konsistenten, d. h. stimmigen Ausprägung eines Wahrnehmungsmerkmals, z. B. des Entfernungseindrucks, mehrere physikalische Signalmaße verändert werden, z. B. Amplitude, Verhältnis von direktem und reflektiertem Schall, Frequenzspektrum. Weitgehend eindeutige und zuverlässige Beziehungen zu physikalischen Maßen konnte die Psychoakustik bislang nur für wenige grundlegende Wahrnehmungsmerkmale experimentell bestimmen, z. B. für Lautheit und Richtungslokalisation, und dies in der Regel auch nur mit künstlichen Audioinhalten, z. B. Sinustönen oder Rauschen, und unter kaum verallgemeinerbaren Laborbedingungen. Umfassendere Klangeindrücke, z. B. Durchsichtigkeit, sowie ästhetisches Empfinden, Bedeutung oder Emotion lassen sich nicht mehr aus den Audiosignaleigenschaften ableiten. Aber gerade solche Wahrnehmungsinhalte sollen ja durch klanggestalterische Maßnahmen beeinflusst werden und können es auch. Zur Beantwortung der Frage, welche Bearbeitungen bzw. Eigenschaften eines Audiosignals beim Hörer die beabsichtigte Wirkung hervorrufen, lassen sich insoweit keine quantitativen Modelle heranziehen, sondern nur die eigene Wahrnehmung, die im Idealfall um Erfahrung, künstlerisch-ästhetische Entscheidungsfähigkeit sowie ein auch inhaltliches Verständnis des produzierten Audiomaterials ergänzt wird. Neben den klassischen psychoakustischen Zusammenhängen können jedoch wenigstens prinzipielle Wirkungsprinzipien berücksichtigt werden. Von besonderer Bedeutung sind hier die Theorie der Gestaltwahrnehmung, die die Regeln zur Erkennung von zusammenhängenden Wahrnehmungsobjekten formuliert – die sog. Gestaltgesetze [6.46] - und die sog. Neue experimentelle Ästhetik [6.47] [6.48], die ästhetische Reaktionen durch Reize beschreibende, sog. kollative Variablen, wie Neuartigkeit oder Komplexität, zu erklären versucht, die allerdings unscharf definiert sind.
6.7.2
Klang und Bedeutung
Die entsprechenden Zusammenhänge sind natürlich nicht unabhängig vom übertragenen Audioinhalt wirksam, sondern treten mit ihm in Wechselwirkung. Insbesondere die Erkennung und das Erleben musikalischer Inhalte werden durch die Klanggestaltung beeinflusst, da 364
Klangästhetische Aspekte Klang nicht von musikalischer Struktur ablösbar ist. Die Aufnahme und Audiobearbeitung von Musik ist daher ein nicht nur technischer und ästhetischer, sondern v. a. musikalischer Prozess [6.49] [6.5], der auch als zweite Interpretation bezeichnet wird. Sinnvolle klanggestalterische Maßnahmen der Audioübertragung sind meist kein Selbstzweck, sondern orientieren sich am Audioinhalt. Sie zielen auf die Erkennbarkeit, Schärfung, Trennung, Zusammenfassung und Gewichtung der einzelnen Audioinhalte, z. B. musikalischen Gestalten, durch Beeinflussung potenziell aller o. g. Klangmerkmale ab. Als inhaltsunabhängiges Gestaltungsziel kann für stereofone Wiedergabeformate die Symmetrie der horizontalen Richtungsabbildungen angesehen werden. Allerdings können manche Klangmerkmale unabhängig vom Audioinhalt selbst Bedeutung erzeugen oder verstärken. So rufen geeignete Halleffekte Assoziationen typischer Aufführungsumgebungen wie z. B. Club, Kirche oder Stadion hervor, und eine geeignete Kombination aus Filterung, Verzerrung und ggf. Störgeräuschzumischung lässt an minderqualitative bzw. historische Audiomedien denken, etwa eine Telefonübertragung oder eine Schellackplatte.
6.7.3
Medienästhetische Ideale
Mit Blick auf den oben angesprochenen Transformationsprozess sind drei grundlegende Verhältnisse zwischen Live-Darbietung und Medienprodukt denkbar (Tab. 6/6). Ziel der Übertragung kann die physikalisch korrekte Nachbildung des Reizes, im Audiobereich also des Schallfelds oder der Ohrsignale sein. Dies wird entweder, der Idee geringst möglicher ‚Manipulation’ folgend, durch sog. naturreine mono- oder stereofone Aufnahmeverfahren zu erreichen versucht oder, in jüngster Zeit, durch Übertragungsverfahren der virtuellen Akustik wie Wellenfeldsynthese oder dynamische Binauraltechnik (siehe Kap. 5.7 bzw. 5.6), die einen hohen Anspruch an die Ähnlichkeit der physikalischen Nachbildung stellen und einen dementsprechend hohen technischen Aufwand erfordern [6.50]. Die Umsetzung dieses sog. positivistischen Ideals ruft aber meist ein verändertes, oft abgeschwächtes psychisches Erleben hervor, da sich viele Aspekte der Originaldarbietung nicht oder nicht korrekt nachbilden lassen, z. B. der visuelle Eindruck. Dieses ästhetische Ideal wird z. B. bei Produktionen mit streng dokumentarischem Anspruch verfolgt sowie bei der Simulation verschiedener akustischer Bedingungen zu Forschungs- und künstlerischen Zwecken. Ein anderer Ansatz ist um eine Wiederherstellung des psychischen Erlebnisses einer Darbietung bemüht. Für die Schaffung der entsprechenden Illusion werden bestimmte akustische bzw. klangliche Merkmale wohl dosiert überhöht. So kann z. B. versucht werden, die fehlende Wirkung visueller Information durch größere Nähe, schärfere Lokalisierbarkeit und erhöhte Transparenz des Klangbilds zum Teil auditiv hervorzurufen. Die meisten Kunstmusikproduktionen folgen seit den 1970er Jahren diesem sog. illusionistischen Ideal [6.45] – unbeschadet der prinzipiellen Unmöglichkeit einer ‚natürlichen’ Aufnahme [6.51, 6.49]. Schließlich besteht die Möglichkeit, die Mittel der Produktionstechnik für eine freie und ggf. weit reichende Interpretation der akustischen Darbietung einzusetzen. Eine Orientierung an der ursprünglichen Darbietung ist dabei nicht erforderlich. Dieses sog. medial-autonome Ideal wird z. B. in der Radiokunst verfolgt sowie in der populären Musik, wo meist mit starken klanglichen Kontrasten gearbeitet wird. Dieser Kategorie lassen sich auch Audioinhalte 365
Klanggestaltung zuordnen, die nicht vor, sondern in dem Medium entstehen, z. B. elektronische Musik. Die Wahl der Audiobearbeitungsmaßnahmen hängt also von der medienästhetischen Zielsetzung ab. Tab. 6/6. Grundlegende Verhältnisse von Live-Darbietung (L) zu medialer Darbietung (M). Der Grad der zweiten Interpretation, z. B. durch klanggestalterische Eingriffe, nimmt vom positivistischen zum medial-autonomen Ideal hin zu.
Physikalisches Ereignis Psychisches Erleben Grad der zweiten Interpretation
6.7.4
Medienästhetisches Ideal positivistisch illusionistisch medial-autonom L…M L…M L=M L=M L…M L…M L M L M L M
Der Kampf um die Aufmerksamkeit des Hörers
Viele mediale Audioinhalte sind heute nicht vornehmlich künstlerischer Natur, sondern sollen in erster Linie Funktionen und Aufgaben erfüllen. Neben sachlicher Information, z. B. bei Durchsagen oder in der aktuellen Berichterstattung, sind dies v. a. psychologische Funktionen. So soll Popmusik u. a. bestimmte Emotionen hervorrufen und eingängig und tanzbar sein; Audioinhalte im Bereich der Werbung sollen u. a. die Bereitschaft zur Informationsaufnahme erhöhen, sog. Produkt- und Markenwerte kommunizieren und deren Erinnerbarkeit maximieren. Als einen wesentlichen Faktor zur Erreichung dieser Ziele betrachten viele Audioproduzenten und Werbestrategen eine Aktivierung des Zuhörers, was bedeutet, dass er in einen Zustand erhöhter Erregung, Aktivität und Aufmerksamkeit gebracht werden soll. Dies kann in der Audiobearbeitung ggf. durch inhaltlich angemessene Gewichtungen kleinteiliger Gestalten, z. B. die klangliche Ausbalancierung einer Rhythmus-Sektion, bewirkt werden, sowie prinzipiell durch eine hohe ästhetische Reizkomplexität, z. B. den Einsatz von wechselnden und z. T. neuen Sounds und Effekten, oder eine hohe Reizenergie, z. B. eine hohe Lautstärke. Sowohl Energie als auch Komplexität dürfen aber nicht zu hoch sein, da der Hörer dann zwar entsprechend aktiviert wird, das Gefallen jedoch ein Optimum überschreitet und sinkt. Dessen ungeachtet wird, da natürlich technische Aussteuerungsgrenzen bestehen, heute in vielen Bereichen standardmäßig eine hohe Lautheit von Produktionen oder Programmen angestrebt, auch wenn dies teilweise gravierende klangqualitative Einbußen mit sich bringt (siehe Kap. 6.2.1). Der wirkungsästhetische Vorteil solcher Maßnahmen ist von kurzer Dauer, da der Hörer, abgesehen von öffentlichen Beschallungssituationen, die Abhörlautstärke zumeist spontan selbst regelt, d. h. ggf. auch herunterregelt. Die geschmälerte Audioqualität hingegen bleibt auch nach der Lautstärkekorrektur bestehen. Dieser sog. Loudness War ist v. a. beim Pre-Mastering im popularmusikalischen Bereich und im privaten Rundfunk zu beobachten. Es ist unwahrscheinlich, dass im Umfeld medialer Reizüberflutung eine positiv wirkende Aktivierung noch mit so einfachen Mitteln zu erreichen ist. Zudem scheinen im Bereich der Massenmedien die vom Hörer verarbeitbare ästhetische Komplexität und die im Audioprodukt codierbare Energie, die Lautheit, weitgehend ausgeschöpft zu sein. 366
Klangästhetische Aspekte Die massenmediale Klangäshetik wird jedoch nicht nur auf der Produktions-, sondern auch auf der Wiedergabeseite beeinflusst. Der Trend zur audiovisuellen Integration und Medienkonvergenz zeigt sich u. a. in einer erhöhten Funktionalität, Miniaturisierung und Tragbarkeit von Wiedergabegeräten, das Hören über Laptop, Handy oder MP3-Player ist zunehmend verbreitet. Dies zieht unvorhersehbare, in der Regel schlechte Abhörbedingungen nach sich, z. B. unregelmäßige und begrenzte Wiedergabefrequenzgänge oder hohe Störgeräuschpegel. Zudem muss verstärkt mit Gewohnheiten wie Nebenbeihören und Zweckgewohnheiten wie dem sog. Mood Management gerechnet werden, also der Verwendung von Musik zur Beeinflussung von Stimmungen [6.52]. Natürlich können Audioproduktionen, die überwiegend unter ungünstigen und unterschiedlichen Bedingungen abgehört werden, nicht für alle diese Fälle gleichermaßen klangästhetisch optimiert sein. Der verbleibende Anspruch besteht darin, dass nach der Übertragung die Erkennbarkeit der inhaltlich oder musikalisch wesentlichen Information gewährleistet ist. Häufig wird versucht, durch hohe Lautheit, Höhen- und/oder Mittenanhebung, erhöhte Monokompatibilität und kontrastierende Lokalisationsverteilung eine Kompensation ungünstiger Abhörbedingungen zu erreichen. Die vermeintliche oder tatsächliche Notwendigkeit eines gegenüber ungünstigen Abhörbedingungen robusten Klangbilds engt die klanggestalterischen Möglichkeiten, die die vielfältigen Audiobearbeitungsmittel eröffnen, also wieder auf funktionale Varianten ein. Inwieweit sich dies mittel- und langfristig auf die klangästhetische Differenzierungs- und Urteilsfähigkeit der insbesondere nachwachsenden Hörerschaft auswirkt, bleibt abzuwarten.
Standards [DIN 45 651]
01.64
Oktavfilter für elektroakustische Messungen
[DIN 45 652]
01.64
Terzfilter für elektroakustische Messungen
Literatur [6.1]
Maempel, H.-J., Weinzierl, S. und Kaminski S.: „Audiobearbeitung“. in: Handbuch der Audiotechnik, hg. von Weinzierl, S., S. 747ff., 2008, Springer
[6.2]
Gerzon, M. A.: „Panpot Laws for Multispeaker Stereo”, 92. AES-Convention Wien 1992, Preprint 3309
[6.3]
Ledergerber, S.: Application: How to surround, http://www.vista7.com/e/surround/ index.aspx, 2002, Zugriff 10. 7. 2007
[6.4]
Wave Arts Inc. (Hg.): Panorama User Manual, Arlington/MA, http://www.wavearts. com/pdfs/PanoramaManual.pdf, 2005, Zugriff 19.7.2007
[6.5]
Maempel, H.-J: Klanggestaltung und Popmusik, Eine experimentelle Untersuchung, 2001, Synchron
[6.6]
Wagner, K.: „Zur Lautheit von Rundfunkprogrammen“, in: Radio, Fernsehen, Elektronik 46, H. 3. 1997, S.42ff. 367
Klanggestaltung [6.7]
Lund, T.: „Control of Loudness in Digital TV”, in: NAB BEC Proceedings 2006, S. 57ff.
[6.8]
Muzzulini, D.: Genealogie der Klangfarbe, 2006, Lang
[6.9]
Nitsche, P.: Klangfarbe und Schwingungsform, 1978, Katzbichler
[6.10] Zölzer, U. (Hg.): DAFX - Digital Audio Effects, 2002, Wiley [6.11] Vary, P. und Rainer M.: Digital Speech Transmission. Enhancement, Coding and Error Concealment, 2006, Wiley [6.12] Herla, S., Houpert, J. und Lott, F.: „From Single-Carrier Sound Archive to BWF Online Archive - A New Optimized Workstation Concept", in: Journ. Audio Eng. Soc., 49, 7/8, 2001, S. 606ff. [6.13] Algorithmix GmbH.: LinearPhase PEQ™ RED – Hi-Resolution Linear-Phase-Equalizer für DirectX kompatible Audio-Workstations, Benutzerhandbuch, http://www. ksmusic.at/ks/proddemo/algorithmix/LinPhPEQ_Red_Algo_de.pdf, 2004, Zugriff 26.11.2007, auch http://www.algorithmix.com/en/peq1.htm [6.14] Roads, C.: Microsound, 2001, MIT Press [6.15] Bernsee, S. M.: Time Stretching And Pitch Shifting of Audio Signals - An Overview, http://www.dspdimension.com/index.html?timepitch.html, 2005, Zugriff 27.3.2007 [6.16] Antares Audio Technologies (Hg.): Auto-Tune 5 Pitch Correcting Plug-in Owner's Manual, 2006, http://www.pair.com/anttech/downloads/AT5_manual.pdf, Zugriff 16. 2. 2007 [6.17] Hoenig, U. G. und Neubäcker, P.: Melodyne 3 studio & cre8 handbuch version 3.0, 2006, http://www.celemony.com/cms/uploads/media/Manual.MelodyneCre8Studio. 3.0.German_03.pdf, Zugriff 16.2.2007 [6.18] Maempel, H.-J. „Technologie und Transformation. Aspekte des Umgangs mit Musikproduktions- und -übertragungstechnik“, in: de la Motte-Haber, H. und Neuhoff, H. (Hg.): Musiksoziologie, Handbuch der systematischen Musikwissenschaft 4, S. 160ff., 2007, Laaber [6.19] Kuhl, W.: „Räumlichkeit als Komponente des Raumeindrucks”, in: Acustica 40, 1978, S. 167ff. [6.20] Axon, P. E., Gilford C. L. und Shorter D. E.: „Artificial Reverberation”, in: Journ. Audio Eng. Soc. 5, H. 4, 1957, S. 218ff. [6.21] AKG Acoustics: The AKG BX20E, Produktinformation, http://www.akg.com/medien datenbank2/psfile/datei/56/BX_204055d2f2a53f1.zip, 1971, Zugriff 4. 12. 2007 [6.22] AKG Acoustics: BX-20 Service Manual, http://www.akg.com/mediendaten bank2/psfile/datei/23/BX204055d1e1a05c1.pdf, 1971, Zugriff 4. 12. 2007 [6.23] Kuhl, W.: „Über die akustischen und technischen Eigenschaften der Nachhallplatte”, in: Rundfunktechn. Mitt. 2, 1958, S. 111ff. [6.24] Kuhl, W.: „Notwendige Eigenfrequenzdichte zur Vermeidung der Klangfärbung von Nachhall”, in: Rep. 6. Intern. Congress on Acoustics, Tokio 1968, E-2-8, auch als Akust. Inf. des IRT -Hamburg 3.3-2, 1968
368
Klanggestaltung [6.25] Bäder, K. O.: „Bestimmung der Eigenschaften von Nachhallerzeugern”, in: Radio Mentor 1970, S. 346ff. [6.26] Rother, P.: „Nachhallplatte nur noch 800 cm2 groß“, in: Radio Mentor 1971, S. 593ff. [6.27] Schroeder, M. R..: „Natural sounding artificial reverberation”, in: Journ. Audio Eng. Soc. 10, H. 3, 1962, S. 219ff. [6.28] Moorer J. A.: „About this reverberation business”, in: Computer Music Journal 3, H. 2, 1979, S. 13ff. [6.29] Dattorro, J..: „Digital Effects Design: Part 1 Reverberator and Other Filters”, in: Journ. Audio Eng. Soc. 45, H. 9, 1997, S. 660ff. [6.30] Jot, J.-M., Chaigne, A.: Digital delay networks for designing artificial reverberators”, in: 90. AES Convention, Paris 1991, Preprint 3030 [6.31] Jot, J.-M., Cerveau L. und Warusfel, O.: „Analysis and Synthesis of Room Reverberation Based on a Statistical Time-Frequency Model“, in: 103. AES Convention, New York 1997, Preprint 4629 [6.32] Lexicon Inc.: 960L Digital Effects System – Owner’s Manual, http://www.lexiconpro. com/product_Downloads/960LLARC2/960L_Owners_Manual_Rev2.pdf, 2000, Zugriff 7. 12. 2007 [6.33] Brunner S., Maempel, H.-J. und Weinzierl, S.: „On the Audibility of Comb Filter Distortions”, in: Bericht 24. Tonmeistertagung, Leipzig 2006 [6.34] Ranum J. und Rishøj K.: TC 2290 Dynamic Digital Delay + Effects Control Processor Owner's Manual, 1986, http://www.tcelectronic.com/media/d86b1147172e4c87a0 fc6a6d3d1dd51c.pdf , 1986, Zugriff 16. 2. 2007 [6.35] Dattorro, J.: „Digital Effects Design: Part 2 Delay-Line Modulation and Chorus”, in: Journ. Audio Eng. Soc. 45, H. 10, 1997, S. 764ff. [6.36] Hartmann, W. M.: „Flanging and Phasers”, in: Journ. Audio Eng. Soc. 26, H. 6, 1978, S. 439ff. [6.37] Moog Music Inc. (Hg.): Understanding and using your moogerfooger MF-103 Twelve Stage Phaser, 2003, http://www.moogmusic.com/manuals/mf-103.pdf, Zugriff 28. 3. 2007 [6.38] Moog Music Inc. (Hg.): Understanding and using your moogerfooger® MF-102 Ring Modulator, http://www.moogmusic.com/manuals/mf-102.pdf, 2003, Zugriff 28. 3. 2007 [6.39] Mikael, L.: Hammond & Leslie page. http://captain-foldback.com/main_page.htm, 2005, Zugriff 30. 3. 2007 [6.40] Buder, D.: „Vocoder für Sprachverfremdung und Klangeffekte, Teil 1“, in: Funkschau 7, 1978, S. 293ff. [6.41] Buder, D.: „Vocoder für Sprachverfremdung und Klangeffekte, Teil 2.” In: Funkschau 8, 1978, S. 337ff. [6.42] Haas, J., und Sippel, S.: VOKATOR Benutzerhandbuch, Native Instruments Software Synthesis GmbH., 2004
369
Klanggestaltung [6.43] Haas, J., Clelland, K. und Mandell, J.: NI-Spektral Delay Benutzerhandbuch, Native Instruments Software Synthesis GmbH., 2004 [6.44] Boss, G.: „’Das Medium ist die Botschaft‘ (Marshall McLuhan) - zur Frage der Interpretation auf Tonträgern“, in: Bericht 18. Tonmeistertagung Karlsruhe 1994, S. 215ff., 1995, Saur [6.45] Stolla, J. : Abbild und Autonomie. Zur Klangbildgestaltung bei Aufnahmen klassischer Musik 1950-1994, 2004, Tectum [6.46] Goldstein, E. B..: Wahrnehmung, 2. dt. Aufl., 2002, Spektrum [6.47] Berlyne, D. E.: Aesthetics and Psychobiology, New York: Appleton-Century-Crofts, 1971 [6.48] Berlyne, D. E. (Hg.): Studies in the New Experimental Aesthetics. Steps toward an Objective Psychology of Aesthetic Appreciation, 1974, Hemisphere [6.49] Schlemm, W.: „Musikproduktion“, in: Finscher, L. (Hg.): Die Musik in Geschichte und Gegenwart (MGG), Sachteil, Bd. 6, Sp. 1534ff , 2. Aufl., 1997, Bärenreiter, Metzler [6.50] Vorländer, M..: Auralization. Fundamentals of Acoustics, Modelling, Simulation, Algorithms and Acoustic Virtual Reality, 2007, Springer [6.51] Bickel, P.: Musik aus der Maschine, computervermittelte Musik zwischen synthetischer Produktion und Reproduktion, 1992, Sigma [6.52] Schramm, H.: Mood-Management durch Musik, die alltägliche Nutzung von Musik zur Regulierung von Stimmungen, 2005, Halem [6.53] Gawlik, F., Maempel, H.-J. und Weinzierl, S.: „Der Einfluss des Sendewegprocessing auf die Senderwahl von Radiohörern”, in: Bericht 25. Tonmeistertagung Leipzig 2008
370
7
Analoge Tonsignalspeicherung
Die Speicherung des Schalls bzw. von Tonsignalen wurde erst mit Erfindung des Phonographen durch Thomas Alva Edison ab 1877 möglich. Aufgenommen, aufgezeichnet und wiedergegeben wurde bei diesem Verfahren von 1877 bis 1929 durch rein mechanisch-akustisch arbeitende Vorrichtungen. Die Schallspeicherung erfolgte zunächst auf Wachswalzen, seit 1887 auch auf Hartgummiplatten, ab 1897 bis etwa 1955 auf Schelllackplatten. Die mechanische Aufzeichnung wurde nach 1925 durch die Erfindung des Verstärkers und des Mikrofons anstatt der Schalltrichter erheblich verbessert. Eine weitere qualitativ entscheidende Verbesserung bewirkte 1948 die Einführung der Langspielplatte (LP) mit 30 cm Durchmesser, ein Jahr später die Einführung der Single mit 17 cm Durchmesser. Die analoge mechanische Aufzeichnung wurde schließlich ab 1982 durch die Entwicklung der Compact Disc (CD) mit digitaler mechanischer Aufzeichnung und optischer Abtastung abgelöst. Die Entwicklung der mechanischen Aufzeichnung ist gekennzeichnet durch viele kleine und große Qualitätsverbesserungen. Die mechanische Speicherung besitzt den Vorteil, dass sie durch elektrische und magnetische Felder nicht zerstört wird, sie hat deshalb gerade auch bei der sicheren Datenaufzeichnung eine große Bedeutung in den verschiedensten Bereichen erlangt. 1936 kam zu der mechanischen Aufzeichnung der Schallschwingungen das Tonband mit magnetischer Aufzeichnung hinzu, Voraussetzung hierfür war die Entwicklung von Mikrofonen, Verstärkern und Lautsprechern ab etwa 1925. Mit diesem sog. Magnettonverfahren stand erstmals ein zunehmend qualitativ hochwertiges Verfahren zur Verfügung, das eine umfangreiche Nachbearbeitung der Aufnahmen auch für die mechanische Speicherung zuließ, damit wurden Tonproduktionen im Bereich der Musik und des Hörspiels mit umfangreichen Bearbeitungen des Tonmaterials überhaupt erst möglich. Die Epoche hochwertiger analoger Aufzeichnung auf Magnetband umfasst etwa die Zeit von 1950 bis 1990. In den siebziger Jahren des 20. Jahrhunderts ersetzte aber allmählich die digitale magnetische Aufzeichnung auf Magnetbändern die magnetische analoge Aufzeichnung, zunächst auf Videokassette, danach auf Digital Audio Tape (DAT) und Studioband, schließlich auf Festplatte (Hard Disc). Das für die Aufzeichnung des Tons beim Tonfilm seit 1929 verwendete sog. Lichttonverfahren, bei dem die Schallschwingungen auf dem Film durch Lichtspuren mit entsprechend den Schallschwingungen variierender Breite aufgezeichnet werden, blieb auf diesen Anwendungsbereich beschränkt. Auch dieses Verfahren wurde wie die mechanische und magnetische Aufzeichnung später digitalisiert. Ein wichtiger Entwicklungsschritt sowohl in der mechanischen als auch in der magnetischen Aufzeichnung war der Übergang von der einkanaligen zur zweikanaligen Schallaufzeichnung, also von der Monofonie zur Zweikanal-Stereofonie, etwa ab 1955, zur Mehrkanal-Stereofonie ab etwa 1995. Eine Revolution bei der Aufzeichnung war schließlich wie bei der mechanischen Aufzeichnung der Übergang zur digitalen Aufzeichnung, die seit den siebziger Jahren allmählich die analoge Speicherung ersetzte und heute praktisch das beherrschende Verfahren ist. Die Digitaltechnik hat schließlich die Bearbeitbarkeit weiter verbessert und erweitert. Die in der analogen Technik zunächst deutliche Trennung von Technik für den professionellen und den Amateursektor wurde durch die Digitaltechnik relativiert oder aufgehoben. 371
Analoge Tonsignalspeicherung Wenn auch heute im professionellen Bereich fast ausschließlich digital aufgezeichnet wird, so gibt es derzeit weiterhin Marktnischen mit analogen Produktionen mit den dazugehörigen Geräten, die mit ihrem hohen Qualitätsstandard noch in großer Zahl vorhanden sind. Wohl der wichtigste Grund, das analoge Magnettonverfahren und die Aufzeichnung auf analoge Schallplatten in diesem Kapitel darzustellen, ist der enorme Bestand an Tondokumenten aus allen Bereichen der künstlerischen Musik- und Wortproduktion sowie von Tondokumenten aus allen Lebensbereichen. Sie füllen riesige Archive und werden durch Überspielung auf digitale Medien nach und nach ihrer Vergänglichkeit entzogen. Die analoge, die „schwarze Schallplatte” oder „Vinyl”, wie sie im Bereich der Popularmusik genannt wird, hat sich indessen nicht nur in Liebhaberkreisen einen festen Platz erhalten und wird auch in kleinen Stückzahlen weiter hergestellt, sie ist auch im Handling bei DJs weitgehend unersetzlich. Digitale Verfahren ermöglichen heute einen hohen Qualitätsgewinn bei der Restaurierung von Magnetband- und Schallplattenaufnahmen, diese Verfahren werden in Kap. 14.1.14 behandelt.
7.1
Magnetische Tonsignalspeicherung
Die Speicherung auf bewegte magnetische Tonträger, in erster Linie als Bänder, ist das wichtigste Verfahren der analogen Tonspeicherung bei der Produktion, in ihrer Anfangsphase auch der digitalen Speicherung. Die mechanische Speicherung analoger Signale auf Schallplatten ist demgegenüber das für die Verbreitung bevorzugte Verfahren.
7.1.1
Grundlagen des Magnetismus
7.1.1.1
Magnetisches Feld
Ein vom Strom durchflossener elektrischer Leiter wird von einem magnetischen Feld umgeben, dessen Stärke proportional der Stromstärke I ist. Die magnetischen Feldlinien veranschaulichen die Eigenschaften des Feldes; sie sind im Gegensatz zu den elektrischen Feldlinien stets in sich geschlossen. Ihre Dichte ist ein Maß für die Stärke des Feldes. Beim geraden Einzelleiter ergeben sich bei den Leiter senkrecht schneidenden Feldlinien konzentrische Kreise um den Leiter (Abb. 7/1). Wickelt man den Leiter zu einer Spule auf, so gleicht das Feld außerhalb der Spule dem Feld
Abb. 7/1. Magnetische Feldlinien des mit Strom durchflossenen Einzelleiters.
372
Magnetische Tonsignalspeicherung eines Stabmagneten; im Inneren der Spule entsteht ein annähernd homogenes Feld, die Feldlinien verlaufen hier also weitgehend parallel und mit demselben Abstand (Abb. 7/2).
Abb. 7/2. Magnetische Feldlinien einer von Strom durchflossenen Zylinderbzw. Ringspule.
Wird die Spule schließlich zu einem geschlossenen Ring zusammengebogen (Abb. 7/2), bleibt das Feld im Inneren des Rings nahezu homogen, das äußere Feld jedoch verschwindet, da die Feldlinien jetzt im Inneren der Spule geschlossene Kreise bilden können. Die Größe der magnetischen Feldstärke H im Inneren einer Spule ist proportional der Stromstärke I und der Windungszahl N der Spule, jedoch umgekehrt proportional zur Spulenlänge L. Die magnetische Feldstärke oder magnetische Erregung H wird in Ampere/Meter [A/m] gemessen.
H=
N⋅I L
7.1.1.2
H = magnetische Feldstärke oder magnetische Erregung [A/m] N = Windungszahl [dimensionslos] I = Stromstärke [A] L = Länge der Spule [m]
Magnetische Induktion
Bringt man in das Innere einer von Strom durchflossenen Spule einen Kern aus Eisen oder einem anderen „ferromagnetischen” Stoff, so ändert sich die Feldstärke H nicht, da sie bei gegebener Windungszahl und Spulenlänge nur von der Stromstärke abhängt. Die magnetische Flussdichte oder Induktion B hingegen erhöht dabei ihren Wert u. U. ganz erheblich. Sie ist der Feldstärke H proportional, wird aber auch von den magnetischen Eigenschaften des Materials bestimmt, das das Magnetfeld ausfüllt. Der Zusammenhang zwischen der Flussdichte B und der Feldstärke H ist
B = :r A :0 A H B = : AH mit : = :r A :0
B = magnetische Flussdichte oder magnetische Induktion [T], [Vs/m2] :r = relative Permeabilität oder Permeabilitätszahl [dimensionslos] :0 = magnetische Feldkonstante [Vs/Am] : = Permeabilität [Vs/Am] H = magnetische Feldstärke [A/m] 373
Analoge Tonsignalspeicherung Die magnetische Flussdichte B wird in Tesla (T) gemessen (I T = 1 Vs/m2), :r ist eine materialabhängige Zahl, :0 hingegen eine physikalische Konstante, die sog. magnetische Feldkonstante (= 1,256 A 10"6 Vs/A A m). Der gesamte magnetische Fluss K im Inneren einer Spule ergibt sich als Produkt aus der Flussdichte B und dem Querschnitt A des Kerns. K = magnetischer Fluss [Wb = Weber], [Vs] B = magnetische Flussdichte [T], [Vs/m2] A = Kernquerschnitt [m2]
K=BAA
Die relative Permeabilität oder Permeabilitätszahl :r bezeichnet die magnetischen Eigenschaften eines Materials, sie kann auch als magnetische Leitfähigkeit aufgefasst werden. Stoffe mit großer magnetischer Leitfähigkeit, wie z. B. Eisen, Nickel und Eisen-NickelLegierungen, heißen „ferromagnetische Stoffe", für sie ist :r » 1. Lässt man im ferromagnetischen Ringkern eines Tonkopfs einen schmalen Spalt, so entsteht darin eine sehr hohe Feldstärke. Denn die magnetische Leitfähigkeit der Luftstrecke ist sehr klein gegenüber der Leitfähigkeit des ferromagnetischen Materials. So liegt über der Strecke des Luftspaltes ein sehr hoher „magnetischer Spannungsabfall”. Wegen der geringen Leitfähigkeit im Spalt tritt sogar eine merkliche Anzahl von Feldlinien aus dem Spalt des Ringkerns heraus und kann in die magnetisierbare Schicht eines Bandes, das am Kopf vorbeigeführt wird, eindringen (Abb. 7/3).
Abb. 7/3. Magnetische Feldlinien im Spalt eines Ringkerns.
7.1.1.3
Hysteresisschleife
Lässt man nun von Null ausgehend einen immer stärkeren Strom durch eine Spule mit einem entmagnetisierten ferromagnetischen und geschlossenen Ringkern fließen, so steigt nach der Gleichung H = N A I/L (siehe oben) die magnetische Feldstärke H proportional zur Stromstärke I. Die magnetische Flussdichte oder Induktion B wächst ebenfalls, aber keineswegs linear. Der Zusammenhang von H und B ist in Abb. 7/4 als gestrichelte Kurve dargestellt. Sie wird auch „jungfräuliche Kurve” oder „Neukurve” genannt, da der Magnetisierungsvorgang bei unmagnetisiertem Material beginnt. Bei hoher Feldstärke H ergibt sich eine Sättigung des Materials; dort wächst B nur noch in dem Maße, wie dies auch ohne Kern der Fall wäre. Verringert man die Stromstärke I wieder, so kehrt B nicht auf der Neukurve in den Nullpunkt zurück, sondern bewegt sich auf der als „Hysteresisschleife” bezeichneten Kurve. Auch bei abgeschaltetem Strom, also bei H = 0, 374
Magnetische Tonsignalspeicherung bleibt eine magnetische Induktion Br, die sog. Remanenz, im Kern zurück. Um sie zu beseitigen, muss ein Strom in entgegengesetzter Richtung durch die Spule fließen. Erst wenn dieser die Feldstärke Hc erzeugt, verschwindet die Induktion des Kerns. Diese „Gegen”-Feldstärke Hc, hervorgerufen durch einen Strom in entgegengesetzter Richtung, löscht die Induktion. Sie heißt Koerzitivfeldstärke oder Koerzitivkraft. Steigert man die Stromstärke weiter in diese Richtung, so erreicht man wieder eine Sättigung des Kerns.
Abb. 7/4. Neukurve (gestrichelt) und Hysteresisschleife (durchgezogen).
Der nach weiterem Umpolen des Stroms zu beobachtende Verlauf entspricht der bereits geschilderten Kurve. Die so entstandene Schleife heißt - wie bereits erwähnt - Hysteresisschleife. Sie lässt erkennen, dass die magnetische Induktion B in einem ferromagnetischen Stoff nicht eindeutig durch die gerade einwirkende Feldstärke H bestimmt ist, sondern auch von der magnetischen Vorgeschichte des Materials abhängt. Die Form der Hysteresiskurve ist charakteristisch für die einzelnen Materialien. „Magnetisch harte” oder „hochkoerzitive” Stoffe haben breite, großflächige Schleifen mit hohen Werten für Remanenz Br und Koerzitivfeldstärke Hc, „magnetisch weiche” Stoffe besitzen dagegen schmale Schleifen, also niedrige Werte der Koerzitivfeldstärke (Abb. 7/5). Magnetisch harte Materialien werden in Lautsprechern, in Tauchspulmikrofonen und zur Beschichtung von Magnetbändern verwendet, magnetisch weiche Stoffe dagegen in Übertragern, Magnetköpfen, Relais und Elektromagneten. Da die von der Hysteresisschleife umschlossene Fläche ein Maß ist für die zur Ummagnetisierung erforderliche Arbeit, wählt man überall dort, wo eine Wechselmagnetisierung auftritt, z. B. bei Übertragern und Magnetköpfen, Materialien mit möglichst schmaler Schleife und damit geringer Ummagnetisierungsarbeit; die Eisenverluste können so niedrig gehalten werden. Wo es aber darauf ankommt, eine Magnetisierung zeitlich lange zu erhalten und vor einer Entmagnetisierung zu schützen, wie beim Magnetband, sind magnetisch harte Materialien geeignet. Es handelt sich dabei also um Permanentmagnete. Die Remanenz kann wieder gelöscht werden durch ein starkes magnetisches Wechselfeld, das langsam abklingt bzw. aus dem das magnetisierte Material langsam entfernt wird. Auf diese 375
Analoge Tonsignalspeicherung Weise wird die durchlaufene Hysteresisschleife immer kleiner und schnürt sich schließlich ganz um den Nullpunkt zusammen. Auf diese Weise kann ein magnetisiertes Band gelöscht werden.
Abb. 7/5. Hysteresisschleife verschiedener Materialien.
7.1.2
Magnettonverfahren
Das Magnettonverfahren ist das Verfahren, mit dem Schallsignale oder andere Signale auf magnetisierbare Materialien aufgezeichnet, gespeichert und wieder ausgelesen werden. [7.1 bis 7.4] Das seit der Jahrhundertwende im Prinzip bekannte Magnettonverfahren wurde von C. Stille weiterentwickelt; 1923 begann die Fertigung von Stahltonmaschinen durch die Vox-Gesellschaft nach dem Stille-Verfahren. Die bald darauf auch im Rundfunk verwendeten Stahlbänder waren 0,8 mm dick und 3 mm breit; bei einer Bandgeschwindigkeit von 1,5 m/s hatte eine Bandspule bereits 30 min Spielzeit. Die Qualität der Stahltonaufzeichnung war der Aufzeichnung auf Wachsplatten unterlegen. Verbesserungen brachten die Einführung eines unmagnetischen, mit einer magnetisierbaren Schicht überzogenen Tonträgers (P. Pfleumer, 1928) und die Entwicklung ringförmiger Tonköpfe (E. Schüller, 1933). 1938 wurde das Magnettonverfahren in den deutschen Rundfunkanstalten eingeführt. Die Bandbreite betrug wie noch heute ¼ in (in = inch, engl. Bez. für Zoll, abgekürzt auch “), die Bandgeschwindigkeit 30 in entsprechend rund 76 cm/s. Aber erst die Entdeckung der hochfrequenten Vormagnetisierung durch v. Braunmühl und Weber 1941 machte das Verfahren auch für hochwertige Musikaufnahmen geeignet. Der erreichte Entwicklungsstand des Magnettonverfahrens wurde international erst nach 1945 bekannt. 1952 fand in Hamburg eine UER-Fachtagung zur magnetischen Aufzeichnung statt, von der die Initiative zu einer internationalen Normung des Verfahrens durch CCIR ausging; damit war die Grundlage für einen internationalen Bandaustausch geschaffen. In den folgenden 376
Magnetische Tonsignalspeicherung Jahren konnte das Verfahren dann in Zusammenarbeit der Entwicklungsstellen des Rundfunks und der Industrie noch erheblich verbessert werden. 7.1.2.1
Prinzip
Bei der magnetischen Schallspeicherung (Begriffe in DIN 45 510) erfolgt die Aufzeichnung der Information dadurch, dass ein magnetisierbares Material (Tonträger) vor dem Spalt eines Sprechkopfes (Aufnahmekopf) vorbeigeführt wird, in dessen Wicklung ein dem aufzeichnenden Vorgang entsprechender Wechselstrom fließt. Das dadurch vor dessen Spalt erzeugte Wechselfeld verursacht im Tonträger eine bleibende Magnetisierung örtlich wechselnder Größe und Richtung. Wird ein so „besprochener Tonträger” vor dem Spalt eines Hörkopfs (Wiedergabekopf) vorbeigeführt, so induziert das von dem bewegten Tonträger ausgehende magnetische Wechselfeld in der Hörkopfwicklung eine Spannung. Bevor das Band aber an den Sprech- und Hörkopf gelangt, wird vor der Aufnahme mit einem Löschkopf eine eventuell vorhandene Magnetisierung gelöscht (Abb. 7/6). Von den verschiedenen Tonträgern hat das Magnettonband in der Tonstudiotechnik die größte Bedeutung. Daneben spielt nur noch der Magnetfilm, ein Magnetband größerer Breite mit Filmperforation, das aus mechanischen Gründen einen stärkeren Träger besitzt, im Bereich der bildsynchronen Tonaufzeichnung eine nennenswerte Rolle. Grundlage der Verwendung des Magnetbandes im Tonstudio ist die allgemeingültige Festlegung der Merkmale des aufgezeichneten Signals, also des Wiedergabekanals einer Magnettonanlage. Die entsprechenden Normungen gewährleisten den uneingeschränkten Austausch bespielter Bänder. Sie sind in den verschiedenen DIN-Bezugsbändern, die mit Messsignalen bespielt sind, und den Referenzleerbändern festgelegt. Mit der einseitigen Normung des Wiedergabekanals konnten im Rahmen der bestehenden Normung stets Verbesserungen an Tonbändern, aber auch unterschiedliche Bänder mit speziellen Eigenschaften nach entsprechenden Einmessungen verwendet werden. Wegen der Festlegungen des Wiedergabekanals hatten Weiterentwicklungen also keine Auswirkungen auf den Abspielbetrieb.
Abb. 7/6. Prinzip der Magnettonaufzeichnung.
377
Analoge Tonsignalspeicherung 7.1.2.2
Magnettonbänder
Maße und Bandgeschwindigkeiten Magnettonbänder nach DIN 45 512 bestehen aus einem in der Regel 6,30 mm breiten und etwa 8 bis 40 :m dicken Träger aus Kunststoff, der mit einer 10 bis 15 :m, bei hoch aussteuerbaren Bändern bis zu 25 :m dicken Schicht aus kleinsten Teilchen magnetisierbaren Materials (Eisenoxid, bei Kassettenbändern auch Chromdioxid, Reineisen bzw. Eisen-Chrom-Mischungen) beschichtet ist. Die Teilchen sind in ein Bindemittel („Lack”) eingebettet und nehmen 25 bis 35 % des Volumens der Beschichtung ein (Volumenfüllfaktor). Ihrer Gesamtdicke nach werden die Bänder eingeteilt in (DIN 45 511): Normalbänder ca. 50 :m, Langspielbänder ca. 35 :m, Doppelspielbänder ca. 25 :m. Die 6,30 mm (+ 0/-0,06 mm) breiten Bänder werden auch ¼-Zoll-Bänder genannt, da das Nennmaß ursprünglich vom Zollmaß abgeleitet wurde (1/4 in = 6,35 mm). Daneben werden auch Bänder verwendet, deren Breite ein ganzzahliges Vielfaches von ¼-Zoll beträgt, insbesondere sog. ½- und 1-Zoll-Bänder (12,70 mm und 25,40 mm). Neben der Aufzeichnung in Mono-Vollspur wird im Studiobetrieb v. a. in sog. Stereospur aufgezeichnet. Demgegenüber ist Zweispurbetrieb bei um etwa 1 dB geringerem Störabstand zwar auch für die Stereoaufzeichnung geeignet, erlaubt aber Monobetrieb mit gutem Übersprechabstand oder auch Time-code- oder Steuerspuraufzeichnungen in der größeren Trennspur (Abb. 7/7). Der Abstand der Aufzeichnungsspuren beträgt bei Zweispur 2,0 mm, bei Stereospur 0,75 mm. Wegen der Ähnlichkeit und Zusammengehörigkeit der Stereospuren stört hier das höhere Übersprechen nicht. Die Abmessungen der Spuren auf Bändern für Mehrspuraufnahmen zeigt Tab. 7/1. Bei Heimtongeräten erfolgt keine Unterscheidung zwischen Stereo- und Zweispurgeräten; der Spurabstand beträgt hier stets 2 mm. Bei der Vierspuraufzeichnung auf 6,3 mm breites Band liegt der Spurabstand ebenfalls bei 0,75 mm, die Spurbreite bei jedoch nur 1 mm; dadurch ist der Störabstand verglichen mit der 2,75 mm-Spur merklich geringer (ca. 4 dB). Die Bandgeschwindigkeiten sind genormt (DIN 15 573), die bevorzugte Bandgeschwindigkeit im Tonstudio beträgt 38,1 cm/s entsprechend 15 in/s. Diese Bandgeschwindigkeit war zunächst aus qualitativen Gründen notwendig - nachdem in der Anfangszeit der magnetischen Aufzeichnung eine Geschwindigkeit von 76,2 cm/s üblich war -, erwies sich aber auch für die Bearbeitung von Tonaufnahmen mittels Bandschnitt als besonders geeignet. Aus wirtschaftlichen Gründen kommt schließlich die Bandgeschwindigkeit 19.05 cm/s entsprechend 7,5 in/s in Betracht, wenn keine oder nur geringe Bandbearbeitungen notwendig sind; in Verbindung mit einem leistungsfähigen Kompanderverfahren ist die Tonqualität durchaus befriedigend. Die Tonhöhenschwankungen liegen heute bei 0,04 % für 38,1 cm/s und 0,06 % für 19,05 cm/s (DIN 45 507). Studiobänder werden i. Allg. auf freitragenden Wickelkernen in einer Länge von 1000 m oder 730 m geliefert, Reportagebänder auf Dreizackspulen auf 250-m- oder ebenfalls 1000-mWickeln.
378
Magnetische Tonsignalspeicherung
Abb. 7/7, Spurlagen und -abmessungen beim ¼-Zoll-Band (Blick auf die Schichtseite) nach DIN 45 511, Tl. 2.
Tab. 7/1. Mehrspurbänder, Breite der Spuren und Trennspuren nach DINIEC 94, Tl. 6. Breite des Bandes mm Zoll 12,7 ½ 25,4 1 25,4 1 50,8 2 50,8 2 50,8 2
Zahl der Spuren
Breite der Spuren
Breite der Trennspuren
4 4 8 16 24 32
1,75 mm 4,45 mm 1,75 mm 1,75 mm 1,00 mm 0,70 mm
1,55 mm 2,20 mm 1,55 mm 1,475 mm 1,13 mm 0,88 mm
Träger Der Träger bestimmt weitgehend die mechanischen Eigenschaften des Bandes (DIN 45 522). Als Trägermaterial wird wegen der geforderten hohen Festigkeit und Schmiegsamkeit vor allem Polyester (PE) verwendet, früher auch Polyvinylchlorid (PVC). Durch kräftiges Vorrecken in Quer- und Längsrichtung erreichen moderne Bänder so hohe Festigkeitswerte, dass Bandrisse und -dehnungen praktisch nicht mehr auftreten. Als Studioband wird i. Allg. Normalband mit einer Schichtdicke von ca. 15 bis 20 :m und einer Trägerdicke um 30 :m verwendet. Für Reportagegeräte eignet sich wegen der bei gleicher Spieldauer erforderlichen kleineren Wickel Langspielband mit einer Schichtdicke von ca. 10 :m und einer Trägerdicke von ca. 25 :m. Beschichtung Die magnetischen Teilchen der Schicht bestehen bei Studiobändern aus Eisenoxid. Die Teilchen werden auf eine Größe unter 1 :m gemahlen. Die relative Permeabilität :r der 379
Analoge Tonsignalspeicherung Schicht liegt bei etwa 1,5 bis 3. Zur Erhöhung der Aussteuerbarkeit werden die Bänder mit einer magnetischen Vorzugsrichtung hergestellt, indem das Band unmittelbar nach der Beschichtung in flüssigem Lackzustand einem kräftigen magnetischen Gleichfeld in Längsrichtung ausgesetzt wird. Dadurch kann die Remanenz in Längsrichtung doppelt so groß wie in Querrichtung werden. Bei kleineren Bandgeschwindigkeiten können Bänder mit dünnerer Beschichtung verwendet werden, da eine dicke Beschichtung nur für die Aufzeichnung großer Wellenlängen vorteilhaft und die aufgezeichnete Wellenlänge der Bandgeschwindigkeit proportional ist. Diese Zusammenhänge werden physikalisch mit der sog. wirksamen Schichtdicke bezeichnet. Gleichzeitig versucht man den Volumenfüllfaktor zu erhöhen und durch eine polierte Oberfläche und dünne, schmiegsame Träger den Kontakt des Bandes mit dem Kopf zu verbessern. Bei kleinen Bandgeschwindigkeiten (4,76 und 9,5 cm/s) sind die Wellenlängen der auf dem Band aufgezeichneten Modulation sehr gering; schon bei 38 cm/s entspricht einer Frequenz von 15 kHz eine Wellenlänge von 25 :m, bei 4,76 cm/s beträgt die Wellenlänge gerade ca. 3 :m. Bestmöglicher Kopf-Bandkontakt ist deshalb Voraussetzung für eine gute Qualität der Bandaufzeichnung; sie wird durch hohe Elastizität des Trägers, also besonders dünne Träger, und durch besonders glatte Oberflächen erreicht. Durch die Verwendung von Chromdioxid oder Reineisen kann der Füllfaktor, also die Packungsdichte der Magnetschichten, erheblich gesteigert werden. Dies gilt insbesondere für das Reineisenband, dessen magnetische Partikel längs ausgerichtete Nadeln sind. 7.1.2.3
Aufzeichnungsvorgang
Fließt durch die Wicklung eines Sprechkopfs ein Wechselstrom, so entsteht zwischen den Polschuhen des Kerns im Arbeitsspalt ein entsprechendes magnetisches Wechselfeld. Wegen der hohen Permeabilität des Eisenkerns, die man als hohe magnetische Leitfähigkeit verstehen kann, und der geringen Permeabilität des Luftspalts, die man als geringe magnetische Leitfähigkeit verstehen kann, verursacht der Spalt einen hohen magnetischen Widerstand, der ein kräftiges magnetisches Streufeld zur Folge hat. Begünstigt durch eine starke Verjüngung der Polschuhe am Spalt treten Feldlinien auch aus dem Spalt heraus und dringen in die Magnetschicht des vorbei gleitenden Bandes ein (Abb. 7/8) [7/4].
Abb. 7/8. Spaltfeld.
380
Magnetische Tonsignalspeicherung Die magnetischen Partikel des Bandes, das vor dem Spalt vorbeigeführt wird, behalten einen remanenten Fluss. So entsteht auf dem Band ein Abbild des Wechselfeldes vor dem Spalt. Die Wellenlänge 8 einer auf das Band gebrachten Schwingung ist direkt proportional zur Bandgeschwindigkeit v und umgekehrt proportional zur Frequenz f des Wechselfeldes:
λ=
v f
8 = Wellenlänge [cm] v = Bandgeschwindigkeit [cm/s] f = Frequenz [Hz]
Bei v = 38 cm/s beträgt die aufgesprochene Wellenlänge also zwischen etwa 1 cm bei 40 Hz und 25 :m bei 15 kHz. Das Band wird v. a. in Längsrichtung magnetisiert, es ergibt sich aber auch eine senkrecht zur Bandoberfläche stehende Komponente. Da für die nachfolgende Abtastung mit einem weiteren Ringkopf hauptsächlich die Längskomponente wirksam ist, wird bei der folgenden Betrachtung nur diese Komponente berücksichtigt. Abb. 7/9 zeigt schematisch anhand eines Stabmagnetenmodells das auf das Band aufgezeichnete Signal.
Abb. 7/9. Magnetisch aufgezeichnetes Signal.
Ausgangspunkt aller Überlegungen zum Aufnahmevorgang ist die Remanenzkurve des Magnettonbandes {Abb. 7/10, dick ausgezogen). Mit Annäherung eines Bandabschnitts an den Spalt, der zunächst nur ein stationäres Magnetfeld besitzen soll, folgt die magnetische Flussdichte oder Induktion B auf dem Band zunächst der Neukurve (Abb. 7/10, gestrichelt), da die Feldstärke H mit sich verringerndem Abstand zunimmt. 381
Analoge Tonsignalspeicherung
Abb. 7/10. Magnetisierung des Magnetbands.
Abb. 7/11. Direktaufzeichnung ohne Vormagnetisierung.
Nach Überschreiten des Maximums der Feldstärke Hmax. 1 kehrt die Flussdichte B auf die B-Achse, entsprechend H = 0, zurück. Für H = 0 ist der betreffende Bandabschnitt auch bereits am Spalt vorbei geglitten. Auf dem Band zurückgeblieben ist dabei die remanente Induktion Br l. Verfolgt man diesen Vorgang für verschiedene, aber immer kleinere Feldstärken Hmax 2, Hmax 3 usw., so ergeben sich die Remanenzen Br 2, Br 3 usw. Werden alle Punkte Hmax /Bmax miteinander verbunden, so erhält man die Remanenzkurve (dick ausgezogen), die somit angibt, wie die Remanenz auf einem vorher entmagnetisierten Band von der jeweils höchsten einwirkenden Feldstärke H abhängt. 382
Magnetische Tonsignalspeicherung Da diese Kurve sowohl in der Umgebung des Nullpunkts als auch an ihren Enden stark gekrümmt ist, besteht eine ausgesprochene Nichtlinearität zwischen dem Aufsprechstrom und der remanenten Magnetisierung, die damit untragbare Verzerrungen erzeugt; die Direktaufzeichnung (Abb. 7/11) kommt also für die analoge magnetische Tonaufzeichnung nicht in Betracht, für die digitale Aufzeichnung sehr wohl. Es gibt grundsätzlich zwei Möglichkeiten, die Verzerrungen auf ein akzeptables Maß zu reduzieren: Man verlegt entweder den Arbeitspunkt in den geraden Teil der Remanenzkurve (Gleichstromvormagnetisierung) bei entsprechend reduzierter Nutzamplitude oder man linearisiert die Remanenzkurve durch HFVormagnetisierung. Das zweite Verfahren hat erst den heutigen hohen Stand der analogen Magnettontechnik ermöglicht (v. Braunmühl, Weber, 1941). Bei der analogen Schallaufzeichnung wird heutzutage ausschließlich dieses Verfahren eingesetzt. Aufzeichnung mit HF-Vormagnetisierung Die bei der Aufzeichnung mit HF-Vormagnetisierung ablaufenden Vorgänge sind sehr kompliziert und werden von einer Vielzahl von Faktoren mitbestimmt. Eine vollständige theoretische Beschreibung dieses Aufnahmeverfahrens ist schwierig. Es gibt zwar verschiedene Modellvorstellungen über den Ablauf des Aufnahmevorgangs, keine wird aber allen Erscheinungen, die dabei auftreten, voll gerecht. Teils gehen diese Modellvorstellungen von der Hysteresiskurve eines Magnettonbandes aus [7.6], [7.7], [7.8], [7.,9], [7.10], [7.11], teils von den Vorgängen in den einzelnen Magnetpartikeln, deren statistische Überlagerung dann den gesamten Aufnahmevorgang beschreibt [7.10], [7.11]; trotz des Fehlens einer überzeugenden Theorie beherrscht man in der Praxis die Technologie des Aufnahmevorgangs mit HFVormagnetisierung. Dem NF-Strom des Sprechkopfes wird ein sinusförmiger HF-Strom mit einer Frequenz von 80 bis 150 kHz überlagert; diese HF wird also nicht moduliert, sondern der NF zuaddiert. Die Amplitude dieses HF-Stroms ist ca. zehnmal größer als die des NFStroms bei Bezugspegel. Die Wellenlänge der HF-Aufzeichnung ist dabei jedoch so gering, dass sie infolge von Selbstentmagnetisierung und Spaltdämpfungsverlusten (siehe unten) vom Hörkopf praktisch nicht mehr abgetastet werden kann. Neben den Modellvorstellungen von Preisach [7.12] und Westmijze [7.13] erlaubt die Remanenzkurventheorie nach Camras eine einigermaßen anschauliche Darstellung der Aufnahmevorgänge, wenn auch keine theoretische Erklärung; sie liegt den folgenden Ausführungen zugrunde. Die Remanenzkurve hat drei verschiedene Bereiche (vgl. Abb. 7.10): Im Bereich des Nullpunkts besteht zwischen der Remanenz Br und der einwirkenden Feldstärke H ein nichtlinearer Zusammenhang. Es folgen symmetrisch zum Nullpunkt zwei Bereiche linearer Abhängigkeit. Daran schließen sich an den beiden Enden der Kurve wieder Bereiche mit nichtlinearem Zusammenhang an. Bei der Wechselstromvormagnetisierung gelingt es, in beiden linearen Bereichen zu arbeiten, die beiden linearen Bereiche praktisch zu einer einzigen geraden Kennlinie zusammenzufügen. Die HF-Vormagnetisierung verschiebt die NFModulation bis jeweils in den linearen Kurvenbereich hinein. Aufgezeichnet wird damit eine hochfrequente Schwingung, deren beide Einhüllende im Rhythmus der Tonfrequenz wie in Abb. 7/12 dargestellt schwanken. Die HF wird dabei verzerrt, die NF bleibt unverzerrt. Da bei der Wiedergabe aber wegen der geringen Wellenlänge der HF-Modulation von wenigen :m nicht genau der Verlauf der HF-Modulation abgetastet werden kann, findet eine Mittelwertbildung aus den beiden Umhüllenden statt (Abb. 7/12). 383
Analoge Tonsignalspeicherung Diese gemittelte, abgetastete Modulation BNF liegt symmetrisch zum Nullpunkt und erscheint also gerade im Bereich größter Nichtlinearität der Remanenzkurve. D. h. aber praktisch, dass gerade in diesem Bereich durch die HF-Vormagnetisierung eine Linearisierung stattfindet. Man kann das dadurch darstellen, dass man entsprechend der Mittelwertbildung bei der Abtastung zwei hypothetische Remanenzkurven Br l und Br 2 konstruiert und danach die gemittelte Kurve BNF, Arbeitskennlinie genannt (Abb. 7/13, dick ausgezogen). Ein Nachteil der Darstellung nach der Remanenzkurventheorie ist, dass hierbei nicht das tatsächliche Amplitudenverhältnis von HF zu NF berücksichtigt wird.
Abb. 7/12. Aufsprechvorgang mit HF-Vormagnetisierung.
Abb. 7/13. Darstellung der Arbeitskennlinie nach Camras [7.7].
Verluste durch Selbstentmagnetisierung Im Magnetband tritt schon unmittelbar nach der Aufzeichnung eine entmagnetisierende Wirkung dadurch auf, dass Abschnitte entgegengesetzter Magnetisierungsrichtungen dicht aufeinander folgen. Stellt man sich dies in einem vereinfachten Modell so vor, dass das Band aus einer Kette aneinander gereihter Permanentmagnete wechselnder Polarität besteht, so wird verständlich, dass die Verluste bei gegebener Banddicke mit kleiner werdender Wellenlänge 384
Magnetische Tonsignalspeicherung der Aufzeichnung bzw. mit steigender Frequenz infolge Selbstentmagnetisierung ansteigen müssen. Man bezeichnet dies auch als Bandflussdämpfung. Hochkoerzitive Bänder, bei denen zur Löschung einer Magnetisierung starke Gegenfelder einwirken müssen, sind dieser entmagnetisierenden Wirkung weniger ausgesetzt. Moderne Bänder, besonders für kleine Bandgeschwindigkeiten, haben deshalb hohe Koerzitivfeldstärken. 7.1.2.4
Elektroakustische Eigenschaften von Magnetbändern
Die Anforderungen an Magnettonbänder richten sich nach der Geräteklasse, für die ein Magnettonband bestimmt ist. Man unterscheidet die Geräteklassen hauptsächlich nach den Bandgeschwindigkeiten: Studiogeräte 38 und 19s, Heimgeräte 19 h, 9,5 und 4,76 (s = Studio, h = Heimton), Kassettengeräte 4,76 und HiFi-Kassettengeräte 4,76. Die elektroakustischen Eigenschaften des Bandes, die für die Qualität einer Tonaufnahme und -archivierung wesentlich sind, werden v. a. durch die Aussteuerbarkeit für hohe und tiefe Frequenzen, den Geräuschspannungsabstand und die Kopierdämpfung bestimmt. Die Qualität eines Bandes stellt einen Kompromiss zwischen diesen Größen dar. In der Regel geht eine Verbesserung einer dieser Größen zu Lasten einer oder der beiden anderen. Die Eigenschaften eines Bandes werden in einem Datenblatt erfasst. Im Einzelnen werden dabei die unten genannten Messgrößen angegeben, und zwar einmal als Werte, die für den sog. ARD-Arbeitspunkt gelten, zum anderen als Diagramm in Abhängigkeit vom HF-Vormagnetisierungsstrom. Die Magnetbandgeräte müssen auf die jeweils verwendete Bandsorte eingemessen werden und zwar durch die jeweils optimale Einstellung des HF-Vormagnetisierungsstroms, des sog. Arbeitspunkts, und des NF-Aufsprechstroms. Für detaillierte Einmessanweisungen siehe Kap. 10.8. Einfluss des Vormagnetisierungsstroms Die Qualität der magnetischen Aufzeichnung hängt wesentlich von der richtigen Bemessung des Vormagnetisierungsstroms ab. Abb. 7/14 zeigt am Beispiel eines Studiobandes für 38 cm/s die Abhängigkeit der wichtigsten für das Band charakteristischen elektroakustischen Daten vom Vormagnetisierungsstrom. Bezugswert (0 dB) der Abbildung ist der in den öffentlichrechtlichen Rundfunkanstalten (ARD) für das Band empfohlene Wert. Die elektroakustischen Größen werden unten definiert. Die empfohlene Einstellung des Arbeitspunkts führt zu geringen Verzerrungen - große Dämpfung des kubischen Klirrfaktors - und niedrigem Rauschpegel- großer Modulationsrauschspannungsabstand -, bei manchen Bändern allerdings auf Kosten einer an sich möglichen besseren Aussteuerbarkeit bei hohen Frequenzen. Die richtige Einstellung des Arbeitspunkts hängt vom Bandtyp ab, aber auch von der Sprechkopfspaltbreite und vom Kopfkernmaterial. Eine Deutung der zunächst empirisch gefundenen, komplexen Zusammenhänge ist näherungsweise möglich [7.1], [7.10]. Auch die Frequenz des Vormagnetisierungsstroms beeinflusst die Qualität der Aufnahme. Für hochwertige Aufzeichnungen wird der Bereich von 80 bis 150 kHz bevorzugt, um auch bei hoher Aussteuerung hörbare Differenztöne zwischen HF und NF zu vermeiden. Je höher die Frequenz ist, umso größer muss jedoch wegen der frequenzabhängigen Verluste im Lösch- und Sprechkopf der HF-Energieaufwand werden.
385
Analoge Tonsignalspeicherung
Messbedingungen: Bandgeschwindigkeit: 38,1 cm/s Spurbreite (Wiedergabekopf): 2,75 mm Sprechkopf-Spaltbreite: 18 :m Wiedergabe-Entzerrung: 35 :s Bezugspegel (1 kHz): 510 nWb/m ARD-Arbeitspunktdefinition: k3 minimum Arbeitspunkt: + 1,0 dB (bezogen auf ARD-Referenzleerband) BP APARD A1 A10 A14 ad3 E1 E10 E14 k3/320 k3/510 GR RC RD A1/RC
A1/RD
KO
Bezugspegel ARD-Arbeitspunkt Aussteuerbarkeit bei 1 kHz, k3 = 3 % max. Aussteuerbarkeit bei 10 kHz max. Aussteuerbarkeit bei 14 kHz Differenztondämpfung (DIN 45 403) Empfindlichkeit bei 1 kHz Empfindlichkeit bei 10 kHz Empfindlichkeit bei 14 kHz Klirrdämpfung bei 320 nWb/m Klirrdämpfung bei 510 nWb/m Gleichfeldrauschspannungsabstand, bewertet Störspannungsabstand rel. zu BP, bewertet nach CCIR 468-1 Störspannungsabstand rel. zu BP, bewertet nach DIN 45 405 Störspannungsabstand (Dynamik) rel. zur Aussteuerbarkeit bei 1 kHz nach CCIR Störspannungsabstand (Dynamik) rel. zur Aussteuerbarkeit bei 1 kHz nach IN 45 405 Kopierdämpfung
Abb. 7/14. Abhängigkeit einiger elektroakustischer Bandeigenschaften von der Größe des Vormagnetisierungsstroms (Erläuterung der Größen im Text).
Vormagnetisierungsstrom und Arbeitspunkt Der Vormagnetisierungsstrom wird zunächst so eingestellt, dass der maximale NF-Ausgangspegel erreicht wird. In der Studiogeräteklasse wird dann der Vormagnetisierungsstrom weiter erhöht, bis der Ausgangspegel um 2 dB abfällt. Die Aufzeichnungsfrequenz beträgt 10 kHz, 386
Magnetische Tonsignalspeicherung ca. 20 dB unter Vollaussteuerung. Der Unterschied im Strombedarf für den Prüfling gegenüber diesem Strom für das DIN-Referenzleerband wird als Vormagnetisierungsstrombedarf in dB angegeben. Um vergleichbare Ergebnisse zu erhalten, werden Bandmessungen mit dem Vormagnetisierungsstrom des DIN-Referenzleerbandes vorgenommen. Im Betrieb sind die Studiomaschinen jedoch oft auf einen davon abweichenden Wert einzustellen. Der optimale Wert, der bei unterschiedlichen Bandsorten anders sein kann, liegt dort, wo Klirrfaktor und Gleichfeldrauschen möglichst gering sind. Der Empfindlichkeitsabfall für den empfohlenen Arbeitspunkt AE10 gibt deshalb an, um wie viel dB der Ausgangspegel bei der Einstellung des Vormagnetisierungsstroms nach dem Maximum abfallen soll. Manchmal wird auch ein „empfohlener Arbeitspunkt” angegeben. Hierunter versteht man die Abweichung des Vormagnetisierungsstroms vom DIN-Arbeitspunkt beim DIN-Referenzleerband, also in der Studiogeräteklasse der Unterschied gegenüber dem „2-dB-Abfall”. Bezugspegel Nach DIN 45 513 ist der Bezugswert des Bandflusses bei Studiobändern mit den Bandgeschwindigkeiten 38 cm/s, 19 cm/s und 76 cm/s auf 320 nWb/m entsprechend 320 pW/mm festgelegt. Dieser Wert wurde als Kompromiss zwischen der Forderung nach einem möglichst großen Störabstand und möglichst geringen Verzerrungen gewählt. Bei Einführung der Stereofonie und der damit verbundenen Reduzierung der Spurbreite von 6,3 auf 2,75 mm wurde im öffentlich-rechtlichen Rundfunk der Bezugswert um 4,05 dB auf 514 nWb/m erhöht. Dies musste geschehen, um die Lautstärke einer Stereoaufnahme derjenigen einer Monoaufnahme, die über dieselbe Wiedergabeanordnung gehört wird, anzugleichen (+ 3 dB) und die Leerspur auf dem Band auszugleichen (+ 1,05 dB). Das war möglich, weil inzwischen auch die Aussteuerbarkeit der Bänder verbessert werden konnte. Dieser erhöhte Bezugswert von 514 nWb/m wird ARD-Bezugswert genannt und ist die Aussteuerungsgrenze entsprechend 6 dBu, 0 dB, 100 % bzw. 1,55 V. Für Bandmessungen gilt aber weiterhin der Bezugswert 320 nWb/mm. Mit Einführung des Rauschverminderungssystems Telcom c4 wurde der Störspannungsabstand ganz erheblich vergrößert. Deshalb wurde in fast allen Rundfunkanstalten der Bezugswert für Aufnahmen mit Telcom wieder auf den genormten Bezugswert 320 nWb/m zurückgenommen. Die Herabsetzung des Pegels bei Telcom-Aufnahmen um 4 dB wird in dem Rauschunterdrückungssystem vorgenommen. Zu Lasten eines an sich größer möglichen Störabstands wird sowohl das Maß an Verzerrungen reduziert als auch der Abstand zwischen Höhen- und Tiefenaussteuerbarkeit. Für Heimton- und Kassettenbänder gelten niedrigere Bezugswerte nach DIN 45 513: für die Bandgeschwindigkeiten 9,5 cm/s und für 4,76 cm/s 250 nWb/m. Frequenzgang In der Studiogeräteklasse wird der Frequenzgang von Magnetbändern als Unterschied des Ausgangspegels des Prüflings zum Ausgangspegel des DIN-Referenzbandes bei der Aufzeichnung von 14 kHz angegeben. Das verwendete Magnetbandgerät muss so eingemessen sein, 387
Analoge Tonsignalspeicherung dass der Frequenzgang bei der Aufzeichnung auf das Referenzband geradlinig ist. Der Aufzeichnungspegel soll etwa 20 dB unter Vollaussteuerung liegen. Aussteuerbarkeit Die Aussteuerbarkeit eines Bandes ist der maximal mögliche Wiedergabepegel bei der angegebenen Frequenz (1, 10 und 14 kHz) relativ zum jeweiligen Bezugspegel (514 oder 320 nWb/m). Das Verhalten des Bandes bezüglich Aussteuerbarkeit zeigt gerade entgegengesetztes Verhalten bei 1 kHz und bei hohen Frequenzen, wenn der Vormagnetisierungsstrom erhöht wird. Die Lage des Arbeitspunkts stellt auch diesbezüglich einen Kompromiss dar (Abb. 7/14). Bei 1 kHz wird die Aussteuerbarkeit angegeben als Unterschied zwischen dem Eingangspegel, der einen Klirrfaktor von 3 % vom Band erzeugt, und dem Bezugspegel. Der gefundene Wert gibt den Bandfluss relativ zum Bezugsband, also relativ zu 320 nWb/m an und wird als Bandfluss bei Vollaussteuerung bezeichnet. Da hohe Frequenzen (10 bis 14 kHz) wegen der geringeren wirksamen Schichtdicke wesentlich niedrigere Wiedergabepegel ergeben, ist die Aussteuerbarkeit bei den hohen Frequenzen (kleinen Wellenlängen) von besonderer Bedeutung. Dazu wird das zu prüfende Band mit dem DIN-Referenzband verglichen: In der Studiogeräteklasse wird bei einer Frequenz von 14 kHz die Eingangsspannung bei der Aufnahme jeweils so weit erhöht, bis die Ausgangsspannung des Wiedergabeverstärkers nicht mehr ansteigt. Der Pegelunterschied zwischen dem Prüfling und dem Leerteil des DIN-Referenzbandes wird dann als maximale Aussteuerbarkeit bei hohen Frequenzen bezeichnet. Diese Angabe dient nur Bandvergleichen. Praktisch nutzbar ist die Aussteuerbarkeit bei hohen Frequenzen nicht, weil längst die Sättigungsmagnetisierung erreicht ist mit all ihren hörbaren Verzerrungs- und Begrenzungserscheinungen. Auf das Magnetband kann im praktischen Aufnahmebetrieb bei hohen Frequenzen höchstens bis 4 dB unter dem Wert für maximale Aussteuerbarkeit aufgezeichnet werden. Empfindlichkeit Der Vormagnetisierungsstrom, der für das jeweilige Bezugsband nach DIN 45 513 notwendig ist, erzeugt bei einigen Bandsorten einen anderen Ausgangspegel als beim DIN-Referenzband. Der Unterschied dieses Ausgangspegels gegenüber dem des Referenzbandes wird als Empfindlichkeit bezeichnet. In der Studiogeräteklasse beträgt die Messfrequenz 1 kHz bei einem Pegel von etwa 20 dB unter Vollaussteuerung; gemessen wird allerdings bei gleichem Strom auch bei den Frequenzen 10 und 14 kHz. Nichtlineare Verzerrungen Da die Remanenzkennlinie symmetrisch zum Nullpunkt ist, entstehen als Verzerrungsprodukte zunächst nur die ungeradzahligen Harmonischen, v. a. k3. Wird jedoch durch eine Unsymmetrie des Vormagnetisierungsstroms (Gleichstromkomponente) der Arbeitspunkt verschoben, so treten zusätzlich geradzahlige Harmonische auf. Eine magnetische Remanenz der Köpfe führt ebenfalls zu geradzahligen Verzerrungskomponenten. k3 liegt bei modernen Bändern auch bei einem Bezugspegel von 514 nWb/m unter 1 %, bei einem Bezugspegel von 320 nWb/m unter 0,5 %. Nichtlineare Verzerrungen werden auch als Klirrdämpfung ak in dB 388
Magnetische Tonsignalspeicherung angegeben (Differenz von Pegel des Gesamtsignals und des Anteils der Verzerrungen); demnach liegt ak3 bei etwa 40 dB, ak2 soll über 50 dB liegen. Betriebsrauschen Bei einem neuen oder gut entmagnetisierten Band sind die Magnetisierungsrichtungen der einzelnen Partikel statistisch verteilt. Die Magnetisierung kompensiert sich daher in kleinen Bereichen weitgehend; das am Hörkopf vorbei gleitende Band gibt nur ein relativ geringes Rauschen ab, das sog. jungfräuliche Rauschen. Durch Einwirkung der HF-Vormagnetisierung wird dieses Rauschen um ca. 4,5 dB erhöht und ergibt das sog. Betriebsrauschen [7.14], [7.15]. Jungfräuliches und Betriebsrauschen enthalten v. a. hohe Frequenzen. Die Störpegel können auf den Bezugspegel 320 nWb/m oder auf Vollaussteuerung, d. h. auf den Pegel bei 3% Klirrfaktor bezogen werden. Dazu wird ein Bewertungsfilter benutzt (DIN 45 405 bzw. CCIR 468-1 oder IEC 179, Kurve A, siehe Abb. 7/15). Gleichfeld- und Modulationsrauschen Befindet sich auf dem Band ein magnetisches Gleichfeld, so entsteht auf Grund der unvermeidbaren Inhomogenität der Schicht im Hörkopf eine Rauschspannung. Im gleichen Sinne wirkt die Rauheit der Bandoberfläche, die zu Schwankungen des Abstands zwischen Kopf und Band und damit zu entsprechenden Schwankungen des magnetischen Gleichfelds im Kopf führt. Das Gleichfeld würde im Prinzip nicht rauschen, wenn es völlig gleichmäßig wäre. Seine Schwankungen führen v. a. zu dem tieffrequenten „Poltern” gleichstrommagnetisierter Bänder. [7.15], [7.16] Das Gleichfeldrauschen wird durch eine Unsymmetrie des Lösch- und Vormagnetisierungsstroms sowie eine Gleichfeldvormagnetisierung der Magnetköpfe und Bandführungsteile verursacht. Es ist also - im Gegensatz zum jungfräulichen und Betriebsrauschen - durchaus vermeidbar. Die Unterdrückung des Gleichfeldrauschens erfordert eine regelmäßige, sorgfältige Entmagnetisierung der Köpfe und Bandführungsteile sowie eine Symmetrierung des Vormagnetisierungsstroms. Da auch die Nutzmodulation im Bereich jeweils einer halben Wellenlänge der aufgezeichneten Modulation eine Ausrichtung der Magnetisierung in nur einer Richtung hervorruft, ergibt sich in diesen kleinen Bereichen jeweils ein Gleichfeldrauschen, das sich der Modulation überlagert, das sog. Modulationsrauschen. Es ist der aufgezeichneten Amplitude etwa proportional. Glücklicherweise wird das Modulationsrauschen jedoch durch die Nutzaufzeichnung akustisch weitgehend verdeckt. Die Messung erfolgt nach DIN 45 519, Tl. 2 mit einem Geräusch- und Fremdspannungsmesser nach DIN 45 405 in Stellung „Fremdspannung” unter Vorschaltung eines Filters, das die Verdeckungswirkung des Gehörs berücksichtigt. Angegeben wird der Gleichfeldrauschspannungsabstand bezogen auf den Bezugspegel. Störspannungsabstand Der Stör- oder Geräuschspannungsabstand wird bei einem gelöschten und vormagnetisierten Band ohne NF gemessen, es handelt sich also um das Betriebsrauschen, das alle Rauschquellen bei der magnetischen Bandaufzeichnung zusammenfasst. Angegeben wird der Pegelabstand zum Bezugspegel oder zur Aussteuerbarkeit bei 1 kHz (Klirrfaktor 3 %). Die 389
Analoge Tonsignalspeicherung Messung wird bewertet; derzeit sind Messungen nach drei unterschiedlichen Bewertungskurven in den Datenblättern angegeben (Abb. 7/15). Wegen der verschiedenen Möglichkeiten des Bezugswertes und der Bewertung muss beim Vergleich von Messdaten sorgfältig auf die Messbedingungen geachtet werden. Differenzen in den Messergebnissen durch unterschiedliche Bewertungen bis etwa 10 dB sind möglich.
Abb. 7/15. Bewertungskurven für Störspannungsmessungen. ))) IEC (179/A), )A) DIN 45405 (1983) bzw. CCIR 468-4, ))) DIN 45405 (1967), nicht mehr gültig.
Seit Beginn der 1980er Jahre wurden für Produktionen im Bereich der E-Musik und für Wortproduktionen, die nicht nur Aktualitätswert hatten, Rauschverminderungssysteme eingeführt, die zu einer ganz erheblichen Qualitätssteigerung des Magnettonverfahrens geführt haben. Damit können die Störabstände bis um etwa 20 dB verbessert werden (siehe dazu Kap. 7.1.3). Kopiereffekt und Echolöschung Im Bandwickel ist jede Windung den von benachbarten Windungen ausgehenden Magnetfeldern ausgesetzt. Bei längerem Lagern entsteht dadurch ein magnetisches Abbild der Modulation der Nachbarwindungen, v. a. wenn äußere magnetische Felder, höhere Temperaturen oder mechanische Erschütterungen die Prozesse der Ummagnetisierung begünstigen [7.17], [7.18]. Beim Abspielen des Bandes hört man dabei, besonders wenn ein sehr lautes Schallereignis in eine Pause fällt, im Abstand jeweils einer Umdrehungsdauer des abwickelnden Tellers vor und nach dem Originalereignis ein oder mehrere Echos, die außerordentlich stören können (Abb. 7/16). Aus Gründen der Geometrie des Bandwickels sind Vor- und Nachechos ungleich (Abb. 7/17). Vorechos stören mehr als Nachechos. Die deutsche Schichtlage des Bandes berücksichtigt dies (Abb. 7/18), indem die Archive „Programmanfang außen” lagern; Vorechos sind so leiser 390
Magnetische Tonsignalspeicherung als Nachechos. Bei internationaler Schichtlage muss für gleiche Verhältnisse „Programmende außen” gelagert werden.
Abb. 7/16. Kopiereffekt bei deutscher Schichtlage des Bandes („Schichtaußen-Wicklung”).
Abb. 7/17. Magnetfeld des bespielten Bandes bei deutscher Schichtlage
Abb. 7/18. Schichtlagen des Magnetbands.
Besonders kritisch sind bei 38 cm/s Bandgeschwindigkeit die mittleren Frequenzen, die im Bereich guter Hörbarkeit liegen und bei denen außerdem die Wellenlängen bei höheren Bandgeschwindigkeiten so groß sind, dass die Feldlinien aus dem Band heraustreten und sich über die benachbarten Windungen schließen. Ferner begünstigen geringe Trägerstärke, hohe Permeabilität der Schicht und großer Volumenfüllfaktor den Kopiereffekt, ebenso der Anteil „magnetisch weicher” Partikel. Der Kopiereffekt wird messtechnisch durch die Kopierdämpfung erfasst; sie ist definiert als der Pegelunterschied eines mit Bezugspegel aufgezeichneten 391
Analoge Tonsignalspeicherung 1 kHz-Signals zu dem größten auf die Nachbarwicklung kopierten Signal nach 24 Stunden Lagerung bei 20 /C (Messungen nach DIN 45 519, Tl. 1). Die ungünstigsten geometrischen Bedingungen für Echos bestehen dann, wenn die Wellenlänge etwa 6 mal größer ist als die Banddicke. Bei einer Bandgeschwindigkeit von 38 cm/s und der üblichen Dicke eines Studiobandes von 50 :m ergibt sich ein Maximum um 1 kHz. Da hohe Temperaturen den Kopiereffekt erheblich beschleunigen, sollten Bänder stets vor Wärmeeinwirkung geschützt werden. Obwohl es in den letzten Jahren gelungen ist, die Kopierdämpfung durch Verringerung des Anteils magnetisch extrem weicher Teilchen wesentlich zu verbessern, ist jedoch in bestimmten Fällen eine weitere Verringerung dieser Echos wünschenswert und auch möglich. Dazu wird das Band vor der Wiedergabe einem schwachen magnetischen Wechselfeld ausgesetzt, das so bemessen ist, dass es die instabilen, durch die schwachen Magnetfelder erzeugten Echos wirksam löscht, ohne die stabilere Nutzaufzeichnung merklich anzugreifen. Das erforderliche Löschfeld kann durch einen mit schwachem Wechselstrom gespeisten Kopf erzeugt werden oder auch dadurch, dass das Band an einem schwachen Permanentmagneten mit örtlich nach Richtung und Betrag wechselndem Feld vorbeigeführt wird. In einer besonders einfachen Ausführung kann dieser Magnet aus einem zweiten, mit einem Sinussignal stark ausgesteuerten Magnetband bestehen, das auf einer nierenförmigen Halterung aufgebracht ist. Bei einem Verlust an Nutzpegel von 1-2 dB lassen sich so zusätzlich Echodämpfungen von etwa 12 dB erreichen. Die Echolöschung ist eine Maßnahme, die nur in Ausnahmefällen angewandt wird. Heimton- und Kassettengeräte Die Messbedingungen der Heimton- und Kassettengeräte zeigt Tab. 7/2 im Vergleich zur Studiogeräteklasse. 7.1.2.5
Wiedergabevorgang
Wird ein besprochenes Band an einem Wiedergabekopf vorbeigeführt, so schließt sich ein Teil der aus der Bandoberfläche austretenden Feldlinien wegen der viel höheren magnetischen Leitfähigkeit des Kernmaterials über den Kopf. Der wechselnde magnetische Fluss induziert damit in der Wicklung des Hörkopfs eine Spannung, die der Änderung des magnetischen Flusses nach dem Induktionsgesetz proportional ist. MR ist der den Kopf durchsetzende Anteil des Flusses des Bandes (Abb. 7/19). Bei für alle Frequenzen konstantem sinusförmigen Wechselfluss auf dem Band steigt die Ausgangsspannung am Hörkopf proportional zur Frequenz an. Wegen dieser Proportionalität sagt man, die Hörkopfspannung habe einen „Omegagang” (T = 2 Bf). Die abgetastete Frequenz ist der Bandgeschwindigkeit direkt, der aufgezeichneten Wellenlänge also umgekehrt proportional. Im Bereich niedriger und mittlerer Frequenzen erfolgt der Anstieg tatsächlich aber langsamer und bei hohen Frequenzen sinkt die Ausgangsspannung sogar ab. Diese Erscheinung ist v. a. durch die Selbstentmagnetisierung des Bandes (s. o.) bedingt. Zusätzlich treten aber eine Reihe von Einflüssen bei der Wiedergabe hinzu, die den Frequenzgang beeinflussen: Nur die Abstands- und Spaltverluste werden im Folgenden beschrieben.
392
Magnetische Tonsignalspeicherung
Cassette 4,76 cm/s
HiFi-Cassetten 4,76 cm/s
Einheit
6,3 3,5 333 250 10 3
kHz dB Hz nWb/m kHz %
Frequenzgang Bandfluss bei Vollaussteuerung nichtlineare Verzerrungen Aussteuerbarkeit bei kleinen Wellenlängen Kopierdämpfung
333
333
Hz
Frequenz
14
10
8
10
kHz
Frequenz
1000
500
500
500
Hz
Studio 38/19 cm/s
6,3 2,5 333 250 8 5
1000
6,3 3,5 19/1000/333 19/320/250 10 5 HiFi 3 333
Messung an Magnetbändern Einstellung des Arbeitspunkts Empfindlichkeit
Heimton 19/9,5/4,76 cm/s
Tab. 7/2. Messbedingungen bei Heimton- und Kassettengeräten.
Frequenz Pegelabfall Frequenz Bandfluss bis Klirrfaktor
10 2 1000 320 14 3
Messfrequenz
Abb. 7/19. Wiedergabevorgang.
Abstandsverluste Bei der Abtastung ist am Hörkopfspalt immer ein kleiner Abstand der magnetischen Teilchen von der Oberfläche vorhanden, der durch die Oberflächenrauheit, durch die Dicke der Schicht bedingt und mitgerissene Luft ist. Diese Tatsachen wirken sich bei kleineren Wellenlängen, d. h. bei hohen Frequenzen, in einer Verringerung der in den Hörkopf induzierten Spannung aus. Die Dämpfung durch Abstands- und Schichtdickenverluste wird auch Bandflussdämpfung genannt. 393
Analoge Tonsignalspeicherung Spaltverluste Nähert sich die Wellenlänge der Aufzeichnung der Größenordnung der effektiven Spaltbreite, so tritt eine sog. Spaltbreitendämpfung auf, da stets der Mittelwert des magnetischen Feldes über die gesamte Spaltbreite abgetastet wird. Die Spaltbreitendämpfung ist von der Spaltbreite d und der Wellenlänge 8 abhängig. Bei den üblichen Magnettonanlagen sind die Spaltbreitenverluste wesentlich geringer als die Selbstentmagnetisierung und die Abstandsverluste, jedoch setzen sie der Abtastung hoher Frequenzen eine prinzipielle Grenze, da die induzierte Hörkopfspannung mit kleiner werdender Wellenlänge immer geringer wird und bei Gleichheit von Wellenlänge und Spaltbreite oder ganzzahlige Vielfache davon ganz zu Null wird (Abb. 7/20). Stehen aufzeichnender und abtastender Spalt nicht völlig parallel, so ergeben sich weitere Verluste bei kurzen Wellenlängen, die sog. Spaltwinkeldämpfung Dsw. Sie wirkt sich wie die Spaltbreitendämpfung aus und kann wie eine Verbreiterung des Hörkopfspaltes behandelt werden. 7.1.2.6
Entzerrung des Frequenzgangs
Auf Grund des Induktionsgesetzes steigt die Spannung, die in den Hörkopf induziert wird, bei konstantem Bandfluss linear mit der Frequenz an; sie besitzt einen sog. Omegagang. Dieser
Abb. 7/20. Spaltfunktion (Verlauf des abgetasteten Bandflusses).
Frequenzgang wird im Wiedergabeverstärker begradigt. Die Verluste bei hohen Frequenzen Selbstentmagnetisierung des Bandes, Abstandsverluste, Spaltverluste - werden durch eine Anhebung sowohl durch den Aufsprechverstärker als auch durch den Wiedergabeverstärker ausgeglichen. Bei modernen Bändern ist die Anhebung im Aufsprechverstärker relativ gering verglichen mit der Anhebung im Wiedergabeverstärker. Eine ausschließliche Kompensation beim Aufsprechen würde zwar den Störspannungsabstand verbessern, gleichzeitig aber bei Modulation mit starken Anteilen hoher Frequenzen eine Übersteuerung und damit starke Verzerrungen erzeugen. Ein ausschließlicher Ausgleich bei der Wiedergabe dagegen würde 394
Magnetische Tonsignalspeicherung zwar sehr geringe nichtlineare Verzerrungen ergeben, dafür jedoch das Rauschen im oberen Übertragungsbereich erheblich verstärken. Der Verlauf des Bandflusses ist in DIN 45 513 genormt. Die Normung stellt sicher, dass bei der Wiedergabe alle Bandsorten, die nicht für besondere Betriebsfälle entwickelt wurden, austauschbar sind. Die Bandflusskurven sind für die einzelnen Bandgeschwindigkeiten optimiert, ferner wird zwischen Studio- und Heimtonanwendung unterschieden. Ein wichtiges Kriterium bei der Festlegung des Bandflusses und der Entzerrungen ist die Pegel-Frequenzstatistik üblicher Tonsignale. Die Durchschnittsspektren und ihre zugehörigen Pegel zeigt Abb. 7/21. Daraus wird ersichtlich, dass die größten Pegel zwischen 200 und 2000 Hz liegen, darunter und darüber fällt der Pegel ab, bei 10 000 Hz z. B. um rund 8 dB. Bei der Festlegung v. a. der Wiedergabeentzerrung und des Bandflussfrequenzgangs wurde diese Tatsache berücksichtigt. Abb. 7/22 zeigt schematisch die Frequenzgänge vor und hinter dem Aufnahmeverstärker für Messpegel und Musik sowie den dazugehörigen Bandfluss.
Abb. 7/21. Spektrale Amplitudenverteilung des Mittelwerts über 24 Stunden, Parameter: verschiedene Zeitprozente, gestrichelt: UER-Rauschen.
Die Normung des Bandflusses definiert Frequenzgangkurven für den Bandfluss, die Frequenzkurven entsprechen, wie sie von einfachen RC-Gliedern erzeugt werden. Für die Anhebung bei tiefen Frequenzen legt man dabei die Reihenschaltung, für die Absenkung bei den hohen Frequenzen die Parallelschaltung eines Widerstands mit einem Kondensator zu Grunde. Durch das Produkt R A C, das als Zeitkonstante J bezeichnet wird, kann der Frequenzgang definiert werden (Abb. 7/23). Tab. 7/3 nennt die Zeitkonstanten und Bezugsbandflusswerte nach DIN 45 513 für die verschiedenen Magnetbänder, Abb. 7/24 zeigt die wichtigsten Kurven. 395
Analoge Tonsignalspeicherung Die nach DIN 45 513 genormte Bandflusskurve und die Bezugswerte folgen einer Empfehlung nach IEC. Neben dieser Normung gibt es international noch eine Normung der Bandflusskurven nach NAB. Tab. 7/4 gibt für die wichtigsten Studiobänder die DIN- und NABEntzerrung im Vergleich an.
Abb. 7/22. Schematische Darstellung der Frequenzgänge vor und nach dem Aufnahme-Entzerrerverstärker (AEV) sowie des Bandflusses auf dem Magnetband mit Messpegel und Musik.
Abb. 7/23. Pegeldämpfung des Frequenzgangs bei RC-Gliedern.
Mehrspurbänder mit einer Breite von ½, 1 und 2' haben jeweils dieselbe Entzerrung nach DIN bzw. NAB wie ¼ '-Bänder (6,3 mm). Während die Bandflusskurven nach DIN 45 513 für Bänder mit 38 cm/s und 6,3 mm Breite seit 1955 unverändert geblieben sind, also auch ältere Bänder bei der Wiedergabe zu neuen Bändern kompatibel sind, wurden die Kurven für die kleineren Bandgeschwindigkeiten verschiedentlich geändert (Tab. 7/5). 396
Magnetische Tonsignalspeicherung Tab. 7/3. Bezugswerte und Zeitkonstanten für die verschiedenen Magnetbänder nach DIN 45 513. Bei Kassettenbändern sind zwei verschiedene Zeitkonstanten möglich: die Entzerrung 3180/70 :S für Chrombänder, 3180/120 :S für Eisenbänder. Bandklasse
Bandfluss pro mm Spurbreite
76 38 19 s 19 h 9,5 4,76 / 6,3 mm Cr 4,76 / 3,8 mm Fe 4,76 / 3,8 mm
320 pWb 320 pWb 320 pWb 320 pWb 250 pWb 250 pWb 250 pWb 250 pWb
Wiedergabe-Entzerrung, Zeitkonstante für Magnetflussverlauf Tiefen Höhen 17,5 :S 35 :S 70 :S 3180 :S 50 :S 3180 :S 90 :S 3180 :S 120 :S 3180 :S 70 :S 3180 :S 120 :S
Abb. 7/24. Frequenzabhängigkeit des Bandflusses für die Bandgeschwindigkeiten 76 cm/s, 38 cm/s, 19 cm/s (s = Studiotechnik, h = Heimtontechnik) nach DIN 45 513.
Tab. 7/4. DIN- und NAB-Entzerrung für Studiobänder 6,3 mm. Bandklasse 38 19 s 19 h
Entzerrung nach DIN 35 :S 70 :S 3180/50 :S
Entzerrung nach NAB 3180/50I :S 3180150 :S 3180/50 :S
397
Analoge Tonsignalspeicherung Tab. 7/5. Entwicklung der Wiedergabeentzerrungen nach DIN 45 513 seit 1955. Bandklasse 4,76/3,81 4,76/6,3 9,53/6,3 19,05/6,3
7.1.2.7
Zeitkonstante [:s] 1590 / 120 3180 / 120 3180 / 70 3180 / 2x70 1590 / 120 3180 / 120 200 3180 / 120 3180 / 90 100 100 3180 / 50 70
Norm Jahr Bemerkungen DIN 45 513, Blatt 5 1966 für Fe2O3-Bänder 1974 1970 für CrO2-Bänder 1962 Vornorm DIN 45 513, Blatt 5 1966 1970 Normentwurf 1955 Vornorm DIN 45 513, Blatt 4 1962 DIN 45 513, Blatt 4 1968 DIN 45 513, Blatt 3 1955 19 N (Normal) DIN 45 513, Blatt 3 1962 19 R (Rundfunk) DIN 45 513, Blatt 3 1966 19 h (Heimgeräte) DIN 45 513, Blatt 3 1966 19 s (Studiogeräte)
Löschvorgang
Vor jeder Aufnahme wird das Band - auch ein völlig neues - zunächst durch den Löschkopf gelöscht. Dabei steuert ein kräftiges hochfrequentes Magnetfeld das Band bis in den Bereich der Sättigung durch. Entfernt sich nun das Band wieder vom Löschkopf, so wird dieses Feld schwächer. Dabei wird die durchlaufene Hysteresisschleife immer kleiner und schnürt sich schließlich ganz im Nullpunkt zusammen (Abb. 7/25). Jedes Teilchen soll hierbei mindestens 20-mal die Hysteresisschleife durchlaufen. Es hat sich in der Praxis als zweckmäßig erwiesen, eine Mehrfachlöschung mit Spalte verschiedener Breiten durchzuführen.
Abb. 7/25. Löschung mit HF-Wechselfeld, Br1 = Remanenz auf dem Band vor der Löschung, Br10 = Band gelöscht.
398
Magnetische Tonsignalspeicherung Ein Maß für die Löschwirkung ist die sog. Löschdämpfung. Sie ist definiert als der Pegelunterschied der Wiedergabepegel eines nach DIN 45 512 vollausgesteuerten Bandes vor und nach der Löschung. Zwischen Aufsprechen und Löschung liegt eine Lagerzeit von 24 Stunden. Die Löschdämpfung soll bei selektiver Messung für 1 kHz ca. 80 dB betragen. Große Wellenlängen, d. h. tiefe Frequenzen, werden je nach Kopftyp merklich weniger gelöscht als ein 1-kHz-Ton.
7.1.3
Systeme zur Rauschverminderung
Betrachtet man den Störpegelverlauf im Pegeldiagramm eines Tonkanals einschließlich der analogen magnetischen Aufzeichnung, so erweist sich die Aufzeichnungsanlage ohne Rauschverminderungssystem deutlich als schlechtestes Glied. Der Ruhegeräuschspannungsabstand bezogen auf den Bezugspegel - beträgt nur rund 60 dB. Dieser Abstand wird nicht unerheblich geringer, wenn von einem Band Kopien gezogen werden, von denen ihrerseits wieder kopiert wird. Noch erheblicher ist die Problematik bei Mehrspuraufzeichnungen; bei der Abmischung einer 24-Spur-Aufnahme beispielsweise verringert sich der Störpegelabstand um rund 15 dB, weil die Rauschanteile aller Spuren zusammengeführt werden. Abb. 7/26 zeigt, wie das Bandrauschen mit der Anzahl der Kopien bzw. abgemischten Spuren zunimmt.
Abb. 7/26. Verringerung des Störpegels bei wiederholtem Kopieren und beim Abmischen mehrerer Spuren.
Um den Anstieg des Rauschens und anderer Störungen bei Bandaufnahmen bzw. allgemein bei Übertragungen zu vermindern, wurden sog. Kompandersysteme entwickelt. Sie bestehen aus einem Kompressor, der die Dynamik des Signals vor der Aufzeichnung bzw. Übertragung komprimiert, damit der Abstand zum Rauschen größer bleibt als ohne Kompression. Bei der Wiedergabe bzw. nach dem Durchlaufen der Übertragungsstrecke stellt ein Expander wieder die ursprüngliche Dynamik des Signals her; dabei werden auch hinzugekommene Störpegel abgesenkt, die somit weniger wirksam werden. Das Wort „Kompander” wurde aus „Kompressor” und „Expander” zusammengezogen. Von verschiedenen Systemen, deren Entwicklung durch die Mehrspurtechnik, die Kassettentechnik und durch die digitale Tonaufzeichnung herausgefordert wurde, hat sich im Studiobereich vor allem das Kompandersystem Telcom c4 399
Analoge Tonsignalspeicherung durchsetzen können. Dieses soll hier neben dem Dolby-A- und Dolby-SR-System beschrieben werden. Im HiFi-Sektor haben die verschiedenen Dolbysysteme die größte Verbreitung, während beim öffentlichrechtlichen Rundfunk das Telcom c4-System bevorzugt wird. Komprimierte Bänder werden vorzugsweise 1:1 kopiert, also ohne dazwischen geschaltete Expander und Kompressoren, das gilt für alle Kompandersysteme. Das korrekte Einmessen der Maschinen ist auch hierbei erforderlich. 7.1.3.1 Telcom-Verfahren Das Kompandersystem Telcom c4 [7.19] verbessert die Qualität einer analogen Tonaufzeichnung auf ein Magnetband in ganz erheblichem Maße. Der erreichbare Störpegelabstand liegt bei ca. 85 dB. Das Verfahren arbeitet mit geraden Kennlinien bei logarithmischer Darstellung parallel in vier aneinander gereihten Frequenzbändern. Das Prinzip des Kompanders zeigt Abb. 7/27.
Abb. 7/27. Prinzipschaltbild des Kompandersystems Telcom c4.
Die Verminderung des Bandrauschens - nur dieses kann vermindert werden, nicht aber das Rauschen des Mikrofons oder der Regieanlage - beruht darauf, dass kleine Pegel vor der Aufzeichnung angehoben und bei der Wiedergabe in demselben Maß wieder abgesenkt werden. Auf einer dB-linearen Skala ist die Pegelveränderung auf 1/3 des Pegels festgelegt, also z. B. ein Pegel von -60 dB wird auf -40 dB angehoben, ein Pegel von -30 dB auf -20 dB. Der Expander stellt die ursprünglichen Pegelverhältnisse wieder her, er expandiert also um den Faktor 1,5: -40 dB auf -60 dB und -20 dB auf -30 dB. Die Kennlinien der Regelverstärker sind demnach geradlinig. Dies bietet den großen Vorteil für den Betriebsablauf, dass ein Einpegeln des Kompanders, wie es eine geknickte Kennlinie erfordert, nicht notwendig ist. Bei geknickter Kennlinie würde sich bei einer Pegeländerung auf der Übertragungsstrecke bzw. auf dem Magnetband eine Dynamik- und Klangfarbenänderung ergeben. Die Kennlinien von Kompressor und Expander zeigt Abb. 7/28. Während das Ruherauschen eines Bandes um bis ca. 25 dB vermindert wird, kann das Modulationsrauschen nicht reduziert werden. Verzerrungen durch die Bandaufzeichnung können ebenfalls nicht verringert werden, sie erhöhen sich sogar bei mittlerer Aussteuerung geringfügig, 400
Magnetische Tonsignalspeicherung aber nicht hörbar, sofern mit demselben Bezugspegel wie ohne Kompandersystem aufgezeichnet wird. Bei den meisten Rundfunkanstalten wurde aus diesem Grund der Bandfluss für Aufzeichnungen mit Telcom-Kompander von 514 auf 320 nWb/m zurückgenommen, d. h. auf den genormten Bandfluss. Mit dieser Maßnahme sind die Verzerrungen bei den kritischen Pegeln bei Vollaussteuerung geringer als bei der Aufzeichnung mit 514 nWb/m. Auch bei mittleren Pegeln liegen die Verzerrungen nicht höher. Günstig wirkt sich das Telcom-Verfahren auch auf den Kopiereffekt aus: Vor- und Nachechos werden mit dem Expander abgesenkt, z. B. von -40 dB auf -60 dB. Auch die Übersprechdämpfung bei der Aufzeichnung wird in demselben Maße vergrößert. Bei Mehrfachkopien wirkt sich der hohe erreichbare Störpegelabstand außerordentlich günstig aus: noch nach der vierten Kopie kann der Störpegelabstand unter optimalen Bedingungen 78 dB erreichen.
Abb. 7/28. Regelkennlinien des Kompandersystems Telcom c4.
Die hohen Werte für den erreichbaren Störpegelabstand von etwa 85 dB bedeuten keineswegs, dass eine Aufnahme solche guten Werte auch tatsächlich besitzt. Vielmehr wirkt sich nun der geringere Störpegelabstand der Mikrofone auf den Geräuschpegel einer Aufnahme entscheidend aus. Der Mikrofonstörpegel liegt i. Allg. deutlich bis erheblich über dem Störpegel der kompandierten Bandaufzeichnung. Herrscht z. B. an einem Mikrofon der Schalldruck 1 Pa bzw. der Schalldruckpegel 94 dB, so bietet ein Studiomikrofon einen Störpegelabstand nach DIN 45 590 von etwa 70 dB. Bei Verwendung mehrerer Mikrofone verringert sich dieser Abstand um jeweils 3 dB pro Verdoppelung der Anzahl der Mikrofone; bei 4 Mikrofonen also um 6 dB, bei 16 Mikrofonen um 12 dB bei gleichem Schallpegel und gleicher Verstärkung. Bisher wurden nur die statischen Eigenschaften von Kompressor und Expander betrachtet. Genauso wichtig für die Unhörbarkeit der Regelvorgänge ist aber ihr dynamisches Verhalten. 401
Analoge Tonsignalspeicherung Die zeitlichen Regeleigenschaften von Kompressor und Expander müssen ebenso komplementär zueinander sein, wie die statischen Kennlinien. Das Einschwingen der Regelverstärker muss nach einer Viertelperiode der höchsten zu übertragenden Frequenz, also z. B. nach 15 :s bei 15 kHz, abgeschlossen sein, das Ausschwingen soll - um keine hörbaren Verzerrungen bei tiefen Frequenzen entstehen zu lassen - nicht unter 5 s liegen. Die extrem kurze Einschwingzeit löst allerdings bei tiefen Frequenzen ein hörbares Einschwingen aus, die langeAusklingzeit hingegen ist für hohe Frequenzen zu lang. Kompandersysteme, die nur mit einem Regelsystem für den gesamten Frequenzbereich arbeiten, müssen zwischen diesen extremen Forderungen einen Kompromiss finden. Ein weiteres schwerwiegendes Problem von Systemen mit Regelverstärkern für den gesamten Übertragungsbereich ist das sog. Atmen: In einer Pause wird bei einem solchen System das Bandrauschen praktisch vollständig unterdrückt; setzt nun ein Ton von z. B. 1 kHz mit Vollaussteuerung ein, so wird das Kompandersystem in seiner Wirkung neutral, d. h. das Bandrauschen „atmet” mit der Modulation. Das Atmen stört eigentlich nur in den Frequenzbereichen, die keine Signalanteile enthalten. Dieser unerwünschte Effekt kann vermieden und die Ein- und Ausschwingzeit optimiert werden, wenn man den Übertragungsbereich in mehrere Frequenzbänder aufteilt, die unabhängig voneinander geregelt werden. Bei Studiokompandern hat sich eine Aufteilung in vier Frequenzbänder als guter Kompromiss erwiesen, die Festlegung der Frequenzbänder beim Telcom-Verfahren zeigt Abb. 7/29, ebenso die Festlegung der Ein- und Ausschwingzeiten.
Abb. 7/29. Festlegung der Frequenzbänder beim TelcomVerfahren sowie der zugehörigen Ein- und Ausschwingzeiten für 30 dB Pegelanhebung bzw. -absenkung.
Die Kennlinien des Telcom-Kompandersystems (Abb. 7/28) zeigen bei Pegeln über 0 dB, also über Bezugspegel, eine umgekehrte Wirkung: der Kompressor wird zum Expander und der Expander zum Kompressor. Für die Aufzeichnung bedeutet dies, dass die Aussteuerbarkeit um das Kompressionsverhältnis verbessert wird; eine Übersteuerung von 6 dB wird tatsächlich nur mit 4 dB Übersteuerung aufgezeichnet. Bedenkt man, dass beim Rundfunk der Pegel bei Telcom-Aufzeichnungen um 4 dB niedriger liegt, so führt eine Übersteuerung von 6 dB zu demselben Bandfluss wie bei normaler Stereoaufzeichnung. Übersteuerungen von 6 dB entstehen andererseits, wenn ein Band mit Telcom bei einem Bezugspegel von 514 nWb/m 402
Magnetische Tonsignalspeicherung aufgezeichnet wird, aber mit einem Expander, der auf Bezugspegel 320 nWb/m eingestellt ist, wiedergegeben wird. 7.1.3.2
Dolby-Verfahren
Der Dolby-Kompander für Studioanwendung (Dolby-Stretcher, Dolby A) [7.20] arbeitet wie der Telcom-Kompander in vier Frequenzbändern mit jeweils eigener Regelcharakteristik. Die Regelung ist aber im Gegensatz zum Telcom-System nur bei kleineren Pegeln wirksam, sie lässt hohe Pegel unbeeinflusst. Die vier Regelbereiche des Dolby-A-Systems werden durch einen Tiefpass mit 80 Hz Grenzfrequenz, einen Bandpass mit den Grenzfrequenzen 80 und 3000 Hz sowie durch zwei Hochpässe mit Grenzfrequenzen von 3 und 9 kHz gebildet. Nur Frequenzkomponenten unter -10 dB werden den Regelverstärkern zugeführt. Der maximale Hub ist bei Frequenzen bis 5 kHz 10 dB und steigt für höhere Frequenzen auf 15 dB an. Die Regelkennlinien sind also geknickt (Abb. 7/30).
Abb. 7/30. Regelkennlinien des Dolby-Kompanders für Frequenzen unter 5 kHz.
Über Schwellwertbegrenzer werden dem Prozessor nur Pegel unterhalb des Kompressoreinsatzpunkts zugeführt. Auf diese Weise wird - zunächst getrennt in vier verschiedenen Frequenzbereichen und danach zusammengefasst - ein Korrektursignal gewonnen, das dem Original additiv zugefügt wird. In dieser Form des Signals findet die Speicherung oder Übertragung statt. Bei der Expansion wird derselbe Prozessor wie bei der Kompression benutzt, das Korrektursignal wird aber jetzt von dem komprimierten Signal subtrahiert; damit ist die Originalgestalt des Signals wieder hergestellt. Da die Pegelkennlinie nicht gerade ist, entstehen Dynamik- und Frequenzgangverzerrungen, wenn die Kennlinien für Dolby-Kompression und Dolby-Expansion nicht zur Deckung kommen. Deshalb müssen die Pegel, die dem Gerät bei Kompression und Expansion angeboten werden, absolut gleich sein. Das erfordert ein genaues Einpegeln der Aufzeichnungsanlage bzw. die Vermeidung von Pegelverlusten auf der Übertragungsstrecke. Da umfangreichere Übertragungsstrecken diese Bedingung nur bei erheblichem Aufwand erfüllen können, 403
Analoge Tonsignalspeicherung beschränkt sich die Anwendung der Dolby-Systeme im Studio auf die Magnettonaufzeichnung. Für eine Pegelkontrolle und zugleich als Kennzeichnung für die Dolbysierung eines Bandes liefert das Gerät einen mit einer charakteristischen Kennung versehenen Pegelton. Beim praktischen Einsatz ist zu beachten, dass sich die Verbesserungen nur auf den Störabstand beziehen, aber nichtlineare Verzerrungen und Frequenzgangfehler gerade bei wiederholtem Kopieren nicht nur erhalten bleiben, sondern u. U. vermehrt werden. Neben der A-Ausführung für die Studioproduktion existiert das Verfahren noch in einer B-Ausführung für den Heimtonbereich. Die B-Ausführung arbeitet nur mit einer einzigen Regelung der Frequenzen über 1000 Hz; tiefere Frequenzen bleiben ungeregelt. Die untere Grenzfrequenz des regelbaren Hochpassfilters im Regelzweig verschiebt sich mit zunehmendem Gesamtpegel nach hohen Frequenzen (Sliding-Band-Prinzip) [7/21], [7/22]. Dolby SR ist ein aus Dolby A entwickeltes Kompandersystem für den Einsatz bei qualitativ hochwertigen Analogaufnahmen. Im Gegensatz zu Dolby A setzt Dolby SR Filter mit festen und verschiebbaren Frequenzbändern ein, in denen es dann auf die dort auftretenden Änderungen der Amplituden reagiert. Dabei besitzt Dolby SR drei unterschiedliche Arbeitspunkte: High-Level mit -30 dB, Medium-Level mit -48 dB und Low-Level mit -62 dB. Bei High- und Medium-Level unterscheidet das System nochmals zwischen zwei sich weit überlappenden Frequenzbereichen, deren obere bzw. untere Grenzfrequenz bei 800 Hz liegt. Der Low-Level-Bereich arbeitet nur bei Frequenzen über 800 Hz. Aus dieser Differenzierung ergeben sich quasi fünf Frequenzbänder. Während der Aufnahme versieht der Kompressor die unteren und mittleren Pegel eines Programms mit der systembedingt größtmöglichen Verstärkung; verstärkt wird dabei allerdings nur der Frequenzbereich, in dem Komponenten vorhanden sind. Für die Wiedergabe erfolgt eine Pegelreduzierung des Signals komplementär zur Verstärkung bei der Aufnahme. Das bedeutet, dass das Nutzsignal wieder original hergestellt wird, das Störsignal jedoch um den gleichen Betrag wie die Verstärkung abgesenkt wird. Für die Linearisierung des Frequenzganges im Sättigungsbereich und die Erhöhung der Übersteuerungsgrenze für hochpegelige Signale enthält Dolby SR zwei weitere Schaltungen, die Anti-Saturation und das Spectral-Skewing: Mit der Anti-Saturation-Schaltung wird die Aussteuerung bei hohen Pegeln unterhalb von 100 Hz und oberhalb von 5 kHz reduziert. Vom Prinzip her ist diese Schaltung ein Hoch-Tief-Entzerrer, der bei niedrigen Pegeln umgangen wird. Die Spectral-Skewing-Schaltung macht das Kompandersystem gegenüber Frequenzgang- und Pegelanomalien des Bandes unempfindlich; sie verbessert die Aufnahmeentzerrung und reduziert Regelfehler.
7.1.4
Schnittbearbeitung von Magnetbändern
Die Eigenschaften der Studiobänder für analoge Aufzeichnung stimmen für die Wiedergabe mit den Eigenschaften des DIN-Referenzbandes (DIN 45 513) überein, die Bänder können also auch bei der Schnittbearbeitung im Mischbetrieb verwendet werden. Das gilt nicht generell für die Einstellungen des Aufnahmeentzerrerverstärkers. Bandtypen, die nicht an die Kompatibilitätsforderung an Studiobänder gebunden sind (Masterbänder), können individuell, 404
Magnetische Tonsignalspeicherung z. B. mit einem höheren Bezugspegel, eingemessen werden. Sie sind in diesem Fall auch wiedergabemäßig nicht mit den Studiobändern kompatibel. 7.1.4.1
Bandschnitt und Kennbänder
Die Möglichkeit der Schnittbearbeitung ist neben der Löschbarkeit und Wiederverwendbarkeit einer der größten Vorteile des Magnetbands im Betriebsablauf. Die verwendeten Bandscheren trennen das Band entweder als Kopfschere vor dem Hörkopf oder auf einer vom Kopfträger abgesetzten Klebeschiene. Werden Handscheren oder Messer benutzt, so müssen sie aus nicht magnetisierbarem Material bestehen, damit an der Schnittstelle keine Knacke durch örtliche Gleichfeldmagnetisierung zurückbleiben. Der Schnittwinkel der Bandscheren beträgt 45/ (Abb. 7/31).
Abb. 7/31. Bandschnittwinkel, Blick auf die Schichtseite.
Damit bietet der Bandschnitt einen Überblendvorgang zwischen den Bandabschnitten mit einer Dauer von ca. 16 ms bei einer Bandgeschwindigkeit von 38 cm/s. Dies entspricht der Dauer eines relativ kurzen, aber unauffälligen Einschwingvorgangs eines Musikinstruments. Für die sichere Sendeabwicklung und den Austausch von Bändern müssen Bandgeschwindigkeit, Betriebsart (Mono oder Stereo, Kompander, Kunstkopfverfahren) sowie Anfang und Ende der Modulation auf dem Band selbst einheitlich gekennzeichnet sein. Dafür werden verschiedene Vorspann-, Zwischen- und Endbänder (Nachspannbänder) verwendet (Tab. 7/6). Die Spezifikationen regelt das ARD-Pflichtenheft 3/9; für automatische Einschaltung des Telcom-Expanders ist die Transparenz definiert. Zwischen- und Endbänder sind gelb. Kunstkopfaufnahmen tragen den Aufdruck KK.
Tab. 7/6. Bandkennzeichnung durch Vorspann-, Zwischen- und Endbänder. Vorspannbänder Mono-Aufzeichnung
Stereo-Aufzeichnung
Zwischen- und Endbänder
Kunstkopf-Aufnahmen
Bandgeschwindigkeit ohne Telcom c4 76,2 cm/s weiß rot 38,1 cm/s 19,05 cm/s blau 9,5 cm/s grau 38,1 cm/s rot/weiß 19,05 cm/s blau/weiß 9,5 cm/s grau/weiß
mit Telcom c4
rot/weiß-schwarz/weiß blau/weiß-schwarz/weiß
gelb zusätzlich Aufdruck KK 405
Analoge Tonsignalspeicherung Die Kennbänder sollen mindestens 1,5 bis 2 m lang sein. Sie werden so angeklebt, dass der Farbaufdruck mit der Schichtseite des Bandes übereinstimmt. Der Wickelkern (Metallkern, Bobby) und der Archivkarton sollen die gleiche Farbkennzeichnung aufweisen.
7.1.5
Studio-Magnettonanlagen
Eine Magnettonanlage ist aus folgenden Funktionsgruppen zusammengesetzt (Abb. 7/32): Laufwerk, Laufwerksteuerung, Kopfträger und Entzerrerverstärker. Das Laufwerk sorgt mit drei Motoren für den gleichmäßigen Bandlauf: ein Tonmotor für den Bandantrieb und zwei Wickelmotoren. Die Bandantriebsgeschwindigkeit des Tonmotors ist auf die Bandgeschwindigkeit 38,1 cm/s und 19,05 cm/s umschaltbar. Die Magnettonbänder sind auf einen Metallkern mit 100 mm Durchmesser nach DIN 45 515, auch Bobby genannt, freitragend gewickelt. Eine relativ raue Rückseitenmattierung verhindert ein Zerfallen der Wickel. Die magnetische Schicht der Bänder befindet sich bei der „deutschen Schichtlage” außen, international bevorzugt innen („internationale Schichtlage”) (Abb. 7/18). Eine schnelle Umrüstung auf den Spulenbetrieb (Dreizack) ist meist möglich. Die Laufwerksteuerung ist mit Drucktasten für alle Funktionen am Gerät, i. Allg. auch über eine Fernbedienung ausführbar. Der Kopfträger nimmt den Löschkopf, den Aufnahmekopf und den Wiedergabekopf auf. Die Magnettonköpfe können für Vollspur-, Halbspur-, Zweispur- oder Stereospuraufzeichnung dimensioniert sein. Sie sind aus Ferriten aufgebaut, die einen geringen Verschleiß aufweisen.
Abb. 7/32. Prinzipschaltung einer Stereo-Magnettonanlage.
Die zu jedem Magnettonlaufwerk gehörenden Verstärker, nämlich Aufsprech-Entzerrerverstärker (AEV) und Wiedergabe-Entzerrerverstärker (WEV) sowie der Generator für den Löschkopf und die Vormagnetisierung sind in einem Magazin zusammengefasst und im Rahmen eingebaut. NF-Ein- und Ausgänge sind in üblicher symmetrischer Leitungstechnik mit 6 dBu für 514 nWb/m (Stereo) oder 320 nWb/m (Mono) ausgeführt. Mit der Umschaltung der Bandgeschwindigkeit ist die Umschaltung der Entzerrung gekoppelt. Die Magnettonköpfe bilden mit den dazugehörigen Verstärkern eine elektrische Funktionseinheit, die gemeinsam mit einem bespielten Bezugsband nach DIN 45 513 für den Wiedergabekanal und einem DINReferenzband für den Aufnahmekanal einzumessen sind. 406
Magnetische Tonsignalspeicherung 7.1.5.1
Studio-Magnettonlaufwerke
Bandantrieb Der Transport des Magnetbandes Abb. 7/33 erfolgt durch eine mit konstanter Umdrehungszahl angetriebene zylindrische Tonrolle (Capstan), gegen die das Band von einer mitlaufenden Gummiandruckrolle gedrückt wird. Bei Laufwerken für größere Bandgeschwindigkeiten sitzt die Tonrolle meist unmittelbar auf der Achse des Tonmotors. An die Stelle der zunächst besonders bei direktem Antrieb verwendeten Synchronmotoren sind später elektronisch geregelte, kollektorlose Gleichstrommotoren getreten, bei denen in einem Regelkreis die Umdrehungszahl der Tonrolle dauernd magnetisch oder optisch abgetastet, mit einer Quarzfrequenz verglichen und zur elektronischen Steuerung des Tonmotors verwendet wird; dadurch können Tonhöhenschwankungen in engen Grenzen gehalten werden. Bei Studiomaschinen werden der Antrieb des aufwickelnden Tellers und das Bremsmoment des abwickelnden Tellers durch besondere Wickelmotoren erzeugt, deren Drehmoment mit steigender Umdrehungszahl sinkt (meistens Wirbelstromläufer). Damit wird unabhängig vom jeweiligen Durchmesser der Bandwickel vor und hinter der Tonrolle ein weitgehend konstanter Bandzug erreicht (800 – 1400 mN). Dies ist notwendig, weil infolge der Verformung der Gummiandruckrolle kein ganz genau definierter Antrieb möglich ist und eine Differenz des Bandzuges beiderseits der Tonrolle daher zu Abweichungen von der Sollgeschwindigkeit führen würde (Schlupf). Die Wickelmotoren dienen außer zur Bandzugregelung auch zum schnellen Vor- und Rückspulen des Tonträgers bei nicht mitlaufender Gummiandruckrolle und zwar mit einer ca. 20fachen Geschwindigkeit. Das Band wird dabei von den Köpfen abgehoben; einerseits schont man dadurch die Köpfe, andererseits unterdrückt man die Wiedergabe der lästigen und für die Lautsprecher schädlichen hohen Frequenzen, die dadurch entstehen, dass der energiereiche Spektrumbereich zwischen 200 und 1000 Hz infolge der hohen Umspulgeschwindigkeit in den oberen Übertragungsbereich verschoben wird. Bei Studiomaschinen ist die Umspulgeschwindigkeit regelbar, um ein schnelleres Auffinden bestimmter Bandstellen zu erleichtern. Die Bandabhebung ist beim Umspulen in der Betriebsart EDIT unwirksam. Tonhöhenschwankungen Grundsätzlich muss die Bandgeschwindigkeit bei Aufnahme und Wiedergabe identisch sein, damit die ursprüngliche Tonhöhe reproduziert werden kann. Das ist nur bei konstanter Vorschubgeschwindigkeit des Bandes realisierbar. Die Abweichungen von der Sollgeschwindigkeit liegen bei Studiomaschinen deutlich unter 0,1%. Trotz großer Präzision ist aber bei Magnettonlaufwerken keine völlig konstante Vorschubgeschwindigkeit des Bandes zu erreichen. Schwankt diese, so wird bei der Wiedergabe mit idealem, d. h. völlig konstantem Antrieb, eine so aufgezeichnete Frequenz eine entsprechende Frequenzmodulation aufweisen. In der Praxis treten aber sowohl bei der Wiedergabe als auch bei der Aufnahme Schwankungen der Geschwindigkeit auf, wodurch sich eine Frequenzmodulation ergibt, die sich aus den Schwankungen bei Aufnahme und Wiedergabe zusammensetzt. 407
Analoge Tonsignalspeicherung
Abb. 7/33. Aufbau einer Magnettonanlage.
Sehr langsame Änderungen werden subjektiv als Jaulen oder Vibrato der Aufzeichnung empfunden. Zwischen etwa 10 und 20 Hz Schwankungsfrequenz kann das Ohr den Schwankungen nicht mehr ganz folgen; die Änderungen erscheinen härter, als Flattern oder Trillern. Noch höhere Modulationsfrequenzen bewirken eine Rauhigkeit des Tones. Tonhöhenschwankungen stören insbesondere bei Aufnahmen von Musikinstrumenten mit starrer Tonhöhe (z. B. Orgel, Cembalo und Klavier). Nach DIN 45 507 gemessene Tonhöhenschwankungen von weniger als 0,05 % sind auch bei kritischen Aufnahmen nicht wahrnehmbar. Schlupf Neben den kurzzeitigen Geschwindigkeitsschwankungen tritt auch eine geringe kontinuierliche Änderung der Geschwindigkeit zwischen Anfang und Ende des Bandes auf. Diese ist, da sie beim Aufsprechen und bei der Wiedergabe in gleichem Maße auftritt, zunächst nicht wahrnehmbar. Sie kann jedoch stören, wenn bei der Bearbeitung des Bandes Stücke aus verschiedenen Teilen des Wickels aneinander gefügt werden, so dass bei der Wiedergabe eine sprunghafte Änderung der Tonhöhe erfolgt. Bei Studiogeräten bleibt der Schlupf unter 0,1%. Die zu fordernden niedrigen Werte von Tonhöhenschwankungen und Schlupf verlangen große mechanische Präzision der Anlage. Bremsen Um eine Schlaufenbildung des Bandes beim Stoppen und Bremsen, insbesondere nach schnellem Vor- und Rücklauf, zu vermeiden, muss der abwickelnde Teller stets stärker 408
Magnetische Tonsignalspeicherung gebremst werden als der aufwickelnde, wobei noch der unterschiedliche Durchmesser der Bandwickel und die verschiedenen Drehzahlen der Teller zu berücksichtigen sind. Eine zu hohe Belastung des Bandes, die zu Dehnungen oder zum Zerreißen führen würde, muss dabei vermieden werden. Man benutzt i. Allg. mechanische Bremsen mit drehrichtungsabhängigem Bremsmoment und Bremsbelägen, bei denen der Unterschied zwischen Haft- und Gleitreibung möglichst gering ist, z. B. Graphit. Bandführung Zur Führung des Bandes an den Kopfspalten vorbei dienen Umlenkrollen und feststehende Führungsstücke aus verschleißfestem, unmagnetischem Material (vgl. Abb. 7/18). Durch Reibung an feststehenden Bauelementen und an den Köpfen wird das Band zu Längsschwingungen mit einer Frequenz von einigen kHz angeregt, abhängig von den mechanischen Eigenschaften des Bandes und vom Abstand der den Köpfen benachbarten Umlenkrollen. Um die Längsschwingungen zu verringern und in den Bereich nicht mehr hörbarer Frequenzen zu verlagern, wird zwischen Sprech- und Hörkopf häufig eine mitlaufende Beruhigungsrolle angebracht. Beide möglichen Schichtlagen des Magnetbandes sind in Gebrauch: Bei der „deutschen Schichtlage” ist die Magnetschicht auf dem Wickel nach außen gekehrt, bei der „internationalen Schichtlage” nach innen. Je nach dem angewendeten System ist die Bandführung verschieden (Abb. 7/18). Die deutsche Schichtlage zeigt i. Allg. bessere Ergebnisse bei der subjektiven Beurteilung des Kopiereffekts. Durch einfaches Drehen des Bandes zwischen Bandteller und Fühlhebel sind die beiden Bandführungssysteme kompatibel. Spulen Während bei tragbaren professionellen Geräten und bei Heimtongeräten ausschließlich Bandspulen mit Flanschen (DIN 45 514 und 45 517) benutzt werden, verwendet die Studiotechnik überwiegend flanschlose Wickelkerne (DIN 45 515) für freitragende Bandwickel, um Schneidearbeiten zu erleichtern. Die dafür erforderliche Festigkeit der Wickel wird durch erhöhten Bandzug und eine rutscharme Mattierung der Bandrückseite erreicht. 7.1.5.2
Magnettonköpfe
Die für elektroakustische Zwecke verwendeten Magnetköpfe mit ringförmigem Kern (Ringköpfe nach Schüller, 1935) für Aufzeichnung und Wiedergabe bestehen aus einem Ringkern, der eine Wicklung trägt. Kern und Wicklung sind eingegossen. Der Querschnitt des Kerns verjüngt sich am Spalt, der aus mechanischen und magnetischen Gründen eine Einlage aus einem harten, unmagnetisierbaren Material wie z. B. Glas enthält; die Berührungsfläche zwischen Kopf und Band, der sog. Kopfspiegel, ist wegen des erforderlichen engen Kontakts geschliffen. Die Spulenwicklungen sind gegenläufig auf die beiden Ringkernhälften gewickelt, von außen einwirkende magnetische Störfelder werden somit unwirksam. Sprechkopf Das Kernmaterial von Sprechköpfen muss eine hohe Permeabilität und geringe Verluste aufweisen, damit das magnetische Feld sich linear zum Sprechstrom verhält und somit 409
Analoge Tonsignalspeicherung möglichst wenig nichtlineare Verzerrungen entstehen. Der Sprechkopf besitzt außer dem Arbeitsspalt, der das magnetische Feld für die Magnetisierung des Bandes erzeugt, einen zweiten, breiteren Spalt, den sog. Scherspalt (Abb. 7134). Der Arbeitsspalt mit 18 :m Breite in der Mitte des Spiegels erzeugt das Magnetfeld zur Magnetisierung des Bandes. Gegenüber dem Spalt des Hörkopfs ist er relativ breit, um so mit einem starken Magnetfeld eine Magnetisierung der gesamten magnetischen Schicht zu erreichen. Dies ermöglicht die optimale Ausnutzung der Dynamik des Magnetbandes. Der Scherspalt befindet sich auf der Rückseite des Sprechkopfs. Da er mit etwa 500 :m relativ breit ist, bestimmt er im Wesentlichen die magnetischen Eigenschaften des Kopfs. So bleiben Änderungen der magnetischen Eigenschaften durch unterschiedlich engen Bandkontakt ohne Einfluss. Außerdem wird so vermieden, dass nicht immer unterdrückbare stärkere Stromstöße und Gleichstromkomponenten eine wesentliche Remanenz zurücklassen.
Abb. 7/34. Sprechkopf (schematische Darstellung).
Die Impedanz des Sprechkopfs ist nahezu rein induktiv, seine Impedanz steigt also innerhalb des Übertragungsbereichs linear mit der Frequenz an. Um einen frequenzunabhängigen Stromfluss zu erhalten, muss demnach der Innenwiderstand des Aufsprechverstärkers sehr hoch gegenüber demjenigen des Sprechkopfs sein. Hörkopf Der Hörkopf ist ähnlich wie der Sprechkopf konstruiert. Um einen höheren Wirkungsgrad zu erreichen, hat er jedoch keinen oder nur einen sehr schmalen Scherspalt. Der wegen der Abtastung hoher Frequenzen außerordentlich schmale Arbeitsspalt der Hörköpfe mit 3 bis 8 :m stellt erhebliche Anforderungen an die mechanische Präzision. Da das magnetische Material an den Kanten der Spalte gesättigt wird, ist die wirksame sog. „effektive Spaltbreite" etwa 1,2 mal breiter als die geometrische Spaltbreite. Das vom Band ausgehende Magnetfeld wird teilweise über den Spalt des Hörkopfs kurzgeschlossen; mit geringerer Spalttiefe steigt deshalb die induzierte Spannung an, ein Effekt, der sich auch mit zunehmendem Abrieb des Kopfspiegels durch das Band einstellt. Um die Einflüsse des Kopfabriebs gering zu halten, gibt man dem Spalt durch Abschrägung der Kernenden eine Tiefe von etwa 1 mm. Wichtig ist eine gute Abschirmung des Kopfs gegen Fremdfelder. Der Innenwiderstand des Hörkopfs ist niederohmig, um kapazitätsbedingte Verluste in den Zuleitungen zum Wiedergabeverstärker klein zu halten. 410
Magnetische Tonsignalspeicherung Löschkopf Der Wirkungsgrad des Löschkopfs muss hoch sein, damit auch bei hoch koerzitiven Bändern eine hohe Löschdämpfung erreicht wird. Der Löschkopfspalt ist mit 100 bis 400 :m sehr breit, damit das Löschfeld die gesamte magnetische Bandschicht durchdringt. Zur Erhöhung der Löschwirkung werden i. Allg. zwei oder mehr Spalte unterschiedlicher Breite mit z. B. 150 und 300 :m magnetisch hintereinander geschaltet. Die Frequenz des Löschstroms liegt zwischen 80 und 150 kHz. 7.1.5.3
Mehrspur-Magnettonanlagen
Für die Produktion von Popmusik, aufwändigen Hörspielen und Features, aber auch für Aufnahmen von E-Musik, besonders von Opern, ist die Trennung der Schallquellen auf dem Magnetband unerlässlich, um verschiedene Abmischungen herstellen zu können. Es gibt Mehrspurmaschinen mit 4, 8, 16, 24 und 32 Spuren, selten 12 Spuren. Die Breite der Tonspuren und der Trennspuren gibt Tab. 7/1 an. Die Besonderheit von Mehrspurgeräten ist die Möglichkeit, den Aufnahmekopf als Wiedergabekopf mit eingeschränkter Klangqualität benutzen zu können und über einen sog. Taktverstärker ein Signal vom Band zu erhalten, zu dem synchron neue Signale aufgesprochen werden können. Über die Taktverstärker kann jede einzelne Spur, über den Taktmischverstärker auch eine provisorische Abmischung für Zuspielungen hergestellt werden; bei der Mischung sind auch externe Signale, z. B. Hall, zumischbar. Der Taktmischverstärker ist meist als separater Abhörsimulator oder Einspielmischer mit der Möglichkeit, mehrere unterschiedliche Abmischungen herzustellen, Teil der Regieanlage.
Abb. 7/35. Synchrone Verkopplung zweier Mehrspur-Magnetbandgeräte.
Mehrspurgeräte besitzen je nach Typ und Hersteller die folgenden Zusatzeinrichtungen: Kontrollinstrumente zur Überwachung der einzelnen Kanäle, Fernbedienbarkeit des Laufwerks und der Verstärkerfunktionen, Veränderbarkeit der Bandgeschwindigkeit, Auswechselbarkeit des Kopfträgers und der Bandführungselemente zur Anpassung an verschiedene Bandformate und Spurzahlen und Kompandersysteme zur Rauschverminderung. Durch eine synchrone Verkopplung mehrerer Magnetbandgeräte kann die Anzahl der Spuren beliebig erhöht werden. Dabei dient eine Maschine als Master, der über ein Synchron-Verkopplungssystem weitere Maschinen als Slaves steuert (Abb. 7/35). Als Zeitbezug für die Synchron411
Analoge Tonsignalspeicherung verkopplung wird der international standardisierte SMPTE-Code in der von der EBU eingeführten Fassung benutzt. Bei Mehrspurmaschinen ist der Zeitcode auf einer der Tonspuren, bei ¼'-Maschinen auf einer besonderen Zeitcodespur aufgezeichnet. 7.1.5.4
Aufzeichnung von Mono- und Stereosignalen
Mono-Magnettonanlagen waren bis in die Mitte der siebziger Jahre elektrisch so eingestellt, dass, bezogen auf die Nutzspurbreite von 6,25 mm, ein remanenter Bandfluss von 2000 pWb vorhanden ist; dies entspricht einem Bandfluss von 320 pWb pro 1 mm Bandbreite. Danach wurden im Hörfunkbetrieb Monoaufnahmen mit demselben Bandfluss pro 1 mm Bandbreite wie Stereoaufnahmen aufgezeichnet; er liegt um ca. 4 dB höher bei 514 pWb/mm. Die magnetische Aufzeichnung von Stereosignalen erfordert für die Trennung der beiden Kanäle mit einer Übersprechdämpfung von etwa 40 dB eine Trennspur von 0,75 mm. Damit steht pro Kanal eine Nutzspurbreite von 2,75 mm zur Verfügung. Gegenüber dem Monobetrieb wurde der Gesamtbandfluss für den Stereobetrieb bei Einführung der Stereofonie um 3 dB erhöht und beträgt damit bezogen auf die volle Nutzspurbreite 2820 pWb, das sind ca. 514 pWb pro mm Spurbreite. Während der gesamte Bandfluss bei Stereoaufnahmen um genau 3 dB über dem Monobandfluss älterer Bänder liegt, ist der Bandfluss pro mm Spurbreite um 4,1 dB höher, weil das für die Trennspur verwendete Band unbespielt bleiben muss. Das führt dazu, dass bei der Abtastung von älteren Monobändern mit Stereokopf ein um ca. 4 dB niedrigerer Pegel an den Wiedergabeverstärker abgegeben wird, der natürlich ausgeglichen werden muss. Bei der Abtastung neuerer Monobänder mit Stereokopf gibt es hingegen keinen Pegelunterschied der einzelnen Kanäle gegenüber Stereoaufnahmen. Bei der Summierung L + R erreicht die Monoaufnahme allerdings wegen der identischen Signale einen um durchschnittlich 3 dB höheren Gesamtpegel. Die Pegelverhältnisse zeigt im einzelnen Abb. 7/36.
7.2
Mechanische Schallspeicherung
Eine analoge mechanische Schallspeicherung wurde auf Walzen, Platten oder Bändern realisiert. Durchgesetzt hat sich ausschließlich die Speicherung auf Schallplatten mit dem sog. Nadeltonverfahren. Prinzipiell ist auch die Schallspeicherung auf der Compact Disc (CD) eine mechanische, aber nun digitale Schallspeicherung. Nachfolgend wird nur die Technik der analogen Schallplatte dargestellt, das sog. Nadeltonverfahren. Beim Nadeltonverfahren wird der Schall mechanisch in Form einer modulierten Rille auf eine Platte aufgezeichnet und ebenfalls mechanisch wieder abgetastet. Da das Verfahren dem Prinzip nach keine Umsetzung in elektrische Größen verlangt, konnte es schon vor Erfindung der Verstärkerröhre als erstes Schallspeicherverfahren überhaupt verwendet werden. Heute erfolgt sowohl die Aufzeichnung als auch die Wiedergabe ausschließlich unter Zwischenschaltung einer elektrischen Signalverstärkung. [7.23 bis 7.26]
412
Mechanische Schallspeicherung
Abb. 7/36. Pegelverhältnisse bei der Abtatastung von Magnetbändern mit Stereoaufzeichnung.
413
Analoge Tonsignalspeicherung Trotz Einführung der Audio-CD hat die analoge Schallplatte überlebt, in den verschiedenen Sparten der Popkultur werden dabei teils spezifische Formate verwendet. Die von DJs entwickelte spezifische Kultur des Plattenabspielens und Überblendens zwischen zwei Platten beruht zudem auf den besonderen Möglichkeiten des Handlings der Schallplatte und hat diesem Tonträger auch im Zeitalter digitaler Technik einen Platz in der Medienlandschaft bewahrt. Die Abspieltechnik der DJs wurde durch spezielle Verfahren auch auf das Abspielen von Audio-CDs übertragen; hierbei steuern mit Timecode versehene Platten das Abspielen der Audio-CDs.
7.2.1
Aufzeichnungsverfahren
Der Verlauf der Schallwelle wird durch eine modulierte Rille repräsentiert, die auf der Schallplatte als Spirale von außen nach innen durchlaufen wird. Die Rille wird heute durch einen Schneidestichel in eine mit Speziallack überzogene Metallplatte oder direkt in eine Kupferplatte (DMM-Verfahren) eingeschnitten. 7.2.1.1
Mono- und Stereoaufzeichnung
Die Aufzeichnung kann sowohl in Tiefenschrift durch Modulation der Rille senkrecht zur Plattenoberfläche als auch in Seitenschrift durch Modulation der Rille in seitlicher Richtung erfolgen. Für Monoaufzeichnungen wird nur die Seitenschrift verwendet. Die Stereoaufzeichnung kommt ebenfalls mit einer einzigen Rille aus. Die nach innen weisende Rillenflanke dient der Linksinformation, die nach außen weisende Rillenflanke der Rechtsinformation. Die Flanken stehen senkrecht aufeinander und unter ± 45/ zur Plattenoberfläche (Abb. 7/37). Der Winkel zwischen beiden Flanken betrug auch schon bei der Monotechnik etwa 90/, was die Einführung der Stereotechnik erleichterte. Die Phasenlage von rechtem und linkem Kanal zueinander wurde so gewählt, dass die Summe von linkem und rechtem Kanal, die dem Monosignal entspricht, als Seitenschrift erscheint (Abb. 7/37) [7.27]. Stereoaufzeichnungen können also mit einem Monosystem und Monoaufzeichnungen mit einem Stereosystem abgetastet werden, wobei man jeweils natürlich nur ein Monosignal erhält, es besteht somit Kompatibilität in beiden Richtungen. Die alten, rein mechanisch wirkenden Wiedergabegeräte erforderten, da sie keinerlei Verstärkung besaßen, eine tiefe Rille mit großen Auslenkungen (Normalrille). Diese verlangen eine hohe Umdrehungsgeschwindigkeit (78 U/min). Mit Einführung elektro-mechanischer Abtastsysteme konnten kleinere Auslenkungen und damit geringere Umdrehungsgeschwindigkeiten (Mikrorillen mit 45 und 33 a bzw. Picorille mit 16 b U/min) verwendet werden. Für die Mikrorille, die für Mono und Stereo verschiedene Maße hat, gelten die Abmessungen nach Abb. 7/38. Auf ihrem Grund ist die Mikrorille etwas verrundet (4 :m). Ihre Breite beträgt ca. 55 :m für Mono, 40 :m für Stereo, die Stegbreite zwischen zwei Rillen muss wenigstens 10 :m betragen. Unmodulierte Rillen haben daher den Mindestabstand von 65 bis 70 :m, maximal modulierte Rillen (Auslenkung bis 30 :m) erfordern einen Abstand von 130 :m Die Stereorille würde bei gleichen Maßen wegen der zusätzlichen Tiefenmodulation mehr Raum benötigen. Um die gleiche Spielzeit beibehalten zu können, ist deshalb die Rillentiefe und breite bei Stereoplatten bei sonst gleicher Geometrie reduziert worden. Beide Plattentypen, Mono- und Stereoplatten, werden für die Umdrehungsgeschwindigkeiten von 45 U/min 414
Mechanische Schallspeicherung (Durchmesser 17 cm, Maxisingel 30 cm) und 33 a U/min (Durchmesser 30 cm, zunächst auch 25 cm) hergestellt. Tab. 7/7 fasst die Formate der verschiedenen Schallplatten zusammen.
Abb. 7/37. Aufzeichnungsarten der Stereoschallplatte.
Abb. 7/38. Geometrie der Normal- und Mikrorille.
Eine weitere Erhöhung der Speicherdichte konnte dadurch erreicht werden, dass der Abstand benachbarter Rillen variabel gehalten und so gering gewählt wird, wie es die Auslenkung gerade zulässt. Dazu wird beim Schneiden der Platte mit einem zusätzlichen Hörkopf am abspielenden Bandgerät vorher die zur Rillen-Vorschubsteuerung erforderliche Information 415
Analoge Tonsignalspeicherung abgenommen. Es gibt verschiedene dieser sog. Füllschrift-Verfahren. Der Gewinn liegt für Musik bei einem Faktor von rund 1,7. Tab. 7/7. Hauptsächliche Schallplattenformate. Kennzeichnung Schelllackplatte mit Normalrille: „N 78" (erst nach Einführung der LP)
Durchmesser cm (Zoll)
U/min
Spieldauer pro Seite ca. min
Marktpräsenz ca.
17, 25, 30
70 74 bis 82 78
max. 4 ½ bei 30 cm Durchmesser
1895 - 1900 1900 - 1925 1925 - 1955
20 bis 25
ab 1948
Langspielplatte (Vinyl, Polyvinylplatte) mit Mikrorille: Langspielplatte, „M” und Angabe 30 (12), 33,a, selten 45 LP der U/min, 25 (10) „St” (Stereo) 16 b selten 40 (16) 33 a Single, 17 (7) 45, selten 7-Zoll-Single 33a Vinyl-Single, 10-Zoll-Single Maxi-Single, 12-Zoll-Single
7.2.1.2
60 30 4 bis 5
25 (10) 30 (12)
45, 33 a
ab 1976
Lichtbandbreite
Ein Maß für die seitliche Auslenkung einer Rille bei gegebener Umdrehungsgeschwindigkeit und Frequenz ist die Bewegungsgeschwindigkeit der abtastenden Nadel; sie wird als Schnelle bezeichnet. Die Frequenzgänge der Platten-Kennlinien sind auf die Spitzenschnelle bezogen. Eine einfache Beurteilung der Schnelle und damit der Dynamik einer Aufzeichnung ergibt die Messung der sog. Lichtbandbreite (Abb. 7/39).Blickt man senkrecht auf eine Schallplatte, die von einer flach aus entgegengesetzter Richtung einfallenden Lichtquelle beleuchtet wird, so erkennt man auf gegenüberliegenden Seiten der Aufzeichnung hell glänzende Streifen wechselnder Breite (Lichtbänder). Sie sind umso breiter, je stärker die Rille moduliert ist. Für die Praxis ist wichtig, dass man aus der Lichtbandbreite den ungefähren Verlauf der Dynamik abschätzen kann und damit bei Musikaufnahmen eine Hilfe beim Aufsuchen bestimmter Stellen zur Verfügung hat. [7.28], [7.29] 7.2.1.3
Schneidkennlinien
Um einen möglichst ebenen Frequenzgang zu erhalten, war man bei der rein mechanischen Abtastung bemüht, mit konstanter Schnelle zu schneiden. Da dies bei tiefen Frequenzen jedoch zu große Amplituden ergab, schnitt man unterhalb 300 oder 500 Hz mit konstanter Amplitude. Mit dem Übergang zu elektro-mechanischen Wandlern wurde es möglich, den Frequenzgang der Schneidkennlinie optimal den Abtastbedingungen und der statistischen Amplitudenverteilung von Musik und Sprache anzupassen und danach elektrisch zu entzerren. 416
Mechanische Schallspeicherung Die Schneidkennlinie ist für alle heute in Deutschland produzierten Schallplatten identisch, für die Schallplatte N 78 hatte die Kennlinie bei 15 kHz etwa 4 dB weniger Höhenanhebung (DIN 45 533).
Abb. 7/39. Lichtbandbreite.
Die Aufzeichnung erfolgt nach der IEC-Empfehlung 98 bzw. DIN IEC 98 oder DIN 45 546 und 45 547 im Prinzip mit konstanter Auslenkung. Das entspricht einer mit der Frequenz zunehmenden Schnelle (Abb. 7/40). Die Schneidkennlinie hat zwei Abschnitte: einen zwischen 50 und 500 Hz und einen zwischen 2120 und 15 000 Hz, in denen die Auslenkung etwa konstant ist. Diese beiden Abschnitte gehen kontinuierlich ineinander über; zudem wird im tiefsten Frequenzbereich die Auslenkung etwas angehoben zugunsten eines größeren Rumpelgeräuschspannungsabstands. Der genaue Verlauf der Schneidkennlinie wird durch die Übergangsfrequenzen (50/ 500/2120 Hz) oder durch Zeitkonstanten angegeben. Die Angabe mit Zeitkonstanten (3180/318/75 :s) legt den Verlauf eines Frequenzgangs, wie er durch die Reihenschaltung von Kondensator und Widerstand erzeugt wird, zu Grunde, wobei das Produkt aus Kapazität und Widerstand in :s angegeben wird. Ausländische Platten haben oft andere Schneidkennlinien, auf die die Entzerrer umgeschaltet werden können (NAB, RIAA: 3180/318/50 :s, BBC: 3180/318/25 :s, FLAT: 3180/318/0 :s). Die verschiedenen Schneidkennlinien unterscheiden sich nur oberhalb 1 kHz. Bei tiefen Frequenzen ist die maximale Auslenkung durch den Rillenabstand, die minimale Auslenkung durch den erforderlichen Rumpelgeräuschspannungsabstand gegeben. Für hohe Frequenzen wird die kleinste Auslenkung durch den Geräuschspannungsabstand und die größte Auslenkung durch den Krümmungsradius der Nadel an der Auflagefläche bestimmt. Zusätzlich ist dabei zu berücksichtigen, dass Abtastgeschwindigkeit und Rillenradius der äußeren und inneren Rillen stark differieren. So beträgt die Wellenlänge auf der äußersten Rille für 15 kHz noch etwa 35 :m, auf der innersten nur etwa 15 :m. Die Spitzenschnelle bei Vollaussteuerung (0 dB) darf bei Stereoplatten (M 33 und M 45) 8 cm/s, bei Monoplatten 10 cm/s (M 33) bzw. 12 cm/s (M 45) nicht überschreiten. Bei der Wiedergabe entzerrt der Entzerrerverstärker den Frequenzgang des aufgezeichneten Signals mit einer spiegelbildlich zur Schneidkennlinie verlaufenden Entzerrung. Seit einigen Jahren ist nach IEC 98 für die Wiedergabe eine vierte, zusätzliche Zeitkonstante von 7950 :s vorgeschrieben. Dadurch werden die tiefen Frequenzen bei 20 Hz um 3 dB und darunter mit 6 dB/Oktave zunehmend gegenüber der Aufnahme bedämpft. Dies entspricht einer betriebsgerechten Wiedergabeentzerrung, wie sie in Studiogeräten schon vorher üblich war. Sie 417
Analoge Tonsignalspeicherung unterdrückt wirksam diejenigen Rumpelschwingungen, die sonst den Tonarm zu Eigenschwingungen anregen würden.
Abb. 7/40. Entzerrungskennlinien für Aufnahme und Wiedergabe für die Mikrorille (Mono und Stereo) nach DINIEC 98 bzw. DIN 45 546 und 45 547 (Bemessungscharakteristiken).
7.2.2
Plattenherstellung
Bei der Plattenherstellung sind heute zwei Verfahren üblich: das Lackplatten-Schneidverfahren und das DMM-Schneidverfahren, das sog. Direct Metal Mastering. Das Lackschneidverfahren ist das traditionelle Verfahren. Das DMM-Verfahren ist einerseits bei der Plattenherstellung kostengünstiger, bietet v. a. aber bessere Tonqualität. Für sehr kleine Auflagen wird jede Platte einzeln in Vinyl geschnitten. 7.2.2.1
Lackplatten-Schneidverfahren
Bei diesem Verfahren schneidet ein vorgeheizter Schneidstichel die Rille in eine Lackplatte aus Nitrozelluloselacken. Stichelform und -temperatur beeinflussen entscheidend die Güte der Rillenoberfläche und damit auch der Platten. Die Rückfederung der Lackschicht nach dem Schneiden beeinträchtigt die Tonqualität. Die geschnittene Lackplatte ist zu weich, um ein mehrfaches Abspielen oder gar einen Vervielfältigungsprozess zu gewährleisten. Sie wird daher mit einer meist aufgespritzten Silbernitratlösung und einem Katalysator versilbert, dadurch leitend gemacht und dann galvanisch verkupfert bei einer Schichtdicke von etwa 0,5 mm. Diese Kupferplatte wird von der Lackplatte abgehoben. Von dem so gewonnenen „Vater”, bei dem die geschnittenen Rillen nun als Erhebung erscheinen, wird dann ebenfalls nach einer Versilberung galvanisch die „Mutter” aus Kupfer hergestellt und von dieser 418
Mechanische Schallspeicherung schließlich mehrere „Söhne”. Diese Pressmatrizen für die eigentliche Plattenherstellung werden durch Verchromen mechanisch widerstandsfähig gemacht. Als Plattenmaterial wird heute v. a. Polyvinylchlorid (PVC) oder Polystyrol (PS) benutzt, weshalb die Schallplatte, um sie von der Audio-CD oder SACD abzusetzen, umgangssprachlich vielfach „Vinyl” genannt wird. Die vorgewärmte Masse kommt in eine geheizte Pressform, in deren obere und untere Hälfte je eine Matrize eingesetzt wird. Während des Kühlvorganges nach der Pressung bleibt die Platte mehrere Sekunden in der Pressform bis sie verfestigt ist. Nach Erkalten wird der Rand abgeschnitten. Insbesondere bei hohen Stückzahlen werden Platten vielfach auch im Spritzgussverfahren hergestellt. 7.2.1.2
DMM-Schneidverfahren
Die komplizierten Prozesse der Herstellung einer Mutter-Pressmatrize und die dabei resultierenden Beeinträchtigungen der Tonqualität beim Lackschneidverfahren werden beim DMMVerfahren, dem sog. Direct Metal Mastering, das von TELDEC zu Beginn der 80er Jahre entwickelt wurde und in Lizenz von verschiedenen Herstellern verwendet wird, umgangen; die Rille wird hierbei direkt in eine Kupferplatte geschnitten, die unmittelbar als Mutter für die Pressmatrize zur Verfügung steht. Die Metallplatte, in die die Schallrille direkt eingeschnitten wird, besteht aus einer etwa 0,8 mm dicken Stahlplatte, auf die eine etwa 0,1 mm dicke amorphe Kupferschicht aufgalvanisiert wird. Der Schneidstichel aus Diamant schneidet einen nicht abreißenden Kupferspan aus der Platte. Durch das Zusammenwirken von Diamantstichel und Kupferschicht entsteht eine Ultraschallschwingung von etwa 80 kHz, mit der die Rillenoberfläche moduliert ist und an der eine DMM-Aufzeichnung unter dem Mikroskop zweifelsfrei erkannt werden kann. Diese Modulation trägt auch entscheidend zur Verbesserung des Rauschverhaltens der Plattenoberfläche bei. Das Verfahren selbst kann von allen Plattenherstellern, die die Lizenz erworben haben, benutzt werden. Das Gütesigel DMM ist an die Erfüllung hoher Qualitätsforderungen bezüglich Aufnahme - digitale Aufzeichnung oder Kompanderverfahren - und Pressung gebunden, so dass das DMM-Siegel hohe technische Qualität gewährleistet. Das Störgeräusch der DMM-Platte beinhaltet weniger impulsartige Anteile, also weniger Knistern und Knacken. Bei der Lackplatte entstehen diese Störungen durch Inhomogenitäten der Lackversilberung. Bei sorgfältiger Pressung auf gutes Material können diese Qualitätsverbesserungen an die Platte weitergegeben werden. Auch das Rumpelgeräusch konnte mit der Konstruktion neuer Schneidemaschinen erheblich verringert werden. Schließlich ist die Kapazität einer Platte in der DMM-Schneidetechnik um 10 bis 15 % größer, da die Stege zwischen benachbarten Rillen schmäler sein können. Zudem ist die Kupferschicht stabiler als die Lackschicht, die Stege werden beim Schnitt nicht weggedrückt.
7.2.3
Wiedergabe
Bei der Schallplattenwiedergabe gleitet die Nadel des Abtastsystems in der Rille. Dabei wird sie entsprechend der aufgezeichneten Schallwelle ausgelenkt. Das Abtastsystem (Tondose) wandelt die Schwingungen in elektrische Signale um. Sie werden verstärkt und entzerrt. [7.30] 419
Analoge Tonsignalspeicherung 7.2.3.1
Abtastsysteme
Für die Umsetzung der Nadelbewegung in elektrische Spannung werden v. a. zwei Prinzipien verwendet: das elektromagnetische Prinzip und das elektrodynamische Prinzip. Magnetische und dynamische Abtaster ergeben eine Ausgangsspannung, die der Schnelle proportional ist. Der Spannungsverlauf entspricht also der Schneidkennlinie (Abb. 7/40). Die erforderliche Frequenzgangentzerrung ist daher ein genaues Spiegelbild der Schneidkennlinie. Die Ausgangsimpedanz der Abtastsysteme ist niederohmig, die Ausgangsspannung bei 1 kHz und maximaler Aussteuerung liegt in der Größenordnung von einigen mV; magnetische Systeme geben eine etwa 10 mal höhere Spannung bzw. einen um 20 dB erhöhten Pegel ab. [7.31], [7.32] Mechanischer Aufbau und Wirkungsweise Bei magnetischen Systemen wird eine kleine, feststehende Induktionsspule vom magnetischen Fluss eines Permanentmagneten durchsetzt. Ein im Magnetfeld angebrachter, von der Abtastnadel bewegter kleiner Anker verändert den magnetischen Fluss des Felds und erzeugt somit eine Induktionsspannung in der Spule. Es gibt zahlreiche verschiedene technische Ausführungen. In Abb. 7141 ist ein magnetisches Monoabtastsystem dargestellt. Bei dynamischen Systemen bewegt sich unter Führung der Abtastnadel eine kleine Induktionsspule im Feld eines Permanentmagneten. Auch hier induziert die Flussänderung eine Spannung in der Spule (Abb. 7/42). Dynamische Systeme arbeiten besonders verzerrungsarm. Sie werden i. Allg. im Tonstudiobereich verwendet. Bei Stereoabtastern wirkt die Bewegung der Nadel auf zwei elektro-mechanische Wandler ein, die so angeordnet sind, dass sie jeweils nur auf die Modulation einer Rillenflanke ansprechen. Sie stehen also senkrecht zueinander und sind jeweils um 45/ zur Plattenoberfläche geneigt. Gute Übersprechwerte (Messung DIN 45 543) erfordern eine sorgsame Justierung des Tonabnehmers.
Abb. 7/41. Magnetischer Abtaster.
420
Mechanische Schallspeicherung
Abb. 7/42. Dynamischer Abtaster.
Abtastnadeln und Auflagekraft Die Forderung nach einer optimalen Rillenabtastung auch hoher Frequenzen bei den Innenrillen, nach geringer Rillenabnutzung und schließlich nach Betriebssicherheit bestimmen die Form der Abtastnadel und ihre Auflagekraft. Der auf die Plattenoberfläche ausgeübte Druck darf 400 N/mm2 nicht überschreiten, da sonst die Verformung des Plattenmaterials zu groß wird. Andererseits fordert die Betriebssicherheit im Plattenabspielbetrieb der Rundfunkanstalten eine Auflagekraft von 25 - 30 mN; diese Werte liegen also deutlich höher als in der HiFi-Technik, wo maximal 10 - 20 mN üblich ist. Im Produktionsbetrieb können die Werte ebenfalls geringer sein. Daraus wieder lässt sich der Verrundungsradius einer sphärisch geschliffenen Nadel ermitteln. Er beträgt für die Mikrorille und Stereoaufzeichnung 15 :m. Hält man einer so geschliffenen Nadel die geometrischen Verhältnisse der Innenrille einer Platte entgegen, so wird ersichtlich, dass man mit 15 :m bereits an einer kritischen Grenze angelangt ist: die Wellenlänge der Schallaufzeichnung bei 15 kHz beträgt bei den Innenrillen ca. 14 :m. Dabei spielt die Auslenkung der Rille eine entscheidende Rolle: Die Spitzenschnelle beträgt auf Grund der Schneidkennlinie (Abb. 7/40) bei 15 kHz rund 70 cm/s; das entspricht einer Anhebung von 17 dB bezogen auf die genormte Spitzenschnelle bei 1 kHz von 10 cm/s. Der Schneidstichel kann schon wegen seiner Geometrie eine Spitzenschnelle von maximal etwa 18 cm/s bei 15 kHz als Innenrillen schneiden. Auf Grund der Amplitudenstatistik (Abb. 7/21) dürfte eine Aussteuerbarkeit der Höhen auf rund 12 dB ausreichen. Soll nun aber diese Grenze bei der Wiedergabe voll ausgenutzt werden, so ist eine Nadelverrundung von 15 :m viel zu groß, rund 3,5 :m wären notwendig. Eine Nadel mit 3,5 :m Verrundung ist aus zwei Gründen nicht möglich: Die Nadel würde erstens nur noch den Rillengrund abtasten und hohe Störgeräusche übertragen, weiter müsste die Auflagekraft etwa auf 10 % reduziert werden, was eine zuverlässige Nadelführung in der Rille nicht mehr zuließe. Abhilfe schafft hier die biradial geschliffene Nadel; sie hat quer zur Rille den erforderlichen Radius von ca. 15 :m, in Längsrichtung einen Radius von ca. 6 :m (Abb. 7/43). Nachteilig an biradialen Nadeln ist die geringe Auflagefläche, die zu einer für den Abspielbetrieb der Rundfunkanstalten zu geringen Auflagekraft führt. Für die Technik der Anfang der 70er Jahre entwickelten Quadroschallplatte wurde jedoch ein Spezialschliff entwickelt, der bei einem ähnlich günstigen Nadelprofil eine erheblich größere Auflagefläche bietet. Es handelt sich dabei um den Shibataschliff, der unter verschiedenen Bezeichnungen bei hochwertigen Nadeln heute Stand der Technik ist; die seitliche Verrundung beträgt 6 :m, die Verrundung quer zur Rille entspricht einem Radius von ca. 15 :m. 421
Analoge Tonsignalspeicherung Abb. 7/43 zeigt die wesentlichen Merkmale dieses Schliffs im Vergleich zu herkömmlichen Schliffen. Eine andere Optimierung des Diamantschliffs hat van den Hui entwickelt; dieser Schliff geht vom Biradialschliff aus, hat aber einen variablen Verrundungsradius, um eine größere Rillenauflagefläche zu erreichen. Diese Nadeln sind unter verschiedenen Handelsnamen, z. B. Super-Fineline (SFL), Parac u. a. in Gebrauch [7.33]. Die Vergrößerung der Auflagefläche z. B. des Super-Finelineschliffs gegenüber dem Rundschliff zeigt ebenfalls Abb. 7/43.
Abb. 7/43. Nadelschliffformen.
Die Nadeln für Monoaufzeichnungen auf Mikrorillen haben einen Radius von 25 :m. Für die Normalrillen mit 78 U/min werden Nadeln mit 65 :m Radius verwendet. Für Platten vor etwa 1920 haben sich Nadeln mit 90 bis 120 :m bewährt. Als Nadelmaterial hat sich inzwischen auf Grund verbesserter Schleiftechniken im Tonstudiobereich Diamant durchgesetzt. Wichtig ist eine möglichst glatt polierte Oberfläche der Nadel, erkennbar an einer möglichst hohen MESH-Zahl. 7.2.3.2
Tonarm
Beim Schneiden der Platte wird die Schneiddose mit einer Spindel genau radial, d. h. auf einer Geraden in Richtung auf den Plattenmittelpunkt geführt. Grundsätzlich wäre die gleiche Bewegung bei der Abtastung erforderlich. Tangentialtonarme - wie sie im gehobenen HiFiSektor verwendet werden - erfüllen diese Forderung. Üblich ist aber in der Tonstudiotechnik aus Gründen des Betriebsablaufs der schwenkbare Tonarm. Bei optimaler Wahl des vertikalen Drehpunktes des Tonarms und bei einer entsprechenden Verwinkelung des Abtastsystems gegen den Tonarm ($ in Abb. 7/44) lässt sich dennoch erreichen, dass sich der von der Nadel beschriebene Kreisbogen dem Radius weitgehend nähert. Die maximalen Fehler betragen etwa ± 2/. Zur Schonung von Platte und Nadel dürfen vertikales und horizontales Tonarmlager bei geringstem Lagerspiel nur eine minimale Reibung aufweisen. Das Trägheitsmoment des Arms muss zwei Bedingungen genügen: Es muss zum einen so groß sein, dass es auch bei der Abtastung der tiefsten Frequenzen eine hinreichende Gegenkraft für die auf die Nadel einwirkenden Kräfte bietet, zum anderen soll es jedoch so niedrig sein, dass durch verzogene oder exzentrische Platten erzwungenen Tonarmbewegungen kein nennenswerter Widerstand entgegengesetzt wird. Dies hätte einen vorzeitigen Verschleiß von Platte und Nadel zur Folge. Der Tonarm ist statisch ausbalanciert, d. h. sein Schwerpunkt liegt genau im Drehpunkt; das gilt für alle Drehachsen. Dadurch treten bei Abweichungen von der horizontalen Lage keine zusätzlichen Kräfte auf. Die Auflagekraft erzeugt eine Feder mit einstellbarer Kraftwirkung, nicht die Schwerkraft. 422
Mechanische Schallspeicherung
Abb. 7/44. Geometrie des Tonarms.
Die sog. Skatingkraft, die den Tonarm aufgrund der Reibung zwischen Platte und Nadel zum Plattenmittelpunkt hinzieht, wird ebenfalls weitgehend von der Tonarmgeometrie bestimmt, aber auch vom Nadelschliff. Sie wird durch eine entsprechende Gegenkraft (Antiskatingkraft) - diese wird wie die Auflagekraft von einer Feder erzeugt - kompensiert. 7.2.3.3
Geometrische Abtastverzerrungen
Durch die Geometrie von Rille, Nadel, Abtastsystem und Tonarm bedingt, treten bei der Abtastung mehrere Arten von Verzerrungen auf. Sie werden mit den Messschallplatten DIN 45 542 und DIN 45 549 gemessen. Spurverzerrungen bei Tiefenschrift Wie aus Abb. 7/45 ersichtlich, folgt die Nadelspitze bei der Abtastung einer in der Tiefe modulierten Rille nicht exakt der Kurvenform. Dies ergibt geradzahlige und ungeradzahlige Verzerrungsprodukte. Je geringer der entsprechende Radius der Nadel ist, desto geringer sind auch die Verzerrungen. Nadeln mit biradialem Schliff, mit Shibata- oder Super-Finelineschliff reduzieren also diese Verzerrungen.
Abb. 7/45. Spurverzerrungen bei Tiefenschrift, wirksame Rillenform gestrichelt, geschnittene Rillenform durchgezogen.
Die Spurverzerrungen können bereits beim Plattenschnitt kompensiert werden; „Royal Sound Stereo” und „Dynagroove” sind entsprechende Verfahren. Die Kompensation wird in der Regel für sphärisch geschliffene Nadeln vorgenommen. Biradiale Nadeln können diese Klangverbesserung nicht übertragen. Nadeln mit Shibataschliff sind jedoch verwendbar. 423
Analoge Tonsignalspeicherung Klemmverzerrungen bei Seitenschrift Der vorgeschriebene Winkel von 90/ zwischen den Rillenflanken wird nur beim Schneiden einer unmodulierten Rille erzielt. Bei der Modulation führt der Stichel eine seitliche Bewegung aus. Damit wird die Rille bei gleich bleibender Tiefe schmaler, die „Böschung” demnach steiler (Abb. 7/46). Der Böschungswinkel schwankt also dauernd.
Abb. 7/46. Klemm- und Spurverzerrungen bei Seitenschrift.
Eine Abtastnadel mit kugelförmiger Spitze führt infolgedessen nicht nur die erwünschte seitliche Bewegung aus, sondern auch eine unerwünschte vertikale Bewegung. Bei einem Stereoabtaster erscheinen die Verzerrungen des Summenkanals (L + R) im Differenzkanal (L - R). Auch dieser Fehler wird durch biradiale und Shibatanadeln erheblich verbessert. Spurverzerrungen bei Seitenschrift In Abb. 7/46 sind gestrichelt die Berührungslinien der „Abtastkugel” eingezeichnet. Sie liegen nur in den ersten beiden der eingezeichneten Positionen A/B und C/D symmetrisch zur Sohle der Rille. In den Zwischenpositionen, z. B. Position E/F, ergeben sich Abweichungen dadurch, dass das Profil der Rille im Schnitt E/F unsymmetrisch ist: Der obere Berührungspunkt E liegt nämlich an einer Stelle größerer Rillenbreite als der untere Berührungspunkt F. Es entstehen dadurch nichtlineare Verzerrungen. Durch biradial geschliffene, Super-Fineline- oder Shibataschliffnadeln kann man diese Verzerrungen ebenfalls reduzieren. Verzerrungen durch den vertikalen Spurfehlerwinkel Bei der Aufzeichnung in Tiefenschrift bewegt sich der Schneidstichel auf einer Geraden. Die Abtastnadel ist jedoch an einem kleinen Hebel angebracht und bewegt sich somit auf einem Kreisbogen, dessen Mittelpunkt nicht in der Plattenebene liegt, sondern sich darüber befindet (Abb. 7/47). Auch daraus ergeben sich nichtlineare Verzerrungen bei der Abtastung der Tiefenkomponente. Sie werden jedoch weitgehend durch eine entsprechende Neigung des Schneidstichels um 20/ reduziert. 424
Mechanische Schallspeicherung
Abb. 7/47. Vertikaler Spurfehlerwinkel.
Der vertikale Spurfehlerwinkel führt nicht nur zu nichtlinearen Amplitudenverzerrungen, sondern auch zu Frequenzänderungen der in Tiefenschrift aufgezeichneten Signale. Sind z. B. auf einer Platte gleichzeitig eine tiefe Frequenz großer Amplitude und eine hohe Frequenz kleiner Amplitude aufgezeichnet, so wird die hohe Frequenz im Takt der niederen frequenzmoduliert. Der Name „Frequenz-Intermodulation” rührt daher, dass bei der Messung dieselbe Frequenzkombination wie bei der Messung der normalen (Amplituden-) Intermodulation verwendet wird. Dies darf nicht darüber hinwegtäuschen, dass es sich physikalisch und in der gehörmäßigen Auswirkung um völlig verschiedene Erscheinungen handelt. Die erwähnte Kompensation des vertikalen Spurfehlerwinkels bewirkt auch eine Verringerung der Frequenzintermodulation. 7.2.3.4
Laufwerk
Ältere Studioplattenspieler werden von einem Synchronmotor angetrieben, der über ein Reibrad oder einen Riemen am Innenrand des Plattentellers angreift. Um einen guten Gleichlauf zu erreichen, besitzen die Teller eine große Masse. Problematisch ist bei einer solchen Konstruktion der Anlaufvorgang und die Hochlaufzeit. Solche Plattenspieler sind deshalb mit einem leichten Hilfsplattenteller ausgerüstet, der während des Abspielbetriebes über eine Rutschkupplung mit dem schweren Teller verbunden ist, beim Start aber einfach in den drehenden Teller eingekuppelt wird.
Abb. 7/48. Prinzipschaltbild des Plattentellerantriebs.
Neuere Studioplattenspieler haben demgegenüber einen sehr leichten Plattenteller und können deshalb auf einen Hilfsteller verzichten. Die Eigenschaften der schweren Masse, die durch ihre Trägheit für den notwendigen Gleichlauf sorgt, werden durch eine sehr fein regulierende 425
Analoge Tonsignalspeicherung Elektronik ersetzt. Der Plattenteller sitzt unmittelbar auf der Motorachse. Die Antriebseinheit zeigt Abb. 7/48. Kernstück des Antriebs ist ein Elektronikmotor. Es handelt sich dabei um einen Gleichstrommotor ohne mechanische Verschleißteile, wie er z. B. auch zum Antrieb des Magnetbands verwendet wird. 7.2.3.5
Verstärker
Der Verstärker eines Plattenspielers verstärkt und entzerrt die von der Tondose abgegebene Spannung. Da dynamische Tonabnehmer einen Nominalpegel von ca. 1 mV, magnetische Tonabnehmer einen Nominalpegel von ca. 10 mV abgeben - das entspricht einer Pegeldifferenz von 20 dB - muss zunächst eine entsprechende Umschaltung vorhanden sein. Der Frequenzgang der Schneidkennlinie (Abb. 7/40) muss durch eine Entzerrerkennlinie mit an der O-dB-Achse gespiegeltem Frequenzverlauf entzerrt werden. Weiterhin wird das Signal über einen Bandpass geführt, der Frequenzkomponenten unter 20 Hz und über 25 kHz zurückhält.
Standards Magnetische Schallspeicherung [DIN 1301-1] Einheiten; Einheitennamen, Einheitenzeichen [DIN 45 405] Störspannungsmessung in der Tontechnik [DIN 45 500] Tl. 4 Heimstudio-Technik (HiFi); Mindestanforderungen an Magnetbandgeräte für Schallaufzeichnungen in Spulen- und Kassettentechnik Tl. 9 -; Mindestanforderungen an Magnetbänder 4 und 6 für Schallaufzeichnung [DIN 45 507] Messgerät für Frequenzschwankungen bei Schallspeichergeräten [DIN 45 510] Magnettontechnik; Begriffe [DIN 45 511] Tl. 1 Magnetbandgeräte; Studiogeräte für Schallaufzeichnungen auf Magnetband 6; mechanische und elektrische Anforderungen Tl. 2 Magnetbandgeräte für 3- oder 4-Spur-Schallaufzeichnungen auf Magnetband 12, mechanische und elektrische Anforderungen Tl. 3 Magnetbandgeräte für 4-Spur-Schallaufzeichnungen auf Magnetband 25, mechanische und elektrische Anforderungen Tl. 4 Magnetbandgeräte; Kassettengeräte für Schallaufzeichnungen auf Magnetband 4, mechanische und elektrische Anforderungen Tl. 5 -; Heimgeräte für Schallaufzeichnungen auf Magnetband 6, mechanische und elektrische Anforderungen
426
Analoge Tonsignalspeicherung [DIN 45 512] Tl. 1 Magnetbänder für Schallaufzeichnung; Maße und allgemeine Eigenschaften Tl. 2 -; elektroakustische Eigenschaften [DIN 45 513] Tl. 1 Magnetbandgeräte für Schallaufzeichnungen; DIN-Bezugsband 76 für Magnetband 6 Tl. 2 Magnetbandgeräte für Schallaufzeichnung; DIN-Bezugsband 38 für Magnetband 6 Tl. 3 Magnetbandgeräte; DIN-Bezugsband 19h Tl. 4 Magnetbandgeräte für Schallaufzeichnung; DIN-Bezugsband 9,5 für Magnetband 6 Tl. 5 -; DIN-Bezugsband 4,75 für Magnetband 6 Tl. 6 -; DIN-Bezugsband 4,75 für Magnetband 4 mit Zeitkonstante 3180 :S / 120:s Tl. 7 -; DIN-Bezugsband 4,75 für Magnetband 4 mit Zeitkonstante 3180 :s / 70 :s [DIN 45 514] -; Spulen für Magnetband 6 [DIN 45 515] -; Wickelkern für Magnetband 6 [DIN 45 516] Magnetbandkassette für Schallaufzeichnung auf Magnetband 4; Maße und Eigenschaften [DIN 45 517] Tl. 1-; Spule mit NAB-Aufnähme für Magnetband 6 und Mitnehmerscheibe, Spule [DIN 45 519] Tl. 1 Magnetbänder für Schallaufzeichnung; Bestimmung der Kopierdämpfung Tl. 2 -; Bestimmung von Bandflussschwankungen Tl. 3 -; Bestimmung der Löschbarkeit [DIN 45 520] Magnetbandgeräte für Schallzeichnung; Verfahren zum Messen von Absolutwert und Frequenzgang des remanenten magnetischen Bandflusses auf Magnetbändern [DIN 45 521] -; Messung der Übersprechdämpfung bei Mehrspurgeräten [DIN 45 522] Tl. 3 Messverfahren für Magnetbänder für Schallaufzeichnung; Bestimmung der Nennbelastbarkeit [DIN 45 524] Bestimmung der Bandgeschwindigkeit bei Magnetbandgeräten [DIN 45 526] Magnetbandgeräte für Schallaufzeichnungen; Eigenschaften und Messverfahren für Magnetbandgeräte mit Kompandersystemen
427
Analoge Tonsignalspeicherung Mechanische Schallspeicherung [DIN 45 500] Tl. 3 Heimstudio-Technik (HiFi); Mindestanforderungen an Schallplatten-Abspielgeräte [DIN 45 538] Begriffe für Schallplatten-Abspielgeräte [DIN 45 539] Schallplatten-Abspielgeräte; Regeln für Messungen, TonfrequenzAnschlüsse, Maße austauschbarer Abtastsysteme, Anforderungen an Wiedergabeverstärker [DIN 45 542] Verzerrungs-Mess-Schallplatte St 33 und St 45 [DIN 45 543] Messschallplatte zur Messung des Frequenzganges und der Kanaltrennung [DIN 45 544] Rumpel-Mess-Schallplatte St 33 und M 33 [DIN 45 545] Gleichlauf-Mess-Schallplatten für 33 1/3 und 45 U/min [DIN 45 546] Schallplatte St 45 (Stereo-Schallplatte für 45 U/min) [DIN 45 547] Schallplatten St 33 (Stereo-Schallplatten für 33 1/3 U/min) [DIN 45 549] Abtastfähigkeits-Messschallplatte [DIN IEC 98] Analoge Schallplatten und -Abspielgeräte Technische Pflichtenhefte der öffentlich-rechtlichen Rundfunkanstalten der Bundesrepublik Deutschland (hg. vom Institut für Rundfunktechnik, München): 3/4 Studio-Magnetbänder 3/9 Vorspann-, Zwischen- und Endbänder für Schaltzwecke im Studio, Grundsätzliche Anforderungen an Magnettonanlagen und Richtlinien zu deren Einstellung
Literatur [7.1] Technik der Magnetspeicher, hg. von F. Winckel,, 2. Aufl., 1977, Springer [7.2] Christian, E.: Magnettontechnik, 1969, Franzis [7.3] Scholz, Ch.: Handbuch der Magnetbandspeichertechnik, 1980, Hanser [7.4] Greiner, J.: „Feldstärke und Spaltverteilungsfunktion beim Sprechkopf mit und ohne Band”, in: Nachrichtentechnik 1956, S. 63 ff. [7.5] Vogl, E.: „Tonträger im Rundfunkstudio. Ein Weg durch das 20. Jahrhundert”, in: Radio Mentor 1976, S. 130 ff. [7.6] Westmijze, W. K.: „Studies on Magnetic Recording”, in: Philips Research Reports 1953, S. 148 ff., 161 ff., 245 ff. und 343 ff. [7.7] Camras, M.: „Graphical Analysis of Linear Magnetic Recordings using High Frequency Excitation”, in: Proceedings IRE 1949, S. 569 ff. 428
Analoge Tonsignalspeicherung [7.8] Greiner, J.: „Der Aufzeichnungsvorgang beim Magnettonverfahren mit Wechselstromvormagnetisierung”, Wissenschaftl. Ber. III, Elektrotechnik, H. 6, 1953 [7.9] Schmidtbauer, O.: „Beitrag zur Analyse des Aufsprechvorgangs beim HF-Magnetophon”, in: Funk und Ton 1954, S. 341 ff. [7.10] Schwandtke, G.: „Untersuchung über den Aufsprechvorgang beim Magnettonverfahren”, in: Frequenz 1958, S. 355 ff. [7.11] Gillmann, H.: Ein Beitrag zur Magnetband-Aufzeichnung breitbandiger Signale mit Hochfrequenzvormagnetisierung, Diss. TH Hannover 1962 [7.12] Schwandtke, G.: „Das Preisach-Modell in der Theorie der Magnetton-Aufzeichnung”, in: Technik der Magnettonspeicher, hg. von F. Winckel, 2. Aufl., 1977, Springer [7.13] Westmijze, W. K.: „Der Aufnahme- und Wiedergabevorgang beim Magnettongerät”, in: Philips Technische Rundschau 1953, S. 298 ff. [7.14] Hammon, F.: „Das Rauschen bei der magnetischen Schallaufzeichnung”, in: Radio Mentor 1961, S. 864 ff. [7.15] Mühlstädt, G.: „Über das Rauschen von Magnettonbändern”, in: Funkschau 1971, S. 9 ff. [7.16] Hammon, F.: „Über das Rauschen bei der magnetischen Schallaufzeichnung”, in: Kino-Technik 1964, S. 221 ff. [7.17] Abeck, W.: „Kopiereffekt schichtförmiger Magnetspeicher”, in: Kino-Technik 1964, S. 215 ff. [7.18] Bertram, N., Stafford, M., Mills, D.: „Der Kopiereffekt”, in: Studio 1978, H. 11, S. 26 ff. und 1979, H. 1,S. 14 ff. [7.19] Schröder, E. und Wehrmuth, J.: „Ein neues Kompandersystem - Grundlagen und Einsatzmöglichkeiten”, in: Fernseh- und Kino-Technik 1976, S. 427 ff. [7.20] Dolby, R.: „Ein Audio-Geräuschunterdrückungssystem”, in: Studio 1979, H. 5, S. 29 ff. [7.21] Berkovitz, R. und Gundry, K.: „Das Dolby B-System - Grundbegriffe und Anwendungsbereiche”, in: Funk-Technik 1973, H. 2, S. 55 ff. [7.23] Bergtold, F.: Moderne Schallplattentechnik, 2. Auflage, 1967, Franzis [7.24] Bruch, W.: „Von der Tonwalze zur Bildplatte”, in: Funkschau 1977, S. 1114 ff. bis 1979, S. 560 ff., in 39 Fortsetzungen, auch als Sonderdruck, Franzis [7.25] Loescher, F. A.: „Schallplattenwiedergabe hoher Qualität und ihre Probleme”, in: Funkschau 1974, H. 4, S. 106 ff. und H. 5, S. 151 ff. [7.26] Breh, K.: „Die technische Qualität der Schallplatte”, in: HiFi Stereophonie 1978, S. 1660 ff. [7.27] Lützgendorf, G. und Kiess, G.: „Schneidtechnik bei Stereo-Schallplatten”, in: Radio Mentor 1958, S. 683 ff.
429
Analoge Tonsignalspeicherung [7.28] Redlich H. und Klemp, H.-J.: „Messung der Lichtbandbreite auf Stereo-Schallplatten”, in: Radio Mentor 1958, S. 679 ff. [7.29] Stephani, G.: „Einige Grundphänomene der Lichtbandbreite”, in: Frequenz 1965, S. 362 ff. [7.30] Schmidt, U.: „Die Vorgänge bei der Abtastung von Schallplatten”, in: Funktechnik 1964, S. 848 ff. [7.31] Hardt, W.: „Abtastsysteme zur Schallplattenwiedergabe”, in: Funkschau 1973, S. 215 ff. und 267 ff. [7.32] Loos, W.: Tonabnehmer für die Schallplattenwiedergabe, 1983, Franzis [7.33] „Tonabnehmer TSD 15 mit Super-Fineline-Diamant”, in: EMT-Kurier 42 (1985) S. 3 ff.
430
8
Analoge Tonregieanlagen
Ein Tonmischpult, auch Regiepult oder verkürzt Regie genannt, enthält in der Regel alle für die Verstärkung, Pegeleinstellung, Mischung und sonstige Bearbeitung sowie Überwachung des Tonprogrammsignals erforderlichen Geräte und Funktionen. Zum Betrieb gehören auch Peripheriegeräte wie Mikrofone und andere Signalquellen, spezielle Effektgeräte, Speicherund Übertragungseinrichtungen, und die Wiedergabelautsprecher. Damit stellen bis heute die Tonmischpulte, neuerdings auch in Form von kompakten Workstations, das zentrale Bearbeitungswerkzeug für die Tonprogrammproduktion dar. Wie auch in anderen Zweigen der Nachrichtentechnik sichtbar, hat die Tonstudiotechnik, die bis in die 1950er Jahre zunächst weitgehend von der seinerzeitigen Entwicklung der Rundfunktechnik geprägt wurde, seither eine mehrstufige Generationsentwicklung durchlaufen. Heute werden deutlich unterscheidbare Innovationsschritte, die in immer kürzeren Zeitabständen erfolgen, wesentlich vom allgemeinen Fortschritt der Technologie und Technik der modernen Nachrichten- und Kommunikationstechnik bestimmt, unter hauptsächlicher und noch zunehmender Nutzung digitaler Verfahren. Aktivierend wirken dabei auch die ständig steigenden technologischen, ökonomischen und qualitativen Anforderungen der Medienbetriebe. Die Bedingungen und Qualitätsforderungen, die von professionellen Nutzern an eine Tonregieanlage gestellt werden müssen, sind in den Technischen Pflichtenheften 3/1 und 3/5 der öffentlich-rechtlichen Rundfunkanstalten, herausgegeben vom IRT (Institut für Rundfunktechnik) niedergelegt. Auskunft geben auch die Herstellerunterlagen. Typenprüfungen einzelner Prototypen werden vom Institut für Rundfunktechnik bzw. der RBT herausgegeben, auch für ältere und historische Geräte. Der funktionelle Aufbau einer Tonregieanlage und der Umfang ihrer elektrischen Einrichtungen werden vom Verwendungszweck bestimmt: Die Konzeption einer Tonregieanlage für die Produktion von Musikaufnahmen z. B. unterscheidet sich in der Anlagentechnik von derjenigen für Hörspielproduktionen; eine speziell nur für die Sendung entworfene Senderegie ist nur für diesen speziellen Verwendungszweck optimal ausgelegt. Jede dieser Tonregieanlagen ist demnach auf ihre spezielle Aufgabe hin zugeschnitten und kann nicht ohne Einschränkung für andere Aufgaben verwendet werden. Darüber hinaus gibt es auch in der Schaltungstechnik mehr oder weniger universell ausgeführte Tonregieanlagen. Tonmischpulte in analoger Technik werden hier in Kap. 8 behandelt, digitale Mischpulte sind Gegenstand von Kap. 13.1.
8.1
Historische Entwicklung: die Generationen der Tonstudiotechnik
Ausgehend von wesentlichen gerätetechnischen sowie betriebstechnologischen Merkmalen kann man, u. a. in Anlehnung an die in der Rechentechnik gebräuchliche Generationssystematik, gegenwärtig mindestens vier Generationen der Tonstudiotechnik unterscheiden. Dies gilt 431
Analoge Tonregieanlagen insbesondere für Tonmischpulte, eine ähnliche Entwicklung ist aber auch bei den oben genannten Peripheriegeräten, Aufzeichnungsmedien und weiteren Einrichtungen festzustellen. [8.1 bis 8.8] V. a. aus ökonomischen Gründen war es und wird es auch künftig notwendig sein, Tonstudioeinrichtungen unterschiedlicher Generationsmerkmale lange Zeit neben- und miteinander zu betreiben, was ein hohes Maß an Anschlusskompatibilität erfordert. Daraus ergeben sich bestimmte Parameter und Prinzipien, wie z. B. die sog. Spannungsanpassung für die Zusammenschaltung von Tonstudiogeräten, die bis in die heutige Zeit die Kombinierbarkeit von Tonstudiogeräten unterschiedlicher Generationen gewährleisten und sich darin auch von Audiogeräten der Consumertechnik unterscheiden. In Tab. 8/1 sind die wesentlichen Merkmale dieser Technik-Generationen zusammengefasst. Tab. 8/1. Generationsfolge der Tonregietechnik mit ihren Eigenschaften. Generation
Technische Merkmale
1. Generation 1930-1975
-
2. Generation 1960-1990
- aktive Bauelemente: diskrete Halbleiter und Relais, - Modulbauweise, Kassetten, teilweise Leiterplatten, - modular aufgebaute Bedienpulte, - zentrale Stromversorgung (24 V) - aktive Bauelemente: Halbleiter (teils diskret, teils integriert), VCA-Pegelsteller, - Kanalstreifen-Module, - kompakte Pultkonstruktionen, - integrierte Stromversorgung (bauelementetypisch) - aktive Bauelemente: ICs, FET, OPV, Hybrid-BE, - Leiterplatten-Modulbauweise, - teilweise konsequente Trennung von Bedien- und Funktions-baugruppen, - teilweise zentrale / dezentrale Rechnersteuerung - aktive Bauelemente: digitale LSI-IC, Mikroprozessoren, - dezentrale/zentrale Rechnerstrukturen, - zentrale Bus-Steuerung, - weitgehend konsequente Trennung von Bedien- und Funktionsbaugruppen
Zwischengeneration 1980 …
3. Generation 1985 …
4. Generation 1985 …
432
aktives Bauelement: Elektronenröhre, Gestellbauweise (19“), individuelle Pultplatten, dezentrale Stromversorgung (220 V)
Übertragungstechnische bzw. technologische Merkmale - analoge Tonübertragung, - manuelle Bedienung, - erdsymmetrische Ein-/Ausgänge, z. B. V 20 (Reichsrundf.), V 40 (BRD/DDR), V 70 (BRD/DDR), V 200 (DDR) - analoge Tonübertragung, - manuelle Bedienung, - vereinzelt Fernsteuerfunktionen, - erdsymm. Ein/Ausgänge, - intern: unsymm. Verbindungen, z. B. V 700 (DDR), Sitral - analoge Tonübertragung, - Steuergruppenbildung mittels Gleichspannungssteuerung, - symmetr. / unsymmetr. Technik
-
-
analoge Tonübertragung, digitale Steuerung, automatisierungs- und Reset-fähig, einzelne software-definierte Funktionen und Anlagenkonfiguration möglich
digitale Tonübertragung digitale (Rechner)-Steuerung, automatisierungs- und Reset-fähig, software-definierte Funktionen und Anlagenkonfiguration, update-fähig - teilweise Kompaktlösung als PC bzw. Workstation
Historische Entwicklung: die Generationen der Tonstudiotechnik Tonstudioanlagen der ersten Generation: Tonstudiotechnische Anlagen bestehen - je nach ihrer Zweckbestimmung - aus mehr oder weniger komplexen Geräteanordnungen zur Aufnahme, Bearbeitung, Speicherung und Wiedergabe von Tonsignalen. Die erste Generation der Tonstudiotechnik wird durch die ausschließliche Anwendung der Elektronenröhre als das bestimmende aktive Bauelement gekennzeichnet. Typische Vertreter dieser Technik waren die Gerätesysteme V 20, V 40 und V 200, die im Zeitraum von etwa 1935 bis 1960 entwickelt und in Betrieb waren. Auch bedingt durch das verfügbare Bauelemente-Sortiment und den Stand der Schaltungsentwicklung erreichten Masse und Volumen solcher Anlagen beträchtliche Größenordnungen. Die Systeme wurden durchgängig manuell bedient. Die Entwicklung begann in den 1930er Jahren mit den Baureihen V 20 und später V 40, bei denen ein Funktionsgerät, z. B. ein Vorverstärker oder Trennverstärker, jeweils einen oder mehrere Einheiten hohen 19“-Einschub belegte, einschließlich integrierter 220-V-Stromversorgung. Die im Vergleich zu heutigen Anlagen wenigen Bediengeräte waren in eine maßgefertigte Pultplatte aus Stahlblech eingesetzt, das wöchentliche „Reglerputzen“ war eine Standardaufgabe für Generationen von Messingenieuren. Im Ergebnis der Entwicklung der Systeme V 70 bzw. V 200 konnten bereits deutliche Fortschritte in Bezug auf verbesserte elektrische Qualitätsparameter, größere betriebstechnologische Variabilität auf Grund modularer Bauweise sowie eine Reduzierung des Masse- und Volumenbedarfs auf durchschnittlich 35 % bis 50 % gegenüber den Vorgängersystemen erzielt werden. Tonstudioanlagen der zweiten Generation: Mit der Entwicklung und praktischen Nutzung der Halbleitertechnik war es möglich, im Zeitraum 1960 bis 1970 in mehreren Innovationsschritten eine leistungsfähige Tonstudiotechnik der zweiten Generation mit deutlich verbesserten Parametern zu entwickeln und in die Praxis einzuführen. Diese Technikgeneration bestimmte noch bis etwa 1990 den Stand in der internationalen Praxis. Bestimmende Bauelemente waren diskrete Halbleiter und Dioden sowie Miniaturrelais’ für Tonkanal und Steuerungsaufgaben. Die Tonsignalbearbeitung erfolgt auf analogem Wege. Die Anlagen werden manuell bedient und weisen lediglich eingeschränkte diskrete Fernsteuerungsmöglichkeiten für Hilfsfunktionen auf und sind daher nicht automatisierungsfähig. Infolge des modularen Systemcharakters z. B. der V 700-Technik mit etwa 120 verschiedenen Einzelmodulen waren Tonstudioanlagen für unterschiedlichste betriebstechnologische Anwendungen, bei mobilem und stationärem Einsatz, effektiv projektierbar. Die Stromversorgung für Tonkanal- und Steuerungsbaugruppen einer Anlage erfolgte durch separate Netzgeräte mit 24 V Gleichspannung, was u. a. auch die Möglichkeit einer unterbrechungsfreien Stromversorgung durch Akkumulatorbatterien ermöglichte. Neben dem beschriebenen modularen Anlagensystem der 2. Generation wurden und werden auf dem internationalen Markt in einer fast unüberschaubaren Typenvielfalt Tonmischpulte in sog. Kompaktmodul-Technik oder Streifentechnik angeboten, bei denen jeweils ein kompletter Eingangs- oder Summenkanal in einer konstruktiven Einheit, einem Kanalstreifen, zusammengefasst ist. Eine spezielle Variante von Mischpulten für die Mehrspur-Aufnahmetechnik ist die sog. In-line-Technik; hierbei sind in einem Kanalstreifen zwei weitgehend komplette, unabhängige Kanalzüge angeordnet, um in einer übersichtlichen geometrischen 433
Analoge Tonregieanlagen Zuordnung der Bedienelemente die auf dem Mehrspurgerät aufzuzeichnenden Signale auszusteuern und gleichzeitig eine zur akustischen Beurteilung der Gesamtaufnahme geeignete Abhörmischung herstellen zu können. Tonstudioanlagen der dritten Generation: Wachsende Anforderungen an Fernsteuerungs- und Automatisierungsmöglichkeiten der Betriebsfunktionen von Tonstudioanlagen führten zunächst zur Anwendung von spannungsgesteuerten Stellern, sog. VCA-Stellern, was u. a. eine steuerungstechnische Gruppenbildung erlaubt, d. h. die steuerungstechnische Beeinflussung eines Stellglieds durch mehrere Bedienelemente. Die Weiterentwicklung führte bald aber zur konsequenten Anwendung digitaler Steuerungslösungen - unter Beibehaltung des in vielen Parametern bis an die physikalischen Grenzen verbesserten analogen Tonübertragungsverfahrens. Hieraus resultierte die Bezeichnung „Digital Controlled Analogue Technique" oder (DCA-Technik) für Anlagen der 3. Generation, die durch folgende technische und betriebstechnische Merkmale gekennzeichnet sind: - hohe Flexibilität durch software-definierbare Anlagenstrukturen und Geräteeigenschaften, - Realisierung von rechnergestützten Betriebstechnologien bei weitgehender Beibehaltung des manuellen Zugriffs (Vielspur-Abmischung. Programmabwicklung) sowie von Autodiagnosefunktionen zur automatischen Erkennung von Funktionsstörungen und Parameterabweichungen, - Möglichkeit der konsequenten räumlichen Trennung von Bediengeräten (im Bedienpult angeordnet, reine digitale Steuerungstechnik) und Tonfunktionseinheiten (Gestellbereich), - Möglichkeit der Anwendung zentralisierter Bedienfunktionen zur Reduzierung der ständig zunehmenden Menge sich wiederholender Kanalbedienelemente unter Nutzung des rechnergestützten Bildschirmdialogs einschließlich grafischer Mittel als Bedienhilfe. Die eingangs genannte Gruppen- bzw. Mehrfachsteuerung kann ggf. auch auf andere Funktionen, z. B. Richtungssteller sowie abzweigende Hilfswege bis hin zur Realisierung von Regelverstärkerfunktionen ausgedehnt werden. Dadurch lässt sich die physische Tonkanalstruktur stark vereinfachen, ohne die technologisch erforderliche Vielfalt der Beeinflussungsmöglichkeiten des Tonsignals einzuschränken. Modulare, dezentral aufgebaute Steuerungssysteme gestatten die beliebige Auf- und Abrüstbarkeit in horizontaler (Anzahl der Kanäle) wie in vertikaler Richtung (Variation des Bedienungskomforts, statische und dynamische Automatisierung, Autodiagnose usw.). Voraussetzung für eine solche Struktur ist u. a. die Verlagerung der „Intelligenz" der Anlage in die Kanäle und Bedieneinheiten, z. B. in Form von Einchip-Mikrorechnern, sowie die Anwendung sich selbst organisierender Bus-Systeme zur Übertragung der Steuerinformationen mit dem Ziel der Vermeidung von Totalausfällen durch Störungen in der zentralen Steuerung. Rechnergesteuerte Anlagen erlauben im Rahmen der sog. statischen Automatisierung auch die Abspeicherung der Zustände aller steuerbaren Geräte zur Wiedereinstellung der Anlage auf einen früheren Zustand. Hierbei sind die Formen Recall-Automatisierung (Anzeige der gespeicherten Zustände am Bedienelement oder am Monitor, Wiedereinstellung des Zustands von Hand) und ,,Reset"-Automatisierung (automatische Restaurierung des Anlagenzustandes durch steuerungstechnische Beeinflussung der Geräte) gebräuchlich. Bei der dynamischen Automatisierung werden alle Zustandsänderungen der wichtigsten Geräte dynamisch, d. h. im Echtzeitbetrieb bei gleichzeitiger Registrierung der Zeitcode434
Historische Entwicklung: die Generationen der Tonstudiotechnik Daten des Aufzeichnungsträgers als Zeitmaßstab abgespeichert. Sie lassen sich bei wiederholtem Durchlauf im Update-Modus korrigieren und ergänzen, bis zum Erreichen des gewünschten Endzustandes der Bearbeitung oder Abmischung. Tonstudioanlagen der vierten Generation: Wesentliches innovatives Merkmal der 4. Generation ist der Übergang zur kompletten digitalen Verarbeitung des Tonsignals, wobei die Steuerung der Betriebszustände und die eigentliche Tonsignalverarbeitung praktisch in der gleichen digitalen Signalebene softwaretechnisch integriert bzw. miteinander verflochten sind. Die digitale Tonsignalübertragung hat folgende Vorteile gegenüber der traditionellen Analogtechnik: - das digitale Signal ist generell regenerierbar, solange die im Übertragungskanal auftretenden Störungen unterhalb eines bestimmten Schwellwerts bleiben, - der Störabstand lässt sich auf nahezu beliebig hohe Werte steigern, praktisch nur begrenzt durch das Auflösungsvermögen der eingesetzten Wandler, z. Z. 16 bis 28 Bit, sowie den internen Bauelementeaufwand, - Verstärkungsänderungen sowie lineare und nichtlineare Verzerrungen von Bauelementen bleiben weitgehend ohne Einfluss auf die Qualität des Tonsignals, - es treten praktisch keine Laufzeitverzerrungen sowie bei Einhaltung der Aussteuerungsgrenze auch keine nichtlinearen Verzerrungen auf. Diesen unbestrittenen Vorteilen stehen folgende Nachteile gegenüber: - hohe Anforderungen an A/D- bzw. D/A-Wandler, - erforderliche große Verarbeitungsgeschwindigkeit bei Signalmanipulationen, - die auch gegenüber Anlagen vergleichbarer technologischer Leistungsfähigkeit deutlich höheren Kosten sowie häufig auch höherer Energiebedarf. Die günstigen Eigenschaften der digitalen Signalverarbeitung führten zunächst zur Entwicklung digitaler Verzögerungsgeräte, deren Qualitätsparameter diejenigen analoger Geräte weit übertrafen. Darauf aufbauend wurden digitale Hallgeräte entwickelt, die bereits sehr schnelle Mikrorechner und Signalprozessoren benötigen. Eine breite Anwendung findet unterdessen auch auf dem Gebiet der Signalspeicherung statt, sowohl in Form der magnetischen Aufzeichnung auf Band in den verschiedensten Formaten als auch in hohem Maße in Festwertspeichern unterschiedlicher Medien, z. B. Fest-Platte oder Worm-disk. Die Entwicklung volldigitaler Tonmischpulte begann etwa zeitgleich mit der Entstehung der 3. Generation der Tonstudiotechnik. Die steuerungstechnischen und betriebstechnischen Merkmale von Mischpulten der 4. Generation sind etwa vergleichbar mit den unter 3. beschriebenen Möglichkeiten, wobei die Freiheitsgrade der Digitalmischpulte bezüglich freier Konfigurierbarkeit durch Software-Variation ständig zunehmen. Die Struktur eines Signalprozessors für Tonsignalbearbeitung ist kaum noch mit der eines traditionellen Tonmischpults vergleichbar. Die Eingangsseite enthält neben der erforderlichen Anzahl von Analogsignaleingängen mit A/D-Wandlern Digitalsignaleingänge unterschiedlicher Schnittstellenformate, z. B. parallele Schnittstellen, serielle Schnittstellen im AES/EBU-Format u. a. Die A/D-Wandlung erfolgt vorwiegend im linearen 20 bis 24-Bit-Format, der interne Audio-Bus weist jedoch höhere Informationsbreiten auf. Die eigentliche Tonsignalverarbeitung wird durch schnelle 435
Analoge Tonregieanlagen Signalprozessoren in Bit- oder Byte-Slice-Technik realisiert. Die Ausgangsseite weist eine ähnliche Anschlussstruktur wie die Eingangsseite auf. Die Bedienung der Anlage erfolgt über eine Bedienkonsole, die mit den Signalprozessoren lediglich über einen Steuerbus kommuniziert. Je nach Anlagenkonzept und Bedienphilosophie erstreckt sich das Spektrum der Bedienelemente vom traditionellen Flachbahnsteller über zentral zuweisbare Endlosbedienelemente bis zum Trackball (Rollkugel) mit graphischer Bildschirmunterstützung. Die funktionelle Struktur ähnelt durchaus dem Tonsignal-Übersichtsschaltbild eines traditionellen Mischpultes, zeigt aber die deutlich höhere Flexibilität der Tonkanalstruktur, die sich durch die weitgehend freie Konfigurierbarkeit der Anlage bezüglich Kanalzahl sowie Anzahl und Funktion der im jeweiligen Kanal benutzten Elemente ergibt. In zunehmenden Maße wird auch eine spezielle Form komplexer, integrierter Bearbeitungssysteme, als (digitale) Audio-Workstation (AWS, DAW) bezeichnet, eingesetzt, die als zentrale Verarbeitungseinheit einen digitalen Audio-Prozessor enthalten, der über verschiedene Interfaces z. B. mit einer graphischen Bedienstation, einer Tastatur (Keyboard) und ggf. anderen peripheren Komponenten verbunden ist. Als Speichermedien stehen Festplattenspeicher (Harddisk), Flash-Memory oder auch optische digitale Speichermedien zur Verfügung. Vergleichbare Funktionen sind unterdessen auch mit einem mit entsprechenden Schnittstellen ausgerüsteten, leistungsfähigen PC realisierbar, der über eine rein virtuelle Bedienoberfläche am Bildschirm gesteuert wird, z. B. bei PRO-TOOLS. Solche zunächst als sehr preiswert und leicht konfigurierbar erscheinenden Lösungen haben sich jedoch im Echtzeitbetrieb wie LiveÜbertragungen, oder Beschallungen nicht bewährt und werden deshalb digitale Tonmischpulte mit „konventionellen“ Bedienoberflächen auch in Zukunft nicht vollständig verdrängen.
8.2
Aufbau von Tonregieanlagen
Der Aufbau einer Tonregieanlage ergibt sich aus ihren Aufgaben, Signale in ihrem Pegel und in ihrer Klanggestalt zu bearbeiten und zu mischen. Ein Signal, das an einen Eingang der Tonregieanlage gelegt wird, durchläuft dabei einen bestimmten Weg, die sog. Verstärkerkette. Sie kann wie bei der Modultechnik aus Einzelgeräten aufgebaut sein, die Funktionsgruppen bilden, oder aus kompletten Funktionsgruppen wie bei der Streifentechnik. Abb. 8/1 zeigt den grundsätzlichen Aufbau einer solchen Verstärkerkette am Beispiel eines Mono- und eines Stereowegs. Nicht dargestellt sind Einschleif- oder Insertpunkte (Klinken), Einrichtungen für Hall, Einspielung, Kommando, Kontrollinstrumente, besondere Einrichtungen für Senderegiepulte u. a. Zur Überwachung des Tonsignals sind akustische und optische Kontrollen vorgesehen. Für die akustische Überwachung gibt es eine Abhör- und eine Vorhörkontrolle; bei der Abhörkontrolle wird das Tonsignal über die Regielautsprecher, also in bestmöglicher Tonqualität abgehört, bei der Vorhörkontrolle wird über einen kleinen Lautsprecher nur kontrolliert, ob und welches Signal vorhanden ist. Abhörpunkte, die i. Allg. über Drucktasten angewählt werden können, befinden sich nach den Gruppen- und Summenpegelstellern, teils auch nach den Eingangspegelstellern - hier oft mit der Funktionstaste „solo" anwählbar. Zusätzlich sind weitere Punkte anwählbar, wie z. B. die Ein- und Ausgänge der Magnetbandgeräte, die 436
Leitungsführung und Anpassung Ausgänge der Plattenabspielgeräte usw. Mit der Abhörkontrolle gekoppelt sind meist optische Kontrollen, nämlich die Aussteuerungskontrolle, der Korrelationsgradmesser und das Stereosichtgerät. Die Vorhörpunkte liegen vor den Eingangspegelstellern. Bei Anlagen in Streifenbauweise sind die Funktionen von Ab- und Vorhören häufig in der Kontroll- oder Monitoreinheit zusammengefasst. Die Instrumenteneinheit enthält die optischen Kontrollinstrumente. Eine wichtige Erweiterung der Regiekette ist die Möglichkeit, neben der Gruppen- und Summenbildung im Signalweg weitere Gruppen bilden zu können, z. B. für die Verhallung, für Einspielungen u. a. Die Signale für diese Untergruppen (Submaster) können wahlweise vor oder nach dem Eingangspegelsteller abgenommen und über Potentiometer geregelt, danach gemischt und nochmals mit einem Summenpegelsteller im Pegel eingestellt werden. Bei Anlagen für Mehrspurproduktionen wird nach „In-line-Pulten" und „Split-Pulten" unterschieden: Bei In-line-Pulten erfolgt die Tonbearbeitung für die Abhörmischung im Aufnahmekanal, bei Split-Pulten in einem gesonderten Kanal.
8.3
Leitungsführung und Anpassung
Für Leitungsverbindungen zwischen tontechnischen Geräten oder innerhalb von Anlagen gibt es je nach schaltungstechnischem Aufbau der Ein- und Ausgänge und der Art der Leitung zwei Möglichkeiten: - die symmetrische und erdfreie Leitungsverbindung, - die symmetrische, aber nicht erdfreie Leitungsverbindung, auch erdsymmetrische Leitungsverbindung genannt, - die unsymmetrische oder asymmetrische Leitungsverbindung; sie ist ebenfalls nicht erdfrei. Die Leitungsführung zwischen tontechnischen Geräten und innerhalb von Tonregieanlagen zwischen einzelnen Modulen muss so konzipiert sein, dass Störungen durch externe magnetische, elektrische und elektromagnetische Störfelder möglichst gering bleiben. Dazu werden die Leitungen i. Allg. erdfrei, symmetrisch und geschirmt geführt; innerhalb von Anlagen kann bei sorgfältiger Planung und Ausführung auch eine unsymmetrische Verbindung qualitativ die Anforderungen an Studiogeräte erfüllen. Das Übersprechen zwischen Tonleitungen wird durch geschickte Leitungsverlegung so gering wie möglich gehalten (Pflichtenheft 3/3). [8.9]
8.3.1
Symmetrie und Unsymmetrie
Ein- und Ausgänge von Geräten der professionellen Tonstudiotechnik sind i. Allg. symmetrisch gegen O-V-Potential (Erdpotential). Das wird durch im NF-Bereich breitbandige, hochwertige Übertrager am Ein- und Ausgang erreicht. Ein- und Ausgänge sind also erdfrei; das O-Volt-Potential hat keine Gleichstromverbindung, keine sog, galvanische Verbindung zur Erde.
437
Analoge Tonregieanlagen Tonsignalquellen: Die Signalquellen werden mit einheitlichem Pegel, mit dem sog. Studiopegel 0 dB, an den Eingangsverteiler geführt. Dafür müssen die sehr niedrigen Mikrofonpegel zunächst in Mikrofonverstärkern angehoben werden. Magnetbandgeräte, Plattenabspielgeräte mit eigenen Verstärkern liefern Signale mit 0 dB. Eingangsverteiler: Der Eingangsverteiler erlaubt die Aufschaltung jeder Signalquelle auf jeden Kanal der Regieanlage. Er kann als Kreuzschienenverteiler oder als Schnurverteiler mit Klinken aufgebaut sein. Richtungsmischer: Für die Basis- und Richtungsregelung von Stereosignalen sowie für die Umsetzung von MS- in LR-Signale ist der Richtungsmischer vorgesehen. Filter: Mit Filtern kann bei Bedarf die Klangfarbe verändert werden. Eingangspegelsteller: Mit den Eingangspegelstellern können die Pegel der einzelnen Eingangssignale eingestellt werden. Panoramasteller oder Pan-Pot: Mit dem Panoramasteller werden Monosignale dem linken und rechten Stereokanal mit gleichem oder unterschiedlichem Pegel zugeordnet. Daraus ergibt sich die Richtungseinordnung des Monosignals.
438
Leitungsführung und Anpassung Gruppensammelschiene: Hier werden die einzelnen Kanäle auf die gewünschten Gruppen aufgeschaltet und gemischt. Knotenpunktverstärker: Dieser Verstärker gleicht den Pegelverlust, der bei der Zusammenführung der Signale auf die Gruppensammelschiene entsteht, wieder aus. Gruppenpegelsteller: Mit dem Gruppenpegelsteller werden die Pegel des Gruppensignals eingestellt. Summensammelschiene: Hier können die einzelnen Gruppenkanäle auf die Summe aufgeschaltet und gemischt werden. Knotenpunktverstärker: Dieser Verstärker gleicht den Pegelverlust, der bei der Zusammenführung der Signale entsteht, wieder aus. Summenpegelsteller: Mit dem Summenpegelsteller wird der Pegel der Summe eingestellt. Ausgangsverteiler: Im Ausgangsverteiler kann das Summensignal auf das aufnehmende Magnetbandgerät, auf den Sendeschalter oder auf Leitungen gelegt werden. Er kann wieder als Kreuzschienenverteiler oder Schnurverteiler - wie der Eingangsverteiler - realisiert sein. Weiterleitung des Signals: Das Tonsignal wird entweder auf einer Magnetbandmaschine aufgezeichnet, gesendet oder über Leitung übertragen. Abb. 8/1. Prinzipieller Aufbau der Verstärkerkette einer Tonregieanlage, Monokanal und Stereokanal.
439
Analoge Tonregieanlagen Im nicht professionellen Bereich wird meist eine unsymmetrische oder asymmetrische Schaltungstechnik von Ein- und Ausgängen und der Leitungsführung verwendet. Auch innerhalb professioneller Geräte, teilweise auch innerhalb von Tonregieanlagen zwischen den einzelnen Bausteinen, sind die Schaltungen bzw. Leitungsverbindungen unsymmetrisch aufgebaut, da dies wirtschaftlicher, Platz sparender und qualitativ problemlos ist. Abb. 8/2 zeigt die Spannungsverhältnisse bei symmetrischer und unsymmetrischer Spannungsführung. Bei der symmetrischen Spannungsführung haben die beiden Adern a und b stets ein gleich großes, aber entgegen gesetztes Potential gegen 0 Volt; bei der unsymmetrischen Spannungsführung hat nur eine Ader ein wechselndes Potential, die andere Ader liegt stets auf 0-VoltPotential. Man spricht hier deshalb von einem heißen, nämlich Spannung führenden, und kalten Anschluss. Die beiden 0-Volt-Anschlüsse müssten bei symmetrischer Spannungsführung eigentlich nicht miteinander verbunden sein; dies geschieht aber meist trotzdem, um exakte Potentialgleichheit der Anschlüsse zu erzwingen.
Abb. 8/2. Symmetrische und unsymmetrische Spannungsführung.
Abb. 8/3. Symmetrischer, nicht erdfreier Geräteausgang.
Zweck der symmetrischen Leitungsführung ist die Vermeidung von kapazitiven und induktiven Einstreuungen in Leitungen. Durch den geringen Abstand und ihre Verdrillung sind die beiden Adern einer symmetrischen Leitung demselben Störfeld ausgesetzt, somit werden in beide Adern gleichgerichtete Störspannungen eingestreut. Die Potentialdifferenz, also die 440
Leitungsführung und Anpassung Nutzspannung, wird dadurch aber nicht beeinflusst; Einstreuungen führen demnach i. Allg. nicht zu Störungen. Bei unsymmetrischen Leitungsverbindungen kann die in die 0-VoltAnschlüsse eingestreute Störspannung nicht wirksam werden, so dass sie sich voll der Nutzspannung im heißen Anschluss überlagert. Gerade bei längeren Leitungsverbindungen bietet also die symmetrische Leitungsführung größere Sicherheit vor Störungen. Symmetrische und erdfreie Ein- und Ausgänge haben zum 0-Volt-Potential bzw. Erde keine Leitungsverbindung, sie sind „galvanisch getrennt". Daneben gibt es auch symmetrische, aber nicht erdfreie Anschlüsse, sog. erdsymmetrische Anschlüsse; bei Übertragern ist dabei die Mittelanzapfung geerdet (Zwangserdung). Meist handelt es sich aber um übertragerlose Einbzw. Ausgänge (Abb. 8/3); hierbei besteht keine galvanische Trennung zwischen den Tonadern und O-Volt bzw. Erde.
8.3.2
Schirmung
Eine zusätzliche Maßnahme gegen kapazitive Einstreuungen stellt die Schirmung der Tonfrequenzleitungen dar. Die beiden Adern werden dabei mit einem Aluminium- oder Kupferdrahtgeflecht umgeben, das wie ein Faradayscher Käfig Einstreuungen durch elektrische Felder fernhält. Der Schirm wird mit Erde verbunden. Bei unsymmetrischer Leitungsführung genügt eine Schirmung der Spannung führenden Ader; der Schirm schützt die Ader vor Einstreuungen und verbindet zugleich die Erdpotentialanschlüsse der Geräte (Abb. 8/4).
Abb. 8/4. Geschirmte Leitungsverbindungen.
441
Analoge Tonregieanlagen
8.3.3
Kabellänge und Kabelführung
In der Tonstudiotechnik müssen für die Zusammenschaltung von Geräten symmetrische Tonfrequenzleitungen benutzt werden. Die Betriebsabwicklung verlangt außerdem, dass die Leitungen (Modulationswege) in beliebiger Kombination unabhängig voneinander betrieben werden können. Die Verdrahtung von Regieanlagen und das Verlegen von Tonfrequenzleitungen soll nach den Gesichtspunkten des geringsten Übersprechens, d. h. der größten Übersprechdämpfung ausgeführt werden. Zweckmäßig werden hoch- und niederpegelige Leitungen voneinander getrennt geführt, um das ungewollte Übersprechen zwischen Modulationsleitungen möglichst klein zu halten. Steuer-, Signal-, Melde- und Netzleitungen sollen von den Modulation führenden Leitungen entfernt verlegt werden. Jede Tonfrequenzleitung hat, bedingt durch ihren Aufbau, eine unvermeidbare Eigenkapazität (Abb. 8/5), die bei einer zu langen Leitung lineare Verzerrungen bewirkt; sie führt zur Dämpfung hoher Frequenzen. Das Ersatzschaltbild einer solchen Leitung zeigt einen RC-Tiefpass mit einer Flankensteilheit von 6 dB/Oktave. Da der Eingangswiderstand RE groß gegen den Ausgangswiderstand RA ist, kann RE in der Betrachtung vernachlässigt werden. Für die Grenzfrequenz f0, bei der ein Höhenabfall von 3 dB besteht, gilt demnach näherungsweise die Formel
f0 =
f0 = Grenzfrequenz {Hz] RA = Ausgangswiderstand [S] C = Gesamtkapazität der Leitung [F]
1 2 π RAC
Die Kapazität der Leitung C hängt von ihrer Länge L ab; wenn Cspez die Kapazität pro Kabelmeter ist, ist die Gesamtkapazität C = LACspez. Setzt man für die Grenzfrequenz 15 000 Hz ein, so gilt für die maximal zulässige Kabellänge für 3 dB Höhenabfall:
L=
1
⋅
1
2π ⋅ 15000 RA ⋅ Cspez
L = Länge der Leitung [m] RA = Ausgangswiderstand [S] Cspez = Leitungskapazität pro m [F/m]
Bei gegebener Leitungskapazität ist die maximal zulässige Leitungslänge also umso größer, je kleiner der Ausgangswiderstand ist, an den die Leitung ausgeschaltet wird. Eine Tonfrequenzleitung mit einer Kapazität von 100 pF/m, z. B. als Mikrofonleitung geschaltet, muss unter einer Länge von 500 m bleiben. Diese Länge ist bedingt durch den Ausgangswiderstand des Mikrofons (R = 200 S), die Kabelkapazität (Cspez = 100 pF/m) und die Grenzfrequenz (f0 = 15 kHz). Der bei dieser Leitungslänge entstehende Höhenabfall bei 15 kHz von 3 dB ist im Tonstudiobereich allerdings nicht mehr zulässig. Verstärker, die einen Innenwiderstand # 40 S aufweisen, können ohne eine Beeinflussung des Frequenzganges mit wesentlich längeren Leitungen verbunden werden. In der professionellen Tonstudiotechnik sollen für einpaarige Modulationskabel, die für die Übertragung von Tonfrequenzsignalen, eingeschlossen Mikrofonsignale, benutzt werden, folgende Werte nicht überschritten werden (Pflichtenheft 3/3): Gleichstromwiderstand 180 S/km, bei beweglicher Verlegung 280 S/km, Betriebskapazität 60 nF/km, bei beweglicher Verlegung 100 nF/km, Spannungsfestigkeit mindestens 500 V. 442
Leitungsführung und Anpassung
Abb. 8/5. Leitungskapazitäten und Ersatzschaltbild.
Die Kabel werden einerseits nach der Verlegungsart - feste oder bewegliche Verlegung -, andererseits nach einpaarigen und mehrpaarigen Kabeln unterschieden. Ein einpaariges Kabel besteht aus zwei isolierten Leitern, die miteinander verseilt sind; als Leitermaterial wird für feste Verlegung verzinntes Kupfer, für bewegliche Verlegung Kupferlitze verwendet. Die Aderisolierungen haben unterschiedliche Farben, die Ader a ist heller als die Ader b. Die isolierten Adern werden mit einem Schirm umgeben, der bei flexiblen Kabeln aus Kupfergespinst besteht, bei Kabeln zur festen Verlegung aus Metallfolie mit einem Kupferbeidraht. Der Kabelschirm wird von einem Kabelmantel umgeben, der ausreichenden mechanischen Widerstand bieten muss.
8.3.4
Zusammenschaltung
Bei der Zusammenschaltung symmetrischer und unsymmetrischer Ein- und Ausgangsschaltungen gibt es eine Reihe möglicher Kombinationen, die teils die Qualität einschränken oder zu inakzeptablen Qualitätsminderungen führen; Tab. 8/2 fasst die möglichen Kombinationen und ihre qualitativen Auswirkungen bei Verwendung einer zweiadrigen, geschirmten Leitung zusammen.
Abb. 8/6. Zusammenschaltung eines nicht erdfreien, symmetrischen Ausgangs mit einem unsymmetrischen Eingang.
Für die Kombination eines nicht erdfreien, symmetrischen Anschlusses mit einem unsymmetrischen Anschluss können die Folgen je nach interner Schaltung unterschiedlich sein. Abb. 8/6 zeigt, dass bei dieser Zusammenschaltung ein Kurzschluss zwischen Ader a und 0 Volt entsteht. Solche Zusammenschaltungen können bei der Anschaltung von nicht professionellen Geräten an Studiogeräte entstehen; aus diesem Grund und wegen der notwendigen Pegelanpassung sind für diesen Fall spezielle Anpassverstärker notwendig. 443
Analoge Tonregieanlagen Tab. 8/2. Tonqualität bei der Kombination gleicher und verschiedener Ein- und Ausgangsschaltungen mit einer zweiadrigen, geschirmten Leitung. Geräteausgang symmetrisch, erdfrei
Geräteeingang symmetrisch, erdfrei
Qualität der Leitungsverbindung Die bestmögliche Kombination, bei kleinem Ausgangswiderstand auch für große Leitungslängen ohne lineare Verzerrungen und vor Einstreuungen geschützt.
symmetrisch, nicht erdfrei
symmetrisch, nicht erdfrei
Die gesamte Verbindung ist nicht erdfrei und
symmetrisch, erdfrei
symmetrisch, nicht erdfrei
damit störanfällig gegen Einstreuungen.
symmetrisch, nicht erdfrei
symmetrisch, erdfrei
unsymmetrisch
unsymmetrisch
Die gesamte Verbindung ist unsymmetrisch und
symmetrisch, erdfrei
unsymmetrisch
damit störanfällig gegen Einstreuungen.
unsymmetrisch
symmetrisch, erdfrei
unsymmetrisch
symmetrisch, nicht erdfrei
symmetrisch, nicht erdfrei
unsymmetrisch
8.3.5
Je nach schaltungstechnischem Aufbau ist die Verbindung zulässig oder unzulässig (siehe Text).
Erdung
Bei der Zusammenschaltung von Einzelgeräten zu einer Anlage ist für eine gute Schirmung, Entstörung und Erdung zu sorgen. Das gewählte Erdungssystem muss konsequent eingehalten werden, um Brummeinstreuungen und andere Störungen durch Erdschleifen zu vermeiden. Erdleitungen sollen möglichst kurz sein und einen großen Querschnitt haben, um das zu erdende Gerät potentialfrei zu machen.
Abb. 8/7. Prinzip der sternförmigen Erdung von Geräten.
Eine störungsfreie Erdung wird i. Allg. von Studiogeräten durch das in Abb. 8/7 gezeigte sternförmige Erdungssystem realisiert. Das Prinzip der sternförmigen Erdung wird in den Geräten, in der Zusammenschaltung von Geräten, in der Regieanlage sowie in der Zusammenschaltung von Regie-, Tonträger- und Studioräumen konsequent befolgt. Das 0-Volt-Potential der Verstärker eines Einschubträgers ist elektrisch vom Erdpotential getrennt und wird über eine 0-Volt-Brücke an den zentralen Erdbezugspunkt geführt (Abb. 8/8). Diese Erdung hat den Vorteil, dass bei sorgfältiger Verdrahtung keine Brummen einstreuenden Erdschleifen entstehen können. Eventuell auftretende Erschleifen sind über die 0-Volt-Brücken schnell lokalisiert und beseitigt. 444
Leitungsführung und Anpassung
Abb. 8/8. Erdung des 0-Volt-Potentials der Verstärker.
Abb. 8/9. Vermaschte Erdung.
Ein anderes Erdungssystem ist das Prinzip der „vermaschten Erdung" oder Flächenerde (Abb. 8/9). Hier werden die Enden der Schirme und das 0-Volt-Potential der Verstärker, das dem negativen Pol des 24-V-Potentials des Netzgeräts gleichgestellt wird, mit dem Gehäuse oder Gestell verbunden, also geerdet. Der dadurch erreichte große Querschnitt des Erdleiters setzt auftretenden Erdströmen einen nur kleinen Widerstand entgegen. Damit wird weitgehend verhindert, dass sich Spannungsabfälle als Störspannungen bemerkbar machen.
8.3.6
Anpassung
Bei der Zusammenschaltung von Geräten der Tonstudiotechnik hat das Verhältnis von Ausgangswiderstand eines Gerätes zum Eingangswiderstand des angeschlossenen Gerätes bzw. zum Gesamtwiderstand mehrerer parallel angeschlossener Geräte Einfluss auf Verstärkung, 445
Analoge Tonregieanlagen lineare und nichtlineare Verzerrungen; aus diesem Grunde sind definierte Bedingungen für die Zusammenschaltung notwendig. Diese Bedingungen werden mit Anpassung bezeichnet. Bei den Ein- und Ausgangswiderständen handelt es sich i. Allg. um Impedanzen, also um Scheinwiderstände; sie werden für die Frequenz 1 kHz angegeben und sind mehr oder weniger frequenzabhängig. Die Zusammenschaltung von zwei Geräten stellt einen Spannungsteiler dar (Abb. 8/10). Für das Spannungsverhältnis von Leerlaufspannung U0 zu Eingangsspannung UE gilt:
U0 UE
=
RA + RE RE
Uo UE RA RE
= Leerlaufspannung [V] = Eingangsspannung [V] = Ausgangs- oder Quellwiderstand (-impedanz) [S] = Eingangswiderstand (-impedanz) [S]
Für die Zusammenschaltung gibt es drei Möglichkeiten, die sich aus dem Verhältnis von RA zu RE ableiten: - Leistungsanpassung mit RA = RE, - Stromanpassung ist RE « RA, - Spannungsanpassung mit RA « RE. Leistungsanpassung wird in der Telekommunikationstechnik angewendet, Spannungsanpassung hauptsächlich in der Tonstudiotechnik, hier in Spezialanwendungen auch die Stromanpassung.
Abb. 8/10. Zusammenschaltung von Geräten.
Bei Leistungsanpassung ist RA = RE und damit UE = ½Uo, es wird jedoch ein Maximum an Leistung übertragen, nämlich 50 %. Diese Anpassungsart wird in der Fernmeldetechnik verwendet, ist aber in der Tonstudiotechnik unzweckmäßig, weil durch den großen zu übertragenden Frequenzbereich und wechselnde Lasten - unterschiedliche Leitungslängen oder Parallelschaltung von mehreren Geräten - die Anpassungsbedingungen nicht mehr einzuhalten sind; um Frequenzgänge, also Klangfärbungen zu vermeiden, müssten die Scheinwiderstände völlig frequenzunabhängig sein. Die Leistungsanpassung wird in der Tonstudiotechnik deshalb nicht genutzt. Bei der Stromanpassung ist RE « RA. Der Strom wird bei der Zusammenschaltung praktisch wie bei einem Kurzschlussbetrieb übernommen; diese Anpassungsart wird bei der Zusammenführung von Tonfrequenzsignalen, also bei der Summenbildung angewendet, weil hier die Parallelschaltung einer großen Anzahl von Quellen möglich ist, ohne dass sich die Signale gegenseitig beeinflussen. Diese Anpassung wird als Nullohm-Knotenpunktschaltung bezeichnet. Die Ausgangsimpedanz RA setzt sich in diesem Fall aus der Zusammenschaltung der Geräteausgänge und der Entkopplungswiderstände zusammen. 446
Leitungsverbindungen Die Spannungsanpassung, auch Überanpassung genannt, wird in der Tonstudiotechnik bei der Zusammenschaltung generell angewendet. Diese Technik wird ebenso in der Starkstromtechnik verwendet, um den Stromverbrauchern konstante Spannung anbieten zu können. Dabei ist RA « RE. Die Spannung wird praktisch in voller Höhe weitergegeben. In der Praxis genügt es, wenn RE > 10 RA ist. Vorteilhaft an der Spannungsanpassung ist, dass RE und RA keine genau definierten Werte haben müssen, sondern dass nur ein Mindest- bzw. Höchstwert zu definieren ist. Damit spielen Frequenzabhängigkeiten der Widerstände bei der Spannungsanpassung ebenfalls keine Rolle. Die parallele Zusammenschaltung von mehreren Eingängen ist solange möglich, wie der Gesamtwiderstand nicht kleiner als der vorgeschriebene Mindestwert wird. Auch bei Spannungsanpassung können Tonsignale gemischt werden, also Knotenpunkte gebildet werden (siehe Kap. 8.8.1). Der Ausgangswiderstand, auch Quellwiderstand, Quellimpedanz oder Innenwiderstand genannt, liegt bei den Geräten der Tonstudiotechnik bei maximal 40 S, für Studiomikrofone bei maximal 200 S. Er sollte für größtmögliche Störsicherheit grundsätzlich aber möglichst niedrig sein. Bei dynamischen Mikrofonen ergibt sich durch die für eine ausreichende Ausgangsspannung notwendige Dimensionierung der Ausgangsübertrager ein relativ hoher Widerstand von vielfach 200 S. Halbleiterschaltungen, die nur in Verbindung mit Kondensatormikrofonen angewendet werden, sind diesbezüglich wirkungsvoller; hier können sehr niedrige Quellwiderstände realisiert werden. Die höchste zulässige Quellimpedanz ist die Nennimpedanz. Die Belastbarkeit der Ausgänge, auch Abschlussimpedanz oder Nennabschlussimpedanz genannt, ist derjenige Widerstandswert, mit dem ein Ausgang höchstens belastet werden darf; er liegt bei Geräten mit einem Quellwiderstand unter 40 S bei 300 S; bei Mikrofonen mit höherem Quellwiderstand ist die Nennabschlussimpedanz entsprechend höher, bei dem häufig realisierten Quellwiderstand von 200 S i. Allg. also 1000 S. Die Nennabschlussimpedanz ist der für den Betrieb gerade noch zulässige, aber ungünstigste Belastungswiderstand. Die Eingangsimpedanz eines Geräts soll bei Spannungsanpassung mindestens zehnmal höher sein als die Ausgangsimpedanz. Das Pflichtenheft für die öffentlichrechtlichen Rundfunkanstalten fordert einen Wert von mindestens 600 S, der von den Geräten i. Allg. jedoch in unterschiedlichem Maß weit übertroffen wird. In der Praxis können deshalb bedenkenlos zwei Geräte als Belastung parallel geschaltet werden; bei mehr als zwei Geräten muss die Zulässigkeit geprüft werden.
8.4
Leitungsverbindungen
Für die Zusammenschaltung von fest verlegten Tonleitungen (Modulationsleitungen) innerhalb von analogen Tonregieanlagen werden folgende Verbindungselemente verwendet: - Klinken als Anschaltklinken, - Trennklinken oder Doppeltrennklinken, - Kreuzschienenverteiler als Steckfeld, - Drucktastenverteiler mit mechanischen, Relais- oder elektronischen Schaltern. Für Tonleitungsverbindungen zwischen Tonregieanlagen und externen Einzelgeräten oder zwischen den Geräten und Anlagen der Tonstudiotechnik werden bewegliche oder fest verlegte Kabel mit Steckverbindungen benutzt. 447
Analoge Tonregieanlagen
8.4.1
Klinkensteckverbindungen
Klinken stellen Steckerbuchsen dar und erlauben - je nach Ausführung der Klinke und nach Beschaltung des Klinkensteckers - Tonsignale zu entnehmen, aufzuschalten oder beides zugleich. Ein einheitliches System von Klinken in einer tontechnischen Anlage bietet deshalb vielfältige Möglichkeiten der Zusammenschaltung der elektroakustischen Einheiten; sie erhöhen die Flexibilität einer Anlage (Abb. 8/11).
Abb. 8/11. Symbole für Klinkensysteme.
Bei Klinken wird zwischen Anschaltklinken und Trennklinken unterschieden: Anschaltklinken heißen zunächst die Klinken, auf die entweder ein Eingang oder ein Ausgang eines Gerätes oder einer Modulationsleitung gelegt ist; in dieser Form sind sie also Eingänge oder Ausgänge. Anschaltklinken gibt es aber auch in Modulationswegen. Sie werden in diesem Fall als Kontaktklinken bezeichnet; Kontaktklinken unterbrechen nicht die Modulationsleitung, in der sie liegen. Sie ermöglichen nur die Entnahme eines Tonsignals, nicht aber die Eingabe. Bei der in der Tonstudiotechnik üblichen Spannungsanpassung würde die Signaleingabe zur Parallelschaltung von Signalquellen führen, die Bedingungen der Anpassung wären dabei nicht mehr erfüllt. Eine besonders nützliche Verwendung der Anschaltklinke ist die Doppelanschaltklinke mit Brückenstecker. Hierbei werden in definiertem Abstand, z. B. 14 mm, zwei Anschaltklinken hintereinander angeordnet; mit einem Brückenstecker können sie verbunden werden. Bei gezogenem Stecker kann ein Signal entnommen werden, ein anderes wieder eingegeben 448
Leitungsverbindungen werden; hierzu wird eine einheitliche Steckverbindung verwendet, bei der Ein- und Ausgang an denselben Kontakten liegen. Brückenstecker mit Kontaktklinken erlauben nur die Entnahme eines Signals, weil hierbei Eingänge parallel geschaltet werden. Die Eingabe eines Signals ist nicht zulässig, da dies zu einer Parallelschaltung von Quellen (Ausgangsparallelschaltung) führen würde. Trennklinken liegen grundsätzlich in Modulationswegen. Sie unterscheiden sich von den Kontaktklinken dadurch, dass beim Einstecken eines Klinkensteckers die bestehende Leitungsverbindung aufgetrennt wird. In Trennklinken können Signale eingegeben oder aus ihnen entnommen werden, auch beides gleichzeitig. Die Trennklinke ist deshalb vielseitiger als die Kontaktklinke. Da die Ausgänge auf anderen Kontakten liegen als die Eingänge, werden unterschiedliche Belegungen für Eingabe bzw. Entnahme benötigt. Anders als bei der doppelten Anschaltklinke kann ein Gerät aber nur mit einer vieradrigen Klinkenschnur eingeschleift werden. Vielseitiger als die beschriebene Einfachtrennklinke ist die sog. Doppeltrennklinke, bei der Eingang und Ausgang auf zwei Klinken aufgeteilt sind.
Abb. 8/12. Mechanischer Aufbau einer Trennklinke.
Abb. 8/12 veranschaulicht an einem Beispiel den Aufbau einer Trennklinke. Sie besteht aus der Klinkenbuchse und dem Klinkenstecker mit der Klinkenschnur. In der Trennklinkenbuchse befindet sich ein Kontaktschlitten, der beim Einstecken des Klinkensteckers zurückgedrückt wird; dadurch wird die sonst verbundene Leitung aufgetrennt. Bei der Kontaktklinke fehlt dieser Kontaktschlitten, die Verbindung bleibt auch bei eingestecktem Stecker bestehen. In dieser Ausführung werden durch den Klinkenstecker nur die Tonadern, nicht aber der Schirm verbunden. Durch unterschiedliche Beschaltung - gekennzeichnet durch unterschiedliche Farben oder Symbole (ISO R 369) - wird die Schaltfunktion eines Klinkensteckers angezeigt. Abb. 8/13 zeigt an einem Beispiel die mechanische Ausführung einer Anschalt- bzw. Doppeltrennklinke. Dieses Klinkensystem verbindet mit konzentrischen Kontaktbahnen Adern und Schirm. In der sechspoligen Ausführung werden Stereoleitungen bei einer Übersprechdämpfung bis 125 dB verbunden. Die Klinkenstecker verriegeln sich selbständig. Für Doppeltrennklinken steht ein einsteckbares Kupplungsstück mit oder ohne Buchse zur Verfügung. Abb. 8/13 zeigt schematisch den Aufbau dieses Klinkensystems. 449
Analoge Tonregieanlagen
Abb. 8/13. Aufbau eines koaxialen Klinkensystems (Mono).
Insbesondere die Doppeltrennklinke und die Doppelanschaltklinke mit Brückenstecker machen die Signalführung in einer Tonregieanlage viel variabler. In modular aufgebauten Tonregieanlagen sind sie an den Punkten der Tonregieanlage vorhanden, die für die Eingabe und Entnahme von Signalen, für das Einschleifen von Fremdgeräten oder für die Überbrückung von Teilen der Anlage geeignet sind. Die Zusammenschaltung der Verstärkerkette über Klinken - hier Anschaltklinken mit Brückenstecker - zeigt Abb. 8/14.
Abb. 8/14. Anordnung von Klinken in der Regiekette (hier: Anschaltklinken mit Brückensteckern).
8.4.2
Koppelfelder
Eine vielfach im Tonstudio zu lösende Aufgabe besteht darin, Quellen mit Verbrauchern, also ankommende Leitungen mit abgehenden Leitungen zu verbinden; dabei soll jede beliebige Quelle mit jedem beliebigen Verbraucher verbunden werden können. Solche Anlagen bezeichnet man als Koppelfelder oder Kreuzschienenverteiler. Diese „Wegweisung“ der Signale wird heute meist mit „routing“ bezeichnet; sie kann sich auf den gesamten Weg beziehen oder auf einen einzelnen Koppelpunkt, man sagt, ein Signal wird „geroutet“. Bei Tonregieanlagen müssen ankommende Mikrofonleitungen und Hochpegelleitungen von anderen Räumen, von Hallerzeugern usw. den Eingängen der Regieanlage zugeordnet werden; diese Aufgabe erfüllt der Eingangsverteiler. Der Ausgangsverteiler stellt die gewünschten Verbindungen zwischen Regieausgängen und Aufnahme- und Sendeleitungen her. Damit benötigt eine Schalteinrichtung, 450
Leitungsverbindungen die m Eingangsleitungen mit n Ausgangsleitungen zu verbinden hat, m A n Schaltpunkte. Man kann sie rechteckförmig anordnen, indem man die Eingänge auf die waagrechten Zeilen und die Ausgänge auf die senkrechten Spalten - oder umgekehrt - legt. Eine Verbindung von Spalte und Zeile in einem Kreuzungspunkt stellt dann die gewünschte Verbindung her. Auf Grund dieser Anordnung von gekreuzten Spalten und Zeilen erhält die Anordnung die Bezeichnung Kreuzschienen-Schaltelement. Mit dem Übergang von mechanisch zu elektronisch schaltenden Verteilern haben sich die Begriffe Koppelpunkt und Koppelfeld eingeführt. Abb. 8/15 zeigt verschiedene Symbole für Kreuzschienenverteiler bzw. Koppelfelder. Pflichtenheft 3/2 enthält die technischen Anforderungen.
Abb. 8/15. Schaltsymbole für Kreuzschienenverteiler bzw. Koppelfelder.
Um die Leitungsverbindungen herzustellen, gibt es mehrere Möglichkeiten: Beim rein mechanischen Kreuzschienenverteiler wird die Verbindung durch Stecker, die die Spalte und Zeile am Kreuzungspunkt verbinden, hergestellt; solche Verteiler befinden sich am Ein- und Ausgang von Regieanlagen und an anderer Stelle, wenn die Zahl der Verbindungen nicht zu groß und die Verbindungen nicht zu häufig zu ändern sind. Mechanische Verteiler sind zuverlässig, aber für komplexe Schaltverbindungen, wie sie z. B. in Schalträumen von Funkhäusern gegeben sind, nicht geeignet. Weiter unten sind einige Beispiele für solche Schaltfelder angeführt. 451
Analoge Tonregieanlagen Für umfangreichere Schaltaufgaben werden programmierbare, also fernsteuerbare Koppelpunkte benötigt. Koppelpunkte können hier von Hand, v. a. aber rechnergestützt programmiert werden. Als Schaltelemente kommen elektromechanische Schalter (Relais-Schalter) [8.10] und elektronische Schalter [8.11, 8.12] in Betracht. Während bei mechanischen Kreuzschienenfeldern eine rechteckige Anordnung der Schaltelemente gewahrt wird, kann bei ferngesteuerten Anlagen auf andere Lösungen zurückgegriffen werden; durch eine mehrstufige Anordnung der Schaltelemente können so in erheblichem Umfang Koppelpunkte eingespart werden [8.13, 8.14]. Ob beim einstufigen Verteiler die horizontalen oder vertikalen Schienen als Eingänge geschaltet sind, ist technisch ohne Bedeutung; meist sind jedoch die horizontalen Zeilen mit den Eingängen, die vertikalen Spalten mit den Ausgängen verbunden. Bei Tonregieanlagen wird vielfach eine U-förmige Anordnung gewählt: vertikale Eingangsleitungen mit horizontaler Weiterführung in die Tonregie und horizontale Ausgänge aus der Tonregie auf vertikale Ausgänge. Der Kreuzschienenverteiler bietet die Möglichkeit, auf einen Eingang parallel mehrere Ausgänge aufzuschalten. Jede zusätzliche Aufschaltung darf das Eingangssignal weder im Pegel, im Klirrfaktor, noch im Frequenzgang verändern. Bei kleineren Verteileranlagen ist dies auf Grund der Spannungsanpassung gewährleistet. Bei größeren Anlagen hingegen wird jede abgehende Leitung mit einem Trennverstärker versehen, der die notwendige rückwirkungsfreie Auskopplung erlaubt.
Abb. 8/16. Koppelfeld einpolig mit 2, 4 bzw. 6 Ebenen.
Es sind Verteiler für Modulation mit zwei- oder dreipoliger Durchschaltung für Monosignale bzw. mit vier- oder sechspoliger Durchschaltung für Stereosignale in Gebrauch; bei drei- bzw. sechspoligen Verbindungen wird der Schirm ebenfalls verbunden. Weiter sind auch Verteiler für Signalisierungen in Gebrauch. Mit Signalverteilern (24 V Gleichspannung) können z. B. Rotlicht oder Fernstarts der Bandmaschinen geschaltet werden. Selbstverständlich gibt es 452
Leitungsverbindungen unterschiedliche Konzepte von verschiedenen Herstellern, die angeführten Anlagen sind Beispiele.
Abb. 8/17. Koppelstecker dreipolig für Zwei-Ebenenverteiler, Zwei-Ebenenverteiler dreipolig.
Als Beispiel für den mechanischen Aufbau eines Koppelpunktes zeigt Abb. 8/16 ein System für einpolige Signalverteilung, Abb. 8/17 ein System für dreipolige Durchschaltung. Der Kurzschlussstecker stellt eine direkte Verbindung zwischen den beiden Schaltebenen her, der Diodenstecker verhindert bei Signalverteilern Rückströme. Für mehrpolige Koppelpunkte, wie sie für Tonleitungen benötigt werden, können zwei bzw. drei nebeneinander liegende Steckpunkte benutzt werden oder vier bis sechs übereinander liegende Ebenen. Die erforderliche Übersprechdämpfung bestimmt die Art der Schirmung. Verbesserte Übersprechdämpfung und geringeren Platzbedarf bietet die Lösung mit vier bzw. sechs übereinander liegenden Ebenen mit Ebenenschirmung. Abb. 8/18 zeigt ein anderes System. Hier wird die Verbindung zwischen Zeilen und Spalten nicht mit jeweils derselben Kontaktbahn hergestellt, sondern durch getrennte Bahnen. Damit benötigt eine geschirmte Leitungsverbindung bereits 6 Kontaktbahnen; jeweils zwei weitere Bahnen erfordern z. B. eine Signalisation und einen Reglerfernstart sowie 0 V. Zwei weitere Kontakte versorgen die Signallampe im Kreuzschienenstecker.
Abb. 8/18. 12-poliger Kreuzschienenstecker mit zusätzlich zwei Signalkontakten.
Bei kleineren Verteilern, wie sie z. B. die Aufschaltung von Eingangskanälen auf Gruppen oder die Aufschaltung von Gruppen auf Summen darstellen, sind Drucktastenverteiler in der Praxis schneller zu bedienen. Eine Signallampe in der Drucktaste zeigt den Schaltzustand an. Solche Drucktastenschalter können mechanische Schalter, Relais oder elektronische Schalter sein. 453
Analoge Tonregieanlagen 8.4.2.1
Komplexe Koppelfelder
In der analogen Technik sind Koppelfelder stets räumliche Anordnungen von Ein- und Ausgängen, ein sog. Raummultiplex, in digitaler Technik ist auch eine zeitliche Verschachtelung möglich, ein sog. Zeitmultiplex, siehe dazu Kap. 13.1.3. L-Schaltung Müssen m ankommende Leitungen mit n abgehenden Leitungen verbunden werden können, so kann das im einfachsten Fall durch Klinkenschnüre geschehen. Weitaus aufwändiger, aber ungleich übersichtlicher ist ein Kreuzschienenfeld, bei dem die Ein- und Ausgänge wie die Koordinaten eines Koordinatensystems angeordnet sind; die Verbindungen werden hier durch die Verbindung der senkrechten und waagrechten Schienen hergestellt. Da die Signalführung im Kreuzschienenfeld L-förmig ist, werden solche Durchschaltsysteme auch als L-Schaltung bezeichnet (Abb. 8/19). Kreuzschienenverteiler in L-Schaltung können als Handschaltfelder, wie z. B. in älteren Schaltraumkonzeptionen oder in Tonregieanlagen, oder als rechnergesteuerte Systeme arbeiten. Hierbei werden im Schaltraum vielfach die bislang üblichen Bezeichnungen der einzelnen Verteiler beibehalten: der B-Verteiler nimmt externe Empfangsleitungen auf und verteilt sie weiter, der C-Verteiler verbindet die technischen Räume des Funkhauses miteinander, der D-Verteiler ist der Sendeverteiler.
Abb. 8/19. Verteiler in L-Schaltung.
In rechnergesteuerten Schalträumen können diese drei Verteiler in einem einzigen Verteiler zusammengefasst werden. Das hat aber zur Folge, dass dieses Koppelfeld mehr Koppelpunkte enthält, als zum Betrieb notwendig sind, es ist überdimensioniert. Ein Kreuzschienenfeld mit z. B. 100 Quellen und 100 Verbrauchern benötigt in der L-Schaltung 100 A 100 = 10 000 Koppelpunkte; gleichzeitig wird aber eine solch hohe Anzahl von Verbindungen nicht benötigt; sinnvoll ist eine solche Schaltung nur, wenn die Anzahl der Koppelpunkte dem tatsächlichen Bedarf angepasst ist. Zur Erfassung dieser Zusammenhänge wird der Gleichzeitigkeitsfaktor g definiert. Er gibt an, wie viele Quellen und Verbraucher gleichzeitig miteinander verbunden werden können, wobei die kleinere Anzahl von beiden als 100 % gesetzt wird. Uneingeschränkt bleibt dabei die Forderung, dass jede Quelle mit jedem Verbraucher verbunden werden kann. Für die Auslegung eines Koppelfelds ist die Betrachtung des Gleichzeitigkeitsfaktors eine wichtige Vorüberlegung. Es ist nicht unbedingt notwendig, den Faktor g grundsätzlich bei 100 % anzusetzen; er kann auch kleiner sein. Eine Reduzierung der Anzahl der Koppelpunkte ist möglich, wenn man eine Aufteilung der Koppelpunkte auf mehrere Koppelfelder mit unterschiedlichen Gleichzeitigkeitsfaktoren vornimmt. 454
Leitungsverbindungen Doppel-L-Schaltung Eine zweite Möglichkeit des Schaltraumaufbaus ist die Doppel-L-Schaltung, auch U-Schaltung genannt (Abb. 8/20). Hier werden zwei Kreuzschienenverteiler in L-Schaltung hintereinander geschaltet. Unter Beibehaltung der Anzahl der Koppelpunkte wie in einer L-Schaltung sinkt der Gleichzeitigkeitsfaktor mindestens auf 50 %. Sollen gleichzeitig mehr Möglichkeiten der für Durchschaltungen bestehen, übersteigt die Anzahl der Koppelpunkte in einer DoppelL-Schaltung weit die Anzahl in einfacher L-Schaltung. Auf Grund des größeren Schaltaufwands und der damit verbundenen höheren Fehlerquote wurde diese Art von Kreuzschienenverteiler auch nur bedingt eingesetzt.
Abb. 8/20. Verteiler in Doppel-L-Schaltung.
Dreistufige Koppelfelder Die dritte Möglichkeit, Verteiler aufzubauen, ist die des dreistufigen Koppelfelds. Diese Technik wird heute allgemein in großen Schalträumen angewandt. Die Durchschaltung der Modulation kann entweder auf mechanischem Weg (Relais) oder auf elektronischem Weg (Schalttransistoren) erfolgen. Das Koppelfeld besteht aus drei Verteilern, dem Eingangs-, Zwischenund Ausgangsverteiler. Jeder dieser Verteiler besteht seinerseits wieder aus einer gewissen Anzahl kleiner Verteiler in L-Schaltung. Die Quellen Q werden über die Eingangsverteiler auf die Zwischenverteiler verteilt und von da auf die Ausgangsverteiler weitergeführt und mit den Verbrauchern verbunden. Diese Verteilung ist so berechnet, dass jede Quelle mit jedem Verbraucher verbunden werden kann. Wichtig ist, dass hierbei bis zu etwa 60 % Koppelpunkte gegenüber der herkömmlichen L-Schaltung eingespart werden können. Platzeinsparung und geringere Kosten sind also die wesentlichen Vorteile des dreistufigen Koppelfeldes. Abb. 8/21 zeigt eine solche Konzeption. Ein dreistufiges Koppelfeld kann man sich als einen Verteiler vorstellen, der in drei kleine L-Verteiler geteilt und in einer bestimmten Art wieder zusammengesetzt ist; d. h. aber, dass der Modulationsweg nun über drei Koppelpunkte läuft, ohne dass die technischen Werte sich verschlechtern dürfen. Diese „kleinen" Verteiler sind so aufgebaut, dass sich effektiv eine große Einsparung an Koppelpunkten ergibt. Die kleinste Einheit eines Koppelfeldes ist der Koppelbaustein (KB). Es gibt drei KB-Prinzipien, wovon sich jedoch nur zwei in der Praxis einsetzen lassen, nämlich die sog. verbraucher bezogene Anordnung nach Abb. 8/22 und die blockweise Anordnung nach Abb. 8//23. 455
Analoge Tonregieanlagen
Abb. 8/21. Dreistufiges Koppelfeld.
Verbraucherbezogene Anordnung Bei der verbraucherbezogenen Anordnung werden die Koppelbausteine wieder zu Blöcken zusammengefasst: Die Quellen Q werden auf n Eingangsblöcke mit der Größe a A b und die Verbraucher (Senken) V werden analog auf p Ausgangsblöcke mit der Größe e A f verteilt. Zur Durchschaltung von den Eingangs- zu den Ausgangsverteilern werden m Zwischenverteiler mit der Größe c A d benötigt. Jeder Eingangsverteiler ist ausgangsseitig über m Leitungen mit m Zwischenverteilern eingangsseitig verbunden; jeder Zwischenverteiler ist ausgangsseitig über p Leitungen mit p Ausgangsverteilern eingangsseitig verbunden (Abb 8/22).
Abb. 8/22. Verbraucherbezogene Anordnung der Koppelpunkte.
456
Leitungsverbindungen Die Anzahl der Koppelpunkte K3 eines dreistufigen Koppelfelds ist:
K3 = aAbAn + cAdAm + eAfAp = mAxA(Q + V +
Q⋅V a ⋅f
)
Anzahl der Elemente: K3 = Koppelpunkte a = Eingänge der Eingangsblöcke b = Ausgänge der Eingangsblöcke n = Eingangsblöcke c = Eingänge der Zwischenblöcke d = Ausgänge der Zwischenblöcke m = Zwischenblöcke e = Eingänge der Ausgangsblöcke f = Ausgänge der Ausgangsblöcke p = Ausgangsblöcke Q = Quellen V = Verbraucher
Aus dieser Gleichung lässt sich näherungsweise eine Beziehung für a ableiten, aus der die Größe des Koppelbausteins resultiert: a . Q/n. In der Praxis ist nicht jeder errechnete Wert als sinnvoll anzusehen, es kann z. B. eine Überdimensionierung vorgenommen werden. Die Größe a des zu verwendenden Koppelbausteines liegt bei a = 6,10,15,20 oder 35. Der gewählte Wert ist wiederum abhängig von der Gesamtgröße des Koppelfeldes, d. h. von der Anzahl der Quellen Q und der Verbraucher V. Blockweise Anordnung Bei einem Koppelfeld mit Verteilern, die aus Koppelbausteinen mit blockweiser Anordnung bestehen, ist der Gesamtaufbau im Prinzip der gleiche wie bei Koppelfeldern mit verbraucherbezogenen Bausteinen (Abb. 8/23). Hier ist die Anzahl der Koppelpunkte:
K3 = (Q + V) · a +
Q⋅V a
Abb. 8/23. Blockweise Zusammenfassung der Koppelpunkte, Verteilung von n Quellen Q auf n Verbraucher V.
Ferner ist:
a=
Q⋅V Q+V
457
Analoge Tonregieanlagen Die Anzahl der Koppelbausteine im Eingangsverteiler A bzw. im Zwischenverteiler B ist A = Q/a und B = a. Weiter gilt:
b=
Q a
= A und c =
V a
=C
Hierbei ist zu beachten, dass alle errechneten Werte auf eine durch vier teilbare Zahl erhöht bzw. erniedrigt werden müssen. In dem o. g. Fall handelt es sich um quadratische Blöcke. Eine Variante der quadratischen blockweisen Zusammenfassung ist der rechteckige Block, z. B. 32 A 4. Dreistufige Koppelfelder sind erst ab einer bestimmten Größe kostengünstig: Koppelfelder mit verbraucherbezogenen Koppelbausteinen ab 100 Quellen auf 100 Verbrauchern, Koppelfelder mit blockweise angeordneten Koppelbausteinen ab 200 Quellen auf 200 Verbraucher.
8.4.3
Kabelsteckverbindungen
Bei einer positiven Halbwelle des Schalldrucks (Überdruck) vor einem Mikrofon soll an den mit „+" bezeichneten Kontakten dieses Übertragungskanals ebenfalls eine positive Halbwelle der Spannung auftreten. Auch vor einem Lautsprecher, der an diesen Kanal angeschlossen ist, soll dabei eine positive Druckhalbwelle entstehen; Mikrofon und Lautsprecher sind also in Phase zueinander. Ader a wird mit „+" verbunden, die Aderfarbe ist hell (weiß oder hellgrau), Ader b wird mit „ ! " verbunden, die Aderfarbe ist dunkel. Der Schirm liegt an Anschluss c. Bei Stereoübertragungen ist Kanal I i. Allg. mit der Kennfarbe gelb der vom Hörer aus gesehen linke Kanal, Kanal II mit der Kennfarbe rot ist der vom Hörer aus gesehen rechte Kanal. In der MSAufnahmetechnik ist Kanal I der Summenkanal (M = L + R), Kanal II der Kanal für das Differenzsignal (S = L ! R). Allgemein soll bei Kontakten die niedrigere Kennzahl bei Kanal I mit „ + ", die höhere mit „!" verbunden sein. Die Kennfarben regelt das Pflichtenheft der öffentlich-rechtlichen Rundfunkanstalten 3/3 auch für mehrpaarige Kabel. Von den zahlreichen Systemen für Steckverbindungen hat sich in den letzten Jahren v. a. das XLR-System im professionellen Bereich durchgesetzt; das von verschiedenen Firmen hergestellte System ist robust und leicht zu handhaben. Es wird auch für Verbindungen mit digitalen Signalen verwendet. Bisweilen wird das System auch nach einem der Hersteller, Cannon, benannt. Die Steckverbindung ist durch eine einrastende Nase gesichert (Abb. 8.24). Die unter dem Herstellernamen bekannten Steckersysteme von Tuchel haben eine Sicherung der Verbindung durch Schraubverbindung. Neben den gebräuchlichen dreipoligen Mono- und fünfpoligen Stereoverbindungen sind auch Rundstecksysteme mit bis zu 12 Adern für besondere Anwendungen in Verwendung; die zusätzlichen Adern dienen der Spannungsversorgung, Steuerung oder Signalisation. Anschlussleisten sind für die Verbindung von mehr als zwei Kanälen vorgesehen; die 30-polige Anschlussleiste z. B. kann max. 10 Kanäle übertragen. Abb. 8/24 zeigt weiterhin zwei Steckersysteme für asymmetrische Leitungsführung, wie sie bei der semiprofessionellen Technik und bei Musikanlagen amerikanischer und japanischer Hersteller begegnet, mit koaxialer Kontaktanordnung (Cinch und Klinke). 458
Leitungsverbindungen
Abb. 8/24 Stecker und ihre Belegung, Steckerteile auf die Lötfahnen gesehen.
Um den ordnungsgemäßen Zustand von Kabeln und Steckverbindern zu überprüfen, stehen verschiedenartige Kabeltester zur Verfügung. Mit ihrer Hilfe können Unterbrechungen, Fehlbelegungen und Kurzschlüsse festgestellt werden. Fehler treten weniger im Kabel selbst als in den Steckverbindungen u. a. durch defekte Lötstellen auf.
8.4.4
Schalter
Schalter als Ein-/Ausschalter oder Umschalter stehen in verschiedenen Ausführungen zur Verfügung: der einfache mechanische Schalter als Dreh-, Kipp- oder Tastenschalter verlangt, dass die zu schaltenden Leitungen zum Schalter geführt werden, was den konstruktiven Aufbau und die Wartungs- und Reparaturfreundlichkeit einschränkt. Als fernbedienbare Schalter stehen elektromechanische Schalter (Relais) [8.10] und elektronische Schalter (FETSchalter) [8.11, 8.12] zur Verfügung. Die in der Tonstudiotechnik verwendeten Relais-Schalter sind Schaltelemente, bei denen eine Änderung von Strom oder Spannung zur Änderung eines Schaltzustandes führt. Notwendig ist also ein Steuerkreis; über diesen wird i. Allg. ein kleiner Elektromagnet erregt, der seinerseits 459
Analoge Tonregieanlagen die mechanische Verbindung schließt oder trennt. Vorzüge des Relais sind die galvanische Trennung der Schaltkontakte bei sehr hoher Isolation, die leichte Anpassung an unterschiedliche Bedingungen der Steuerquelle, die Funktionssicherheit in einem weiten Toleranzbereich der Erregungsstärke und Zuverlässigkeit. Diese Eigenschaften haben dem Relais trotz der Entwicklung elektronischer Schalter breite Anwendungsbereiche gesichert. Es gibt eine Fülle von Ausführungen für die verschiedensten Anforderungen: Das monostabile Relais fällt nach Abschalten des Erregerstroms in die Ruhestellung zurück, das bistabile Relais verbleibt dabei in der letzten Schalterstellung. Das neutrale Relais wird unabhängig von der Stromrichtung geschaltet, das gepolte Relais schaltet in Abhängigkeit von der Stromrichtung. Ein Relais kann nur staubgeschützt, aber auch hermetisch dicht abgeschlossen sein. Zur Steuerung kann Gleich- oder Wechselstrom mit unterschiedlicher Spannung, eine Dauererregung oder eine Impulserregung verwendet werden. Als Beispiel für ein Relais sei hier das Reed-Relais (Reed = Blattfeder) erläutert: In einem Glasrohr mit Schutzgasfüllung sind zwei Kontaktzungen eingeschmolzen, die frei in das Rohr hineinragen und einen Spalt bilden. Um das Glasrohr liegt eine Wicklung; wird sie vom Steuerstrom durchflossen, presst das Magnetfeld der Spule die aus ferromagnetischem Material bestehenden Kontaktzungen aufeinander, der Kontakt ist geschlossen. Wird die Erregerspannung abgeschaltet, drückt die Federkraft der Kontaktzungen diese wieder auseinander; es handelt sich hier also um ein monostabiles, neutrales Relais. Während sich mechanische Schalter und Relaiskontakte im eingeschalteten Zustand wie Leiterbahnen verhalten, entsprechen elektronische Schalter, die mit Feldeffekttransistoren realisiert und deshalb als FET-Schalter bezeichnet werden, Verstärkern mit den in der Tonstudiotechnik üblichen elektrischen Eigenschaften; sie haben also die für Spannungsanpassung üblichen Impedanzen, sie produzieren Störpegel und Verzerrungen. Mit dem FET-Schalter steht heute aber ein kleiner, zuverlässiger, kostengünstiger und qualitativ akzeptabler fernsteuerbarer Schalter zur Verfügung, der im großen Stil verwendet wird. Sein Vorteil ist v. a. die sehr geringe benötigte Steuerenergie im Vergleich zum Relais.
8.5
Mikrofonverstärker
Aufgabe des Mikrofonverstärkers ist, den vom Mikrofon gelieferten, i. Allg. sehr niedrigen Pegel auf den Studiopegel + 6 dBu bzw. 0 dB anzuheben. Die hohe Verstärkung verbunden mit einer großen Dynamik stellt besonders hohe Anforderungen an den Störpegel, die Verzerrungsfreiheit und an die Übersteuerungsfestigkeit des Verstärkers. Außer ihrer Hauptfunktion, das Mikrofonsignal nach Bedarf zu verstärken, bieten Mikrofonverstärker die Möglichkeit, tiefe Frequenzen abzuschwächen (Trittschallfilter) und meist die Möglichkeit zum Phasenwechsel (Polwender). Ein Blockschaltbild eines Mikrofonverstärkers zeigt Abb. 8125, die Ansichten einiger Typen Abb. 8/26. Für zusätzliche Anwendungen wie Vormischung (Abhörmischung, Einspielmischung für Playbackaufnahmen) oder Saalbeschallung haben die Mikrofonverstärker zusätzlich einen unsymmetrischen oder/und einen erdsymmetrischen Ausgang (Solistenausgang). Teilweise ist ein zusätzlicher, oft schaltbarer Leitungseingang für Studiopegel vorhanden.
460
Mikrofonverstärker Da die Einstellung der Mikrofonverstärker zur Arbeit am Regietisch gehört und gerade die Verstärkungseinstellung in Abstimmung mit der Verstärkung des Pegelstellers eingestellt werden muss, wurden fernsteuerbare Mikrofonverstärker entwickelt, die entweder zusätzlich oder ausschließlich vom zugehörigen Pegelsteller oder von einer zentralen Fernsteuereinheit bedient werden.
Abb. 8/25. Blockschaltbild eines Mikrofonverstärkers.
Für den Betrieb der Kondensatormikrofone ist eine Spannungsversorgung der Mikrofone notwendig. Diese Spannung wird nicht vom Mikrofonverstärker, sondern von besonderen Netzgeräten zur Verfügung gestellt und in die Mikrofonanschlussbuchse eingespeist. Die Gleichspannung wird auf den Modulationsleitungen, auf denen der Mikrofonpegel zum Mikrofonverstärker gelangt, übertragen. Für die Spannungsversorgung hat sich das Verfahren der Phantomspeisung weitgehend durchgesetzt (siehe Kap. 4.2.2).
Abb. 8/26. Ansicht verschiedener Mikrofonverstärker.
461
Analoge Tonregieanlagen Der Polwender, den Mikrofonverstärker oft haben, kann bei falsch gelöteten Mikrofonkabeln hilfreich sein; eine gezielte Verpolung des Mikrofonsignals kann jedoch nur in ganz seltenen Einzelfällen nützlich sein.
8.5.1
Verstärkungseinstellung
Hauptaufgabe des Mikrofonverstärkers ist die Verstärkung der sehr geringen Ausgangsspannung des Mikrofons auf den Studiopegel. Die Ausgangsspannung hängt im Wesentlichen ab vom Wandlertyp des Mikrofons (Kondensator- oder dynamisches Mikrofon), vom FeldBetriebsübertragungsfaktor des Mikrofons, vom Schalldruck der Schallquelle, vom Mikrofonabstand und der Raumakustik. Da der Feld-Betriebsübertragungsfaktor dynamischer Mikrofone bei etwa 2 mV/Pa liegt, derjenige von Kondensatormikrofonen etwa 10 mal höher, liefern Kondensatormikrofone einen um etwa 20 dB höheren Ausgangspegel gegenüber dynamischen Mikrofonen. Für die Praxis bedeutet dies, dass von Kondensatormikrofonen bei lauten Schallquellen wie Orchester eine Verstärkung von 20 bis 30 dB notwendig ist, bei leiseren Schallquellen, wie Sprache, eine Verstärkung von 30 bis 40 dB. Bei dynamischen Mikrofonen liegt dieser Wert demnach um rund 20 dB höher. Die Mikrofonverstärker erlauben jede Verstärkung von 0 dB für hochpegelige Quellen wie z. B. Leitungen bis 70 oder 80 dB für Mikrofone. Die Abweichung vom ausgegebenen Wert darf höchstens 0,5 dB betragen. Bei den meisten Mikrofonverstärkern kann die Verstärkung in Stufen von 6 oder 10 dB eingestellt werden, dazu kommt eine Feineinstellung bis + 10 dB oder ± 10 dB. Während des Betriebes kann hier also nur in bescheidenem Umfang nachgeregelt werden. Günstiger erweist sich in dieser Beziehung die kontinuierliche und praktisch unhörbare Verstärkereinstellung in 1 dB Stufen, die einige Mikrofonverstärker mittels spannungsgesteuerter Verstärkung bieten. Dieses Prinzip macht auch die Fernsteuerung der Verstärkung möglich. So z. B. kann die Zeit gewählt werden, innerhalb der sich die Verstärkung auf den gewählten Wert einstellt. Die Betriebseinstellung des Mikrofonverstärkers wird am besten während einer Probeaufnahme ermittelt. Während die Pegelsteller der Verstärkerkette in ihrer vorgesehenen Betriebsstellung stehen, wird die Verstärkung des Mikrofonverstärkers so eingestellt, dass das Signal die gewünschte Aussteuerung hat.
8.5.2
Frequenzgang
Der lineare Übertragungsbereich des Mikrofonverstärkers liegt zwischen 40 Hz und 15 kHz, Signalanteile unterhalb dieses Bereiches, die vielfach durch Körperschall übertragen werden, werden stark bedämpft. Für Signalanteile über 15 kHz ist die Dämpfung größer, damit eingestreute Hochfrequenzkomponenten wirksam unterdrückt werden. Darüber hinaus verfügen Mikrofonverstärker über ein schaltbares Trittschallfilter, das meist bei einer Grenzfrequenz von 80 und 140 Hz einsetzt (Abb. 8/27). Die Dämpfung beträgt etwa 12 dB/Oktave. Bei Sprachaufnahmen bleibt die Filtereinstellung 80 Hz praktisch unhörbar, bei 140 Hz ist die Änderung der Klangfarbe noch relativ gering. Bei Musikaufnahmen können Trittschallfilter jedoch nicht unbedenklich eingesetzt werden. Die Einstellung 140 Hz ist v. a. 462
Mikrofonverstärker bei geräuschhafter Umgebung und bei Fernsehtonaufnahmen angezeigt, wenn z. B. durch rollende Kamerafüße tieffrequenter Schall erzeugt wird. Neben Trittschall als Körper- oder Luftschall gehört auch Wind und Poppschall zu den Störfaktoren, die bei tiefen Frequenzen, auch im Infraschallbereich, die größten Amplituden besitzen. Das Spektrum reicht hierbei in etwa gleicher Stärke vom Infraschallbereich bis etwa 500 Hz und nimmt dann bis rund 1 kHz kontinuierlich ab. Einen wirksamen Schutz dagegen stellen die handelsüblichen Wind- und Poppschutzkörbe dar. In Verbindung mit dem Trittschallfilter, das hier weitere Verbesserungen bringt, kann störender Wind- und Poppeinfluss i. Allg. weitgehend unterdrückt werden (siehe Kap. 4.2.1, Wind- und Poppstörungen). Große Pegel im tieffrequenten Bereich können dazu führen, dass die Eingangsübertrager bis in die Sättigung ausgesteuert werden und somit den Signalfluss kurzzeitig verzerren oder unterbrechen. Die an sich wegen ihrer tiefen Frequenzen unhörbare Ursache führt zu einem sehr störenden „Zustopfen" des Mikrofons. Ein weiteres Problem besteht darin, dass der Mikrofonverstärker unterhalb von 40 Hz einen erheblichen Anstieg nichtlinearer Verzerrungen aufweisen kann, wodurch die Verzerrungsprodukte der Infraschallstörungen ebenfalls im hörbaren Frequenzbereich auftreten.
Abb. 8/27. Typische Frequenzgänge von Mikrofonverstärkern ohne (LINEAR) und mit (80 Hz und 140 Hz) Trittschallfilter.
8.5.3
Störpegel und Aussteuerungsfestigkeit
An den Störpegelabstand von Mikrofonverstärkern werden höchste Anforderungen gestellt. Sie liegen nur geringfügig über dem durch das Wärmerauschen der Widerstände gegebenen, 463
Analoge Tonregieanlagen unvermeidlichen Eigenrauschen. Der Störpegel steigt parallel mit der eingestellten Verstärkung an. So ist bei einer Verstärkung von 28 dB ein Störpegelabstand nach ITU-R BS 468 bzw. CCIR 468-1 von etwa 85 dB erreichbar, bei einer Verstärkung von 70 dB - wie sie ein dynamisches Mikrofon bei leisen Schallquellen benötigt - beträgt der Störpegelabstand noch etwa 45 dB. Abb. 8/28 zeigt den typischen Störpegelverlauf eines Mikrofonverstärkers. Wie bei allen Störpegelangaben ist auch hier besonders auf die Bewertung zu achten (siehe 10.3 und 4.2.1). Der Störpegel liegt mit diesen Werten erheblich unterhalb des Störpegels des Mikrofons und unterhalb des Raumgeräuschs eines Aufnahmestudios. Die notwendige Aussteuerungsreserve beträgt mindestens 16 dB am Ein- und Ausgang, das entspricht einem Pegel von + 22 dBu. Einige Mikrofonverstärker zeigen mit einer Leuchtdiode an, wenn ein Pegel von + 6 dBu am Ausgang des Mikrofonverstärkers erreicht wird.
Abb. 8/28. Typischer Verlauf des Störpegels (CCIR 468-1).
8.5.4
Mikrofon-Trennverteiler
Üblicherweise liegt das Mikrofongehäuse über den Kabelschirm mit seinem Potential an der geerdeten Regieeinrichtung. Leider kommt es in der Praxis immer wieder vor, dass elektrische Musikinstrumente und deren Verstärker, die von den Musikern gestellt werden, auf Grund von Defekten an ihrem Gehäuse Netzspannung führen. Bei gleichzeitiger Berührung von Mikrofon und Gerät wird dann ein geschlossener Stromkreis gebildet, und es kommt zu einem lebensbedrohenden Stromunfall (siehe Kap. 19). Der Trennverteiler ist mit Übertragern mit erhöhter Spannungsfestigkeit (2,5 kV) ausgestattet. Die Erdung des Mikrofonkabelschirms erfolgt kapazitiv über einen ebenfalls bis 2,5 kV für 50 Hz spannungsfesten Kondensator, der so bemessen ist, dass der zulässige Wert des Arbeitsstroms nicht überschritten wird. Die Phantomspeisung wird potentialfrei für jeden Mikrofoneingang einzeln erzeugt. Damit sind alle Eingänge des Verteilers spannungsfest sowohl gegen Gehäuse, Betriebserde und 464
Anschluss externer Geräte Netzeingang als auch untereinander. Jedem Eingang sind mehrere Ausgänge zugeordnet, die an jeweils eigenen Verstärkern liegen, wodurch eine sehr hohe Rücksprechdämpfung erreicht wird. Die 0-Volt-Verbindung an den Ausgängen kann aufgetrennt werden, falls Brummschleifen entstehen. Die 0-Volt-Verbindung zum nachfolgenden Gerät besteht dann nur noch über einen Kondensator.
8.5.5
Kommandoverstärker
Ein Mikrofonverstärker mit speziellen Aufgaben ist der Kommandoverstärker. Er hat die Aufgabe, den Pegel eines Kommandomikrofons auf Studiopegel +6 dBu zu verstärken. Ein integrierter Begrenzer sorgt dafür, dass der Ausgangspegel auch bei stark wechselnden Besprechungsabständen und Sprechlautstärken weitgehend konstant bleibt. Der Kommandoverstärker bietet entweder einen Anschluss für ein Kommandomikrofon oder enthält bereits ein solches. Die Verstärkung kann am Gerät eingestellt werden, z. B. in 6-dB-Stufen zwischen 34 und 64 dB.
8.6
Anschluss externer Geräte
Beim Betrieb und Anschluss externer Geräte an Tonregieanlagen, meist elektrische Musikanlagen, z. B. Gitarrenverstärker, Gesangsanlagen, Synthesizer oder Keyboards, kann es Probleme geben, die beim Zusammenschalten von Geräten der Tonstudiotechnik normalerweise nicht auftreten: Gefährdung durch Stromunfälle, Brummstörungen und Anschlusstechnik. Abb. 8/29 zeigt beispielhaft eine Bühnensituation, bei der - ohne dass Geräte an die Regie angeschlossen sind - durch ein fehlerhaftes Fremdgerät Lebensgefahr z. B. für einen Sänger besteht.
Abb. 8/29. Lebensgefährliche Situation bei einer fehlerhaften Musikanlage.
Für Fragen der Arbeitssicherheit bzw. die Gefahren des elektrischen Stroms wird auf Kap. 19.1 und 19.2.5 verwiesen, Fragen, die mit dem Anschluss von elektrischen Musikanlagen 465
Analoge Tonregieanlagen auftreten, also Probleme der Vermeidung von Brummstörungen sowie die dazu notwendige Anschlusstechnik, werden nachfolgend behandelt. Externe Geräte sind in der Regel mit unsymmetrischen, nicht erdfreien Ein- und Ausgängen ausgestattet. Die Pegel an den Übergabepunkten entsprechen nicht der Studionorm. Bei netzbetriebenen Geräten ist nicht sichergestellt, dass der elektrische Aufbau den gültigen Vorschriften entspricht. Auch Prüfzeichen an den Geräten (z. B. VDE, GS, TÜV) schließen nicht aus, dass durch einen Fehler oder durch unsachgemäße Reparaturen bzw. Änderungen ein gefährliches elektrisches Potential an berührbaren Spannung führenden Teilen der Anlage auftritt. V. a. bei unbekannten Fremdanlagen kann ein ordnungsgemäßer Zustand nicht als gegeben angenommen werden, so dass der Anschluss elektrischer Musikanlagen stets besondere Aufmerksamkeit und Verantwortung erfordert. Oberster Grundsatz beim Anschluss solcher Anlagen ist, dass Publikum, Mitwirkende und Betriebspersonal vor einem elektrischen Stromunfall zu schützen sind. Weiterhin müssen Brummstörungen, die bei der Zusammenschaltung entstehen, zuverlässig verhindert bzw. beseitigt werden.
8.6.1
Brummstörungen
Durch die bei Musikanlagen u. a. verwendete unsymmetrische Anschlusstechnik (siehe 8.3.1) besteht die Gefahr, dass Brummstörungen auftreten. Diese werden kapazitiv oder induktiv in unsymmetrisch geführte Leitungen und Geräte eingestreut. Sie wirken nur auf die Spannung führende Ader und überlagern sich daher dem Tonsignal. Da die Spannungen bei Verwendung dieser Anlagen im mV-Bereich liegen, sind auch Einstreuungen, die bei der im professionellen Bereich verwendeten höheren Spannung völlig unkritisch wären, bereits erhebliche Störfaktoren. So ist eine Brummspannung bei einer Signalspannung von 1 mV schon mit 10 :V zu hoch. Störquellen sind v. a. nahe bei den Geräten und Tonleitungen verlaufende Netzleitungen, Lichtstellanlagen u. a. 8.6.1.1
Brummstörungen bei Verwendung eines Netz-Trenntransformators
Bei Verwendung eines Trenntransformators ist das Potential der Gerätemasse nicht mehr auf Erdpotential gelegt, weil der Schutzleiter beim Trenntransformator unterbrochen ist; der Verstärker wird aus einem erdfreien Netz gespeist, man sagt, er „liegt hoch". Der Transformator ist primärseitig geerdet, sekundärseitig liefert er ein erdfreies Netz (Abb. 8/30). An einem Trenntransformator darf stets nur ein einziges Gerät angeschlossen werden.
Abb. 8/30. Schutztrennung durch einen Trenntransformator.
466
Anschluss externer Geräte Wenn Brummstörungen durch hochliegende Verstärker entstehen, ändert sich die Intensität dieser Störungen, wenn die Leitungsführung verändert wird oder wenn das Verstärkergehäuse, die Leitung oder der Gitarrenabnehmer durch Berührung „geerdet" werden. Als Maßnahme gegen diese Brummstörungen kann zunächst geprüft werden, ob nicht die Ursache, also die Bedingungen für das Zustandekommen von Einstreuungen, geändert werden können; Abhilfe kann hier also eine Leitungsverlegung weitab von Strom führenden Netzen und Geräten oder eine Platzierung der Musikanlagen an anderer Stelle bringen. Sind diese Maßnahmen nicht oder nicht ausreichend wirksam, so schafft die Erdung der Musikanlage Abhilfe. Für die Erdung wird keine Erde, die den Anforderungen einer Schutzerde genügt, benötigt; ausreichend ist eine Funktionserde, also jede Erdverbindung, die das Verstärkergehäuse auf Erdpotential legt, z. B. auch eine Wasserleitung, ein metallischer geerdeter Gebäudeteil, natürlich auch eine Schutzerde, wie sie z. B. an geerdeten Geräten zur Verfügung steht. Diese Erdung kann entweder direkt oder indirekt über einen Kondensator mit 4,7 nF erfolgen (Abb. 8/31). Durch diese Maßnahme wird die Schutzfunktion des Trenntransformators vor Stromunfällen nicht beeinträchtigt.
Abb. 8/31 Abhilfe bei Brummstörungen durch Verwendung eines Netz-Trenntransformators.
8.6.1.2
Brummstörungen durch Masseschleifen
Bei der Zusammenschaltung von Geräten mit unsymmetrischen Ein- und Ausgängen werden über die Leitungsschirme die geräteinternen Massen miteinander verbunden. Geräte der Schutzklasse sind zusätzlich über den Schutzleiter und die gemeinsame Schutzerde miteinander verbunden. Dadurch entsteht eine Massenschleife zwischen den Geräten (Abb. 8/32). Schneidet ein magnetisches Wechselfeld eine solche Massenschleife, so induziert es einen Stromfluss in der Schleife. Über den Leitungswiderstand des Schirms entsteht eine Wechselspannung zwischen den beiden Gerätemassen und verursacht eine Störspannung. Da das Magnetfeld i. Allg. vom Netz stammen wird, entsteht gewöhnlich ein 50 Hz-Brumm, denkbar sind aber auch andersartige Störungen.
Abb. 8/32. Massenschleife zwischen zwei Geräten.
467
Analoge Tonregieanlagen Als Abhilfe gilt zunächst wieder die Beseitigung der Ursache, d. h. die Abschirmung der störenden Netzleitung, 100-V-Leitung oder Lichtsteuerleitung, weiterhin sollten unsymmetrische Leitungen möglichst weitab von Störquellen verlegt werden; zudem sind die Leitungsverbindungen möglichst kurz zu halten. Sind diese Maßnahmen nicht ausreichend oder nicht durchführbar, so muss die Massenschleife durch Verwendung eines Netz-Trenntransformators aufgetrennt werden; besteht die Massenverbindung nur über die Tonleitung, so kann auch eine DI-Box die Massenschleife unterbrechen, wenn sie den Schirm nicht weiterschaltet (Schalter in Stellung LIFT). 8.6.1.3
Brummstörungen durch Mehrfacherdung
Zwischen zwei Erden können Potentialunterschiede auftreten, die auch bei symmetrischer Leitungsführung Ausgleichsströme zwischen den Masseverbindungen der Geräte verursachen können. So könnte z. B. Gerät I über die Funktionserde geerdet sein, während Gerät II aus einem Stromkreis versorgt wird, bei dem durch gleichzeitigen Betrieb von weiteren Verbrauchern Fehlerströme entstehen, die statt über den Schutzleiter von Gerät II über die niederohmigere Funktionserde von Gerät I gegen Erde abfließen (Abb. 8/33). Solche Fehlerströme können ihre Ursache in Leitungsinduktivitäten und -kapazitäten, Entstörkondensatoren und Isolationswiderständen haben.
Abb. 8/33. Potentialdifferenzen der Massen bei Mehrfacherdung.
Sind Gerät I und II über eine unsymmetrische Tonleitung oder über eine symmetrische Tonleitung, deren Schirm beidseitig aufgelegt ist, verbunden, so ist Gerät II zusätzlich zur Schutzerdung auch über die interne Masse-Schutzleiterverbindung und den Schirm über Gerät I zur Erde leitend verbunden. Je nach schaltungstechnischem Aufbau des Geräts erzeugt dieser Ausgleichsstrom Störungen, i. Allg. einen Brumm. Sie können dann wirksam werden, wenn zwischen dem Anschlusspunkt des Schirms und dem Anschlusspunkt des Schutzleiters am Gehäuse ein Widerstand und damit ein Spannungsabfall besteht. Diese Störspannung wird dem Nutzsignal hinzuaddiert. Als Abhilfe muss die Mehrfacherdung beseitigt werden. Bei symmetrischen Leitungen wird der Schirm nur einseitig - vorzugsweise an der Eingangsseite - angeschlossen, also am Ausgang aufgetrennt. Bei unsymmetrischen Leitungen wird die Masseverbindung über eine DI-Box unterbrochen (Schalter in Stellung LIFT). Abhilfe verschafft auch ein erdfreier Netzanschluss über einen Netz-Trenntransformator. Schließlich können auch alle Erden Schutz- und Funktionserden - sternförmig mit möglichst großen Leitungsquerschnitten zusammengeführt und an nur einem Punkt mit der Hauserde verbunden werden. 468
Anschluss externer Geräte
8.6.2
Trennübertrager für Tonsignale
Der Einsatz eines Trennübertragers, meist Direct-Injection-Box oder kurz DI-Box genannt, bietet neben einer gewissen zusätzlichen Sicherheit v. a. Problemlösungen für die Anpassung der Leitungsführung und der Pegelverhältnisse zwischen Studiotechnik und Musikelektronik (Abb. 8/34). Kernstück der DI-Box ist ein schutzisolierter Übertrager, der mindestens bis zu einer Spannung von 1,5 kV spannungsfest ist; die Abschirmung ist durch einen Kondensator unterbrochen und kann meist durch einen Schalter aufgetrennt werden (GROUND/LIFT). Bei unsymmetrischen Geräten dient der Übertrager zugleich als Symmetrierübertrager. Durch Abschwächer oder unterschiedliche Eingänge für unterschiedlich große Pegel ist eine optimale Anpassung an den Pegel der Quelle gewährleistet. In ihrer einfachsten Ausführung stellt die DI-Box einen Übertrager dar. Um aber auch hohe Quellimpedanzen verarbeiten zu können, stehen Geräte mit integriertem Verstärker und Impedanzwandler zur Verfügung. Die Spannungsversorgung kann durch eine Batterie oder - wie in Abb. 8/31 dargestellt - durch die Phantomspeisung der Regieanlage erfolgen. Meist steht neben dem Ausgang für den Anschluss an einen Mikrofonverstärker ein Ausgang für Instrumentenverstärker zur Verfügung.
Abb. 8/34. Schaltungsbeispiel eines Trennübertragers für Tonsignale mit Speisung aus der 48 V-Phantomspeisung.
Einige typische Anwendungen der DI-Box sind: - Eine E-Gitarre soll direkt, also an ihrem elektrischen Ausgang, abgenommen werden. Das Instrument wird an den Eingang der DI-Box angeschaltet, der Ausgang der DI-Box wird mit einem Mikrofoneingang der Regieeinrichtung verbunden. Mit der DI-Box wird in diesem Fall das Signal symmetrisiert und in Pegel und Impedanz an den Studio-Mikrofonverstärker angepasst. Wird der Schalter GROUND/LIFT auf LIFT gestellt, ist die Gitarre von der Regiepulterde galvanisch getrennt; dadurch besteht eine zusätzliche Sicherheit. - Das Instrument soll sowohl direkt abgenommen werden als auch über den Instrumentenverstärker auf der Bühne verstärkt werden. In diesem Fall über nimmt die DI-Box zusätzlich zu ihrer Funktion als Anpassgerät die Funktion der Leitungsaufsplittung wahr. Der Verstärker wird vom unsymmetrischen Ausgang aus versorgt. - Das Signal soll vom Instrumentenverstärker abgenommen werden, um die Effekte des Verstärkers nutzen zu können. In diesem Fall wird der Leitungseingang (LINE) der DI-Box 469
Analoge Tonregieanlagen verwendet, sofern ein solcher vorhanden ist; anderenfalls wird der Dämpfungsschalter entsprechend eingestellt. LINE-Ausgänge haben meist einen Pegel von 0,775 V. - Das Signal soll vom Verstärker abgenommen werden; dieser hat aber nur einen Leistungsausgang, gleichzeitig muss das Signal noch verstärkt werden. Die DI-Box erhält das Signal über den Verstärkereingang (AMPLIFIER), der auch große Pegel verarbeiten kann. Für den Lautsprecher kann das Signal des Leistungsverstärkers am unsymmetrischen Ausgang der DI-Box abgenommen werden.
8.7
Pegelsteller
Ein Pegelsteller, Regler oder Fader ist ein stufenlos mit einem Flachbahnsteller einstellbares Dämpfungsglied mit integriertem Aufholverstärker. Er dient dazu, den Pegel eines Tonsignals auf den gewünschten Betriebswert zu bringen und ihn gegebenenfalls während einer Aufnahme oder Sendung verändern zu können.
Abb. 8/35. Einstellbereiche eines Pegelstellers.
Pegelsteller werden in einer Tonregieanlage dort verwendet, wo Veränderungen des Betriebspegels notwendig werden, also im Mikrofon- bzw. Eingangskanal, im Gruppen- und Summenkanal, aber z. B. auch für Einspielungen und Beschallungen. Die Gestaltung des Stellgliedes als Flachbahnsteller gewährleistet eine besonders ergonomische Arbeitsweise, wie sie von den sonst gebräuchlichen Drehstellgliedern nicht geboten wird. Pegelsteller gibt es in Mono- und 470
Pegelsteller Stereoausführung. Die Stereoausführung vereint zwei Monopegelsteller, deren Stellglieder mechanisch getrennt werden können. Der Einstellbereich des Pegelstellers ist in zwei Bereiche eingeteilt, die durch den Arbeitspunkt getrennt sind. In dieser Stellung, der sog. Betriebsstellung, wird der Pegel unverändert weitergegeben, darüber liegt ein Einstellbereich mit Verstärkung, darunter ein Bereich mit Dämpfung. Im sog. Arbeitsbereich ist der Pegel durch größere Einstellwege exakt einstellbar, im Ausblendbereich entsprechen zunehmend kürzere Einstellwege konstanten Werten der Dämpfungszunahme. Innerhalb des Arbeitsbereiches können die Regelwege entweder linear oder zu höheren Pegelwerten hin gespreizt sein. Abb. 8/35 zeigt die Einstellbereiche. Bei vielen Pegelstellern ist die Betriebsstellung nicht besonders gekennzeichnet, weil sie nicht einheitlich und auch individuell einstellbar ist. Meist wird der Einstellwert 15 dB als Betriebsstellung gewählt, die meisten Pegelsteller gestatten aber eine Einstellung im Bereich zwischen 10 und 20 dB. Üblich ist die Betriebsstellung mit 0 dB, den Verstärkungsbereich mit positiven, den Dämpfungsbereich mit negativen dB-Werten zu kennzeichnen. Eine Beschriftung der Pegelsteller mit positiven Dämpfungswerten bezogen auf die höchste Endstellung, die immer wieder zu finden ist, ist für den Betrieb wenig sinnvoll. Die untere Endstellung im Dämpfungsbereich ist mit einem Reglerendkontakt ausgestattet, der Schaltvorgänge auslösen kann, sobald der Pegelsteller auf die Endposition gebracht wird: z. B. Maschinenstart oder Rotlicht.
Abb. 8/36. Schaltungsprinzip eines Pegelstellers mit Widerstandsbahn.
Die Schaltung eines Pegelstellers mit Widerstandsbahn zeigt Abb. 8/36. Die Sekundärseite des Eingangsübertragers ist an eine Widerstandsbahn aus einer Kohleschicht oder einem leitenden Kunststoff gelegt; dadurch wird eine Ganggenauigkeit von typisch 0,5 dB erreicht. Darauf folgt der Aufholverstärker mit von außen einstellbarer Gegenkopplung zur Einstellung der Betriebsstellung. Je nach Schaltung des Ausgangsübertragers können unterschiedliche Spannungen an den Ausgang geliefert werden; ein wahlweise zuschaltbarer zweiter Ausgangsübertrager stellt einen Zusatzausgang zur Verfügung. 471
Analoge Tonregieanlagen
8.7.1
VCA- und Motorpegelsteller
Neben der weit verbreiteten Ausführung des Pegelstellers als regelbares Dämpfungsglied mit Aufholverstärker gibt es auch Pegelsteller mit einem spannungsgesteuerten Verstärker, einem sog. VCA (voltage controlled amplifier). Das Tonsignal selbst wird nicht mehr über das Stellglied geführt, sondern einem Verstärker zugeleitet, dessen Verstärkungsmaß über eine extern veränderbare Gleichspannung gesteuert wird; im Stellglied wird hier also nur eine Gleichspannung verändert, die ihrerseits die Verstärkung steuert. Für die Konzeption von Regieanlagen ist interessant, dass Steuerung und Signalführung räumlich getrennt erfolgen können. Auch für die Automatisierung von Abmischungen oder einfachen Blendvorgängen ist diese Technik eine Grundlage. Ein weiterer Vorteil ist der Zugriff zu einem Pegelsteller von verschiedenen Bedienplätzen aus; so kann z. B. die Abhörlautstärke vom Platz des Toningenieurs und des Tonmeisters aus eingestellt werden. Abb. 8/37 zeigt das Prinzip des Schaltungsaufbaus; bei diesem Gerät kann die Steuerspannung wahlweise über ein oder mehrere externe Tastenpaare oder ein externes Potentiometer erzeugt werden. Die Einstellung bleibt auch nach dem Ausschalten gespeichert.
Abb. 8/37. Schaltungsprinzip eines VCA-Pegelstellers.
Ein Pegelstellertyp, der aus der Praxis gesehen Vorteile des mechanischen und des elektronischen Pegelstellers vereint, ist der servomotorgetriebene Pegelsteller. Hierbei handelt es sich um einen herkömmlichen Flachbahnpegelsteller, dessen Stellglied sowohl von Hand als auch mit einem Motor bewegt werden kann. Über die Motorsteuerung ist dieser Pegelsteller wie ein VCA-Pegelsteller voll programmierbar und kann für automatische Abmischungen verwendet werden. Die jeweilige Einstellung kann wie beim herkömmlichen Pegelsteller abgelesen werden. Ein Eingreifen in automatisch ablaufende Einstellungen von Hand ist jederzeit möglich; solche Korrekturen können in die Programmierung der Steuerung übernommen werden.
8.7.2
Überblendregler
Bei der Sendung oder Vorproduktion muss vielfach von einer Tonquelle auf eine andere überblendet werden. Meist. wird dabei mit zwei Pegelstellern gearbeitet, um die zeitliche und pegelmäßige Gestaltung der Blende frei bestimmen zu können. Der Überblendregler übernimmt das Überblenden von einer Quelle auf eine andere so, dass die Gesamtlautstärke 472
Pegelsteller während des Blendvorgangs etwa gleich bleibt. Realisiert wird diese Funktion durch zwei gegenläufig angeordnete Pegelsteller mit einem gemeinsamen Flachbahnsteller. Bei gleichen Quellenpegeln sind die Quellen jeweils um 3 dB gedämpft. Abb. 8/38 zeigt die Regelcharakteristik.
Abb. 8/38. Regelcharakteristik des Überblendreglers
8.7.3
Elektronische Blender
Blendvorgänge können auch von automatisierten Pegelstellern, sog. elektronischen Blendern, ausgeführt werden. Die Hauptanwendung ist da zu finden, wo vorprogrammierbare Pegeleinstellungen möglich sind, also in der automatisierten Sendeabwicklung, aber auch bei Abmischungen von Mehrspuraufnahmen. Alle Blendvorgänge werden durch bestimmte Steuerimpulse veranlasst. Elektronische Blender bieten gegenüber dem mechanischen Überblendregler wesentlich erweiterte Blendmöglichkeiten (Abb. 8/39). In automatisierten Sendestudios (Senderegien), in Studios für Verkehrsservicesendungen und bei Schallplatten-Discjockey-Sendungen werden in den Eingangs- und Gruppenkanälen teilweise elektronische Blender eingesetzt. Solche Blender bestehen z.B. aus folgenden Funktionsblöcken: - Dämpfungsglied, bestehend aus einem regelbaren Verstärker, - Zeitkonstantenglieder zur Erzeugung der gleitenden Steuerspannung für das regelbare Dämpfungsglied, - Schalterstufe zur Umformung der ankommenden Ein- bzw. Ausblendimpulse in Dauersignale.
473
Analoge Tonregieanlagen
Abb. 8/39. Blendmöglichkeiten bei elektronischen Blendern.
8.8
Richtungsmischung
Zur Gestaltung eines stereofonen Klangbilds in Intensitätsstereofonie werden i. Allg. mehrere Schallquellen, die durch eine Anzahl von Mono- und/oder Stereomikrofone aufgenommen werden, in ein klangliches Gleichgewicht gebracht. Bei der Mischung sind zunächst die Verhältnisse der Lautstärken zueinander auszubalancieren. Hinzu kommt die sog. Richtungsmischung; hierbei sind die Richtungsmerkmale der einzelnen Schallquellen sinnvoll anzuordnen und auf der Stereobasis zu verteilen. Zu entscheiden ist, welche Schallquellen links, rechts, mittig oder irgendwo dazwischen einzuordnen sind. Eine Schallquelle oder eine Gruppe von Schallquellen hat zwei Richtungsmerkmale: - die Richtung, aus der die Schallquelle bei der Wiedergabe gehört werden soll, - die Basis, also die Breite, mit der die Schallquelle bzw. die Gruppe von Schallquellen bei der Wiedergabe gehört werden soll. Für diese Richtungs- und Basiseinstellungen stehen Panoramasteller oder Panoramapotentiometer, meist einfach Pan-Pot genannt, und Richtungsmischer zur Verfügung. Sie sind für Aufnahmen in Intensitätsstereofonie bestimmt. Das Pan-Pot wird in Verbindung mit Monomikrofonen, also für punktförmige Schallquellen verwendet. Der Richtungsmischer wird in Verbindung mit dem Stereomikrofon vorwiegend für ausgedehnte Schallquellen eingesetzt; er gestattet zusätzlich zur Richtungseinstellung die Einstellung der Ausdehnung oder Basisbreite des Klangbilds. Die Richtungszuordnung der einzelnen Schallquellen soll möglichst identisch sein mit der räumlichen Anordnung der Schallquellen im Aufnahmeraum. Ist dies nicht der Fall, ist eine 474
Richtungsmischung hohe akustische Trennung der Schallquellen erforderlich. Aber auch wenn diese Bedingung erfüllt ist, kommt es leicht zu Mehrfachabbildungen bei der Wiedergabe, die das Klangbild undurchsichtig machen. Die Mehrfachabbildung der Schallquellen entsteht durch die Verwendung mehrerer räumlich getrennter Mikrofone. Dabei wird eine Schallquelle mehrfach abgebildet, nämlich einmal durch das ihr zugeordnete Mikrofon, das die Richtung korrekt abbildet, zum anderen aber auch durch andere Mikrofone, die in der Richtung abweichend eingeordnet sind. Solche Mehrdeutigkeiten beeinträchtigen die Klangqualität einer Aufnahme, besonders ihre Klarheit und Durchsichtigkeit. Sie können nur durch Veränderung der Mikrofonstandorte und/oder ihrer Richtcharakteristiken und/oder durch eine andere Anordnung der Schallquellen vermieden werden. Die Einstellung der Basisbreite bezieht sich zunächst auf die Breite des gesamten Klangbildes bei der Wiedergabe. In der Regel wird sie so breit wie möglich, d. h. bei der Wiedergabe von Lautsprecher zu Lautsprecher eingestellt. Das ist die Bedingung für die Übertragung einer guten Räumlichkeit und Durchsichtigkeit der Aufnahme. Weiterhin kann die Basisbreite jeder einzelnen Schallquelle oder Klanggruppe eingestellt werden. So wird ein Solist zwar unter verschiedenen Richtungen erscheinen können, aber stets doch punktförmig lokalisierbar sein. Dagegen werden bestimmte Klanggruppen des Orchesters - z. B. die Saxofon- oder Posaunengruppe einer Bigband, Streichergruppen oder Chöre - vorteilhaft mit einer räumlichen Ausdehnung (Basis) auf der Stereobasis abgebildet, die in einem angemessenen Verhältnis zur Ausdehnung der gesamten Schallquelle steht. Die Abbildbarkeit der räumlichen Ausdehnung stellt allerdings auch an die Abhöranlage und an die Abhörbedingungen Anforderungen, nicht zuletzt auch an die Hörfähigkeit der Hörer. Grundlegende Ausführungen zur Stereofonie sowie klangästhetische Gesichtspunkte hierzu werden in Kap. 5.7 behandelt. Eine Beeinflussung der Abbildungsrichtung in der Tonregieanlage kann bei älteren analogen Anlagen nur bei Intensitätsstereofonie erfolgen, durch das Pan-Pot für Monokanäle, durch den Richtungsmischer für Stereeokanäle; für die Richtungsbeeinflussung laufzeitstereofoner Aufnahmen sind Verzögerungsgeräte mit fein gestuften Verzögerungszeiten unter 1 ms notwendig. Die Geräte für die Beeinflussung der Abbildungsrichtung bei Intensitätsstereofonie, die in einer analogen Tonregieanlage zur Verfügung stehen, und die zusätzlichen Gestaltungsmöglichkeiten werden im Folgenden besprochen. Siehe zum Panorama-Potentiometer auch Kap. 6.6.1, zur Richtungsmischung Kap. 6.1.2.
8.8.1
Panorama-Potentiometer
Mit dem Pan-Pot, auch Panoramaregler oder Panoramasteller genannt, kann jedes monofon aufgenommene Tonsignal in jede beliebige Abbildungsrichtung zwischen den Lautsprechern gebracht werden, bei bestimmten Typen auch in den sog. Überbasisbereich verschoben werden; Überbasisbereich heißt, dass die Schallquelle zwar zu hören ist, aber keinen Hörort besitzt. Bei Stereosignalen kann die Abbildungsbreite mit je einem Pan-Pot im linken und rechten Kanal eingeengt und in alle Richtungen verschoben werden. Das Pan-Pot besitzt einen Eingang und zwei Ausgänge, die auf die Sammelschienen der Gruppenkanäle gelegt sind. In Mittenstellung (M) erhalten beide Sammelschienen denselben Pegel, in den Seitenstellungen Links (L) und Rechts (R) wird das Signal nur auf die linke bzw. rechte Sammelschiene weitergeführt. In den Zwischenstellungen erzeugt das Pan-Pot Pegeldifferenzen, die den verschiedenen Positionen der Phantomschallquelle auf der Lautsprecherbasis entsprechen. 475
Analoge Tonregieanlagen Abb. 8/40 zeigt das Pan-Pot, sein Schaltungssymbol und Schaltungsprinzip.
Abb. 8/40. Pan-Pot, Schaltungssymbol und -prinzip.
Abb. 8/41. Dämpfungsverlauf des linken und rechten Kanals eines Pan-Pots ohne Überbasisbereich und entsprechende Abbildungswinkel.
476
Richtungsmischung Abb. 8/41 ist der Dämpfungsverlauf von L- und R-Signal zu entnehmen. In Mittenstellung beträgt die Dämpfung in jedem Kanal 3 dB, durch die akustische Überlagerung entsteht dadurch derselbe Lautstärkeeindruck wie wenn nur ein Kanal in Stellung L oder R vorhanden ist. Zwischen L bzw. R und M sind jeweils 4 oder mehr Zwischenstellungen vorgesehen; bei jeder Schalterstellung ist die Summenlautstärke von L und R gleich. Die den Schalterstellungen entsprechenden Pegeldifferenzen sind von Fabrikat zu Fabrikat etwas unterschiedlich, sie folgen in etwa der von de Boer angegebenen Kurve und teilen die Basis in gleich große Winkelbereiche ein. Ist ein Überbasisbereich vorhanden, können damit Pegeldifferenzen mit gleichzeitiger Phasendrehung eines Kanals eingestellt werden. Dieser Effekt kann z. B. dazu benutzt werden, eine Stimme kreisen oder ins Unbestimmte entschwinden zu lassen.
8.8.2
Richtungsmischer
Mit dem Richtungsmischer können die Stereosignale, die ein Stereomikrofon (Koinzidenzmikrofon), das in XY- oder MS-Technik arbeiten kann, in ihrer Richtung und in der Abbildungsbreite (Basis) eingestellt werden. Abb. 8/42 zeigt den Richtungsmischer und sein Schaltungssymbol.
Abb. 8/42. Richtungsmischer, Schaltungssymbol.
Das Blockschaltbild (Abb. 8/43) zeigt am Eingang einen Ausgleichsverstärker, der das MSSignal im Pegel anhebt. In der Umkehrstufe wird das (-S)-Signal gewonnen, das in der nun folgenden Additionsstufe zur Bildung des R-Signals benötigt wird. Hier wird über Entkopplungswiderstände aus M + S das L-Signal, aus M - S) das R-Signal abgeleitet. Über einen weiteren Ausgleichsverstärker werden sie dem Ausgang zugeführt. Die zentrale Funktionseinheit ist eine Brückenschaltung, bestehend aus mehreren einzelnen Widerständen, die an die Kontakte eines Stufenschalters geführt sind. Zwei miteinander gekoppelte, aber mechanisch versetzt angeordnete Schleifer tasten die Widerstandsketten bei Betätigen des Richtungsstellers an zwei gegenüberliegenden Punkten ab. Da die Richtungs- und Basiseinstellung im Richtungsmischer nur mit einem MS-Signal vorgenommen wird, steht im senkrechten Brückenzweig zwischen den Punkten C und D das M-Signal, an den Punkten A und B des waagerechten Brückenzweiges das S-Signal. In der Einstellung „weiß M" (Grundeinstellung) des Richtungsstellers wird das volle S-Signal in den S-Kanal geführt (Ausgang „S-Signal a" 477
Analoge Tonregieanlagen an A, „S-Signal b" an B). Wird der Richtungssteller nach links gedreht, verkleinert sich das S-Signal, gleichzeitig erscheint das M-Signal mit gleicher Phasenlage im S-Kanal und vergrößert sich in dem Maß wie das S-Signal abnimmt. In der Endstellung „L" wird das volle M-Signal in den S-Kanal geführt. Da nun die Signale am M- und S-Ausgang gleiche Phasen und gleiche Pegel haben, erfolgt durch die Umwandlung nach L und R die Wiedergabe im linken Lautsprecher: L = M + M = 2M, R = M ! M = 0. In der Endeinstellung „R" des Richtungsstellers wird das volle M-Signal gegenphasig in den S-Kanal geführt, so dass nach Umwandlung in LR-Signale die Wiedergabe im rechten Lautsprecher hörbar ist: L = M + (!M) = 0
R = M ! (!M) = 2 M.
Abb. 8/43. Blockschaltbild des aktiven Richtungsmischers.
Da der Richtungssteller je 8 Schalterstufen zwischen M und L bzw. M und R aufweist, kann in der Lautsprecherwiedergabe jeder gewünschte Abbildungsort eingestellt werden. Die den Schalterrasterstellungen entsprechenden Abbildungswinkel liegen in der Größenordnung der Lokalisationsunschärfe, so dass beim Verschieben der Schallquelle der Eindruck einer kontinuierlichen Bewegung entsteht. Schallquellen, die durch den Richtungsmischer in den Endstellungen L oder R eingeordnet sind, werden nur aus dem entsprechenden Lautsprecher punktförmig abgestrahlt. Schalterstellungen zunehmend von „weiß M" weg ergeben eine zunehmende Basisverkleinerung. Wird der Richtungssteller in dem rot ausgelegten Bereich eingestellt, so werden die Seiten bei der Wiedergabe vertauscht, das Klangbild wird spiegelbildlich aufgenommen. Der Basissteller (BSt) liegt schaltungstechnisch parallel zum waagerechten Brückenzweig und verkleinert das S-Signal. Mit der Basiseinstellung lässt sich die akustische Abbildungsbreite bis zu einer punktförmigen Abbildung reduzieren. Für diesen Fall wird das S-Signal zu 0. Parallel zum senkrechten Brückenzweig ist der Überbasissteller (ÜBSt) angeschlossen, der das M-Signal um maximal 9 dB verkleinert. Das S-Signal erscheint dadurch - bezogen auf das M-Signal - um bis zu 9 dB größer. Dies verursacht eine scheinbare Vergrößerung der Abbildungsbreite über die Lautsprecherbasis hinaus. Damit ist außerdem eine Lautstärkenverringerung im Stereo- und noch mehr im Monosignal verbunden. Das sollte bei der Überbasiseinstellung bedacht werden. Basis- und Überbasissteller sind in einem Drehknopf auf der 478
Knotenpunkte Frontplatte des Geräts zusammengefasst. Bei der Einstellung „1" bleibt die Basisbreite unbeeinflusst, bei Verstellung Richtung „0" wird sie eingeengt, bei „0" liefern beide Ausgänge ein M-Signal. Nur bei Einstellungen über „1" wird der Überbasissteller wirksam.
Abb. 8/44. Richtungs-, Basis- und Überbasiseinstellung im Richtungsmischer (RSt = Richtungssteller, BSt = Basissteller, ÜBSt = Überbasissteller).
8.9
Knotenpunkte
Neben der Verstärkung und Pegeleinstellung von Tonsignalen ist die Mischung verschiedener Signalquellen eine der wesentlichen Aufgaben einer Tonregieanlage. Tonsignale mischen heißt, diese in einem Knotenpunkt oder einer Sammelschiene zusammenzuführen und dabei zu addieren oder zu mischen. Knotenpunkte oder Sammelschienen gibt es somit bei der Gruppenbildung der Eingangskanäle und bei der Summenbildung der Gruppenkanäle, aber auch bei der Monobildung eines Stereosignals oder der Summierung von Vorhörsignalen. Die Gesamtheit der Pegelsteller, die in einer Mischung zusammengefasst werden können, heißt Reglerwanne. Wichtig bei der Mischung ist, dass die Veränderung des Pegels eines der zu mischenden Signale oder die Zu- und Abschaltung eines Signals keinerlei Auswirkungen auf Pegel und Frequenzgang der übrigen Mischung ausübt. 479
Analoge Tonregieanlagen Für die Knotenpunktbildung gibt es zwei Möglichkeiten: Die erste beruht auf der Spannungsanpassung der Knotenpunktbildung an den Knotenpunktverstärker; sie wurde in älteren Anlagen allgemein realisiert. Abgelöst wurde sie durch eine Lösung mit Stromanpassung bei der Knotenpunktbildung; sie wird mit Null-Ohm-Knotenpunkttechnik bezeichnet, weil der Knotenpunktverstärker hier einen Eingangswiderstand von nahezu 0 S besitzt. Bei beiden Techniken müssen die einzelnen Pegelstellerausgänge durch Entkopplungswiderstände abgeschlossen werden; sie sorgen einerseits für eine konstante Belastung der Pegelsteller, wie sie die Spannungsanpassung fordert, andererseits für eine gegenseitige Entkopplung der Pegelstellerausgänge. [8.15]
8.9.1
Knotenpunkte mit Spannungsanpassung
Diese Art der Knotenpunktbildung geht von einem Knotenpunktverstärker aus, der für Spannungsanpassung konzipiert ist, also niedrige Quellimpedanz und hohe Eingangsimpedanz besitzt. Während bei dieser Technik die Eingänge von Geräten parallel geschaltet werden dürfen, sofern der Gesamtwiderstand der Parallelschaltung nicht die Nenneingangsimpedanz unterschreitet, dürfen hingegen Ausgänge nicht parallel geschaltet werden. Bei der Parallelschaltung von Ausgängen belasten sich die Ausgänge nämlich gegenseitig niederohmig, was zu Pegelverlusten führt. Zu diesem Problem kommt die Abhängigkeit der Ausgangsimpedanz der früher verwendeten passiven Pegelsteller von dem eingestellten Dämpfungswert. Die Knotenpunktbildung konnte unter diesen Umständen nur so gelöst werden, dass der einzelne Pegelsteller auf eine hohe Impedanz arbeitet, die Parallelschaltung aller Ausgänge aber niederohmig genug ist, um den Erfordernissen der Spannungsanpassung an den nachfolgenden Knotenpunktverstärker zu genügen. Zu diesem Zweck werden jedem Pegelsteller symmetrisch in beiden Adern Entkopplungswiderstände nachgeschaltet, groß genug, um eine ausreichend hohe Belastung des Pegelstellerausgangs zu gewährleisten. Um die Widerstandsverhältnisse im Knotenpunkt konstant zu halten, muss ein Ersatzwiderstand eingeschaltet werden, sobald ein Pegelsteller vom Knotenpunkt getrennt wird. Der Gesamtwiderstand dieser Parallelschaltung muss allerdings so niederohmig sein, dass die Bedingungen der Spannungsanpassung an den nachfolgenden Verstärker gelten. Nach Einführung der Kassettentechnik Anfang der fünfziger Jahre des vorigen Jahrhunderts wurde im Laufe der Jahre eine Reihe von Knotenpunktverstärkern entwickelt, die die Knotenpunktbildung zwar auch nach dem beschriebenen Prinzip, aber verstärkerintern vornahmen. Die Eingänge wurden zunächst verstärkt, so dass die Pegelsteller direkt ohne Entkopplungswiderstände an den Knotenpunktverstärker angeschlossen waren. Durch die Kombination von externen Knotenpunkten mit Entkopplungswiderständen und Verstärkern mit interner Knotenpunktbildung konnten die Signale von bis zu 20 Pegelstellern gemischt werden.
8.9.2
Knotenpunkte mit Stromanpassung
Die Technik der Knotenpunktbildung ist die sog. 0-Ohm-Knotenpunkttechnik; der Knotenpunktverstärker hat hier einen Eingangswiderstand gegen 0 S, eine Technik, die erst mit Einführung der Transistortechnik realisierbar wurde. Vorteil dieser Knotenpunktbildung mit 480
Knotenpunkte Stromanpassung gegenüber der älteren Knotenpunktbildung mit Spannungsanpassung ist u. a. die Möglichkeit, eine große Zahl von Eingangskanälen - ausreichend für alle praktischen Anforderungen - mischen zu können (Abb. 8/45). Während bei der Spannungsanpassung die Spannung unverändert von einem Gerät an das nachfolgende übergeben wird, gilt dies bei Stromanpassung für den Strom.
Abb. 8/45. Knotenpunktbildung mit Stromanpassung.
Abb. 8/46 zeigt das Ersatzschaltbild dieser Knotenpunktbildung. Da die Pegelsteller für Spannungsanpassung mit einem niedrigen Ausgangswiderstand konzipiert sind, müssen sie hochohmig belastet werden; diese Aufgabe erfüllen u. a. die Entkopplungswiderstände RE, die als Längswiderstände symmetrisch auf die beiden Tonadern aufgeteilt werden. RE, bestehend aus zweimal ½RE, muss mindestens den Sollabschlusswiderstand des Pegelstellers besitzen, ist aber aus anderen Gründen bei der Knotenpunktbildung wesentlich größer. Die so entkoppelten Pegelsteller werden nun im Knotenpunkt parallel geschaltet; der Gesamtwiderstand der Knotenpunktbildung RK wird durch die Parallelschaltung natürlich geringer, und zwar um so geringer, je mehr Kanäle parallel geschaltet sind und je kleiner die Widerstände RE und Ri sind:
RK =
RE + Ri + Re n
RK RE Ri Re n
= Gesamtwiderstand der Knotenpunktbildung [S] = Entkopplungswiderstand [S] = Innenwiderstand der Pegelsteller [S] = Eingangswiderstand des Knotenpunktverstärkers [S] = Anzahl der eingesetzten Pegelsteller
Diese Knotenpunktbildung wird nun über die Bedingungen einer Stromanpassung an den nachfolgenden Knotenpunktverstärker angeschaltet. D. h., dass der Eingangswiderstand dieses Verstärkers klein gegenüber dem Knotenpunktwiderstand RK sein muss. Verstärker, die als Knotenpunktverstärker, auch Mischverstärker, Sammelschienenverstärker oder 0-Ohm481
Analoge Tonregieanlagen Verstärker eingesetzt sind, haben deshalb einen Eingangswiderstand von unter 5 S. Alle RE dürfen voneinander um höchstens 1 % abweichen.
Abb. 8/46. Ersatzschaltbild der 0-Ohm-Knotenpunktbildung bei gleichen Pegelstellern.
Solange der Eingangswiderstand des Knotenpunktverstärkers Re klein gegenüber dem Widerstand des Knotenpunkts RK ist, bleiben Veränderungen des Widerstands RK ohne Einfluss auf den Pegel des Gesamtsignals. Auf- oder Abschaltungen von Kanälen sind also unproblematisch und kommen ohne Einschalten von Ersatzwiderständen aus. Auch während des Betriebs ist das Zu- und Abschalten möglich. Die Dimensionierung der Entkopplungswiderstände RE muss einerseits die Spannungsanpassung der Pegelsteller an den Knotenpunkt sicherstellen, andererseits darf der Gesamtwiderstand der Knotenpunktbildung RK den Sollquellwiderstand des Knotenpunktverstärkers nicht unterschreiten; er liegt je nach Verstärkertyp bei etwa 80 bis 100 S. In der Praxis werden für RE Widerstandswerte zwischen etwa 2 A 1,2 bis 2 A 6,8 kS verwendet, um bei der Parallelschaltung der Kanäle im Knotenpunkt noch einen ausreichend hohen Gesamtwiderstand RK von mindestens 80 bis 100 S zu gewährleisten. Die Spannung eines Pegelstellers wird im Knotenpunkt erheblich bedämpft; sie wird im Verhältnis Re/RE verkleinert. In der Praxis ergeben sich Dämpfungen in der Größenordnung um den Faktor 1000 bzw. Dämpfungsmaße um 60 dB. Diesen Pegelverlust muss der Knotenpunktverstärker wieder durch eine entsprechende Verstärkung aufholen, hierfür werden sog. Universalverstärker eingesetzt. Da in einer Knotenpunktschaltung das Verhältnis von RE zu Re die Dämpfung bestimmt, können durch unterschiedlich große Entkopplungswiderstände RE auch unterschiedlich große Pegel in den Knotenpunkt geführt werden. 8.9.2.1
Universalverstärker als Knotenpunktverstärker
Als Knotenpunktverstärker, Mischverstärker oder Sammelschienenverstärker werden in der 0-Ohm-Knotenpunkttechnik nicht spezielle Verstärker verwendet, sondern Universal- oder 482
Knotenpunkte Mehrzweckverstärker, die auch zu anderen Aufgaben - z. B. als Trennverstärker, Leitungsverstärker, Abzweigverstärker oder Pegelverstärker - eingesetzt werden. Zu Spezialverstärkern werden diese Verstärker erst durch ihre äußere Beschaltung. Die speziellen Daten eines Universalverstärkers sind also nicht geräte- sondern platzgebunden, weil die besondere Beschaltung in der Anlage an der äußeren Steckerleiste untergebracht ist. Die wichtigsten Eigenschaften von Universalverstärkern sind: erdfreier, symmetrischer Eingang, ein oder mehr erdfreie, symmetrische Ausgänge, Eingangswiderstand kleiner 5 S, Ausgangswiderstand ca. 40 S. Der Verstärker wird durch einen Gegenkopplungswiderstand RG beschaltet, der zusammen mit dem Vorschaltwiderstand RE die Verstärkung bestimmt. Mit diesen Eigenschaften eignet sich ein solcher Verstärker für die Stromanpassung an den Knotenpunkt.
Abb. 8/47. Verstärkung eines Universalverstärkers.
Die Verstärkung eines Universalverstärkers mit einer Eingangsimpedanz nahe 0 S wird anders als bei Verstärkern mit hoher Eingangsimpedanz als pa ! pe (Abb. 8/47) definiert. Sie hängt von RE und RG ab; die Abhängigkeit wird von den Herstellern für die einzelnen Verstärkertypen durch eine entsprechende Formel oder Kurve angegeben. Die Verstärkung kann zusätzlich noch an einem Trimmpotentiometer um ± 1,5 dB fein abgeglichen werden. Abb. 8/48 zeigt an einem Beispiel die Ermittlung der Verstärkerdaten. Anders als Studioverstärker für Spannungsanpassung, also mit hohem Eingangswiderstand, dürfen die Eingänge von Universalverstärkern mit niedrigem Eingangswiderstand nicht direkt parallel geschaltet werden, eine Parallelschaltung muss hier gegebenenfalls vor dem Vorschaltwiderstand RE erfolgen. Bei Universalverstärkern mit mehreren Ausgängen können durch entsprechende Reihenschaltungen der Wicklungen unterschiedliche Ausgangspegel abgenommen werden. Durch die individuell mögliche Dimensionierung von RE können auch Quellen mit unterschiedlichen Pegeln gemischt werden. Arbeitet ein Universalverstärker als Knotenpunktverstärker, so erhält er i. Allg. von den einzelnen Pegelstellern Studiopegel (+ 6 dBu), die er auch wieder abgibt. Seine Verstärkung ist also definitionsgemäß pa ! pe = 0 dB. Werden die Signale mehrerer Pegelsteller gemischt, so müssen die zu mischenden Signale im Pegel entsprechend geringer sein, damit der Gesamtpegel nicht übersteuert wird. Für die Dimensionierung dieser Widerstände ist nun weiterhin die Tatsache von Bedeutung, dass der Geräuschpegel des Verstärkers umso geringer ist, je kleiner der Gegenkopplungswiderstand RG ist. Daraus ergibt sich als Forderung an den Widerstand RE, dass dieser ebenfalls 483
Analoge Tonregieanlagen so klein wie möglich gewählt wird; der Gesamtwiderstand der Knotenpunktbildung RK darf dabei allerdings den vorgeschriebenen Mindestwert von ca. 100 S nicht unterschreiten.
Abb. 8/48. Universalverstärker V 475-2B, technische Daten.
484
Hilfssummen Die Verstärker der einzelnen Hersteller unterscheiden sich außer in ihrem internen schaltungstechnischen Aufbau - z. B. symmetrischer oder unsymmetrischer Schaltungsaufbau - durch die Zahl der Ausgänge - ein oder zwei -, durch die Dimensionierung von RE und RG und den Zusammenhang der Verstärkung und des Störpegels mit diesen Widerständen, weiterhin durch den erforderlichen Mindestwert von RE. Die Verstärker können auch als Doppelverstärker zweikanalig aufgebaut sein.
8.10
Hilfssummen
Neben der Mischung der einzelnen Signalquellen in einer Tonregieanlage zu einem Gesamtklangbild, das aufgezeichnet oder übertragen wird, sind davon abweichende Mischungen für die unterschiedlichsten Aufgaben notwendig. Diese parallel mit der Hauptmischung erstellten Hilfsmischungen stehen z. B. für die künstliche Verhallung, für die Einspielung in eine Beschallungsanlage für Publikum und Bühne, Playback-Aufnahmen und schließlich für die Erzeugung spezieller Klangeffekte zur Verfügung. Die Einzelsignale für die Hilfsmischungen werden vor oder hinter dem Eingangspegelsteller abgezweigt und auf eine Hilfssammelschiene geführt. Beim Abzweig des Hilfswegs wird der Pegel für das Mischverhältnis eingestellt, hinter dem zugehörigen Sammelschienenverstärker wird der Gesamtpegel eingestellt. Wegen der unterschiedlichen Aufgaben, die eine Hilfssumme übernehmen kann, sind den Hilfswegen bzw. der Hilfssumme auch unterschiedliche Bezeichnungen zugeordnet. Für Hilfswege, die für universellen Gebrauch zur Verfügung stehen, sind universelle Bezeichnungen üblich wie Ausspielen, Ausspielweg, Auxiliary oder Auxiliary Channel; für Hilfswege, die ganz bestimmte Aufgaben erfüllen wie z. B. die Mischung für die Ansteuerung eines Hallgerätes, können funktionsgerechte Bezeichnungen gewählt werden wie Hallweg oder Reverb Channel, Effektweg, Solistenweg, Einspielweg, Foldback Channel oder Playback. Da in den Hilfswegen i. Allg. bestimmte Einstellungen während einer Aufnahme oder Produktion beibehalten werden, kann die Einstellung der Pegel in den einzelnen Hilfswegen und in der Summe vereinfacht werden, z. B. durch Drehpotentiometer. Für die Einstellung der Hilfssumme ist vielfach ein Flachbahnpegelsteller vorhanden, weil hiermit z. B. Blenden besser ausführbar sind. Die Anforderungen an die elektrischen Eigenschaften können in einigen Punkten gegenüber denen der Hauptwege zurückgenommen werden. Die Anzahl der benötigten Hilfssummen hängt von den Aufgaben einer Tonregieanlage ab: Eine Mono-Hilfssumme kann für eine einfache künstliche Verhallung ausreichen, eine zweite Mono-Hilfssumme steht dann für eine Einspielung zur Verfügung. Meist sind jedoch vier Mono-Hilfssummen vorgesehen. Für Publikumsbeschallungen, Einspielungen für Kopfhörerwiedergabe für die Musiker, komplexe Verhallungen, Soundeffekte u. a. verfügen größere Tonregieanlagen zusätzlich zu meist mehreren Mono-Hilfssummen über eine Stereo-Hilfssumme. Grundsätzlich können auch zwei Mono-Hilfssummen zu einer Stereosumme zusammengefasst werden, indem eine Summe als linker, die andere als rechter Kanal verwendet wird; durch entsprechende Einstellungen der Potentiometer kann hierbei die Position einer Schallquelle auf der Basis festgelegt werden, ein Panpot in einem Stereo-Hilfsweg löst diese Aufgabe weit besser.
485
Analoge Tonregieanlagen
Abb. 8/49. Schaltungsmöglichkeiten für Hilfswege.
Das Tonsignal für Hilfswege kann vor oder hinter dem Eingangspegelsteller abgezweigt werden, hierfür ist ein Umschalter mit den Schalterstellungen „vor/hinter Regler" (pre/post fader), auch mit zusätzlicher Stellung „aus" vorgesehen. Der Wahlschalter „vor/hinter Regler" bietet in der Stellung „hinter Regler" die Möglichkeit, dass Änderungen der Hauptmischung 486
Hilfssummen auch in die Mischung der Hilfswege eingehen, also z. B. sich auch auf die Zusammensetzung des Nachhalls oder einer Beschallung auswirken. In der Stellung „vor Regler" bleiben diese Änderungen ohne Einfluss; auch bei geschlossenem Pegelsteller erhalten die Hilfswege ein Signal. Das muss bei einer Verhallung z. B. dann vermieden werden, wenn ein Mikrofonkanal zeitweise geschlossen ist, weil das Signal, etwa eines Solisten, nicht eingemischt werden soll. Andererseits kann die Auskopplung vor Regler z. B. bei einer Bühnenbeschallung dann notwendig sein, wenn die Musiker vor ihrem Einsatz das Playback hören müssen. Die Schaltung der Hilfswege, ihrer Auskopplung und Summenbildung zeigt Abb. 8/49. Dargestellt sind Auskopplungen jeweils aus einem Mono- und Stereokanal auf drei Monound einen Stereo-Hilfsweg. Nicht dargestellt sind die Entkopplungswiderstände. Signale für die Hilfswege werden nur aus den Eingangskanälen, nicht aus den Gruppen- oder Summenkanälen ausgekoppelt. Soll eine Mischung unverändert in einen Hilfsweg übernommen werden, so werden hierfür die Ausspielpotentiometer aller verwendeten Kanäle voll aufgedreht; an der Hilfswegsumme steht dann der gleiche Pegel an wie am Gruppenregler, wenn „hinter Regler" abgegriffen wird. Nachfolgend werden zwei wichtige Anwendungen der Hilfskanäle genauer betrachtet: die Gewinnung der Hallsignale für eine künstliche Verhallung und die Einspielung.
8.10.1
Schaltungen für künstliche Verhallung
Eine typische Funktion von Hilfswegen ist die Gewinnung eines Signals zur Ansteuerung von Hallgeräten. Bei Monoaufnahmen mit nur einem Mikrofon oder Stereoaufnahmen mit nur zwei Mikrofonen bedarf es für die Verhallung keiner Hilfswege; werden jedoch mehr Mikrofone verwendet, so sind unterschiedliche Mischungen der Mikrofonsignale für Direkt- und Hallsignal möglich. Bei der Verhallung wird i. Allg. auch von dieser Möglichkeit Gebrauch gemacht. Wenn z. B. einzelne Instrumentengruppen einer Musikproduktion weiter entfernt erscheinen sollen, kann das mit einem höheren Hallanteil dieser Instrumentengruppe bei gleichzeitig geringerem Direktanteil simuliert werden.
Abb. 8/50. Prinzip der stereofonen und monofonen Hallansteuerung.
Moderne Hallgeräte verarbeiten ein Monosignal zu einem stereofonen Nachhall; dennoch steht oft ein Stereoeingang zur Verfügung, das Monosignal wird dann intern durch Summenbildung hergestellt. Moderne Hallgeräte bieten aber auch eine Verarbeitung von Stereosignalen, indem sie bei der Gewinnung von ersten Reflexionen z. B. eine spiegelbildliche 487
Analoge Tonregieanlagen Zuordnung von Direktschall und ersten Reflexionen vornehmen. Abb. 8/50 zeigt ein Blockschaltbild für eine solche echte stereofone Verarbeitung einer Hallansteuerung und eine monofone Verarbeitung der Hallansteuerung. Eine eventuell notwendige oder erwünschte Filterung des Hallsignals wird gegebenenfalls nach der Verhallung vorgenommen. Sofern im Hallgerät keine Möglichkeit der Hilfssummen für die Hallverzögerung vorhanden ist, kann im Hallsummenkanal ein einkanaliges oder in der Hallrückführung ein zweikanaliges Verzögerungsgerät eingeschleift werden. Die Mischung der Hallsignale richtet sich nach dem Klanginhalt und kann einerseits identisch mit der Hauptmischung sein, sich andererseits auch grundsätzlich davon unterscheiden; in der Popmusik z. B. ist sie auch Musikstilen und Soundtrends unterworfen. Im Bereich der E-Musik dürfte der geeignete Ausgangspunkt für eine Hallmischung die Hauptmischung sein; sie ergibt sich, wenn die Hallwege hinter dem Pegelsteller abgezweigt und voll aufgedreht werden. Auf der Basis dieser Mischung können dann Modifikationen vorgenommen werden: Um die Tiefenstaffelung des Klangbildes zu unterstützen, erhalten nähere Klangquellen weniger Hall, ebenso im Originalklang leise Instrumente; die Hallmischung wird also in diesem Fall an der Akustik des Aufnahmeraums oder eines in der Hallillusion hergestellten denkbaren natürlichen Raums orientiert. Im Bereich Popmusik existiert der natürliche Raum als Vorbild oder Orientierung zumindest in geringerem Maße oder wird ersetzt durch eine fiktive Raumakustik, die durchaus auch kein denkbares „natürliches" Vorbild haben muss. Auch der Klang der Aufnahme ist ja nur fiktiv gemessen an einer realen Aufführung ohne Soundbearbeitung seitens der Aufnahmetechnik. Für diesen Bereich können also kaum allgemein geltende Empfehlungen für eine Hallmischung gegeben werden; sie richtet sich nach den Klangvorstellungen des Produktionsteams und der Musiker. Für die Einmischung des Hallsignals werden zwei Regiewege gebraucht, die wie Eingangskanäle aufgebaut sind, aber keine Mikrofonverstärker und Ausspielwege enthalten (Abb. 8/51).
Abb. 8/51. Prinzip der Hallrückführung.
Moderne digitale Hallgeräte bieten neben der einfachen Verhallung eine Reihe weiterer Effekte (siehe Kap. 6.5). Diesen Effekten können durch die Hallrückführung noch einige hinzugefügt werden. So kann etwa eine Einzelschallquelle mit einem nur dieser Schallquelle zugeordneten Hallgerät verhallt werden, deren Hall dann mit Panpot nur hinter diese Schallquelle gelegt wird oder z. B. im Ausklingen über die Basis wegzieht, sozusagen eine „wegfliegende Hallfahne". Ein weiterer Effekt ist der „Flankenhall"; er wird nur links und rechts 488
Hilfssummen auf der Basis abgebildet als zwei „Halltunnel", in der Mitte gibt es keinen Hall. In einem solchen Hall dürfen keine kohärenten Signale enthalten sein, d. h. die beiden „Halltunnel" müssen von unterschiedlichen Hallgeräten stammen und nur links bzw. rechts eingeordnet sein. Als weiteren Effekt der Hallrückführung ist der sog. „S-Hall" zu nennen; es handelt sich um Monohall, der phasenvertauscht dem linken bzw. rechten Kanal zugemischt wird; er hat also die Merkmale eines S-Signals in der MS-Stereofonie. S-Hall ist vollkommen unkompatibel, er löscht sich bei der Monobildung aus. Anteile von S-Hall können aber als Klangeffekt beigemischt werden bei eingeschränkter Kompatibilität. Eine künstlich verhallte Aufnahme sollte im Prinzip kompatibel sein; d. h. auch bei der Bildung eines Monosignals darf sich das Verhältnis von Direktschall zu Nachhall nicht nachteilig ändern. Die Erfahrung zeigt aber, dass der Hallanteil bei der Monobildung zurückgeht. Dies ist mit der unterschiedlichen Korrelation der Stereosignale von Direktschall und Nachhall erklärbar: Der Korrelationsgrad des Stereodirektsignals liegt in der Regel über 0, derjenige des stereofonen Hallsignals um 0. Bei der Monobildung, also der Summenbildung von L und R, bewirken die im Direktsignal mit einem höheren Korrelationsgrad auch in stärkerem Maße enthaltenen gleichphasigen Signalanteile eine Verstärkung des Direktsignals gegenüber dem Hallsignal und damit ein Zurücktreten des Nachhalls.
8.10.2
Schaltungen für Ausspielwege
Bei der Produktion, Übertragung oder Sendung muss in bestimmten Fällen das Signal auch in das Studio zurückgeschaltet werden. Diesen Vorgang bezeichnet man als Aus- bzw. Einspielung. Ein typisches Beispiel für eine Einspielung ist eine Musikproduktion im Playbackverfahren. Bereits aufgenommene Klanggruppen müssen als Taktsignal ins Studio gespielt werden, damit die Studiomusiker ihren Beitrag synchron dazu auf Band spielen können. Ein anderes Beispiel ist das Sprecherstudio, dem ein laufendes Programm eingespielt werden muss, damit der Sprecher z. B. seine Ansage passend über eine Musik legen oder die deutsche Ansage über die Ansage einer Auslandsübertragung sprechen kann. Weiter unterscheidet man bei der Einspielung zwischen der eigentonfreien Einspielung und der Einspielung mit Eigenton. So ist es für den Sprecher verwirrend, seine eigene Stimme über Kopfhörer mitzuhören, während es für einen Studiomusiker, der ein Taktsignal über Kopfhörer bekommt, meist unerlässlich ist, auch sich selbst in diesem Signal zu hören, um z. B. die Intonation besser beherrschen zu können. Hört der Musiker aber das Playback über Lautsprecher (Bühnenbeschallung, Monitoring), so kann der Eigenton im Lautsprechersignal zu Rückkopplung führen, so dass hier die eigentonfreie Einspielung angezeigt ist. Die Wiedergabe des Einspielweges kann über Lautsprecher oder Kopfhörer erfolgen. Um in den Proben Regieanweisungen über die Einspielwege ins Studio geben zu können, sind in den Einspielwegen an passender Stelle entsprechende Umschalter vorhanden; über Kommandotasten können Kommandos in die Einspielwege eingegeben werden. Außerdem ist es möglich, die Kommandoanlage an die Mischpultausgänge anzuschalten und so bei Aufnahmen zu den einzelnen Takes für die späteren Bearbeitungsvorgänge Korrektur- und Schnittanweisungen direkt auf Band aufzusprechen. Abb. 8/52 zeigt eine Möglichkeit der Kommandoeinkopplung in den Einspielweg. Wird ein Kommando auf den Einspielweg 489
Analoge Tonregieanlagen gegeben, so wird der Einspielweg bedämpft oder ganz unterbrochen. Gleichzeitig wird auch der Abhörweg in der Tonregie bedämpft, damit Rückkopplungen vermieden und die Verständlichkeit der Kommandos gewährleistet ist.
Abb. 8/52. Einkopplung von Kommandos in den Einspielweg (Playbackweg); die Entkopplungswiderstände sind weggelassen.
8.11
Spezial- und Universalverstärker
Für die wesentlichen Aufgaben einer Tonregieanlage, nämlich für die Verstärkung und Mischung, werden Spannungsverstärker benötigt; Spannungsverstärker sind z. B. Mikrofonverstärker, Kommandoverstärker, Aufholverstärker, Leitungsverstärker u. a., siehe Tab. 8/2. Daneben gibt es Spannungsverstärker in einer Tonregieanlage für zusätzliche oder spezielle Aufgaben wie die Anpassung an die Bedingungen an Sammelschienen (Knotenpunktverstärker), die Frequenzgangkorrektur (Entzerrerverstärker, Aufsprech- und WiedergabeEntzerrerverstärker), die rückwirkungsfreie Modulationsverteilung (Trennverstärker) u. a. Verstärker, die durch unterschiedliche äußere Beschaltung unterschiedliche Aufgaben erfüllen können, sind Universal- oder Mehrzweckverstärker. Andere Aufgaben haben Anpassverstärker: Sie passen auch Impedanzverhältnisse und Leitungsführungen, die nicht den Verhältnissen der professionellen Studiotechnik entsprechen, an diese Verhältnisse an, sie schaffen geeignete Schnittstellen. Hierzu gehören Anpass- und Leitungsverstärker sowie Aufsprechund Wiedergabeverstärker. Schließlich stellen Leistungsverstärker ausreichende Leistung für Lautsprecher zur Verfügung. Die Schnittstellenbedingungen zwischen Geräten der Tonstudiotechnik sind in dem Pflichtenheft 3/5 für die öffentlich-rechtlichen Rundfunkanstalten definiert. Im Einzelnen werden die Begriffe und Bedingungen für Studioverstärker in Kap. 10 erläutert; die Fragen der Anpassung und Leitungsführung sind in Kap. 8.3 dargestellt. In Tab. 8/3 sind die verschiedenen Typen von Studioverstärkern zusammenfassend aufgelistet. Die Besonderheiten, die sie von den einheitlichen Bedingungen für die Schnittstellen unterscheiden, sind aufgeführt. Diese Bedingungen sind im Wesentlichen: Ausgangsimpedanz # 40 S, Eingangsimpedanz $ 600 S, Studiopegel + 6 dBu am Ausgang.
490
Spezial- und Universalverstärker
8.11.1
Spannungsverstärker
Spannungsverstärker sind sowohl an ihre Quelle als auch an ihre Belastung spannungsangepasst, d. h. sie haben eine hohe Eingangsimpedanz und eine niedrige Ausgangsimpedanz; die Spannung wird vom Ausgang eines Geräts praktisch ohne Verlust auf den nachfolgenden Eingang übergeben. Die Eingangsimpedanz muss hierzu mindestens den l0-fachen Wert haben wie die Ausgangsimpedanz; in der Praxis liegt dieser Faktor bei 100 oder höher. Die für eine Tonregieanlage wesentlichen Verstärker wurden bereits in eigenen Kapiteln besprochen: Mikrofonverstärker (8.5), Pegelsteller (8.7), Universalverstärker als Knotenpunktverstärker (8.9), Entzerrerverstärker, Aufsprech- und Wiedergabeverstärker (7.1 bzw. 7.2) und Regelverstärker (6.2). Weitere Verstärker werden im Folgenden behandelt Tab. 8/3 gibt eine Übersicht. 8.11.1.1
Aufholverstärker
Aufholverstärker, auch Pegel- oder Ausgleichsverstärker genannt, verstärken einen Pegel auf Studiopegel + 6 dBu. Ihre Verstärkung kann den jeweiligen Anforderungen entsprechend eingestellt werden. Pegelverluste können z. B. nach passiven Geräten mit Einschaltdämpfung oder bei ankommenden Leitungen, die nicht Studiopegel führen, auftreten. Auf Grund seiner hohen Eingangsimpedanz eignet sich der Pegelverstärker auch zur rückwirkungsfreien Abzweigung eines Signals und als Trennverstärker. 8.11.1.2
Trenn- und Verteilerverstärker
Aufgabe der Trennverstärker, Abzweigverstärker oder Verteilerverstärker, ist die rückwirkungsfreie Signalverteilung. Eine Signalverteilung parallel an verschiedene Verbraucher findet in einem Regieraum bzw. allgemein in den technischen Räumen eines Funkhauses an verschiedenen Stellen statt, z. B. wenn ein Signal gleichzeitig abgehört und aufgezeichnet oder übertragen wird. Rückwirkungsfreie Signalverteilung bedeutet, dass bei der Verteilung eines Signals auf mehrere Verbraucher sich keinerlei Rückwirkungen ergeben, wenn die Anzahl der Verbraucher sich ändert. Kurzschluss oder Störgeräusche bei einem Verbraucher sollen sich weder auf die angeschlossenen Verbraucher noch auf den Eingang des Trennverstärkers auswirken. Als Anforderungen an einen Trennverstärker ergeben sich daraus eine hohe Eingangsimpedanz mit > 10 kS und hohe Rückwärtsdämpfung vom Ausgang auf den Eingang und zwischen den Ausgängen. Trennverstärker oder Abzweigverstärker verfügen über mindestens zwei Ausgänge mit Studiopegel + 6 dBu, Verteilerverstärker haben mehr Ausgänge, z. B. 4 oder 6. Da Trennverstärker die Rückwirkung von Störungen verhindern, erhöhen sie die Betriebssicherheit von Anlagen und Anlagenverbünden erheblich. Die hohe Eingangsimpedanz erlaubt die Parallelschaltung einer größeren Zahl von Trennverstärkern. Typische Einsatzorte für Trennverstärker sind z. B. die Ausgänge von Regieanlagen, die auf mehrere abgehende Leitungen rückwirkungsfrei verteilt werden müssen: auf den Abhörweg, auf Aufzeichnungsgeräte und abgehende Leitungen. Trennverstärker „richten" Leitungsverbindungen, sie sind dann nur in einer Richtung verwendbar. Abb. 8/53 stellt gerichtete und ungerichtete Querverbindungen zwischen verschiedenen Räumen eines Studiokomplexes dar. 491
Analoge Tonregieanlagen Tab. 8/3. Studioverstärker, Übersicht. Prinzip Spannungsverstärker
Bezeichnungen Mikrofonverstärker, Eingangsverstärker
Kommandoverstärker
Aufholverstärker, Pegelverstärker, Ausgleichsverstärker
Pegelsteller
Knotenpunktverstärker, Mischverstärker, Sammelschienenverstärker Trennverstärker, Abzweigverstärker, Verteilverstärker Entzerrerverstärker, Filter
Aufsprech- und Wiedergabeverstäker
Regelverstärker (Kompressor, Limiter, Gate, Expander) Universalverstärker
Universalverstärker, Mehrzweckverstärker
Anpassverstärker
Anpassverstärker, HiFi-Anpassmodul
Leistungsverstärker
Leistungsverstärker, Vorhörverstärker
492
Aufgaben Verstärkung des Mikrofonsignals oder niederpegeliger Leitungssignale auf +6 dBu Verstärkung des Mikrofonsignals auf +6 dBu Ausgleich von Pegelverlusten, z. B. bei ankommenden Leitungen und bei Geräten mit Einschaltdämpfung Einstellung des Betriebspegels
Verstärkung
am Eingang Quellimpedanzen bis 200 S, einstellbare Tiefensperre, Phasentausch
ca. 30 bis 60 dB einstellbar
Mikrofonverstärker mit integriertem Begrenzer
0 bis ca. 50 dB einstellbar
u. U. auch als Eingangsoder Trennverstärker einsetzbar
0 dB in Betriebsstellung, Verstärkung bis 15 dB, Dämpfung bis % dB Verstärkung des abhängig von den Knotenpunktsignals Widerstandsverhältnissen im Knotenpunkt rückwirkungsfreie 0 dB, Verteilung des auch mit einstellSignals barer Verstärkung Beeinflussung des 0 dB Frequenzgangs ± eingestellte Anhebung oder Absenkung des Pegels Anpassung von Pegel, je nach Gerät Frequenzgang und Impedanz bei Magnetton- und Nadeltongeräten automatische dynaje nach Einstellung mische Verstärkungsregelung, abhängig vom Signalpegel kann je nach äußerer entsprechend der Beschaltung die Aufgabe Aufgaben der meisten Verstärker übernehmen Anschaltung von bis ca. 30 dB nicht professionellen Geräten an eine Tonregieanlage Leistungsversorgung kleinerer Lautsprecher
Besonderheiten
0 bis ca. 80 dB, einstellbar
einstellbar oder fest
nach seiner Funktion in der Tonregieanlage v. a. einstellbares Dämpfungsglied Eingangsimpedanz für Stromanpassung # 5 S
mindestens zwei rückwirkungsfreie Ausgänge Klanggestaltung
bildet mit dem Wandlersystem eine Funktionseinheit
Dynamikund Klanggestaltung
erhält seine speziellen Eigenschaften durch die jeweilige äußere Beschaltung Anpassung des Eingangssignals an niedrigere Pegel, höhere Impedanzen und unsymmetrische Leitungsführung
Spezial- und Universalverstärker
Abb. 8/53. Gerichtete und ungerichtete Querverbindungen zwischen den verschiedenen Räumen eines Studiokomplexes.
Eine wichtige Anwendung ist auch der Verteilerblock (Abb. 8/54). Um auf den horizontalen Verteilerschienen ohne Rücksicht auf ihre Anzahl Verbraucher zusammenschalten zu können, sind unmittelbar am Verteilerausgang Trennverstärker geschaltet, die in dieser Schaltung aber nicht verstärken. Fehlschaltungen hinter den Trennverstärkern wirken zwar über die Leitung zurück auf den Ausgang des Trennverstärkers, belasten aber nicht den Verteilerblock und dessen Eingänge. Auch der Mikrofontrennverteiler ist ein Trennverstärker (siehe Kap. 8.5.4).
Abb. 8/54. Signalverteilung über einen Verteiler.
8.11.2
Universalverstärker
Vom Gesichtspunkt der Gerätefertigung, Instandhaltung von Anlagen und der schnellen Beseitigung auftretender Fehler ist eine große Typenvielfalt von Verstärkern nachteilig. Ein einheitlicher Universalverstärker, der alle oder zumindest viele Aufgaben lösen kann, ist hier sicher vorteilhafter. Dieser Gedanke führte zu der Entwicklung von Universal- oder Mehrzweckverstärkern. Diese Verstärker erhalten ihre jeweiligen, der Aufgabe angepassten Eigenschaften durch ihre äußere Beschallung mit Vorwiderständen und Gegenkopplungs493
Analoge Tonregieanlagen widerständen und durch eine unterschiedliche Zusammenschaltung ihrer Ausgangsübertrager. Die Verstärker selbst sind also untereinander oder durch Ersatzgeräte austauschbar, ihre besondere Funktion erhalten sie erst an ihrem vorgeschriebenen Platz in einer Anlage. Die äußere Beschaltung ist an die Anlage, nicht an den Verstärker gebunden. Universalverstärker können als Aufholverstärker, Leitungsverstärker, Knotenpunktverstärker, Trennverstärker, Verteilerverstärker u. a. verwendet werden. Tatsächlich konnten sich diese Verstärker nicht in ihren vielfältigen Verwendungsmöglichkeiten durchsetzen. Universalverstärker haben einen symmetrischen, erdfreien, sehr niederohmigen Eingang. Mit einem solchen Eingang ist der Verstärker für Stromanpassung ausgelegt und eignet sich als Knotenpunktverstärker. Die für einen Spannungsverstärker erforderliche hohe Eingangsimpedanz wird durch Vorwiderstände hergestellt. Die Verstärkung wird nicht wie bei anderen Studioverstärkern als Differenz von Ausgangs- und Eingangspegeln definiert, sondern als Differenz vom Ausgangspegel zum Eingangspegel vor dem Vorwiderstand. Am Beispiel des V 672 sind im folgenden einige Anwendungen beschrieben (Abb. 8/55).
Abb. 8/55. Universal- oder Mehrzweckverstärker. V 672
Der Eingang des V 672 ist mit einer Impedanz von < 5 S, sehr niederohmig. Höhere Eingangsimpedanzen werden durch außen vorgeschaltete Widerstände realisiert. Seine Verstärkung ist von negativen Werten über 0 bis max. 43 dB durch die äußere Beschaltung mit einem Vorwiderstand RV (bisher mit RE bezeichnet) und einem Gegenkopplungswiderstand RG einstellbar. Zusätzlich ist ein Feinabgleich von ± 1,5 dB vorhanden. Der Verstärkungsfaktor v ist.
v≈
RG + 8 , 2 RV
v = Verstärkungsfaktor [dimensionslos] RG = Gegenkopplungswiderstand [kS] RV = Vorwiderstand [kS]
Alle für v bzw. RV gewünschten Werte können nach dieser Formel errechnet werden. Die Summe der Vorwiderstände darf einen Minimalwert von 80 S nicht unterschreiten. Eine eingangsseitige Parallelschaltung mehrerer V 672 darf nur vor den Widerständen Rv erfolgen. Der Verstärker V 672 besitzt zwei Ausgangsübertrager mit gleichen elektrischen Daten. Jeder Übertrager hat zwei getrennte Sekundärwicklungen, deren Anschlüsse an die Steckerleiste geführt sind und einzeln oder zusammengeschaltet verwendet werden können. Somit stehen maximal 4 symmetrische, erdfreie Ausgänge zur Verfügung. Außerdem ist noch ein unsymmetrischer Ausgang vorhanden. Durch unterschiedliche Zusammenschaltungen der symmetrischen Ausgänge und zusätzlich durch primärseitige Umschaltung des Ausgangsübertragers 2 sind die Ausgangsdaten des Verstärkers (Pegel, Ausgangsimpedanz, Nennabschluss) variierbar. 494
Spezial- und Universalverstärker 8.11.2.1
Pegelverstärker
Dieser Verstärker hat die Aufgabe, einen Pegelverlust auszugleichen und den Pegel wieder auf einen Nennwert anzuheben. Die erforderliche Verstärkung ergibt sich dabei aus der Differenz zwischen vorhandenem Pegel und Nennpegel. Kriterien für die Dimensionierung von RV und RG sind der Mindestabschluss der speisenden Quelle und optimaler Störpegelabstand. Dabei gilt allgemein, dass der Störpegel bei einer vorgegebenen Verstärkung v mit abnehmenden Werten von RG kleiner, der Störabstand also besser wird. Die untere Dimensionierungsgrenze für RG ist durch den geforderten Abschluss der speisenden Quelle gegeben, da mit abnehmendem RG bei konstantem v auch RV geringer wird.
Abb. 8/56. V 672 als Pegelverstärker.
Bei Einsatz des Verstärkers V 672 als Pegelverstärker wird meist nur ein Ausgang benötigt. Durch Zusammenschaltung der Wicklungen beider Ausgangsübertrager kann entweder der maximale Ausgangspegel erhöht oder der Ausgangsscheinwiderstand verringert werden (Abb. 8/56). 8.11.2.2
Knotenpunktverstärker
Zur Aufhebung der Knotenpunktdämpfung von Sammelschienen ist der V 672 wegen seines niedrigen Eingangswiderstandes besonders geeignet (Abb. 8/57). Da die Verstärkung v für jeden angeschlossenen Eingang mit dem zugehörigen Entkopplungswiderstand RV individuell und unabhängig von den anderen Eingängen einstellbar ist, können an einer Sammelschiene auch Quellen mit ungleichen Pegeln zusammengefasst werden (siehe 8.7). Zu beachten ist, dass der Gesamtwiderstand aller RV einen Minimalwert von 80 S nicht unterschreiten soll, d. h., dass z. B. bei gleich großen Vorwiderständen von RV = 13,6 kS maximal 170 Eingänge an einer Sammelschiene zusammengefasst werden können.
Abb. 8/57. V 672 als Knotenpunktverstärker.
Kriterien für die Dimensionierung von RV und RG sind die Mindestabschlüsse der speisenden Quellen, die je Eingang erforderliche Verstärkung, die Rücksprechdämpfung zwischen den angeschlossenen Quellen und der Störabstand. Für die Beziehungen zwischen Störabstand, RV 495
Analoge Tonregieanlagen und RG sowie für die Ausgangsdaten gelten die Ausführungen, die für den V 672 als Pegelverstärker gemacht wurden. 8.11.2.3
Trennverstärker
Beim V 672 steht in seiner Beschattung als Trennverstärker (Abb. 8/58) ein Verstärkungsbereich von 0 bis 24 dB zur Verfügung. Die Rücksprechdämpfung zwischen den beiden Ausgängen beträgt 26 dB und kann durch eine Serienschaltung mit Widerständen von 2 A 100 S je Ausgang auf 46 dB oder von 2 A 20 S je Ausgang auf 36 dB erhöht werden. Verwendet man die insgesamt 4 Wicklungen der zwei Ausgangsübertrager einzeln, so lässt sich der Verstärker als Verteilerverstärker mit 4 galvanisch getrennten Ausgängen einsetzen.
Abb. 8/58. V 672 als Trennverstärker.
8.11.3
Anpassverstärker
Aufgabe von Anpassverstärkern oder -modulen ist die Anpassung von Geräten der nicht professionellen Technik und Musikelektronik an Tonregieanlagen. Sie sind i. Allg. Bestandteile von Tonregieanlagen, während die sog. Direct Injection-Box oder DI-Box als passives oder aktives Anpassmodul in eine Kabelverbindung eingefügt wird und speziell für den Anschluss von Geräten der Musikelektronik gedacht ist (siehe 8.6). Solche Geräte (Cassettenrecorder, Plattenspieler, Videorecorder, CD-Spieler, Empfänger) und Geräte der Musikelektronik (Instrumentenverstärker, Effektgeräte, Gesangsanlagen u. a.) haben unsymmetrische, niederpegelige und hochohmige Ausgänge und dürfen deshalb nicht direkt mit den Geräten der professionellen Tonstudiotechnik zusammengeschaltet werden. Die notwendige Anpassung übernimmt der Anpassverstärker. Da die genannten Geräte meist auch mit anderen Steckverbindungen arbeiten (DIN, Klinke oder Cinch), lösen Anpassverstärker zugleich dieses Problem. Der im nicht professionellen Bereich verwendete Pegel ist meist geringer als im Studiobereich, er hängt von der verwendeten Norm bzw. den Geräten ab. Anpassmodule verstärken das Signal auf Studiopegel + 6 dBu und haben deshalb eine Verstärkung bis 26 dB; DI-Boxen benötigen keine Verstärkung, da sie auf die Mikrofoneingänge der Regieanlage geschaltet werden, die Verstärkung auf Studiopegel wird vom Mikrofonverstärker aufgebracht. Die Symmetrie der Leitungsführung stellen Ausgangsübertrager her. Die Eingänge des Anpassmoduls sind den hohen Quellimpedanzen der HiFi-Geräte so angepasst, dass Spannungsanpassung herrscht; dafür ist die Eingangsimpedanz sehr hochohmig. An Cinch-Ausgangsbuchsen liegen 775 mV entsprechend 0 dBu an 47 kS,; Cinch-Eingangsbuchsen an Anpassverstärkern schließen diese Impedanz durch Spannungsanpassung ab und haben also eine
496
Spezial- und Universalverstärker Eingangsimpedanz von mehr als 250 kS. DIN-Buchsen werden bei Stromanpassung benutzt, d. h. die Ausgangsimpedanz ist sehr hochohmig; die Höhe des Stroms hängt nicht von der Eingangsimpedanz ab, während die übernommene Spannung mit der Eingangsimpedanz ansteigt; sie beträgt etwa 1 mV pro kS. Anpassmodule bieten teilweise die Möglichkeit, einen Höhenabfall des Frequenzganges, der durch längere Verbindungsleitungen bei hochohmiger Anschlusstechnik entstehen kann, auszugleichen. Weiterhin sind u. U. zwei Eingänge vorhanden, zwischen denen umgeschaltet werden kann, z. B. zwischen Cassettenrecorder (TAPE) und CD-Spieler oder Plattenspieler (PU, PICK UP). Schließlich können die Geräte außer dem Übergang HiFi-Technik/Studiotechnik auch den Übergang Studiotechnik/HiFi-Technik bieten. Abb. 8/59 zeigt an einem Beispiel den Aufbau eines Anpassverstärkers.
Abb. 8/59. Aufbau eines Anpassverstärkers.
8.11.4
Leistungsverstärker
Für die Versorgung kleiner Lautsprecher für untergeordnete Aufgaben wie Vorhören oder Mithören ohne eine besondere akustische Qualitätskontrolle, für Kommandos und für die Versorgung von Kopfhöreranlagen mit mehreren parallel betriebenen Kopfhörern sind Spannungsverstärker ungeeignet, da die abgegebene Leistung zu gering und die Ausgangsimpedanz dieser Verstärker erheblich zu hoch ist. Hierfür stehen Leistungsverstärker mit geringer Ausgangsimpedanz zur Verfügung. Sie werden auch als Vorhörverstärker bezeichnet. Die Ausgangsleistung kann teilweise am Gerät eingestellt werden, maximal beträgt sie meist 4 bis 8 W oder 2 W für Kopfhöreranlagen. Der Eingang ist symmetrisch und erdfrei für + 6 dBu, der Ausgang ist entweder unsymmetrisch und übertragerlos für feste Verbindung mit einem Lautsprecher oder symmetrisch und erdfrei für Steckverbindungen.
497
Analoge Tonregieanlagen
8.12
Akustische und optische Signalüberwachung
Während einer Produktion oder Übertragung wird das Tonsignal akustisch und optisch hinsichtlich seiner technischen und klanglichen Qualität überwacht. Für die akustische Überwachung stehen Regielautsprecher zur Verfügung (siehe 4.3), u. U. auch Kopfhörer (siehe 4.4). Regielautsprecher werden von der sog. Abhöreinheit angesteuert, mit der neben der Abhörlautstärke noch einige weitere Abhörkonfigurationen wie Seiten- und Phasentausch gewählt werden können. Abgehört wird nicht nur der Regieausgang; vielmehr können in einer Tonregieanlage verschiedene Abhörpunkte angewählt werden. Das Vorhören erlaubt eine Kontrolle darüber, ob ein Signal überhaupt vorhanden ist oder nicht. Vorgehört werden Signalquellen, bevor sie in die Regieanlage übernommen werden. Parallel zur Abhörkontrolle ist eine umfangreiche optische Kontrolle mit geeigneten Messinstrumenten vorhanden. Sie wird mit dem Abhörlautsprecher auf die verschiedenen Abhörpunkte geschaltet. Die optische Kontrolle mit Messinstrumenten umfasst die Aussteuerungskontrolle mit dem Aussteuerungsmesser nach Pflichtenheft der öffentlich-rechtlichen Rundfunkanstalten 3/6 und die Kontrolle der Stereoparameter Kompatibilität und Korrelation mit dem Korrelationsgradmesser sowie die Kontrolle mit dem Stereosichtgerät (siehe Kap. 18.4). Im Gegensatz zur Abhörkontrolle ist die optische Kontrolle gleichzeitig an verschiedenen Punkten möglich, einerseits durch eine feste Zuordnung, andererseits durch die Anwahl von Messpunkten. Die Hauptanzeige ist aber stets an die Abhörkontrolle gekoppelt.
8.12.1
Einrichtungen und Kontrollpunkte für Abhören
Die Abhör- und Messeinrichtung umfasst die Regielautsprecher - angesteuert über die Abhöreinheit - und als Messinstrumente den Aussteuerungsmesser, den Korrelationsgradmesser sowie das Stereosichtgerät; die genannten Anzeigen können auch in einem Instrument zusammengefasst sein. Diese Einrichtungen sind parallel geschaltet und über Trennverstärker ausgekoppelt, um Pegeländerungen beim Aufschalten auf die Abhör- und Messpunkte zu vermeiden (Abb. 8/60).
Abb. 8/60. Kontrolleinrichtung Abhören und Messen.
498
Akustische und optische Signalüberwachung Die Abhörpunkte sind in einer Regieanlage so gewählt, dass eine Kontrolle des Tonsignals an allen betrieblich notwendigen Punkten möglich ist, sie haben Studiopegel und befinden sich hinter den Eingangs-, Gruppen und Summenpegelstellern, weitere Abhörpunkte liegen hinter den Hilfswegsummen, z. B. für Hall und Ausspielen, hinter den Tonsignalquellen wie Magnetbandmaschinen und Plattenspieler, in den Sendewegen u. a.; die Zahl der Abhörpunkte kann dadurch nochmals erheblich erweitert werden, dass alle Kontrollpunkte für Vorhören (siehe unten) auf Abhören/Messen übernommen werden können. Die Anwahl der Abhörpunkte ist i. Allg. in einem Tastenfeld zusammengefasst mit Ausnahme der Abhörpunkte hinter den Eingangspegelstellern. Diese befinden sich auch mechanisch dem Eingangskanal zugeordnet, z. B. mit der Funktionsbezeichnung „Solo". Ebenfalls beim Eingangskanal angeordnet ist gegebenenfalls der Schalter „Mute", mit dem ein Kanal still geschaltet werden kann. Bei Mute handelt es sich allerdings nicht um eine Abhörfunktion, sondern um eine echte Abschaltung des Kanals, die auch bei Aufnahme oder Übertragung wirksam ist. 8.12.1.1
Abhöreinheit
Mit der Abhöreinheit wird die Abhörlautstärke eingestellt; sie bietet aber auch die Einstellung einiger weiterer für die akustische Überwachung und Qualitätskontrolle wichtiger Abhörfigurationen. .Abb. 8/61 zeigt die Funktionseinheiten, Abb. 8/62 das Aussehen einiger Abhöreinheiten. Lautstärke: Eine generell empfehlenswerte Abhörlautstärke kann es nicht geben, da eine optimale Lautstärke in einem sehr komplexen Feld von Bedingungen, Forderungen und Phänomenen der Wahrnehmung steht. Als Orientierung muss zunächst die zu erwartende Abhörlautstärke des Hörers gelten, weiterhin die Originallautstärke am Ort des Mikrofons. Das ergibt für Musikproduktionen einen Richtwert von 80 bis 92 phon, für anspruchsvolle Sprachproduktionen von 70 bis 80 phon. Für die Sendung und Vorproduktion wird ein Wert von 60 bis 75 phon empfohlen. Bei erhöhter Lautstärke können insbesondere Störgeräusche mit einem tieffrequenten Spektrum, z. B. Brummen, besser wahrgenommen werden, weil das Gehör in diesem Frequenzbereich bemerkenswert unempfindlich ist (siehe Kap. 3.3.2). Hingegen nimmt die Klarheit, die Durchhörbarkeit einer Aufnahme, mit der Lautstärke ab, weil der Verdeckungseffekt mit der Abhörlautstärke zunimmt; Abb. 8/64 macht deutlich, wie der verdeckte Teil der Hörfläche mit zunehmendem Pegel nicht nur mit diesem wächst, sondern durch eine Abflachung der Kurven überproportional zunimmt. Auch die Eigenverzerrungen des Gehörs erhöhen sich hierbei und machen eine Beurteilung der Verzerrungen einer Aufnahme unsicher oder unmöglich.
499
Analoge Tonregieanlagen Gehörrichtige Einstellung der Abhörlautstärke in phon zwischen etwa 62 und 92 phon, zusätzlich Aus-Stellung
Einstellung der Balance für eine seitliche Verschiebung des Klangbildes
Seitenwechsel Phasenwechsel 180/ im linken Kanal
Reduktion der Lautstärke um einen einstellbaren oder festen Wert, einstellbar mit dem Einsteller „Kdo. DÄMPF."
Abhören Mono, entweder mit beiden Lautsprechern (Mitte) oder mit einem Lautsprecher (L, R); linker bzw. rechter Kanal ausschaltbar.
Einstellung der Dämpfung der Abhörlautstärke bei Kommando-Abgabe und bei Betätigung der LEISE-Taste
Abb. 8/61. Abhöreinheit, einstellbare Abhörfunktionen.
500
Akustische und optische Signalüberwachung
Abb. 8/62. Abhöreinheit, verschiedene Ausführungen.
Abb. 8/63. Abhöreinheit, Schaltungsaufbau.
501
Analoge Tonregieanlagen
Abb. 8/64. Mithörschwellen für Schmalbandrauschen von 160 Hz Bandbreite bei unterschiedlichen Pegeln LM des verdeckenden Rauschens.
Die höchste einstellbare Lautstärke von 92 phon birgt noch nicht die Gefahr einer Lärmschädigung des Gehörs, wenn Abhörsitzungen mit angemessenen Pausen unterbrochen werden. Für ununterbrochenes Abhören sind nur 85 phon zulässig (siehe auch Kap. 19). Die Einstellung der Abhörlautstärke ist „gehörrichtig", d. h., der Frequenzgang wird in Abhängigkeit von der Abhörlautstärke korrigiert. Nur bei einem Wert, der bei 80 oder 86 phon liegt, wird das Tonsignal im Frequenzgang linear übertragen; dieser Wert ist auf der Skala besonders gekennzeichnet. Die Notwendigkeit für gehörrichtige Lautstärkeeinstellungen ergibt sich aus dem Verlauf der Kurven für gleiche Lautstärkepegel (siehe Kap. 3.3.1): Demnach ist die Wahrnehmung der Klangfarbe in erheblichem Maße von der jeweiligen Lautstärke abhängig; bei geringer Lautstärke ist das Gehör für tiefe Frequenzen ziemlich unempfindlich; würde der Pegel in diesem Frequenzbereich bei der Wiedergabe nicht angehoben, würde das Klangbild flach wirken. Die gehörrichtige Einstellung der Lautstärke sorgt dafür, dass die Klangfarbe bei allen Abhörlautstärken gleich bleibt. Selbstverständlich müssen auch andere Abhöreinrichtungen, etwa im HiFi-Bereich, über eine solche Lautstärkeeinstellung verfügen. Die Korrekturen folgen den Kurven gleicher Lautstärkepegel bei zweiohrigem Hören von Sinustönen im freien Schallfeld (DIN 45 630). Deshalb ist als Einheit auch die sonst bei der Lautstärkemessung inzwischen wenig verwendete Einheit phon richtig. Für Messungen am Lautsprecher ist es wichtig, die Einstellung ohne Frequenzgangkorrektur zu kennen. Abb. 8/65 zeigt an einem Beispiel die Kurven der gehörrichtigen Lautstärkeeinstellung zusammen mit den zugehörigen Kurven gleicher Lautstärkepegel. Balance: Mit dem Balancesteller kann das Klangbild probeweise um meist 6 dB in 1- oder 1,5-dBStufen nach links oder rechts verschoben werden. Damit sind genaue Aussagen über eine notwendige Pegelkorrektur z. B. für die Sendung oder Überspielung zu machen. Bei eingeschaltetem Balancesteller leuchtet eine Lampe. Seitenwechsel: Mit dieser Funktion kann einerseits bei einem nur einkanalig auftretenden Fehler schnell kontrolliert werden, ob er im Übertragungsweg entstanden ist oder nur im Lautsprecher selbst auftritt. Bei Seitentausch wandert ein Lautsprecherfehler nicht mit. Andererseits kann mit dieser Funktion probeweise ein Seitentausch vorgenommen werden, falls dies von der Regie gewünscht wird. Da bei Seitentausch eine Mittenschallquelle ihren Hörort nicht verändert, 502
Akustische und optische Signalüberwachung kann in einem komplexen Klangbild auch schnell bestimmt werden, welche Schallquellen Mittenschallquellen sind.
Abb. 8/65. Gehörrichtige Lautstärkeeinstellung und zugehörige Kurven gleicher Lautstärkepegel.
Mono: Die Abhörfunktion Mono erlaubt eine gehörmäßige Kontrolle über die Kompatibilität einer Stereoaufnahme; es kann also im Einzelfall darüber geurteilt werden, ob eine Stereoaufnahme auch in ihrer Monofassung außer den systembedingten Einschränkungen ein vollwertiges Klangbild bietet. Die meisten Abhöreinheiten bieten die Möglichkeit, das Monoklangbild entweder auf den linken oder rechten Lautsprecher oder auf beide gleichzeitig aufzuschalten. Die Monofunktion wird auch für die Prüfung der Phasenlage der beiden Stereokanäle benötigt. Phasenwechsel: Mit der Funktion Phasenwechsel können eventuelle Verpolungen überprüft werden. Verpolungen zwischen den Kanälen eines Stereosignals wirken sich bei Monowiedergabe katastrophal aus, weil Mittensignale ausgelöscht werden, bei der Sendung werden Nachrichten und Ansagen, bei Musiksendungen Mittenschallquellen - etwa Solisten - ganz oder teilweise ausgelöscht. Somit können Verpolungen durch die Funktion Mono festgestellt werden. Wird stereofon abgehört, so kann es keine Auslöschungen geben; Verpolungen verursachen hierbei ein„drückendes" Gefühl auf das Gehör, die Schallquelle ist nicht lokalisierbar, sie scheint sich 503
Analoge Tonregieanlagen an einem nicht näher bestimmbaren Ort außerhalb der Lautsprecherbasis zu befinden; man spricht hier deshalb auch von Überbasis oder Delokalisierung. Dieser Effekt wird umso undeutlicher, je weiter die Phantomschallquelle aus der Mitte entfernt ist, Seitenschallquellen bleiben bei Phasentausch unverändert. Gerade wenn deutlich hörbare Mittenschallquellen fehlen, wie vielfach bei E-Musik, so kann die Funktion Phasenwechsel der Abhöreinheit hilfreich sein, um Verpolungen zweifelsfrei festzustellen. Tab. 8/4 zeigt die Auswirkungen verpolter Kanäle einer Stereoaufnahme. Tab. 8/4. Auswirkungen von Verpolungen auf das Klangbild. Wiedergabe
Monowiedergabe, ein Kanal phasenvertauscht Stereowiedergabe, ein Kanal phasenvertauscht
Stereoaufnahme
Mittenschallquellen ausgelöscht Mittenschallquellen delokalisiert, „drücken" auf das Gehör
Mittenschallquelle bei Stereoaufnahmen oder Monoaufnahme ausgelöscht
delokalisiert, „drücken" auf das Gehör, keine Auslöschung
Seitenschallquelle bei Stereoaufnahmen unverändert
unverändert
Leise, Kommando-Dämpfung: Die Leise-Taste schaltet die Abhörlautstärke um einen festen Wert von z. B. 10 dB oder einstellbar mit dem Einsteller „Kommando-Dämpfung" bis 20 oder 30 dB zurück. Bei Telefonaten, Diskussionen u. a. bleibt so der Kontakt zum Studio bestehen, bei der Fortsetzung der Aufnahmesitzung wird die bisherige Abhörlautstärke wiederhergestellt.
8.12.2
Vorhören, Solo, Mute
Das Vorhören von Signalen ist für eine rasche Kontrolle über das Vorhandensein eines Signals an bestimmten Kontrollpunkten vorgesehen. Der Vorhörlautsprecher ist deshalb ein einfaches kleines Lautsprechersystem, das mit einem Leistungsverstärker in einer Einheit integriert ist. Kontrollpunkte sind in erster Linie die Eingänge der Eingangspegelsteller, u. U. auch die Eingänge der Gruppen- und Summenpegelsteller und andere Kontrollpunkte für Fremdsignale (Abb. 8/66). Die Anwahl der Kontrollpunkte ist den einzelnen Kanälen zugeordnet. Die Vorhöreinrichtung selbst kann unterschiedlich aufgebaut sein: in Mono, in Stereo mit zwei Lautsprechern oder in Stereo mit Monobildung für einen Lautsprecher; die Funktion Vorhören kann auch wie Abhören mit einer optischen Kontrolle verbunden sein, i. Allg. ist dann nur ein Aussteuerungsmesser vorhanden. Auch für die Anwahl der Kontrollpunkte gibt es verschiedene Möglichkeiten: Durch gegenseitige Verriegelung kann jeweils nur ein Kontrollpunkt angewählt werden oder ohne gegenseitige Verriegelung werden die Signale der angewählten Kontrollpunkte in einer Knotenpunktschaltung addiert. Der Vorhörlautsprecher dient auch zur Wiedergabe ankommender Kommandos. Dafür muss er stets wiedergabebereit sein, auch wenn die Lautstärke, die an der Vorhöreinheit eingestellt werden kann, zurück genommen ist. Zudem benötigt der Kommandolautsprecher eine 504
Akustische und optische Signalüberwachung einstellbare Kommando-Dämpfung, wenn ein Kommando abgegeben wird, während von derselben Stelle ein Kommando zurückkommt. Abb. 8/67 zeigt eine mögliche Anordnung von Kontrollpunkten für Abhören/Aussteuern und Vorhören.
Abb. 8/66. Kontrolleinrichtung Vorhörlautsprecher.
Mit „Solo“ kann ein einzelner Kanal zur Kontrolle und Fehlerortung abgehört werden, „Mute“ unterdrückt den jeweiligen Kanal, nicht nur beim Abhören, auch auf der Aufnahme.
Abb. 8/67. Kontrollpunkte für Abhören/Aussteuerungsmesser.
8.12.3
Mithören
Die Mithöreinrichtung bzw. der Mithörweg ist ähnlich wie der Ausspielweg aufgebaut. Diese Schaltungen werden überwiegend in den Tonregieanlagen der Senderegien angewandt. Die Sendung soll, solange keine Ansage aus dem Sprecherstudio erfolgt, auch im Sprecherstudio mitgehört werden können. Die Lautsprecherwiedergabe wird bei einer Ansage – bei geöffnetem Studio-Mikrofonregler - oder bei eingeschaltetem Rotlicht über den Regler-Endkontakt selbsttätig abgeschaltet, um Rückkopplungen zu verhindern. Für den Sprecher, Moderator oder DJ, der durch die Sendung führt, ist bei bestimmten Sendungen, z. B. Sendungen mit Konferenzschaltung, die Möglichkeit gegeben, auch bei geöffnetem Mikrofonregler über Kopfhörer mitzuhören. Der Mithörweg ist umschaltbar für 505
Analoge Tonregieanlagen Kommandoansagen. Der Kommandoweg über den Mithörlautsprecher ist natürlich auch dann blockiert, wenn der Studiomikrofonkanal auf Sendung ist.
8.12.4
Pegeltongenerator
Der Pegeltongenerator kann zum Einpegeln eines Übertragungswegs und zur Kontrolle des Frequenzgangs von Regieanlagen und anderen studiotechnischen Einrichtungen verwendet werden. Der Generator hat mehrere anwählbare Frequenzen, nach Pflichtenheft 3/5 40 Hz, 1, 6,3, 11,5 und 15 kHz. Außerdem verfügt ein Generator über mehrere erdfreie, symmetrische Ausgänge. Der Pegel ist sowohl kontinuierlich als auch fest auf Studiopegel + 6 dBu einstellbar. Neben dem Sinuston steht eventuell auch weißes und rosa Rauschen zur Verfügung. Der Pegelton kann über Verteiler, Klinken und Klinkenschnüre an alle Einschleifpunkte einer Anlage gelegt werden. Außerdem kann er an bestimmten Wahlschaltern zur Verfügung stehen, z. B. am Eingangswahlschalter der Kanäle.
8.13
Tonregieanlagen in Streifentechnik
Tonregieanlagen, die nach dem System der Streifentechnik aufgebaut sind, integrieren jeweils mehrere der beschriebenen Module zu einer mechanischen und elektrischen Einheit, einem Streifen oder einer Stange, daher auch die Bezeichnungen Streifen- oder Stangentechnik. Um flexibel auf bestimmte Anforderungen eingehen zu können, sind die einzelnen Einheiten mit verhältnismäßig umfangreichen Funktionen ausgestattet. Der Vorteil der Streifentechnik liegt zunächst einmal in ihrer wirtschaftlicheren Herstellbarkeit. Die Herstellung einheitlicher Ein- und Ausgangsbedingungen bei symmetrischer, erdfreier Leitungsführung zwischen den Modulen ist bei der Streifentechnik nur am Ein- und Ausgang der Streifen notwendig. Dadurch kann die elektrische Schaltungstechnik erheblich vereinfacht werden, v. a. Übertrager können eingespart werden. Weiterhin kann die Streifentechnik kompakter aufgebaut, also leichter und Platz sparender sein, was besonders für transportable Anlagen oder für Anlagen in Übertragungswagen vorteilhaft ist. Während die Modultechnik nur in bester Qualität existiert, zeigen Pulte in Streifentechnik ein breites Qualitätsspektrum für die unterschiedlichsten Anforderungen. Die einzelnen Tonregiefunktionen werden mechanisch und elektrisch zu den folgenden Streifeneinheiten zusammengefasst: Eingangseinheit, Gruppeneinheit, Summeneinheit, Hilfssummeneinheit, Ausspieleinheit, Monitor- oder Überwachungseinheit und Kommandoeinheit; dazu können weitere Funktionseinheiten kommen, die hier nicht besonders aufgeführt werden, z. B. Generator, Regelverstärker, Signalisation, sofern diese Funktionen nicht in die oben genannten Einheiten integriert sind. Die Impedanzbedingungen und Leitungsführungen an den Eingängen für externe Signalquellen wie Mikrofone, Leitungen, Bandmaschinen etc. entsprechen weitgehend den Bedingungen, die bei der Modultechnik herrschen: Mikrofoneingänge und Leitungseingänge sowie die Eingänge für die Bandmaschinen sind symmetrisch, u. U. auch erdfrei. Die Ausgänge sind i. Allg. symmetrisch und erdfrei mit Ausnahme des Kopfhörerausgangs. 506
Tonregieanlagen in Streifentechnik Die Bedingungen an Klinken und Verteilern entsprechen zumindest bei einfacheren Anlagen nicht den Verhältnissen bei Anlagen in Modultechnik; im einfachsten Fall sind sie unsymmetrisch bei einem gerätespezifischen Pegel. In diesem Fall können aber gegebenenfalls durch Anpassverstärker symmetrisch-erdfreie Übergänge mit Studiopegel geschaffen werden. Einen störungsfreieren Betrieb gewährleisten symmetrische Einschleifpunkte mit Studiopegel. Als Insertpunkte kommen vor allem die Pegelstellereingänge (PF-Insert) der Eingangs-, Gruppenund Summeneinheiten in Betracht. Die Streifenbreite beträgt typisch 30 oder 40 mm. Die Streifen werden in mechanisch standardisierte Pultrahmen eingesetzt. Dabei wird vielfach eine dreigeteilte Bedien- und Anzeigenoberfläche des Pults gewählt (Abb. 8/68): In einem waagerechten Feld (A) direkt vor dem Bedienenden sind die Pegelsteller untergebracht, im anschließenden, leicht ansteigenden Feld (B) in erster Linie die Einstellungen der Eingangseinheiten und Hilfssummen sowie die Monitoreinheiten, in dem anschließenden senkrechten Feld (C) befinden sich die Anzeigeinstrumente. Bei einer Zweiteilung des Bedienfeldes sind Feld A und B zusammengefasst.
Abb. 8/68. Beispiel für die Unterteilung der Bedienfläche einer Tonregieanlage in Streifentechnik, A Pegelsteller, B Einstellungen an den Eingangseinheiten und Hilfswegen u. a., C Anzeigeinstrumente.
Im Folgenden werden typische Einheiten beispielhaft mit ihren üblichen Funktionen beschrieben. Zu Grunde gelegt werden Regieanlagen, die in ihren Funktionen und in ihrer Qualität mit Anlagen in Modultechnik vergleichbar sind. Technische Voraussetzung der beschriebenen Einheiten ist noch die mechanische Zuordnung von Signalführung und bearbeitung mit den zugehörigen Stellgliedern. Eingangseinheiten: Eingangseinheiten fassen die Signalverarbeitungsfunktionen zusammen, die vom Signaleingang bis zur Mischung vorzunehmen sind, also v. a. die Anwahl der Signalquelle, ihre Vorverstärkung, Filterung, Richtungseinstellung, die Aufschaltung der Spannungsversorgung für die Mikrofone, die Abzweigung von Signalen für die Hilfswege und die Pegelsteller für die Verstärkereinstellung; weiter gehören zur Eingangseinheit einige Funktionen für die Signalkontrolle: Vorhören vor Pegelsteller, Abhören des jeweiligen Eingangskanals (Solo) und Stummschalten des jeweiligen Eingangskanals (Mute). Schließlich enthält der Eingangs507
Analoge Tonregieanlagen kanal i. Allg. noch die Anwahl eines Direktausgangs für eine Mehrspuraufzeichnung sowie die Anwahl der Gruppe oder Summe. Diese Grundfunktionen können unterschiedlich ausgelegt sein, von wenigen, nur gerade die notwendigsten Funktionen umfassenden, bis hin zu hoch komfortablen, komplexen Einstellmöglichkeiten, gerade im Bereich der Filter. Die genannten Funktionen können durch weitere ergänzt sein, insbesondere durch Begrenzer, Kompressoren und Expander. Es stehen Eingangseinheiten in Mono- und Stereoausführung zur Verfügung. Eine Variante der Eingangseinheit ist die Hochpegeleinheit in Mono oder Stereo. Sie kann auf die Einstellungen für Mikrofoneingänge verzichten. Regieanlagen, die z. B. nur für Abmischungen von Mehrkanalaufnahmen genutzt werden, kommen mit MonoHochpegeleinheiten aus. Für Mehrspurproduktionen werden 16, 24 oder mehr Ausgänge benötigt. Dies kann durch Direktausgänge der einzelnen Eingangseinheiten realisiert werden, wie sie vielfach vorhanden sind. Vielseitiger wird ein Pult allerdings dann, wenn die entsprechende Anzahl von Gruppen gebildet werden kann, da so eine Vormischung einzelner Instrumentengruppen möglich ist. Die Ausstattung von Regieanlagen mit elektronischen Pegelstellern (VCA-Fader) anstelle der mechanischen Pegelsteller erweitert die Funktionen einer Anlage nochmals erheblich. Gruppen- und Summeneinheiten: Da Einstellungen bei einer Produktion hauptsächlich in der Eingangseinheit vorgenommen werden, sind Gruppen- und Summeneinheiten vergleichsweise einfach aufgebaut. Im Wesentlichen enthalten sie einen Mischverstärker mit Sammelschiene, einen Stereopegelsteller mit Vorhörtasten und meist Ausgangswahlmöglichkeiten. Sofern eine Gruppenbildung der Eingangseinheiten mit Gruppeneinheiten vorgesehen ist, verfügt diese über freie Zuordnungsmöglichkeiten der Gruppeneinheiten zu den Summeneinheiten; bei diesem Regietischaufbau gehören zur Gruppeneinheit auch Ausspielwege wie in den Eingangseinheiten. Vielfach sind in die Gruppen- bzw. Summeneinheit auch Regelverstärker integriert. Die Einheiten sind grundsätzlich stereofon aufgebaut. Hilfssummeneinheit: In der Hilfssummeneinheit werden die Signale der einzelnen Hilfssummen verstärkt und im Pegel eingestellt. Die Einheit verfügt über einfach aufgebaute Filter, eine Mute-Taste, Vorhören und über Kommandoeingabe (Talk back). Monitoreinheit: Die Monitoreinheit entspricht im Wesentlichen der in Kap. 8.12 besprochenen Abhöreinheit, sie schließt die Anwahl der Abhörquellen ein. Weiter ist i. Allg. ein Kopfhöreranschluss mit verschiedenen Abhörmöglichkeiten vorgesehen, so dass neben der Abhörkontrolle über Studiolautsprecher z. B. gleichzeitig über Kopfhörer vorgehört werden kann. Weiter gehört zur Monitoreinheit u. U. auch die Studiosignalisierung (Rot- und Grünlicht). Instrumenteneinheit: Die Instrumenteneinheit vereint die optischen Kontrollinstrumente (Aussteuerungsmesser, Korrelationsgradmesser, Stereosichtgerät) für Summe und Hilfssummen, weiter die Anzeige des Signalisationszustands im Studio und einen Vorhörlautsprecher. Kommandoeinheit: Die Kommandoeinheit - als eigene Einheit oder in die Hilfssummen- oder Monitoreinheit integriert - enthält den Mikrofonverstärker für das Kommandomikrofon mit dem zugehörigen 508
Tonregieanlagen in Streifentechnik Pegeleinsteller sowie Wahlmöglichkeiten für die Kommandoabgabe ins Studio und auf den Summen- und die Hilfssummenwege. Summen-Ausgangseinheit: Diese Einheit ermöglicht es, an jede Summe beliebige Hauptausgänge anzuschalten, bzw. bei einer Regieanlage mit getrennter Gruppen- und Summenbildung den Summeneingängen beliebige Gruppenausgänge zuzuordnen.
Standards Technische Pflichtenhefte der öffentlich-rechtlichen Rundfunkanstalten in der Bundesrepublik Deutschland, hg. vom Institut für Rundfunktechnik (IRT), München: [3/1]
Allgemeine Richtlinien für Entwicklung, Fertigung und Lieferung von Studiogeräten und -anlagen der Tonfrequenz- und Videofrequenztechnik
[3/2]
NF-Koppelfelder
[3/3]
Modulationskabel
[3/5]
Tonregieanlagen
[3/6]
Aussteuerungsmesser
Literatur [8.1]
Breitkopf, K. (Hg.): Rundfunk, Faszination Hörfunk, 2006, Hüthig
[8.2]
Hengstler, R., Mücke, H. und Rindfleisch, H.: Technik im Rundfunk, 1985, Mensing
[8.3]
Hoeg, W. und Sahr, R.: „S 2000: Zur Einordnung des neuen Tonstudiosystems in die Generationsentwicklung der Tonstudiotechnik“, in: Techn. Mitt. RFZ, 34,1, 1990, S. 1ff.
[8.4]
Kahmann, W. G. und Schulz, J.: „Mischpulte der 700-Si-Tontechnik“, in: Techn. Mitt. RFZ, 19,2, 1975, S. 45ff.
[8.5]
Hoeg, W., Scholz, K.-P., Steinke, G. und Tümpfel, L.: „APA-RBI S 2000. Ein mikrorechnergesteuertes teilautomatisiertes Programmabwicklungssystem für Radio Berlin international“, in: Techn. Mitt. RFZ, 30, 1, 1986, S. 1ff.
[8.6]
Kramer, D. und Ziemer, A.: „Auswirkungen des Technologiewandels auf Instandhaltung beim Rundfunk“, in: Rundfunktechn. Mitt. 1987, S. 40 ff.
[8.7]
Kersten, H.: „Tendenzen in der Auslegung von Tonregieanlagen“, in: Rundfunktechn. Mitt. 1968, S. 226 ff.
[8.8]
Dickreiter, M.: Handbuch der Tonstudiotechnik, 1. Aufl. 1976, Saur
[8.9]
Jüngling, G.: „Erdung, Leitungsführung und Anschlusstechnik im Studio“, in: Studio-Magazin 1983, S. 30 ff. 509
Analoge Tonregieanlagen [8.10]
Schneider, M. und Wurm, H.: „Rechnergesteuerte Schaltraumanlage im Hörfunk des Südwestfunks“, Rundfunktechn. Mitt. 1980, S. 241 ff.
[8.11]
Wurll, P.: „Ein vollelektronischer Analogschalter mit Studioqualitätsdaten in MOSTechnk für dynamische und statische Ansteuersignale“, in: Rundfunktechn. Mitt. 1976, S. 247 ff.
[8.12]
Wurll, P.: „Modular aufgebaute Durchschalteinrichtungen für fernsteuerbare Verteiler“, in: Fernseh- und Kino-Technik 1976, S. 193 ff.
[8.13]
Frömert, H.: „Leitgedanken zur Planung von Kreuzschienenverteilern in: Rundfunkund Fernsehanstalten“, in: Fernseh- und Kino-Technik 1973, S. 396 ff. und 435 ff.
[8.14]
Danilenko, L.: „Wie spart man Koppelpunkte“, in: Rundfunktechn. Mitt. 1972, S. 278 ff.
[8.15]
Gerber, W.: Knotenpunktbildungen in Ton-Studiomischpultern“, in: Radio Mentor 1969, H.
510
9
Beschallung
Beschallung wird immer dann eingesetzt, wenn ein akustisches Nutzsignal zu leise ist und deshalb für größeres Publikum lauter gemacht werden soll. Selten wird Tontechnik allerdings so kontrovers diskutiert wie bei Beschallungseinsätzen. Sowohl Laien als auch Fachleute sind sich häufig uneins darüber, ob der Ton bei einer Beschallung gut oder schlecht sei. Während dem einen die Beschallung zu leise ist, so ist sie dem anderen zu laut, dem einen ist sie zu scharf und spitz, dem anderen dröhnt es zu sehr oder es ist zu dumpf. Nur wenn es pfeift, also eine Rückkopplung oder ein Feedback entsteht, dann herrscht Einigkeit über die Qualität der Beschallung. Dieses Pfeifen scheint demnach ein Kriterium zu sein, bei dem eine gewisse Objektivität zu erzielen ist. Jeder kennt es, beim Kinderchor im sonntäglichen Gottesdienst, der über die Kirchenlautsprecher hörbar sein soll, bei öffentlichen Rednerveranstaltung und Podiumsdiskussionen mit Publikum oder bei Rockkonzerten. Überall hat man schon erlebt, dass es pfeift. Tatsache ist, dass die Qualität einer Beschallung dann als gut empfunden wird, wenn sie eigentlich nicht wahrgenommen werden möchte, sondern als Unterstützung des „natürlichen“ Originalschallereignisses dient. Beschallung ist heute ein wichtiger Baustein bei der „öffentlichen“ Klanggestaltung. So stützt sich darauf der Berufszweig des Sounddesigners, der weit über die Grenzen einer reinen Schallpegelverstärkung alle Register der Elektro- und Psychoakustik zieht. Doch was passiert eigentlich bei der Beschallung? Im Gegensatz zum Studio, in dem die Aufnahme und Wiedergabe in akustisch getrennten Räumen stattfinden, sind bei Beschallung die Lautsprecher in der gleichen akustischen Umgebung wie die zu leise Schallquelle, die verstärkt werden soll. Was nun passiert, ist, dass die Schallwellen, die vom Lautsprecher abgestrahlt werden, gleichzeitig wiederum am Mikrofon ankommen, erneut verstärkt und noch lauter vom Lautsprecher abgestrahlt werden. Diese immer lauter werdende Verstärkungsschleife, die in Bruchteilen einer Sekunde entstehen kann, ist die Ursache für das Pfeifen bei einer akustischen Rückkopplung. Warum funktioniert manchmal Beschallung, manchmal jedoch überhaupt nicht? Ein Beispiel: Bei einer Veranstaltung in einem halligen Raum soll ein Chor auftreten. Bei der Probe im leeren Saal werden die Stimmen des Chors wunderbar von der Raumakustik getragen. Auf eine Beschallung des Ensembles wird deshalb verzichtet. Während der Veranstaltung ist der Raum jedoch voll mit Leuten, die bereits bei den Eröffnungsansprachen ihren Geräuschpegel nur unwesentlich dämpfen. Die Redner setzen sich mit der Beschallungsanlage noch einigermaßen gegen den Lärmpegel der Besucher durch. Wenn aber später der Chor auftritt, ist er gegen das Saalpublikum so leise, dass er in dem Raum ohne Verstärkung gar nicht richtig wahrgenommen werden kann. Viele bedauern dies, finden sich damit ab und reden dafür noch lauter. Der Chor hat keine Chance, angemessen gehört zu werden.
511
Beschallung
9.1
Raumakustik unter der Berücksichtigung von Beschallungsanlagen
9.1.1
Reflexionen
In Kap. 1.2 sind die charakteristischen Merkmale der Raumakustik beschrieben, wie die Akustik eines Raumes entsteht und wie sie sich auf die Schallwahrnehmung in diesem Raum auswirkt. Davon ist die Beschallungstechnik in besonderem Maße betroffen, denn ein Schallereignis, das in einer akustisch wirksamen Umgebung aufgenommen wird, soll durch Beschallung wiederum in der gleichen akustisch wirksamen Umgebung abgestrahlt werden. Das bedeutet, dass bei der Verwendung von Beschallungslautsprechern die hörbare Räumlichkeit, beispielsweise der Nachhall eines Raumes, deutlich verstärkt wird. Es sei denn, durch gezielten und richtigen Beschallungseinsatz wird die zusätzliche Anregung des Nachhalls vermieden oder zumindest reduziert.
9.1.2
Erste Reflexionen
Wände, Decken, Böden und alle sonstigen Flächen in einem Raum erzeugen in einem vorhandenen Schallfeld Reflexionen. So werden nicht nur die Schallwellen der Lautsprecher das Publikum erreichen, die direkt auf die Zuhörer abgestrahlt werden, sondern ein großer Anteil der Schallwellen wird an den Flächen des Raumes reflektiert und als Reflexionen n-ter Ordnung beim Zuhörer und am Mikrofonstandort ankommen. Abhängig von der Bedämpfung der Reflexionen haben diese energiereichen Wellen noch einen hohen Schalldruckpegel. Ist der Summenpegel der Reflexionen am Mikrofonstandort genauso hoch wie der Nutzpegel der Schallquelle die verstärkt werden soll, ist die Rückkopplungsgrenze erreicht. Aber auch die Reflexionen, die nicht zum Mikrofonstandort reflektiert werden, sondern das Publikum erreichen, überlagern sich mit dem Direktschall aus den Lautsprechern und können deutlich hörbare Kammfiltereffekte bilden.
Abb. 9/1. Lautsprecher mit Direktschall zum Zuhörer und einer Reflexion über die Wand.
Abb. 9/1 zeigt, dass die gesamte Schallenergie, die von der Beschallungsanlage in den Raum abgestrahlt wird und nicht von den Zuhörern absorbiert werden kann, als Diffusfeld im Raum die Hörbarkeit des Nutzschalls negativ beeinflusst. 512
Raumakustik unter der Berücksichtigung von Beschallungsanlagen
9.1.3
Fokussierung
Die Geometrie eines Raums hat wesentlichen Einfluss auf die Qualität der Beschallung. Während bei ebenen Flächen einfallender und reflektierter Schall identische Winkel aufweisen, die wiederum ebene Flächen erzeugen, bilden gebogene Flächen an Wänden oder Decken einen Fokussierungspunkt in der Mitte des Kreisbogens. An dieser Stelle werden, wie bei einem Parabolspiegel, alle in den Bogen eintreffenden Schallwellen gebündelt und fokussiert. Die Schallenergie an diesem Punkt steigt an. Außerhalb des Fokus nimmt die Energie allerdings steil ab und ist oft kaum noch wahrnehmbar. In der Praxis bedeutet dies, wenn im Fokuspunkt ein Mikrofon steht, wird kaum eine Verstärkung des Nutzsignals möglich sein, da die fokussierte Energie sehr schnell den Pegel des Nutzsignals erreicht und zu einer Rückkopplung führt. Die Rückkopplung entsteht, bevor die Beschallung überhaupt wahrgenommen wird. Es kann nur eine minimale Verstärkung erzielt werden und die Zuhörer außerhalb des Fokuspunktes nehmen die Beschallung nicht mehr wahr. Beispiele für solche Fokussierungen sind rund gebaute Foyers oder Gewölbekeller, in denen gerne Veranstaltungen stattfinden, die dann schwierig zu beschallen sind. Aber auch professionelle Produktionsstätten, wie z. B. Fernsehstudios mit gebogenem Rundhorizont und einer schallharten Folie als Fläche für Hintergrundprojektionen, eignen sich wenig für Beschallung. Idealerweise sollte der Bereich um den Fokuspunkt weder für Zuhörer noch für Darsteller oder Mikrofone genutzt werden. Wenn das nicht geht, muss vermieden werden, in den Parabolspiegel Schallenergie zu strahlen.
9.1.4
Stehende Wellen
Durch die geometrische und akustische Ausgestaltung eines Raumes ergeben sich deutliche ortsabhängige Unterschiede des sich ausbreitenden und allmählich aufbauenden Diffusschallfeldes. Bei einer Saalbeschallung ist der Pegel des Diffusfeldes beim Publikum meist genauso hoch wie am Rednerpult. Zusätzlich bilden sich zwischen parallelen Flächen stehende Schallwellen aus mit einer Frequenz, deren Wellenlänge als Vielfaches genau zwischen diese Flächen passt. Es kommt zu einer Überlagerung der primären und der reflektierten Welle. Je nach Phasenlage, abhängig an welcher Stelle man sich zwischen diesen Flächen bewegt, wird diese Frequenz der stehenden Wellen im Schwingungsbauch sehr laut oder im Knoten gar nicht wahrgenommen. Das gilt auch für die Mikrofonierung. Ein Druckempfänger mit kugelförmiger Charakteristik wird im Schwingungsbauch seine maximale Mikrofonspannung erzielen, ein Druckgradientenempfänger jedoch am Schwingungsknoten, weil dort der Druckgradient am stärksten ist. In der Praxis bedeutet dies, dass das von einem Mikrofon aufgenommene Tonsignal an einer bestimmten Stelle im Raum überhaupt nicht mit unserem Höreindruck übereinstimmen muss. Dies führt zu überraschenden Ergebnissen bei dem Versuch, eine Beschallungsanlage mit einem Messmikrofon und einem Terzband-Analyzer einzumessen. Das spektrale Ergebnis wird immer ein Zufallsprodukt des einzelnen Messpunktes sein. In einem Regieraum kann es genau diesen idealen Abhörpunkt geben, eine Beschallung muss jedoch für viele Menschen an unterschiedlichen Plätzen optimiert werden. Sie sollte deshalb weitgehend ortsunabhängig sein. 513
Beschallung
9.1.5
Raumresonanzen
So wie stehende Wellen als Energiespeicher wirken, tragen Resonanzen in einem Raum ebenfalls zur Energiebilanz bei. Resonatoren, beispielsweise ein schwingender Bühnenboden mit einer tonaler Resonanzfrequenz oder Verkleidungen an einer Wand, können Schall verstärken oder mindern. Auftreffende Schallwellen werden diese Resonatoren frequenzabhängig zum Schwingen bringen. Was hörbar wird ist, dass diese Energie beispielsweise vom Bühnenboden als Flächenstrahler bei genau dieser Frequenz in den Raum abgestrahlt wird und wesentlich länger den Raumschall anregt als das Originalsignal. Es entsteht eine starke tonale Überhöhung genau dieser Frequenzbereiche. Liegt diese Resonanzfrequenz im tieffrequenten Bereich, lassen sich kurze „trockene“ Bassimpulse nicht angemessen wiedergeben. Das Signal wird als dröhnend empfunden. Es bleibt nichts anders übrig, als den entsprechenden Frequenzbereich aus dem Primärsignal zu filtern, damit diese Resonanz erst gar nicht angeregt wird. So werden häufig z. B. die Basstrommel oder Bass- und Gitarrenverstärker, die genau diese Tonhöhe abstrahlen, entsprechend gezielt verstimmt oder bedämpft.
9.1.6
Nachhall
Das räumliche Schallfeld wird durch die drei Größen Direktschall, erste Reflexionen und Nachhall bestimmt (siehe Kap. 1.2.4). Unter Nachhall wird die Anzahl der vielen restlichen Reflexionen verstanden, die sich zu einem Nachhallgemisch überlagern, wobei die Intensität und damit die Dauer des Nachhalls frequenzabhängig sind. Je nachdem, wie Absorber oder Reflektoren aus unterschiedlichen Materialien - schwingenden Platten, Stoffwänden, Vorhängen, schallharten Flächen, Lochplatten etc. - die Schallwellen frequenzabhängig absorbieren oder reflektieren, reduziert sich in diesem Frequenzbereich die Nachhallzeit unterschiedlich. Resonatoren hingegen bewirken genau das Gegenteil. Sie verlängern die Nachhallzeit frequenzabhängig, im Falle von stehenden Wellen sogar ortsabhängig. In Räumen ist die Nachhallzeit bei tiefen Frequenzen deutlich länger als bei hohen Frequenzen. Das wäre der für die Hörerfahrung normale Zustand. Verlängerungen der Nachhallzeit in einzelnen Frequenzbereichen durch Resonanzen stören jedoch die Schallübertragung in einem Raum sehr empfindlich. Zum einen werden sie als Klangverfärbung wahrgenommen und zum anderen ist genau der erhöht gespeicherte Energieanteil in diesen Resonanzen verantwortlich für bevorzugt auftretende Rückkopplungsfrequenzen. In der Regel entsprechen die typischen Rückkopplungsfrequenzen in einem Raum genau diesen Resonanzfrequenzen oder ihren Vielfachen. Im Idealfall kann die Beschallung den natürlichen Nachhall im Veranstaltungsraum in einen evtl. notwendigen künstlichen Nachhall integrieren. Das heißt, es werden die prominenten Frequenzbereiche des Nachhalls aus dem Ausklingvorgang des künstlichen Hall gefiltert.
9.1.7
Hallradius
Ausgehend von einer kugelförmig abstrahlenden Schallquelle, nimmt der Schalldruckpegel mit zunehmendem Abstand von der Schallquelle nach dem Abstandsgesetz ab. Jede Abstandsverdopplung reduziert den direkt abgestrahlten Schallanteil durchschnittlich um etwa 6 dB. 514
Grundlegende Beschallungskonzepte Dem gegenüber ist der Schallpegel des Diffusfelds bei längerer Nachhallzeit an allen Stellen im Raum gleich, abgesehen von den Resonanzen und stehenden Wellen wie zuvor beschriebenen. Also gibt es in jedem Raum einen Punkt, an dem der Direktschall einer Schallquelle und der Pegel des Diffusfeldes gleich laut sind, d. h. den gleichen Schalldruckpegel haben. Dieser Abstand wird als Hallradius rH um eine kugelförmig abstrahlende Schallquelle bezeichnet. Betrachtet man nun den Fall, dass in diesem Raum ein einzelner Lautsprecher als Kugelschallquelle betrieben wird, so gelten die bereits bekannten Gesetze für den Hallradius (siehe auch Kap. 1.2.4.2). Wenn in diesem Raum zusätzlich ein zweiter Lautsprecher eingesetzt wird, der das gleiche Signal mit gleicher Lautstärke abstrahlt, wird sich der Pegel des Diffusfeldes erhöhen, d. h. der Hallradius um den ersten Lautsprecher wird sich dementsprechend verkleinern. Das bedeutet, je mehr Lautsprecher in einem Raum betrieben werden, desto kleiner wird der Hallradius. Wenn man nun berücksichtigt, dass der Hallradius eines großen Konzertsaales z. B. bei 6 m liegt, hat das zur Folge, dass das Publikum in der Regel im Diffusfeld und nicht im Direktschallfeld eines kugelförmig abstrahlenden Lautsprechers sitzen wird. Diese Überlegung ist eine wesentliche Grundlage bei der Planung und dem Betreiben einer Beschallungsanlage. Es ist von entscheidender Bedeutung, ob mit nur einer Schallquelle und damit größerem Hallradius viele Zuhörer zentral mit Direktschall versorgt werden oder ob mit einer dezentralen Beschallung viele Lautsprecher zur Anwendung kommen. Eine dezentrale Beschallung ist immer dann erfolgreich, wenn man mit vielen Lautsprechern nahe an das Publikum gelangt, so dass sich trotz der Reduzierung des Hallradius mehr Zuhörer im Direktschallfeld eines einzelnen Lautsprechers befinden. Der Schalldruckpegel der vielen einzelnen Lautsprecher wird niedriger sein, das Diffusfeld wird weniger angeregt, die Rückkopplungsgefahr sinkt.
9.2
Grundlegende Beschallungskonzepte
Der Idealfall einer Beschallung mit Lautsprechern ist erreicht, wenn beim Hörer ausreichend hohe Direktschallanteile und geringe Diffusanteile ankommen. Beschallung hat in der Regel mit diesen Idealbedingungen aber selten zu tun, weil - die Orte, in denen Beschallung funktionieren muss, meist akustisch nicht ausgewogen sind, - die Beschallung nicht für einen idealen Abhörpunkt optimiert wird, sondern auf einer größeren Fläche funktionieren muss, - nur die allerwenigsten Zuhörer sich genau in der Mitte von zwei stereofon betriebenen Lautsprechern befinden, - die Zuhörer unterschiedliche Abstände zu den Lautsprechern haben und sich meist außerhalb des Hallradius befinden, - die aufnehmenden Mikrofone für die Beschallungsanlage am gleichen Veranstaltungsort angeordnet sind wie die Lautsprecher selbst. Für eine erfolgreiche Umsetzung der Beschallungsaufgabe ist es daher notwendig, diese Randbedingungen zu analysieren und mit den Anforderungen an die Beschallung abzugleichen. Erst daraus kann das optimale und angemessene Beschallungskonzept abgeleitet werden. 515
Beschallung
9.2.1
Von der zentralen zur dezentralen Beschallung
In der Theorie stehen sich zwei entgegen gesetzte Vorgehensweisen gegenüber: 9.2.1.1
Zentrale Beschallung
Mehrere Schallquellen, die das gleiche Signal in den Raum abstrahlen, erzeugen mehrere Schallwellen, die sich im Diffusfeld überlagern und damit die Schallpegeldichte erhöhen. Ein konsequenter Ansatz ist deshalb, den gesamten Raum aus nur einer einzigen, zentralen Schallquelle zu versorgen. Dazu werden an einem zentralen Punkt ein oder mehrere leistungsstarke Lautsprecher installiert, die zusammen eine idealisierte kohärente Schallwelle in den Raum abstrahlen. Die Lautsprecher sind so ausgewählt und positioniert, dass nur publikumsrelevante Flächen beschallt werden. Anwendungsbeispiele einer zentralen Beschallung gibt es vielerorts: So wurden früher Sportstadien von einem zentralen Punkt aus, meist von der Kante eines Tribünendaches, versorgt. Ebenfalls wurden viele Sporthallen aus der Mitte der Decke mit so genannten Lautsprecherampeln beschallt. Auch in Industriehallen, Flughäfen und Bahnhöfen wurde dieses Konzept angewendet. Die Idee, einen großen Raum mit einer einzigen Schallwelle zu versorgen, ist vordergründig einleuchtend, vorausgesetzt, dass der zentrale Schallquellenort so gelegen ist, dass er zu allen Hörerpositionen etwa den gleichen Abstand hat. Dies wird aber nur in der Mitte des Raumes bei entsprechend großer Deckenhöhe erreicht. Ein großer Vorteil ist dann die sehr einfache Installation, da nur ein einziger Punkt des Raumes mit Lautsprechertechnik zu versorgen ist. Auch hält sich der Leitungsaufwand in Grenzen. Für ein derartiges System muss mit entsprechend hoher Leistung der ausreichende Schallpegel erzeugt werden. In vielen großen Hallen kann dies durchaus möglich sein. Jedoch ist die Summe der Nachteile oft erdrückend hoch. Trotz der einen Welle wird das Diffusfeld wegen der großen Beschallungsdistanzen und damit ungenauer Schallpegelverteilung, stark angeregt. Hat der Raum keine kurze Nachhallzeit, was in großen Räumen selten der Fall ist, so wird eine qualitativ gute, sprachverständliche Beschallung nur schwer möglich sein. Bei offenen Sportstadien kommt überdies der erhebliche Witterungseinfluss hinzu. Je nach Windrichtung und Temperaturschichtung wird der Schall in unterschiedliche Richtungen gebeugt. Das macht eine gezielte Publikumsbeschallung so gut wie unmöglich. Zudem ist der Anteil der Lärmemissionen außerhalb der Sportstätte unangemessen hoch. Zentrale Beschallungssysteme sind also meist wenig geeignet, um den Hörer mit ausreichend guten Schallsignalen zu versorgen. 9.2.1.2
Dezentrale Beschallung
Eine Konsequenz aus den Nachteilen einer zentralen Beschallung ist die so genannte dezentrale Beschallung. Hier wird genau der umgekehrte Weg verfolgt. Ein Raum wird nicht von einem einzigen Punkt, sondern über viele, dem Publikum nahe Positionen beschallt. Auf eine einheitliche Wellenausbreitung wird keine Rücksicht genommen, denn dieses Konzept basiert darauf, dass punktuell sehr wenig Leistung abgestrahlt wird, gerade einmal so viel, um die direkt im Versorgungsbereich befindlichen Personen zu erreichen. 516
Grundlegende Beschallungskonzepte Eine dezentrale Beschallung wird vorteilhaft immer dann verwendet, wenn Räume mit niedriger Deckenhöhe gleichmäßig mit Schall zu versorgen sind. Ein enges Netz von kleinen Lautsprechern ermöglicht dann eine gleichmäßige Schallverteilung. Aber auch in größeren Räumen lassen sich dezentrale Beschallungssysteme einbauen: In Plenar- oder Sitzungssälen beispielsweise werden die Lautsprecher oftmals in die Rückenlehne des Vordersitzes eingebaut. Somit hat jeder Hörer seinen eigenen Lautsprecher zur Verfügung. Je konsequenter dieses Konzept verfolgt wird, desto kleiner wird die Publikumsfläche, die ein einzelner Lautsprecher beschallen muss. In akustisch schwierigen Räumen kann eine solche Lösung erfolgreich sein, da der eigentliche Gesamtraum mit nur wenig Schallenergie angeregt wird. Jedoch wird bei den Zuhörern ein eher isoliertes Gefühl entstehen, da die Beschallung meist keinen akustischen Bezug zum Sitzungsgeschehen hat. Dezentrale Konzepte eignen sich immer dann gut, wenn Lärmemissionen minimiert werden müssen. Der Installationsaufwand bei diesen Konzepten ist allerdings hoch. Müssen beispielsweise über Abhängungen, Stative oder andere Konstruktionen Montagemöglichkeiten für Lautsprecher und Leitungen geschaffen werden, so scheiden dezentrale Beschallungskonzepte häufig aus Kostengründen aus. Außerdem ist oftmals ein weit verzweigtes Leitungsnetz erforderlich, um alle Hörerpositionen auf kürzestem Weg erreichen zu können; hinzu kommen aufwändige Verstärkerkonzepte. Auch wenn bei dezentralen Anlagen mehr Lautsprecher- und Verstärkermaterial zum Einsatz kommt, als bei einer Zentralbeschallung, so bleibt trotzdem das Ziel, die Zuhörer durch die wesentlich kürzeren Beschallungsabstände mit insgesamt weniger Schallleistung zu versorgen. In der Praxis wird meistens eine Kombination aus zentralen und dezentralen Elementen zu einer zufrieden stellenden Lösung führen. Dies gilt gleichermaßen für akustische, als auch für ökonomische Gesichtspunkte. Richtungsbezogene Beschallung Neben den bereits genannten Qualitätskriterien einer guten Beschallung kommt bei Veranstaltungen die gute Übereinstimmung von optischer und akustischer Perspektive hinzu. Das heißt, der Hörer soll an einem beliebigen Platz jederzeit die Originalschallquelle an demjenigen Ort lokalisieren, an dem er sie auch optisch wahrnimmt. Die Sicherstellung der Lokalisation eines Schallereignisses, einschließlich einer eventuellen Bewegung der Schallquelle, erfordert die Beachtung einiger psychoakustischer Zusammenhänge, wie sie in Kap. 5.4 näher beschrieben sind, z. B. die Phantomschallquellenbildung durch Summenlokalisation u. a. Der Richtungswahrnehmung in horizontaler und vertikaler Ebene sind enge Grenzen gesteckt. Vor allem in horizontaler Ebene ist das Gehör für die Richtungswahrnehmung äußerst empfindlich. Lässt sich diese Fähigkeit bei der Mikrofonaufnahmetechnik mit Intensitätsstereofonie und Laufzeitstereofonie sehr schön ausnutzen, so stellt es die Beschallungstechnik vor nahezu unlösbare Probleme. Die stereofonen Verfahren sind optimiert auf eine optimale Abhörposition in einem Stereo-Dreieck; gleiches gilt für die Mehrkanaltechnik. Üblicherweise befindet sich aber ein Zuhörer im Beschallungsfall in keiner dieser prominenten Positionen. Deshalb sollte der Zuhörerplatz im Idealfall immer aus derjenigen Richtung beschallt werden, aus der auch die optische Wahrnehmung kommt.
517
Beschallung In vertikaler Ebene ist die Übereinstimmung in etwa dann gegeben, wenn optische und akustische Richtungswahrnehmung nicht mehr als 15/ voneinander abweichen, wobei grundsätzlich nach der Ganzheitsempfindung die Dominanz des optischen Eindruckes gilt. In der horizontalen Ebene hilft die Summenlokalisation. Allerdings ist das Phänomen der Summenlokalisation nur für kleinere Beschallungsanordnungen sinnvoll anwendbar. Sobald die Abstände zwischen den betreffenden Lautsprechern größer als etwa 4 bis 5 m sind, funktioniert dieser Mechanismus nicht mehr für Plätze außerhalb der Mittellinie, da dann die am Hörort entstehenden Laufzeitdifferenzen durch entsprechende Pegelunterschiede nicht mehr kompensiert werden können. Die Schallquelle wird unweigerlich im jeweils nächstgelegenen Lautsprecher lokalisiert. Eine sehr wesentliche Bedeutung für die Lokalisation bei Beschallungskonzepten hat deshalb das Gesetz der 1. Wellenfront. Dieses besagt, dass das menschliche Gehör ein Schallereignis aus der Richtung wahrnimmt, aus der die erste Schallwelle dieses Ereignisses beim Hörer eintrifft. Anschaulich bedeutet dies, dass ein Hörer in einem natürlichen Schallfeld als erste Welle immer den Direktanteil des Schallfeldes wahrnehmen wird und erst zeitlich versetzt die Anteile der ersten Reflexionen und des Diffusfeldes. Die Ortung findet auf jeden Fall auf die erste Welle, also den Direktanteil statt. Das erklärt, warum man in einem großen Raum auch außerhalb des Hallradius einen Richtungsbezug zur Schallquelle herstellen kann, obwohl der Diffuspegelanteil höher ist, als der Direktschallpegel. Erst wenn der Direktschallpegel um mehr als 10 dB niedriger gegenüber dem Diffusanteil ist, geht die Ortungsfähigkeit verloren. In der Praxis bedeutet dies, dass durch einen sehr großen Abstand zur Schallquelle der Direktanteil durch das Abstandsgesetz so weit abgenommen hat, dass der statistisch an allen Positionen gleichmäßige Diffusanteil um mehr als 10 dB lauter ist. Erkennbar wird das in einer großen, leeren Halle. Weit entfernte Schallereignisse werden zwar als laut wahrgenommen, weil das Diffusfeld den Schallimpuls lange erhält, jedoch kann die Richtung, aus der der Impuls kam, nicht wahrgenommen werden. Dieser Effekt kann bei der Beschallung ausgenutzt werden, indem die Schallwellen von der Originalschallquelle oder einem dem optischen Ereignis nahen Lautsprecher, zuerst am Hörort ankommen und die Schallwellen aus den Versorgungslautsprechern dementsprechend verzögert abstrahlen. Eine Verzögerung von 5 bis 10 ms hat sich für diesen Effekt sehr bewährt. Der verzögert abstrahlende Lautsprecher darf zusätzlich den Pegel des Direktschalls um bis zu 10 dB übertreffen und dennoch bleibt der Verschmelzungseindruck erhalten, als sei nur eine Originalschallquelle vorhanden.
9.2.2
Überwindung des Hallradius und Nutzung des Diffusfeldes
Das Ziel einer guten Beschallung sollte sein, - möglichst alle Zuhörer mit Direktschall aus den Lautsprechern zu versorgen, - an allen Orten eine gleichmäßige Frequenzverteilung herzustellen, - überall gleiche Pegelverhältnisse zu schaffen. Damit das funktioniert, muss der Hallradius künstlich wesentlich vergrößert werden. Wie in der Mikrofontechnik üblich, muss deshalb auch den Lautsprechern eine Richtcharakteristik gegeben werden. Beschallungslautsprecher sollen nicht wie eine Kugelschallquelle in alle 518
Grundlegende Beschallungskonzepte Richtungen abstrahlen, sondern nur in eine vorgegebene und definierte Richtung. Darüber hinaus sollen Lautsprecher einen Frequenzbereich von unterhalb 40 Hz bis mehr als 16.000 Hz abstrahlen können. Dies entspricht Schallwellenlängen von etwa 8 m bis knapp unter 2 cm. Für die Konstruktion von Beschallungslautsprechern ist dies eine schwere Vorgabe.
Abb. 9/2. Klein dimensionierter Lautsprecher eine große Wellenlänge abstrahlend.
Schallwellen lassen sich, ähnlich wie Lichtwellen, bündeln und führen. Aber verglichen mit Scheinwerfern, deren Blenden die etwa 500.000-fache Größe der Lichtwellenlänge haben, müssen Lautsprecher Schallwellenlängen abstrahlen, die die Bauform um ein mehrfaches übersteigen. Je kleiner die Wellenlänge wird, desto einfacher können Schallwellen konstruktiv gerichtet werden. Aber dann ist noch nicht gelöst, wie Zuhörerplätze, die unterschiedlich weit von der Bühne entfernt sind, mit gleichem Schalldruckpegel versorgt werden können.
Abb. 9/3. Bei Verdopplung des Kugelradius vergrößert sich das Kugelsegment um das 4-fache.
Bei gerichteter Abstrahlung muss man sich die entstehende Abstrahlung wie ein Kugelsegment vorstellen. Bei einem Kugelsegment vergrößert sich die Segmentfläche bei doppelter Entfernung auf ein Vierfaches, somit verteilt sich die abgestrahlte Leistung auf die vierfache Fläche und die Intensität reduziert sich auf ein Viertel. Es gilt auch in diesem Fall, dass bei einer Verdopplung des Abstandes vom Lautsprecher der Pegel um 6 dB sinkt (siehe hierzu auch Kap. 1.1.1). Je weiter ein Hörer vom Lautsprecher entfernt ist, desto niedriger ist der Direktschallpegel. Umgekehrt wird die Lautstärke für einen Zuhörer, der nah an einem Lautsprecher sitzen muss, oft zu hoch sein. Da auch mit stark bündelnden Lautsprechern der Hallradius nicht beliebig vergrößert werden kann, müssen die Zuhörer außerhalb des Hallradius mit zusätzlichen Lautsprechern und deren Direktschall versorgt werden, trotz nachteilig verbundener Erhöhung des Gesamtdiffusfeldes. Alle Lautsprecher dürfen nur den von ihnen zu versorgenden Bereich beschallen und sollen 519
Beschallung möglichst wenig zum Diffusfeld für die anderen Versorgungsgebiete beitragen. In der Praxis gibt es nahezu in jeder Beschallungssituation Bereiche, die sich außerhalb des Hallradius der Lautsprecher befinden. Oder anders, bei den meisten Veranstaltungen befindet sich die Mehrheit der Zuhörer im Diffusfeld, da alle Lautsprecher mehr oder weniger gleichmäßig ihren Anteil zum Diffusfeld beitragen. Näherungsweise ist das Diffusfeld eines geschlossenen Veranstaltungsraumes statistisch gleichmäßig verteilt. Deshalb müssen an allen Beschallungslautsprechern entsprechende Korrekturen je nach Situation der wesentlichen Resonanzfrequenzen vorgenommen werden. Die Konsequenz daraus bedeutet, dass auch dem Klang des Diffusfeldes große Bedeutung beigemessen werden muss. Weil alle Lautsprecher zum Diffusfeld beitragen, wird in der Praxis mit einem eigenen Equalizer die jeweilige Ortsentzerrung in der Hauptsumme vorgenommen.
9.2.3
Lautsprecherpositionen
9.2.3.1
Frontalbeschallung mit horizontaler Position
Der häufigste Fall eines frontalen Beschallungsaufbaues sind die stereofonen Lautsprecherpositionen links und rechts der Bühne.
Abb. 9/4. Lautsprecher in Stereoanordnung auf der Bühne.
Die Lautsprecher werden an den beiden Seiten der Bühne positioniert. Dabei stellt sich die Frage, wie viele der Zuhörer in den Genuss einer richtigen Stereobeschallung kommen. Nur eine Minderheit in der idealen Hörzone (sweet area) wird die Stereomischung einigermaßen vernünftig hören können, die Zuhörer in den Seitenbereichen sind meist deutlich benachteiligt. Es wird häufig fälschlicherweise davon ausgegangen, dass durch diese, einer Stereo-Wiedergabeanordnung ähnliche Lautsprecheraufstellung, eine richtungsbezogene Schallwiedergabe erreicht werden kann. Das ist ein verbreiteter Irrtum, da die bei kleineren Lautsprecherabständen vorteilhaft wirkende Summenlokalisation (siehe Kap. 5.4) bei den in der 520
Grundlegende Beschallungskonzepte Beschallungspraxis üblichen großen Abständen von meist wesentlich mehr als 4 bis 5 m nicht mehr funktioniert. Das Ergebnis ist dann eine eher unausgeglichene, seitenbetonte Schallquellenabbildung ohne jeden Mitteneindruck oder Bewegungseffekt, die unter ungünstigen Hörwinkeln sogar zu störenden Echos führen kann. Daher gilt die Regel, dass bei Beschallung zumindest alle wichtigen Informationen überwiegend aus der Mitte monofon übertragen werden sollten. Die Anlage wird zwar in ZweikanalStereofonie aufgebaut, jedoch werden nur Effekte wie künstlicher Hall usw. in Stereo wiedergegeben. Abb. 9/5. Lautsprecher auf der Bühne mit kurzem Abstand zu den ersten Reihen.
Bei der Positionierung der Lautsprecher ist es wichtig, auf eine gleichmäßige Direktschallversorgung aller Zuhörer zu achten. Wie in Abb. 9/5. ersichtlich, sind die Zuhörer der ersten Reihen einem hohen Direktschallpegel ausgesetzt, während entsprechend dem Abstandsgesetz die hinteren Reihen einen viel geringeren Lautstärkepegel wahrnehmen. Zu der entfernungsbedingten Pegelabnahme kommt noch eine frequenzabhängige Absorption hinzu, die in dem für Sprache wichtigen Frequenzband zwischen 200 bis 2.000 Hz eine Dämpfungslücke von ca. 18 dB hinterlässt. Diese Dämpfung entsteht durch das Überstreichen der Zuhörer in einem flachen Winkel.
Abb. 9/6. Frequenzgang des Direktschalls im Abstand von etwa 20 m nach Überstreichen von Stuhlreihen.
Durch die unmittelbare Nähe der Lautsprecher zum Mikrofon auf der Bühne wird sich überdies ein Rückkopplungsproblem ergeben. Die Gefahr der Rückkopplung entsteht über den Direktschallpegel des Lautsprechers zum Mikrofon. Um diesem Problem wirkungsvoll zu begegnen, sollten die Lautsprecher angemessen hoch montiert werden. 9.2.3.2
Frontalbeschallung mit vertikaler Position
Durch eine Verschiebung der Lautsprecher mittels Traversen oder Stativen in der Vertikalebene nach oben, wird der direkte Abstand der Lautsprecher zu den ersten Zuhörern deutlich vergrößert. Eine durchaus realistische Abstandsvergrößerung von zunächst 1 m auf anschließend 4 m reduziert den Direktschallpegel in der ersten Zuhörerreihe wegen der zweifachen 521
Beschallung Abstandsverdopplung beispielsweise um bis zu 12 dB. Der relative Abstand zu den hinteren Reihen hat sich dem gegenüber kaum verändert. Der Abstrahlwinkel der Lautsprecher über die Zuhörer hinweg ist deutlich besser geworden, der Schall kann sich vom Publikum ungehindert nach hinten ausbreiten.
Abb. 9/7. Lautsprecheranordnung hoch im Saal und nach unten geneigt mit gleichmäßigem Abstand zu den Zuhörern.
9.2.3.3
Einsatz von Delay-Lautsprechern
In langen Räumen werden die hinteren Reihen häufig nicht mehr ausreichend mit Direktschall versorgt, da der Hallradius auch mit stark gerichteten Lautsprechern bereits überschritten ist. In diesem Fall ist es notwendig, eine zweite Beschallungsebene einzurichten, die den hinteren Teil des Raumes mit ausreichendem Direktschall versorgt. Dabei muss berücksichtigt werden, dass jeder zusätzliche Lautsprecher im Raum den Diffusanteil im Gesamtraum erhöht (siehe auch Kap. 9.1.7). Das bedeutet, dass die vorderen Lautsprecher nur auf denjenigen Teil des Publikums gerichtet werden sollten, der von diesen Lautsprechern zu versorgen ist. Ebenfalls müssen die vorderen Lautsprecher entsprechend im Pegel reduziert werden. Für eine gleichmäßigere Schallpegelversorgung wird der Gesamtleistungsbedarf dann insgesamt kleiner werden. Dies ist ein grundlegendes Kriterium, durch das eine Entscheidung weg von einer Zentralbeschallung zu Gunsten eines dezentralen Konzeptes getroffen werden muss.
Abb. 9/8. Zwei Beschallungsebenen zur gleichmäßigen Schallpegelversorgung. Die zweite Ebene ist um die Schalllaufzeit t1 = t0 + )t der ersten Ebene verzögert (Delay).
Da sich nicht vermeiden lässt, dass Schallenergieanteile von den vorderen Lautsprechern auch zu den rückwärtigen Hörern gelangen, sollte die Ansteuerung der rückwärtigen Lautsprecher um denjenigen Zeitwert verzögert werden, den die Schallwelle von der ersten Beschallungsebene (Primärschall) bis nach hinten benötigt. Das menschliche Gehör reagiert sehr empfindlich auf nacheinander eintreffende Schallereignisse (siehe Kap. 3.4.1.1). Werden Zeitdifferenzen im Bereich von wenigen Mikrosekunden als Klangverfärbungen wahrgenommen, 522
Grundlegende Beschallungskonzepte führen kurze Schallimpulse oberhalb 30 ms bereits zu störenden Echos. Im folgenden Kap. 9/2.3.7. sind alle wesentlichen Zeitkriterien zusammengefasst. Impulsgenaue Delayeinstellung Den Wert der idealen Zeitverzögerung an einem Ort zu ermitteln, ist komplex. Messsysteme können immer nur denjenigen Wert erfassen, der für einen definierten Messpunkt gilt. Für die Umgebung gelten bereits wieder andere Kriterien. In der Praxis hat sich folgende Annäherung zur Berechnung der Verzögerungszeit gut bewährt: Ein von der Bühne oder aus den ersten Lautsprechern kommender Schallimpuls versorgt zwar auf dem kürzesten Weg die Hörer mit direktem Schallanteil, die restliche Energie des Impulses, die auf ihrem Schallweg in den Raum reflektiert wird, trägt weiters zu einem impulshaften Diffusanteil bei. Die verzögerte zweite Beschallungsebene gibt den gleichen Impuls entsprechend verzögert in den Raum ab. Nun wiederholt sich der Vorgang, d.h. die restliche Energie des verzögerten Impulses ist ebenfalls im Diffusfeld hörbar. Wenn nun die Wiedergabe der zweiten Beschallungsebene um genau den Wert verzögert wird, bei dem sich die beiden Impulse im Diffusfeld überlagern, so wirkt durch Auslöschung das Diffusfeld „trockener“ und besser durchhörbar. In zahlreichen Hörversuchen wurde dieser Effekt bestätigt und die Versuchspersonen konnten die Verzögerungszeit auf weniger als eine Millisekunde genau nach Gehör einstellen [9.1]. Gerade in schwierigen akustischen Räumen mit sehr hohem Diffusanteil empfiehlt sich diese Methode, da damit die besten Resultate für die Sprachverständlichkeit erzielt werden. Delayeinstellung nach dem Gesetz der ersten Wellenfront Das oben beschriebene Verfahren sorgt für ein Maximum an Sprachverständlichkeit im Diffusfeld. Allerdings liefert das Diffusfeld keine Information darüber, von welcher Quelle bzw. aus welcher Richtung der Schall abgestrahlt wurde. Das bedeutet, dass der Lokalisationsbezug der Beschallung unter Umständen verloren gegangen ist, denn die Hörer in den hinteren Reihen werden die Richtung ihrer Schallwahrnehmung auf die für sie zuständigen verzögerten Lautsprecher orientieren. Das menschliche Gehör lokalisiert ein primäres Schallereignis immer aus derjenigen Richtung, aus der die erste Wellenfront des Ereignisses eintrifft (Haas-Effekt). Dies gilt auch, wenn innerhalb von 10 bis 30 ms verzögert eine zweite Reflexion eintrifft, die max. bis zu 10 dB höher im Pegel sein kann. Will man in der Beschallungspraxis diesen Effekt ausnutzen, um für den Zuhörer eine akustische Ortung auf das Bühnengeschehen zu ermöglichen, so werden alle Lautsprecher zueinander so verzögert, dass beim Hörer immer zuerst eine Schallwelle aus der Bühnenposition eintrifft und erst danach die verzögerten Schallwellen aus den eigentlichen Versorgungslautsprecher für diese Hörerposition. Im Idealfall gibt es eine originale akustische Quelle auf der Bühne, z. B. ein Redner oder eine Musikdarbietung. Diesem Original wird die Ursprungsschallzeit t0 zugeordnet. Alle weiteren, zueinander unterschiedlichen Verzögerungszeiten für Lautsprecher werden von dieser Ursprungszeit abgeleitet. Diese Arbeitsweise lässt sich sowohl für sehr kurze Beschallungsdistanzen als auch für weite Entfernungen anwenden.
523
Beschallung Für die Praxis bedeutet dies: Wird die Versorgung der Delay-Lautsprecher zu dem oben ermittelten impulsgenauen Wert zusätzlich noch um etwa 5 bis 10 ms verzögert, also leicht überkompensiert, ist es möglich, die erste Schallwelle aus den vorderen Lautsprechern oder gar von der Bühne zu lokalisieren. Das Ergebnis ist eine gute Ortung des Schalls zur Bühne oder zur Originalschallquelle, entsprechend der optischen Richtungswahrnehmung. Dies wird als sehr angenehm und natürlich empfunden. Jedoch leidet durch eine Überkompensation der Verzögerungszeiten zu Gunsten der Richtungswahrnehmung die Sprachverständlichkeit durch zusätzliche Klangverfärbungen und ein verwaschenes Diffusfeld. Daher wird diese Maßnahme nur dann befriedigende Ergebnisse liefern, wenn in dem Raum grundsätzlich eine gute Sprachverständlichkeit erreichbar ist. Bei einer Beschallungsinstallation muss deshalb der Einstellung der Zeitverzögerung (Delay) hohe Aufmerksamkeit gewidmet werden. 9.2.3.4
Bühnenrandbeschallung, Nahfeld
Da es mit sog. Delay-Lines gelingt, die rückwärtigen Reihen optimal mit Schallenergie zu versorgen, sind nun plötzlich die Reihen direkt vor der Bühne die in der Wahrnehmung benachteiligten Plätze. Diese Plätze liegen außerhalb der Hauptabstrahlrichtung der Lautsprecher und die Ortung des Schallereignisses findet hoch über der Bühne über dem Kopf statt. In diesen Fällen ist es sehr sinnvoll, wenn diese Plätze zusätzlich über kleine Lautsprechersysteme direkt beschallt werden, die an der Bühnenkante betrieben werden.
Abb. 9/9. Nahversorgung der ersten Reihen mit Schalldruckpegel von kleinen Bühnenrandlautsprechern (Nearfills).
Diese Lautsprecher benötigen keinen hohen Pegel, sie dienen lediglich als Nahfeldbeschallung der ersten Reihen (nearfield). Nachdem der Abstand der Lautsprecher zum Hörer geringer als zur Hauptbeschallung ist, treffen die Schallwellen der Nahfeldbeschallung früher ein als die der Hauptbeschallung. Damit wirkt das Gesetz der ersten Wellenfront und die Schalllokalisation bezieht sich auf die Höhe der Bühnenkante und nicht zu der viel höher montierten Hauptbeschallung. 9.2.3.5
Einsatz und Positionierung von Subwoofer
Für hohe Lautstärkepegel, wie sie bei der Übertragung von Musik erzeugt werden müssen, verwendet man für den Tieftonbereich fast ausschließlich Subwoofer. Der Frequenzbereich der dabei abgedeckt wird, reicht von ca. 40 Hz bis 95 Hz. Höhere Frequenzen werden dann 524
Grundlegende Beschallungskonzepte von den Lautsprechern der Hauptbeschallungsanlage übertragen. Subwoofer strahlen ungerichtet als Kugelstrahler ab; die entsprechenden Wellenlängen betragen dabei etwa 3,5 bis 8,5 m. Da der Wirkungsgrad von Subwoofer-Systemen vergleichsweise niedrig ist, werden sie häufig direkt auf den Boden platziert. Vorteilhaft wird dann dabei auch die akustische Ankopplung an den Raum genutzt. Damit erhöht sich der wirksame Pegel um 3 dB durch die phasengerechte Reflexion an der Bodenfläche. Werden zwei Subwoofer direkt nebeneinander betrieben, so erhöht sich der Pegel um weitere 3 dB. Diese insgesamt gewonnenen 6 dB würden einer Vervierfachung der Anzahl der Basslautsprecher und deren Verstärker bedeuten. Auf Grund der großen Wellenlängen die Subwoofer abstrahlen, wird die Wellenausbreitung durch das Publikum kaum beeinträchtigt. Eine Bedämpfung durch die Luft findet im Vergleich zu hohen Frequenzen auch nur unwesentlich statt. Daher kann auf eine Verzögerung der Subwoofersignale meistens verzichtet werden. Um die Basswiedergabe in ihrer Abstrahlcharakteristik zu steuern, werden mechanisch aufwändige Lösungen durch Bass-Arrays benutzt. Das sind, vereinfacht dargestellt, quer vor der Bühne stehende Schallzeilen, die aus einzelnen Subwoofern oder komplexen Kombinationen von Basslautsprecher bestehen. Mit unterschiedlichen Phasen angesteuert, lassen sich gewünschte Verstärkungen bzw. Auslöschungen in Teilfrequenzbereichen erzeugen. Somit lässt sich auch für die langwellige Basswiedergabe vorteilhaft eine gebündelte Abstrahlung realisieren.
Abb. 9/10. In Reihe positionierte Subwoofer; das Array wirkt nach dem Schallzeilenprinzip mit gerichteter Bass-Schallwelle.
9.2.3.6
Centercluster
Bei sehr großen Bühnenbreiten entsteht direkt in der Mitte vor der Bühne eine mehr oder weniger große Versorgungslücke. Sie kann weder von den Bühnenrandlautsprechern, noch von den seitlichen Hauptlautsprechern gefüllt werden. In einem solchen Fall installiert man mittig über der Bühnenkante ein zusätzliches Lautsprechersystem, ein sogenanntes Centercluster, das gleichzeitig mehrere Aufgaben erfüllen muss. Zunächst dient es dazu, die 525
Beschallung Versorgungslücke in der Mitte zu schließen, darüber hinaus konzentriert es die Lokalisation in sehr großen Sälen und Hallen auf die Bühnenmitte. Auch wird es bei konventionellen Beschallungssystemen benutzt, um weit entfernte Beschallungsbereiche im Fernfeld ohne Delay-System zu versorgen. Bei Großveranstaltungen wird ein Centercluster häufig nur für die Gesangsstimmen verwendet. Dies erhöht die präzise Stimmenwiedergabe in der Staffelung vor dem Band- bzw. Orchesterklang. 9.2.3.7
Lokalisation
Die Lokalisation eines von mehreren Schallquellen (Originalschallquellen bzw. Lautsprechern) erzeugten Hörereignisses in der Horizontalebene ist abhängig von den Zeit- und Pegeldifferenzen der am Hörort eintreffenden Schallsignale.
Abb. 9/11. Geltungsbereich von Phantomschallquellenbildung und Gesetz der 1. Wellenfront
Es sind vier Zeitbereiche zu unterscheiden: 1) Die Zeitdifferenzen der Signale aus dem linken und rechten Lautsprecher sind kleiner als 2 bis 3 ms, entsprechend einem Laufwegunterschied von weniger als 1 m: Hier wirkt das Phänomen der Summenlokalisation. Dabei verschmelzen die von zwei Schallquellen hinreichender Kohärenz stammenden Signale zu einer resultierenden Phantomschallquelle, die zwischen beiden Schallereignisorten lokalisiert wird. In diesem Fall ergibt sich durch Interferenzen der beiden Signale noch eine wahrnehmbare Phasenauslöschung im Bereich von 180 bis etwa 300 Hz. An einer anderen Position zu den beiden abstrahlenden Lautsprechern kann eben im selben Frequenzbereich eine Überhöhung stattfinden. 2) Die Zeitdifferenzen liegen zwischen 3 und etwa 30 ms, entsprechend einem Laufwegunterschied zwischen 1 m und etwa 10 m: Hier wird das jeweils zuerst eintreffende Quellensignal lokalisiert. Nachfolgende Signale tragen zwar zur Erhöhung des Lautstärkeeindrucks sowie ggf. der Deutlichkeit bei, bewirken jedoch keine Verschiebung des Richtungseindruckes, sofern sie nicht um 6 bis 10 dB lauter als das Primärsignal sind. Für den gezielten Einsatz dieses Effektes bei der Beschallung sollten die Signale idealerweise 5 bis 10 ms nacheinander eintreffen. 3) Die Zeitdifferenzen beider Lautsprecher sind größer als 30 bis 50 ms, entsprechend einem Laufwegunterschied zwischen 10 m und 17 m: Die später eintreffenden Quellensignale 526
Beschallungsausrüstung werden als Echo oder Nachhall wahrgenommen, bezüglich der Lokalisierung gilt aber trotzdem der Precedence-Effekt. 4) Erst bei einem Zeitversatz von mehr als 150 ms wird der später eintreffende Schall als eigenständige Schallquelle wahrgenommen und auch lokalisiert. Dies gilt auch für Schallquellen, die um mehr als 15 dB lauter als der Primärschall sind, unabhängig von ihrer Eintreffzeit. 9.2.3.8
Richtungsbezogene Beschallung, Delta-Stereofonie
Bisher war von Konzepten die Rede, die einen einzigen Bezugspunkt auf der Bühne haben und somit eine definierte Lokalisation mit einer einzigen Wellenfront ermöglichen. Es gibt jedoch Veranstaltungsformen, bei denen ein einziger akustischer Bezugspunkt störend ist, weil z. B. bewegte szenische Darstellungen geboten werden oder sich die zu verstärkenden Schallquellen auf einer breiten Fläche verteilen und sich somit die Lokalisationsbezüge ändern. In solchen Fällen werden sehr umfangreiche dezentrale Beschallungsanlagen eingesetzt. Eine sehr konsequente Umsetzung richtungsbezogener Beschallung erfolgt bei der DeltaStereofonie (DSS). Dabei wird eine Bühne in verschiedene Quellengebiete unterteilt. Alle Mikrofone, die sich in einem Quellengebiet befinden, werden über eine diesem Quellengebiet zugeordnete Summe auf die dezentralen Lautsprecher verteilt. Diese Teilsummensignale werden individuell verzögert und jedem der im Rezeptionsbereich angeordneten Lautsprecher über eine Mischmatrix zugeführt, so dass jeder Lautsprecher alle Teilsignale mit gleichem Pegel, jedoch entsprechend seiner relativen Position gegenüber der Quelle unterschiedlich verzögert abstrahlt. Die Verzögerungszeiten werden dabei so bemessen, dass an allen Zuhörerplätzen der Schall von dem Lautsprecher, der den geringsten Abstand bzw. Winkelabweichung zwischen Hörort und Originalquelle aufweist, früher am Hörort eintrifft als der Schall aller übrigen Lautsprecher, jedoch später, als der betreffende Originalschall (bzw. dessen Nachbildung durch einen Quellen-Simulationsstrahler). Durch die so bemessene Verzögerung wird sichergestellt, dass gemäß dem Gesetz der 1. Wellenfront immer die Originalschallquelle lokalisiert werden kann und somit auch die natürliche Tiefenstaffelung (Entfernungseindruck) erhalten bleibt. Somit wird für jedes Quellengebiet eine eigene Lokalisation im Saal möglich. Das DSS-Prinzip wird in vielen Parlamenten verwendet, um die verschiedenen Mikrofonstandorte im Saal über den Richtungsbezug der Beschallungsanlage abzubilden. Kritisch zu sehen sind jedoch die Überlagerungs- und Kammfiltereffekte, die ortsabhängig unterschiedlich ausgeprägt sind. Auch erfordert der sachgerechte Betrieb einiges an Know-how.
9.3
Beschallungsausrüstung
9.3.1
Lautsprecher
9.3.1.1
Kennschalldruck und Wirkungsgrad
In der Beschallungspraxis ist man schon seit langer Zeit an sehr hohe Lautstärken gewöhnt, teilweise werden sie schlichtweg gefordert. Interessant ist es, sich einmal das dazu nötige Werkzeug, den Beschallungslautsprecher, genauer zu betrachten. Ein handelsüblicher 527
Beschallung Hifi-Lautsprecher, dessen Frequenzgang auf die Hörgewohnheiten der Kunden abgestimmt ist, versorgt ohne Probleme das Wohnzimmer. Sachlich betrachtet wird ein solcher Lautsprecher mit einer elektrischen Leistung von 1 Watt versorgt und strahlt in einem Meter Entfernung einen Pegel von beispielsweise 80 dB ab. Angenommen, der Lautsprecher hat keine besonders ausgeprägte Richtwirkung, was im Wohnzimmer auch selten sinnvoll wäre, so kann man davon ausgehen, dass er kugelförmig abstrahlt und je nach Bedämpfung im Raum, bei einem realistischen Hallradius von 2 bis 3 m im Diffusfeld, einen Pegel von 74 dB erreicht. Bei einer Abstandsverdopplung sinkt der Direktschall um 6 dB, bei der dreifachen Entfernung um etwa 9 dB. Jedoch überlagern sich per Definition das Diffusfeld und der Direktschall, was wieder zu einer Pegelerhöhung um 3 dB führt (siehe Kap. 10.7). Für eine Wohnzimmerbeschallung ist es üblich, wenn ein Lautsprecher mit ca. 4 Watt elektrischer Leistung versorgt wird. Diese Vervierfachung der Leistung bedeutet in dem genannten Beispiel, dass der Schalldruckpegel um 6 dB erhöht wird, also im Diffusfeld nun etwa 80 dB beträgt. Für das Wohnzimmer ist das ein völlig ausreichender Beschallungspegel. Gefordert werden bei Veranstaltungen aber deutlich höhere Pegel. So ist es normale Praxis, dass in einer Entfernung von beispielsweise 10 m ein Pegel von permanent 90 dB und in Spitzen von 110 dB erreicht werden muss. Für den Hifi-Lautsprecher bedeutet dies: Wird bei einer elektrischen Leistung von 1 Watt ein Pegel von 80 dB in 1 m Entfernung erzeugt, dann ist der Pegel nach dem Abstandsgesetz in 10 m Entfernung um 20 dB gesunken, also auf 60 dB. Erreicht werden müssen jedoch dauerhaft 90 dB. Das heißt, der Lautsprecher muss dauerhaft 30 dB mehr Schalldruckpegel erzeugen, in Spitzen sogar 50 dB mehr. In elektrischer Leistung ausgedrückt bedeutet dies, dass er die 1.000-fache Leistung verkraften müsste, bei den Spitzenpegeln sogar die 100.000-fache Leistung. Dafür kann man natürlich keinen Hifi-Lautsprecher benutzen. Aber was bedeutet das für einen Beschallungslautsprecher? Beschallungslautsprecher müssen aus der eingespeisten elektrischen Energie wesentlich mehr Schalldruckpegel erzeugen können. Physikalisch betrachtet muss der Wirkungsgrad sehr viel höher sein. Da der generelle Wirkungsgrad bei Lautsprechern gering ist, scheint die Angabe des Wirkungsgrades den Herstellern zu unattraktiv. Das heißt, bereits aus der elektrischen Leistung von 1 W, mit der ein Hifi-Lautsprecher versorgt wird, muss ein Beschallungslautsprecher einen wesentlich höheren Pegel erzeugen. Normal sind heute Schalldruckwerte von über 100 dB bei einer elektrischen Leistung von 1 Watt. Da diese Angaben von wesentlicher Bedeutung sind und sich Lautsprecher daran sehr charakteristisch voneinander unterscheiden lassen, spricht man hier auch vom Kennschalldruck. Der Kennschalldruck wird immer angegeben als Lautstärkepegel in Dezibel bei 1 W elektrischer Leistung in 1 m Entfernung vom akustischen Zentrum des Lautsprechers. Er ist derjenige Schalldruckpegel, den ein Lautsprecher gemessen auf seiner Hauptachse in 1 Meter Entfernung bei einer elektrischen Leistung von 1 Watt erzeugt. In dem oben genannten Beispiel würde ein Beschallungslautsprecher mit einem Kennschalldruck von 100 dB über die Entfernung von 10 m eine Leistung von 10 W benötigen, für den Spitzenpegel von 110 dB bei 10 m Entfernung benötigt er 1.000 W. Das sind heute realistische Größen. Ein Beschallungslautsprecher muss also nicht nur eine sehr gute und gleichmäßige Richtwirkung haben, sondern ebenfalls einen möglichst hohen Kennschalldruck. Darüber hinaus muss er sehr hohe Leistungsspitzen verzerrungsfrei umsetzen können. 528
Beschallungsausrüstung Das genannte Beispiel gehört heute zu den eher kleineren bis mittleren Anwendungen. Bei größeren Veranstaltungen wird sehr schnell verständlich, dass Beschallungsanlagen Werte von 50.000 W und mehr verarbeiten müssen vor dem Hintergrund, dass jede Pegelerhöhung um 6 dB sowie jede Abstandsverdopplung zum Lautsprecher insgesamt eine Leistungserhöhung um das Vierfache nach sich ziehen. Eine Abstandsverdopplung entspricht 6 dB weniger Schalldruckpegel, aber gleichermaßen 6 dB weniger Schallintensitätspegel. Der Schalldruck sinkt auf 50 % seines Anfangswerts aber die Schallintensität sinkt auf 25 % ihres Anfangswerts. 9.3.1.2
Nennleistung
Neben dem Kennschalldruck ist es ebenfalls wichtig zu wissen, mit welcher Leistung ein Lautsprecher maximal belastet werden kann (Nennleistung). Mit dem Kennschalldruck und der Nennleistung kann der maximale Dauerschalldruck errechnet werden. Der Dauerschalldruck steht immer in Verbindung mit der Leistung, die ein Lautsprecher dauerhaft ohne Beschädigung umsetzen kann, bzw. bei der der Klirrfaktor kleiner 1 % bleibt. 9.3.1.3
Spitzenschalldruck
Der Spitzenschalldruck ist der schwieriger zu deutende Schalldruck, weil sich die Hersteller bisher noch nicht auf einheitliche Messverfahren zu Ermittlung des Spitzenschalldrucks geeinigt haben. So kann der Hersteller A für seinen Lautsprecher einen höheren Spitzenschalldruck angeben, wenn die Messdauer für den Spitzenpegel deutlich kleiner gewählt wird, als ein Hersteller B, der eine längere Messperiode wählt, obwohl die Lautsprecher beider Hersteller identische Leistungswerte haben. Der Spitzenschalldruck ist also der Maximalpegel, den ein Lautsprecher erzielt, bevor entweder eine thermische Zerstörung des Lautsprechers eintritt, oder besser, eine Schutzschaltung den Lautsprecher vor Zerstörung schützt und abschaltet. Ein Qualitätsmerkmal ist der Spitzenschalldruck nicht, denn er sagt nichts über anzuhörende Verzerrungen aus. 9.3.1.4
Frequenzgang
Der anzustrebende Frequenzgang eines Lautsprechers sollte so weit und gleichmäßig wie möglich sein. Aber anders als bei einem Regielautsprecher müssen bei einem Beschallungslautsprecher abweichende Parameter berücksichtigt werden. Wie in Kap. 9.3.1.1 erläutert, werden Beschallungslautsprecher auf sehr hohe Kennschalldrücke optimiert. Der Entwickler muss sich sehr genau überlegen, wie aufwändig er die Frequenzweiche gestaltet, da diese durch ihre Widerstände die Empfindlichkeit des Lautsprechers reduziert und den hohen Strömen, die im Lautsprecher fließen, standhalten muss. In der Praxis muss der Frequenzgang eines Beschallungslautsprechers auch gar nicht so glatt sein, weil er sowieso mit Filtern für die ortsabhängige Entzerrung beeinflusst wird. Da im Gegensatz zum Regielautsprecher die meisten Zuhörer sich nicht genau auf Achse des Lautsprechers befinden, ist es deshalb wichtig, dass der Frequenzgang auch abseits der Hauptabstrahlrichtung möglichst gleichmäßig ist und der Lautsprecher auch dort die gleiche Klangcharakteristik aufweist. Was kennzeichnet nun den Frequenzgang eines guten Lautsprechers? Ein Argument könnte sein, dass ein Beschallungslautsprecher für sich möglichst neutral klingen sollte, also keine 529
Beschallung eigene Klangfarbe hinzufügen soll. Aus technischer Sicht ist das sicherlich richtig, jedoch weichen reale Frequenzgänge hiervon regelmäßig ab. Der Grund ist, dass Lautsprecher bewusst als Klangwerkzeuge betrachtet werden, so wie Mikrofone auch. Daher strebt jeder Hersteller sein individuelles Klangideal an. Wichtig dabei ist, dass der Hersteller alle seine Lautsprecher nach dem gleichen Klangideal abstimmt, damit sie im gemeinsamen Einsatz zueinander passen. Eine hohe Produktkonstanz zeichnet jeden guten Hersteller aus. Auch aus anderem Grund kann vom linearen Frequenzgang abgewichen werden. Beschallungslautsprecher müssen zunächst große Entfernungen überbrücken, bis die Schallwellen beim ersten Zuhörer angekommen sind. Aber bereits nach wenigen Metern wird der Einfluss der Luftdämpfung auf die Schallausbreitung bemerkbar. Je nach Temperatur und vor allem Luftfeuchtigkeit werden vor allem die hohen Frequenzen besonders stark bedämpft. Wenn ein Lautsprecher daher für den hochpegeligen Einsatz über große Entfernungen entwickelt wird, so ist es ratsam, den sehr hohen Frequenzbereich über 10 kHz, der nach einigen Metern durch die Luft bereits gedämpft wird, von vorneherein anzuheben. Bei einer messtechnischen Betrachtung des Frequenzgangs und ebenso beim Hören in kurzen Entfernungen ist diese Anhebung natürlich störend. Aber dafür ist dieser Lautsprecher gar nicht gedacht. Einige Hersteller bieten heute dem Anwender über einen Schalter auf der Rückseite des Lautsprechers die Möglichkeit, den Klangcharakter auf die Einsatzentfernung anzupassen. 9.3.1.5
Phasenlage
Gleiche Sorgfalt wie für den Frequenzgang, muss beim Bau von Lautsprechern auch für das Phasenverhalten aufgewendet werden. Besonders anschaulich wird das bei tiefen Frequenzen mit großen Wellenlängen. Strahlen zwei Lautsprecher am gleichen Ort mit unterschiedlicher Phasenlage tieffrequenten Schall aus, so löschen sich die beiden Wellen gegenseitig aus. 9.3.1.6
Richtwirkung
Abb. 9/12. Frequenzabhängiger Abstrahlwinkel
Um die Richtwirkung eines Lautsprechers technisch erfassen zu können, muss der Schalldruckpegel in der Hauptrichtung des Wandlers, auf der Achsenlinie ermittelt und definiert werden. In Richtdiagrammen werden die von der Hauptachse abweichenden Pegel abhängig vom Winkel in der horizontalen und vertikalen Ebene angegeben. Nachdem diese Diagramme nur die beiden Hauptebenen darstellen, geht die Information darüber verloren, wie sich die Richtwirkung außerhalb dieser Ebenen verhält. Eine fehlerhafte Abstrahlung außerhalb der Horizontal- und Vertikalebene kann dem Datenblatt nicht entnommen werden. 530
Beschallungsausrüstung Richtungsfaktor Der Richtungsfaktor ['(",T)] ist definiert als das Verhältnis des Schalldrucks in einem Winkel um die Schallquelle herum [ p ( α , ω ) ] zum Schalldruck in der Bezugsachse [ p ( max ) ]: Γ ( α ,ω) =
p ( α ,ω)
p ( max )
Üblicherweise wählt man als Bezugsachse die Hauptabstrahlungs- oder 0°-Achse, und dann ist ' < 1 oder < 100 %. Dieser Wert korrespondiert bei der Messung eines Lautsprechers mit den entsprechenden Spannungsverhältnissen eines Messmikrofons. Das heißt, ein Messschreiber, der die Ausgangsspannung eines Messmikrofons abhängig vom Winkel um den Lautsprecher aufzeichnet und zur Messspannung auf der Nullachse ins Verhältnis setzt, zeichnet genau diesen Richtungsfaktor '(",T) auf. Der Wert schwankt also immer zwischen 0 und 1. Γ ( α ,ω) =
U ( α,ω)
U ( max )
Die „Winkel“-Spannung entspricht der Ausgangsspannung des verwendeten Messmikrofons. Deshalb muss dieser Wert für jeden Frequenzbereich extra ermittelt werden. Dies lässt sich in einer Grafik kaum darstellen. In der Praxis werden also für alle typischen Frequenzbereiche eigene Diagramme angefertigt. Richtungsmaß Etwas einfacher lässt sich das Richtungsmaß D definieren. Das Richtungsmaß ist der Logarithmus D ( α ,ω ) = 20 log Γ ( α ,ω ) [dB]
des Richtungsfaktors, multipliziert mit 20, damit der Wert wie gewohnt in dB angegeben werden kann. Die Bedeutung ist folgende: Ein Lautsprecher, der bei einer bestimmten Frequenz auf seiner Rückseite einen Schalldruck von einem Zehntel im Vergleich zur Hauptachse bei gleichem Abstand erzeugt, hat ein Richtungsmaß von 20 dB. Er ist also „genau von hinten gemessen um 20 dB leiser“. Dabei werden aber immer zwei Einzelmessungen direkt vor dem Lautsprecher und genau hinter dem Lautsprecher verglichen. Jedoch regen alle Schallanteile, auch die seitlichen, das Diffusfeld an. Bündelungsgrad Der Bündelungsgrad (γ), im Gegensatz zum Richtungsfaktor, gewichtet über das Flächenintegral aller Richtungsfaktoren um den Lautsprecher herum und setzt es in das Verhältnis zu einem Kugelstrahler, der in alle Richtungen gleich abstrahlen würde. Damit werden alle Schallanteile rings um den Lautsprecher auf einer Kugelfläche berücksichtigt. γ ( α ,ω) =
S 2 v∫ Γ ( α ,ω) dS
531
Beschallung Bündelungsmaß Das Bündelungsmaß (d) gibt den logarithmierten Wert des Bündelungsgrades an, d ( α , ω ) = 10 log γ ( α , ω ) [dB].
Das Bündelungsmaß drückt aus, um wie viele dB ein gerichteter Lautsprecher auf seiner Hauptachse gemessen lauter ist, als ein Kugelstrahler, der insgesamt die gleiche akustische Leistung abstrahlt. Daher wir bei dieser Leistungsbetrachtung für den Pegelwert das Ergebnis des Logarithmus mit 10 multipliziert. Ein Lautsprecher mit einem höheren Bündelungsmaß in dB hat demnach eine größere Richtwirkung, als ein Vergleichslautsprecher mit einem kleineren Bündelungsmaß. Geht das Bündelungsmaß gegen 0 dB, so strahlt der Lautsprecher kugelförmig in alle Richtungen gleichmäßig ab. Die Praxis zeigt aber, dass das Bündelungsmaß immer frequenzabhängig ist. Zu tiefen Frequenzen hin bündelt ein Lautsprecher geringer als zu hohen Frequenzen, das Bündelungsmaß nimmt zu hohen Frequenzen hin üblicherweise zu. Wünschenswert wäre, ein Richtlautsprecher hätte ein konstantes Bündelungsmaß über den gesamten Frequenzbereich. Dies lässt sich in der Realität nicht verwirklichen. Für den praktischen Einsatz bedeutet dies, dass ein Lautsprecher mit hohem Bündelungsmaß günstig ist, da dieser das Diffusfeld wenig angeregt. Wenn ein Lautsprecher aber erst zu hohen Frequenzen hin ein höheres Bündelungsmaß hat, und das ist übliche Praxis, bedeutet dies, dass gerade im Tieftonbereich das Diffusfeld stärker angeregt wird, als im Hochtonbereich. Da aber gerade im Tieftonbereich die meisten Resonanzen auftreten, dort die Nachhallzeit am längsten ist und die Hallradien deshalb klein sind, muss man bei tiefen Frequenzlagen sorgfältig arbeiten. Die Versorgung des Publikums im Bassbereich wird in erster Linie über das Diffusfeld erfolgen. 9.3.1.7
Abstrahlwinkel
Abb. 9/13. Abstrahlwinkel eines Lautsprechers in der Horizontalebene ($H). Die Winkelbegrenzung erfolgt nach Definition bei – 6 dB und einer Frequenz von 1 kHz.
Der Abstrahlwinkel eines Lautsprechers ist eine ebenfalls wichtige Information über das Richtverhalten eines Lautsprechers. So bedeutet z. B. die Angabe 90/ x 60/ (H x V) für einen Lautsprecher, dass er in der horizontalen Ebene den Schall mit einem 90/-Winkel abstrahlt und in der vertikalen Ebene mit einem 60/-Winkel. Die Winkelhalbierende ist immer die Hauptachse des Lautsprechers. Da sich Schall nicht so exakt richten lässt wie Licht, gilt die 532
Beschallungsausrüstung Definition der Abstrahlwinkel, dass der Schalldruckpegel an den Winkelgrenzen um 6 dB im Vergleich zur Hauptachse abgenommen haben muss. In diesem Beispiel ist die Bündelung in der Vertikalen also höher, als in der Horizontalen. Diese Angaben verwendet man, um die Lautsprecher im Einsatz optimal auf das Publikum ausrichten zu können. Es ist also nicht unerheblich, ob ein solcher Lautsprecher stehend oder liegend betrieben wird. 9.3.1.8
Methoden für Richtwirkung von Lautsprechern
Dipolstrahler Um einen Lautsprecher eine Richtwirkung zu geben ist es am einfachsten, zwei gleiche Lautsprecher nebeneinander oder übereinander zu betreiben.
Abb. 9/14. Ausbreitung kohärenter Schallwellen zweier benachbarter Lautsprecher; abhängig vom Abstrahlwinkel kommt es zu frequenzbedingten Auslöschungen bzw. Summationen.
Da beide Lautsprecher gleichphasig kohärente Schallwellen abstrahlen, ergibt sich in einem Abstand r vor den beiden Lautsprechern eine Summation der beiden Wellen, das heißt eine Pegelerhöhung. In der 90/-Richtung nach oben oder unten löschen sich aber diejenigen Frequenzen aus, deren halbe Wellenlängen genau dem Abstand der beiden Lautsprecher entsprechen. In der horizontalen Ebene ergibt sich also eine Erhöhung des Schallpegels, in der vertikalen Ebene eine Reduzierung. Dieses Prinzip liegt der Funktionalität der Schallzeile zu Grunde. Es ist bis heute aktuell und wird in den unterschiedlichsten Varianten benutzt und optimiert. Der Effekt wird natürlich noch deutlich verstärkt, wenn nicht nur zwei, sondern mehrere Lautsprecher benutzt werden. Wobei die maximale Auslöschung sich immer bei der halben Wellenlänge des Lautsprecherabstandes ergibt. Daher bauen heute viele Hersteller Mehrwegsysteme als Schallzeile. Die Hochtöner befinden sich in der Mitte des Lautsprechers, ihre Wellen müssen bei kleinen Wellenlängen interferieren, die Tieftöner, deren längere Wellen sich auslöschen müssen, werden mechanisch in größerem Abstand an die Außenseiten gebaut.
Abb. 9/15. Zweiwege-Schallzeile
533
Beschallung D’Appolito-Strahler Eine häufige verwendete Version gerichteter Strahler ist das Prinzip nach D’Appolito (Joseph D’Appolito), bei dem ein Hochtöner in der Mitte von zwei Tieftönern eingerahmt wird. Der Vorteil hier ist die sehr kompakte Bauweise, da als Tieftöner relativ kleine Chassis verwendet werden können, doch beide erreichen miteinander die doppelte Membranfläche. Durch den mechanischen Abstand der einzelnen Lautsprecher wird eine Bündelung bei tieferen Frequenzen erreicht. Bei diesem Prinzip verwendet man einen Hochtöner, dessen Systembündelung mindestens der von den beiden Tieftönern miteinander entspricht.
Abb. 9/16. Lautsprecher nach D’Appolito
Horngeladene Lautsprecher Bei den häufigsten Einsätzen für kleine und mittlere Beschallungsaufgaben werden Lautsprecher verwendet, deren Schallwellen durch sogenannte Hörner in der gewünschten Richtung geführt werden können. Durch die Horngeometrie, also den Verlauf des „Halses“ und die Gestaltung der „Mundöffnung“ des Horns, kann in weiten Bereichen eine beliebige Bündelung in vertikaler und horizontaler Ebene erzielt werden.
Abb. 9/17. Horngeladener Lautsprecher mit Druckkammersystem und Horn. Der Phasenausgleichskeil sorgt für einen gleichmäßigen Antrieb der Luftsäule im Hornhals.
Für den Einsatz von Hörnern gibt es aber physikalische Grenzen. Ein Horn kann eine optimale Schallführung nur für diejenigen Wellen bieten, deren Wellenlänge kleiner als die Hornabmessungen sind. Hörner für tiefe Frequenzen haben also sehr große mechanische Abmessungen. Die Wirksamkeit der Bündelung wird umso größer, je länger das Horn ist. Ein Konstruktionsbeispiel sind die sogenannten CD-Hörner (constant directivity), die in ihrem ausgewählten Frequenzbereich für eine konstante Bündelung sorgen. Bei den meisten Kompaktlautsprechern werden deshalb für hohe Frequenzbereiche derartige Hörner verwendet, die Tieftöner hingegen strahlen direkt und ohne Horn ab. Von Vorteil ist hier, dass ein direkt strahlender Konuslautsprecher ab einer Wellenlänge, die in etwa einem Viertel des Membrandurchmessers entspricht, bereits eine sehr starke Bündelung erzielt. Idealerweise hat der direktstrahlende Lautsprecher spätestens bei der Übergangsfrequenz zum horngeladenen Hochtöner die gleiche Bündelung. Somit treten im kritischen Übergangsbereich sehr wenige Klangverfärbungen auf (siehe Kap. 4.4.1.1). 534
Beschallungsausrüstung Hornlautsprecher bieten aber noch einen weiteren Vorteil. Durch das Horn, genauer durch das eingeengte Luftvolumen, das vor einem normalen Membranlautsprecher sitzt, wird die Impedanz der Luftmoleküle, die durch die Membran zu Schwingungen angeregt werden, deutlich vergrößert. Die Membran erfährt einen höheren Luftwiderstand und kann dadurch mehr Kraft auf die schwingenden Moleküle übertragen. Der Wirkungsrad des Lautsprechers wird deutlich erhöht. In einem Horn entstehen aber auch ungewünschte Reflexionen, die zu einem erhöhten Klirrfaktor führen. Daher werden horngeladene Lautsprecher bei kurzen Beschallungsdistanzen oder in hochwertigen Abhörräumen ungern verwendet. 9.3.1.9
Stacking
Oftmals reicht es bei großen Beschallungsereignissen nicht aus, auf jeder Bühnenseite nur ein einziges Lautsprechersystem zu installieren, da beispielsweise größere Abstrahlwinkel oder höhere Schalldrucke gefordert werden. In diesen Fällen werden zusätzlich zwei oder mehr Lautsprecher neben- oder übereinander betrieben. Man nennt diesen Betrieb „stacking“.
Abb. 9/18. Kombination mehrerer Lautsprecher zur Erhöhung des Schalldruckpegels und zur Steuerung des Abstrahlwinkels (stacking).
Allerdings ist zunächst jeder Lautsprecher wie eine eigene Schallquelle zu betrachten und die abgestrahlten Schallwellen interferieren deshalb mit denen der anderen Lautsprecher. Es entstehen in vertikaler wie in horizontaler Ebene deutliche Interferenzen und frequenzabhängige Kammfiltereffekte, die die Klangqualität der Beschallungsanlage erheblich mindern. So kann es zum Beispiel passieren, dass zwar in einem bestimmten Frequenzbereich die gewünschte Pegelerhöhung oder die Veränderung der Abstrahlcharakteristik erreicht wird, aber 535
Beschallung bei anderen Frequenzen können Pegel-Nebenmaxima außerhalb des gewünschten Abstrahlbereichs entstehen. Dabei kann es durchaus zu unkontrollierten Pegelverteilungen kommen, die zu enorm hohen Pegelspitzen an Zuschauerplätzen führen können, ohne dass diese vom Beschaller wahrgenommen werden. Auch nimmt bei hohen Frequenzen die abgestrahlte Schallwellenenergie ab und somit die Reichweite und Wirksamkeit des Gesamtsystems. Nur bei sehr großen Wellenlängen lässt sich so noch eine gleichmäßige Gesamtschallwelle erzeugen. Das Stacking wird bei Beschallungsprojekten häufig angewendet. Hersteller professioneller Beschallungssysteme geben dem Anwender umfangreiche Montageanleitungen mit Schaubildern und Beispielen in die Hand, wie die Lautsprecher winkelgenau „gestacked“ oder als Cluster betrieben werden müssen, um gewünschte optimale Ergebnisse zu erzielen. Auch das zum Stacking notwendige Montagematerial wird vielfach mitgeliefert, einschließlich passender Montagerahmen und Hängesysteme, sogenannte „Cradels“, die eine winkel- und abstandsgetreue Montage der Lautsprechercluster für verschiedene Montagevarianten ermöglichen. 9.3.1.10
Line-Arrays
Mit der Einführung von Line-Arrays hat die Qualität der Beschallung deutlich zugenommen. Geht man bei einem Lautsprechercluster noch davon aus, dass mehrere Einzelpunktschallquellen miteinander „gestacked“ zu einer einzigen Punktquelle kombiniert werden, so wird mit dem Line-Array eine Linienschallquelle aus einzelnen Lautsprechermodulen erzeugt. Jedes Einzelmodul besteht aus einem meist horngeladenen Zwei- oder Dreiwegelautsprecher, der horizontal untereinander mit den anderen Modulen betrieben wird. Einzeln kommen die jeweiligen Line-Arraymodule nicht zum Einsatz, sie funktionieren nur als Ganzes. Jedes Einzelmodul hat eine sehr starke vertikale Bündelung von wenigen Grad.
Abb. 9/19. Einzelmodul eines Line-Array.
Abb. 9/20. Line-Array-„Banane“.
536
Beschallungsausrüstung Im Betrieb werden die Einzelmodule eng untereinander gehängt. Die Hornöffnungen sind derart konstruiert, dass die abgestrahlte Welle jedes Einzellautsprechers sich homogen, also phasenrichtig mit der Welle des Nachbarlautsprechers darüber und darunter verbindet. Dabei müssen die abzustrahlenden Wellenlängen der Einzelsysteme genau auf die mechanischen Abstände angepasst sein. Ziel ist, eine möglichst gleichphasige Welle aus allen untereinander hängenden Lautsprechern für jeden Frequenzbereich zu erzeugen. Der Effekt funktioniert umso besser, je mehr Systeme untereinander montiert sind. Eine Linienschallquelle erzeugt eine Zylinderwelle. Zylinderwellen haben gegenüber Kugelwellen die Eigenschaft, dass bei einer Verdopplung des Abstandes von der Schallquelle die entstehende Wellenfläche um den Zylinder herum nicht auf das Vierfache ansteigt, wie bei einer Kugelfläche, sondern nur auf das Doppelte.
Abb. 9/21. Zylinderwelle und Wellensegment.
Das bedeutet, dass die Intensität in doppelter Entfernung von der Quelle nur auf die Hälfte, der Pegel also um lediglich 3 dB abgenommen hat. Somit kann mit einer Zylinderschallquelle, hier einem Line-Array, eine wesentlich höhere Reichweite bei gleich lauter Beschallung erzielt werden, als bei einem Beschallungssystem mit Kugelstrahlern. Ein anschauliches Beispiel einer bekannten Linienschallquelle ist ein langer Güterzug. Die vielen Räder und Achsen des Zuges erzeugen miteinander eine ideale Zylinderwelle, die noch über eine Entfernung von mehreren Kilometern gut zu hören sein kann, jedoch nur seitlich zum fahrenden Zug. Vor und hinter dem Zug ist die Abstrahlung minimal. Eine punktförmige Schallquelle müsste mit einem Vielfachen an Energie abstrahlen, um den gleichen Lautstärkepegel zu erzeugen Beim Betrieb von Line-Arrays in Räumen ist darauf zu achten, dass die abgestrahlte Schallwelle mit wesentlich höherer Energie auf die Rückwand trifft und dort eine größere erste Reflexion erzeugt. Dies muss durch genaues Abstimmen und Trimmen der Anlage verhindert werden. Durch die genaue und enge Abstrahlcharakteristik von Line-Arrays ist es möglich, das Diffusfeld in einem Saal oder in einer Halle gering zu halten. Die sehr gute Rückwärtsdämpfung sorgt dafür, dass auf der Bühne deutlich geringere Schallpegel erreicht werden, somit die Rückkopplungssicherheit steigt und niedrigere Monitorlautstärken benötigt werden. Die hohe Präzision der Anlagen erlaubt es, den Nahbereich vor einer Bühne mit geringeren Schalldrücken zu versorgen, als beispielsweise die Saalmitte. So ist es Praxis, den Mischpultplatz 537
Beschallung (FOH, Front-Of-House) mit dem größten Schalldruckpegel zu versorgen. Wenn nun ein FOHBeschaller am Mischpult die Lautheit der Veranstaltung bestimmt, so nimmt er den Schalldruckpegel am eigenen Standort als seinen persönlichen Eindruck wahr. Dies hilft, geltende EU-Normen für Lautstärkepegel bei Veranstaltungen vorteilhaft umzusetzen. Um ein Line-Array optimal zu nutzen, bedarf es eines höheren Planungsaufwandes im Vorfeld einer Veranstaltung. Die Mechanik von Line-Arraysystemen ist komplex und ausgeklügelt, ist aber ein wichtiges Werkzeug für einen erfolgreichen Betrieb. Alle Hersteller von Linearrays verbinden deshalb mit dem Verkauf ihrer Systeme intensive Anwenderschulungen mit softwaregestützten Planungsmitteln für z. B. Anzahl der einzusetzenden Line-Arraymodule, Positionen, Höhenangaben, Winkelzuordnungen, Berechnung der Verstärkerpegel etc. Ohne diese genauen Planungen und Vorbereitungen ist der Einsatz von Line-Arrays nicht sinnvoll.
Abb. 9/22. Vergleich Zylinderwelle – Kugelwelle.
Werden die Systeme exakt betrieben, so ist mit vergleichsweise geringem Materialaufwand und bei guter Logistik ein rascher Auf- und Abbau möglich. Es kann eine sehr hohe Qualität der Beschallung erzielt werden. 9.3.1.11
Monitorbeschallung
War bisher die Rede von der Beschallung des Publikums, so geht es im Folgenden um die Versorgung mit Schall von Moderatoren, Musikern und anderen Darstellern auf der Bühne. Die Ansprüche an den Monitormixer und seinen Arbeitsplatz sind durch die modernen technischen Möglichkeiten enorm gestiegen. Wird bei einer Veranstaltung beispielsweise ein einzelner FOH-Tonmeister für die Publikumbeschallung eingesetzt, so verteilen sich die Monitoraufgaben (monitoring) häufig auf zwei Tonmeister an zwei Mischpulten. Monitor-Wedge Der am häufigsten verwendete Lautsprecher für das Monitoring ist das Monitor-Wedge. Das ist ein Beschallungslautsprecher, der durch seine keilförmige Gehäuseform auf dem Boden 538
Beschallungsausrüstung liegend in der Regel den Musiker mit dessen gewünschter Mischung versorgt. Die Anforderungen an einen Bodenmonitor sind in etwa die gleichen, wie bei einem PA-Beschallungslautsprecher. Obwohl Monitore aus kurzen Entfernungen abgehört werden, bevorzugen viele Anwender trotzdem Systeme mit starker Bündelung, um auf der Bühne eine deutliche Trennung der Monitorbereiche untereinander zu erzielen und um das Diffusfeld bzw. den Schalldruckpegel auf der Bühne möglichst niedrig zu halten. Viele Musiker ziehen für ihren Monitorklang einen harten, durchsetzungsstarken Klang einem weichen Wohlklang vor.
Abb. 9/23. Monitor-Wedge.
Monitor-Sidefill Für alle Akteure auf der Bühne, die entweder keinen eigenen Monitorweg bekommen, oder die sich viel auf der Bühne bewegen müssen, wird die Bühnenfläche über sogenannte „Sidefills“ versorgt. Das sind Beschallungslautsprecher, die eine kontrollierte und transparente Bühnenbeschallung erzeugen. In der Regel sollte diese Beschallung lauter sein, als der Diffusanteil, den die Publikumsbeschallung auf der Bühne erzeugt. Aber weil die Bühnenbeschallung, also das Monitoring der Akteure, immer lauter und intensiver geworden ist, und dieser Schalldruckpegel der Bühne sogar im Publikumsbereich einen erheblichen Schalldruckpegel erzeugt, wurden im Gegenzug die Saalbeschallungen ebenfalls immer lauter. 9.3.1.12
In-Ear-Monitoring
Erst die Einführung so genannter „In-Ear-Monitore“ schuf die Möglichkeit, hohe Schalldruckpegel auf der Bühne deutlich zu senken. In-Ear-Monitore sind individuell angepasste Ohrstöpsel für die Musiker, die zunächst den äußeren Lautstärkepegel um bis zu 25 dB dämpfen und somit einen Gehörschutz bieten, andererseits aber mit einem integrierten kleinen Kopfhörerwandler das Monitorsignal direkt in das Ohr an das Trommelfell übertragen. Üblicherweise werden diese Monitorsignale drahtlos per Funk auf einen kleinen tragbaren Empfänger stereofon übertragen. Der Musiker oder Schauspieler kann dann selbst den Pegel anpassen. Für die Musiker auf der Bühne bedeutet diese Isolierung durch das In-Ear-Monitoring aber auch, dass sie untereinander in ihrer Kommunikation eingeschränkt sind. Daher gibt es in der Regel zusätzliche Kommandomikrofone auf der Bühne, über die die Musiker kommunizieren können. Um mit dem Publikum trotzdem in nahen Kontakt treten zu können, werden teilweise „Atmo-Mikrofone“ an der Bühnenkante montiert, deren einzige Aufgabe es ist, die 539
Beschallung Reaktionen und Rufe des Publikums in das Monitorsignal zu übertragen. Diese Mikrofone werden ebenfalls vom Monitormixer gesteuert. Für den Monitormixer ist die gehörrichtige Ansteuerung der Ohrhörer eine zusätzliche Verantwortung für die Gesundheit der Akteure.
9.3.2
Mischpulte
9.3.2.1
FOH – Front-Of-House
Mischpulte, die für Beschallungsprojekte verwendet werden, unterscheiden sich von Produktionskonsolen nur in sehr wenigen Punkten. Daher soll hier auch nur auf die Besonderheiten eines FOH-Pultes eingegangen werden. FOH bedeutet abgekürzt „Front of the House“ und ist der internationale Fachbegriff für den Arbeitsplatz des Beschallungs-Tonmeisters. Im Gegensatz dazu heißt der Arbeitsplatz des Tonmeisters, der die Bühne und damit die Akteure zu beschallen hat, „Monitoring“ oder Monitorplatz. Die Mischpulte der Beschaller waren so ziemlich die letzte Bastion, in die die Digitaltechnik Einzug gehalten hat, nicht zuletzt auch wegen der lange nicht beherrschbaren großen Latenzzeiten. Zwar hätten auch gerne früher schon die Beschallungsingenieure die vollständigen Speichermöglichkeiten einer Digitalkonsole benutzt, jedoch hatte es lange gedauert, bis auf dem Markt Mischpultoberflächen digitaler Systeme erhältlich waren, die ebenso schnellen Zugriff auf möglichst alle Parameter erlaubten, wie bei analogen Pulten. Dafür sind heutige Beschallungspulte so umfassend und vielseitig, dass Vieles von früherem sogenannten „19 Zoll-Outboard-Equipment“, also zusätzliche Effekte wie Kompressoren, Gates, verschiedenste Equalizer, Kreuzschienen, Matrizen u.a. bereits im Mischpult integriert sind. Mit Hilfe modernster Prozessortechnologie werden z. B. dynamische Effekte pro Kanalzug in den Insertweg geroutet, Hilfssummen mit Abgriffen vor dem Pegelregler, sogenannte PreAuxiliary werden benutzt, um die Monitore der Darsteller, Moderatoren und Künstler auf der Bühne zu versorgen. Damit ist sichergestellt, dass der Monitorpegel des Künstlers trotz Lautstärkeregelung für den Saal konstant bleibt. Im Gegensatz dazu werden die Summen für Sammeleffekte, wie Hall, Chorus, Delay usw. nach dem Regler als Post-Auxiliary abgegriffen. Manche Hersteller bieten auf ihren Beschallungspulten zu den üblichen stereofonen Links/Rechts-Mastersummen noch eine Centersumme an. Damit kann das Centercluster mit einer eigenen Mischung versorgt werden, wie unter Kap. 9.2.2.3 beschrieben. Die Leistungsfähigkeit heutiger digitaler Mischpultsysteme setzt der gestalterischen Komponente eines guten Klangs kaum Grenzen. 9.3.2.2
Monitormischpulte
Monitormischpulte oder Monitorkonsolen sind komplexe FOH-Konsolen, deren Hauptmerkmal eine möglichst hohe Anzahl von Hilfssummen mit eigener Aussteuerung ist. Bei der Produktion auf einer großen Bühne muss der Tonmeister für das Monitoring die Bühne über mindestens zwei Summen von der Seite über Sidefills beschallen. Werden alle Künstler auf der Bühne zusätzlich mit Stereo-In-Ear-Monitoring versorgt und gibt es darüber hinaus noch 540
Beschallungsausrüstung einige Monitor-Wedges, so sind 24 Aux-Summen keine Seltenheit. Um die Bauform von Mischpulten kompakt zu halten, sind Gruppenwege und Auxiliary-Wege einschließlich der Aussteuerung meist in mehreren Ebenen umschaltbar, so dass beim Monitoring auch alle Hilfsausgänge auf Reglern zur Verfügung stehen und überwacht werden können. („Flip“Konsole). Beim Einstellen der Mischung für das In-Ear-Monitoring wie auch der Mischung für die Bodenmonitore, muss der Tonmeister die verschiedenen Mischresultate selbst abhören können. Daher benötigt ein Monitormischpult eine differenzierte Abhörmatrix, um alle vorkommenden Mischungen („Mixe“) kontrollieren und überwachen zu können. Weil jeder Monitorweg meistens auch noch über externe Equalizer geführt wird, muss dessen Ausgang zur Kontrolle wiederum in den Auxiliary-Bus des Monitors rückgeführt werden können.
9.3.3
Equalizer
Im Zusammenhang mit einer Audioübertragungskette wird an vielen Stellen von einer Frequenzganganpassung oder einer Signalentzerrung gesprochen. Gemeint ist dabei immer eine frequenzabhängige Veränderung der Amplitude des Signals. Sind im Aufnahmeproduktionsbetrieb üblicherweise die Klanggestaltungsmöglichkeiten des Mischpultes in jedem Eingangskanal mehrfach verfügbar, so verwendet man beim Mastern einer Audioproduktion, also als letzten Schritt der Klanggestaltung des Gesamtergebnisses, häufig einen Master-Equalizer. Das sind sehr hochwertige Klangregelwerkzeuge zur Frequenzgangbeeinflussung, die meistens als externes Gerät in den Summenkanal vor der Summenaufzeichnung eingeschaltet sind. In großen Beschallungsanlagen werden an verschiedenen Stellen eines Systems derartige Equalizer vorteilhaft eingesetzt. 9.3.3.1
Parametrischer Equalizer
Ein stereofoner parametrischer Equalizer ist in der Regel mit zwei identischen Audiokanälen ausgestattet. In jedem dieser Kanäle durchläuft das Audiosignal, je nach Hersteller, fünf oder sechs in Serie geschaltete Filter. Jede Filterstufe lässt sich in ihren systemtypischen Parametern beeinflussen: Der erste Parameter ist die Einstellung der Frequenz, bei der die Filterstufe arbeitet. Bei hochwertigen analogen Geräten ist dies stufenlos möglich, jedoch sind die einzelnen Filter auf verschiedene Bandbereiche verteilt. So wirkt z. B. das erste Filter von 20 bis 200 Hz, das zweite von 60 bis 600 Hz, das dritte von 200 Hz bis 2 kHz, das vierte von 600 Hz bis 6 kHz und das fünfte von 2 bis 20 kHz. Die Skalierung ist erklärbar, weil hochwertige analoge Filterschaltungen mit zunehmender Frequenzselektion konstruktiv aufwändig und teuer sind. Digitale parametrische Equalizer hingegen können pro Filter über den gesamten Audiofrequenzgang durchgestimmt werden; dazu stehen je nach Algorithmus festgelegte, hinreichend kleine Frequenzschritte zur Verfügung. Der zweite Parameter ist die veränderbare Amplitude der Verstärkung bzw. Dämpfung in dem gewählten Frequenzbereich. Übliche Werte sind 15 dB Verstärkung bzw. Dämpfung in jedem Filter. 541
Beschallung
Abb. 9/24. Parametrischer Equalizer mit Darstellung von Filterkurven.
Die Güte der Filter ist der dritte Parameter. Sie ist bei parametrischen Equalizern ebenfalls variabel. So können mit diesen Filtern sehr breitbandige Anhebungen z. B. im Frequenzbereich von Vokalformanten vorgenommen werden oder bei niedrigen Beschallungspegeln eine gehörrichtige Anpassung des Gesamtfrequenzganges, also eine Anhebung zu tiefen bzw. sehr hohen Frequenzen. Oft benötigt wird eine hohe Güte, um frequenzselektiv schmalbandig Bereiche aus einem Tonsignal herauszufiltern. Entweder z. B. bei direkt entstehenden Rückkopplungsfrequenzen oder bei schmalbandigen Resonanzen im zu beschallendem Raum. Gerade an dieser Stelle ist die hohe Güte eines solchen Filters sehr wichtig, da Raumresonanzen extrem schmalbandig sein können. Würde man eine solche Resonanz mit einem normalen Filter des Mischpultes bedämpfen wollen, so würde man einen zu breiten Anteil aus dem Audiosignal filtern. Das macht sich bemerkbar, wenn das Audiosignal durch die Filterung zu viel Bassanteil verliert. Übliche Güten sind auch bei analogen Geräten von zwei Oktaven bis zu einer Zehnteloktave möglich. 9.3.3.2
Grafischer Equalizer
Der grafische Equalizer unterscheidet sich von seinem parametrischen Pendant vor allem darin, dass er für alle einzustellenden Frequenzen einen eigenen Schiebepegelsteller hat. Diese Pegelregler sind auf den Frontplatten der Geräte nebeneinander angeordnet und bilden in etwa den Einsatzpunkt im Frequenzbereich grafisch ab. Daher ist auch der Name abgeleitet.
Abb. 9/25. Grafischer Equalizer mit 30 Terzbändern.
542
Beschallungsausrüstung Entscheidend ist, dass die Frequenzbänder in ihren Arbeitsbereichen festgelegt sind; sie entsprechen üblicherweise einer international gültigen Standardisierung. Da neben der Frequenz auch die Güte der 30 verschiedenen Filter festgelegt ist und die Einsatzbereiche der nebeneinander liegenden Filter überlappen, ist der komplette resultierende Frequenzgang einer solchen Einstellung nur sehr grob aus der Reglerstellung abzulesen. Die Güte eines einzelnen Filters ist deutlich niedriger, als die maximale Güte eines parametrischen Filters, daher können mit einem grafischen Equalizer keine so schmalbandigen Filterungen von Resonanzen oder Rückkopplungsfrequenzen vorgenommen werden. Durch die starren Mittelfrequenzen wird eine Resonanz oft auch nicht in ihrem Mittelpunkt getroffen. Trotzdem haben sich weltweit im Beschallungseinsatz grafische Equalizer besser durchgesetzt, als parametrische Filter. Das liegt zum einen an den unterschiedlichen Herstellungskosten, da es kostengünstiger ist, 30 Filter mit fester Frequenz und Güte herzustellen, als fünf Filter mit variablen Parametern. Dies gilt auch für digitale Geräte und deren Algorithmen. Ein großer Vorteil liegt andererseits in der raschen Bedienbarkeit und direkten Ablesbarkeit der grafischen Equalizerkurven, im Gegensatz zu den komplexen parametrischen Filterstufen.
9.3.4
Effekte
9.3.4.1
Hall
Zur Grundausstattung eines Beschallungsarbeitsplatzes bei einem Musikprojekt gehört ein gutes Hallgerät. Oft ist es schwierig, der natürlichen und meist dominanten Raumakustik noch einen zusätzlichen künstlichen Raum aufzuzwingen. Deshalb werden gerne Hallalgorithmen verwendet, bei denen die Halleffekte in ihren drei Grundbestandteilen „Early Reflections“, „Pre-Delay“ und „Reverb“ einzeln gesteuert werden können. - Early reflections werden diejenigen ersten Reflektionen genannt, die gezielt einem Schallsignal hinzugefügt, dieses kräftigen und durchsetzungsstärker machen können. - Pre-Delay ist der zeitliche Abstand zwischen einem Schallereignis und dem erstmals einsetzenden Halleffekt. - Reverb ist die eigentliche Nachhallfahne, die in vielen Räumen mehr als ausreichend vorhanden ist; dieser Wert wird daher oft sehr niedrig zugemischt. 9.3.4.2
Delay-Echo
Als Delay bezeichnet man einen Echoeffekt, der sich – für eine Stimme oder ein Instrument eingesetzt – rhythmisch in die Musik integriert. Daher muss für jedes musikalische Tempo die Delayzeit angepasst werden. Sofern diese nicht bereits vorprogrammiert ist, hilft eine sogenannte TAP-Taste, die Echogeschwindigkeit, also die Wiederholungsrate im Rhythmus der Musik einzutippen. Dieses Delay hat nichts mit einer Zeitanpassung der Schalllaufzeiten in der Beschallungsanlage zu tun. Der Frequenzgang dieses Echoeffektes ist sehr stark eingeschränkt. 9.3.4.3
Delay-Signallaufzeit
Dieses Gerät dient dazu, Audiosignale zu verzögern, damit sie in einer Beschallungsanlage oder in einem größeren Audioverbund zeitrichtig synchron übertragen werden können. Die kleinste Zeiteinheit ist üblicherweise eine Millisekunde, gelegentlich sogar noch kürzer. 543
Beschallung Die Schallgeschwindigkeit ist in hohem Maße von der Lufttemperatur abhängig, die sich im Laufe einer Audioproduktion erheblich verändern kann. Grund dafür sind die Wärmelasten der Bühnenscheinwerfer oder bei Außenübertragungen auch die Sonneneinstrahlung. Deshalb gibt es Verzögerungsgeräte, die die Grundverzögerung schrittweise, abhängig von der Temperatur, automatisch nachregeln können. 9.3.4.4
Kompressor, Limiter, Noise-Gate
Dynamische Effektgeräte wie Kompressoren, Expander, Limiter oder Noise Gates werden im Beschallungsbereich ebenso intensiv verwendet, wie bei normalen Studioproduktionen. Der wesentliche Unterschied ist, dass alle Geräte, die eine automatische Verstärkung bewirken, bei Beschallung die Rückkopplungsgefahr erhöhen. Der Umgang mit derartigen Effektgeräten ist deshalb sorgfältig abzustimmen.
9.3.5
Mikrofone
Wie schon an anderer Stelle in diesem Kapitel erwähnt, regt jeder Lautsprecher in einem Raum das Diffusfeld an und erhöht die Rückkopplungsgefahr. Durch einen großen Hallradius bedingt ist es aber oftmals notwendig, dezentral mit vielen Lautsprechern das Publikum mit Nutzschall zu versorgen. Dabei sollen die Lautsprecher ein hohes Bündelungsmaß aufweisen und möglichst gleichmäßig die Zuhörer beschallen. Für die Bühnenmikrofone gelten in umgekehrter Richtung die gleichen akustischen Gesetze. Je näher ein Mikrofon an die Schallquelle herangebracht werden kann, desto günstiger wird das Verhältnis von Nutzsignal einer Primärschallquelle zu den anderen Schallquellen bzw. zum Diffusfeld. Es gilt das Abstandsgesetz der Akustik, d. h. eine Abstandshalbierung erhöht den Nutzpegel am Mikrofon um 6 dB. Hier entsteht meist ein Konflikt zwischen den Bedürfnissen des Toningenieurs, der z. B. im Ü-Wagen die Aufnahme bzw. den Mitschnitt verantwortet und den Nöten des Beschallungsingenieurs, der für eine rückkopplungsfreie und angemessen laute Übertragung im Raum verantwortlich ist. Ein Optimum kann nur erzielt werden, wenn beide gemeinsam einen idealen Kompromiss finden. 9.3.5.1
Rückkopplungsempfindlichkeit bei Mikrofonen
Die Richtcharakteristik eines Mikrofons hat entscheidende Bedeutung, wann bei einer Beschallung die Rückkopplungsgrenze erreicht ist. Daher werden bei einer Beschallung Mikrofone mit Kugelcharakteristik nur in seltenen Fällen eingesetzt, es sei denn, wenn aufgrund der Platzierung eine Rückkopplung unwahrscheinlich ist, wie beispielsweise bei einem Grenzflächenmikrofon in der Bass Drum eines Schlagzeugs oder in einem Flügel mit geschlossenem Deckel. Werden bei Talkrunden, im Musical, oder im Theater Darsteller mit Ansteckmikrofonen aufgenommen, so verwenden Beschallungsingenieure meistens trotzdem Kugelmikrofone. Das liegt daran, dass gerichtete Mikrofone beim Verrutschen am Körper die bevorzugte Aufnahmerichtung verlassen und, da Druckgradientenempfänger, Körperschall oder Windgeräusche wesentlich stärker übertragen als Kugelmikrofone. 544
Beschallungsausrüstung Grundsätzlich werden Nieren oder Supernieren im Beschallungseinsatz deutlich bevorzugt. Weltweit haben sich Mikrofone durchgesetzt, die zwar nach objektiven Messkriterien nicht zwingend höchsten Qualitätsansprüchen gerecht werden, jedoch extrem unempfindlich bei Nahbesprechung reagieren. Bereits in geringem Abstand nehmen derartige „Pop“-Mikrofone keine energiehaltigen Signale mehr auf, Störsignale im Diffusfeld einer Bühne werden wirkungsvoll ausgeblendet. Hat ein Mikrofon zusätzlich einen guten Poppschutz, so dass es bis wenige Zentimeter vor dem Mund betrieben werden kann, dann reduziert sich die Gefahr einer Rückkopplung, auch in extremen Monitorsituationen, deutlich. Für die meisten Beschallungstechniker und Künstler auf der Bühne ist dieser Vorteil wichtiger, als der ausgewogene Frequenzgang eines High-End-Mikrofons. So haben sich im Laufe der Jahre viele Mikrofontypen für ganz bestimmte Anwendungsbereiche herauskristallisiert. Eine Nichtlinearität im Frequenzgang beispielsweise, kann wirkungsvoll dazu führen, dass die wesentlichen Signalanteile einer Stimme oder eines bestimmten Instruments ideal übertragen werden, andere dafür gedämpft werden. Damit entsteht bereits zu Beginn der Übertragungskette eine Filterung und das Mikrofon wird in hohem Maße zum klangbildenden Werkzeug. Hier haben sich insbesondere dynamische Mikrofone sehr gut etablieren können. 9.3.5.2
Bühnentauglichkeit und Grenzschalldruck
Neben allen elektroakustischen Eigenschaften eines Bühnenmikrofons ist dessen mechanische Stabilität ein wichtiger Faktor im rauen Alltagsbetrieb. Auf Grund der robusten Bauart sind dynamische Mikrofone hierin wesentlich unempfindlicher als Kondensatormikrofone. Das gilt auch für den Grenzschalldruck der zu verwendenden Mikrofonkapseln.
9.3.6
Controller
9.3.6.1
Frequenzgangkorrektur
Beschallungslautsprecher benötigen einen sehr hohen Kennschalldruck und werden oft bis an ihre Leistungsgrenze ausgesteuert. Das bedeutet, dass die einzelnen Wandlerkomponenten, also Chassis und Horntreiber mit Hörnern, möglichst ohne leistungsbegrenzende Bauteile wie Frequenzweichen und Schutzschaltungen funktionieren müssten. Aber aufwändige Frequenzweichen und passive Schutzschaltungen für die hohen elektrischen Ströme im Hochleistungsbereich sind teuer in der Produktion, beanspruchen viel Platz im Lautsprechergehäuse und erhöhen das Transport- oder Montagegewicht. Daher sind viele Hersteller dazu übergegangen, Beschallungslautsprecher mit einem externen, digitalen Controller anzusteuern. Diese Controller befinden sich in der Audiokette direkt vor den Leistungsverstärkern und steuern das Audiosignal derart, dass der Lautsprecher, der in diesem Fall ohne die oben genannten Bauelemente betrieben wird, optimal versorgt wird. Dazu müssen im Controller die notwendigen Parameter für den angeschlossenen Lautsprechertyp eingestellt werden, wie z. B. Frequenzgangkorrektur u. a. Für einen guten Klang bedeutet dies, dass der Lautsprecher über mindestens zwei Wege und separate Verstärker angesteuert wird. Mancher Hersteller hat die Frequenzweiche sogar zu einem Klangregelinstrument erweitert. Das Audiosignal wird bei geringem Pegel nach den „Kurven gleicher Lautheit“ mit einer relativen Anhebung der tiefen und sehr hohen Frequenzen korrigiert, also ähnlich einer Loudness-Funktion. 545
Beschallung 9.3.6.2
Phasenkorrektur, Alignment
Eine weitere Funktion des Controllers ist der Laufzeitausgleich (Alignment) zwischen den verschiedenen Wandlerkomponenten in einem Lautsprechergehäuse. Dies lässt sich besonders leicht bei digitalen Controllern mit Signalprozessoren realisieren. Der kritische Frequenzbereich eines Lautsprechers ist in der Regel die Übergangsfrequenz zwischen zwei Wandlern, z. B. Mittel- und Hochtöner. Wegen der mechanischen Bedingungen des Lautsprechergehäuses können beide Wandler meist nicht in derselben zeitlichen Abstrahlebene montiert werden. Der daraus resultierende Zeitversatz der Schallwelle wird deshalb immer zu Interferenzen zwischen beiden Wandlern bei der Übergangsfrequenz führen. Ein Delay von wenigen Millisekunden kann diesen Versatz optimal kompensieren. Bei einer Abtastrate des digitalen Signalprozessors von 48 kHz entspricht eine Verzögerung von einer Millisekunde genau 48 Samples, gemäß der Schallausbreitung in Luft von 330 m/s. 9.3.6.3
Schutzschaltung
Schutzschaltungen für den Lautsprecher können mit digitalen Signalprozessoren ebenfalls sehr einfach und wirkungsvoll realisiert werden. Zum einen müssen extreme Pegelsprünge, die zu einer zerstörerischen Membranauslenkung führen würden, gedämpft werden. Dies schafft im Controller ein sehr schneller, innerhalb weniger Samples ansprechender Limiter oder Begrenzer, der aber verzerrungsfrei erst bei sehr hohen Signalpegeln ansprechen darf. Ein zweiter, vom ersten unabhängiger Limiter schützt den Lautsprecher vor thermischer Zerstörung, wenn über längere Zeit ein permanent anstehendes Signal, z. B. eine Rückkopplung droht. Bei allen Funktionen müssen die Controllerdaten eng auf den Lautsprechertyp abgestimmt sein. Die Wirkungsweise des Controllers kann noch erhöht werden, wenn der nachgeschaltete Verstärkerausgang zum Controller rückgeführt wird. Damit steuert der Controller auch die komplette Leistungsanpassung der Lautsprecher. Konsequent ist, wenn Controller zusätzlich für verschiedene Betriebsmodi eigene Lautsprecherparameter aufweisen. Diese können sich z. B. durch die verschiedene Anzahl der am Verstärkerausgang parallel betriebenen Lautsprecher unterscheiden, oder aber verschiedene Frequenzgangkorrekturen enthalten, je nachdem, ob der Lautsprecher auf kurze Entfernung auf die Hörer strahlt, oder einen weiten Weg überbrücken muss. Als Nahfeldlautsprecher eingesetzt, werden die Höhen mit Sicherheit stärker bedämpft werden.
9.3.7
Verstärker
9.3.7.1
Dimensionierung von Verstärkern
Die Auswahl des passenden Leistungsverstärkers für ein Beschallungssystem ist wichtig. Ein Lautsprechersystem und dessen Verstärker bilden eine abgestimmte Einheit. Entgegen mancher Meinung werden Lautsprecher eher durch zu klein dimensionierte, als durch zu leistungsstarke Verstärker zerstört. Der Grund dafür liegt in der falschen Leistungsanpassung. Ein Leistungsverstärker muss die ihm zugeführte Spannung um den gewünschten Verstärkungswert erhöhen und dabei die hohe Verstärkerspannung an dem sehr niederohmigen 546
Beschallungsausrüstung Lautsprechersystem von meist 2 bis 8 S Impedanz zur Verfügung stellen und stabilisieren. Hohe Spannungen an sehr niedrigem Widerstand führen zu hohen Strömen. Die Erhöhung des Signalpegels um beispielsweise 3 dB, die gehörmäßig nur geringfügig wahrnehmbar ist, führt dann zu einer Leistungserhöhung um das Doppelte. 6 dB bedeuten jedoch die doppelte Ausgangsspannung des Verstärkers. Je nach Leistungsgröße des Verstärkers steht diesem aber nur eine begrenzte interne Versorgungsspannung zur Verfügung. Ist die maximale Höhe der Versorgungsspannung erreicht, wird das Ausgangssignal des Verstärkers in seiner Höhe abgeschnitten und bildlich gesprochen entsteht aus einer Sinusschwingung ein Rechtecksignal.
Abb. 9/26. Rechtecksignal eines übersteuerten Leistungsverstärkers.
Die spektrale Zusammensetzung eines Rechtecksignals besteht aus der Grundschwingung, in diesem Fall der ursprüngliche Sinuston, und einer Vielzahl von harmonischen Oberschwingungen. Die Oberschwingungen sind es nun, die einen erheblich höheren Anteil der Verstärkerleistung in Anspruch nehmen und über die Frequenzweiche dem Hochtonsystem zugeführt werden. Bei fehlender Schutzschaltung wird der Hochtöner in der Folge thermisch überlastet und verbrennt. Diese Zerstörung, die durch das so genannte „Clipping“ entsteht, hätte mit einer ausreichend groß dimensionierten Verstärkerstufe vermieden werden können. 9.3.7.2
Rückwärtsdämpfung
Idealerweise betrachten wir das Zusammenspiel von Verstärkern und Lautsprechern vereinfacht wie oben beschrieben. Ein Verstärker gibt seine Ausgangsspannung an den Lautsprecher ab und solange die Gesamtimpedanz der Lautsprecher nicht kleiner ist, als für den Verstärker zugelassen und der Verstärker richtig dimensioniert ist, scheint ein sinnvoller Betrieb möglich. In der Praxis jedoch treibt der Verstärker seine Leistung nicht nur gegen die sehr niedrige Impedanz der Lautsprecher, sondern muss unter Umständen einen langen Kabelweg, der ebenfalls deutlich spürbare elektrische Eigenschaften hat, überwinden. Aber selbst der Lautsprecher, der durch den Verstärker in Schwingungen versetzt wird, wirkt gleichzeitig durch seine teilweise enormen Membranbewegungen wie ein Mikrofon, oder besser gesagt wie ein Generator, der nun rückwärts über die Lautsprecherleitung in den Verstärkerausgang einen Strom induziert. Kann der Verstärker dies nicht unterdrücken, entstehen zwei deutlich hörbare Effekte: Zum einen wird die Ausgangsspannung bzw. der Ausgangsstrom des Verstärkers erheblich beeinflusst und damit das aktuelle Signal verändert, zum anderen kann ein Lautsprecher mit seinen ungewollten Eigenresonanzen freier schwingen, ohne vom Verstärker kontrolliert zu werden. 547
Beschallung Mit einem kleinen Versuch lässt sich dies schön veranschaulichen. Wenn man bei einem Lautsprecher, dessen Eingang nicht abgeschlossen ist, die Membran durch Gegenklopfen mechanisch zum Schwingen bringt, so kann man ein kurzes Nachschwingen der Membran bei ihrer Resonanzfrequenz hören. Wird der Eingang des Lautsprechers elektrisch kurzgeschlossen, ist das Nachschwingen verschwunden und schon beim Gegenklopfen fühlt sich die Membran fester bzw. steifer an. Die elektromotorische Kraft der Membran wird also durch den Kurzschluss unterbunden. Diese Funktion, die in diesem Beispiel der Kurzschluss vollbringt, muss der Verstärker erfüllen. Man nennt dies Rückwärtsdämpfung, die entsprechend hoch sein sollte.
9.3.8
Kabel, Querschnitte
Bei einer Beschallungsanlage kommt den Lautsprecherkabeln und deren Querschnitten eine besondere Bedeutung zu, die häufig vernachlässigt wird. Als Beispiel dient wieder ein Lautsprechersystem, das kurzzeitig mit 1000 W Leistung betrieben werden soll. Es wird angenommen, der Lautsprecher hat eine Impedanz von 4 S. Dann fließt nach dem Ohmschen Gesetz ein Strom von knapp 16 A. Diese Größe liegt bereits im Bereich der üblichen 230 VVersorgung eines Haushalts, dessen Stromkreise damit abgesichert sind. Der Haushaltsstrom hat jedoch nur eine Frequenz von 50 bis 60 Hz. Die Beschallung überträgt aber einen Frequenzbereich bis zu 16.000 kHz. Da wird es verständlich, dass nicht nur der reine Ohmsche Widerstand der Lautsprecherkabel eine gewichtige Rolle spielt, sondern auch die induktive und kapazitive Wirkung der Leitungen. Je länger die Kabel zwischen Verstärker und Lautsprecher sind, desto größer ist deren klanglicher Einfluss. Nach dem Gesetz des Ohmschen Widerstandes gilt die Regel, je größer der Querschnitt, desto niedriger der Widerstand. Dies wird umso wesentlicher, je größere Leistungen und damit Ströme fließen und je länger die Leitungen werden müssen. Dies gilt aber auch ebenso für die induktive und kapazitive Last. Da unterscheiden sich hochwertige Lautsprecherkabel erheblich von finanziell günstigen Stromkabeln. Generell ist zu empfehlen, die Leistungsverstärker möglichst nahe zu den Lautsprechern zu positionieren, um die Kabelwege, auf denen diese hohen Ströme fließen müssen, so kurz wie möglich zu halten.
9.4
Strukturierte Inbetriebnahme
9.4.1
Systemanpassung
In Abb. 9/27 ist die typische Struktur einer Beschallungsanlage dargestellt. Beginnend bei den Lautsprechern müssen diese optimal positioniert werden. Jeder Lautsprecher hat sein direkt zu beschallendes Versorgungsgebiet. Unabhängig von der Größe des Raumes und der sonstigen Struktur muss der Betreiber dafür sorgen, dass jeder Lautsprecher im Vergleich zu den Lautsprechern in den anderen Versorgungsgebieten mit dem richtigen Verstärkerpegel angesteuert wird und je nach Abstand zum Publikum die gleiche Klangcharakteristik aufweist. Die Beurteilung des Klanges eines einzelnen Lautsprechers kann nur im Direktschallfeld eines Lautsprechers stattfinden, also auf jeden Fall innerhalb des Hallradius. Weiters wird die 548
Strukturierte Inbetriebnahme Anpassung der Klangcharakteristik über eine Kombination aus Verstärker mit Controller und einem zusätzlichen parametrischen Equalizer realisiert. Diese aufwändige Lösung kann notwendig werden, wenn verschiedene Lautsprechertypen gemischt werden müssen. An dieser Stelle werden also die einzelnen Systeme zueinander angepasst.
Abb. 9/27. Strukturelle Darstellung einer typischen Beschallungsanlage.
9.4.2
Delayanpassung
Je nach Abstand der Lautsprecherpositionen zu den Hörern müssen die Lautsprecher unterschiedlich verzögert werden. Dazu werden in allen notwendigen Lautsprecherwegen DelayGeräte eingesetzt. Die Einstellung der richtigen Verzögerungszeit ist umso einfacher, wenn alle Lautsprecher, bzw. alle Lautsprechersysteme bereits in ihrem Pegel und in ihrem Klang richtig eingestellt sind. Die Delays sind darüber hinaus auch für die korrekte zeitliche Struktur des Diffusfeldes von Bedeutung. Da sich durch die Lufttemperatur die Schallgeschwindigkeit signifikant ändert, müssen die Verzögerungszeiten eventuell später noch nachgeregelt werden. Für die Klangeinstellung der einzelnen Lautsprecher gilt dies nicht. Denn man kann davon ausgehen, dass sich die einmal eingestellte Klangfarbe der einzelnen Lautsprechersysteme nicht ändert. 549
Beschallung
9.4.3
Raumentzerrung und Hauptequalizer
Neben den technischen Parametern gibt es auch Klangbeeinflussungen, die durch die räumliche Umgebung bestimmt werden. Dies betrifft vor allem die Raumakustik. Wenn man davon ausgeht, dass alle Lautsprecher für ihren Direktschallbereich bereits optimal abgestimmt sind, so haben trotzdem alle Lautsprecher einen gleichmäßigen Einfluss auf das Diffusfeld und dessen Qualität. Wurden zunächst die einzelnen Lautsprecher ausschließlich im Direktschall abgestimmt, muss darüber hinaus mittels eines parametrischen Equalizers im Summensignal die Raumentzerrung für das Diffusfeld vorgenommen werden. Mit diesem Haupt- oder Master-Equalizer werden alle unerwünschten Raumresonanzen gefiltert oder bedämpft und der Gesamtklang der Anlage in Kombination mit dem akustischen Umfeld eingestellt. Das Ziel ist nach wie vor, einen möglichst neutralen, ausgewogenen Klang zu produzieren. Nun kommt es oft vor, dass sich die akustischen Gegebenheiten durch das eintreffende Publikum erheblich ändern können. Dann ist es für den Beschallungsingenieur wichtig, dass er die Anpassung nur an einem einzigen Equalizer, dem „Master“ vornehmen muss. Eine strukturierte Inbetriebnahme, wie in den Kapiteln 9.4.1 bis 9.4.3 der Reihe nach beschrieben, ist für das Gelingen einer qualitativ guten Beschallung anzuraten.
9.4.4
Sonderfall Open Air Beschallung
Das beschriebene Konzept gilt in allen wesentlichen Parametern auch für die Beschallung einer Open Air-Veranstaltung. Grundsätzlich kommen hier Witterungseinflüsse stärker zum Tragen als bei einer Innenveranstaltung. Neben dem Wind, der je nach Richtung den Transport von Schall unterstützt oder bremst, wird oftmals übersehen, dass die Luftfeuchtigkeit einen enormen Einfluss auf die Schallübertragung hat. Hohe Luftfeuchtigkeit ist ideal für die Übertragung von hohen Frequenzen. Das liegt daran, dass die Luftmoleküle durch die an sie gebundenen Wassermoleküle größer sind und damit bei hohen Frequenzen und kleinen Schwingungsamplituden leichter aneinander stoßen können. Das gilt aber nicht für Regenwetter, denn Regentropfen sind keine Luftmoleküle. Bei tiefen Frequenzen sind die Schwingungsamplituden der Moleküle so groß, dass die Luftfeuchtigkeit keinen spürbaren Einfluss hat. In der Praxis wird dieser Effekt spürbar, wenn man beispielsweise in der trockenen Mittagshitze bei Sonnenschein den Soundcheck durchführt, das Konzert aber erst abends stattfindet, wenn die Abendfeuchtigkeit kommt. Die Höhenübertragung wird abends wesentlich besser sein. Aber auch in diesem Beispiel gilt, dass der Beschallungsingenieur die notwendige Klangkorrektur nur an seinem Master-Equalizer vornehmen sollte. Denn die Luftfeuchtigkeit ändert sich gleichmäßig an allen Zuschauerplätzen.
9.5
100 V-Technik
Für die meisten Festinstallationen von Beschallungsanlagen sind kurze Kabellängen, die bei niederohmigen Lautsprechern Bedingung sind, nicht einzuhalten. Auch sind die hohen Kosten für Installationen mit teuren Lautsprecherleitungen wirtschaftlich ungünstig im Verhältnis zu 550
100 V-Technik den meist geringeren Kosten für Lautsprecher. Eine Lösung durch die ausgereifte 100 VTechnik ist daher relativ einfach und wirkungsvoll zu realisieren. In einem Beschallungsprojekt sollen alle Lautsprecher in einem Gebäudeteil mit einem 100 W-Verstärker versorgt werden. Der Verstärker für das Tonsignal hat an seinem Ausgang einen Übertrager, dessen Ausgangsspannung bei Vollaussteuerung genau 100 V beträgt. Wenn der Verstärker nicht überlastet wird, fließt nach dem Ohmschen Gesetz maximal ein Strom von 1 A. Für diesen geringen Strom kann daher ein wesentlich kleinerer Querschnitt der Lautsprecherleitung verwendet werden. In der 100 V-Technik werden üblicherweise Installationskabel mit einem Leitungsquerschnitt von nur etwa 0,5 mm² verlegt. An dieser Leitung sind die einzelnen Lautsprecher angeschlossen, die am Eingang wiederum einen kleinen Übertrager haben, an dem die Maximalspannung von 100 V für den Lautsprecher abwärts transformiert wird. Die Impedanz des Übertragers, abgeschlossen mit der üblichen Lautsprecherimpedanz von 4 bzw. 8 S, bestimmt die Leistungsaufnahme durch den Lautsprecher. Die häufigste Leistungsgröße ist die eines 6 WLautsprechers. Sein Übertrager bietet demnach eine Eingangsimpedanz von R=
(100V )² = 1.667 Ω; 6W
Damit ist der Lautsprecher mit seinem Übertrager sehr hochohmig gegenüber dem eigentlichen Lautsprecher von 8 S und der Lautsprecherleitung; es fällt ein Maximum an Spannung am Lautsprecher ab. Serienmäßig haben die 100 V-Übertrager an den Lautsprechern drei verschiedene Wicklungsabgriffe: - die volle Leistung, z. B. 6 W, - die halbe Leistung, - ein Viertel der Leistung. Kleinere Leistung bedeutet höhere Impedanz und eine Pegelreduktion von 3 dB pro Schritt. Im Regelfall werden mehrere Lautsprecher an einem Verstärker betrieben. Bei der Installation werden die Übertragerimpedanzen parallel geschaltet und damit reduziert sich die Gesamtimpedanz. Im Minimum darf die Impedanz bei einem 100 W-Verstärker genau 100 S betragen. Dies entspricht 16 Lautsprecher mit 6 W Leistungsanpassung oder, wenn alle Lautsprecher nur mit halber Leistung betrieben werden, der doppelten Menge. Bei der Installation müssen nur die jeweils angepassten Leistungswerte aller Lautsprecher miteinander addieren werden; die Summe darf die Maximalleistung des Verstärkers nicht übersteigen. Eine übliche Faustregel besagt, dass ein Lautsprecherstrang mit dem typischen Leiterquerschnitt von 0,5 mm höchstens bis 100 W versorgt werden sollte. Dann ist eine Leitungslänge vom Verstärker bis zum letzten Lautsprecher von maximal 300 m möglich. Durch den üblichen Einsatz von kleinen, sehr preiswerten Lautsprechern hat die 100 VTechnik einen viel schlechteren Ruf, als sie verdient. Auch hier bestimmt die Qualität aller einzelner Komponenten die Gesamtqualität der Audiokette. Im Falle der 100 V-Technik kommen noch die Übertrager am Verstärkerausgang und am Lautsprechereingang hinzu. So gibt es viele hochwertige Lautsprecherinstallationen in Opernhäusern, Konferenzzentren und Theatern, die mit 100 V-Technik ausgestattet sind. 551
Beschallung
9.6
Planungs- und Simulationssoftware für Beschallungsanlagen
Die hohen klanglichen Ansprüche an die Beschallung während einer Veranstaltung, sei es bei einem einmaligen Event oder bei stationären Anlagen in Gebäuden, stehen in keinem Verhältnis zu der oft kurzen Zeit, die während einer Produktion oder auch in einer Bauphase für den Aufbau und die Inbetriebnahme der Anlage gewährt wird. Sorgfältige Probenarbeit, Änderungen der Lautsprecherpositionen oder apparative Anpassungen sind in der Regel nur selten möglich. Der erste Ansatz muss der richtige sein. Das bedeutet für den verantwortlichen Beschaller, dass er im Vorfeld eines Projekts möglichst die endgültige Anlage fertig planen kann. Alle Lautsprecherpositionen müssen klar definiert sein, damit jeglicher Montageaufwand, die Verkabelung und die daraus resultierende Anlagenstruktur der Verstärker, Controller, Equalizer usw. ökonomisch vorbereitet werden kann. Um diese Arbeit erfolgreich bewältigen zu können, müssen alle wichtigen Kenntnisse über den Produktionsort vorliegen. Architektenzeichnungen, Baupläne und eine gute Ortskenntnis sind nötig. Ein sehr wichtiges Werkzeug bei der Planung einer Beschallungsanlage ist heute eine computergestützte Planungs- und Simulationssoftware. Mit dieser Software wird der zu beschallende Raum in all seinen akustisch wirksamen Einzelflächen gezeichnet. Idealerweise können bereits vorhandene CAD-Zeichnungen, die vielleicht für den Bühnenbau oder vom Raumplaner als Architektenzeichnung erstellt wurden, in die Simulationssoftware übernommen werden. Über umfangreiche Materialdatenbanken können alle Flächen mit realistischen Absorptionsdaten belegt werden, so dass ein ausreichend genaues Modell des realen Raumes am Computer erstellt werden kann. Sind alle Flächen in diesem Modell definiert, können sofort die akustischen Grunddaten des Raumes, wie z. B. Nachhallzeiten bei unterschiedlichen Frequenzen nach Sabine oder Eyring berechnet werden. Über eine zweite Datenbank kann eine Vielzahl von Lautsprechermodellen verschiedenster Hersteller in dem virtuellen Raum positioniert und betrieben werden. In den Lautsprecherdatensätzen sind alle entscheidenden Daten wie z. B. Kennschalldruck, Frequenzgang, Abstrahlverhalten u.a. als genaues Ballondiagramm mit real ermittelten Messwerten abgespeichert. Somit können beliebige Beschallungssituationen simuliert werden. Zielfläche ist dabei die angegebene Zuhörerfläche. Dabei sind auch die Einflüsse der Luftdämpfung bei größeren Beschallungsdistanzen berücksichtigt. Die wichtigsten Ergebnisse sind neben der resultierenden Direktschallverteilung bei verschiedenen Frequenzbereichen, das Diffusfeld, die Hallradien, aber auch diverse Reflektogramme, mit denen besonders kritische Bereiche erkennbar werden. Aus der Summe der simulierten Ergebnisse können verbindliche Rückschlüsse auf Sprachverständlichkeitswerte für alle Zuhörerplätze gezogen werden. Mit den Simulationsergebnissen kann nun an der optimalen Auswahl und Positionierung der Lautsprecher gefeilt werden. Montagepositionen können in exakten Höhen und Neigungswinkel vorbestimmt werden. Unterversorgte Beschallungsbereiche werden sofort ermittelt und können in der Planung berücksichtigt werden. In den aktuellen Softwareversionen sind die hinterlegten Lautsprecherdaten derart exakt ermittelt, dass die Simulationen sogar die Interferenzen der einzelnen Lautsprecher unterein552
Planungs- und Simulationssoftware für Beschallungsanlagen ander berechnen können. Damit ist es möglich, komplette Line-Arrays in ihrer Gesamtwirkung in die Simulation zu integrieren. Es lässt sich jedoch schon erahnen, dass die hohe Komplexität eines solchen Simulationsprogramms nur für denjenigen Anwender sinnvoll ist, der mit ausgeprägter Fachkenntnis diese Software bedienen kann. Es ist ein unverzichtbares Werkzeug für den erfahrenen Spezialisten, kann aber nie das Fachwissen und die praktische Erfahrung eines qualifizierten Beschallers ersetzen. Ebenso wird das Werkzeug nur dann erfolgreich eingesetzt werden können, wenn die erforderlichen Raumdaten, wie Abmessungen, Oberflächenmaterialien usw. bei der Erstellung des Datenmodells bekannt sind. Sind diese wichtigen Voraussetzungen erfüllt, so kann man mit heutigen Simulations- und Planungsprogrammen in den virtuellen Aufführungsraum durchaus akustisch „hineinhören“. Dies ist ein gutes Mittel, um zusätzlich aus den grafischen Darstellungen und Daten der Software die Unterschiede mehrerer Beschallungsvarianten eindrucksvoll und glaubhaft darzustellen. Zusammenfassend lässt sich sagen, dass eine Simulation des Beschallungskonzeptes in weiten Bereichen Aufbau- und Inbetriebnahmezeit während der Produktion vor Ort spart und hohe Sicherheit für eine Konzeptentscheidung ermöglicht. Aber nur dann, wenn im Vorfeld die entsprechende Zeit und Sorgfalt in die Simulationserstellung investiert wurde.
Literatur [9.1] D. Davis, C. Davis: Sound System Engineering, 2. Auflage, Focal Press, 1997 [9.2] M. Zollner, E. Zwicker: Elektroakustik, 3. Auflage, Springer-Verlag GmbH, 1998 [9.3] W. Hoeg, P. Fels: Weiterentwicklungen und neuere Anwendungen des DeltaStereofonie-Systems im mobilen Bereich der Beschallungstechnologie. Techn. Mitt. RFZ 32 (1988), H.4. [9.4] W. Ahnert, F. Steffen: Beschallungstechnik: Grundlagen und Praxis, S. Hirzel Verlag Stuttgart - Leipzig, 1993 [9.5] G. Steinke, P. Fels, W. Ahnert und W. Hoeg: Das Delta-Stereofonie-System. db-Magazin für Studiotechnik, Köln (1987), H.11/12 und (1988), H.1/2
553
10
Analoge Tonmesstechnik
Aufgabe der analogen Tonstudiomesstechnik ist die Qualitätskontrolle und Qualitätssicherung, teilweise auch die Wiederherstellung der Geräte und Anlagen der analogen Tonstudiotechnik. Sie umfasst Kontroll- und Wartungsmessungen sowie - in unterschiedlichem Umfang - auch Reparaturen. Wartungsmessungen und die damit verbundenen Neueinstellungen werden teils turnusmäßig, teils bei Bedarf vorgenommen, um eine konstante Qualität der Geräte und Anlagen zu gewährleisten und rechtzeitig Fehler zu erkennen. Grundlegende Definitionen und Messanweisungen geben DIN 1319, die umfangreiche Fachliteratur [10.1 bis 10.7] sowie für den Bereich des öffentlichrechtlichen Rundfunks die „Technischen Pflichtenhefte der öffentlich-rechtlichen Rundfunkanstalten in der Bundesrepublik Deutschland”, herausgegeben vom Institut für Rundfunktechnik; hier ist vor allem auf das Pflichtenheft 3/5 zu verweisen, dessen Ausgabe von 1989 im Gegensatz zu früheren Ausgaben nur noch Schnittstellen definiert und auch für digitale Anlagen gilt. Weiterhin sind die Messgeräte-Einweisungen der einzelnen Hersteller zu beachten. Im folgenden Kapitel werden Grundlagen, ausgewählte Begriffe und Messbedingungen der analogen Tonstudiomesstechnik erläutert, nicht jedoch die dazu benötigten Messgeräte; nicht alle Messvorschriften und -verfahren werden im Detail behandelt.
10.1
Verstärkung und Dämpfung
Nach DIN 40 148 ist der Verstärkungsfaktor - dieser Begriff wird vor allem bei Verstärkern [10.5] verwendet - oder allgemein der Übertragungsfaktor eines Übertragungsglieds definiert als das Verhältnis von Ausgangs- zu Eingangsgröße von Spannung oder Strom (Abb. 10/1). Der Spannungsverstärkungsfaktor ist also z. B.
T=
U2 U1
T = Spannungsverstärkungsfaktor [dimensionslos] U2 = Ausgangsspannung [V] U1 = Eingangsspannung [V]
Abb. 10/1. Elektrisches Übertragungsglied (Vierpol).
Es ist auch zulässig, ungleiche Eingangs- und Ausgangsgrößen zu verwenden, in diesem Fall wird der Begriff Übertragungskoeffizient empfohlen; ist die Ausgangsgröße z. B. die Spannung und die Eingangsgröße der Strom, so stellt ihr Quotient den Übertragungswiderstand (Übertragungsimpedanz) dar. Soll die Frequenzabhängigkeit des Übertragungsfaktors hervorgehoben werden, so wird dieser Übertragungsfunktion genannt. 555
Analoge Tonmesstechnik In der Praxis ist es vielfach vorteilhafter, an Stelle der Faktoren Maße zu verwenden; damit können die Vorteile des Pegelmaßes genutzt werden. Das Übertragungsmaß bzw. Verstärkungsmaß ist in der Tonstudiotechnik definiert als der 20-fache Zehnerlogarithmus des Übertragungsfaktors; er wird bei gleichen Eingangs- und Ausgangsgrößen in dB angegeben. Das Spannungsverstärkungsmaß z. B. ist definiert: aT = 20Alg T = 20Alg
U2 U1
aT T U2 U1
= Übertragungsmaß, Verstärkungsmaß [dB] = Übertragungsfaktor, Verstärkungsfaktor [dimensionslos] = Ausgangsspannung [V] = Eingangsspannung [V]
Der Dämpfungsfaktor D ist definiert als das Verhältnis von Eingangs- zu Ausgangsgröße. Der Dämpfungsfaktor ist also definiert:
D=
U2 U1
D = Dämpfungsfaktor [dimensionslos] U1 = Eingangsspannung [V] U2 = Ausgangsspannung [V]
Das Dämpfungsmaß aD ist entsprechend definiert: aD =
U1 U2
aD = Dämpfungsmaß [dB] U1 = Eingangsspannung [V] U2 = Ausgangsspannung [V]
Zwischen Verstärkungs- und Dämpfungsmaß besteht die Beziehung aD = -aT.
10.1.1
Betriebsgrößen
Ein Gerät oder allgemein ein Übertragungsglied liegt stets zwischen einer Quelle und einem Abschluss, Verbraucher oder einer Last. Daraus ergeben sich die Betriebsbedingungen, unter denen das Gerät arbeitet und unter denen sein Verhalten betrachtet werden muss (Abb. 10/2).
Abb. 10/2. Betriebsbedingungen eines elektrischen Übertragungsglieds mit Quelle und Abschluss.
Die im Betriebsfall und für Messungen geltenden Größen sind die sog. Betriebsgrößen. DIN 40 148 definiert die Betriebsgrößen für Leistungsanpassung. In der Tonstudiotechnik wird aber mit Spannungsanpassung gearbeitet. Demnach ist der Betriebs-Spannungsübertragungsfaktor bzw. für Verstärker der Betriebsverstärkungsfaktor definiert:
Tu =
556
U2 U0
Tu = Betriebsverstärkungsfaktor [dimensionslos] U2 = Ausgangsspannung [V] U0 = Leerlaufspannung der Quelle [V]
Verstärkung und Dämpfung Entsprechend ist die Definition des Betriebsverstärkungsmaßes:
a = Betriebsverstärkungsmaß [dB] Tu = Betriebsverstärkungsfaktor [dimensionslos] Tu
a = 20Alg Tu Tu
Für den Betriebsdämpfungsfaktor und das Betriebsdämpfungsmaß gelten: Du =
U0 U2
aDu= 20Alg
U0 U2
Du = Betriebsdämpfungsfaktor [dimensionslos] aD = Betriebsdämpfungsmaß [dB] u
= 20Alg Du
Nach DIN 40 148 ist also nicht die Eingangsspannung, sondern die Leerlaufspannung einer Messung zu Grunde zu legen. Für die Messung soll der Quellwiderstand so groß und der Lastwiderstand so klein wie gerade noch zulässig sein. Es wird demnach unter den ungünstigsten Betriebsbedingungen gemessen. Der Lastwiderstand Z2 beträgt in der professionellen Tonstudiotechnik i. Allg. 300 S, der Quellwiderstand Z0 200 S. Die Messfrequenz ist gewöhnlich 1 kHz.
10.1.2
Ein- und Ausgangsscheinwiderstand
Der Eingangsscheinwiderstand von Normalpegeleingängen beträgt nach dem neuen Pflichtenheft 3/5 (1989) der öffentlich-rechtlichen Rundfunkanstalten innerhalb des gesamten Frequenzbereichs (40 bis 15 000 Hz) mindestens 5 kS, bei Mikrofoneingängen mindestens 1 kS. Bezogen auf 1 kHz sollen die Abweichungen im gesamten Frequenzbereich unter 20 % bleiben. Die Eingänge müssen symmetrisch sein und auch von unsymmetrischen Quellen gespeist werden können. In der davor gültigen Fassung des Pflichtenheftes war ein Wert von 600 S festgelegt. Der Ausgangswiderstand von Normalpegelausgängen beträgt innerhalb des gesamten Frequenzbereichs höchstens 40 S. Die Ausgänge sind symmetrisch und erdfrei; sie sind bei Einhaltung der geforderten Eigenschaften mit 300 S belastbar. Abgesehen von Einschleifpunkten müssen die Ausgänge auch kapazitiv mit einer RC-Parallelschaltung mit R = 10 kS und C = 22 nF belastbar sein. Die Ausgänge können kurzgeschlossen werden, ohne dass es zur Beschädigung der Anlage kommen darf; auch das Anlegen eines Pegels von + 12 dBu darf zu keiner Beschädigung führen. Unzulässige Ein- und Ausgangsscheinwiderstände beeinflussen den Frequenzgang und Klirrfaktor. Die genaue Kenntnis der Widerstände ermöglicht es festzustellen, mit wie vielen Geräten eines bestimmten Eingangsscheinwiderstands eine Quelle belastet werden kann und wie sich der Abschluss mit einem anderen als dem vorgesehenen Belastungswiderstand auswirkt. Die Messung der Eingangs- und Ausgangsscheinwiderstände erfolgt nach den im Technischen Pflichtenheft 3/5 angegebenen Verfahren.
557
Analoge Tonmesstechnik
10.1.3
Symmetrie
Eine elektrische Leitung zwischen zwei elektrischen Geräten kann immer magnetischen und elektrischen Feldern ausgesetzt sein, die zu Störspannungen am Eingang der Geräte führen können. Die Störspannungen bleiben dann unwirksam, wenn Ein- und Ausgänge der Geräte weitgehend symmetrisch gegen Erde sind; in diesem Fall heben sich die Spannungen gegenseitig auf. Symmetrisch gegen Erde heißt, dass die Widerstände, die zwischen jeder der Eingangsklemmen und Erde liegen, gleich groß sind. Auch am Ausgang muss Symmetrie herrschen, damit die Leitungsführung symmetrisch ist. Nicht symmetrische, also asymmetrische Leitungen, liefern in der Regel umso mehr Störungen, je länger sie sind. Asymmetrisch ist eine Leitung, wenn eine Ader direkt an Erde liegt oder wenn symmetrische Leitungen an Geräten mit ungleichen Widerständen angeschlossen sind. Die Symmetrie oder Erdsymmetrie der Eingangs- und Ausgangsscheinwiderstände wird mit dem Symmetriegrad eines Gerätes erfasst. Der Symmetriegrad des Eingangsscheinwiderstandes ist (Abb. 10/3): Gu =
UE U0
Das Symmetriemaß au ist entsprechend definiert: au = 20Alg
UE U0
und au = P0 ! PE
Die Messvorschriften sind in DIN 45 404 und im Pflichtenheft der öffentlich-rechtlichen Rundfunkanstalten 3/5 enthalten; das Pflichtenheft fordert ein Symmetriemaß des Scheinwiderstands von mindestens 60 dB sowohl für den Eingangs- als auch für den Ausgangsscheinwiderstand. Die Ausgangssymmetrie ist analog zur Eingangssymmetrie definiert. Die Spannungssymmetrie beschreibt die Folgen einer unsymmetrischen Spannung am Ausgang einer Tonregieanlage, die durch die Anlage selbst hervorgerufen wird. Die Unsymmetrie der Ausgangsspannung kann zu Übersprechen führen und wird deshalb zur Beurteilung der Störungen des betreffenden Ausgangs auf benachbarte Wege benutzt. Messvorschriften erhält das Pflichtenheft 3/5 sowie IEC 268-3.
Abb. 10/3. Symmetrie des Eingangsscheinwiderstandes von elektrischen Geräten.
558
Verzerrungen
10.2
Verzerrungen
Verzerrungen sind allgemein Veränderungen im Zeitverlauf eines Signals. Ein unverzerrtes Ausgangssignal eines Übertragungsglieds ist mit dem Eingangssignal identisch oder gegenüber dem Eingangssignal lediglich in der Amplitude proportional geändert, nämlich verstärkt oder gedämpft, und eventuell zeitlich verzögert; es ist geometrisch ähnlich. Abb. 10/4 zeigt an Beispielen unverzerrte und verzerrte Signale. Ursache für Verzerrungen sind von der Frequenz oder Amplitude abhängige Eigenschaften von Übertragungsgliedern. Man unterscheidet demnach lineare und nichtlineare Verzerrungen. Lineare Verzerrungen entstehen bei sich mit der Frequenz ändernder Verstärkung oder Dämpfung, nichtlineare Verzerrungen werden durch amplitudenabhängige Verstärkung oder Dämpfung verursacht. Bei der Betrachtung von Verzerrungen ist die Unterscheidung von Sinussignalen und komplexen, zusammengesetzten Signalen sehr wichtig. So gibt es bei Sinussignalen keine linearen Verzerrungen; bei nichtlinearen Verzerrungen gibt es prinzipielle Unterschiede zwischen diesen beiden Signalarten. Verzerrungen sind grundsätzlich Störungen einer Übertragung und sollen so niedrig wie möglich, zumindest aber unter der Hörbarkeitsschwelle liegen.
10.2.1
Lineare Verzerrungen
Die frequenzabhängige Verstärkung oder Dämpfung führt bei Sinussignalen zu keiner linearen Verzerrung, jedoch bei komplex zusammengesetzten Signalen; hier wird der Schwingungsverlauf verändert. Meist zeigt das Verhältnis von Ausgangs- zu Leerlaufspannung U2/U0 (siehe Abb. 10/2), also der Betriebsverstärkungsfaktor oder der Betriebsdämpfungsfaktor, wenn in einem breiten Frequenzbereich gemessen wird, eine geringere oder größere Abhängigkeit von der Frequenz, einen sog. Frequenzgang, auch „lineare Verzerrung” genannt. Er wird messtechnisch wie das Übertragungsmaß ermittelt. Die Messung erfolgt in einem vereinfachten Verfahren nur bei einigen Festfrequenzen, vorzugsweise 40, 120 Hz und 1, 5, 10 und 15 kHz. Die Differenz des Übertragungsmaßes bei diesen Festfrequenzen gegenüber dem Übertragungsmaß bei 1 kHz wird in dB angegeben. Um einen möglichen Einfluss nichtlinearer Verzerrungen, z. B. in der Magnettontechnik, auszuschließen, muss man gegebenenfalls 10 oder 20 dB unter Vollaussteuerung messen. Die Messungen lassen sich vorteilhafter als mit einzelnen Festfrequenzen automatisch über den gesamten Übertragungsbereich vornehmen. Man erhält dabei eine Kurve, die für jede Frequenz das Verhältnis von Ausgangs- zu Leerlaufspannung in dB angibt. Die im Tonstudiobereich im gesamten Übertragungsbereich von 40 Hz bis 15 kHz einzuhaltenden Toleranzen des Frequenzgangs gibt das Technische Pflichtenheft 3/5 für die verschiedenen Geräte und Anlagen an. Sie lagen zunächst bis 1989 bei ± 0,5 oder ± 1 dB, an den Rändern des Übertragungsbereiches sind sie etwas größer. Die neue Ausgabe des Pflichtenhefts sieht für alle Wege einer Tonregieanlage einheitlich folgende Toleranzen vor: 63 Hz bis 12,5 kHz ± 0,5 dB, 40 bis 63 Hz und 12,5 bis 15 kHz ± 1 dB. Sie müssen in einem Dynamikbereich von + 22 dBu (Normalpegeleingänge) bzw. + 18 dBu (Mikrofoneingänge) bis ! 54 dBu eingehalten werden. Bei 15 Hz muss das Übertragungsmaß auf – 6 dB, bei 100 kHz auf ! 20 dB gefallen sein. Abweichungen, die innerhalb dieser Toleranzen bleiben, sind unhörbar. 559
Analoge Tonmesstechnik
Abb. 10/4. Beispiele der Veränderungen von Sinussignalen durch Verzerrungen.
Starke lineare Verzerrungen verändern das Klangbild einer Aufnahme: Sinkt die Ausgangsspannung bei hohen Frequenzen ab, wird es dumpf oder matt, sinkt sie bei tiefen Frequenzen 560
Verzerrungen ab, wird es flach. Eine Anhebung im hohen Bereich macht das Klangbild hell, spitz oder sogar scharf, eine Anhebung der Tiefen voluminös oder dick; „basslastig” und „höhenlastig” sind diesbezüglich weitere Ausdrücke. Eine Anhebung oder Präsenz ist im mittleren Frequenzbereich deutlicher hörbar als ein Einbruch, eine Absenz. Im direkten Vergleich können Abweichungen im Frequenzgang von wenigen dB bei kritischen Signalen wie Sprache einerseits noch hörbar sein, ohne Vergleich kann andererseits eine Abweichung vom Sollfrequenzgang um 6 dB schwer zu erkennen sein. Da das Gehör für Sprache die umfangreichsten Hörerfahrungen besitzt, urteilt es hier am kritischsten.
10.2.2
Nichtlineare Verzerrungen
Nichtlineare Verzerrungen sind Veränderungen der Kurvenform eines Signals, verursacht durch amplitudenabhängige Verstärkung oder Dämpfung eines Übertragungsgliedes (Begriffe in DIN 45 403, Tl. 1). Die Kennlinie eines solchen Übertragungsglieds, die die Beziehung zwischen Eingangs- und Ausgangssignal in Abhängigkeit von der Amplitude definiert, ist keine Gerade, sie ist nichtlinear. Man unterscheidet v. a. zwischen quadratischen und kubischen Kennlinien (Abb. 10/5).
Abb. 10/5. Kennlinienformen eines Übertragungssystems, U1 = Eingangsspannung, U2 = Ausgangsspannung.
Oft sind Kennlinien in unterschiedlichem Maße aus Anteilen einer linearen, quadratischen und kubischen Kennlinie zusammengesetzt. Lineare Kennlinien verursachen keine Verzerrungen (Abb. 10/6a), Abb. 10/6b und c zeigen die Veränderung der Kurvenform bei quadratischer und kubischer Kennlinienform. Der quadratischen Kennlinie ist praktisch immer eine lineare Kennlinie überlagert. Bei der Verzerrung einer Sinusschwingung mit der Frequenz f1 entstehen neue, zusätzliche Schwingungen, deren Frequenzen jeweils ein ganzzahliges Vielfaches der verzerrten Sinusschwingung f1 sind. Es entstehen also die Frequenzen 2f1, 3f1, 4f1 usw. Diese Schwingungen heißen Harmonische oder auch Obertöne. Quadratische Kennlinien erzeugen nur geradzahlige Harmonische oder sog. unsymmetrische Verzerrungen (2f1, 4f1, 6f1 usw.), kubische Kennlinien 561
Analoge Tonmesstechnik nur ungeradzahlige Harmonische (3f1, 5f1, 7f1 usw.) bzw. symmetrische Verzerrungen. Die Amplituden der einzelnen Harmonischen nehmen mit steigender Ordnungszahl bzw. Frequenz ab. Symmetrisch heißen Verzerrungen, wenn das verzerrte Signal symmetrisch zur Zeitachse liegt.
Abb. 10/6. Kurvenformen der Kennlinien und der verzerrten Signale.
Die subjektive Störwirkung nichtlinearer Verzerrungen hängt von verschiedenen Faktoren ab [10.8, 10.9]. Zunächst erzeugt das Gehör beim Abhören selbst Verzerrungen, die mit der Lautstärke zunehmen und schon bei mittlerer Abhörlautstärke vorhanden sind. Diese Gehörverzerrungen verdecken teilweise die durch die elektroakustische Übertragung erzeugten Verzerrungen. Weiterhin können Verzerrungen grundsätzlich nur hörbar sein, wenn sie über der jeweiligen Mithörschwelle liegt, also der Hörschwelle bei Anwesenheit eines Signals, die ihrerseits stark von der Frequenz abhängt. Der wichtigste Faktor für die subjektive Bewertung von Verzerrungen ist aber der Verdeckungseffekt, der seinerseits mit der Lautstärke zunimmt; das unverzerrte Signal überdeckt teilweise seine Verzerrungsprodukte. Daraus ist abzuleiten, dass die Wahrnehmbarkeit der Verzerrungen zumindest eine mittlere Abhörlautstärke erfordert und eine zu hohe Abhörlautstärke kein zutreffendes Urteil erlaubt. Von erheblichem Einfluss ist dabei auch die Art des Tonsignals: Obertonreiche und stark geräuschhafte Schallstrukturen lassen Verzerrungen weit weniger hörbar werden als einfache sinusähnliche Strukturen. So ist bei einem Sinuston 1 % Klirrfaktor gut hörbar, während bei einem komplexen Klangbild bisweilen auch 10 % unhörbar bleiben können. Auf Grund der komplexen Zusammenhänge bei der Wahrnehmung sind allgemeingültige Aussagen über die Störwirkung nichtlinearer Verzerrungen nur bedingt möglich, Messwerte lassen deshalb nur einen ungefähren Rückschluss auf ihre Störwirkung im Einzelfall zu. Die nichtlinearen Verzerrungen der Studiogeräte müssen schon deshalb sehr niedrige Werte haben, weil meist in jedem Übertragungsglied neue Verzerrungen hinzukommen, die sich meist summieren. 562
Verzerrungen Die Verzerrungen eines einzelnen musikalischen Tons stören relativ wenig, da ein solcher Ton in der Regel selbst bereits Harmonische enthält, mit denen dann die Verzerrungsprodukte zusammenfallen (Abb. 10/7). Dies trifft umso mehr zu, wenn es sich um ein obertonreiches Instrument wie z. B. eine Geige oder Trompete handelt. In diesem Fall wirken Verzerrungen in erster Linie subjektiv als Erhöhung der Lautstärke. Am empfindlichsten ist das Gehör hier für kubische Verzerrungen.
Abb. 10/7. Durch Verzerrung einer Sinusschwingung erzeugte Teiltöne.
Abb. 10/8. Durch Verzerrung zweier Sinusschwingungen erzeugte Summen- und Differenztöne.
Weit störender als Verzerrungen eines Einzeltones sind die Verzerrungen, die bei der gleichzeitigen Übertragung mehrerer Töne entstehen. Werden auf ein nichtlineares Übertragungsglied 563
Analoge Tonmesstechnik gleichzeitig zwei oder mehr Sinusschwingungen gegeben, was im Betriebsablauf immer zutrifft, so entstehen nicht nur die Harmonischen jeder einzelnen Schwingung, sondern zusätzlich sog. Summen- und Differenztöne. Ihre Frequenz berechnet sich als Summe und Differenz der Frequenzen der verzerrten Schwingungen und ihrer Harmonischen. Die wichtigsten dieser neu entstehenden Summen- und Differenztöne bei zwei Sinustönen mit f1 und f2 zeigt Abb. 10/8. Es entstehen hierbei also neue Sinustöne mit den Frequenzen f = mAf1 ± nAf2
10.2.2.1
f = Frequenz des Verzerrungsprodukts [Hz] m, n = 1, 2, 3… f1, f2 = verzerrte Frequenzen [Hz]
Messverfahren
Nichtlineare Verzerrungen können messtechnisch durch drei verschiedene Messgrößen erfasst werden: durch den Klirrfaktor, den Intermodulationsfaktor und den Differenztonfaktor bzw. durch die entsprechenden logarithmierten Größen, ihre Maße. Die unterschiedlichen Verfahren sind notwendig, weil Verzerrungsprodukte bei einzelnen Verfahren außerhalb des Übertragungsbereichs liegen können. Fällt z. B. eine bestimmte Harmonische, die in der Messung bewertet werden soll, z. B. auf 20 kHz, so wird sie nicht in das Messergebnis eingehen, womit ein günstigerer Messwert vorgetäuscht wird, der Klirrfaktor ist deshalb für den höheren Frequenzbereich ungeeignet. Für die verschiedenen Frequenzbereiche müssen also verschiedene Messverfahren angewendet werden (Tab. 10/1). Tab. 10/1. Messbereiche der verschiedenen Messverfahren für Verzerrungen. Frequenzbereich Klirrfaktor Intermodulationsfaktor Differenztonfaktor
tief P
mittel P P P
hoch
P
Am häufigsten wird der Klirrfaktor bzw. das Klirrmaß gemessen, da diese in einem einfachen Messverfahren ermittelt werden können. Aufschlussreicher für die subjektive Bewertung von Verzerrungen sind meist aber der Intermodulations- und Differenztonfaktor und deren Maße, da sie auch die besonders störenden Summen- und Differenztöne eines Frequenzgemisches erfassen. Entscheidend für die Größe nichtlinearer Verzerrungen ist die Festlegung des Ein- und Ausgangspegels des Messobjekts für die Messung. Ist im Einzelfall keine Messbedingung für diese Pegel angegeben, so wird bei Normpegel (6 dBu) gemessen. Oberhalb dieses Pegels steigen bei einigen Geräten die nichtlinearen Verzerrungen stark an. Der Bereich zwischen Normpegel und dem Pegel, bei dem das maximal zulässige Maß an Verzerrungen erreicht ist (Übersteuerungsgrenze), heißt Übersteuerungsreserve. Die Anforderungen sind je nach Funktion eines Geräts in einer Anlage unterschiedlich; bei überwachten Ausgängen fordert das Pflichtenheft mindestens 6 dB, bei nicht überwachten Verstärkern, z. B. in Mikrofonkanälen, 15 dB und mehr. 564
Verzerrungen Die neue Ausgabe des Pflichtenhefts fordert für die Gesamtanlage eine Klirrdämpfung von mindestens 52 dB bzw. einen Klirrfaktor von maximal 0,25 % bei + 6 dBu in einem Frequenzbereich zwischen 40 Hz und 5 kHz, dies gilt auch für Pegel bis 30 dB unter + 6 dBu, darunter reduziert sich die Forderung auf 36 dB oder rund 1,5 %. Bei + 22 dBu sind die noch zulässigen Werte 40 dB bzw. 1 %. Klirrfaktor Der Klirrfaktor (DIN 45 403, Tl. 2) ist die am häufigsten verwendete Messgröße für nichtlineare Verzerrungen. Er gibt an, wie stark die Oberschwingungen (Harmonischen), die bei der Verzerrung eines sinusförmigen Signals entstehen, im Vergleich zum Gesamtsignal sind (Abb. 10/6). Man unterscheidet zwischen Klirrfaktor k, auch als Gesamtklirrfaktor bezeichnet, und Klirrfaktoren n-ter Ordnung kn, die auch Teilklirrfaktoren oder Klirrkoeffizienten genannt werden. Der Klirrfaktor oder Gesamtklirrfaktor k ist definiert als das Verhältnis des Effektivwerts aller Verzerrungsprodukte, also aller entstehenden Harmonischen, zum Effektivwert des verzerrten Gesamtsignals.
k=
k = Klirrfaktor [dimensionslos] U2f, U3f, U4f... = Spannung der neu entstandenen Harmonischen als Effektivwerte [V] f = Frequenz des Messtons [Hz] Uges = Spannung des verzerrten Gesamtsignals als Effektivwert [V]
U2f 2 + U3f 2 + U4f 2 ... Uges
Der Klirrfaktor n-ter Ordnung, der Klirrkoeffizient oder Teilklirrfaktor kn, ist das Verhältnis der Spannung einer Harmonischen zum verzerrten Gesamtsignal. kn kn =
Un
Un
Uges Uges
= Klirrfaktor n-ter Ordnung, Klirrkoeffizient oder Teilklirrfaktor [dimensionslos] = Spannung der n-ten Harmonischen als Effektivwert [V] = Spannung des verzerrten Gesamtsignals als Effektivwert [V]
Man misst nur die Klirrfaktoren zweiter und dritter Ordnung k2 und k3, also die Spannung der 2. bzw. 3. Harmonischen mit den Frequenzen 2f1 und 3f:1 im Verhältnis zur Gesamtspannung. Da auch beim Gesamtklirrfaktor k meist nur die zweite und dritte Harmonische berücksichtigt wird - noch höhere Harmonische beeinflussen das Messergebnis in der Regel praktisch nicht mehr -, gilt die folgende Beziehung zwischen Gesamt- und Teilklirrfaktoren:
k=
2 k2
+
2 k3
k = Klirrfaktor [dimensionslos] k2, k3 = Klirrfaktoren 2. und 3. Ordnung [dimensionslos]
k2 wird auch als quadratischer und k3 als kubischer Klirrfaktor bezeichnet, weil sie die Verzerrungen einer quadratischen bzw. kubischen Kennlinie erfassen. Der Klirrfaktor wird in % 565
Analoge Tonmesstechnik angegeben. Häufig wird anstelle des Klirrfaktors k in % das Klirrdämpfungsmaß ak in dB angegeben:
a k = 20 lg
1 k
ak = Klirrdämpfungsmaß [dB] k = Klirrfaktor [dimensionslos]
Einem Klirrfaktor von 1 % entspricht ein Klirrdämpfungsmaß von 40 dB, 2 % entsprechen 34 dB, 0,5 % 46 dB und 0,1 % 60 dB. Zur Messung des Klirrfaktors können handelsübliche Klirrfaktormesser verwendet werden, die k2 und k3 oder den Gesamtklirrfaktor bei verschiedenen Festfrequenzen messen (1 kHz oder 40, 1000 und 5000 Hz). Der Quellwiderstand bei der Messung ist der größtzulässige, also 40 S, der Abschlusswiderstand der kleinstzulässige, also 300 S. Messpegel ist der Normpegel (6 dBu) bzw. bei Geräten mit Übersteuerungsreserve der Pegel der Übersteuerungsgrenze (Normpegel + Aussteuerungsreserve). An der Übersteuerungsreserve darf das gesamte Klirrdämpfungsmaß auf 40 dB ansteigen. Intermodulationsfaktor Da ein Übertragungsglied üblicherweise ein Gemisch vieler Schwingungen überträgt, entstehen nicht nur die Harmonischen dieser Sinusschwingungen, sondern auch eine Vielzahl von Summen- und Differenztönen, sog. Intermodulationsprodukten, abgekürzt IM, die besonders störend sind (vgl. Abb. 10/7). Der Anteil an zusätzlichen Schwingungen, der bei der Verzerrung von Tonsignalen erzeugt wird, ist also wesentlich höher, als der Klirrfaktor angibt. Der Intermodulationsfaktor berücksichtigt dies. Er wird im mittleren Frequenzbereich angewandt und geht von den Verzerrungsprodukten zweier Schwingungen mit den Frequenzen f1 und f2 aus (f2 = 4 oder 5 kHz, f1 ist frei wählbar; in der Regel ist f1 < 500 Hz), siehe auch Tab. 10/1. Der Intermodulationsfaktor erfasst nun die neu entstehenden Summen- und Differenztöne; er wird auch als Modulationsfaktor bezeichnet. Der Intermodulationsfaktor m ist definiert nach DIN 45 403, Tl. 4 als das Verhältnis der Summe der Effektivwerte der Spannungen der am Ausgang des Messobjekts neu auftretenden Summen- und Differenztöne zweier sinusförmiger Messtöne mit der Frequenz f1 und f2 zum Effektivwert des höheren Messtons f2 am Ausgang des Messobjekts. Die Spannungen der Messtöne U1 und U2 sollen sich wie 4:1 verhalten. Der Intermodulationsfaktor m wird nach der Multiplikation mit dem Faktor 100 in % angegeben. In der Messpraxis beschränkt man sich auf die ersten beiden Frequenzpaare f2 ± f1 (Intermodulationsfaktor 2. Ordnung m2) und f2 ± 2 f1 (Intermodulationsfaktor 3. Ordnung m3). Die Messverfahren sind aufwändig, weshalb sie relativ selten zur Anwendung kommen. Messvorschriften enthält DIN 45 403, Tl. 4. V. a. in der Funktechnik, in der Tonstudiotechnik also bei drahtlosen Mikrofon- und Kopfoder Ohrhörersystemen wird der Intermodulationsabstand IMA oder IM als Maß des Faktors angegeben. Der Intermodulationsabstand 3. Ordnung IM3 spielt dabei wegen seiner besonderen Störwirkung eine herausragende Rolle (siehe Kap. 4.3.3). Der Intermodulationsabstand IMA ist das Verhältnis der Leistungen des mit zwei Tönen modulierten Nutzsignals und eines Intermodulationsprodukts dritter Ordnung und eine Funktion der Nutzsignalleistung. Man gibt ihn für die nominelle Ausgangsleistung an. 566
Störspannungen In der Schallplattentechnik wird mit Frequenz-Intermodulation ein völlig anderer Sachverhalt bezeichnet (siehe Kap. 7.2.3). Differenztonfaktor Auch hierbei handelt es sich um ein Zweitonmessverfahren. Es ist speziell für den oberen Übertragungsbereich geeignet, in dem Messungen des Klirrfaktors und des Intermodulationsfaktors nicht mehr möglich sind. Der Differenztonfaktor gibt das Verhältnis der Effektivwerte der Differenztöne zweier Sinusschwingungen mit dem Frequenzabstand 70 Hz zum Effektivwert des gesamten Gemischs am Ausgang an. So wie man sich beim Klirrfaktor und Intermodulationsfaktor auf die Messung einzelner Verzerrungsprodukte beschränkt, misst man auch beim Differenztonfaktor nur einzelne Verzerrungsprodukte, nämlich die Differenztonfaktoren 2. und 3. Ordnung d2 und d3. Die Differenztonfaktoren werden in % angegeben. Wie beim Klirr- und Intermodulationsfaktor ist auch hier ein Maß definiert. Die Messung erfolgt nach DIN 45 403 Tl. 3. Das Pflichtenheft 3/5 legt die zulässigen Werte fest; bei Pegeln der beiden Quellsignale von 0 dBu muss die Differenztondämpfung mindestens 60 dB betragen.
10.3
Störspannungen
Bei der Übertragung werden einem Signal zusätzliche, unabhängig vom Nutzsignal durch die Übertragungsglieder erzeugte Spannungen beigemischt. Die Gesamtheit dieser zusätzlichen Spannungen heißt Störspannung. In der Regel handelt es sich dabei um Rauschen; aber auch Netzbrummen, Knacken, HF-Einstreuungen unterschiedlichster Herkunft usw. werden zu den Störspannungen gezählt. Das Rauschen wird von Ohmschen Widerständen und Transistoren, aber auch durch Magnetton- und Nadeltonaufzeichnung hervorgerufen. Netzbrummen entsteht durch ungenügende Siebung, Erdschleifen, magnetische Einstreuungen, u. a. Bei der digitalen Tonübertragung und -speicherung entsteht Rauschen beim Wandlungsprozess. Messtechnisch werden Störspannungen unbewertet, d. h. objektiv, oder bewertet, d. h. unter Berücksichtigung der Hörwahrnehmung, erfasst. Für Tief- und Hochfrequenzeinstreuungen sowie Knackstörungen gibt es besondere Messverfahren. Übersprechen gehört messtechnisch nicht zu den Störspannungen.
10.3.1
Unbewertete Störspannungen
Die unbewertete Störspannung nach ITU-R BS 468, auch als DIN 45 405 bzw. CCIR 468, erfasst Störspannungen in einem für die professionelle Tonstudiotechnik relevanten Bereich ohne Frequenzbewertung. Der Messbereich liegt zwischen 31,5 Hz und 16 kHz mit einer Filterdämpfung von 12 dB/Oktave am unteren Ende dieses Bereichs und 18 dB am oberen Ende; 18 dB/Oktave z. B. bedeutet, dass pro Frequenzverdopplung, also bei 32 kHz, die Störspannung vor der Messung um 18 dB bedämpft wird, bei 64 kHz um 36 dB. Die Störspannung wird i. Allg. als absoluter Spannungspegel, bezogen auf 0,775 V, in dBqs angegeben. Der Zusatz q weist auf die Messung als Quasi-Spitzenspannung hin, s auf die Messung im Tonfrequenzbereich (son, franz. Ton). Der unbewertete Störpegelabstand verwendet als Bezugswert den am Messpunkt geltenden Betriebswert des Nutzpegels, also 6 dBu bzw. 1,55 V. 567
Analoge Tonmesstechnik Die Messung erfolgt mit einem Störspannungsmesser in Stellung „linear” mit Quasi-Spitzenwertmessung. Angezeigt wird also ein Pegel, der 3 dB unterhalb des tatsächlichen Spitzenwerts liegt, bei sinusförmigen Spannungen ist dies zugleich der Effektivwert. Die Impulsbewertung der Anzeige ist durch die angegebene Norm festgelegt; danach wird ein 5 kHzImpuls mit einer Dauer von z. B. 1 ms mit -15,4 dB angezeigt, bei einer Dauer von 10 ms mit -6,4 dB. Die Impulsbewertung ist demnach deutlich träger als beim Aussteuerungsmesser nach DIN 45 406. Der ausgangsseitige Lastwiderstand ist $ kS. DIN 45 405 von 1983 hat den bis dahin geltenden Begriff „Fremdspannung" durch „unbewertete Störspannung" ersetzt.
10.3.2
Bewertete Störspannungen
Um die subjektive Störwirkung von Störspannungen zu berücksichtigen, ist eine frequenzabhängige Bewertung des Störspektrums notwendig, die die frequenzabhängige Empfindlichkeit des Gehörs berücksichtigt. Die Bewertungskurve muss also einen Verlauf haben, der spiegelbildlich zu den Kurven gleicher Lautstärkepegel im Bereich kleiner Pegel liegt. Abb. 10/9 zeigt die Bewertungskurve für den Störpegel, Tab. 10/2 gibt die Pegelwerte bei den wichtigsten Frequenzen an. Wie beim unbewerteten Störpegel wird der Quasi-Spitzenwert mit der dort genannten Impulsbewertung gemessen. Der bewertete Störpegel soll mit dBqps gekennzeichnet werden, das zusätzliche p steht für pondéré (franz. für gewichtet). DIN 45 405 (1983) hat den Begriff „Geräuschspannung” durch den Begriff „bewertete Störspannung” ersetzt.
Abb. 10/9. Bewertungskurve für den Störpegel nach DIN 45 405.
568
Störspannungen Tab. 10/2. Bewertung des Störpegels nach DIN 45 405. kHz dB
0,03 !30
0,1 !20
0,2 !14
0,4 !7,8
1 0
2 +5,6
4 8 +10,5 +11,4
10 +8,1
16 !12
20 !22
Obwohl DIN 45 405 in der Fassung von 1983 im Bereich der professionellen Tonstudiotechnik klare Messvorschriften setzt, sind gelegentlich nicht anzuwendende Normen als Messgrundlage anzutreffen, um zu günstigeren Störspannungswerten zu gelangen. Auf solche Verfahren soll hier kurz hingewiesen werden. Im Einzelfall muss genau geprüft werden, auf Grund welcher Vorschriften gemessen wurde. Da die Störsignalzusammensetzung sich bei unterschiedlichen Bewertungen bei der Messung auch unterschiedlich auswirkt, kann ein exakter Zusammenhang zwischen den verschiedenen Messmethoden nicht oder nur ungefähr angegeben werden. Die 1967 herausgegebene DIN 45 405 ergibt bei weißem Rauschen im Tonfrequenzbereich einen um etwa 5 dB größeren Störpegelabstand. Diese Norm hatte bis zum Erscheinen der neuen DIN 45 405 im Jahr 1983 Gültigkeit. 1978 ist der Entwurf zur neuen Norm erschienen, so dass in dem Zeitraum von 1978 bis 1983 Messungen nach alter und neuer Norm durchgeführt wurden. Die neue DIN 45 405 beruht auf einer Empfehlung des CCIR von 1974. Vielfach wurden deshalb schon seit 1974 Messungen entsprechend der DIN 45 405 von 1983 durchgeführt. Davor war seit 1972 noch ein Vorschlag des CCIR mit einer etwas anderen Bewertungskurve und anderen Toleranzen in Gebrauch; Messergebnisse nach diesem Vorschlag unterscheiden sich praktisch nicht von den Ergebnissen der CCIR-Empfehlung 468 von 1974. Gelegentlich wird zwar auf die Messung nach CCIR hingewiesen, jedoch wurde diese und das vor allem im Ausland - nicht mit Quasi-Spitzenwert, sondern mit dem Effektivwert gemessen. Das ergibt einen um ca. 4 dB größeren Störpegelabstand. Die Empfehlung ITU-R BS 468 bzw. CCIR-468 gibt es in verschiedenen verbesserten Ausgaben (Abb. 7/15), die sich nur wenig voneinander unterscheiden. „Geschönte” Messergebnisse ergeben auch Messungen nach der Norm für den HiFi- oder Consumer-Bereich (DIN 45 500), die deshalb für die professionelle Studiotechnik nicht angewendet werden darf; im Consumer-Bereich wird nach der Bewertungskurve A (dBA) gemessen und effektiv bewertet. Störpegelabstände werden auf den Pegel + 6 dBu bezogen.
10.3.3
Systemrauschen und Betriebskennlinie
Das Systemrauschen und die Betriebskennlinie von Tonstudioanlagen erfassen die Störspannungen einer Tonregieanlage und geben Auskunft über die im Betriebsfall zu erwartenden Störungen. Die Angaben gelten nur für analoge Anlagen. Das Systemrauschen ist der nach der DIN 45 405 bewertete Störpegel oder Störpegelabstand, der gemessen wird, wenn alle Eingangskanäle bei größtmöglicher Dämpfungsstellung (Stellung vor der Endabschaltung) auf einen Ausgangskanal geschaltet sind; die übrigen Pegelsteller stehen dabei in Betriebsstellung. Der bewertete Störpegelabstand soll nach Pflichtenheft 3/5 bei zwei Pegelstellern mindestens 83 dB betragen; der zugehörige unbewertete Störpegel soll in jedem Fall mindestens 2 dB darunter liegen. 569
Analoge Tonmesstechnik Die Betriebskennlinie nach Pflichtenheft 3/5 erfasst den Störpegel eines einzelnen Kanals, der bei Normalstellung der Pegelsteller auf den Ausgang geführt wird. Wenn die Verstärkung des Mikrofonverstärkers zwischen minimaler und maximaler Verstärkung variiert wird, sollen die in Abb. 10/10 angegebenen Werte des Störpegels nicht überschritten werden. Der Kennlinie ist zu entnehmen, dass der nach DIN 45 405 bewertete Störpegelabstand bei Verstärkungen von 0 bis 25 dB 86 dB nicht überschreiten darf, in dem für die Praxis wichtigen Verstärkungsbereich von 25 bis 42,5 dB darf sich der Störpegelabstand von 86 auf 77,5 dB verringern; darüber nimmt der Störpegelabstand analog der zunehmenden Verstärkung ab.
Abb. 10/10. Betriebskennlinie einer Tonregieanlage nach dem Pflichtenheft 3/5.
Bei der Messung der Betriebskennlinie wird der Eingang mit 200 S abgeschlossen. Ein solcher Widerstand liefert bei 21°C und einer Übertragungsbandbreite von 15 kHz ein thermisches Rauschen, das eine physikalische Grenze darstellt, die nicht unterschritten werden kann. Dieses Rauschen liegt bei !118 dBqp, es steigt analog mit der Verstärkung der Mikrofonverstärkers an; bei einer Mikrofonverstärkung von z. B. 40 dB kann der bewertete Störpegelabstand physikalisch bedingt unter Messbedingungen bestenfalls 78 dBqp betragen; der zulässige Störpegelabstand ist bei diesem Beispiel 5 dB geringer. Für Mikrofonverstärkungen über 42,5 dB liegt das zulässige Rauschen 4 dB über der physikalischen Grenze.
10.3.4
Tief- und Hochfrequenzfestigkeit, Knackstörungen
Durch Türschließen, Windstöße, Bewegung von Personen usw. erreichen Druckwellen vorzugsweise im Bereich um 5 Hz das Mikrofon. Beim Auftreten solcher tieffrequenter Störspannungen, die sehr große Amplituden haben können, dürfen Mikrofonverstärker nicht 570
Stereoparameter übersteuert werden, d. h., es dürfen keine hörbaren Verzerrungen der Nutzmodulation auftreten. Solche Signale müssen unterdrückt werden. Auch gegen Hochfrequenzbeeinflussungen müssen Tonregieanlagen und Geräte, insbesondere aber Mikrofoneingänge geschützt werden, da diese Anlagen oder Geräte dort betrieben werden können, wo HF-Felder und HF-Spannungen und Störungen aus Leuchtstofflampen auftreten. Knackstörungen sind kurzzeitig auftretende Spannungen, die durch Kontaktbetätigung oder statische Aufladungen entstehen. Ihre Störwirkung kann nur unter definierten Abhörbedingungen subjektiv beurteilt werden. Begriffe und Messverfahren, die die Störfestigkeit von elektroakustischen Geräten erfassen, legt DIN 45 410 fest. Messvorschriften enthält auch das Technische Pflichtenheft 3/5.
10.4
Stereoparameter
Pegelabweichungen, Phasendifferenzen und Übersprechen zwischen zwei Kanälen stellen ein besonderes Problem der Stereotechnik bzw. der Stereo/Mono-Kompatibilität dar. [10.10, 10.11, 10.12]
10.4.1
Pegeldifferenzen
Pegeldifferenzen sind unbeabsichtigte Pegelunterschiede zwischen zwei zusammengehörigen Stereokanälen. Sie ergeben sich aus der Differenz der Übertragungsmaße und werden also in dB angegeben. Dabei werden in erster Linie Pegeldifferenzen bei 1 kHz erfasst, in vielen Fällen, insbesondere bei der Signalkodierung in der MS-Technik ist es erforderlich, den Unterschied der Übertragungsmaße über den gesamten Frequenzbereich zu messen. Die Messung der Pegeldifferenz ergibt sich aus der Messanordnung für das Übertragungsmaß (siehe Kap. 10.1); die Eingänge der beiden Stereokanäle liegen dabei parallel am Generator, die Ausgangspegel der beiden Ausgänge werden miteinander verglichen. Pegelunterschiede zwischen zwei zusammengehörigen Stereokanälen wirken sich beim LRVerfahren weniger oder stärker in einer Verschiebung der Phantomschallquellen aus, je nachdem, ob vornehmlich mit Laufzeit- oder Intensitätsunterschieden gearbeitet wird. Schon ein Pegelunterschied von 1,5 dB kann bei Intensitätsstereofonie eine Phantomschallquelle hörbar seitlich verschieben, 6 dB bewirken bei einer Mittenschallquelle eine Verschiebung nach „halbrechts” bzw. „halblinks”. In der MS-Technik erscheinen Pegeldifferenzen zwischen M- und S-Signal nach der Umsetzung in L und R als Übersprechen. Bei einem Pegelunterschied von nur 1 dB ergibt sich hier eine Übersprechdämpfung von nur 25 dB, bei 3 dB Pegelunterschied beträgt diese nur noch etwa 15 dB (Abb. 10/11).
10.4.2
Phasendifferenzen
Phasendifferenzen zwischen verschiedenen Frequenzkomponenten eines Signals, hervorgerufen durch Phasenverzerrungen eines Übertragungsgliedes, haben keinen sehr großen Einfluss auf das Hörereignis. Treten allerdings Phasendifferenzen zwischen zwei zusammengehörigen 571
Analoge Tonmesstechnik Stereokanälen auf, so beeinflussen sie den Hörort von Phantomschallquellen. Bei einem 1 kHz-Ton z. B. entspricht einer Phasenverschiebung um 36° eine Zeitverschiebung um 100 :s, ein Wert, der zu einer hörbaren seitlichen Verschiebung einer Phantomschallquelle führen kann. Lässt man eine Phasenverschiebung von 10° zu, so resultiert daraus bei 1 kHz eine Auswanderung der Phantomschallquelle um etwa 3/; ein akzeptabler Wert. Bei 100 Hz würde eine solche Phasenverschiebung allerdings eine zehnmal größere Delokalisierung verursachen, wenn das Gehör im tiefen Frequenzbereich nicht unfähig wäre, solche Töne zu lokalisieren. Eine konstante Phasenverschiebung entspricht einer mit der Frequenz abnehmenden Zeitverschiebung, eine konstante Zeitverschiebung entspricht einer mit der Frequenz zunehmenden Phasenverschiebung.
Abb. 10/11. Resultierende Übersprechdämpfung aü zwischen den Stereosignalen L und R in Abhängigkeit von der Pegeldifferenz )pMS, bzw. der Phasendifferenz )NMS.
Bei der Zusammenschaltung phasenungleicher Stereokanäle zu einem Mono-Summensignal ergibt sich durch teilweise Auslöschung ein Pegelverlust, der bei einer Phasendifferenz von 90/ 3 dB ausmacht, bei 30/ etwa 0,3 dB (Abb. 10/11). Ungleich kritischer sind Phasendifferenzen zwischen dem M- und S-Kanal. Nach der Rückgewinnung des L- und R-Signals erscheinen sie wie Pegeldifferenzen als Übersprechen, dabei jedoch mit einer Phasenverschiebung. Hier gibt eine Phasendifferenz von 90/ totales Übersprechen (Übersprechdämpfung 0 dB), eine Phasendifferenz von 10/ ergibt eine Übersprechdämpfung von nur etwa 21 dB. Da sich eine hohe Phasensymmetrie zwischen aus vielen Einzelgeräten zusammengesetzten Kanälen nur schwer realisieren lässt, muss die Übertragung von Stereosignalen in 572
Stereoparameter MS-Codierung im Tonfrequenzbereich möglichst eingeschränkt werden. Aus diesem und anderen Gründen hat sich auch die MS-Regietischtechnik, die in den 1960er Jahren vielfach realisiert wurde, nicht bewährt. Die Messung der Phasendifferenzen kann auf verschiedene Weise erfolgen. Der Phasenunterschied lässt sich u. a. mit einem Oszillografen ermitteln. Gibt man die zu vergleichenden Sinusspannungen mit dem gleichen Wert auf den X- und Y-Eingang eines Oszillographen, so kann die Phasendifferenz aus dem Achsenverhältnis b:a der Ellipse errechnet werden, tan N/2 = b/a (Abb. 10/12).
Abb. 10/12. Ermittlung der Phasendifferenz zwischen zwei Stereokanälen mit einem Oszillografen.
Die Phasendifferenz kann auch mit einem Korrelationsgradmesser (Goniometer), wie er im Tonstudiobetrieb verwendet wird, gemessen werden. Der Korrelationsgrad r zweier sinusförmiger Spannungen ist nämlich r = cos N. Allerdings zeigen die in der Tonstudiotechnik gebräuchlichen Korrelationsgradmesser nicht den Kosinus an, sondern eine lineare Funktion von r und N: N = 0° entspricht r = 1, N = 90° entspricht r = 0; eine Phasendifferenz von 10° ergibt demnach eine Anzeige von 0,9. Vereinfacht wird dieses einfache und genaue Messverfahren durch eine zusätzliche Gradangabe auf dem Korrelationsgradmesser. Am genauesten sind Messungen mit speziellen Phasenmessgeräten. Die Phasendifferenz zwischen zwei beliebigen, gleichartigen Modulationswegen, soweit diese Wege zu Stereopaaren zusammengeschaltet werden können, soll nach Pflichtenheftforderung bis 1989 bei Wegen ohne Entzerrer zwischen 60 und 10 000 Hz kleiner 10/, bei Wegen mit Entzerrer im Frequenzbereich zwischen 1,5Afu und 1/1,5Afo kleiner 30° sein (fu = untere und fo = obere Grenzfrequenz des Übertragungsbereichs). In der der Neuausgabe des Pflichtenhefts 1989 ist für gleich figurierte Wege im gesamten Frequenzbereich einschließlich Entzerrer eine maximale Phasendifferenz von 15/ zugelassen.
10.4.3
Übersprechen
Mit Übersprechen bezeichnet man die Erscheinung, dass Signale eines Übertragungskanals unbeabsichtigt in einen anderen Kanal gelangen. Die Größe des Übersprechens, das meist einen frequenzabhängigen Verlauf zeigt, wird durch die Übersprechdämpfung aü in dB 573
Analoge Tonmesstechnik angegeben. Sie ist gleich der Differenz zwischen Nutzpegel am Messpunkt und dem Pegel des übersprochenen Signals, das ebenfalls mit Nutzpegel in den übersprechenden Kanal gegeben wird. Ein Übersprechen zwischen dem L- und R-Kanal bewirkt eine Basisverkleinerung des stereofonen Klangbildes; sie wird jedoch erst hörbar, wenn die Übersprechdämpfung kleiner als 15 bis 20 dB wird. Dennoch fordert das Pflichtenheft für Tonregieanlagen wesentlich höhere Werte. Bei Kanälen, die nicht zusammengehörige Modulationen führen, z. B. Modulationsund Kommando- oder Steuerleitungen, müssen die Anforderungen besonders hoch sein. Die Messverfahren für die Übersprechdämpfung sind je nach der Art und dem Ort ihres Zustandekommens verschieden. Sie werden im Technischen Pflichtenheft Nr. 3/5 erläutert. Das bisher gültige Pflichtenheft unterscheidet bei den Anforderungen an das Übersprechen zwischen unterschiedlichen Konfigurationen; sie liegen zwischen 60 und 100 dB, für den Richtungsmischer mindestens bei 40 dB. Die neue Ausgabe 1989 stellt teilweise höhere Anforderungen.
10.5
Schalldruckpegel
Der Schalldruckpegel erfasst messtechnisch die Stärke einer akustischen Schwingung als Pegel mit der dimensionslosen Einheit Dezibel, d. h. mit einer logarithmierten Verhältnisgröße, bezogen auf einen definierten Bezugswert. Schallpegel ist eine unpräzise, verkürzte Bezeichnung einer physikalischen Größe, die einer genaueren Bezeichnung bedarf. Meist wird mit dem Begriff Schallpegel der Schalldruckpegel verstanden, der den Schalldruck an einem Punkt im Raum angibt. Er ist einerseits abhängig von der abgestrahlten akustischen Leistung einer Schallquelle, andererseits aber auch sehr stark von der Umgebung der Schallquelle, also den Eigenschaften des Raums, im Freien von Schallhindernissen, atmosphärischen Bedingungen, v. a. aber vom Abstand des Messpunkts von der Schallquelle. Seltener ist mit Schallpegel der Schallleistungspegel gemeint, der die Stärke einer Schallquelle, also deren gesamte Schallemission bezeichnet und von der Umgebung unabhängig ist. Der Schallintensitätspegel schließlich erfasst die Schallenergie, die durch ein Flächensegment im Raum fließt, er ist wie der Schalldruckpegel von der Umgebung abhängig, zusätzlich aber auch von der Einfallsrichtung des Schalls. Im Folgenden wird ausschließlich der Schalldruckpegel erläutert, der geeignet ist, die Schallverhältnisse in einem Raum, also z. B. am Ort eines Mikrofons, zu beschreiben. Der absolute Schalldruckpegel Lp (L von engl. level = Pegel, p von engl. pressure = Druck), kurz Schallpegel genannt, ist der 20-fache Zehnerlogarithmus des Verhältnisses der Effektivwerte des in einem anzugehenden Frequenzbereich gemessenen Schalldrucks und des Bezugsschalldrucks (DIN 45 630). Er wird in dB angegeben. Der Bezugsschalldruck entspricht mit 2A10-5 Pa etwa dem Schalldruck bei einer Frequenz von 1 kHz, der gerade noch hörbar ist. Lp = 20Alg
574
p p0
Lp = Schalldruckpegel oder absoluter Schalldruckpegel [dB] p = gemessener Schalldruck [Pa] p0 = Bezugsschalldruck = 2A10-5 Pa
Schalldruckpegel Der Frequenzbereich der Messung wird durch den Übertragungsbereich des Präzisionsschallpegelmessers nach DIN IEC 651 bestimmt. Er kann aber auch frei gewählt werden, z. B. durch Vorschaltung eines Oktav- oder Terzfilters. Bei der Messung des unbewerteten Pegels wird in der Stellung „linear” gearbeitet. Die Messung des Schalldruckpegels kann durch verschiedene Zeitbewertungen, auch dynamische Eigenschaften oder Anzeigearten genannt, bewertet werden. Ähnlich wie die Effektivwertmessung und die Bewertung durch Filter beim bewerteten Schalldruckpegel stellen auch die Zeitbewertungen eine Annäherung an die Eigenschaften des Gehörs dar. Folgende Zeitbewertungen stehen zur Verfügung: Die dynamische Gesamteigenschaft „schnell” (F = fast) ist die übliche Einstellung: hierbei wird ein Sinuston mit 1 kHz nach 0,2 s 1 dB unter dem Pegel des Dauersignals mit derselben Amplitude angezeigt. Bei der Einstellung „langsam” (S = slow) wird derselbe Ton nach 0,5 s 4 dB unter dem Wert des Dauersignals angezeigt. Die Zeitbewertung „Impuls” beinhaltet eine Höchstwertspeicherung mit langsamen Abfall der Anzeige. Während kleinere Pegelschwankungen bei den Einstellungen „schnell” oder „langsam” gemittelt werden, sind für die Mittelung längerer Zeiträume mit sich ändernden Schallpegeln und auch Pausen Mittelungspegel definiert worden, z. B. der „energieäquivalente Dauerschallpegel”, der „Impuls-Mittelungspegel” oder der „Takt-Maximalpegel”. Für mittelnde Lärmmessungen stehen spezielle Messgeräte zur Verfügung, sog. integrierende Schallpegelmesser, sowie Lärm- oder Schalldosimeter. [10.13, 10.14, 10.15]
10.5.1
Bewertete Schalldruckpegel
Meist wird der Schalldruckpegel oder kurz Schallpegel bewertet gemessen, und zwar ebenfalls mit dem Präzisionsschallpegelmesser, aber in Stellung „bewertet” nach Bewertungskurve A, B oder C. Angegeben wird dann der „A-, bzw. B-, oder C-Schallpegel”, der „A-(B-, C-) bewertete Schalldruckpegel” in dB oder meist einfach der „Schallpegel” in dBA bzw. dBB oder dBC.
LA,B,C = 20 lg
PA , B , C p0
LA, B, c = bewerteter Schallpegel [dBA, dBB bzw. dBC] PA, B, c = nach den Bewertungskurven A, B oder C bewerteter Schalldruck [Pa] p0 = Bezugsschalldruck = 2A10-5 Pa
Die Bewertungskurven sind in Abb. 10/13 dargestellt. Der Verlauf der Kurven beruht auf Vereinbarung, trägt aber den Eigenschaften des Gehörs Rechnung, indem er insbesondere die tiefen Frequenzen entsprechend der geringen Gehörempfindlichkeit weniger berücksichtigt. Kurve A ist für geringere, B für mittlere und C für hohe Schallpegel vorgesehen. Meist wird ohne Berücksichtigung des tatsächlichen Schallpegels mit der A-Bewertung gemessen; bei höheren Pegeln führt das zu einem niedrigeren Messwert als mit der Bewertung B oder C, also zu einem „geschönten” Wert. Das Ergebnis bewerteter Schallpegelmessung entspricht in vielen Fällen grob der Angabe des Lautstärkepegels in phon (siehe Kap. 10.5.2).
575
Analoge Tonmesstechnik
Abb. 10/13. Bewertungskurven A, B und C zur Messung des bewerteten Schalldruckpegels (IEC 651).
10.5.2
Bewertung des Schalldruckpegels
Der bewertete Schalldruckpegel und die dynamischen Eigenschaften des Präzisionsschallpegelmessers stellen eine gewisse Annäherung an die subjektiv wahrgenommene Schallstärke dar. Genauer werden diese Zusammenhänge jedoch als Lautstärkepegel in phon und als Lautheit in sone erfasst. Der Lautstärkepegel Ls eines Schalls wird ermittelt, indem der als gleich laut beurteilte Sinuston mit 1 kHz gesucht wird. Der Schalldruckpegel dieses 1 kHz-Tons ist dann zugleich zahlenmäßig gleich dem Lautstärkepegel Ls in phon des zu beurteilenden Schalls. Beim Vergleich der Lautstärken soll der Schall als ebene Welle von vorne auf das Gehör treffen, abgehört wird mit beiden Ohren. Für Sinustöne ergibt die Lautstärkemessung die sog. Kurven gleicher Lautstärke (DIN 1318, siehe Kap. 3.3). Von Zwicker wurde auch ein Verfahren zur Berechnung des Lautstärkepegels komplexer Geräusche entwickelt; es ist in DIN 45 631 genormt. Während mit dem Lautstärkepegel gleichlaute Schalle erfasst werden, gibt die Lautheit S darüber hinaus Auskunft, wie die Stärke unterschiedlich lauter Schalle im Vergleich empfunden wird; sie beantwortet die Frage: Unter welchen Bedingungen ist ein Schallereignis doppelt oder halb so laut wie ein anderes? Die Einheit 1 sone entspricht dem Lautstärkepegel 40 phon. Da die Ermittlung der Lautheit relativ schwierig ist, wird sie, wenn erforderlich, meist nach DIN 45 630 berechnet oder der ebenfalls dort abgedruckten Tabelle entnommen; einen Auszug daraus enthält Tab. 10/3. Sie zeigt, dass einer Verdopplung der Lautheit eine Lautstärkepegelzunahme 576
Messungen an Mikrofonen von 10 dB entspricht, einer Halbierung einer Pegelabnahme von 10 dB. Im Vergleich dazu entspricht einer Verdopplung der Spannung eine Pegelzunahme von nur 6 dB. Tab. 10/3 Zusammenhang von Lautstärkepegel in phon und Lautheit in sone. phon sone
10.6
20 0,25
30 0,50
40 1,00
45 1,41
50 2,00
55 2,83
60 4,00
65 5,66
70 8,00
80 16,00
90 32,00
100 64,00
Messungen an Mikrofonen
Messungen an Mikrofonen stellen insofern eine Besonderheit dar, als die Messungen – mit Ausnahme der Störpegelmessung – einerseits auf einer Vergleichsmessung mit einem sog. Messmikrofon beruhen, andererseits ein akustisches Signal benötigt wird, also ein durch Lautsprecher wiedergegebenes Signal, dessen Qualität seinerseits wieder nur durch Mikrofone kontrolliert werden kann; zudem wird ein geeigneter Messraum benötigt. Aus diesen komplexen Zusammenhängen sind zuverlässige Messungen nicht einfach durchzuführen und werden in den meisten Fällen den dafür ausgerüsteten Herstellern professioneller Studiomikrofone überlassen. Allerdings zeigen die Mikrofone eingeführter Hersteller von Studiomikrofonen durch hohe Fertigungsqualität und strikte Qualitätskontrollen einen sehr hohen Qualitätsstand mit großer Zuverlässigkeit auch über längere Perioden. In der Praxis fallen defekte Mikrofone meist erst durch subjektive Bewertung während einer Aufnahme auf und können dann schnell ersetzt werden. Die folgenden Ausführungen beschränken sich deshalb auf Grundsätzliches zu den Messverfahren. In DIN 45 591 „Mikrofonprüfverfahren” sind die Messbedingungen und Messverfahren festgelegt. Begriffe, Formelzeichen und Einheiten sind in DIN 45 590 definiert. Als Messsignale dienen i. Allg. Sinustöne. Bei bestimmten Messungen, z. B. im diffusen Schallfeld, müssen stehende Wellen vermieden werden; in diesen Fällen sind die Messsignale gewobbelte Sinustöne – das sind Töne, deren Frequenz um einen Mittelwert pendelt - oder Terzbandrauschen. Bildet der Mikrofonverstärker mit der Mikrofonkapsel eine Einheit, wie z. B. bei Kondensatormikrofonen, wird er als zum Mikrofon gehörig betrachtet. Für einige Messungen ist ein geeichtes Messmikrofon erforderlich. Grundsätzlich ist bei allen Messungen darauf zu achten, dass der Störpegel, der z. B. durch Geräusche, Erschütterungen, magnetische oder elektrostatische Fremdfelder einschließlich der Eigenstörspannung der Messapparatur hervorgerufen sein kann, mindestens 10 dB unter dem Pegel des Nutzsignals liegt. Siehe zu den Begriffen auch Kap. 4.2.1. [10.16, 10.17]
10.6.1
Feld-Übertragungsfaktor und Feld-Übertragungsmaß
Der Feld-Übertragungsfaktor ist der Quotient aus der vom Mikrofon abgegebenen Spannung und dem am Ort des Mikrofons vorhandenen Schalldruck; er wird angegeben in V/Pa. Er kann mit dem Messmikrofon, das in Verbindung mit dem Pegelmesser einen geeichten Schalldruckpegelmesser bildet, sowohl im direkten als auch im diffusen Schallfeld ermittelt werden.
577
Analoge Tonmesstechnik Man unterscheidet demnach den Direktfeld- und den Diffusfeld-Übertragungsfaktor. Er wird für einen Schalldruck von 1 N/m2 = 1 Pa angegeben. Aus dem Feld-Übertragungsfaktor kann das Feld-Übertragungsmaß berechnet werden. Dabei ist der 20-fache Zehnerlogarithmus des Verhältnisses Feld-Übertragungsfaktor zu einem Bezugs-Übertragungsfaktor von 1 V/Pa zu bilden. Je nachdem, ob ein Mikrofon im Leerlauf oder mit betriebsmäßigem Abschlusswiderstand, vorzugsweise 1 kS, gemessen wird, unterscheidet man den Feld-Leerlauf- und den Feld-Betriebsübertragungsfaktor. Für den Anwender ist nur die Messung des Feld-Betriebsübertragungsfaktors von Interesse.
10.6.2
Frequenzgang
Der Frequenzgang gibt die Abweichungen des Feld-Übertragungsmaßes von dem Wert für 1 kHz im gesamten Frequenzbereich in dB an. Er ist für das freie und für das diffuse Schallfeld unterschiedlich. Die Messung des Frequenzgangs für das direkte oder freie Schallfeld (Freifeld-Übertragungsmaß) erfolgt im reflexionsarmen Raum. Es wird durch den Vergleich der Ausgangsspannung des Prüflings mit der eines geeichten Messmikrofons ermittelt. Je nachdem, ob die Mikrofone gleichzeitig oder nacheinander ins Schallfeld gebracht werden, unterscheidet man die einfach und schnell durchführbare Komparations- und die etwas umständlichere, aber genauere Substitutionsmethode. Der Diffusfeld-Frequenzgang wird in einem Hallraum durchgeführt, dessen Größe die untere Grenze der Messfrequenz bestimmt. Folgende Bedingung sollte eingehalten werden: fu $ 500
1 3
V
fu = unterste Messfrequenz [Hz] V = Volumen des Hallraums [m3]
Außerdem muss die Nachhallzeit des Hallraumes im Frequenzbereich bis 4000 Hz mehr als 2 s betragen. Im Hallraum kann sowohl nach der Substitutions- als auch nach der Komparationsmethode gemessen werden.
10.6.3
Gerichteter Schallempfang
Für den richtungsabhängigen Schallempfang werden mehrere Messgrößen verwendet: Richtungsfaktor, Bündelungsfaktor und ihre Maße. 10.6.3.1
Richtungsfaktor, Richtungsmaß und Richtcharakteristik
Der Richtungsfaktor ist das Verhältnis des Schalldrucks, der unter einem bestimmten Winkel zur Bezugsrichtung einfällt, zum Schalldruck in der Bezugsrichtung. Die Bestimmung des Richtungsfaktors von Mikrofonen erfolgt im reflexionsarmen Raum. Dabei muss das zu prüfende Mikrofon um eine Achse, die senkrecht zur Hauptbeschallungsrichtung (Bezugsrichtung) steht und durch die Mikrofonkapsel verläuft, drehbar sein. Das 578
Messungen an Mikrofonen Messsignal und der Messabstand sind entsprechend der Messanordnung des Übertragungsfaktors im direkten Feld zu wählen. Zur Ermittlung des Richtungsfaktors wird der Ausgangspegel des Mikrofons bei konstantem Schalldruck unter dem jeweiligen Winkel gemessen und zum Ausgangspegel unter 0/ (Bezugsrichtung) ins Verhältnis gesetzt. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Besteht die Möglichkeit, die Mikrofondrehung mit einem Polarkoordinatenschreiber zu synchronisieren, kann das Richtungsmaß in Abhängigkeit vom Winkel kontinuierlich registriert werden. Das so erhaltene Richtdiagramm zeigt die Richtcharakteristik des Mikrofons. 10.6.3.2
Bündelungsgrad und Bündelungsmaß
Der Bündelungsgrad ist eine Kenngröße, die angibt, in welchem Verhältnis freier und diffuser Schall eines bestimmten Mikrofons im Vergleich zu einem Mikrofon mit gleichem FreifeldÜbertragungsmaß und kugelförmiger Richtcharakteristik (Bündelungsgrad 1) aufgenommen werden. Das Bündelungsmaß ist der 10-fache Zehnerlogarithmus des Bündelungsgrads. Wenn das absolute Übertragungsmaß sowohl im direkten als auch im diffusen Schallfeld in Abhängigkeit von der Frequenz bekannt ist, erhält man das Bündelungsmaß als Differenz beider Übertragungsmaß.
10.6.4
Klirrfaktor und Grenzschalldruck
Bei Mikrofonen ist es nicht üblich, den Klirrfaktor anzugeben, angegeben wird der sog. Grenzschalldruck, bei dem die Ausgangsspannung des Mikrofons den Klirrfaktor 0,5 %, gelegentlich auch 1 %, erreicht. Der Grenzschalldruck ist der Quotient aus der Ausgangsspannung des Mikrofons bei dem jeweiligen Klirrfaktor und dem Direktfeld-Übertragungsfaktor bei gleicher Frequenz.
pgrenz =
U BF
pgrenz = Grenzschalldruck [Pa] U = Ausgangsspannung [V] bei einem Klirrfaktor von 0,5 bzw. 1 % BF = Freifeld-Übertragungsfaktor [V/Pa]
Da es Schwierigkeiten bereitet, den zum Messen des Grenzschalldrucks erforderlichen hohen Schalldruck verzerrungsarm zu erzeugen, wird der Grenzschalldruck bei dynamischen Mikrofonen fast nie angegeben und bei Kondensatormikrofonen nur für den Mikrofonverstärker als Hauptverursacher gemessen und nach der oben angeführten Beziehung errechnet.
10.6.5
Störpegel
Als Störspannung bezeichnet man die nach DIN 45 405 bzw. ITU-R BS 468 und CCIR 468 (Abb. 10/9) bewertete Ausgangsspannung eines Mikrofons, wenn es keinem Schall ausgesetzt ist. Zur Ausschaltung störenden Luft- und Körperschalls wird es für die Messung in eine kleine Prüfkammer mit entsprechender Schalldämmung gebracht. Die Störspannung wird wie bei Verstärkern mit einem Messgerät mit Quasi-Spitzenwertanzeige nach DIN 45 405 gemessen. 579
Analoge Tonmesstechnik Der bewertete Störabstand oder Geräuschspannungsabstand ist die in dB ausgedrückte Differenz des Pegels, den das Mikrofon bei einem Schalldruck von 1 Pa und der Frequenz 1 kHz bezogen auf 1 V abgibt, und seinem bewerteten Störpegel bzw. Geräuschspannungspegel. 1 Pa entspricht einem Schalldruckpegel von 94 dB. Nach neuerer Normung (DIN 45 405) sollen die Begriffsbildungen mit „Geräusch ...” durch „bewertete Stör ...” ersetzt werden. Der Bezug auf 1 V, den DIN 45 590 hier vorsieht, ist unerheblich und kann durch einen beliebigen Bezugswert, z. B. 0,775 V ersetzt werden, wenn der Mikrofonpegel bei 1 Pa gemessen und die Störspannung auf denselben Wert bezogen wird. Neben dem unbewerteten und bewerteten Störpegel nach DIN 45 405 bzw. CCIR-468 trifft man bei den Mikrofondaten weniger bekannter Hersteller auf eine Reihe weiterer Messgrößen zur Erfassung von Störgeräuschen. Dabei handelt es sich um Begriffe aus zurückgezogener, im professionellen Bereich nicht anzuwendender oder ausländischer Normung; es sind auch unzulässige Kombinationen von Bewertungskurven und dynamischen Bewertungen anzutreffen. So muss bei Herstellerangaben genau geprüft werden, welche Messgrößen angegeben sind. In Kap. 4.2.1, insbesondere Tab. 4/1, sind diese Verfahren genannt.
10.7
Messungen an Lautsprechersystemen
10.7.1
Analoge Messmethoden
Die Messbedingungen und die elektrischen und akustischen Prüfverfahren sind in DIN 45 573, Benennungen und Definition in DIN 45 570 festgelegt. Unter Lautsprecher werden in diesem Zusammenhang sowohl passive Systeme verstanden, die zum Membranantrieb einen separaten Leistungsverstärker benötigen, als auch sog. aktive Lautsprecher mit eingebautem Verstärker. Elektroakustische Messungen an Lautsprechersystemen ohne Einbau in Gehäuse, Schallwände oder Trichter sind nicht sinnvoll. Für den Paarvergleich von Lautsprechern des HiFi-Bereichs im Hörtest gibt DIN 45 573, Tl. 4 das Verfahren an. 10.7.1.1
Übertragungsmaß und Frequenzgang
Das Übertragungsmaß in dB bei einer bestimmten Frequenz oder in einem Frequenzband ist definiert
G = 20Alg
T T0
G = Übertragungsmaß [dB] T = Übertragungsfaktor [Pa/V] T0 = Bezugs-Übertragungsfaktor [Pa/V] = 1 Pa/V
Ist nichts anderes angegeben, wird im freien Schallfeld in 1 m Entfernung auf der Bezugsachse des Lautsprechers gemessen. Die Messung des Übertragungsmaßes im freien Schallfeld (Freifeld-Übertragungsmaß) erfolgt mit der in Abb. 10/14 dargestellten Anordnung.
580
Messungen an Lautsprechersystemen
Abb. 10/14. Anordnung zur Messung des Übertragungsmaßes von Lautsprechern im freien Schallfeld.
Der zu prüfende Lautsprecher wird in einem reflexionsarmen Messraum installiert. Vor dem Lautsprecher, in Hauptabstrahlrichtung auf der Bezugsachse, befindet sich vorzugsweise in der Entfernung 1 m das für das freie Schallfeld geeichte Messmikrofon. Für räumlich stark ausgedehnte Strahlergruppen mit großer Richtwirkung (Schallzeilen) muss der Messabstand zur Vermeidung interferenzbedingter Messfehler ein Vielfaches der größten Abmessung des Strahlers sein. Die Messung des Übertragungsmaßes in Abhängigkeit von der Frequenz (Frequenzgang) erfolgt mit Rauschen in Terzbreite. Dem zu prüfenden Lautsprecher wird als Anregungssignal ein im Rauschgenerator erzeugtes und im Leistungsverstärker verstärktes rosa Rauschen zugeführt, dessen spektrale Intensitätsdichte umgekehrt proportional der Frequenz ist. Dabei ist in jeder Terz die gleiche Intensität vorhanden. Mit dem Spannungsmesser wird die Klemmenspannung am Prüfling gemessen. Bei Lautsprechern mit integrierten Verstärkern entfällt der Verstärker und es wird die Eingangsspannung gemessen bzw. konstant gehalten. Der Schalldruck wird mit dem Messmikrofon und dem selektiven Pegelmesser, bestehend aus einem geeichten Mikrofonverstärker, dem durchstimmbaren Terzfiltersatz und einem Pegelanzeigegerät, in Terzschritten ermittelt und zur Klemmenspannung ins Verhältnis gesetzt. Zur Ermittlung der Feinstruktur des Übergangsmaßes in Abhängigkeit von der Frequenz können als Messsignal Sinustöne verwendet werden. 10.7.1 2
Scheinwiderstand
Der Scheinwiderstand eines Lautsprechers hängt außer von der Frequenz von der zugeführten elektrischen Leistung und der akustischen Belastung ab. Die Messung in Abhängigkeit von 581
Analoge Tonmesstechnik der Frequenz erfolgt einschließlich der zugehörigen Netzwerke (Frequenzweichen usw.). Ein besonderer Messraum ist hierbei nicht erforderlich, der Lautsprecher soll jedoch frei in den Raum strahlen können. Die bei der Scheinwiderstandsmessung zugeführte elektrische Leistung soll 1/10 der Nennbelastbarkeit nicht überschreiten. 10.7.1.3
Richtcharakteristik
Richtungsfaktor und Richtungsmaß Der Richtungsfaktor für eine anzugebende Richtung im freien Schallfeld bei einer Frequenz (Frequenzband) ist das Verhältnis des Schalldrucks in einem bestimmten Winkel zur Bezugsachse zum Schalldruck auf der Bezugsachse in der gleichen Entfernung. Das Richtungsmaß ist der 20-fache Zehnerlogarithmus des Richtungsfaktors. Der Richtungsfaktor bzw. das Richtungsmaß eines Lautsprechers wird im freien Schallfeld, also im reflexionsarmen Raum, ermittelt. Der Messaufbau erfolgt gemäß Abb. 10/14. Zur Bestimmung des Richtungsfaktors wird der Schalldruck in Abhängigkeit des Winkels gegen die in Hauptabstrahlrichtung verlaufende Achse (Bezugsachse) in konstanter Entfernung gemessen und auf den in der Hauptabstrahlrichtung herrschenden Schalldruck bezogen. Unter Richtcharakteristik versteht man die Darstellung des Richtungsmaßes bzw. Richtungsfaktors als Funktion des Winkels in Polarkoordinaten. Die Registrierung erfolgt unmittelbar durch einen mit einem Polarkoordinatenschreiber gekoppelten Schalldruckmesser. Der Prüfling wird drehbar um eine Achse, die senkrecht zur Bezugsachse steht, installiert und winkelsynchron mit dem Polarkoordinatenschreiber angetrieben. Als Messsignal dienen vorzugsweise Sinustöne. Bündelungsgrad und Bündelungsmaß Der Bündelungsgrad eines Lautsprechers ist die Kenngröße für die abgestrahlte Gesamtleistung. Er ist definiert als Verhältnis der akustischen Leistungen eines ungerichteten, nach allen Seiten gleichmäßig strahlenden Lautsprechers zur akustischen Leistung eines gerichtet abstrahlenden Lautsprechers, dessen Übertragungsmaß auf der Bezugsachse gleich dem Übertragungsmaß des ungerichteten Strahlers in konstanter Entfernung ist. Das Bündelungsmaß ist der 10-fache Zehnerlogarithmus des Bündelungsgrads. Es lässt sich berechnen als Differenz von Freifeld- und Diffusfeld-Übertragungsmaß, wenn beide für denselben Bezugsabstand ermittelt wurden. Siehe auch Kap. 9.3.1.6 und 18.6.1.5. 10.7.1.4
Kennschalldruckpegel
Der Kennschalldruckpegel ist derjenige mittlere Schalldruckpegel, der vom Lautsprecher im freien Schallfeld in 1 m Entfernung auf der Bezugsachse bei einer elektrischen Nennleistung von 1 W erzeugt wird. Für aktive Lautsprecherboxen bzw. Regielautsprecher mit integrierten Verstärkern wird der mittlere Schalldruckpegel in 1 bzw. 2 m Entfernung für einen bestimmten Eingangspegel, vorzugsweise 6 dBu (1,55 V), angegeben.
582
Messungen an Lautsprechersystemen
10.7.2
Digitale Messmethoden
Bei der Messung von Lautsprechern und allgemein bei akustischen Messungen von Räumen haben seit den 1990er Jahren digitale Messmethoden die analogen Methoden ersetzt. Sie sind ungleich schneller, so dass auch bei der praktischen Arbeit in Sälen, bei Beschallungen usw. problemlos und genauer gemessen werden kann (siehe dazu auch Kap. 18.2). Nachfolgend soll eine bei Lautsprechern und in der Akustik viel verwendete Messmethode umrissen werden, nämlich die sog. MLS-Methode. MLS steht für Maximum-length-sequence oder Maximallängensequenz. Die Methode analysiert die Impulsantworten von Räumen bzw. Lautsprechern und leitet dabei alle interessierenden Parameter ab. Es gibt weitere Methoden, um Impulsantworten oder akustische Parameter zu messen, aber bezüglich Zeitaufwand und Störsicherheit erreichen sie MLS nicht. Entweder werden viel mehr Messungen oder aber viel längere Messzeiten benötigt. Die MLS-Messung wird durch neue Messprogramme und Auswertungen immer weiter entwickelt und existiert auch als reines Softwareprogramm mit diversen Plug-Ins für den PC. D. h. gerade in der alltäglichen praktische Anwendung ist diese schnelle Messmethode besonders geeignet für Messungen der Parameter der Akustik eines Raums über dessen Impulsantwort, bei Beschallungen, wo sie bei Frequenzgangkorrekturen das Ausrauschen des Raums ersetzt, bei Lautsprechern u. a. Die Theorie des Messens zeigt, dass ein ideales elektrisches oder akustisches Messsignal Weißes Rauschen ist, das aus Sinussignalen mit zufälliger Verteilung von Frequenz, Phase und Amplitude besteht (siehe Kap. 2.1), im Mittel kommen aber alle Werte gleich häufig vor. Seine Zufälligkeit hat allerdings zwei Nachteile: einmal werden lange Messzeiten benötigt, um die durch das Messsignal hervorgerufenen Variationen auszumitteln und zum zweiten sind große Rechenleistungen mit großen Datenspeichern erforderlich. MLS ist eine binäre Zahlenfolge, die wie Weißes Rauschen fast alle wünschenswerten Eigenschaften eines theoretisch idealen Testsignals besitzt, ohne dabei zufällig zu sein. Mit MLS kann man die Impulsantwort eines Raums messen, aber auch die Impulsantwort eines Lautsprechers in diesem Raum. Dies wird durch geeignete zeitliche „Fensterung” der Signale erreicht. Man gibt das Testsignal – eine MLS beliebiger Länge - auf den Lautsprecher. Nun erreichen nacheinander zwei verschiedene Komponenten das Mikrofon, zunächst der Direktschall, der auf kürzestem Weg vom Lautsprecher zum Mikrofon gelangt, danach die Raumreflexionen und der Diffusschall, der von den Wänden reflektiert wurde. Berechnet man die Zeiten, nach denen der Direktschall und der Diffusschall das Mikrofon erreichen, so können durch geeignete zeitliche Fensterung der Signale die gewünschten Komponenten herausgefiltert werden. Interessiert man sich für die Impulsantwort des Raums, so „fenstert” man nur den Diffusschall, der Direktschall wird ausgeblendet. Interessiert man sich für die Impulsantwort des Lautsprechers, fenstert man die Zeit, bis die erste Reflektion eintrifft. Dadurch misst man den Lautsprecher sozusagen in einem schalltoten Raum. Dieselbe Technik erlaubt es natürlich auch, Mikrofone sozusagen in einem schalltoten Raum zu messen. Bei der Messung wird das Eingangssignal, das von einem digitalen Generator erzeugt wird, mit dem Ausgangssignal verglichen und durch eine sog. Autokorrelationsfunktion zu einem sog. Dirac-Impuls, einem kurzen Impuls, umgerechnet, in dem die Unterschiede der beiden Signale erfasst sind. Aus dem berechneten Impuls können durch FFT (Fast Fourier-Analyse) 583
Analoge Tonmesstechnik der Frequenzgang, aber auch der Phasengang, die Sprungantwort und alle anderen akustischen Parameter der Lautsprecher- und Raummessung berechnet werden, z. B. auch das Einschwingen und Ausklingen des Lautsprechers und seine Resonanzen, die in dem sog. Zerfallsspektrum oder Wasserfall dargestellt werden.
10.8
Messungen an Magnettonanlagen
Für den Bereich der öffentlich-rechtlichen Rundfunkanstalten wurden vom IRT (Institut für Rundfunktechnik) Richtlinien für die Prüfung und Einmessung von analogen Magnettonanlagen herausgegeben („Grundsätzliche Anforderungen an Magnettonanlagen und Richtlinien zu deren Einstellung”, 1988), die nachfolgend zusammengefasst werden; für Einzelheiten wird darauf verwiesen (vgl. auch Kap. 7.1, dort auch Literaturangaben). Weitere Veröffentlichungen des IRT hierzu: Studio-Magnetbänder (1980), Vorspann-, Zwischen- und Endbänder für Schaltzwecke im Studio (Techn. Richtlinie 3/9, 1987), Magnetfilm-Anlagen für Tonaufnahme und -wiedergabe (Techn. Richtlinie 12/1, 1986), Magnetfilm 16 mm, 17,5 mm und 35 mm (Techn. Richtlinie 12/2, 1985), Magnettonstreifen auf Bildfilm 16 mm und 35 mm ( Techn. Pflichtenheft 12/3, 1965). Für Messungen an Magnettonanlagen stehen DIN-Bezugsbänder nach DIN 45 513 zur Verfügung, weiterhin spezielle Geräte zur Messung des Bandzugs (Bandzugwaagen, Präzisionskraftmesser, Federwaagen, Tentelometer), des Schlupfs, der Tonhöhenschwankungen und der Hochlaufzeit.
10.8.1
Einstellungen und Prüfungen
10.8.1.1
Mechanische Einstellungen
Bandzug: Da bei Aufnahme und Wiedergabe einerseits durch ausreichenden Bandzug ein guter Kontakt zwischen Band und Kopf erzielt, andererseits ein übermäßiger Verschleiß der Köpfe vermieden werden soll, muss der Bandzug innerhalb bestimmter Toleranzen bleiben. Sie hängen vom Laufwerk und von dem verwendeten Bandtyp ab und werden vom Hersteller angegeben. Bei Studiolaufwerken beträgt der Bandzug etwa 1 N, beim Anfahren, Bremsen und Rangieren treten höhere Bandzüge auf. Der Maximalwert soll bei Studiolaufwerken 5 N, bei Reportagelaufwerken und Langspielband 4 N, bei 1'- und 2'-Anlagen 8 N nicht überschreiten. Die Messung des Bandzugs erfolgt mit handelsüblichen Bandzugwaagen. Bandgeschwindigkeit: Die Bandgeschwindigkeit muss bei Aufnahme und Wiedergabe in engen Grenzen eingehalten werden, um Tonhöhenverschiebungen und Änderungen der Bandlaufzeiten zu vermeiden. Für die Messung gibt es verschiedene Verfahren: Eine schnelle Kontrolle ermöglicht die Frequenzzählung des 1 kHz-Tons des Bezugsbands; hierbei können aber nur größere Abweichungen ermittelt werden, da die Genauigkeit der Frequenz des Pegeltonteils mit 0,3 % für exakte Messungen nicht ausreichend ist. Genauere Ergebnisse werden erzielt, indem man die Zeit ermittelt, die eine abgemessene Bandlänge zum Durchlauf erfordert. Messanweisungen enthält auch DIN 45 524. Die von einer Studioanlage zu erwartenden Abweichungen liegen bei 0,1 %, bei einer Bandspieldauer von 40 Minuten entspricht 584
Messungen an Magnettonanlagen das einer Änderung der Laufzeit von bis zu ± 2,4 s. Tonhöhenschwankungen werden bei diesen Messungen nicht erfasst. Schlupf: Zur Messung des Schlupfs wird auf den Anfang eines vollen Wickels ein Messton aufgezeichnet. Der dabei entstehende kleine Wickel wird dann auf den abwickelnden, der größere auf den aufwickelnden Teller gelegt. Bei der Wiedergabe unter diesen Bedingungen ergibt sich beim Auftreten von Schlupf ein von der aufgezeichneten Frequenz abweichender Wert. Der mit dem Tonhöhenschwankungsmesser ermittelte relative Frequenzunterschied wird mit Schlupf bezeichnet. Die zu erwartenden Werte liegen bei Studio- und Reportageräten bei 0,1 %. Tonhöhenschwankungen: Die Messung erfolgt mit speziellen Messgeräten nach DIN 45 507 mit Frequenzbewertung gemessen. Bei Studiogeräten sollten die Tonhöhenschwankungen, die bei der Wiedergabe einer Eigenaufnahme gemessen werden, bei 0,05 % liegen, bei Reportagegeräten bei 0,1 %. Hochlaufzeit: Als Hochlaufzeit wird die Zeit vom Einschalten des normalen Vorlaufs bis zum Erreichen der nach DIN 45 507 zulässigen Tonhöhenschwankungen von 0,1 % bei 38 cm/s und 0,15 % bei 19 cm/s bezeichnet. Bei Studiogeräten sind etwa 0,5 s, bei Reportagegeräten 1,5 s zu erwarten. 10.8.1.2
Elektrische Messungen am Wiedergabekanal
Über die im Folgenden genannten Messungen geben die genannten Richtlinien Auskunft u. a. zur Prüfung der Polung, Spurzuordnung, Kopfhöhe, Symmetrie und Scheinwiderstände. Sie enthalten auch Angaben zur Messung von Rauschunterdrückungssystemen, bei Taktspurbetrieb und zu Messungen im Synchronkanal (Pilot- und Timecode-Betrieb). Bezugspegel: Der Pegelton des Bezugsbandes wird abgespielt, hierbei werden die Wiedergabeverstärker auf Ausgangspegel von + 6 dBu eingestellt bei einem Abschlusswiderstand $ 2 kS. Weicht der erforderliche Bandfluss von dem des verwendeten Bezugsbandes ab, so ist entsprechend zu korrigieren. Spaltlage (Azimut) und Phase: Die Spalteinstellung wird mit dem 10 kHz-Ton des Spalteinstellungsteils des Bezugsbandes kontrolliert. Bei Monoanlagen wird der Wiedergabekopf auf maximalen Ausgangspegel eingetaumelt. Bei Stereo-, Zwei- und Mehrspuranlagen sind verschiedene Verfahren möglich: Darstellung mit einem Oszilloskop oder Stereosichtgerät, Minimumeinstellung an zwei invers reihengeschalteten Ausgängen, Messung mit einem Phasen- oder Korrelationsgradmesser oder gleichzeitige Zeitdarstellung zweier Kanäle auf einem Oszilloskop (siehe auch 10.4). Bei Stereoanlagen darf der Phasenversatz bei 10 kHz maximal 30/ betragen. Frequenzgang: Der Frequenzgangteil des jeweiligen Bezugsbands wird abgespielt. Abweichungen vom linearen Verlauf werden durch Einstellen für die hohen und gegebenenfalls für die tiefen Frequenzen korrigiert. Die zulässigen Abweichungen sind in Abb. 10/15 dargestellt. Übersprechen: Bei Magnetbandanlagen tritt ein Übersprechen auf, das durch induktive und kapazitive Kopplung im Kopf verursacht wird. Bei größeren Wellenlängen macht sich verstärkt ein magnetischer Streueffekt auf dem Band störend bemerkbar. Bei Stereoanlagen sind 585
Analoge Tonmesstechnik mindestens die folgenden Werte zu erwarten: 35 dB bei 63 Hz, 50 dB bei 1 kHz und 40 dB bei 10 kHz.
Abb. 10/15. Wiedergabe-Frequenzgang (- - - Eigenaufnahme „über alles”).
Störpegelabstand: Die Messung des bewerteten und umbewerteten Störpegels erfolgt in Quasispitzenbewertung mit einem Gerät nach DIN 45 405. Der Störpegelabstand ist die rechnerische Differenz des gemessenen Störpegels zum Ausgangspegel bei Normbandfluss. Der bewertete Störpegel wird über ein Bewertungsfilter nach DIN 45 405 (1983) gemessen. Die Messung des unbewerteten Störpegels erfolgt mit frequenzunabhängigem Übertragungsmaß zwischen 31,5 Hz und 20 kHz. Die Anlage muss für Wiedergabe eingemessen sein; es ist darauf zu achten, dass die Köpfe und Bandführungsteile entmagnetisiert sind. Das Gerät ist ohne Band in den betriebsmäßigen Wiedergabezustand zu versetzen. Bei Studioanlagen ist ein Störpegelabstand bewertet in der Größenordnung von 68 dB, unbewertet von 65 dB zu erwarten, die genauen Werte hängen vom Bandtyp ab. Klirrdämpfung: Die Klirrdämpfung ist die Differenz zwischen dem Ausgangspegel der Grundschwingung bei Normbandfluss und dem Pegel der jeweils betrachteten Verzerrungskomponente. Bei der Messung werden die Klirrdämpfungsmaße mit NF-Messgeräten selektiv ermittelt. In den Wiedergabekopf der eingemessenen Maschine wird mittels einer Luftspule der Messton der Grundschwingung eingespeist, so dass am Ausgang des Wiedergabeverstärkers 586
Messungen an Magnettonanlagen der Bezugspegel ansteht. Studiogeräte erreichen bei 1 kHz eine Klirrdämpfung von 60 dB bei der 2. und 57 dB bei der 3. Harmonischen. 10.8.1.3
Elektrische Messungen am Aufnahmekanal
Arbeitspunkt: Das elektroakustische Verhalten eines Magnetbandes ist abhängig vom eingestellten Vormagnetisierungsstrom, d. h. seinem Arbeitspunkt. Ein günstiger Kompromiss für alle elektroakustischen Parameter von Studiobändern ergibt sich für einen Vormagnetisierungsstrom, bei dem der Referenzband-Leerteil die höchste Klirrdämpfung ak aufweist. Da das Auffinden dieser Einstellung mit Hilfe der Klirrdämpfungsmessung wegen des nachzustellenden Aufsprechpegels aufwändig ist, wird diese nicht für die betriebsmäßige Einstellung angewendet. Der bestehende Zusammenhang zwischen dem Verlauf der Empfindlichkeit bei 10 kHz und der Klirrdämpfung in Abhängigkeit von der Vormagnetisierung gestattet es, den Empfindlichkeitsabfall für den Abgleich anzuwenden. Der richtige Arbeitspunkt für Studiobänder wird daher nach folgendem Verfahren mit dem Referenzband-Leerteil eingestellt: Es werden 10 kHz etwa 20 dB unter Bezugspegel aufgezeichnet und der Vormagnetisierungsstrom auf maximalen Wiedergabepegel eingestellt. Sodann wird der Vormagnetisierungsstrom soweit erhöht, dass ein entsprechender Empfindlichkeitsabfall auftritt. Bei einer Bandgeschwindigkeit von 38,1 cm/s werden folgende Einstellungen gewählt: bei einer Spaltbreite des Sprechkopfes um 18 :m 2 dB und bei einer Spaltbreite von etwa 7 bis 10 :m 4 dB. Bei der betrieblichen Einmessung ist es auch üblich, für den jeweils verwendeten Bandtyp bzw. die Bandcharge einen empirisch ermittelten Empfindlichkeitsabfall einzustellen. Spaltlage (Azimut) und Phase: Die Einstellung erfolgt mit einem 10 kHz-Signal 10 dB unter Bezugspegel. Die Prüfverfahren sind dieselben wie bei der Einstellung des Wiedergabekopfs (siehe oben). Bei Studioanlagen liegen die zu erwartenden Phasendifferenzen zwischen den beiden Stereokanälen bei der Wiedergabe einer Eigenaufnahme für 10 kHz bei maximal 10/. Bezugspegel: Es wird ein 1 kHz-Signal mit 6 dBu aufgenommen. Die Aufsprechverstärker sind so einzustellen, dass am Ausgang der Wiedergabeverstärker ebenfalls + 6 dBu anliegen. Frequenzgang: Mit einem um 20 dB reduzierten Bezugspegel werden auf das Magnetband Frequenzen aus dem Übertragungsbereich aufgezeichnet. Abweichungen von der Linearität werden durch Einstellen der Aufsprechentzerrer korrigiert, zulässige Toleranzen zeigt Abb. 10/15. Bei der Abtastung von Vollspurbändern mit Stereo-, Zwei- und Mehrspurköpfen tritt bei großen Wellenlängen der Randeffekt auf, d. h. ein Teil des Flusses der Trennspuren durchsetzt den Hörkopf und ergibt eine Überhöhung der Ausgangsspannung. Aus diesem Grunde wird die Tiefenentzerrung der Wiedergabeverstärker bei der Aufnahme nachgestellt. Übersprechen: Die Messung erfolgt, indem alle Kanäle in „Aufnahme” betrieben werden. Ein Kanal erhält die Messfrequenz 10 dB unter Bezugspegel, die übrigen Kanäle werden eingangsseitig kurzgeschlossen. Am Ausgang der Wiedergabeverstärker wird die Übersprechdämpfung selektiv für 3 Frequenzen im Nachbarkanal ermittelt. Die Werte sind dieselben wie beim Wiedergabekanal. Störpegelabstand: Die Anlage muss für Wiedergabe und Aufnahme eingemessen sein. Die Messung erfolgt wie oben für den Wiedergabekanal beschrieben, jedoch mit dem Referenzband-Leerteil in Stellung „Aufnahme” mit eingangsseitig kurzgeschlossenem 587
Analoge Tonmesstechnik Aufsprechverstärker. Für Studiogeräte ist ein Störpegelabstand unbewertet von 56 dB, bewertet von 60 dB zu erwarten. Klirrdämpfung: Die Klirrdämpfung wird wie für den Wiedergabekanal beschrieben ermittelt; die Messung erfolgt in Stellung „Wiedergabe”. Bei der Messung müssen die Köpfe und Bandführungsteile entmagnetisiert und gegebenenfalls der Vormagnetisierungsstrom symmetrisiert sein, da andernfalls auch das Band quadratische Verzerrungsprodukte liefert. Bei einwandfreien Anlagen ist die Klirrdämpfung praktisch nur durch das Band bedingt. Bei Studioanlagen sind Dämpfungen von 60 dB für die 2. Harmonische bzw. 40 dB für die 3. Harmonische zu erwarten. Die Differenztondämpfung erfasst Verzerrungen im oberen Übertragungsbereich; sie kann z. B. nach DIN 45 403 gemessen werden. Löschdämpfung: Die Löschdämpfung wird selektiv mit einem 1 kHz-Signal mit Normbandfluss ermittelt. Die Löschung erfolgt nach einer Lagerung von 24 Stunden bei Raumtemperatur in Stellung „Aufnahme” und bei kurzgeschlossenem Eingang. Die Löschdämpfung soll mindestens 78 dB erreichen.
10.9
Messungen an Plattenspielern
Zu den Messungen an Plattenspielern wurden DIN 45 538, DIN 45 539, DIN 45 546, DIN 45 547 bzw. DINIEC 98 herausgegeben; siehe auch Kap. 7.2, dort auch Literaturangaben. Umdrehungsgeschwindigkeit: Zur Einstellung der Sollgeschwindigkeit bedient man sich entweder des Stroboskoprands des Plattentellers oder einer Stroboskopscheibe, die auf den Plattenteller gelegt wird. Das Stroboskop wird mit einem 50 Hz-Wechsellicht, besser noch mit einer Glimmlampe beleuchtet. Ein Vorlaufen der Stroboskopteilung in Richtung des drehenden Plattentellers zeigt eine zu schnelle Umdrehungsgeschwindigkeit, ein Nachlaufen eine zu langsame. Bei Sollgeschwindigkeit wandert die Teilung nicht. Abweichungen von der Sollgeschwindigkeit lassen sich meistens leicht nachstellen. Die Einstellung wird bei aufliegendem Abtastsystem durchgeführt. Gleichlauf: Mit der Messschallplatte nach DIN 45 545, die eine Aufzeichnung von 3,15 kHz in Seitenschrift trägt, lassen sich Tonhöhenschwankungen des Plattenlaufwerkes ermitteln. Zur Messung wird ein Tonhöhenschwankungsmesser nach DIN 45 507 verwendet, der eine Bewertung der Schwankungsfrequenz vornimmt. Der zu erwartende Wert für Gleichlaufschwankungen liegt unter ± 0,075 %. Rumpel-Störspannung: Rumpelstörungen werden in erster Linie durch Vibrationen oder Unwucht am Antriebsmechanismus verursacht, die eine Relativbewegung zwischen Tonabnehmer und Platte verursachen. Aber auch magnetische Einstreuungen und Störungen bei der Schallplattenaufzeichnung können ein Rumpeln bewirken. Rumpelgeräusche treten bevorzugt im unteren Frequenzbereich auf. Gemessen wird der unbewertete und bewertete Störabstand bzw. der Rumpel-Fremd- und Rumpel-Geräuschspannungsabstand bezogen auf den Nutzpegel. Zur Messung benötigt man eine Rumpel-Messschallplatte nach DIN 45 544 und ein Rumpel-Störspannungsmessgerät. In diesem Messgerät sind alle notwendigen Bewertungsfilter nach DIN 45 539 bzw. DIN IEC 98 eingebaut. Bei der Rumpel-Fremdspannung ist der Frequenzgang von 15 bis 315 Hz linear, darunter fällt die Bewertung mit 6 dB/Oktave. 588
Pegel und Pegelmaße Um Plattenknistern nicht in die Messung eingehen zu lassen, setzt über 315 Hz eine Dämpfung von 12 dB/Oktave ein. Bei der Rumpel-Geräuschspannung werden die tieffrequenten Anteile des Rumpelns annähernd gehörrichtig bewertet: Da das Ohr für tiefe Frequenzen relativ unempfindlich ist, lässt man den Frequenzgang unter 315 Hz mit 12 dB/Oktave abfallen. Der zu erwartende Wert des Rumpel-Geräuschspannungsabstandes liegt etwa bei 70 dB. Auflagekraft: Tonabnehmer und Tonarm bestimmen die Auflagekraft, die benötigt wird, um Schallplatten einwandfrei abtasten zu können. Die erforderliche Auflagekraft wird einmal durch die Nadelnachgiebigkeit des Tonabnehmersystems, zum anderen durch die Lagerreibung des Tonarms bestimmt. Die Messschallplatte nach DIN 45 549 ermöglicht ein Verfahren, um die erforderliche Kraft des Tonabnehmers einzustellen. Moderne Tonarme sind in allen Richtungen statisch und dynamisch ausbalanciert; das macht die Auflagekraft nahezu unabhängig von der Einbaulage des Plattenspielers. Die Auflagekraft wird nur durch eine Feder erzeugt, deren Kraft an einer Skala eingestellt werden kann. Im Studiobereich werden höhere Kräfte als im HiFi-Bereich verwendet, nämlich 20 bis 30 mN, entsprechend 2 bis 3 p. Dies ermöglicht eine saubere Abtastung auch von Schallplatten, die durch ungenaue Mittellochzentrierung eine Exzentrizität aufweisen. Bei älteren Schallplatten mit Monoaufzeichnung empfiehlt sich eine noch größere Auflagekraft von 50 bis 90 mN. Studioabtastsysteme sind für diese höheren Kräfte optimiert. Frequenzgang: Der Frequenzgang des Abtastsystems einschließlich des Entzerrer-Verstärkers wird für 33 a U/min mit der Messschallplatte nach DIN 45 543 bestimmt. Sie trägt StereoFrequenzaufzeichnungen in Flankenschrift, getrennt für den linken und rechten Kanal, beginnend mit der Bezugsfrequenz 1 kHz. Darauf folgt ein Teil mit Festfrequenzen zwischen 20 Hz und 20 kHz mit abgesenktem Pegel. Der Frequenzgang entspricht der Entzerrung nach DIN 45 546 und 45 547 bzw. DIN IEC 98. Am Ausgang des Schneidkurvenentzerrers soll sich ein ebener Frequenzgang ergeben. Bei Abweichungen ist die Ursache meist beim Tonabnehmer zu finden. Übersprechdämpfung und Verzerrungen: Die Übersprechdämpfung wird ebenfalls mit der Messschallplatte nach DIN 45 543 gemessen. Schlechte Übersprechwerte haben ihre Ursache meist in fehlerhaften Tonabnehmern oder deren Justierung. Ist die wechselseitige Kanaltrennung verschieden, so stehen die beiden Abnehmersysteme nicht senkrecht aufeinander. Mit der Verzerrungs-Messschallplatte nach DIN 45 542 werden die Verzerrungen gemessen, die auf Grund des vertikalen Spurfehlerwinkels und der Frequenz-Intermodulation entstehen.
10.10 Pegel und Pegelmaße 10.10.1 Pegel Der Amplitudenwert von elektrischen und akustischen Signalen, aber auch das Verhältnis zweier Amplitudenwerte zueinander, wird in der Tonstudiotechnik meist als Pegel in verschiedenen Pegelmaßen angegeben. Ein Pegel gibt zunächst das Verhältnis zweier Größen zueinander an als ein Vielfaches ihres 20-fachen Logarithmus’, er ist damit dimensionslos, 589
Analoge Tonmesstechnik eine reine Zahl. Diese erhält den Zusatz dB, die Abkürzung von Dezibel (von „deci Bel” = 1/10 Bel, nach Alexander G. Bel benannt), um sie als Pegelangabe bzw. als Verhältnis zweier Werte kenntlich zu machen (DIN 5493). Das dB ist eine Pseudoeinheit wie z. B. %, U/min oder ppm. Wenn man aber einer dieser Größen des Zahlenverhältnisses einen Bezugswert zuordnet, z. B. die Spannung 0,775 V oder den Schalldruck 20 :Pa, kann man mit einer Pegelangabe auch den Wert einer Amplitude eines einzelnen Signals angeben, z. B. die Spannung oder den Schalldruck, immer bezogen auf den Bezugswert. Welcher Bezugswert jeweils gemeint ist, wird an einem Zusatz zu dB sichtbar, z. B. wird der Pegel mit dem Bezugswert für die Spannung 0,775 V mit dBu gekennzeichnet; u steht hier als Symbol für Spannung. Dezibel mit einem Zusatz kennzeichnen physikalische Größen und sind damit Einheiten gleichgestellt. Die Einführung des Pegels hat drei gewichtige Vorteile: - Zunächst ist ein einfacherer rechnerischer Umgang mit Werten möglich. Während z. B. die Verstärkung einer Signalamplitude eine Multiplikation mit dem Verstärkungsfaktor erfordert und schnell zu großen Zahlen führt, wird bei einem Pegel aus der Multiplikation eine Addition, aus einer Division eine Subtraktion. - Während Spannungen oder Schalldrücke schnell sehr große oder sehr kleine Werte annehmen, bleiben sie als Pegel ausgedrückt überschaubar und abschätzbar; so entspricht z. B. einer tausendfachen Verstärkung einer Amplitude – also einer Multiplikation mit 1000 beim Pegel eine Addition von 60 dB, eine Dämpfung auf ein tausendstel entspricht einer Subtraktion von 60 dB vom Pegelwert. Gerade in Diagrammen zeigen sich die Vorteile des Pegelmaßes, sie bleiben überschaubar. Die Überwachung des Tonsignals durch den Aussteuerungsmesser schließlich ist nur als Pegel vernünftig realisierbar. - Ein weiterer, ebenso wichtiger Grund ist die Tatsache, dass das Lautstärkeempfinden des Gehörs sich ähnlich wie der Pegel verhält; so empfinden wir eine Verdopplung der Signalamplitude keineswegs als doppelt so laut. Eine Verdopplung der Lautstärke entspricht einer Pegelzunahme um etwa 10 dB, eine Vervierfachung um 20 dB usw. Es gibt eine Reihe unterschiedlicher Definitionen und Anwendungsbereiche, von denen für die Tonstudiotechnik die Spannungspegel, zu denen auch der Funkhausnormpegel gehört, und der Lautstärkepegel (siehe Kap. 3.3) wichtig sind.
Abb. 10/l6. Eingangs- und Ausgangsleistung an einem elektrischen Übertragungsglied.
590
Pegel und Pegelmaße Ausgangspunkt für die Pegeldefinitionen in der Tonstudiotechnik ist historisch betrachtet der relative Leistungspegel. Eine wichtige Eigenschaft eines Übertragungsglieds in der Tonstudiotechnik ist die Verstärkung oder Dämpfung der Eingangsleistung (Abb. 10/16). Der Leistungsverstärkungsfaktor ist das Verhältnis von Ausgangsleistung P2 zu Eingangsleistung P1, er wird in der Tonstudiotechnik allerdings nicht verwendet. Der relative Leistungspegel pP in dB ist definiert als der 10-fache Zehnerlogarithmus des Verhältnisses von Ausgangsleistung P2 zu Eingangsleistung P1. pP = 10Alg
P2 P1
pP = relativer Leistungspegel [dB] P1, P2 = Eingangs- bzw. Ausgangsleistung [W]
10.10.2 Relativer und absoluter Spannungspegel Da die Leistung P = U2/R ist, kann man in der obigen Formel die Leistungen Pt und P2 durch U12/R1 bzw. U22/R2 ersetzen; der Pegel pP lässt sich nun aus den Ein- und Ausgangsspannungen berechnen. Sind die Widerstände R1 und R2 gleich groß, so wird die Formel für den relativen Spannungspegel: p = 20Alg
U2 U1
p = relativer Spannungspegel [dB, dBr] U1, U2 = Ein- und Ausgangsspannung [V] R1, R2 = Ein- und Ausgangswiderstand [S]
In der Tonstudiotechnik wird der relative Spannungspegel auch dann nach dieser Formel errechnet, wenn R1 und R2 unterschiedliche Werte haben. Da es die unterschiedlichsten Pegeldefinitionen gibt, verwendet man zur Kennzeichnung dieses relativen Pegels vielfach den Zusatz „r”, dBr neben dem einfachen dB. Die Spannungen U1 und U2 können entweder in Effektiv- oder in Spitzenwerten gemessen und in obige Formel mit gleicher Einheit eingesetzt werden. Tab. 10/4 gibt einige für die Praxis wichtige Pegelwerte und die dazugehörigen Verstärkungen und Dämpfungen an, Tab. 10/5 die Spannungsverhältnisse. Tab. 10/4. Pegelwerte für Verstärkung und Dämpfung, gerundete Angaben. Die Pegelerhöhung (Verstärkung) bzw. Pegelabsenkung (Dämpfung) um … dB dB 0 3 6 10 12 15 20 26 32 34 40 entspricht einer Verstärkung um den Faktor… mal 1 1,4 2 3,2 4 5,8 10 20 40 50 100 entspricht einer Dämpfung um den Faktor… mal 1 0,7 0,5 0,3 0,25 0,17 0,1 0,05 0,025 0,02 0,01
60 1000 0,001
591
Analoge Tonmesstechnik Tab. 10/5. Zuordnung von Pegelwerten zu Spannungsverhältnissen. dB
0
,2
,4
,6
,8
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1,000 1,122 1,259 1,413 1,585 1,778 1,995 2,239 2,512 2,818 3,162 3,548 3,981 4,467 5,012 5,623 6,310 7,079 7,943 8,913 10,0
1,023 1,148 1,288 1,445 1,622 1,820 2,042 2,281 2,570 2,884 3,236 3,631 4,074 4,571 5,129 5,754 6,457 7,244 8,128 9,120
1,047 1,175 1,318 1,479 1,660 1,862 2,089 2,344 2,630 2,951 3,311 3,715 4,169 4,677 5,248 5,888 6,607 7,413 8,318 9,333
1,072 1,202 1,349 1,514 1,698 1,905 2,138 2,399 2,692 3,020 3,388 3,802 4,266 4,786 5,370 6,026 6,761 7,586 8,511 9,550
1,096 1,230 1,380 1,549 1,738 1,950 2,188 2,455 2,754 3,090 3,457 3,890 4,865 4,898 5,495 6,166 6,918 7,762 8,710 9,772
Legt man eine der beiden Spannungen, z. B. U1 als konstanten Bezugswert U0 mit definierter Größe fest, erhält man einen absoluten Spannungspegel. Man kann nun eine darauf bezogene andere Spannung statt in Volt in Dezibel angeben. Die Umrechnung richtet sich nach der Größe der Bezugsspannung. Aus praktischen und historischen Gründen hat man in der Nachrichtentechnik eine Bezugsspannung von U0 = 0,775 V, genau = 0,7746 V, gewählt. Dieser Wert ergibt sich als Spannung an einem Widerstand von 600 S, an dem eine Leistung von 1 mW umgesetzt wird. In Erinnerung an diesen Zusammenhang wird der absolute Spannungspegel mit dem Bezugswert 0,775 V mit dBu benannt. 0 dBu sind also 0,775 V. Der Zusatz „u" weist auf den Bezug auf eine Spannung hin. Gelegentlich findet man auch dafür dB (mW) und dB (re 1 mW). Die Pegelangaben für analoge Signale im Funkhaus können einerseits in dBu gemacht werden; der vereinbarte Pegel für Vollaussteuerung beträgt dabei +6 dBu entsprechend 1,55 V. Vollaussteuerung ist der maximal zugelassene Programmpegel (Permittet Maximum Level). Da sich praktisch alle Pegelverhältnisse der Übertragungskette im Funkhaus auf den Wert bei Vollaussteuerung beziehen, liegt es nahe, diesen Wert als Bezugswert mit 0 dB oder 0 dBr = + 6 dBu 592
Pegel und Pegelmaße festzusetzen, alle Pegelangaben wären dann relative Pegel bezogen auf 0 dB, i. Allg. haben sie Werte nicht über Vollaussteuerung (100 %), also Werte mit negativem Vorzeichen. Da diesen 0 dB über die Angabe + 6 dBu ein fester Bezugswert zugeordnet ist, kann man den Funkhausnormpegel durchaus auch als absoluten Pegel eben mit dem Bezugswert 1,55 V betrachten. Die Aussteuerung wird gemessen mit dem in DIN 45 406 bzw. IEC 268-10 genormten Spitzenspannungsmesser (siehe Kap. 18). p = 20Alog
U 1, 55
= pu – 6 dB
p = Funkhausnormpegel [dB] U = Spannung effektiv [V] pu = absoluter Spannungspegel [dB]
Man kann eine solche Pegelangabe als „abgeleiteten” absoluten Pegel bezeichnen, so wie auch der Studiopegel mit 0 dB = + 4 dBu in USA, Canada, UK u. a. oder der Pegel im Bereich Homerecording mit 0 dB = !10 dBV von vereinbarten Bezugspegeln abgeleitet sind (Tab. 10/6). Die bisherigen Erläuterungen zum Funkhausnormpegel beziehen sich zunächst auf analoge Signale. Mit Einführung der Digitaltechnik im Rundfunk, zunächst in der Produktion, inzwischen normalerweise auf dem gesamten Übertragungsweg bis hin zum Sender, mussten die zu verwendenden Pegel neu überdacht werden; Grundsatz hierbei war, sich den gegebenen Pegelführungen möglichst anzupassen. Im deutschsprachigen, aber auch europäischen Rundfunk wurde für digitale Signale das Pegelmaß dBFS (Full Scale) eingeführt, um einen problemlosen Programmaustausch zwischen den Rundfunkanstalten zu gewährleisten. 0 dBFS ist der Pegel, der keinesfalls überschritten werden darf und auch nicht überschritten werden kann. Angaben zu digitalen Pegeln, Aussteuerung und Dynamik finden sich in Kap. 18. Tab. 10/6. Abgeleitete Pegelangaben. Kurzbezeichnung dB
dBFS
dB dB
Bezeichnung
analoger Funkhausnormpegel, ARD-Bezugspegel ARD-Normpegel digitaler Funkhauspegel
internationaler Studiopegel Homerecordingpegel
bevorzugte Anwendungsbereiche, Anmerkungen
Bezug zu genormten Pegelmaßen
Pegel bei Vollaussteuerung (100 %), deutschsprachiger Rundfunk
0 dB = + 6 dBu
Bezugswert 1,55 V
deutschsprachiger Rundfunk, 0 dBFS = 15 dBu 8,72 V drei Bezugspegel: Calibration Level: = !18 dBFS Program Level: = !9 dBFS Maximum Level: = 0 dBFS USA 0 dB = +4 dBu 1,23 V Homerecording, Consumergeräte
0 dB = !10 dBV = !7,8 dBu
0,32 V
593
Analoge Tonmesstechnik
10.10.3 Andere Pegelangaben Die Anwendungsfreundlichkeit des dB-Maßes hat zu einer Reihe weiterer Pegeldefinitionen geführt (DIN 5493), wobei teils gleiche Bezeichnungen für verschiedene Definitionen stehen. Einige dieser Definitionen nennt Tab. 10/7. Tab. 10/7. Weitere Definitionen von Pegeln. Kurzbezeichnung dB
Bezeichnung
dBe, dB(:V/m)
relativer Leistungsoder Spannungspegel absoluter Schalldruckpegel unbewertet absoluter Schalldruckpegel, bewertet mit den Filterkurven A, B und C absoluter Feldstärkepegel
dBm dBmV
absoluter Leistungspegel absoluter Spannungspegel
dBp dBqps
absoluter Schallleistungspegel bewerteter Störpegel (q = Quasispitzenspannung, p = pondéré, bewertet, s = son, NF-Bereich) unbewerteter Störpegel absoluter Pegel mit Angabe des Bezugswerts absoluter Schalldruckpegel (Sound Pressure Level) absoluter Spannungspegel absoluter Spannungspegel
dB dB(A), dBA dB(B), dBB dB(C), dBC
dBqs dB re … dB (re …) dBSPL dBu dBv, dBV, dB(V)
besondere Bezugswert Anwendungsbereiche Tonstudiotechnik u. a. Akustik 20 :Pa = 2A10 - 5 Pa Akustik
20 :Pa = 2A10 - 5 Pa
Empfangsund Sendertechnik Nachrichtentechnik USA
1 :V/m 1 mW 1 mV
Akustik Tonstudiotechnik
1 pW 0,775 V
Tonstudiotechnik
Akustik
0,775 V … (nach Angabe) 20 :Pa = 2A10 - 5 Pa
Tonstudiotechnik USA
0,775 V 1V
10.10.4 Rechnen mit Pegeln 10.10.4.1 Verstärkung und Dämpfung im Pegelmaß Die Ausgangsspannung U2 eines Verstärkers ergibt sich aus der Multiplikation der Eingangsspannung U1 mit dem Verstärkungsfaktor A, also U2 = AAU1, die Dämpfung wird errechnet durch eine Division durch den Dämpfungsfaktor, also U2 = 1/DAU1. Mit den Faktoren rechnet man aber i. Allg. nicht, weil die Pegelmaße alles sehr vereinfachen. Das Verstärkungsmaß ist a = 20Alg U2/U1, also muss man nur das Verstärkungsmaß a oder wie man meist abgekürzt sagt, die Verstärkung zum Eingangspegel p1 hinzu addieren bzw. das Dämpfungsmaß d davon subtrahieren: p2 = p1 + a bzw. p2 = p1 – d. 594
Pegel und Pegelmaße Diese Rechnungen können im Kopf gemacht werden und immer ist der Bezug zum Funkhauspegel z. B. oder allgemein zu einem Bezugspegel präsent. Tab. 10/4 nennt die wichtigsten Pegelmaße bezogen auf die entsprechenden Verstärkungs- und Dämpfungsfaktoren. Hat z. B. ein Verstärker eine Verstärkung von 30 dB und ist der Eingangspegel -30 dB, so wird der Ausgangspegel 0 dB. 10.10.4.2 Überlagerung von Spannungen Besondere Probleme in der Anwendung der Pegelrechnung – dies gilt allerdings auch für Spannungswerte - ergeben sich bei der Überlagerung von Spannungen, also bei der Mischung von zwei oder mehr Signalen im tonstudiotechnischen Sinne. Wie groß wird die Spannung oder der Pegel, wenn zwei Signale gemischt werden? Erst bei der Zusammenführung der Signale entscheidet sich, ob in einem bestimmten Augenblick die Signale sich addieren, gegenseitig auslöschen oder sich irgendein Wert dazwischen ergibt. Genaue Aussagen über den Gesamtpegel nach einer Überlagerung von Signalen sind also nicht möglich, außer man kennt in jedem Augenblick die Werte beider Signale. Eine einfache Addition der Spannungen ist also falsch, ebenso eine Addition der Pegel. Zunächst ein einfaches Beispiel dazu: Für zwei Sinussignale mit gleichen Pegeln, aber unterschiedlichen Phasenlagen gibt Tab. 10/8 die Gesamtpegel an; sie hängen von der Phasendifferenz der Spannungen ab. Tab. 10/8 Gesamtpegel bei Überlagerung zweier gleichgroßer Sinussignale für unterschiedliche Phasenlagen. Signal Sinussignale mit gleicher Frequenz und gleichem Pegel
Phasendifferenz 0° 90° 120° 180°
Gesamtpegel +6 dB +3 dB 0 dB Auslöschung
In der Praxis werden allerdings nicht Sinustöne gleicher Frequenz, sondern unterschiedliche Signale mit unterschiedlichen Pegeln und ständig wechselnden Phasendifferenzen überlagert. Möglich sind also nur statistische Aussagen, einfache Berechnungen in Spannungen oder Pegeln sind nicht möglich. Der aus zwei Pegeln nach der Überlagerung resultierende Gesamtpegel ist im Durchschnitt um soviel höher, wie Abb. 10/17 angibt. Diese Aussage muss aber relativiert werden. In einzelnen Augenblicken kann es durchaus zu Spitzenwerten kommen, die bei Pegelgleichheit einen Gesamtpegel von + 6 dB an Stelle von + 3 dB ergeben. Misst man nämlich den Spitzenwert - wie es der Aussteuerungsmesser tut -, muss sich ein von Abb. 10/17 abweichender Wert ergeben, abhängig von der Art der Signale. Da der Aussteuerungsmesser ein Quasispitzenspannungsmesser mit trägen Rücklaufeigenschaften ist, hängt die Pegelanzeige davon ab, wie oft pro Sekunde sich Pegelspitzen zweier Signale exakt gleichzeitig überlagern. Bei zwei Sinussignalen mit z. B. 500 Hz und 1000 Hz geschieht dies bei einer Phasendifferenz von 0° zum Zeitpunkt 0 pro Sekunde 500 mal, die gemessene Pegelerhöhung beträgt 6 dB wie bei gleichen Frequenzen und Phasendifferenz 0°. 595
Analoge Tonmesstechnik Bei weißem Rauschen gelten die Werte aus Abb. 10/17, da hier Pegelspitzen nur statistisch zufällig, aber eher selten aufeinander treffen. Wie man sieht, ist eine exakte Vorhersage des Gesamtpegels bei Betriebssignalen nicht möglich. Abb. 10/17 zeigt auch, dass eine gerade noch hörbare Pegelzunahme von etwa 1 dB erst dann erreicht wird, wenn die Pegeldifferenz 6 dB beträgt.
Abb. 10/17. Statistischer Gesamtpegel bei Überlagerung zweier unterschiedlicher Signale.
10.10.4.3 Pegeldiagramme Zur Darstellung der Pegelverhältnisse innerhalb einer Tonregieanlage verwendet man das Pegeldiagramm. Beginnend an der Einspeisestelle (Mikrofonanschluss, Leitungsanschluss) wird das Verstärkungsmaß der pro Kanal beteiligten Übertragungsglieder in ein Diagramm eingezeichnet. Verstärkungen zeigen aufsteigende, Dämpfungen abfallende Linien. So wird der an jeder Stelle der Übertragungskette vorliegende Pegel für Vollaussteuerung bei Nennbetriebsstellung der Steller, seine Stellbereiche und gegebenenfalls auch gleichzeitig der mitgeführte Störpegel und die Übersteuerungsreserve ablesbar. Während das Pegeldiagramm für ältere, aus Einzelgeräten aufgebaute Regieanlagen für den Anwender informativ ist, verliert es bei Verwendung ausschließlich aktiver Einheiten und bei integrierten Anlagen seine Bedeutung für den Anwender, da die Übergabepunkte zwischen den einzelnen Modulen Normpegel führen.
596
Pegel und Pegelmaße
Standards [DIN 1318]
Lautstärkepegel; Begriffe, Meßverfahren
[DIN 1319]
Tl. 1-; Grundbegriffe der Meßtechnik; allgemeine Grundbegriffe Tl. 2-; Begriffe für die Anwendung von Messgeräten Tl 3-; Begriffe für die Meßunsicherheit und für die Beurteilung von Meßgeräten und Meßeinrichtungen
[DIN 40 148] Tl. 1 Übertragungssysteme und Zweitore; Begriffe und Größen Tl. 2 Übertragungssysteme und Zweitore; Symmetrieeigenschaften von linearen Zweitoren Tl. 3 Übertragungssysteme und Vierpole; spezielle Dämpfungsmaße [DIN 45 401] Akustik, Elektroakustik, Normfrequenzen für akustische Messungen [DIN 45403]
Tl. 1 Messungen von nichtlinearen Verzerrungen in der Elektroakustik; Begriffe, Meßverfahren, Anwendung und Bewertung Tl. 2 -; Klirrfaktorverfahren Tl. 3 -; Differenztonverfahren Tl. 4 -; Intermodulationsverfahren
[DIN 45 404] Messung der Unsymmetrie elektroakustischer Geräte; Erdsymmetrie [DIN 45 405] auch als ITU-R BS 468 Störspannungsmessung in der Tontechnik [DIN 45 407] Vollaussteuerung elektroakustischer Übertragungsglieder [DIN 45 410] Störfestigkeit von elektroakustischen Geräten; Meßverfahren und Meßgrößen [DIN 45 411] Frequenzintermodulation bei Schallplatten; Meßverfahren [DIN 45 507] Meßgerät für Frequenzschwankungen bei Schallspeichergeräten [DIN 45 524] Bestimmung der Bandgeschwindigkeit bei Magnetbandgeräten [DIN 45 538] Begriffe für Schallplatten-Abspielgeräte [DIN 45 539] Schallplatten-Abspielgeräte; Regeln für Messungen, Tonfrequenzanschlüsse, Maße austauschbarer Abtastsysteme, Anforderungen an Wiedergabeverstärker [DIN 45 541] Frequenz-Meß-Schallplatte St 33 und M 33 [DIN 45 542] Verzerrungs-Meß-Schallplatte St 33 und St 45 [DIN 45 543] Meßschallplatte zur Messung des Frequenzganges und der Kanaltrennung [DIN 45 544] Rumpel-Meß-Schallplatte St 33 und M 33 [DIN 45 545] Gleichlauf-Meß-Schallplatten für 33 1/3 und 45 U/min [DIN 45 546] Schallplatte St 45 [DIN 45 547] Schallplatte St 33 597
Analoge Tonmesstechnik [DIN 45 549] Abtastfähigkeits-Meß-Schallplatte [DIN 45 570] Tl. 1 Lautsprecher; Begriffe, Formelzeichen, Einheiten Tl. 2-; systematische Einteilungen, Benennungen [DIN 45 573] Tl. 1 Lautsprecher-Prüfverfahren; Meßbedingungen und Meßverfahren für Typenprüfungen, Messungen unter Freifeld-Bedingungen Tl. 2-; Prüfung der Nennbelastung Tl. 3-; Meßbedingungen und Meßverfahren für Typprüfungen, Messungen im diffusen Schallfeld [DIN 45 580] Kopfhörer; Begriffe, Formelzeichen, Einheiten [DIN 45 581] -; Meßbedingungen und Meßverfahren für Typprüfungen [DIN 45 582] -; Prüfung der Nennbelastbarkeit [DIN 45 590] Mikrophon; Begriffe, Formelzeichen, Einheiten [DIN 45 591] Mikrophon-Prüfverfahren; Meßbedingungen und Meßverfahren für Typprüfungen [DIN 45 630] Tl. 1 Grundlagen der Schallmessung; physikalische und subjektive Größen von Schall Tl. 2-; Normalkurven gleicher Lautstärkepegel Technische Pflichtenhefte der öffentlich-rechtlichen Rundfunkanstalten der Bundesrepublik Deutschland (hg. vom Institut für Rundfunktechnik, IRT): [3/1-8/2]
Allgemeine Richtlinien für Entwicklung, Fertigung und Lieferung von Geräten und Anlagen der Tonfrequenz- und Videofrequenztechnik
[3/4]
Studio-Magnettonbänder (1980)
[3/5]
Tonregieanlagen (letzte Ausgabe 1995)
[3/9]
Vorspann-, Zwischen- und Endbänder für Schaltzwecke im Studio (1987)
[12/1]
Magnetfilm-Anlagen für Tonaufnahme und –wiedergabe (1986)
[12/2]
Magnetfilm 16 mm, 17,5 mm und 35 mm (1985)
[12/3]
Magnettonstreifen auf Bildfilm 16 mm und 35 mm (1965).
Grundsätzliche Anforderungen an Magnettonanlagen und Richtlinien zu deren Einstellung (4. Ausgabe 1988).
Literatur [10.1]
Bergmann, K.: Elektrische Meßtechnik, 6. Aufl., 1997, Vieweg
[10.2]
Jones, B. E.: Meßgeräte, Meßverfahren, Meßsysteme, 1980, Oldenburg
[10.3]
Schrüfer, E.: Elektrische Meßtechnik, 2004, Hanser
598
Pegel und Pegelmaße [10.4]
Osinga, J. und Masakant, J. W.: Handbuch der elektronischen Meßgeräte, 1984, Franzis
[10.5]
Patzelt, R. und Schweinzer, H.: Elektrische Messtechnik, 2. Aufl., 1996, Springer
[10.6]
Feldtkeller, R. und Bosse, G.: Einführung in die Technik der Nachrichtenübertragung, 4. Aufl., 1976, Wittwer
[10.7]
Tietze, U., Schenk, Ch. Und Gamm, E.: Halbleiter-Schaltungstechnik, 12. Aufl., 2002, Springer
[10.8]
Zwicker, E. und Feldtkeller, R.: Das Ohr als Nachrichtenempfänger, 2. Aufl., 1967, Hirzel
[10.9]
Zwicker, E. und Fastl, H.: Psychoacoustics, Facts and Models, 1990 und 2006, Springer
[10.10] Hoeg, W. und Steinke, G.: Stereophonie-Grundlagen, 1972, VEB Technik [10.11] Schiesser, H. und Jakubowski, H.: „Der Einfluß von Phasen- und Laufzeitunterschieden bei der Übertragung von Stereosignalen”, in: Rundfunktechn. Mitt.1963, S. 195ff. [10.12] Hoeg, W. und Arnold, P.: „Zur Frage der Auswirkung von Pegel- und Phasendifferenzen zwischen zwei Stereo-Kanälen”, in: Techn. Mitt. des Rundfunk- und Fernsehtechn. Zentralamts 1963, S. 171ff. [10.13] Henn, H., Sinambari, G. R. und Faller, M.: Ingenieurakustik – Grundlagen, Anwendungen, Verfahren, 3. Aufl., 2003, Vieweg [10.14] Möser, M.: Technische Akustik, 2005, Springer [10.15] Müller, G. und Möser, M.: Taschenbuch der Technischen Akustik, 3. Aufl., 2004, Springer [10.16] Görne, Th.: Mikrofone in Theorie und Praxis, 2006, Elektor-Verlag [10.17] Günther, B. C., Hansen, K.H. und Veit, I.: Technische Akustik – ausgewählte Kapitel, Grundlagen, aktuelle Probleme, Meßtechnik, 7. Aufl., 2002, Expert-Verlag
599
Michael Dickreiter Volker Dittel, Wolfgang Hoeg, Martin Wöhr
Handbuch der Tonstudiotechnik Band 2 7., völlig neu bearbeitete und erweiterte Auflage Mit 703 Abbildungen und 156 Tabellen
Herausgegeben von der ARD.ZDF medienakademie
K A G A Saur München 2008
Herausgeber: ARD.ZDF medienakademie Wallensteinstraße 121 90431 Nürnberg Internet: http://www.ard-zdf-medienakademie.de
Für die in diesem Buch enthaltenen Angaben wird keine Gewähr hinsichtlich der Freiheit von gewerblichen Schutzrechten (Patente, Gebrauchsmuster, Warenzeichen) übernommen. Auch die in diesem Buch wiedergegebenen Gebrauchsnamen, Handelsnamen und Warenbezeichnungen dürfen nicht als frei zur allgemeinen Benutzung im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung betrachtet werden. Die Verletzung dieser Rechte ist im Rahmen der geltenden Gesetze strafbar und verpflichtet zu Schadensersatz.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie. Detaillierte bibliografische Dateien sind im Internet über http://dnb.d-nb.de abrufbar.
Gedruckt auf alterungsbeständigem Papier © 2008 by K. G. Saur Verlag, München Ein Imprint der Walter de Gruyter GmbH & Co. KG Alle Rechte vorbehalten. Jede Art der Vervielfältigung ohne Erlaubnis des Verlages ist unzulässig. Grafiken: ARD.ZDF medienakademie, Nürnberg Datenmanagement, -konvertierung und Umbruch: Michael Peschke, Berlin Druck: Strauss GmbH, Mörlenbach Bindung: Litges & Dopf, Heppenheim ISBN 978-3-598-11765-7
Gesamtübersicht Band 1 Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII Die Bearbeiter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI Die Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XII Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XV 1
AKUSTIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2
SCHALLQUELLEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3
SCHALLWAHRNEHMUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4
SCHALLWANDLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5
TONAUFNAHME UND TONWIEDERGABE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
6
KLANGGESTALTUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
7
ANALOGE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
8
ANALOGE TONREGIEANLAGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
9
BESCHALLUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
10
ANALOGE TONMESSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
Band 2 Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII 11 GRUNDLAGEN DER DIGITALEN TONTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 12 AUDIOCODIERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 13 DIGITALE STUDIOPROZESSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 14 DIGITALE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767 15 FILM- UND FERNSEHTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857 16 DIGITALE BETRIEBSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909 17 RUNDFUNKSYSTEME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963 18 QUALITÄTSSICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1109 19 ARBEITSSICHERHEIT UND GESUNDHEITSSCHUTZ . . . . . . . . . . . . . . . . . . . . . . . . . 1187 Fachwörter und Abkürzungen Englisch-Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . 1229 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1257 V
Inhaltsverzeichnis (Band 2) 11 GRUNDLAGEN DER DIGITALEN TONTECHNIK . . . . . . . . . . . . . . . . . . . . . . . 601 11.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 11.2 Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 11.2.1 Kontinuierliche Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 11.2.1.1 Signaldarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604 11.2.1.2 Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
11.2.2 Diskrete Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607 11.2.2.1 Abtastung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607 11.2.2.2 Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 611 11.2.2.3 Signalrekonstruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616
11.3 Systemkomponenten der digitalen Signalverarbeitung . . . . . . . . . . . . . . . . . 617 11.3.1 Analog/Digital-Wandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618 11.3.1.1 Successive-Approximation-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 618 11.3.1.2 Delta-Sigma-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619
11.3.2 Digital-/Analog-Wandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622 11.3.2.1 R-2R-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622 11.3.2.2 Delta-Sigma-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622 11.3.2.3 Bitstream-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623
11.3.3 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624 11.3.3.1 Signalprozessoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625 11.3.3.2 Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
11.4 Digitale Signalübertragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628 11.4.1 Quellencodierung und Datenkompression . . . . . . . . . . . . . . . . . . . . . . . . . . 628 11.4.2 Kanalcodierung und Fehlerbehandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 629 11.4.3 Übertragungsnetze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 630 11.5 Digitale Audioschnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631 11.5.1 AES/EBU und SPDIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632 11.5.1.1 11.5.1.2 11.5.1.3 11.5.1.4
Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenformat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elektrische Eigenschaften und Steckverbinder . . . . . . . . . . . . . . . . . . . . . . . . . . .
632 633 636 637
11.5.2 Mehrkanal-Schnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 638 11.5.2.1 11.5.2.2 11.5.2.3 11.5.2.4
Dolby-E Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MADI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ADAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TDIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
638 638 639 639
11.5.3 FireWire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 VII
Inhaltsverzeichnis 11.5.4 USB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640 11.5.4.1 11.5.4.2 11.5.4.3 11.5.4.4 11.5.4.5
Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenübertragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elektrische Eigenschaften und Steckverbinder . . . . . . . . . . . . . . . . . . . . . . . . . . . Audioapplikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
640 641 641 642 643
11.5.5 Videoschnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643 11.5.5.1 SDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643 11.5.5.2 DVI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 11.5.5.3 HDMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644
11.6 Audio-Dateiformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 11.6.1 WAV, WAVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 11.6.2 BWF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 11.6.3 RF64, RIFF64 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 Standards und Normen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647
12 AUDIOCODIERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 12.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 12.1.1 Verlustfreie Codierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 12.1.2 Verlustbehaftete Codierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 12.1.2.1 Wellenformcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650 12.1.2.2 Quellenorientierte Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 12.1.2.3 Empfängerorientierte Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
12.1.3 Standardisierung von Audiocodierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 652 12.1.3.1 Offene und proprietäre Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652 12.1.3.2 Generationsentwicklung der MPEG-Audiostandards . . . . . . . . . . . . . . . . . . . . . . 653
12.2 Grundprinzipien psychoakustisch basierter Codierverfahren . . . . . . . . . . . 654 12.2.1 Psychoakustische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654 12.2.1.1 Frequenzabhängige Maskierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655 12.2.1.2 Zeitabhängige Maskierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657 12.2.1.3 Räumliche Schallwahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
12.2.2 Bausteine psychoakustisch basierter Codierverfahren . . . . . . . . . . . . . . . . . 659 12.2.2.1 12.2.2.2 12.2.2.3 12.2.2.4
Filterbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantisierung und Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Psychoakustisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spektrale Bandbreitenerweiterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
659 661 662 662
12.2.3 Codierung zwei- und mehrkanaliger Stereosignale . . . . . . . . . . . . . . . . . . . . 664 12.2.3.1 Joint-Stereo Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664 12.2.3.2 Spatial Audio Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666
12.3 Qualitätsaspekte der Audiocodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667 12.3.1 Qualitätsstufen von Codec-Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . 667
VIII
Inhaltsverzeichnis 12.3.2 Typische Codier-Artefakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669 12.3.2.1 12.3.2.2 12.3.2.3 12.3.2.4
Artefakte durch begrenzte Zeitauflösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Birdies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrkanal-Artefakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Artefakte durch Tandem-Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
670 671 672 673
12.3.3 Hörtests mit psychoakustisch basierten Codierverfahren . . . . . . . . . . . . . . . 673 12.4 Psychoakustisch basierte Audiocodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675 12.4.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675 12.4.2 MPEG-1/2 Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676 12.4.2.1 12.4.2.2 12.4.2.3 12.4.2.4 12.4.2.5 12.4.2.6 12.4.2.7
MPEG-1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MPEG-2 Low Sampling Rate Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . MPEG-2 Multikanal-Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MPEG-1/2 Bitstrom und Fileformat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Layer 1 Audiodaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Layer 2 Audiodaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Layer 3 Audiodaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
676 676 677 678 679 680 681
12.4.3 MPEG-2/4 AAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 682 12.4.3.1 Filterbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683 12.4.3.2 Bitstrom und Fileformat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684
12.4.4 MPEG-4 High-Efficiency AAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684 12.4.4.1 HE-AAC Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685 12.4.4.2 Audioqualität und Einsatzbereiche von AAC-Codecs . . . . . . . . . . . . . . . . . . . . . 685
12.4.5 MPEG Mehrkanalcodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688 12.4.5.1 MPEG-Surround . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688 12.4.5.2 HE-AAC mit MPEG-Surround . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689 12.4.5.3 MP3-Surround . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689
12.4.6 Dolby Mehrkanalcodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689 12.4.6.1 Dolby Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 689 12.4.6.2 Dolby Digital Plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 691 12.4.6.3 Dolby E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692
12.4.7 DTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 12.4.7.1 Basisverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 12.4.7.2 DTS-ES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694 12.4.7.3 DTS 96/24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694
12.4.8 apt-X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 12.4.8.1 Basisverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 12.4.8.2 Enhanced apt-X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696
12.5 Sprachcodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697 12.5.1 ITU-T G.722 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697 12.5.2 ITU-T G.722.1, G.722.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698 12.6 Weitere gebräuchliche Audiocodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699 12.6.1 Windows Media Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 12.6.2 Ogg Vorbis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 IX
Inhaltsverzeichnis 12.7 Matrix-basierte Surround-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700 12.7.1 Dolby Surround / Dolby ProLogic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 701 12.8 Verlustfreie Audiocodierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702 12.8.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702 12.8.2 Free Lossless Audio Codec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703 12.9 Digitale Signaturen von Audiodateien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704 12.9.1 Digitales Wasserzeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705 12.9.1.1 Anforderungen und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705 12.9.1.2 Anwendungsbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706
12.9.2 Digitaler Fingerabdruck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 708 12.9.2.1 12.9.2.2 12.9.2.3 12.9.2.4
Anforderungen und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merkmalsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lösungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungsbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
708 709 710 710
12.9.3 Digitale Rechteverwaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711 12.9.3.1 Anwendungsbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712 12.9.3.2 Basistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713 12.9.3.3 Nachteile von DRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716
13 DIGITALE STUDIOPROZESSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 13.1 Tonsignalbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 13.1.1 13.1.2 13.1.3 13.1.4 13.1.5 13.1.6 13.1.7
Digitale Effektgeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 Digitale Tonmischpulte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721 Kreuzschienen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724 Systembetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 PC-basierte Bearbeitungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 728 Audioworkstations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 730 Integrierte Funkhaussysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731
13.2 Digitale Programmproduktion und Sendeabwicklung im Hörfunk . . . . . . . 732 13.2.1 Aufbau einer Hörfunkorganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734 13.2.2 Abläufe in der digitalen Programmproduktion . . . . . . . . . . . . . . . . . . . . . . . 736 13.2.2.1 Akquisition von Programminhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736 13.2.2.2 Kontribution von Programminhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738 13.2.2.3 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 740
13.2.3 Digitaler Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741 13.2.4 Module im digitalen Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 744 13.2.4.1 13.2.4.2 13.2.4.3 13.2.4.4 13.2.4.5
X
Beitragserstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sendungsbegleitende Produktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenbankmanager für Audio-Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sendeplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sendeprotokoll und Nutzungsrechte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
744 747 747 748 750
Inhaltsverzeichnis 13.2.4.6 Recherchewerkzeuge Archiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.7 Aktualitätenspeicher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.8 Musikrotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.9 Sendeablaufsteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.10 Regionalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.11 Themen- und Ereignisplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.12 Nachrichtenverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.13 Phonescreening und Off-Airs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.14 Verkehrsinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.15 Zusatzinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.16 Leitungsdisposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.17 Dokumentationssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
750 752 753 754 757 757 758 759 759 761 762 762
13.2.5 Außenübertragungstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 762
14 DIGITALE TONSIGNALSPEICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767 14.1 Digitale Tonaufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 767 14.1.1 Quelldaten, Kanaldaten und Kanalmodulation . . . . . . . . . . . . . . . . . . . . . . . 768 14.1.1.1 Speicherkanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 769
14.1.2 Datenformatierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 770 14.1.3 Schreibcodes und Kanalmodulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771 14.1.4 Fehlererkennung und Fehlerkorrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775 14.1.4.1 Instrumente der Fehlererkennung und Fehlerkorrektur . . . . . . . . . . . . . . . . . . . . . 775
14.1.5 Magnetische Aufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 777 14.1.6 Magnetband-Aufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780 14.1.6.1 14.1.6.2 14.1.6.3 14.1.6.4
Helical-Scan-Aufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Helical-Scan-Aufzeichnung für 8-Kanal-Ton . . . . . . . . . . . . . . . . . . . . . . . . . . . . Längsaufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tondatenaufzeichnung auf Computermagnetband . . . . . . . . . . . . . . . . . . . . . . . .
780 784 785 787
14.1.7 Magnetplattenaufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 791 14.1.7.1 Aufbau und Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 792 14.1.7.2 Controller, Codierung und weitere Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . 793
14.1.8 Optische Aufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795 14.1.8.1 Optische Speicherverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796 14.1.8.2 Optische Aufzeichnungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797
14.1.9 Compact Disc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 798 14.1.9.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.9.2 CD-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.10 Super Audio CD (SACD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.10.1 Aufbau und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.10.2 Datenorganisation, Kanalcodierung und Fehlerschutz . . . . . . . . . . . . . . . . . . .
798 801 802 803 804
14.1.11 DVD-Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805 14.1.11.1 Aufbau und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805 14.1.11.2 Datenformat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 806
14.1.12 Magneto-Optical Disc (MOD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807 14.1.12.1 Aufbau und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807 14.1.12.2 Zukünftige Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811
XI
Inhaltsverzeichnis 14.1.13 Flash-Speicher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811 14.1.13.1 Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811 14.1.13.2 Flash-Filesystem und Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 812 14.1.13.3 Flash-Karten und künftige Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 813
14.1.14 Tonsignalrestauration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 814 14.2 Mastering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 817 14.2.1 Definition des Mastering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 818 14.2.2 Technische und klangliche Aspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 818 14.2.2.1 14.2.2.2 14.2.2.3 14.2.2.4 14.2.2.5 14.2.2.6
Formatierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pegelanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dither und Noise Shaping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Remastering und Tonrestaurierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analog oder digital? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
819 819 819 820 820 820
14.2.3 Surround Mastering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 821 14.2.3.1 Mastering von Kinomischungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
14.2.4 Das Mastering-Studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822 14.2.5 Master-Formate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822 14.2.5.1 CD-Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
14.2.6 Alternative Formate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823 14.2.6.1 14.2.6.2 14.2.6.3 14.2.6.4 14.2.6.5 14.2.6.6
Super Audio CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Super Audio Hybrid Disk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DVD-Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DVD-Video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Blu-ray Disc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . HD-DVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
823 824 824 825 826 829
14.3 Digitale Tonarchive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829 14.3.1 Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 832 14.3.1.1 Funktionale Anforderungen aus Sicht des Archivs . . . . . . . . . . . . . . . . . . . . . . . . 832 14.3.1.2 Funktionale Anforderungen aus Sicht des Programms . . . . . . . . . . . . . . . . . . . . . 832 14.3.1.3 Systemtechnische Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833
14.3.2 Archivsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834 14.3.2.1 14.3.2.2 14.3.2.3 14.3.2.4 14.3.2.5 14.3.2.6
Speichersysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Benutzeroberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einspielstationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ausspielstationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
836 838 839 842 845 845
14.3.3 Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846 14.3.3.1 Kategorien von Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846 14.3.3.2 Bedeutung von Metadaten im digitalen Workflow . . . . . . . . . . . . . . . . . . . . . . . . 847 14.3.3.3 Technischer Umgang mit Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847
Normen, Standards, Richtlinien und Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 853 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854
XII
Inhaltsverzeichnis
15 FILM- UND FERNSEHTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857 15.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857 15.2 Zeitliche Relationen zwischen Bild und Ton . . . . . . . . . . . . . . . . . . . . . . . . . . 858 15.2.1 Zeitliche Wahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858 15.2.2 Synchronität und Bild-Ton-Versatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859 15.3 Inhaltliche Relationen zwischen Bild und Ton . . . . . . . . . . . . . . . . . . . . . . . . 861 15.3.1 Sounddesign und Montage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 861 15.4 Mikrofonierung und Tonaufzeichnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 862 15.4.1 Mikrofonierung des Original-Tons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 862 15.4.2 Mikrofonierung für Stereo und Surround . . . . . . . . . . . . . . . . . . . . . . . . . . . 865 15.4.3 Mikrofonierung im Synchronstudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866 15.4.4. Mikrofonierung im Fernsehstudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867 15.4.5 Tonaufzeichnung mit dem Camcorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867 15.4.6 Aufnahme mit abgesetztem Recorder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868 15.4.7 Workflow mit analogen und digitalen Medien . . . . . . . . . . . . . . . . . . . . . . . 868 15.4.8 Portable Audiomischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869 15.4.9 Ü-Wagen- und Studio-Produktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 870 15.5 Bildbezogene Aufzeichnungs- und Dateiformate für Ton . . . . . . . . . . . . . . . 871 15.5.1 Analoge, bandgestützte Aufzeichnungsformate . . . . . . . . . . . . . . . . . . . . . . 871 15.5.2 Digitale, bandgestützte Aufzeichnungsformate . . . . . . . . . . . . . . . . . . . . . . . 872 15.5.3 Digitale, dateibasierte Aufzeichnungsformate . . . . . . . . . . . . . . . . . . . . . . . 873 15.5.3.1 AVI - Audio Video Interleaved . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873 15.5.3.2 MXF – Media Exchange Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874 15.5.3.3 GXF - General Exchange Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875
15.5.4 Kanal- und Spurenbelegung für den Programmaustausch . . . . . . . . . . . . . . 876 15.6 Synchronisation und Synchronverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876 15.6.1 Pilotton und Neo-Pilotton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877 15.6.2 SMPTE/EBU-Timecode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878 15.6.3 MIDI-Timecode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 880 15.6.4 Rotosyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 880 15.6.5 Multiplexing, Interleaving und Time-Stamping . . . . . . . . . . . . . . . . . . . . . . 880 15.6.6 Time-Alignment Audio/Video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 883 15.7 Nachbearbeitung und Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884 15.7.1 15.7.2 15.7.3 15.7.4
Schnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884 Integrierte Audioproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884 Synchronregie und Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886 Lautheitssteuerung und Fernseh-Soundprocessing . . . . . . . . . . . . . . . . . . . . 887
15.8 Filmtonformate und Wiedergabeverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 889 15.8.1 Analoger und digitaler Lichtton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 890 15.8.2 Magnetton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 891 XIII
Inhaltsverzeichnis 15.8.3 dci - Digital Cinema Initiative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892 15.8.4 Wiedergabe in der Filmtonregie und im Kino . . . . . . . . . . . . . . . . . . . . . . . . 892 15.8.5 Wiedergabe im Kino - A-Chain, B-Chain . . . . . . . . . . . . . . . . . . . . . . . . . . . 894 15.9 Fernsehtonformate und Wiedergabeverfahren . . . . . . . . . . . . . . . . . . . . . . . . 895 15.9.1 Kanalformate und Wiedergabesysteme für Fernsehton . . . . . . . . . . . . . . . . 896 15.9.2 IRT-Zweitonverfahren (A2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896 15.9.3 NICAM 728, NICAM Stereo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896 15.9.4 Matrizierter Surroundton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897 15.9.5 Digitale Fernsehtonverfahren für Stereo- und Surroundton . . . . . . . . . . . . . 898 15.9.6 Stereo- und Mehrkanalübertragung für professionelleAnwendungen . . . . . 899 15.10 Spezifische Audio-Schnittstellen in Videosystemen . . . . . . . . . . . . . . . . . . . . 903 15.10.1 15.10.2 15.10.3 15.10.4
SDI und HD-SDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 903 SDTI – Serial Digital Transport Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . 905 RS-422 und Sony 9-Pin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906 Mehrkanalton über Zweikanalschnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . 906
Normen, Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 908
16 DIGITALE BETRIEBSTECHNIK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909 16.1 Zentrale Einrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909 16.1.1 Betriebszentrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 910 16.1.1.1 16.1.1.2 16.1.1.3 16.1.1.4 16.1.1.5
Koppelfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Leitungsanbindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sendeverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Einrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Handhabung der Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
911 914 917 919 920
16.1.2 Synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 920 16.1.3 Vernetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 921 16.1.3.1 16.1.3.2 16.1.3.3 16.1.3.4 16.1.3.5 16.1.3.6
Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Produktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kontribution von Programmbeiträgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Programmaustausch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datensicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungssoftware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
921 922 922 923 924 924
16.1.4 Sendestudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924 16.1.4.1 16.1.4.2 16.1.4.3 16.1.4.4
Konventioneller Regiebetrieb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selbstfahrerbetrieb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Leitungsanbindung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Einrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
926 927 927 928
16.1.5 Vorproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929
XIV
Inhaltsverzeichnis 16.1.6 Intercom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 929 16.1.6.1 Sprechanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 930 16.1.6.2 Betriebsfernsprechanlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 931
16.1.7 Stromversorgung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 933 16.2 Übertragungswege . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934 16.2.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934 16.2.2 Codierverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935 16.2.2.1 Quellencodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935 16.2.2.2 Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935 16.2.2.3 Kryptologische Codierung / Verschlüsselung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 936
16.2.3 Synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 936 16.2.4 Die E1-Schnittstelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 936 16.2.4.1 16.2.4.2 16.2.4.3 16.2.4.4
Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Technische Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quellencodierungsverfahren bei E1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Synchronisation bei E1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
936 937 940 945
16.2.5 Die ASI-Schnittstelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946 16.2.5.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946 16.2.5.2 Technische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947
16.2.6 HYBNET - das Netz der ARD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 951 16.2.6.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 951 16.2.6.2 Struktur des HYBNET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 952 16.2.6.3 Dienste im HYBNET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
16.2.7 Filetransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955 16.2.7.1 16.2.7.2 16.2.7.3 16.2.7.4
Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ARD-Filetransfer und Replikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Breitbandiger Audio-Filetransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Digitale Bemusterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
955 955 957 957
16.2.8 Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960 16.2.8.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960 16.2.8.2 ISDN-Audiocodecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960 16.2.8.3 Satelliten-Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 961
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962
17 RUNDFUNKSYSTEME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963 17.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964 17.1.1 Übertragungskanäle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964 17.1.1.1 Terrestrischer Mehrwege-Rundfunkkanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964 17.1.1.2 Satelliten-Rundfunkkanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 966 17.1.1.3 Kabel-Rundfunkkanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 967
17.1.2
Modulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968
17.1.2.1 Definitionen und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968 17.1.2.2 Klassische analoge Modulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 969
XV
Inhaltsverzeichnis 17.1.2.3 Klassische digitale Modulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972 17.1.2.4 Multiträger-Modulation (OFDM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976
17.1.3 Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 979 17.1.3.1 Definitionen und Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 979 17.1.3.2 Faltungscodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 980 17.1.3.3 Reed-Solomon-Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 982
17.2 Terrestrische Rundfunksysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984 17.2.1 Analoge Rundfunkübertragung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984 17.2.1.1 AM-Rundfunk unterhalb 30 MHz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984 17.2.1.2 FM-Rundfunk im UKW-Band II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 986 17.2.1.3 Analoges Fernsehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988
17.2.2 Digital Audio Broadcasting (DAB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988 17.2.2.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988 17.2.2.2 Tonübertragung bei DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 989 17.2.2.3 OFDM-Parameter und Übertragungs-Modi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 990 17.2.2.4 DAB-Übertragungsrahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 991 17.2.2.5 Quellenangepasste Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 992 17.2.2.6 Interleaving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 995 17.2.2.7 Transportmechanismen bei DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996 17.2.2.8 DAB - Multiplexkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 998 17.2.2.9 DAB Service Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 999 17.2.2.10 DAB Ensemble–Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1001 17.2.2.11 DAB-Dienstestruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1001
17.2.3 Digital Multimedia Broadcasting (DMB) . . . . . . . . . . . . . . . . . . . . . . . . . . 1003 17.2.3.1 17.2.3.2 17.2.3.3 17.2.3.4
DMB - TV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DMB – Radio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Koexistenz von DMB und DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Implementierung von DAB/DMB-Netzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1003 1003 1004 1004
17.2.4 Digital Video Broadcasting (DVB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1005 17.2.4.1 17.2.4.2 17.2.4.3 17.2.4.4 17.2.4.5
Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Terrestrisches Digitalfernsehen (DVB-T) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterung zu DVB-H (Handheld) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kabelfernsehen DVB-C (Cabel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DVB-Multiplex und Service-Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1005 1007 1011 1012 1013
17.2.5 Digital Radio Mondiale (DRM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1014 17.2.5.1 17.2.5.2 17.2.5.3 17.2.5.4 17.2.5.5 17.2.5.6
Übertragungs-Modi und OFDM-Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modulation und Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Audiocodierung für DRM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DRM-Multiplex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DRM Service-Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erweiterung auf DRM+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1015 1015 1017 1017 1018 1019
17.2.6 In-Band-On-Channel (IBOC) – System „High Definition Radio“ . . . . . . . 1019 17.2.6.1 Service Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1020 17.2.6.2 Audiocodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1021 17.2.6.3 Kanalcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1022
17.2.7 Integrated Services Digital Broadcasting (ISDB) . . . . . . . . . . . . . . . . . . . . 1023
XVI
Inhaltsverzeichnis 17.3 Satellitenrundfunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024 17.3.1 Astra Digital Radio (ADR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024 17.3.2 DVB über Satellit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1025 17.3.2.1 DVB-S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1025 17.3.2.2 DVB-S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026
17.4 Internet Radio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026 17.4.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026 17.4.2 Technische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1028 17.4.2.1 17.4.2.2 17.4.2.3 17.4.2.4 17.4.2.5
Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streaming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Unicast und Broadcast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Multicast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Content Caching und Content Distribution Networks . . . . . . . . . . . . . . . . . . . . .
1029 1030 1030 1032 1032
17.4.3 Streaming Protokolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1033 17.4.3.1 IP-Protokoll . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1033 17.4.3.2 RTP/UDP-Protokoll . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034 17.4.3.3 HTTP/TCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034
17.4.4 Streaming-Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035 17.4.4.1 17.4.4.2 17.4.4.3 17.4.4.4
Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Client . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Streaming-Plattformen und -Formate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1036 1036 1037 1037
17.4.5 Shoutcast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1038 17.4.5.1 17.4.5.2 17.4.5.3 17.4.5.4 17.4.5.5
Shoutcast-Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Shoutcast-Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Shoutcast-Client . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Shoutcast-Protokoll . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1038 1039 1040 1040 1041
17.4.6 Verzeichnisse und Personalisierte Dienste . . . . . . . . . . . . . . . . . . . . . . . . . 1042 17.4.7 Podcast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1043 17.4.7.1 Download und Dateiformat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1044 17.4.7.2 Abonnement über RSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1044 17.4.7.3 Podcast Komponenten und Nachrichtenfluss . . . . . . . . . . . . . . . . . . . . . . . . . . . 1045
17.5 Programmbegleitende Dienste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047 17.5.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047 17.5.2 Typologie der Dienste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1047 17.5.2.1 Programmbegleitende und nicht-programmbegleitende Dienste . . . . . . . . . . . . 1048 17.5.2.2 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1048
17.5.3 Datenmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1049 17.5.3.1 17.5.3.2 17.5.3.3 17.5.3.4
Generierung programmbegleitender Dienste . . . . . . . . . . . . . . . . . . . . . . . . . . . Einspeisung und Übertragung bei RDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einspeisung und Übertragung bei DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DAB-Dateneintaster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1049 1053 1055 1056
17.5.4 Serviceinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1058 17.5.4.1 Programm-Identifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1060
XVII
Inhaltsverzeichnis 17.5.4.2 17.5.4.3 17.5.4.4 17.5.4.5 17.5.4.6
Programm Service Name . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Programm-Typ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Traffic Announcement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Alternative Frequenzliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Programm-Nummer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1060 1060 1061 1061 1062
17.5.5 Radiotext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1062 17.5.5.1 17.5.5.2 17.5.5.3 17.5.5.4
Radiotext in RDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Radiotext plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dynamic Label Segment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dynamic Label plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1062 1062 1063 1064
17.5.6 Multimedia-Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064 17.5.6.1 MOT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1065 17.5.6.2 MOT-Applikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1066
17.5.7 Electronic Programme Guide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1068 17.5.8 TopNews . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1070 17.5.9 Codierte Verkehrsinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1071 17.5.9.1 RDS-TMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1072 17.5.9.2 TPEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1074
17.6 Mehrkanal-Stereofonie in Hörfunk und Fernsehen . . . . . . . . . . . . . . . . . . . 1078 17.6.1 Vom Mehrkanal-Kinoton zum Heimkino-Tonsystem . . . . . . . . . . . . . . . . 1078 17.6.2 Formate für Mehrkanalton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1079 17.6.2.1 ITU-R Surround Sound Standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1079 17.6.2.2 Weitere Mehrkanalton-Formate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1080
17.6.3 Postproduktion und Distribution von Mehrkanalton im Fernsehen . . . . . . 1081 17.6.3.1 Dolby E-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1081 17.6.3.2 apt-X-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1084
17.6.4 Standardisierte Kanalbelegungen für Mehrkanalton . . . . . . . . . . . . . . . . . . 1084 17.6.4.1 17.6.4.2 17.6.4.3 17.6.4.4 17.6.4.5
Aufzeichnung von 5.1-Mehrkanalton nach EBU/ITU-R . . . . . . . . . . . . . . . . . . Aufzeichnung von 5.1-Mehrkanalton nach SMPTE . . . . . . . . . . . . . . . . . . . . . . Austausch-, Zuführungs- und Verteilleitungen in ARD und ZDF . . . . . . . . . . . DVB-Zuführungsleitung für die Dritten Programme der ARD . . . . . . . . . . . . . MAZ-Spurbelegung für den Programmaustausch . . . . . . . . . . . . . . . . . . . . . . . .
1084 1085 1086 1087 1087
17.6.5 Kontrolle und Überwachung von Mehrkanal-Tonprogrammen beim Rundfunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1088 17.6.6 Übertragung von 5.1-Mehrkanalton über Rundfunksysteme . . . . . . . . . . . 1089 17.6.6.1 Programmverbreitung über DVB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1090 17.6.6.2 Programmverbreitung über DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1092 17.6.6.3 Verhalten von DVB Set-Top-Boxen bei 5.1-Mehrkanalton . . . . . . . . . . . . . . . . 1093
17.6.7 Quellencodierung für die Ausstrahlung von 5.1-Mehrkanalton . . . . . . . . . 1094 17.6.7.1 17.6.7.2 17.6.7.3 17.6.7.4
Dolby Digital-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DTS-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MPEG Advanced Audio Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1094 1096 1097 1098
17.6.8 Laufzeiten bei Übertragung von 5.1-Mehrkanalton . . . . . . . . . . . . . . . . . . 1103
XVIII
Inhaltsverzeichnis Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1104 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1105
18 QUALITÄTSSICHERUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1109 18.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1109 18.2 Qualitätsparameter des analogen und digitalen Tonkanals . . . . . . . . . . . . . 1111 18.2.1 18.2.2 18.2.3 18.2.4
Subjektive Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1111 Anzustrebende Zielwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1111 Additionsgesetze für Werte und Toleranzen . . . . . . . . . . . . . . . . . . . . . . . . 1113 A/D- und D/A-Wandlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114
18.2.4.1 Abtastrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114 18.2.4.2 Bitauflösung, Bitanzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114 18.2.4.3 Weitere Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115
18.2.5 Pegelbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115 18.2.5.1 18.2.5.2 18.2.5.3 18.2.5.4 18.2.5.5 18.2.5.6
Systemgrenzpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zugelassener Maximalpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einstellpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Messpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Minimaler Programmpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pegelprofile im analogen und digitalen Tonkanal . . . . . . . . . . . . . . . . . . . . . . . .
1116 1116 1117 1117 1118 1118
18.2.6 Störpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1118 18.2.6.1 Störpegelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120 18.2.6.2 Störspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120 18.2.6.3 Gesamtverzerrung mit Rauschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1121
18.2.7 Zeitbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1121 18.2.7.1 18.2.7.2 18.2.7.3 18.2.7.4 18.2.7.5
Jitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Augendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Synchronisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zeitversatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Phasenversatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1122 1123 1123 1124 1124
18.2.8 Störungen im digitalen Datenstrom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125 18.2.8.1 18.2.8.2 18.2.8.3 18.2.8.4 18.2.8.5
Störungen im Audiobitstrom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Störungen in den Zusatzinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlerursachen und -wirkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fehlerkorrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1125 1126 1126 1127 1128
18.3 Digitale Audiomesstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1129 18.3.1 Messverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1129 18.3.2 Messsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1130 18.3.3 Gehörbasierte objektive Messverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 1131 18.3.3.1 PEAQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1131 18.3.3.2 NMR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1132 18.3.3.3 PESQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1132
XIX
Inhaltsverzeichnis 18.4 Visuelle Programmsignalkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1133 18.4.1 Rundfunk-Aussteuerungsmesser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1133 18.4.2 Quasi-Spitzenwert-Aussteuerungsmesser . . . . . . . . . . . . . . . . . . . . . . . . . . 1134 18.4.3 Weitere Geräte zur Programmsignalkontrolle . . . . . . . . . . . . . . . . . . . . . . . 1138 18.4.3.1 VU-Meter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1138 18.4.3.2 Darstellung des Frequenzspektrums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1138 18.4.3.3 Korrelationsanzeige . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1139
18.4.4 Aussteuerungsrichtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1140 18.4.4.1 Aussteuerungsrichtlinien der ARD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1140 18.4.4.2 Lautstärkeangepasste Programmaussteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
18.4.5 Lautstärkemessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1142 18.4.5.1 Studiotaugliche Lautstärkemesser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1143 18.4.5.2 Internationale Standardisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144
18.4.6 Goniometrische Messverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145 18.4.6.1 Stereo-Sichtgerät . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145 18.4.6.2 Mehrkanal-Sichtgerät . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1147
18.5 Dynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1149 18.5.1 Dynamikbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1149 18.5.1.1 18.5.1.2 18.5.1.3 18.5.1.4
Originaldynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Systemdynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Programmdynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wiedergabedynamik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1149 1150 1152 1152
18.5.2 Dynamikkompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153 18.5.2.1 Anpassung an den Übertragungsweg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153 18.5.2.2 Anpassung an den Programmcharakter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154 18.5.2.3 Anpassung an die Wiedergabesituation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154
18.5.3 Dynamiksteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1155 18.5.3.1 18.5.3.2 18.5.3.3 18.5.3.4
Variable Dynamik für UKW/FM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dynamic Range Control (DRC) für DAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dynamiksteuerung für Dolby Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empfängerorientierte Dynamiksteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1155 1155 1156 1157
18.6 Auditive Programmsignalkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1157 18.6.1 Abhörstandard für Lautsprecherwiedergabe . . . . . . . . . . . . . . . . . . . . . . . . 1158 18.6.1.1 18.6.1.2 18.6.1.3 18.6.1.4 18.6.1.5 18.6.1.6
Abhörräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Geometrische Abmessungen von Abhörräumen . . . . . . . . . . . . . . . . . . . . . . . . . Bezugs-Schallfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bezugs-Abhörpegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anforderungen an Regielautsprecher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nahfeldabhören . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1158 1159 1160 1162 1162 1164
18.6.2 Abhörstandard für Kopfhörerwiedergabe . . . . . . . . . . . . . . . . . . . . . . . . . . 1164 18.6.3 Virtuelle Abhörräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164 18.7 Methoden zur subjektiven Beurteilung der Audioqualität . . . . . . . . . . . . . 1166 18.7.1 Teststrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1166 XX
Inhaltsverzeichnis 18.7.2 Standardisierte Testmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1167 18.7.2.1 Vergleichstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1167 18.7.2.2 Triple stimulus – hidden reference – double blind Test . . . . . . . . . . . . . . . . . . . 1167 18.7.2.3 MUSHRA-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1168
18.7.3 Subjektive akustische Qualitätsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . 1169 18.7.3.1 18.7.3.2 18.7.3.3 18.7.3.4
Globale Attribute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Detaillierte Parameter zur absoluten Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . Parameter zur Beschreibung digitaler Tonsignalstörungen . . . . . . . . . . . . . . . . . Beurteilung von kombinierten Bild- und Toninformationen . . . . . . . . . . . . . . . .
1169 1169 1171 1171
18.7.4 Testbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1172 18.7.4.1 18.7.4.2 18.7.4.3 18.7.5.4
Bewertungsskalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testpersonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Programm-Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswertung von Testergebnissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1172 1173 1173 1174
18.8 Softwarepflege und Datensicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1174 18.8.1 Softwaretypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1174 18.8.1.1 18.8.1.2 18.8.1.3 18.8.1.4
Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Firmware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Update . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Upgrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1174 1175 1175 1176
18.8.2 Datensicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1176 18.8.2.1 18.8.2.2 18.8.2.3 18.8.2.4 18.8.2.5 18.8.2.6
Sicherungskopie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Arbeitskopien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passwortschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Archivsicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Virenschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Umgang mit Updates und Upgrades in Audioarchiven . . . . . . . . . . . . . . . . . . . .
1176 1176 1177 1178 1178 1179
18.8.3 Mensch–Maschine–System im digitalen Hörfunkprozess . . . . . . . . . . . . . 1179 18.8.3.1 Fehlerquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1180 18.8.3.2 Durchgängiger Workflow von Audio- und Metadaten . . . . . . . . . . . . . . . . . . . . 1182
Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1186
19 ARBEITSSICHERHEIT UND GESUNDHEITSSCHUTZ . . . . . . . . . . . . . . . . . . . 1187 19.1 Arbeitssicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1187 19.1.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1187 19.1.1.1 19.1.1.2 19.1.1.3 19.1.1.4
Das duale System im Arbeitsschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Staatliche Institutionen im Arbeitsschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Berufsgenossenschaftlicher Arbeitsschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfluss der EU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1187 1188 1188 1189
19.1.2 Richtlinien und Regelwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1190 19.1.2.1 EG-Richtlinie 2003/10/EG „Lärm“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1190 19.1.2.2 Sicherheitsvorschriften für Produktionsstätten . . . . . . . . . . . . . . . . . . . . . . . . . . 1190 19.1.2.3 Das Arbeitsschutzgesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1192
XXI
Inhaltsverzeichnis 19.1.2.4 Die Betriebssicherheitsverordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1192 19.1.2.5 Die Musterversammlungsstättenverordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1192 19.1.2.6 Berufsgenossenschaftlichen Vorschriften und Regeln . . . . . . . . . . . . . . . . . . . . 1192
19.1.3 Verantwortlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1193 19.1.4 Arten der Verantwortung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1194 19.1.5 Gefährdungsermittlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1196 19.1.6 Gefährdungsbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198 19.2 Gesundheitsschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198 19.2.1 Gehörgefährdung durch elektroakustische Beschallung . . . . . . . . . . . . . . . 1198 19.2.2 Hörschädigungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1201 19.2.2.1 19.2.2.2 19.2.2.3 19.2.2.4 19.2.2.5
Gehörschaden aus arbeitsmedizinischer Sicht . . . . . . . . . . . . . . . . . . . . . . . . . . . Vorübergehende und permanente Hörschwellenverschiebung . . . . . . . . . . . . . . Fehlender Lautheitsausgleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stapediusreflex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gehörschäden und Musik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1201 1202 1202 1203 1203
19.2.3 Gesundheitsschutz-Gehör nach DIN 15905-5 . . . . . . . . . . . . . . . . . . . . . . . 1203 19.2.3.1 Verkehrssicherungspflicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204 19.2.3.2 Schutzmaßnahmen und Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1205 19.2.3.3 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1206
19.2.4 Messung der Schallimmission . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1206 19.2.4.1 Konsequenz der DIN 15905-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1208 19.2.4.2 Die Praxis für Veranstaltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1209 19.2.4.3 Probleme der Norm DIN-15905-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1210
19.2.5 Elektrische Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1211 19.2.5.1 19.2.5.2 19.2.5.3 19.2.5.4 19.2.5.5
Produktionsstätten beim Hörfunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kabelverlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anschluss elektrischer Geräte und Musikanlagen . . . . . . . . . . . . . . . . . . . . . . . Gefahren des elektrischen Stroms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schutz vor einem elektrischen Schlag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1211 1212 1213 1213 1214
19.2.6 Inbetriebnahme von elektrischen Geräten und Anlagen . . . . . . . . . . . . . . . 1219 19.2.6.1 Anschluss ortsveränderlicher Musikanlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1220
19.2.7 Verhalten bei Stromunfällen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1224 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1226 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1227 Fachwörter und Abkürzungen Englisch - Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . 1229 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1257
XXII
11
Grundlagen der digitalen Tontechnik
Frühe Versuche zur digitalen Speicherung von Tonsignalen fanden bereits in den 70er Jahren des vergangenen Jahrhunderts statt. Die Entwicklung der Audio Compact Disc (CD) durch Philips und Sony im Jahre 1982 und die erfolgreiche Einführung dieses neuen Mediums in den Consumer-Markt beschleunigten die Anwendung digitaler Speicher- und Signalverarbeitungstechniken nun auch im professionellen Tonstudiobereich. Noch nicht ausreichend gefestigtes Wissen um die theoretischen Zusammenhänge, fehlende praktische Erfahrung, die relativ hohen Investitionskosten und nicht immer ausgereifte Geräte mögen seinerzeit die Ursache gewesen sein für vereinzelt anzutreffende Skepsis der analog geprägten Fachwelt gegenüber der innovativen digitalen Studio-Technologie – eine Situation, die mitunter in klangästhetische Diskussionen führte und dort auch endete. Aus der anfänglichen Konfrontation „analog gegen digital“ wurde bald ein „analog und digital“. Inzwischen sind die Entscheidungen gefallen; Produktionsstudios und Rundfunksysteme (auch des Fernsehens) leben heute zwischen den Schnittstellen zur analogen Umgebung in einer volldigitalen Welt. Ein großer Vorteil der digitalen Tonstudiotechnik, nämlich ihr kalkulierbares Verhalten auch im Fehlerfall und das prinzipiell gegebene hohe akustische Qualitätsniveau bei Produktion, Speicherung und Vervielfältigung führten zunächst im anspruchsvollen E-Musikbereich, später auch im Bereich der Populärmusik und der Wortproduktion, zu einem überaus raschen Erfolg.
11.1
Einführung
Mit wachsenden Ansprüchen und Erfahrungen der Anwender offenbarten sich die Eigenschaften der eingangs- und ausgangsseitigen Wandler als wesentliche, die Audioqualität bestimmende Faktoren und als mögliche Schwachstellen im digitalen Tonstudio. Diese Schlüsselkomponenten dienen der Umsetzung der zunächst analog vorliegenden Signale in die digitale (d. h. in eine zeit- und wertdiskrete) Form. Nach Durchlaufen der digitalen Bearbeitungskette bewirken sie die erneute Rückführung in die analoge Signalumgebung (Abb. 11/1).
Abb. 11/1. Struktur eines digitalen Audiosystems.
Digitale Signale liegen als eine das analoge Signal abbildende Folge von Zahlen bzw. Codeworten vor. Werden die einzelnen Werte dieser Folge äquidistant, d. h. in regelmäßigen zeitlichen Abständen, erzeugt und übertragen, wird dieses Verfahren auch als Puls-CodeModulation (PCM) bezeichnet. 601
Grundlagen der digitalen Tontechnik Mit der Entwicklung leistungsfähiger Digitalrechner bot es sich an, Signale nicht nur digital zu speichern oder über Datenkanäle zu transportieren, sondern auch mit Hilfe dedizierter Recheneinheiten (sog. „Signalprozessoren“) zu bearbeiten. Die Speicherung, Formung und Übertragung der digitalen Signale erfolgt hierbei unter Anwendung elementarer algebraischlogischer Operationen; durch entsprechenden mathematischen Aufwand kann die Rechengenauigkeit, zumindest in der Theorie, beliebig groß gehalten werden. Die bei den Wandlungs- und Verarbeitungsprozessen speziell bei Tonsignalen auftretenden Probleme wurden in einem grundlegenden Aufsatz [11.3] bereits frühzeitig von Barry A. Blesser beschrieben. Unvermeidlich ist der im Verlauf einer Analog/Digital-(A/D)-Wandlung auftretende Quantisierungsfehler, der seine Ursache in der systembedingt endlichen Größe des Zahlenvorrats bei der wertdiskreten Darstellung von Signalen hat. Andere mögliche Fehlerquellen, wie z. B. durch physikalische Eigenschaften von Halbleiterbauelementen bedingte Linearitätsfehler, sind nach dem heutigen Stand der Technik durch geeignete Wandlerkonstruktionen in ihrer Auswirkung klein zu halten. Die Quantisierung eines analogen Signals führt demnach prinzipiell immer zu einem Abbildungsfehler, der jedoch für Anwendungen in der digitalen Tontechnik durch Bereitstellung eines großen Wertebereichs in der digitalen Ebene hinreichend beherrschbar wird. Die Breite des Datenworts bzw. die Stellenzahl des Codeworts am Ausgang eines A/D-Wandlers bestimmen folglich den nutzbaren Wertebereich. Üblich sind in der Tonstudiotechnik Wortbreiten von mindestens 16 Bit (binary digit) für einen Wertebereich von ca. –32000 bis +32000 Stufen. Wortbreiten von z. B. 24 Bit bieten durch die höhere Stufenzahl eine 256-fach höhere Auflösung. Das kleinste auflösbare Signal entspricht der Größe einer einzelnen Quantisierungsstufe, wobei hierbei von einer konstanten Quantisierungsstufengröße ausgegangen wird (sog. gleichförmige oder lineare Quantisierung). Systeme für reine Übertragungsaufgaben arbeiten häufig aber auch mit nichtlinearer, an die Signalamplitude angepasster Quantisierung zur Erzielung besserer Quantisierungsgeräuschabstände (s. Kap. 11.2.2.2). Die Abtastung des kontinuierlichen analogen Signals zu regelmäßigen Zeitpunkten (zeitdiskrete Wandlung) führt nur dann nicht zu einem Fehler, wenn das sog. „Abtasttheorem“ (auch als Nyquist- oder Shannon-Theorem bezeichnet) eingehalten wird. Dieses Abtastkriterium besagt, dass die Abtasthäufigkeit, also der Kehrwert des Abstands zwischen zwei Abtastzeitpunkten, mehr als doppelt so groß sein muss wie die höchste darzustellende Signalfrequenz. Die zweite Schlüsselgröße eines digitalen Audiosystems ist daher die höchste in einem analogen Audiosignal vorkommende Signalfrequenz und die entsprechend dem Abtasttheorem erforderliche Abtastrate. In der digitalen Tonstudiotechnik sind 32A103, 44,1A103, 48A103 oder 96A103 Abtastungen pro Sekunde üblich bzw. standardisiert. Diese Abtastraten werden in der Praxis auch als Abtastfrequenz bezeichnet und dann als Vielfaches von 103 in „kHz“ (Kilohertz) angegeben. Somit lassen sich z. B. Audiosignale mit einer oberen Grenzfrequenz von weniger als 24 kHz mit der Abtastfrequenz 48 kHz fehlerfrei übertragen und rekonstruieren.
602
Signale Wird das Abtastkriterium nicht eingehalten, treten bei Tonsignalen systematisch nicht mehr korrigierbare Fehler auf. Diese Fehler werden als Aliasfehler, Aliasverzerrungen oder auch als Spiegelungsfehler (Mirroring) bezeichnet. Um die Entstehung von Aliasfehlern zuverlässig zu verhindern, muss die Bandbreite des Eingangssignals daher mit Hilfe eines geeigneten Tiefpassfilters entsprechend dem Abtast-Theorem begrenzt werden. Gleichermaßen muss auch das von einem D/A-Wandler rückgewandelte Signal für eine originalgetreue Rekonstruktion über ein Tiefpassfilter geführt werden. Da in der Regel beide Filter in analoger Schaltungstechnik ausgeführt sind, können sie in einem digitalen Übertragungssystem die Qualität des Wandlungsprozesses wesentlich mitbestimmen und stellen durch den bei hohen Ansprüchen zu treibenden schaltungstechnischen Aufwand einen erheblichen Kostenfaktor dar, wenn nicht geeignete alternative Wege zum Beispiel durch „Überabtastung“ beschritten werden (s. Kap. 11.2.2.1). Einige wesentliche Vorteile der digitalen Tontechnik gegenüber der herkömmlichen analogen Tontechnik sind: - Neben der für die Tonstudiotechnik wichtigen exakten Reproduzierbarkeit der Signale selbst gilt diese Reproduzierbarkeit auch für die in den digitalen Tonsystemen verwendeten Signalverarbeitungskomponenten (Hardware, Firmware, Software). - Alle Systeme mit gleichen Komponenten haben grundsätzlich auch exakt gleiche Eigenschaften. Daher sind Langzeitstabilität, der Fortfall von Abgleichmaßnahmen und allgemein die erzielbare hohe Zuverlässigkeit wesentliche Merkmale der digitalen Signalverarbeitungstechnik. - Durch konsequente Anwendung der systemtheoretischen Grundlagen der elektrischen Nachrichtentechnik lassen sich in digitalen Systemen Funktionen realisieren, die in herkömmlicher analoger Technik nicht oder nur sehr aufwändig möglich gewesen wären. Genannt seien hier z. B. Filter mit linearem Phasengang, Echokompensatoren (Adaptive Filter), Einrichtungen zur Datenmengenreduktion und zur Signalsynthese, aber auch die Verbindung von akustischen Informationen mit anderen Informationsarten in multimedialen Systemen. - Die digitale Technik hat eine weltweite Verbreitung von akustischem Datenmaterial und damit beispielsweise den außerordentlich einfachen Zugriff auf Musiktitel durch das Quellencodierverfahren MP3 ermöglicht.
11.2
Signale
Die folgenden Betrachtungen beziehen sich auf Signale als Träger des eigentlichen Audiomaterials und der mit diesen verknüpften Steuerungs- und Kontrollinformationen („Essenzdaten“, s. hierzu auch Kap. 14.3).
11.2.1
Kontinuierliche Signale
Kontinuierliche Signale können innerhalb ihrer aus physikalisch-technischen Gründen vorgegebenen Grenzen jeden beliebigen Wert annehmen. Der maximal zulässige Amplitudenwert eines solchen kontinuierlichen Signals ist durch den Begriff der sog. „Vollaussteuerung“ 603
Grundlagen der digitalen Tontechnik bestimmt; in der Tonstudiotechnik ist das häufig der Wert eines sinusförmigen Signals mit dem Effektivwert von 1,55 Veff (+ 6 dBm) bzw. einer Amplitude von ± 2,2 V. Die Nutzbarkeit kleinster Spannungswerte (ca. 0 Veff) wird in der Praxis durch physikalisch bedingte Störsignale, z. B. das thermische Rauschen von Widerständen, eingeschränkt. Grundsätzlich sind die hier betrachteten Signale zu jedem beliebigen Punkt auf der Zeitachse definierbar. Man spricht daher von wert- und zeitkontinuierlichen Signalen. 11.2.1.1
Signaldarstellung
Kontinuierliche Signale können allgemein als Funktion der Zeit x = f (t) dargestellt werden. Handelt es sich um Tonsignale, ist es üblich, diese durch ihre Frequenz oder ihre Frequenzkomponenten und deren Scheitelwerte zu beschreiben. Daher ist z. B. ein einzelner Sinuston durch die Formel x = a @ sin (2Bft) bestimmt. Aus dieser Darstellung sind dann sowohl der zeitliche Verlauf wie auch die Frequenz des Signals entnehmbar. Je nach Anwendung kann eine Darstellung im Zeitbereich oder im Frequenzbereich (als Spektrum) zweckmäßig sein (Abb.11/2).
Abb. 11/2. Der Sinuston im Zeitund im Frequenzbereich.
Das Frequenzspektrum eines im Zeitbereich periodischen Tonsignals wird durch Zerlegung in Einzelkomponenten mit Hilfe der nach dem französischen Mathematiker Jean B. J. Fourier benannten Reihenentwicklung gebildet. Diese sog. „Fourier-Reihe“ ist die Summe (Linearkombination) aller im periodischen Tonsignal vorkommenden Sinus- und Cosinusschwingungen. Wegen der festen Winkelbeziehung zwischen Sinus- und Cosinuskomponenten gleicher Frequenz lassen sich diese zusammenfassen, und es ergibt sich somit die folgende vereinfachte analytische Form: ∞
x ( t ) = A0 + ∑ An ⋅ cos(2πnf0t + αn) n=1
Die einzelnen Teilschwingungen mit der Amplitude An werden harmonische Komponenten oder kurz „Harmonische“ genannt. Die erste Harmonische mit der Amplitude A1 hat die Frequenz f0 und heißt Grundschwingung oder Grundton. Die weiteren Harmonischen sind die „Oberschwingungen“ oder „Obertöne“. Der Term A0 beschreibt die Verschiebung des Signals aus der Amplituden-Nulllinie und charakterisiert somit den Gleichanteil des Signals (DC-Offset) mit der Frequenz 0 Hz. Abb. 11/3 zeigt ein periodisches sägezahnförmiges Signal mit einigen Harmonischen dieses Signals im Zeitbereich und in Frequenzdarstellung. 604
Signale
Abb. 11/3. Periodisches Signal und harmonische Komponenten.
Die Zerlegung in eine Fourier-Summe gilt nur für periodische Signale. Aber auch für nicht periodische (aperiodische) Signale lässt sich eine Darstellung im Frequenzbereich angeben. Diese sog. „Fourier-Transformation“ ist wie folgt definiert: +∞
X(f ) = ∫ x(t) ⋅ e − j2 πft dt −∞
Hier wird die Summenbildung über die einzelnen separaten Teiltöne der Fourier-Reihe durch das Integral über unendlich dicht beieinander liegende Frequenzkomponenten ersetzt. Ergebnis der Fourier-Transformation ist das Fourier-Spektrum, welches üblicherweise in Kurzform als „Spektrum“ bezeichnet wird. Das Fourier-Spektrum besteht aus einem Sinusund einem Cosinusspektrum, ähnlich wie schon bei der Fourier-Reihe. Diese Sinus- und Cosinuskomponenten lassen sich in dem Term e-2Bft (Eulersche Formel) zusammenfassen. Das Fourier-Spektrum besitzt rechnerisch die Dimension Amplitude mal Zeit bzw. Amplitude pro Frequenz und wird daher auch „Amplitudendichtespektrum“ genannt. Um einen Informationsverlust zu vermeiden, kann zusätzlich zum Amplitudendichtespektrum noch das sog. „Phasenspektrum“ berechnet werden, bei dem der Nullphasenwinkel der Teilschwingungen über der Frequenz aufgetragen wird. In der Tonstudiotechnik ist neben dem Amplitudendichtespektrum auch die Darstellung der auf die jeweiligen Frequenzen entfallenden Leistung in einem Leistungsdichtespektrum von Interesse. Dieses lässt sich aus dem Amplituden- und Phasenspektrum berechnen. In Analogie zur Bildung des Sinus- und Cosinusspektrums (bzw. des Amplituden- und Phasenspektrums) kann mit Hilfe der informationserhaltenden inversen Fourier-Transformation die zugehörige Zeitfunktion wie folgt rückgerechnet werden: +∞
x(t) = ∫ X(f ) ⋅ e j2 πft df −∞
605
Grundlagen der digitalen Tontechnik Die Zeitfunktion x(t) und die Spektralfunktion X(f) bilden somit ein Transformationspaar, wobei X(f) die Fouriertransformierte von x(t) und x(t) die Invers-Fouriertransformierte von X(f) genannt wird. Darstellungen von Signalen im Zeitbereich oder im Frequenzbereich sind unter den beschriebenen Voraussetzungen somit gleichwertig und können – der jeweiligen Signalverarbeitungsaufgabe angepasst – beliebig gewählt werden. Diese Erkenntnis bildet die Basis vieler aktueller Quellencodierverfahren (s. Kap. 12). Ein extrem kurzer Rechteckimpuls hoher Amplitude wird nach dem englischen Physiker Paul Dirac „Dirac-Impuls“ genannt. Abb. 11/4 zeigt, dass dieser kurze Impuls im Spektrum einen sehr weiten Frequenzbereich abdeckt. Ein derartiges Spektrum, das gleichmäßig auf alle Frequenzen verteilt ist, wird in Analogie zu einem Begriff aus der Lichtoptik auch als „weißes Spektrum“ bezeichnet. Umgekehrt erzeugt ein gleichförmig andauerndes Signal (z. B. eine Gleichspannung oder ein einzelner Sinuston) eine einzelne Linie im Spektralbereich. Die Systemtheorie verlangt die (mathematisch dann exakte) Darstellung von Spektren auch auf der negativen Frequenzachse. Hierauf wird in den Abbildungen dieses Kapitels zugunsten einer besseren Anschaulichkeit verzichtet.
Abb. 11/4. Der Dirac-Impuls im Zeitund Frequenzbereich.
Für die studiotechnische Praxis lässt sich aus den genannten Zusammenhängen folgende Regel ableiten: Im Zeitbereich anhaltende Töne erzeugen im Frequenzbereich ein Linienspektrum. Umgekehrt ergeben kurzzeitige, impulsförmige Signale ein kontinuierliches Spektrum mit großer Bandbreite. Ein Schaltknack (Click) als Fehler bei der Tonaufnahme deckt demnach wegen seiner kurzen Dauer einen weiten Frequenzbereich ab und kann daher nicht ohne weiteres mit einfacher spektraler Filterung beseitigt werden. Anders verhält es sich z. B. bei einer permanenten Brummstörung, welche sich mit Hilfe schmalbandiger Sperr-Filter (Notchfilter) einfach beseitigen lässt.
Abb. 11/5. Impulsfolge (Dirac-Puls) im Zeitund Frequenzbereich.
Bei der Analog/Digital-Wandlung wird zur Abtastung des analogen Signals eine periodische Folge von modifizerten Dirac-Impulsen mit dem konstanten Amplitudenwert „Eins“, der sog. Einheitspuls (unipulse) oder auch Dirac-Puls, verwendet. Seinen Verlauf im Zeit- und im Frequenzbereich zeigt Abb. 11/5. Es fällt auf, dass Zeit- und Spektralfunktion einen gleichartigen 606
Signale Verlauf haben. Dieser Verlauf wird wegen seiner Ähnlichkeit mit einem Buchstaben aus dem kyrilllischen Alphabet (S) auch „Schah-Funktion“ genannt. 11.2.1.2
Signalverarbeitung
Die Pegelanhebung durch einen Verstärker oder die Summierung mehrerer Signale in einem Mischpult sind als Multiplikations- bzw. Additionsvorgänge im Zeitbereich zu verstehen. Die Klangveränderung durch ein Filter ist jedoch eine Form der Signalverarbeitung, die sich anschaulicher im Frequenzbereich beschreiben lässt. Die Filterung eines Tonsignals bedeutet die Multiplikation des Spektrums des Signals mit der Übertragungsfunktion des Filters. Eine derartige Multiplikation im Frequenzbereich kann im Zeitbereich durch die mathematische Operation der sog. „Faltung“ (convolution) ersetzt werden. Entsprechend kann eine Multiplikation im Zeitbereich als Faltung im Frequenzbereich aufgefasst werden. Auch bei der Verarbeitung von Signalen sind demnach die Darstellungen im Zeit- oder Frequenzbereich grundsätzlich gleichberechtigt und werden der jeweils vorliegenden Problemstellung entsprechend gewählt. In der analogen Signalverarbeitungstechnik werden in der Regel dem jeweiligen Bearbeitungsschritt angepasste elektronische Schaltungen eingesetzt. Aus diesem Grund ist die funktionale Anpassung eines analogen Systems an veränderte Aufgabenstellungen nur mit erheblichem Aufwand möglich. Bei digitaler Signalverarbeitung kommen hingegen programmierbare Recheneinheiten oder dedizierte Signalprozessoren zum Einsatz, die eine einfache Modifikation der Signalverarbeitungsprozesse durch Austausch der Software ohne Änderungen der Hardware gestatten. In hochentwickelten digitalen Tonbearbeitungssystemen kann dies sogar während des aktuellen Produktionsprozesses geschehen.
11.2.2
Diskrete Signale
Um ein kontinuierliches analoges Signal durch numerische Rechenprozesse weiterverarbeiten zu können, muss das Signal in Form einer Folge regelmäßig aufeinander folgender, durch Probenentnahme gewonnener und in Zahlenwerte umgewandelter Abtastwerte vorliegen; jeder Abtastwert ist ein digitales „Sample“ des Signals. 11.2.2.1
Abtastung
Die Abtastung entspricht mathematisch betrachtet der Multiplikation des zeitkontinuierlichen Analogsignals mit der Abtastfunktion (siehe Dirac-Puls). Die Abtastfunktion besitzt nur zu definierten regelmäßigen (äquidistanten) Zeitpunkten den Wert „1“, zu allen anderen Zeiten den Wert „0“. Das Intervall zwischen den Abtastzeitpunkten wird als Abtastperiode mit der Dauer Ts bezeichnet. Dementsprechend ist der Kehrwert der Abtastperiode die Abtastfrequenz fs (sampling frequency, sampling rate). Durch die Abtastung ergibt sich ein zeitdiskretes Abbild des ursprünglich kontinuierlichen Signals (Abb. 11/6). Da das Spektrum der Abtastfunktion aus einzelnen Linien mit den Frequenzen fs und einer (theoretisch) unendlichen Fortsetzung mit ganzzahlig Vielfachen von fs besteht, ergibt sich eine bildhafte Anordnung mit Wiederholungen des ursprünglichen Spektrums und seiner Spiegelungen entsprechend Abb. 11/7. 607
Grundlagen der digitalen Tontechnik
Abb. 11/6. Erzeugung einer zeitdiskreten Funktion durch Abtastung.
Abb. 11/7. Basisband und Abtastspektrum.
Um für die akustische Wiedergabe das originale Tonsignal aus einem zeitdiskreten Signal rekonstruieren zu können, muss das unendliche Spektrum des zeitdiskreten Signals durch ein Tiefpassfilter mit der Grenzfrequenz 0,5 fs beschnitten werden. Ein solches Filter wird als „Rekonstruktionsfilter“ bezeichnet und trennt das Spektrum des erwünschten Basisbands (base band) von den unerwünschten Seitenbändern (side lobes). Diese Filterung liefert als Ergebnis das Spektrum des Ursprungssignals und damit nach Rücktransformation auch dessen kontinuierliche Zeitfunktion (Abb. 11/8).
Abb. 11/8. Rekonstruktion des Basisbands durch Tiefpass-Filterung.
Abtasttheorem Es wird ersichtlich, dass das Spektrum des Originalsignals sich nicht mit seiner um fs verschobenen gespiegelten Kopie überlappen darf, da eine Trennung durch Tiefpassfilterung dann nicht mehr möglich sein würde (Abb. 11/9). Derartige überlappend in das Basisband hineinfallenden Spektralanteile werden als Aliaskomponenten bezeichnet. Der durch den Aliaseffekt entstehende Signalfehler wird Aliasverzerrung genannt, der Vorgang trägt im 608
Signale Englischen die Bezeichnung „Aliasing“ (lat. alias: „unter falschem Namen auftretend“). Wegen der nicht-harmonischen Struktur der Aliasverzerrungen klingen diese besonders unangenehm.
Abb. 11/9. Aliasfehler durch Unterabtastung.
Um Aliasverzerrungen sicher zu verhindern, muss als Kriterium hierfür die nachfolgende Forderung unbedingt eingehalten werden: Das Originalsignal kann nur dann fehlerfrei aus einem abgetasteten Signal rekonstruiert werden, wenn die Abtastfrequenz größer als die doppelte höchste vorkommende Frequenz fmax des Nutzsignals ist. Es gilt daher fs > 2 fmax. Diese Aussage formulierte der Informatiker Claude Shannon im Jahre 1948 in dem nach ihm benannten „Abtasttheorem“. Shannon griff dabei auf Überlegungen zurück, die von Harry Nyquist bereits 1928 angestellt wurden. Die Abtastfrequenz, die der oben genannten Bedingung gerade entspricht, wird daher auch als Nyquist-Frequenz fN bezeichnet. Eine Betrachtung im Zeitbereich zeigt, dass bereits bei einer Tastfrequenz von fs = 2 fmax das Abtasttheorem verletzt wird: Da die Lage der Abtastzeitpunkte in Relation zum abzutastenden Signal rein zufällig ist, kann die Abtastung eines Sinussignals unter der grenzwertigen Bedingung fs = 2 fmax alle Amplituden zwischen „0“ und dem korrekten Scheitelwert liefern (Abb. 11/10).
Abb. 11/10. Abtastunsicherheit bei fs = 2 fmax.
Unter- und Überabtastung Ist die Abtastfrequenz fs kleiner als 2 fmax, spricht man von „Unterabtastung“. Diese kann dadurch vermieden werden, dass die Abtastfrequenz so gewählt wird, dass sie mit Sicherheit über der doppelten höchsten Signalfrequenz liegt und somit wieder dem Abtastkriterium genügt. Da in der Regel jedoch keine Gewissheit besteht, welche Komponenten das Signal im Hochtonbereich enthält, erfolgt die definierte Beschränkung des Frequenzbereichs auf den Wert fmax < 0,5 fs durch ein vorgeschaltetes steilflankiges Tiefpassfilter. Um den hohen Schaltungsaufwand für derartige Filter zu reduzieren, wird bei aktuellen in der Tonstudiotechnik verwendeten A/D-Wandlern intern mit Abtastfrequenzen gearbeitet, die ein Vielfaches der theoretischen Abtastfrequenz betragen. Man spricht in diesem Falle von 609
Grundlagen der digitalen Tontechnik „Überabtastung“ (oversampling). Durch diese Maßnahme werden die Anforderungen an das vorgeschaltete Tiefpassfilter deutlich reduziert, da der Übergang in den Sperrbereich des Filters nun sehr viel flacher verlaufen kann. Sample and Hold Die Abtastung des kontinuierlichen Signals und die Umwandlung in ein zeitdiskretes Signal geschieht in der Praxis mit Hilfe der sog. Sample-and-Hold-Schaltung (Abtast- und Halteglied, Abb. 11/11).
Abb. 11/11. Schaltungsprinzip eines Sample-and-HoldGliedes.
Im Prinzip besteht diese Anordnung aus einem Halbleiterschalter, der häufig durch einen Feldeffekttransistor realisiert ist, und aus einem Kondensator als Speicherelement. Mit Hilfe des Schalters wird das kontinuierliche Signal in den zeitlichen Abständen der Abtastperiode jeweils für eine kurze Zeit auf den Ladungsspeicher geschaltet und somit der Kondensator auf den aktuellen Signal-Probenwert aufgeladen. Anschließend wird der Schalter bis zum nächsten Abtastzeitpunkt geöffnet. Der auf den Kondensator geladene und dort gehaltene Spannungswert gibt dem nachfolgenden Quantisierer hinreichend Zeit für die weitere Signalumsetzung in den digitalen Wertebereich. Eine kritische Größe der Abtast- und Halteschaltung ist dabei die Zeitdauer, die benötigt wird, um bei geschlossenem Schalter den Kondensator auf den jeweils aktuellen Wert aufzuladen. Diese Zeitdauer wird als Aperturzeit bezeichnet. Die Aperturzeit muss möglichst kurz sein, da sonst mit zunehmender Dauer dieses „Zeitfensters“ steilflankige bzw. sich schnell ändernde Signalabschnitte durch Mittelwertbildung verschliffen (integriert) und somit hochfrequente Signalanteile gedämpft bzw. unterdrückt werden. Jitter Die Genauigkeit der Abtastzeitpunkte wird durch das Abtast-Taktsignal (sampling clock) bestimmt. In der Praxis sind kleine, häufig unregelmäßige Phasenschwankungen des Clocksignals zu beobachten (Abb. 11/12). Diese Abweichungen werden daher anschaulich als „Jitter“ bezeichnet. Das Auftreten von Jitter erzeugt eine Phasenmodulation im zeitdiskreten Bereich, die sich nach der Signalrekonstruktion als verschlechtertes Signal-/Störspannungsverhältnis (Signal-to-Noise-Ratio, SNR) bemerkbar macht (s. auch Kap. 18.2.7.1).
Abb. 11/12. Irreguläre Abtastzeitpunkte (Jitter).
610
Signale Da das Auftreten von Clock-Jitter in Systemen zur digitalen Tonsignalverarbeitung und in digitalen Übertragungssystemen nicht auszuschließen ist, sind Maßnahmen zur Jitter-Reduktion entwickelt worden, zu denen mit einem präzisen Quarzsignal synchronisierbare Clock-Generatoren oder die Entkopplung von einzelnen Bearbeitungsprozessen durch Pufferspeicher (buffer) gehören. Insbesondere durch digitale Regenerationsschaltungen kann Jitter auf Größenordnungen von wenigen Nanosekunden (10-9 s) reduziert und damit hinreichend klein gehalten werden. Zu einer wirksamen Jitter-Reduktion wird oft auch der Einsatz von Abtastratenwandlern empfohlen. [11.5] Abtastratenwandlung Abtastratenwandler dienen zur Anpassung von hintereinander geschalteten (kaskadierten) Systemen, die mit unterschiedlichen Abtastraten arbeiten. Es werden beispielsweise digitale Tonsignale, die auf CD mit einer Abtastfrequenz von 44,1 kHz gespeichert sind, auf die Abtastfrequenz von 48 kHz eines Tonstudios umgesetzt. Abtastratenwandler können sowohl als Hardware in Form integrierter Schaltungen oder als Software auf einem Rechner realisiert sein. Im Prinzip werden hierbei neue Abtastwerte durch rechnerische Interpolation der Eingangsdatenfolge erzeugt und mit einer Abtastfrequenz ausgegeben, die dem kleinsten gemeinsamen Vielfachen der beiden zu verknüpfenden Abtastfrequenzen entspricht. Die überabgetasteten interpolierten Werte werden anschließend durch eine numerische Tiefpassfilterung auf die Rate des Ausgangssignals herabgesetzt (dezimiert). Zu beachten ist, dass die Abtastratenwandlung immer eine Signalverzögerung zur Folge hat. Relativ einfach ist eine Abtastratenwandlung dann, wenn die Abtastfrequenzen nicht „teilerfremd“ sind; dies ist z. B. bei der Umsetzung von 48 kHz auf 32 kHz der Fall und erfolgt dann über das gemeinschaftliche Vielfache 96 kHz. Im Gegensatz hierzu ist es eine besondere Herausforderung an die digitale Signalverarbeitungstechnik, wenn nominal identische Abtastfrequenzen mit nur geringen Taktfrequenzabweichungen (sog. „Taktschwebungen“) angeglichen werden sollen. Die hierzu benötigten Rechenalgorithmen sind sehr komplex und kommen in sog. Plesiochronwandlern zur Anwendung. 11.2.2.2
Quantisierung
Damit eine digitale (numerische) Verarbeitung von abgetasteten, aber noch analogen Augenblickswerten erfolgen kann, müssen diese in diskrete Werte umgesetzt werden; dieser Vorgang wird Quantisierung genannt. Die Umsetzung eines kontinuierlichen in ein diskretes Signal wird als Analog-/Digital-Wandlung (A/D-Wandlung) bezeichnet. Abtastung, Quantisierung und die nachfolgende Codierung liefern ein zeit- und wertdiskretes Signal (Abb. 11/13).
Abb. 11/13. Generierung eines zeit- und wertdiskreten Signals.
611
Grundlagen der digitalen Tontechnik Die Quantisierung erfolgt durch Vergleich des jeweiligen Abtastwerts mit einer gestuften Skala. Das quantisierte Signal nimmt dann Werte an, die den Ordnungsnummern der einzelnen Stufen entsprechen. Die verfügbare Stufenzahl und der hieraus resultierende Wertebereich bestimmen daher, mit welcher Genauigkeit das Signal abgebildet werden kann. Die Stellenzahl der bei der Wandlung erzeugten Daten-Codeworte ergibt sich aus der Anzahl der Stufen. So lassen sich z. B. bei gleichförmiger Quantisierung, d. h. bei gleichmäßig gestufter Quantisierungsskala, die Stufenzahlen von 0 bis 7 durch dreistellige Datenworte mit den Ziffern „0“ und „1“ im Dualcode (Zahlenbasis 2) darstellen. Jede weitere hinzugefügte Binärstelle verdoppelt den Umfang des darstellbaren Wertebereichs (Bezeichnungsraum). Allgemein ergibt sich die Zahlenwertmenge in einem Binärsystem mit einer Datenwortbreite von k Stellen aus der Beziehung n = 2k. Im Dualcode entspricht das einem Zahlenbereich von 0 bis 2k – 1. Bei jedem Quantisierungsvorgang entsteht ein Quantisierungsfehler, der daraus resultiert, dass ein wertkontinuierliches Eingangssignal beliebige Werte innerhalb einer Quantisierungsstufe annehmen kann, während das Ausgangssignal mit dem konstanten Wert dieser Stufe ausgegeben wird. Der absolute Quantisierungsfehler liegt demnach im Bereich von plus/minus einer halben Quantisierungsstufe. Der Verlauf des Quantisierungsfehlers hat bei Tonsignalen den Charakter eines weißen oder gefärbten Rauschens und wird daher auch als Quantisierungsrauschen oder Quantisierungsgeräusch bezeichnet. Da ein Quantisierer nur einen endlichen Wertevorrat hat, ist seine Quantisierungskennlinie auf einen kleinsten und einen größten darstellbaren Wert begrenzt. Es lassen sich daher zwei wichtige Kenngrößen eines A/D-Wandlers angeben: sein minimal bzw. maximal zulässiges Eingangssignal und das sich aus der Zahl der Quantisierungsstufen ergebende Quantisierungsrauschen. Von besonderer Bedeutung in der Tonstudiotechnik ist die technische Systemdynamik. Gemeint ist hier das Verhältnis vom größten darstellbaren Signal zum kleinstmöglichen Signal bzw. zum Quantisierungsgeräusch selbst. Das größte darstellbare Signal schöpft den gesamten Wertebereich des A/D-Wandlers aus und entspricht damit der Anzahl der Quantisierungsstufen multipliziert mit der Größe einer Quantisierungstufe Q. Damit ergibt sich für einen Wandler mit der Wortbreite von k Binärstellen folgender maximale Signalspannungsbereich: Uss = Q @ 2k Für ein sinusförmiges Eingangssignal entspricht das dem Effektivwert Ueff = ½ @ Uss / 2 = (Q A 2k-1) / 2 Unter der Annahme, dass alle Abweichungen vom analogen Sollwert innerhalb einer Quantisierungsstufe, also im Intervall ± Q/2, gleich häufig vorkommen, beträgt der effektive Wert des Quantisierungsrauschens Ur = Q / 12 Das Verhältnis des größten darstellbaren Signals zum kleinstmöglichen Signal bzw. zum Quantisierungsrauschen ergibt sich für sinusförmige oder sinusähnliche Signale zu Ueff / Ur = 2k @ 1, 5 612
Signale Im logarithmischen Maßstab berechnet sich der Quantisierungsgeräuschabstand somit als aq = 20 @ log10 (Ueff / Ur) = 6,02 @ k + 1,76 [dB] Bei einem Datenwort mit der Stellenzahl k = 16 ergibt sich ein Quantisierungsgeräuschabstand von ca. 98 dB. Als praxistaugliche Näherung gilt, dass bei gleichförmiger Quantisierung jedes zusätzliche Datenbit die nutzbare Dynamik um 6 dB erhöht. Im bisher betrachteten Beispiel haben alle Quantisierungsintervalle des Wandlers die gleiche Größe. Es gibt jedoch auch Situationen, in denen die Anwendung einer nichtlinearen Quantisierungskennlinie zweckmäßig ist. So kommt in Europa für die digitale Sprachübertragung im Telefonverkehr zur Reduktion der Datenrate die sog. A-Law-Kennline nach G.711 zum Einsatz. Für die digitale Tonsignalübertragung besser geeignet ist die sog. 13-Segmentkennlinie, die durch „Polygonzug-Approximation“ eine eindeutig reproduzierbare Annäherung an eine quasilogarithmische Kennlinie darstellt. Abb. 11/14 zeigt den positiven Zweig dieser Quantisierungskennlinie.
Abb. 11/14. Lineare und logarithmische Quantisierungskennlinie.
Bei linearer Kennlinie bleibt der absolute Quantisierungsfehler signalunabhängig gleich und nimmt daher im Verhältnis zu kleinen Werten des Nutzsignals zu. Der Quantisierungsgeräuschabstand verschlechtert sich demnach mit abnehmender Amplitude des Nutzsignals. Wandler mit logarithmischer Kennlinie haben hingegen den Vorteil, dass sie für den zu quantisierenden Spannungsbereich weniger Stufen benötigen, und dass der relative Quantisierungsfehler (und damit der Quantisierungsgeräuschabstand) mit kleiner werdender Amplitude konstant bleibt. Mit nichtlinearer Kennlinie gewandelte Signale sind allerdings weniger gut für die rechnerische Tonsignalverarbeitung geeignet. 613
Grundlagen der digitalen Tontechnik Dither Der bei der Quantisierung entstehende Fehler in Form des Quantisierungsrauschens hat für Eingangssignale mit großer Amplitude angenähert die Eigenschaft von weißem Rauschen; anders verhält es sich jedoch bei sehr kleinen Signalen: Wenn ein sinusförmiges Signal mit einer Amplitude, die nur wenigen Quantisierungsstufen entspricht, auf den Quantisierer gegeben wird, entsteht als Folge der nun sehr groben Quantisierung ein Quantisierungsfehler, der in seinem Spektrum nicht mehr einem vom Eingangssignal unabhängigen Rauschen ähnelt, sondern überwiegend aus Harmonischen des zu quantisierenden Signals besteht. Der Quantisierungsfehler kann somit in seinem zeitlichen Verlauf aus dem Eingangssignal vorhergesagt werden, er ist mit dem Eingangssignal korreliert. Die harmonischen Obertöne des grob quantisierten Signals sind energiereich und können in der Größenordnung des Nutzsignals liegen. Es ist auch nicht auszuschließen, dass durch sie das Abtastkriterium verletzt wird, da sie ja erst nach der Eingangstiefpassfilterung entstehen. In kritischen Situationen können sie daher als Aliasverzerrungen hörbar werden. Diese Art eines Quantisierungsfehlers wird wegen dessen „grobkörnigen“ Klangeindrucks auch als „granulares Geräusch“ (granulation noise, granular distortion) bezeichnet. Granulierungsverzerrungen bei Tonsignalen werden in ihrem Klang als sehr unangenehm empfunden („malign noise“).
Abb. 11/15. Quantisierung mit überlagertem Rauschsignal (Dither).
Eine Abschwächung der durch grobe Quantisierung beschriebenen Störeffekte lässt sich nun dadurch erreichen, dass dem Eingangssignal vor dem Quantisierungsprozess ein kleines 614
Signale unregelmäßiges Hilfssignal in Form des sog. „Dither“ hinzugefügt wird und somit das Verhalten des Quantisierers weniger vorhersagbar wird. In der Mitte des Quantisierungsintervalls liegende Signale werden – als Ergebnis dieser „Verzitterung“ (dithering) – zufällig einmal der nächst höheren oder der nächst niedrigeren Quantisierungsstufe zugeordnet (Abb. 11/15). Die Dithering-Technik bewirkt somit, dass die Quantisierung über zwei (oder mehr) Stufen erfolgt und sich damit ein vom Nutzsignal dekorreliertes Quantisierungsgeräusch bzw. eine scheinbar feinstufigere Quantisierungskennlinie ergibt. Die Quantisierungsverzerrungen ähneln wieder einem weißen Rauschen und sind daher in ihrer Wahrnehmung deutlich angenehmer, obwohl rechnerisch und messtechnisch betrachtet der Störabstand schlechter geworden ist. Man spricht in diesem Fall von „benign noise“. Das Dithering-Verfahren sollte immer dann angewendet werden, wenn im Zuge der digitalen Signalverarbeitung mit Kürzungen der Datenwortlänge (truncation) zu rechnen ist. Gute Ergebnisse sind zu erwarten, wenn das dem Nutzsignal hinzugefügte Dither-Signal alle Amplitudenwerte innerhalb einer Quantisierungsstufe gleichermaßen abdeckt. Es handelt sich dann um ein Dither-Rauschen mit gleichförmig verteilter (rechteckförmiger) Amplitudendichte, das im einfachsten Fall durch eine Dreieckfunktion nachgebildet werden kann; aber auch andere Funktionen werden in der Praxis zu einer klanglich vorteilhaften Ditherung verwendet. Übersteuerung Ähnliche Verhältnisse wie bei der Aussteuerung mit sehr kleinen Signalen liegen bei einer Übersteuerung des Quantisierers vor. Hierbei werden die Grenzen des Quantisierers im positiven bzw. negativen Wertebereich überschritten. Als Ausgangsgröße des Quantisierers erscheint in diesem Fall dann unabhängig von der tatsächlichen Signalamplitude nur noch der Maximal- bzw. Minimalwert des Quantisierungsbereichs, alle darüber bzw. darunter liegenden Amplitudenwerte sind abgeschnitten. Man spricht in diesem Fall (wie auch bei Übersteuerungen in der analogen Tontechnik) von „Clipping“ (Abb. 11/16).
Abb. 11/16. Übersteuerung des Quantisierers.
Wie bei der Aussteuerung mit sehr kleinen Signalen können durch Clipping die dabei entstehenden Obertöne Aliaskomponenten erzeugen, die wegen ihrer relativ großen Amplitude und ihrer zum Grundton disharmonischen Frequenzlage stark störend wirken. Aus diesem Grund ist eine Übersteuerung des Quantisierers unbedingt zu vermeiden und ein angemessener Sicherheitsabstand zur Aussteuerungsgrenze vorzusehen. Ein derartiger Sicherheitsabstand zur Aussteuerungsgrenze wird als „Headroom“ bezeichnet. 615
Grundlagen der digitalen Tontechnik 11.2.2.3
Signalrekonstruktion
Zur Rekonstruktion eines kontinuierlichen Signals aus einem diskreten Signal wird im Prinzip der Wandlungsvorgang umgekehrt, der zur Erzeugung des diskreten Signals aus einem kontinuierlichen Signal geführt hatte. Das diskrete Signal wird auf einen D/A-Wandler geführt, welcher die gleiche Quantisierungskennlinie besitzt wie der A/D-Wandler; in der Tonstudiotechnik ist das im Normalfall ein Umsetzer mit linearer Stufung. Das Ergebnis ist ein zeitdiskretes Signal, dessen einzelne Amplitudenwerte wiederum durch eine Abtast- und Halteschaltung (sample and hold) jeweils so lange gespeichert werden, bis der nachfolgende Wert des A/D-Wandlungsprozesses vorliegt. Mit Hilfe der Sample-and-Hold-Schaltung wird auf diese Weise wieder ein (noch stufiges) zeitkontinuierliches Signal erzeugt.
Abb. 11/17. Ausgangssignal eines D/AWandlers.
Im Prinzip steht am Ausgang der Abtast- und Halteschaltung ein Signal zur Verfügung, das dem gewünschten Verlauf des Nutzsignals bereits stark ähnelt (Abb. 11/17). Allerdings werden, ähnlich wie bei der Erzeugung des zeitdiskreten Signals im Verlauf der EingangsA/D-Wandlung, durch die Apertur der Abtast- und Halteschaltung auch hier hohe Frequenzanteile abgesenkt. Diese systembedingte Höhenabsenkung folgt der sog. si- oder sinc-Funktion (lat. sinus cardinalis) und beträgt bei der halben Abtastfrequenz ca. 4 dB (Abb. 11/18). Der Abfall der Signalamplitude im oberen Übertragungsbereich muss daher zur Erzielung eines linearen Frequenzgangs entweder bereits in der digitalen Ebene – also noch vor der D/A-Wandlung – oder durch eine ausgangsseitige analoge Filterung kompensiert werden.
Abb. 11/18. Nichtlinearer Frequenzgang durch Sampleand-Hold-Technik.
Die um die Vielfachen der Abtastfrequenz angeordneten Seitenbänder (side lobes) werden durch ein weiteres analoges Tiefpassfilter (Rekonstruktionsfilter) unterdrückt. Für diesen Tiefpass gelten die gleichen hohen Anforderungen wie für den Eingangstiefpass (Anti-AliasFilter), so dass auch hier die Anwendung der Oversampling-Technik den schaltungstechnischen Aufwand stark vereinfachen kann. 616
Signale Überabtastung bei der Rekonstruktion Optimale analoge Tiefpassfilter sind nur mit großem Schaltungsaufwand und damit verbundenen hohen Kosten zu realisieren. Aus diesem Grund musste insbesondere für den Massenmarkt der Audio-CD-Technik nach einer anderen Lösung gesucht werden; diese Alternative wurde mit dem Verfahren der Überabtastung (oversampling) gefunden. Die Überabtastung erlaubt es, das Tiefpassfilter zu einem wesentlichen Teil in digitaler Technik auszuführen, während der analoge Tiefpass nun oberhalb der halben Abtastfrequenz einen sehr viel flacheren Dämpfungsverlauf haben darf. Ebenso kann der verwendete Digital-Analog-Wandler eine geringere Auflösung besitzen, da bei Überabtastung das Quantisierungsrauschen auf einen weiteren Frequenzbereich verteilt wird, und damit dessen Energieanteil im Nutzbereich (base band) abnimmt. Darüber hinaus wird die Energie des Quantisierungsgeräuschs durch Anwendung von „Noise Shaping“ zu höheren Frequenzen verlagert und ist damit im Nutzbereich weniger stark wahrnehmbar (s. auch Abb. 11/24). Allgemein spricht man immer dann von Oversampling, wenn die Abtastung bzw. Signalverarbeitung mit einer höheren als der durch das Abtastkriterium vorgegebenen Frequenz erfolgt. In der Regel wird mit 4- bis 16-facher, bei Delta-Sigma-Wandlern sogar mit 64-facher Nyquistfrequenz gearbeitet. Überabtastung ist demnach eine geeignete Methode, die technische Qualität von digitalen Signalverarbeitungsprozessen zu verbessern. Die Überabtastung wird nach dem heutigen Stand der digitalen Tontechnik praktisch bei allen Arten von A/D- und D/A-Wandlungen angewandt.
11.3
Systemkomponenten der digitalen Signalverarbeitung
In Abb. 11/19 ist die prinzipielle Struktur eines digitalen Signalverarbeitungssystems dargestellt.
Abb. 11/19. PCM-Signalverarbeitungssystem.
Durch Tiefpassfilterung wird das analoge Eingangssignal auf fmax < fs / 2 bandbegrenzt und erfüllt somit die Forderung des Shannon-Theorems. Nach der Abtastung wird das jetzt zeitdiskrete Signal über eine Sample-and-Hold-Schaltung dem eigentlichen Quantisierer des A/D-Wandlers zugeführt. Dieser setzt das wertkontinuierliche in ein wertdiskretes Signal um 617
Grundlagen der digitalen Tontechnik und führt darüber hinaus die für eine anschließende Verarbeitung geeignete Codierung der digitalen Tastwerte durch. Der hier beschriebene Signal-Umsetzungsprozess wird als „Puls-Code-Modulation“ (PCM) bezeichnet; er setzt sich aus den drei aufeinander folgenden Schritten „Abtasten“, „Quantisieren“ und „Codieren“ zusammen. Am Ausgang der Signalverarbeitungskette wird das PCM-Signal durch einen Digital/AnalogUmsetzer wieder in die Analogform rückgewandelt. Ein Halteglied bereitet hierbei die abschließende Tiefpassfilterung vor, bei der die durch den Abtastprozess entstandenen unerwünschten Seitenbänder entfernt werden und eine Signalglättung durch Rekonstruktion oder Interpolation von Zwischenwerten erfolgt.
11.3.1
Analog/Digital-Wandlung
Analog/Digital-Wandler für die Tonsignalverarbeitung sind überwiegend in Form integrierter Schaltungen realisiert, die auf einem einzigen Halbleiterchip nahezu alle Komponenten des Umsetzers enthalten; für analoge Tiefpaßfilter sind in der Regel nur wenige zusätzliche externe Bauelemente erforderlich. Aus der Vielzahl von möglichen A/D-Wandlerstrukturen haben sich für Anwendungen in der digitalen Tontechnik die nachfolgend beschriebenen Wandlerverfahren durchgesetzt. 11.3.1.1
Successive-Approximation-Wandler
Dieser Wandlertyp arbeitet nach dem Prinzip der „schrittweisen Annäherung“ an den zu wandelnden Signalwert (successive approximation). Den grundsätzlichen Aufbau zeigt Abb. 11/20. Der Wandler besteht aus einem Vergleicher (Komparator), einem internen D/AWandler als Vergleichsspannungsgenerator, einem Steuerwerk sowie aus einem Zwischenspeicher, dem sogenannten SAR (Successive Approximation Register).
Abb. 11/20. Prinzip des SuccessiveApproximation-Wandlers.
Eine klassische Methode zur schrittweisen Approximation stellt das Wägeverfahren dar. Bei diesem Verfahren wird zunächst der Inhalt des SAR-Speichers gelöscht und mit dem folgenden Taktimpuls die höchstwertige Ziffernstelle (Most Significant Bit, MSB) versuchsweise gesetzt. Die daraufhin vom D/A-Wandler abgegebene Spannung vergleicht der Komparator mit der Eingangsspannung. Ist der im SAR abgebildete Vergleichsspannungswert kleiner als 618
Systemkomponenten der digitalen Signalverarbeitung die Eingangsspannung, bleibt das entsprechende Bit gesetzt, anderenfalls wird es gelöscht. Der gleiche Vorgang wird dann mit den jeweils nächsten (niederwertigeren) Bits ausgeführt, bis nach Abschluss einer Umsetzungsperiode im SAR der Wert für die bestmögliche Annäherung an die Eingangsspannung enthalten ist. Da der Prozess z. B. für eine 16-Bit-Wandlung mindestens 17 Taktimpulse benötigt, muss die Eingangsspannung während dieser Zeit mit Hilfe des Sample-and-Hold-Glieds konstant gehalten werden. 11.3.1.2
Delta-Sigma-Wandler
Der Delta-Sigma-Wandler hat inzwischen in der digitalen Tontechnik alle anderen Wandlertypen nahezu vollständig ersetzt. Er besteht in seiner Grundform aus einem „Modulator“ und einem nachgeschalteten digitalen Tiefpassfilter (Abb. 11/21). Das vor der A/D-Wandlung angeordnete Tiefpaßfilter zur Begrenzung der Signalbandbreite und das S/H-Glied sind in dieser Abbildung der Übersichtlichkeit halber nicht dargestellt.
Abb. 11/21. Grundform eines Delta-Sigma-A/DWandlers.
Der Modulator des Delta-Sigma-Wandlers besteht im Prinzip aus einem Subtrahierer, dem Integrierer, einem 1-Bit-D/A-Wandler und dem Komparator (Abb. 11/22).
Abb. 11/22. Der Modulator eines DeltaSigma-A/D-Wandlers.
Das Ausgangssignal des Komparators ist ein digitaler Bitstrom, der in einer internen Schleife nach Digital/Analog-Wandlung durch einen 1-Bit-Wandler auf den Subtrahierer zurückgeführt und dort vom Eingangssignal abgezogen wird. Zur Verringerung des Quantisierungsrauschens wird beim Delta-Sigma-A/D-Wandler mit einer sehr viel höheren Taktfrequenz, als sie durch das Abtastkriterium vorgegeben ist, gearbeitet. Betrachtung im Zeitbereich Als Aussteuerungsbereich des Wandlers wird im folgenden Beispiel ±1 V angenommen. Innerhalb des Modulators befinden sich die Referenzpunkte U1, U2 und U3. Punkt U3 liefert zugleich die Ausgangsgröße des Modulators in Form einer 1-Bit-Folge (Bitstrom). Dieser Bitstrom wird in der Rückkopplungsschleife vom 1-Bit-D/A-Wandler in ein Signal innerhalb des Aussteuerungsbereichs von ±1 V zurückgewandelt und danach im Subtrahierer von der Eingangsspannung abgezogen. Das Ergebnis der Subtraktion liegt am Referenzpunkt U1 an. 619
Grundlagen der digitalen Tontechnik Der nachfolgende Integrator arbeitet als Akkumulator, indem er den Wert von U1 auf den vorhergehenden Wert von U2 aufaddiert und damit den aktuellen Wert von U2 erzeugt. Der Wert von U2 wird im Komparator mit dem Wert 0 V verglichen. Ist er größer als 0 V, wird U3 auf +1 V gesetzt, anderenfalls auf !1 V. Mit jedem neuen Takt-Zyklus wird diese Operation wiederholt. Im Beispiel der Tab. 11/1 wird angenommen, dass zu Beginn des Wandlungszyklus alle Referenzpunkte auf den Nullwert zurückgesetzt sind und am Eingang die zu wandelnde Spannung von +0,6 V anliegt. Tab. 11/1. Beispiel der Wandlung einer Eingangsspannung von + 0,6 Volt. Taktperiode Punkt U1 Punkt U2 Punkt U3 Volt Volt Volt 0 0 0 0 1 +0,6 +0,6 +1 !0,4 +0,2 +1 2 !0,4 !0,2 !1 3 4 +1,0 +1,4 +1 !0,4 +1,0 +1 5 !0,4 +0,6 +1 6 !0,4 +0,2 +1 7 !0,4 !0,2 !1 8
Mittelwert in Volt über Perioden 2 bis 6
(+1)/1 (+1!1)/2 (+1!1+1)/3 (+1!1+1+1)/4 (+1!1+1+1+1)/5 = + 0,6
Da die Messwerte an allen Messpunkten in der Taktperiode 7 den Messwerten in Periode 2 gleichen, wiederholen sich ab hier die Perioden 2 bis 6 zyklisch. Ein einzelner Zyklus erzeugt den gemittelten Ausgangswert +0,6 V, welcher genau der Eingangsgröße des Modulators entspricht. Für eine derartige Mittelwertbildung genügt ein einfacher Zähler, der mit jedem Zyklus, also immer nach 5 Perioden, abgelesen und auf 0 zurückgesetzt wird. Dieser Zähler bildet somit ein einfaches digitales Tiefpaßfilter. In der Praxis werden bei Delta-Sigma-Wandlern allerdings sehr viel komplexere Tiefpassfilterstrukturen eingesetzt. Diese Tiefpassfilter dienen gleichzeitig dazu, aus dem digitalen Bitstrom des Delta-Sigma-Modulators das für eine digitale Signalverarbeitung besser geeignete PCM-Signal, reduziert auf eine in der Tonstudiotechnik übliche Abtastfrequenz und Datenwortbreite, zu erzeugen. Die Reduktion wird als „Dezimation“ bezeichnet. Da Modulatoren 1. Ordnung, wie sie in obigem Beispiel skizziert sind, relativ starke Störkomponenten erzeugen, werden für Wandler zur digitalen Tonsignalverarbeitung in der Regel Modulatoren höherer Ordnung (bis hin zu 5. Ordnung) verwendet. Die einfachen Integratoren sind dabei durch komplexe digitale Tiefpassfilter ersetzt. Betrachtung im Frequenzbereich Der technische Dynamikumfang eines A/D-Wandlers wird durch seine Auflösung bestimmt. Da es sich bei einem Delta-Sigma-Modulator eigentlich um einen 1-Bit-Wandler handelt, beträgt sein Dynamikumfang (theoretisch) nur 7,76 dB, ein für die Tonstudiotechnik viel zu niedriger Wert. Dieser Wert gilt für eine Abtastfrequenz, welche dem Abtastkriterium mit der 620
Systemkomponenten der digitalen Signalverarbeitung Nyquistfrequenz fN = fs > 2fmax gerade genügt. Eine Verbesserung lässt sich dadurch erreichen, dass mit einer vielfach höheren Abtastfrequenz gearbeitet wird; in der Praxis werden 3 bis 4 MHz verwendet. Da der Quantisierungsfehler eines Delta-Sigma-Modulators den Charakter eines weißen Rauschens hat, wird dieses nun durch die Überabtastung auf einen weiten Frequenzbereich (1,5 MHz bis 2 MHz) verteilt (Abb. 11/23). Auf den Modulator folgt ein Tiefpassfilter, das einerseits aus dem seriellen 1-Bit-Datenstrom einen parallelen PCM-Datenstrom entsprechend der spezifizierten Wort-Breite von 16, 20 oder 24 Bit erzeugt, das andererseits aber auch die Bandbreite begrenzt und damit das Quantisierungsrauschen deutlich verringert.
Abb. 11/23. Spektrale Betrachtung der Delta-Sigma-A/D-Wandlung.
Das ohnehin vorhandene Filter kann zusätzlich dazu verwendet werden, das Quantisierungsrauschen im Bereich des Nutzsignals weiter dadurch zu reduzieren, dass die Rauschleistung möglichst weit in den Bereich höherer, nicht mehr wahrnehmbarer Frequenzen verschoben wird. Durch das auf den Modulator folgende digitale Filter kann anschließend der überwiegende Teil des verschobenen Rauschens ausgeblendet werden. Dieser Gesamtvorgang wird als „Noise Shaping“ (Rauschformung) bezeichnet (Abb. 11/24).
Abb. 11/24. Verlagerung des Quantisierungsrauschens durch Noise Shaping.
621
Grundlagen der digitalen Tontechnik
11.3.2
Digital-/Analog-Wandlung
Im Verlauf der Digital/Analog-Umsetzung werden prinzipiell dieselben Verarbeitungsschritte durchlaufen wie bei der Analog/Digital-Wandlung; die Reihenfolge ist hierbei jedoch umgekehrt. Für Anwendungen in der Tonstudiotechnik sind für die Digital/Analog-Wandlung überwiegend zwei Arten von Wandlern üblich: der R-2R-Wandler und der Delta-SigmaWandler. 11.3.2.1
R-2R-Wandler
Beim R-2R-Wandler dient eine Kette von Widerständen mit den Werten R und 2R dazu, aus einer Referenzspannung durch Stromsummation bzw. durch Spannungsteilung eine dem anliegenden Bitmuster entsprechende Ausgangsspannung zu erzeugen (Abb. 11/25). Zur Entkopplung dieses Widerstandsnetzwerks von der Schaltungsumgebung dient ein Operationsverstärker. Vorteile des R-2R-Verfahrens sind der einfache Schaltungsaufbau, die erzielbare Genauigkeit und die einfache Erweiterbarkeit auf größere binäre Stellenzahlen.
Abb. 11/25. Funktionsschaltbild eines R-2R-D/A-Wandlers.
11.3.2.2
Delta-Sigma-Wandler
Der Delta-Sigma-D/A-Wandler hat eine mit dem Delta-Sigma-A/D-Wandler vergleichbare Struktur. Er besteht im Wesentlichen aus einem Interpolationsfilter und einem nachgeschalteten Modulator (Abb. 11/26). In Analogie zum gleichnamigen A/D-Wandler arbeitet der Delta-Sigma-D/A-Wandler ebenfallls mit hoher Taktfrequenz. Aus diesem Grund müssen die digitalen Eingangssignale an die sehr viel höhere interne Taktfrequenz durch Interpolation, also durch Errechnung von Zwischenwerten, angepasst werden. Den Modulator dieses D/A-Wandlers zeigt Abb. 11/27 in vereinfachter Form. 622
Systemkomponenten der digitalen Signalverarbeitung Abb. 11/26. Struktur eines D/A-Wandlers nach dem Delta-SigmaPrinzip.
Abb. 11/27. Modulator eines DeltaSigma-D/A-Wandlers.
Die Differenz aus dem Eingangssignal und dem in einer Schleife zurückgeführten Signal wird zum vorhergehenden Wert addiert (akkumuliert) und das Ergebnis auf einen Komparator gegeben. Der Ausgangswert des Komparators bildet einerseits die Ausgangsgröße des Modulators und wird andererseits zur Bildung des Differenzwerts genutzt. Der Ausgangswert des Komparators entspricht bereits dem Ergebnis der Wandlung. Er muss aber, weil er stark um einen Mittelwert schwankt, mit Hilfe eines analogen Tiefpassfilters von störenden Signalanteilen befreit werden. Dieses Filter dient gleichzeitig dazu, die Abschwächung hoher Frequenzanteile (vgl. Abb. 11/18) zu reduzieren. Da bei Wandlern nach dem Delta-Sigma-Prinzip allgemein mit hoher Abtastfrequenz gearbeitet wird, können (wie schon bei den A/D-Wandlern) die Filter des D/A-Wandlers so eingestellt werden, dass ein Teil des Quantisierungsrauschens in den außerhalb des Basisbands liegenden Frequenzbereich verlagert wird (vgl. Abb. 11/24). 11.3.2.3
Bitstream-Systeme
Bei Delta-Sigma-Wandlern wird die hohe Rate des Bitstroms als Ausgangsgröße des Analog/Digital-Wandlers tiefpassgefiltert und für die Weiterverarbeitung auf die durch das Abtastkriterium vorgegebene Abtastfrequenz fs heruntergerechnet (dezimiert). Aus dem gleichen Grund müssen vor der Digital/Analog-Wandlung durch einen Delta-Sigma-Wandler die mit der Abtastfrequenz fs einlaufenden Datenworte auf die wandlerintern verwendete Taktfrequenz hochgerechnet, d. h. interpoliert, werden. Ein derartiges System zeigt Abb. 11/28.
Abb. 11/28. PCM-Speicher mit Delta-Sigma-Wandlern.
Es liegt der Gedankengang nahe, ein System zu definieren, bei dem die Rechenoperationen „Dezimation“ und „Interpolation“ entfallen können. In einem solchen System wird nur der Bitstrom (bitstream) als Ausgangsgröße des Delta-Sigma-A/D-Wandlers übertragen oder 623
Grundlagen der digitalen Tontechnik gespeichert (Abb. 11/29). Das Verfahren wird durch den Begriff „Direct Stream Digital“ (DSD) beschrieben; das Konzept der SACD (Super Audio CD) basiert auf diesem Prinzip (s. Kap. 14.1.10). Der Datenstrom eines Delta-Sigma-Wandlers kann auch zur direkten Ansteuerung eines „Digitalen Verstärkers“ – oft als „Class-D-Amplifier“ bezeichnet – verwendet werden (Abb. 11/30). Class-D-Verstärker haben gegenüber konventionellen Verstärkertypen den Vorteil eines hohen Wirkungsgrads, da in der Lautsprecherendstufe nur steilflankige zweiwertige (binäre) Signale geschaltet werden müssen, und somit die Verlustleistung, die bei analoger Schaltungstechnik beim vergleichsweise langsamen „Durchfahren“ von HalbleiterKennlinienfeldern entsteht, gering gehalten werden kann.
Abb. 11/29. Direct-Stream-Digitalübertragung und Speicherung.
Abb. 11/30. Ansteuerung des Class-DVerstärkers durch einen Bitstrom.
11.3.3
Digitale Signalverarbeitung
Mit der Entwicklung leistungsfähiger Rechnersysteme wurde es möglich, digitale Tonsignale nicht nur zu übertragen oder zu speichern, sondern auch gezielt in ihren Eigenschaften zu verändern, d. h., sie digital zu bearbeiten. Ähnlich wie bei konventionellen Analogschaltungen lassen sich nun digitale Signale rechnerisch in ihren Amplitudenwerten verändern, summieren oder im Klang verändern (pegeln, mischen, filtern). Die digitale Be- oder Verarbeitung eines Tonsignals ist somit gleichzusetzen mit der Anwendung von elementaren Rechenoperationen auf dieses Signal (Tab. 11/2). Tab. 11/2. Analoge und digitale Tonsignalbearbeitung im Vergleich. Analoge Funktion Verstärkungsänderung Abblenden, Aufblenden Mischung Filtern
624
Digitale Rechenoperation Multiplikation mit konstantem Faktor Multiplikation mit einer digitalisierten Blendfunktion Lineare Addition Verknüpfung mit benachbarten Werten
Systemkomponenten der digitalen Signalverarbeitung Die Anwendung von definierten Rechenoperationen zur digitalen Signalverarbeitung sollte in der Theorie zu beliebig genauen Ergebnissen führen. In der Praxis ist jedoch die Rechengenauigkeit durch die im Signalprozessor verwendete Wortbreite begrenzt. Aus dieser Datenwortkürzung (truncation) oder Rundung (decimation) resultieren Fehler, die den Charakter eines Quantisierungsfehlers haben. Zur Minderung der störenden Wirkung des Rechenfehlers können daher prinzipiell dieselben Maßnahmen wie bei der Reduktion von Quantisierungsfehlern durch Signalwandler ergriffen werden. Systeme zur digitalen Signalverarbeitung bestehen aus den beiden Hauptkomponenten „Hardware“ und „Software“. Als Hardware werden unterschiedliche Arten von Rechnern eingesetzt. So können je nach Aufgabenstellung beispielsweise ein PC als Universalrechner aber auch speziell für die digitale Signalverarbeitung entwickelte Mikroprozessoren zum Einsatz kommen. An deren Stelle werden für bestimmte Anwendungsfälle auch mit „Firmware“ programmierbare Logikschaltungen in Form integrierter Field Programmable Gate Arrays (FPGA) miteinander kombiniert. Die Software stellt die für die Signalverarbeitung erforderlichen mathematischen Operationen (Algorithmen) und übergeordneten Steuerungsfunktionen (Programme) zur Verfügung. 11.3.3.1
Signalprozessoren
Die digitale (Ton-)Signalverarbeitung im Studio stellt besondere Anforderungen an die Leistungsfähigkeit der eingesetzten Rechner: es müssen in der Regel große Datenmengen mit hoher Geschwindigkeit in Echtzeit verarbeitet werden. Um diesen Anforderungen gerecht werden zu können, wurden für die digitale Signalverarbeitung spezielle Prozessoren (DSP, Digital Signal Processor) entwickelt, die sich in ihrer Architektur von herkömmlichen Universalprozessoren unterscheiden. Universell verwendbare Rechner, also zum Beispiel auch ein PC, sind in der sog. „von-Neumann-Architektur“ aufgebaut, d. h., sie bestehen aus einem Prozessor und einem Speicher, welche über einen Adressbus und einen Datenbus miteinander verbunden sind (Abb. 11/31).
Abb. 11/31. Rechner mit von-NeumannArchitektur.
Der Programmcode (Befehle) und die Signal-Daten sind bei dieser Struktur im selben Adressbereich gespeichert. Eine derartige Rechnerstruktur ist für komplexe Signalverarbeitungsprozesse relativ langsam und auch aufwändig zu programmieren. Besser für eine digitale Signalverarbeitung geeignet sind Rechner mit einer sog. „HarvardArchitektur“. Bei dieser Architektur werden für die Befehle und für die Daten getrennte Speicher eingesetzt, auf die über getrennte Adress- und Speicherbusse zugegriffen wird. Diese 625
Grundlagen der digitalen Tontechnik Architektur ermöglicht den gleichzeitigen Zugriff zu den Befehls- und den Datenspeichern und macht damit die Rechenprozesse schneller (Abb. 11/32). Ein Signalprozessor verfügt über spezielle Rechenwerke zur Adressierung der zu verarbeitenden Daten und über Rechenwerke für bestimmte, in der Signalverarbeitung häufig vorkommende Operationen, z. B. für Multiplikationen mit anschließender Addition. Die Prozessoren besitzen Schnittstellen (interfaces) zum direkten Anschluss von A/D- und D/A-Wandlern und anderer Peripheriegeräte, oder auch für die Verbindung mehrerer Signalprozessoren untereinander. Signalprozessoren werden hinsichtlich der intern verwendeten Datenformate unterschieden. Für die Tonsignalverarbeitung wird häufig das Gleitkommaformat (floating point format) dem Festkommaformat (fixed point format) vorgezogen.
Abb. 11/32. Rechner mit Harvard-Architektur.
Field Programmable Gate Arrays Eine Alternative zu Signalprozessoren sind Field Programmable Gate Arrays (FPGA). Dies sind integrierte Halbleiterschaltungen, die programmierbare Logikelemente und programmierbare Verbindungsleitungen enthalten. Die Logikelemente können so konfiguriert werden, dass sie die Funktionalität elementarer Logikbausteine erfüllen, aber auch komplexere kombinatorische Funktionen wahrnehmen, wie beispielsweise Decoder, Rechenwerke oder Speicher. Über eine Hierarchie von programmierbaren Verbindungsleitungen werden einzelne Logikelemente miteinander verknüpft und damit die jeweils gewünschte Funktion durch „Firmware“ realisiert. Als Vorteil eines FPGA gegenüber dem Einsatz von Signalprozessoren gilt, dass sich bestimmte Operationen der Signalverarbeitung besonders schnell und mit vielen Operatoren gleichzeitig durchführen lassen. Field Programmable Gate Arrays mit mehr als 256 externen Datenleitungsanschlüssen sind weit verbreitet. 11.3.3.2
Filter
Unter dem Begriff „Filter“ wird in der Tonstudiotechnik ein System verstanden, welches Frequenzbestandteile eines Audiosignals in Relation zu anderen Frequenzanteilen verstärkt oder abschwächt. Klassische Filter haben Tiefpass-, Hochpass- Bandpass- oder Bandsperrenfunktion. 626
Systemkomponenten der digitalen Signalverarbeitung Diese Filterfunktionen sind in ihrer rechnerischen Realisierung komplexer als konventionelle Pegeländerungen oder Mischungen. Filter sind in der Analogtechnik wie in der Digitaltechnik durch ihre Übertragungsfunktion im Frequenzbereich oder ihre Impulsantwort im Zeitbereich charakterisiert. In der Analogtechnik wird die gewünschte Übertragungsfunktion durch eine Zusammenschaltung von Widerständen, Kondensatoren und Spulen, oft auch in Verbindung mit Verstärkerelementen, realisiert. Kondensatoren haben dabei mit ihrer Kapazität (ebenso wie Spulen mit ihrer Induktivität) die Wirkung eines die Zeitbasis beeinflussenden Glieds mit Speicherwirkung. Eine Signalspeicherung lässt sich in der Digitaltechnik durch Adress- oder Registermanipulationen besonders einfach realisieren. Daher bestehen digitale Filter im Prinzip aus einer logischen Verknüpfung von Speicherelementen und der rechnerischen Kombination der zu unterschiedlichen Zeitpunkten erfassten Speicherinhalte. In der Theorie der digitalen Signalverarbeitung werden zwei Grundformen von digitalen Filtern unterschieden. Ein FIR-Filter mit zeitlich begrenzter Impulsantwort (Finite Impulse Response Filter) ist in Abb. 11/33 dargestellt. Es handelt sich hierbei um ein sog. Transversalfilter, bei dem die in Serie oder parallel geschalteten Speicherelemente mit „z-1“ bezeichnet werden; der Operator z-1 bedeutet eine Verzögerungszeit von jeweils einem Taktzyklus. Die Koeffizienten bn sind die Multiplikatoren der zwischen den Speicherzellen ausgetauschten Signalwerte. Eine besondere Eigenschaft von FIR-Filtern ist, dass sich mit ihnen (anders als in der Analogtechnik) Filter mit linearem Phasengang erzeugen lassen. Sie besitzen, wie der Name bereits sagt, ein definiert endliches Ausschwingverhalten.
Abb. 11/33. Transversal-Struktur eines FIR-Filters.
Abb. 11/34. Rekursiv-Struktur eines IIR-Filters.
Eine andere Filterstruktur mit zeitlich unbegrenzter Impulsantwort, das Infinite Impulse Response Filter (IIR-Filter), zeigt Abb. 11/34. Bei dieser Filteranordnung werden neben den durch die Koeffizienten „bn“ beschriebenen Transversalkomponenten weitere, sog. rekursive 627
Grundlagen der digitalen Tontechnik Signalanteile mit den Koeffizienten „an“ bewertet und rückgekoppelt. Ein IIR-Filter enthält somit rekursive und verzögerte Signalanteile, die dazu führen können, dass die Impulsantwort – zumindest theoretisch – nie auf den Wert 0 abklingt. In kritischen Fällen nimmt ein IIRFilter durch Rundungsfehler im Rechenvorgang die Funktion eines mit der Taktfrequenz verkoppelten Oszillators an, wobei das Ausgangssignal unendlich lange symmetrisch um den Signal-Nullpunkt pendelt (limit cycles). Bei richtig dimensionierter IIR-Struktur lassen sich die geforderten Eigenschaften und Leistungsdaten von Filtern sehr effizient gestalten. Die bei der Tonsignalverarbeitung angewendete Filterstruktur wird in der Regel für den Anwender nach außen hin nicht sichtbar. Fast Fourier Transform (FFT) Die bildhafte Darstellung von Signalen im Frequenzbereich kann durch Anwendung der Fouriertransformation berechnet werden. Die Berechnung einer (diskreten) Fouriertransformation ist jedoch aufwändig, so dass an ihrer Stelle fast immer der von Cooley und Tukey publizierte Algorithmus in Form der FFT (Fast Fourier Transform) zur Anwendung kommt. Dieser Algorithmus ist in der digitalen Signalverarbeitung so häufig anzutreffen, dass die hierzu benötigte Software für nahezu jede Rechnerhardware verfügbar ist. Ergebnis der FFT ist wie bei der Fouriertransformation ein Cosinus- bzw. Sinus-Spektrum, die aber für die grafische Darstellung meistens in ein Betrags- und ein Phasenspektrum umgerechnet werden. Auf die Darstellung des Phasenspektrums wird in der Tonstudiotechnik häufig verzichtet.
11.4
Digitale Signalübertragung
Aufgabe eines Übertragssystems ist es, die aus einer Informationsquelle entspringenden Nachrichten möglichst effizient und fehlerfrei zu einer Informationssenke, in der Tonstudiotechnik demnach zum Hörer als „Rezipienten“, zu übertragen. Hierzu werden Codierungsverfahren eingesetzt, welche einerseits den jeweiligen Signaleigenschaften angepasst sind (Quellencodierung), und die andererseits die besonderen Eigenschaften des Übertragungskanals berücksichtigen (Kanalcodierung). Ein solches Übertragungssystem ist in Abb. 11/35 schematisch dargestellt.
Abb. 11/35. Quellen- und kanalcodiertes Übertragungssystem.
11.4.1
Quellencodierung und Datenkompression
Zur wirksamen Datenmengen-Kompression bzw. -Reduktion werden bei der Quellencodierung sowohl Eigenschaften der Signale selbst, wie auch die Eigenschaften der von den Signalen zu übermittelnden Inhalte bzw. die Bedeutung der Informationsfolge (Semantik) ausgenutzt. 628
Digitale Signalübertragung Bei einem in PCM-Form vorliegenden Digital-Signal ist jedes einzelne Datenwort im Zusammenhang mit dem vorangegangenen oder dem nachfolgenden Wert zu betrachten. Es kann daher sinnvoll sein, diesen Zusammenhang zu nutzen und lediglich die Differenz zwischen zwei aufeinander folgenden Datenworten zu übertragen. Da dieser Unterschied meist nur gering ist, reicht zur Übertragung des Differenzsignals ein kleiner Wertebereich und daher auch ein Datenwort mit nur geringer Wortbreite aus. Eine derartige Codierung wird als Differenzielle Puls-Code-Modulation (DPCM) bezeichnet. Die Anwendung einer DPCM nutzt also bestimmte Signaleigenschaften aus, um die Menge der zu übertragenden Daten zu verringern. DPCM ist ein Quellencodierverfahren (wie PCM auch) und beschreibt die Eigenschaften des Quellensignals ohne Informationsverlust. Oft enthalten Signale die von ihnen zu übermittelnden Informationen mehrfach oder in uneffizienter, zur Weiterverarbeitung nicht optimaler Form. Die Umwandlung in eine weniger „verschwenderische“ Darstellungsform kann das Signal von überzähligen oder unnützen Datenkomponenten befreien; die im Signal enthaltene „Redundanz“ entfällt. Eine Datenmengen-Kompression, welche nur die Redundanz reduziert, die Inhalte aber unverändert lässt, wird als verlustfrei bezeichnet. Das bedeutet, dass sich bei einer Dekompression (Expansion) der ursprüngliche Informationsgehalt identisch wieder herstellen lässt. Beispiele für eine verlustfreie, also redundanzreduzierende Kompression sind die Morsetelegrafie, welche häufig verwendeten Zeichen eine kurze „Wortlänge“ zuordnet und dafür seltener vorkommende Zeichen aufwändiger codiert (Optimalcodierung), oder das in der Computertechnik oft verwendete ZIP-Kompressionsverfahren und das für die Übertragung von Tonsignalen besonders geeignete FLAC-Format (Free Lossless Audio Coding, s. Kap. 12.8.2). Eine besondere Stellung nimmt die irrelevanzreduzierende Quellencodierung ein, die die Eigenschaften des Rezipienten – in der Tonstudiotechnik demnach die physiologischen und psychologischen Wahrnehmungsmechanismen des menschlichen Gehörs – nutzt, um die Datenmenge bei Tonsignalen drastisch zu reduzieren (Kap. 12.2).
11.4.2
Kanalcodierung und Fehlerbehandlung
Die Kanalcodierung hat die Aufgabe, digitale Signale so aufzubereiten, dass diese einen Nachrichtenkanal ohne Beeinträchtigung passieren können. Dies lässt sich z. B. durch Hinzufügen von redundanten Daten als Schutz gegen Übertragungsfehler erreichen. Die Redundanzen bewirken dann, dass Übertragungsfehler erkennbar und im Idealfall auch korrigierbar sind. Bei einfachen, aber wirksamen Methoden der Zeichensicherung durch Redundanzbildung werden Informationen mehrfach übertragen oder Prüfsummen mit auf den Weg gegeben. Für eine wirksame Kanalcodierung sind die speziellen Eigenschaften des jeweiligen Übertragungsmediums zu berücksichtigen. So hat eine stationäre Hochfrequenz-Übertragungsstrecke ganz andere Eigenschaften als ein mobiler Funkkanal, im „optischen Speicherkanal“ der Audio-CD wirken andere Fehlermechanismen als bei der digitalen Magnetbandaufzeichnung. Steht auf dem Signalführungsweg ein Rückkanal zur Verfügung, kann bei erkannten Fehlern eine Wiederholung der Übertragung veranlasst werden; man spricht dann von Rückwärtskorrektur. Bei nicht vorhandenem Rückkanal lässt sich durch Codespreizung (interleaving) 629
Grundlagen der digitalen Tontechnik erreichen, dass Bündelfehler (burst errors) in Einzelbitfehler umgewandelt und mit Hilfe von Paritätsbits (parity bits) korrigiert werden können. Verfahren dieser Art werden als Vorwärtskorrektur bezeichnet (vgl. auch Kap. 17.1.3). Ist eine Fehlerkorrektur nicht möglich, kann zumindest versucht werden, den Fehler durch Interpolation zu verschleiern (error concealment) oder als letzte Konsequenz die Übertragung für einen Moment stumm zu schalten (muting). Innerhalb eines Funkhauses werden als physikalisches Transportmedium für Digitalsignale vielfach Kupferkabel benutzt. Um störende Leiterschleifen zu vermeiden, sind digitale tontechnische Geräte zur galvanischen Entkopplung an diese Signalleitungen in der Regel induktiv (mit Übertragern) angeschlossen. Da jeweils nur ein Adernpaar zur Verfügung steht, ergibt sich hieraus als Forderung an die Kanalcodierung, dass diese einen bitseriellen, gleichanteilfreien und selbsttaktenden Datenstrom zu liefern hat. Eine Kanalcodierung, die dieses leistet, ist z. B. der Biphase-Mark-Code (Kap. 11.5.1.3).
11.4.3
Übertragungsnetze
Für professionelle Anwendungen in der Tonstudiotechnik ist als klassische Leitungsschnittstelle das AES/EBU-Interface zur Übertragung von Mono- oder Zweikanal-Stereo-Signalen (sowie von zugeordneten Zusatzinformationen) definiert. Eine sehr ähnliche Technik wurde für Consumer-Anwendungen als SPDIF-Interface von den Firmen Sony und Philips spezifiziert. Sollen mehr als zwei Tonkanäle übertragen werden, können die Bitströme einer AES/EBUSchnittstelle zu einer MADI-Verbindung gebündelt werden. Über eine MADI-Verbindung können bis zu 56 Tonkanäle und weitere Daten über Kupferkabel oder Lichtwellenleiter übertragen werden. MADI ist die Abkürzung für Multichannel Digital Audio Interface. Häufig werden in Tonstudios auch dedizierte, firmenspezifische Verfahren zur Bündelung von mehreren Tonkanälen auf einem Übertragungsmedium verwendet. Hierzu gehören auch die relativ weit verbreiteten ADAT- und TDIF-Schnittstellen (Kap. 11.5.2). Für die Fernübertragung werden die digitalen Datenströme eines Funkhauses mit Hilfe von Multiplexern in die internationalen Netze gemäß der „Synchronen Digitalen Hierarchie“ (SDH) eingespeist. Für die Tonübertragung wird häufig die E1- Schnittstelle mit einer Datenrate von 2 MBit/s eingesetzt (s. Kap. 16.2.4). Während die bislang erwähnten Übertragungsnetze speziell für die Realzeit-Übertragung digitaler Tonsignale entwickelt und optimiert worden sind, kommen innerhalb eines Funkhauses oder Tonstudios auch Übertragungssysteme zum Einsatz, die aus der Computertechnik entlehnt wurden. Für den direkten Anschluß externer digitaler Audiogeräte an PCs haben sich u. a. der sog. FireWire (IEEE 1394) und die USB-Verbindung (Universal Serial Bus) durchgesetzt (Kap. 11.5.3/4). Auch für die Übertragung digitaler Daten über Netze der Computertechnik wurden spezielle Protokolle entwickelt. Eine der bekanntesten im LAN-Bereich (Local Area Network) verwendeten Datenanbindungen ist die Ethernet-Schnittstelle, welche den physikalischen Zugriff und die Adressierungsmechanismen standardisiert. 630
Digitale Audioschnittstellen Die wohl wichtigste sowohl im LAN- als auch im WAN-Bereich (Wide Area Network) verwendete Abwicklungsregel für den Datenverkehr ist das Internet-Protokoll (IP). Das Internet-Protokoll ist eine untere Schicht der Internet-Protokoll-Hierarchie und steuert mit Hilfe von IP-Adressen den Verkehr zwischen verschiedenen Rechnern und die Weiterleitung von Datenströmen über sog. Router in andere Rechnernetze. Wichtige das IP nutzende übergeordnete Schichten werden durch die TCP- und UDP-Protokolle spezifiziert (vgl. Kap. 17.4.3). Das TCP (Transmission Control Protocol) sorgt für einen fehlerfreien Transport der Daten innerhalb eines Netzes dadurch, dass einzelne Datenpakete nach fehlerfreier Übertragung positiv quittiert werden, während im Fehlerfall diese Quittung ausbleibt. Da beim TCP/IP immer auf Quittungen gewartet werden muss, können bei einer Tonübertragung in Echtzeit wegen zu langer Laufzeiten in Übertragungsleitungen und aktiven Netzwerkkomponenten Störungen durch Unterbrechungen des Signalflusses auftreten. Die Qualitätsmerkmale eines Netzwerks werden durch seine Dienstgüte (Quality of Service, QoS) beschrieben. Für eine Tonübertragung in Echtzeit entsprechend TCP/IP kann eine geeignete QoS derzeit nicht gewährleistet werden (s. auch Kap. 18). Unproblematisch ist dagegen die fehlergesicherte nicht zeitkritische Übertragung von Audiofiles (auf Rechnern gespeicherte digitale Tonsignal-Dateien). Dieses Verfahren wird daher für den Audiofile-Transfer regelmäßig eingesetzt. Abhilfe gegen Unterbrechungen durch zu lange Verzögerungen kann die Anwendung des UDP schaffen. Beim UDP (User Datagram Protocol) wird auf Quittungen gänzlich verzichtet. Vorteil des UDP gegenüber dem TCP ist dadurch in der Regel eine schnellere Übertragung der Daten, da nicht auf eine Bestätigung gewartet werden muss. Die Anwendungsprogramme müssen sich dann allerdings selbst um mögliche Fehlerkorrekturen kümmern. Ein Beispiel für die Anwendung von UDP in der Tontechnik ist Streaming Audio, welches zur Übertragung von Hörfunkprogrammen im Internet genutzt wird. Eine detaillierte Beschreibung von digitalen Audioschnittstellen findet sich im nachfolgenden Kap. 11.5.
11.5
Digitale Audioschnittstellen
Der Austausch von digitalen Audiosignalen zwischen Geräten erfolgt über standardisierte Datenschnittstellen, die Bedingungen auf verschiedenen Ebenen erfüllen müssen und zwar hinsichtlich ihrer - logischen Bedingungen, wie Datenformate, Steuerfunktionen usw. - elektrischen (elektroakustischen, opto-elektronischen) Anschluss- und Übertragungsbedingungen, wie Impedanzen, Frequenzbereiche, Taktfrequenzen usw. - mechanisch-konstruktiven Bedingungen, wie Steckverbindertypen und -belegungen, Leitungslängen usw. Die Übertragung von Mono-, Zweikanal- oder Mehrkanal-Audiosignalen erfolgt in der Regel über Schnittstellen, die auf der SPDIF- bzw. AES/EBU-Spezifikation basieren. Für mehrkanalige Audioschnittstellen wurden von den Magnetbandgeräteherstellern Übertragungsformate wie ADAT und TDIF spezifiziert, die AES veröffentlichte später für die mehrkanalige 631
Grundlagen der digitalen Tontechnik Übertragung das MADI-Format. Für die Vernetzung von Video- und Audioequipment wurde von Apple der sog. FireWire entwickelt, der unterdessen als IEEE1394-Standard allgemeine Verwendbarkeit ermöglicht. Auch das zunächst für PC-Peripheriegeräte, wie Maus und Tastatur, gedachte USB-Interface (Universal Serial Bus) ist für die Anbindung von AudioGeräten gut geeignet und findet immer größere Verbreitung. Für die digitale Übertragung von Videosignalen sind die Interfaces SDI und HDMI als wesentliche Vertreter zu nennen, die auch die assoziierten Audiokanäle mit übertragen. Auf die Beschreibung der DS1-Schnittstelle, die in früheren Jahren für die Zuführung des Audiosignals über postalische Leitungen bedeutsam war, wird hier verzichtet. Weiterhin sei auf Kap. 11.4 mit einer allgemeinen Einführung in die Thematik der digitalen Signalübertragung und digitaler Übertragungsnetze verwiesen, ferner auf Kap. 18.3.2, in dem Messhilfsmittel für digitale Schnittstellen behandelt werden.
11.5.1
AES/EBU und SPDIF
Die digitale Übertragung von Audiosignalen zwischen Geräten findet in der Regel über die sog. AES/EBU-Schnittstelle [AES3] oder die SPDIF-Schnittstelle [IEC60958] statt. Diese beiden Schnittstellenspezifikationen sind sich sehr ähnlich. AES/EBU bezeichnet umgangssprachlich eine Variante für professionelles Equipment, während SPDIF eine Variante für den Consumer-Bereich kennzeichnet. Die Abkürzungen AES/EBU und SPDIF bedeuten Audio Engineering Society / European Broadcasting Union und Sony/Philips Digital InterFace. Die Unterschiede ergeben sich vorrangig aus den verwendeten Leitungen und der elektrischen Anbindung. Die AES/EBU-Schnittstelle verwendet symmetrische Leitungen, die SPDIFSchnittstelle abgeschirmtes Koaxialkabel, also jeweils die gleichen Leitungen wie sie auch in der analogen Audiotechnik üblich sind. In einer weiteren, ursprünglich Toshiba-proprietären und als TOS-Link bekannt gewordenen Variante von SPDIF kommen optische Leiter zum Einsatz. Prinzipiell handelt es sich um eine unidirektionale serielle Übertragung für Audiodatenströme mit Zusatzinformationen. Der serielle Bitstrom ist selbstsynchronisierend, es sind also keine zusätzlichen Taktleitungen erforderlich. Es sind verschiedene Modi für Mono- und Stereosignale und für komprimierte Surround-Sound-Signale vorgesehen [IEC61937]. Die StandardAbtastraten von 32, 44,1 und 48 kHz werden unterstützt. Die Audiodaten können mit einer Auflösung von bis zu 24 Bit übertragen werden, und es sind noch vier weitere Bits hinzugefügt. Ein Bit wird für die serielle Übertragung von Kanalstatus-Informationen verwendet, ein anderes Bit kann als serieller Datenkanal frei von der Applikation benutzt werden. Die Spezifikation der Kanalstatus-Information unterscheidet sich bei AES/EBU und SPDIF. Aufgrund der Ähnlichkeit von AES/EBU und SPDIF ist es aber möglich, die Signale mit einem einfachen Kabeladapter zu konvertieren. Allerdings kann dann die Funktion aufgrund der unterschiedlichen Kanalstatus-Formate beeinträchtigt sein. Viele Geräte verstehen beide Formate. 11.5.1.1
Entwicklung
Das ursprünglich von Sony entwickelte Serial Data Interface wurde auch von anderen Herstellern unterstützt und fand als SDIF-2-Format weite Verbreitung. Diese Schnittstelle benutzt 632
Digitale Audioschnittstellen drei Koaxialkabel, die den linken und den rechten Kanal als seriellen Datenstrom sowie ein Worttakt-Signal übertragen. Die SDIF-2-Schnittstelle war sehr zuverlässig für kurze Strecken, aber es wurde bald deutlich, dass in Rundfunkanstalten und Studios auch längere Verbindungsleitungen gebraucht werden. Die Audio Engineering Society (AES) richtete daraufhin eine Arbeitsgruppe ein, um ein entsprechendes Interface zu entwickeln. Die Hauptanforderungen an dieses Interface waren: - eine einfache Leitung, die bereits in Benutzung befindliche Stecker verwendet, - serielle Übertragung, die lange Kabellängen erlaubt, - Audio-Wortbreiten von bis zu 24 Bit, - Übertragung von Zusatzinformationen, wie zum Beispiel Abtastrate, Bearbeitungsparameter und Timecode, sowie - niedrige Kosten. 1985 veröffentlichte die AES die erste Version der AES3-Spezifikation. ANSI (Amerika), EBU (Europa) und EIAJ (Japan) ratifizierten den Standard jeweils unter ihrer Nomenklatur, wenn auch mit kleinen Modifikationen. Die größte Modifikation führte die EBU mit der Verwendung von Übertragern für die symmetrische Leitungsführung ein, was zur Namensgebung AES/EBU-Interface führte [Tech3250]. Parallel wurde von Philips und Sony, den Marktführern bei CD-Spielern, die Entwicklung einer Schnittstelle vorangetrieben, die mit einem Kabel unter Anwendung von Cinch-Steckverbindern auskommen sollte. Das Ergebnis wurde SPDIF genannt und als IEC-Standard veröffentlicht. Die Ähnlichkeit von SPDIF und AES/EBU ist kein Zufall. Trotzdem verursachten die Unterschiede anfangs zahlreiche Probleme bei der Verbindung von ConsumerGeräten mit professionellen Geräten. Diese wurden aber durch einige kleine Anpassungen der Spezifikationen in den Griff bekommen. Die aktuelle Version des Standards heißt [IEC 60958] und beschreibt sowohl die Consumer-Variante der Schnittstelle in Teil 3, als auch die professionelle Variante (IEC 958 type II) in Teil 4. Mit der Einführung von Surround-Sound wurde sowohl in der Studio-Produktion als auch in den Consumer-Endgeräten eine digitale Schnittstelle für 5.1-Signale notwendig. SPDIF und AES/EBU Spezifikation bieten Bitraten, die hinreichend hoch sind, um Surround-Formate in komprimierter Form zu übertragen. Hierzu wurden für verschiedene Audiocodecs wie AC3, MPEG und DTS entsprechende Packungsformate spezifiziert, die in [IEC 61397] beschrieben sind. In ähnlicher Weise wird die AES/EBU-Spezifikation für die Übertragung von Dolby-Ecodierten Mehrkanalformaten verwendet. 11.5.1.2
Datenformat
Zur Übertragung über eine einzelne Leitung müssen die Audiodaten serialisiert werden. Abb.11/36 veranschaulicht das serielle Übertragungsformat. Die kleinste Übertragungseinheit ist eine Gruppe von 32 Bit. Die ersten vier Bit bilden eine Präambel, die zur Synchronisierung dient. Danach folgt das Audiodatenwort mit 24 bzw. 20 Bit. Die niederwertigen Bits (Least Significant Bits) werden zuerst übertragen. Im 20-Bit-Modus (Abb. 11/36 b) sind vor dem Audiodatenwort noch vier „Auxiliary-Bits“ für Zusatzinformationen verfügbar. Danach folgen dann vier Bits, die jedes eine spezielle Funktion unterstützen: Das Validity-Bit (V) signalisiert, ob die übertragenen Daten einen gültigen Audio-Abtastwert darstellen. 633
Grundlagen der digitalen Tontechnik Das User Data Bit (U) kann als unabhängiger Bitstrom für eine Applikation frei verwendet werden. Die Channel-Status-Bits (C) werden über eine bestimmte Länge gesammelt und ergeben so die Kanalstatus-Information. Das Parity-Bit (P) hilft schließlich zu überprüfen, ob Bit 4 bis Bit 31 korrekt übertragen wurden. Es wird so gewählt, dass sich immer eine gerade Anzahl von Nullen und Einsen ergibt.
Abb. 11/36. Datenformat der AES/EBU und SPDIF Datenschnittstelle.
Zwei Gruppen bilden einen Rahmen. In der Regel sind dies der rechte und linke Kanal eines Stereosignals; es werden aber auch andere Modi unterstützt. 192 Rahmen sind in einem Block zusammengefasst. Die Channel-Status-Bits eines Blocks ergeben 24 Bytes als KanalstatusInformation. Spätestens nach 192 Abtastwerten (dies entspricht bei einer Abtastfrequenz von 48 kHz einer Zeit von 4 ms) steht die aktuelle Kanal-Status-Information somit beim Empfänger zur Verfügung. Tab. 11/3. Kanal-Status-Information bei SPDIF. Bits 0-1
Bezeichnung Pro / Con
2
Kopierschutz
3-5
Emphasis
6-7 8-15 16-19 20-23 24-27
Kanalstatus Kategorie Quellennummer Kanalnummer Abtastfrequenz
28-29
Clock-Genauigkeit
30-31 32
reserviert Wortfeldgröße
33-35 36-191
Wortlänge reserviert
634
Beschreibung 00: IEC 60958-3 Consumer-Format 10: IEC 60958-4 Professionelles Format 01: IEC 61397 (MPEG/AC-3/DTS/AAC/ATRAC), IEC62105, ... 11: SMPTE 337M und andere 0: Aktiviert 1: Nicht aktiviert 000: keine Emphasis angezeigt 100: Emphasis CD-Type 00: Modus Null; andere Werte reserviert (anwenderspezifisch) (anwenderspezifisch) (anwenderspezifisch) 0000: 44,1 kHz 0100: 48 kHz 1100: 32 kHz 10: Level 1, ±50 ppm 00: Level 2, ±50 ppm 01: Level 3, variable pitch shifted 0: Maximale Wortlänge 20 Bit 1: Maximale Wortlänge 24 Bit Kennzeichnet die Anzahl der gültigen Bits im Audiowort
Digitale Audioschnittstellen Tab. 11/4. Kanal-Status-Information bei AES/EBU. Bits
Bezeichnung
0-1
Pro / Con
2-4
Emphasis
5
Lock
6-7
Abtastfrequenz
8-11
Kanal-Modus
12-15
User Bit Management
16-18 19-21 22-23
Aux-Verwendung Wortlänge Pegelanpassung
24-31
Kanalzuordnung
32-33
DARS
34 35-38
Abtastfrequenz
39
Skalierung
40-79 80-111 112-143 144-175 176-183 184-191
Herkunft Ziel Blockzähler Zeitcode Zuverlässigkeits-anzeige CRC
Beschreibung 00: IEC 60958-3 Consumer-Format 10: IEC 60958-4 Professionelles Format 01: IEC 61397 (MPEG/AC-3/DTS/AAC/ATRAC), IEC 62105, ... 11: SMPTE 337M und andere 000: keine Emphasis angezeigt 100: keine Emphasis 110: Emphasis CD-Type 111: Emphasis J-17 0: nicht angezeigt 1: Unlocked 00: nicht angezeigt, bzw. in Bit 35-38 angezeigt 10: 48 kHz 01: 44,1 kHz 11: 32 kHz 0000: Nicht angezeigt (default ist 2-Kanal-Übertragung) 0001: 2-Kanal-Übertragung 0010: Mono (beide Kanäle enthalten das gleiche Signal) 0011: Primary/Secondary 0100: Stereo 0101: Reserviert 0110: Reserviert 0111: SCDSR 1000: SCDSR Stereo, linker Kanal 1001: SCDSR Stereo, rechter Kanal 1111: Multikanal, genauer spezifiziert in Bit 24-31 (SCDSR Single Channel Double Sample Rate) 0000: Nicht angezeigt 0001: 192-Bit-Block, wie beim Channel-Status 0010: Definition aus [AES18] 0011: User definiert 0100: Definition aus [IEC60958-3] Bestimmt die Verwendung der Auxiliary Bits im 20-Bit-Mode Bestimmt der Anzahl der gültigen Bits im Audiowort 00: nicht angezeigt 01: -20 dB FS 10: -18,06 dB FS Wenn Bit 31 Null ist, ergibt sich die Kanalnummer zu 1 plus die Zahl aus Bit 24-30. Wenn Bit 31 Eins ist, bestimmen Bit 28-30 einen Multichannel-Mode und Bit 24-27 die Kanalnummer. 00: kein Digitales Audio Referenz Signal (DARS) 10: DARS grade 2 (±10ppm) 01: DARS grade 1 (±1ppm) 0000: nicht angezeigt (default) 1000: 24 kHz 0100: 96 kHz 1100: 192 kHz 1001: 22,05 kHz 0101: 88,2 kHz 1101: 176,4 kHz 0: keine Skalierung 1: Skalierung der Abtastfrequenz mit dem Faktor 1/1,001 (Alphanumerische Bezeichung) (Alphanumerische Bezeichung) 32-Bit-Zahl 32-Bit-Zahl 00000000: Nicht implementiert xxxxxxxx: Cyclic Redundancy Check für Bit 0-183
635
Grundlagen der digitalen Tontechnik In Tab. 11/3 und Tab. 11/4 ist die Kanal-Status-Information für SPDIF und AES/EBU dargestellt. Sie verdeutlichen die vielfältigen Verwendungsmöglichkeiten der Schnittstellen. Auch eher seltene Abtastraten bis zu192 kHz (als geradzahlige Vielfache der Standardabtastfrequenzen) sind bei AES/EBU berücksichtigt, ebenso ist eine Skalierung auf die historische Basis-Abtastfrequenz von ca. 44,056 kHz des ursprünglichen „NTSC/Drop-Pseudo-Video“Standards möglich (s. Kap. 14.1.6.1). Wie bereits aus Tab. 11/3 und Tab. 11/4 ersichtlich, unterstützt der Standard IEC 60958 auch die Übertragung von verschiedenen Surround-Sound-Formaten. Diese sind im Standard [IEC 61397] beschrieben. Es gibt Formate für AC3, MPEG-2 MC, DTS und AAC (siehe auch Kap. 12.4). Wenn Bit 0 und 1 dies signalisieren, wird – statt der PCM-Audiodaten – der entsprechende komprimierte Datenstrom übertragen. Durch die Statusinformation wird auch sichergestellt, dass nicht versehentlich Daten, die nach IEC 61937 gepackt wurden, als PCM behandelt werden und auf den Lautsprecher gelangen. Die User Data Bits können von den Geräteherstellern frei verwendet werden. Die Spezifikation sieht eine Organisation in Blöcken von 1176 Bit vor. Ein Synchron-Wort besteht aus 16 Null-Bits in Folge. 11.5.1.3
Kanalcodierung
Die Kanalcodierung dient dazu, das Signal an die Eigenschaften des Übertragungsmediums anzupassen. Für SPDIF und AES/EBU stellten sich die Hauptanforderungen, dass sich der Takt aus dem Signal leicht regenerieren lassen muss, und dass das Signal gleichspannnungsfrei ist. Die gewählte Biphase-Mark-Codierung erfüllt diese Anforderungen. Sie überlagert dem seriellen Datenstrom die Taktfrequenz, indem an den „Bit-Grenzen“ immer ein Zustandswechsel realisiert wird. Eine Folge von Nullen wird so in einen alternierenden Bitstrom verwandelt. Für Einsen wechselt die Ausgangsfolge mit der doppelten Frequenz; der Zustandswechsel für Eins findet daher immer in der Mitte der Bitzelle statt. Abb. 11/37 verdeutlicht diesen Vorgang beispielhaft. Abb. 11/37. Biphase-MarkCodierung.
Die Rahmen- und Block-Synchronisierung wurde für SPDIF und AES/EBU mit speziellen Präambeln realisiert, die von der Biphase-Mark-Codierungsregel abweichen. Es wurden Präambeln für den Start eines Blocks (B) und für die beiden Kanäle vorgesehen (G1, G2). Abb. 11/38 zeigt diese 4-Bit-Präambeln und deren irreguläre Zustandsübergänge.
Abb. 11/38. Präambeln zur Block- und Rahmensynchronisierung.
Abb. 11/39 veranschaulicht schließlich den Aufbau der Blockstruktur mit den verschiedenen Präambeln. Diese ermöglichen es dem Empfänger, sehr schnell zu erkennen, wo Bitgruppen, Rahmen und Blöcke beginnen, ohne Verwechslungen mit den regulären Daten zu riskieren. 636
Digitale Audioschnittstellen
Abb. 11/39. Blockstruktur mit Präambeln zur Synchronisation.
11.5.1.4
Elektrische Eigenschaften und Steckverbinder
Das Spektrum des AES/EBU- bzw. des SPDIF-Signals hat aufgrund der Wortlänge von 32 Bit, der zweikanaligen Übertragung und des Biphase-Mark-Code ein Maximum bei der 32-fachen Abtastfrequenz, wenn die Bitfolge aus Nullen besteht, und bei der 64-fachen Abtastfrequenz, wenn die Folge aus Einsen besteht. Bei einer Abtastrate von 48 kHz sind dies z. B. 1,536 MHz und 3,072 MHz. Bei so hohen Frequenzen haben die Leitungseigenschaften für die Übertragung einen starken Einfluss. Die Impedanzen der Elemente der Übertragungskette müssen daher aufeinander angepasst sein. Für das AES/EBU-Interface sind symmetrische Kabel mit 110 S Wellenwiderstand mit XLRVerbindern (AES3) oder 75 S-Koaxialkabel mit BNC-Verbindern (AES3id) zu verwenden (bei Längen bis 300 m). Durch die symmetrische Leitungsführung und die Verwendung von Übertragern erfolgt eine galvanische Trennung der Systeme, und Brummschleifen werden vermieden. Für die mehrkanalige Übertragung von AES/EBU-Signalen kommen auch 50-PinSubminiatur-Steckverbinder zum Einsatz. Zunehmend erfolgt die AES/EBU-Verkabelung mit hochwertigen LAN-Kabeln. Diese sog. Cat-5- oder Cat-6-Kabel wurden ursprünglich für die Computer-Vernetzung entwickelt und benutzen als Koppelelemente die aus der Fernmeldetechnik bekannten RJ45-Stecker. Bei SPDIF sind Twisted Pairs oder Koaxial-Kabel üblich; zur Verbindung werden meistens die schon seit dem Jahre 1940 bekannten RCA- oder bauähnlichen Cinch-Stecker verwendet. An kleinen Geräten sind gelegentlich auch Miniatur-Klinkenstecker anzutreffen. Kabel, die länger als 6 m sind, sollten immer koaxial sein, jedes Standard-75 S-Videokabel kann verwendet werden. Für kurze Übertragungslängen funktionieren auch unsymmetrische Audiokabel, für längere Kabel müssen jedoch 75 S-Video-Kabel verwendet werden. Bei einer Quell- und Abschlussimpedanz von 75 S beträgt der nominale Signalpegel 0,5 V (Spitze-Spitze). Um den Datenstrom noch sicher erkennen zu können, muss am Empfängereingang ein minimaler Pegel von 0,2 V anliegen. Eine galvanische Trennung wird bei SPDIF in der Praxis kaum benutzt. Dies kann allerdings leicht zu Brummschleifen führen. Auch TOS-Link-Verbindungen, eine Variante mit Lichtwellenleiter, kommen zum Einsatz. TOS-Link-Kabel weisen eine hohe Dämpfung des Lichts auf; die überbrückbare Entfernung ist daher eingeschränkt. Andererseits haben TOS-Link-Kabel den Vorteil, dass die Gefahr von Brummschleifen und Interferenzen mit Radiofrequenzen nicht besteht. Es gibt auch Geräte, die in ein und derselben Buchse die analoge Verbindung für einen 3,5 mm-Mini-Klinkenstecker und eine optische TOS-Link-Verbindung unterstützen, so dass analoge und digitale Verbindungen alternativ verwendet werden können. 637
Grundlagen der digitalen Tontechnik Da die Abtastfrequenz aus dem übertragenen Signal zurückgewonnen wird, können Pegelschwankungen auf der Leitung einen Jitter verursachen; die Folge hiervon sind Quantisierungsfehler bei der DA-Wandlung. Üblich sind heute bei den meisten Geräten Eingangsmodule, in denen das Taktsignal regeneriert wird. Jitter spielt daher kaum noch eine Rolle (vgl. auch Kap. 11.2.2.1). Für die Umwandlung von SPDIF auf AES/EBU und umgekehrt stehen Adapterkabel zur Verfügung. Sie können aber wegen der zu erwartenden Fehlanpassung nur bei kurzen Leitungslängen verwendet werden. Tab. 11/5 fasst die verwendeten Leitungen und Steckverbinder und einige ihrer elektrischen Eigenschaften zusammen. Tab. 11/5. Elektrische Eigenschaften von SPDIF- und AES/EBU-Verbindungen. AES 110 S abgeschirmtes verdrilltes Kabel oder 75 S koaxial Stecker/Verbinder 3-Pin XLR BNC 25-Pin D-subminiature 50-Pin D-subminiature Signal-Pegel 3 – 10 V Max. Kabellänge Symm.: 300 m Unsymm.: bis zu 100 m Kabel
11.5.2
Mehrkanal-Schnittstellen
11.5.2.1
Dolby-E Interface
SPDIF 75 S koaxial oder Lichtleiter (TOS-Link) Cinch (RCA) 3,5 mm Miniklinke TOS-Link 0,5 – 1 V Koaxial: 10 m TOS-Link: max. 15 m
Die Einführung der Surround-Technik erfordert für die Distribution mehrkanalige Zuführungsleitungen. Aus praktischen Erwägungen werden die Surround-Kanäle datenreduziert und über eine Stereo-AES/EBU-Verbindung übertragen. Da es ungünstig ist, das Surround-Signal bereits bei der Produktion stark zu komprimieren, wurde für reine Distributions- und Kontributionsaufgaben das sog. Dolby-E Format entwickelt, siehe Kap. 12.4.6.3. Mit diesem Format können bis zu acht Kanäle auf einer einzigen 20-Bit / 48 kHz-AES/EBU-Verbindung übertragen werden, auf der unkomprimiert nur zwei PCM-Kanäle möglich wären. Jeder Kanal ist mit 240 kBit/s codiert. Das datenreduzierte Signal hat bei dieser Bitrate eine relativ hohe Qualität, die auch weitere Bearbeitungsschritte bzw. Kaskadierungen zulässt. Metadaten können im Dolby-E-Format mitübertragen werden. 11.5.2.2
MADI
Das Multichannel Audio Digital Interface (MADI) wurde von der Audio Engineering Society als Spezifikation [AES10] herausgegeben. MADI basiert auf dem AES/EBU-Interface und bündelt 28 AES3-Kanäle. Es ergeben sich somit 56 Mono-Kanäle, die über eine einzige Leitung übertragen werden. 638
Digitale Audioschnittstellen Die Übertragung kann über Lichtwellenleiter, mit 75 S-Koaxialkabel oder auf Cat-5/Cat-6Kabeln erfolgen. Es werden Abtastraten von 32 kHz bis 48 kHz unterstützt. Die Datentransferrate beträgt bis zu 100 MBit/s. Ein Multi-Kanal-Interface, das auf Ethernet-Technologie basiert, ist die “High Resolution Multichannel Audio Interconnection“ (HRMAI). Es werden alle gängigen Formate unterstützt. Die Latenzzeit ist gering, und es kommen Cat-5-Datenkabel zum Einsatz [AES50]. 11.5.2.3
ADAT
Für die mehrkanalige Aufzeichnung von Audiosignalen auf S-VHS-Kassetten wurden von der Firma Alesis entsprechende Geräte entwickelt. Diese Geräte besitzen ein Interface, das Alesis Digital Audio Tape (ADAT) Interface, das auch heute noch große Popularität bei Herstellern für Audiowandler, digitale Mischpulte, Soundkarten usw. hat. Die Übertragung geschieht durch Lichtwellenleiter (ADAT Lightpipe) mit den gleichen optischen TOS-Link-Steckern und -Kabeln wie bei SPDIF. Das Übertragungsformat unterstützt jedoch acht Audio-Kanäle in einem gemeinsamen Rahmen. Diese werden als 24-Bit-PCM mit Abtastfrequenzen bis zu jeweils 48 kHz übertragen. Es existiert auch eine Variante, die die Übertragung von vier Kanälen mit 96 kHz Abtastfrequenz ermöglicht. 11.5.2.4
TDIF
Das Tascam Digital Interface (TDIF) wurde für digitale Bandspeichergeräte, die High-8Video-Cassetten verwenden, entwickelt. Das unsymmetrische TDIF-Kabel benutzt einen 25-poligen Stecker und kann eine Länge von maximal 5 m haben. Die Daten werden in einem Kabel bidirektional mit maximal 24 Bit/96 kHz seriell auf acht Kanälen übertragen. Zusätzlich gibt es eine Synchronisationsleitung mit einem L/R-Clocksignal. Die TDIF-Schnittstelle wird gelegentlich noch für digitale Mischpulte, Soundkarten und Audiowandler eingesetzt.
11.5.3
FireWire
Die Entwicklung der so genannten „FireWire“-Schnittstelle wurde von Apple mit dem Ziel angestoßen, Videosignale zwischen einem Computer und seinen Peripheriegeräten auszutauschen. Die Schnittstelle wurde als [IEEE 1394] standardisiert. Von Sony ist das Interface unter dem Namen iLink bekannt geworden. Mittlerweile gibt es die Varianten a und b, die sich vor allem in der Übertragungsrate unterscheiden, nämlich 400 und 800 MBit/s. FireWire ist eine Universal-Schnittstelle, die ein generisches Kommunikationsprotokoll für beliebige Endgeräte unterstützt. Diese sollte ursprünglich auch die Nachfolge des Harddisk-Interfaces SCSI antreten. Gebräuchlich ist die Verwendung für die Verbindung von DV-Camcordern, Industriekameras, DVD-Brennern und anderen Geräten der Unterhaltungselektronik. FireWire wird auch in der Studiotechnik eingesetzt, z. B. für die Vernetzung von digitalen Mischpulten mit einem Computer; die Latenzzeit muss bei diesen Anwendungen extrem gering sein. FireWire stellt ein Bussystem dar, das bis zu 64 Geräte pro Bus miteinander verbindet. Über Brücken-Komponenten können mehrere Busse und somit insgesamt bis zu 64449 (63 mal 1023) Geräte verbunden werden. Die Geräteadressierung erfolgt automatisch. Es sind keine Jumpereinstellungen an den Geräten oder ID-Schalter notwendig. 639
Grundlagen der digitalen Tontechnik Der Bus realisiert eine paketorientierte Datenübertragung, die auch einen isochronen Modus zulässt. Der Standard [IEEE 1394a], auch FireWire 400 genannt, unterstützt Übertragungsraten von 100, 200 oder 400 MBit/s. Die maximale Länge einer S400-Verbindung zwischen zwei Geräten beträgt 4,5 m. Für S200 ist der Maximalabstand 14 m. Die Gesamtlänge eines „Daisy Chain“-Strangs darf max. 72 m betragen. Die Datenübertragung kann in beide Richtungen erfolgen. Der FireWire hat einen eigenen Stecker in einer 4-Pin- und einer 6-Pin-Variante. Der 6-PinStecker ermöglicht die Stromversorgung der angeschlossenen Geräte mit 8 bis 33 V und 1,5 A bei max. 48 W Leistungsaufnahme. Geräte können im laufenden Betrieb angeschlossen oder entnommen werden (hot swap). Es sind keine Terminatoren an den Kabelenden erforderlich. Die Weiterentwicklung [IEEE 1394b], auch FireWire 800 genannt, lässt eine Übertragungsgeschwindigkeit von 800 MBit/s zu. Kabel und Stecker wurden verändert. Das Kabel ist nun 9-adrig. Es wird ein neues Arbitrierungsverfahren namens BOSS (Bus Ownership / Supervisor / Selector) unterstützt. Die Kanalcodierung und der Signalpegel sind ebenfalls modifiziert. Die Abwärtskompatibilität zu IEEE 1394a wird durch Chips ermöglicht, die auch den a-Mode unterstützen. Verschiedene Kabeltypen sind geeignet, z. B. auch Plastik- und GlasfaserLichtwellenleiter, sowie „Unshielded Twisted Pair“-Verbindungen (UTP). Mit UTP-Kabeln können im S 100-Modus 100 m überbrückt werden. Im Jahr 2004 wurde die Spezifikation für Wireless FireWire bei IEEE verabschiedet. Sie sieht einen zusätzlichen Protocol Adaptation Layer (PAL) für FireWire über IEEE 802.15.3 vor.
11.5.4
USB
Die Universal Serial Bus Schnittstelle (USB) ist eine serielle Schnittstelle zur Verbindung von Peripheriegeräten mit dem PC. Der USB wird z. B. für Zeigegeräte (Maus), Tastatur, Scanner, Webcam, Memory-Sticks, Digitalkameras, Festplatten, DVD-Recorder und viele andere Geräte verwendet. Er wird zunehmend auch für die Anbindung von Audio- und Videogeräten eingesetzt. Geräte können während des Betriebs angeschlossen und entfernt werden. Die Geräteeigenschaften werden automatisch erkannt (Plug and Play). Für viele der genannten Geräteklassen sind Standard-Treiber in den PC-Betriebssystemen verfügbar. Falls zusätzliche Treiber notwendig sind, wird ein Installationsvorgang angestoßen. Weiterhin können periphere Geräte mit geringem Stromverbrauch über den USB mit Strom (bis 500 mA pro Anschluss) versorgt werden. USB ersetzt zunehmend die früheren seriellen und parallelen Schnittstellen am PC. 11.5.4.1
Entwicklung
Die [USB]-Schnittstelle wurde von dem USB Implementers Forum (USB-IF) spezifiziert, dem führende Unternehmen wie Apple, Hewlett-Packard, NEC und Microsoft angehören. Version 1.0 unterstützt eine Datenrate von 12 MBit/s. Im Jahr 2001 wurde Version 2.0 freigeben, die eine deutlich höhere Übertragungsrate bis zu 480 MBit/s ermöglicht. Die höhere Übertragungsrate wird vor allem durch einen isochronen Übertragungsmodus möglich, der in ähnlicher Form für den FireWire entwickelt worden war. Die Anzahl unterschiedlicher Steckverbinder hat sich mit der Zeit stetig vergrößert.
640
Digitale Audioschnittstellen 11.5.4.2
Topologie
Der USB ist, betrachtet man ihn aus elektrotechnischer Sicht, eigentlich kein Bussystem, sondern eine hierarchisch gegliederte Sternstruktur. Das USB-Design sieht einen HostController vor, an den die Peripheriegeräte fächerförmig angeschlossen werden. Mit sog. Hubs (Knotenpunkten) können die Anschlüsse weiter verzweigt werden. An einen Controller lassen sich bis zu 127 Geräte einschließlich der zwischengeschalteten Hubs anschließen. Meistens sind in einem PC mehrere Controller vorhanden. In der USB-Terminologie werden individuelle Verbindungen als „Funktionen“ bezeichnet; ein Gerät kann mehrere Funktionen beinhalten: z. B. eine Fotokamera, die auch über ein Audio-Interface verfügt. Die Funktionen werden dann durch einen Hub zu „Endpunkten“ gebündelt; diese Endpunkte sind gerätespezifisch. Die interne Verbindung zu einem Endpunkt ist ein „logischer Kanal“ und wird als Pipe bezeichnet. Eine Funktion kann bis zu 16 eingehende und 16 ausgehende aktive Pipes besitzen. Die Pipes selbst sind immer unidirektional. Die Endpunkte einschließlich der Hubs werden durchnummeriert. Der Host-Controller fragt alle USB-Funktionen dann reihum ab, ob Daten übertragen werden sollen. Keine der Funktionen kann ohne Anfrage des Host-Controllers Daten übertragen. 11.5.4.3
Datenübertragung
Die Datenübertragung auf dem USB erfolgt in Datencontainern, die beliebige Formate unterstützen. So können Audiosignale z. B. im AES/EBU Format übertragen werden, das in einem entsprechenden USB-Container verpackt wird. Die USB-Schnittstelle unterstützt verschiedene Kommunikationsprotokolle. Es wird auch die isochrone Übertragung unterstützt, welche die für Audio und Video notwendigen Übertragungsraten ermöglicht. Ein USB-Kabel enthält vier Adern, von denen zwei das Datensignal als verdrilltes Leiterpaar führen. Dessen Adern D+ und D! werden zur Minimierung äußerer elektromagnetischer Einflüsse im Gegentakt symmetrisch betrieben. Die Übertragungspegel sind 0 bis 0,3 V für eine logische „Null“ und 2.8 bis 3.6 V für eine „Eins“. Daten können jeweils immer nur in eine Richtung übertragen werden (Halbduplex-Betrieb). Die beiden anderen Adern des USBKabels dienen der Stromversorgung. USB unterstützt drei Übertragungsraten, Low-Speed = 1,5 MBit/s, Full-Speed = 12 MBit/s und High-Speed = 480 MBit/s. Full-Speed war die höchste Übertragungsrate bei der USBVersion 1.1. Die zur Verfügung stehende maximale Übertragungsrate wird unter den am USBController angeschlossenen Geräten aufgeteilt. So kann es daher beim gleichzeitigen Betrieb mehrerer Geräte vorkommen, dass die übertragungstechnischen Grenzen des USB-Kanals erreicht werden und das System überlastet ist. Die verfügbaren Bitraten im High-SpeedModus liegen in der Praxis oft nur bei ca. der Hälfte des nominalen Grenzwerts. Viele Geräte, die High-Speed versprechen, arbeiten mit deutlich niedrigeren Raten. Der USB-Standard benutzt den NRZ(I)-Code (Non Return to Zero Inverse) zur Kanalcodierung der Daten. Die Codierungsregel für NRZ(I) bewirkt, dass der Übertragungspegel bei einer logischen 1 wechselt, der Pegel für eine 0 hingegen nicht. Die Schritte des Bit-Takts können also nur dann erkannt und abgeleitet werden, wenn 1-Werte übertragen werden (vgl. hierzu auch Kap. 14.1). Dieser Code ist sehr einfach und effizient, aber eher nur für kurze Kabellängen geeignet.
641
Grundlagen der digitalen Tontechnik Für den USB sind mehrere verschiedene Protokollschichten spezifiziert. Jede USB-Transaktion besteht aus einem Steuerpaket, einem optionalen Datenpaket und einem Statuspaket. Eine Transaktion wird vom Host-Controller initiiert; das Steuerpaket beschreibt den jeweils nachfolgenden Vorgang: ob Daten gesendet oder empfangen werden, welcher Endpunkt adressiert wird, welcher Modus verwendet wird usw. Das darauf folgende Paket ist in der Regel ein Datenpaket, gefolgt von dem Statuspaket, das den Übertragungsvorgang bestätigt und den Zustand für weitere Transaktionen beschreibt. Das USB-Protokoll sieht vier verschiedene Transferarten vor. „Control-Transfers“ dienen der Initialisierung, zur Übermittlung von Kommandos und zur Abfrage des Gerätestatus. „Interrupt-Transfers“ werden von Endgeräten ausgelöst. Das Gerät muss warten, bis der Interrupt vom Host-Controller abgefragt wird. „Isochronous-Transfers“ dienen der Übermittlung von kontinuierlichen Datenströmen. Sie beinhalten typischerweise Audio- oder Videoströme. Wenn diese im Fehlerfall durch erneut angeforderte Paketübertragung unterbrochen oder verzögert würden, wäre der entstehende Fehler größer als der Verlust eines einzelnen Pakets. Die Gesamtübertragungsrate ist im isochronen Modus erheblich größer, da die StatusPakete seltener geschickt werden. Der isochrone Transfer bewirkt eine garantierte Datenübertragungsbandbreite, eine definiert kleine Latenzzeit und die Fehlererkennung mittels CRC (Cyclic Redundancy Check, vgl. auch Kap. 18.2.8.4). „Block-Transfers“ werden bei großen Datenmengen verwendet, deren Übertragung zwar schnell erfolgen soll, aber nicht zeitkritisch ist. Der Host-Controller ist verantwortlich für die Vergabe der Übertragungsbandbreite auf dem USB. Während der Initialisierung wird festgelegt, welche Bandbreite den Interrupt-Transfers und dem isochronen Transfer zusteht. Es wird dabei berücksichtigt, dass zwischen 10 und 20 Prozent für andere Transfers freigehalten werden müssen, so dass auch auf einem voll ausgelasteten Bus Control-Transfers immer noch stattfinden können. 11.5.4.4
Elektrische Eigenschaften und Steckverbinder
Zwei der vier Leitungen des USB-Kabels ermöglichen eine Spannungsversorgung mit 5 V. Das USB-Protokoll unterstützt ein Stromversorgungsmanagement: Zu Beginn darf jedes USBGerät maximal 100 mA Strom ziehen, es kann dann aber einen höheren Strombedarf von bis zu 500 mA aushandeln. Da jedoch manche USB-Geräte einen noch höheren Strom benötigen, besteht in diesen Fällen die Möglichkeit, zwei USB-Buchsen parallel zu verwenden, wie es z. B. bei manchen externen Festplatten üblich ist. USB-Geräte können aber auch mit einer externen Stromversorgung betrieben werden. Es gibt Geräte, die das Power-Mangement nicht unterstützen. Dies kann dann zu Problemen mit anderen USB-Geräten führen, da deren Stromversorgung nicht mehr gewährleistet ist. Es gibt inzwischen eine alternative Spezifikation für USB-Geräte, die höhere Spannungen und höhere Anschlussleistungen unterstützt. Auf vier weiteren Kontakten werden 12 V und 24 V zugelassen, und es können auf jedem Leitungspaar bis zu 6 A fließen. Das USB-Interface benutzt unterschiedliche, verpolungssichere Steckverbinder. Zum HostController führt der flache Typ-A-Stecker, bei dem vier Kontakte in einer Reihe angeordnet sind. Am externen Gerät wird der Typ-B-Stecker mit je zwei gegenüberliegenden Kontakten verwendet. Für kleine Geräte werden häufig auch (mitunter proprietäre) Mini- und MikroStecker benutzt. 642
Digitale Audioschnittstellen Die maximale Länge eines USB-Kabels beträgt fünf Meter. Längere Strecken können durch Einfügen von aktiven Hubs oder aber durch spezielle USB-Line-Extender realisiert werden. 11.5.4.5
Audioapplikationen
Im Home-Recording-Bereich werden USB-Audio-Interfaces benutzt, um A/D-Wandler, Mischpulte, Synthesizer und andere Audioperipherie mit dem Computer zu verbinden. Die USB-Schnittstelle lässt sich hierfür flexibel verwenden, vor allem für portable Anwendungen auf der Basis von Notebooks. Die Codierung des Audiosignals erfolgt in der Regel im AES/EBU-Format. Es wird aber auch jedes andere Audio-Format unterstützt. Ein Problem kann die zeitliche Latenz (Signalverzögerung) sein, die sich hauptsächlich aus der Einbindung des Interfaces in das Betriebssystem des Computers ergibt. Für ein Betriebssystem auf Microsoft-Plattform ist der ASIO-Treiber (Audio Stream Input/Output) eine bewährte Lösung. Er ermöglicht Latenzzeiten von minimal 32 Samples (ca. 0,73 ms bei fs = 44,1 kHz). Das Mac-Betriebssystem verfügt über eine typische Latenzzeit von 4 ms. Auch mit der langsameren Variante USB 1.1 lässt sich bereits eine zuverlässige Übertragung für Audiosignale realisieren. Allerdings darf dann der USB-Bus nicht zusätzlich durch Hubs oder andere Peripheriegeräte belastet werden. Mit USB 2.0 und isochroner Übertragung können hingegen auch viele Kanäle gleichzeitig genutzt werden, wie z. B. zur Anbindung digitaler Mischpulte an computerbasierte Audio-Workstations.
11.5.5
Videoschnittstellen
Digitale Videoschnittstellen können Audiosignale als integrierten Bestandteil des VideoDatenstroms enthalten. Diese Methode wird anschaulich als „Embedded Audio“ bezeichnet. Durch die gemeinsame Übertragung von Video- und Audiosignalen wird deren Verteilung (Kommutierung) erheblich vereinfacht. Embedded Audio ist vor allem in großen Systemen von Vorteil, in denen das getrennte Routing von Bild- und Tonkomponenten zusätzliche Kreuzschienen erforderlich machen würde. 11.5.5.1
SDI
SDI (Serial Digital Interconnect) wurde ursprünglich für die Übertragung von digitalisierten Videosignalen entwickelt. Heute ist SDI ein weltweit verbreiteter Standard für die Übertragung eines digitalen Videosignals mit eingebetteten (embedded) Audio- und/oder Zusatzdaten. Die Einbettung von Audiosignalen in den SDI-Datenstrom ist jedoch im Standard nicht eindeutig definiert und kann daher im Einzelfall zu Kompatibilitätsproblemen zwischen SDIGeräten unterschiedlicher Hersteller führen. Der serielle SDI-Videodatenstrom orientiert sich an der klassischen Struktur analoger Videosignale und enthält daher auch nach der linearen A/D-Wandlung noch horizontale und vertikale Austastlücken ohne Bildinhalt. In diesen Bereichen ist Raum für andere Daten. Während sich die vertikale Austastlücke z. B. für einen nach jedem Halbbild übertragenen Timecode eignet, können in den horizontalen Austastlücken nach jeder Bildzeile Audioinformationen eingefügt werden. Ein explizit für den Ton reservierter Datenbereich existiert allerdings dort nicht, und es können hier ebenso Steuer- oder programmbegleitende Daten eingeordnet sein. 643
Grundlagen der digitalen Tontechnik Der Standard sieht für das SDI-Audiosignal bis zu vier Datenblöcke vor, in jedem dieser Blöcke sind vier Kanäle mit 20 Bit Auflösung enthalten; das entspricht zwei AES/EBUKanälen mit deren Zusatzdaten. In den vier Blöcken können somit bis zu 16 Audiokanäle übertragen werden. Viele SDI-Komponenten verarbeiten lediglich den ersten dieser Datenblöcke und stellen damit nur vier Audiokanäle zur Verfügung. Auch ist die Übertragung mit 24 Bit Auflösung nur durch Ablegen von vier Bits in nicht benutzten Audiokanälen möglich. Dies kann dazu führen, dass hierauf nicht eingerichtete De-Embedder diese vier Bit ignorieren und fehlerbehaftet arbeiten. Die HDTV-Übertragung über SDI wurde in [SMPTE292M] standardisiert und wird HD-SDI genannt (vgl. auch Kap.15.9.2). 11.5.5.2
DVI
Das Digital Visual Interface (DVI) wurde als digitale Schnittstelle zwischen Computer und Monitor entwickelt. Es wird inzwischen aber auch zur Übertragung von Videosignalen für HDTV, DVD-Player und Projektoren genutzt. Die DVI-Spezifikation sieht die Übertragung von Audiosignalen vor; von Computergrafikkarten wird diese Eigenschaft allerdings oft nicht unterstützt. 11.5.5.3
HDMI
Das High Definition Multimedia Interface (HDMI) wird seit dem Jahre 2003 in Geräten der Unterhaltungsindustrie eingesetzt und dient der volldigitalen Übertragung von Audio- und Video-Daten zum Fernsehmonitor [HDMI]. Es lassen sich alle wesentlichen Bild- und Tonformate einschließlich HDTV übertragen. HDMI ist abwärtskompatibel zu DVI. Mit HDMI 1.3 lassen sich höhere Farbtiefen bis zu 48 Bit realisieren und es werden die Videostandards SMPTE 170M (ITU-R BT.601) und ITU-R BT.709 unterstützt. Wesentlicher Bestandteil ist ein Kopierschutz mit der Bezeichnung HDCP 1.1 (High-bandwidth Digital Content Protection). HDMI bietet Datenübertragungsraten von 10 GBit/s. Die Datenrate von Audiosignalen fällt demnach auch bei unkomprimierter Übertragung nicht ins Gewicht. Mit HDMI 1.2 können achtkanalige PCM-Audiodaten mit Abtastraten bis zu 192 kHz und Wortbreiten von bis zu 24 Bit übertragen werden. Die Übertragung gängiger Codecformate wird unterstützt. HDMI 1.3 wurde um die Möglichkeit zur Nutzung der Audioformate Dolby Digital Plus und TrueHD erweitert. Als maximale Länge werden von der HDMI-Organisation Kabel mit 15 m Länge vorgeschlagen, die mit Cat-1-Kabel Pixelraten bis 74,25 MHz und mit Cat-2-Kabel bis zu 340 MHz zulassen. Für HDM 1.3 sind spezifische Kabeleigenschaften wie Dämpfung, Signallaufzeitdifferenzen und Übersprechen, genau definiert. HDMI verwendet drei verschiedene Steckertypen. Typ A und C basieren auf einer Verbindung mit drei paarweise verdrillten Leitungen (Single Link), Typ B erlaubt durch eine Verdopplung der Adernzahl die doppelte Datenrate (Dual Link). Die Variante vom Typ A ist in der Lage, Datenraten bis zu 5 GBit/s zu übertragen; Typ B lässt Datenraten über 5 GBit/s zu und ist im Aufbau kompatibel zum „DVI Dual Link“- Kabel.
644
Audio-Dateiformate
11.6
Audio-Dateiformate
„Container“ sind in der Computertechnik „logische Behälter“, in denen aus einem gemeinsamen Ursprung stammende und daher zusammengehörige Daten in einer definierten Struktur abgelegt und angeordnet sind. Diese Daten können in unterschiedlichen Codierungen vorliegen, z. B. als Essenzdaten einer Studioproduktion, aber auch als daraus abgeleitete Zusatzinformation. In einem Container ist demnach ein Vielfach (Multiplex) aus Essenz-, Meta- und Steuerdaten anzutreffen (vgl. Kap. 14.3). Die den jeweiligen Daten-Anordnungen im Container zu Grunde liegenden Regeln sind als sog. „Containerformate“ definiert. Typische Formate für Ton-/Bild-Container sind z. B. die „AVI-Dateien“ (Audio Video Interleave) oder für Texte, Bilder und Markups (Druckanweisungen) die „PDF-Dateien“ (Portable Documents Format). Bei den nachfolgend beispielhaft beschriebenen Dateiformaten handelt es sich um häufig anzutreffende Containerformate für digitale Audiosignale. Formate für den Video-/AudioDatenaustausch (z. B. MXF / Materal eXchange Format) werden an anderer Stelle behandelt (Kap. 15.5.3.2).
11.6.1
WAV, WAVE
Das Waveform Audio File Format, auch Waveformat, WAV-Format oder RIFF WAVE genannt, ist ein Containerformat für digitale Audiodaten mit der Dateinamenerweiterung . Es basiert mit seiner der Programmiersprache C ähnlichen Syntax auf dem von IBM und Microsoft entwickelten und auf Intel-Prozessoren laufenden Format RIFF (Resource Interchange File Format), das in sog. Chunks (engl. für „Brocken“) strukturiert ist, d. h. in separat auswertbaren Blöcken aus einem Datenstrom oder einer Datei. Ein Chunk besteht aus einem Header mit Angaben zu Datentyp und Länge, gefolgt von den zugehörigen Daten in „Feldern“ fixer oder variabler Länge. Zwei Chunks im übergeordneten RIFF WAVE Chunk, der die gesamte Datei umfasst, sind obligatorisch: - Der WAVE Format Chunk spezifiziert u. a. Formatkategorie, Abtastrate und Kanalzahl. Formatkategorien können entweder die PCM (Puls Code Modulation) oder Verfahren wie A-Law, :-Law und ADPCM sein (vgl. auch „Codecs“, Kap. 12.3). - Der WAVE Data Chunk enthält als Sub-Chunks u. a. die eigentlichen Samples und eventuelle Stille-Phasen. Weitere Chunks sind in Sonderfällen erforderlich, z. B. ein (erweiterbarer) FACT Chunk bei Übertragung datenreduzierter Audioformate wie MPEG1-Audio, ein Cue Point Chunk für Marker, ein Playlist Chunk zum Abspielen entsprechend den Cue Points u. a. m. Für die Apple/Motorola-Welt existiert mit AIFF (Audio Interchange File Format) ein vergleichbares Audioformat. WAV ist ein De-facto-Standard, der eine Untermenge der RIFFSpezifikation von Microsoft für die Speicherung von Multimediafiles darstellt.
11.6.2
BWF
Das Broadcast Wave Format (oder kurz Broadcast-WAV) wurde von der EBU spezifiziert [Tech3285]. Eine BWF-Datei ist die „schlanke“ Form einer WAVE-Datei, die für den Audio645
Grundlagen der digitalen Tontechnik datenaustausch zwischen EBU-Mitgliedern und unterschiedlichen Plattformen bestimmt und auf die Länge 4 GByte, sowie auf zwei Typen von Audiodaten beschränkt ist: solche aus einer linearen PCM (standardmäßig 16 Bit/48 kHz; nach Vereinbarung zwischen den Beteiligten aber auch z. B. 16 Bit/44,1 kHz oder 24 Bit/192 kHz) oder aus einer MPEG-Audio-Codierung. Die Extension lautet ebenfalls . Ein obligatorischer Broadcast Extension Chunk enthält die minimal notwendigen Angaben zum Content („Essenz-Daten“). Die für die Interpretation nur von PCM-Daten erforderlichen Informationen sind wie bei einer WAVE-Datei im Format Chunk enthalten, für MPEG-Daten zusätzlich im Fact Chunk, für Layer II darüber hinaus in einem weiteren Chunk. Optionale Chunks – wie eine Audio Decision List (ADL) oder ein Film Chunk – sind möglich, werden aber nur von darauf eingestellter Software interpretiert. Für Multichannel-Audio existiert ein Vorschlag und es gibt hierfür proprietäre Lösungen. BWF (Version 1) enthält einen SMPTE UMID (Universal Material IDentifier), der von (Version 0) ignoriert wird.
11.6.3
RF64, RIFF64
Der RIFF WAVE Chunk ist eine Datei (ein Datenpaket) in dem RF64 oder ausführlich RIFF WAVE 64 genannten Format. Die zugelassene Dateigröße beträgt mehr als 4 Gigabyte [Tech3306]. Das RF64-Format nimmt auch nicht PCM-codierte Daten auf und bietet die Kapazität für bis zu 18 Surround-Kanäle, sowie für Stereo-Downmix- und Bitstream-Signale. Die Standard-Abtastraten sind 44,1 / 48 / 88,2 / 96 kHz bei Auflösungen von 16 oder 24 Bit. Ein Software-Mechanismus schaltet automatisch von WAVE auf RF64 um, wenn die 4-GByte-Grenze eines Files überschritten wird; falls das nicht der Fall ist, wird die Rückwärtskompatibilität zu den kleineren BWF-Dateien gewährleistet.
Standards und Normen [AES3]
AES: Publication AES3-1992 (ANSI S4.40-1992). AES Recommended Practice for Digital Audio Engineering - Serial Transmission Format for Two Channel Linearly Represented Digital Audio Data.
[AES10]
AES: Publication AES10-1991 (ANSI S4.43-1991). AES Recommended Practice for Digital Audio Engineering – Serial Multichannel Audio Digital Interface (MADI).
[AES50]
AES: Publication AES50-200. High-resolution multi-channel audio interconnection (HRMAI).
[Tech3250]
EBU: Techn. Doc. 3250. Specification of the Digital Audio Interface, einschl. Supplement 1: "Format for User Data Channel". Genf, 1992
[Tech3311]
EBU: Techn. Doc. 3311. EBU Guidelines for Multichannel Audio in DVB. Genf, 2006
[Tech3285]
EBU: Techn. Doc. 3285. BWF – a format for audio data files in broadcasting. Genf, 2001
646
Grundlagen der digitalen Tontechnik [Tech3306]
EBU: Techn. Doc. 3306. RF64: An extended File Format for Audio. Genf, 2007
[IEC60958]
IEC: International Standard IEC 60958. Digital audio interface. - Part 1: General, 2004 - Part 3: Consumer applications, 2006 - Part 4: Professional applications, 2003
[IEC61937]
IEC: International Standard IEC 61937-1. Digital audio - Interface for nonlinear PCM encoded audio bitstreams applying IEC 60958. - Part 1: General, 2007 - Part 2: Burst-info, 2007 - Part 3 bis Part 8: Non-linear PCM bitstreams (according to the AC-3, MPEG audio, DTS, MPEG-2 AAC, and MPEG-4 AAC etc. audio formats), 2003 (mit Corrigendum 1, 2004)
[IEC62365]
IEC: International Standard IEC 62365. Digital audio - Digital input-output interfacing - Transmission of digital audio over asynchronous transfer mode (ATM) networks, 2004
[IEEE1394]
IEEE1394-1995: FireWire - Standard for a high performance serial bus. ISBN: 1-55937-583-3, 1996 and supplements, http://ieeexplore.ieee.org/ servlet/
[HDMI]
HDMI-Standard: http://www.hdmi.org
[SMPTE292M] SMPTE 292M-1998: Bit-Serial Digital Interface for High Definition Television, 1998 [USB]
USB 2.0 Specification. http://www.usb.org/developers/docs/
Literatur [11.1]
Rabiner, L. R., Gold, B.: Theory and Application of Digital Signal Processing, 1975, Prentice Hall International
[11.2]
Oppenheim, A. V., Schafer, R. W.: Digital Signal Processing, 1975, Prentice Hall International
[11.3]
Blesser, B. A.: „Digitization of Audio: A Comprehensive Examination of Theory, Implementation, and Current Practice“, in: Journal of the Audio Engineering Society, 1978, S. 739
[11.4]
Lüke, H. D.: Signalübertragung, 1985, Springer-Verlag Berlin
[11.5]
Dittel, V., Ladwig, P.: „Wie analog ist die digitale Welt?”, in: Tonmeistertagung 18, 1994, Saur, S. 890ff.
[11.6]
von Grüningen, D. Ch.: Digitale Signalverarbeitung, 2004, Fachbuchverlag Leipzig
647
12
Audiocodierung
12.1
Einführung
Die digitale Codierung von Audiosignalen mit geringer Datenrate, oft auch als Audiodaten(raten)kompression bezeichnet, ist seit Anfang der 1990er Jahre zu einem wichtigen Gebiet der Audiosignalverarbeitung geworden. Die uncodierte (lineare oder transparente) Übertragung digitaler Audiodaten, so wie sie z. B. auf einer CD aufgezeichnet sind, ist aus mehreren Gründen nicht sinnvoll bzw. möglich. Zum einen ist die erforderliche Datenrate = Übertragungsbandbreite zu hoch, zum anderen muss zur Verringerung der Fehleranfälligkeit zusätzliche Redundanz eingeführt werden, was die benötigte Übertragungskapazität weiter erhöht. Um eine ökonomisch wie auch technisch vertretbare Übertragungsrate bei gleich bleibend hoher Übertragungsqualität zu erreichen, werden deshalb moderne Verfahren für eine zusätzliche Codierung erforderlich, die einerseits eine Reduzierung der Netto-Datenrate durch Redundanzreduktion des Eingangssignals bewirken (auch als Quellencodierung bezeichnet), andererseits durch Zufügen redundanter Anteile zum Zweck der Fehlerkorrektur oder Fehlererkennung unter Anpassung an die Kanaleigenschaften (sog. Kanalcodierung, siehe Kap. 17.2 sowie Kap. 18.5). Das Gleiche gilt sinngemäß auch für die digitale Videoübertragung. Für die direkte Darstellung digitaler Audiosignale in idealer Qualität (Frequenzbereich von 0 bis 20 kHz, Dynamikumfang 120 dB) werden Datenraten von ca. 1 MBit/s pro Audiokanal benötigt. Für 5.1-Kanal-Aufnahmen fallen damit bereits 6 MBit/s bzw. 2.7 GByte/h an. Mit geeigneten Quellencodierverfahren kann diese Datenmenge ohne in der Praxis relevante (also hörbare) Verluste etwa um den Faktor 10 bis 12 verkleinert werden. Neueste Verfahren ermöglichen eine deutlich höhere Datenkompression bei immer noch guter Audioqualität. Für Audiosignale im 5.1-Format ist z. B. heute ein Faktor von etwa 100 erreichbar, was einer Datenrate von nur 64 kBit/s für alle sechs Audiokanäle entspricht. Dies zeigt auch die stürmische Entwicklung auf diesem Gebiet. Nur 25 Jahre zuvor war mit dieser Datenrate lediglich die Übertragung eines Telefonsignals mit einer Auflösung von 8 Bit pro Abtastwert und einer Audiobandbreite von 3,5 kHz möglich. Viele Anwendungen, wie Digitaler Rundfunk oder Musik über das Internet, sind erst durch die Verfügbarkeit von modernen Datenreduktionsverfahren möglich geworden. Unkomprimiert ausgestrahlt würden digitale Rundfunkprogramme ein Vielfaches der Senderbandbreite eines analogen FM-Senders belegen, was wirtschaftlich kaum zu realisieren wäre. Mit den heute zur Verfügung stehenden Verfahren ist nun auch die Übertragung eines individuellen Musikprogramms zu Mobiltelefonen wirtschaftlich realisierbar. Darüber hinaus hat die Datenreduktion auch für Musikanwendungen auf dem Computer Bedeutung, trotz ständig steigender Festplattenkapazitäten. Die etwa zehnmal geringere Datenrate macht ganze Musiksammlungen mobil verfügbar - auf MP3-Playern, im Auto oder auf dem Handy. Derzeit existiert eine verwirrende Vielzahl von zum Teil konkurrierenden Datenreduktionsverfahren für Audiosignale, so dass zunächst eine Klassifizierung dieser Verfahren 649
Audiocodierung vorgenommen werden soll. Abb. 12/1 zeigt eine mögliche Einteilung aktueller Audiocodierverfahren. Zunächst wird unterschieden zwischen verlustfreien und verlustbehafteten Verfahren, wobei letztere derzeit am weitesten verbreitet sind.
Abb. 12/1. Klassifizierung derzeit existierender Audiocodierverfahren.
12.1.1
Verlustfreie Codierverfahren
Verlustfreie Audiocodierverfahren (lossless coding), die das Audiosignal in keiner Weise verändern, können nur auf eine Verringerung der im Signal enthaltenen Redundanz setzen. Diese ist jedoch stark abhängig vom Signalcharakter. Für Zufallssignale, wie z. B. breitbandiges Rauschen, geht sie gegen Null; Weißes Rauschen ist somit überhaupt nicht verlustlos komprimierbar. Einzelne Sinustöne hingegen können z. B. sehr kompakt durch Angabe ihrer Frequenz, Amplitude und Phasenlage mittels einer sehr kleinen Datenrate vollständig beschrieben werden. Der erzielbare Reduktionsfaktor ist somit bei verlustlosen Verfahren stark abhängig von der im Nutzsignal enthaltenen Redundanz und schwankt zwischen Null und relativ hohen Werten. Für Übertragungsstrecken mit konstanter Datenrate sind solche Verfahren deshalb nicht direkt einsetzbar, da der mittlere Kompressionsfaktor abhängig vom Audiomaterial ist. Es gibt heute eine Vielzahl von verlustfreien Codierverfahren, siehe Tab.12/8 unter Kap. 12.8.1. Sie unterscheiden sich im erzielbaren Kompressionsfaktor nur unwesentlich, und alle Versuche, diesen im Mittel deutlich über den Faktor 2 zu steigern, haben sich als vergeblich erwiesen. Es kann daher davon ausgegangen werden, dass dieser Wert der durchschnittlich in der Musik enthaltenen Redundanz und damit dem überhaupt Erreichbaren entspricht.
12.1.2
Verlustbehaftete Codierverfahren
Eine weitaus stärkere und auch vom Signalinhalt unabhängigere Datenreduktion ist nur mit verlustbehafteten Verfahren erreichbar. Historisch gesehen kann man mehrere Klassen von Verfahren unterscheiden. 12.1.2.1
Wellenformcodierung
Wellenformcodierverfahren versuchen, die Signalform des Originalsignals möglichst ähnlich zum Original zu übertragen. Diese Verfahren optimieren dabei den Signal/Rauschabstand (Signal to Noise Ratio, SNR) für eine vorgegebene Übertragungsdatenrate. Wie nachfolgend 650
Einführung gezeigt wird, ist dies aus psychoakustischen Gesichtspunkten jedoch nicht der sinnvollste Ansatz zur Codierung von Audiosignalen. Es sind leicht Signalbeispiele zu finden, die – nach psychoakustischen Gesichtspunkten codiert - mit einem Signal/Rauschabstand von weniger als 10 dB keinerlei hörbare Störungen aufweisen. Andererseits können auch Signale, für die ein SNR von 80 dB und mehr gemessen wird, durchaus hörbare Codierartefakte zeigen. Ohne die explizite Kenntnis psychoakustischer Effekte müssen diese Verfahren deshalb für alle Signale einen sehr hohen Signal/Rauschabstand einhalten, um eine ausreichende Audioqualität zu gewährleisten. In der Audiowelt sind reine Wellenformcodierverfahren derzeit noch in einigen Ländern als Stereo-Fernsehtonformat im Einsatz. In Großbritannien, den skandinavischen und den Benelux-Ländern, Spanien und einigen anderen wird der Stereo-Ton zum PAL-Bild mit dem seinerzeit von der BBC entwickelten NICAM-Verfahren übertragen, das bei 32 kHz Abtastfrequenz eine Datenrate von 352 kBit/s pro Audiokanal verwendet. Trotz dieser relativ hohen Datenrate ist die Audioqualität jedoch nicht gleichwertig zur Audio-CD, oder auch z. B. zu MPEG-2/4 AAC bei nur 64 kBit/s pro Kanal. Das verbliebene Anwendungsgebiet für Wellenformcodierverfahren ist in erster Linie die Audioübertragung mit geringer Signalverzögerung. Die erste Generation der psychoakustisch basierten Codierverfahren, wie z. B. MPEG Layer 2 oder 3, verzögert das Audiosignal um etwa 60 bis 200 ms, was für Dialoganwendungen unakzeptabel hoch ist. Noch im Einsatz sind deshalb Verfahren wie z. B. ITU-T G.722 (siehe Kap. 12.5) und apt-X (siehe Kap. 12.4.8), die Verzögerungen im einstelligen Millisekundenbereich aufweisen. Mit der Neuentwicklung Ultra Low Delay Coder (ULD) gibt es unterdessen auch ein psychoakustisch basiertes Verfahren, das bei vergleichbarer Signalverzögerung und Audioqualität mit nur ca. 80 kBit/s pro Kanal auskommt. 12.1.2.2
Quellenorientierte Codierung
Quellenorientierte Verfahren verwenden ein Modell der Signalquelle. Die bekanntesten Vertreter dieser Gattung sind die Sprachcodierverfahren, die ein Modell des menschlichen Spracherzeugungsmechanismus verwenden. Dieses ist mit relativ wenigen Parametern beschreibbar, die mit sehr geringer Bitrate übertragen werden können. Allerdings ist solch ein Modell nicht geeignet, beliebige Audiosignale zu beschreiben, so dass die Audioqualität für nicht-sprachähnliche Signale völlig unbrauchbar ist. Synthetisch klingende, aber verständliche Sprache ist damit aber mit weniger als 1 kBit/s darstellbar. Natürlich klingende Sprache, die es erlaubt den Sprecher zu erkennen, ist ab etwa 2 kBit/s möglich. Bei diesen Datenraten ist typischerweise für Nicht-Sprachsignale oft nicht einmal mehr erkennbar, was das Ausgangsmaterial gewesen sein könnte. Der DRM-Standard (Digital Radio Mondiale) enthält für reine Sprachprogramme den HVXC-Sprachcoder, mit dessen Hilfe statt eines 20 kBit/s Audioprogramms 10 Sprachprogramme mit je 2 kBit/s untergebracht werden können. Die Sprachqualität erreicht dabei nicht ganz Telefonqualität. Bei etwas höheren Datenraten (4 bis 16 kBit/s) werden Sprachcoder etwas robuster gegenüber Nicht-Sprachsignalen, so dass zumindest der Charakter des Quellensignals erkennbar wird. Die bedeutendsten Vertreter sind die GSM Sprachcodecs (GSM, AMR) und einige ITU-T Standards (G.723, G.729). Der DRM-Standard spezifiziert einen vergleichbaren Codec MPEG-4 CELP. 651
Audiocodierung Eine interessante Entwicklung ist die Kombination von Sprachcodiertechniken mit psychoakustisch basierten Codierverfahren, die bei sehr niedrigen Bitraten eine gute Sprachqualität bieten und auch für breitbandige Audiosignale (derzeit noch eingeschränkt) verwendbar sind, wie AMR-WB+. Modellbasierte Verfahren für allgemeine Audiosignale wurden ebenfalls entwickelt, wie z. B. HILN, besitzen aber keine praktische Bedeutung, da sie in der gegenwärtigen Form nicht konkurrenzfähig sind. 12.1.2.3
Empfängerorientierte Codierung
Anstelle eines Modells der Signalquelle verwenden psychoakustisch basierte Verfahren (perceptual coding) Modelle des Empfängers, d. h. des menschlichen Gehörs. Wie im nachfolgenden Abschnitt über Psychoakustik gezeigt wird, ist unser Gehör nicht in der Lage, alle Schallereignisse, die im prinzipiell hörbaren Frequenzbereich liegen, auch wahrzunehmen. Zusätzlich zur oben beschriebenen Redundanzreduktion steht damit die Möglichkeit der Entfernung von für den Höreindruck irrelevanten Signalanteilen zur Verfügung (sog. Irrelevanzreduktion). Dabei kommt der Umstand zum Tragen, dass sich diese beiden Prinzipien ideal ergänzen: Schallereignisse mit geringer Redundanz besitzen meist einen hohen Irrelevanzanteil. Rauschsignale können z. B. bei spektral richtiger Formung mit einem SNR von typischerweise nur ca. 6dB ohne hörbare Unterschiede übertragen werden. Auf der anderen Seite weisen Signale mit geringem Irrelevanzanteil oft eine hohe Redundanz auf. Diese psychoakustisch basierten Codierverfahren werden im Kap. 12.2 bzw. Kap. 12.4 ausführlich erläutert.
12.1.3
Standardisierung von Audiocodierverfahren
12.1.3.1
Offene und proprietäre Standards
Verfahren zur Audiocodierung erfordern - wie auch die meisten anderen modernen Verfahren und Systeme der Nachrichtenübermittlung - in aller Regel eine Normung oder Standardisierung, damit sie in ihrer Anwendung an verschiedenen Stellen des Tonkanals bzw. in Geräten unterschiedlicher Hersteller austauschbar (kompatibel) bleiben und die gewünschten Qualitätsmerkmale immer und überall erreichbar sind. Dabei kann man unterscheiden zwischen sog. proprietären Standards (das bedeutet i. Allg., dass sie urheberrechtlich geschützt sind), die meist von einzelnen Herstellern für bestimmte Erzeugnisse entwickelt und vertrieben werden, und sog. offenen Standards, die von internationalen Expertengremien und entsprechenden Standardisierungsorganisationen erarbeitet und veröffentlicht werden und danach praktisch jedermann zur Anwendung zur Verfügung stehen. Beispiele für proprietäre Standards sind die bekannten Codierverfahren wie Dolby-Stereo oder FhGs MP3 Surround, die in der Regel nur über strikte Lizenzvereinbarungen genutzt werden können. Dolby Digital (AC-3) und Dolby Digital Plus (E-AC-3) hingegen, die unterdessen auch Eingang in internationale System-Standards gefunden haben (z. B. DVB), sind keine proprietären Formate im engeren Sinn. Für beide Verfahren existieren frei verfügbare Spezifikationen, die es prinzipiell ermöglichen, entsprechender Encoder und Decoder zu implementieren, 652
Einführung aber Aufgrund der Schutzrechtssituation ist es für Drittanbieter nahezu unmöglich, eigene Lösungen für diese Verfahren anzubieten. Offene Standards sind z. B. die Video- und Audiocodecs der MPEG-Familie, die als Internationale ISO- und ITU-Standards weltweit standardisiert wurden (siehe Kap. 12.5) und in vielen Anwendungen und Implementierungen existieren. Sie wurden in den meisten Fällen durch umfangreiche subjektive Tests verifiziert, siehe Kap. 12.3.3. 12.1.3.2
Generationsentwicklung der MPEG-Audiostandards
Die derzeit am weitesten verbreiteten Audio- und Videocodecs sind in der ISO/MPEG CodecFamilie zu finden, die gleichzeitig die am besten in offenen, internationalen Standards dokumentierten Codiersysteme darstellen. Ihre Entwicklungsgeschichte soll daher beispielhaft für alle aktuellen Codec-Standards beschrieben werden. Tab. 12/1. Überblick zu den MPEG-Technologiegenerationen und ihren Standards. Generation 1. Gen.
2. Gen.
3. Gen.
4. Gen.
Technologiebezeichnung
ISO MPEG-Standard
Jahr
Layer 1, 2 (MP1, MP2) Layer 3 (MP3)
[MPEG-1] (ISO–Standard IS 11172-3)
1992
Erweiterung für niedrige Abtastraten in MP1, MP2, MP3, Multikanalerweiterung (MPEG-2 BC)
[MPEG-2] (ISO-Standard IS 13818-3)
1994
Advanced Audio Coding (AAC)
[MPEG-2 AAC] (ISO-Standard IS 13818-7)
1996
Erweiterung für niedrige Bitraten, MPEG-4 Weiterentwicklung
[MPEG-4] Version 1 (ISO-Standard IS 14496-3)
1997
AAC-Variante mit niedriger Signalverzögerung (AAC-Low-Delay)
[MPEG-4] Version 2 (ISO-Standard IS 14496-3)
1999
High-Efficiency AAC Version 1 (HE-AAC V1)
Nachtrag zu [MPEG-4] (ISO-Standard IS 14496-3)
2002
High-Efficiency AAC Version 2 (HE-AAC V2)
Nachtrag zu [MPEG-4] (ISO-Standard IS 14496-3)
2004
Enhanced AAC LowDelay
[MPEG-4] Amendment (ISO-Standard IS 14496-3)
2007
MPEG Surround
[MPEG-D] (ISO-Standard IS 23003-1)
2007
Seit der Gründung der aus Experten zahlreicher Forschungsinstitute, Rundfunkorganisationen und Industriekonzerne international zusammengesetzten Arbeitsgruppe von ISO-MPEG (Motion Pictures Expert Group) im Jahre 1988 ist im Rahmen dieser Arbeiten auf der Basis mehrerer grundlegender Vorschläge für die wahrnehmungsbasierte Audiocodierung, z. B. [12.3, 12.4], eine Reihe von ISO-Standards entstanden, die hinsichtlich ihrer technologischen Weiterentwicklung etwa vier verschiedenen Generationen zugeordnet werden können. 653
Audiocodierung Verwirrenderweise sind diese Generationsschritte nicht immer in formaler Übereinstimmung mit den fortlaufenden Bezeichnungen MPEG-1, -2, -4, -7, -21, -D usw. Tab. 12/1 gibt einen Überblick über die Zuordnung der MPEG-Bezeichnungen zu den jeweiligen Technologiegenerationen und den betreffenden ISO-Standards. Die Eigenschaften dieser und anderer Codiersysteme sind im einzelnen unter Kap. 12.4 beschrieben. Für alle MPEG-Standards gilt, dass nur der Decoder und das Bitstromformat normativ festgelegt sind. Dies ist ausreichend, um eine Interoperabilität der in diesen Formaten codierten Inhalte zu garantieren. Der Encoder zur Erzeugung dieser codierten Inhalte ist dagegen nicht standardisiert. Verbesserungen und neue Erkenntnisse, z. B. am psychoakustischen Modell, können so auch Jahre nach der Verabschiedung eines Standards immer noch zur Erhöhung der Bitrateneffizienz genutzt werden, was in der Vergangenheit bereits häufig geschehen ist. Bei Offline-Encodierung ist es auch möglich, einen programm-spezifischen Abgleich vorzunehmen, um damit z. B. besonders schwierig zu codierende Audiosignale speziell zu behandeln. Dies erhöht die Langzeitverwendbarkeit der in diesen Formaten erzeugten Inhalte. Der Nachteil dieser Vorgehensweise liegt (auch im Unterschied zu streng reglementierten proprietären Standards) offensichtlich darin, dass Implementierungen verschiedener Anbieter durchaus unterschiedliche Qualität liefern können.
12.2
Grundprinzipien psychoakustisch basierter Codierverfahren
12.2.1
Psychoakustische Grundlagen
Jedes Audiosignal enthält – abhängig vom jeweiligen semantischen Inhalt des Schallereignisses – gewisse Anteile an redundanten und/oder irrelevanten Bestandteilen. In der Informationstheorie bezeichnet Redundanz das mehrfache Vorhandensein ein und derselben Information. Diese redundanten Anteile können ohne jeden Informationsverlust weggelassen werden. Außerdem können je nach dem Charakter des Nutzsignals auch sog. irrelevante Anteile auftreten, das sind solche Komponenten, die das Ohr ohnehin nicht wahrnehmen kann, z. B. infolge von Verdeckungseffekten. Das Grundprinzip der Datenreduktion besteht nun darin, die im Originalsignal enthaltenen redundanten und/oder irrelevanten Anteile so weit als möglich zu eliminieren und dadurch eine deutliche Verringerung der zu übertragenden Datenmenge zu erzielen, ohne die resultierende Qualität des Nutzsignals signifikant zu beeinträchtigen. Durch die Ausnutzung solcher psychoakustischen Effekte – insbesondere von verschiedenen Verdeckungseffekten – unterscheiden sich psychoakustisch basierte Audiosignalverarbeitungsverfahren von herkömmlichen Algorithmen zur Datenreduktion. Übliche Bewertungskriterien für die Signalqualität, wie z. B. Signal to Noise Ratio (SNR), sind bei derartigen Verfahren oft ohne Aussagekraft. Klassische Messgeräte würden hier z. B. Werte im Bereich von etwa 6 bis 20 dB anzeigen. Trotzdem kann die Audioqualität dieser Verfahren höher liegen als z. B. bei einem herkömmlichen Verfahren, für das ein SNR von 100 dB gemessen 654
Grundprinzipien wird. Das zentrale Phänomen zum Verständnis dieser Vorgänge ist die sog. Maskierung, auch als Verdeckungseffekt bekannt. 12.2.1.1
Frequenzabhängige Maskierung
In der Psychoakustik wird unter dem Begriff Maskierung das Phänomen verstanden, dass das Gehör ein Schallereignis (Ton, Geräusch) nicht wahrnimmt, wenn dessen Intensität unterhalb der sog. Maskierungsschwelle (Mithörschwelle) liegt, deren Amplitude sowohl von der Frequenz als auch vom Vorhandensein anderer Schallereignisse abhängt. Einen Extremfall der Maskierungsschwelle stellt die in Abb. 12/2 gezeigte Ruhehörschwelle dar. Diese gibt den bei einer bestimmten Frequenz erforderlichen Mindestschalldruckpegel an, um eine Wahrnehmung im menschlichen Gehör zu erzeugen. Signale mit einem Pegel unterhalb der Ruhehörschwelle sind vom Menschen nicht wahrnehmbar. Die angegebenen Kurven können von Person zu Person leicht variieren und verändern sich auch mit zunehmendem Lebensalter. Die Abbildung zeigt den typischen altersabhängigen Verlust der Fähigkeit zum Hören hochfrequenter Signale.
Abb. 12/2. Ruhehörschwelle.
Wie der Begriff Ruhehörschwelle schon andeutet, stellt diese Kurve die Verhältnisse bei absolut ruhiger Umgebung dar. In Gegenwart von anderen Schallquellen verändert sich die Hörschwelle, d.h. es entstehen Bereiche in der Umgebung der anregenden Frequenzen, in denen Schallereignisse mit geringerem Pegel nicht wahrnehmbar sind. Abb. 12/3 zeigt ein Beispiel mit drei Schmalbandrauschsignalen mit einem Schallpegel von jeweils 60 dB, die als sog. „Maskierer“ wirken, d.h. Audiosignale, die andere verdecken. Man erkennt, dass die Verdeckungswirkung in der Nähe der Mittenfrequenz der Maskierers am stärksten ist. Signale mit einem Pegel von weniger als ca. 55 dB sind in diesen Frequenzbereichen dann nicht mehr wahrnehmbar. Es ist dabei belanglos, was in diesen verdeckten Bereichen dargeboten wird. In unmittelbarer Frequenznähe zum Maskierer genügt somit ein SNR von nur ca. 5 bis 6 dB. Die Maskierungswirkung von Rauschsignalen ist relativ stark, andere Signale verdecken weniger stark. Eine sehr viel geringere Maskierung weisen einzelne Töne auf (siehe Abb. 12/4). Aber auch hier genügt im ungünstigsten Fall ein SNR von ca. 24 dB in der Umgebung des Maskierers, da der maskierende Ton leisere, in der Frequenz benachbarte Signale verdeckt. 655
Audiocodierung
Abb. 12/3. Maskierungsschwelle in Gegenwart von drei Schmalbandrauschsignalen (nach [12.1]).
Abb. 12/4. Maskierung durch einen einzelnen Ton (nach [12.1]).
Dies lässt sich messen: Man stellt fest, dass im menschlichem Gehör frequenzmäßig nahe zusammen liegende Schallereignisse quasi einen gemeinsamen Maskierungseffekt bewirken. Die Breite dieser Frequenzbereiche, die auch als Frequenzgruppen (Critical bands) bezeichnet werden, ist nicht konstant. Sie beträgt bei tiefen Frequenzen bis ca. 500 Hz gleich bleibend ungefähr 100 Hz und steigt dann in etwa logarithmisch bis auf ca. 3500 Hz bei einer Mittenfrequenz von 13,5 kHz an. Die dadurch entstehende Einteilung des Hörfrequenzbereichs in 24 Bänder nennt man Bark-Skala (auch als Mel-Skala bekannt). Diese bildet direkt den Bau des menschlichen Gehörs ab: Jeder Frequenzgruppe entsprechen ca. 150 Haarzellen auf der Basilarmembran. Das logarithmische Frequenzverhalten des menschlichen Gehörs ist also direkt in der Physiologie und Anatomie des Innenohrs begründet. Für das Spektrum realer Schallereignisse kann man näherungsweise die Annahme eines Frequenzgemisches, bestehend aus Teilfrequenzbereichen mit eher rauschähnlichem oder eher tonalem Charakter treffen. Aus den oben gemachten Aussagen kann man schließen, dass es in jedem Teilfrequenzbereich genügt, einen SNR von ca. 6 bis 24 dB einzuhalten, je nachdem 656
Grundprinzipien wie tonal bzw. rauschartig das Signal in diesem Bereich zusammengesetzt ist. Zusätzlich zu berücksichtigen ist, dass sich die Maskierungswirkung auch auf weiter entfernte Frequenzbereiche erstrecken kann. Die Gesamtmaskierung eines Musiksignals ergibt sich dann aus einer Überlagerung der Maskierung der verschiedenen Anteile. Dieser bei einer bestimmten Frequenz erforderliche Mindest-SNR, der gerade noch nicht zu wahrnehmbaren Störsignalen führt, ist die Maskierungsschwelle eines Signals, die aufgrund dieser Modelle des menschlichen Hörens für jedes Signal berechnet werden kann. Damit können jetzt zusätzlich zum geläufigen Begriff SNR für die weiteren Betrachtungen die Begriffe SMR (Signal to Mask Ratio) und NMR (Noise to Mask Ratio) eingeführt werden (Abb. 12/5). Der SMR-Wert beschreibt den Abstand der Maskierungsschwelle zum Signal. Bei einer Quantisierung des Signals genau an der Maskierungsschwelle ist der SMR-Wert identisch zum SNR. Er stellt somit ein gewisses Maß für den Bitratenbedarf zur Codierung eines Signals dar, da bei hohem SMR-Wert genauer quantisiert werden muss als bei einem geringeren Wert. Der NMR-Wert dagegen ist das Maß für den Abstand des Quantisierungsrauschens von der Maskierungsschwelle und gibt somit die Reserven im codierten Signal an, die z. B. für eine Nachverarbeitung (wie Filterung) oder für die Tandemcodierung (siehe Kap. 12.3.2.4) zur Verfügung stehen.
Abb. 12/5. NMR, SMR und SNR.
12.2.1.2
Zeitabhängige Maskierung
Neben den beschriebenen frequenzabhängigen Maskierungseffekten existieren auch zeitliche Effekte (Abb. 12/6). Man unterscheidet zwischen Vor-, Simultan- und Nachverdeckung, wobei die Simultanverdeckung im Wesentlichen durch die zuvor beschriebenen frequenzabhängigen Maskierungseffekte charakterisiert wird. Der sog. Vorverdeckungseffekt (pre-masking) beschreibt die Tatsache, dass lautere Signale zuvor stattgefundene leisere Ereignisse unhörbar werden lassen. Die Vorverdeckungszeit liegt im Bereich weniger Millisekunden und ist schwierig zu messen. In der Literatur findet man auch Angaben im Bereich von 20 ms und teilweise mehr. Bei der Entwicklung psychoakustisch basierter Codierverfahren hat sich gezeigt, dass auch Fehler im Bereich von wenigen Millisekunden bereits hörbar sein können. 657
Audiocodierung
Abb. 12/6. Zeitliche Maskierungseffekte.
Die Nachverdeckungszeit (post-masking) hingegen kann zwischen 20 ms bis hin zu mehreren 100 ms betragen. Sie entsteht durch eine Verringerung der Empfindlichkeit des Gehörs nach dem Einsetzen eines Schallereignisses. Nach dem Ende des Geräusches dauert es einige Zeit, bis die Empfindlichkeit wieder den Wert in der Stille erreicht. Bei der Codierung kann dies in der Weise berücksichtigt werden, indem für leise Signale, die zeitlich lauten Signalen nachfolgen, eine erhöhte Maskierung angenommen werden kann. 12.2.1.3
Räumliche Schallwahrnehmung
Mehrkanalige Audiosignale bieten weitere Möglichkeiten, durch Ausnutzung psychoakustischer Effekte die zu übertragende Informationsmenge zu reduzieren. Der wesentliche Ansatz ist hier die Analyse der Schalllokalisation des menschlichen Gehörs, die im Wesentlichen auf den sog. Spatial (Binaural) Cues basiert [12.1]. Diese sind: - Binaurale Pegeldifferenzen (Binaural/Interchannel Level Differences, ICLD), - Binaurale Laufzeitdifferenzen (Binaural/Interchannel Time Differences, ICTD), - Korrelation zwischen den Signalen (Inter Channel Correlation, ICC). Bei der Richtungslokalisation tiefer Frequenzen dominiert der Einfluss von Laufzeitdifferenzen, bei höheren Frequenzen dagegen eher der von Pegeldifferenzen. Verschiedene Verfahren, die in Kap. 12.4 näher vorgestellt werden, nutzen dies zur Datenratenreduktion. Idealerweise wird das Klangbild dabei nicht beeinträchtigt. Allerdings ist die mögliche Einsparung an Datenrate abhängig vom Signalcharakter. In der Praxis wird jedoch meist mit einer weitgehend konstanten Datenrate gearbeitet. Die dabei auftretenden Probleme sind in Kap. 12.3.2 beschrieben.
658
Grundprinzipien
12.2.2
Bausteine psychoakustisch basierter Codierverfahren
Abb. 12/7 (a) zeigt die grundlegenden Bausteine eines psychoakustisch basierten Encoders: - Analyse-Filterbank, - Quantisierung und Codierung, - Bitstrom-Multiplex, - Psychoakustisches Modell. In Abb. 12/7 (b) sind die Funktionen des zugehörigen Decoders angedeutet.
(a)
(b)
Abb. 12/7. Blockschaltbild eines psychoakustisch basierten Codecs. (a) Encoder (b) Decoder
Obwohl diese Struktur in allen derzeit bekannten Verfahren Verwendung findet, unterscheiden sich die Parameter dieser Funktionsblöcke in den verschiedenen Verfahren z. T. erheblich. 12.2.2.1
Filterbank
Die Filterbank eines psychoakustisch basierten Audiocoders erfüllt folgende wichtigen Aufgaben: - Überführung des Signals in eine kompaktere Form, die ein hohes Maß an Redundanzreduktion erlaubt; - Analyse der Frequenzzusammensetzung des Eingangssignals zur Berechnung der frequenzabhängigen Maskierungsschwelle; - Zerlegung des Eingangssignal in die Frequenzgruppen des menschlichen Gehörs (siehe Kap. 12.2.1), um diese gezielt manipulieren zu können. Redundanzreduktion Wie bereits unter Kap.12.2.1 erläutert, sind Audiosignale mit unterschiedliche hohen Redundanzanteilen behaftet. Redundanz ist z. B. dadurch gegeben, dass zeitlich aufeinander folgende Abtastwerte des Eingangssignals nicht unbedingt voneinander unabhängig sind. Bei redundanten Signalanteilen können daher Abtastwerte ggf. mehr oder weniger gut aus vorangegangenen Werten vorhersagt werden. Die Reduktion dieser im Signal enthaltenen 659
Audiocodierung Redundanz ist eine der wesentlichen Aufgaben eines Codierverfahrens. Bekannt sind hierzu die Methoden Prädiktionsfilter und Transformationscodierung, beide Verfahren sind letztendlich äquivalent. Während in der Sprachsignalcodierung meist Prädiktionsfilter eingesetzt werden, hat sich in der Audiocodierung der Einsatz von Transformationen durchgesetzt, die das Signal in seine Frequenzanteile zerlegen. Betrachtet man das Spektrum eines Signals, lässt sich prinzipiell feststellen, dass ein Signal um so mehr Redundanz enthält, je stärker sein Spektrum zerklüftet ist. Nach der Transformation ist die Information bei Signalen mit hoher Redundanz in wenigen Spektrallinien konzentriert, während die Mehrzahl der übrigen Spektrallinien relativ gering zum Informationsgehalt beiträgt. Derartige Spektren können mit vergleichsweise geringer Datenrate übertragen werden. Neben der Redundanz zwischen aufeinander folgenden Abtastwerten findet sich auch solche in der zeitlichen Struktur des Eingangssignals. Ein Beispiel hierfür ist ein Zeitsignal, das sich abgesehen von einem zeitlich kurzen Ausschlag - in Ruhe befindet. Das Spektrum eines solchen Signals ist breitbandig und enthält praktisch alle Frequenzen. Es erfordert deshalb bei der Übertragung die Codierung aller Spektrallinien, während im Zeitsignal nur wenige Werte von Null verschieden sind. Die Codierung des Spektrums ist also hier die ungünstigere Lösung. Das Spektrum eines derartigen Impulssignals unterscheidet sich jedoch von dem eines breitbandigen Rauschsignals, das ebenfalls praktisch alle Frequenzen enthält. Während die Spektralwerte des Rauschsignals, das ja aus Zufallswerten besteht, völlig unkorreliert sind, bestehen zwischen den Spektrallinien des Impulssignals Abhängigkeiten, die in der zeitliche Struktur des Signals begründet sind. Die z. B. im AAC-Coder eingesetzte Temporal Noise Shaping (TNS)-Filterung der Spektralwerte [12.8] setzt hier an und bewirkt eine zeitliche Formung des Quantisierungsrauschens. Die Wahl der optimalen Filterbank ist deshalb nicht trivial. Es muss eine geeignete Lösung für zwei sich widersprechende Eigenschaften gefunden werden: Frequenzauflösung und Zeitauflösung. Frequenzanalyse Die Berechnung der frequenzabhängigen Maskierungsschwelle erfordert eine Spektralanalyse des Signals. Die dafür erforderliche Frequenzauflösung ergibt sich zum einen aus der Breite der Frequenzgruppen. Daneben muss in jeder Frequenzgruppe bestimmt werden, ob es sich in diesem Frequenzabschnitt um ein tonales oder ein nicht-tonales Signal handelt. Wie in Kap. 12.2.1 erläutert, bestimmt dies in erster Linie den Abstand der Maskierungsschwelle vom Signal. Um diese Aussage treffen zu können, ist es erforderlich zu unterscheiden, ob das Spektrum innerhalb der Frequenzgruppe breitbandig ist oder aus einzelnen Tönen besteht. Die Frequenzauflösung der Analyse muss also deutlich besser als die Frequenzgruppenbreite sein. Bei tiefen Frequenzen, bei denen die Frequenzgruppenbreite ca. 100 Hz beträgt, erfordert dies eine Auflösung von wenigstens ca. 25 Hz. Frequenzgruppenzuordnung Bedingt durch die Eigenschaft des menschlichen Gehörs, alle Schallinformationen innerhalb einer Frequenzgruppe zusammen auszuwerten, ist es nicht erforderlich, die Steuerung der Quantisierung feiner als für jeweils eine Frequenzgruppe durchzuführen. Da die Anteile des 660
Grundprinzipien Quantisierungsrauschens aller Signalkomponenten einer Frequenzgruppe im Gehör zusammengefasst werden, genügt es, die Gesamtrauschleistung der Frequenzgruppe zu kontrollieren. 12.2.2.2
Quantisierung und Codierung
Aufgabe diese Blocks ist die optimale Verwendung der für einen Satz von Filterbankausgangswerten zur Verfügung stehenden Datenrate zur Übertragung. Üblicherweise geschieht dies in zwei Schritten. Wie in Abb. 12/8 gezeigt, werden die Filterbankausgangswerte zuerst einer Quantisierung unterworfen, deren Steuerung durch das psychoakustische Modell erfolgt. Idealerweise wird dabei ein SNR eingestellt, der in jeder Frequenzgruppe mindestens der Maskierungsschwelle entspricht. In einem zweiten Schritt müssen nun diese quantisierten Werte für die Übertragung codiert werden. Da der Abstand der Maskierungsschwelle vom Signalpegel je nach Signal unterschiedlich ist, ergibt sich dabei i. Allg. eine variable Datenrate. Dies ist kein Problem bei einem sog. Variable Rate Coder, problematisch wird es dagegen, falls eine zumindest näherungsweise konstante Datenrate gefordert wird. In diesem Fall muss die Quantisierung des Signals so verändert werden, dass sich bei der Codierung die gewünschte Datenrate einstellt. Falls die zur Verfügung stehende Datenrate nicht ausreicht, um die Anforderungen zu erfüllen, sind geeignete Notfallstrategien wichtig. Das Problem kann relativ gut gemildert werden durch den Einsatz einer Kurzzeitmittelung. Typischerweise treten solche schwer zu codierenden Signalabschnitte nur kurzzeitig auf. Durch eine Mittelung über eine Zeit von 100 bis 500 ms kann ein Ausgleich zwischen schwer und leicht zu codierenden Abschnitten geschaffen werden. Bei einer Übertragung über Kanäle mit konstanter Datenrate tritt diese Zeit allerdings als zusätzliche Signalverzögerung zutage.
Abb. 12/8. Quantisierung und Codierung.
661
Audiocodierung 12.2.2.3
Psychoakustisches Modell
Aufgabe dieses Moduls ist die Berechnung der Maskierungsschwelle in einer Frequenzgruppe zu einer bestimmten Zeit. Dazu sind die folgenden Schritte notwendig: - Tonalitätsbestimmung für jede Frequenzgruppe, - Berechnung der Grundmaskierung innerhalb einer Frequenzgruppe, - Berücksichtigung der Maskierungswirkung einer Frequenzgruppe auf benachbarte Gruppen, - Einbeziehung der Nachverdeckung. Aufgrund der in Kap. 12.2.1 beschriebenen Unterschiede in der Maskierungswirkung von tonalen und nicht-tonalen Signalen ist zunächst eine Bestimmung der Tonalität jeder Frequenzgruppe erforderlich. Am einfachsten ist hierzu die Betrachtung der spektralen Hüllkurve der Frequenzlinien einer Frequenzgruppe. Deutlich hervortretende Peaks deuten dabei auf einen tonalen Charakter. Ein geeignetes Maß stellt auch das sog. Spectral Flatness Measure (SFM) dar: Der SFM-Wert, der Quotient aus geometrischen und arithmetischen Mittelwert der Spektrallinien einer Frequenzgruppe, liefert ein stufenloses Maß für die „Flachheit“ des Spektrums und damit für die Tonalität. Bei tiefen Frequenzen reicht jedoch oft die Frequenzauflösung der verwendeten Spektralanalyse nicht aus, um eine Entscheidung tonal/nicht-tonal treffen zu können. Abhilfe schafft hier die Betrachtung der Spektrallinien mehrerer aufeinander folgender kurzer Analysefenster, die sich bei tonalen Signalen vorhersagbar entwickeln, während bei nicht-tonalen Signalen keine Beziehung zwischen den zeitlich aufeinander folgenden Werten besteht. Die Grundmaskierungsschwelle einer Frequenzgruppe berechnet sich dann aus der Signalenergie dieser Gruppe minus ca. 5 bis 24 dB (je nach Tonalität dieser Gruppe). In einem weiteren Schritt kann nun die Maskierungswirkung einer Frequenzgruppe auf die Nachbargruppen einbezogen werden. Dies kann z. B. entsprechend den in Abb. 12.4 gezeigten, in entsprechenden Messungen ermittelten Maskierungskurven geschehen. Da die Steilheit der Flanken dieser Kurven jedoch relativ stark von der Lautstärke abhängen, muss dies entsprechend vorsichtig geschehen, da ja die Wiedergabelautstärke unbekannt ist. Zudem verändern z. B. bei der Wiedergabe eingesetzte Filter diese Hörkurven. Bei weniger starker Datenratenkompression wird dieser Mechanismus deshalb oft abgeschaltet, und man beschränkt sich auf die Maskierungswirkung innerhalb der Frequenzgruppe. Bei hohen Kompressionsfaktoren hingegen kann die Berücksichtigung der Inter-Band-Maskierung zu einer erheblichen Datenratenersparnis führen. Zur weiteren Verringerung der Datenrate kann nun noch die Nachverdeckung mit einberechnet werden. Auf laute Abschnitte folgende leise Passagen werden u. U. durch den Nachverdeckungseffekt (siehe Kap. 12.2.1.2) maskiert und brauchen deshalb nicht übertragen zu werden. 12.2.2.4
Spektrale Bandbreitenerweiterung
Die spektrale Bandbreitenerweiterung (Spectral Band Replication, SBR) ist eine moderne Codiertechnik, die es erlaubt, hochfrequente Signalanteile nicht diskret zu übertragen, sondern im Decoder anhand einer parametrischen Beschreibung mittels einer Reihe von Werkzeugen mit guter Näherung wiederherzustellen [12.5]. Der in Kombination mit SBR verwendete 662
Grundprinzipien Basiscoder muss deshalb diesen Frequenzbereich nicht codieren, so dass für die tieffrequenten Anteile pro Hz Übertragungsbereich eine höhere Bitrate zur Verfügung steht. Die Anwendung von SBR ist prinzipiell nicht an einen bestimmten Codieralgorithmus gebunden. In der Praxis hat sich jedoch die Kombination mit dem AAC-Codec durchgesetzt, der in weitem Einsatz ist (siehe Kap. 12.4.4 ff). Abb. 12/9 zeigt die Einbindung des SBR-Encoders und -Decoders in ein MP3- oder AACÜbertragungssystem. Der SBR-Encoder analysiert die hochfrequenten Signalanteile des Eingangssignals und leitet daraus Parameter ab, die zum Decoder übertragen werden müssen. Für diese Daten ist kein separater Kanal erforderlich, da die Datenrate sehr gering ist (wenige kBit/s), so dass diese ohne weiteres im Zusatzdatenfeld eines AAC-Bitstroms untergebracht werden können. Für den Übertragungskanal ist es somit nicht sichtbar, ob z. B. AAC mit oder ohne SBR eingesetzt wird. Auf der Empfängerseite erfolgt zunächst die Decodierung des übertragenen AAC-Bitstroms mit einem herkömmlichen AAC-Decoder. Das Ausgangssignal dieses Decoders ist bandbegrenzt und kann theoretisch auch ohne SBR-Erweiterung verwendet werden. Die mit SBR erweiterten Verfahren sind somit rückwärtskompatibel zu den jeweiligen Basiscodern. In der Praxis hat sich jedoch diese Rückwärtskompatibilität als wenig attraktiv erwiesen. Zum einen ist das Signal relativ stark bandbegrenzt (ca. 7 kHz), und zum anderen kann die Übernahmefrequenz zwischen Basiscoder und SBR schwanken, was die Verwertbarkeit des Ausgangssignals des Basiscoders zusätzlich einschränkt. Ein Signal mit voller Bandbreite kann im Decoder dadurch erzeugt werden, dass die im Bitstrom eingebetteten SBR-Parameter aus dem Ancillary Datenfeld extrahiert und zusammen mit dem decodierten Basiscodersignal dem SBR-Decoder zugeführt werden. Dieser liefert am Ausgang dann das komplette Signal.
Abb. 12/9. Spectral Band Replication (SBR) - Blockdiagramm des Codecs.
Der innere Aufbau des SBR-Decoders ist in Abb. 12/10 dargestellt. Zunächst wird das im AAC-Decoder gerade zuvor in den Zeitbereich rücktransformierte Signal erneut mittels einer QMF-Filterbank in 64 Frequenzbänder zerlegt. Die oberen Bänder der QMF-Filterbank sind zunächst Null, da die hochfrequenten Anteile nicht übertragen wurden. Diese werden nun nach verschiedenen Strategien wiederhergestellt. Meist werden die hochfrequenten Anteile zunächst durch Transponierung der tieffrequenten Anteile gewonnen. Für tonale Signale ergibt sich damit mit gewissen Einschränkungen eine Rekonstruktion der im Originalsignal enthaltenen Obertöne. Optional können aber Rausch- oder Sinusgeneratoren in ausgewählten Bändern eingesetzt werden. Dies ist z. B. bei Signalen erforderlich, die bei tiefen Frequenzen nichts enthalten, wie etwa Sinus-Testtöne. Im nächsten Schritt erfolgt dann eine zeitliche und spektrale Formung der zeitlichen Hüllkurve in den synthetisierten Frequenzbändern ehe das Signal durch die QMF-Synthesefilterbank zum endgültigen Ausgangssignal zusammengesetzt 663
Audiocodierung wird. Die Hüllkurvenformung muss bei nichtstationären Signalen mit einer Auflösung von wenigen ms erfolgen. Die Transformationslänge von AAC (oder MP3) ist aber ein Mehrfaches davon, so dass der Umweg über die QMF-Filterbank erforderlich ist. Der Übergangsfrequenzbereich zwischen Basiscoder und SBR-Coder liegt je nach der für den Basiscoder verfügbaren Bitrate typischerweise im Bereich von 5 bis 10 kHz. Dadurch, dass die hohen Frequenzanteile eines Signals nur näherungsweise wiedergegeben werden, kann mit SBR grundsätzlich keine transparente Codierung erreicht werden. Die mit der SBR erreichte Effizienzsteigerung bei niedrigen bis sehr niedrigen Bitraten, bei denen mittels dieser Technologie eine erstaunlich gute Audioqualität erreichbar ist, ist im Kap. 12.4.4 für die Kombination mit AAC beschrieben.
Abb. 12/10. SBR-Decoder.
12.2.3
Codierung zwei- und mehrkanaliger Stereosignale
12.2.3.1
Joint-Stereo Codierung
Es gibt mehrere Gründe, die einzelnen Audiokanäle eines Stereosignals nicht unabhängig voneinander zu codieren: - Vermeidung von Demaskierungseffekten zwischen den einzelnen Signalen, - Nutzung von Redundanzen zwischen den verschiedenen Signalen, - Eliminierung von psychoakustisch irrelevanten Anteilen im Multikanalsignal. Vermeidung von Demaskierungseffekten Aus psychoakustischen Gesichtspunkten ist für bestimmte Signale die gleichzeitige Betrachtung der einzelnen Kanäle des Multikanalsignals unbedingt erforderlich, um einen als StereoUnmasking beschriebenen Effekt zu vermeiden. Hierzu müssen die Maskierungsschwellen der beteiligten Kanäle angepasst werden. Keinesfalls sollte daher ein Stereosignal mittels zweier unabhängiger psychoakustisch basierter Mono-Encoder übertragen werden, wie z. B. fälschlicherweise im Text des ITU-T Standards G.722.1 empfohlen wird. Nutzung von Redundanzen Der zunächst nahe liegende Ansatz besteht darin, redundante Signalanteile zwischen den einzelnen Kanälen zu identifizieren und diese Redundanzen aus dem Signal zur Datenratenreduzierung zu eliminieren. Da es sich dabei nur um eine Redundanzreduktion handeln würde, wäre solch ein Prozess verlustlos. In der Praxis hat sich jedoch gezeigt, dass derartige Redundanzen nur selten vorhanden sind. Schon geringe Phasenverschiebungen zwischen den 664
Grundprinzipien Kanälen, die in vielen Aufnahmen anzutreffen sind, führen dazu, dass kaum echt redundante Anteile vorhanden sind. Eine Ausnahme bilden Monosignale oder sehr stark korrelierte Signale, die über solche Mehrkanalsysteme übertragen werden. Ein möglicher Weg zur Eliminierung der Redundanzen zwischen Stereokanälen ist der Einsatz einer Transformation, die die Stereoebene in die Hauptabbildungsrichtung des Eingangsignals rotiert. Es hat sich jedoch gezeigt, dass der dafür nötige Bitratenaufwand wegen der oft geringen Redundanz nicht durch die erreichbare Redundanzreduktion aufgewogen wird. Zur Anwendung gelangt deshalb meist nur die vereinfachte M/S-Stereo-Transformation. Statt einer Rotation des Signals in die Vorzugsrichtung matriziert man dabei das Eingangssignal in die beiden Komponenten Mitte (M) und Seite (S), die sich aus Summe bzw. Differenz der beiden Eingangssignale L und R ergeben. Der dadurch mögliche Gewinn durch Redundanzreduktion ist signalabhängig und meist relativ gering. Im Extremfall (Monosignal) ist das S-Signal aber Null und man braucht nur das M-Signal zu übertragen. Irrelevanzreduktion Wirkungsvoller zur Datenratenreduktion ist die Nutzung der in Kap. 12.2.1.3 genannten Eigenschaften des menschlichen Gehörs zur Richtungslokalisation. Bei tiefen Frequenzen dominieren Laufzeitdifferenzen, bei höheren Frequenzen dagegen eher Pegeldifferenzen. Dies wird im Modus Intensitäts-Stereofonie (Intensity stereo) ausgenutzt [12.6]. Da bei hohen Frequenzen die Phasenlage des Signals nur wenig zur Lokalisation beiträgt, kann man die hochfrequenten Anteile der beiden Kanäle eines Stereosignals durch ein im Pegel angepasstes Summensignal nebst einer separaten Richtungsinformation ersetzen. In diesem Frequenzbereich muss dann anstelle von zwei Kanälen nur noch einer übertragen werden. Die zusätzlich zu übertragende, mit geringer Datenrate codierbare Richtungsinformation fällt demgegenüber nicht ins Gewicht. Die Datenratenersparnis ist umso höher, je niedriger die Übergangsfrequenz zur Intensity-Darstellung gewählt wird. Probleme können vor allem bei sich schnell ändernden Signalen mit unterschiedlicher zeitlicher Hüllkurve in den beiden Kanälen auftreten. Hier kann es zu hörbaren Veränderungen des Stereobildes kommen, falls die zeitlichen Strukturen der Hüllkurven nicht korrekt wiedergegeben werden. Leider ist die zeitliche Auflösung der Filterbänke von MPEG-1 Layer 1 bis 3, AAC oder AC-3 zu gering, um z. B. für Applaussignale eine korrekte Wiedergabe erzielen zu können. Meist werden jedoch daraus resultierende Veränderungen des Stereobildes als weniger lästig empfunden als solche Codierartefakte, die durch eine Quantisierung oberhalb der Maskierungsschwelle entstehen. Eine parallele Entwicklung, die den gleichen Ansatz verfolgt, wurde unter der Bezeichnung „Dynamic Crosstalk“ bekannt. Die Grundidee kann auch auf mehr als zwei Kanäle erweitert werden, wobei dann ein Summensignal verwendet wird. Dies ist sowohl im AC-3- wie auch im AAC-Multikanalcoder vorgesehen. Eine Weiterentwicklung des Modus Intensity stereo stellt die Parametric Stereo Technologie dar. Neben einigen weiteren Verbesserungen ist hier durch die Verwendung der QMF-Filterbank der SBR-Technologie anstelle der Basiscoder-Filterbank eine zeitlich feinere Steuerung der Hüllkurve möglich, so dass das oben beschrieben Problem stark gemindert wird. Parametric Stereo wird z. B. in HE-AAC V2 eingesetzt (siehe Kap. 12.4.3).
665
Audiocodierung 12.2.3.2
Spatial Audio Codierung
Eine Verallgemeinerung der Intensitätsstereofonie für Multikanalsignale stellt ein Verfahren mit der Bezeichnung Binaural Cue Coding (BCC) dar. Zusammen mit der Parametric Stereo Technologie bildet es die Grundlage der sog. Spatial Audio Technologie, die als MPEG Surround standardisiert ist, siehe Kap. 12.4.5. Abb. 12/11 zeigt das Grundprinzip des BCC-Verfahrens. BCC ist unabhängig von einem bestimmten Codierverfahren. Im Encoder wird aus den mehrkanaligen Eingangssignalen zunächst ein ein- bzw. zweikanaliges Summensignal (Downmix) gebildet. Zusätzlich werden aus dem Multikanalsignal die sog. Spatial (Binaural) Cues ICTD, ICLD und ICC bestimmt (siehe Kap. 12.2.1.3). Der Decoder setzt dann die Multikanal-Ausgangssignale aus dem Summensignal mit Hilfe dieser Parameter wieder zusammen. Dabei muss auch hier auf eine ausreichend hohe zeitliche Auflösung geachtet werden. Die zur Übertragung der Spatial Cues benötigte Datenrate ist sehr gering und beträgt für eine komplette 5.1-Kanal-Konfiguration ca. 4 bis 16 kBit/s – je nach Qualitätsanforderung.
Abb. 12/11. Grundprinzip von Binaural Cue Coding (BCC).
Aufgrund ihrer geringen Datenrate können diese Informationen problemlos in den Zusatzdatenfeldern gängiger Codierverfahren untergebracht werden, sodass auch wie bei der zuvor beschriebenen SBR-Technologie kein separater Übertragungskanal vorgesehen werden muss. Im Gegensatz zur SBR-Technologie ist hier eine echte Rückwärtskompatibilität gegeben: Das Mono- bzw. Stereo-Downmixsignal hat die volle Audiobandbreite und kann z. B. auf allen AAC- oder MP3-Decodern wiedergegeben werden.
Abb. 12/12. Spatial Audio Encoder mit StereoDownmix.
Der Encoder für Stereo-Signale ist als Blockschaltbild in Abb. 12/12 dargestellt. Die Spatial Cues müssen unter Einbeziehung des stereofonen Downmix-Signals bestimmt werden. Den dazu passenden Surround-Decoder zeigt Abb. 12/13. 666
Qualitätsaspekte der Audiocodierung Das Downmix-Signal wird durch einen herkömmlichen Stereo Decoder decodiert. Damit ist auch hier die Rückwärtskompatibilität zu existierenden Stereo-Geräten gegeben. Das Multikanalausgangssignal wird – falls gewünscht - durch den SAC-Decoder aus den Spatial Cues und dem Downmix-Signalen zusammengesetzt.
Abb. 12/13. Spatial Audio Decoder.
Eine weitere Modifikation des Systems führt zu der in Abb. 12/14 gezeigten Konfiguration. Anstelle eines im Spatial Audio Encoder erzeugten Stereo-Downmix wird hier eine zweite, als Artistic Downmix bezeichnete unabhängige (manuelle) Abmischung des Multikanalprogramms verwendet. Dies funktioniert nicht ohne Einschränkungen. Beide Abmischungen müssen zeitlich zueinander synchron sein und im Zweikanalsignal sollten möglichst die gleichen Teilsignale wie in der Mehrkanalfassung enthalten sein.
Abb. 12/14. Spatial Encoder mit Artistic Downmix.
Die konkrete Ausgestaltung dieser Technologie ist in Kap. 12.4.5 im Zusammenhang mit MPEG Surround beschrieben, siehe auch [12.7].
12.3
Qualitätsaspekte der Audiocodierung
12.3.1
Qualitätsstufen von Codec-Anwendungen
Zur Qualitätsbeurteilung psychoakustisch basierter Codierverfahren sind objektive Messverfahren praktisch nicht geeignet. Auch spezielle, psychoakustisch basierte Messverfahren wie PEAQ sind nur bedingt in der Lage, Aussagen über die Audioqualität dieser Verfahren zu machen (siehe Kap. 18.3.3). Derzeit führt daher kein Weg an Hörtests mit geschulten Testpersonen vorbei. Hierfür gibt es verschiedene international standardisierte Testmethoden, die in Kap. 18.7 ausführlich beschrieben sind.
667
Audiocodierung Für solche Qualitätsbeurteilungen haben sich die in Kap. 18.1 definierten Qualitätsstufen etabliert: - Transparente Audioqualität (CD-Qualität), - Gute Qualität (FM-Rundfunkqualität), - Sub-FM-Qualität (intermediate quality). Transparente Audioqualität Lässt man den Fall der verlustfreien Codierung außer acht, stellt der Test auf psychoakustische Transparenz die höchsten Anforderungen an ein Codierverfahren. Transparenz meint hier, dass das menschliche Gehör für beliebige Quellensignale keinen Unterschied zum codierten Signal feststellen kann. In der Praxis erreicht kein verlustbehaftetes Codierverfahren vollständige Transparenz für alle Programmarten. Für einige wenige Signale sind unter optimalen Bedingungen immer Unterschiede im direkten Vergleich zum Original wahrnehmbar, so dass man besser von „quasi-transparenter“ Codierung sprechen sollte. Diese könnte man so definieren: - Geringe Unterschiede nur für einige wenige Signale unter optimalen Abhörbedingungen wahrnehmbar; - die Audioqualität dieser Signale wird weiterhin mit gut beurteilt, d.h. es gibt kein Signal mit schlechterer Beurteilung als die Note „4“ auf der standardisierten Impairment-Skala (siehe Kap. 18.7.4.1). Den Stand der Technik hinsichtlich der transparenten Codierung stellte auch im Jahre 2007 noch der schon 1997 mit dem AAC-Verfahren erreichte Wert von 128 bis 144 kBit/s für ein Stereosignal dar. Seitdem sind neue Verfahren entstanden, die bei diesen Bitraten eine ähnlich gute Audioqualität aufweisen. Jedoch konnte bisher kein deutlicher Fortschritt über diesen Stand hinaus erreicht werden. Gute Audioqualität Der UKW/FM-Rundfunk ist ein bekanntes Beispiel für einen sinnvollen Kompromiss zwischen Aufwand und Ergebnis. Trotz Beschränkung auf 15 kHz Audiobandbreite, einem Dynamikumfang von max. 50 dB und einer Kanaltrennung zwischen Links und Rechts von weniger als 30 dB beurteilen die Hörer die Qualität im ungestörten Fall als gut. Ähnliche Überlegungen sind auch bei digitalen Audiocodierverfahren sinnvoll. Zunächst spart man auch hier Bandbreite durch eine Beschränkung des übertragenen Frequenzbereichs auf ca. 15 kHz. Die zur Codierung der darüber liegenden Frequenzen aufzuwendende Datenrate kann stattdessen zur genaueren Darstellung der tieferfrequenten Anteile verwendet werden. Durch Codierverfahren wie SBR (siehe Kap.12.2.2.4) ist es sogar möglich, den tatsächlich übertragenen Frequenzbereich bis auf ca. 7 kHz einzuschränken. Die SBR-Technologie synthetisiert dann den Frequenzbereich von 7 bis 15 kHz im Decoder. Die dabei verwendeten Modelle sind gut genug, dass für viele Signale dieser Frequenzbereich, der nur etwa eine Oktave umfasst, ausreichend ähnlich zum Original ist, so dass in vielen Fällen kein signifikanter hörbarer Unterschied besteht. Auch der Dynamikumfang stellt für richtig entworfene, psychoakustisch basierte Verfahren kein Problem dar. Innerhalb einer Frequenzgruppe ist nur ein SNR von wenigen dB 668
Qualitätsaspekte der Audiocodierung erforderlich. Größere Unterschiede im Pegel zwischen den einzelnen Frequenzgruppen werden durch jeweils einen Skalenfaktor für die ganze Frequenzgruppe ausgeglichen, der mit sehr geringer Datenrate dargestellt werden kann. Die Skalenfaktoren bei MP3 oder AAC erlauben z. B. problemlos die Darstellung eines Pegelunterschiedes von mehr als 120 dB. Hinsichtlich des Dynamikumfangs sind diese Verfahren deshalb aus psychoakustischer Sicht selbst bei geringen Datenraten besser als z. B. eine Audio-CD. Kompromisse werden hingegen bei dem SNR-Wert innerhalb einer Frequenzgruppe gemacht. Für eine transparente Codierung sind für tonale Bänder Werte von ca. 25 dB und für rauschartige Bänder ca. 6 dB erforderlich. Zur Verringerung der Datenrate werden diese Werte etwas niedriger angesetzt, so dass u. U. Unterschiede zum Originalsignal auftreten können, jedoch noch nicht als störend empfunden werden. Sub-FM-Qualität Soll die Datenrate unter die für FM-Qualität erforderliche Rate abgesenkt werden, müssen weitere Kompromisse hinsichtlich der Audioqualität eingegangen werden. Solche Einschränkungen sind z. B. für Audio-Anwendungen im Internet oder bei der „digitalen Mittelwelle“ DRM erforderlich, siehe Kap. 17. Der resultierende Qualitätslevel wird auch als Intermediate quality bezeichnet. Die meisten Audiocodierverfahren besitzen eine Vielzahl von Parametern, die aufeinander abgestimmt werden müssen, um für eine bestimmte Bitrate das bestmögliche Ergebnis zu erhalten. Sind die für gute Qualität erforderlichen Bedingungen für diese Parameter aufgrund zu geringer Datenrate nicht einzuhalten, treten hörbare Abweichungen zum Original auf. Dabei liegt es am Hersteller des Encoders, welche Parameter er benützt, um die Datenrate zu senken. Ein oft gewählter Kompromiss ist die Abstimmung zwischen Audiobandbreite und NMR. Eine stark begrenzte NF-Bandbreite erlaubt einen relativ hohen NMR-Wert und damit ein Signal guter Qualität, da dann weniger Spektrallinien zu übertragen sind. Zieht man hingegen eine möglichst hohe Audiobandbreite vor, müssen viele Spektrallinien mit einer zu geringen Datenrate codiert werden, was zu einem schlechten NMR-Wert und damit zu hörbaren Störungen in dem übertragenen Frequenzbereich führt. Ein anderer gern reduzierter Parameter ist die Verringerung der Stereo-Basisbreite. Derartige Manipulationen werden meist als weniger störend empfunden als die zuvor beschriebenen Maßnahmen. Insgesamt kann eine Vielzahl von Artefakten durch zu geringe Datenraten auftreten, die im nachfolgenden Abschnitt näher vorgestellt werden.
12.3.2
Typische Codier-Artefakte
Aus Kostengründen (Bandbreitenbedarf zur Übertragung) werden psychoakustisch basierte Codierverfahren oft in einem Arbeitspunkt (Datenrate) betrieben, der nahe an den Grenzen ihrer prinzipiellen Leistungsfähigkeit liegt. Diese Grenzen werden typischerweise zuerst für kritische Signale hörbar. Sie sind teilweise sehr verfahrensspezifisch und in der individuellen Konstruktion eines Codecs begründet. Die folgenden Abschnitte geben einen Überblick über typische Codierartefakte. Eine umfassende Übersicht findet sich in [12.2], ergänzt mit einer 669
Audiocodierung Vielzahl von Hörbeispielen. Eine Zusammenstellung von Begriffen für bestimmte Artefakte bei digitaler Übertragung bzw. Codierung, die u. a. bei internationalen Hörtests benutzt werden, ist unter Kap.18.6 sowie in [BS.1284] zu finden. 12.3.2.1
Artefakte durch begrenzte Zeitauflösung
Psychoakustisch basierte Coder arbeiten in der Frequenzebene. Für den Entwurf der dazu benötigten Filterbank zur Zeit-/Frequenzbereichs-Transformation ist eine Abwägung zwischen hoher Frequenzauflösung einerseits und guter Zeitauflösung andererseits erforderlich. Leider sind beide Eigenschaften nicht unabhängig voneinander erreichbar - eine hohe Frequenzauflösung bedingt eine geringe Zeitauflösung und umgekehrt, sie ist aber zur Erzielung einer hohen Codiereffizienz für kurzzeit-stationäre Signale (und damit für die große Mehrheit der Musiksignale) erforderlich. Vorecho, Nachecho Die üblicherweise verwendeten Blocklängen der Zeit-/Frequenzbereichs-Transformationen in den Filterbänken moderner Verfahren liegen im Bereich von 20 bis 40 ms. Zur Datenratenreduktion erfolgt zunächst eine Quantisierung der Filterbankausgangswerte im Frequenzbereich.
Abb. 12/15. Vorecho bei Blockverarbeitung mit einer Fensterlänge von ca. 21 ms. Von oben nach unten: Originalsignal, Ausgangssignal des Beispielcoders, und Fehlersignal (letzteres mit vergrößertem Amplitudenmaßstab).
Bei der Rücktransformation wird nun der Quantisierungsfehler im Zeitbereich über den gesamten Block verteilt. Dies stellt kein Problem dar, solange das Audiosignal für die Dauer 670
Qualitätsaspekte der Audiocodierung des Blocks quasi-stationär ist und sich die Maskierungsverhältnisse demzufolge in dieser Zeit nicht ändern. Probleme entstehen jedoch bei Signalen mit starken Impulsen im Zeitbereich in der Form sog. Vorechos. Abb.12/15 zeigt ein Beispiel eines Vorechos, produziert durch ein Codec mit einer Blocklänge von ca. 20 ms. Das Audiosignal weist einen starken Ausschlag auf, der in diesem Beispiel genau in der Mitte des Blocks liegt. Das Fehlersignal zeigt die über die ganze Blockdauer etwa gleichstarke Störung. Dieses Problem wird sichtbar im Ausgangssignal des Coders. Vor dem starken Ausschlag des Nutzsignals übersteigt das Fehlersignal dieses bei weitem und ist als Vorecho wahrnehmbar, da es weit vor der erst einige wenige Millisekunden vor dem Ausschlag einsetzenden Vorverdeckung (siehe Kap. 12.2.2) beginnt. Hörbar sind solche Vorechos als eine „Verschmierung“ scharfer Ausschläge bis hin zur Wahrnehmung einer Verdoppelung des ursprünglichen Ausschlags. Moderne Codierverfahren lösen dieses Problem meist durch eine dynamische Umschaltung der Blocklänge. Bei kritischen Signalen wird dann eine sehr viel kürzere Blocklänge gewählt, die so bemessen wird, dass die Vorechos innerhalb der Vorverdeckungszeit auftreten und damit nicht wahrnehmbar sind. Das Beispiel zeigt auch ein Nachecho, da am Ende des Blocks das Fehlersignal ebenfalls deutlich die Amplitude des Originalsignals übersteigt. Aufgrund der relativ langen Nachverdeckungszeit (siehe Kap. 12.2.2) ist dieses jedoch nicht wahrnehmbar. Nachhalleffekte bei Sprache Sprachsignale stellen spezielle Anforderungen an Audiocodierverfahren, da tonale Abschnitte (Vokale) sehr schnell mit scharfen Ausschlägen z. B. bei Plosiv- oder Frikativlauten wechseln. Für die effiziente Codierung der tonalen Abschnitte ist eine lange Blocklänge erforderlich, die aber bei den Plosiv- oder Frikativlauten aufgrund der zuvor beschriebenen zeitlichen Verschmierung des Quantisierungsfehlers im rekonstruierten Signal zum Entstehen von zusätzlichen Komponenten führt. Aufgrund der schnellen Folge von tonalen Abschnitten und scharfen Signaleinsätzen werden diese bei Sprache nicht als Vorechos, sondern eher als eine Verhallung des Sprachsignals wahrgenommen. Die zuvor beschriebene Methode des Umschaltens auf kürzere Blocklängen bei kritischen Ausschlägen ist bei Sprache nicht praktikabel, da zu viele dieser Ereignisse auftreten, so dass sehr oft mit kurzer Blocklänge codiert werden müsste. Damit würde aber eine sehr viel höhere Bitrate für Sprachsignale erforderlich. Das Problem kann aber gemildert werden durch eine zeitliche Formung (Anpassung an den Signalverlauf) des Quantisierungsrauschens, z. B. durch das im AAC-Codierverfahren eingesetzte TNS-Verfahren (siehe Kap. 12.2.2.1). 12.3.2.2
Birdies
Bei diesem Artefakt gibt es mehrere Varianten. Zunächst kann er auftreten bei einem Codec, dessen obere Genzfrequenz im hörbaren Bereich liegt. Dies ist z. B. dann der Fall wenn die Audiobandbreite bei niedrigen Bitraten beschränkt wird, um die effektive Datenrate für den unteren Frequenzbereich zu erhöhen und damit eine zu starke Quantisierung in diesem Bereich zu vermeiden. Die in Audiocodern verwendeten Filterbänke besitzen eine sehr große Filtersteilheit, oft mehrere 100 dB pro Oktave. Werden diese Filterbänke zur Bandbegrenzung im Coder benützt, können einzelne im Audiosignal enthaltenen Töne, die nahe an der oberen 671
Audiocodierung Grenzfrequenz liegen und leicht in der Frequenz schwanken, mal innerhalb des Übertragungsbereiches liegen und dann wieder außerhalb. Dies ist als eine Art Zwitschern wahrnehmbar, was diesem Artefakt auch den Namen eingebracht hat. Abhilfe schafft die Verwendung von zusätzlichen Vorfiltern mit geringerer Flankensteilheit. Ein ähnlicher Effekt, der allerdings nicht auf die obere Grenzfrequenz beschränkt ist sondern in jedem Frequenzband auftreten kann, hat seine Ursache in zeitlichen Schwankungen im Quantisierungsgrad der einzelnen Frequenzbänder. Diese Änderungen können zum einen in unzureichenden Berechnungen der Maskierungsschwelle begründet sein, oder auch einfach dadurch, dass keine ausreichende Datenrate zur Verfügung steht, um die durch die Maskierungsschwelle gemachten Vorgaben einzuhalten. In letzterem Fall steht der Coder vor der unlösbaren Aufgabe, gerade soviel Quantisierungsrauschen einzufügen, dass es bei einer bestimmten Frequenz nicht hörbar ist. Da die Datenrate dafür aber nicht ausreicht, kommt es zum Einfügen hörbarer Störungen. Je nach implementierter Notfallstrategie des Coders treten diese variabel in der Zeit und über den ganzen Übertragungsfrequenzbereich verteilt auf. Eine übliche Methode ist dann, einige Bänder überhaupt nicht zu codieren. In diesem Fall entstehen allerdings Lücken im Spektrum. Dadurch kann sich z. B. auch die Obertonstruktur eines Klanges und somit auch die Klangfarbe ändern. 12.3.2.3
Mehrkanal-Artefakte
Zusätzliche Störungen können bei der Codierung mehrkanaliger Tonsignale auftreten, die ja zwecks Einsparung von Bitrate in der Regel nicht als unabhängige Einzelsignale, sondern unter Ausnutzung der entsprechenden Gesetzmäßigkeiten der räumlichen Schallwahrnehmung (siehe Kap. 12.2.3) en bloc verarbeitet werden. Binaural Unmasking Dieser Effekt ist verknüpft mit einem in der Literatur als Binaural Masking Level Difference [12.1] bezeichneten Effekt. Phasendifferenzen des Maskierers und/oder des maskierten Signals zwischen den beiden Ohren setzen die Maskierungsschwelle herab. Im Monofall verdeckte Signale werden dadurch bei Stereowiedergabe wieder hörbar. Artefakte im Modus Intensity Stereo Ein bekanntes, bei der Codierung zweikanaliger Signale auftretendes Artefakt hat seine Ursache in der unzureichenden zeitlichen Auflösung der Coder-Filterbänke. Im Modus Intensity stereo (siehe Kap. 12.2.3.1) werden die hochfrequenten Anteile der beiden StereoKanäle durch ein Summensignal nebst Richtungsinformation ersetzt. Vor der SyntheseFilterbank im Decoder sind somit die hochfrequenten Anteile in den beiden Kanälen eine skalierte Version des gleichen Signals, das für die zeitliche Länge der Filterbank (typischerweise 10 bis 20 ms) die gleiche Hüllkurve aufweist. Ein Problem tritt nun auf für transiente Signale, die ursprünglich eine unterschiedliche zeitlicher Hüllkurve in den beiden Kanälen hatten. Der räumliche Eindruck geht bei derartigen Signalen verloren und das Signal fällt in der Mitte zusammen. Ein bekanntes Beispiel für ein derartiges Signal ist ein Applaus eines größeren Publikums, bei dem die einzelnen Klatschgeräusche schnell und unkorreliert zwischen den Kanälen aufeinander folgen. 672
Qualitätsaspekte der Audiocodierung 12.3.2.4
Artefakte durch Tandem-Codierung
Unter Tandem-Codierung (auch als Kaskadierung bezeichnet) versteht man die Hintereinanderschaltung von zwei oder mehreren Codiervorgängen im Verlaufe eines Übertragungsprozesses, die das Signal verlustbehaftet in ein anderes Format überführen (siehe Abb. 12/16). Solche Situationen treten in der Praxis vor allem auf durch die Verwendung verschiedener Datenraten in der Übertragungskette. Durch eine solche Hintereinanderschaltung kann es zur Entstehung von hörbaren Artefakten kommen, auch wenn jeder Codiervorgang für sich allein betrachtet keinen wahrnehmbaren Qualitätsverlust bewirkt. Der wesentliche Grund liegt hier in der in jeder Stufe erfolgenden erneuten Quantisierung des Signals. Dabei wird dem Signal ein additives Quantisierungsrauschen zugefügt, das sich mit jeder Stufe akkumuliert. Zweitrangig ist dabei, ob verschiedene Codiersysteme zum Einsatz kommen oder ein und dasselbe Verfahren mit verschiedenen Datenraten betrieben wird. Dies gilt prinzipiell sowohl für Wellenformcodierverfahren, wie z. B. NICAM oder G.722, als auch für alle psychoakustisch basierten Codecs. Codiersysteme mit relativ geringem Kompressionsfaktor, wie z. B. apt-X oder auch DOLBY E, eignen sich offenbar eher für den Einsatz in Übertragungswegen mit mehrfacher Codec-Kaskadierung.
Abb. 12/16. Prinzip der Codec-Kaskadierung.
Die ITU-R hat 1993 ausführliche Tests mit MPEG-1 Audio Codecs durchgeführt [BS.1115], die 2005 durch die EBU [Tech3309] um MPEG-2 und AAC Codecs ergänzt wurden. Dabei wurde jeweils ein deutlicher Qualitätsverlust bei Tandemcodierung festgestellt. Ähnliche Resultate finden sich in [12.9]. Zur Vermeidung dieser Artefakte sollte deshalb - wenn immer möglich - bei Einsatz psychoakustisch basierter Codecs auf eine Neucodierung verzichtet oder zumindest eine ausreichend hohe bzw. gleich bleibende Bitrate verwendet werden.
12.3.3
Hörtests mit psychoakustisch basierten Codierverfahren
Das Hauptziel der meisten Hörtests von Codecs ist die Beurteilung der Audioqualität bei einer bestimmten Datenrate. Um ein vollständiges Bild eines Verfahrens zu gewinnen, sollten dabei einige Mindestanforderungen erfüllt werden (siehe hierzu Kap. 18.7). Insbesondere muss das Verhalten bei kritischem Programmmaterial untersucht werden. Solcherart Material ist i. Allg. codecspezifisch. Bestimmte Signale, die für ein Verfahren problematisch sind, können für andere völlig unkritisch sein. Die Ursache dafür liegt in der Bauart eines Codierverfahrens. So hat beispielsweise die Wahl der Filterbank einen erheblichen Einfluss: eine sehr hohe Frequenzauflösung verbessert die Effizienz für stationäre Signale, geht aber einher mit einer geringeren Zeitauflösung und führt damit u. U. zu Problemen für nichtstationäre Signale, da 673
Audiocodierung die Vor- und Nachverdeckung dann eventuell nicht mehr ausreicht. Verschiedenen Verfahren liegen oft unterschiedliche Abwägungen zugrunde, so dass die Auswahl der Testsignale einen großen Einfluss auf das Resultat haben kann. Einen ersten Anhaltspunkt, welches die für ein Verfahren kritischen Signale sind, kann dabei ein Betrieb bei geringer Bitrate liefern. Bei dieser Testbitrate kann dann gezielt nach typischen Artefakten gesucht werden.
Abb. 12/17. Verhalten von AAC bei 128 kBit/s für verschiedene Testsignale (nach [12.10]).
Für solche Tests ist u. U. ein erheblicher Aufwand erforderlich. Ein Beispiel dafür ist ein 1998 am CRC (Canada) durchgeführter internationaler Test [12.10]. Dabei wurden zunächst aus einer Datenbank von 1400 Musikstücken für jedes beteiligte Verfahren die kritischsten Signale ermittelt. Das Gesamtergebnis des erwähnten CRC-Tests ist in Abb. 12/17 dargestellt. Diese zeigt die erzielte Audioqualität als Mittelwerte über alle Testsignale in der „5-Grade Impairment“ Skala (siehe Kap. 18.7.4.1). Man sieht zunächst den Qualitätsgewinn aller getesteten Verfahren mit zunehmender Bitrate, aber auch die Bitratenunterschiede, die für die verschiedenen Verfahren für eine bestimmte Audioqualität erforderlich sind.
Abb. 12/18. Verhalten von AC-3 bei 192 kBit/s für verschiedene Testsignale (nach [12.10]).
Der Vergleich der Mittelwerte allein liefert aber kein vollständiges Bild. Die Verläufe in Abb. 12/17 zeigen das sehr ausgeglichene Verhalten von AAC über alle Testsignale, während AC-3 (siehe Abb. 12/18) selbst bei einer um 50% höheren Datenrate für ein bestimmtes Signal einen deutlich hörbaren Qualitätsabfall zeigt. Darüber hinaus wurden in späteren Tests der EBU [Tech3296], [Tech3324] sowie anderer Institutionen auch neuere Audio Codecs wie HE AAC oder Dolby Digital Plus berücksichtigt. 674
Psychoakustisch basierte Audiocodecs
12.4
Psychoakustisch basierte Audiocodecs
12.4.1
Übersicht
Abb. 12/19 gibt einen Überblick über die historische Entwicklung der wichtigsten psychoakustisch basierten Codierverfahren bis zum Jahr 1997. Prinzipiell basieren diese alle auf den in Kap. 12.2 vorgestellten Grundbausteinen. Die Parametrierung dieser Bausteine weist jedoch zwischen den verschiedenen Codecs teilweise erhebliche Unterschiede auf. Nicht enthalten in dieser Übersicht sind Consumer-Verfahren wie z. B. Windows Media Audio (siehe Kap. 12.6.1) oder Ogg Vorbis (siehe Kap. 12.6.2), die jedoch in vielen wesentlichen Parametern (z. B. der Kombination von MDCT-Filterbank mit variabler Blocklänge und Entropiecodierung) große Ähnlichkeiten mit MPEG-2/4 Advanced Audio Coding (AAC) aufweisen. Detailliert vorgestellt werden im Anschluss insbesondere die im Rahmen von MPEG entwickelten ISO-Standards sowie einige konkurrierende proprietäre Verfahren, die im Rundfunkbereich Bedeutung besitzen.
Abb. 12/19. Übersicht wichtiger Audiocodierverfahren (soweit bis 1997 entstanden).
Die Weiterentwicklung des Standes der Technik nach 1997 wird im wesentlichen bestimmt durch die Kombination der in Abb. 12/19 aufgeführten MPEG-Verfahren mit der in Kap. 12.2.2.4 vorgestellten Bandbreitenerweiterungs-Technologie SBR und den im darauf folgenden Abschnitt beschriebenen Multikanal-Codierungsmodellen. Die bekanntesten Vertreter der daraus entstandenen Verfahren sind High-Efficeny AAC Version 1 (AAC plus SBR), HighEfficeny AAC Version 2 (AAC plus SBR plus Parametric Stereo) und die Kombination aus High-Efficiency-AAC mit MPEG-Surround (siehe Kap. 12.4.4ff), die unterdessen Eingang in verschiedene Rundfunkstandards gefunden haben. 675
Audiocodierung Die erwähnten MPEG-Codecs werden untenstehend näher beschrieben. Dies ist möglich, da alle Verfahrensdetails in internationalen Standards offengelegt sind. Im Gegensatz dazu werden solche Details bei den proprietären Codierverfahren oft zurückgehalten, weshalb hier eine ausführliche Beschreibung meist nicht möglich ist.
12.4.2
MPEG-1/2 Audio
Der Audioteil des MPEG-1 und des ursprünglichen MPEG-2 Standards besteht aus drei verschiedenen Verfahren, mit den Bezeichnungen Layer 1, 2, und 3. Historisch gesehen basiert der Layer 2 auf einem von einer Firmengruppe (IRT, Philips und France Telecom) entwickelten Verfahren, das zuvor auch unter dem Namen MUSICAM publiziert wurde. Layer 1 entstand durch starke Vereinfachungen des Algorithmus von Layer 2. Layer 3 vorwiegend durch die Fraunhofer Gesellschaft entwickelt und heute eher unter dem Namen MP3 bekannt - geht dagegen auf das Konkurrenzverfahren ASPEC zurück und weist nur wenige Gemeinsamkeiten mit Layer 1 und 2 auf. 12.4.2.1
MPEG-1
Das Ziel von [MPEG-1] war zunächst ein Verfahren zur Übertragung und Speicherung von Audiosignalen in sehr hoher (CD-)Qualität mit einer gegenüber der Audio-CD (706 kBit/s) deutlich reduzierter Datenrate. Dies wurde erreicht, wobei für Layer 1 die für CD-Qualität nötige Datenrate ca. 192 kBit/s pro Kanal beträgt, während für Layer 2 ca. 128 kBit/s pro (Mono)-Audiokanal erforderlich sind. Der Codec nach Layer 3 konnte eine vergleichbare Qualität bei 96 kBit/s pro Kanal nachweisen. Prinzipiell ist die Datenrate der MPEG-Audiocodierverfahren in einem weiten Bereich wählbar. Die Verwendung höherer Bitraten als zuvor genannt schafft Reserven, die z. B. zur Nachbearbeitung oder zur Erhöhung der Qualität bei Tandemcodierung eingesetzt werden können. Aus Kostengründen werden jedoch oft niedrigere Datenraten gewählt. Die minimal sinnvollen Datenraten, die eine Audiobandbreite von 15 kHz ohne deutlich hörbare Artefakte ermöglichen, liegen bei ca. 128, 96 bzw. 64 kBit/s pro Kanal für die Layer 1, 2 bzw. 3. Noch niedrigere Datenraten sind nur zum Preis einer weiter reduzierten Audiobandbreite realisierbar oder führen zu deutlich hörbaren Artefakten bei Beibehaltung des übertragenen Frequenzbereichs. Die Layer 1-3 wurden in MPEG-1 Audio zunächst nur für die Abtastraten 32, 44.1 und 48 kHz und nur für Mono- oder Zweikanalstereosignale spezifiziert. 12.4.2.2
MPEG-2 Low Sampling Rate Erweiterungen
In vielen Anwendungen standen in den 1990er Jahren die zuvor genannten relativ hohen Datenraten nicht zur Verfügung. Vor der Einführung der SBR-Technologie (siehe Kap. 12.2.2.4) war die Reduzierung der Audiobandbreite das probate Mittel zur Verringerung der Datenrate. Für den reduzierten Frequenzbereich steht dann pro kHz Audiobandbreite eine entsprechend höhere Bitrate zur Verfügung. Dies erlaubt es, einen entsprechend höheren NMR-Wert für diesen eingeschränkten Frequenzumfang sicherzustellen. Eine geringere Audiobandbreite 676
Psychoakustisch basierte Audiocodecs erlaubt zudem die Verwendung von niedrigeren Abtastfrequenzen mit den folgenden Vorteilen: - Verringerung der erforderlichen Rechenleistung, da die Verarbeitungsschritte nur mit entsprechend reduzierter Geschwindigkeit ausgeführt werden müssen; - Erhöhung der Frequenzauflösung der mit unveränderter Länge übernommenen Filterbank für eine verbesserte Irrelevanz- und Redundanzreduktion. Die [MPEG-2] Version von Layer 1 bis 3 spezifiziert deshalb zusätzlich zu den für MPEG-1 festgelegten Abtastraten den Betrieb mit den Abtastfrequenzen 16, 22,05 und 24 kHz. Später erfolgte unter dem Namen MPEG 2.5 eine inoffizielle Erweiterung des Layer 3 für die Abtastrate 8 kHz, die heute praktisch von allen MP3 Decodern unterstützt wird und Datenraten bis herab zu 8 kBit/s bei einer Audiobandbreite von allerdings nur ca. 3,5 kHz erlaubt (eine solche Bandbreite ist z. B. aus der konventionellen AM-Übertragung über Mittelwelle bekannt). 12.4.2.3
MPEG-2 Multikanal-Erweiterungen
Die zweite Erweiterung des MPEG-2 Standards hatte die Entwicklung eines zur ZweikanalVersion rückwärtskompatiblen Mehrkanal-Codecs zum Ziel. Man findet deshalb gelegentlich noch die Bezeichnung MPEG-2 BC (BC = Backwards Compatible). Die Grundidee dabei ist, die Mehrkanalsignale Links (L) und Rechts (R) durch die Matrixsignale LC und RC, bestehend aus einer linearen Kombination von L bzw. R mit den übrigen Surround-Signalen LS, RS und C nach den folgenden Gleichungen zu ersetzen (siehe auch Kap. 5.4). LC = " L + ß C + ( LS
und
RC = " R + ß C + ( RS
Übertragen werden die Signale LC, RC, C, LS und RS. Die Signale L und R müssen dann im Decoder durch die Invertierung der obigen Gleichungen zurückgewonnen werden. ZweikanalStereo-Decoder können die beiden Signale LC und RC ohne die neuen Multikanalerweiterungen decodieren und somit einen (weitgehend) kompatiblen Zweikanal-Downmix des Multikanalsignals wiedergeben. Diese Multikanalerweiterung ist prinzipiell für alle drei Layer spezifiziert. Tatsächlich eingesetzt wurde aber nur der Layer 2 (auch mit Layer 2 BC bezeichnet), der z. B. für den Soundtrack europäischer DVDs spezifiziert ist. In der Praxis ist Layer 2 BC aber kaum noch anzutreffen, da der oben erläuterte rückwärtskompatible Ansatz einige gravierende technische Probleme aufweist: Bei der Rückgewinnung der Signale L und R aus LC, RC, C, LS und RS werden Signale voneinander subtrahiert, die meist mit einem SNR-Wert von nur wenigen dB übertragen wurden. Die ursprünglichen Multikanalsignale können aber durchaus Pegelunterschiede von bis zu 50 dB aufweisen. Bei der Subtraktion kann nun der Fall eintreten, dass ein sehr leises Signal aus anderen Signalen zurückgewonnen werden muss, die nur mit einem SNR von wenigen dB (z. B. 6 dB) übertragen wurden. Das Differenzsignal geht damit im Quantisierungsrauschen unter. MPEG-2 BC konnte sich aus diesem Grund nicht auf dem Markt durchsetzen. Die oben genannten Probleme führten schließlich zur Entwicklung von [MPEG-2 AAC].
677
Audiocodierung 12.4.2.4
MPEG-1/2 Bitstrom und Fileformat
Die komprimierten Audiodaten werden bei Layer 1, 2 und 3 in sog. Frames (Datenrahmen) verpackt, die jeweils eine konstante Anzahl an PCM-Abtastwerten repräsentieren. Diese Frames stellen gleichzeitig die kleinste Zugriffseinheit (Access Unit) auf die komprimierten Audiodaten für Editier- oder sog. Random Access-Funktionen dar. Der Aufbau eines Frames ist dabei für Layer 1 bis 3 auf der obersten Ebene identisch. Jeder Frame besteht aus einer Sequenz (siehe Abb. 12/20) von - Synchronisations-Information (das ist die Bitfolge ‚1111 1111 1111’) - Setup-Information (z. B. Bitrate, Abtastrate, Anzahl der Audiokanäle) - Audiodaten (Subband samples) - Zusatzdaten (Ancillary data).
Abb. 12/20. MPEG-1/2 Audio Frame.
Nur die Audiodaten unterscheiden sich zwischen Layer 1, 2 und 3. Sie repräsentieren 384 Abtastwerte im Layer 1, 1152 Abtastwerte im Layer 2 und für den Layer 3 entweder 1152 (MPEG-1) oder 576 (MPEG-2) Abtastwerte. Zusatzdaten können beliebige andere Daten sein. Diese werden von jedem normgerechten MPEG Audiodecoder ignoriert und können z. B. für spätere rückwärtskompatible Erweiterungen genützt werden. Durch das Vorhandensein von Synchronisations- und Setup-Information in jedem Frame kann eine Sequenz aus MPEG-1/2 Audio-Frames ohne weitere Transportschicht übertragen werden. 678
Psychoakustisch basierte Audiocodecs Das bekannteste Beispiel stellt die MP3-Audio-Datei dar, die aus einer einfachen Aneinanderreihung von MP3-Frames besteht. In einer nicht durch ISO standardisierten Erweiterung können sog. ID3-Tags, die Zusatzinformationen zum Musiktitel enthalten, zusätzlich am Ende der Datei angehängt werden. Da diese nicht der Synchronisationssequenz des ISO-Bitstromformats folgen, werden sie vom Audiodecoder nicht wiedergegeben. MPEG-1/2 Audio-Frames können jedoch auch in andere Transport-Container verpackt werden. Beispiele dafür sind die Formate MPEG-2 Transport Stream (MPEG-2 TS) und MPEG-2 Program Stream (MPEG-2 PS), die z. B. bei DVB-Aussendungen bzw. auf der DVD eingesetzt werden und MPEG-1 Layer 2 Audiodaten mit MPEG-2 Videodaten verknüpfen. Weitere gebräuchliche Transportformate sind AVI-Dateien mit einem Multiplex aus MPEG-1/2 Layer 3 Audiodaten und MPEG-4 Videodaten, sowie das sog. ISO Fileformat. 12.4.2.5
Layer 1 Audiodaten
Der Layer 1 (Blockschaltbild siehe Abb. 12/21) im MPEG-1 und MPEG-2 Standard ist eine vereinfachte Version des im nächsten Abschnitt beschriebenen Layer 2 Algorithmus. Zentrales Element des Layer 1 wie auch des Layer 2 ist eine Polyphasenfilterbank, die das Eingangssignal in 32 Bänder gleicher Frequenzbreite zerlegt. Bei einer Abtastfrequenz von 48 kHz ergibt sich damit eine Breite von 24000 Hz / 32 = 750 Hz pro Band. Dies ist deutlich mehr als die Bandbreite der meisten Frequenzgruppen des menschlichen Gehörs, die bei tiefen Frequenzen z. B. nur ca. 100 Hz beträgt.
Abb. 12/21. Blockschaltbild ISO/MPEG-1 Layer 1.
Dies hat zwei Konsequenzen. Zum einen muss zur Berechnung der Maskierungsschwelle eine separate Filterbank mit hoher Frequenzauflösung eingesetzt werden, um z. B. tonale von nicht-tonalen Frequenzgruppen unterscheiden zu können. Typischerweise wird hierzu eine parallel zu berechnende FFT der Länge 512 oder1024 verwendet. Zum anderen führt die geringe Auflösung zu einem erhöhten Bitratenbedarf. Die Filterbank generiert für jeweils 32 Abtastwerte am Eingang einen Ausgangswert in jedem der 32 Teilbänder. Jeweils 12 zeitlich aufeinander folgende Filterbankausgangswerte aus jedem der 32 Teilbänder werden zu einem Frame zusammengefasst, der somit 384 Eingangswerte repräsentiert. Daraus errechnet sich auch theoretisch die minimale Signalverzögerung des Layer 1, die bei 48 kHz Abtastfrequenz 8 ms beträgt. Die Filterbankausgangswerte 679
Audiocodierung werden in jedem der 32 Teilbänder einem Quantisierer mit linearer Kennlinie zugeführt. Der Grad der Quantisierung wird dabei in jedem Band durch einen für jeweils 12 zeitlich aufeinander folgende Filterbankausgangswerte gültigen Skalenfaktor eingestellt, der entsprechend den psychoakustischen Vorgaben gewählt wird. Für die Übertragung werden diese quantisierten Filterbankausgangswerte durch einen einfachen PCM-Code dargestellt. Damit besitzt der Layer 1, wie auch der Layer 2, praktisch keine Mittel zur Redundanzreduktion und erzielt die niedrige Datenrate ausschließlich durch Irrelevanzreduktion. Für Stereosignale steht dem Layer 1 ebenso wie dem Layer 2 das Mittel der Intensity stereo Codierung (siehe Kap. 12.2.3.1) zur weiteren Verringerung der Datenrate zur Verfügung. Zu der Zeit der MPEG-1 Entwicklung stellten Layer 2 und Layer 3 durchaus noch eine Herausforderung für die kostengünstige Integration in Geräte der Unterhaltungselektronik dar. Layer 1 benötigt deutlich weniger Arbeitspeicher und auch eine geringere Rechenleistung zur Codierung und Decodierung. Die zwischenzeitlich in der Halbleitertechnologie erzielten Fortschritte haben diese Unterschiede, die sich im Bereich einiger kByte bewegen, jedoch innerhalb weniger Jahre bedeutungslos werden lassen, so dass der Layer 1 (ursprünglich in der Digital Compact Cassette (DCC) von Philips eingesetzt) unterdessen praktisch nicht mehr zum Einsatz kommt. 12.4.2.6
Layer 2 Audiodaten
Das Blockschaltbild des Layer 2 ist in Abb. 12/22 dargestellt. Die Filterbank generiert für jeweils 32 Abtastwerte am Eingang einen Ausgangswert in jedem der 32 Teilbänder. Jeweils 3 x 12 Filterbankausgangswerte in jedem der 32 Teilbänder werden zu einem Frame zusammengefasst, der somit 3 x 12 x 32 = 1152 Eingangswerte repräsentiert. Zusatzinformationen wie Skalenfaktoren und Bitzuteilung werden je nach Charakter des Eingangssignals (stationär oder nicht-stationär) entweder einmal für 3x12 oder individuell für nur 12 Filterbankausgangswerte gesendet. Für stationäre Signale ergibt sich damit eine deutliche Verringerung des Seiteninformationsaufwandes und damit der benötigten Bitrate.
Abb. 12/22. Blockschaltbild ISO/MPEG Layer 2.
Die wichtigste Anwendung des Layer 2 ist heute der Mono- und Stereotonkanal im digitalen Fernsehen nach dem europäischen DVB-Standard. Auch der Eureka 147 DAB-Standard (siehe Kap. 17.2.2) hat lange Zeit den Layer 2 als alleinigen Audiocodec verwendet, ehe Anfang 2007 für DAB+ zusätzlich HE-AAC v2 (siehe Kap. 12.4.4) spezifiziert wurde. 680
Psychoakustisch basierte Audiocodecs 12.4.2.7
Layer 3 Audiodaten
Haupanwendungsgebiet des Layer 3, heute besser bekannt unter der Bezeichnung MP3, ist die Speicherung von Musik auf Computern und tragbaren MP3-Spielern und Mobiltelefonen. Ein weiterer wichtiger Einsatzbereich sind Internet-Radiostationen (siehe Kap. 17.4). Daneben kommt der Layer 3 im Satellitenradiosystem Worldspace zum Einsatz. Das Blockschaltbild des Layer 3 in Abb. 12/23 ist auf den ersten Blick relativ ähnlich zu dem des Layer 2. Allerdings gibt es in der Ausgestaltung der einzelnen Blöcke wenige Gemeinsamkeiten. Diese beschränken sich auf die identische Framelänge von 1152 Abtastwerten pro Frame, die optionale Intensitätsstereofonie-Codierung und die Polyphasenfilter, die im Layer 3 ebenso wie im Layer 1 und Layer 2 die erste Stufe der hochauflösenden Filterbank im Audiodatenpfad darstellen. Im Layer 3 ist der Polyphasenfilterbank in jedem der 32 Bänder eine MDCT-Filterbank nachgeschaltet, die die Frequenzauflösung in jedem Band um den Faktor 18 erhöht. Diese beträgt damit im Layer 3 bei 48 kHz Abtastrate ungefähr 42 Hz. Damit ist der separate Zugriff auf jede Frequenzgruppe des menschlichen Gehörs möglich und die Quantisierung kann für jede Frequenzgruppe separat entsprechend den psychoakustischen Erfordernissen eingestellt werden. Im Falle von Signalen mit tonalen Komponenten ist dadurch gegenüber dem Layer 2 eine deutliche Bitratenersparnis möglich, da nur die tonalen Frequenzgruppen mit hohem SNR dargestellt werden müssen. Zur weiteren Datenratenreduktion verwendet der Layer 3 einen nicht-gleichförmigen Quantisierer, der eine erste spektrale Formung des Quantisierungsrauschens vornimmt und die Dynamik im Spektrum vermindert. Der von den Skalenfaktoren zu überstreichende Wertebereich und damit auch die für die Skalenfaktoren nötige Datenrate werden damit verkleinert. Zusätzlich steht zur Codierung der quantisierten Spektralwerte ein Huffman-Coder zur Verfügung, der bei Spektren mit tonalem Charakter (Spektrum mit relativ wenigen starken Frequenzlinien und vielen kleinen Frequenzkomponenten) eine deutliche Reduzierung der Datenrate ohne jede zusätzliche Quantisierung bewirkt. Layer 3 kann optional mit einer Kurzzeitmittelung betrieben werden (siehe Kap. 12.2.2.2). Außerdem steht die Möglichkeit zur Verfügung, eine M/S-Darstellung des Stereosignals zu verwenden.
Abb. 12/23. Blockschaltbild ISO MPEG Layer 3.
681
Audiocodierung
12.4.3
MPEG-2/4 AAC
Das MPEG-2/4 Advanced Audio Coding (AAC) Verfahren stellt im Wesentlichen eine Weiterentwicklung der bei MPEG-1/2 Layer 3 angewandten Grundprinzipien dar. Die wichtigsten Unterschiede zum Layer 3 sind: - weitere Erhöhung der Filterbankauflösung, - erweiterte Joint-Stereo-Codiermöglichkeiten, - Multikanalfähigkeiten (bis zu 48 Audiokanäle), - höhere Abtastfrequenzen (z. B. 96 und 192 kHz). AAC wurde zunächst als Anhang zu MPEG-2 standardisiert und dann später in [MPEG-4] mehrmals erweitert. Die MPEG-Standards beschreiben mehrere AAC-Varianten (sog. „Profiles“ in MPEG-2 bzw. „Object Types“ in MPEG-4). In der Praxis sind derzeit nur einige dieser Varianten anzutreffen, die in Tab. 12/2 zusammen mit deren Anwendungsbereichen angegeben sind. Jede dieser AAC-Varianten ist in der Lage, Audiosignale zu übertragen, die mit einer Auflösung von mehr als 16 Bit abgetastet sind. Die AAC MDCT-Filterbank bietet anders als die Polyphasenfilterbank des Layer 1 bis 3 oder des DTS-Verfahrens (siehe Kap. 12.4.7) eine mathematisch perfekte Rekonstruktion und limitiert so prinzipiell nicht die Genauigkeit. Die übrige interne Architektur des AAC-Verfahrens erlaubt die Codierung von Signalen mit einem Dynamikumfang, der Eingangssignalen mit ca. 30 Bit Auflösung entspricht. Die Erzeugung von AAC-Bitströmen/Dateien, die solch hoch aufgelöste Audiodaten korrekt repräsentieren, erfordert jedoch Encoder, die die Rechenoperationen mit hinreichender Genauigkeit ausführen. Das AAC-Bitstromformat ist für alle Wortlängen des Eingangssignals identisch, so dass keine speziellen Decoder für verschiedene Auflösungen erforderlich sind. Die Genauigkeit des Ausgangssignals des Decoders ist allerdings abhängig von dessen Implementierung. Der MPEG Standard fordert eine Mindestauflösung von 16 Bit am Ausgang. Die MPEG Conformance Spezifikation definiert jedoch auch Decoder mit höherer Auflösung, die eine entsprechend genauere interne Arithmetik voraussetzen. Tab. 12/2. Gebräuchliche AAC-Varianten. AAC-Variante MPEG-2 AAC Low Complexity (LC) MPEG-4 AAC Low Complexity (LC)
MPEG-4 AAC LowDelay (AAC-LD)
Anwendung ISDB (Japan), siehe Kap. 17.2.7 Apple Itunes, IPOD Mobiltelefone, weitere PC-Anwendungen ISDN-Codecs für Contribution Videokonferenzanlagen, VoIP
Das Blockschaltbild des AAC-Coders zeigt Abb. 12/24. Die dort dargestellten Blöcke Gain Control und Prediction werden in den in Tab. 12/2 aufgeführten Varianten nicht verwendet, sondern gehören zu derzeit nicht benutzten Profiles.
682
Psychoakustisch basierte Audiocodecs
Abb. 12/24. Blockschaltbild AAC-Coder.
12.4.3.1
Filterbank
Die Standardvariante der AAC-Filterbank weist gegenüber dem Layer 3 eine um den Faktor 2 erhöhte Frequenzauflösung auf, während die sog. Low-Delay-Variante im Vergleich zu Layer 3 eine vergleichbare Frequenzauflösung besitzt. Wie in Kap. 12.2.2.1 erläutert, bestimmt die Filterbankauflösung entscheidend den möglichen Codiergewinn durch Redundanzreduktion. AAC benötigt deshalb deutlich niedrigere Datenraten zur Erzielung einer zu Layer 3 vergleichbaren Audioqualität. Für eine annähernd transparente Codierung sind bei AAC Datenraten ab 64 kBit/s je Kanal erforderlich, während mit Layer 3 für eine vergleichbare Qualität ca. 96 kBit/s benötigt werden. Die Datenraten der Low-Delay-Variante sind dagegen in etwa zu Layer 3 vergleichbar. Tab. 12/3. AAC Filterbankauflösungen und zeitliche Dauer der Bitstrom-Frames. Anzahl Frequenzkoeffizienten (Abtastwerte pro Frame) 1024 oder 8 x 128 960 oder 8 x 120 512 480
Frequenzauflösung
FrameLänge
(48 kHz ATF) 24000 / 1024 = 23,4375 Hz 24000 / 128 = 187.5 Hz 24000 / 960 = 25 Hz 24000 / 120 = 200 Hz 24000 / 512 = 46,875 Hz 50 Hz
(48 kHz) 21,333334 ms
Signalverzögerung (theoretisches Minimum) 55 ms
Signalverzögerung (reale Implementierungen) 100 bis 200 ms
20 ms
51 ms
100 bis 200 ms
10,666667 ms
21.3 ms
30 bis 50 ms
10 ms
20 ms
30 bis 50 ms
683
Audiocodierung Insgesamt definiert MPEG mehrere alternative Frequenzauflösungen für AAC. Die MPEG-2 Varianten sind ausschließlich für eine Auflösung von 1024 Frequenzkoeffizienten definiert. In MPEG-4 wurde zur besseren Kompatibilität mit Sprachcodecs eine alternative Variante mit 960 Koeffizienten hinzugefügt. Tab. 12/3 gibt einen Überblick über die Filterbankvarianten. Bei den Angaben zu den realen Signalverzögerungen sind die kleineren Werte bei Kanälen mit variabler Datenrate (z. B. IP-Netzwerke, MPEG-2 Transportstream) zutreffend, da hier die Kurzzeitmittelung keine zusätzliche Verzögerung verursacht. Die höheren Werte betreffen Übertragungskanäle mit konstanter Datenrate für den Audiokanal (z. B. ISDN-Codec, DAB). 12.4.3.2
Bitstrom und Fileformat
Das AAC Bitstromformat definiert zunächst zwei Komponenten: - Setup-Information, - Bitstromframe für jeweils 1024 oder 960 bzw. 512 oder 480 Abtastwerte. Die Setupinformation wird im Decoder nur einmal vor der Initialisierung benötigt. Für reale Anwendungen werden diese Komponenten in Transportformate verpackt, die auf eine bestimmte Anwendung zugeschnitten sind. Dafür existieren mehrere standardisierte Optionen: ADIF: ADTS:
LATM: MPEG-2 Systems:
ISO-Fileformat:
RFC 3016: RFC 3640:
12.4.4
Nur zu Testzwecken, nicht für reale Anwendung. Vergleichbar zum Layer 1-3 Audiobitstromformat. Sychronisationsmechanismus, Setup-Information vor jedem AAC-Bitstrom-Frame. Ermöglicht Start der Decodierung mitten im Bitstrom. Nur ein AudioProgramm pro Bitstrom. Funktion ähnlich ADTS, aber flexibler. Bis zu acht Audioprogramme pro LATM-Bitstrom. MPEG-2 Transport Stream oder Program Stream für gemultiplexte A/V –Programme mit einem Video- und optional mehreren AudioBitströmen. Standard ISO Multimedia-Fileformat. Kann praktisch beliebig viele Audio- oder Video-Ströme oder Zusatzdaten enthalten. Mehrere Abarten, wie .mp4 (verwendet z. B. in Apple’s ITunes), .3gpp (für 3GMobiltelefone). RTP-Payload-Format, verwendet z. B. in H.323 oder 3GPP Verbessertes RTP-Payload-Format, z. B. verwendet in 3GPP, ISMA, OMA, DVB.
MPEG-4 High-Efficiency AAC
High-Efficiency AAC, HE-AAC, ist die Bezeichnung für die Kombination aus AAC mit der in Kap. 12.2.2.4 beschriebenen SBR-Bandbreitenerweiterung. Diese Variante wird jetzt als HE-AAC Version 1 (HE-AAC v1) bezeichnet, da durch die zusätzliche Kombination von HE-AAC v1 mit der Parametric-Stereo-Technologie HE-AAC Version 2 (HE-AAC v2) 684
Psychoakustisch basierte Audiocodecs entstand. HE-AAC v1 und v2 sind auch unter den proprietären Markennamen aacPlus bzw. aacPlus v2 bekannt 12.4.4.1
HE-AAC Varianten
HE-AAC ist in verschiedenen Varianten im Einsatz, siehe Tab. 12/4. Neben den Standardversionen HE-AAC v1 und HE-AAC v2 gibt es eine Reihe von speziell angepassten Varianten. Ein Beispiel dafür ist die speziell im Digital Radio Mondiale Standard (siehe Kap. 17.2) verwendete Version. Tab. 12/4. Gebräuchliche HE-AAC-Varianten. HE-AAC-Variante MPEG-2 AAC LC + SBR Framelänge 1024 MPEG-4 AAC LC + SBR + Param. Stereo Framelänge 1024 (Entspricht HE-AAC v2) MPEG-4 AAC LC + SBR + zusätzliche MPEG-4 Bausteine zur Sicherung gegen Übertragungsfehler Framelänge 960 MPEG-4 AAC LC + SBR + zusätzliche MPEG-4 Bausteine zur Sicherung gegen Übertragungsfehler Framelänge 1024 HE-AAC v2 + optional MPEG-Surround für Multikanal
Anwendung ISDB in Japan, S-DMB in Korea 3GPP Mobiltelefone, DVB, ISDB-T in Brasilien, T-DMB, MediaFlo, Internet Streaming, PC Digital Radio Mondiale (DRM)
ISDN-Codecs für Contribution
DVB-H, DAB+
Anmerkung: MPEG Surround ist in DVB vorgeschlagen, aber noch nicht Bestandteil der veröffentlichten Spezifikation. 12.4.4.2
Audioqualität und Einsatzbereiche von AAC-Codecs
Sowohl HE-AAC v1 als auch HE-AAC v2 sind nicht für eine transparente Codierung geeignet, jedoch lassen sich bei sehr niedrigen Bitraten bereits gute bis sehr gute Ergebnisse erzielen. Abb. 12/25 zeigt im Vergleich den Zusammenhang zwischen Bitrate und Audioqualität für AAC, HE-AAC v1 und v2. Entsprechend der Darstellung bietet sich bei Datenraten von 40 kBit/s und darunter für Stereoprogramme der Einsatz von HE-AAC v2 an, da in diesem Bitratenbereich damit eine höhere Audioqualität erzielt wird. Bei derart niedrigen Datenraten kann HE-AAC v1 den Übertragungsfrequenzbereich nicht mehr ohne Verletzung der Maskierungsschwelle darstellen. Durch den Einsatz der Parametric-Stereo-Technologie bei höheren Frequenzen muss in dem entsprechenden Frequenzbereich nur noch ein Kanal codiert werden, der dann mit höherem NMR realisiert werden kann. 685
Audiocodierung Bei höheren Datenraten kann HE-AAC v1 den vollen Audiofrequenzbereich ohne Verletzung der Maskierungsschwelle abbilden, so dass dann die durch die Parametric-Stereo-Technologie verursachten Änderungen des Stereobildes die Audioqualität begrenzen würden. Die Verwendung von HE-AAC v2 ist deshalb bei einer Datenrate von über 40 kBit/s nicht mehr sinnvoll. Der oberste sinnvolle Einsatzbereich für HE-AAC v1 endet bei ca. 80 bis 90 kBit/s für jeweils ein Stereoprogramm. Darüber hinaus ist kein weiterer Qualitätsgewinn erreichbar, so dass ab dieser Datenrate AAC eingesetzt werden sollte. Hiermit kann ab ca. 128 kBit/s pro Stereoprogramm eine transparente Codierung erreicht werden.
Abb. 12/25. Vergleich AAC, HE-AAC v1 und v2, Zusammenhang zwischen Bitrate und Audioqualität.
Tab. 12/5 zeigt den Zusammenhang zwischen Frequenzumfang und benötigter Datenrate des SBR-Teils pro Kanal. Minimal ergibt sich beispielsweise bei einer sechskanaligen Kodierung mit 96 kBit/s eine SBR-Datenrate von 7,2 kBit/s [12.11]. Tab. 12/6 enthält zusätzlich Angaben für 5.1 Multikanalprogramme und bezieht dabei auch den neuen MPEG-SurroundStandard sowie andere Mehrkanal-Codecs mit ein. Man sieht auch hier, dass für eine transparente Codierung die Anwendung von HE-AAC keinerlei Vorteil bringt. Gleichzeitig wird aber auch sichtbar, wie stark diese Technologien die für „gute Qualität“ erforderlichen Datenraten verringern konnten. Vorläufiger Endpunkt der Entwicklung ist HE-AAC v1 in Kombination mit MPEG Surround. Diese Konfiguration ermöglicht 5.1 Multikanal-Übertragungen mit einer Datenrate von nur 48 kBit/s in guter Qualität. Tab. 12/5. SBR-Datenraten im Falle von HE-AAC Codierung. Bitrate / Kanal Bandbreite AAC Bandbreite SBR Bandbreite SBR Datenrate SBR [kBit/s] [Hz] [Hz] [QMF-Bänder] [kBit/s] 16 0 bis 4000 4000 bis 12000 21 1,2 24 0 bis 7000 7000 bis 16000 24 2,0 32 0 bis 9000 9000 bis 20000 29 2,5 32 3,5 48 0 bis 11500 11500 bis 23500
686
Psychoakustisch basierte Audiocodecs Tab. 12/6. Erforderliche Datenraten für unterschiedliche Audio-Codecs und Qualitäten. (Mehrfach-Angaben von Bitraten in der Tabelle beziehen sich auf unterschiedliche Quellen). Audioqualität Y Codec \ MPEG-2 Layer 2 MPEG-2 Layer 3 MPEG-2 AAC MPEG-4 HE-AAC v1 MPEG-4 HE-AAC+ (MPEG Surround) Dolby Digital (AC-2 bzw. AC-3) DTS APT-X Windows Media (WMA)
Transparent Zweikanal [kBit/s] 192
Transparent Fünfkanal [kBit/s] 384 448 --
FM-Qualität Zweikanal [kBit/s]
FM-Qualität Fünfkanal [kBit/s]
--
--
80 96 48
224
128
300 320 160
128
300
24 32
6496
192
448
--
--
-384 --
1500 960 --
--160
--448
160 128
128
Einen weiteren Einblick in die mit HE-AAC V1 erzielbare Audioqualität geben die folgenden Beispiele, siehe Abb. 12/26 (entnommen aus einem 2002 durch die EBU durchgeführten Test), die verschiedene Codierverfahren bei einer Datenrate von 48 kBit/s vergleichen. AAC ohne SBR-Zusatz erreicht bei dieser Datenrate relativ gute und über alle Testsignale gleichmäßige Ergebnisse (Diagramm b). Ohne die SBR-Technologie kann AAC bei dieser Datenrate jedoch nicht die volle Audiobandbreite darstellen, sie ist hier auf ca. 11 kHz begrenzt. Die trotz dieser Bandbreitenbegrenzung relativ hohen Audioqualität (Diagramm a) erklärt sich aus dem Vergleich mit Codierverfahren mittlerer Audioqualität, wie z. B. dem Real Media 8 Codec (Diagramm c) oder dem in Kap. 12.6.1 dargestellten WMA-8 Codec (Diagramm d).
687
Audiocodierung (a)
(b)
(c)
(d) Abb. 12/26. AAC - vergleichende Testergebnisse.
12.4.5
MPEG Mehrkanalcodecs
12.4.5.1
MPEG-Surround
MPEG Surround basiert auf dem bekannten Codierprinzip von MPEG Audio Layer 2 in Kombination mit der unter Kap. 12.2.3.2 beschriebenen Spatial Audio Codierung. Der Ansatz für die bitratensparende Codierung von Mehrkanalsignalen besteht darin, die Spatial Audio Parameter als kompakten Datensatz (mit einer Datenrate zwischen 3 und 32 kBit/s) zusätzlich zu einem 2/0-Stereo-Downmixsignal zu übertragen [12.12]. Diese Daten werden im Ancilliary Datenfeld des MPEG-2 Audio Bitstreams untergebracht. Das ermöglicht die voll rückwärtskompatible Übertragung von Mehrkanalprogrammen mit Bitraten, die nur unwesentlich höher sind, als die derzeit gebräuchlichen Datenraten für Mono- oder Stereoprogramme. Auf der Decoderseite wird das übertragene Downmix-Signal entweder als kompatibles 2/0-Stereosignal wiedergegeben, oder mit Hilfe der Spatial Parameter in ein hochqualitatives Mehrkanalsignal expandiert. Diese Technologie ermöglicht Mehrkanal-Formate von 3/2 bzw. 5.1 bis zu 10.2 Kanälen. Auf der Empfangsseite kann der Stereo-Downmix aber auch von allen gebräuchlichen Matrixdecodern decodiert werden. Im Vergleich zu den in Kap. 12.7 genannten matrix-basierten Multikanalverfahren erreicht MPEG Surround eine deutlich höhere Audioqualität bei vergleichbarer Gesamtbitrate. MPEGSurround ist spezifiziert als optionaler Zusatz zu dem Rundfunkstandard DAB+ (siehe 688
Psychoakustisch basierte Audiocodecs Kap. 17.2.2). Es ist außerdem für 3GPP- und DVB-H Anwendungen vorgeschlagen. Ein spezieller Binaural-Modus erlaubt die Wiedergabe des Multikanal-Raumeindrucks unter Verwendung von HRT-Funktionen auf Kopfhörern. Die hocheffiziente Codierung macht MPEG Surround auch attraktiv für den Einsatz in weiteren Übertragungssystemen, wie HD-Radio oder DMB, sowie die gebräuchlichen digitalen Fernseh-Rundfunksysteme. Das Verfahren wurde 2006 unter der Kurzbezeichnung [MPEG-D] standardisiert. 12.4.5.2
HE-AAC mit MPEG-Surround
Die Kombination aus HE-AAC und MPEG Surround (siehe die Kap. 12.4.4 und 12.4.5.1) ermöglicht die Übertragung von Multikanalsignalen mit einer Gesamtbitrate von nur 48 bis 96 kBit/s. Dabei entfallen ca. 3 bis 16 kBit/s auf die MPEG Surround Zusatzdaten, zusätzlich zum HE-AAC Basisbitstrom. 12.4.5.3
MP3-Surround
MP3-Surround ist eine Erweiterung des Layer 3 Formats. Mittels der BCC-Technologie (siehe Kap. 12.2.3.2) erfolgt eine Erweiterung für Multikanalsignale. MP3-Surround Bitströme können wie dort beschrieben von herkömmlichen MP3 Decodern in Zweikanal-Stereo abgespielt werden. Für eine gute Qualität sind für 5.1 Kanalkonfigurationen ca. 144 bis 192 kBit/s erforderlich. Die Dateigröße liegt damit kaum über denen herkömmlicher Stereo MP3 Dateien.
12.4.6
Dolby Mehrkanalcodecs
12.4.6.1
Dolby Digital
„Dolby Digital“ ist die Markenbezeichnung der Firma Dolby für ein zunächst unter dem Namen AC-3 [12.13] publiziertes proprietäres Audiocodierverfahren. Für die Anwendung im amerikanischen digitalen Fernsehstandard ATSC wurde es dort später unter der Bezeichnung A/52/10 standardisiert [AC-3]. Anwendung findet es auch für den Multikanal- und Zweikanalton im europäischen DVB-Standard und als Tonformat der DVD-Video. Technische Merkmale Technisch gesehen stellt AC-3 im Wesentlichen eine Multikanalversion des zeitgleich mit MPEG-1 entstandenen Einkanal-Codierverfahrens AC-2 dar. Wie MPEG-1/2 Layer 3 verwendet AC-3 eine MDCT-Filterbank mit einer zwischen 256 und 128 Frequenzbereichskoeffizienten umschaltbaren Frequenzauflösung. Diese ist somit geringer als beim Layer 3 (576/192) sowie deutlich geringer als beim AAC-Verfahren (1024/128), jedoch besser als die des Layer 2. Wie in Kap. 12.2.2 ausgeführt, bestimmt die Frequenzauflösung wesentlich die Bitrateneffizienz eines Verfahrens. Dies wird bestätigt durch die Ergebnisse des wohl umfangreichsten Tests an Audiocodierverfahren, durchgeführt am kanadischen CRC-Institut [12.10], siehe Abb. 12/27. Bei gleicher Bitrate (128 kBit/s, Stereo) erzielte AAC ein Ergebnis von !0.5, während der Layer 3 bei ca. !1.7 und AC-3 bzw. der Layer 2 mit !2.1 bzw. !2.2 bewertet wurden. AC-3 benötigt damit für die gleiche Audioqualität eine etwas größere Datenrate als 689
Audiocodierung der Layer 3, jedoch weniger als der Layer 2. Im Vergleich zu AAC benötigt es jedoch eine ca. 50% größere Datenrate, um ein Audiosignal mit gleicher Qualität zu übertragen. Für eine zur Audio-CD vergleichbare Qualität sind demnach mit AC-3 ca. 192 kBit/s für ein Stereosignal erforderlich. Die wesentlichen Parameter von AC-3 lauten: Bitratenbereich: 32 bis 640 kBit/s Abtastfrequenzen: 32, 44.1 und 48 kHz Kanalkonfigurationen: 3/2, 3/1, 3/0, 2/2, 2/1, 2/0, 1/0 LFE-Kanal optional zu allen Konfigurationen hinzufügbar Access Unit Länge: 1536 Abtastwerte
Abb. 12/27. Vergleich zwischen MPEG-1 (LII = Layer 2, LIII = Layer 3), AAC, AC-3 u. a., nach [12.10].
Dolby EX Dolby EX ist eine Erweiterung zu Dolby Digital, die auch als Dolby Digital – Surround EX (Extended) bezeichnet wird. Dolby EX bietet einen zusätzlichen Kanal zur Ansteuerung eines separaten rückwärtigen (Center)-Lautsprechers, was einer Aufrüstung auf ein 6.1-Format gleichkommt. Zur Erhaltung der Kompatibilität mit existierenden 5.1-Systemen wird dieser rückwärtige Kanal nicht direkt übertragen, sondern ähnlich zur Matrix-Codierung des CenterKanals bei Dolby Prologic (siehe Kap. 12.7.1) als Matrixsignal den beiden Surround-Kanälen LS und RS zugemischt.
690
Psychoakustisch basierte Audiocodecs 12.4.6.2
Dolby Digital Plus
Dolby Digital Plus (alternative Bezeichnung: Enhanced AC-3, E-AC-3) stellt eine Weiterentwicklung des AC-3-Verfahrens dar [12.14]. Die wesentlichen Änderungen sind hier kurz dargestellt. Bitrateneffizienz Die für die Verbesserung der Bitrateneffizienz vorgenommenen Modifikationen betreffen die Bereiche - Filterbank / Transformation - Quantisierung / Codierung - Bandbreitenerweiterung - Gemeinsame Codierung mehrer Kanäle Die beiden letzteren Punkte entsprechen im Prinzip einer Dolby-Version mit den bei MPEG HE-AAC bereits eingeführten Technologien zur Bandbreitenerweiterung und zur gemeinsamen Codierung mehrerer Kanäle. Zur Verbesserung der Frequenzauflösung verwendet E-AC-3 eine zweistufige Transformation. Die erste Stufe entspricht dabei der AC-3 Filterbank, in der zweiten Stufe ist eine DCT nachgeschaltet, die die Frequenzauflösung um den Faktor 6 erhöht. Diese zweite Transformationsstufe kommt nur bei stationären Signalen zur Anwendung und verarbeitet jeweils sechs zeitlich aufeinander folgende Frequenzbereichskoeffizienten mit einer DCT der Länge 6. Des Weiteren wurde ein Vektorquantisierer eingeführt, um bei kleinen Bitraten nicht wie in AC-3 unnötig Bitrate aufwenden zu müssen. Technische Merkmale Bitratenbereich: Max. 682 bis 6144 kBit/s, abhängig von Konfiguration Abtastfrequenzen: 32 bis 96 kHz Kanalkonfigurationen: Bis zu 13 Kanäle, typische Formate: 6.1, 7.1 LFE-Kanal optional für alle Konfigurationen verfügbar Access Unit Länge: Variabel, 1 bis 6 x 256 Abtastwerte Transcodierung zu AC-3 Mit Ausnahme der AC-3 Filterbank erfordert eine Transcodierung zwischen AC-3 und E-AC-3 eine Neuquantisierung und -codierung des Signals. Nur falls das E-AC-3 Format als reiner Transportcontainer für AC-3 genutzt wird, ist dies nicht erforderlich. In diesem Fall sollte jedoch keine der oben genannten Techniken zur Effizienzsteigerung verwendet werden. Anwendungen Die Liste der Anwendungen umfasst derzeit vor allem die HD-DVD und die Blu-ray Disc, bei letzterer jedoch nur optional vorgesehen. E-AC-3 ist auch Bestandteil der DVB und ATSC TV-Standards. 691
Audiocodierung 12.4.6.3
Dolby E
Dolby E ist ein spezieller (proprietärer) Codec zum Transport von bis zu acht Audiokanälen über eine einzelne AES-3 Verbindung, die die derzeitige Infrastruktur innerhalb von Studiokomplexen bei Rundfunk und Fernsehen kennzeichnet. Da ein derartiger Link bei konventioneller Nutzung (also unkomprimiert) nur zwei PCM-Audiokanäle überträgt, ist eine Datenratenkompression etwa um den Faktor 4 erforderlich, um auch Mehrkanal-Audiosignale über die gleichen Verbindungswege übertragen zu können. Darüber hinaus ist es für den täglichen Schnittbetrieb wichtig, dass Ton und Bild passend zueinander, d.h. genau nach der Dauer eines Videoframes geschnitten werden können, was bei anderen gebräuchlichen Audio-Codecs nicht gegeben ist. Teilweise können dort synchrone Schnitte erst nach mehr als 30 Sekunden durchgeführt werden (siehe auch Kap. 17.6). Um dieses Problem zu umgehen, entwickelte Dolby basierend auf dem Mehrkanal-Codierverfahren AC-3 ein weiteres psychoakustisches Codierverfahren mit adaptiver Transformation, das den Bitstrom in Frames organisiert, die in ihrer Länge genau der von Videoframes entsprechen. Da die Frameblöcke bei Audio- und Videoanwendungen meist nicht übereinstimmen und auch keine ganzzahligen Vielfachen voneinander sind, wird eingangseitig eine Sampleratekonvertierung eingesetzt, die das Audiosignal auf das genau 1792-fache der Videobitrate erhöht. Dies führt zu einer internen Audio-Samplerate zwischen 53,760 kHz und 42,965 kHz. Dolby E kodiert die Eingangskanäle einzeln, jeden mit einer festgelegten, von anderen Kanälen unabhängigen Datenrate. Die Eingangsfilterbank basiert auf einer für frameweise Kodierung und adaptive Transformation angepassten MDCT. Drei Blockgrößen stehen zur Verfügung: 256 Samples für transiente Signale, 512 Samples als Brückenwert und 2048 Samples für wenig schwankende Signalformen. Die Transformationskoeffizienten aus der Filterbank werden in Subbändern, die auf den Verdeckungskurven basieren, zusammengefasst. Dabei besitzt jedes Subband einen Exponentenwert. Das Codierverfahren ähnelt der verlustfreien Hoffman-Codierung, ist jedoch mit geringerem Rechenaufwand verbunden. Diese Codiermethoden ähneln stark denen von AC-3. Der größte Unterschied zu Dolby Digital besteht in der Möglichkeit, eine sehr geringe Kompression bzw. sehr hohe Bitraten pro Kanal nutzen zu können. Darüber hinaus wurde zur besseren Weiterverarbeitung des Audiosignals die MDCT so modifiziert, dass Aliasing-Effekte bei Überblendungen und Schnitten an den Framegrenzen wirkungsvoll verhindert werden können. Der Encodierprozess von Dolby E verlangt aufgrund der höheren Komplexität einen doppelt so hohen Rechenaufwand wie der Decodiervorgang. Pro Codierdurchgang im Encoder bzw. Decoder entsteht jeweils genau ein Frame Verzögerung im Audiosignal, was durch entsprechende Verzögerung des Bildsignals vor einer abschließenden Emission oder Umcodierung wieder ausgeglichen werden muss (siehe hierzu auch Kap. 17.6). Dolby E wurde speziell für die Anwendung innerhalb des Studioprozesses entwickelt und soll den Endverbraucher nicht erreichen, d.h. es gibt keine Comsumer-Decoder. Abb. 12/28 zeigt den Aufbau eines Dolby E Frames mit seinen sechs verschiedenen Segmenten. Die Audiodaten sind dabei in zwei Teilen organisiert, „audio“ und „audio extension“, so dass die Codierlatenz durch parallele Verarbeitung möglichst gering gehalten werden kann. 692
Psychoakustisch basierte Audiocodecs Alle Segmente zusammen nehmen etwa 95% der verfügbaren Bittiefe ein. Die übrigen 5% werden an den Framegrenzen konzentriert und dienen zum Schutz vor Datenfehlern beim Schnitt oder Signalwechsel. Die Audiodaten selbst sind so angelegt, dass jeder Kanal einen fest zugewiesenen Datenbereich besitzt und ohne Umcodierung einfach ausgetauscht oder neu hinzugefügt werden kann. Ebenso können Pegeländerungen ohne Umcodierung vorgenommen werden, da ein Metadatenwort pro Kanal den jeweiligen Pegel speichert und beim Decodieren entsprechend angepasst werden kann. Ein weiteres Feature von Dolby E ist die Möglichkeit, Frame-Längen zu wählen, die den üblichen Bildwiederholfrequenzen entsprechen, also 2000 Abtastwerte für 24 Hz, 1920 für 25 Hz und 1600 für 30 Hz. Für den Sonderfall 29,97 Hz wird jeder fünfte Frame um einen Abtastwert verlängert. Näheres siehe u. a. in [12.15].
Abb. 12/28. Aufbau eines Dolby E Datenrahmens.
12.4.7
DTS
12.4.7.1
Basisverfahren
Vom Grundprinzip her betrachtet stellt das Coherent Acoustics (CA)-Verfahren der Fa. Digital Theater Systems, DTS, in vielen Punkten eine Kombination des MPEG-1/2 Layer 2 Verfahrens mit dem Subband-ADPCM-Modell der zuvor beschriebenen Verfahren (siehe Kap. 12.4.2ff) dar [12.16]. Wie MPEG-1/2 Layer 2 teilt DTS-CA den Eingangsfrequenzbereich mittels einer Polyphasenfilterbank in 32 Teilbänder gleicher Bandbreite. Für diese Polyphasenfilterbank sind zwei Sätze an Filterbankkoeffizienten definiert, die in unterschiedliche Richtungen optimiert sind. Durch die nicht perfekten Rekonstruktionseigenschaften dieser 693
Audiocodierung Filterbänke entstehen auch ohne weitere Quantisierung Rekonstruktionsfehler. Ein Satz Koeffizienten ergibt - wie beim Layer 2 - eine Rekonstruktionsgenauigkeit der Filterbank von ca. 16 Bit mit guter Filterkanaltrennung zur Erzielung eines hohen Codiergewinnes für niedrige Datenraten. Der zweite Koeffizientensatz bietet eine geringere Kanaltrennung und ist damit weniger gut geeignet für eine effiziente Datenratenreduktion, gewährleistet dabei aber eine höhere Rekonstruktionsgenauigkeit. Durch den Einsatz eines ADPCM-Quantisierers/ Codieres für die Filterbankausgangswerte wird eine Verringerung der Redundanz erreicht. Für stationäre Signale sollte somit im Vergleich zu Layer 2 eine geringere Quantisierung für eine vergleichbare Datenrate erforderlich sein. Wie bei Layer 1 und Layer 2 besteht allerdings der Nachteil der geringen Frequenzauflösung der Filterbank, die eine unnötig hohe Datenrate für die Codierung tonaler Signale erfordert (siehe hierzu auch Kap. 12.2.2). Unabhängige Tests zeigten, dass das DTS-CA Verfahren durchaus eine gute Audioqualität erzielt. Die dafür erforderlichen Datenraten sind jedoch im Vergleich zu anderen Verfahren sehr hoch. Die Zielstellung der DTS-Codierung unterscheidet sich stark von der anderer Audiocodierverfahren: Es wird hier nicht versucht, bei gleichbleibender Qualität eine möglichst geringe Bitrate zu erzeugen, sondern bei gleichbleibender Bitrate eine möglichst hohe Qualität zu erreichen. In Zahlen ausgedrückt heißt das, dass bei gleicher Bandbreitenanforderung statt eines 16 bit/44,1 kHz PCM-Signals ein 24 bit/192 kHz Signal genutzt werden soll. 12.4.7.2
DTS-ES
DTS-ES ist die Sammelbezeichnung für zwei Erweiterungen des DTS Basisverfahrens zur Übertragung eines zusätzlichen „Center Surround“ Kanals. Die erste Variante, DTS-ES Matrix 6.1, stellt ein Matrixverfahren ähnlich Dolby EX/Prologic dar. Der zusätzliche Surround-Kanal wird den beiden anderen Surround-Kanälen beigemischt, so dass auch Standard-DTS-Decoder den zusätzlichen Kanal wiedergeben. In der zweiten Variante, DTS–ES Discrete 6.1, enthält die komprimierte Version einen von den anderen Audiokanälen unabhängigen Extrakanal. Zur Aufrechterhaltung der Rückwärtskompatibilität zur BasisVersion wird jedoch auch bei der diskreten Variante zusätzlich das DTS-ES Matrix 6.1 Signal auf die rückwärtigen Surround-Kanäle aufaddiert. Um dieses Signal nun auf einem DTS-ES Discrete 6.1 Decoder wiedergeben zu können, muss zunächst das in einem unabhängigen Kanal übertragene Center-Surround-Signal von den beiden übrigen Surround-Kanälen subtrahiert werden, die ja ebenfalls dieses Signal beinhalten. Prinzipiell sind damit ähnliche Effekte wie die in Kap. 12.2.3 beschriebenen Probleme bei der Subtraktion von psychoakustisch codierten Audiosignalen zu erwarten. 12.4.7.3
DTS 96/24
Eine andere Weiterentwicklung des DTS-Basisverfahrens stellt das DTS 96/24 Verfahren dar, das eine Übertragung mit 96 kHz Abtastfrequenz und 24 Bit Auflösung der Abtastwerte ermöglicht. DTS 96/24 basiert auf einer zweiten Codierstufe, die das Fehlersignal der DTSBasisvariante als Eingangssignal erhält und dieses unabhängig von der Basisstufe in einem Erweiterungsbitstrom überträgt. Das Verfahren ist somit rückwärtskompatibel, da der Basisbitstrom nicht verändert wird. Auf der Decoderseite kann ein herkömmlicher DTS-Decoder 694
Psychoakustisch basierte Audiocodecs das Basissignal wiedergeben. Ein DTS 96/24 Decoder dagegen verfeinert mit den zusätzlichen Informationen der zweiten Codierstufe das Ausgangssignal, um eine höhere Auflösung der Abtastwerte und eine Erweiterung des Übertragungsfrequenzbereiches zu erzielen.
12.4.8
apt-X
12.4.8.1
Basisverfahren
Der Audiocodec apt-X, ein proprietäres Verfahren der Fa. APT, ist im Prinzip eine Erweiterung des ITU-T Codecs G.722 (siehe Kap. 12.5) hin zu höheren Audiobandbreiten. Der Kompressions-Algorithmus wurde an der Queen’s University in Belfast/Nordirland erarbeitet und durch APT zum Verfahren apt-X weiterentwickelt, siehe [12.17, 12.18]. Anstelle der zwei Teilbänder von G.722 verwendet apt-X vier Teilbänder gleicher Bandbreite. Bei einer Abtastfrequenz von 48 kHz beträgt somit die Bandbreite eines Teilbandes 6 kHz. Die Gesamtbitrate kann flexibel zwischen den Teilbändern aufgeteilt werden. Allerdings besteht auch hier prinzipbedingt keine Möglichkeit, den SNR eines einzelnen Frequenzbandes zu kontrollieren, so dass eine relativ hohe Datenrate von typischerweise 192 kBit/s pro Einzelkanal erforderlich ist, um eine gute Audioqualität zu erzielen. Die einfache Struktur des Codecs bietet jedoch den Vorteil einer geringen Signalverzögerung. Diese beträgt konstant 122 Abtastwerte, was bei einer Abtastfrequenz von 48 kHz ca. 2,5 ms entspricht (anwendbar für einkanalige Signale), bei niedrigeren Abtastraten entsprechend länger (z. B. 3,8 ms für Stereo-Signale mit einer Abtastfrequenz von 32 kHz). Bei apt-X erfolgt ähnlich wie bei G.722 eine ADPCM (Adaptive Differential Pulse Code Modulation) mit einer separaten Codierung je Teilband, welche ein 16 Bit breites PCM Audio-Sample im Verhältnis 4:1 reduziert. Bei der Codierung wird eine Signaldifferenz zwischen zwei aufeinander folgenden Audio Samples re-quantisiert. Das System kann mit Abtastraten zwischen 16 und 64 kHz arbeiten. Es ist sehr tolerant gegenüber Qualitätsverlusten, z. B. in Anwendungen mit Mehrfach-Codierungen (Tandem-Codierung), da durch Bitfehler eingefügte Verzerrungen auf das jeweilige Teilband beschränkt bleiben. Der Codieralgorithmus arbeitet mit den drei Grundelementen - Teilband-Codierung, - lineare Pegelvorhersage (Prädiktion) und - adaptive Quantisierung. Mit Hilfe der Teilband-Codierung wird das Frequenzspektrum des anliegenden Audiosignals in vier unabhängige Teilbänder aufgeteilt. Die unterschiedliche Codier-Auflösung im jeweiligen Teilband, die dem jeweiligen Energieinhalt des Audiosignals folgt, nutzt die spektralen Redundanzen der Modulation aus. Dies geschieht, indem die Teilbänder der Signalanteile mit hohem Energieinhalt mit größerer Auflösung codiert werden, als solche mit geringerer Energie. Dies ist der einzige Teil des Codiermechanismus mit einem psychoakustischen basierten Hintergrund. Eine vorhersehende Regelschleife im nachfolgenden Schaltungsteil eines jeden Signalpfades ermittelt durch die lineare Pegelvorhersage den Differenzwert des aktuellen Samples zum vorhergehenden. Da der Pegel dieses Wertes deutlich niedriger ist, als der des Originalsamples, kann hier mit wesentlich geringerer Auflösung re-quantisiert werden 695
Audiocodierung (z. B. mit 2 bis 7 Bit). Im dritten Schaltungsteil nutzt die adaptive Quantisierung die relativ langsamen zeitlichen Schwankungen des Energieinhalts eines Audiosignals aus, indem die Schrittgrößen der Quantisierer kontinuierlich an den Signalpegel angepasst werden. Der Decoder arbeitet invers zum Encoder und liefert an seinem Ausgang wieder ein 16 Bit breites PCM-Signal mit derselben Datenrate wie die Original PCM-Daten am Eingang der Codierstufe. Zusätzlich zum Audiosignal können asynchrone Metadaten bis zu 12 kBit/s im codierten Datenstrom übertragen werden. Abb. 12/29 zeigt das Blockschaltbild eines zweikanaligen apt-X Codecs, der wahlweise als Encoder oder Decoder betrieben werden kann.
Abb. 12/29. Blockdarstellung eines zweikanaligen apt-X Codecs (nach [12.18]).
Im Rundfunkbereich wird der Audiocodec apt-X vorwiegend in Verbindung mit der Übertragungsschnittstelle E1 zur Übertragung hochwertiger mehrkanaliger Programmsignale eingesetzt, siehe Kap. 16.2. 12.4.8.2
Enhanced apt-X
Das Codierverfahren Enhanced apt-X ist eine Weiterentwicklung des Basisverfahrens und unterscheidet sich hierzu bezüglich einer besseren Qualität. Dies wurde durch die Entwicklung leistungsfähigerer Hardwarebausteine mit höherer Rechenleistung möglich. Durch die Verwendung neuer Filtertechniken wird die Laufzeit der Signale weiter reduziert, z. B. bei 48 kHz von 2,5 ms auf 1,87 ms. Außerdem kann nun wahlweise mit 24 Bit , 20 Bit oder 16 Bit aufgelöst werden, was die Dynamik des Systems um bis zu 25 dB erhöht und den Störpegel entsprechend reduziert. Weiterhin wurden das Impulsverhalten wie auch das Synchronisationsverhalten des Systems deutlich verbessert. 696
Sprachcodecs
12.5
Sprachcodecs
Sprachcodecs sind spezielle Audiocodierverfahren, die auf die effektive Codierung von Sprachsignalen optimiert sind. Sie zeichnen sich bei guter Sprachverständlichkeit durch einen relativ geringen Bitratenbedarf, eine eingeschränkte Übertragungsbandbreite, eine geringe Komplexität des Codieralgorithmus sowie kurze Signalverzögerungen aus, eignen sich aber in der Regel nicht für die Übertragung von allgemeinen Audioinhalten wie Musik oder Atmosphäre. Bekannte Vertreter sind Codecs, die im digitalen Fernsprechverkehr eingesetzt werden, wie AMR (Adaptive Multirate Codec), CELP (Code-book Excited Linear Prediction), EFR (Enhanced Full Rate Codec) u. a. m. In bestimmten Übertragungssystemen (z. B. Digital Radio Mondiale, siehe Kap. 17.3) kann auch ein Sprachcodec mit einem für Musik geeigneten Codec kombiniert werden, um so für beide Informationsinhalte eine hinreichende Übertragungsqualität bei einer vertretbar geringen Bitrate zu gewährleisten. Nachstehend werden einige typische Beispiele erläutert.
12.5.1
ITU-T G.722
Der ITU-T Standard [G.722] (nicht zu verwechseln mit G.722.1 und G.722.2, beide Bezeichnungen stehen für zwei völlig anders arbeitende Verfahren, die weiter unten beschrieben werden) spezifiziert ein einfaches Codierverfahren, das ohne Bezug zur Psychoakustik arbeitet. In der Praxis wird es aufgrund seiner geringen Komplexität und geringen Signalverzögerung von nur 4 ms eingesetzt. Entwickelt als sog. „Wide Band“ (7 kHz Audiobandbreite nach ITU-Definition) Sprachcodierverfahren, arbeitet G.722 mit der zu dieser Audiobandbreite passenden Abtastfrequenz von 16 kHz. Die Anwendung beschränkt sich dadurch im Wesentlichen auf Sprachmaterial, z. B. in Voice-over-IP (Internet-Telefonie) Systemen oder auch als Rück-/Kommandokanal mit geringer Signalverzögerung in sog. Contribution Codecs mit ISDN-Übertragung im Studiobereich.
Abb. 12/30. Blockschaltbild G.722 Encoder.
G.722 verwendet ein als Subband-ADPCM bezeichetes Prinzip: Wie in Abb. 12/30 dargestellt, teilt der Encoder das Eingangssignal in zwei Teilfrequenzbänder (sub-bands) von jeweils 4 kHz Bandbreite. Die beiden Teilbandsignale werden jeweils durch einen ADPCM-Encoder, bestehend aus adaptivem Quantisierer und Prädiktionsfilter, quantisiert und codiert. Das 697
Audiocodierung Prädiktionsfilter der ADPCM-Quantisierung/Codierung reduziert die im Teilbandsignal enthaltene Redundanz, so dass gut vorhersagbare Signale, wie sie z. B. tonale Inhalte darstellen, bei geringer Datenrate mit relativ gutem SNR codiert werden. Nicht vorhersagbare Signale, z. B. nicht-tonale Inhalte, werden mit deutlich geringerem SNR übertragen. Auf den ersten Blick entspricht dies den in Kap. 12.2.1 beschriebenen psychoakustischen Prinzipien, die für tonale Signale einen SNR von ca. 24 dB fordern, während für nicht-tonale Signale etwa 6 dB pro Frequenzgruppe ausreichend sind. Allerdings bietet die G.722-Filterbank keinen Zugriff auf die einzelnen Frequenzgruppen. Das untere, 4 kHz breite Teilband entspricht ca. 18 Frequenzgruppen. Während Audiocodierverfahren mit hochauflösenden Filterbänken und expliziter Berücksichtigung psychoakustischer Prinzipien nur die tonalen Bänder gezielt mit hohem SNR codieren und bei nicht-tonalen Signalen durch geringeren SNR Datenrate einsparen, ist bei G.722 der SNR-Wert in den einzelnen Frequenzgruppen nicht explizit kontrollierbar, sondern abhängig von der Quantisierung des gesamten Teilbandes. Um dennoch gute Ergebnisse zu erzielen, ist deshalb eine relativ hohe Datenrate von 64 kBit/s bei nur ca. 7 kHz Bandbreite pro Audiokanal erforderlich. Trotzdem ist diese Datenrate nicht ausreichend, um den für tonale Frequenzgruppen nötigen SNR für alle Arten von Eingangssignalen zu garantieren, so dass die Audioqualität für viele Signale – wie z. B. Musik – auch gegenüber einem auf 7 kHz bandbegrenzten Eingangssignal deutlich reduziert ist.
Abb. 12/31. Blockschaltbild G.722 Decoder.
Für eine korrekte Funktion des Decoders (Abb. 12/31) benötigen die Prädiktionsfilter die fehlerfrei decodierten und requantisierten Abtastwerte früherer Zeitpunkte. Beim Auftreten von Übertragungsfehlern ist das jedoch nicht gewährleistet, so dass eine Fehlerverschleppung über längere Zeiträume eintreten kann. Verschiedene Anhänge zum G.722-Standard beschreiben zusätzliche Filtermaßnahmen, die in diesen Fällen ein brauchbares Ersatzsignal generieren.
12.5.2
ITU-T G.722.1, G.722.2
Die Nummerierung der ITU-T Wide-band Sprachcodecs ist teilweise etwas verwirrend, da es derzeit drei Codec-Spezifikationen mit ähnlicher Bezeichnung gibt (G.722, G.722.1 und G.722.2), die jedoch völlig unterschiedliche Prinzipien realisieren und nicht zueinander kompatibel sind. [G.722] ist ein 7 kHz Audiocodec, der eine Teilband-ADPCM benutzt und bei 48 bis 64 kBit/s arbeitet, weiteres siehe Kap. 12.5.1. 698
Weitere gebräuchliche Audiocodecs G.722.1 [G.722.1] ist ein 7 kHz Wide-band Audiocodec mit Transformationscodierung (Modulated Lapping Transform, MLT), der bei 24 bis 32 kBit/s arbeitet. Er besitzt eine relativ geringe Latenzzeit (Delay) von 40 ms und wird vorwiegend in Videokonferenzsystemen eingesetzt. Darüber hinaus ist er aber auch für die Übertragung von Musik optimiert. Es gibt außerdem auch eine Option für die Audiobandbreite von 14 kHz mit der Bitrate 24 bzw. 32 kBit/s (G.722.1, Annex C). Die Abtastrate beträgt hier 32 kHz; zusätzlich ist auch noch eine Datenrate von 48 kBit/s möglich. G.722.2 [G.722.2] ist ein Wide-band Sprachcodec mit einem ACELP-basierten Algorithmus, der bei sehr geringen Bitraten eine ausgezeichnete Sprachqualität liefert, verglichen mit anderen gebräuchlichen Schmalband-Sprachcodierern. Er ist auch unter der Bezeichnung AMR-WB (Adaptive Multi Rate - WideBand) Codec bekannt und kann je nach Anwendungsgebiet mit 9 verschiedenen Bitraten zwischen ca. 6 und 24 kBit/s betrieben werden. Tab. 12/7 stellt die wichtigsten Eigenschaften der genannten Codecs gegenüber. Tab. 12/7. Übersicht zu den ITU Wide-band Sprachcodecs der G.722 Gruppe. Standard
G.722
G.722.1
G.722.2 (AMR-WB) 6.6 bis 12,65; 14,25 bis 23,85 ACELP 20
Bitrate [kBit/s]
48; 56; 64
24; 32 (48)
Algorithmus-Typ Frame-Länge [ms]
Teiband-ADPCM 0,125
Transformation 20
Lookahead Zeit [ms] Qualität
1,5 20 Sprache: Commentary Sprache: mittel Musik: gut (relativ) 3 40 8 bis 16
5 Sprache: gut Musik: mäßig 25
1988
2000
Gesamt-Delay [ms] zusätzliche Datenübertragung [kBit/s] ITU-Standard seit
12.6
1999
Weitere gebräuchliche Audiocodecs
Unterdessen existiert eine relativ große Anzahl proprietärer wie auch offener Audiocodecs, von denen hier nur stellvertretend zwei Beispiele behandelt werden sollen. Diese Codecs decken vorwiegend Anwendungen aus dem Internet-Bereich ab, in der Regel mit Qualitätsansprüchen im Intermediate Level.
699
Audiocodierung
12.6.1
Windows Media Audio
Windows Media Audio (WMA) ist ein proprietärer Audio-Codec von Microsoft und Teil der Windows Media-Plattform. WMA wird zur Komprimierung von digitalen Audioinhalten verwendet, und in der Regel mit verlustbehafteter Kompression eingesetzt, vergleichbar dem MP3-Verfahren. Der Codec unterstützt bis zu 24 Bit / 96 kHz bei einer variablen Bitrate von bis zu 768 kBit/s und Surround-Sound mit bis zu 7.1 Kanälen. Daneben gibt es eine Version, die explizit auf Quellmaterial mit Sprache ausgelegt ist (Windows Media Audio Voice, ACELP), sowie den verlustfreien Codec Windows Media Audio Lossless. Das standardmäßige, verlustbehaftete Kompressionsverfahren von WMA basiert auf demselben Prinzip wie die MP3-Kompression: Nach einer Transformation in eine FrequenzAmplituden-Domäne werden Maskierungs- und Hörschwelleneffekte genutzt. WMA unterstützt auch die Einbindung von Digital Rights Management (DRM), die dem Urheber von geistigem Eigentum die Regelung der Zugriffsrechte auf Tonmaterial ermöglichen soll. In der Praxis wird diese Technik häufig als Kopierschutzmaßnahme bzw. als Abspielbeschränkung eingesetzt, welche oft in Online Musik-Shops verwendet wird. Interessanterweise schließt diese Spezifikation aber die bisherigen DRM-Funktionalitäten aus, sodass DRM-geschützte WMA-Dateien eigentlich gar kein WMA mehr sind. Näheres zu DRM siehe Kap. 12.9.
12.6.2
Ogg Vorbis
Ogg Vorbis ist ein freier Codec zur verlustbehafteten Audiodatenkompression, der von der Xiph.Org Foundation als patentfreie Alternative zum weit verbreiteten MP3-Format entwickelt wird. Der Codec unterstützt bis zu 255 Kanäle mit variabler Bitrate und ist streamingfähig. Die zur Codierung/Decodierung benötigten Programm-Bibliotheken wurden unter einer BSD-artigen Lizenz veröffentlicht.
12.7
Matrix-basierte Surround-Systeme
Matrix-basierte Systeme, wie z. B. Dolby Surround bzw. Prologic [12.19], Circle Surround von SRS als Konkurrenzentwicklung zu Dolby, Neural Surround von Neural Audio, oder DTS Neo 6 erlauben den Transport von Multikanalsignalen über Stereokanäle. Die (in der Regel analogen) mehrkanaligen Eingangssignale werden dabei den beiden Übertragungskanälen über eine vorgegebene Matrix zugeordnet und können in dieser Form auch als zwei- oder einkanaliges kompatibles Signal wiedergegeben werden. Für die mehrkanalige Wiedergabe werden sie von einem dazu passenden Decoder wieder extrahiert. Bekannt gewordene Probleme solcher Verfahren sind die evtl. unzureichende Kanaltrennung und ggf. auftretende Auslöschungseffekte. Bei Mono-Wiedergabe kann z. B. das dominante Hörereignis je nach Phasenlage der Ursprungssignale praktisch völlig verschwinden, d. h. die Qualität der Codierung/Decodierung hängt ggf. stark vom jeweiligen Programminhalt ab. 700
Matrix-basierte Surround-Systeme Das in Kap. 12.4.5 vorgestellte MPEG Surround Verfahren besitzt ebenfalls einen MatrixModus, der den Betrieb ohne Zusatzdaten erlaubt.
12.7.1
Dolby Surround / Dolby ProLogic
Entstanden aus dem ursprünglichen Filmton-Wiedergabesystem Dolby Stereo ist Dolby Surround eines der am weitesten verbreiteten matrix-basierten Übertragungssysteme für analoge Surroundsignale, das aus einer 3/1-Eingangssignalkonfiguration (L=Links, R=Rechts, C=Center, S=Surround) durch Matrizierung (lineare Kombination mit vorgegebenen Matrixkoeffizienten) ein zweikanaliges Übertragungssignal Lt, Rt (Left total, Right total) erzeugt, das auch als kompatibles Zweikanal-Stereosignal wiedergegeben werden kann. Im Encoder wird das um 3 dB abgesenkte Centersignal C jeweils beiden Signalen L und R gleichphasig zugemischt. Das S-Signal wird ebenfalls um 3 dB im Pegel reduziert, sowie bandbegrenzt und um 90/ phasenverschoben. Dieses modifizierte Surround-Signal wird dann gegenphasig den beiden resultierenden Signalen Lt und Rt zugemischt. Abb. 12/32 zeigt die prinzipielle Struktur eines Dolby Surround Encoders sowie die typischen Matrizierungsgleichungen.
Abb. 12/32. Dolby Surround Encoder.
Im zugehörigen ProLogic Decoder wird aus den beiden übertragenen Signale Lt und Rt wieder eine 3/1-Signalkonfiguration erzeugt. Die ausgangsseitigen Signale L'und R' entsprechen dabei in der Regel den Signalen Lt und Rt, sind also nicht mehr identisch mit den ursprünglichen Eingangssignalen L und R. Das Surroundsignal S' wird durch Subtraktion aus den beiden Signale Lt und Rt rückgewonnen, es enthält dadurch auch Komponenten von R und L und wird deshalb sowohl bandbegrenzt (7 kHz) als auch verzögert (10 bis 20 ms). Es kann dann entweder über einen oder auch zwei rückwärtig angeordnete Surround-Lautsprecher wiedergegeben werden, die jeweils gegenphasig mit dem S'-Signal eingespeist werden.
Abb. 12/33. Dolby ProLogic Decoder.
Abb. 12/33 zeigt die prinzipielle Struktur eines Dolby ProLogic Decoders. 701
Audiocodierung Die Qualität der wiedergegebenen Signale war in dieser ersten Version nicht immer befriedigend und sehr vom jeweiligen Programminhalt abhängig, weshalb in der Anfangszeit jede wichtige Dolby-Abmischung von autorisierten Betreuern begleitet werden musste, die entsprechende Erfahrungen und „Kochrezepte“ in den Prozess einbrachten. Die begrenzte Qualität der resultierenden Mehrkanalfassung führte zur Weiterentwicklung des Systems in Richtung „intelligenter“, dynamisch gesteuerter Verarbeitungsalgorithmen, woraus in rascher Folge verschiedene Nachfolgesysteme entstanden, wie - Dolby ProLogic II (erzeugt 5.1-Signale), - Dolby ProLogic IIx (erzeugt 5.1, 6.1 oder 7.1-Signale). die jeweils in verschiedenen programmabhängigen Modi, wie Movie (Film), Music oder Game (Computerspiele) betrieben werden können. Immerhin ist es der Fa. Dolby gelungen, mit Dolby Surround bzw. Dolby ProLogic und seinen verschiedenen Derivaten einen weltweiten (wenn auch proprietären) Quasi-Standard für das 3/1-Mehrkanalformat zu etablieren, zumindest wurde durch geschicktes und intensives Marketing innerhalb weniger Jahre die Mehrkanalwiedergabe über 4 Kanäle bzw. Lautsprecher nicht nur ins Kino, sondern auch in die Wohnzimmer transportiert, wodurch eine entscheidende Basis für die weitere Verbreitung der Mehrkanalwiedergabe im Heim geschaffen werden konnte. Übrigens wurden in der Anfangszeit der Mehrkanalstereofonie Dolby-Decoder gelegentlich auch zur einfachen Erzeugung pseudo-mehrkanaliger Aufnahmen benutzt (bzw. missbraucht), indem als Eingangssignal Lt/Rt ein normales Zweikanal-Stereosignal eingespeist wurde, um daraus ein 4-kanaliges Ausgangssignal zu generieren - mit oft sehr programmabhängigen und teilweise fragwürdigen Ergebnissen. Obwohl die ProLogic-Familie ursprünglich nur für analoge Audiosignale konzipiert worden war, wird die Signalkombination Lt/Rt unterdessen auch als kompatibles zweikanaliges Stereosignal bei den digitalen Surroundsystemen wie Dolby Digital oder DTS mitgeführt und z. B. auch auf DVD aufgezeichnet. Weitere Details siehe u. a. in [12.19].
12.8
Verlustfreie Audiocodierverfahren
12.8.1
Übersicht
Bei den verlustfreien Codierverfahren (lossless coding) gibt es derzeit keine wirklich etablierten Standards, sondern eine große Anzahl verschiedener proprietärer Verfahren. Diese unterscheiden sich - wie in Kap. 12.1 bereits ausgeführt - kaum im erreichbaren Kompressionsfaktor. Da sie verlustfrei arbeiten, bieten sie auch die gleiche Audioqualität, so dass als differenzierende Faktoren im wesentlichen die Anzahl der unterstützten Audiokanäle, Abtastraten, die Auflösung der Abtastwerte und evtl. das Resynchronisationsverhalten bei einem vorübergehendem Ausfall des Datenstroms dienen. Tab. 12/8 gibt einen Überblick über derzeit gebräuchliche Systeme. 702
Verlustfreie Audiocodierverfahren Die Verfahren finden Anwendung in Tonstudios, auf neueren Tonträgern wie der SACD oder der DVD-Audio oder auch zunehmend in privaten Musikarchiven qualitätsbewusster Musikhörer, die z. B. Generationsverluste vermeiden wollen. Daneben sind viele solcher Datenkompressionsverfahren außer im Audiobereich auch für andere Signale wie z. B. biologische, medizinische oder seismische Daten interessant. Tab. 12/8. Übersicht verlustfreie Audiocodecs. Verlustfreie Audiocodierverfahren Direct Stream Transfer (DST) Meridian Lossless Packing (MLP) Dolby TrueHD (=MLP mit Erweiterungen) DTS HD Master Audio Apple Lossless (ALAC) Windows Media Audio Lossless MPEG Scalable Lossless (SLS) MPEG-4 Audio Lossless Coding (ALS) Shorten Monkey’s Audio (APE)
Einsatzgebiet Super Audio CD DVD Audio HD-DVD, Blu-ray Disc HD-DVD, Blu-ray Disc Apple iPOD, Quicktime Windows Media Internet, PC Internet, PC
Im PC-Bereich gibt es eine Reihe weiterer, untereinander relativ ähnlicher Verfahren, die auf adaptiven Prädiktionsfiltern basieren. Typische Vertreter sind hier die Open Source Projekte True Audio Lossless (TTA), Monkey’s Audio, Shorten, WavPack, Free Lossless Audio Codec (FLAC). Der MPEG-4 (ALS) Standard ist ein durch die ISO standardisiertes Verfahren, das auf ähnlichen Prinzipien beruht und vergleichbare Eigenschaften aufweist. Sie sind in der Regel nicht für fehlerbehaftete Bitströme ausgelegt, da die verwendeten Prädiktionsfilter typischerweise ein sehr langes Gedächtnis besitzen, was im Fehlerfall zu einem langen Signalausfall führen würde. Der MPEG SLS Standard hingegen weist keine Fehlerfortpflanzung über die BitstromFramegrenzen hinaus auf, da anstelle von Prädiktionsfiltern perfekt rekonstruierende, relativ kurze Transformationen (5 bis 20 ms) verwendet werden. Als weitere Besonderheit existiert ein sog. Near Lossless Modus, der eine konstante Datenrate ermöglicht, so dass Signale mit ausreichend hoher Redundanz verlustfrei codiert werden, dagegen Signale mit geringer Redundanz verlustbehaftet, aber psychoakustisch kontrolliert codiert werden.
12.8.2
Free Lossless Audio Codec
Das System Free Lossless Audio Codec, FLAC, ist ein frei verfügbarer (jedoch nicht standardisierter) verlustfreier Audio-Codec. Das decodierte Audiosignal ist also Bit-für-Bit identisch mit dem originalen Audiosignal. Jeder Datenrahmen enthält einen 16-Bit CRC-Code, um Übertragungsfehler zu erkennen. Die Integrität der Audiodaten wird weiterhin garantiert durch Speicherung einer sog. MD5 Signatur der unverschlüsselten Audiodaten des Originals im Datei-Header, die später bei der Decodierung oder Prüfung verglichen werden kann. Das FLAC-Verfahren ist asymmetrisch 703
Audiocodierung in Bezug auf den Zeitaufwand, der für das Codieren bzw. Decodieren der Audiodaten benötigt wird. Die Decodierung verlangt nur Integer-Arithmetik und bedingt damit einen viel geringeren Rechenaufwand, der sich in kurzen Decodierzeiten niederschlägt. Wegen des geringeren Rechenaufwands ist eine Echtzeit-Decodierung auch auf weniger leistungsfähigen Computersystemen möglich. Durch die offene Implementierung des Verfahrens und die geringe Codier-Komplexität gibt es für das FLAC-Verfahren keinerlei Hardware-Einschränkungen. Jeder FLAC-Rahmen enthält genügend Audiodaten, um diesen Rahmen zu decodieren. Es wird kein Bezug zum vorausgehenden oder nachfolgenden Rahmen benötigt. Dadurch eignet sich das FLACVerfahren auch für das sog. Streamen (siehe u. a. Kap. 17.4). FLAC verwendet synchronisierte Codes und CRC’s, ähnlich zu MPEG und anderen Formaten. Das macht auch eine Decodierung an beliebiger Stelle eines Audio-Streams möglich, die im Zusammenspiel mit der Rahmensynchronisation nur minimale Verzögerungen zur Folge hat. FLAC unterstützt darüber hinaus schnelles, sample-genaues Suchen. Das ist nicht nur hilfreich bei der Wiedergabe von Audiodaten, sondern qualifiziert das Verfahren auch für die Verwendung in Schnittsystemen. FLAC unterstützt Auflösungen bis zu 32 Bit, Je nach Signalcharakter werden z. B. bei CDQualität eines (Stereo)-Eingangssignals variable Bitraten zwischen 700 kBit/s und 1 MBit/s erzeugt. Die Größe einer Audiodatei wird bei Anwendung des Kompressionsverfahrens auf etwa die Hälfte ihres ursprünglichen Wertes reduziert. Das System FLAC wird u. a. in Verbindung mit dem Prozess Digitale Bemusterung (Digibemus) beim breitbandigen Audio-Filetransfer zwischen den Rundfunkanstalten eingesetzt, siehe Kap. 13.2.2.1.
12.9
Digitale Signaturen von Audiodateien
Digitale Audiodateien oder -bitströme können üblicherweise mit inhaltsbezogenen Zusatzdaten (auch als Metadaten bezeichnet) versehen werden, die je nach dem gewählten Datenformat in dafür vorgesehene Felder des entsprechenden Übertragungsrahmens eingebracht werden – z. B. als User Bits, Ancillary Data, Programme Associated Data (PAD) oder ähnlich bezeichnet. Alle auf diese Weise transportierten Zusatzdaten sind zwar zunächst zeitlich fest an die entsprechende Audioinformation gekoppelt, sie können jedoch vom Anwender (Empfänger) mit geeigneten Werkzeugen beliebig manipuliert oder auch entfernt werden, bieten also keinerlei Sicherheit bezüglich Authentizität. Neuere Verfahren, wie das digitale Wasserzeichen, betten die Zusatzinformationen unhörbar und unveränderbar in das eigentliche Programmsignal ein. Ein anderes modernes Verfahren, der digitale Fingerabdruck (auch als AudioID bekannt), kennzeichnet einen konkreten Audioinhalt; ohne in das Programmsignal einzugreifen. Alle diese Lösungen können verwendet werden, um z. B. urheberrechtlich begründete Kennzeichnungen von Medieninhalten und die darauf basierende Rechteverwaltung zu unterstützen. 704
Digitale Signaturen von Audiodateien
12.9.1
Digitales Wasserzeichen
Das sog. digitale Wasserzeichen (Digital Watermarking) ist ein Verfahren, um beliebige Informationen in digitale Medien (wie zum Beispiel Audiodateien, Videodateien, Bilder, etc.) einzubetten, ohne dass wahrnehmbare Veränderungen an den Multimediadaten eintreten. Digitale Wasserzeichen werden verwendet, um Nutzinformationen (Audioaufzeichnungen, Video-CDs, Hörbücher etc.) eindeutig zu kennzeichnen und z. B. mit urheberrechtlichen Zusatzinformationen zu versehen. Zu diesem Zweck wird das Audiosignal geringfügig auf eine definierte Art und Weise modifiziert. Diese Änderung ist so klein, dass das menschliche Gehör keinen Unterschied wahrnimmt. Die Wasserzeichen-Technologie eröffnet damit die z. B. Möglichkeit, Kopien eines Titels zu erstellen, die für den Verbraucher jeweils identisch mit dem Original sind, sich aber mit computergestützten Einrichtungen anhand der eingebrachten Zusatzinformation unterscheiden lassen. Die Stärke bei der Anwendung von Wasserzeichen liegt darin, dass das Produkt nach der Markierung immer noch ein vergleichbares Medium ist. Anwender können mit einem solcherart markierten Medium alles tun, was sie auch mit unmarkierten Medien tun können,. also beispielsweise weiterhin genauso ohne Einschränkung abspielen oder kopieren. Auch Formatänderungen sind möglich, so dass eine gekaufte und mit Wasserzeichen versehene CD auch im Auto oder mit dem MP3-Player abspielbar ist. Lediglich Missbrauch ist erkennbar und kann ggf. verfolgt werden. 12.9.1.1
Anforderungen und Eigenschaften
Digitale Wasserzeichen lassen sich durch eine Reihe von Eigenschaften charakterisieren und müssen je nach Anwendung bestimmte Anforderungen erfüllen. Die wichtigsten sind: Transparenz Das Wasserzeichen soll nicht wahrnehmbar sein, es darf also die Ton- bzw. Bildqualität des Originals nicht beeinflussen oder zumindest nicht stören. Abb. 12/34 zeigt den Vergleich der Zeitfunktionen zwischen einem originalen und einem markierten Tonsignal gleichen Inhaltes. Robustheit Ein Maß dafür, wie zuverlässig ein Wasserzeichen nach einem feindlichen „Angriff“, aber auch nach einer herkömmlichen Übertragung mit den damit verbundenen Signalmodifikationen wieder auslesbar sind. Das wurde auch von der EBU untersucht. Als „Angriffe“ wurden unter anderem eine Analogwandlung des Signals, eine digitale Audiocodierung oder auch verschiedene Filterungen des Signals durchgeführt. Im Ergebnis zeigte sich, dass ein Wasserzeichen erst dann nicht mehr auslesbar ist, wenn die Audioqualität aufgrund des Angriffs ohnehin bereits merklich gesunken ist. Zu unterscheiden sind drei Varianten: Bei sichtbaren Wasserzeichen wird eine klar erkennbare Urheberrechts-Markierung an das zu schützende Objekt angebracht, was die nicht autorisierte Nutzung unattraktiv machen soll und in jedem Fall zu einem (teilw. marginalen) Qualitätsverlust führt. (Wird insbesondere im Bildbereich eingesetzt.) 705
Audiocodierung In unsichtbaren, sog. robusten Wasserzeichen werden rechtebezogene Informationen im Inhalt versteckt, d. h. unsichtbar gespeichert und untrennbar mit dem Werk verbunden.
Abb. 12/34. Einbettung eines digitalen Wasserzeichens in ein Audiosignal (Quelle: FhG IPSI).
Unsichtbare, sog. fragile Wasserzeichen dienen dem Nachweis der Unverfälschtheit (Unversehrtheit und Integrität), um Manipulationen zu erkennen. Dabei sollen fragile Wasserzeichen nur gegen bestimmte Verarbeitungsoperationen (Komprimierung, Skalierung etc.) robust sein, während bei inhaltlichen Änderungen (z. B. Bildmanipulationen) das Wasserzeichen zerstört werden soll. Kapazität Angabe, wie viele Informationen mit Hilfe eines Wasserzeichenalgorithmus im Trägermedium eingebettet werden können. Man verwendet hierfür Datencontainer, die eine bestimmte Datenrate und Robustheit erlauben. Gebräuchliche Container ermöglichen z. B. die Übertragung von 48 bit Zusatzdaten in 5 Sekunden bei sehr hoher Robustheit oder 48 bit Zusatzdaten in etwa 2,5 Sekunden bei geringfügig niedrigerer Robustheit. Sollen mehr Informationen in einer bestimmten Zeit übertragen werden, sinkt die Robustheit des Wasserzeichens. Sicherheit Ohne Kenntnis des geheimen Schlüssels darf das Wasserzeichen nicht ausgelesen, verändert oder zerstört werden, ohne dabei die Datei selbst unbrauchbar zu machen. Nur eine spezielle Software ist in der Lage, die zuvor eingebetteten Zusatzdaten wieder auszulesen. Dies verhindert ein unbefugtes Auslesen der eingebetteten Information und macht das Verfahren sehr sicher. 12.9.1.2
Anwendungsbereiche
Die Audio-Wasserzeichen Technologie eröffnet prinzipiell zwar die Möglichkeit, innerhalb des Audiosignals Zusatzdaten versteckt zu übertragen, macht aber keine Einschränkungen 706
Digitale Signaturen von Audiodateien hinsichtlich der Art der Zusatzdaten. Daraus ergibt sich für diese Technologie ein breites Feld an Anwendungen. Urheberinformationen Während der Produktion können Urheberinformationen direkt in dem Titel verankert werden. Dies ermöglicht zu einem späteren Zeitpunkt die Überprüfung, ob ein anderer Anwender beispielsweise Samples eines wertvollen Instruments oder andere akustische Bestandteile unerlaubterweise verwendet. Auch kann mit Hilfe des Wasserzeichens ein Urhebernachweis geführt werden, falls ein Mitbewerber behauptet, dass der betreffende Titel von ihm produziert worden sei. Empfängerinformationen Die Idee hierbei ist, jeden an einen bestimmten Empfänger verteilten Titel zu personalisieren. Hierzu werden solche Informationen als Wasserzeichen eingebettet, die später einen Rückschluss auf den vorgesehenen Empfänger der Titel erlauben. Dies kann beispielsweise eine Kundennummer sein. Werden die Titel anschließend im Internet oder an anderer Stelle wieder aufgefunden, kann mit Hilfe der eingebetteten Daten die Person oder Institution identifiziert werden, an die dieser Titel ursprünglich verteilt worden ist. Titelinformationen Das Audio-Wasserzeichen Verfahren kann prinzipiell auch für die Programmüberwachung im Rundfunk eingesetzt werden. Zu diesem Zweck muss jeder Titel, der beobachtet werden soll, während der Produktion mit einer besonderen Kennziffer in Form eines Wasserzeichens versehen werden. Ein Computer hört anschließend die Rundfunkprogramme ab und untersucht das Signal auf sein Wasserzeichen. Integritätsschutz Heutzutage werden die meisten Medien digital verteilt und verarbeitet. Daher lassen sich Mediendaten mit moderner Multimedia-Software sehr leicht verändern – und manipulieren. Das Ziel besteht darin, die Integrität der Daten zu gewährleisten. Derzeitige Lösungen basieren auf Kryptografie und damit realisierbaren Sicherheitsmechanismen, wie z. B. digitale Signaturen. Da digitale Medien oft auch Formatkonvertierungen unterzogen werden, sind solche Lösungen i. Allg. nicht anwendbar. Eine signifikante Veränderung der Daten zerstört oder beschädigt das Wasserzeichen bzw. kann anhand der eingebetteten Informationen nachgewiesen werden Authentizitätsschutz Der Authentizitätsschutz ist die Gewährleistung vertrauenswürdiger Medien. Der Benutzer eines Dokuments soll dabei in der Lage sein, den Urheber des Dokuments eindeutig zu identifizieren. Hierbei werden digitale Wasserzeichen mit kryptographischen Techniken kombiniert. Eine vertrauenswürdige Instanz (Trusted Third Party, TTP) registriert die Urheberinformationen und andere Informationen über das Dokument (beispielsweise den Erstellungszeitpunkt). 707
Audiocodierung Mit Hilfe seines privaten Schlüssels generiert der Urheber eine digitale Signatur. Der Benutzer eines Dokuments kann nun mit Hilfe des öffentlichen Schlüssels das Wasserzeichen auslesen. Die enthaltene digitale Signatur weist eindeutig die Urheberschaft nach. Partielle Verschlüsselung Eine weitere Technologie ist partielle Verschlüsselung: Hiermit können zum Beispiel neue Wege für die Verbreitung von Previews erschlossen werden: Ähnlich wie bei Shareware können z. B. Musikdateien kostenlos verteilt werden. Deren Klangqualität ist jedoch durch eine schwache partielle Verschlüsselung leicht reduziert. Das heißt, durch die Verschlüsselung können nur Teile des Mediums verarbeitet werden, aber das Medium bleibt als ganzes immer noch abspielbar. Wird die "Vollversion" erwünscht, kann der passende Schlüssel zum Freischalten erworben werden, um damit die Datei in voller Qualität zu entschlüsseln. Programmreichweitenermittlung Eine weitere Anwendung besteht in der unhörbaren Übertragung von Zusatzinformationen (wie Senderkennung, Programmkennung, Hörzeit) mit Hilfe der Wasserzeichentechnik, die z. B. in UK zur automatisierten, objektiven Ermittlung der Hörerquoten von UKW-FM Hörfunkprogrammen eingesetzt werden. (Andere Anwender benutzen für den gleichen Zweck Informationen, die mit dem Radio Data System RDS übertragen werden).
12.9.2
Digitaler Fingerabdruck
Die digitale Fingerabdruck-Technologie (audio fingerprinting) ermöglicht die automatisierte Wiedererkennung von Musikstücken, Werbespots u. ä. mit Hilfe eines Computers. So wie der Mensch einmal gehörte Musik aufgrund bestimmter Merkmale wiedererkennt, kann auch ein Computer anhand bestimmter Signalstatistiken einen vorab eintrainierten Titel wieder erkennen. Diese Merkmalssätze (Merkmalsvektoren) sind einzigartig für jedes Audiosignal und werden in Analogie zum menschlichen Fingerabdruck als Audio-Fingerprint oder auch als Audio ID bezeichnet. Wiedererkannt werden kann ein Musiktitel nur dann, wenn diese Merkmale zu einem früheren Zeitpunkt bereits klassifiziert und erfasst worden sind (in einer sog. Lernphase) und zum Beispiel in einer Datenbank abgelegt wurden, in der eine wachsende Anzahl von Merkmalssätzen gespeichert wird. Diese werden ggf. mit zusätzlichen Metadaten zu inhaltlichen Merkmalen der betreffenden Aufnahme etc. hinterlegt (neben dem Titel z. B. Komponist, Interpreten, Aufführungsort und -zeit, Verlag/Hersteller/Anbieter, Liedtexte oder andere alphanumerische Informationen). Im Anwendungsfall werden sie dann mit einem aktuell gewonnenen Fingerabdruck verglichen und damit identifiziert (Identifizierungsphase). 12.9.2.1
Anforderungen und Eigenschaften
Bei Einsatz der Audio-Fingerprinting Technologie wird das Audiosignal selbst nicht verändert, insbesondere werden keine zusätzlichen Informationen in das Audiosignal eingefügt. 708
Digitale Signaturen von Audiodateien Die Erkennung der Titel erfolgt rein inhaltsbasiert, also nur anhand der Merkmale, die aus dem Tonprogrammsignal abgeleitet werden. Robustheit Gewährleistet, dass der zu identifizierende Titel auch dann noch erkannt wird, wenn das Audiosignal bis zu einem bestimmten Grad verändert wurde. Solche Änderungen können beispielsweise lineare Störungen wie Pegeländerungen oder eine Bandbegrenzung sein, wie sie auch bei der Rundfunkausstrahlung auftreten kann. Nichtlineare Störungen, wie zum Beispiel eine Dynamikkompression oder die Codierung in das MP3 Format, fallen ebenfalls darunter. Das System soll auch in der Lage sein, eine zwischengeschaltete Analogübertragung, wie z. B. auch die Wiedergabe über Lautsprecher und anschließende Aufnahme über ein Mikrofon zu tolerieren. Außerdem soll das System auch Stücke wiedererkennen, die nicht vollständig vorliegen, sondern ggf. nur in kürzeren Ausschnitten. Kompaktheit Die abzulegenden Fingerprints (Datensätze) sollen nicht zu umfangreich sein, mit Rücksicht auf die erforderliche Kapazität der Datenbank sowie die auftretende Verarbeitungszeit bei späteren Suchvorgängen. Interoperabilität Systeme verschiedener Anbieter sollten möglichst untereinander kompatibel sein, das setzt u. a. die Verwendung einheitlicher Klassifizierungsprinzipien sowie die Anwendung standardisierter Darstellungsmethoden voraus (z. B. nach MPEG-7). 12.9.2.2
Merkmalsauswahl
Entscheidend für ein Audio-Fingerprinting Verfahren ist die Auswahl der zu untersuchenden Merkmale. anhand derer eine Unterscheidung einer sehr großen Anzahl an Titeln (z. B. über 1 Million) möglich wird. Gleichzeitig bestimmt die Auswahl der Merkmale auch die Größe des Fingerprints eines Titels und damit auch den Zeitbedarf für das Identifizieren eines Titels. Als geeignet haben sich u. a. folgende Merkmale erwiesen - Lautheitsverlauf über der Zeit, summarisch sowie frequenzbandselektiv; - Spektrales Flachheitsmaß (Spectrum flatness, SF), das frequenzbandselektiv zwischen tonalen und rauschartigen Signalen unterscheiden kann. Das SFM ist als Quotient des geometrischen Mittels g und des arithmetischen Mittels m der Energie in den einzelnen Frequenzbändern definiert SF = g(a) / m(a), mit m = 1/N * (a1 + a2 + a3 + … + aN) und g = (a1 * a2 * a3 * …* aN) ^ (1/N); - Spektrale Neigung als Maß für die wahrnehmbare Brillanz (Schärfe) eines Audiosignals, oder alternativ die die Neigung des Spektrumverlaufs des logarithmischen Amplitudenfrequenzgang, die auch einen Einfluss auf den Formantcharakter des Audiosignals haben kann; - Berechnung von Hash-Werten aus den Audiodaten mittels geeigneter Algorithmen (HashFunktionen). Eine Hash-Funktion oder Streuwertfunktion ist eine mathematisch erzeugte 709
Audiocodierung Abbildung einer großen Menge von Quellendaten - den Audiodaten - mittels einer kleinen Datenmenge, dem Hashcode (siehe auch Kap. 18.6). 12.9.2.3
Lösungsmodelle
Eine der bekannten Basistechnologien ist Teil des internationalen ISO/IEC MPEG-7 Audiostandards [MPEG-7] - einer Beschreibungssprache für Metadaten von Multimedia-Informationen. Um Musik – oder auch jedes andere Tonsignal – zu identifizieren, wird auf Basis der oben genannten Merkmale (Low Level Descriptors, MPEG-7 LLD) durch mehrfache statistische Verdichtung ein kompakter und einzigartiger Datensatz (MPEG-7 DS) extrahiert, die so genannte Signatur. In einer Lernphase werden von bekanntem Tonmaterial derartige Signaturen erstellt und in einer Datenbank abgelegt. Danach kann ein beliebiger Ausschnitt dieses Tonmaterials erkannt werden, indem dessen aktuell ermittelte Signatur mit denen in der Datenbank verglichen wird. Abb. 12/35 zeigt den prinzipiellen Workflow dieser Technologie.
Abb. 12/35. Workflow Fingerprinting gemäß ISO/MPEG-7, nach [12.20].
Ein anderes Modell fußt auf der Berechnung von den oben erwähnten Hash-Werten in mehreren schmalen Frequenzbändern auf einer logarithmischen Frequenzskala im Grundtonbereich (300 bis 3000 Hz), z. B. nach der Hash-Funktion H(n,t) 1 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] > 0
H(n,t) =
{ 0 if EB(n, t) - EB(n,t+1) - EB (n-1, t) - EB(n-1, t+1)] < 0
mit n = Filterfrequenzbereich und t = Zeitfenster, siehe [12.21]. 12.9.2.4
Anwendungsbereiche
Es gibt eine Vielzahl attraktiver Anwendungsbereiche für AudioID bzw. Audio-Fingerprinting, wie z. B.: Senderüberwachung AudioID kann jegliches gesendete Tonmaterial in Hörfunk- und Fernsehprogrammen identifizieren und protokollieren, ohne dass das Audiomaterial dafür verändert werden muss. Dies 710
Digitale Signaturen von Audiodateien könnte die Automatisierung der Rechteverwertung (GEMA) sowie die allgemeine Programmstatistik unterstützen. Inhaltsidentifizierung Nach der Identifizierung des Musikstückes anhand seines Fingerabdrucks können aus anderen Datenbänken weitere inhaltsrelevante Metadaten abgefragt werden. In großen Datenbeständen (Archive, P2P-Netze) kann automatisch nach bestimmten – ggf. auch illegalen – Inhalten gesucht werden, ohne dass man auf durchgängig oder einheitlich vorhandene Metadaten angewiesen ist. Schutz von Inhalten Die Fingerprint-Technologie stellt eine relativ robuste Lösung dar, Audioinhalte ohne zusätzlich eingebrachte Informationen indirekt zu schützen, beispielsweise als Stärkung des Kopierschutzes, siehe hierzu auch unter Kap. 12.9.3 (DRM).
12.9.3
Digitale Rechteverwaltung
Als Digitale Rechteverwaltung (Digital Rights Management, DRM) werden Verfahren bezeichnet, mit denen die Verbreitung und Nutzung digitaler Medien kontrolliert werden soll. Vor allem für Film- und Tonaufnahmen auf digitalen Informationsträgern, aber auch für Software, elektronische Dokumente oder eBooks findet die digitale Nutzungsrechteverwaltung Anwendung. Die technischen Anwendungslösungen solcher elektronischen Schutzmechanismen für digitale Informationen nennt man DRMS (Digital Rights Management System). Ein DRM-System (DRMS) soll helfen, die Verwendung von Daten nur in dem von den jeweiligen Rechteinhabern definierten Rahmen (Lizenz) zu ermöglichen. DRM unterstützt ggf. auch neue Abrechnungsmöglichkeiten, um sich Nutzungsrechte an Daten mittels automatisch kontrollierbarer Lizenzen vergüten zu lassen. Hauptziel für die Entwicklung von Digital-Rights-Management-Systemen war/ist der Schutz von Verwertungsrechten an digitalen Bild-, Ton- oder Videoinhalten. Unterdessen finden DRMS aber auch in vielen anderen Bereichen Anwendung. Beispielsweise können DRMS (DRM-Systeme) auch zum Schutz kritischer Daten wie z. B. internen Firmenunterlagen eingesetzt werden (Enterprise Rights Management). Solche Mechanismen der digitalen Rechteverwaltung sind jedoch allgemein stark umstritten. Befürworter sehen darin u. a. die Eröffnung neuer Geschäftsmodelle mit bedarfsgerechterer Abrechnung (Pay-Per-View) sowie ggf. den Wegfall von Pauschalabgaben auf Leermedien oder Hardware. Kritiker warnen vor allem vor Datenschutzproblemen und möglichen Einschränkungen bei der Benutzerfreundlichkeit, Interoperabilität und Archivierung, siehe auch Kap. 12.9.3.3. DRM wird derzeit hauptsächlich bei digitalen Medieninhalten wie Filmen oder Musik eingesetzt. Weit verbreitet sind die DRMS FairPlay von Apple, Windows Media DRM von Microsoft und das OMA DRM der Open Mobile Alliance. Diese ermöglichen eine genaue Spezifizierung der Berechtigungen und können für Audio- und Videodateien verwendet werden, 711
Audiocodierung beispielsweise in Online-Shops für Musik- und Videotitel. Das OMA DRM wird in fast jedem Mobiltelefon für Klingeltöne, Bilder, aber auch für mobile Musik- und Fernsehübertragungen (mobile TV) eingesetzt. Nach dem Scheitern von DRM im Public-Domain-Bereich der Musikindustrie verlagert sich der Einsatz möglicherweise stärker auf professionelle Anwendungen. 12.9.3.1
Anwendungsbereiche
DRM-Systeme sollen vorrangig die Weitergabe von und Zugriff auf digitale Inhalten auf offenen Plattformen kontrollierbar machen und daher insbesondere Funktionen zur Zugangsund zur Nutzungssteuerung bereitstellen. Während es bei der Zugangssteuerung um die Bestimmung des Personenkreises („Wer?“) geht, steht bei der Nutzungssteuerung die Art der Nutzung („Wie?“) im Mittelpunkt. DRMS realisieren die Zugriffskontrolle mit Hilfe kryptografischer Verfahren, indem ein beliebiger digitaler Inhalt durch Verschlüsselung eindeutig an eine Lizenz gebunden wird. Ohne die zum digitalen Inhalt gehörige gültige Lizenz kann der Benutzer zwar das Gerät oder den Datenträger erwerben, nicht jedoch auf den (vollständigen) Inhalt zugreifen. Um digitalen Inhalten auch außerhalb eines DRMS einen gewissen Schutz zu ermöglichen, kann durch eine möglichst nicht mit einfachen Mitteln zu entfernende (robuste) Kennzeichnung der Inhalte eine mögliche Lizenzverletzungen auch nachträglich erkannt werden. Zugangssteuerung Ziel ist es sicherzustellen, dass der Zugriff auf geschützte Inhalte nur entsprechend lizenzierten Personen und/oder Endgeräten gewährt wird. Hierbei wird der Benutzer im ersten Schritt mittels eines Authentifizierungsverfahrens identifiziert. Danach werden seine Zugriffsrechte geprüft. Für die Identifizierung des Benutzers gibt es unterschiedliche Verfahren, wie Passwörter oder Hardware-Authentifikation bis hin zur Überprüfung biometrischer Daten. Passwort-basierte Systeme sind zwar einfach und kostengünstig zu implementieren, gestatten aber durch die Möglichkeit der unkontrollierten Weitergabe des Passworts nicht zuverlässig die Identifizierung eines Benutzers. Nutzungssteuerung Die Durchsetzung einer entsprechenden Lizenz muss auch nach erfolgreicher Zugriffautorisierung gewährleistet werden. Die zum Zugriff auf die geschützten Inhalte verwendeten Programme müssen daher eine Beschreibung der berechtigten Verfügungsformen (Lizenz) verstehen und geeignet durchsetzen können. Man unterscheidet zwischen - dem Wiedergaberecht (ausdrucken, ansehen und abspielen); - dem Transportrecht (kopieren, weitergeben und ausleihen); - dem Recht, abgeleitete Werke zu erstellen (extrahieren, editieren und einfügen). In ihrer einfachsten Form umfassen Nutzungssteuerungssysteme einen geeigneten Kopierschutzmechanismus (wie z. B. beim Digital Audio Tape (DAT) oder beim DVD-Standard). 712
Digitale Signaturen von Audiodateien Nutzungsabrechnung DRMS ermöglichen nicht nur den Schutz digitaler Inhalte, sondern auch die Etablierung nutzungsabhängiger Bezahlmodelle (Pay-per-View, Pay-per-Click etc.). Verbraucher können so nicht nur pauschal, sondern auch selektiv und in kleinen Mengen Inhalte erwerben. Dazu gehört auch, die Nutzung zu protokollieren und diese Informationen per Rückkanal an das Abrechnungssystem des Anbieters weiterzugeben. Neben der Rückkanalfähigkeit ist hier zusätzlich auch die Integration von sicheren elektronischen Zahlungssystemen notwendig. Nutzungskontrolle ohne DRMS Umfassender Schutz ist auch durch DRMS nicht durchsetzbar. Auch wenn die technischen Schutzvorkehrungen den Angriffstechniken der unberechtigten Nutzer immer einen Schritt voraus bleiben sollten, besteht oft das „Problem der analogen Lücke“, d. h. die Möglichkeit, Analogkopien hochwertig zu re-digitalisieren und danach ungeschützt weiterzuverbreiten. Deshalb ergreifen Inhalteanbieter auch reaktive Maßnahmen zum Schutz ihrer Inhalte durch entsprechend gesetzte Markierungen, oder gerade die Abwesenheit von Markierungen als Zeichen für kompromittierte Medienprodukte. Zu den schwachen Markierungsverfahren zählen das sog. Labeling und das Tattooing. Diese Verfahren sind leicht überwindbar, weil die Metadaten nicht versteckt werden können. Außerdem sinkt die Qualität des Medienproduktes, da solche Maßnahmen häufig störend wirken. Zu den starken Markierungsverfahren zählen sog. Wasserzeichen, welche die versteckte Einbettung von Metadaten in Medienprodukten ermöglichen. 12.9.3.2
Basistechniken
Zugangs- und Nutzungssteuerung benötigen die Basistechniken der Kryptografie, Rechtedefinitionssprachen und ggf. Abrechnungsfunktionen. Wasserzeichen sollen die lizenzrechtlichen Bestimmungen auch außerhalb eines DRMS zumindest nachträglich erkennbar machen. Verschlüsselung Um die unberechtigte Nutzung, Veränderung oder Verfälschung geschützter Inhalte zu verhindern, können eine Vielzahl von kryptografischen Techniken verwendet werden. Diese kommen insbesondere im Rahmen der Zugriffs- und Nutzungskontrolle sowie der sicheren Abrechnung zum Einsatz. Digitale Signaturen können beispielsweise die Authentizität eines Berechtigten sicherstellen. Im Rahmen elektronischer Zahlungssysteme helfen solche Verschlüsselungsverfahren, wie z. B. das Secure-Electronic-Transaction-(SET-) System, bei der sicheren Übertragung von sensiblen Abrechnungsdaten (z. B. Kreditkartennummern) über das Internet. Digitales Wasserzeichen Ein digitales Wasserzeichen (digital watermarking) kann bestimmte Informationen unwiderruflich mit einem Medienprodukt verbinden, zu Einzelheiten siehe Kap. 12.9.1. Digitaler Fingerabdruck Ein digitaler Fingerabdruck (AudioID, audio fingerprint) kennzeichnet den Audioinhalt eines Mediums, ohne die Audiodaten selbst zu verändern; Details siehe Kap. 12.9.2. 713
Audiocodierung Rechtedefinitionssprachen Die Beschreibung des Umfangs der eingeräumten Rechte und ggf. die gewählte Form der Abrechnung erfordert den Einsatz sog. Rechtedefinitionssprachen in Form geeigneter höherer formaler Sprachen. Nutzungsrechte können damit. sehr differenziert abgebildet und abgerechnet werden: Nutzungszeitraum, -häufigkeit, -operationen (drucken, ändern, kopieren etc.) und weitere Bedingungen bzw. Einschränkungen. Hierfür werden sowohl proprietäre als auch offene Sprachen benutzt. Eine offene, also standardisierte Sprache ist notwendig, wenn eine plattformübergreifende Nutzung anvisiert wird. Beispiele für solche Standards sind die eXtensible rights Markup Language (XrML) sowie die Open Digital Rights Language (ODRL). Tab. 12/8 gibt eine Übersicht zu möglichen Einsatzbedingungen der genannten Techniken und Funktionen von DRM-Systemen. Die Darstellung ist nicht vollständig, sondern soll lediglich zeigen, dass verschiedene Basistechniken kombiniert eingesetzt werden müssen, um die funktionalen Anforderungen zu realisieren. Tab. 12/9. Beispiele für die Realisierung von Funktionen in DRM Systemen. Basistechniken Y Anwendungen 9 Zugangssteuerung Nutzungssteuerung
Rechteverwaltung
Abrechnung
12.9.3.3
Verschlüsselung
Digitale Wasserzeichen
Rechtedefinitionssprachen
Authentifizierung (z. B. Digitale Signatur) Nutzungsfreigabe durch Entschlüsselung der Inhalte
Robuste Wasserzeichen zur Authentifizierung Robuste Wasserzeichen zur Durchsetzung des Kopierschutzes Fragile Wasserzeichen zum Integritätsnachweis Robuste Wasserzeichen zur Authentifizierung
Abbildung autorisierter Nutzer und/oder Endgeräte Abbildung von Verfügungsrechten
Deaktivieren von manipulierten DRMS-Clients Sichere Zahlungsverfahren (z. B. SETVerfahren)
Abbildung autorisierter Nutzer und/oder Endgeräte Abbildung von Abrechnungsdaten
Nachteile von DRM
Kritiker an der Durchsetzung von DRM führen eine Vielzahl von Nachteilen und Unzulänglichkeiten der bekannten DRMS an, um die Anwendung insgesamt oder partiell in Frage zu stellen. Die hat u. a. bereits dazu geführt, dass die führenden Musikanbieter unterdessen auf die Anwendung von DRM verzichten und ggf. eine unautorisierte Nutzung (wieder) in Kauf nehmen. Einige der wesentlichen Einschränkungen, die durch DRM zu erwarten sind, seien nachstehend erwähnt:
714
Digitale Signaturen von Audiodateien Inkompatibilität Ein Nachteil von DRM mit Verschlüsselung ist die Inkompatibilität mit manchen Wiedergabegeräten. So lässt sich eine durch DRM geschützte Mediendatei trotz erworbener Lizenz nicht auf allen mobilen Geräten wiedergeben, sondern nur mit solchen, die das jeweilige DRMS auch unterstützten. Der zusätzlich notwendige Abgleichvorgang mit dem Lizenzierungsserver erschwert ggf. ebenfalls das Handling mit entsprechenden Medien. Datenschutz Aus der Verknüpfung von Technik und Anwendungsebene resultieren bei DRM-Systemen eine große Anzahl an offenen Fragen: So lassen sich z. B. Benutzerprofile erstellen, wenn Schlüssel und Geräte-IDs zentral verwaltet werden. Es gibt auch DRM-Systeme, die bei jeder Benutzung des Mediums bei einer zentralen Stelle anfragen, ob der betreffende Benutzer überhaupt zur Benutzung berechtigt ist. Informationsverlust Durch Veränderungen des Inhalteanbietermarktes (Firmenübernahmen oder -aufgaben) ist nicht gesichert, dass sich DRM-geschützte Medien auch in Zukunft abspielen lassen, ähnlich der fehlenden Unterstützung von Software heute nicht mehr existierender Hersteller. Schutzfristen In vielen Ländern erlischt der urheberrechtliche Schutz eines Werks nach einer bestimmten Frist. In der Europäischen Union ist dies in der Regel 70 Jahre nach dem Tod des Urhebers der Fall. Nach Ablauf dieser Frist darf jedermann das entsprechende Werk nach Belieben kopieren und verkaufen. Bislang erlaubt jedoch keines der bekannten DRM-Systeme eine solche Freigabe von ursprünglich urheberrechtlich geschützten Werken. Dies hat zur Folge, dass früher erworbene DRM-geschützte Dateien auch nach Ablauf der Schutzfrist nicht beliebig verwendet werden können, obwohl dies rechtlich ausdrücklich erlaubt wäre.
Standards [AC3]
ATSC (United States Advanced Television Systems Committee): A/52/10 Digital Audio Compression Standard, 1995.
[BS.1115]
ITU-R: Recommendation BS.1115-1. Low bit-rate audio coding. Geneva, 2005.
[BS.1284]
ITU-R: Recommendation BS.1284-1. General methods for the subjective assessment of sound quality. Geneva, 2002.
[BS.1387]
ITU-R: Recommendation BS.1387-1 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 2001.
[DTS]
DTS Digital Theatre Systems Inc.: DTS Coherent Acoustics Encoder Requirements Specification for Core Audio. http://www.dtsonline.com 715
Audiocodierung [G.722]
ITU-T: Recommendation G.722, 7 KHz Audio Coding within 64 kb/s. Geneva, 1988.
[G.722.1]
ITU-T: Rec. G.722.1, Coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 1999.
[G.722.1C]
ITU-T: Recommendation G.722.1 Annex C: Low-complexity coding at 24 and 32 kBit/s for hands-free operation in systems with low frame loss. Geneva, 2005.
[G.722.2]
ITU-T: Recommendation G.722.2, Wideband coding of speech at around 16 kBit/s using adaptive multi-rate wideband (AMR-WB). Geneva, 2006.
[MPEG-1]
ISO MPEG: International Standard EN ISO/IEC 11172. Information Technology – Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1,5 Mbit/s (MPEG-1). 1997.
[MPEG-2]
ISO MPEG: International Standard ISO/IEC 13818-3, Information technology – Generic coding of moving pictures and associated audio information (MPEG-2) – Part 3: Audio. 2001.
[MPEG-2 AAC]
ISO MPEG: International Standard ISO/IEC 13818-7. Information technology – Generic coding of moving pictures and associated audio information – Part 7: Advanced Audio Coding (AAC). 2007.
[MPEG-4]
ISO MPEG: International Standard ISO/IEC 14496-3. Information technology – Coding of audio-visual objects (MPEG-4) – Part 3: Audio. 2005.
[MPEG-7]
ISO MPEG: International Standard ISO/IEC 15938. Multimedia Content Description Interface (MPEG-7). 2002.
[MPEG-D]
ISO MPEG: International Standard ISO/IEC IS 23003-1 (MPEG-D). MPEG Surround. 2007.
[Tech 3309]
EBU: Doc Tech 3309. Evaluations of Cascaded Audio Codecs. Geneva, 2005.
[Tech 3296]
EBU: Doc Tech 3296. Subjective Listening Tests on Low-Bitrate Audio Codecs - first edition. Geneva, 2003.
[Tech 3324]
EBU: Doc Tech 3324. EBU evaluations of multichannel audio codecs. Geneva, 2007.
Literatur [12.1]
Blauert, J.: Spatial Hearing, MIT Press, 1983.
[12.2]
AES: Educational CD-ROM on audio coding artefacts. New York, 2001.
[12.3]
Brandenburg, K.: OCF - A new coding algorithm for high quality sound signals. Proc. of ICASSP, Dallas, 1988.
[12.4]
Theile, G., Stoll, G., Link, M.: Low bit-rate coding of high-quality audio signals: An introduction to the MASCAM System. EBU-Review - Technical No. 230, 1988.
716
Digitale Signaturen von Audiodateien [12.5]
Meltzer, S. and Dietz, M.: Audio Coding: CT-aacPlus - a state-of-the-art audio coding system. EBU Review - Technical, 2002.
[12.6]
Herre, J., Brandenburg, K., Lederer, D.: Intensity Stereo Coding. 96th AES Convention, Amsterdam 1994, Preprint 3799.
[12.7]
Stoll, G., Theile, G., Nielsen, S. et al: Extension of ISO/MPEG-Audio Layer II to Multi-Channel Coding. 94th AES Convention, Berlin 1994, Preprint 3550.
[12.8]
Herre, J. Johnston, D.: "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", 101st AES Convention, Los Angeles 1996, Preprint 4384.
[12.9]
Ritscher, S., Felderhoff, U.: Cascading of Different Audio Codecs. 100th AES Convention, Copenhagen 1996, Preprint 4174.
[12.10] Soloudre, G., Grusec, T., Lavoie, M., and Thibault, L.: Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs. J. Audio Engineering Society, 1998, Vol. 46, no. 3. [12.11] Ehret, A.; Dietz, M.; Kjörling, K.: State-of-the-Art Audio Coding for Broadcasting and Mobile Applications. 114th AES Convention, Amsterdam, 2003. [12.12] Breebaart, J., Herre, J., Faller, C. et al: MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status. 119th Convention AES, New York, 2005. [12.13] Fielder, L., Bosi, M., Davidson, G. et al: AC-2 and AC-3: Low-Complexity Transform-Based Audio Coding, in: AES, Collected Papers on Digital Audio BitRate Reduction, 1996. [12.14] Fielder, L. et al.: Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system“, 117th AES convention, 2004, preprint 6196. [12.15] Magarelli, R. and Strachan, D.: Integrated solutions for embedded Dolby E and AC-3. Evertz Microsystems Ltd. [12.16] Smyth, J., Smith, W. et al: DTS coherent acoustics delivering high quality multichannel sound to the consumer,100th AES convention, Copenhagen, 1996, preprint 4293. [12.17] Wylie, F.: apt-X100: Low-Delay, Low-Bit-Rate Sub-band ADPCM Digital Audio Coding. In: AES, Collected Papers on Digital Audio Bit-Rate Reduction, 1996. [12.18] Technische Beschreibung apt-x100 Coding System. Pro Audio Systems, Karben, 1999/2001. [12.19] Dressler, R.: Dolby Surround ProLogic Decoder – Principles of Operation. www.dolby.com [12.20] Hellmuth, O. und Herre, J.: MPEG-7 Audio – Fingerprinting und Anwendungen. Deutscher Expertenworkshop zum Metadatenstandard MPEG-7, Erlangen, 2003. [12.21] Haitsma, J.A,: Audio Fingerprinting – a new technology to identify music. Report Philips Electronics, 2002.
717
13
Digitale Studioprozesse
13.1
Tonsignalbearbeitung
Neben den grundlegenden Funktionen zur Speicherung, Vervielfältigung und Übertragung bietet die digitale Tontechnik besonders wirkungsvolle Möglichkeiten zur Signalbearbeitung während oder nach der Tonaufzeichnung an. So haben digitale Effektgeräte nicht nur ihre analogen Äquivalente fast vollständig aus dem Studio verdrängt, sondern auch neue Möglichkeiten zur Klangbearbeitung geschaffen, die in analoger Technik nicht oder nur in verminderter Qualität bzw. mit hohem Aufwand realisierbar waren. Es hat sich im Verlauf der technischen Entwicklung gezeigt, dass den Geräten zur digitalen Tonsignalbearbeitung eine im Prinzip recht einfache gemeinsame Struktur zu Grunde liegt. Die Bausteine eines digitalen Tonstudios, seien es Effektgeräte, Mischpulte, Kreuzschienen oder Tonbearbeitungsplätze, verfügen in ihrem Kern über eine Recheneinheit in Form eines Universalprozessors oder dedizierter Signalprozessoren; mit diesem Kern verbunden sind die Ein- und Ausgänge für die Zu- oder Weiterführung der Studiosignale, die Steuereinheiten und Bediengeräte, sowie die Komponenten zur Signalspeicherung.
13.1.1
Digitale Effektgeräte
Effektgeräte gehören zur Standardausstattung eines jeden Tonstudios. Die am häufigsten eingesetzten Effektfunktionen beziehen sich auf dynamische Pegeländerungen, Klangbeeinflussungen, ferner Zeitverzögerungen (delay) und andere Manipulationen der Zeitbasis, z. B. zur Tonhöhenveränderung (pitch shifting) oder zur Zeitraffung und Zeitdehnung (time stretching). Für einzelne dieser Anwendungsbereiche waren bereits in der Vergangenheit Geräte mit analoger Funktionsweise vorhanden. Die digitale Tonsignaltechnik bietet jedoch wesentlich einfachere Lösungswege oder komplexere Bearbeitungsmöglichkeiten besonders dann, wenn es sich um zeitbasisbezogene Operationen handelt (vgl. Kap. 6.4). Die genannten Verfahren lassen sich grundsätzlich auf jeder für digitale Signalverarbeitung geeigneten Hardware/Software-Plattform realisieren. Es werden aber immer noch – häufig aus ergonomischen Gründen – eigenständige, in ihrem Äußeren individuell gestaltete Geräte angeboten. Wie bereits beschrieben, ist die Struktur dieser Geräte im Grunde immer gleichartig – sie bestehen aus den Eingangsmodulen für digitale oder analoge Signale, den entsprechenden Wandlern, aus der eigentlichen Einheit für die Signalverarbeitung und den Ausgabebausteinen, wiederum jeweils für digitale oder analoge Signale. Zur Eingabe von Parametern für die Klangbearbeitung dienen eine Steuereinheit und das Bediengerät (Abb. 13/1). Durch Verwendung praktisch identischer Hardware und fallweise angepasster Firm- und Software ergeben sich für die Hersteller der digitalen Effektgeräte enorme Einsparungen gegenüber der früheren konventionellen Bauweise. Über die tatsächliche Funktion des Geräts entscheiden letztendlich die zur Signalverarbeitung entwickelten Rechenprogramme 719
Digitale Studioprozesse (Algorithmen) und die dem jeweiligen Verwendungszweck angepasste Bedienoberfläche. Nicht selten verfügen derartige Geräte nicht mehr über Einstellelemente auf Hardware-Basis, sondern lassen sich als „Black Box“ mit simulierter Bildschirm-Bedienoberfläche durch Cursor-Steuerung bzw. Computer-Maus realitätsnah und detailgetreu bedienen.
Abb. 13/1. Struktur eines digitalen Effektgeräts.
Bearbeitung im Zeit- oder Frequenzbereich Frühe Geräteentwicklungen zur digitalen Klangbearbeitung basieren häufig auf der verlustfreien Speichermöglichkeit von Tonsignalen in Verbindung mit einfachen mathematischen Operationen; hierzu gehören insbesondere Zeitverzögerungs- und Hallgeräte. Derartige Geräte bilden in ihrer einfachsten Form durch Zwischenspeicherung des Tonsignals die Ausbreitung von Wellenfronten im Schallfeld eines Raums als ein Vielfach von Laufzeitstrecken (anschaulich auch „Schallstrahlen“ genannt) nach (s. Kap. 6.5). Die Intensitätsdämpfung der einzelnen Wellenfronten aufgrund mehrfacher verlustbehafteter Reflexion an den Wänden des zu simulierenden Raums wird hierbei durch Multiplikationsvorgänge ersetzt und die Gesamtheit der einzelnen Schallstrahlen dann – eventuell nach Frequenzgangkorrektur – durch Summation zum angestrebten räumlichen Klangbild gemischt. Die auf diese Weise erzeugten Raumabbildungen sind jedoch klanglich nicht immer befriedigend und daher auch nicht in allen Bereichen der Tonsignalbearbeitung einsetzbar. Eine wesentlich elegantere, aber vom rechnerischen Aufwand auch anspruchsvollere Lösung zur Verhallung eines Tonsignals bietet ein aus der Systemtheorie der elektrischen Nachrichtentechnik entlehnter Ansatz: Die Übertragungseigenschaften eines linearen und zeitinvarianten nachrichtentechnischen Systems (und hierzu darf in guter Näherung auch das akustische Verhalten eines Raums gerechnet werden) sind durch die sog. Impulsantwort charakterisiert. Der Begriff „Impulsantwort eines Raums“ beschreibt daher auf anschauliche Weise die akustische Reaktion eines realen Raums bei Anregung durch ein sehr kurzes Tonsignal. Der systemtheoretische Ansatz besagt nun, dass es genügt, die Impulsantwort eines realen Raums zu erfassen und mit dem zu beeinflussenden (unverhallten) Tonsignal durch den mathematischen Prozess der sog. „Faltung“ zu verbinden (vgl. hierzu auch Kap. 6.5.3 und 11.2.1.2). Auf diese Weise ist es grundsätzlich möglich, das Tonsignal nachträglich mit einer gewünschten Nachhallcharakteristik zu versehen. Mit Hilfe des Faltungsprozesses lässt sich nicht nur das akustische Verhalten eines Raums nachbilden, sondern es kann z. B. auf diese Weise auch das Übertragungsverhalten des 720
Tonsignalbearbeitung menschlichen Außenohrs bei Schalleinfall aus verschiedenen Richtungen zum Zweck der sog. Binauralisierung (vgl. Kap. 5.1.1) simuliert werden. Bei Wiedergabe über Kopfhörer wird dann ein ähnlich realer Raumeindruck vermittelt, wie er bei einer Tonaufnahme in „kopfbezogener Stereofonie“ (Kap. 5.6.1) entstanden wäre. Weitere Anwendungen der digitalen Signalbearbeitung im Zeitbereich sind Einrichtungen zur Beeinflussung der Dynamik von Programmmaterial, wie sie schon aus der Analogtechnik zur Kompression, zur Expansion oder Amplitudenbegrenzung bekannt sind. Eine erhebliche Verbesserung kann bei digitaler Signalverarbeitung besonders dadurch erzielt werden, dass rückwirkende Regelungsvorgänge durch vorausschauende Steuerungsprozesse ersetzt werden, da die dynamischen Eigenschaften des zu beeinflussenden Signals durch kurze Zwischenspeicherung bereits vor der eigentlichen Bearbeitung ermittelt und zeitgerecht in den Verarbeitungsprozess eingegeben werden können. Derartige Geräte haben besondere Bedeutung für die Modulationsaufbereitung der Tonsignale in Rundfunksendewegen (vgl. Kap. 16.1.1.3). Die digitale Tonstudiotechnik stellt alle Möglichkeiten der Klangbearbeitung zur Verfügung, wie sie auch aus der Analogtechnik bekannt sind. Hierzu gehören insbesondere Filter zur Frequenzgangbeeinflussung; die Signalverarbeitung kann dabei fallweise im Zeitbereich oder im Frequenzbereich erfolgen.
13.1.2
Digitale Tonmischpulte
Funktionalität Das Mischpult dient zur Summation der aus einzelnen Tonkanälen stammenden Signale und zu deren Klangaufbereitung. In Mischpulten mit analoger Signalverarbeitung („analoge Mischpulte“) waren ursprünglich einzelne Baugruppen und deren Bedienoberflächen aus technologischen Gründen untrennbar miteinander verbunden: der Bedienknopf eines Pegelstellers wirkte direkt auf Widerstandsnetzwerke ein, die Einstellelemente eines Filters waren mit den klangbeeinflussenden Schaltungen unmittelbar mechanisch verkoppelt. Mit fortschreitender Entwicklung der Halbleitertechnik wurde es möglich, einen großen Teil der Bedienfunktionen von der Signalverarbeitung zu trennen. Es entstanden Mischpulte mit analoger Signalverarbeitung und abgesetzter digitaler Steuerung. Nicht selten wurden und werden auch heute noch die für die Signalverarbeitung verwendeten Komponenten in räumlich getrennten Gerätegestellen untergebracht, wobei sich im Tonstudio nur noch die Bedienkonsole des Mischpults als eine Art Fernbedienung (remote control) befindet. Um die im Verlauf vieler Jahrzehnte entwickelten und bewährten Arbeitsabläufe zu erhalten, wurden die Bedienelemente eines herkömmlichen analogen Mischpults häufig auf der digitalen Steuerungsebene nachgebildet. Mischpulte mit digitaler Steuerung bieten – anders als ihre Vorgänger – die Möglichkeit einer Automatisierung von Arbeitsprozessen. So können Einstellungen z. B. zur Klangbeeinflussung als „Presets“ für eine spätere Verwendung gesichert werden, oder Arbeitsabläufe, die sich oft wiederholen, statisch oder dynamisch bei der Abmischung gespeichert und später wieder vollständig abgerufen werden (total recall). Nachdem im Zuge des technischen Fortschritts geeignete Bauelemente und deren Applikation verfügbar wurden, konnte auch die eigentliche Tonsignalverarbeitung des Mischpults in der 721
Digitale Studioprozesse digitalen Ebene stattfinden. Aus Sicht des Anwenders unterschieden sich frühe vollständig digital arbeitende Mischpulte prinzipiell kaum von ihren analogen Vorbildern. Wesentliche Bedienelemente für Pegelsteller, Filter, Dynamikbeeinflussungen usw. wurden in ihrer Ergonomie nahezu unverändert übernommen. Eine wesentliche Erweiterung der Funktionalität gegenüber den analogen Vorgängern bietet bei digitalen Mischpulten die Einführung sog. virtueller Signalwege. Mit nur wenigen Bedienelementen können hierbei – je nach logischer Zuordnung – unterschiedliche Funktionsebenen des Mischpults angesprochen werden. Auf diese Weise lässt sich durch ein „zentrales Bedienfeld“ bei geringem Platzbedarf auf der Bedienfläche der Konsole – allerdings oft unter Verzicht auf gleichzeitigen oder direkten Zugriff – eine große Zahl von Mischpultparametern steuern. Die bei analogen Mischpultkonzepten anzutreffenden Konfigurationssteckfelder sind bei digitalen Mischpulten in der Regel durch die Signalverarbeitungsschritte virtuell ersetzt. Dadurch gewinnen digitale Mischpulte gegenüber analogen Mischpulten einen erheblichen Zuwachs an Flexibilität und Funktionalität, da nun z. B. die für die Klangbeeinflussung erforderlichen Elemente beliebig in die Signalwege als „Plug In“ eingefügt werden können. Die in einem digitalen Mischpult angebotenen Möglichkeiten zur Steuerung der Signalwege (routing) machen daher auch den Einsatz externer Kreuzschienen oft entbehrlich. Gerätetechnik
Abb. 13/2. Funktionsgruppen eines digitalen Mischpults.
Die interne gerätetechnische Struktur eines digitalen Mischpults (Abb. 13/2) ähnelt der bereits beschriebenen Funktion eines digitalen Effektgeräts. Die eingangsseitigen digitalen oder A/D-gewandelten analogen Tonsignale werden über eine Kommutierungseinrichtung, die die 722
Tonsignalbearbeitung Funktion einer Kreuzschiene nachbildet, auf einen oder mehrere Signalprozessoren weitergeleitet; dies gilt auch für die internen Signale des Mischpults, wie beispielsweise Gruppenund Summensignale, aber auch für die Einschleifpunkte (inserts). Die logische Kreuzschiene stellt auch die Signale für die Ausgänge des Mischpults zur Verfügung. In räumlich ausgedehnten Studiokomplexen von Funkhäusern ist es oft sinnvoll, die Funktionen eines digitalen Mischpults von verschiedenen Stellen aus zu steuern. Bei großen Mischpultsystemen besteht daher die Möglichkeit, eine oder mehrere sog. Tochterkonsolen an das zentrale System anzuschließen. Ebenso können die Eingangs- und Ausgangsschnittstellen (I/O-Ports) abgesetzt vom zentralen System (z. B. in einer „Stage Box“) installiert sein. Für die Anbindung der dezentralen Einheiten an das zentrale System gibt es unterschiedliche technische Lösungen. Es sind z. B. AES/EBU- oder MADI-Verbindungen, aber auch herstellerspezifische (proprietäre) Lösungen auf Kupfer- bzw. Glasfaserbasis anzutreffen (Abb. 13/3).
Abb. 13/3. Mischpult mit abgesetzten Tochterkonsolen und I/O-Ports.
In einer konkreten Realisierung, welche nachfolgend beispielhaft beschrieben werden soll, besteht das digitale Mischpult aus drei Basiskomponenten: der Hauptbedienkonsole, dem Audiosignalprozessor und einem Signalverteilsystem. Diese Teilsysteme sind über Glasfaserleitungen miteinander verbunden, über die Audio- und auch Steuerdaten geführt werden. Hauptbedienkonsole Die Hauptbedienkonsole ist modular aufgebaut; sie enthält alle wesentlichen Stellglieder und Anzeigeeinheiten, ergänzt durch Aktuatoren (Tastatur, Rollkugel, Joy Stick usw.) zur Dateneingabe. Die hier beschriebene Konsole ermöglicht den Zugriff auf bis zu 96 direkt bedienbare Kanäle, es lassen sich jedoch insgesamt ca. 300 Tonkanäle ansteuern. Den Bedienkanälen können die Funktionen zur Pegel- und Klangbeeinflussung ebenso zugeordnet werden wie die Anzeigefunktionen zur Rückmeldung der Konfigurationsparameter und zur Anzeige der Aussteuerung in den einzelnen Kanälen (metering). Hierfür werden die in der Datentechnik üblichen Displays, neben Flachbildschirmen auch Leuchtdiodenarrays, eingesetzt. Alternativ 723
Digitale Studioprozesse können die Einstellparameter eines jeden Kanals auch über ein einziges zentrales Display- und Bedienfeld eingegeben werden. Mit Unterstützung des in die Konsole integrierten Steuerrechners lassen sich die Konfigurationen für unterschiedliche Tonformate, z. B. 2-Kanal-Stereo, 5.1- oder 7.1-Mehrkanalton – gegebenenfalls auch zur parallelen Abmischung (down mix) – abrufen; das gleiche gilt für Subgruppen und (n-1)-Matrix-Anordnungen. Alle Konfigurationen können statisch oder dynamisch abgespeichert und unterschiedlichen Projekten zugeordnet werden. Audiosignalprozessor Zur Audiosignalverarbeitung werden Signalprozessor-Chips mit 40-Bit-Gleitkommaarithmetik eingesetzt. In den einzelnen Baugruppen des zentralen Audiosignalprozessors können konfigurationsabhängig die Signale von jeweils bis zu 32 Tonkanälen mit den Funktionsparametern für Pegel, Frequenzgang, Dynamik und Zeitverzögerung verarbeitet werden. Es stehen 48 Auxiliary-Wege und 128 Signalbusse zur Verfügung. Die vom zentralen Audiosignalprozessor des digitalen Mischpults erzeugte Verlustwärme muss durch Kühlung abgeführt werden. Die hiermit verbundene Geräuschentwicklung macht den Betrieb des Prozessors in einem abgesetzten Geräteraum ratsam. Signalverteilsystem Das Signalverteilsystem stellt die Schnittstellen für analoge und digitale Audioformate und für die Steuerung externer Geräte über serielle Interfaces oder potentialfreie Schalter zur Verfügung. Auch Timecode (LTC) und MIDI werden unterstützt. In 16 Baugruppen können mit Hilfe einer Schaltmatrix bis zu 4096 Eingänge und 4096 Ausgänge geroutet werden. Zum Anschluss analoger Quellen oder Verbraucher sind Wandler mit einer Auflösung von 24 Bit vorhanden. Hierdurch wird eine Übersteuerungsreserve (Headroom) garantiert, die mit der von analogen Mischpulten vergleichbar ist. An den digitalen Schnittstellen können Formate wie beispielsweise AES/EBU, SPDIF, MADI, ADAT, TDIF oder SDI-Varianten anliegen (vgl. Kap. 11.5). Es stehen die in der Tonstudiotechnik üblichen Abtastraten von 44,1 kHz, 48 kHz und 96 kHz zur Verfügung. Zur Anpassung unterschiedlicher Abtastraten sind Abtastratenwandler vorgesehen. Bei Bedarf kann das Signalverteilsystem über ein Glasfasernetz mit weiteren externen Geräten verbunden werden.
13.1.3
Kreuzschienen
Sollen im Verbund von Studiokomplexen digitale Tonsignale und zugeordnete Steuerfunktionen verteilt werden, ist der Einsatz zusätzlicher externer Kommutierungseinrichtungen (router) zweckmäßig. Diese Koppelfelder mit der Funktion einer Kreuzschiene oder eines Steckfelds sind in konventionellen Systemen in der Regel als sog. Raummultiplex-Systeme (ein- oder mehrstufig) ausgeführt. In einer rein digitalen Signalumgebung bietet sich jedoch die zeitschlitzorientierte Signalverknüpfung im Zeitmultiplex-Verfahren als vorteilhafte Lösung an (s. auch Kap. 16.1.1.1). 724
Tonsignalbearbeitung Raummultiplex Bei klassisch aufgebauten (einstufigen) Koppelfeldern muss für jede Verbindung einer Eingangsleitung auf eine Ausgangsleitung ein eigener Koppelpunkt vorgesehen werden. Daher erfordert eine Kreuzschiene mit 100 Eingängen und 100 Ausgängen insgesamt 10000 Koppelelemente, die als mechanische oder elektronische Schalter ausgeführt sein können. Wegen der räumlich getrennten Anordnung der Koppelpunkte wird eine derartige Lösung auch als Raumvielfach oder Raummultiplex bezeichnet. Abb. 13/4 zeigt die Struktur einer solchen Kreuzschiene. Raummultiplex-Koppelfelder, bei denen bestimmte Eingangs-/ Ausgangskombinationen nicht sinnvoll oder nicht gleichzeitig erforderlich sind, lassen sich zur Reduktion der Koppelelemente-Anzahl (durch Kaskadierung von hierarchisch gestaffelten Koppelfeldebenen) auch mehrstufig betreiben.
Abb. 13/4. Kreuzschiene im Raummultiplex.
Zeitmultiplex In digitalen Kommutierungssystemen erfolgt die Verbindung von Eingangs- und Ausgangsleitungen in der Regel nicht über die Koordinatensteuerung einer räumlichen Anordnung von Koppelelementen, sondern über die Anwahl von signalzugeordneten Punkten (time slots) auf der Zeitachse (Abb. 13/5). Physikalisch haben derartige Systeme eine Datenbus-Struktur und stehen daher der Signalverarbeitungsweise in Rechnern sehr nahe.
Abb. 13/5. Kreuzschiene im Zeitmultiplex.
Durch die Verwendung eines Zeitmultiplexbusses wird die Zahl der benötigten Koppelpunkte stark reduziert. Eine Kreuzschiene mit 100 Ein- und 100 Ausgängen benötigt jetzt nur noch 725
Digitale Studioprozesse 200 Koppelelemente, die in definierter Abfolge und zeitgerecht auf den Bus geschaltet werden. Eine wesentliche Eigenschaft des Bus-Systems nach dem Zeitmultiplexverfahren ist, dass seine Größe im Vollausbau durch die Anzahl der Zeitschlitze bestimmt ist. Die maximale Größe eines derartigen Koppelfelds wird demnach durch die Taktfrequenz des Systems vorgegeben. Ein Zeitmultiplex-System kann durch Buskoppler erweitert und über große Entfernungen geführt werden; somit besteht die Möglichkeit, die Eingangsmodule an den Orten der Signalquellen und die Ausgangsmodule an den Orten der Verbraucher zu installieren. In Anlehnung an die Methoden der Computertechnik sind die Datenbusse in paralleler oder serieller Struktur realisiert. Bei parallelen Bussen ist für jedes Bit eines Datenworts eine eigene Datenleitung vorgesehen; hinzu kommen Steuerleitungen, die den Datenverkehr regeln. Problematisch kann es bei parallelen Datenbussen sein, die Synchronität und damit die Lesbarkeit aller Daten- und Steuersignale bei extrem schnellem Datenverkehr unabhängig von der physikalischen Belastung durch Signal-Zuführungen und -Ableitungen auf dem System aufrecht zu erhalten. Eine Alternative zu parallelen Datenbussen sind serielle Datenbusse. Bei diesen werden die einzelnen Bits eines Datenworts nicht zeitgleich, sondern zeitlich nacheinander übertragen. Serielle Datenbusse werden wegen der geringeren Zahl von datenführenden Leitern häufig zur Verbindung von Einzelgeräten eingesetzt, erfordern aber gegenüber einem Parallel-Bus grundsätzlich eine mindestens um den Faktor der Datenwortlänge höhere Taktfrequenz zur Erzielung identischer Nutzdaten-Übertragungsraten. Beispiele für serielle Bus-Systeme sind der für Computerinterfaces standardisierte Universal Serial Bus (USB) oder der FireWire (s. Kap. 11.5).
Abb. 13/6. Struktur eines sternförmig aufgebauten Kreuzschienensystems.
726
Tonsignalbearbeitung Sollen Geräte der Tonstudiotechnik über größere Entfernungen seriell miteinander verbunden werden, sind als Übertragungsmedium Lichtwellenleiter (Glasfasern) besonders geeignet, da diese eine hohe Übertragungsgeschwindigkeit zulassen und weniger störempfindlich sind. Solche Glasfaserverbindungen sind Punkt-zu-Punkt-Verbindungen, d. h., sie verbinden, physikalisch bedingt, eine einzige Quelle mit einer einzigen Senke. Sollen viele Ein- oder Ausgangsmodule räumlich abgesetzt an zentrale Multiplexeinrichtungen angeschlossen werden, kann dies mit sog. Sternkopplern (star coupler) realisiert werden. Innerhalb eines Sternkopplers werden die Signalverbindungen über hochintegrierte programmierbare Bausteine hergestellt. Mit FPGA-Bausteinen (Free Field Programmable Arrays) lassen sich extrem schnelle Schalter in großer Anzahl für die Signaldurchschaltung programmieren. Aus diesem Grund ist in weitläufigen Kommutierungseinrichtungen häufig ein Nebeneinander von Raum- und Zeitmultiplex-Subsystemen zu finden. Die Struktur einer sternförmig aufgebauten Kreuzschiene zeigt Abb. 13/6.
13.1.4
Systembetrachtungen
Taktsignale, Wordclock In PCM-Technik codierte digitale Tonsignale können innerhalb komplexer Systeme grundsätzlich nur dann korrekt übertragen werden, wenn die zusammengeschalteten Geräte oder Funktionsgruppen mit gleicher Abtastfrequenz arbeiten. In Tonstudios weit verbreitete Abtastfrequenzen sind 44,1 kHz und 48,0 kHz oder ganzzahlige Vielfache hiervon. Damit alle Geräte mit exakt gleicher Abtastfrequenz arbeiten, erfolgt deren Synchronisation in der Regel über ein auf separatem Leiter geführtes Taktsignal (word clock). Die Frequenz dieses Taktsignals ergibt sich aus der verwendeten Abtastrate. Eine Alternative zum gesondert geführten Taktsignal sind die über spezielle digitale Audioschnittstellen wie AES/EBU oder SPDIF übertragenen selbsttaktenden Signale, die zusätzlich zu den eigentlichen digitalen Tonsignalen auch noch eine Taktinformation beinhalten (s. Kap. 11.5). Grundsätzlich ist zu beachten, dass der Takt nur aus einer einzigen Quelle abgeleitet werden darf. Während es innerhalb eines Studiokomplexes nicht allzu schwierig ist, eine uniforme synchrone Taktversorgung herzustellen, kann es sich bei der Übertragung digitaler Tonsignale über weite Entfernungen als notwendig erweisen, die Takte der unterschiedlichen Standorte voneinander zu entkoppeln. Eine derartige Entkopplung leisten Abtastratenwandler (Sample Rate Converter, SRC). Abtastratenwandler wurden ursprünglich dafür entwickelt, Tonsignale mit vorgegebener Abtastfrequenz in eine andere (z. B. 44,1 kHz / 48,0 kHz) umzurechnen. Moderne SRCs wandeln auch sehr nahe beieinander liegende Abtastraten und gestatten somit die Synchronisation unabhängiger digitaler Tonsignale mit nominal gleicher, aber dennoch geringfügig differierender Taktung. Man spricht in diesem Fall von „plesiochronen“ Systemen (vgl. Kap. 11.2.2.1).
727
Digitale Studioprozesse Verzögerungen, Latenzen Die Verzögerungen von Tonsignalen durch Prozesse der analogen Signalverarbeitung sind so gering, dass sie in der Praxis kaum berücksichtigt werden müssen. In der digitalen Tonstudiotechnik entstehen jedoch bereits bei der A/D- und D/A-Wandlung Signalverzögerungszeiten (Latenzen), die den Wellenlängen der tonfrequenten Signale entsprechen. Noch länger sind die Verzögerungszeiten, die durch die digitale Signalverarbeitung selbst und die hierbei systematisch zur Anwendung kommenden Speicherelemente entstehen. In Tonbearbeitungsplätzen oder „Digital Audio Work Stations“ (AWS, DAW), die auf PC-Technik basieren, kommen weitere wahrnehmbare Verzögerungen z. B. durch Treibersoftware für Schnittstellen-Komponenten hinzu. Für die Wandler-Interfaces in PCs steht ein hinsichtlich der Latenzzeiten optimierter Treiberstandard (ASIO) zur Verfügung. Bereits sehr kurze Verzögerungszeiten (ca. 10 :s) zwischen Tonsignalen können bei der Mehrkanalübertragung zu einer Verschiebung des räumlichen Klangbilds führen. Verzögerungen in der Größenordnung von 50 ms werden beim Abhören im Studio bei direktem Vergleich als Echo hörbar. Bei Playback-Bearbeitungen können Latenzen von 10 ms als zu lang empfunden werden. In bestimmten Situationen (z. B. bei Live-Reportagen) wirken Verzögerungszeiten in der Größenordnung von 150 ms sehr störend, wenn sie auf das Ohr des Sprechenden zurückgeführt werden. Diese Verzögerungen hemmen den Redefluss, da ihre Dauer der mittleren gesprochenen Silbenlänge entspricht und der Reporter sich somit „selbst ins Wort fällt“. Bei der Systemplanung von Toneinrichtungen mit digitaler Signalverarbeitung sind daher immer die möglichen Auswirkungen von Latenz-Effekten zu berücksichtigen, im betrachteten Fall z. B. durch sog. (n-1)-Schaltungen.
13.1.5
PC-basierte Bearbeitungssysteme
Hardware Sogenannte „Multimedia-PCs“ für Amateur-Anwendungen gestatten die Tonaufnahme und -wiedergabe in meist erstaunlich guter Qualität. Die hierbei zum Einsatz kommenden Audiointerfaces verfügen über analoge Ein- und Ausgänge für Mikrofon- und Linepegel (häufig auch für Mehrkanaltonsysteme), mitunter auch über digitale Schnittstellen. Abb. 13/7 zeigt das Blockdiagramm einer derartigen „Sound-Karte“ für einen standardisierten Personal Computer. Als Quellen für den zentralen Mischerbaustein dienen hier je ein Mikrofon- und ein Leitungseingang, ein Hilfseingang, sowie der rückgeführte Ausgang eines D/A-Wandlers, der sein Signal über den parallelen Datenbus des Rechners von dessen Festplattenspeicher bezieht. Die dargestellten Komponenten sind in der Regel in nur wenigen hochintegrierten Schaltungsbausteinen zusammengefasst. Für Anwendungen im digitalen Tonstudio werden leistungsfähige Rechner mit dedizierten hochwertigen Audiointerfaces ausgestattet und sind damit auch in professionellen Produktions- und Bearbeitungsprozessen einsetzbar. Um von der internen Struktur des Rechner-Datenbusses unabhängig zu bleiben, werden häufig separate Audiointerfaces mit seriellen Datenbussen, z. B. USB- oder FireWire-Schnittstellen, eingesetzt. Diese Interfaces stehen auch für Notebookrechner im mobilen Einsatz zur Verfügung. 728
Tonsignalbearbeitung
Abb. 13/7. Mischerfunktion einer PC-Soundkarte.
Software „Betriebssysteme“ bilden die Basis für die zu verwaltenden Betriebsmittel eines Rechners (CPU, Speicher und Ein- oder Ausgabegeräte) und sind für den geregelten Ablauf der auf einem Computer eingesetzten Anwendungsprogramme zuständig. In der Tonstudiotechnik sind überwiegend die Systeme Windows von Microsoft, OS X von Apple/Mac und Linux anzutreffen. Für die digitale Tonbearbeitung auf einem PC stehen für diese Betriebssysteme zahlreiche „Audio Editor“ genannte Programme zur Verfügung, die in der Regel mindestens folgende Möglichkeiten bieten: - Aufnahme von analogen oder digitalen Eingangssignalen - Zuordenbare Aussteuerungsanzeige für einzelne Signalpfade - Import von Audiodateien - Export von Audiodateien - Wiedergabe von Audiodateien - Ändern von Dateien durch Schneiden, Einfügen, Kopieren und Löschen - Pegelkorrekturen, Klangbearbeitung mit Filtern und Effekten - Mischung von Tonspuren - Frequenzanalyse mit Spektrumanzeige - Formatwandlungen zwischen verschiedenen Wortbreiten und Abtastfrequenzen - Anwendung redundanz- und irrelevanzreduzierender Quellencodierverfahren (z. B. MP3).
729
Digitale Studioprozesse Die Tonbearbeitung erfolgt interaktiv auf der Fläche des Computer-Displays mit Hilfe der alphanumerischen Tastatur und eines Zeigegeräts („Maus“). Zur Orientierung werden die digitalisierten Signale der einzelnen Tonspuren als Zeitfunktion in oszillografischer Form dargestellt. Ein besonderer Vorteil der PC-gestützten Tonbearbeitung ist die Möglichkeit, „zerstörungsfrei“ (non-destruktiv) zu arbeiten. Dies bedeutet, dass das Roh- oder Originalmaterial unverändert erhalten bleibt. Bearbeitungen werden ausschließlich an einer automatisch erstellten Kopie vorgenommen bzw. die einzelnen Schritte der Bearbeitung werden lediglich protokolliert, um sie dann erst bei der Wiedergabe oder Ausspielung in Realzeit wirken zu lassen. Auch müssen die Bearbeitungsschritte (in Analogie zum „nonlinear editing“ von Videomaterial) nicht mehr dem zeitlichen Verlauf des aufgezeichneten Tonmaterials folgen. Digitale Tonsignale sind im Rechner in Datei-Ordnern als „Files“ gespeichert. Um einen Austausch von Audio-Files zwischen mehreren PCs zu ermöglichen, wurden für die Art der Speicherung Fileformate proprietär vereinbart oder international standardisiert. Zu den bekanntesten Formaten gehören WAV, BWF, MXF und RF64. Letzteres wurde für die Speicherung von Mehrkanalaufzeichnungen entwickelt und von der EBU (European Broadcasting Union) als Standard veröffentlicht (s. Kap. 11.6).
13.1.6
Audioworkstations
Hardware Der Begriff „Workstation“ wurde ursprünglich im Zusammenhang mit extrem leistungsfähigen Minicomputern für wissenschaftliche und ingenieurtechnische Arbeiten geprägt. Es handelte sich dabei um hochspezialisierte Einzelplatzrechner, deren Rechenkapazität deutlich über der Leistungsgrenze konventioneller Personal Computer lag. Die rasch fortschreitende technische Weiterentwicklung im PC-Bereich hat jedoch dazu geführt, dass unter Workstation nun auch sehr leistungsstarke Personal Computer verstanden werden, die mit dedizierten Softwarekomponenten und Peripheriegeräten für professionelle Anwendungen ausgestattet sind. Digitale Audio-Workstations (AWS) sind daher im Normalfall PC-Arbeitsplätze für Tonaufnahme, Bearbeitung und Tonwiedergabe. Von einem handelsüblichen PC unterscheidet sich eine AWS oft nur noch durch die A/D- und D/A-Wandler, welche in ihren technischen Spezifikationen den Anforderungen der professionellen digitalen Tonstudiotechnik genügen müssen. Nicht selten werden die Wandler daher in externen Geräteeinschüben untergebracht. Für die Integration in digitale Tonstudios ist in der Regel eine Taktsynchronisation, manchmal auch eine Zeitcodesynchronisation, erforderlich; für diesen Zweck sind die Audio-Workstations mit speziellen Interfaces ausgestattet. Zusätzliche Interfacekarten enthalten oft auch Wandler für Mehrkanalaufnahmen oder Signalprozessoren zur Entlastung des Zentralprozessors (CPU).
730
Tonsignalbearbeitung Software Eine große Auswahl marktüblicher oder speziell entwickelter Software auf Basis der unterschiedlichen Betriebssysteme ermöglicht und unterstützt die Arbeit an den AWS-Systemen. Insbesondere für hochwertige Tonbearbeitungen im Bereich von künstlerischen Wort- oder Musikproduktionen werden diese oft aus ergonomischen Gründen durch externe HardwareController ergänzt. Diese Controller ermöglichen eine Tonbearbeitung mit Bedienelementen (Aktuatoren) in Form von Schiebe- oder Drehstellern, wie sie von der Arbeit an Mischpulten her bekannt sind. Nicht selten sind die externen Controller so umfangreich und universell ausgestattet, dass gesonderte Mischpulte am digitalen Tonbearbeitungsplatz entbehrlich werden. Nahezu alle Tonbearbeitungsprogramme bieten die Möglichkeiten zum Editieren oder Mastern von CDs oder DVDs (s. Kap. 14.2). Oft sind sie mit Software-Komponenten zur Dynamikbearbeitung, Klangrestauration, zum Time-Stretch oder Pitch-Shift ausgestattet oder können aufgrund veröffentlichter Schnittstellenbeschreibung mit Software-Erweiterungen als Plug In ergänzt werden. Die Speicherung der digitalen Tonsignale erfolgt ebenso wie beim Audio-PC in standardisierten Formaten – oder aber auch gemeinsam mit den Informationen über die erfolgte Bearbeitung zusammen mit Schnitt- und Spurlisten (tracks) in firmenspezifischen Formaten, wodurch mitunter der Datenaustausch zwischen unterschiedlichen Systemen erschwert wird.
13.1.7
Integrierte Funkhaussysteme
Audioworkstations wurden zunächst nur als Einzelarbeitsplätze entwickelt, lassen sich jedoch mit den Mitteln und Möglichkeiten der Netzwerktechnik auch mit anderen Arbeitsplätzen verbinden; das ist insbesondere in Funkhäusern oder großen Studios von Bedeutung. Durch eine datentechnische Vernetzung entfällt der Transport von physikalischen Tonträgern. Dieser wird durch einen „Filetransfer“, also den Transport von Dateien im Datennetz, ersetzt. Durch die Vernetzung ergeben sich zahlreiche Verbesserungen von Arbeitsabläufen. So können Tonbeiträge mehreren Bearbeitern in Redaktionen gleichzeitig zugänglich gemacht werden und müssen nicht in gesonderten Arbeitsgängen kopiert werden. Zur Entlastung der Speichersysteme einzelner AWS werden Audiofiles auf besonderen Datenservern abgelegt. Ebenso können Begleitinformationen zu Titeln, Autoren, Komponisten oder auch Urheberrechten – sog. Metadaten – in Archivsystemen recherchierbar gemacht werden. Eine Verknüpfung von Tondateien und Metadaten erlaubt eine erfolgreiche Recherche und zeitnahe Wiedergabe eines Beitrags (vgl. Kap. 14.3.3). Zur Vorbereitung von Musikprogrammen insbesondere im Rock- und Pop-Bereich können Sendepläne automatisch mit Hilfe von Musikrotationsprogrammen hergestellt werden. Hierzu werden die Musiktitel mit Begleitinformationen (z. B. Charakter des Stücks, Tempo, Solist, Orchester usw.) versehen. Die Auswahl der einzelnen Titel erfolgt dann nach redaktionell erstellten Kriterien, welche beispielsweise die Häufigkeit eines zu spielenden Titels oder eine aneinander angepasste Folge von Titeln beschreiben. Da die Musiktitel ohnehin auf Datenservern gespeichert sind, können vollständige Musikprogramme für bestimmte Aufgabenstellungen automatisch erstellt werden. 731
Digitale Studioprozesse Informationssysteme Es liegt nahe, in Rundfunkanstalten die „Integrierten Funkhaussysteme“ für die Tonbearbeitung und Sendeablaufsteuerung mit weiteren Informationssystemen zu verbinden. Hierzu gehören insbesondere Nachrichtenverteileinrichtungen zur Übermittlung von Agenturmeldungen, aber auch herkömmliche Bürokommunikationssysteme. Die Kopplung mit Archivsystemen, Honorar- und Lizenzsystemen oder weiteren Datenbanken wird oft als wünschenswert angesehen, um eine bruchfreie Migration der in den verschiedenen Systemen ohnehin schon vorhandenen Daten zu ermöglichen. Havariemaßnahmen In Funkhäusern wird besonderes Augenmerk auf einen störungsfreien Betrieb gelegt. Auch wenn der Ausfall von Sendungen sich nicht immer direkt wirtschaftlich auswirkt, so schädigt dies doch zumindest das Ansehen einer Rundfunkanstalt bei den Rundfunkteilnehmern. Um einen weitestgehend zuverlässigen Betrieb sicherzustellen, sind bereits bei der Planung „Integrierter Funkhaussysteme“ besondere Maßnahmen zur Bewältigung von Havariesituationen zu treffen. Gerätetechnischer Aufwand zur Verbesserung der Stabilität von Systemen und vorbeugende Strategien sind zur Bewältigung von Fehlersituationen unverzichtbar. Hierzu gehören gedoppelte Server, selbstheilende Speichersysteme und Netzwerke, die ihren Status ständig überwachen und bei Ausfall einer Verbindung selbsttätig alternative Datenverbindungen herstellen. Da bei umfangreichen Funkhaussystemen mit häufig mehr als 1000 AWS-Arbeitsplätzen und über 100 Servern eine beträchtliche Hardware- und Softwarekomplexität erreicht ist, und da Ausfälle auch nur einzelner Komponenten das gesamte System in seiner Funktion beeinträchtigen können, empfiehlt es sich, derartig große Systeme in Teilabschnitte zu untergliedern bzw. zu modularisieren. Es ist daher (wie auch in der Informationstechnik) durchaus gebräuchlich, unternehmenskritische Anlagenbereiche redundant und räumlich verteilt anzuordnen. Die an dieser Stelle in Kurzform dargestellten Informationen über einige Komponenten Integrierter Funkhaussysteme werden im nachfolgenden Kap. 13.2 an praktischen Beispielen aus dem Betriebsablauf (Workflow) einer Hörfunkorganisation weiter vertieft.
13.2
Digitale Programmproduktion und Sendeabwicklung im Hörfunk
Gegen Ende des 20. Jahrhunderts löste die digitale Programmproduktion und Sendeabwicklung die Analogtechnik im Hörfunk zunehmend ab. Die Entwicklung digitaler Arbeitsweisen und Prozesse war von der Absicht getragen, wiederkehrende und zeitaufwändige Arbeitsschritte durch weitgehende Automatisierung zu ersetzen oder entfallen zu lassen. Die sich rasant entwickelnde IT-Technik konnte zunehmend die Anforderungen erfüllen und hielt Einzug in die professionelle Audiotechnik.
732
Digitale Programmproduktion und Sendeabwicklung im Hörfunk Die analoge Beitragsproduktion, wie sie jahrzehntelang Standard im Rundfunk war, wies eine Reihe von Einschränkungen auf, die dazu führten, dass sie in einem modernen Radio und seinen immer kürzer werdenden Informations- und Innovationszyklen nicht mehr Schritt halten konnte (Abb. 13/8): - Die Produktion von Sendebeiträgen war ausschließlich in Echtzeit auf Magnetband möglich. Der dabei angewendete mechanische Bandschnitt barg die Gefahr der Verletzbarkeit, die Schnittauflösung war begrenzt. Ein geschickter sachkundiger Umgang mit dem Bandmaterial war wichtige Voraussetzung für die Produktqualität. - In der analogen Magnetbandtechnik entstanden grundsätzlich Unikate, deren Verfügbarkeit örtlich eingeschränkt war. Für Mehrfachnutzungen mussten Kopien in Echtzeit angefertigt werden, deren technische Qualität je Kopiergeneration abnahm. So genannte Sicherheitsmitschnitte erhöhten zwar die Redundanz, waren aber mit zusätzlichem logistischem Aufwand verbunden. - Für den Transport von Bandmaterial innerhalb eines Funkhauses mussten entsprechende Zeit- und Personalressourcen vorgehalten werden. Diese verteuerten den Betrieb. - Das Einlagern bzw. Archivieren von Beiträgen auf Magnetband erforderte einen hohen Raumbedarf. Hinzu kamen Alterungsprozesse des Bandmaterials bei Langzeitlagerung. - Automationsprozesse waren mit analogem Magnetband so gut wie nicht zu realisieren. Zahlreiche Versuche blieben meist in den Anfängen stecken.
Abb. 13/8. Umgang mit analogen Beiträgen.
Die Ablösung der Analogtechnik führte zu tiefgreifenden Änderungen in den Hörfunkprogrammen, die weit in die organisatorischen Strukturen der Medienunternehmen hineinreichte. Bei den Format- und Aktualitätenprogrammen z. B. wurden die Beitragsabfolgen zeitlich dichter, Jingles, Trailer, Teaser und sonstige immer wiederkehrende, oftmals nur wenige Sekunden lange Audioelemente belebten zunehmend die Programme. Die Anzahl der Berichterstattung wuchs, die inhaltliche Ausformung wurde vielfach knapper, Redakteure begannen, technische Aufgaben zu übernehmen. Mit herkömmlicher analoger Studiotechnik waren die agilen Sendeformate nicht mehr zu bewältigen. Zwar wurden für eine Übergangszeit einige halbautomatische Geräte zur Vereinfachung der Abläufe entwickelt, die jedoch nur geringen Einfluss auf den „Workflow“ eines Hörfunkbetriebs hatten. Mit der Einführung des Selbstfahrerbetriebs entwickelte sich zusätzlich eine neue Form der Programmpräsentation. Radiosendungen wurden nicht mehr mit Techniker und Moderator im Zweipersonenbetrieb gefahren, sondern die Moderatoren übernahmen selbst den Ablauf der Sendung. Zunehmend steuerten sie die inhaltliche, wie auch die technische Abfolge der Beitragselemente. Die schnellen, genau auf den Punkt zu erbringenden und von ständiger Wiederholung geprägten Arbeitsschritte waren mit Bandlaufwerken, den diversen diskreten Zuspielgeräten und den oftmals zahlreich zu schaltenden Externleitungen nicht mehr flüssig 733
Digitale Studioprozesse zu erbringen. Die schwerfällige Analogtechnik stand diesen Programminnovationen vielfach im Weg. Es wurde eine neue Technik gefordert, die „im Hintergrund“ arbeitet und diese Veränderungen sinnvoll ermöglichen konnte. Sie sollte unterstützend sein und viele gestalterische Freiräume bei der Sendegestaltung schaffen. Der technische Fortschritt auf dem Gebiet der Informationsverarbeitung hatte zum Gelingen die Grundlagen geliefert. Die digitale Programmproduktion und Sendeabwicklung begann. Und mit ihr eine neue Ära im Radio.
13.2.1
Aufbau einer Hörfunkorganisation
Im nachfolgenden idealisierten Szenario wird eine moderne Hörfunkorganisation auf Basis der technischen Möglichkeiten des Jahres 2007 und vor dem Hintergrund ihrer Implementierung in einem realen Funkhaus dargestellt. Die hier charakterisierte Hörfunk-Welle befindet sich in einem Neubau mit moderner Infrastruktur, das Raumkonzept entspricht der Aufgabenstellung. Die einzelnen Funktionsbereiche dieser Welle sind nach einem logischen Konzept in das Gebäude integriert, und die dort tätigen Menschen finden ihre Arbeitsplätze je nach Auftrag in detaillierten Arbeitsräumen oder in offenen Nutzungsflächen. Es gehören hierzu u. a. ein Newsroom, mehrere Produktionsfelder, zwei Senderegien sowie diverse Sprecherräume. Sozialräume und Ruhezonen für Mitarbeiter und Gäste sind im zweckdienlichen Umfang vorhanden. Die hörfunktechnischen Einrichtungen zur volldigitalen Programmerstellung sind installiert und befinden sich im Regelbetrieb, die datentechnischen Hilfsmittel zur internen Kommunikation, zur Kontribution, Distribution von Programm-Material und für die Anbindung an ein zentrales Archiv basieren auf bewährten Lösungen. Abb. 13/9 gestattet einen Blick auf die einzelnen Funktionsbereiche der vorgestellten Hörfunkorganisation.
Abb. 13/9. Aufbau einer Hörfunkorganisation.
734
Digitale Programmproduktion und Sendeabwicklung im Hörfunk In diesem modernen Hörfunkbetrieb sind sämtliche für die Beitragserstellung wichtigen Informationen, wie z. B. Agenturmeldungen, Audioelemente, Textkommentare und Archivdaten, zeitgleich an allen autorisierten Arbeitsplätzen verfügbar (Abb. 13/10). Die Grundlage hierfür bildet ein weit verzweigtes, schnelles und performantes Datennetz. In diese Netzarchitektur sind alle erforderlichen technischen Ressourcen integriert, wie z. B. Audioserver, Datenbankserver, Router und PC-Arbeitsplätze (Clients). Die Clients sind nach Internetprotokoll (IP) mit den Servern verbunden. Zahlreiche Kommunikationsapplikationen im Datennetz steuern und „managen“ den Informationsaustausch zwischen Clients, Servern und Datenbanken. Der Client trägt die Anwendungen, die ihrerseits via Datennetz mit zentralen Serverprozessen kommunizieren. Der Zugang zu den Informationsquellen und Arbeitswerkzeugen (tools) in den Clients wird über eine differenzierte Vergabe der Zugriffsrechte geregelt. Nicht jeder Mitarbeiter erhält z. B. das Recht, die Reihenfolge der in einen fertigen Sendeplan eingestellten Audioelemente zu ändern oder Beiträge zu löschen. Aber alle Mitarbeiter können z. B. Audio an ihrem Arbeitsplatz vorhören und möglicherweise an bestimmten Stellen bereits Marker setzen.
Abb. 13/10. Client-Server-Prinzip.
Der Vorteil von webbasierten Anwendungen ist, dass in HTML (HyperText Markup Language) programmierte Anwendungen netzwerkweit und unabhängig vom Client-PC verfügbar sind. Mit ihnen werden Installationen teurer Anwendungssoftware auf den Clienten-Rechnern entbehrlich. Benötigt werden lediglich Internetbrowser und die den Funktionen zugeordneten URL-Adressen des Webservice. Webbasierte Anwendungen sind – die notwendigen Zugriffsrechte vorausgesetzt – auch aus dem Internet verfügbar. Täglich gelangen Hunderte von Agenturmeldungen aus unterschiedlichsten Quellen (DPA, AFP usw.) in das Nachrichten-Verteilsystem der hier betrachteten Rundfunkanstalt. Diese Meldungen stehen sofort, nach Themen sortiert, ohne zeitliche Einschränkung einem großen Nutzerkreis zur Verfügung. Eine räumliche Beschränkung gibt es dabei nicht. Jeder angemeldete Nutzer hat Zugang zu den Daten, unabhängig davon, ob er sich auf dem Rundfunkcampus befindet oder über besondere Datenleitungen von entfernten Orten über eine gesicherte weltweite Internetverbindung auf die Daten zugreift. Darüber hinaus können jederzeit weiterführende Informationen eingesehen und abgerufen werden, wie z. B. die Ansicht eines Sendeplans, der Einblick in die Themen- und Ereignisplanung eines bestimmten Programms, in die Aussprachedatenbank, in Datenbanken zur Archivrecherche, in differenzierte Rechtedatenbanken u. v. a. mehr. Die räumliche Nähe zu den Fachredaktionen oder zur Fernschreibzentrale gehört der Vergangenheit an. Redakteure arbeiten von persönlichen Zubringern unabhängig und sind stets zeitsparend „just-in-time“ informiert. Musik- und Wortbeiträge in einem vernetzten System als Audiofiles verfügbar zu haben bedeutet, diese zeitgleich an mehreren Orten einsetzen zu können. Audiofiles können simultan 735
Digitale Studioprozesse von vielen Nutzern abgehört und verwendet oder bearbeitet werden. Im Gegensatz zur analogen Programmerstellung stehen stets beliebig viele virtuelle Arbeitskopien an beliebig vielen Orten zur Verfügung. Die zeitaufwändige und logistisch mühsame Arbeit, analoge Kopien mechanisch anzufertigen, ist nicht mehr erforderlich. Allerdings sind bei der Verwendung von fileorientierten Wort- und Musikbeiträgen die Nutzungseinschränkungen und Nutzungsrechte verstärkt zu beachten. Fehlt einem Beitrag oder Teilen davon z. B. das nötige Senderecht, so ist eine Ausstrahlung nicht zulässig. Wegen der leichten Verfügbarkeit von Audiofiles verlangt der Schutz von Urheberrechten heute ein hohes Maß an Aufmerksamkeit und die strenge Einhaltung restriktiver Regeln. Moderne digitale Sendesysteme sind in der Lage, Urheberrechte bis tief in die verzweigten Teile einer Beitragsproduktion hinein aufzuschlüsseln. Ansprüche von Rechteinhabern können auf diese Weise nachvollziehbar automatisiert aufgezeigt und angemessen berücksichtigt werden.
13.2.2
Abläufe in der digitalen Programmproduktion
Die allgemeinen Abläufe der digitalen Programmproduktion lassen sich in Akquisition, Kontribution und Distribution unterteilen. 13.2.2.1
Akquisition von Programminhalten
Für die Erstellung von aktuellen Beiträgen ist die Beschaffung von originalem Audiomaterial erforderlich. Dafür nimmt ein Reporter z. B. während eines Interviews mit seinem (nun bereits digitalen) Reportagegerät O-Töne auf. Bei diesen modernen Geräten besteht die Möglichkeit, ein auf Speicherkarte aufgezeichnetes Audiofile inklusive der beschreibenden Metadaten in das Sendesystem direkt zu übernehmen. Dieser Vorgang läuft in weniger als Echtzeit ab, d. h., die Zeit für die Übernahme von der Speicherkarte in das In-House-System ist kürzer als die Dauer der Aufzeichnung selbst. Liegt das Audiomaterial auf einem herkömmlichen mechanischen Tonträger vor (z. B. Musik- oder DAT-Kassette), muss der Beitrag in Echtzeit in den PC überspielt werden. Die Metadaten zum Beitrag sind in diesem Fall manuell nachzutragen. Häufig werden in einem Hörfunkprogramm aus Gründen der hohen Aktualität frühzeitig Inhalte von noch nicht beendeten Ereignissen, wie z. B. längeren Sportübertragungen oder politischen Debatten verwendet. Hierfür stehen im System entsprechende Mitschnitt-Server zur Verfügung. Das sind Festplattenarrays mit hoher Kapazität, die eine Bearbeitung gewünschter Passagen bereits zu einem sehr frühen Zeitpunkt zulassen, während noch weiteres Audiomaterial live in das System einläuft. So können Mitarbeiter gleichzeitig an den Clients mehrere Aufnahmeleitungen auf relevante Inhalte hin beobachten und für die Erstellung von Beiträgen nutzen. Die örtliche Nähe des Mitschnittsystems ist nicht erforderlich, weil die eingesetzte Anwendersoftware auf den PC-Clients im Netzwerk betrieben wird. Die meisten Audiobeiträge eines Hörfunkprogramms werden in Studios oder an sog. Redaktionsarbeitsplätzen vorproduziert (Abb. 13/11). Auch diese rechnergestützten Arbeitsplätze sind in die Gesamtarchitektur eines Client-Server-Systems der Rundfunkanstalt integriert. Ein Redaktionsarbeitsplatz besteht in der Regel aus einer geringen Anzahl einfacher technischer Geräte, an denen alle wichtigen Grundfunktionen zur Beitragserstellung bis hin zum Telefon736
Digitale Programmproduktion und Sendeabwicklung im Hörfunk interview machbar sind. Dazu gehören u. a. ein Audioschnittsystem, eine Abhörmöglichkeit, Zuspielmöglichkeiten für externe Audioquellen und aus Kleingeräten, sowie eine rudimentäre Aussteuermöglichkeit in Form eines elementaren Mischpults mit Aussteuerungsanzeige.
Abb. 13/11. Prinzip eines Redaktionsarbeitsplatzes.
Darüber hinaus gelangen fertige oder teilbearbeitete Beiträge im Rahmen des aktuellen ARDAudiofiletransfers in die Sendesysteme der Rundfunkanstalt (Jargon: „ARD-lang“ und „ARDkurz“). Die Redaktionen übernehmen bei Bedarf dieses Audiomaterial nach Prüfung auf ihre Eignung für Sendezwecke. Musiktitel der CD-Industrie gelangen nur in geringem Umfang von der Disc direkt in die Sendung. In den sog. „Formatprogrammen“ werden häufig gespielte CD-Titel als Audiofiles in der Musikrotation eines Programmservers gespeichert. Durch „Grabbing“ der CD werden die Musiktitel am PC in weniger als Echtzeit ausgelesen und im gewünschten Zielformat als Audiofile abgelegt. Die den Titel begleitenden Metadaten werden bei dieser Gelegenheit miterfasst und um redaktionsrelevante Zusatzdaten ergänzt (z. B. „vocal“, „instrumental“, „ruhig“). Man erhält auf diese Weise Basisdaten, die den Zugriff auf umfangreichere beschreibende Informationen (bis hin zu Cover und Booklet) erleichtern. Dieser Arbeitsschritt kann auch von der Unterstützung durch Internetdatenbanken oder durch die ARD-Hörfunkdatenbank begleitet sein. Die ARD-Hörfunkdatenbank ermöglicht in Verbindung mit der digitalen Bemusterung der Archive (DigiBemA) eine durchgängig filebasierte Arbeitsweise: Beim ARD-Sternpunkt ist ein großer Audiospeicher realisiert, in dem Musikneuerscheinungen der Tonträgerindustrie eingestellt werden. Dort recherchiertes Audiomaterial kann einschließlich Booklet und zugehöriger Metadaten in die eigene Rundfunkanstalt übernommen werden (vgl. Kap. 16.2.7.3). Häufig unterhalten die Rundfunkanstalten eigene Speicher- und Verteilsysteme, die Beitragsmaterial für Hörfunk- und Fernsehen vernetzt verfügbar machen. Als direkte Folge verliert der Umgang mit dem Tonträger CD zunehmend an Bedeutung und wird voraussehbar bald der Vergangenheit angehören, wie es seinerzeit beim Fortfall des analogen Magnetbands der Fall war. Musiktitel werden künftig nur noch per Webinterface aus einem entfernten Audiospeicher abgerufen und sind umgehend am Arbeitsplatz einer Redaktion oder im Studio nutzbar. 737
Digitale Studioprozesse 13.2.2.2
Kontribution von Programminhalten
Bei der Kontribution kommen eine große Anzahl komplexer Arbeitsschritte zusammen. Ziel ist, einen durchgängigen Sendungsablauf mit all seinen Elementen und zeitlichen Zuordnungen zu generieren. Wort- und Musiktitel werden geplant, recherchiert, produziert und in einen Sendeplan überführt, um diesen zu einem gewünschten Zeitpunkt ablaufen zu lassen. Zudem wird dieses Angebot mit weiteren Serviceelementen im laufenden Programm ergänzt, beispielsweise durch Platzhalter für moderierte Verkehrsmeldungen und sonstige aktuelle LiveInformationen (Abb. 13/12). Recherche Für die Erstellung eines Hörfunkbeitrags können Informationen aus verschiedenen Quellen recherchiert werden. Hierfür stehen – wie bereits erwähnt – das Agentur-Nachrichtenverteilsystem, das Pressearchiv, das Schallarchiv, das Aussprachearchiv sowie sonstige Quellen (z. B. auch das Internet) zur Verfügung. Die inhaltliche Erschließung in den Datenbanken der jeweiligen Archive leisten spezialisierte Dokumentare. Die Ergebnisse sind auch in der ARDHörfunkdatenbank gespeichert und netzwerkweit abrufbar. Alle Wort- und Musikanteile können als Audiofiles sehr flexibel in verschiedenartigste Sendepläne eingefügt und auch nach Belieben wiederholt werden. Live auszusendende Audioelemente, wie z. B. Sportsendungen, Konzerte, Interviews und Moderationen, werden ebenfalls in den Sendeablaufplan eingestellt. Am Ende eines Planungsprozesses stehen diese Beiträge im sog. Tagessendeplan. Beitragserstellung Die digitale Beitragsbearbeitung und die Bereitstellung als Audiofile bilden die Grundlage für eine schnelle Programmerstellung. Mit sog. Editoren als Bearbeitungstool einer digitalen Audioworkstation (AWS, DAW) und dem Datenbankmanager stehen leistungsstarke Software-Tools zur Verfügung, die mit ihren kreativen Gestaltungsmöglichkeiten der konventionellen anlogen Programmerstellung weit überlegen sind. Eine flexibel und intuitiv zu bedienende grafische Benutzeroberfläche bietet in der Regel eine breite Palette gestalterischer Möglichkeiten, vom einfachen Audioschnitt bis hin zur Klangrestauration. Durch die „UndoFunktion“ können Arbeitsschritte beliebig oft wiederholt oder rückgängig gemacht werden, die komplette Bearbeitung ist also in der Regel non-destruktiv. So können einzelne Audioelemente wie O-Töne, Geräusche, Musikstücke und Texte in kurzer Zeit zu interessanten und lebendigen Hörfunkbeiträgen arrangiert werden. Entsprechend erfahrene und ausgebildete Redakteure sind in der Lage, diese Arbeit an einer Workstation ohne Experten-Unterstützung zu erledigen. Die Angst vor dem mechanischen Bandschnitt („blutiger Schnitt“) und die mögliche Zerstörung eines Audioelements gehören der Vergangenheit an. Ein an einer AWS produzierter Beitrag ist nach erfolgtem Datenbankeintrag und nach Sicherung sofort an anderer Stelle verfügbar, sei es für Abhören, Freigabe, Einstellen in den Sendeplan oder zur sonstigen weiteren Verwendung. Teamarbeit wird so in idealer und zeitsparender Weise möglich – redaktionelle Abläufe sind erheblich beschleunigt.
738
Digitale Programmproduktion und Sendeabwicklung im Hörfunk
Abb. 13/12. Vorgänge digitaler Programmerstellung.
Musikrotation Je nach Format des Senders nimmt dessen identifizierende musikalische Ausrichtung einen unterschiedlich hohen Stellenwert ein. Zusammen mit den Produktionselementen (Jingles, Trailer usw.) zur Positionierung des Senders bewirkt die Musikrotation eine maßgebliche Prägung des Sender-Images. In einem üblichen Spartenprogramm sind im Musik-Rotationsspeicher meist mehrere tausend Titel abgelegt. Der Inhalt des Musikspeichers wird regelmäßig gepflegt, d. h., neue Titel kommen hinzu, während ältere aus dem nicht mehr aktuellen Repertoire ausgesondert werden. Musiksendungen bestehen aus einer Abfolge einzelner Titel, die z. B. im Stundenraster für die Tagessendepläne erstellt wird. Der Musikauswahl kommt ein hoher Stellenwert zu, da sie Publikumserfolg bzw. Reichweite eines Radioprogramms sehr wesentlich bestimmt. Die Zusammenstellung der Titel wird in der Regel mit Hilfe spezieller Musikrotationssoftware unterstützt. Eine flexible Musikrotation kann einen aufwändigen Sendeplan in vergleichsweise kurzer Zeit generieren. Sendeplanung und -abwicklung Für die technische Abwicklung und Ausführung von Sendeplänen sorgen rechnergesteuerte Systeme. Dies hat den Vorteil, dass ein aktivierter Sendeplan auch kurzfristig noch geändert werden kann (Abb. 13/13). Auf einem Bildschirm sind unterschiedliche Ausschnitte des Programmablaufs einschließlich aller zu sendenden Wortbeiträge, Musiktitel und Positionierungselemente dargestellt. Auch beschreibende Textinformationen, wie Hinweise zu Musiktiteln oder zur Moderation, Wetter- und Verkehrsmeldungen usw. kommen auf Bildschirmen im Umfeld der Sendeabwicklung zur Anzeige. An diesen Informationen orientiert sich der Moderator und fährt „ereignisgesteuert“ die Sendung.
739
Digitale Studioprozesse
Abb. 13/13. Sendetisch mit Pult und Sendeablaufsteuerung.
13.2.2.3
Distribution
Ein vernetztes Verteilsystem erleichtert die Programmverteilung zu den verschiedenen Senken und Verbrauchern durch automatisches Anlegen von Kopien. Mit dem HYBNET (s. Kap. 16.2.6) hat sich die ARD ein leistungsstarkes Austauschnetz geschaffen, das auch eine europaweite Verteilung von Audiofiles ermöglicht. Das Prinzip „Verteilung durch Kopie” funktioniert hier sehr effizient. Adressaten können die bei ihnen automatisch eingegangenen Beitragskopien umgehend in ihren eigenen digitalen Produktions- und Sendesystemen einsetzen. Binnen kurzer Zeit werden auf diese Weise Beiträge einschließlich ihrer beschreibenden Daten (Metadaten) wie Titel, Autor, Begleitkommentar u. a. in Umlauf gebracht. Der ARD-Audiofiletransfer lässt sich auch per Internet praktizieren; insoweit wird durch die globale Verfügbarkeit des WWW (World Wide Web) eine von Betriebszeiten und Standorten unabhängige, zeitnahe Verteilung von Beiträgen erreicht. Die Ausstrahlung von beschreibenden Beitragsdaten hat hohen Stellenwert. Im Internet, über Digital-Radio (DAB oder dessen Nachfolger), DVB-S-Radio sowie im konventionellen terrestrischen UKW-FM-Hörfunk werden u. a. Informationen wie Titel, Interpret usw. mitgesendet. Die Generierung dieser und auch weiterer Informationen erfolgt durch die automatische Entnahme aus den digitalen Systemen des Hörfunks. Die digitale Programmerstellung ist eine ideale Voraussetzung dafür, den Hörer bis zum Endgerät nicht nur mit digitalem Audiomaterial, sondern auch mit programmbezogenen Informationen zu versorgen. 740
Digitale Programmproduktion und Sendeabwicklung im Hörfunk
13.2.3
Digitaler Workflow
Die im Rahmen der Programmerstellung anfallenden Arbeitsabläufe entwickeln sich entlang einer Zeitachse. Deren Einteilung ist in die Phasen Planung, Sendevorbereitung und Sendeablauf untergliedert. Um eine räumliche und inhaltliche Übersicht zu gewährleisten, aber auch um Ausfallsicherheit (Redundanz) zu schaffen, sind abgestufte Gruppen von Audiospeichern einschließlich der zugeordneten Datenbanken eingerichtet. In diesen wird das Material unterschiedlicher Herkunft und Art abgelegt und für eine vereinbarte Zeitdauer aufbewahrt. Tab. 13/1. Speicherkategorien. Speichertyp Aktualitätenspeicher AFT-Speicher Rotlicht-Mitschnittspeicher
Speicherdauer 4 Tage 7 Tage 2 Tage
Individualspeicher Vorbereitungsspeicher Musikspeicher Repertoirespeicher Wellenspeicher Sendespeicher Archivspeicher
3 Monate 3 Monate 5 Jahre variabel 1 Jahr 1 Tag unendlich
Verwendungszweck Mitschnitte von Leitungen (z. B. Sport) Ablage von Audiofiles aus der ARD Mitschnitt von Moderation und Interviews Ablage persönlichen Audiomaterials Ablage noch nicht sendefertiger Audios Ablage von Musiken Ablage von Musiken des Titelstocks Ablage von sendefertigem Material Ablage nur zur Ausspielung Endablage ausgewählten Materials
Die in Tab. 13/1 dargestellte Speicherdefinition hilft, in einem vernetzten Hörfunksystem eine praktikable Aufgabenteilung einzurichten. Mithilfe der Audiospeicher wird nicht nur eine Übersicht über die verteilten Ressourcen geschaffen, sondern es ergeben sich auch Regeln für bestimmte Arbeitsabläufe. Es kann beispielsweise vereinbart sein, dass nur fertig produzierte und durch eine autorisierte Person abgenommene Wortbeiträge in den Wellenspeicher eingestellt werden dürfen. So frei und flexibel die Systeme auch sind, umso umfangreicher und detaillierter können die organisatorischen Regelwerke für den Umgang mit den Audiospeichern gestaltet sein. Die beschreibenden Informationen zu den Wort- und Musikbeiträgen – d. h. die Metadaten zuzüglich der technischen Speicherorte der Audiofiles – werden in einer eigenen Datenbank vorgehalten. Die zur Aussendung freigegebenen Beiträge liegen, bildlich gesprochen, auf einem Transportband, das mit Realzeitbezug voranschreitet. Die Plätze auf diesem Band sind die gewünschten Sendezeitpunkte der Beiträge. Technisch wird ein solcher Prozess mittels des sog. Schedulers, im betrachteten Fall mit dem Sendeplanungsmodul, ausgeführt. Im geschilderten Speichermodell werden in den Sendeplan bereits zu einem frühen Zeitpunkt, beispielsweise sechs Wochen vor Sendung, zunächst nur Beiträge aus dem Wellen- und Musik-/Repertoirespeicher eingestellt. Aus dem Wellenspeicher erfolgt dieser Arbeitsschritt manuell mit „Drag and Drop“, aus dem Repertoirespeicher werden die Musiktitel mit Hilfe 741
Digitale Studioprozesse der Musikrotationssoftware eingestellt. Ergänzend können aber auch Inhalte aus dem Musikspeicher von Hand in den Sendeplan gestellt werden. Die Einstellung in den Sendeplan bedeutet, einen Auftrag dafür zu erteilen, den gewünschten Beitrag vor seiner geplanten Ausspielung dem Sendespeicher zu übergeben, d. h., den Beitrag automatisch dorthin zu kopieren. Ein aktiver Tagessendeplan nutzt ein dafür definiertes Zeitfenster, nämlich die um die aktuelle Uhrzeit wirksame „Hot-Zone" (siehe hierzu Abb. 13/14). Beiträge innerhalb der Hot-Zone werden automatisch in den Sendespeicher kopiert und können dann mit der Sendeablaufsteuerung ausgesendet werden. Abgespielte Beiträge werden als solche im Sendeplan gekennzeichnet und automatisch aus dem Sendespeicher gelöscht. Nur ein im Vorfeld ausgewählter Teil der gesendeten Beiträge wird im Langzeitarchiv für spätere Zwecke gespeichert.
Abb. 13/14. Prozessablauf Hörfunk.
Dieser Prozess schreitet auf der Zeitachse voran. Er bewirkt, dass nur derjenige Teil von Beiträgen die Transferleistung des Sendespeichers beansprucht, der innerhalb der Hot-Zone liegt. Neue Sendeplanelemente außerhalb der Hot-Zone werden erst dann bewegt, wenn sie sich in einem festgelegten Zeitraum davor befinden. Durch das automatische Löschen gesendeter Elemente aus dem Sendespeicher verfügt die Sendeablaufsteuerung stets über aktuelle Beiträge. Ausgewiesenes Merkmal eines Sendeplanmoduls ist es, auf den letzten Moment in der Hot-Zone eintreffende Beiträge in den Sendespeicher zu überführen. Dies ist möglich, 742
Digitale Programmproduktion und Sendeabwicklung im Hörfunk weil zwischen der Hot-Zone des aktiven Tagessendeplans und der Sendeablaufsteuerung eine enge zeitliche Kopplung besteht, die eine schnelle Kopie ermöglicht. Planung Zur Planung von Programmelementen steht der umfangreichste Zeitraum zur Verfügung. In der Themen- und Ereignisplanung wird ein Eintrag vorgenommen, der Ort, Zeit, Thema, Personen und benötigte Ressourcen sowie den Sendezeitpunkt ausweist (Abb. 13/15). Ist das Programmelement ein Interview, so existiert hierfür ein Platzhalter im Sendeplan, der die Aussendung z. B. im Rahmen einer aktuellen Sendung festlegt. Die sog. „Sendeuhr“ sieht eine genaue Abfolge und zeitliche Gewichtung der Inhalte vor. So ist der Anteil von Wort, Musik und Produktionselementen bereits in diesem frühen Stadium durch die Programmleitung vorgegeben. Sendevorbereitung In der Phase der Sendevorbereitung erfolgt in den dafür vorgesehen Studios oder an den Redaktionsarbeitsplätzen die aktuelle sendenahe Beitragserstellung. Der fertige Beitrag wird im Produktionsspeicher (in Tab. 13/1 „Vorbereitungsspeicher“ genannt) angelegt, produziert und nach der Freigabe in den Wellenspeicher überführt. In diesem Fall wird keine Kopie angefertigt, sondern nur eine Verschiebung vorgenommen. Der Beitrag wird auf den vorgesehenen Platzhalter im Sendeplan eingestellt und nimmt somit seine Position im Sendegeschehen ein.
Abb. 13/15. Phasen der Programmerstellung.
Sendeablauf Planung und Sendevorbereitung sind Arbeitsabläufe für Zukünftiges im Programm. In der nachfolgenden abschließenden Phase findet die Sendung aller relevanten Beiträge und 743
Digitale Studioprozesse Verpackungselemente statt. Die Sendeabwicklung ist Gegenwart – sie entspricht exakt der aktuellen Uhrzeit im gesendeten Programm und erfolgt in einer Senderegie zeitlich punktgenau mit Unterstützung der Sendeablaufsteuerung. Die Sendeabwicklung ist im Vergleich zu den davor liegenden Phasen ein zeitkritischer Vorgang. Der Beitrag muss hier zum gewünschten Zeitpunkt verzögerungsfrei abgespielt werden. Zudem müssen allerletzte Änderungen in der Beitragsreihenfolge sofort erfolgen können. Dies alles wird ereignisgesteuert vom Moderator initiiert und inhaltlich begleitet.
13.2.4
Module im digitalen Workflow
Die prozessbegleitenden Module für ein digital gesteuertes Hörfunkprogramm verfügen häufig über herstellerspezifische Schnittstellen für Informationen und Arbeitsergebnisse. Ein reibungsloser Austausch von Steuer- und Nutzdaten ist wesentlich für ein Hörfunksystem; denn erst ein fehlerfreies Zusammenspiel aller Systemkomponenten stellt den beabsichtigten betrieblichen Ablauf sicher. Die Zusammenführung der Schnittstellen von Produkten unterschiedlicher Hersteller bedarf umfangreicher Abstimmungsprozesse und benötigt daher intensive Planungsarbeit und ausgiebige Testphasen. Da die in Betrieb befindlichen Systeme zur digitalen Programmerstellung aus Modulen unterschiedlichen Ursprungs bestehen, haben einige Hersteller sich auf die Entwicklung von softwarebasierten Schnittstellenadaptern spezialisiert und auf diesem Gebiet besondere Kompetenz erworben. Als Beispiel für die erfolgreiche Konfiguration von Produkten unterschiedlicher Entwickler sei im hier betrachteten Beispiel die Musikrotationssoftware in Kombination mit der Sendeplanung genannt. Im Prinzip kann jede Rotationssoftware über eine Programmierschnittstelle an das Sendeplanungssystem eines anderen Herstellers angeschlossen werden. Dieser häufig vorkommende Fall gründet auf dem Umstand, dass die meisten Hersteller von Sendeplanungssystemen auf die Eigenentwicklung komplizierter Rotationssoftware verzichten und daher die Schnittstellen zu kooperierenden Produkten offen legen. Um generell eine möglichst überschaubare Datenbankstruktur und Prozesssteuerung zu ermöglichen, werden vorzugsweise Schnittstellenarten eingesetzt, die eine Vernetzung und den Support von einzelnen Modulen möglichst einfach und homogen gestalten lassen. Die wichtigsten Module zur digitalen Programmerstellung sind in Tab. 13/2 zusammengefasst und werden nachfolgend beschrieben. 13.2.4.1
Beitragserstellung
Für die Beitragserstellung auf den Clients werden Audioeditoren als Bearbeitungswerkzeuge eingesetzt. Mit ihnen können alle in der Praxis wichtigen Bearbeitungsfunktionen aufgerufen und auf Audioelemente angewandt werden, wie z. B. Abhören, Aufnehmen, Schneiden, Pegelkorrektur, Blenden, Mischen („Voice over“) und Ändern der Reihenfolge. Zur Aussteuerung einer Mikrofonaufnahme am Redaktionsarbeitsplatz werden häufig Voiceprozessoren eingesetzt, die eine automatische Pegelanpassung ermöglichen. Für eine gefällige Audioqualität lassen sich Presets konfigurieren, in denen z. B. ein persönliches Soundprofil des Sprechers hinterlegt ist. 744
Digitale Programmproduktion und Sendeabwicklung im Hörfunk Der Prozess der Audiobearbeitung erfolgt stets in Verbindung mit dem zugehörigen Datenbanksystem. Der Dialog erstreckt sich im Hintergrund über mehrere Datenbanken mit unterschiedlichen Rechercheoberflächen, da Wortbeiträge, Musiken, Geräusche, O-Töne und sonstige Bestandteile in verschiedenen Speichern des Systems abgelegt sind. Der bearbeitete Beitrag wird nach seiner Fertigstellung wiederum in einen der Audiospeicher übertragen, z. B. in den wellenorientierten Vorbereitungsspeicher. Tab. 13/2. Module eines digitalen Workflows für den Hörfunk. Beitragerstellung Sendungsbegleitende Produktion Datenbankmanager für Audiofiles Sendeplanung Sendeprotokoll und Nutzungsrechte Recherchewerkzeuge Archiv Aktualitätenspeicher Musikrotation Sendeablaufsteuerung Regionalisierung Themen und Ereignisplanung Nachrichtenverteilung Phonescreening und Off Air Elemente Serviceinformationen Aufbereiten von Zusatzinformationen Leitungsdisposition Dokumentationssystem In Fällen, in denen bei proprietären Anwendungen keine transparenten oder kompatiblen Schnittstellen zur Verfügung stehen, sind spezielle Applikationsinterfaces zwischen Schnittsoftware und Datenbanksystem zu implementieren (Abb. 13/16). Als nachteilig erweist sich dann spätestens beim Update des Systems, dass die als „Funktionsinterpreter" zu betrachtenden Software-Komponenten ebenfalls einer Anpassung bedürfen – eine nicht immer einfache und häufig im Aufwand unterschätzte Aufgabe. Gerade bei Audioeditoren setzen Hersteller von Sendesystemen daher gern eigene, in das Gesamtsystem integrierte Softwarebausteine ein.
Abb. 13/16. Anbindung Audioeditor an das Datenbanksystem.
745
Digitale Studioprozesse
Abb. 13/17. Audioeditiersoftware.
Es gibt zwei Möglichkeiten, den Audioeditor in einem Sendesystem zu nutzen. Man unterscheidet dabei den „Schnitt auf dem Server" oder den „lokalen Schnitt" auf einer Audiobearbeitungsstation. Beim Schnitt auf dem Server verbleibt das Audiomaterial auf dem zentralen Fileserver. Vorteil hierbei ist, dass kein lokaler Kopiervorgang auf die Arbeitsstation erforderlich ist und deshalb zeitökonomisch gearbeitet werden kann. Bei entfernt liegenden Regionalstandorten ist der zentrale Fileserver über eine WAN-Verbindung mit niedrigen Bandbreite-Anforderungen erreichbar, was den Vorteil dieser Arbeitsweise verstärkt. Im anderen Fall, dem Schnitt auf der lokalen Arbeitstation, sind die Audioelemente auf der dort installierten Festplatte zu bearbeiten. Hierzu werden alle benötigten Audiofiles lokal geladen, verarbeitet und erst nach Fertigstellung der Produktion auf den zentralen Fileserver rückgespeichert. Diese Arbeitsweise hat den Vorteil, dass im Fall einer abreißenden Datennetzverbindung die bis dahin geleisteten Arbeitsschritte nicht verloren gehen. Es ist eine Ermessensfrage, welche Konfiguration bevorzugt wird. Moderne Audioeditiersoftware erlaubt es, verschiedene Fileformate gleichzeitig in einer Produktion verwenden zu können, z. B. mit dem Zielformat MPEG1 Layer II mit 384 kBit/s. Damit entfallen die mitunter fehlerträchtigen iterativen oder singulären Konvertierungsprozesse (Abb. 13/17).
746
Digitale Programmproduktion und Sendeabwicklung im Hörfunk 13.2.4.2
Sendungsbegleitende Produktion
In der sendungsbegleitenden Produktion werden zeitlich kritische Audioproduktionen hergestellt, die unmittelbar im aktuellen Sendeablauf benötigt werden. Die sendungsbegleitende Produktion ist fester Aufgabenbestandteil des Sendungsteams. Dort wird auch auf die klangliche Positionierung des Programms und dessen gewünschtes Sounddesign geachtet, einschließlich einer Lautheitsanpassung in der Abfolge von Beiträgen und Musiktiteln. 13.2.4.3
Datenbankmanager für Audio-Files
Der Datenbankmanager ist eines der wichtigsten Module bei der digitalen Programmerstellung; er gibt eine Übersicht der Inhalte und stellt diese in ihrem organisatorischen Zusammenhang grafisch dar. Es wird auf Tab. 13/1 verwiesen, in der die unterschiedlichen in einem Datenbankmager anzutreffenden Speicherkategorien zusammengefasst sind. Alle an der Programmerstellung Beteiligten sehen redaktions- und aufgabenbezogen die jeweils für sie wichtigen Speicher, aus denen Rohmaterial entnommen werden kann, um hieraus Beiträge zu erstellen und zur weiteren Verarbeitung in den Sendespeicher einzustellen. So greift z. B. ein für aktuelle Beiträge zuständiger Redakteur auf den Aktualitätenspeicher zu, um dessen Inhalte für die Verwendung im weiteren Sendegeschehen einzusetzen. Der Datenbankmanager selbst ist eine Client-Anwendung mit grafischem Nutzerinterface und kommuniziert mit dem zentralen Serverprozess und dessen Datenbank. Steht diese Anwendung im Havariefall einmal nicht zur Verfügung, hat das erhebliche Auswirkungen auf den Hörfunkbetrieb zur Folge. Der zentrale Serverprozess wird daher üblicherweise redundant geführt, um die hohe geforderte Ausfallsicherheit dieser Systeme zu gewährleisten. Der Datenbankmanager ermöglicht den Zugriff auf alle im Sendesystem verfügbaren Audiospeicher und aller dort liegenden Wort- und Musikbeiträge, hat Schnittstellen zum Audioeditor und zur Sendeplanung, sowie zum Nachrichtenverteilsystem für die Übernahme von Textinformationen. Auch Zugriffe auf multimediale Inhalte, wie z. B. Bilder und Videos, können verwaltet werden. In Abb. 13/18 ist als Bildschirmauszug der Status eines aktuellen Datenbankmanagers dargestellt: Linksseitig angeordnet ist die Übersicht der erreichbaren Audiospeicher. Auf der rechten Seite wird eine Liste der dort aufgefundenen Beiträge angezeigt. Mit dem Datenbankmanager können folgende Funktionen gesteuert werden: - Recherchieren nach Beiträgen durch Eingabe von Filterkriterien in einer Suchmaske - Abhören durch Klick auf das Lautsprechersymbol - Anzeigen von Detailinformationen, wie z. B. Autor, Datum, Länge usw. durch Doppelklick auf den Beitrag - Verschieben und Kopieren von Beiträgen zwischen den Speichern durch Drag and Drop - Anlegen neuer Beiträge in ausgewählten Speichern - Starten weiterer Applikationen wie Sendeplanungsmodul und Sendeprotokoll - Start des Audioeditors - Übernahme markierter Beiträge in den Editor - Start des Sendeplanungsmoduls zum Einstellen der Metadaten markierter Beiträge in den Tagessendeplan. 747
Digitale Studioprozesse
Abb. 13/18. Datenbankmanager.
13.2.4.4
Sendeplanung
Das Sendeplanungsmodul erlaubt die Gliederung von Sendeabläufen. Dabei können mit Hilfe von Rahmensendeplänen wechselnde Tagesstrukturen geplant werden, getrennt nach Werktagen, Wochenenden oder Feiertagen. In einen zunächst leeren Sendeplan werden Platzhalter eingetragen, die dem Sendeablauf entsprechen. Später erfolgt die Ergänzung mit den dort einzustellenden Beiträgen oder mit Anweisungen für Leitungsübernahmen, Moderationen, Wetter- und Verkehrsnachrichten usw. Die Tagessendepläne weisen eine Graduierung z. B. im Stundenraster auf. Die freien Plätze in einer blockweise unterteilten Sendestunde werden mit Beiträgen versehen. Mit diesem Schritt werden auch die Metadaten der Beiträge mit Hilfe des Datenbankmanagers in den Sendeplan überführt und dort sichtbar gemacht. Das eigentliche Audiofile des Beitrags verbleibt jedoch in dieser Phase noch an seinem Speicherort im Vorratsspeicher (Abb. 13/19). Mit dem Vorrücken der Sendung gelangt der Beitrag in die Hot-Zone. Jetzt erst erfolgt die Kopie in den Sendespeicher, synchron mit dem aktiven Tagessendeplan und der Sendeablaufsteuerung. Die Musikrotationssoftware stellt als Ergebnis der Vorplanung eine Folge von Musiktiteln für zuvor bestimmte Sendeplätze zur Verfügung. Das Sendeplanungsmodul nimmt diese Daten über eine Schnittstelle von der Rotationssoftware entgegen, einschließlich der gewünschten 748
Digitale Programmproduktion und Sendeabwicklung im Hörfunk zeitlichen Lage eines Musikstücks und seiner Take-ID als eindeutiges Merkmal. Die Take-IDs werden mit speziellen Algorithmen vom Sendesystem ermittelt, um eine eindeutige Kennzeichnung des Audiofiles sicherzustellen. Das Sendeplanmodul verfügt über Schnittstellen zu anderen Datenbanken (z. B. Musikrotation, kommerzielle Werbeplanung, Sendeablaufsteuerung, Sendeprotokoll, Zusatzinformations-(ZI)und Metadaten-Aufbereitung). Die zu sendenden und die gesendeten Ereignisse werden in Form ganzer Sendetage aufgelistet. Während des Sendeverlaufs von dem Modul Sendeprotokoll erfasste Daten können auch zur Auswertung von Abgeltungsrechten dienen (s. Kap. 13.2.4.5).
Abb. 13/19. Sendeplanung.
Die Ansicht des Sendeplans steht als Web-Seite zur Verfügung. Das hat den Vorteil, dass sich viele Mitarbeiter gleichzeitig über das laufende oder das geplante Sendegeschehen informieren können, ohne dass hierfür Client-Lizenzen erforderlich werden. Die Webansicht des Sendeplans ist von jedem Arbeitsplatz mit einem geeigneten Browser einsehbar. Geeignete Zugangsrechte vorausgesetzt, ist diese Nutzung auch einem Reporter von einer externen Stelle aus (z. B. Internetcafé) möglich.
749
Digitale Studioprozesse 13.2.4.5
Sendeprotokoll und Nutzungsrechte
Mit jedem geleisteten Sendetag entsteht gleichzeitig ein Tagessendeplan der Vergangenheit, auch Ist-Plan genannt. Die Inhalte vieler Ist-Sendepläne lassen sich mit dem Werkzeug Sendeprotokoll analysieren und Inhaltsuntersuchungen über vergangene Zeiträume hinweg durchführen (Abb. 13/20). Dies ist zum einen notwendig, um eine Kontrolle darüber zu erhalten, was und wann etwas gesendet wurde. Zum anderen können mit der editierbaren Ergebnisliste Elemente nachgetragen werden, die vom Tonträger CD oder auf sonstigen nicht filebasierten Wegen in die Ausstrahlung gelangt sind. Am Ende entsteht eine Datenbasis für die Abrechnung von Nutzungsrechten (Gema, GVL usw.).
Abb. 13/20. Sendeprotokoll.
13.2.4.6
Recherchewerkzeuge Archiv
Im Folgenden werden Archivwerkzeuge beschrieben, die als Web-Anwendungen netzwerkweit zur Verfügung stehen. Es handelt sich dabei um Dokumentationsdatenbanken für Textinformationen und Audiobeiträge. Der Bildschirmauszug in Abb. 13/21 zeigt eine Rechercheoberfläche mit der Zugangsmöglichkeit zu einer Reihe von Datenbanken; in diesem Fall ist es die Agenturdatenbank. Unter „Weltmeisterschaft" und „Agenturmeldungen der letzten 12 Monate" sind zahlreiche Zeitungsartikel recherchierbar. Dem suchenden Redakteur steht somit ein großer Fundus von Informationen über eine komfortabel zu bedienende Benutzeroberfläche zur Verfügung. 750
Digitale Programmproduktion und Sendeabwicklung im Hörfunk
Abb. 13/21. Recherche von Textinformationen.
Abb. 13/22. Recherche von Audio.
751
Digitale Studioprozesse Hinsichtlich der Recherche von Audiofiles im Bestand des Langzeitarchivs ergeben sich innovative Programm-Gestaltungsmöglichkeiten. Viele Rundfunkanstalten digitalisieren nahezu ihren gesamten Archivbestand, d. h., man trennt sich dort weitgehend vom Medium Tonband und überträgt die analoge Information in die digitale Domäne (s. Kap. 14.14, Restaurierung). Die durch Capturing gewonnenen neuen Audiofiles werden in Langzeitspeichern, wie sie in der Großrechnertechnik verwendet werden, aufbewahrt. Die Storagesysteme sind bandgestützt oder basieren auf Festplattenlösungen (s. hierzu Kap. 14.3). Das Audiomaterial des Langzeitarchivs kann mit entsprechenden Bedienmasken komfortabel recherchiert und in reduzierter Qualität vorgehört werden (Abb. 13/22). Zudem lassen sich aufgefundene Beiträge anhand von Inhaltsbeschreibungen auswerten und bei Bedarf als lineare Audiofiles in hoher Qualität downloaden. Die neue ARD-Hörfunkdatenbank ermöglicht die Recherche aller verfügbaren Audioarchivbestände der Landesrundfunkanstalten. 13.2.4.7
Aktualitätenspeicher
Historisch gesehen war der Aktualitätenspeicher die erste technische Einrichtung zur Vereinfachung der Arbeitsabläufe im Nachrichten- und aktuellen Bereich. Im Jahre 1987 kam ein vom Australischen Rundfunk entwickeltes System auf den Markt, dessen Merkmal es war, über analoge Tonleitungen eintreffende Signale zu digitalisieren und in einem Zentralspeicher aufzubewahren; die Datenfiles wurden in einer einfach strukturierten Datenbank abgelegt. Die hervorstechende Eigenschaft dieses Systems war seine Fähigkeit, die Schnittbearbeitung schon während der Aufzeichnung zu ermöglichen. Die auf diese Weise erzeugten Audiofiles konnten über eine Sendeliste ausgespielt und mittels (noch analoger) Leitung unmittelbar dem Sendestudio übergeben werden.
Abb. 13/23. Prinzip Aktualitätenspeicher.
In dieser Frühphase der Digitalisierung waren noch keine übergreifend vernetzten Systeme bekannt und man half sich daher mit Einzellösungen und dedizierter Gerätetechnik. Der beschriebene Aktualitätenspeicher kannte weder graphische Benutzeroberflächen noch standardisierte Schnittstellen. Die Arbeitsplatzgeräte waren Terminals, deren Aktionen unmittelbar vom Zentralsystem verarbeitet wurden. Es ist erstaunlich, dass an diesem System bis zu 80 Personen gleichzeitig arbeiten konnten. Heutige Aktualitätenspeicher werden meist aus der Leitungsdispositionssoftware heraus gesteuert (Abb. 13/23). In diesem Fall lassen sich, zusätzlich zu den vorhandenen beschreibenden Daten, auch neue Metadaten, wie z. B. Beginn und Ende eines Mitschnittauftrags, 752
Digitale Programmproduktion und Sendeabwicklung im Hörfunk generieren. Zusatzinformationen können schon bei der Leitungsdisposition, falls in diesem Stadium ein Beitrag bereits beschrieben werden kann, mitgegeben werden. Im Aktualitätenspeicher sind die Mitschnitte mit Hilfe eines Datenbankmanagers leicht auffindbar. 13.2.4.8
Musikrotation
Ziel einer um 1975 beginnenden Entwicklung war es, einerseits ungewollte Wiederholungen von Musikbeiträgen im Hörfunk zu vermeiden und andererseits die arbeitsintensive manuelle Erstellung von Titellisten zu automatisieren. Die gefundene Lösung nannte sich „Musikrotation“ und generierte in der ersten Entwicklungsstufe Papierlisten für das Schallarchiv, nach denen die seinerzeit noch analogen Tonträger für die einzelnen Hörfunkprogramme zusammengestellt wurden. Aus der Liste ergab sich das für den Sendetag zu schreibende Ist-Sendeprotokoll, welches gleichzeitig die Grundlage zur Abrechnung der Leistungsschutzrechte darstellte.
Abb. 13/24. Musikrotation.
Diese Grundidee ist auch heute noch die Basis aller eingesetzten Musikrotationsprogramme, die von amerikanischen Unternehmen auf datentechnischer Basis weiterentwickelt und von kommerziellen Sendern in den USA erfolgreich genutzt wurden. Die Weiterentwicklung führte schließlich zu den sog. „Programmuhren“, die es erlaubten, zu bestimmten Zeiten bestimmte Titel nach einstellbaren Regeln einzuplanen oder wegzulassen. 753
Digitale Studioprozesse So wird neben einem gewünschten Fundus an Musiktiteln auch eine detaillierte Klassifizierung der Titel mit Kreativdaten benötigt. Diese unterliegen keiner Normung, sondern sind an ihrer subjektiven „Anmutung“ und der erwarteten Hörerwahrnehmung orientiert. Musikredakteure definieren diese Kreativdaten individuell und hinterlegen sie in der Datenbank der Rotationssoftware. Sie sind das gestalterische Kennzeichen einer Hörfunkwelle – im Prinzip deren „Markenzeichen“. Zusätzlich erfolgt die Festlegung, zu welchen Zeiten und mit welcher Häufigkeit Titelarten zu verwenden sind. Das Rotationsprogramm berücksichtigt für die Zusammenstellung eines Abschnitts im Sendeplan die Sendeereignisse der Vergangenheit. Es kennt die Häufigkeit, mit der ein Titel in einem bestimmten Zeitfenster gespielt wurde und kann auf diese Weise aus einem relativ kleinen Repertoire ein abwechslungsreiches Musikprogramm generieren (Abb. 13/24). Die von der Rotationssoftware nutzbaren Musiktitel liegen als Audiofiles im Musik- oder Repertoirespeicher vor. Die Datenbank des Sendesystems ist in der Regel die führende Datenbank. In einem Initialabgleich werden die vorhandenen Metadaten aus dem Sendesystem – einschließlich Take-ID – an das Rotationssystem übergeben. Damit ist der Bestand dort bekannt und kann nach Ergänzung mit den Kreativdaten umgeschichtet („rotiert“) werden. Nachdem die in Listenform zusammengestellte Datei vom Rotationsprogramm an das Sendeplanmodul übergeben wurde, werden die entsprechenden Platzhalter im Sendeplan bestückt. Die Titel können dann im jeweiligen Tagessendeplan eingesehen und abgehört werden. Auch lassen sich Titel manuell hinzufügen oder löschen. Diese Änderungen werden über die Schnittstelle an die Rotationssoftware mitgeteilt, in Histogramm-Form statistisch erfasst und bei der nächsten Zusammenstellung berücksichtigt. 13.2.4.9
Sendeablaufsteuerung
Das Modul Sendeablaufsteuerung ist das wichtigste Werkzeug für den Moderator einer Sendung. Es stellt in seinem Sendespeicher alle vom Hot-Zone-Prozess kurz zuvor kopierten und für die Sendung relevanten Audioelemente bereit. Auch enthält die Sendeablaufsteuerung einen gültigen und mit Beiträgen gefüllten Tagessendeplan, der vom Modul Sendeplanung stammt. Für den Moderator wichtige Bedienfunktionen sind: - das Navigieren in der Liste vorhandener Elemente - das Vorhören aller Audioelemente - die Änderung der Beitragsreihenfolge und - das Anzeigen aller zuvor geplanten Arbeitsschritte. Zu jedem Musikstück werden Titel, Interpreten und ergänzende Informationen angezeigt. Bei Wortbeiträgen können Titel, Autor und im Informationsfeld ausformulierte Moderationstexte angezeigt werden. Die in Abb. 13/25 am unteren Rand zu findenden Ereignisbuttons 1 bis 10 erlauben die Belegung mit Jingleelementen. Die Sendeablaufsteuerung ist ein komplexes Softwaremodul, welches Schnittstellen zum Sendeplanungsmodul und zu verschiedenen Datenbanken unterhält. Auch benötigt es für den Betrieb eine umfangreiche Peripherietechnik, wie z. B. Rechnerhardware zum gleichzeitigen Ausspielen mehrerer Audiokanäle, sowie IP-Netzwerkschnittstellen mit den jeweiligen Treibern für den Betrieb an einem Sendemischpult. 754
Digitale Programmproduktion und Sendeabwicklung im Hörfunk
Abb. 13/25. Sendeablaufsteuerung.
Die für den Betrieb einer Sendeabwicklung notwendige periphere Technik ist in Abb. 13/26 dargestellt. Über ein IP-LAN sind die Sendeablaufsteuerung, der Sendespeicher sowie ein Sendemischpult nebst externem Soundprocessing miteinander verbunden. Eine MADILeitung verbindet das Mischpult mit einem zentralen Audio-Koppelfeld (KF). Dieser Weg stellt die Leitungsverbindungen für Programmübernahmen oder Live-Ereignisse her. Über digitale Leitungen sind die Ausgänge der Sendeablaufsteuerung an das Mischpult angeschlossen. Die erforderliche Anzahl der Kanalzüge ist dabei individuell konfigurierbar und auf die Bedürfnisse des jeweiligen Hörfunkprogramms bzw. des dort agierenden Moderators zugeschnitten. Die Betriebszustände der Pegelsteller sind der Sendeablaufsteuerung in jedem Moment bekannt. Wird mittels der Sendeablaufsteuerung ein Sendungsblock im Automatikbetrieb gesendet, können Blenden auch vorgeplant und automatisiert ausgeführt werden. Hierfür stehen im Planungsmodul geeignete Mix-Werkzeuge zur automatischen Abspeicherung der Blendvorgänge bereit (Abb. 13/27). Viele moderne Sendeablaufsteuerungen verfügen außerdem über die Möglichkeit eines sogenannten „Voice-Trackings“, d. h., hier werden komplette Sendestrecken vorproduziert, einschließlich aller Sendungselemente und Moderationsbreaks. Im Idealfall werden sogar die Reglerfahrten abgespeichert (z. B. über MIDI-Protokoll). Diese 755
Digitale Studioprozesse Art der Vorproduktion verringert den zu treibenden Aufwand erheblich, allerdings zu Lasten der Aktualität und einer persönlich anmutenden Hörsituation bei der Moderation.
Abb. 13/26. Prinzip Sendeabwicklung.
Abb. 13/27. Automatische Blenden.
Auf der Sendeleitung wird in der Regel ein Soundprocessing durchgeführt. Im dargestellten Fall nimmt der Soundprozessor das Sendesignal vom Mischpult entgegen und bereitet dieses nach vorgewählten programmtypischen Presets auf. Die Steuerung des Soundprozessors kann auch via Datennetz erfolgen, getrennt nach Musik und Wort. 756
Digitale Programmproduktion und Sendeabwicklung im Hörfunk 13.2.4.10 Regionalisierung Landesrundfunkanstalten versorgen vielfach kleinere Regionen innerhalb der Landesgrenzen mit eigenen lokalen Regionalsendungen. Diese sind meist zu festgelegten Zeiten in ein landesweites Hauptprogramm eingebettet und sollen die Hörerbindung durch ihren regionalen Bezug stärken. Zur Anbindung der Regionalstandorte an die jeweilige Landesrundfunkanstalt wurden regionale, breitbandige Daten- und Austauschnetze eingerichtet (vgl. Kap. 16.2.6). Diese Verbindungen schufen die Voraussetzung für ein vernetztes Arbeiten zwischen zentralem Funkhaus und dem weit entfernten Regionalstudio. Das verwendete Client-Server-Prinzip basiert auf Wide-Area-Network-Verbindungen (WAN). In den Regionalstandorten kann somit auf dezentrale Servertechnik weitgehend verzichtet werden (Abb. 13/28).
Abb. 13/28. Regionalisierung.
Den Regionalredaktionen stehen dieselben Ressourcen und Informationen zur Verfügung wie in der Hauptredaktion. Eine regionale Redaktion ist technisch in den Prozess der Kontribution genauso eingebunden, als wäre sie lokal tätig; regionale Ereignisse lassen sich daher sehr rasch in das aktuelle Sendegeschehen einordnen. Für die Aussendung der Regionalprogramme stehen in der Zentrale entsprechende Ausspielsysteme zur Verfügung, die entweder live gesteuert oder automatisiert die Fensterprogramme liefern. Die lokalen Beiträge werden am Regionalstandort mit Drag-and-Drop auf der Bedienoberfläche des Client-PC in die jeweiligen Zentral-Einrichtungen übergeben. Aber auch eine Live-Abwicklung von Regionalsendungen vor Ort ist möglich. 13.2.4.11 Themen- und Ereignisplanung Die Themen- und Ereignisplanung kann grundsätzlich mit Mitteln der Bürokommunikation erfolgen. Moderne hochperformante Sendeplanungswerkzeuge bzw. Redaktionssysteme benutzen jedoch auf Spezialsoftware beruhende Lösungen, die im Idealfall ganz ohne herkömmliche Bürokommunikation auskommen. Auf diese Weise kann eine Programmplanung bereichsübergreifend und arbeitsteilig zwischen allen beteiligten Partnern erfolgen.
757
Digitale Studioprozesse 13.2.4.12 Nachrichtenverteilung Historisch gesehen ist ein modernes Nachrichtenverteilsystem die digitale Antwort auf den klassischen Agentur-Fernschreiber („Ticker“). Täglich gelangen Hunderte von Agenturmeldungen in dieses System und werden dort sortierbar für alle Redaktionen bereitgehalten. Die Meldungen stehen ohne zeitliche Einschränkung einem großen Nutzerkreis netzwerkweit zur Verfügung.
Abb. 13/29. Nachrichtenverteilung.
Eine der Aufgaben des Nachrichtenverteilsystems ist es, aus der großen Fülle von Informationen diejenigen herauszufiltern, die für den jeweiligen Programmbereich von Bedeutung sind. Dies ist mit einstellbaren Ressort-Profilen möglich. Die Verbreitung von Agenturmeldungen erfolgt daher mit Hilfe vereinbarter technischer Protokolle, die ihrerseits Merkmale der einzelnen Ressorts enthalten. Die gezielte Suche nach Meldungen kann durch differenziertes Filtern nach Ressorts, z. B. „Politik“, und weiterführend nach Schlagworten, z. B. „Bagdad“, rasch zum gewünschten Ziel führen (Abb. 13/29). Schnittstellen zwischen einem Nachrichtenverteilsystem und den Hörfunk-Sendesystemen erleichtern die Beitragserstellung hinsichtlich anfallender Schreib- und Recherchearbeit erheblich. Neben Agenturmeldungen können eine Reihe weiterer Meldungen, wie z. B. Verkehrsmeldungen, interne Meldungen oder Meldungen vom Amt für Katastrophenschutz verteilt werden.
758
Digitale Programmproduktion und Sendeabwicklung im Hörfunk 13.2.4.13 Phonescreening und Off-Airs
Abb. 13/30. Phonescreening.
Wichtiger Bestandteil moderner Radioformate ist die direkte Kommunikation mit dem Hörer. Diese erfolgt meist direkt während der Sendung. Die durch Telefonate generierten „Off-Airs“ werden sowohl live, als auch geringfügig zeitlich versetzt gesendet (Off-Air-Editing). Auch die Sendungsvorbereitung schließt die Planung von Sendungen mit Hörerbeteilung ein. Wurde z. B. für eine „Ratgebersendung“ geworben, können die Hörer bereits im Vorfeld mit der betreffenden Redaktion telefonisch in Kontakt treten und Fragen oder Antworten zum Thema abstimmen. Die Angaben werden in eine Anruferliste übertragen und gespeichert. Zum Zeitpunkt der Sendung werden die gelisteten Hörer angerufen und nach einem Vorgespräch in die Senderegie geschaltet (Abb. 13/30). Zeitgleich liegen dem Moderator auf einem Bildschirm alle Informationen über den Anrufer vor. Mit dem Modul „Phonescreening“ wird dem Moderator eine optimale Übersicht bei Sendungen mit Hörerbeteilung gegeben. Dieses Modul benötigt neben der entsprechenden Client- und Servertechnik auch spezielle Hardware, mit der die physikalische Zuordnung von Telefonleitungen zum Sendemischpult und dem Assistenzplatz realisiert wird. 13.2.4.14 Verkehrsinformationen Eine zuverlässige Verkehrsinformation hat einen besonderen Stellenwert im Hörerservice. In der Vergangenheit war die konventionelle, papiergebundene Bearbeitung von Verkehrsmeldungen mit großem Aufwand verbunden. Heute gelangen Verkehrsmeldungen aus einer 759
Digitale Studioprozesse Vielzahl unterschiedlicher Quellen in ein eigens für diesen Zweck vorgesehenes EDV-System der Rundfunkanstalt. Die redaktionelle Bearbeitung des Meldungsaufkommens im Verkehrsstudio wird durch ein mehrplatzfähiges EDV-System erleichtert. Meldungen können nach Regionen selektiert und graphisch dargestellt werden. Die Hörer erhalten dann nur die für ihr Sendegebiet relevanten Meldungen. Verkehrsmeldungen sind Informationen, die aktuellen und zeitkritischen Änderungen unterliegen, insbesondere bei der Behandlung von möglicherweise fatalen Situationen („Falschfahrer“). Einer zuverlässigen systemgestützten Aktualisierung kommt damit ein beachtlicher Stellenwert zu.
Abb. 13/31. Verkehrsinformation.
Die Güte von Verkehrsinformationen hängt primär von den bereitstellenden Quellen ab und von der nachfolgenden Behandlung durch die Verkehrsredaktion, die Verkehrsmeldungen in aufbereiteter Form in den Textserver einstellt. Hierbei hilft eine Spezialsoftware, die geeignete Formulierungen zu den Meldungen anbietet. Es können beliebige Formulierungsvarianten definiert und unterschiedlichen Hörfunkprogrammen differenziert zugeführt werden. Die Verkehrsmeldungen gelangen nach der Bearbeitung via Datennetz auf einen separaten Bildschirm in der jeweiligen Senderegie. Zum Ablesen wird üblicherweise eine webbasierte Anwendung genutzt (Abb. 13/31). Das Verlesen einer Verkehrsmeldung war in früheren Zeiten mit der Ausgabe eines akustischen Kennsignals (nach seinem Entwickler „Hinztriller“ genannt) verbunden. Diese sehr leise, aber doch hörbare Signalsequenz diente dazu, am UKW-Sender das ARI-Signal (Autofahrer Rundfunk Information) aufzutasten und damit die Autoradios auf eine Verkehrsmeldung vorzubereiten. Heute werden die Audioradios mit einem sog. TA-Bit im programmbegleitenden Datenstrom aufgetastet. „TA" steht hierbei für Traffic Anouncement. Die Auslösung des TA-Bits erfolgt durch den Moderator manuell am Sendetisch. In jüngster Zeit ist die digitale Aussendung von Verkehrsmeldungen im Radio-Daten-System (RDS) auf UKW-Ausbreitungswegen in Betrieb. Diese codierten Informationen nennen sich 760
Digitale Programmproduktion und Sendeabwicklung im Hörfunk TMC-Daten (Traffic Message Channel). Navigationssysteme können diese Daten auswerten, um alternative Routen zur Umfahrung von Verkehrsstaus anzubieten. Nähere Details dazu finden sich in Kap. 17.5. 13.2.4.15 Zusatzinformationen Ein großer Vorteil der digitalen Programmerstellung ist die Generierung und ständige Verfügbarkeit von Informationen zu den einzelnen Beiträgen. Für eine Sendung wichtige Informationen zur gewünschten Zeit in einem Server vorrätig zu haben, ist ein hoher Mehrwert der digitalen Sendesysteme.
Abb. 13/32. Bereitstellung ZI-Daten.
Es gibt zeitkritische und zeitunkritische Informationen. Zeitunkritisch sind z. B. vorausschauende Informationen zu Sendeankündigungen in Programmzeitschriften oder im Internet. Neben dem Sendungstitel werden meist auch Inhaltsbeschreibungen angeboten. Die Bereitstellung zeitunkritischer Informationen benötigt im Hörfunk keine enge zeitliche Kopplung an das Sendegeschehen. Anders verhält es sich bei den zeitkritischen Informationen und deren Aufbereitung. Zeitkritische Informationen gelangen im Radio-Daten-System (RDS) als sog. Zusatzinformationen in den Verbreitungsweg, synchron zum Audio-Programmsignal. Im Radiotext, ein weiterer RDS-Dienst, werden ergänzend Titel- und Interpretennamen übertragen. In Abb. 13/32 ist der Verlauf der ZI-Datengewinnung dargestellt. Die einen Beitrag oder Musiktitel beschreibenden Metadaten werden in der Hot-Zone des Sendeplans vom Sende-system erfasst, im Moment der Ausspielung abgegriffen und dem Modul ZI-Datenaufbereitung übergeben. Dies erfolgt automatisch in Echtzeit. In einem anschließenden Konvertierungsprozess 761
Digitale Studioprozesse werden die relevanten Textdaten herausgefiltert und gemäß den Regeln des RDS-Protokolls in einen für den Sendeweg gültigen Zeichensatz umgesetzt. Den derart aufbereiteten Textdaten werden noch das TA-Bit sowie weitere TMC-Daten hinzugefügt. Jeder Verbreitungsweg benötigt seine spezifische Datenaufbereitung. 13.2.4.16 Leitungsdisposition Systeme zur Leitungsdisposition einer Rundfunkanstalt können den gesamten Bestand von ankommenden und abgehenden Austausch- und Sendeleitungen sowie alle internen Leitungen eines Funkhauses steuern. Die „Quellen" und „Senken" aller Verbindungsendpunkte sind namentlich beschrieben in einer Datenbank hinterlegt. Das Dispositionssystem erlaubt die Eingabe von Schaltaufträgen, womit physikalische Leitungsverbindungen geplant, verwaltet und technisch zeitpräzise realisiert werden. Auch Sendesysteme unterliegen der Hierarchie einer Leitungsdisposition. Alle physikalischen Quellen und Senken sind Bestandteil eines Audio- und Signalkoppelfelds. Als ausführende Instanz setzt das Koppelfeld die erhaltenen Schaltaufträge um. Ein leistungsstarkes Leitungsdispositionssystem verwaltet in einer Rundfunkanstalt mehrere tausend Koppelpunkte. Die technischen Ansprüche an die Ausfallsicherheit des Systems sind extrem hoch. 13.2.4.17 Dokumentationssystem Die von einer Rundfunkanstalt ausgestrahlten Sendungen müssen aus rechtlichen Gründen für die Dauer von 92 Tagen aufgezeichnet werden. Das sind mehrere tausend Stunden Audiomaterial in diesem Zeitabschnitt. In einem eigenen Mitschnittsystem werden Audio- und RDSDaten für Recherchezwecke synchron aufgezeichnet. Dieser Dienst steht netzwerkweit zur Verfügung. Häufig werden die Audiodaten nur in datenreduzierter Form vorgehalten, um Server und Netzwerke nicht zu stark zu belasten.
13.2.5
Außenübertragungstechnik
Die Außenübertragungstechnik, kurz AÜ-Technik (engl.: Outside Broadcasting, OB) genannt, nutzt heute ebenfalls die Möglichkeiten der digitalen Programmerstellung. Moderne ITLösungen zur schnellen Datenübertragung finden sich in SNG-Fahrzeugen (Satellit News Gathering), in Reportagefahrzeugen, in mobilen Rechneranlagen und in großen Ü-Wagen. SNG-Fahrzeuge Die SNG-Technik erlaubt die drahtlose Verbindung zwischen einem Veranstaltungsort und dem Funkhaus über eine Satellitenverbindung (Abb. 13/33). Verschiedene Provider bieten derartige Dienste an und stellen kostenpflichtige Verbindungen zum Aufbau von digitalen Tonleitungen für Echtzeitanwendungen oder IP-Verbindungen für Überspielzwecke her. Für Live-Sendungen kommen dabei spezielle Audiocodecs zur Anwendung (vgl. Kap. 16.2.2.3). Im Zuge der Weiterentwicklung entstanden auch bidirektionale IP-Verbindungen mit dem Datennetz des heimischen Funkhauses. Dem Anwender stehen am Berichtsstandort somit eine 762
Digitale Programmproduktion und Sendeabwicklung im Hörfunk Reihe von Recherchefunktionen und auch der Audiofiletransfer zur Verfügung. SNG-Fahrzeuge sind zur Erstellung von Hörfunkbeiträgen mit Audiobearbeitungstechnik ausgestattet.
Abb. 13/33. Anbindung SNG-Wagen.
Reportagefahrzeuge Reportagefahrzeuge verfügen über ein ähnliches Audio-Leistungsprofil zur Beitragserstellung wie SNG-Fahrzeuge. Die Beitragsüberspielung zum Funkhaus erfolgt hier mit der kostengünstigeren terrestrischen IP-Technik, wie z. B. GSM, UMTS, V-LAN oder Wi-Max. Auch können wählbare Audioverbindungen über ISDN- oder DSL-Codecs für Audiofiletransfer oder Echtzeitübertragung aufgebaut werden. Die IP-Verbindung ermöglicht zusätzlich die Recherche in den Datenbanken des Funkhauses (Abb. 13/34).
Abb. 13/34. Anbindung Reportagefahrzeug.
Mobile Produktionssysteme und Kleingeräte Neben der reinen Aufnahme von O-Tönen werden häufig Kurzbeiträge aus Gründen der Aktualität direkt vor Ort produziert. Moderne Aufnahmegeräte verfügen über einfache integrierte Schnittmöglichkeiten oder dienen als Schnittstelle (z. B. über USB, Kap. 11.5.4) zu Rechnern bzw. Laptops, die ihrerseits einfache Audioschnittsysteme installiert haben. Die fertigen Beiträge können dann über verschiedenste Datentransfers (FTP, Email oder in neuerer Zeit mit sendereigenen Reporterportalen per Internet) zum Sender bzw. zur Senderegie übermittelt werden. Mobile Rechneranlagen für Großveranstaltungen Bei Großveranstaltungen, besonders bei internationalen Ereignissen, ist die Berichterstattung sehr aufwändig: Sie verlangt viele einzelne Sprecherplätze, die alle mit digitalen Kommentatoreinheiten ausgerüstet sein müssen und Anschluss an eine bidirektionale Datenkommunikation 763
Digitale Studioprozesse benötigen. Die am Veranstaltungsort implementierten Funktionen entsprechen denjenigen eines kleinen Funkhauses – die Qualitätsanforderungen sind nicht wesentlich geringer. Die Berichterstattung darf durch die besondere Situation nicht beeinträchtigt sein, und es sind daher alle üblichen Arbeitsmittel, Recherchetools und Bearbeitungsmittel bereit zu halten. Im Prinzip arbeitet die mobile Rechneranlage als autarkes Sendesystem mit Anbindung an die Dienste des zentralen Funkhauses, erweitert um den IP-Kontakt auch zu anderen ARDAnstalten, z. B. über das ARD-HYBNET.
Abb. 13/35. Mobile Rechneranlage.
Vor Ort werden durch die mobile Rechneranlage die Module eines stationären Funkhauses abgebildet: Aktualitätenspeicher, Audioworkstations, Sendeabwicklungssysteme und die Einrichtungen für den Audiofiletransfer. Abb. 13/35 zeigt das Beispiel einer Beitragserstellung an mehreren Audioworkstations. Die fertiggestellten Beiträge – wie Kommentare, O-Töne oder Interviews – werden über den ARD-Audiofiletransfer an angeschlossene Rundfunkanstalten übertragen; auch komplette Sendungen oder Live-Zuspielungen müssen in Realzeit möglich sein. Große Übertragungswagen im Hörfunk Große Übertragungswagen kommen bei Live-Übertragungen und für Mitschnitte von Ereignissen, wie Konzerten und Festivals, zum Einsatz. Sie verfügen über digitale Mischpulte mit 48 oder mehr Eingangskanälen und über die dazu gehörigen Aufzeichnungs- und Bearbeitungseinrichtungen. Die signaltechnisch und auch akustisch hochwertigen Tonregien der großen Ü-Fahrzeuge verfügen über dieselben Produktionsmittel, wie sie in einem großen Hörfunkstudio zum Einsatz kommen. Dazu zählt auch die Möglichkeit, mehrkanalig in Surroundsound aufzuzeichnen und zu übertragen. 764
Digitale Programmproduktion und Sendeabwicklung im Hörfunk Ein großer Übertragungswagen des Hörfunks verfügt über eine weitgehend selbständige technische Infrastruktur, bis hin zu den Kabeltrommeln für den Anschluß von Mikrofonen und bis zu Systemen zur Notstromversorgung. Auch die mitgeführten Kommunikationseinrichtungen haben den vielfältigen, immer wechselnden Anforderungen zu genügen (Abb. 13/36).
Abb. 13/36. Infrastruktur eines großen Übertragungswagens.
765
14
Digitale Tonsignalspeicherung
14.1
Digitale Tonaufzeichnung
Digitale Tonsignale beanspruchen weit über den Hörbereich hinausgehende Frequenzbandbreiten und erzeugen große Datenmengen. Der theoretisch und in der praktischen Realisierung nicht triviale Prozess der Aufzeichnung von digitalen Audiosignalen war durch den Umstand begünstigt, dass hierfür in einer zunächst noch experimentellen Phase Speichermedien und Systeme aus dem Anwendungsbereich der Informationstechnik (IT) und auch der Videotechnik adaptiert werden konnten, ehe eigenständige Entwicklungen speziell für die digitale Tonaufzeichnung im Studio verfügbar wurden. Das anfänglich noch als zu klein erkannte Marktsegment dieser neuen Technologie veranlasste die einschlägige Industrie nicht zur großzügigen Förderung von Produktentwicklungen, die auf das „Einsatzgebiet Tonstudio“ ausgerichtet waren. Die digitale Technik war und blieb zunächst ein seltenes und kostspieliges Nischenprodukt von Spezialisten für Spezialisten. Erst auf Grund der großen Nachfrage seitens der Musikindustrie und des Consumer-Markts, der die digitale Compact Disc (CD) als neuartiges und hochwertiges Tonträgermedium geradezu euphorisch aufgenommen hatte, wurde die neue Signalverarbeitungs- und Speichertechnik für Hersteller und Anwender wirtschaftlich interessant und verhalf in Folge dieser Technologie auch im Tonstudio zum Durchbruch auf breiter Basis. Speziell für die digitale Tonaufzeichnung stehen heute, historisch bedingt, vier Varianten mit zum Teil erheblich unterschiedlicher Technik und Qualität zur Verfügung: 1. Verfahren mit rotierenden Köpfen auf Magnetband (Pseudo-Video oder direkt digital) 2. Direkte digitale Verfahren mit stationären Mehrspurköpfen auf Magnetband 3. Echte datentechnische Verfahren mit gängigen Speichern der Informationstechnik 4. Digitalaufzeichnungen mit reduzierter Datenrate auf diversen Trägermedien Die wesentlichen audiotechnischen Vorteile der digitalen Aufzeichnungstechnik sind: - pegelunabhängiger, linearer Frequenzgang im gesamten Übertragungsbereich - großer Dynamikumfang - keine Modulationseffekte, wie sie in der analogen Aufzeichnung auftreten können - unmessbar geringe Gleichlaufschwankungen - keine Phasendifferenzen zwischen den Tonkanälen - sehr geringe nichtlineare Verzerrungen - hohe Übersprechdämpfung - kein Kopiereffekt - keine Kopierverluste in der digitalen Ebene. Für die digitale Aufzeichnung typisch sind auch eine Reihe spezifischer, kritisch zu betrachtender Eigenschaften: 767
Digitale Tonsignalspeicherung - Die erforderliche Frequenzbandbreite erhöht sich um den Faktor 40 bis 100 und erzeugt damit eine wesentlich höhere Aufzeichnungsdichte als in der Analogtechnik. - Fehlerschutz und Synchronisation erzeugen zusätzliche, nicht vom Quellencode stammende Daten und vergrößern hierdurch den digitalen Verarbeitungsaufwand. - Die Nutzungsmöglichkeit von Metadaten erhöht nochmals die Bitrate und damit die Bandbreite. - Die Daten müssen zur zeitlichen Kompression/Dekompression bei Aufnahme und Wiedergabe zwischengespeichert werden. - Mechanischer Schnitt ist nicht oder nur eingeschränkt mit hohem Fehlerschutzaufwand möglich. - Elektronischer Schnitt bietet optimale Bearbeitungsmöglichkeiten, kann aber den getriebenen Aufwand erhöhen. Zudem sind digitale Tonträger wegen der hohen Aufzeichnungsdichte in der Regel gegen Umwelteinflüsse empfindlich, sollten daher mechanisch möglichst wenig beansprucht oder kontaktiert und in dauerhaft schützender Umhüllung aufbewahrt bzw. betrieben werden.
14.1.1
Quelldaten, Kanaldaten und Kanalmodulation
Durch A/D-Wandlung erzeugt ein digitaler Tonsignalrecorder aus dem analogen Tonsignal zunächst digitale Abtastwerte, die sog. Quelldaten, oder er erhält diese über eine digitale Schnittstelle, z. B. ein AES/EBU-Interface, zugeführt (Abb. 14/1, vgl. auch die gekennzeichneten Stufen der Signalformung in Abb. 14/3). Im Kanalcoder werden die Audiodaten mit redundanten (im Quellensignal nicht enthaltenen) Fehlerschutzdaten ergänzt und formatiert. Der Kanalmodulator sorgt für die physikalische Anpassung bezüglich Spannungspegel und Synchronisation an den Speicherkanal; der Schreibkopf überträgt anschließend die Kanaldaten auf das Speichermedium.
Abb. 14/1. Prinzipblockschaltbild eines digitalen Tonsignalrecorders.
Nach Abtastung des Speichermediums durch den Lesekopf werden im Kanaldemodulator die Blockdaten und der Signaltakt zurückgewonnen. Im Decoder findet danach (unter Einsatz der 768
Digitale Tonaufzeichnung jeweils implementierten Fehlerschutzmechanismen zur Erkennung und Korrektur der Kanalfehler) die Trennung von digitalem Tonsignal und Redundanz statt. Die so wiederhergestellten Quellendaten werden an das digitale Interface weitergeleitet oder in ein analoges Tonsignal zurückgewandelt. Für die synchrone Anbindung an die jeweilige Studioinfrastruktur ist auch eine externe Taktung des Recorders möglich. 14.1.1.1
Speicherkanal
Im realen Speicherkanal treten eine Reihe von Einflüssen auf, die digitale Signale verfälschen können und damit den Entscheidungsraum zur Wiedererkennung eines logischen Eins- oder Null-Zustands einengen. Es sind dies: -
additive Rauschüberlagerung, Übersprechen zwischen Datenspuren und elektronische Einstreuungen, Jitter, d. h. störende Frequenzmodulation durch Laufwerkseigenschaften, Amplitudenschwankungen bzw. störende Amplitudenmodulation, Dropouts, z. B. infolge von Änderungen des Band-Kopf-Kontakts durch Verschmutzung, Phasenfehler und Dämpfung von harmonischen Komponenten des Digitalsignals durch Frequenzbandbeschneidung.
Diese Einflüsse bewirken eine Verfälschung der ursprünglichen Signalform, deren Impulshöhe und -breite jetzt von den benachbarten Informationselementen und von Zufallsprozessen abhängig sind. Der Entscheidungsraum oder die sog. Augenöffnung (eye pattern) zur Wiedererkennung der gespeicherten Bits wird unter den beschriebenen Umständen wesentlich kleinflächiger, als es der ursprünglichen Bitgeometrie entspricht. Ohne besondere Bewertung und Regeneration sind Bitfehler in dem vom Speichermedium gelesenen Signal die mögliche Folge.
Abb. 14/2. Augendiagramm des Bitmusters einer CD-Aufzeichnung.
769
Digitale Tonsignalspeicherung Das „Augendiagramm“ in Abb. 14/2 ist ein gutes Hilfsmittel zur Qualitätsbeurteilung des zurückerhaltenen digitalen Roh-Signals. Es ergibt sich dadurch, dass mit Hilfe eines Speicheroszilloskops die Impulse des Signals mit allen Zeit- und Pegelfehlern übereinander geschrieben werden. Die Entscheidungszone Tw des hier in einem NRZ-Code dargestellten Digitalsignals (vgl. Kap. 14.1.3) ist dabei gleich dem Abstand zwischen den Pegelübergängen. Aus der Höhe der Augenöffnung lässt sich der Einfluss von Amplitudenschwankungen ablesen. Die Öffnung a1 wird nur im Idealfall erreicht. Die statistisch vorkommende sog. Worst-CaseAmplitude a2 bestimmt die minimale vertikale Augenöffnung. Je geringer sie ist, desto größer ist die Gefahr der Falscherkennung eines Pegels, z. B. bei Auftreten von Dropouts. Jitter bzw. Phasenschwankungen )t engen die Breite der Augenöffnung ebenfalls ein und verringern damit Tw. Zum Erreichen höchstmöglicher Speicherdichte bei minimaler Fehlerrate sollte daher das Aufzeichnungssignal an die Übertragungscharakteristik des Speicherkanals angepasst werden. Die folgenden Kriterien müssen bei der Auswahl eines geeigneten, möglichst aufwands- und verlustarmen Verfahrens zur Aufzeichnungsmodulation besondere Beachtung finden: - Der Speicherkanal ist bandbreitenbegrenzt. - Der Takt zur Synchronisierung muss aus dem Wiedergabesignal regenerierbar sein, da sonst ein eigener Taktkanal bzw. eine separate Taktspur erforderlich werden. - Signale mit Gleichkomponente können nicht immer reproduzierbar übertragen werden. Bei im Mittel ungleicher Anzahl von Null-/Eins-Zuständen enthält das Digitalsignal einen Gleichspannungsanteil (DC-Offset), und es ist mit einem Driften des Nullpegels im Wiedergabekanal zu rechnen. Dies erfordert besondere Maßnahmen bei der Signalregenerierung. Soll ein niederfrequentes Servosignal zur Spurhaltung aus dem Grad der Spurabweichung gewonnen werden, verbietet sich eine Gleichkomponente im Signal grundsätzlich.
14.1.2
Datenformatierung
Die Datenwörter werden in Abhängigkeit von den charakteristischen Eigenschaften des Datenkanals in Blöcken angeordnet. Diese Aufbereitung der Datenwörter wird als Formatierung bezeichnet. Bei der Auswahl eines Aufzeichnungsformats sollten wegen der besseren Austauschbarkeit der Datenträger standardisierte Formate den proprietären bzw. firmenspezifischen Formaten vorgezogen werden. Nicht bei jeder Anwendung kann die Kanalcodierung in der gleichen Struktur wie die Quellencodierung erfolgen. So wird in der Regel ein Datenübertragungskanal nach AES/EBU zunächst eine Serialisierung der Ausgangsdaten des vorhergehenden A/D-Wandlers erfordern. Dieser nun einkanalige Datenstrom ist direkt an die Leistungsfähigkeit oder Struktur des Speichermediums anzupassen und muss ggf. erneut in parallele Bitströme aufgespalten werden. Abb. 14/3 zeigt schematisch die Reduktion der Eingangsdatenrate (1) auf ein Drittel dieses Wertes für die einzelnen Spuren (2). Damit nach dem Speichervorgang die Daten wieder eindeutig zugeordnet werden können, sind die Synchronworte S1 bis S4 zur Blocksynchronisierung der Spurinformation vorangestellt. Dann werden die Quer-Parität (Q), die 770
Digitale Tonaufzeichnung Längsparität (P) sowie die zyklisch redundanten Korrektursymbole (CRC) gebildet (3), die zusammen mit den Eingangsdaten eine redundante Konfiguration mit jetzt vier Spuren ergeben (4). Der Speicherprozess kann aus verschiedenen Ursachen, z. B. durch Spaltschiefstellung der Magnetköpfe, eine Änderung der gegenseitigen Lage der Bitpositionen in den einzelnen Spuren verursachen. Die Folge ist dann das Zeitdiagramm (5) am Ausgang des Speicherkanals.
Abb. 14/3. Schematische Darstellung einer Datenorganisation.
Der Wiedergabesignalweg läuft in umgekehrter Analogie zum Aufnahmesignalweg über Leseköpfe, Verstärker, Entzerrer, Synchronisator und Demodulator für die Biterkennung im jeweils verwendeten Aufzeichnungscode. Die parallel, aber möglicherweise versetzt einlaufenden Datenbits werden mit Hilfe eines regenerierten Takts wieder synchronisiert (6). Damit ist das Zeitdiagramm (4), allerdings jetzt mit Kanalfehlern behaftet, wiederhergestellt. Die Paritäts- und Korrektursymbole werden im Decoder zur Fehlererkennung und -korrektur verarbeitet, und die Daten (7) entsprechen anschließend wieder dem ursprünglichen Format (2). Nach Parallel-Serienwandlung erfolgt die Digital/Analog-Umwandlung oder die Ausgabe der Daten an einer digitalen Schnittstelle.
14.1.3
Schreibcodes und Kanalmodulation
Die Vielzahl der möglichen Codes für die Digitalaufzeichnung ist kaum überschaubar. Für umfangreiche und weiterführende Informationen wird daher auf [14.1] und [14.2] verwiesen. Die folgende Auswahl beschränkt sich auf digitale Quellensignale, die in PCM-Form vorliegen. Es handelt sich hierbei um binäre Signalfolgen mit konstantem Zeitintervall zwischen den binären Elementarsignalen (Datenbits oder -worte), die das analoge Tonsignal linear abbilden. 771
Digitale Tonsignalspeicherung Die Art der Schreibcodes kann dabei sehr unterschiedlich sein: - Linear codierte PCM-Basisbandsignale in der ursprünglichen abtastfrequenten Zeitrasterung - Signalverläufe, die durch Modulation eines periodischen Trägers mit dem Basisbandsignal entstehen, und die aufgrund ihres diskreten Charakters durch die Parameter des Codierverfahrens beschreibbar sind. Die Decodierung erfolgt hierbei mit einem entsprechenden Demodulator. - Durch logische oder tabellarische Codiervorschriften gebildete Signale. Die Decodierung erfolgt durch die inverse Anwendung der Codierungsvorschriften.
Abb. 14/4. PCM-Aufzeichnungsmodulationsarten (1).
Eine Gruppe einfacher für PCM-Signale geeigneter Aufzeichnungsmodulationsarten bilden die sog. NRZ-Codes (Non Return to Zero). Ursprung dieser Codes ist der im Prinzip einfach strukturierte RZ-Code (Return to Zero), bei dem ein Eins-Signal als Impuls innerhalb einer Bitzelle immer mit einem Null-Zustand beginnt oder endet. Beim NRZ-Code findet kein Rücksetzen innerhalb der Bitzelle statt, so dass bei aufeinanderfolgenden logischen EinsZuständen kein Pegelwechsel erfolgt. In der Praxis erfolgt die Umsetzung des logischen Bitmusters in die physikalische Signalfolge nach unterschiedlichen Methoden; es sind daher eine Vielzahl von sog. NRZ-Derivaten bekannt (Abb. 14/4). Der NRZ(L)-Code (NRZ-Level) ist der einfachste davon. „Level“ bedeutet hier die feste Zuordnung einer Eins zum Level H (High) und einer Null zu L (Low). Beim NRZ(M)-Code (NRZ-Mark) findet bei jedem Auftreten eines Eins-Zustands ein Pegelwechsel an der Bitgrenze (nicht innerhalb der Bitzelle) statt; jede zweite logische „Eins“ wird durch einen Pegelsprung – wieder an der Bitgrenze – „markiert“. Das ist beim Auftreten von Einzelbitfehlern ungünstig, da alle nachfolgenden Datenbits dann bis zum nächsten logischen Zustandswechsel invertiert sind. Generell haben NRZ-Codes den Nachteil, dass Zeitbasis-Fehler entstehen können, wenn länger andauernd kein Signalwechsel erfolgt. Beim Auftreten von Bitfolgen mit gleicher 772
Digitale Tonaufzeichnung Polarität lässt sich aus den Bitgrenzen kein Taktsignal mehr ableiten. Die NRZ-Codierung ist dann „nicht selbsttaktend“ und erfordert die externe Synchronisation aller an der Signalverarbeitung beteiligten Komponenten. Zudem kann ein Gleichspannungsanteil (DC-Offset) entstehen, der zu einer Verschiebung der Signal-Nulldurchgänge führt. In der relativ störanfälligen Signalspeichertechnik wird mit einem weiteren NRZ-Code gearbeitet, der die logische Eins nicht als absoluten Pegelwert (Zustand) einer Bitzelle, sondern durch einen Richtungssprung an der Bitzellen-Grenze darstellt. Dadurch beschränkt sich ein Einzelbitfehler auf das fehlerhafte Bit. Dieser invertierende Richtungs-Code wird als NRZ(I) bezeichnet. Um maximale Signalpegel zu erhalten, werden häufig bipolare (Plus/Minus)-Wechsel ohne Null-Zustand gespeichert, der nicht als informationstragend definiert ist; die Lauflänge des Codes, d. h. die maximal mögliche Anzahl aufeinander folgender identischer Pegelzustände, muss daher begrenzt werden, um das Entstehen einer Gleichkomponente sicher zu vermeiden. Bei der Eight-to-Fourteen-Modulation (EFM), wie sie z. B. bei der CD-Kanalcodierung zum Einsatz kommt, wird dies durch Hinzufügen von weiteren drei Zusatz-Bits, den sog. Mergingoder Coupling-Bits, erreicht, die eine Randomisierung bewirken, d. h. eine Umorganisation des zu häufigen Auftretens von binären Eins-Werten an den Übergangsstellen hintereinander liegender Codeworte. Die binäre Phasenmodulation von NRZ-Folgen führt zum Manchester-Code, einem selbsttaktenden, gleichspannungsfreien Code, der allerdings die doppelte Bandbreite des NRZCodes benötigt. Der Code findet z. B. beim Ethernet Verwendung. Die Schriftart Biphase-Mark ergibt sich dadurch, dass in Bitzellenmitte die Eins durch einen weiteren Signalwechsel gekennzeichnet ist. Aufeinanderfolgende Eins-Werte erzeugen demnach ein Rechtecksignal mit doppelter Bitfolgefrequenz. Bei Null-Werten findet eine Zustandsänderung nur an den Bitgrenzen statt. Abb. 14/4 zeigt, dass im Prinzip mit zwei verschiedenen Frequenzen geschrieben wird, was zu einem höheren Bandbreitenbedarf führt, aber eine einfache Regeneration des Taktsignals ermöglicht. Eine Bandbreitenreduktion und die Verbesserung des Signal-Rausch-Verhältnisses ergeben sich, wenn vom Biphase-Code nur jeder zweite Signalwechsel übernommen wird. Der daraus entstehende, ebenfalls selbsttaktende Code heißt Miller- oder MFM-Code (Modified Frequency Modulation). Die Codierungsregel lautet: Signalsprung bei Eins in Bitmitte oder nur zwischen benachbarten Nullen. Der Code ist nicht gleichspannungsfrei. MFM-Codierung fand Anwendung bei Bandspeichern im ProDigi-Format und bei Festplattenspeichern. Der Code wird immer noch bei 2-Zoll-Disketten verwendet. Höchsten Speicherdichten wird er jedoch nicht mehr gerecht. Beim Jacoby- oder 3PM-Code (3-Position-Modulation) wird eine Gruppe von 3 Quell-Datenbits in 6 Kanalbits konvertiert. Es sind zwei Einsen mindestens durch zwei aufeinander folgende Nullen voneinander getrennt. Einige Codeparameter sind die gleichen wie bei MFM. Die lineare Dichte ist jedoch um 50 % gegenüber dem MFM-Code erhöht; der Bandbreitenbedarf ist geringer als bei den anderen Codes. In der Plattenspeichertechnik, aber auch bei der Speicherung auf Band, kommen bei sehr hoher Gleichlaufstabilität Codes mit hohem Dichteverhältnis, sog. lauflängenbegrenzte 773
Digitale Tonsignalspeicherung RLL-Codes (Run Length Limited) zum Einsatz. Sie werden mit RLL(x,y) bezeichnet, wobei x die minimale und y die maximale Lauflänge, d. h. die Anzahl aufeinander folgender Nullen oder Einsen, angibt. Die Speicherdichte moderner Laufwerke erhöht sich noch deutlicher durch PRML-Detektion (Partial Response Maximum Likelihood) im Lesekanal. Hier werden z. B. statt RLL(1,7) die Schreibrestriktionen (0,4,4) verwendet. „0“ bedeutet, dass Eins-Werte direkt aufeinanderfolgen können. Der erste Parameter „4“ begrenzt die Anzahl der Nullen zwischen den EinsWerten eines Datenstroms und die zweite „4“ die maximale Anzahl von Nullen in verschiedenen Untermengen. Der dann beim Lesen verwendete Viterbi-Decoder prüft die Wahrscheinlichkeit des Auftretens von erlaubten Bitfolgen. Bei der CD wird der EFM-Code verwendet. Aus 8 Datenbits werden hierbei 14 Kanalbits abgeleitet: Aus 214 = 16384 möglichen Datenworten werden 28 = 256 bestgeeignete Werte ausgewählt. Hinzu kommen jeweils 3 Coupling- oder Merging-Bits zwischen den Wortgrenzen. Damit handelt es sich eigentlich um einen Code mit der Rate 8/17 (siehe Abb. 14/5). Eine genaue EFM-Beschreibung erfolgt in [ECMA-130]. Die lineare Dichte von EFM liegt etwa 25 bis 50 % über der von MFM und ist gleichspannungsfrei.
Abb. 14/5. PCM-Aufzeichnungsmodulationsarten (2).
Eine Weiterentwicklung ist der in [ECMA-267] beschriebene EFMplus-Code für die DVD und SACD; die Coderate beträgt 8/16. Unter der Bezeichnung HDM (High Density Modulation) verbergen sich verschiedene Codes. Bei digitalen Tonbandmaschinen wird der HDM-1-Code mit kürzerer Lauflänge eingesetzt (Abb. 14/5). Er hat den 3PM-Code bei dieser Anwendung verdrängt. Weit verbreitet sind besonders bei Festplatten und optischen Platten auch die sog. Gruppencodes (Group Code Recording) wie GCR 4/5. Hierbei wird jeder 4-Bit-Wortgruppe per Codetabelle ein 5-Bit-Wort zugeordnet. Dadurch sind im Bitstrom, der anschließend in NRZ(I) codiert wird, nicht mehr als zwei benachbarte Nullen enthalten. Diese Codes sind robust gegenüber Störeinflüssen und ermöglichen höhere Speicherdichten. 774
Digitale Tonaufzeichnung Prinzipiell gibt es Codes mit minimalen Ansprüchen an das Laufwerk, wie z. B. GCR 4/5. Codes für höhere Ansprüche an die Eigenschaften des Laufwerks sind EFM und 3PM. [14.6]
14.1.4
Fehlererkennung und Fehlerkorrektur
Grundlage für eine an den Speicherkanal angepasste Datenorganisation und einen wirksamen Fehlerschutz ist die genaue Kenntnis seines statistischen Fehlerverhaltens. Die Ursachen für die meisten Fehler liegen beim Speichermedium selbst. So stören z. B. Staubteilchen, Abrieb, Fingerabdrücke und Bandkantenbeschädigungen die magnetische Aufzeichnung durch Pegeleinbrüche oder sog. Dropouts. Es werden grundsätzlich drei Arten von Fehlerursachen im Speicherkanal unterschieden: 1. Statistisch unabhängige Substitutionsfehler, wenn ein oder mehrere Datenbits anders als ursprünglich aufgezeichnet erkannt werden. Sie treten vorwiegend bei Plattenspeichern auf. Diese durch additives Rauschen verursachten Fehler sind mit klassischen Blockcodes kleiner Blocklänge erkennbar und korrigierbar. 2. Burst- oder Bündelfehler, verursacht durch starke Rauscheinbrüche, die zu fehlerhaften Bitgruppen führen. Sie sind generell nur mit Codierungen, die ein großes „Gedächtnis“ besitzen, erkennbar und korrigierbar. Eine wirksame Methode, einen Bündelfehler in mehrere leichter korrigierbare Einzelfehler umzuwandeln, besteht in einer örtlichen oder räumlichen Datenspreizung über das Speichermedium (interleaving). Ist keine Fehlerkorrektur mehr möglich, kann bei digitalen Tondaten die Methode der Fehlerverdeckung oder Fehlerverschleierung (error conceilment) verwendet werden. Dabei werden fehlerhafte Abtastwerte aus benachbarten Daten errechnet, durch benachbarte ersetzt oder auch stumm geschaltet. 3. Statistisch unabhängige Synchronisationsfehler, die ohne fehlersichernde Maßnahmen zum Synchronisationsverlust bis zum Blockende führen. Hier erweisen sich besonders die zyklischen Codes als hilfreich, die Synchronisationsfehler erkennen und korrigieren können. Bei Bündelfehlern, die die Synchronisation stören, kann die Auswertung von Nachbar-Spuren zur Unterstützung der Synchronisation weiterhelfen. 14.1.4.1
Instrumente der Fehlererkennung und Fehlerkorrektur
Um Fehler bei einer Übertragung zu vermeiden, darf bei einem Code nicht der gesamte Vorrat an Code-Elementen zu Nutzworten verbraucht werden. Damit ein gestörter Speicherkanal optimal betrieben werden kann, muss daher die Redundanz der zu übertragenden Information gezielt erhöht werden. Dies geschieht durch Umsetzung der binären Quellensymbole in Symbolkombinationen, die eine Verfälschung des Codeworts erkennen, korrigieren oder verschleiern lassen. Fehlererkennende und -korrigierende Codes Ein Maß für die Effizienz eines Codes ist seine Hamming-Distanz (d). Diese gibt die Mindestanzahl der Binärstellen an, in denen sich die Codewörter eines Binärcodes voneinander unterscheiden. Ein redundanzfreier Code hat d = 1. Bei dieser Hamming-Distanz ergibt schon die Verfälschung eines einzigen Bits ein neues gültiges Zeichen und ein Fehler kann somit 775
Digitale Tonsignalspeicherung nicht entdeckt werden. Bei einer Distanz von 2 können alle 1-Bit-Fehler erkannt, aber nicht korrigiert werden. Eine Hamming-Distanz von 3 erlaubt die Korrektur aller 1-Bit-Fehler und das Erkennen aller 2-Bit-Fehler. Bei der Entwicklung eines Codes muss die gleiche Hamming-Distanz zwischen allen möglichen Kombinationen der Zeichen des Codes gewährleistet sein. Historisch betrachtet hat sich die datensichernde Codierung aus der bei Lochkarten-Systemen erstmals angewandten Paritätsprüfung (parity check) entwickelt. Die einfachste Art der Paritätsbildung entsteht bei der Formung eines zyklischen Codes mit dem Generatorpolynom G(x) = x + 1. Die zyklische Redundanzprüfung (Cyclic Redundancy Check, CRC) ist ein Verfahren aus der Informationstechnik zur Bestimmung eines Prüfwerts für Daten mit dem Ziel, aufgetretene Fehler erkennen und korrigieren zu können. In der kaufmännischen Elektronischen Datenverarbeitung (EDV) gibt es außer Erkennung und Korrektur keine andere sinnvolle Möglichkeit der Fehlerbehandlung: Finanzdaten müssen immer korrekt sein und gestatten keine Kaschierung von falschen Zahlenwerten. Vor Beginn der Übertragung eines Datenblocks wird ein CRC-Wert berechnet und zusammen mit den Nutzdaten weitergegeben. Nach Abschluss der Transaktion wird der CRC-Wert erneut berechnet und anschließend beide Prüfwerte miteinander verglichen. CRC beruht auf der Polynomdivision, die sich durch Modulo-2-Additionen schaltungstechnisch relativ einfach implementieren lässt. Allerdings ist eine Realisierung in Realzeit erst mit der Einführung hoch integrierter Schaltkreise möglich geworden. Für CRC verwendete Polynome sind das Ergebnis umfangreicher mathematischer und empirischer Analysen. CD, DAT und DVD (s. Kap. 14.1.6 und 14.1.8) verwenden als zyklischen Code einen ineinander verschachtelten Reed-Solomon-Code. Er ist als CIRC (Cross Interleaved Reed Solomon Code) bekannt.
Abb. 14/6. Codespreizung oder Interleaving.
Bei der Codespreizung, auch als Interleaving bezeichnet, werden die Abtastwerte vor der Blockbildung über mehrere Kanäle eines Datenspeichers verteilt oder, wie es bei einspurigen Datenformaten der Fall ist, durch diagonales Crossinterleaving räumlich auseinander gezogen (Abb. 14/6). Ein Dropout auf einem magnetischen Datenträger erzeugt einen Bündelfehler 776
Digitale Tonaufzeichnung (burst error), der mehrere hintereinander liegende Abtastwerte zerstört. Nach dem De-Interleaving liegen die gestörten Informationsbits zwischen gültigen Abtastwerten und können dann z. B. durch Interpolation benachbarter Abtastwerte verschleiert und damit im besten Fall unhörbar gemacht werden. Durch mehrfach ineinander geschachtelte EDCs (Error Detection Codes) oder ECCs (Error Correction Codes) ist in der Regel auch eine sichere Erkennung und vollständige Korrektur möglich, bei IT-Daten sogar zwingend erforderlich. Ampelanzeige und Hinterbandkontrolle In die meisten Geräte der digitalen Audio-Speichertechnik sind Hilfsmittel zur Anzeige von Datenproblemen implementiert. Bei Fehlern, durch die das Tonsignal bereits nachrichtentechnisch beeinträchtigt ist, diese Verschlechterung jedoch wegen geleisteter Korrektur oder Verschleierung noch nicht hörbar wird, hat sich die sog. „Ampelanzeige“ bewährt, die zur Meldung von zulässigen, weil korrigierbaren Fehlerraten bei digitalen Aufzeichnungen dient. Üblicherweise wird damit die „Channel Condition“ (Fehlerzustand der Wiedergabekanäle) an der Bedienkonsole optisch signalisiert. Folgende Situationen können durch unterschiedliche Lichtfarben angezeigt werden: - Grün: Guter Zustand der Wiedergabekanäle. Sehr niedrige Fehlerrate. Alle Fehler vom Speichermedium können korrigiert werden. - Gelb: Ein oder mehrere Wiedergabekanäle zeigen eine erhöhte Fehlerrate. Es können noch alle Fehler des Speichermediums korrigiert werden, aber möglicherweise liegt bereits ein Problem vor. - Rot: Ein oder mehrere Wiedergabekanäle zeigen eine zu hohe Fehlerrate. Es können nicht mehr alle Fehler korrigiert werden. Fehlerverschleierung wird angewendet. Letzte Möglichkeit der Fehlerverschleierung ist dann das Stummschalten des Tons (Muting). Das kontrollierende Abhören unmittelbar nach der Aufzeichnung stammt aus der professionellen analogen Magnetbandtechnik, wobei der Wiedergabekopf direkt hinter dem Aufzeichnungskopf das soeben aufgezeichnete Signal reproduziert. Bei entsprechendem Aufwand lässt sich diese „Hinterbandkontrolle“ auch bei digitalen magnetischen und optischen Plattenlaufwerken oder anderen Speichermedien als „Read After Write“-Funktion realisieren.
14.1.5
Magnetische Aufzeichnung
Die physikalischen Gesetze der bereits ausführlich beschriebenen analogen SchallsignalSpeicherung auf magnetischem Wege (vgl. Kap. 7) gelten bei der digitalen Tonaufzeichnung für das Daten-Magnetband oder die Festplatte in gleichem Umfang. Allerdings handelt es sich bei den digitalen Vorgängen um wesentlich höhere Frequenzbereiche bzw. um sehr viel kleinere Aufzeichnungswellenlängen auf dem Datenträger. Abb. 14/7 a) und b) erinnern an den Abstandseffekt mit exponentieller Abnahme der induzierten Spannung. Dieser Abfall ist in der Praxis wirksam z. B. bei Staub auf dem Magnetband oder bei verschmutzten Magnetköpfen. Abb. 14/7 c) und d) illustrieren den „Spalteffekt“. Je breiter der Spalt, desto mehr Feldlinien verfehlen den magnetisch leitenden Kopf und induzieren damit keine Spannung in der Lesespule. 777
Digitale Tonsignalspeicherung Mathematisch lässt sich das mit der sog. Spaltfunktion beschreiben. Folglich werden bei s $ 8/2 die aufgezeichneten Bits nicht mehr richtig erkannt, da Streuflüsse benachbarter Bits sich der regulären induzierten Spannung überlagern; es kommt zum sog. „Peak Shift“.
Abb. 14/7. Abstands- und Spalteffekt beim Lesen.
Je größer die Träger- bzw. die Bandgeschwindigkeit ist, umso größer ist die im Lesekopf induzierte Spannungsspitze, und umso später wirken sich Verluste durch den Spalteffekt aus; andererseits gibt es mechanische Grenzen für die maximal erreichbare absolute oder zu den Aufzeichnungsköpfen relative Geschwindigkeit des Bands. Lange Zeit waren integrierte induktive Schreib/Lese-Köpfe ein Kompromiss beider Vorgänge, bis im Jahr 1990 die magnetoresistive MR-Technik nutzbar wurde. Abb. 14/8 zeigt einen solchen Schreib-/Lesekopf in seinem prinzipiellen Aufbau. Geschrieben wird konventionell mit einem Magnetfeld, das durch einen elektrischen Strom erzeugt wird. Gelesen wird mit einem MR-Element, dessen elektrischer Widerstand sich mit dem Quadrat des anliegenden magnetischen Streufelds ändert. Hierdurch werden die Abmessungen des Lesekopfs erheblich verkleinert. Die magnetoresistiven Köpfe lassen sich ähnlich wie integrierte Schaltungen herstellen. Eine weitere Miniaturisierung führte zur GMR-(Giant Magneto Resistance)Technologie, die zusätzlich auf quantenmechanischen Effekten beruht und damit Spaltbreiten von nur wenigen Ångström (1 Å = 10-10 m) zulässt. Abb. 14/9 veranschaulicht die wesentlichen Phasen, die ein digitales Tonsignal bei der PCMAufzeichnung durchläuft: 778
Digitale Tonaufzeichnung
Abb. 14/8. Moderner digitaler Schreib-/Lesekopf.
Abb. 14/9. Signale bei der digitalen Aufzeichnung.
779
Digitale Tonsignalspeicherung Die binäre Information wird für den Speicherkanal formatiert, der Kanalcodierung (in diesem Fall MFM) unterzogen und anschließend auf den Träger geschrieben. Bei der Wiedergabe wird das Kopfsignal entzerrt, der Takt regeneriert und damit die binäre Information zurück gewonnen. Nach der Decodierung und Fehlerkorrektur stehen die PCM-Werte dann wieder zur Verfügung. Seit 1995 hat u. a. das PRML-Encoding, bei dem die Signale im Lesekanal nicht mehr nach Spitzenwert oder Nulldurchgang, sondern nach ihrer Ähnlichkeit decodiert werden, bei Band und Platte die Aufzeichnungsdichte wesentlich erhöht. Als Faustregel für die fortschreitende Entwicklung gilt eine Verdopplung der Medienkapazität etwa alle 18 Monate, eine Grenze dieser Steigerungsrate ist noch nicht abzusehen.
14.1.6
Magnetband-Aufzeichnung
Das Speichermedium Magnetband ist aus der analogen Speicherung bereits bekannt. Bei der PCM-Aufzeichnung werden in Abhängigkeit vom verwendeten Verfahren mehrere zur BandLaufrichtung parallel oder schräg angeordnete Spuren zeitgleich geschrieben oder gelesen. Zur Verbesserung der Lauf- und Wickeleigenschaften werden auf der Magnetkopfseite Gleitmittel und auf der Rückseite rauhe Beschichtungen verwendet. Die Magnetbänder für die digitale Speicherung sind mittlerweile bei Banddicken von 6 bis 8 :m angelangt. Da ihr magnetisches Verhalten hochkoerzitiv ist, sind sie weitgehend resistent gegenüber Fremdfeldeinflüssen; sie benötigen zur Aufzeichnung des Nutzsignals und zur Löschung starke Magnetfelder. Als Magnetschicht wird Metallpulver (MP/Metal Particle) oder Metallbedampfung (ME/Metal Evaporated) verwendet. Statt klassischem Eisenoxyd und Chromdioxyd kommt z. B. Bariumferrit mit sehr kleiner Partikelgröße zum Einsatz. MEBänder haben ausgezeichnete magnetische Eigenschaften und bieten daher hohe Datensicherheit. Die Beschichtung ist sehr dünn und glatt; ME-Bänder verursachen wenig Kopfabrieb. Sie werden deshalb gern bei Recording-Systemen mit rotierenden Köpfen eingesetzt, obwohl sie mechanisch empfindlicher sind als MP-Bänder. Diese haben eine ca. 10-fach dickere Beschichtung und verursachen vergleichsweise mehr Kopfabrieb, sind aber mechanisch robuster und ideal für den intensiven Studiobetrieb mit häufigen Umspulvorgängen an ein und derselben Stelle. Ihr bevorzugter Einsatzbereich ist die lineare Aufzeichnung mit zur Bandkante parallelen Spuren. 14.1.6.1
Helical-Scan-Aufzeichnung
Als Anfang der 1980er Jahre die digitale Tonaufzeichnung im professionellen Audiobereich immer mehr Interesse fand, eigneten sich für die Aufzeichnung der hohen Datenraten nur die vorhandenen studiotauglichen Videorecorder. Zu diesem Zweck wurde das digitalisierte Tonsignal in „Audioprozessoren“ so codiert und umformatiert, dass es als scheinbares Videosignal (Pseudo-Videosignal) aufgezeichnet werden konnte. Audioprozessoren PCM-F1 und PCM-1610/1630 Der erste bekannte, noch semi-professionelle Audioprozessor für den Rundfunkbereich ist der PCM-F1, der nach dem EIAJ-Standard arbeitete und einen Betamax-Videorecorder aus dem 780
Digitale Tonaufzeichnung Consumer-Bereich verwendete. Er ist eigentlich ein 14-Bit-Prozessor, der auf Kosten eines reduzierten Fehlerschutzes auf 16-Bit-Auflösung umgeschaltet werden konnte. Bei Verwendung besonders glatter Videobänder ließ sich die Fehlerrate im Speicherkanal soweit reduzieren, dass ein einwandfreier Betrieb auch mit einer Wortbreite von 16 Bit pro Tastwert möglich wurde. Unterschiedliche Abtastraten ergeben sich beim PCM-F1 in Abhängigkeit vom benutzten Videostandard. Bei PAL/SECAM-Norm beträgt die Abtastrate 44,1 kHz, bei NTSC-Norm (im sog. Drop-Format mit 29,97 Hz Bildfrequenz) sind es 44,056 kHz. Nachfolger des PCM-F1 sind im professionellen Bereich die Audioprozessoren PCM1610/1630 in Verbindung mit professionellen U-matic-Videorecordern. Sie verwenden zwar dieselben Abtastraten wie der PCM-F1, arbeiten jedoch nur nach NTSC-Fernsehnorm wahlweise im Drop- oder Non-Drop-Format. Möglichkeiten zur digitalen Schnittbearbeitung und für das CD-Mastering sind vorgesehen. In jedem der beiden Halbbilder nutzen sie 245 Zeilen der nominal 525 Zeilen eines NTSC-Vollbildes zur Datenspeicherung. Durch die bei der Codierung verwendete Interleaving-Distanz von 11b Zeilen können Dropouts in dieser Länge noch korrigiert werden. Die Daten werden im NRZ(L)-Code als Pseudo-Videosignal kanalmoduliert. Um den Fehlerschutz nicht empfindlich zu stören, muss am Videorecorder der Dropout-Kompensator für Videosignale unbedingt abgeschaltet sein. Der Video-Dropout-Kompensator ersetzt zur Fehlerverschleierung als defekt erkannte Bildzeilen durch die jeweils vorhergehenden und macht damit die korrekte Regeneration von PseudoVideosignalen für Audioanwendungen unmöglich. Ausführliche Informationen über beide Formate sind in [14.3] zu finden. Tab. 14/1 zeigt beide Formate im Vergleich zum DATFormat. Tab. 14/1. Pseudo-Videoformate und DAT im Vergleich. Format Quantisierung [Bit/linear] Abtastrate [kHz] Bruttodatenrate [MBit/s] Redundanz [%] Recordertyp Bandbreite [mm] Bandgeschwindigkeit [mm/s] Längsdichte [Bit/mm] Spurdichte [1/mm] Spurbreite [:m]
DAT 16 48 2,5 27,3 R-DAT 3,81 8,15 2400 50 13,591
PCM-F1 16 (14) 44,1 3,6 60 Betamax 12,65 20 348 34,2 29,2
PCM-1610 16 44,1 3,6 60 U-matic 19,05 95 348 7,3 85 (+52 Rasen)
DAT-Format Der DAT-Standard existiert seit 1987 unter der Bezeichnung R-DAT (Rotary head Digital Audio Tape) [IEC 61119] und war damals als Nachfolger des analogen Compact-CassettenFormats (CC) gedacht. Er konkurrierte mit dem S-DAT-(Stationary Head Digital Audio Tape)-Format. Da sich S-DAT nicht durchsetzen konnte, wird R-DAT heute verkürzt als DAT-Format bezeichnet. Vor allem wegen der Kopierschutzdiskussion um das von der Softwareindustrie geforderte SCMS (Serial Copy Management System) blieb DAT für den Consumer-Markt nahezu bedeutungslos. 781
Digitale Tonsignalspeicherung Mit der DCC (Digital Compact Cassette) wurde ebenfalls erfolglos im Jahr 1992 ein weiterer auf Längsaufzeichnung basierender möglicher Nachfolger für das CC-Format auf den Markt gebracht. DCC zeichnet die digitalen Tondaten mit PASC (Precision Adaptive Subband Coding) datenreduziert und verlustbehaftet auf. Bandgeschwindigkeit und Abmessungen von CC und DCC waren so ähnlich, dass in DCC-Geräten auch analoge CC-Kassetten abgespielt werden konnten. Der Vergleich des DAT-Formats in Tab. 14/1 mit seinen Vorgängern zeigt eindrucksvoll die Entwicklung der Magnetbandspeichertechnik. Die teilweise professionellen Quellencodierungsmerkmale von DAT, wie lineare 16-Bit-Aufzeichnung mit 48 kHz-Abtastrate, führten zu größerer Bedeutung von DAT auch im Rundfunkbereich [14.4]. Im Zuge der fortschreitenden Professionalisierung von DAT wurde die Bandqualität weiter verbessert, praxisgerechte Interfacetechnik in den Laufwerken implementiert und zur Qualitätsüberwachung die Hinterbandkontrolle mit Ampelanzeige entwickelt. Auch erfreuten sich mehrere Generationen von handlichen Recordern für Reportagezwecke großer Beliebtheit; Studiomaschinen für Produktion und Sendung werden aktuell zwar nicht mehr gebaut, sind aber absehbar noch länger im Rundfunkumfeld anzutreffen. DAT-Kassetten waren und sind auch in den Schallarchiven der Funkhäuser zu finden und werden dort sukzessive in digitale Archivsysteme eingespielt (vgl. Kap. 14.3.2.4). Tab. 14/2. DAT-Betriebsarten für professionelle Anwendung. Parameter Kanalzahl Abtastrate [kHz] Quantisierung [Bit/linear] Subcode-Kapazit [kBit/s] Bandgeschwindigkeit [mm/s] Bandspieldauer [min]
Version 1 2 48 16 273,1 8,15 120
Version 2 2 44,1 16 273,1 8,15 120
Version 3 2 32 16 273,1 8,15 120
Abb. 14/10. Kopftrommel beim DAT-Format.
Die wichtigsten DAT-Betriebsarten für den professionellen Betrieb zeigt Tab. 14/2. Eine ausführliche Beschreibung ist in [14.5] zu finden. Das 13 :m dünne, wie beim analogen CCFormat 3,81 mm breite MP-Band ist in einer scheckkartengroßen 2-Loch-Kassette geschützt untergebracht. Wie beim Videorecorder wird es von der Mechanik aus dem Kassettengehäuse 782
Digitale Tonaufzeichnung herausgezogen und in Form eines Omegas um die Kopftrommel gelegt. Der Umschlingungswinkel beträgt nur 90/ und erfordert deshalb eine zeitliche Signalkompression (siehe Abb. 14/10). Die absolute Bandtransportgeschwindigkeit beträgt lediglich 8,15 mm/s (im Gegensatz zu 4,75 cm/s beim analogen CC-Format). Durch die mit 2000 U/min rotierende Kopftrommel – in der Regel mit 30 mm Durchmesser – wird eine relative Bandgeschwindigkeit von 313 cm/s erreicht. Professionelle DAT-Recorder haben vier rotierende Köpfe und ermöglichen auf diese Weise zur Qualitätssicherung eine Hinterbandkontrolle. Die Aufzeichnungsköpfe schreiben ihre Schrägspuren mit einer Spurbreite von 20,41 :m, mit abwechselndem Azimutwinkel von ± 20/ und mit Überlappung. Hieraus resultiert eine Spurbreite von 13,591 :m für das Lesen. Durch die versetzten Azimutwinkel erreicht man bei den kurzen Wellenlängen eine ausreichende Kanaltrennung, so dass kein Leerbereich (sog. Rasen) zwischen den Spuren nötig ist. Abb. 14/11 zeigt das Spurbild des DAT-Formats. Bei jeder Kopfradumdrehung werden digitale Ton-, Zusatz- und Steuerdaten auf dem Magnetband abgelegt. Jeweils vor und nach dem Hauptdatenbereich mit den codierten PCM-Daten wird in der Schrägspur ein kleiner Bereich für Spurführungssignale (ATF, Automatic Track Finding) und ein Bereich für Zusatzdaten (SUB-Daten) beansprucht. Der PCM-Block einer Spur besteht aus 128 Datenblöcken und jeder SUB-Block enthält 8 Datenblöcke. Dazwischen liegt der ATF-Bereich mit 5 Blocklängen. Vor und hinter den ATF-Aufzeichnungen befinden sich zur Trennung der Datenbereiche spezielle Blocklücken, sog. Interblock Gaps. Sie ermöglichen die getrennte Aufnahme und Bearbeitung von Audio- und Zusatzdaten.
Abb. 14/11. Spurlagen des DAT-Formats.
Als Fehlerschutz kommt sowohl für den PCM- als auch für den SUB-Datenbereich ein doppelter Reed-Solomon-Code zur Anwendung. Der Kanalcode ähnelt dem EFM-Code der CD. 783
Digitale Tonsignalspeicherung Bei DAT wird ein 8/10-Gruppencode verwendet. Die so codierten Daten werden auf die Spuren A und B – geschrieben durch die Köpfe A und B – derart verteilt, dass in Spur A die geradzahligen Datenworte des linken Kanals mit den ungeradzahligen des rechten Kanals kombiniert sind. Spur B enthält dagegen die geradzahligen Datenwörter des rechten und ungeradzahligen des linken Kanals. Diese Verteilung der Daten auf dem Band lässt selbst bei Ausfall einer gesamten Spur, z. B. durch Kopfverschmutzung, noch eine Fehlerverschleierung zu. Neben dem digitalen Speicherbereich in der Mitte des Magnetbands sind am oberen und unteren Rand je eine Längsspur zur Analogaufzeichnung z. B. von SMPTE-Timecode- und anderen Steuersignalen vorgesehen. Das DAT-Format erlaubt wegen seiner SUB-Daten einen CD-ähnlichen Betrieb, wobei hier Platz für die 4,5fache Menge an Zusatzinformation im Vergleich zur CD vorhanden ist. Das machte es möglich, DAT mit großem Erfolg im Programmaustausch und im Archiv einzusetzen. Die Konfektionierung der DAT-Kassetten erfolgt nach [HFBL-13IRT]. Da Lebensdauer und Datensicherheit von DAT-Kassetten begrenzt sind, muss auf Sicherheitskopien und rechtzeitige Datenrettung besonders geachtet werden. Das DAT-Format verliert mittlerweile an Bedeutung (s. o.). Eine ausführliche Beschreibung des DAT-Systems findet sich in [14.5]. Das DAT-Format wird im Informatikbereich in leicht modifizierter Form auch zur Datensicherung verwendet. Die hierfür angebotenen „4-mm-DAT-Streamer“-Kassetten tragen den Zusatz DDS (Digital Data Storage). 14.1.6.2
Helical-Scan-Aufzeichnung für 8-Kanal-Ton
Zwei weitere im Folgenden beschriebene Formate waren im semi-professionellen Bereich sehr erfolgreich und kommen z. B. in der Ton-Nachbearbeitung von Videoaufzeichnungen noch zum Einsatz. Diese beiden Formate sind jedoch, wie auch DAT, auf dem Rückzug und werden nach und nach durch Audioworkstations mit Festplattenspeichern ersetzt. Beide Formate basieren wegen der hohen Audio-Datenraten auf Videolaufwerken. Sie ermöglichen es, durch Timecode-Verkopplung mehrerer Systeme preiswerte 24- und 48-Kanal-Recorder zu realisieren. ADAT (Alesis Digital Audio Tape) Das proprietäre ADAT-Format beruht auf dem S-VHS-Videokassettensystem; der 8-KanalAudio-Recorder arbeitet jedoch mit der dreifachen Videobandgeschwindigkeit. Durch breiteres Band, geringere Aufzeichnungsdichte und fünffach breitere Spuren als beim konkurrierenden DTRS-Format (Digital Tape Recording System auf Hi8-Kassetten) ist die Aufzeichnungssicherheit bei ADAT grundsätzlich höher. Tab. 14/3 zeigt u. a. im Vergleich die Länge eines mit 16 Bit kanalcodierten Audiosamples und die Bandfläche einer Standardkassette. Diese Eigenschaften sorgen im harten Studioalltag besonders beim spurüberschreibenden Editing für einen robusten Betrieb. ADAT nutzt die DAT-Technologie, verwendet jedoch eigene hochintegrierte ASICs (Application Specific Integrated Circuits) für Codierung, Fehlerkorrektur und Fehlerverschleierung.
784
Digitale Tonaufzeichnung Tab. 14/3. Vergleich der 8-Kanal-Formate mit DAT. Format Quantisierung [Bit/linear] Abtastrate [kHz]
DAT 16 48 / 44,1
ADAT 16 [I] / 20 [II] 48 / 44,1
Tonkanäle Recordertyp Kopftrommel [U/min] Köpfe
2 R-DAT 2000 2 x Aufnahme, 2 x Wiedergabe 3,81 8,15 13,591 6,66 :m 0,299 m2
8 S-VHS 3000 2 x Aufnahme, 2 x Wiedergabe 12,7 95 (3-fach Video) 100 13,99 :m 3,036 m2
Bandbreite [mm] Bandgeschwindigkeit [mm/s] Spurbreite [:m] 1 Sample bei 8/10 Encoding Bandfläche (Std.-Kassette)
DTRS 16 / 24 [HR] 48 / 44,1 (8-kanal) 88,2 / 96 (4-kanal) 176,4 / 192 (2-kanal) 2 bis max. 8 Hi-8 Video 2000 2 x Aufnahme, 2 x Wiedergabe 8 15,955 20 6 :m 0,864 m2
DTRS (Digital Tape Recording System) Das Format basiert auf dem Hi8-Videokassettensystem. Die Aufzeichnung erfolgt in Spurpaaren mittels DAT-Chipsätzen, d. h., die gesamte Tondatenverarbeitung basiert auf dem DAT-Format (vgl. Tab. 14/3). Darüber hinaus ist ein DTRS-Mehrspurrecorder als einziger bandbasierter Recorder in der Lage, zweispurig das Direct-Stream-Digital-Aufnahmeformat (DSD) zu verarbeiten und eignet sich deshalb als Masterrecorder für die Produktion der Super Audio CD (SACD). Es lassen sich bis zu 16 Maschinen über Timecode verkoppeln, was einem Recorder mit 128 Tonspuren entspricht. Um die Fehlerraten gering zu halten, sollte speziell für DTRS entwickeltes ME- oder MP-Magnetband verwendet werden. 14.1.6.3
Längsaufzeichnung
Fast zeitgleich zum DAT-Format, das mit Schrägspur-Aufzeichnung arbeitet, wurden professionelle Digitalrecorder mit „Längsaufzeichnung“, also parallel zu den Bandkanten liegenden Spuren, entwickelt. Durch Einsatz von Dünnfilmköpfen und Metallpartikelband war es möglich geworden, höhere Aufzeichnungs- und Spurdichten zu erreichen; und nur so waren bei gleicher Wickelgröße auch die von analogen Recordern gewohnten Spieldauern zu realisieren. Es ist einleuchtend, dass diese Recordergeneration in ihrem Äußeren den analogen Studiomaschinen mit offenen Spulen sehr ähnelte; sie wurden daher auch als digitale „Reel-toReel“-Laufwerke bezeichnet. Wegen des dünnen und glatten Bands und der kleinen Spurdimensionen war jedoch eine wesentlich höhere Präzision in der Antriebsmechanik einzuhalten. Längsaufzeichnende Digitalrecorder gehören zur Gerätekategorie mit der Bezeichnung „Digital Audio Recording with Stationary Heads“. Eine japanisch-deutsche Firmengruppe stellte das zunächst proprietäre DASH-Format (Digital Audio with Stationary Head) als Weiterentwicklung der Längsaufzeichnungstechnik vor. In Konkurrenz hierzu befand sich das ProDigi-Format (Professional Digital, PD) eines anderen Konsortiums. Beide Formate sind in gemeinsamen Standards für Zwei- und Mehrkanaltechnik definiert und wurden im professionellen Bereich vor allem als 24- und 48-Kanal-Recorder eingesetzt [IEC 61120] und [IEC 61595]. 785
Digitale Tonsignalspeicherung Das ProDigi-Format hat sich in professionellen Studios nicht durchsetzen können; im Folgenden wird daher nur auf das DASH-Format näher eingegangen. DASH-Format Weite Verbreitung in professionellen Tonstudios fand das DASH-Format. Die wichtigsten Parameter zeigt Tab. 14/4. Zum Einsatz kommen die einfache Spurdichte bei DASH I und eine doppelte mit der Bezeichnung DASH II. Die Spurgeometrie ist abwärtskompatibel, d. h., DASH II-Maschinen können auch DASH I-Bänder wiedergeben. Im Standard unterscheidet man drei Geschwindigkeitsversionen: F (Fast), M (Medium) und S (Slow), die sich jeweils um den Faktor Zwei voneinander unterscheiden. Eine Halbierung der Bandgeschwindigkeit erfordert zur Speicherung der gleichen Informationsmenge die Verdopplung der Spurenzahl auf dem Magnetband. Tab. 14/4. DASH-Versionen. Standard Bandgeschwindigkeit [cm/s] Magnetbandbreite [x Zoll y mm] Banddicke Anzahl Tonkanäle PCM-Spuren pro Kanal PCM-Spuren pro Kopf Analogspuren Hilfsspuren Quantisierung Abtastrate [kHz] Spieldauer [min] Redundanz Aufzeichnungsmodulation Linearspeicherdichte
DASH-F DASH-M DASH-S 76 38 19 ¼ 6,3 ½ 12,7 ¼ 6,3 ½ 12,7 ¼ 6,3 25 :m 8[I] / 16[II] 24[I] / 48[II] 4[I] / 8[II] 12[I] / 24[II] 2[I] / 4[II] 1 2 4 16 48 16 48 16 2 2 (Timecodespur, Steuerspur) 16 Bit/linear 48 / 44,1 / 32 60 120 240 33 % HDM-1 für PCM / Biphase(M) für Timecode und Steuerung PDM für analogen Ton 1500 Bit/mm
Im Rundfunkstudio-Einsatz wurde die Möglichkeit eines mechanischen Schnitts von längsaufgezeichneten Digitalbändern gern gesehen. DASH lässt mechanische Schnitte grundsätzlich zu; für diesen Anwendungsfall wurde das besonders robuste Twin-DASH weiterentwickelt. Dieser Variante einer 2-Kanal-Maschine liegt das Format DASH-M zu Grunde. Anstelle der dort verfügbaren 4 Tonkanäle werden die beiden Tonkanäle jetzt doppelt aufgezeichnet. Während eine normale ¼-Zoll-DASH-Maschine in der Lage ist, eine 5,7 mm lange Störzone zu korrigieren, kann eine Twin-DASH-Maschine den Datenausfall auf einer Länge von 38 mm beheben. Wegen des gewohnten schnellen Schnittablaufs im aktuellen Dienst waren diese Maschinen lange Zeit im Einsatz. Neben den Digitalspuren befinden sich bei DASH-Bändern im Randbereich für "analogartiges" Cueing zwei PDM-Audiospuren (Pulse Duration Modulation, auch Pulse Width Modulation / PWM). Außerdem werden noch eine Kontrollspur mit Steuersignalen für Abtastfrequenz, Bandgeschwindigkeit, Bandbreite und Blockadressinformationen, sowie eine Zeitcodespur für den SMPTE-Timecode gespeichert. Beide Spuren sind mit Biphase-Mark 786
Digitale Tonaufzeichnung moduliert; für die PCM-Audio-Datenspuren wird der HDM-1-Kanalcode genutzt. Ein Datenblock enthält 2 mal 6 Abtastwerte mit einem Checkwort-Bereich zu je 2 Prüfworten für gerade (P) und 2 Prüfworten für ungerade Abtastwerte (Q). Jeder Block beginnt mit einem Synchron-(Sync)- und einem Kontroll-(CTL)-Wort und wird abgeschlossen mit einem CRCCWort, erzeugt nach dem Generatorpolynom G(x) = x16 + x12 + x3 + 1. Die Codespreizung erfolgt in mehreren Schritten nach dem Crossinterleaving-Prinzip, wobei erst ganz am Schluss das CRCC-Wort über die bereits verschachtelten Abtastwerte gebildet wird (siehe [IEC 61120], [IEC 61595] und [14.6]). Die DASH-Maschinen sind heute im Mehrkanal-Produktionsumfeld weitgehend durch Festplattenrecorder ersetzt. 14.1.6.4
Tondatenaufzeichnung auf Computermagnetband
Bei der Suche nach einem bestandserhaltenden und zukunftssicheren Audio-Datenträgersystem („ewiger Tonträger“) fiel der Blick auch auf die Verfahrensweisen der Informationstechnik (IT). Dort werden alle 5 Jahre die Datensätze auf einen neuen Träger kopiert und damit die Dateninhalte „verewigt“. Die Abwärtskompatibilität neuer Laufwerke und Formate ist bei dieser Vorgehensweise besonders wichtig. Da digitale Tonsignale ebenfalls als Datensätze vorliegen und sich auch wie Datensätze behandeln lassen, geraten die Datenspeicher der IT und damit auch das Datenmagnetband als Backup-, Austausch- und Archivmedium in den Mittelpunkt des Interesses [14.7]. Die Entwicklung von Magnetband-Datensystemen verlief in den Anfängen technologisch parallel zur analogen magnetischen Audio- und Videoaufzeichnung, mit dem Unterschied, dass anstelle von Ton- und Bildinhalten binäre Informationen als „Sprache“ des Computers in Form von logischen Null/Eins-Signalen zu speichern waren. Im Jahr 1984 löst die Firma IBM ihr offenes Bandspulensystem für die Backups ihrer Computersysteme durch das damals revolutionäre System 3480 ab. Diese „Cartridge“ genannten Einloch-Bandkassetten enthalten 168 m Chromdioxydband, haben eine Speicherkapazität von 200 MByte mit einer Transferrate von 3 MByte/s und sind in [ECMA-120] standardisiert. Auf das 12,7 mm breite und 30 :m dicke Band wird mit einem GCR 8/9-Code und NRZ(I)Modulation in 18 Spuren aufgezeichnet. Während das Magnetband in der Kassette jeweils dem neuesten Entwicklungsstand entspricht, bleibt der Formfaktor der ½-Zoll-Cartridge mit den Maßen 125x109x24,5 mm3 mit jeweils geringfügigen Modifikationen die „Urform“ für Roboterarchive. Die Cartridge umschließt die drehgesicherte Bandspule entsprechend Abb. 14/12 staubdicht. Sie wird seitlich in das Laufwerk eingeschoben. Am äußeren Bandanfang ist ein Bandführungsklotz befestigt, der es ermöglicht, das Band automatisch aus der Cartridge zu ziehen. Er wird, sobald die Cartridge von der Antriebsspindel des Laufwerks aufgenommen wurde, über den Bandpfad des Laufwerks gezogen und im Zentrum der geräteseitigen Aufwickelspule befestigt. Das Band wird also von der Cartridgeabwickelspule zur Geräteaufwickelspule über die Schreib-/Leseköpfe bewegt und nach getätigtem Datenverkehr in die Cartridge zurückgespult. Bei älteren Formaten mit diesem Formfaktor sind Bandtyp, Inhaltsverzeichnis, Abspielhäufigkeit etc. am Anfang des Bands abgelegt, so dass zum Lesen dieser Informationen das Band aus der Kassette gezogen werden muss. Bei neueren Formaten befindet sich in der Cartridge ein mehrere Kilobyte großer Flashspeicherchip, ein sog. MIC (Memory In Cartridge). Im MIC sind diese Cartridge-Informationen 787
Digitale Tonsignalspeicherung gespeichert und können ohne Beanspruchung des Datenbands über Kontakte oder sogar berührungslos gelesen und aktualisiert werden (vgl. auch Kap. 14.1.13).
Abb. 14/12. ½-Zoll-Cartridge, LTO-Streamer und Magnetkopf.
Längsaufzeichnung (Digital Linear Tape, DLT) Im Lauf der Zeit haben sich etliche weitere Datenformate unterschiedlicher Bandbreiten und Kassetten, wie das QIC-, Travan- und SLR-/MLR-Format etabliert. Eines der bekanntesten ist das DLT-Format. Seine Cartridge ähnelt im Aufbau der klassischen 3480-Type, ist aber etwas größer und beansprucht daher im Roboterarchiv mehr Volumen. Im Rundfunkbereich wird DLT für den Programmaustausch von Audiofiles und in der Medienbranche z. B. als Mastertape für die DVD-Produktion verwendet Ein Laufwerk nach [ECMA-259], in der das DLT5-Format standardisiert wird, ist z. B. in Form des DLT 7000 realisiert. Abb. 14/12 zeigt den Schreib-/Lesekopf dieses Laufwerks. Das Magnetband wird, wie bei linear aufzeichnenden DLT-Laufwerken üblich, im sog. Serpentinen-Modus beschrieben. Hierbei werden zunächst gleichzeitig 4 Spuren in der einen Richtung (im Beispiel von links nach rechts) aufgezeichnet. Die hinter den linken Schreibköpfen in der Mitte angeordneten Leseköpfe dienen der Hinterbandkontrolle. Am Bandende wird die Laufrichtung umgeschaltet und der Kopf wird in der Höhe verstellt; nun zeichnen die rechten Schreibköpfe auf und die Leseköpfe dienen wiederum zur Hinterbandkontrolle. 788
Digitale Tonaufzeichnung Auf diese Weise wird in ständigem Richtungswechsel das gesamte Band mit insgesamt 208 Spuren beschrieben. Da wie beim DAT-Format die benachbarten Spuren ohne Rasen aufgezeichnet werden, wird beim „Symmetric-Phase-Recording“ für die beiden ineinander verschachtelten Spurgruppen zur Verhinderung des Spurübersprechens zwischen benachbarten Spuren der Kopf beim Richtungsumschalten zusätzlich um einen Spaltwinkel von ± 9,41o geneigt. Bei Köpfen anderer Formate ist der Azimut fest eingestellt. Der im Laufwerk eingebaute Controller steuert alle Abläufe und sorgt durch Zwischenspeicherung in einem sog. Cache-Speicher dafür, dass das Laufwerk kontinuierlich schreibt und liest und daher im verschleißarmen Streaming-Mode arbeitet. Der Controller sorgt auch für die Formatierung und Fehlerschutzcodierung der Daten. So werden beim DLT5-Format die Datenwerte jeweils synchron über vier Spuren CRC/Reed-Solomon-codiert verteilt. Aus DLT ist das aktuelle „Super DLT“ (SDLT) hervorgegangen. Die unkomprimierte Kapazität erhöht sich von 40 auf 110 GByte. Die Datenrate ist nahezu doppelt so hoch. Möglich macht dies eine Kombination aus magnetischer Aufzeichnungstechnik mit optischer Unterstützung, wobei die Positionierung der Aufnahmeköpfe nach dem Laser-Guided-MagneticRecording-Prinzip (LGMR) erfolgt. Mit dem Pivoting-Optical-Servo (POS) steht ein optisch unterstütztes Servosystem zur Verfügung, das eine höhere Spurdichte zulässt. Zudem entfällt durch Anwendung von POS das Vorformatieren des Bands. AMP-(Advanced Metal Powder)-Bänder bieten gegenüber herkömmlichen MP-Bändern eine deutlich gesteigerte Datendichte; auf ihrer Rückseite sind bereits die optischen Servospuren als sog. Servotargets abgelegt. Diese werden von drei Laserstrahlen erfasst, die eine sehr genaue Ausrichtung der Köpfe ermöglichen. Acht MRC(Magneto-Resistive-Cluster)-Köpfe beschreiben parallel die 448 verfügbaren Datenspuren. Der zur Datenaufzeichnung genutzte EPR-(Enhanced Partial Response)-Übertragungskanal ist eine Weiterentwicklung des mittlerweile in der Aufzeichnungstechnik gebräuchlichen PRML(Partial Response Maximum Likelihood)-Kanals. Andere Entwicklungen weisen noch leistungsfähigere Formate auf, wie z. B. das Jaguar-Format, das fünf Servospuren zur Magnetkopfführung bei der Bandherstellung aufzeichnet, zwischen denen dann die Datenspuren liegen. Auf diese Weise ist es gelungen, auf der in Abb. 14/12 gezeigten Cartridge 1 TByte in 1536 Spuren aufzuzeichnen. Dieses und andere leistungsfähige, proprietäre Formate diverser Hersteller sind die Impulsgeber für das von einem Firmen-Konsortium standardisierte und auf Kompatibilität überwachte LTO-(Linear Tape Open, Ultrium)-Format. Das weit verbreitete LTO-Format arbeitet ähnlich dem Jaguar-Format, ist jedoch mehr auf einen das Magnetband und das Laufwerk schonenden Streaming-Betrieb ausgelegt. Das wesentlich aufwändigere Jaguar-Format ist robuster und unterstützt auch einen Start-/StoppBetrieb für Einzelzugriffe, wie sie bei der Bearbeitung von Audio/Video-Daten üblich sind. Die Details einiger wichtiger DLT-Formate sind in Tab. 14/5 zusammengefasst. Schrägspur-Aufzeichnung (Rotary Head) Im Helical-Scan-Bereich sind das auf DAT basierende DDS-4mm-Format sowie die auf 8 mmVideolaufwerken aufbauenden AIT-(Advanced Intelligent Tape)- und Exabyte-Formate weit 789
Digitale Tonsignalspeicherung verbreitet. Aber auch von den digitalen Videoformaten D1, D2 und D3 gibt es Daten-Derivate mit teilweise sehr voluminösen Kassettenformaten hoher Kapazität, deren Bedeutung in der Datentechnik jedoch gering geblieben ist. Tab. 14/5. Übersicht diverser ½-Zoll-Formate zum Vergleich. LTO mit 4 kByte MIC Kapazität [Gbyte] Transferrate [MByte/s] Encoding Spuranzahl Datenträger
Gen. 1
Gen. 2
Gen. 3
Gen. 4 (2007)
Gen. 5
100 # 20 RLL 1,7 384 MP
200 # 40 PRML 512 MP
400 # 80 PRML 704 MP
800 # 160 PRML 896 MP
1600 # 180
Magstar 3590H 60 14
Gen. 2 (2005) TS1120 500 - 700 60 - 120 PRML 896 Dual-layer MP
Jaguar Gen. 3 Gen. 4 Labor (2002) 900 - 1100 1100 - 1600 120 - 180 180 - 240 PRML 1536 Dual-layer MP
IBM (Jaguar) mit 4 kByte MIC Kapazität [Gbyte] Transferrate [MByte/s] Encoding Spuranzahl Datenträger
384 MP
Jaguar Gen. 1 3592 300 40 PRML 512 Dual-layer MP
SDLT kein MIC Kapazität [Gbyte] Transferrate [MByte/s] Encoding Spuranzahl Datenträger
Gen. 1 SDLT-320 160 16 EPR 448 AMP
Gen. 2 SDLT-600 300 36 PRML 640 AMP
Gen. 3 (2006) DLTS4 (600) 800 (80) 60 PRML 1280 AMP
Gen. 4 DLTS5 1200 100+
SAIT mit 8 kByte MIC Kapazität [Gbyte] Transferrate [MByte/s] Encoding Magnetköpfe Kopftrommel [U/min] Datenträger
Gen. 1
Gen. 2 (2006)
Gen. 3 ? 2000 120 TCPR MR 8889 AME
Gen. 4 ? 4000 240 TCPR GMR 10000 AME
500 30 TCPR laminierte 5000 AME
(1000) 800 45 TCPR MR 6667 AME
Gen. 6 3200 # 270
Enhanced Partial Response (EPR)
Ein im Rundfunkbereich in Roboterarchiven verwendetes proprietäres Format baut mit seiner Technologie auf dem 8 mm-AIT-Format auf und benutzt die ½-Zoll-Cartridge. Das SAIT(Super AIT)-Format ist ein ebenfalls proprietäres Streaming-Format. Anders als bei der Serpentinen-Aufzeichnung der DLT-Laufwerke wird hier nur in einer Richtung geschrieben und gelesen. Abb. 14/13 zeigt ein Kopfrad mit 8 Schreib- und 8 Leseköpfen.
Abb. 14/13. SAIT-Kopfrad.
790
Digitale Tonaufzeichnung Statt MP-Band wird ein nur 8,6 :m dickes AME-(Advanced Metal Evaporated)-Band verwendet, dessen aus reinem Kobalt aufgedampfte Speicherschicht mit einer diamantharten Kohlenstoff-Schutzschicht (Diamond-Like Carbon, DLC) versehen ist. Bei der Positionierung des Magnetbands nutzt das Laufwerk zur Band- und Kopfschonung das Inhaltsverzeichnis im MIC der Cartridge (s. auch Kap. 14.1.6.4). Die Steuerung und die Geschwindigkeitsanpassung besorgt ein Controller im Laufwerk mit seinem Cachespeicher. Die PCM-Daten werden mit einem dreistufigen ECC (Error Correction Code) geschützt. Bei der 8-Kanal-Aufzeichnung wird eine Trellis-Vorwärtskorrektur zur Verbesserung der PRML-Codierung eingesetzt (Trellis-Coded Partial-Response, TCPR). Datenstreamer-Systeme konkurrieren mit der Magneto-Optical-Disc-Technologie (MOD) und deren Nachfolgern in den Anwendungsbereichen Archivierung und Backup. Das Magnetband mit Lebensdauern zwischen 10 und 30 Jahren ist momentan auf diesen Gebieten dominant und besitzt auf Grund künftiger Nanotechnologie mit weiter verringerten Spurbreiten noch Entwicklungspotenzial (vgl. Übersicht in Tab. 14/5). Auch Festplattensysteme werden inzwischen in Archivspeichersystemen sehr erfolgreich eingesetzt. Auf Grund der besonderen Laufwerkseigenschaften von Hard Disks sind hierbei besondere Strategien zur Datensicherung zu verfolgen (s. auch Kap. 14.3). [14.8]
14.1.7
Magnetplattenaufzeichnung
Die Magnetplatte ist bei der digitalen Tonaufzeichnung im Umfeld von Workstations und PCLösungen das meistgenutzte Speichermedium. Ein Festplattenlaufwerk (Hard Disk Drive, HDD) ist ein ferromagnetischer Speicher der Informationstechnik. Die Festplatte heutiger Bauart wurde bereits im Jahr 1973 von IBM vorgestellt. Erstmals sind der Zugriffsarm, die Schreib-/Leseköpfe und die Magnetscheiben gemeinsam in einem geschlossenen Gehäuse untergebracht. Der Ausgleich des statischen Luftdrucks ist lediglich über ein hochwirksames Staubfilter möglich. Das Entwicklungsprojekt dieser Festplatte trug die Nummer „3030“ – dies war auch die Artikel-Nummer einer unter dem Namen „Winchester“ bekannt gewordenen Handfeuerwaffe; die umgangssprachliche Bezeichnung Winchester-Platte für alle Platten dieser Bauart war somit geboren. Die ersten Winchester-Platten hatten einen Durchmesser von 14 Zoll (35,84 cm) und eine Speicherkapazität von 30 bis 100 MByte. Platten dieser Größe waren für die Tonaufzeichnung in Bezug auf Kapazität und Geschwindigkeit noch wenig geeignet. Für ein digitales Stereosignal mit 16 Bit Linearaufzeichnung und 48 Hz Abtastrate wird für 90 min Aufzeichnungsdauer immerhin 1 GByte Speicherplatz benötigt (1 GByte = 103 MByte = 109 Byte). Bei aktuellen Festplatten gibt es dieses Kapazitätsproblem nicht mehr: Sie erreichen mittlerweile Kapazitäten von 1 TByte (1 TByte = 103 GByte) und Datenraten von 130 MByte/s und eignen sich damit bereits zur linearen HDTV-Aufzeichnung. Die physikalische Größe einer Harddisk wird als Formfaktor in Zoll (") angegeben und entspricht in etwa dem jeweiligen Plattendurchmesser. Der Trend geht kontinuierlich zu immer kleineren Festplatten; gebräuchlich sind Formfaktoren von 5,25" bis herunter zu 0,85". Server und leistungsfähige Workstations nutzen in der Regel 5,25"- und 3,5"-Festplatten, 791
Digitale Tonsignalspeicherung Laptops meistens 2,5"-Disks und portable Geräte wie MP3-Player häufig 1,8"-Platten. 1"-Festplatten werden unter der Bezeichnung MicroDrives (als Konkurrenten der „CompactFlash“Karte) in handlichen Reportagegeräten, Laptops und in Digitalkameras eingesetzt. 14.1.7.1
Aufbau und Funktion
Im Gegensatz zu einer Wechselplatte ist die Winchester-Platte fest in ihr eigenes Gehäuse und Laufwerk eingebaut (Abb. 14/14). Es gibt Wechselfestplatten des Winchester-Typs, die als komplettes Laufwerk ausgetauscht werden können und im Produktionsbereich u. a. als Zwischenspeicher für den schnellen Wechsel zwischen Produktionssystemen dienen.
Abb. 14/14. FestplattenLaufwerk.
Die „Festplatte“ besteht aus mehreren, als Plattenstapel übereinander drehgelagerten „Plattern“. Diese sitzen auf einer Spindel und werden von einem gemeinsamen Elektromotor angetrieben. Die meist vier (bis zu zwölf) Platten eines Laufwerks bestehen zur Reduzierung von Wirbelströmen aus hochwertigen Aluminiumlegierungen und bei den kleineren Bauformen wegen der besseren Stabilität und Wärmeleitfähigkeit in zunehmendem Umfang aus speziell gehärtetem Glas oder Keramikmaterial mit extrem glatten Oberflächen. Die anfangs noch über 2 mm und mittlerweile ab Formfaktor 2,5“ unter 1 mm dicken Platten sind beidseitig hartmagnetisch beschichtet und arbeiten nach ähnlichen Aufzeichnungsmethoden wie die Magnetbänder. Wie bei den Bändern waren es anfangs reine Eisenoxydbeschichtungen, später weniger als 1 :m dicke Kobaltschichten. Barium-Ferrit war für die sog. Senkrechtaufzeichnung sehr erfolgreich, bis im Vakuum mittels Kathodenzerstäubung noch stabilere Legierungen aus Kobalt, Platin und Chrom als Dünnfilm aufgebracht werden konnten. Eine relativ junge Aufzeichnungstechnk ist AFC (AntiFerromagnetically Coupled), eine Dreischicht-Technik, bei der zwischen zwei magnetischen Metallfilmen aus jeweils einer Kobalt-Platin-Chrom-Bor-Legierung ein nicht magnetischer Ruthenium-Layer von nur 6 Ångström (= drei Atomlagen) Dicke liegt. Das bewirkt eine erhebliche Steigerung der Schreibdichte und eine Stabilisierung der aufgezeichneten Bits bei wesentlich höheren Datenraten und Plattendrehzahlen. Die Platten rotieren je nach Leistungsbereich in der Regel mit 4.000 bis 15.000 U/min. Die frühere Kugellagerung der Plattenachse ist mittlerweile wegen der höheren Lebensdauer und geringerer Geräuschentwicklung durch Flüssigkeitslager 792
Digitale Tonaufzeichnung abgelöst. Auf Grund der großen Packungsdichte und der hohen Rotationsgeschwindigkeit sind Laufwerkskonstruktionen mit eigenen thermostatisch geregelten Kühlvorrichtungen in der Überlegung – mit dem Ziel einer noch weiteren Steigerung von Kapazitäten und Lebensdauerzyklen. Zu hohe Betriebstemperaturen können nämlich die statistische Lebensdauer einer Festplatte von 3 bis 5 Jahren zusätzlich reduzieren. Abb. 14/15 zeigt schematisch den Aufbau einer Festplatte. Die Schreib-/Leseköpfe für jede Oberfläche sitzen auf dem drehbar gelagerten „Kopfkamm“, dem Aktuator. Ein Linearmotor nach Tauchspulenprinzip bewegt diesen Aktuator, der Ähnlichkeit mit dem Arm eines analogen Plattenspielers hat. Die aerodynamisch geformten Köpfe gleiten auf einem Luftpolster von nur 10 bis 20 nm, was die Abstandsverluste zwischen Magnetträger und Magnetkopf stark reduziert. Zum Größenvergleich: ein Haar ist etwa 3000 nm und ein Zigarettenrauchpartikel etwa 300 nm dick. Festplatten sind wegen der geringen Flughöhe der Köpfe erschütterungsund schmutzempfindlich. Zum Schutz vor Erschütterungen beim Transport werden beim Ausschalten der Disk die Köpfe in einer Landezone außerhalb des Plattenrands „geparkt“. Für erschütterungsreiche Anwendungen, z. B. in tragbaren Camcordern, werden die Harddisks zusätzlich gekapselt und mechanisch gedämpft gelagert. Setzt ein Schreib-/Lesekopf, erschütterungs- oder verschleißbedingt, trotzdem auf einer Festplatte auf, kommt es zum „Headcrash“, d. h. zu „spanabhebenden“ Defekten auf der Plattenoberfläche. Dabei wird in der Regel auch der Kopf selbst zerstört und ein Teil oder die Gesamtheit der Daten auf dem Datenträger geht verloren. Eine regelmäßige Sicherung der Festplatten-Daten in Form eines Backups ist deshalb unerlässlich. 14.1.7.2
Controller, Codierung und weitere Entwicklung
Der Disk-Controller, eine Steuerelektronik im Laufwerk, koordiniert die Abläufe. Er entzerrt die Zugriffe zeitlich mit Hilfe eines Zwischenspeichers, dem sog. Cache [14.9]. Heutige Harddisks besitzen aufwändige Elektronikbausteine, die im Prinzip eigenständige Mikroprozessoren sind, zur Ansteuerung und verfügen über einen Cache-Speicher von 2 bis 16 MByte Kapazität, mit dessen Hilfe bei übergeordneter Organisation durch den Controller die Wartezeiten für das Schreiben und Lesen deutlich reduziert werden. Die mittlere Latenzzeit, die der Zeit für eine halbe Umdrehung des Plattenstapels im Laufwerk entspricht, ergibt sich bei 15.000 U/min zu etwa 2 ms. Ein Cache-Speicher verringert die Wartezeiten bei Schreib- und Lesezyklen durch Pufferung erheblich. Durchschnittliche Suchzeiten, die auch von der Datenstruktur abhängig sind, liegen heute bei ca. 3 bis 8 ms. Während Daten auf einem Magnetband nur sequentiell, also zeitlinear geschrieben und gelesen werden können, sind auf einer Platte für einen schnellen Zugriff zwei Dimensionen (horizontal und vertikal) zur non-linearen Adressierung vorhanden (Abb. 14/15). Platten werden in kreisrunden Spuren (tracks) adressiert, und diese sind wiederum in Sektoren unterteilt. Werden mehrere Platten zu einem Plattenstapel übereinander gestellt, bilden die Spuren mit gleichem Radius einen Zylinder. Auf die Information eines Zylinders kann elektronisch ohne mechanische Magnetkopfbewegung besonders schnell zugegriffen werden. Beim Beschreiben einer Festplatte empfiehlt es sich daher, die Informationsblöcke kontinuierlich mit minimalen Kopfbewegungen abzulegen. 793
Digitale Tonsignalspeicherung
Abb. 14/15. Schematischer Aufbau einer Festplatte.
Ein Sektor entspricht einem Block beim Magnetband. Infolge der zwei Dimensionen ist der Zugriff auf Daten bei Platten wesentlich schneller als bei bandförmigen Speichern. Platten werden deshalb auch als sekundärer Arbeitsspeicher eines Computers eingesetzt, wenn der implementierte Arbeitsspeicher nicht ausreicht. Magnetbänder dagegen werden für die Datensicherung und Archivierung verwendet und müssen – wie bereits erwähnt – auf diesem Gebiet mit den optischen Speichermedien konkurrieren. Die Plattengeometrie hat zur Folge, dass die Bitlängen auf den äußeren Spuren länger als auf den inneren sind, da die Platten mit konstanter Drehzahl (Constant Angular Velocity, CAV) rotieren. Besondere Schreibalgorithmen steuern die Schreibfrequenz in Abhängigkeit vom Spurradius, um so die Speicherkapazität zu erhöhen. Auf diese Weise werden bei gleichem Winkel nach außen hin immer mehr Sektoren untergebracht, und folglich lassen sich ohne weitere Kopfbewegung mehr Daten unterbringen. Man spricht vom Zoned Bit Recording (ZBR). Die Zoneneinteilung geschieht bereits bei der Fertigung. Die Spureinstellung der Magnetköpfe besorgt ein winkelstellender Linearmotor mit der Genauigkeit von etwa einem Zehntel des Spurabstands. Er bekommt seine Informationen entweder von den Servospuren einer Servo-Oberfläche der Festplatte oder direkt aus den Datenspuren. Zur thermischen Justage (thermal calibration) überprüft das Laufwerk etwa alle 10 Minuten mit Hilfe der Lesespannung seine Spureinstellung. Dieser Vorgang dauert nur Bruchteile einer Sekunde. Während dieser Zeit können jedoch keine Daten gelesen oder geschrieben werden, was bei Echtzeitanwendungen zu Problemen führen kann und bei digitalen Audioworkstations berücksichtigt werden muss. Bei einem Festplattensystem wird die Umsetzung der Quellen- in eine passende Kanalcodierung durch den Hard Disk Controller erledigt. Nach der ECC (Error Correction Coding) nutzt er die historisch ältere MFM-Codierung oder die neueren RLL-Verfahren, z. B. RLL (1,7) und RLL (2,7). 794
Digitale Tonaufzeichnung Beim Formatieren einer Festplatte wird deren Organisation vom Controller festgelegt. Die kleinste Einheit ist ein Sektor, in der Regel mit einer Gesamtlänge von 512 Bytes, mit einer fortlaufenden Sektor-ID, den Daten und deren Fehlerschutz. Mehrere Sektoren werden zur kleinsten logisch ansprechbaren Einheit, dem Cluster, zusammengefasst. Der physikalische Speicherort der zu einer Datei gehörenden Cluster wird im Inhaltsverzeichnis der File Allocation Table (FAT) des Dateisystems einer Harddisk angegeben. Die FAT arbeitet nach der Verkettungstechnik, um jeden freien Speicherplatz zu nutzen. Große Datenmengen können auf diese Weise sehr effektiv in sequentiellen Blöcken verarbeitet werden, während kleine Datensätze fragmentiert, d. h. sehr ineffektiv, auf diversen Sektoren in unterschiedlichen Zylindern verteilt sein können, so dass der Zugriff mit erheblichen Kopfbewegungen verbunden ist. Daher sollten Platten nach gewissen Nutzungszeiten defragmentiert werden, um stark fragmentierte Dateien wieder in zusammenhängende Speicherbereiche zu überführen. Zu Beginn wurden in Winchester-Laufwerken induktive Schreib-/Leseköpfe verwendet, was einen Kompromiss der Schreib- und Leseleistung bedingte. Das änderte sich Anfang der 1990er-Jahre mit der MR- und GMR-Technologie, die mit integrierten Schreib-/Leseköpfen sogar ein direktes „read-after-write“ ermöglichen. Bei der Plattenherstellung gelang der Sprung von der Eisenoxyd- zur Dünnfilmbeschichtung. Den Wechsel in kleinere Formfaktoren und damit billigere Laufwerke ermöglichte die Einführung von RAID-(Redundant Array of Independent Disks)-Architekturen. PRML-Encoding in 3,5“-Laufwerken trieb die Miniaturisierung weiter voran und 1999 folgten die 1“-Mikrodrives mit 340 MByte Speicherkapazität, die bis heute auf 8 GByte gesteigert werden konnte. Weitere Steigerungen in der Aufzeichnungsdichte sind zu erwarten. Durch Erwärmung der Magnetisierungsträger beim Schreiben (Thermally Assisted Recording / TAR oder Heat Assisted Magnetic Recording / HAMR) wird versucht, deren Größe von zur Zeit 8 nm auf 2 nm zu reduzieren. Aus wirtschaftlichen Gründen werden sich die Hersteller von Festplatten vermutlich auf 2,5 Zoll beschränken und derartige Laufwerke in verschiedenen Leistungsklassen anbieten. Workstations und Server nutzen dann hochwertige und daher teure Enterprise- oder FC-/SCSIHDDs (Standard: 15.000 U/min, 320 MByte/s, 500 GByte) mit neuer AFC-Technologie für einen robusten 24h/7d-Dauerbetrieb. Durch die fortschrittliche Senkrechtaufzeichnungstechnik (Perpendicular Recording) werden auch kostengünstigere Hard Disk Drives mit ähnlicher Leistungsfähigkeit verfügbar. Die mit IDE-Laufwerken vergleichbaren preiswerten SATA-HDDs (7200 U/min, 130 MByte/s, 1000 GByte) arbeiten nach der konventionellen MR-Technologie. Sie sind allerdings nur für einen 8-Stunden-Betrieb pro Tag ausgelegt.
14.1.8
Optische Aufzeichnung
Begonnen hat die kommerzielle optische Massenspeicherung mit der Bildplatte, auf der Bild und Ton allerdings noch analog gespeichert waren. Der Abstand zwischen magnetischen und optischen Datenträgern bezüglich Speicherkapazität und Transferrate ist seither zum Vorteil des magnetischen Prinzips größer geworden. Wegen der benötigten Abkühlzeiten für gerade geschriebene Bits arbeitet die optische Technik mit geringeren Drehzahlen als die magnetische Technik. Eine weitere Folge der Materialerwärmung bei den optischen Techniken ist die größere lineare Ausdehnung der Bits und deren hieraus resultierende physikalisch/chemische 795
Digitale Tonsignalspeicherung Beschaffenheit. Auch die Volumenpackungsdichte ist bei magnetischen Bandträgern höher, da deren Windungen direkt aufeinander liegen. 14.1.8.1
Optische Speicherverfahren
Die Information optischer Speichermedien wird berührungslos abgetastet. Ein durch Blenden begrenzter Laserstrahl (Halbleiter- oder Gaslaser) wird durch Linsen auf die Informationsebene des Speichermediums fokussiert. Die Informationsebene ist zur Sicherheit nicht an der Oberfläche angeordnet, sondern in das Speichermedium eingebettet oder von einer transparenten Schutzschicht überdeckt. Eine fotoempfindliche Elektronik tastet entweder den reflektierten oder den durch das Medium hindurchgehenden Laserstrahl ab und entscheidet mittels einer Schwellwertschaltung, welcher Bitzustand der Lichtintensität zuzuordnen ist. Abb. 14/18 zeigt das Abtastsystem eines CD-Spielers. Sowohl bei reflektierenden als auch bei transmittierenden Speichern wird der Laserstrahl auf eine Bezugsebene, die als „Land“ bezeichnet wird, fokussiert (Abb. 14/16). Fällt nun eine abtastseitige Erhebung, die – von der Rückseite einer industriell gepressten Informationsschicht aus betrachtet – als „Pit“ (Vertiefung) bezeichnet wird, in den Bereich des fokussierten Laserstrahls, dann wird wegen der auftretenden Streuung nur noch ein Teil des Lichts reflektiert. Dieser Intensitätsunterschied wird für die Darstellung der logischen Grundzustände ausgewertet. Reflektierende Speicher weisen auf der dem Laserstrahl gegenüberliegenden Seite eine Schicht auf, die meist durch Aluminiumbedampfung einer Kunststoffplatte aus Polycarbonat erzeugt wird. Zweiseitig reflektierende Speicher werden durch Rücken-an-Rücken-Montage von zwei Einzelplatten miteinander verklebt. Auch transmittierende Speicher können zweioder mehrseitig aufgebaut werden, da sich die jeweils nicht benutzte Schicht im stark defokussierten Teil des Laserstrahls befindet und deshalb den Lichtdurchtritt nicht beeinflusst. Read Only Memory – ROM Nur-Lese-Speicher (Read Only Memory) werden üblicherweise direkt bei der Herstellung des Speichermediums „beschrieben“. Die Information wird wie bei der CD-DA oder der CDROM als Oberflächenrelief beim Spritzguss eingepresst. Davor wird im Masteringprozess von einem Mastertape eine Pressmatrize erzeugt (vgl. Kap. 14.2). Write Once Read Multiple – WORM Diese Datenträger sind nur einmal beschreibbar und mehrfach lesbar. Beim Schreibverfahren durch „Pit-Erzeugung“ wird eine vorformatierte, nicht-transparente Schicht aus organischem Farbstoff an den informationstragenden Stellen zerstört, so dass eine darunter liegende reflektierende Schicht sichtbar wird, und somit Pits und Lands unterschieden werden können. Beim Verfahren durch „Bubble-Erzeugung“ wird ein formatiertes, wärmeempfindliches Substrat auf der Oberfläche des Mediums erhitzt. Dabei entstehen Blasen, die das Laserlicht beim Lesen der CD diffus reflektieren.
796
Digitale Tonaufzeichnung Read Write Erase – RW Ein Verfahren, bei dem mehrfach gelesen, geschrieben und gelöscht werden kann, ist das thermisch, magnetisch und optisch wirkende Verfahren, wie es die MOD (Magneto Optical Disk) verwendet. Bei diesem Verfahren ändern im Speichermedium befindliche Elementarmagnete ihre Ausrichtung unter Einwirkung eines magnetischen „Zugfelds“ an den Stellen, an denen das Laserlicht auftrifft und das Medium auf eine Mindest-Temperatur erwärmt (CurieEffekt). Die Information bleibt bis zum erneuten Aufheizen auch ohne äußeres Magnetfeld gespeichert. Wird das Medium beim Lesevorgang mit polarisiertem Laserlicht bestrahlt, so ist das Reflektionsverhalten an seiner Oberfläche abhängig von der Ausrichtung der Elementarmagnete an der jeweiligen Stelle. Die Polarisationsebene des auftreffenden Strahls wird je nach Orientierung der beleuchteten Magnetdomäne um einen festen Winkel gedreht. Befindet sich die phasenempfindliche Auswertelogik auf der gleichen Speicherseite wie der Laser, spricht man vom Kerr-Effekt. Bei der Durchlichtauswertung handelt es sich um den FaradayEffekt. Das „Phasenwechselverfahren“ überführt die in einem optischen Speichermedium befindlichen Speicherpartikel vom amorphen in den kristallinen Zustand; nach diesem Prinzip ändert sich das Reflexionsverhalten z. B. bei der CD-RW (ReWritable). Der amorphe Zustand besitzt einen geringeren Reflexionsfaktor und einen höheren Absorptionsgrad als der kristalline Zustand; daher kann das Phasenwechselverfahren sowohl für reflektierende als auch transparente Speichermedien eingesetzt werden. Bei allen Read-Write-Erase-Verfahren kann der Datenträger für eine begrenzte Anzahl von Wiederholungen durch Energiezufuhr gelöscht und neu beschrieben werden. 14.1.8.2
Optische Aufzeichnungsverfahren
In der Regel basieren die heute angebotenen optischen Speicher auf kreisförmigen Kunststoffscheiben. Die Aufzeichnung kann in Form von konzentrischen Ringen erfolgen, vergleichbar mit magnetischen Platten. Der überwiegende Teil verwendet jedoch eine Aufzeichnung in einer spiralförmigen Spur, ähnlich der Tonspur einer Schallplatte. In der Informationsspur werden zur Codierung der beiden logischen Zustände konstante geometrische Bit-Längen verwendet. Die aufgezeichneten Daten setzen sich in der Regel aus Bytes zusammen, die in Blöcken organisiert sind, vergleichbar den Sektoren herkömmlicher magnetischer Speicher. Numerische Apertur (NA) Die Numerische Apertur (NA) ist ein wichtiger Parameter bei optischen Abtastsystemen und beschreibt das Maß für die wellenlängenabhängige Bündelungsfähigkeit paralleler Lichtstrahlen und damit für das geometrische Auflösungsvermögen eines schreibenden oder abtastenden Licht- bzw. Laserstrahls. Sie ist auch ein Äquivalent zur Blendengröße in fotografischen Objektiven. Eine hohe NA ermöglicht eine bessere Auflösung, was jedoch auf Kosten einer schlechteren Feldtiefe (Schärfentiefe) geht. Durch die Wellenlängenabhängigkeit der NA wird die minimale Größe der Datenelemente auf einem optischen Datenspeicher bestimmt. Je kürzer die Wellenlänge des Lichts, desto höher ist die mögliche Datendichte.
797
Digitale Tonsignalspeicherung Constant Angular Velocity (CAV) Das Verfahren der konstanten Winkelgeschwindigkeit zeichnet gleich große Informationsmengen in gleichen Winkelsegmenten auf, vergleichbar den Sektoren der Harddisk. Dies bedeutet, dass die inneren Sektoren eine wesentlich höhere Speicherdichte aufweisen als die äußeren. Der Vorteil liegt in der konstanten Drehzahl des Antriebssystems und der einfachen Adressierbarkeit von Informationsblöcken. Constant Linear Velocity (CLV) Die verfügbare Speicherfläche wird effizienter genutzt, wenn die Informationsmenge mit gleichmäßiger Dichte in der Spur aufgezeichnet wird. In diesem Fall ist die Relativgeschwindigkeit zwischen Schreib-/Lesekopf und Speichermedium konstant. Die Drehzahlen für den inneren und äußeren Teil der Spiralspur sind daher unterschiedlich. Diese Drehzahl muss bei jedem Zugriffswechsel über mehrere Spuren hinweg erneut eingestellt werden, was zu relativ hohen Zugriffszeiten führen kann. Hinzu kommt, dass die Sektoradressierung aufwändiger ist. Diesen Nachteilen steht ein drastisch erhöhtes Speichervolumen durch die optimale Speicherdichte vorteilhaft gegenüber. Universal Disk Format (UDF) Das Universal Disk Format ist ein von der OSTA (Optical Storage Technology Association) entwickeltes und standardisiertes plattformunabhängiges Dateisystem. Es wird vor allem für optische Platten verwendet und löst nach und nach das [ISO 9660]-Format ab. [UDF] wurde als [ISO 13346] normiert und ist auch unter dem Namen [ECMA-167] bekannt. Prinzipiell ist UDF für alle RW- und ROM-Medien einsetzbar, kann von den meisten Betriebssystemen gelesen werden und ist eine leistungsfähige Alternative zum veralteten FAT-Dateisystem.
14.1.9
Compact Disc
Die CD wurde 1982 als Nachfolgerin der analogen Nadelton-Schallplatte („Schwarze Scheibe“) eingeführt. Mittlerweile gilt sie als ein großer Erfolg in der elektronischen Konsumgüterbranche, der auch auf die optimale Kooperation der Entwickler und der Plattenindustrie zurückzuführen ist. Leider gibt es eine verwirrende Vielzahl von Derivaten, weshalb die hier näher betrachtete Audiovariante auch als CD-DA (Digital Audio) bezeichnet wird. Die CDDA ist im nicht öffentlichen [Red Book] spezifiziert und die wichtigsten Eigenschaften sind als [IEC 60908] standardisiert. Die Audiodaten werden mit einer Abtastrate von 44,1 kHz, 16 Bit linearer Quellencodierung und 2-kanalig aufgezeichnet. Die Datenrate beträgt 1,411 MBit/s. 14.1.9.1
Beschreibung
Die CD ist eine Kunststoffscheibe mit einem Durchmesser von 12 cm, einer Dicke von 1,2 mm und einem 15 mm Mittelloch. Vor der Toninformation befinden sich, nicht weit vom Mittelloch, der Lead-In- und am äußeren Rand der Lead-Out-Bereich. Für die eigentliche Tonaufzeichnung steht der Programmbereich zwischen den Durchmessern 50 bis 116 mm zur 798
Digitale Tonaufzeichnung Verfügung. Die Information befindet sich in einer spiralförmigen Spur mit einer Steigung von nominal 1,6 :m. Abgetastet wird die CD, anders als eine Schallplatte, von innen nach außen mit einer konstanten Lineargeschwindigkeit (CLV), die in einem Bereich von 1,2 bis 1,4 m/s liegen darf. Die Drehzahl variiert zwischen 200 und 500 U/min und bewirkt somit eine auf der gesamten CD-Fläche gleich große Speicherdichte. Die Spur besteht aus Stellen ohne Vertiefung, dem sog. „Land“ und aus den von der Rückseite in die 1,2 mm dicke durchsichtige Polycarbonatscheibe eingeprägten Vertiefungen, den sog. „Pits“ (Vertiefungen). Diese haben eine Tiefe von typisch 0,12 :m (Abb. 14/16).
Abb. 14/16. Schichtaufbau der CD.
Abb. 14/17. Blockdiagramm der CD-Codierung.
Auf die informationstragende Rückseite des Pressrohlings wird eine ca. 50 nm dicke Reflexionsschicht aus Aluminium aufgedampft. Darüber befindet sich ein Schutzlack von maximal 10 :m, und auf diesen wird das „Label“ gedruckt. Die Disc ist auf der rückwärtigen Seite mechanisch sehr empfindlich und sollte daher nicht mit ungeeigneten Mitteln beschriftet oder 799
Digitale Tonsignalspeicherung beklebt werden. Die Pits sind Träger der Information und haben eine Breite von 0,5 :m und Längen von ca. 0,8 bis 3 :m. Die kleinste Dateneinheit ist das Kanalbit, dessen logischer Wert „Eins“ durch einen Übergang von Land nach Pit bzw. umgekehrt repräsentiert wird. Abb. 14/17 zeigt die bei der CD-DA bzw. bei der CD-ROM verwendete Codierung im Blockdiagramm. Die Pits liegen in der sich an die EFM-Modulation anschließenden NRZ(I)-Codierung vor und enthalten die digitalen Informationen. Zur Fehlerkorrektur wird Redundanzbildung und Codespreizung mittels CIRC (Cross-Interleaved-Reed-Solomon-Code) angewendet, wodurch eine hohe Sicherheit gegen Zufalls- und Bündelfehler (burst error) erreicht wird. Bei der CD-DA werden jeweils 98 Datenrahmen bzw. Frames zu einem Block, hier auch als Sektor bezeichnet, zusammengesetzt. Insgesamt sind bei der CD-DA bis zu 250 Fehler pro Sekunde korrigierbar. Die Kontrollbits ergeben 8 Zusatzdatenkanäle und werden mit P bis W bezeichnet. Der P-Subchannel kennzeichnet den Beginn eines Audio-Tracks. Es können maximal 99 Tracks auf einer CD-DA untergebracht werden. Der Q-Subchannel enthält je nach Modus Tracknummer und Programmzeitdaten, den EAN-Code (Europäische Artikel-Nummer) oder den ISRC (International Standard Recording Code). Bei reinen Audio-CDs werden Subchannel R bis W des Kontrollworts nicht genutzt. Eine ausführliche Beschreibung des CD-Systems findet sich in [14.5].
Abb. 14/18. CD-Abtasteinheit – Prinzip eines 1-Strahl-Lasersystems.
Die optische Abtastung der CD erfolgt durch den Polycarbonatträger hindurch von unten durch gebündeltes Laserlicht. Der Abtastlaser wird durch einen Aktuator auf der Spiralspur geführt. Hierzu kann ein Linear- oder Rotationsantrieb dienen. Den prinzipiellen Strahlenverlauf bei der Laserabtastung zeigt Abb. 14/18. 800
Digitale Tonaufzeichnung Das zur Abtastung notwendige kohärente Licht eines Klasse-1-Halbleiter-Lasers mit 780 nm Wellenlänge wird über einen semitransparenten Spiegel, eine Sammellinseneinheit (Kollimator) und über ein Objektiv auf die Pitstruktur der CD fokussiert. Mit 0,8 :m Durchmesser trifft der Laserstrahl auf die Oberfläche des Polycarbonats. Die Fokussierung und Nachführung des Brennpunkts auf der Pitstruktur verlangt die Einhaltung sehr enger Toleranzen durch präzise mechanische Regelungsvorgänge in zwei Ebenen. Der Laserstrahl wird von der Pit-/LandStruktur in unterschiedlichem Grad reflektiert und gelangt zurück durch den halbdurchlässigen Spiegel und über einen Strahlteiler auf vier der Auswertung dienende Fotodioden. Hieraus werden neben dem eigentlichen Datensignal auch Signale für die Scharfeinstellung und die Spurführung abgeleitet. Neben der 1-Strahl-Methode gibt es noch die aufwändigere 3-StrahlMethode, die durch die Aufteilung in Haupt- und zwei Hilfsstrahlen Signale für die Steuerung des Abtastsystems gewinnt. In der nachfolgenden Tab. 14/6 sind die wichtigsten Eigenschaften der CD im Vergleich zu ihren Nachfolgern – der DVD mit rotem, bzw. HD-DVD und Blu-ray mit blauem Laserlicht – zusammengefasst. Tab. 14/6. Disc-Typen im Überblick. Type
CD
DVD
Blu-ray
HD-DVD
Single Layer [GByte]
0,7
4,7
23/25/27
15/20
Dual Layer [GByte]
-
8,5
50
30/32
Laserwellenlänge [nm]
780
635
405
405
Dicke [mm]
1,2
0,6
0,1
0,6
Spurabstand [:m]
1,6
0,74
0,3
0,4
Numerische Apertur
0,45
0,6
0,85
0,65
14.1.9.2
CD-R
Die CD-R (CD Recordable), die auch unter dem Namen CD-WO (Write Once) bekannt ist, lässt sich nur einmal beschreiben und ist im [Orange Book Teil II] spezifiziert. Beim heute verwendeten Speicherverfahren brennt ein Laser Löcher in eine Dünnfilmschicht. Beim DyePolymer-Verfahren wird in einer gefärbten Schicht mittels 10-facher Laserleistung beim Brennen eines Pits der organische Farbstoff zerstört und somit an dieser Stelle der Brechungsindex verändert. Beim Lesen der Information kommt es dadurch zur Dämpfung oder Streuung des Laserstrahls. Die CD-R besteht, ähnlich wie die CD-DA, aus einem Polycarbonat-Substrat, das die Trägerscheibe bildet, einer reflektierenden Schicht und einer oberen Schutzschicht, sowie einer Oberflächenbeschichtung, auf der sich Label bzw. Titelfeld befinden. Zwischen Trägermaterial und Reflexionsschicht liegt die organische Farbschicht, das sog. Organic Dye, in das die Information geschrieben wird. Abb. 14/19 zeigt den Aufbau. 801
Digitale Tonsignalspeicherung
Abb. 14/19. Schematischer Aufbau der CD-R.
Im Unterschied zur CD ist bei der CD-R im Trägermaterial noch eine spiralförmige Spurrille zur Führung des Lasers eingeprägt. Diese Führungsspur hat eine Breite von 0,6 :m und einen Spurabstand von 1,6 :m. Zur Drehzahlregelung beim Schreibvorgang ist dem spiralförmigen Verlauf eine sinusähnliche Auslenkung mit einer Frequenz von 22,05 kHz überlagert [14.10]. Aufgezeichnet werden kann auf die CD-R mit speziellen digitalen Tonrecordern oder per Computer mit geeigneter Brennsoftware in Verbindung mit einem CD- oder DVD-Brenner. Beschrieben wie eine CD-DA, besitzt die CD-R ähnliche Eigenschaften wie eine gepresste CD und kann deshalb auf den meisten Playern abgespielt werden. Probleme wegen der schlechteren Reflexion gibt es nur bei wenigen CD- und DVD-Geräten. Die CD-R mit ihren Kapazitäten 74 min bei 650 MByte und 80 min bei 700 MByte kann aber auch wie eine CDROM benutzt werden. Die Audiodaten werden dann im [UDF]- oder [ISO 9660]-Fileformat aufgezeichnet. Bei Schreibgeschwindigkeiten, die ein Vielfaches des Nominalwertes betragen, ist es wichtig, dass Recorder und Medium aufeinander abgestimmt sind. Zur Qualitätssicherung sollte das Brennresultat unbedingt mit einem Analysator überprüft werden. Die CD-R ist kratz-, wärme- und lichtempfindlich und wegen ihrer relativ kurzen Lebensdauer von 5 bis 10 Jahren kein Tonträger für das Langzeitarchiv. 14.1.10
Super Audio CD (SACD)
Ca. 15 Jahre nach Markteinführung der CD wurde eine hochkapazitive Weiterentwicklung vorgestellt in Form der SACD [14.11]. Bei der SACD wird die DSD-(Direct Stream Digital)Technologie verwendet. Dabei kommt ein 1-Bit-Delta-Sigma-A/D-Wandler mit einer Abtastrate von 2,8224 MHz zum Einsatz (vgl. Kap. 11.3.22). Der so erzeugte Datenstrom wird direkt auf einem SACD-Masterrecorder aufgezeichnet. Wegen der auf Puls-Dauer-Modulation (PDM) basierten 1-Bit-Technologie von DSD ist der Datenstrom außerordentlich präzise, da Quantisierungs- und Filterungsprozesse weitgehend entfallen können. Auf der Wiedergabeseite sind klangmindernde Interpolations- und Antialiasingfilter, wie sie bei der herkömmlichen CD erforderlich sind, nicht mehr nötig. Die obere Grenzfrequenz wird bei DSD von 20 kHz auf 100 kHz mit einem Dynamikumfang von 120 dB im Hörbereich 802
Digitale Tonaufzeichnung erweitert. Mit dem SBMD-(Super Bit Mapping Direct)-System ist eine Downkonvertierung von DSD in alle gängigen Formate möglich, u. a. in das 16 Bit/44,1 kHz-Format der CD. Um Speicherplatz auf der SACD zu sparen, kommt das verlustlose Datenkompressionsverfahren DST (Direct Stream Transfer) mit einer typischen Datenkompression von 2:1 zum Einsatz. So können 74 Minuten einer DSD-Zweikanal-Stereoversion und eine DSD-5.1-Kanal-Audioversion – kombiniert mit Text- und Grafikinformationen – auf einer single-sided 12 cm-SACD untergebracht werden. Das Active Copyright Management System (ACMS) soll den hochqualitativen DSD-Ton schützen, so dass er nur exklusiv auf SACD- und nicht auf Standard DVDROM-Laufwerken wiedergegeben werden kann. 14.1.10.1 Aufbau und Eigenschaften Es sind drei SACD-Typen im nicht öffentlichen [Scarlet Book] (scarlet = scharlachrot) spezifiziert: - Die einschichtige (single-layer) Disc besteht aus einer einzigen High-Density-(HD)-Schicht mit 4,7 GByte Speicherkapazität. - Die doppelschichtige (dual-layer) Disc enthält zwei dieser HD-Schichten mit einer Gesamtkapazität von 8,5 GByte. - Die Hybrid Disc ist wohl der am meisten verwendete Typ. Sie setzt sich aus einer HDSchicht und einer [Red Book]-kompatiblen CD-Schicht mit 780 MByte zusammen, die die Wiedergabe mit herkömmlichen CD-Playern ermöglicht. Die oben liegende CD-kompatible Schicht wird dabei von unten durch die darunter liegende halbdurchlässige HD-Schicht abgetastet (Abb. 14/20). Wie bei einer Dual Layer DVD wird die SACD aus zwei 0,6 mm dicken PolycarbonatScheiben zur Dicke einer konventionellen CD verklebt, mit einem Schutzlack versehen und mit dem Label bedruckt. Zuvor wird der obere CD-DA-Teil praktisch wie eine CD gepresst. Der untere HD-Teil dagegen bedarf einer wesentlich feineren Pressung und wird halbtransparent metallisiert, um sowohl die große Datenmenge unterzubringen als auch für die CDLayer-Abtastung durchlässig zu sein. Tab. 14/7 zeigt die wichtigsten Daten im Überblick.
Abb. 14/20. Schichtaufbau und Leseprinzip einer hybriden SACD.
803
Digitale Tonsignalspeicherung Tab. 14/7. SACD-Daten im Überblick. Parameter Reflexion Kapazität [GByte] Laserwellenlänge [nm] Numerische Apertur Spurabstand [:m] Kanalbitlänge [:m] Min. Pit/Land-Länge [:m] Lineare Geschwindigkeit [m/s] Kanalbitrate [MBit/s] Höchste EFM Frequenz [MHz] Innerer Datenbereichsradius [mm] Äußerer Datenbereichsradius [mm] Nutzerdatenkapazität [GByte]
CD Red Book kompatibler Layer voll 0,7 780 0,45 1,6 0,28 0,83 1,21 4,321 0,72 25 37,5 / 58 0,78
SACD Layer halb durchlässig 4,7 650 0,60 0,74 0,133 0,40 3,49 26,16 4,36 24 38 / 58 4,7
14.1.10.2 Datenorganisation, Kanalcodierung und Fehlerschutz Der CD-Layer einer hybriden SACD erfüllt den Red-Book-Standard einer CD-DA. Beim HD-Layer wird als ECC (Error Correction Code) ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die Mächtigkeit des Codes reicht aus, um mindestens 5 Bytefehler in jeder Reihe und 8 Bytefehler in jeder Spalte zu korrigieren [ECMA-267]. Der Datenbereich beinhaltet das Filesystem, den Master-TOC (Table Of Content), den 2-KanalStereo-, den Mehrkanal- und einen optionalen Datenbereich. Die beiden Tonbereiche besitzen eine identische Basisstruktur.
Abb. 14/21. Filesystem einer SACD.
804
Digitale Tonaufzeichnung Die SACD unterstützt zwei Arten des Zugriffs: - über die hierarchische TOC-Struktur ähnlich wie bei der CD-DA und - über das [UDF]- bzw. [ISO 9660]-Filesystem ähnlich wie bei einer CD-ROM. Die Struktur der Directory des HD-Layers zeigt Abb. 14/21. Die Files MASTER.TOC, 2_CH.TOC und M_CH.TOC korrespondieren mit dem Master-, dem 2-Channel-Area- und dem Mehrkanal-TOC, die TRACK-Files entsprechend. Die Spezifikation der SACD im Scarlet Book ist praktisch identisch mit der DVD in Bezug auf Dateisystem, Sektorgröße, Fehlerkorrektur und Modulation. Die SACD befindet sich daher in direkter Konkurrenz zur DVD-Audio. Beides sind jedoch Nischenprodukte.
14.1.11 DVD-Audio Als die DVD-Audio oder kurz DVD-A im Jahre1999 als Abkömmling der 1996 eingeführten DVD (Digital Versatile Disc) spezifiziert wurde, plante das DVD-Konsortium mit ihr eine hochqualitative Nachfolge der CD-DA. Die DVD-A(udio) ist wie die DVD-V(ideo) ein Spezialfall einer DVD-ROM nach ECMA-267. Eine ausführliche Beschreibung findet sich in [14.11]. 14.1.11.1 Aufbau und Eigenschaften Mit einem Durchmesser von 12 cm und einer Dicke von 1,2 mm unterscheidet sich die DVD auf den ersten Blick nicht von einer CD. Die DVD besteht jedoch wie die SACD aus zwei aneinander geklebten Polycarbonatscheiben von jeweils 0,6 mm mit ein oder zwei Layern. Dadurch erhöht sich bei mehreren Schichten die Speicherkapazität von 4,7 GByte bis auf max. 17 GByte. Für höhere Speicherkapazität reduziert sich der Spurabstand der Spiralspur im Vergleich zur CD von 1,6 :m auf 0,74 :m und die minimale Pitlänge von 0,82 :m auf 0,4 :m. Es gibt nach ECMA-267 vier Typen von A bis D, wovon hauptsächlich der Typ A (mit nur einem Layer) für die Audioversion genutzt wird (Abb. 14/22).
Abb. 14/22. Typen A bis D einer DVD-ROM.
805
Digitale Tonsignalspeicherung 14.1.11.2 Datenformat Ähnlich wie bei der SACD wird als ECC ein Reed-Solomon-Produktcode mit 208 Zeilen und 182 Spalten verwendet. Die genaue Beschreibung findet sich ebenfalls in ECMA-267. Für Typ C und D gibt es zwei Abtastvarianten. Im PTP-(Parallel Track Path)-Modus werden beide Layer von innen nach außen gelesen. Im OTP-(Opposite Track Path)-Modus fokussiert der Laser am Ende von Layer 0 eine Ebene tiefer; der zweite Layer wird dann von außen nach innen gelesen. Dadurch ist die Unterbrechungszeit im Datenstrom geringer, weil der Laser nicht neu positioniert werden muss (vgl. auch Kap. 14.2.6.1). Lineare PCM ist der Quellencode-Standard; die maximale Datenrate pro Linear-PCM-Strom beträgt 9,6 MBit/s. Für längere Spielzeiten der Disc wird das Meridian Lossless Packing (MLP) zur verlustlosen Datenkomprimierung von typisch 2:1 verwendet. Tab. 14/8 zeigt die Toneigenschaften von DVD-A und DVD-V im Überblick. Tab. 14/8. Audioeigenschaften von DVD-V und DVD-A. Eigenschaften Simultane Datenströme Kanäle / PCM-Ströme PCM Abtastwerte [Bit] linear PCM Abtastraten [kHz] Lossy Compression (Dolby Digital, DTS, MPEG-2) Lossless Compression (MLP) Speicherkapazitäten [GByte]
DVD-V DVD-A 1 bis 8 1 bis 2 1 bis 8 1 bis 6 16, 20, 24 12, 16, 20, 24 48 / 96 44,1 / 48 / 88,2 / 96 / 176,4 / 192 Standard Optional nein ja 4,7 / 8.5 / 9,4 / 17
Auf einer DVD-ROM befindet sich, wie auch auf einer SACD, das Dateisystem [UDF]. Für eine DVD-Audio ist das Verzeichnis AUDIO_TS zwingend an erster Stelle vorgeschrieben. In ihm befinden sich die AOB-(Audio OBject)-Dateien mit linearem PCM-Ton von ein- bis mehrkanalig, auch Standbilder sind möglich. Für einen optionalen Videobereich kann auch ein Unterverzeichnis VIDEO_TS angelegt werden. In ihm befinden sich dann die VOB-(Video OBject)-Dateien mit den Videoinhalten. Mit den anderen Inhalten verhält es sich entsprechend. Eine Hybrid-DVD enthält sowohl einen Audio- als auch einen Videoteil. In der Praxis sind fast alle DVD-A-Discs hybride DVDs. Bei einer DVD-Video dagegen muss das Verzeichnis VIDEO_TS mit den VOB-Dateien an erster Stelle stehen. Je nach DVD-Player-Typ können alle oder nur diverse Untermengen davon abgespielt werden. Deshalb sind einige Hersteller dazu übergegangen, mit etwas Mehraufwand Discs herzustellen, die für jeden DVD-Playertyp eine passende Version enthalten und somit universell abspielbar sind. Das CPPM-(Content Protection for Pre-recorded Media)-System für den besonderen Kopierschutz ist, wie so manches System vor ihm, bereits entschlüsselt und damit praktisch unwirksam. Die DualDisc ist die Hybrid-Disc-Variante der DVD-A. Sie war jedoch von Anbeginn ein „Problemfall“, denn sie ist dicker als eine normale DVD. Sie wird von beiden Seiten abgetastet und der CD-Layer hält sich nicht an das Red Book. So gibt es mit verschiedenen Playern Kompatibilitätsprobleme; die Höhe der Disc wurde deshalb inzwischen geändert. Beim DVDLayer handelt es sich um eine DVD-5. Im Falle der Nutzung als DVD-A ermöglicht sie 65 Minuten Stereoton mit 24 Bit/96 kHz und zusätzlich 5.1-Ton mit 24 Bit/192 kHz. 806
Digitale Tonaufzeichnung Wie bereits bei der SACD erwähnt, konkurrieren beide Formate in einer Marktnische miteinander. Um alle Variationen abspielen zu können, benötigt der Nutzer einen ganzen Gerätepark an Playern.
14.1.12 Magneto-Optical Disc (MOD) Streng genommen gehört die magnetooptische Platte zu den Magnetschichtspeichern und ist in ihrer Organisation einer Festplatte sehr ähnlich. Es gibt einige digitale Tonrecorder und Audioworkstations, die sie für die Tonsignalspeicherung verwenden. Auch für den Austausch und zur Datensicherung wird sie eingesetzt. Wegen ihrer Langzeitstabilität ist sie sogar zur Dokumentenarchivierung zugelassen. Die aktuellen MODs gibt es in 5¼-Zoll-(130 mm)Technik für professionelle Anwendungen und in 3½-Zoll-(90 mm)-Technik für den Consumer-Markt. Während die MOD trotz ihrer wesentlich besseren Langzeitstabilität gegenüber CD und DVD bei Consumern nur ein Randdasein fristet, wird sie im Profibereich in automatischen Archiven in Wechslersystemen, sog. Juke-Boxen, eingesetzt. Hier konkurriert die MOD mit hochkapazitiven Bandbibliotheken. Auch die MiniDisc ist eine MO und ist gemeinsam mit der CD-R im [Orange Book] standardisiert. Wegen ihrer umfangreichen Metadatenmöglichkeiten ist sie vielseitig einsetzbar. Die MiniDisc speichert das Tonsignal auf einer Spiralspur, verwendet jedoch das verlustbehaftete Datenreduktionsverfahren ATRAC (Adaptive TRansform Acoustic Coding) und wird aus Akzeptanz- und Qualitätsgründen hier nicht weiter behandelt. 14.1.12.1 Aufbau und Funktionsweise Die 5¼-Zoll-Cartridge ist im Gegensatz zur 3½-Zoll-Cartridge beidseitig beschreibbar und muss im Betrieb gewendet werden, falls das MOD-Laufwerk kein zweites Lasersystem besitzt. Die Platte befindet sich, vor Staub und Fingerabdrücken geschützt, in einer Cartridge und wird erst im Laufwerk geöffnet. Wie so viele optische Platten besteht die MOD aus zwei zusammengeklebten Hälften. Der Schichtaufbau in Abb. 14/23 zeigt, dass die magnetische Informationsschicht einer MOD zum Schutz vor Korrosion und zur Verstärkung des magnetooptischen Effekts zwischen zwei dielektrischen Schutzschichten aus einer Silizium-Stickstoff-Verbindung eingebettet ist. Dahinter befindet sich eine Reflexionsschicht aus Aluminium für den Laser. Die magnetisierbare Schicht besteht in der Regel aus Legierungen mit Seltenen Erden, z. B. Gadolinium oder Terbium-Eisen-Kobalt. Die Schichten entstehen durch „Sputtern“ (Bedampfen im Vakuum). Das Trägermaterial ist Polycarbonat. Wie bei der CD-R werden auch hier bei der Fertigung Führungsrillen, sog. Pregrooves, mit zusätzlichen Informationen z. B. für die Steuerung der Geschwindigkeit eingeprägt. Bei der 14x-Generation, der letzten Version einer MOD mit 9,1 GByte Gesamtkapazität [ECMA-322], beträgt der Rillenabstand 0,652 :m. Das Prinzip der magnetooptischen Speicherung beruht auf dem Kerr-Effekt. Er bewirkt, dass sich die Schwingungsebene polarisierten Lichts bei der Reflexion an einer magnetisierten Schicht polaritätsabhängig dreht. Beim Schreiben wird das magnetische Material vom Laser (8 = 660 nm) so weit erhitzt, bis die Curie- oder Inversionstemperatur erreicht ist. Das Material ist dann unmagnetisch. Für aktuelle Anwendungen wird Material mit einer Curietemperatur 807
Digitale Tonsignalspeicherung von ca. 180 oC gewählt. Beim Abkühlen erzwingt ein gleichzeitig dem Laser gegenüber angelegtes Magnetfeld die neu entstehende Magnetisierungsrichtung senkrecht zur Plattenoberfläche (siehe auch Abb. 14/24). Diese Methode verträgt bei Zimmertemperatur sehr hohe Koerzitivfeldstärken, ohne dass die Aufzeichnung beeinflusst wird. Nur wenn Hitze und Magnetfeld zusammenkommen, ändert eine MOD ihren Dateninhalt. Deshalb wird bei entsprechender Lagerung eine Datensicherheit von 30 bis 50 Jahren garantiert.
Abb. 14/23. Schichten einer MOD.
Abb. 14/24. Leseprinzip der MOD.
808
Digitale Tonaufzeichnung Das Leseprinzip der magnetooptischen Speicherung ist in Abb. 14/24 dargestellt. Es entspricht in vielen Punkten den üblichen CD-Speichern. Die Platten werden bei der Herstellung bereits vorformatiert. Physikalische Spuren (tracks) und Sektoren mit einer Länge von 512 bis 4096 Bytes, je nach Plattenkapazität, werden dabei als Platzhalter fest eingeprägt. Ähnlich wie bei Festplatten das Zoned Bit Recording (ZBR), wird bei den neueren magnetooptischen Platten das ZCAV-(Zoned Constant Angular Velocity)-Verfahren verwendet, d. h., die Anzahl der Sektoren pro Spur nimmt mit wachsendem Radius zu. Die Aufzeichnung erfolgt auf einer Spiralspur wie bei der CD, jedoch von außen nach innen; die Sektoren sind logisch wie bei einer Festplatte in konzentrischen Spuren organisiert. Der Zugriff ist deutlich langsamer. Neuere Betriebssysteme behandeln eine MOD wie eine Wechselfestplatte und unterstützen sie nativ. Auch bei der Kanalcodierung werden vorzugsweise RLL(1,7)- und RLL(2,7)-Codes und für den Fehlerschutz mehrstufige Reed-Solomon-Codes verwendet (siehe hierzu [ECMA-322]). Eine deutliche Verbesserung, ähnlich dem PRML-Verfahren bei der HDD, brachte das PRED-(Partial Response Edge Detection)-Verfahren. Dabei decodiert ein ViterbiDecoder die Bitkombinationen des Lesesignals ebenfalls nach ihrer Wahrscheinlichkeit. Im Vergleich zu Festplatten sind die Schreib-/Leseköpfe schwerer und erfordern einen robusteren Positionier-Mechanismus; auch das macht sie im Zugriff langsamer. In der Regel benötigen MOD-Laufwerke für das Neubeschreiben zwei Plattenumdrehungen – eine zum Löschen der alten Daten und eine für das Schreiben der neuen Daten. Im Falle einer „Hinterbandkontrolle“ (Read After Write) ist sogar noch eine dritte Umdrehung zur Verifizierung der Daten erforderlich. Neue Materialien, die es ermöglicht hätten, die MOD-Informationen in mehreren Lagen übereinander zu schreiben, schafften den Sprung vom Labor in die Produktion nicht. Daher fehlt dem Medium MOD weiteres Entwicklungspotenzial. Einige Firmen propagieren nun für den Robotikeinsatz in Archiven cartridgekompatible Nachfolgeformate auf Basis des Phasenwechsel-Prinzips. So verwendet das UDO-(Ultra Density Optical)-Verfahren einen blauen Laser auf Basis der Blu-ray-Technologie und bietet eine Kapazität von 30 GByte mit Tendenz bis zu 120 GByte. Konkurrierend dazu gab es (ebenfalls mit Blu-ray-Technologie) noch das PDD-(Professional Disc for Data)-Verfahren mit 23,3 GByte, das der Hersteller nach der ersten Generation aber wieder vom Markt genommen hat. Für die hier genannten neueren optischen Verfahren werden Lebensdauern bei optimaler Lagerung (shelf life) von bis zu 50 Jahren angegeben. Ob die Zuverlässigkeit der „klassischen“ MOD jedoch erreicht wird, ist fraglich. Tab. 14/9 zeigt die MOD im Vergleich mit anderen optischen Trägern. Revisionssichere WORM-Medien, lange Zeit eine Domäne der MOD, werden heute über standardisierte und zusätzlich kryptographisch gesicherte WORM-Bandlaufwerke realisiert.
809
Digitale Tonsignalspeicherung Tab. 14/9. Vergleich diverser optischer Speicher mit der MOD.
810
Digitale Tonaufzeichnung 14.1.12.2 Zukünftige Entwicklung In Zukunft könnte die holographische WO-Disk in Anwendungen zur Archivierung eine Rolle spielen. Sie soll eine Lebensdauer von über 30 Jahren haben. Es kündigen sich zwei Datenträgerformate an: - „Tapestry“, ein proprietäres holographisches System ist bereits auf dem Markt. Es basiert, wie die MOD, auf einer robotikgeeigneten 130 mm-Cartridge. Einige Daten sind aus Tab. 14/9 zu entnehmen; das System ist vielversprechend. Eine zweite Generation mit 800 GByte bei 80 MByte/s ist angekündigt, und eine weitere Generation soll bis zum Jahr 2011 mit 1,6 TByte bei 120 MByte/s folgen. - In Konkurrenz steht das HVD-(Holographic Versatile Disc)-System in CD-Größe auf Basis einer 120 mm-Cartridge, die HDC (Holographic Disk Cartridge) entsprechend [ECMA-375]. Das System baut wesentlich auf der Technologie der HD-DVD auf und verspricht eine Kapazität von allerdings nur 200 GByte. Die Durchsetzungsfähigkeit dieses Formats wird angezweifelt. Obwohl holographische Speicher vom Prinzip her ein großes Zukunftspotenzial haben und immer wieder ins Gespräch gebracht werden, bleibt abzuwarten, wie sich die Situation weiterentwickelt.
14.1.13 Flash-Speicher Seit 1986 ist diese Speicherart mit stetig wachsender Verbreitung auf dem Markt. Sie ist Bestandteil des täglichen Lebens geworden in Anwendungen wie USB-Sticks, MP3-Playern, digitalen Kameras usw. 14.1.13.1 Funktionsweise Der Flash-Speicher ist ein nichtflüchtiger Speicher, der elektrisch beschrieben und sektorweise oder vollständig gelöscht werden kann. Er entwickelte sich aus der EEPROM-Technologie (Electrically Erasable Programmable Read Only Memory), weshalb die Halbleitertechnologie der Flash-Speicherzellen der eines EPROMs ähnelt. Die FET-Transistoren des Flashspeichers besitzen jedoch eine wesentlich dünnere Tunnel-Oxidschicht zwischen Floating Gate und Source. Es gibt unterschiedliche Technologien; eine davon ist die ETOX-Zelle in Abb. 14/25. Beim Speichern eines Bits in einer Flash-Speicherzelle (hier als sog. NOR-Typ) fließen Elektronen über eine dielektrische Schicht (ONO, Oxide Nitride Oxide) auf das Floating Gate und werden dort gleichsam „eingefroren“. Die Information ist dann als Ladungsmenge auf dem Floating Gate gespeichert. Durch Anlegen einer hohen Spannung beim Löschzyklus durchtunneln die Elektronen die Oxidschicht; dies ist die Urache dafür, dass die Zelle durch wiederholte Löschvorgänge kontinuierlich altert. Anfangs konnte nur ein Bit pro Zelle (SLC = Single Level Cell) gespeichert werden, doch mit der MLC-(Multi Level Cell)-Technologie lassen sich mittlerweile vier Bit pro Zelle potenzialabhängig speichern. Beim NANDFlash-Typ sind die Transistoren in Serie geschaltet, bei der NOR-Flash-Zelle parallelgeschaltet.
811
Digitale Tonsignalspeicherung
Abb. 14/25. FlashSpeicherzelle.
14.1.13.2 Flash-Filesystem und Kanalcodierung Flash-Speicher sind in einen oder mehrere Bereiche aufgeteilt, die als Partitionen bezeichnet werden. Eine Multi-Partitions-Architektur ermöglicht es, in der einen Partition Schreib-/ Lösch-Vorgänge auszuführen, während aus einer anderen Partition gelesen wird. Bei einem Speicher mit nur einer einzigen Partition muss dieses Multi-Tasking per Software emuliert werden. Innerhalb einer Partition ist der Speicher in Blöcke eingeteilt, wobei zwischen symmetrischem und asymmetrischem „Blocking“ unterschieden wird. Bei symmetrischer Blockbildung eines Flash-Speichers besitzen alle Blöcke dieselbe Größe. Bei asymmetrischer Blockbildung werden zusätzlich kleine Parameter-Blöcke gebildet, die typischerweise für einen Bootcode verwendet werden können. Eine Flash-Memoryzelle lässt das Programmieren vom Wert „Eins“ nach „Null“, aber nicht von „Null“ nach „Eins“ zu. Soll eine logische Null wieder in eine Eins umgeschrieben werden, wird daher zuerst der gesamte Block gelöscht. Das ist der Grund dafür, dass in der Regel neue Informationen in einen gerade nicht benutzten gelöschten Bereich geschrieben werden und der alte Bereich bis zu seiner „Entladung“ und anschließenden Löschung vorübergehend für ungültig erklärt wird. Auf Hardware-Ebene sind die zu speichernden Daten mittels ECC-Algorithmen geschützt. Man rechnet damit, dass ein nur statistisch erfassbarer Prozentsatz von Blöcken während der Lebensdauer des Flash-Memories ausfällt und für eine Speicherung nicht mehr genutzt werden kann. Diese defekten Blöcke werden per Software in einer Liste verwaltet; auch bei einem Ausfall der Betriebsspannung während des Schreibprozesses muss ein Filesystem für Datensicherheit sorgen. Die Erfahrung zeigt, dass jeder Block – bedingt durch die Alterung der Tunneloxidschicht – eine begrenzte Lebensdauer von etwa 105 Schreib-/Lösch-Zyklen hat. Um die Lebensdauer des gesamten Speichers zu erhöhen, werden deshalb per Software durch „Wear Leveling“ (Verschleiß-Nivellierung) die Schreib-/Lösch-Zyklen über den gesamten Speicher gleichmäßig verteilt. Per Software werden hierzu Caching-Strategien verwendet, die auch die Read-While-Write-(RWW)-Betriebsart sicherstellen; RWW bedeutet, dass während eines Schreibvorgangs gleichzeitig gelesen werden kann, ohne dass Informationen verloren gehen. 812
Digitale Tonaufzeichnung Die Filesysteme für Flash-Speicher zeigen trotz vieler hersteller- und technologieabhängiger Unterschiede folgende Gemeinsamkeiten: - einen API-(Application Programming Interface )-Layer, - einen Filesystem-Kern, - einen Block-Treiber für sektorbasierte Filesysteme und einen - MTD (Memory Technology Device)-Layer. Die Einteilung eines Flash-Filesystems in obige Layer bewirkt eine Modularität, die Betriebssystem und Applikation voneinander isoliert und den Einfluss von Flash-Systemvarianten auf das Filesystem minimiert. Ein Flash-Speicher ist dann wie eine Festplatte nutzbar und wird durch neuere Betriebssysteme bereits nativ unterstützt. Zuverlässigkeit Bei einem Wiederanlauf nach einem Ausfall der Betriebsspannung erkennt das Flash-System Datenfehler, die während eines Schreibvorgangs entstanden sind, entweder durch Statusbits oder durch einen CRC-Check. Die Fehlerkorrektursysteme (ECC) der meisten Flash-Speicher sind in der Lage, strukturbedingt Einzelbitfehler zu erkennen und zu korrigieren. Da die Tendenz zu einer Multi-Level-Architektur und zu immer höheren Packungsdichten durch hochauflösende Maskenstrukturen („Lithografien“) geht, erweist es sich als zweckmäßig oder notwendig, auch Bündelfehler korrigieren zu können, sobald die Bitfehlerrate ansteigt. Diese Fehlerkorrektur wird in der Regel in einem dedizierten Memory-Controller durchgeführt, obwohl prinzipiell die Auswertung eines Error Correction Codes (ECC) auch per Software möglich wäre. Verwendet werden drei der meist benutzten Algorithmen für die Fehlerkorrektur, nämlich die Codierverfahren nach Hamming-, nach Bose, Chaudhuri, Hocquenghem (BCH)- und nach Reed-Solomon. Sollten Bündelfehler als nicht mehr korrigierbar erkannt werden, besteht darüber hinaus die Möglichkeit, diese Blöcke zu sperren und als „Bad Blocks“ zu kennzeichnen. Bereits nach der Fertigung enthält ein Flash-System fehlerhafte und deshalb als nicht nutzbar gekennzeichnete Blöcke. Bei Auslieferung sollten mindestens 98 % der Blöcke funktionstüchtig sein. Ein „Bad Block“-Zähler des Filesystems überwacht die Flash-Nutzung, bis ein Grenzwert und damit das Ende der Brauchbarkeit erreicht ist. 14.1.13.3 Flash-Karten und künftige Entwicklung Aktuell sind „Flash-Memories“ in mindestens fünf wichtigen Bauformen als Speicherkarten erhältlich. Die SD-(Secure Digital)-Speicherkarte hat bereits über 50 % Marktanteil mit weiter steigender Tendenz und bei stark fallenden Investitionskosten. Andere Systeme wie CF(CompactFlash)-Karte, MMC-(MultiMedia)-Karte, SMC-(SmartMedia)-Karte, Memory Stick u. a. teilen sich das restliche Marktsegment mit unterschiedlichem Erfolg. Für die Speicherung von Audio- und Videodaten ist besonders die SD-Karte interessant. Sie hat sich aus der etwa briefmarkengroßen MultiMedia-Karte entwickelt, besitzt dieselben Abmessungen mit 24 x 32 mm2 und ist mit 2,1 mm nur wenig dicker. Hinter dieser relativ neuen Entwicklung steht ein kompetentes Firmenkonsortium, das sich auch um die 813
Digitale Tonsignalspeicherung Standardisierung kümmert. Die SD-Karte besitzt einen Schiebeschalter als mechanischen Schreibschutz und bietet die Möglichkeit zur Implementierung eines Kopierschutzes – CPRM (Content Protection for Recordable Media) – durch eine spezielle Verschlüsselungstechnik von A/V-Daten. Die Speicherkapazitäten von Memory-Karten liegen derzeit bei 8 GByte. USB-Sticks sind bereits mit 16 GByte erhältlich, auch hier mit steigender Tendenz; es ist mit einer weiteren Verdopplung der Kapazität zu rechnen. Gerade im Zusammenhang mit A/V-Anwendungen ist daher eine Ausdehnung der maximalen Datenfilegröße über die 4-GByte-Grenze hinaus von Interesse. Schreib- und Lesegeschwindigkeit moderner Flash-Medien liegen in der Größenordnung von 35 MByte/s für das Schreiben und 60 MByte/s für das Lesen. Der Einsatz im Rundfunkbereich erfolgt z. B. in Camcordern oder in digitalen Reportagegeräten, die häufig wie ein Mikrofon mit eingebautem Digitalrecorder funktionieren und Aufzeichnungen von linearem oder auch datenreduziertem Ton ermöglichen. Als 1,8- und 2,5-Zoll-Solid-State-Disks (SSD) mit Kapazitäten bis 64 GByte beginnen NAND-Flashs in Notebooks die Festplatten zu verdrängen. Vom Betriebssystem werden sie wie Hard Disk Drives behandelt. Eine Kombination beider Speichertechnologien stellen die Hybrid Hard Drives (HHD) dar. Das sind Festplatten, die zur Beschleunigung und Entlastung der Disk mit einem bis zu 2 GByte großen Flash-Pufferspeicher (Cache) ausgestattet sind. Herkömmliche Flash-Speicher könnten in nicht allzu ferner Zukunft das Opfer einer neuen Speichertechnologie werden, die den (bereits in anderem Zusammenhang gebräuchlichen) Namen „PCM“ trägt. PCM bedeutet hier „Phase Change Memory“ und wird gerade in Labors der Nanophysik entwickelt, ist ca. 500mal schneller als Flashsysteme, wesentlich kleiner und hat nicht die durch Abnutzung vorgezeichnete Lebensdauergrenze der konventionellen FlashSpeicher.
14.1.14 Tonsignalrestauration Historisches Audiomaterial steht in den Archiven der Rundfunkanstalten in großer Menge bereit und wartet auf die Umsetzung in zeitgemäße Ton- oder Datenträger-Formate. Die Entscheidung, ob es sich dabei um sicherungswürdiges Material mit Repertoire-Wert handelt, wird wohl niemals einer technischen Apparatur übertragen werden können; hingegen stehen geeignete Mittel zur Verfügung, die mit Hilfe digitaler Signalverarbeitung eine qualitative Beurteilung des physischen und akustischen Zustands des Archivmaterials in Hinblick auf eine anschließende technische „Restauration“ ermöglichen. Bei der Restauration von gespeicherten Tonsignalen geht es hier in erster Linie darum, gestörte oder zerstörte Tonsignalanteile möglichst in den ursprünglichen Zustand zurück zu versetzen und gleichzeitig das Audiomaterial in die digitale Signalwelt – und das möglichst in einem zukunftssicheren Format – zu konvertieren. Eine Nachbesserung der klanglichen Eigenschaften über das zum Aufnahmezeitpunkt Authentische hinaus (z. B. durch Stereofonisierung, Herausrechnen des „Trichterklangs“ bei Plattenaufnahmen, nachträgliche Verhallung usw.) sind Maßnahmen, die immer wieder heftige Diskussionen in klangästhetischer Hinsicht auslösen und daher an dieser Stelle nicht diskutiert werden sollen.
814
Digitale Tonaufzeichnung Es wurde an anderer Stelle (Kap. 14.1.4) bereits dargelegt, dass die digitale Tonsignalaufzeichnung, je nach Mächtigkeit der verwendeten Fehlerschutzcodes und dem Grad der Störung, Möglichkeiten bietet, defekte Abtastwerte neu zu berechnen, durch Interpolation zu verschleiern oder durch Stummschaltung (Muting) in ihrer Störwirkung zu reduzieren. Auch analoge Tonsignale besitzen einen gewissen Grad an natürlicher Redundanz, die sich zur Reparatur einer gestörten Tonaufzeichnung eignet. Unabhängig davon, ob es sich um eine analoge oder digitale Aufzeichnung handelt, ist die intakte zeitliche und spektrale Umgebung eines gestörten Tonsignalteils eine wichtige Voraussetzung und der Schlüssel zu einem erfolgreichen Restaurationsergebnis. Die rasch fortschreitende Entwicklung der digitalen Signalverarbeitungstechnik, vor allem die stetige Steigerung der Prozessorleistung bei gleichzeitig sinkenden Kosten, hat die Entwicklung und kontinuierliche Verbesserung von aktuellen Tonrestaurationssystemen ermöglicht. Heute finden sich Werkzeuge zur Tonsignalrestauration nicht nur im professionellen Bereich auf Workstationbasis, sondern auch im semi-professionellen und privaten PC-Bereich. Oft sind durch Alterung des Aufzeichnungsträgers und dessen mechanische Beschädigung Teile des Tonmaterials in dem vorgefundenen schlechten Klangzustand. Ein Restaurationsprozess beginnt daher mit der Analyse des Zustands des Tonträgers, des Tonsignals und der Lokalisation der Fehlerstellen. Hierzu wird nach Stabilisierung der mechanischen Eigenschaften und nach Sicherstellung der Abspielbarkeit ein digitales Abbild (image) des historischen Tonträgers erzeugt und die nachfolgenden Signalbearbeitungsschritte in der digitalen Ebene vollzogen. Die riesigen Mengen an zu restaurierendem Material lassen ein individuelles Abhören und die anschließende Fehlerauswertung jedes einzelnen Archivtonträgers nicht zu. Es wurden daher Systeme entwickelt, die eine weitgehende Automatisierung dieses Prozesses ermöglichen. Am Institut für Rundfunktechnik (IRT) wurde in Zusammenarbeit mit den öffentlich-rechtlichen Rundfunkarchiven ein Workstationkonzept für die Analyse und Restauration von Tonmaterial konzipiert, das unter der Bezeichnung „QUADRIGA“ (QUality from Analogue to Digital RIGorously Analyzed) bekannt wurde und als Vorbild für moderne Restaurationssysteme gilt. Eine ausführliche Beschreibung findet sich in [14.7]. Die QUADRIGA-Workstation erkennt bereits beim Erzeugen des digitalen Image-Audiofiles dessen Tonqualität und registriert die identifizierten Fehlerstellen im Tonsignal zur späteren Nachbearbeitung. Die automatische Analyse der Störsignale basiert auf der Erkennung von signifikanten zeitlichen und spektralen Eigenschaften des fehlerbehafteten Signals; in vielen Fällen ist dann auch eine automatische Restauration möglich. Da ein Automat in bestimmten Situationen zwischen Nutz- und Störsignal (z. B. Kastagnettenschlag und Knackstörung) nicht zu unterscheiden vermag, bleibt in solchen Fällen der Mensch die letztendliche Kontrollinstanz. Folgende typischen Fehlerklassen lassen sich durch das Restaurationssystem erfassen: - beim Magnetband: Rauschen, Kopiereffekt, Vor-/Nachechos, Gleichlauffehler, Magnetspaltschiefstellung bei der Aufnahme, beschädigte Magnetschichten, starker Abrieb der Magnetschicht, sowie Bandrisse und Banddehnungen u. a. - bei analogen Schallplatten: Rauschen, Kratzer, Verschmutzung und falsche Entzerrung bei der Wiedergabe, durch Exzentrizität des Mittellochs hervorgerufenes Jaulen (wow) u. a. 815
Digitale Tonsignalspeicherung Einige dieser Fehler können nur durch Abbruch der Überspielung und durch Wiederholung des Vorgangs nach der Fehlerbeseitigung behoben werden (z. B. bei Bandriss oder bei starkem Bandabrieb). Über- bzw. Untersteuerungen des Tonsignals, die zum Klippen bzw. zu niedrigem Quantisierungsgeräuschabstand führen, lassen sich durch Pegelkorrektur mit anschließender Wiederholung des Kopiervorgangs vermeiden. Mit einem „Declipper“ können Beschneidungen der Maximalamplitude (bei digitalen Quellen) bis zu einem gewissen Grad durch Berechnung des vermuteten Original-Signalverlaufs in Verbindung mit einer Pegelabsenkung behoben werden. Darüber hinaus stehen auch Reparaturmodule für die Dekompression einer durch die Übersteuerung von analogem Bandmaterial entstandenen Kompression zur Verfügung. Stationäres Rauschen entsteht in der Regel bereits bei der Aufnahme durch thermische Effekte in den zur Anwendung gekommenen elektroakustischen Geräten oder auch durch die physikalische Beschaffenheit der benutzten magnetischen und mechanischen Trägermaterialien. Dieses Rauschen lässt sich relativ leicht durch „Denoising“ reduzieren, im Idealfall auch ganz entfernen. Grundlage des Verfahrens ist ein „Noise Print“, bei dem das Spektrum des Rauschens während eines kurzen nutzsignalfreien Aufnahmeausschnitts erfasst und vom Spektrum des Gesamtsignals subtrahiert wird. Je ähnlicher Nutz- und Störspektrum werden, umso exakter müssen die Parameter beim Denoising eingestellt sein. Bei zu intensiver Parametrierung besteht die Gefahr des Signalpumpens, oder es treten Phasing-Effekte auf. Generell zeigt sich, dass breitbandige Störsignale schwieriger zu bearbeiten sind als impulshaltige Fehlersignale und einzelne Störtöne. Impulshaltige Störgeräusche, wie sie z. B. durch Kratzer und Dropouts bei einer Beschädigung oder Verschmutzung des Tonträgers entstehen, werden durch „Declicking“ entfernt. Vereinzelt auftretende Clicks werden in der Regel störender wahrgenommen als gleichmäßiges Rauschen. Im Vergleich der Spektren eines Clicks und des Nutzsignals fällt das Click-Spektrum zu hohen Frequenzen hin weniger ab (s. auch Kap. 11.2). Zur Beseitigung von Click-Fehlern wird in der Regel die betroffene Stelle gelöscht und aus dem benachbarten Nutzsignal durch einfache oder höhergradige Interpolation ersetzt; dies ist in Abb. 14/26 im Zeitbereich dargestellt. Auch für die automatische Restaurierung von Dropouts gibt es spezielle „Dropouter-Module“. Die Anhäufung von Clicks mit vergleichsweise geringem Pegel und gleichmäßiger zeitlicher Verteilung im Nutzsignal wird als Knistern (crackle) wahrgenommen. Es bedarf eines gegenüber dem Declicking modifizierten Verfahrens zur Reduzierung derartiger Störungen („Decrackling”). Periodisch auftretende Kratzer (scratch) auf Vinyl- oder Schellackplatten lassen sich mit einem „Descratcher“ automatisch eliminieren. Durch Reparaturfilter mit linearen Filterfunktionen im Zeit- und Frequenzbereich können quasistationäre Störsignale durch das „Dehumming“ (Entbrummen) entfernt werden. Die Reihenfolge bei der Anwendung der verschiedenen Restaurationsalgorithmen kann Einfluss auf das Ergebnis haben. Bewährt hat sich die Reihenfolge Declicking, Decrackling, Dehumming und eine anschließende Azimutkorrektur (bei Magnetband); vgl. auch [14.6]. Die beschriebene in Echtzeit arbeitende Workstation ist modular aufgebaut und kann je nach Aufgabenstellung durch weitere Softwarekomponenten für das Remastering ergänzt werden; 816
Mastering sie bietet z. B. hierfür auch frequenzgangwirksame Module, wie parametrische und linearphasige Entzerrer, an (vgl. Kap. 14.2.2.5).
Abb. 14/26. Declicking durch höhergradige Interpolation.
Wie bereits erwähnt, ist bei einem Remastering alter Tonaufnahmen für einen authentischen Höreindruck des Ergebnisses entscheidend, dass tonale Substanz und Anmutung der Originalaufnahme erhalten bleiben, was eine historische Kenntnis von Originalklangbildern und Aufnahmeapparaturen voraussetzt. Die technische Entwicklung bleibt auch bei der Restauration alten Archivmaterials nicht stehen. Trotz immer besserer Algorithmen und automatisierter Verfahren auf diesem Gebiet wird aber auch hier das menschliche Gehör stets das Maß der Dinge bleiben.
14.2
Mastering
Der Begriff „Mastering“ ist in der Zeit der konventionellen Schallplattenherstellung entstanden. Hauptsächliches Ziel war es seinerzeit, durch Anwendung technischer Kunstgriffe die systembedingt begrenzten Möglichkeiten des elektro-mechanischen Nadelton-Verfahrens zu kompensieren. Dies betrifft insbesondere den Frequenzgang, die Aufzeichnung tiefer Frequenzen bei Stereosignalen („Elliptische Schrift“) und den verwertbaren Dynamikumfang. Sachkundige „Mastering-Ingenieure“ hatten die Aufgabe, die Unzulänglichkeiten des Mediums „Schwarzplatte“ auszugleichen. Hieraus entwickelte sich die Methode, einer gespeicherten Schallaufzeichnung durch vorhergehende klangliche Bearbeitung einen „letzten Schliff“ zu verleihen, der inzwischen auch bei allen anderen Tonträgern zu einem festen Bestandteil in der Produktionskette geworden ist.
817
Digitale Tonsignalspeicherung
14.2.1
Definition des Mastering
Allgemein versteht man heute unter Mastering im Zusammenhang mit einer Audioproduktion die Vorbereitung eines Tonträgers (ggfs. auch Bild- und Tonträgers) zur Vervielfältigung. Dabei gilt es, möglichst sämtliche technischen und klanglichen Anforderungen des jeweiligen späteren Massenmediums (z.B. CD-Audio) zu berücksichtigen und ein geeignetes MasterMedium herzustellen, das von einem Presswerk vervielfältigt werden kann. CD-Presswerke wiederum verstehen unter dem Begriff „Mastering“ die Herstellung eines Glasmasters, also der Pressvorlage für die Vervielfältigung. Sie bezeichnen daher die Erstellung eines entsprechenden Audiomasters im Ergebnis als „CD-Pre-Master“. Mastering wird nicht nur bei der Herstellung von CDs angewandt. Die mediengerechte Klangund Format-Optimierung spielt bei jeder Art von Tonträger-Vervielfältigung oder Distribution eine Rolle – das gilt für die klassische Vinylschallplatte (aus PVC, Polyvinylchlorid) ebenso wie für ein (datenreduziertes) Audiofile.
14.2.2
Technische und klangliche Aspekte
Beim Mastering besteht letztmalig die Chance, technische Fehler vor einer Vervielfältigung zu erkennen und zu beseitigen. Zu diesen Fehlern gehören beispielsweise Dropouts, Phasenfehler, Brummstörungen, Gleichspannungsanteile, Clicks etc. Die meisten dieser Fehler können nur durch eine vollständige Abhörkontrolle erkannt werden. Daher muss die technische Kontrolle von erfahrenen Toningenieuren unter akustisch optimalen Bedingungen erfolgen. Eine weitere sehr wichtige Aufgabe beim Mastering besteht darin, die abschließende Mischung einer Audio-Produktion klanglich zu optimieren. Ein Mastering-Ingenieur kann die Mischung unvoreingenommen beurteilen, um dann ein Maximum an Klangqualität und Wiedergabekompatibilität zu schaffen. Wichtig ist dabei, dass die Mischung auch auf weniger hochwertigen Abhörsystemen oder nach einer späteren Datenreduktion (z. B. für den OnlineMusikvertrieb) bestehen kann und nicht auffällig an Klangqualität verliert. Ziel ist es, das Endprodukt auf jedem Abhörsystem im Rahmen der gegebenen Möglichkeiten optimal zur Wirkung kommen zu lassen. Mitunter werden Tonträger zusammengestellt, deren Titel aus unterschiedlichen Studios stammen und somit unabhängig voneinander produziert wurden. Hier müssen die einzelnen Titel aufeinander abgestimmt und angepasst werden, damit das fertige Master eine klangliche Einheit bildet. Der Hörer darf nicht durch differierende akustische Eigenschaften einzelner Titel innerhalb der Gesamtproduktion irritiert werden. Beim Mastering werden für die klangliche Bearbeitung spezielle Equalizer, Kompressoren und Limiter eingesetzt. Diese zeichnen sich vor allem durch hervorragende elektroakustische Eigenschaften (die Produktion soll schließlich nicht verschlechtert werden), sehr feinfühlig einstellbare Bedienelemente und gute Reproduzierbarkeit der Einstellungen, z. B. durch digitale Speicherung der Funktionsparameter, aus.
818
Mastering 14.2.2.1
Formatierung
Jedes Master muss bestimmte technische Voraussetzungen erfüllen, um sicher zu stellen, dass später bei der Vervielfältigung keine unerwarteten Probleme auftreten oder zeitraubende zusätzliche Arbeitsschritte erforderlich werden; hierzu gehört nicht zuletzt auch die Umwandlung in das jeweils spezifizierte Audioformat. Zu jedem Medium gibt es daher exakt einzuhaltende Regeln, wie ein Master für dieses Medium formatiert sein muss. 14.2.2.2
Pegelanpassung
Es ist besonders darauf zu achten, dass charakteristische Instrumente oder Stimmen in einem ihnen angemessenen Pegel-Bereich liegen. Eine Pegelanpassung muss hierbei so ausfallen, dass musikalisch gewollte dynamische Besonderheiten (insbesondere in der E-Musik) erkennbar bleiben. Um eine möglichst hohe Klangqualität zu erreichen, sollte das Programm-Material in seinem Maximalpegel knapp die Aussteuerungsgrenze (Full Scale) des Tonträgers (entspr. # 0 dBFS) erreichen. Ein zu großer „Headroom“ verschenkt Auflösung und damit Klangqualität (vgl. Kap. 18.5). 14.2.2.3
Dynamik
Die Bearbeitung der Dynamik hat unterschiedliche Aufgaben zu erfüllen. Es gilt, Differenzen in der Lautheit auszugleichen, um zu gewährleisten, dass eine Produktion im Idealfall ohne Nachregeln des Pegels abgehört werden kann. Gleichzeitig ist es erforderlich, die Originaldynamik eines Klangereignisses auf die beim Konsumenten umsetzbaren Dynamikverhältnisse zu verringern. Im Bereich der Unterhaltungsmusik ist die Dynamikbearbeitung ein wichtiges Stilmittel zur Erzeugung von „Druck“: ein Rockmusiktitel soll kompakt und wuchtig klingen. Die emotionale Wirkung dieser Art von Musik lässt sich durch die Wahl eines geeigneten Kompressortyps und durch dessen gekonnte Parametrierung dramatisch beeinflussen. Hier sind es oft nur kleine Variationen der Parameter, die den Gesamteindruck entscheidend verändern können. Da im Hörfunk oft Wort- oder Musikbeiträge aus unterschiedlicher Herkunft und in nicht absehbarer Reihung zusammengestellt werden, kann es sinnvoll sein, den Lautheitseindruck einzelner Programmelemente für die Radio-Distribution zu koordinieren bzw. abzustufen. Es gibt in diesem Zusammenhang eine vereinzelt geübte Praxis, beim Mastering die Dynamik einer für die spätere Radio-Distribution bestimmten Sendung noch einmal über die im Hörfunkbetrieb eingesetzten Kompressoren oder Sendebegrenzer abzuhören. Auf diese Weise lässt sich die Lautheitswirkung im Ergebnis besser voraussagen (z. B. bei Werbespots, Trailern oder „Nachtmusiken“). Als problematisch erweist es sich in diesem Zusammenhang, wenn die Dynamik anspruchsvoller Radioprogramme am Ende der Übertragungskette zum Sender einer nivellierenden „Modulationsaufbereitung“ ausgesetzt ist, die nicht auf die einzelnen Elemente des Programms Rücksicht nimmt. Trotz der Notwendigkeit und der möglichen Vorteile einer Dynamikbearbeitung birgt diese aber auch die große Gefahr in sich, eine nach allen technischen und klanglichen Regeln 819
Digitale Tonsignalspeicherung entstandene optimierte Musik-Abmischung im Nachhinein ernsthaft zu lädieren. Wird zuviel komprimiert, erreicht man das Gegenteil von dem, was erreicht werden soll: Die Musik klingt dumpf, verliert an Transparenz und Offenheit, und die Musikalität leidet. Es empfiehlt sich daher, beim Mastering während der Einstellprozesse die Bearbeitung regelmäßig mit dem ursprünglichen Original zu vergleichen. Besonders wichtig ist es dabei zu beachten, dass lautheitskorrigiert abgehört wird, um Fehleinschätzungen des Klangbilds durch „Lautheitsgewinn“ sicher zu vermeiden (s. auch Kap. 3.3). 14.2.2.4
Dither und Noise Shaping
In der Regel erfolgt das Mastering in einer höheren Auflösung als in der des eigentlichen Distributionstonträgers. Eine maximale Klangqualität beim Mastering-Prozess lässt sich dadurch erreichen, dass erst unmittelbar vor dem Erstellen des Masters die Wortbreite auf z. B. 16 Bit und 44,1 kHz Sampling-Frequenz (bei der Audio-CD) reduziert wird. Um die Vorteile der höheren Auflösung beim Endprodukt nicht vollständig wirkungslos werden zu lassen, kommen bei der reduzierenden Umsetzung („Truncation“) verschiedene Dither- und Noise-Shaping-Methoden zur Anwendung. Die Auswahl des jeweiligen Verfahrens hängt vom Musikprogramm und der Erfahrung des Mastering-Ingenieurs bzw. Produzenten ab. 14.2.2.5
Remastering und Tonrestaurierung
Unter Remastering wird die klangliche Überarbeitung von in der Regel älterem Audiomateral verstanden. Oft wird eine Audioproduktion vor dem Remastering restauriert, um durch das Aufnahmeverfahren oder die Lagerung bedingte technische Störungen zu entfernen oder zu mindern. Es sollte stets überprüft werden, inwieweit der Originalcharakter der ursprünglichen Aufnahme durch Restaurationsmaßnahmen noch erhalten bleibt. Ein übertriebener Einsatz von Restaurierungswerkzeugen kann leicht zu Artefakten führen, die die gesamte Bearbeitung in Frage stellen (vgl. Kap 14.1.14). Es ist naheliegend, dass Produktionen auf Lack-Folie, Analog-Schallplatte, ¼-Zoll-Magnetband oder Lichtton-Material am häufigsten restauriert werden müssen. Jedes dieser Aufzeichnungsverfahren hat seine eigenen spezifischen Störungsmechanismen; die häufigsten Störsignale sind Brummen, Knacken, Knistern und Rauschen. Für jede dieser Störungen gibt es einschlägige Bearbeitungssoftware, mit der die Störungen reduziert oder eliminiert werden können. 14.2.2.6
Analog oder digital?
Eine vieldiskutierte Frage ist, ob ein Mastering-Prozess in der analogen oder in der digitalen Signalebene durchgeführt werden soll. Analoge Mastering-Werkzeuge kommen häufig dann zum Einsatz, wenn es gilt, der Produktion eine gewohnte, charakteristische Klangfarbe zu verleihen. Die in diesem Fall erreichten Ergebnisse werden in der Regel als angenehm und „warm“ empfunden. Beim technischen Aufbau einer analogen Mastering-Einrichtung ist größte Sorgfalt erforderlich, und es ist in jeder Beziehung und in jedem Detail darauf zu achten, dass die Signalqualität erhalten bleibt. Außerdem ist es wichtig, eine Auswahl an Nachbearbeitungsgeräten bei 820
Mastering Bedarf in den Signalweg einschleifen und deren Anordnung im Signalweg ändern zu können, ohne aufwändige Umverkabelungen vornehmen zu müssen. Auch die richtige Wahl der am Schluss einer Bearbeitung eingesetzten Analog-Digital-Wandler ist eine Aufgabe, die mit viel Sachverstand und Erfahrung gelöst werden sollte. An dieser Stelle kann der empfundene „Klanggewinn“ der Analogtechnik schnell wieder in Frage gestellt werden. Das digitale Mastering bietet den Vorteil, dass die Einstellungen der Mastering-Einrichtung jederzeit reproduzierbar, weil abspeicherbar, sind. Einzelne Kanäle lassen sich in ihrem Übertragungsverhalten fest verkoppeln, Phasenverschiebungen bzw. Gruppenlaufzeiten sind besser beherrschbar, und auch irritierende Signalverzögerungen („Latenzen“) können bei Anwendung hoch entwickelter digitaler Signalverarbeitung vermieden werden. Es entspricht dem Stand der Technik, dass bestimmte Bearbeitungs- oder Effektgeräte nur digital realisierbar sind (z. B. Raumabbildung durch „Faltungshall“, siehe Kap. 6.5.3). Bei vielen Nachbearbeitungsgeräten mit analogem Klangverhalten handelt es sich in Wirklichkeit um digitale Emulationen. Letztendlich ist es eine ästhetische Frage, ob sich Produzent und Mastering-Ingenieur für analoge, digitale oder eine Kombination beider Technologien entscheiden.
14.2.3
Surround Mastering
Seit der Einführung der DVD ist es möglich, diskrete Mehrkanalsignale bis zum Endverbraucher durchzureichen. Dabei ergeben sich zusätzliche Aspekte und Problemstellungen der stereofonen Mehrkanaltechnik, die über die Aufgaben des zweikanaligen Stereo-Masterings hinausgehen. Eine richtige Aufstellung der Lautsprechersysteme ist in der Regel beim Endverbraucher noch schwieriger zu realisieren als es schon bei einer konventionellen stereofonen Zweikanalanordnung war. Auch die Art der Lautsprecher wird häufig innerhalb eines Surround-Wiedergabesystems variieren. So ist unter Umständen der richtungsstabilisierende Center-Lautsprecher anders aufgebaut als die Hauptlautsprecher für den rechten und linken Kanal; als Surround-Lautsprecher werden sehr kleine Systeme eingesetzt, so dass ein homogenes Klangbild vom Grundsatz her gefährdet erscheint. Außerdem ist es in durchschnittlichen Hörumgebungen kaum möglich, die Lautsprecher im korrekten Abstand zum Zuhörer anzuordnen. Die exakte Einstellung der Entfernungskompensation durch Delay (Laufzeitkorrektur) im Verstärker bleibt dem Endverbraucher selbst überlassen und ist damit beim Mastering nicht vorhersehbar. Diese Fakten dürfen bei der klanglichen Bearbeitung von Surround-Produktionen nicht außer Acht gelassen werden. Alle wesentlichen Schallfeld- und Klang-Informationen müssen beim Endverbraucher auch dann noch ankommen, wenn dort die Voraussetzungen für eine optimale Surround-Wiedergabe nicht erfüllt sind (vgl. hierzu auch Kap. 5.4). Beim Surround Mastering ist es oft notwendig und sinnvoll, das stereofone L/R-Signal, den Center-Kanal und die Surround-Kanäle unterschiedlich zu bearbeiten. Besondere Aufmerksamkeit gilt dem Einsatz von Kompressoren. Hier ist genau zu prüfen, welche Kanäle miteinander verkoppelt werden dürfen oder müssen, ohne dass es zu hörbaren Regelprozessen oder Verschiebungen der räumlichen Ortung durch falsche Verknüpfung („Verlinkung“) kommt. 821
Digitale Tonsignalspeicherung 14.2.3.1
Mastering von Kinomischungen
Beim Mastering von Kinomischungen für die Heimwiedergabe gilt es, die Unterschiede zwischen beiden Wiedergabesituationen zu berücksichtigen. Im Kino werden die Surround-Kanäle von mehreren im Raum verteilten Lautsprechersystemen wiedergegeben. Dadurch entsteht in Verbindung mit den räumlichen Gegebenheiten des Saals nicht nur ein diffuseres Schallfeld, sondern auch eine größere Hörzone für die Mehrkanalwiedergabe. Handelsübliche Surround-Systeme für den Wohnzimmereinsatz hingegen haben in der Regel nur eine Lautsprecherbox pro Kanal. Hieraus ergeben sich andere Pegelverhältnisse und eine deutlichere Ortbarkeit der Surround-Kanäle. Ein weiterer, wesentlicher Unterschied liegt in der Behandlung des LFE-Kanals („Low Frequency Enhancement / Effect“). Beim automatischen Downmix eines Dolby-DigitalSignals wird der LFE-Kanal ignoriert. Sollte der LFE-Kanal Signale enthalten, die für die Mischung unentbehrlich sind, muss dieser Anteil den Hauptkanälen zugemischt werden. Mehrkanal-Kinomischungen für den Heimgebrauch werden aus den genannten Gründen häufig in einem Abhörraum mit wohnzimmerähnlichen akustischen Eigenschaften durchgeführt („Ateliermischung“).
14.2.4
Das Mastering-Studio
Ein typisches Mastering-Studio verfügt über eine exzellente Akustik und hervorragende Lautsprechersysteme. Dies ist die unabdingbare Voraussetzung dafür, dass jede Art von Musik (und Sprache) beim Mastering-Prozess neutral und präzise wiedergegeben wird; denn in der Regel gibt es nach dem Mastering keine weitere Kontrollinstanz. Im Mastering-Studio besteht zum letzten Mal die Chance, Fehler noch vor der Vervielfältigung festzustellen und zu beheben. Zentrales Herzstück des Mastering-Studios ist eine Workstation, die in der Lage ist, alle Arbeiten vom Schnitt bis zum fertigen CD-Master zu erledigen. Ergänzt wird das Studio durch eine Vielzahl von speziellen analogen und digitalen Filtern, Kompressoren und Limitern; auch Hallgeräte sind für die Bearbeitung wichtig. In der Regel werden Geräte eingesetzt, die speziell für das Mastering entwickelt wurden. Gerade die eingesetzten Analoggeräte müssen sehr präzise justierbar sein und in allen Kanälen exakt gleich arbeiten. Bei Verwendung von Rasterpotentiometern lassen sich Einstellungen sicherer, aber weniger feinstufig reproduzieren. Verknüpft werden sämtliche Geräte über geeignete Kreuzschienen-Systeme oder über spezielle Mastering-Konsolen, die es erlauben, einzelne Geräte in beliebiger Anordnung miteinander zu verknüpfen. Um schnelle klangliche Entscheidungen treffen zu können, ist es sehr wichtig, an jedem beliebigen Punkt der Bearbeitungskette in hoher Qualität vorhören zu können.
14.2.5
Master-Formate
14.2.5.1
CD-Audio
U-Matic und SONY PCM1610/1630 Das älteste Master-Format für die Audio-CD ist der U-Matic-Standard. Hier wird ein PCM-Signal über einen Signalprozessor (PCM 1610/1630) als „Pseudo-Videosignal“ auf ein 822
Mastering kassettiertes ½-Zoll-Schrägspur-Videoband gespielt. Seit ca. 2002 wird dieses Format von den Presswerken nicht mehr akzeptiert. Exabyte Die Exabyte-Kassette enthält ein 8-mm-Band, das ursprünglich für den Einsatz in Computerlaufwerken entwickelt wurde. Die Masterdaten werden im sog. DDP (Disc Description Protocol) gespeichert. Dieses Format wird in den Presswerken immer noch verwendet, um Glasmaster zu erstellen; die Exabyte-Bandlaufwerke werden jedoch mittlerweile nicht mehr hergestellt. Premaster CD Hierbei wird das Audiomaterial im CD-Audio-Format auf eine CD-R gebrannt. Dieses Format ist ein unsicheres und anfälliges Masterformat, da einerseits die Master-Medien empfindlich gegen mechanische Beschädigungen sind und andererseits das Audiosignal während der Wiedergabe die Fehlerkorrektur eines CD-Players durchlaufen muss. Die Wiedergabequalität hängt hiermit also auch von den Zufälligkeiten des CD-Wiedergabesystems im Presswerk ab. Es kann daher grundsätzlich nicht sichergestellt werden, dass das CD-R-Master fehlerfreie Daten für den Vervielfältigungsprozess liefert. DDPi – Filetransfer auf Datenträger oder Online Die modernste und sicherste Form eines CD-Masters ist das DDPi-File. Hierbei werden Dateien nach dem Disc Description Protocol (DDP) auf Datenträger (z. B. Festplatte) und in Server-Netzwerken aus der Computerwelt gespeichert oder über Datenleitungen als Image (i) übertragen. Diese Dateien sind mit Prüfsummen versehen, so dass bis zur Fertigung die Integrität der Daten durchgängig gewährleistet werden kann. PQ-Editing Vor der Fertigstellung des CD-Masters erfolgt das PQ-Editing. Nachdem sämtliche Pausen und Titelübergänge festgelegt sind, werden die einzelnen Trackmarken und Indizes gesetzt, sowie Zusatzinformationen wie CD-Text oder ISRC- und EAN-Codes (International Standard Recording Code, European Article Number) eingefügt.
14.2.6
Alternative Formate
14.2.6.1
Super Audio CD
Die Super Audio CD (SACD) wurde gemeinsam von Sony und Philips als Nachfolgeformat der CD entwickelt und stand in Konkurrenz zu dem im gleichen Zeitraum vorgestellten DVD-Audio-Format. Die SACD verwendet eine höhere Auflösung als die herkömmliche CD und bietet darüber hinaus die Möglichkeit, Mehrkanalton verlustfrei zu speichern. Auf der SACD werden die Audio-Daten im DSD-(Direct Stream Digital)-Format gespeichert. DSD verwendet eine 1-Bit-Delta-Sigma-Modulation mit einer Abtastrate von 2,8224 MHz (64 x 44,1 kHz).
823
Digitale Tonsignalspeicherung In der Praxis werden Produktionen kaum im Original als DSD Signal, sondern vielmehr in PCM-Technologie aufgezeichnet. Daher muss vor dem Mastering das Signal von PCM nach DSD konvertiert werden. Hierzu kann entweder eine geeignete Konvertiersoftware eingesetzt werden, oder das Signal wird über eine hochwertige analoge Wandlerstrecke geschickt. Auf der SACD kann neben einer zweikanaligen Stereoaufzeichnung auch ein 5.1-Surround-Signal abgelegt werden. Der Anwender wählt dann im dafür geeigneten Wiedergabegerät den jeweiligen Abspielmodus aus. Das Premastering von SACDs erfolgt in zwei Schritten: Zunächst wird ein sog. „Edited Master“ erstellt. Dieses Master ist eine fertig geschnittene Version inclusive aller PQ-Daten, die in eine DSD-IFF-Datei im Interchange File Format gewandelt wird. Das Presswerk benötigt ein sog. „Cutting Master“. Dabei wird dem Edited Master die „SACD Channel Text“-Information hinzugefügt, die Audiodaten werden verlustfrei komprimiert und alles dann in ein DST-Signal (Direct Stream Transfer) umgewandelt. Dieses Signal wird dann zum Versand ins Presswerk auf ein AIT-Band (Advanced Intelligent Tape) geschrieben, dessen Kassette neben dem Magnetband auch einen Halbleiterspeicher für Steuerdaten (MIC, Memory In Cartridge, Kap. 14.1.6.4) enthält. Die SACD verfügt über ein sehr umfangreiches und leistungsfähiges Kopierschutzsystem. SACDs können nicht auf DVD-ROM-Laufwerken wiedergegeben werden, und aus Sicherheitsgründen wurde auf die Möglichkeit von beschreibbaren SACDs verzichtet. Es ist daher unmöglich, SACDs einzeln zu brennen. Eine Endkontrolle und Freigabe kann nur zusammen mit einer DSD-Workstation erfolgen. 14.2.6.2
Super Audio Hybrid Disc
Meistens werden SACDs als Hybrid-CDs hergestellt. Auf einer Hybrid-SACD befinden sich sowohl der Super Audio Layer mit je einem DSD-Stream in Zweikanal- und 5.1-Version, sowie auch ein zusätzlicher CD-Layer. Dadurch sind SACDs mit herkömmlichen CD-Playern kompatibel. Die Datenstruktur auf der SACD ist der auf der CD sehr ähnlich. Es gibt einen Lead-InBereich, danach die beiden Bereiche für Zweikanal-Stereoton und für den Mehrkanalton. Darüber hinaus sind umfangreiche Möglichkeiten für die Speicherung und Anzeige von Texten vorhanden. Ein eigener Videobereich wurde zwar spezifiziert, ist aber nie realisiert worden. 14.2.6.3
DVD-Audio
Die DVD-Audio wurde als Audio-Variante der DVD-Video entwickelt und sollte die Audio-CD ablösen; sie wird aber so gut wie nicht mehr hergestellt. Die DVD-Audio bietet neben unkomprimiertem und hochaufgelöstem Zweikanal- und Mehrkanalton auch noch die Möglichkeit der Navigation über Menüs wie bei der DVD-Video. Auch die Wiedergabe von Standbildern und Slideshows ist möglich. Parallel zum DVD-Audio Teil kann auch ein zu DVD-Video kompatibler Teil integriert werden.
824
Mastering Audiodaten können bei DVD-Audio als lineare PCM in folgenden Auflösungen abgelegt werden: - Bei 5.1-Mehrkanalton beträgt die Abtastrate 44,1 kHz, 48 kHz, 88,2 kHz oder 96 kHz mit einer maximalen Wortbreite von 24 Bit. - Bei Stereoton stehen zusätzlich die Abtastfrequenzen 176,4 kHz oder 192 kHz zur Verfügung. Um die Datenrate bei hochauflösendem Mehrkanalton innerhalb der maximalen Wiedergabedatenrate der Player zu halten, wurde für die DVD-Audio das MLP-(Meridian Lossless Packing)-Verfahren zum Komprimieren der Daten spezifiziert. Die Audiodaten werden vor dem Aufbringen auf die DVD-Audio durch MLP verlustfrei codiert und bei der Wiedergabe im DVD-Audio Player decodiert. Dadurch wird nicht nur die maximale Datenrate reduziert, sondern auch der Speicherplatz der DVD insgesamt effektiver genutzt. 14.2.6.4
DVD-Video
Authoring Auf der DVD-Video werden Video-, Audio-, Untertitel- und Grafikdaten gespeichert und miteinander logisch verknüpft. Das logische Verknüpfen dieser Daten bezeichnet man als „Authoring“. Anschließend werden die Daten zu einem durchgängigen Multiplex-Datenstrom zusammengefügt und in das DDP-Format gebracht. Bei Dual-Layer-DVDs besteht für jeden Layer eine eigene Image-Datei. Diese Datei wird auf einem DLT-Band (Digital Linear Tape) oder einer DVD-R ins Presswerk geschickt. Alternativ dazu kann sie, entsprechende Bandbreiten vorausgesetzt, auch „online“ übertragen werden. Vor dem Versand des Masters ist eine umfangreiche Endkontrolle sehr wichtig. Es empfiehlt sich, sämtliche Inhalte der DVD mit einer dafür erstellten DVD-R zu überprüfen. Durch den komplexen Produktionsprozess, bei dem Audio- und Videodaten getrennt voneinander bearbeitet werden, muss sichergestellt sein, dass alle Inhalte auf der DVD korrekt und synchron abgelegt sind. Dazu gehört auch eine umfangreiche Überprüfung der Menü-Navigation. Hier empfiehlt sich der Einsatz unterschiedlicher DVD-Player, um eventuelle Kompatibilitätsprobleme rechtzeitig erkennen zu können. Bitbudget Um zu gewährleisten, dass weder die Speicherkapazität der DVD noch die maximale Datenrate überschritten werden, muss vor der DVD-Produktion die Kapazität der einzelnen Datenströme definiert und kalkuliert werden. Dabei wird für alle Inhalte der DVD die Dateigröße errechnet und festgelegt. Die Summe der Datenraten der gleichzeitig verfügbaren Audio- und Videodaten darf dabei 9,8 MBit/s nicht überschreiten. Außerdem muss vor der Produktion bestimmt werden, an welcher Stelle sich bei Dual-LayerDVDs der sogenannte Layer Break befindet. Der Layer Break definiert den Datenblock auf der DVD, an dem der Wiedergabe-Laser die Speicherschicht wechselt. An dieser Stelle ist die Bild- und Tonwiedergabe für einen kurzen Moment unterbrochen. Sollte sich diese Stelle 825
Digitale Tonsignalspeicherung mitten im Programm befinden, ist es empfehlenswert, eine Audio-Passage mit niedrigem Pegel ohne viel Bewegung im Bild zu wählen. Video-Encoding Sämtliche Videodaten werden als MPEG-2-Video codiert. Das Bildformat kann sowohl 4:3 als auch 16:9 sein. Um eine höhere Effizienz zu erreichen, kann die Datenrate des MPEG-2-Datenstroms variabel sein. Bereits beim Encoding wird definiert, wo später Kapitelmarken gesetzt sind. DVDs werden sowohl im PAL- als auch im NTSC-Format erzeugt. Die Geräte in NTSC-Regionen können ausschließlich NTSC-Signale wiedergeben, PAL-Geräte hingegen geben in der Regel auch NTSC-DVDs korrekt wieder. Audio-Encoding Im DVD-Video-Format sind folgende Audioformate zugelassen: PCM-Zweikanal-Stereo (48 kHz und 96 kHz, jeweils mit 16, 20 oder 24 Bit Auflösung), Dolby Digital und (in Europa) MPEG-2 Audio. Optional darf zusätzlich auch ein DTS-Datenstrom verwendet werden (siehe Kap. 12.4). Auf der DVD können bis zu acht Audio-Streams parallel zum laufenden Video-Inhalt angelegt werden. Der Anwender kann dann einen dieser Streams auswählen. Kopierschutz Für die DVD gibt es innerhalb der DVD-Spezifikation sowohl ein digitales als auch ein analoges Kopierschutzverfahren. Das CSS (Content Scrambling System) verschlüsselt die Daten digital und soll verhindern, dass digitale Kopien der DVD hergestellt werden können. Das APS (Analog Protection System) von Macrovision setzt ein Flag, das den Player veranlasst, das analoge Ausgangssignal so zu verändern, dass es nicht mehr analog kopiert werden kann. Regional Code Jede DVD kann mit einem Regional Code versehen werden, der dafür sorgt, dass diese DVD nur auf Playern abspielbar ist, die auf denselben Code werksseitig eingestellt sind. Es wurden insgesamt weltweit 8 Regionen definiert, wovon nur 7 benutzt werden; Europa liegt in Zone 2. Dieser Code wird beim DVD-Authoring für die jeweilige DVD festgelegt. Es ist auch möglich, mehrere Regionen gleichzeitig freizugeben. 14.2.6.5
Blu-ray Disc
Die Blu-ray Disc ist ein weiteres optisches Speichermedium und soll die DVD ablösen. Die Blu-ray Disc wurde im Jahre 2002 von einer Gruppe führender Unternehmen aus den verschiedenen Branchen der Unterhaltungselektronik, der Hersteller von Computersystemen und von Programmanbietern entwickelt. Die sog. Blu-ray Disc Association (BDA) besteht mittlerweile aus weit über 150 Mitgliedern aus allen Bereichen der Unterhaltungs- und Computerindustrie. 826
Mastering Durch den Einsatz eines Lasers mit 405 nm Wellenlänge können auf einer Blu-ray Disc bis zu 50 GByte Daten gespeichert werden. Auch die Datenübertragungsrate hat sich gegenüber der DVD näherungsweise vervierfacht. Dadurch ist es möglich, Video- und Audiodaten mit hoher Auflösung zu speichern. Aktuell existieren drei Anforderungsprofile an die Player. Profil 1.0 wurde mit der Einführung der Blu-ray definiert. Ab Player-Profil 1.1 ist ein zweiter Audio- und ein weiterer Videodecoder spezifiziert, durch den auch Bild-in-Bild Anwendungen möglich werden. Ab Profil 2.0 steht zusätzlich mehr Arbeitsspeicher zur Verfügung, und der Player verfügt nun über eine Netzwerkschnittstelle. Damit lassen sich dann Anwendungen programmieren, die über das Internet inhaltlich aktualisiert werden können. Das Premastering Format für Blu-ray ist CMF (Cutting Master Format). Typischerweise erfolgt der Transfer dieser Daten ins Presswerk auf Festplatten. Authoring Authoring für Blu-ray ist prinzipiell dem DVD-Authoring sehr ähnlich. Allerdings gibt es durch den erweiterten Funktionsumfang der Blu-ray Disc noch mehr Möglichkeiten der Interaktivität. Die Blu-ray verfügt z. B. über die Möglichkeit von „Pop-Up“-Menüs. Es ist hierbei möglich, während der Wiedergabe über das Videosignal eine Menüebene zu legen und in dieser zu navigieren, ohne dass es zu einer Unterbrechung der Wiedergabe kommt. In Abb. 14/27 ist der Work Flow eines Blu-ray-Mastering/Authoring-Prozesses dargestellt, der auch die Ähnlichkeit mit dem DVD-Authoring erkennen lässt. Video-Encoding Von der Blu-ray Disc können Videos in „High-Definition“ mit einer Auflösung von max. 1920x1080 Pixeln dargestellt werden. Wie bei der DVD wird das Quellenmaterial codiert; hierfür stehen drei verschiedene Codecs zur Verfügung: AVC (H.264), VC-1 und MPEG-2 HD / MPEG-4. Das Videomaterial kann sowohl „progressive“ (kontinuierlich abgetastet) oder „interlaced“ (im Zeilensprungverfahren) vorliegen. Als „Aspect Ratio“ sind sowohl 4:3- als auch 16:9-Formate erlaubt. Die Bildwiederholfrequenz kann 24, 25 und 30 (29,97) Hz betragen. Audio-Encoding Bei der Auswahl der Tonformate sind Linear-PCM, Dolby Digital und DTS erlaubt. Die maximale Auflösung beträgt 24 Bit/192 kHz bei 6 Kanälen und 24 Bit/96 kHz bei 8 Kanälen. Innerhalb der Formate von Dolby und DTS gibt es eine deutlich größere Anzahl von Möglichkeiten als bei der DVD: Beide Formate unterstützen verlustfreie Codecs, so dass auf der Blu-ray unkomprimierter Mehrkanalton in hoher Auflösung gespeichert werden kann. Beide Formate sind rückwärtskompatibel zu herkömmlichen Decodern. Bei DTS-HD-Master-Audio enthält der Datenstrom einen rückwärtskompatiblen DTS-Stream, der mit dem herkömmlichen für DVD- Player verwendeten DTS verträglich ist.
827
Digitale Tonsignalspeicherung Dolby True HD verwendet die MLP-Technologie (Meridian Lossless Packing), um Audiosignale verlustfrei zu komprimieren. Darüberhinaus lassen sich (wie bei allen Dolby-DigitalFormaten) Metadaten für die verschiedenen Wiedergabemodi speichern. Beide Formate erlauben einen Downmix mit vorher festzulegenden Koeffizienten. Auf Grund der hohen Datenkapazität gibt es keinen Grund, anspruchsvolle Audioquellen auf dem Blu-ray-Medium verlustbehaftet zu speichern.
Abb. 14/27. Mastering Workflow bei DVD und Blu-ray Disc.
Kopierschutz Auf der Blu-ray Disc wird der AACS-Kopierschutz (Advanced Access Content System) verwendet. Grundsätzlich müssen alle Blu-ray Discs damit versehen werden. In den Playern sind bereits Kopierschutz-Schlüssel implementiert, die nachträglich vom AACS verändert und gegebenenfalls gesperrt werden können. Dadurch kann auf etwaige Kopierschutzverletzungen reagiert werden. Regional Code Die Blu-ray Disc verfügt ähnlich wie die DVD-Video über einen Regional Code. Allerdings gibt es weltweit nur noch drei Bereiche. Europa liegt in Region B. 828
Digitale Tonarchive 14.2.6.6
HD-DVD
Die HD-DVD wurde als Nachfolgeformat zur DVD entwickelt. Im Formatstreit mit der Blu-ray Disc ist das Format jedoch unterlegen und wird seit März 2008 nicht mehr weiterentwickelt und vermarktet.
14.3
Digitale Tonarchive
Tonarchive spielen seit langer Zeit eine wichtige Rolle im Betriebsablauf der Rundfunkanstalten und anderer Unternehmen im Umfeld der Tonstudiotechnik. Die grundlegende Zielsetzung solcher Tonarchive besteht dabei vor allem in der sicheren Erhaltung und Bewahrung des Audiomaterials, und zum anderen in der formalen Erfassung und inhaltlichen oder dokumentarischen Erschließung eben dieses Materials. Während mit der ersten Zielsetzung der langfristige – im Idealfall zeitlich unbegrenzte – Zugriff auf wertvolle Tondokumente sichergestellt wird, dient die zweite grundlegende Zielsetzung insbesondere einer systematischen Verwaltung des Archivbestands und der gezielten Recherche darin. In der Vergangenheit bestanden solche Tonarchive in der Regel aus den eingelagerten Tonträgern, also beispielsweise Tonbändern, Schallplatten und CDs, und einem softwarebasierten Katalogsystem für die Verwaltung, formale Erfassung und dokumentarische Erschließung. Im Zuge der Digitalisierung der Studiotechnik werden Tondokumente nicht mehr auf klassischen Tonträgern, sondern mehr und mehr digital als Audiodateien gespeichert. Derartige Datenspeicherlösungen werden mit den bestehenden oder neuen Katalogsystemen verknüpft und um geeignete Import- und Export-Möglichkeiten ergänzt. Auf diese Art gelingt die weitgehende Integration digitaler Tonarchive mit anderen digitalen Studioprozessen (Abb. 14/28, vgl. auch Kap. 13).
Abb. 14/28. Prinzip der integrierten Prozesse.
In einer Gegenüberstellung der Integrationsproblematik einerseits mit konventionellen Systemen und andererseits mit digitalen Archiven wird der Nutzen der digitalen Technik noch deutlicher (Abb. 14/29). Während in der konventionellen Umgebung der Informationsaustausch zwischen Dokumentation und Archiv einerseits und dem Programm andererseits manuelle Prozesse erfordert – beispielsweise in Form eines Bestell- und Ausleihverfahrens für archivierte Tonträger – ermöglicht die integrierte Umgebung mit einem digitalen Tonarchiv den Online-Zugriff und netzwerkgestützten Datenaustausch. Die Prozesse von Archiv und Programm bzw. Produktion können somit auf der Basis von informationstechnischen Lösungen integriert werden.
829
Digitale Tonsignalspeicherung
Abb. 14/29. Gegenüberstellung konventioneller und digitaler Lösungen.
Abb. 14/30. Grundlegender Aufbau digitaler Tonarchive.
830
Digitale Tonarchive Der grundlegende Aufbau digitaler Tonarchive lässt sich durch die Aufteilung in sechs Teilsysteme relativ einfach veranschaulichen (Abb. 14/30). Zentrale Elemente sind zum einen das Katalogsystem mit Datenbank und Benutzeroberflächen und zum anderen der digitale Audiospeicher. Während das Katalogsystem den Inhalt des Archivs organisiert und strukturiert und die dazu erforderlichen beschreibenden Daten („Metadaten“) enthält, dient der digitale Audiospeicher als Aufbewahrungsort für die als Audiodateien gespeicherten Audioinhalte („Essenzdaten“). Ein- und Ausspielstationen ermöglichen die Übernahme bzw. die Abgabe von Archivinhalten über konventionelle Tonträger. Die Integration des digitalen Tonarchivs wird über geeignete Schnittstellen ermöglicht. Begriffsdefinitionen Digitale Tonarchive profitieren in umfangreicher Weise von der modernen Informationstechnologie. Aus diesem Grunde werden häufig Begriffe aus diesem Technologieumfeld verwendet, so dass zur Einführung einige Begriffsdefinitionen unerlässlich sind (Tab. 14/10). Tab. 14/10. Begriffe aus der Informationstechnologie. Digitaler Speicher
Im Zusammenhang mit digitalen Tonarchiven wird unter einem digitalen Speicher ein IT-Speichersystem verstanden, in dem die Audiodaten in Form einer Datei vorliegen und sie mithin über Dateioperationen einer Softwarelösung zugreifbar sind. Datenbank Der Begriff „Datenbank“ bezeichnet eine spezielle Form der softwarebasierten Datenspeicherung und -verwaltung, die sich insbesondere für die effiziente Organisation großer Datenbestände eignet. In der Datenbank gespeichert werden in der Regel nur beschreibende Informationen, nicht die Audiodaten selbst. Benutzeroberfläche Softwarekomponente, die die Nutzerinteraktion mit dem Softwaresystem ermöglicht. In der Regel sind Benutzeroberflächen heute grafisch aufbereitet, sie werden dann auch als Graphical User Interface (GUI) bezeichnet. Schnittstelle Im Kontext dieses Kapitels: Softwarekomponenten, die die Kommunikation (Datenübertragung usw.) zwischen IT-basierten Systemen ermöglichen. Essenzdaten Unter Essenzdaten werden im Zusammenhang mit digitalen Tonarchiven (oder auch anderen Medienarchiven) die eigentlichen Mediendaten, also das digitale Abbild der Toninformation, verstanden. Metadaten Unter Metadaten werden Begleitdaten verstanden, die die Essenzdaten näher beschreiben. Dabei wird zwischen technischen, formalen und beschreibenden Metadaten unterschieden. Content Der Begriff „Content“ bezeichnet die Verknüpfung aus Essenz- und Metadaten. Erst in dieser Verknüpfung werden Essenzdaten – hier Audiodaten – zu nutzbarer Information, da sie andernfalls nicht sinnvoll identifizierbar sind. IT-Systeme IT steht als Abkürzung für „Informationstechnologie“, der Begriff bezeichnet technische Systeme, die aus Computern und zugehöriger Software bestehen. 831
Digitale Tonsignalspeicherung
14.3.1
Anforderungen
Ohne digitale Archivsysteme besteht ein systemtechnischer Bruch zwischen dem Organisationsbereich „Dokumentation und Archive“ einerseits und dem Organisationsbereich „Programm“ andererseits. Die Beseitigung dieser Bruchstelle durch eine technische Integration von digitalen, softwaregestützten Programm- bzw. Archivprozessen ist ein zentraler Mehrwert digitaler Archivsysteme. Die Anforderungen an diese technische Integration mit dem Ziel eines integrierten Prozessablaufs sind durch den jeweiligen spezifischen Blickwinkel des Programms bzw. des Archivs geprägt und somit unterschiedlich zu formulieren. Neben diesen aus einer primär prozessorientierten Sicht geprägten Aspekten tragen natürlich auch primär technisch geprägte Aspekte zum Gesamtkatalog der Anforderungen bei. 14.3.1.1
Funktionale Anforderungen aus Sicht des Archivs
Aus Sicht des Archivs stehen die klassischen archivarischen und dokumentarischen Aufgaben bei der Formulierung von Anforderungen an ein digitales Archiv im Vordergrund. Auch hier spielen neben der reinen Funktionalität insbesondere auch Aspekte der Datensicherheit und Datenintegrität und auch Überlegungen zur Effizienzsteigerung eine Rolle. - Das digitale Archiv muss umfassende Möglichkeiten bieten, Audiomaterial über sehr lange Zeiträume zu erhalten und zu bewahren. Diese Forderung mündet in der Umsetzung in korrespondierende Anforderungen an die eingesetzten filebasierten Speichertechnologien, aber auch an Möglichkeiten der Qualitätskontrolle und der Konvertierung. - Das digitale Archiv muss leistungsfähige Möglichkeiten zur Dokumentation des archivierten Audiomaterials bereitstellen. Im Rahmen der Dokumentation wird zu der Audioessenz ein beschreibender Datensatz mit Metadaten erzeugt. Erst durch diese dokumentarischen Metadaten wird eine gezielte Suche im Archivbestand möglich. Für die technische Realisierung leiten sich daraus Anforderungen an die Struktur der eingesetzten Datenbank und der zugehörigen Benutzeroberfläche ab. - Das digitale Tonarchiv muss die Rechercheaufgaben des Archivs umfassend unterstützen. Neben leistungsfähigen, auf dokumentarischen Metadaten basierenden Recherchemöglichkeiten gehört dazu auch die Möglichkeit, Tondokumente am Recherchearbeitsplatz „online“ vorzuhören. - Das digitale Tonarchiv muss die Übernahme von Archivinhalten sowohl von extern beschafften Tonträgern als auch die Übernahme von sendefertig produziertem bzw. gesendetem Material in das Archiv erleichtern. Diese Forderung entspricht der einleitend formulierten Zielsetzung, Prozessbrüche durch die technische Integration von Teilsystemen aufzuheben. 14.3.1.2
Funktionale Anforderungen aus Sicht des Programms
Der eingangs erwähnte Bruch zwischen den Systemen bedingt eine häufig nicht optimale Nutzungsmöglichkeit der konventionellen Archivbestände durch das Programm, beispielsweise bedingt durch langsame Zugriffszeiten. Um diese Schwäche durch den Einsatz digitaler Archive abzustellen, sind aus Sicht des Programms die nachfolgend beschriebenen Anforderungen umzusetzen: 832
Digitale Tonarchive - Ein digitales Archiv muss beschleunigte Abläufe ermöglichen, die frei von Medienbrüchen sind. Durch direktes Vorhören, Bestellen und Übertragen in die programmnahen Systeme muss die unmittelbare Nutzung des archivierten Materials ermöglicht werden. - Ein digitales Archiv muss die gegenüber der Ist-Situation deutlich vereinfachte Überführung von gesendeten und archivierungswürdigen Beiträgen in den Archivkontext ermöglichen. Dies erlaubt die rasche archivarische Weiterverarbeitung und insbesondere Dokumentation. - Bei der Einführung eines digitalen Archivs ist eine aus programmlicher Sicht geprägte Füllstrategie notwendig, die zeitnah ein hohes Nutzungspotenzial des Systems ermöglicht. - Ein digitales Archiv sollte die Flexibilität bei der Wiederverwertung von Archivmaterial steigern. Für die bestehenden Programme, aber auch für neue Angebotsformen und medienübergreifende Arbeitsweisen können Aktualität und Flexibilität des digitalen Archivs einen erheblichen Mehrwert bieten. 14.3.1.3
Systemtechnische Anforderungen
Neben den beschriebenen funktionalen Anforderungen, die sich aus der prozessorientierten Sicht des Programms bzw. des Archivs ergeben, spielen auch systemtechnische Anforderungen an die technische Infrastruktur eines digitalen Tonarchivs eine wichtige Rolle. Die wichtigsten Anforderungen lassen sich in die Kategorien IT-Sicherheit, Nutzermanagement, Systemmanagement und Skalierbarkeit gliedern. IT-Sicherheit Unter der Überschrift IT-Sicherheit sind unterschiedliche Aspekte zusammengefasst. Besonders hervorzuheben sind hierbei - die Systemverfügbarkeit im Sinne von Zuverlässigkeit und Havarievermeidung, - die Datensicherheit im Sinne einer fehlertoleranten Speicherarchitektur und eines tauglichen Backup-Konzeptes, und - die Zugangssicherheit im Sinne der Abwehr unberechtigter Zugangsversuche und Attacken von außen. Ebenfalls zum Thema IT-Sicherheit gehören die Aspekte Authentifizierung und Autorisierung; diese Gesichtspunkte werden im folgenden Absatz „Nutzermanagement“ erörtert. Nutzermanagement Einen anderen Aspekt der Sicherheit stellt das Berechtigungskonzept für den Zugriff auf den digitalen Audioarchivspeicher dar. Eine als sinnvoll etablierte Strategie basiert auf der Nutzung rollenbasierter Rechte, wobei jede Rolle (oder Gruppe) einen Satz an Rechten besitzt und jeder Nutzer einer oder mehreren Rollen angehört. Die Rechte selbst decken zwei Dimensionen ab: zum einen die funktionale Dimension, in welcher der Funktionsumfang für den Nutzer beschrieben ist (Import, Export, Ändern, Löschen), zum anderen die inhaltliche Dimension, in welcher der Zugriff auf Bestände oder Beiträge (Erstsenderecht, Verwendungsbeschränkung) geregelt ist. 833
Digitale Tonsignalspeicherung Systemmanagement Digitale Tonarchive bestehen aus einer Vielzahl informationstechnischer Komponenten. Die Gesamtfunktionalität erfordert das einwandfreie Zusammenspiel dieser Komponenten. Entsprechend komplex gestalten sich Fehlersuche und -behebung im Havariefall. Aus diesem Grunde kommt einem leistungsfähigen Überwachungssystem („Monitoring and Control“) eine zentrale Rolle zu, um einen möglichst störungsarmen Betrieb gewährleisten zu können. Skalierbarkeit Generell beschreibt die Forderung nach Skalierbarkeit die Fähigkeit des Systems, an im Fluss befindliche Anforderungen ohne grundlegende Änderungen möglichst gut anpassbar zu sein. Es liegt in der Natur der Sache, dass sich zukünftige Anforderungen in der Praxis nur in begrenztem Umfang vorhersagen lassen. Aus diesem Grund müssen Anforderungen an die Skalierbarkeit häufig abstrakt formuliert werden, ohne dabei allzu unspezifisch zu werden. Wesentlich ist die Forderung nach skalierbarer Speicherkapazität und -technologie. Die Zielsetzung digitaler Tonarchive nach „ewiger“ Aufbewahrung führt zwangsläufig zu einem kontinuierlich wachsenden Bedarf an Speicherplatz, der in sinnvoller Weise mit einem korrespondierenden Ausbau einhergeht. Da aber gleichzeitig die verfügbaren IT-Speichersysteme permanenten Technologiewechseln unterliegen, muss die simultane Nutzbarkeit unterschiedlicher Speichertechniken sowohl aus technischen als auch aus wirtschaftlichen Gründen gefordert werden. Ebenfalls wichtig ist die Forderung nach offenen und hinreichend universellen Schnittstellen. Die formulierte Forderung aus Sicht des Programms bzw. der Produktionstechnik nach einer engen Integration der digitalen Tonarchive erfordert vielfältige Schnittstellen mit peripheren Systemen.
14.3.2
Archivsysteme
Ausgangspunkt für die Beschreibung der technischen Struktur digitaler Tonarchive ist die in Abb. 14/29 vorgestellte Anordnung. Grundsätzlich handelt es sich bei digitalen Tonarchiven um vergleichsweise komplexe Softwaresysteme. Daher spielt die eingesetzte Softwarearchitektur eine besonders wichtige Rolle. Ziel ist dabei stets ein hinreichend modularer Aufbau der Gesamtlösung, um so die geforderte Skalierbarkeit sicherzustellen. Naturgemäß existieren vielfältige Möglichkeiten, diese Softwarearchitektur geeignet zu definieren. Ein generelles Prinzip für komplexe Softwarelösungen – und damit auch für digitale Tonarchive – ist die Realisierung einer mehrschichtigen Softwarearchitektur. Jede Schicht bündelt dabei einen bestimmten Teil der Gesamtfunktionalität. Ein gängiger Ansatz sieht vier derartige Schichten vor (Abb. 14/31). Schicht 1 bündelt alle Funktionen des Datenmanagements und der Datenspeicherung. Dazu gehören Softwaremodule für das Metadatenmanagement, für das Audiodatenmanagement und für die Speicherverwaltung. In Schicht 2 ist die Systemlogik mit den systemweit genutzten Diensten zusammengefasst. Diese Schicht beinhaltet Module für die Metadatenverarbeitung, Dienste für die Audiodaten834
Digitale Tonarchive prozessierung, Systemdienste wie Benutzer- und Systemmanagement und als ganz wesentliche Komponente ein Prozessmanagement, das diese Module koordiniert. Schicht 3 stellt die interaktiven Benutzeroberflächen bereit. Auch hier werden in der Regel Teilfunktionen in separaten Oberflächenmodulen realisiert. In Schicht 4 werden oft Schnittstellenfunktionen gebündelt. Hier ist zwischen unterschiedlichen Technologien zu differenzieren, die für die Integration des digitalen Tonarchivs mit den verschiedenen externen Systemen genutzt werden können. Web Services sind im Zusammenhang mit sog. serviceorientierten Architekturmodellen (Service Oriented Architecture, SOA) wichtig, weiterhin spielen spezialisierte Programmierschnittstellen (Application Programming Interface, API) und für einfachere Aufgaben dateiorientierte Import- und Exportschnittstellen eine Rolle. Je nach Charakteristik und Funktionalität der Integration des jeweiligen externen Systems werden auf der Grundlage dieser Technologien differenzierte Schnittstellen realisiert.
Abb. 14/31. Mehrschichtige Softwarearchitektur digitaler Tonarchive.
Zwischen den Schichten sind jeweils universelle Schnittstellen definiert. Auf diese Art ist es möglich, einzelne Module auszutauschen oder zu ergänzen, ohne dass dadurch die Gesamtarchitektur – und damit die übrigen Module – geändert werden müssen. Auf diese Art wird die geforderte Skalierbarkeit erreicht. Parallel zu der beschriebenen Softwarearchitektur ist die davon zunächst unabhängige Gesamt-Hardwarearchitektur zu betrachten. Auch hier gibt es zahlreiche unterschiedliche Ansätze, die sich nach dem konkreten Anforderungsprofil an das digitale Tonarchiv richten. Es soll hier eine grundlegende Möglichkeit aus dieser Variantenvielfalt beispielhaft dargestellt werden (Abb. 14/32).
835
Digitale Tonsignalspeicherung
Abb. 14/32. Mögliche Gesamt-Hardwarearchitektur eines digitalen Tonarchivs.
Zunächst ist erkennbar, dass ein Großteil der Elemente doppelt ausgeführt ist. Dadurch wird der Anforderung nach hoher Zuverlässigkeit Rechnung getragen; der Ausfall eines Teilsystems oder eines Gerätetyps führt nicht zum Ausfall des Gesamtsystems. Die einzelnen Hardwarekomponenten der Zentraleinheit des digitalen Tonarchivs sind über ein redundant ausgeführtes lokales Netzwerk (LAN 1) und ein ebenfalls redundantes Speichernetzwerk (Storage Area Network, SAN) verknüpft. Für die Datenbank, die Audiodatenspeicherung und für die Logik bzw. für die Dienste stehen sog. Applikationsserver zur Verfügung. Als Massenspeichersystem kommen in dieser Darstellung redundante Festplattensysteme (RAID-Sets) und ein Bandsystem für die zusätzliche Datensicherung zum Einsatz. Von außen ist der Zugriff auf die Zentraleinheit durch eine Firewall gesichert (LAN 2 / Firewall). Über diese sichere Verbindung sind alle externen Systeme und die Arbeitsplatzrechner, d. h. die PCs und deren Benutzeroberflächen, mit der Zentraleinheit verbunden. 14.3.2.1
Speichersysteme
Speichertechnologie Zum Einsatz gelangen durchweg Standard-Speichersysteme der Informationstechnologie. Hier sind insbesondere Festplatten und bandgestützte Systeme zu nennen. Festplattensysteme basieren dabei praktisch immer auf großen RAID-Systemen, während Bandsysteme wegen des hohen Kapazitätsbedarfs in der Regel als Bandbibliotheken („Tape Libraries“) ausgeführt 836
Digitale Tonarchive sind. Bandbibliotheken verwenden Robotersysteme, die durch eine geeignete Verwaltungsund Steuersoftware aus einem großen Vorrat an Bandkassetten ein oder mehrere angeforderte Bänder automatisch in entsprechende Bandlaufwerke laden. Bei der Wahl des geeigneten Speichermediums ist stets eine Abwägung technischer und wirtschaftlicher Aspekte erforderlich. Bei Festplatten stehen der schnellen Zugriffszeit und dem wahlfreien parallelen Zugriff im Vergleich zu Bandsystemen hohe Kosten pro Kapazitätseinheit gegenüber. Dem gegenüber sind Bandsysteme zu günstigeren Kosten verfügbar. Allerdings liegt die Zugriffszeit im Bereich von Minuten, und die Anzahl der parallelen Zugriffe ist durch die Anzahl der verfügbaren Laufwerke begrenzt. Speichersicherheit Die einfache Speicherung der im digitalen Tonarchiv verfügbaren Audiodateien ist auf Grund der Forderung nach hoher Speichersicherheit unzureichend. Zwar liegen die mittleren, statistisch ermittelten Ausfallzeiten (Mean Time Between Failures, MTBF) marktüblicher 150 GByte-Festplatten heute in der Größenordnung von 500.000 Stunden. Es sind jedoch Archivkapazitäten von mehreren hundert TByte keine Seltenheit, so dass in einem 150 TByte großen Archiv durchschnittlich nach zwanzig Tagen ein Plattenlaufwerk ausfällt. Es gelangen daher unterschiedliche Verfahren zur Erhöhung der Datensicherheit zur Anwendung, häufig auch in Kombination.
Abb. 14/33. Prinzipieller Aufbau eines Festplatten-RAID-Systems.
Festplattensysteme werden durch RAID-Technologie (Redundant Array of Independent Disks) gesichert. Bei diesem Verfahren werden mehrere Platten zu einem RAID-Set verbunden, das die automatische Rekonstruktion der Daten auch beim Ausfall von einer Platte (RAID Level 5) oder von zwei Platten (RAID Level 6) ermöglicht. Dazu werden über einen RAID-Controller beim Schreibvorgang automatisch Korrekturinformationen (Parity) erzeugt 837
Digitale Tonsignalspeicherung und auf einer oder mehreren Platten zusätzlich gespeichert. Im Fehlerfall ist der RAIDController dazu in der Lage, aus den noch verfügbaren Daten zusammen mit der ParityInformation die Ursprungsdaten automatisch wiederherzustellen. Diese Form der Datensicherheit erfordert bei gleicher Netto-Kapazität eine höhere Anzahl Festplatten (Abb. 14/33). Speicherkapazität Die zentrale Aufgabe des Speichersystems besteht in der sicheren Speicherung der digitalen Audiodateien. Dabei sollte grundsätzlich die bestmögliche Audioqualität gespeichert werden. Die heute überwiegend eingesetzte Quellcodierung verwendet Pulscodemodulation (PCM) mit einer Abtastrate von 48 kHz (oder von 44,1 kHz bei nativ gespeicherten CDs) mit einer Wortbreite von 16 Bit pro Mono-Abtastwert. Der rechnerische Netto-Kapazitätsbedarf für solche „linearen“ Audiofiles liegt bei ca. 650 GByte pro 1000 Stunden Audiomaterial. Zunehmend gewinnen höherwertige Quellcodierungen an Bedeutung. Beispiele hierfür sind Abtastraten von 96 kHz und mehr, bei Wortbreiten von 24 Bit. Ebenso wird die übliche Stereotechnik mehr und mehr durch Mehrkanaltechniken („Surround Sound“) beispielsweise im 5.1-Verfahren ergänzt. 1000 Stunden Audiomaterial in 5.1 mit 96 kHz Abtastrate bei 24 Bit Wortbreite benötigen beispielsweise bereits die neunfache Netto-Kapazität oder ca. 5,7 TByte. Zur überschlägigen Abschätzung des Brutto-Kapazitätsbedarfs sind zusätzlich drei weitere Faktoren zu berücksichtigen: - Der Ausnutzungsgrad üblicher IT-Speichermedien liegt aufgrund der Datenträgerfragmentierung bei maximal ca. 90 % der Nettokapazität. - Die Sicherung von Festplattensystemen durch RAID-Technologie erzeugt wie beschrieben zusätzlichen Kapazitätsbedarf in Abhängigkeit von der Auslegung der RAID-Sets. Ein RAID5-Set des Typs 4+1 (vgl. Abb. 14/32) erzeugt beispielsweise einen Overhead von 25 %. - Häufig werden im Sinne einer Desaster-Toleranz die gesamten Speichersysteme an zwei unterschiedlichen Orten identisch aufgebaut. Dies führt zu einer Verdopplung des Kapazitätsbedarfs. Würde man also ein Desaster-tolerantes Festplattensystem mit zusätzlicher RAID5-Technologie (4+1) pro Standort aufbauen, so wäre bei einem Nettokapazitätsbedarf von 100 TByte eine Brutto-Speicherkapazität von ca. 280 TByte anzusetzen. 14.3.2.2
Datenbanken
Neben der Speicherung der Audiodateien spielt deren Verwaltung und auch ihre Verknüpfung mit beschreibenden Daten (Metadaten) eine entscheidende Rolle bei der Realisierung eines digitalen Tonarchivs; dies ist Aufgabe des Katalogsystems (vgl. Abb. 14/31). Die sich daraus ergebenden vielfältigen Anforderungen werden in der Regel mit Datenbanken umgesetzt. Datenbanken bestehen dabei aus einer sog. Datenbank-Engine, sowie aus der darauf aufbauenden speziellen Datenbankanwendung. Derart aufgebaute Datenbanken bieten den Vorteil, die Fülle der Metadaten besonders geschickt verwalten und bearbeiten zu können. Die heute häufigste Form sind relationale Datenbanken, in denen die unterschiedlichen Metadatenbereiche über Relationen zueinander in Beziehung stehen, man sagt auch, „relational verknüpft“ sind. 838
Digitale Tonarchive In der Informatik gibt es eine ausführliche Theorie zu Datenbanken. Eine detaillierte Erläuterung der zahlreichen Facetten ginge weit über das Konzept dieser Ausarbeitung hinaus. Wichtig ist, dass sowohl die Fülle der Metadaten in einem digitalen Tonarchiv – hier kann es ohne weiteres um einige Millionen Datenbankeinträge gehen – als auch ihre komplexe Beziehung zueinander den Einsatz leistungsfähiger Datenbanken erforderlich macht. 14.3.2.3
Benutzeroberflächen
Die bisher beschriebenen technischen Elemente eines digitalen Tonarchivs arbeiten für den Nutzer unsichtbar. Der Nutzerzugang zum System erfolgt gemäß Abb. 14/31 primär über sog. Benutzeroberflächen. Generell gilt, dass sich die Ausformung der Benutzeroberflächen an unterschiedlichen Kriterien orientieren muss, um eine möglichst gute Bedienbarkeit sicherzustellen. Neben der Funktionalität (z. B. Suche, Dokumentation usw.) spielt dabei auch das Nutzerprofil eine wichtige Rolle. So benötigen beispielsweise Dokumentare, Redakteure oder auch die Honorarabteilung jeweils andere Sichten auf die beschreibenden Daten. In der Konsequenz findet sich in der realen technischen Umsetzung digitaler Tonarchive häufig eine hohe Anzahl unterschiedlicher Benutzeroberflächen wieder. Im Folgenden sollen einige praktische Beispiele für derartige Oberflächen vorgestellt werden. Suchoberflächen Suchoberflächen dienen der gezielten Suche und dem Auffinden von archivierten Inhalten. Suchergebnisse werden häufig zunächst als Listen dargestellt. Ausgehend von der Listendarstellung stehen dem Nutzer weitere Funktionen zur Verfügung, beispielsweise eine Detailansicht der Metadaten oder insbesondere – und dies ist eine zentrale Eigenschaft digitaler Tonarchive – die Möglichkeit, Audiodateien anzuhören und an andere Systeme via Netzwerk zu übertragen. Für redaktionelle Nutzer werden häufig Web-basierte Oberflächen zur Verfügung gestellt, die sich durch einfache Funktionalität auszeichnen und die darüber hinaus in einem normalen Internet-Browser lauffähig sind (Abb. 14/34). Der linke Bereich dieser Suchoberfläche zeigt unterschiedliche logische Speicherbereiche, die auch physisch getrennt – bei Bedarf sogar an unterschiedlichen Standorten – realisiert sein können. Im oberen Bereich findet sich ein einfaches Suchfeld („Search for“), das ohne nähere Kenntnis der Metadatenstruktur eine übergreifende Volltextsuche ermöglicht. In der Trefferliste stehen ausgewählte Informationen zu den gefundenen Einträgen, zusätzlich werden in jeder Zeile weitere Funktionen angeboten (Lautsprechersymbol für „Vorhören“, Versandsymbol zur Übertragung in externe Systeme, Warenkorb für nutzerspezifische Materialsammlungen). Gerade in großen Archivbeständen führt die einfache Volltextsuche allerdings häufig zu sehr großen Ergebnismengen. Spezielle Archivinhalte können besser durch komplexere Suchanfragen gezielt gefunden werden. Derartige komplexe Suchvorgänge lassen sich über erweiterte Suchmasken definieren; in diesem Fall ist allerdings eine genauere Kenntnis der Metadatenstruktur vonnöten (Abb. 14/35). Der beispielhaft dargestellte erweiterte Suchdialog (extended search) bietet neben der Vollsuche auch die Einschränkung der Suche auf bestimmte Suchfelder, die Einschränkung der Suche auf Datums- und Zeitbereiche und auch die logische Verknüpfung unterschiedlicher Suchkriterien. 839
Digitale Tonsignalspeicherung
Abb. 14/34. Einfache Suchoberfläche und Darstellung der Suchergebnisse in Listenform.
Abb. 14/35. Bildschirmdarstellung eines erweiterten Suchdialogs.
840
Digitale Tonarchive
Abb. 14/36. Erfassungsoberfläche für dokumentarische Metadaten.
Erfassungsoberflächen Die vorgestellten Suchoberflächen greifen lesend auf den Archivbestand zu. Erfassungsoberflächen bieten ergänzend die Möglichkeit, die Metadaten zu Archiveinträgen anzulegen und zu bearbeiten. Häufig ist dies eine dokumentarische Aufgabe, so dass Erfassungsoberflächen, mit denen auch die dokumentarische Erschließung möglich ist, in der Regel nur einem speziellen Nutzerkreis zur Verfügung stehen. Das dargestellte Oberflächen-Beispiel ist in mehrere Bereiche strukturiert. Es existieren Bereiche für die Wahl der Betriebsart („Moduswechsel“, z. B. für „Neuen Datensatz anlegen“ oder „Datensatz ändern“), für das Anlegen bzw. Ändern von Metadaten („Eingabeformular“), für die Zuordnung von Audiodaten zu 841
Digitale Tonsignalspeicherung Metadaten („Audioverknüpfung“) und für das Erzeugen („Einspiel starten“) von Audiodateien im Archivspeicher (Abb. 14/36). Das Eingabeformular ist in sich nochmals über Reiter oder „Tabs“ gegliedert, um der Fülle der im Archiv relevanten Metadaten gerecht zu werden. Hervorzuheben sind hier die Rubrik „Erschließung“, die Archivaren und Dokumentaren eine systematische inhaltliche Erschließung z. B. anhand von Schlagworten ermöglicht, und die Rubrik „Zeitmarken“; hier werden Marken längs des Audiomaterials hinterlegt, über die spezielle Abschnitte einer Audiodatei gezielt angesprungen werden können. Einspieloberflächen Während bei Erfassungsoberflächen die Metadaten im Zentrum stehen, ermöglichen Einspieloberflächen den Umgang mit Audiodaten. Ein wesentlicher Aspekt ist die bereits erwähnte Festlegung von Marken oder „Cuepunkten“ längs einer Audiodatei; dies ist insbesondere zur Navigation in längeren Audiodateien wichtig. Ein sinnvoller Mechanismus sieht so aus, dass während des Abhörens einer Audiodatei Marken gesetzt werden, wobei eine Klassifizierung der Marken sinnvoll ist. Solch eine Klassifizierung kann beispielsweise zur Unterscheidung zwischen künstlerischen und technischen Marken genutzt werden (Abb. 14/37).
Abb. 14/37. Oberflächenkomponente für die Festlegung von Cuepunkten.
Die so erzeugten Marken wiederum werden als Metadaten im korrespondierenden Datensatz hinterlegt und erzeugen dadurch hierarchische Strukturen innerhalb einer Audiodatei. Je nach technischer Realisierung können diese Marken genutzt werden, um bei der Recherche die entsprechende Position in der Audiodatei direkt anzuspringen (Abb. 14/38). Das dargestellte Beispiel zeigt eine Benutzeroberfläche, die diesen komplexen Vorgang der Erfassung und Zuordnung von zeitbasierten, über Marker oder Cuepunkte abgebildeten Metadaten ermöglicht. 14.3.2.4
Einspielstationen
Einspielstationen bilden ein weiteres Teilsystem in der technischen Gesamtlösung digitaler Tonarchive. Die zentrale Aufgabe von Einspielstationen besteht in der Wandlung des Inhalts 842
Digitale Tonarchive konventioneller Tonträger in Audiodateien. Als wichtigste konventionelle Tonträger sind dabei Magnetbänder, CDs, Schallplatten oder auch DAT-Bänder zu berücksichtigen. Unabhängig vom verwendeten Tonträger lassen sich für den Einspielvorgang einige zentrale Anforderungen formulieren:
Abb. 14/38. Einspieloberfläche für den Import digitaler Files.
- Die ursprüngliche Tonaufzeichnung muss mit möglichst hoher Qualität in eine digitale Form gewandelt werden. Die lange gültige Grenze der CD-Qualität (Pulscode-Modulation mit 16 Bit Wortbreite bei 44,1 kHz Abtastrate) kann durch heutige Codierungsverfahren (bis 24 Bit Wortbreite und 192 kHz Abtastrate) bereits deutlich überschritten werden. - Es muss möglich sein, die technische Qualität des Einspielvorgangs möglichst weitgehend automatisiert zu dokumentieren. Diese Möglichkeit ist als Grundlage für ein Qualitätssicherungsverfahren wichtig, mit dem die Korrektheit des Einspielprozesses überwacht wird. Ohne solch ein Verfahren bestünde die Gefahr, defekte Audiodateien in das digitale Archiv zu übernehmen. - Häufig ist es wünschenswert, im Rahmen des Einspielvorgangs Fehler des konventionellen Tonträgers zu korrigieren. Solch eine Anforderung ergibt sich beispielsweise, wenn alte und 843
Digitale Tonsignalspeicherung beschädigte Magnetbänder oder Vinylschallplatten eingespielt oder „digitalisiert“ werden (s. hierzu Kap. 14.1.14). - Je nach Menge des einzuspielenden Materials kann auch der Aspekt einer weitgehenden Automatisierbarkeit dieses Prozesses eine Rolle spielen. Ist beispielsweise ein Archivbestand von 50.000 Stunden auf Magnetbändern zu digitalisieren, so würde dies in einem rein manuellen Prozess viele Jahre dauern und entsprechend viel Personal erfordern. - Einspielsysteme müssen über geeignete Schnittstellen verfügen, um auf der Softwareebene in das Gesamtsystem eingebunden werden zu können.
Abb. 14/39. Bildschirmdarstellung einer Einspieloberfläche für DAT.
Ähnlich wie für die Benutzeroberflächen gilt auch für die Einspielsysteme, dass je nach Anforderungen sehr unterschiedliche technische Lösungen denkbar und sinnvoll sind. Zur Illustration ist an dieser Stelle die Abbildung der zentralen Oberfläche einer proprietären DAT-Einspielstation dargestellt (Abb. 14/39). Neben den Bedienelementen für die angeschlossenen DAT-Spieler und den darüber angeordneten Audiomessinstrumenten ist im linken Bildschirmbereich auch der automatisch generierte Bericht zu technischen Ereignissen des Einspielvorgangs zu erkennen.
844
Digitale Tonarchive 14.3.2.5
Ausspielstationen
Dieses Teilsystem bietet die Möglichkeit, Archivinhalte zu exportieren und auf andere Tonträger zu schreiben. Diese Aufgabe stellt sich insbesondere dann, wenn der Dateiexport über Netzwerkschnittstellen nicht möglich ist. Mögliche praktische Anwendungsfälle sind Automaten zum Brennen von CDs oder auch Stationen, die das Ausspielen auf konventionelle Audioaufnahmegeräte (Bandmaschinen) ermöglichen; der letztgenannte Anwendungsfall tritt aber angesichts der weit fortgeschrittenen Digitalisierung zunehmend in den Hintergrund. 14.3.2.6
Schnittstellen
Bereits mehrfach erwähnt wurde die Bedeutung von Schnittstellen, über die sich das digitale Tonarchiv mit anderen IT-basierten Systemen integrieren lässt. Wie aus Abb. 14/30 zu entnehmen ist, kann diese Integration auf drei Ebenen greifen. Zunächst besteht die Notwendigkeit, Audiodateien mit anderen Systemen auszutauschen. Diese Forderung bezieht sich insbesondere auf den Austausch mit filebasiert arbeitenden Systemen in den Programmbereichen. Der Austausch muss bidirektional möglich sein, d. h., Audiodateien werden über die Schnittstellen sowohl gelesen als auch geschrieben. Eine weitere Forderung an die Schnittstellenfunktionalität ist die Möglichkeit, unterschiedliche Quell- und Zielformate ineinander umzurechnen. Dies könnte beispielsweise die Umwandlung von linear codierten Audiodateien aus dem Tonarchiv in MPEG-encodierte Dateien für das Zielsystem sein. Des Weiteren ist die Forderung zu stellen, Metadaten mit anderen Systemen austauschen zu können. Der Umfang der auszutauschenden Metadaten ist je nach angeschlossenem System sehr unterschiedlich. So benutzt bzw. erzeugt ein Produktions- und Sendesystem im Programmbereich ganz andere Metadaten als beispielsweise ein System für die Honorarabrechnung. Gleichwohl ist die Integration des digitalen Tonarchivs mit all diesen unterschiedlichen externen Systemen wünschenswert (vgl. Kap. 14.3.3). Neben unterschiedlichen Implementierungstechniken vom reinen Dateiaustausch bis hin zu direkten Datenbankzugriffen spielt für die Schnittstellenebene die geeignete Transformation der Metadaten zwischen Quell- und Zielsystem eine besondere Rolle. Einen Sonderfall stellt die Verwendung sog. Wrapper- oder Containerformate dar. Solche Wrapperformate bieten Datenstrukturen, die den Transport von Audiodaten und Metadaten in einer Datei ermöglichen. Als Beispiele sind hier das Broadcast Wave Format (BWF) mit seinen diversen Erweiterungen oder auch MXF (Media eXchange Format) zu nennen (s. auch Kap. 11.6 und Kap. 15.5.3.3). Eine dritte Schnittstellenebene ist auf der Stufe der Benutzeroberflächen denkbar. Den möglichen Ansatz bieten hier die sog. Plug-In- oder Add-In-Komponenten, die in anderen Softwareapplikationen betrieben werden können und von dort ohne Wechsel des Applikationskontextes direkt den Zugriff auf das digitale Tonarchiv ermöglichen. Diese Form der Integration ist allerdings vergleichsweise selten, da sie wegen der sehr engen technischen Verzahnung zu einer erheblichen Abhängigkeit zwischen an sich unabhängig arbeitenden Systemen führt. Abschließend ist zum Thema „Schnittstellen“ festzuhalten, dass ein hohes Maß an Flexibilität für den Wert eines digitalen Tonarchivs entscheidend ist, denn erst dadurch kann die zu fordernde umfassende Integration sichergestellt werden. 845
Digitale Tonsignalspeicherung
14.3.3
Metadaten
Metadaten oder, im weitesten Sinne, beschreibende Daten sind seit jeher wichtiger Bestandteil der Archivierung und auch der angrenzenden Prozesse. In der konventionellen Ära lagen bzw. liegen Metadaten einerseits in Katalogdatenbanken vor, häufig aber auch in Form von Schriftstücken oder als Text-Information auf Bandkartons oder CD-Hüllen. Digitale Tonarchive bieten die Möglichkeit, all diese Zusatzinformationen – die Metadaten – technisch mit dem Audiomaterial zu verknüpfen. Das Bindeglied ist dabei die entsprechend erweiterte Datenbank. Gelingt diese Verknüpfung auch über die Grenzen des digitalen Tonarchivs hinweg – wenn nämlich die entsprechenden Schnittstellen geschaffen werden –, so können Metadaten im Gesamtprozess genutzt, ergänzt und verändert werden. Diese Möglichkeit schafft einen besonderen Mehrwert, indem beispielsweise Doppeleingaben von Begleitdaten entfallen und Zusatzinformationen online in anderen Systemen genutzt und ausgewertet werden können. 14.3.3.1
Kategorien von Metadaten
Unter dem Begriff „Metadaten“ ist eine große Zahl unterschiedlicher Informationen zusammengefasst. Aus diesem Grund ist eine grobe Systematisierung hilfreich. Technische Metadaten Als „technische Metadaten“ werden solche Informationen bezeichnet, die sich aus technischen Bearbeitungsschritten ergeben und die somit objektiven Charakter haben. Beispiele hierfür sind Informationen über Dateigrößen, Codierungsverfahren, Datei-IDs oder auch die Erfassung von Nutzertransaktionen („Wer hat einen archivierten Beitrag wann wohin exportiert?“). Technische Metadaten werden vom System automatisch generiert, sie müssen nicht manuell eingegeben werden. Formale Metadaten „Formale Metadaten“ ist ein Oberbegriff für Zusatzinformationen, die zwar im Gegensatz zu technischen Metadaten manuell eingegeben werden müssen, deren Inhalt aber gleichwohl feststeht. Dazu gehören beispielsweise Angaben zu Titel oder Autoren. Beschreibende Metadaten Die Kategorie der „beschreibenden Metadaten“ ermöglicht die nähere inhaltliche Beschreibung von Archivinhalten. Auch diese Information muss an irgendeiner Stelle im Prozess manuell eingeben werden, allerdings liegt hier der Inhalt nicht zwangsläufig fest. Beispiele sind die Vergabe von Stichworten oder auch von Genre- und Gattungsinformationen; all diese Informationen bedürfen letztlich einer subjektiven Bewertung. Umso wichtiger sind diese Daten allerdings für gezieltes Suchen und Finden im Archiv. Dies ist der Hintergrund für die Bedeutung einer systematischen dokumentarischen Erschließung mit dem Ziel, die gegebene Subjektivität durch die Einhaltung verbindlicher Regeln einzuschränken und quasi zu „normieren“.
846
Digitale Tonarchive 14.3.3.2
Bedeutung von Metadaten im digitalen Workflow
Metadaten spielen in vielen Arbeitsschritten der Studio- und Hörfunktechnik eine zentrale Rolle. Abrechnungsinformationen, Einsatzstatistiken, Suchkriterien, Nutzungsrechte: all diese Informationen sind als Metadaten an irgendeiner Stelle – häufig in sehr unterschiedlicher Form – verfügbar.
Abb. 14/40. Metadaten im Gesamtablauf.
Die Nutzung IT-basierter Systeme schafft nun die technische Voraussetzung, Metadaten zwischen Systemen und damit zwischen Prozessschritten automatisiert auszutauschen. Aus diesem Grund lässt sich für unterschiedliche digitale Prozesse die übereinstimmende Aufgabenstellung formulieren, einen durchgängigen Metadatenfluss zu schaffen. Neben der technischen Umsetzung dieses Ziels ist dabei die Analyse aller prozessrelevanten Metadaten mit der Intention eines gemeinsamen Metadatenmodells und einer übergreifend definierten gemeinsamen Bedeutung eine zentrale Herausforderung. Diese Aufgabenstellung wird aus der Betrachtung der Metadatenflüsse im Gesamtablauf deutlich (Abb. 14/40). Die Vielfalt der als Pfeile dargestellten Metadaten-Verbindungen veranschaulicht, welche entscheidende Rolle diese Informationen in einem vernetzten, IT-basierten Workflow spielen. 14.3.3.3
Technischer Umgang mit Metadaten
Metadaten liegen in aller Regel in textlicher Form vor. Allerdings gibt es auch andere Beispiele, wie die Covergrafik einer CD oder die Fotos eines Autors oder Komponisten. Unabhängig von der Datenausprägung, dem „Datentyp“, bietet sich aus technischer Sicht die Verwaltung und Speicherung von Metadaten in Datenbanken an. Datenbanken ermöglichen sowohl die flexible Beherrschung komplexer Metadatenstrukturen als auch die leistungsfähige Suche auf dem gesamten Datenbestand. 847
Digitale Tonsignalspeicherung Eine sehr gängige Form der Metadaten-Visualisierung – nicht aber zwingend der MetadatenHaltung – in Archivsystemen ist die Listenform, wie sie in abgewandelter Form auch schon in Abb. 14/34 dargestellt war (Tab. 14/11). Diese beispielhafte Darstellung zeigt die zuvor beschriebenen unterschiedlichen Ausprägungen (formal, beschreibend, technisch). Jede Zeile der Liste repräsentiert einen Titel-Datensatz; die ID-Kennung („Identifier“) dient der zweifelsfreien Identifizierung. Die einzelnen Spalten repräsentieren die Felder oder Datenelemente, die den Datensatz beschreiben. Eine umfassende Metadatensicht auf genau einen Datensatz zeigt beispielsweise Abb. 14/36. Einige Aspekte lassen sich bereits aus diesem einfachen Modell ableiten: - Manche Nennungen in einer Spalte kommen in mehreren Datensätzen (Zeilen) vor; dies ist beispielsweise für die Datensätze ID 002 und 003 der Fall. Metadaten sind mithin nicht pro Datensatz einzigartig. - In einigen Feldern tauchen Mehrfach-Einträge auf, wie beispielsweise in den Spalten „Autor“, „Schlagwort“ und „Sendedatum“. - Mehrere Datensätze können den gleichen Titel haben, wie dies in den Datensätzen ID 005 und 006 der Fall ist. Die Unterscheidung ergibt sich lediglich aus Unterschieden in anderen Feldern. - Nicht alle Felder sind gefüllt, wie beispielsweise im Datensatz ID 003. Bereits aus diesen Aspekten stellt sich die Frage, mit welchen technischen Werkzeugen eine möglichst gute Ordnung in der Vielfalt der Metadaten erreicht werden kann. Ein sehr etabliertes und leistungsfähiges Verfahren sind relationale Datenmodelle. Metadatenmodelle Um Metadaten systematisch in technischen Systemen behandeln zu können, bedarf es einer abstrakten Modellierung. Die Informatik stellt für diese Aufgabe unterschiedliche Methoden zur Verfügung, die hier nicht näher erörtert werden sollen. Als beispielhafte Begriffe für die Beschreibung solcher Modelle seien Entity-Relationship-Modelle oder Klassenhierarchien und -diagramme genannt. Ziel von Metadatenmodellen ist es, eine formale Beschreibung dafür zu finden, welche Metadaten in einem Prozess bzw. in einem System vorkommen und in welcher Beziehung sie zueinander stehen. Das Ergebnis sind Felder, die gemeinsame inhaltliche Kategorien festlegen (z. B. der Titel eines Beitrags) und die dann spezifisch gefüllt werden. Es folgt die Gruppierung dieser Felder in „Tabellen“ und die Feststellung ihrer Beziehung oder „Relation“ zueinander. Das Metadatenmodell dient dann als Grundlage bei der Implementierung der Datenbankanwendung. Dem Benutzer stellt es sich in Form der Metadatenfelder in den Benutzeroberflächen dar (vgl. Kap. 14.3.2). Für das als Liste dargestellte Beispiel wird das Prinzip der Modellierung skizziert. Auch hier ist anzumerken, dass es sich um eine deutliche Vereinfachung der tatsächlich bestehenden Situation handelt; ebenso gibt es bei der Modellierung keineswegs „das einzig richtige“ Ergebnis. Ziel des betrachteten Beispiels ist es lediglich, wesentliche Prinzipien zu veranschaulichen (Abb. 14/41).
848
Digitale Tonarchive
849
Digitale Tonsignalspeicherung
Abb. 14/41. Beispiel eines Metadatenmodells.
Zunächst soll die Nomenklatur der Abbildung erläutert werden: - Die Rechtecke stehen für Tabellen, identifiziert über einen entsprechenden Tabellennamen. - Die Aufzählungspunkte in den Tabellen bezeichnen die Spalten oder Datenfelder in der jeweiligen Tabelle. - Die Verbindungslinien zwischen den Tabellen beschreiben die Relationen der Tabellen untereinander; die Annotation (z. B. 1…*) beschreibt die Vielfachheit der jeweiligen Relation. Speziell die Begriffe „Relation“ und „Vielfachheit“ bedürfen der Erläuterung: Relationen stehen für die Verknüpfung zwischen unterschiedlichen Tabellen. Die vollständigen Daten zu einem Datensatz findet man in mehreren Tabellen unter Nutzung der definierten Relationen. In unserem Bespiel finden sich zu einem Titel alle Personen – sowohl Künstler als auch Autoren – in der Tabelle „Personen“. Definiert man weiterhin die Vielfachheit dieser Relationen, so kann man das Problem der mehrfach vorkommenden identischen Information elegant lösen: in unserem Beispiel kommt eine bestimmte Person nicht nur in einem, sondern in mehreren Titel-Datensätzen vor. Dieser Beispielfall wird im Modell durch die Annotation „1…*“ verallgemeinert: ein Element aus der Tabelle „Personen“ kann einem oder mehreren Elementen aus der Tabelle „Titel“ zugeordnet sein. Gleichzeitig können einem Titel mehrere Personen zugeordnet sein; dies ist durch die zweite Annotation „1…*“ modelliert. Man spricht in diesem Fall auch von einer n:m-Relation zwischen den Tabellen „Titel“ und „Personen“. 850
Digitale Tonarchive Semantik und Mapping von Metadaten Gerade im Zusammenhang mit systemübergreifenden Metadaten muss neben der formalen Abstraktion und Modellierung auch die Bedeutung oder die Semantik der Metadaten berücksichtigt werden. So mag es sein, dass in einem Sendesystem lediglich ein Metadatum mit dem Feldnamen „Titel“ verwendet wird, während die Archivdatenbank zwischen unterschiedlichen Titeltypen (Sendetitel, Originaltitel etc.) differenziert. In solch einem Fall ist es unerlässlich zu definieren, wie die Informationen auch systemübergreifend miteinander in Beziehung stehen. Das bisherige Beispiel soll daher um ein fiktives externes System erweitert werden, das mit dem Archiv Metadaten austauscht. Für beide Systeme sind die verfügbaren Metadaten pro Datensatz dargestellt; das dahinter liegende Datenmodell im externen System wird der Einfachheit halber nicht berücksichtigt (Tab. 14/12). Tab. 14/12. Beispiel für Metadaten-Mapping.
Archivbezeichnung Titel Künstler Autor Media-Titel Label Stilrichtung Schlagwort Länge Sendedatum
Synonyme (Mapping) externes System Titel Untertitel Artist Komponist Album-Titel
Genre Schlagwort 1 Schlagwort 2 technische Länge Sendedauer
Auch hier fallen mehrere Dinge auf, die die grundlegende Problematik veranschaulichen: - Nicht alle Informationen sind in beiden Systemen überall verfügbar. - Gleiche Information wird nicht überall gleich bezeichnet. - Zum Teil müssen Informationen zusammengefasst bzw. separiert werden, um eine Zuordnung zu ermöglichen. Neben der formalen Zuordnung einzelner Datenfelder und der mitunter komplexen Definition geeigneter Transformationsvorschriften ist auch die Frage nach den eigentlichen Inhalten relevant. Die unterschiedliche Schreibweise von Namen oder auch die unterschiedliche Nutzung von Auswahllisten beispielsweise für Schlagworte seien hier als zwei Beispiele für diese Problematik angeführt. 851
Digitale Tonsignalspeicherung Management von Metadaten Wie kann nun vor dem Hintergrund des Ziels eines einheitlichen übergreifenden Umgangs mit Metadaten ein geeignetes Metadatenmanagement technisch realisiert werden? Eine Möglichkeit besteht in der Realisierung einer unternehmensweit einheitlichen und übergreifend (d. h. von allen Systemen) genutzten Datenbank für das Metadatenmanagement. Allerdings besitzen praktisch alle IT-basierten Systemlösungen, ganz gleich welche spezifischen Teilaufgaben sie übernehmen, individuelle Formen des Metadatenmanagements; das Metadatenmanagement ist dabei auf den jeweiligen Anwendungsfall hin optimiert. So stellt die Umsetzung des Metadatenmodells innerhalb des digitalen Tonarchivs im Vergleich zu anderen Implementierungen in verbundenen Systemen häufig eine sehr komplexe Variante dar, während Produktions- und Sendesysteme spezifische Metadaten verwenden, die im Archiv nur in Teilen benötigt werden. In der Praxis ist daher der Ansatz einer gemeinsamen Datenbank für alle Systeme nicht praktikabel. Hinzu kommt, dass sich der Umfang der im Gesamtprozess verwendeten Metadaten im Laufe der Zeit ändert; mit neuen Anwendungen kommen auch neue Metadaten hinzu. Ein Beispiel ist der Umgang mit Mehrkanal-(Surround)-Produktionen, die vor einigen Jahren praktisch noch keine Rolle spielten. Gleichwohl sind für diese Anwendung spezielle Metadaten erforderlich. Insofern lässt sich als eine wesentliche Eigenschaft der technischen Implementierung eines Metadatenmanagements fordern, dass es sich im Idealfall robust gegenüber allen Änderungen verhält. Anpassungen und Ergänzungen müssen möglich sein, ohne dass dadurch das gesamte Systemkonzept in Frage gestellt wird. Eine mögliche Lösung liegt in Datenbankimplementierungen, die Datenmodellierung und Datenzugriff verallgemeinern; man sagt auch „abstrahieren“. Auch hier ist allerdings in der Praxis stets eine Abwägung zwischen Abstraktion einerseits und Praktikabilität andererseits zu treffen. Schnittstellenproblematik Eine besondere Ausprägung der Abstraktionsproblematik ergibt sich für die technische Umsetzung von Schnittstellen. Eine Möglichkeit ist die spezifische Definition und Realisierung jeder einzelnen Schnittstelle entsprechend den aktuell bestehenden Anforderungen; konkret hinsichtlich der auszutauschenden Datenfelder und ihrer wechselseitigen Zuordnung. Der Nachteil wird offensichtlich, wenn sich Änderungen ergeben: in diesem Fall nämlich müssen alle Schnittstellen angepasst werden, was sehr aufwändig sein kann. In der heutigen Softwaretechnologie haben sich deshalb Verfahren herausgebildet, die in sich die Möglichkeit der Abstraktion bieten. Ein Beispiel ist die Verwendung von XML („eXtended Markup Language“) als Datenbeschreibungssprache. XML bietet die Möglichkeit, dass ein ausgetauschter Datensatz sich quasi selbst beschreibt. Darüber hinaus bietet diese Technologie ein wiederum abstraktes Verfahren, die Struktur der Daten durch sog. StylesheetTransformationen umzuwandeln. Aufgrund dieser Eigenschaften ist XML für die Realisierung von Metadatenschnittstellen eine zweckmäßige Softwaretechnologie.
852
Digitale Tonarchive Standardisierungsansätze Mit der Bedeutung von Metadaten und der gleichzeitig gegebenen Komplexität geht die Bemühung einher, den Umgang mit Metadaten zu standardisieren. Diese Standardisierungsbemühungen sind dabei keineswegs zwingend mit digitalen Systemen verknüpft; auch die Festlegung eines Bandbegleitformulars stellt eine Standardisierung von Metadaten dar. Allerdings hat mit dem Einzug der digitalen Technik, oder besser mit zunehmendem Einsatz von Software, die Notwendigkeit solcher Standards zugenommen. Erste Beispiele sind die Regelwerke der ARD, um Toninhalte mit Metadaten zu beschreiben. Aus der Vielfalt der Anforderungen – ebenso wie aus ihrer Dynamik – ergibt sich aber geradezu automatisch auch eine Vielfalt der Standardisierungsbemühungen. Aktuelle Beispiele sind SMEF der BBC, Dublin Core oder auch BMF als ein Metadatenmodell des IRT. Zweifellos ist jeder dieser Ansätze durchaus sinnvoll, allerdings muss im praktischen Einzelfall stets die Anwendbarkeit kritisch hinterfragt werden. Die Forderung eines einzig existierenden, universellen Metadatenstandards ist aus den bereits erläuterten Gründen nur schwer in die Praxis umzusetzen.
Normen, Standards, Richtlinien und Empfehlungen [IEC 60908]:
DIN EN 60908 Tonaufzeichnung - Digital-Audio-System Compact-Disc (IEC 60908:1999), 1999, Beuth
[IEC 61119]:
DIN EN 61119 Digitales Tonband-Kassetten-System (DAT), 1. Aufl., 1994, Beuth
[IEC 61120]:
DIN EN 61120 Digitales Tonbandgerät; Spulensystem mit Magnetband 6,3 mm für Studioanwendungen, 1. Aufl., 1994, Beuth
[IEC 61595]:
DIN EN 61595 Digitales Mehrkanal-Tonbandgerät (DATR), Spulensystem für Studioanwendungen, 1. Aufl., 1998, Beuth
[UDF]:
ISO/IEC 13346 Informationstechnik - Inhalt und Dateistruktur von einfach und mehrfach beschreibbaren Datenträgern unter Verwendung von nicht sequentiellen Aufzeichnungsverfahren für den Informationsaustausch [ECMA-167], 1999, Beuth
[ISO 9660]:
DIN ISO 9660 Informationsverarbeitung; Datenträger- und Dateistruktur von CD-ROM für den Informationsaustausch; (ISO 9660:1988) EN 29660, 1990, Beuth
[ECMA-120]:
Standard ECMA-120, Data interchange on 12,7 mm 18-track magnetic tape cartridges, 3rd Edition, 1993, ECMA
[ECMA-130]:
Standard ECMA-130, Data interchange on read-only 120 mm optical data disks (CD-ROM), 2nd Edition, 1996, ECMA
[ECMA-259]:
Standard ECMA-259, Data Interchange on 12,7 mm 208-Track Magnetic Tape Cartridges - DLT 5 Format, 1st Edition, 1997, ECMA 853
Digitale Tonsignalspeicherung [ECMA-267]:
Standard ECMA-267, 120 mm DVD - Read-Only Disk, 3. Edition, 2001, ECMA
[ECMA-322]:
Standard ECMA-322, Data Interchange on 130 mm Magneto-Optical Disk Cartridges - Capacity: 9,1 GBytes per Cartridge, 1st Edition, 2001, ECMA
[HFBL-13IRT]: HFBL-Empfehlung 13IRT, „Austausch digitaler Tonprogramme auf DATKassetten”, 1993, IRT
Nicht öffentliche Standards [Red Book]:
„Red Book”, Specification of the CD-DA, 1982, Philips
[Orange Book I]:
„Orange Book”, Part I, Specification of the CD-;? (MiniDisk)
[Orange Book II]:
„Orange Book", Part II, Specification of the CD-WO (CD-R), 1990, Philips
[Scarlet Book]:
„Scarlet Book", Specification of the Super Audio CD (SACD), 1999, Philips
Literatur [14.1]
Furrer, F. J.: Fehlerkorrigierende Block-Codierung für die Datenübertragung, 1981, Birkhäuser
[14.2]
Habermann, W.: Kanalkodierung und Kanalmodulation für die magnetische Aufzeichnung digitalisierter Videosignale, Technischer Bericht B39/82, 1982, IRT
[14.3]
Thomsen, D.: Digitale Audiotechnik, 1983, Franzis
[14.4]
Herla, S.: „Is R-DAT a Recording Format for Professional Use? - Measurements and Considerations”, in: AES-Convention February 1989, Preprint Number: 2769
[14.5]
Biaesch-Wiebke, C.: CD-Player und R-DAT-Recorder, 1. Aufl., 1988, Vogel
[14.6]
Watkinson, J.: The Art of Digital Audio, 1st Edition, 1988, Focal Press
[14.7]
Herla, S., Houpert, J., Lott, F.: „From Single-Carrier Sound Archive to BWF Online Archive - A New Optimized Workstation Concept”, in: Journal of the Audio Eng. Society, Vol. 49, No. 7/8, 2001
[14.8]
Hack, J. u. a.: Magnetische Informationsspeicher in der Daten-, Audio- und Videotechnik, 1. Aufl., 1990, Expert
[14.9]
Zander, H.: Harddisk-Recording, 1. Aufl., 1993, Vogel
[14.10]
Herla, S., Mücke H.: „CD-R(ecordable) - Sprengsatz in unseren Schallarchiven?”, in: Tonmeistertagung 19, 1996, Saur, S. 759ff.
854
Digitale Tonarchive [14.11]
Taylor, J.: DVD Demystified, 2nd Edition, 2001, McGraw-Hill
[14.12]
Dirksen, F., Dittel, V., Marchlewitz, J.: „CD-Write-Once im Rundfunkbetrieb”, in: Tonmeistertagung 17, 1992, Saur, S. 558ff.
[14.13]
Dittel, V., Kreisköther, K.-D.: „Vom Bandkarton zum Audiofile - Das Schallarchiv im Mittelpunkt modemer Funkhäuser”, in: Tonmeistertagung 18, 1994, Saur, S. 827ff.
[14.14]
Herla, S., Lott, F.: „Phönix aus dem Schallarchiv - Das Broadcast-Wave-File”, in: Rundfunktechnische Mitteilungen, Jahrgang 43, Heft 2, 1999
855
15
Film- und Fernsehton
15.1
Einführung
Die Bedeutung des Tons bei Film und Fernsehen wird durch folgende Überlegung deutlich: Ton ohne Bild ist seit Erfindung der Schallplatte und des Radios eine beliebte Unterhaltungsform. Bewegtbild ohne Ton konnte sich, außer bei experimentellen Filmen und vorübergehend als Stummfilm, nicht etablieren. Die Schallaufzeichnung (T. A. Edison, 1877) und die Bewegtbildaufzeichnung (E. Muybridge, 1878) wurden getrennt voneinander, aber dennoch sehr zeitnah erfunden. Allerdings wurden erst bei der Pariser Weltausstellung im Jahre 1900 Filme mit synchronem Ton vorgeführt [15.1]. Bis zum Lichtton dauerte es weitere 21 Jahre. Weitgehend unbeachtet von der damaligen Fachwelt schufen die drei Berliner Erfinder Dr. Joseph Benedikt Engl, Joseph Masolle und Hans Vogt ein Verfahren namens Triergon und führten im März 1921 den ersten 35 mm Tonfilm vor. Im Dezember 1922 fand im Berliner Kinopalast Alhambra dann die erste öffentliche Tonfilmvorführung statt. Ungeachtet dieser Tatsache wird die Erfindung des Tonfilms nach wie vor Sam Warner, Western Electric und den Bell Telephone Laboratories zugeschrieben und die erste Tonfilmvorführung auf 1926 datiert. 1935 startete in Berlin der erste regelmäßige Fernsehdienst der Welt. Bereits damals kam die auch heute noch übliche Bildwechselfrequenz von 25 Bildern pro Sekunde (B/s) zum Einsatz. Mit einer Auflösung von nur 180 Zeilen und in Schwarz-Weiß wurden die Bilder zu den wenigen Fernsehempfängern übertragen [15.2]. Der „Fernseh-Begleitton“ war lange Zeit in Mono. Obwohl der UKW-Hörfunk (FM) bereits seit den sechziger Jahren in Stereo sendet, wurde zweikanaliger Ton beim Fernsehen erst in den frühen achtziger Jahren eingeführt. Während im kontinentalen Europa vor allem das analoge IRT-Zweitonverfahren zum Einsatz kommt, setzten andere Länder auf das von der BBC entwickelte, digitale NICAM-Stereo. Beide Verfahren ermöglichen die Übertragung von matriziertem Surround-Ton, wie etwa Dolby ProLogic, in 4.0. Durch die Einführung digitaler TV-Übertragungstechnologien, wie beispielsweise ATSC in den USA oder DVB in Europa und anderen Teilen der Welt, kommen zunehmend digitale Tonverfahren wie ISO-MPEG Layer II für Stereo und Dolby Digital für Stereo und Surroundton in 5.1 zum Einsatz (s. Kap.15.9). Heute stehen zahlreiche Film- und Fernsehtonverfahren zur Verfügung, die Regisseuren, Sounddesignern und vor allem dem Publikum eindrucksvolle tondramaturgische Möglichkeiten verschaffen. Praktisch alle Kinosäle und viele Fernsehsender bieten heute neben Monound Stereoton auch Surroundton mit vier (4.0) oder sechs (5.1) Kanälen. Hochauflösendes Fernsehen (HDTV) ist ohne 5.1 Surroundton nur schwer vorstellbar, die Blu-ray Disc bietet neben 5.1 bereits das 7.1 Kanalformat. Im Kinobereich steht digitales Kino (E-Cinema, DCinema) mit bis zu 20 möglichen Audiokanälen vor der Einführung (s. Kap. 15.8). Trotz vieler Ähnlichkeiten unterscheiden sich die Methoden und Werkzeuge, die bei der Audioproduktion von Film- und Fernsehen eingesetzt werden, oft erheblich von denjenigen der Musik- und Hörfunkproduktion. Das liegt einerseits an der zwingenden Notwendigkeit, zu 857
Film- und Fernsehton Bildinhalten synchron zu bleiben und am dadurch erhöhten technischen Aufwand. Andererseits muss die Tontechnik meist unsichtbar bleiben, wodurch sich spezielle Mikrofonierungsverfahren entwickelten. Weitere Unterschiede ergeben sich durch die Erfordernisse der Bildgestaltung sowie durch traditionelle Arbeitsweisen, die seit Jahrzehnten etabliert und bewährt sind.
15.2
Zeitliche Relationen zwischen Bild und Ton
15.2.1
Zeitliche Wahrnehmung
Im natürlichen Umfeld des Menschen folgt das Schallereignis immer dem zugehörigen visuellen Ereignis nach. Während sich Licht in Luft mit einer Geschwindigkeit von etwa 300.000.000 m/s ausbreitet, bewegt sich Schall mit einer Geschwindigkeit von lediglich ca. 340 m/s voran. Der Schall braucht für die gleiche Strecke somit deutlich länger und trifft zwangsläufig immer später beim Hörer ein. Ein Beispiel: Bei Filmaufnahmen wird ein Tiger aus 50 m Entfernung mit einem Teleobjektiv gefilmt, sein Kopf ist mittels Nahaufnahme (Close Up) bildfüllend auf dem Monitor oder der Leinwand zu sehen. Brüllt der Tiger, so erreicht die visuelle Komponente, also die Bewegung des Mauls, die Kamera bereits nach rund 167 ns. Der Schall, der mit einem Parabol-Richtmikrofon nahe der Kamera eingefangen wird, braucht für die gleiche Strecke rund 147 ms, also fast 880.000 mal so lang. Er wird somit deutlich merkbar nach dem visuellen Ereignis aufgezeichnet (s. Abb. 15/1). Jahrtausende menschlicher Entwicklung haben uns gelehrt, dass diese Zeitrelation „natürlich“ ist, das Gehirn schließt vom Abstand des Objektes automatisch auf die zu erwartende Verzögerung. Bei natürlicher Betrachtung, also ohne Kamera und Mikrofon, würde der Tiger weit entfernt im Gesichtsfeld des Beobachters erscheinen, sein durch die Entfernung verzögert eintreffendes Brüllen würde als zeitlich passend empfunden werden. Die Nahaufnahme mittels Teleobjektiv verzerrt jedoch diese Bild-Ton-Relation. Ohne korrigierendes Vorziehen des Tons in der Nachbearbeitung würde der Zuschauer vom zu spät eintreffenden Ton während der Nahaufnahme irritiert werden und ihn als eindeutig asynchron empfinden. Eine genau umgekehrte Situation kann sich ergeben, wenn Darsteller oder Musiker auf einer Bühne in einer Totalen, also aus großer Entfernung gezeigt werden, ihre Stimmen und Instrumente jedoch sehr nah mikrofoniert sind. Obwohl Bild und Ton in dieser Situation rein technisch gesehen synchron sind, kann der Zuschauer das Geschehen unter Umständen als zeitlich unnatürlich empfinden, da der Ton nicht wie gelernt etwas später, sondern praktisch zeitgleich mit der weit entfernten Bewegung beim Zuschauer eintrifft. Hier bedarf es einer geschickten perspektivischen Auflösung und genauen Abstimmung zwischen Regie, Bild und Ton. Nicht empfehlenswert ist es, bei jeder Änderung der Bildperspektive, z. B. von einer Nahaufnahme zu einer Totalen, den Ton entsprechend zeitlich nachzuführen. Die dadurch erzwungenen, teils erheblichen Zeitsprünge würden den Sprechrhythmus oder den musikalischen Takt kompromittieren und deutlich störender als die akustische Übernähe empfunden werden. 858
Zeitliche Relationen zwischen Bild und Ton
Abb. 15/1. Laufzeitunterschiede Bild und Ton.
Besonders problematisch sind digitale Funkkameras, deren Latenzzeit je nach eingesetztem Codieralgorithmus und Übertragungsverfahren zwischen etwa 2 und 5 Frames (bei PAL 80 bis 200 ms) liegt. Dazu ein Beispiel: Ein Reporter bei einer Live-Sportübertragung ist mittels analogem Drahtlosmikrofon verzögerungsfrei mit dem Audio-Mischpult verbunden. Gleichzeitig werden leitungsgebundene Kameras verwendet, die sein Bild ebenfalls fast latenzfrei zum Bildmischer übertragen. Für Interviews mit den Sportlern verlässt der Moderator nun seinen Standort und wird deshalb von einer digitalen drahtlosen Funkkamera begleitet. Sobald auf die Drahtloskamera geschnitten wird, muss sein Mikrofon um den gleichen Zeitbetrag verzögert werden, um die Latenz der Kamera auszugleichen. Das setzt eine entsprechende Einrichtung des Mischpults mit einem schaltbaren Delay voraus. Das Funktionieren des Laufzeitausgleichs erfordert die präzise Mitarbeit von Regie und Moderator. Wird während des Umstiegs von leitungsgebundener Kamera auf Funkkamerasystem weitergesprochen, kommt es unweigerlich zu Störungen im Sprachrhythmus, da Wortteile entweder wiederholt oder beim Rückstieg verschluckt werden.
15.2.2
Synchronität und Bild-Ton-Versatz
Bild und Ton werden als synchron bezeichnet, wenn der Schall zeitgleich mit der zugehörigen visuellen Komponente wiedergegeben wird. Diese an sich einfache Forderung kann in der Praxis nicht immer perfekt erfüllt werden. Vor allem digitale Audio- und Videosysteme erzeugen oft erhebliche Latenzen. Diese prozessbedingten, technischen Verzögerungen reichen von etwa 0,5 ms bei einem üblichen Analog-Digital-Wandler mit 48 kHz Abtastfrequenz bis hin zu etwa sieben Sekunden bei einer kompletten Satelliten-Übertragungsstrecke vom Sender bis zum Heimempfänger. Solange Ton und Bild gleichermaßen verzögert werden, nimmt der Betrachter die Verzögerung meist nicht wahr. Nachdem Ton und Bild bei der Bearbeitung und Ausstrahlung jedoch größtenteils unterschiedliche Wege und Prozesse durchlaufen, entsteht auch hier ein merkbarer Ton-Bild-Versatz. Diese Zeitunterschiede müssen durch geeignete Geräte, wie z. B. Video-Framestores zur Bildverzögerung oder Audiodelays zur Tonverzögerung ausgeglichen werden. 859
Film- und Fernsehton Bei der Arbeit mit bildbezogenem Ton gilt die strikte Regel, dass am Übergabepunkt, d. h., immer wenn Videosignale, Stereoton und Surroundton einen Arbeitsbereich (z. B. Ü-Wagen, Schnittplatz, Sender) verlassen, alle Elemente zueinander synchron sein müssen. Die Toleranzbreite des Ton-Bild-Versatzes richtet sich nach der jeweiligen Aufgabenstellung oder dem jeweiligen Produktionsschritt. Während einer Produktion sollte an keinem Punkt der Kette eine Abweichung von mehr als 5 ms Ton vor Bild (voreilender Ton) und 15 ms Ton nach Bild (nacheilender Ton) bestehen [EBU Tech. 3311]. Basierend auf umfangreichen Versuchsreihen mit Testpersonen wurden von der EBU bereits im Jahr 1986 Grenzen für den zulässigen maximalen Zeitversatz vor der Ausstrahlung definiert [15.3]. Hier geht man von max. 40 ms Ton vor Bild und 60 ms Ton nach Bild aus. Diese Werte definieren die zulässigen Grenzen, gemessen am letzten Punkt vor der Ausstrahlung über ein beliebiges Medium. Tab. 15/1. Zulässiger Ton-Bild-Versatz nach EBU und ITU
Übertragungsschritt Produktion 1) Verteilung, Sendung 2) Beim Endkunden, Worst Case 3) 1) EBU Technical Recommendation R37 2) EBU Tech. 3311 3) ITU-R BT.1359
Maximale Abweichung Ton VOR Bild 5 ms 40 ms 90 ms
Maximale Abweichung Ton NACH Bild 15 ms 60 ms 185 ms
Der in der Praxis meßbare Ton-Bild-Versatz weicht teilweise erheblich von diesen Forderungen ab. Moderne digitale Heimempfänger, wie z. B. Set-Top-Boxen (STB), Flachbildschirme (LCD und Plasma) und digitale Projektoren weisen enorme Latenzzeiten im Bereich der Bildsignalverarbeitung auf, was zu einem zusätzlichen Auseinanderdriften von Bild und Ton führt. Obwohl digitale Sende-Datenströme wie etwa MPEG-TS (Transport Stream) integrierte Zeitmarkierungen (PTS, Presentation Time Stamps) zur Synchronisation der einzelnen Bildund Tonelemente beinhalten, funktioniert die Auswertung in den Set-Top-Boxen oftmals ungenügend (s. Kap. 15.6.5). Die zur Pufferung bereitstehenden RAM-Speicher der Empfänger sind oft bereits mit anderen Daten belegt, wodurch zuwenig Speicherplatz zur Pufferung bereit steht. 250 bis 500 ms Bild-Ton-Versatz sind dabei keine Seltenheit. Erschwerend kommt hinzu, dass - bedingt durch die Wahrnehmung des Menschen - Bild nach Ton als deutlich störender empfunden wird als umgekehrt. Nach einer Empfehlung der International Telecommunications Union sollten Werte von 90 ms Ton vor Bild und 185 ms Ton nach Bild am letzten Punkt der Übertragungskette beim Endkunden auf keinen Fall überschritten werden [ITU-R BT.1359]. Bei allen Film- und Fernsehproduktionen, bei denen Ton und Bild auf getrennten Medien aufgezeichnet oder später auf getrennten Wegen übertragen und bearbeitet werden, ist die Prüfung des Ton-Bild-Versatzes eine unbedingte Pflicht [15.4]. Dazu wird am Drehort auch heute noch zu Beginn jedes Takes die Klappe geschlagen, meist mit integrierter TimecodeAnzeige, wodurch ein visueller und auditiver Marker auf den Aufnahmemedien gesetzt wird. 860
Inhaltliche Relationen zwischen Bild und Ton Sollte der aufgezeichnete Timecode fehlerhaft sein, kann damit während der Nachbearbeitung immer noch der korrekte Zeitbezug hergestellt werden. Bei Fernsehübertragungen erfolgt die Prüfung meist mit einer elektronischen Klappe (ECT, Electronic Clapper Board). Hier sendet ein Signalgenerator Lichtblitze mit dazu synchronisierten Klickgeräuschen aus, die entweder von Kamera und Mikrofon aufgenommen oder direkt über Audio- und Videoanschlüsse übertragen werden können. Ein eventueller Zeitversatz kann dann mittels Video-Framestore oder Audiodelay ausgeglichen werden. Dabei gelten die Empfehlungen nach Tab. 15/1.
15.3
Inhaltliche Relationen zwischen Bild und Ton
Mit Einführung des Tonfilmes änderten sich sowohl die Dramaturgie von Filmen als auch die Produktionsbedingungen erheblich. Nachdem man zunächst fast ausschließlich mit Originalton (O-Ton) arbeitete, wurden nun Drehorte auch nach ihrer akustischen Eignung ausgewählt. Für viele Schauspieler bedeutete die Einführung des Tonfilms das Ende ihrer Filmkarriere. Statt großer Gestik und Mimik waren nun plötzlich stimmliche Differenziertheit, sprachlicher Ausdruck und vielleicht sogar Gesang gefragt. Diese vielen Einschränkungen führten alsbald zur Einführung der Nachsynchronisation, die bis heute ein unverzichtbarer Bestandteil der Film- und Fernsehproduktion ist. Anstatt den Originalton ausschließlich vor Ort (On Location) während des Drehs aufzuzeichnen, werden Sprache (Dialogue), Geräusche (Sound Effects, SFX) sowie Musik im Studio synchron zum Bild aufgenommen und erst bei der Mischung zu einem realistischen Ganzen zusammengeführt. Gleichzeitig entstanden völlig neue Berufsbilder, wie z. B. Geräuschemacher (Foley Artist, Foley Walker, nach Jack Foley, Universal Studios), Filmtonmeister (Sound Recordist bei der Aufnahme, Sound Engineer, Sound Mixer oder Re-Recording Engineer für die Mischung), Tonassistent (Sound Assistant, Boom Operator), Filmtongestalter (Sound Designer) und andere mehr. So praktisch und unverzichtbar die Nachsynchronisation in vielen Fällen ist, kann sie doch ein Hindernis für die Qualität der künstlerischen Performance sein. Bedingt durch die Emotion einer Szene sprechen Darsteller am Drehort meist anders als in der sterilen Atmosphäre eines Synchronstudios. Hier wird deutlich, wie eng Ton und Bild miteinander verwoben sind. Der Ton kann die Aussage des Bilds unterstreichen, aber auch abmindern, karikieren oder sogar ins Gegenteil verkehren [15.5].
15.3.1
Sounddesign und Montage
Bereits das Theater der alten Griechen kannte einen Grundsatz, den man heute wohl am besten mit „Larger Than Life“ umschreibt. Wenn man möchte, dass Bilder und Töne im Kino oder im Wohnzimmer genau so echt und packend wie in der Wirklichkeit wirken, muss man in vielen Fällen gezielt übertreiben. Nur so lassen sich die vielen Übertragungs- und Rezeptionsverluste zwischen Aufnahme und Wiedergabe ausgleichen. Das Sounddesign, d. h. die Tongestaltung für Film und Fernsehen versucht deshalb, den Inhalt und die Wahrnehmung eines visuellen Werks durch auditive Komponenten zu ergänzen oder zu verstärken und damit zu intensivieren [15.6].
861
Film- und Fernsehton Aufgabe des Sounddesigners ist es, einen akustischen Gesamtstil und die dazu passenden Geräusche, Atmosphären und Effekte herauszuarbeiten. Auf der Grundlage des Drehbuchs und den tatsächlich gedrehten Takes werden zunächst die dafür erforderlichen Klänge und Sounds mit dem Regisseur definiert. Dabei reicht die Palette von echten und veränderten OTönen über Archivgeräusche bis hin zu synthetisch produzierten Klängen. Das Schließen einer Türe beispielsweise kann aus Dutzenden von Einzelgeräuschen bestehen, die erst während der Vormischung zu einem gemeinsamen Geräusch vereint werden. Bei aufwändigeren Produktionen kommen auch Geräuschemacher zum Einsatz. Sie erzeugen mit oft einfachsten Mitteln verblüffend echt wirkende, wahrnehmungsgerechte Geräusche exakt synchron zum Bild. So wird beispielsweise das Aneinanderschlagen der Hälften einer Kokosnuss nach wie vor als realistisch klingender Ersatz für Pferdehufe verwendet. Die Tongestaltung erfolgt meist in enger Zusammenarbeit mit dem Regisseur, dem Cutter und dem Filmkomponisten, der die szenenbezogenen Musiken und das musikalische Hauptthema des Films kreiert. Bei kleineren Produktionen, die oftmals auf fertige Produktionsmusik „aus der Konserve“ zurückgreifen, übernimmt nicht selten der Sounddesigner die Auswahl und szenenbezogene Nachbearbeitung der Musik. Bei der Montage, also beim Schnitt von Bild und Ton, werden die einzelnen Elemente des Films zueinander angelegt und angepasst und schließlich zu einem homogenen Ganzen angeordnet. Ziel ist die Gestaltung einer schlüssigen Geschichte, die einen dramaturgischen Spannungsbogen ergeben soll. Im Falle großer Produktionen kommen neben dem Bild-Cutter auch Ton-Cutter wie etwa Dialog-Cutter, GeräuschCutter, Musik-Cutter und andere Spezialisten zum Einsatz. Ihre Aufgabe ist es, die beste Verknüpfung von Bildern und Tonelementen festzulegen und sie für die Endmischung vorzubereiten. Alleine der Bildschnitt eines abendfüllenden Spielfilms kann bis zu drei Monate betragen, der Tonschnitt etwa zwei bis vier Wochen. Das Ergebnis ihrer Arbeit sind Hunderte, manchmal Tausende von Film- oder Video- und Audio-Clips. Die einzelnen Audioelemente werden üblicher Weise in die vier Kategorien Dialogue, SFX, Ambience und Music unterteilt und im Synchronstudio gemischt. Die visuellen Elemente werden beim Bildschnitt zusammengeführt. Der gesamte Prozess wird als Nachbearbeitung oder Post Production bezeichnet [15.7].
15.4
Mikrofonierung und Tonaufzeichnung
Bei der Tonaufnahme am Drehort, dem sog. Location Sound, haben sich über die Jahre spezielle Methoden der Mikrofonierung und Tonaufzeichnung entwickelt, die sich von anderen Gebieten der Produktionstechnik, wie beispielsweise bei Hörfunk oder Studioproduktion, unterscheiden. Das beginnt bei der meist geforderten Unsichtbarkeit der technischen Gerätschaften bis hin zu klimatischen und körperlichen Anforderungen an Team und Technik. In vielen Fällen steht zudem keine Netzstromversorgung zur Verfügung, was leistungsfähige Akkus oder Batterien erfordert.
15.4.1
Mikrofonierung des Original-Tons
Bei vielen Produktionen soll das Mikrofon völlig unsichtbar sein. Um das zu gewährleisten, wird das Mikrofon zur Abnahme des O-Tons mit einer Tonangel (Boom oder Pole) von oben, 862
Mikrofonierung und Tonaufzeichnung selten auch von unten oder seitlich zur Schallquelle geführt. Tonangeln erweitern die Reichweite des Mikrofons deutlich und werden nicht nur bei Spielfilm und Dokumentation, sondern auch gerne von EB-Teams für improvisierte Interviews verwendet. Der Tonassistent oder Boom Operator, der die Angel führt, muss das Mikrofon dabei stets außerhalb des Bildfensters halten. Bei Dialogszenen wird das Mikrofon oft zwischen den Sprechenden hin- und herbewegt oder nachgeführt.
Abb. 15/2. Surround-Mikrofon mit elastischer Aufhängung im Windschutzkorb.
Die Tonangel ist teleskopartig ausziehbar und besteht meist aus leichtem, kohlefaserverstärktem Kunststoff. Das macht die Tonangel elektrisch leitend. In der Nähe von Hochspannungsleitungen und Fahrdrähten von Schienenfahrzeugen ist die Anwendung deshalb nicht ungefährlich. Übliche tragbare Tonangeln können auf Längen zwischen ca. 0,5 und 3 m oder auch mehr ausgezogen werden, bei einer Masse von knapp einem Kilogramm. Das Mikrofonkabel wird durch das Teleskoprohr geführt und das Mikrofon mit Windschutz wird über ein übliches Schraubgewinde befestigt. Das dickere Ende der Tonangel ist mit einem Dämpfer versehen, der das Abstützen der Tonangel am Körper im Beckenbereich erlaubt. Meist wird die Mikrofonangel jedoch mit beiden Händen parallel zum oberen Bildrand geführt. Im Filmstudio werden überwiegend Mikrofongalgen auf fahrbaren Stativen verwendet, die noch größere mechanische Reichweiten erlauben. Bei den meisten O-Ton-Aufnahmen ist es wichtig, das Nutzsignal der gewünschten Schallquelle vom Störsignal der akustischen Umgebung zu isolieren. Für die Aufnahme des Dialogs kommen an der Tonangel deshalb meist Kondensatormikrofone mit stark ausgeprägter Richtcharakteristik, wie z. B. Hyperniere und Keule zum Einsatz, um die größere Entfernung zur Schallquelle mit höherer Richtwirkung zu kompensieren und Umgebungsgeräusche auszublenden. Nur in der akustisch geschützten Umgebung eines Studios werden auch weniger richtende Mikrofone eingesetzt. Während bei Dialog- und Sprachaufnahmen in der Regel Monomikrofone mit hoher Richtwirkung zur Anwendung kommen, werden bei geangelten Musik-, Atmo- oder Geräuschaufnahmen auch andere Richtcharakteristiken, wie z. B. Kugel, Niere, Superniere sowie Stereo- und Surroundmikrofone eingesetzt. 863
Film- und Fernsehton Zur Unterdrückung von Körperschall sind die Mikrofone in elastischen Aufhängungen montiert und verfügen oft über schaltbare Trittschallfilter. Bei Außenaufnahmen mit starkem Wind empfiehlt sich, zusätzlich zum Basis-Windschutz des Mikrofons einen größeren Windschutzkorb zu verwenden, der mit Fellimitat oder Textilgewebe zur effektiven Unterdrückung von Windgeräuschen überzogen ist. Windgeräusche am Mikrofon entstehen dann, wenn Luftturbulenzen auf die Membrane treffen. Die starken Membranauslenkungen verursachen massive Störpegel im Frequenzbereich unterhalb von 800 Hz bis in den Infraschallbereich („Blubbern“). Ein guter System-Windschutz kann diese Störgeräusche um ca. 35 dB dämpfen, was für Windstärken von bis zu 40 km/h ausreicht. Allerdings sorgt jede Art von Windschutz auch für eine Höhendämpfung im oberen Frequenzbereich ab etwa 4 bis 5 kHz. Sie ist abhängig von der Art des Windschutzes und beträgt in der Praxis etwa 1 bis 6 dB pro Oktave [15.8]. Ist die Mikrofonierung mittels einer oder mehrerer Tonangeln nicht möglich, z. B. während einer langen Zoomfahrt oder einer Totalen, die einen großen Mikrofonabstand vom Objekt erzwingt, kommen meist drahtlose Mikrofone zum Einsatz. Sie bestehen aus einem Taschensender und einem kleinen Kondensator-Ansteckmikrofon. Das Mikrofon wird entweder im Kostüm des Schauspielers oder im Haaransatz versteckt. Die Schallbeugung entlang der Kopfform sorgt dabei für eine gute Signalübertragung. Einige Hersteller bieten auch Kabel und Mikrofonkapseln sowie Komponenten in verschiedenen Hautfarbtönen an. Wichtig ist in jedem Fall, den Eingangspegel des Mikrofonvorverstärkers im Taschensender auf den realen Sprechpegel des Akteurs einzustellen. Viele Darsteller neigen dazu, bei Tonproben nur „mit halber Kraft“ zu markieren. In der Emotion der Szene kann es dann zu überraschenden Übersteuerung und Verzerrungen kommen, die aus der Ferne nicht korrigiert werden können und zu einer Wiederholung des Takes führen. Auch sog. Grenzflächenmikrofone (PZM) eignen sich gut für die versteckte Abnahme von Schallquellen, vor allem dort, wo es keine Möglichkeit für Stative, Tonangeln oder Hängevorrichtungen gibt. Prinzipbedingt gibt es sie nur als Kondensatormikrofone mit Halbkugel- oder breiter Nierencharakteristik. Ein direktes Ausrichten des Mikrofons auf die Schallquelle ist daher meist nicht erforderlich. Die flache Bauform ermöglicht es, PZM-Mikrofone unauffällig auf ebenen Flächen zu platzieren. Der Frequenzgang dieser Mikrofone ist weitgehend linear, wobei jedoch die untere Grenzfrequenz von den Seitenlängen der Auflagefläche bestimmt wird (s. Kap. 4.2). Für Sprachaufnahmen sollten bei einer unteren Grenzfrequenz von ca. 80 Hz ebene Unterlagen mit einer quadratischen Seitenlänge von etwa 0,5 bis 1 m vorhanden sein (s. Kap. 4.2.4.2). Reportage- oder Interviewmikrofone kommen je nach Umgebungslärm und Aufgabenstellung mit verschiedenen Richtcharakteristiken zum Einsatz. Bei gleichzeitiger Publikumsbeschallung werden meist Mikrofone mit Nieren- oder Supernierencharakteristik eingesetzt, um die Gefahr von Rückkopplung zu minimieren. In Interviewsituationen, z. B. in ruhiger Umgebung oder in akustisch geeigneten Räumen, werden nicht selten Mikrofone mit Kugelcharakteristik bevorzugt. Sie erleichtern die akustische Abnahme der beiden Gesprächspartner und haben konstruktionsbedingt keinen Nahbesprechungseffekt. In lauterer Umgebung werden dann allerdings Supernieren eingesetzt, die eine präzise Interviewtechnik, d. h. einen genauen und zeitgerechten Wechsel des Mikrofons zwischen den Gesprächspartnern voraussetzen. Einen Spezialfall stellen Parabolmikrofone dar, die zur Aufnahme weit entfernter Schallquellen, wie z. B. für Tierlaute eingesetzt werden. Im Brennpunkt eines Plexiglasreflektors in Parabolform 864
Mikrofonierung und Tonaufzeichnung befindet sich ein Mikrofon, das die durch den Reflektor auf die Membrane fokussierten Schallwellen in elektrische Signale wandelt. Bedingt durch die Bauform ist die Richtwirkung enorm, der Frequenzgang bei tiefen Frequenzen ist allerdings stark eingeschränkt, abhängig vom Durchmesser des Reflektors und damit von der Wellenlänge. Wenn Mikrofone im Bild sichtbar sein dürfen, wie etwa bei Konzertmitschnitten oder bei Nachrichtensendungen und Shows, werden Mikrofone mit schwarzem oder dunkelgrauem Gehäuse verwendet. Die Mattierung der Oberfläche verhindert unkontrollierbare Reflexionen von Lichtquellen zur Kamera.
15.4.2
Mikrofonierung für Stereo und Surround
Der Großteil aller O-Töne sowie Sprache bei Dialog, Interviews und Moderation, werden ausschließlich in Mono mikrofoniert und erst während der Mischung in das Stereo- oder Surround-Panorama eingebettet (panoramisiert). Das erleichtert einerseits die Aufnahme und erlaubt andererseits eine weitgehend freie Gestaltung während der Nachbearbeitung. Eine Ausnahme bilden bestimmte Geräusche, Atmosphären und Musik, die meist in Stereo und zunehmend in Surround aufgenommen werden. Für mobile Aufnahmen in Stereo und den Einsatz an der Tonangel bieten sich aufgrund der mechanischen Anordnung und der kleinen Abmessungen vor allem die XY-Stereofonie und das MS-Verfahren an (siehe hierzu auch Kap.5.3.2.2). Beide Systeme bieten aufgrund der Koinzidenzanordnung der Wandlerkapseln ein hohes Maß an gewünschter Monokompatibilität für den Fernsehton. Für die hochwertige und vielseitige Nachbearbeitung ist vor allem die MS-Anordnung interessant. Ein MS-Mikrofon besteht aus einer Mikrofonkapsel mit Nierenoder Supernieren-Charakteristik für das Mittensignal (M) in Richtung der Schallquelle und einer um 90/ gedrehten Kapsel mit Achter-Charakteritik für das Seitensignal (S). Aufgezeichnet werden zwei Kanäle, von denen das M-Signal ein Monosignal darstellt und das S-Signal ein Seiten-Differenzsignal. Mit Hilfe einer Decodermatrix lässt sich daraus während der Nachbearbeitung ein Stereosignal mit veränderbarer Basisbreite herstellen. Während bei der XY-Technik die Ausrichtung der Kapseln bereits vor der Aufnahme optimal eingestellt werden muss, erlaubt die Mitten-Seiten-Stereofonie auch nachträgliche Änderungen der Basisbreite. Portable Mischer und Aufnahmegeräte verfügen deshalb meist über eine eingebaute MS-Decoderschaltung, um das MS-Mikrofon schon während der Aufnahme stereofon abhören zu können. Im Konzertsaal und im Studio kommen für Surroundaufnahmen oft komplexe Mikrofonanordnungen mit vielen Stützmikrofonen zum Einsatz (s. Kap. 5.4). Für Location Sound, aber auch für TV-Live-Übertragungen aus Sport- und Veranstaltungsstätten sind Surround-Hauptmikrofonanordnungen oftmals zu komplex. Hier werden einfach einzusetzende, transportable und dennoch hochwertige Lösungen benötigt. Besonders beliebt sind dabei kompakte Surround-Mikrofone „in einem Stück“, die entweder direkt auf der Kamera oder für Atmo-, Musik- und Geräuschaufnahmen auch an einer Tonangel oder an einem Hängepunkt von der Decke betrieben werden können. Dafür eignen sich Surroundmikrofone wie z. B. die INA 5Anordnung, das IRT-Kreuz, das Soundfield-Mikrofon, das Holophone-System o.ä. 865
Film- und Fernsehton Aufgrund seiner besonderen Eigenschaften setzen viele Film- und Fernsehtonmeister verschiedene Ausführungen des Soundfield-Mikrofons ein. Es arbeitet mit vier Kapseln in Koinzidenz-Anordnung, die in der Form eines Tetraeders ausgerichtet sind [15.9]. Das Mikrofon gibt insgesamt vier Signale im sog. B-Format ab (W, X, Y, Z), die entweder direkt auf vier Spuren aufgezeichnet oder aber mit einem Prozessor weiter verarbeitet werden können. Mit diesen vier Rauminformationen ist es möglich, das Signal sofort oder während der Nachbearbeitung in alle gewünschten Kanalkonfigurationen wie z. B. Mono, Stereo, MSStereo, 5.1 Surround und mehr zu konvertieren. Auch ein virtuelles Drehen und Neigen des Mikrofons (Pan, Tilt) in die gewünschte Richtung sowie eine nachträgliche Veränderung der Richtwirkung (Zoom) ist durch Veränderung der Phasen- und Pegelbeziehung der Kapseln möglich. Aufgrund der Koinzidenzanordnung der Wandler ergibt sich eine natürliche, wenn auch nicht spektakuläre Raumabbildung. Das Ausgangssignal ist in hohem Maße stereo- und monokompatibel.
15.4.3
Mikrofonierung im Synchronstudio
Vor allem bei historischen Stoffen ist es oft unmöglich, direkt vor Ort einen brauchbaren OTon aufzuzeichnen. Es würde beim Zuschauer wohl für einige Erheiterung sorgen, wenn mitten in einer Fechtszene, die im späten 16. Jahrhundert angesiedelt ist, plötzlich ein vorbeifahrendes Motorrad zu hören wäre. Wenn die Aufnahme nicht in einem akustisch geeigneten Studio oder am Drehort hergestellt werden kann, müssen die Szenen im Synchronstudio nachsynchronisiert werden. Gleiches gilt für die Synchronfassung fremdsprachiger Filme. Im Synchronstudio kommen meist Großmembran-Kondensatormikrofone zur Aufnahme der Sprecher zum Einsatz. Werden nur Teile des O-Tons nachsynchronisiert, werden in vielen Fällen die gleichen Mikrofontypen wie am Drehort eingesetzt, um zum O-Ton klanglich kompatibel zu bleiben. Die Synchronaufnahme erfolgt nach dem bewährten Prinzip der Schleifensynchronisation, auch Loop Recording oder Automated Dialogue Replacement (ADR) genannt. Der Schauspieler hört den eigenen oder fremdsprachigen O-Ton im Kopfhörer und sieht die Szene gleichzeitig auf der Leinwand oder auf einem Monitor. Der Text wird so oft wiederholt, bis der Take lippensynchron und künstlerisch einwandfrei ist. Jeglicher Ton, der nicht im Originalton enthalten ist oder aus Geräuscharchiven bzw. vom Sounddesigner hergestellt wird, wird vom Geräuschemacher synchron zum Bild erzeugt. Beim Foley Recording werden die Geräusche mit den üblichen Studiomikrofonen aufgenommen, idealerweise in speziell eingerichteten – auch in Rundfunk-Hörspielstudios zu findenden – Aufnahmeräumen mit z. B. verschieden Bodenbelägen, Holz-, Stahl- und Steintreppen, mit Kiesbetten, verschiedenen Türen und sogar mit Badewannen für „Planscheffekte“. Manche Studios verfügen auch über einen Aufnahmeraum mit veränderbarer Akustik, die von einer kurzen, trockenen Nachhallzeit hin zu langen Nachhallzeiten verändert werden kann. Der Geräuschemacher sieht dazu das Bild der jeweiligen Szene in einer Schleife (Loop) auf einem Monitor und stellt, meist Spur für Spur, die Geräusche der Szene her. Die einzelnen Spuren werden in Folge vorgemischt und stehen bei der Endmischung als Mono- oder Stereospur bereit.
866
Mikrofonierung und Tonaufzeichnung
15.4.4. Mikrofonierung im Fernsehstudio Im Fernsehstudio, etwa bei Nachrichtensendungen, Gesprächsrunden und Shows, gelten andere Gesetze. Zwar sollen auch hier die Mikrofone möglichst wenig präsent im Bild erscheinen und sauber klingen, dennoch zählt vor allem die Ausfallsicherheit und die Unterdrückung von Störgeräuschen, wie sie etwa durch Klimaanlage, Publikum, und automatische Kameras verursacht werden. Im Sinne der Redundanz werden Nachrichtensprecher, Moderatoren und andere wichtige Akteure oft mit zwei Mikrofonen ausgestattet, z. B. zwei Ansteckmikrofonen oder zwei Tischmikrofonen. Diese sollten nach Möglichkeit unmittelbar nebeneinander platziert werden, um bei gleichzeitigem Betrieb Interferenzen im Sprachfrequenzbereich zu vermeiden. Zusätzlich zur eigentlichen Mikrofonierung kommen von der Decke abgehängte PanikMikrofone zum Einsatz, die beim Ausfall der Mikrofone aktiviert werden können. Zur Vermeidung von Kammfiltereffekten sollten jedoch keinesfalls alle Mikrofone gleichzeitig am Mischpult geöffnet sein. Durch das Übersprechen der Schallquelle(n) auf mehrere räumlich entfernte Mikrofone kommt es unweigerlich zu Interferenzen, die zu Auslöschungen oder Überhöhungen im Frequenzgang führen. Das Ergebnis sind Phasing-Effekte wie etwa das Zischeln im Sprachfrequenzbereich und ein allgemein unsauberer Klang.
15.4.5
Tonaufzeichnung mit dem Camcorder
Bei kleineren Produktionen, vor allem im Bereich der elektronischen Berichterstattung (EB/ENG), wird der Ton direkt mit der analogen oder digitalen Videokamera aufgezeichnet. Professionelle Camcorder, eine Kombination von Kamera und Recorder, aber auch mobile Videomaschinen, wie beispielsweise ein Field-Recorder, verfügen meist über zwei AudioEingänge mit XLR-Buchsen, die zwischen Mikrofon- und Line-Pegel umschaltbar sind und Phantomspeisung mit 48 Volt für Kondesatormikrofone anbieten. Viele Camcorder bieten überdies Steckplätze für einen oder zwei Drahtlos-Mikrofonempfänger, deren Audioausgänge ebenfalls über den Input-Wahlschalter adressiert werden können. Die Aussteuerung ist meist manuell möglich, wobei auch Schutzbegrenzer (Limiter) zuschaltbar sind, um plötzliche Übersteuerungen abzufangen. Auch eine zuschaltbare Aussteuerungs-Automatik und Hochpassfilter gegen Trittschall-, Wind und Griffgeräusche stellen wesentliche Features dar. Ein Kopfhöreranschluß erlaubt das Mithören des aufgenommen Tons, meist allerdings nicht Hinter-Band. Ein Vorteil der Tonaufzeichnung mit dem Camcorder ist in jedem Fall die absolute Synchronität zwischen Bild und Ton, zumindest bei professionellen Geräten. Digitale DrahtlosMikrofonsysteme und digitale portable Audiomischer erzeugen allerdings prinzipbedingte Latenzen zwischen etwa 1,5 und 5 ms, wodurch die an sich perfekte Synchronlage zwischen Ton und Bild geringfügig gestört wird. Nachteile der Aufzeichnung auf dem Camcorder sind die begrenzte Spurenzahl von üblicherweise zwei, selten vier Spuren, sowie die manchmal bescheidene Qualität der eingebauten Mikrofonvorverstärker und AD-Wandler. Viele Videoformate zeichnen den Ton nur mit 16 Bit Wortbreite auf, selten mit 20 oder 24 Bit. Die Samplingfrequenz ist in jedem Fall 48 kHz. Professionelle Filmkameras mit 16 oder 35 mm 867
Film- und Fernsehton Filmausschnitt und viele digitale Filmkameras verfügen über keine Möglichkeit zur direkten Tonaufzeichnung, stellen jedoch in jedem Fall Anschlüsse zur Synchronisation mit externen Audiorecordern bereit.
15.4.6
Aufnahme mit abgesetztem Recorder
Um den Ton synchron zum Bild aufzeichnen zu können, müssen Kamera und Recorder miteinander synchronisiert werden. Dies erfolgt üblicherweise mit dem Timecode nach SMPTE/EBU (s. Kap. 15.6.2). Der Timecode wird bei Ein-Kamera-Produktionen von der Kamera selbst erzeugt und zum Audiorecorder weitergegeben. Bei Mehrkamera-Produktionen mit elektronischen Kameras wird ein zentraler Timecode erzeugt, der meist über Funk zu den Kameras und zum Audiorecorder verteilt wird. Dafür eignet sich der Sender eines Funkmikrofonsystems, der mittels Timecode die Empfänger an den Kameras versorgt. Der analoge oder digitale Audiorecorder (Slave) folgt dabei entweder dem Timecode einer Kamera oder dem zentralen Timecode (Master). Nur noch selten wird das ältere Neo-Pilottonverfahren verwendet (s. Kap. 15.6.1). Von der Kamera abgesetzte Aufnahmegeräte bieten üblicherweise zwischen zwei und acht, manchmal sogar bis zu 32 Tonspuren. Bei Mehrspurrecordern kann z. B. das Mikrofon jedes einzelnen Akteurs auf einer eigenen Spur aufgezeichnet werden, auch die Aufnahme von Surround-Ton oder einer kompletter Orchester-Mikrofonierung ist damit möglich. Nicht selten werden - und hier vor allem beim Filmton - noch analoge Aufnahmemaschinen vom Typ Nagra in Mono oder Stereo auf Viertelzollband mit Neo-Pilot oder Timecode oder DATRecorder (Stereo mit TC) eingesetzt. Moderne Audiorecorder für Film- und Fernsehton verwenden zur Aufzeichnung jedoch auschließlich nonlineare Medien wie Harddisks, Speicherkarten oder optische Discs. Die AD- und DA-Wandlung und Aufzeichnung erfolgt hier üblicherweise mit 24 Bit, wobei meist Samplingfrequenzen zwischen 48 und 96 kHz (selten) wählbar sind; nicht-ganzzahlige Vielfache von 48, 96 oder 192 kHz, wie beipielsweise 88,2 oder 176,4 kHz sollten vermieden werden.
15.4.7
Workflow mit analogen und digitalen Medien
Der Workflow bei analoger Tonaufzeichnung unterscheidet sich deutlich von digitalen Varianten. Bei jedem analogen Recorder ist das Magnetband nach der Überspielung auf ein anderes Arbeitsmedium zugleich das Archivmedium, das im Archiv abgelegt wird. Jede analoge Kopie geschieht prinzipbedingt in Echtzeit und führt zwar zwangsläufig zu geringen Verlusten, jedoch ist die Haltbarkeit der Medien deutlich höher. Analoge Tonbänder und auch Perfobänder (perforierte Magnetbänder) können bei entsprechender Aufbereitung selbst noch nach Jahrzehnten abgespielt werden. Digitale Medien wie Flash Cards, optische Disks und Harddisks können nach der Aufnahme zwar verlustlos kopiert und über geeignete Schnittstellen, wie z. B. Firewire, USB oder Netzwerkkabel in Bruchteilen von Echtzeit in digitale Workstations zur weiteren Verarbeitung geladen werden. In vielen Fällen wird das Aufnahmegerät von der Workstation als externer Datenträger erkannt, der Inhalt steht sofort als Datei oder Verzeichnis (Folder, Bin) zur 868
Mikrofonierung und Tonaufzeichnung Verfügung. Diese anscheinende Schnelligkeit hat auch ihre Schattenseiten. Fehler oder Dropouts, die bei der Echtzeitüberspielung sofort erkannt würden, fallen bei digitaler Übertragung oft erst während der Produktion auf. Digitale Medien haben überdies eine begrenzte Lebensdauer von wenigen Jahren, die jedoch in Archiven durch zeitgerechtes, automatisches Umkopieren kontrolliert werden kann. Sofern auf Speicherkarten oder Harddisks aufgenommen wurde, sollte das Material aus Archiv- und Kostengründen zeitnah auf optische Discs oder Magnetband, wie z. B. DLT überspielt werden. Festplatten eignen sich, vor allem im abgeschalteten Zustand, nicht für die längerfristige Archivierung von Daten. Eine Ausnahme bilden die RAID-Arrays von serverbasierten Archiv- und Produktionssystemen, die das Material zur Sicherheit über mehrere Platten verteilen (spiegeln) und bei einem Steigen der Bitfehlerrate automatisch auf andere Medien umkopieren.
15.4.8
Portable Audiomischer
Tragbare Audiomischer für den Film- und Fernsehton verfügen meist über drei bis acht MonoEingänge mit umschaltbarer Eingangsempfindlichkeit für Mikrofon- oder Linepegel, oft sogar mit Direct-Out. Damit lassen sich die vorverstärkten Eingangssignale einzeln zu einem Mehrspurrecorder führen, während am Master-Output des Mischers eine Mono- oder StereoSumme verfügbar ist. Alle Ein- und Ausgänge des Mischers sollten nach Möglichkeit mit Übertragern symmetriert sein. Auch wenn elektronisch symmetrierte Ein- und Ausgangsstufen hervorragende Werte hinsichtlich der Gleichtaktunterdrückung erreichen können, bieten sie keine galvanische Trennung. Übertrager hingegen sorgen für eine vollständig galvanische Entkopplung und vermeiden damit wirkungsvoll Brummschleifen zwischen verschiedenen Geräten und Stromversorgungen. Die gleiche Aufgabe erfüllen externe Übertrager und Symmetrierer, die viele Film- und Fernsehtonmeister zur Sicherheit immer mit dabei haben.
Abb. 15/3. Bedienpanel eines portablen Audiomischers.
In den Eingangskanälen eines mobilen Location Mixers befinden sich üblicherweise GainSteller zur Einstellung der Verstärkung oder Dämpfung, schaltbare Hochpassfilter zur Unterdrückung von tieffrequenten Störgeräuschen wie Trittschall, Hand- und Windgeräuschen (teilweise mit einstellbarer Grenzfrequenz), Panorama-Steller (zumindest Routing-Tasten für L-M-R) sowie ein Pegelsteller. Auch Leuchtdioden zur Anzeige des Spitzenpegels im Eingangskanal sowie eine schaltbare Phantom- oder Tonadernspeisung und eine schaltbare Decodierung von MS-Mikrofonsignalen sind meist vorhanden. Ausgangsseitig sollte eine kräftige Kopfhörerendstufe mit Pegelsteller ebenso verfügbar sein wie ein Master-Steller für 869
Film- und Fernsehton den aufnahmeseitigen Ausgangspegel. Eine genaue Pegelanzeige ist notwendig, idealerweise mit umschaltbarer Anzeigecharakteristik, z. B. Peak nach [DIN IEC 60268-10} und Lautheit als VU [BS 6840-17, IEC 268-17], Leq(A) [IEC 61672-1] oder Leq (RLB) [ITU-R BS.1770]. In jedem Fall muss die Pegelanzeige des Mischers der Pegelanzeige des Camcorders oder Audiorecorders entsprechen bzw. der Ausgangspegel des Mischers an das Aufnahmegerät anpassbar sein. Zur Vermeidung unerwünschter Spitzenpegel bieten viele Mischer schaltbare Begrenzer im Summenausgang. Ein wichtiger Aspekt aller tragbaren Geräte ist die Energieversorgung. Hier eignen sich Lithium-Ionen-Akkus in Form von Kamera-kompatiblen Akkus im NP1-Format. Manche Geräte bieten auch eine Notversorgung mit Monozellen. Alle Bedienelemente und die Pegelanzeige müssen auch unter ungünstigen äußeren Bedingungen bedien- und lesbar sein.
15.4.9
Ü-Wagen- und Studio-Produktion
Bei Fernsehproduktionen mit mehreren Kameras, auch Verbundproduktion genannt, ist die eigentliche Ton- und Bildaufzeichnung oder Übertragung nur ein Teil des Ganzen. Ebenso wichtig für den Workflow ist die Bereitstellung der Funktionen -
Takterzeugung und Verteilung, Timecode-Erzeugung und Verteilung, Intercom-Systeme für die Sprachkommunikation des Teams, Monitorwege und Einspielmonitore für Ton und Bild, Bereitstellung und Koordination freier Frequenzen für Funkkameras und Funkmikrofone, Bereitstellung und Koordination von Übertragungsleitungen, Satelliten-Uplinks und Downlinks, - Betrieb von Zeitlupenrecordern, Zuspielmaschinen und Medienservern, - Ausgleich von Latenzen zwischen Bild und Ton u. v. m. Dazu kommt die oft überaus enge Zusammenarbeit mit den Bereichen Licht, Deko, Maske und Bühnenbau, auf deren Erfordernisse im Rahmen der Möglichkeiten und gesetzlicher Vorschriften Rücksicht zu nehmen ist. Eine wesentliche Funktion für das Gelingen einer Sendung ist das Monitoring für Moderatoren vor Ort und für Gesprächspartner, die von anderen Orten zugeschaltet werden. Dabei sind die enormen Signallaufzeiten sowie Latenzen digitaler Übertragungssysteme, wie etwa ISDN-Audiocodecs oder MPEG-Satellitenstrecken, ein grundsätzliches Problem. Ein Auslandskorresprondent beipielsweise, der über eine Satellitenverbindung mit dem Nachrichtenstudio verbunden ist, würde sein eigenes Sprachsignal je nach Codierverfahren erst nach etwa 300 – 1.500 ms vom Studio zurück hören. Selbst erfahrenste Journalisten kommen bei einer derartigen Verzögerung im Monitoring aus dem Sprechrhythmus. Zur Vermeidung dieses störenden Effekts wird die n-1-Technik eingesetzt. Dazu wird im Studiomischpult das ankommende Signal zwar in die Ausgangssumme des Pultes übernommen, jedoch nicht in den Rückkanal zum Korrespondenten geroutet. Im Bedarfsfall hört der Korrespondent sein eigenes Mikrofonsignal über einen lokalen Mischer, sein Monitorsignal ist jedoch frei von störenden Verzögerungen. Broadcast-Mischpulte bieten meist in jedem Kanalzug eine eigene n-1-Taste, 870
Bildbezogene Aufzeichnungs- und Dateiformate für Ton was den Aufbau solcher Verbindungen entscheidend beschleunigt. Etwas umständlicher lässt sich n-1 auch über die Aux-Wege eines Mischpults realisieren (s. Kap. 16.1).
15.5
Bildbezogene Aufzeichnungs- und Dateiformate für Ton
Eine genaue Übersicht zu den Tonaufzeichnungs- und Dateiformaten findet sich in Kap. 12.4 dieses Buches. Das vorliegende Kapitel beschreibt deshalb nur die darüber hinausgehenden Besonderheiten der bildbezogenen Aufzeichnungs- und Dateiformate.
15.5.1
Analoge, bandgestützte Aufzeichnungsformate
Im Bereich der Filmproduktion wird das Bild fast immer getrennt vom Ton aufgezeichnet, daher auch die Bezeichnung SEPMAG (SEParate MAGnetic recording). Am Drehort wird, wie bereits beschrieben, oft noch auf Viertelzollband mit Pilotton oder Timecode aufgezeichnet, das für die weitere Verarbeitung auf Perfoband, Magnetfilm oder in Workstations überspielt wird. Perfomaschinen verwenden ein ein- oder zweiseitig perforiertes Magnetband mit 16, 17,5 oder 35 mm Breite, wodurch sie zu 16- bzw. 35-mm-Filmen kompatibel sind. Die Perforation ermöglicht die einfache und genaue Synchronisation mehrerer Perfomaschinen untereinander (z. B. mehrere Player und ein Recorder) sowie zum Projektor. Auch am Filmschneidetisch wird das Anlegen des Tons zum Bild dadurch wesentlich erleichtert. Perfomaschinen werden in Mono, Stereo sowie Vier- und Sechskanal-Versionen eingesetzt, mögliche Spurlagen finden sich in Abb. 15/4. Perfomaschinen waren bis vor wenigen Jahren in fast allen Filmton- und Synchronstudios im Einsatz, wurden dann aber durch Audioworkstations verdrängt, die eine ähnlich einfache Verschiebung einzelner Spuren zueinander erlauben. Die ersten Filme mit Mehrkanalton, die z. B. nach dem Cinerama- und Todd-AOVerfahren produziert wurden, verwendeten fast ausnahmslos perforierte Magnetbänder zur Bearbeitung der Mehrkanalmischung. Bei der analogen Aufnahme am Drehort kommen überwiegend tragbare Bandmaschinen mit Viertelzollband, meist in Mono-Vollspur oder Stereo-Halbspur zum Einsatz. Sowohl beim Pilotton- als auch beim Timecode-Verfahren wird in der Mitte des Bandes eine zusätzliche Spur mit Synchroninformation aufgezeichnet. Beim Neopilotverfahren werden zwei gegenphasige Spuren geschrieben, die sich bei Abtastung mit einem Vollspurtonkopf gegenseitig auslöschen. Nur der spezielle Pilottonkopf kann diese Informationen abtasten (s. Kap. 15.6.1), der Tonwiedergabekopf (Playback Head) erhält ein ungestörtes Tonsignal. Beim Timecode-Verfahren wird das Signal in einer 0,38 mm breiten Spur zwischen den beiden Spuren einer Zweikanalaufzeichnung geschrieben. Die Aufnahme und Wiedergabe der Timecodespur erfolgt mit Kombinationsköpfen, die in Laufrichtung des Bandes vor und hinter den Audioköpfen angebracht sind. Die örtliche Trennung der Ton- und Timecodeköpfe erlaubt eine Übersprechdämpfung von etwa 90 dB. Um den örtlichen Versatz der Timecode-Köpfe zu den Tonköpfen auszugleichen, verwenden die Maschinen Mikroprozessoren, die den Zeitversatz rechnerisch korrigieren und ein zeitlich korrektes TC-Signal aufzeichnen oder wiedergeben. 871
Film- und Fernsehton
Abb. 15/4. Analoge Aufzeichnung: Spurlagen auf Perfoband (Magnetfilm).
15.5.2
Digitale, bandgestützte Aufzeichnungsformate
Alle analogen und digitalen Videobandformate sowie das DAT-Format arbeiten mit Schrägspuraufzeichnung, rotierender Kopftrommel und einer kleinen absoluten Bandgeschwindigkeit. Für die Aufzeichnung hochfrequenter Signale, wie sie bei digitalem Audio sowie bei analogem und digitalem Video vorkommen, wäre die Bandgeschwindigkeit bei feststehenden Köpfen viel zu klein, um die großen Datenmengen und damit hohen Signalfrequenzen zu bewältigen. Eine sich rasch drehende Kopftrommel vergrößert die Relativgeschwindigkeit zwischen Kopf und Band, ohne dass sich die Absolutgeschwindigkeit des Bandes erhöht. Bei allen professionellen Videobandformaten werden gemeinsam mit der eigentlichen Bildinformation auch zahlreiche Zusatzdaten, sog. Ancillary Data, aufgezeichnet. Parallel zu den Rändern des Bandes befinden sich meist mehrere longitudinale Spuren. Hier werden der longitudinale Timecode (LTC), eine Steuerspur (CTL-Track) und Audio-Hilfsspuren (CueTracks) aufgezeichnet, früher auch die Tonspuren selbst. Die longitudinalen Spuren können auch im schnellen Vor- und Rücklauf der Maschine ausgelesen werden, jedoch nicht im Pause-Modus (Standbild). Die Inhalte der Schrägspuren können im Pause-Modus, also in der Standbildfunktion, ausgelesen werden, da die Leseköpfe in der schnell drehenden Kopftrommel ständig den jeweiligen Bereich abtasten. Um einzelne Bereiche auch beim Schnittbetrieb adressieren und durch neue Inhalte ersetzen zu können, sind die Spuren in Segmente 872
Bildbezogene Aufzeichnungs- und Dateiformate für Ton unterteilt, die abwechselnd Video, Audio der verschiedenen Kanäle, Timecode und andere Daten enthalten. Um Übersprechen zu verhindern, werden nebeneinander liegende Spuren meist mit einer anderen Phasenlage als die vorhergehende Spur aufgezeichnet. Nähere Details zur Schrägspuraufzeichnung finden sich in Kap. 14.1.
15.5.3
Digitale, dateibasierte Aufzeichnungsformate
Mit dem Fortschreiten der Digitalisierung und der Umstellung von band- auf dateibasierte Aufzeichnung entstand eine Reihe von Dateiformaten, die speziell für die Bedürfnisse von Ton und Bild entwickelt wurden. Die meisten dieser Formate sind sog. Container-Formate, auch Wrapper- oder Hüllformate genannt, die eine normierte Transportstruktur vorgeben, die mit Ton, Bild und Zusatzdaten gefüllt werden kann. Zur Codierung von Ton und Bild können dabei unterschiedliche, jedoch in Standards festgelegte lineare oder datenreduzierende Verfahren angewandt werden. Sie erlauben die synchrone Speicherung von Bild und Ton sowie die Integration vieler Zusatzinformationen, wie etwa Timecode, Metadaten, Projektdaten und Schnittinformationen. Die meist verwendeten Container- und Austauschformate für die audiovisuelle Produktion sind -
AAF, Advanced Authoring Format, AVI, Audio Video Interleaved, GXF, General Exchange Format, MXF, Material Exchange Format, OMF, Open Media Format.
Übliche Recorder, Audio- und Videoworkstations unterstützen jeweils nur eine Teilmenge dieser Formate und davon wiederum nur bestimmte Untermengen. Im praktischen Produktionsbetrieb kann deshalb die Vielzahl von Formaten zu erheblichen Komplikationen führen, sofern nicht vor Produktionsbeginn der Workflow der Formate einschließlich aller notwendigen Convertertools präzise definiert wird. 15.5.3.1
AVI - Audio Video Interleaved
Das Audio-Video-Interleave-Format (AVI) ist, ähnlich wie das Audioformat WAV, eine spezielle Variante des von Microsoft entwickelten Resource Interchange File Formats (RIFF). Die Dateinamenerweiterung (File-Extension) wird mit *.avi gekennzeichnet. AVI wurde von Microsoft in Zusammenarbeit mit zahlreichen Arbeitsgruppen und Herstellern definiert und zählt zu den universellsten, häufigst verwendeten Containerformaten für Ton und Bild. In einer AVI-Datei können mehrere verzahnte Audio-, Video- und Text-Datenströme, z. B. Untertitel, vorhanden sein, die mit verschiedenen Verfahren codiert sein können. Metadaten oder Tags werden in diesem Format nicht direkt unterstützt. Die einzelnen Elemente werden dabei derart gespeichert, dass ein Auseinanderlaufen von Ton und Bild nicht mehr möglich und abolute Synchronität gegeben ist (s. Kap. 15.6.5). AVI unterstützt die lineare Aufzeichnung von Bild und Ton sowie viele datenreduzierende Codecs. Videoseitig kommen Codecs wie etwa DivX, Cinepak, Indeo DV, MJPEG, MPEG-4 sowie die lineare Speicherung von RGB oder Farbkomponenten zur Anwendung. Für Audio können unter anderem MP3, Microsofts Adaptive Differential Pulse Code Modulation (MSADPCM) oder die übliche, 873
Film- und Fernsehton lineare Pulse Code Modulation (PCM) zum Einsatz kommen. Ebenfalls werden unterschiedliche Wortbreiten und Samplingfrequenzen unterstützt. AVI stellt eine Art kleinsten gemeinsamen Nenner zur Speicherung von Audio-/Video-Informationen dar und kann von fast jedem computerbasierten Audio- und Video-Schnittsystem gelesen werden. Ein ähnliches, jedoch weiter skalierbares Containerformat ist Quicktime von Apple. 15.5.3.2
MXF – Media Exchange Format
Das offene Media-Exchange-Format (MXF) dient zum Austausch von weitgehend fertig produzierten Video- und Audio-Material und ist nach [SMPTE 377M] standardisiert. Die Dateinamenerweiterung ist mit *.mxf gekennzeichnet. Der Austausch kann durch Filetransfer, z. B. von einem Camcorder auf einen Produktionsserver, aber auch mittels Streaming in Echtzeit erfolgen. Dadurch eignet sich das Format sehr gut für den Austausch während der Produktion und Nachbearbeitung, ebenso wie auch für die direkte Ausspielung von einem Server während einer Sendung. Ein einfacher Zugriff auf den Inhalt bzw. auf einzelne Teile davon, sogenannte Partitions, ist auch während des Streamings möglich; die Partitions werden durch einen Universal-Material-Identifier (UMID) erkannt. Mit Hilfe der in den Metadaten übertragenen Tabellen können die entsprechenden Startpunkte adressiert werden. Mit Essence-Mappings, die als Plug-Ins verfügbar sind, werden unterschiedliche komprimierte und/oder unkomprimierte digitale Datenformate in den Container abgebildet (gemappt). Auch lineares Audio (PCM), Dolby E und Dolby Digital lassen sich so einbetten. Die weitere Codierung der einzelnen Inhaltsbestandteile erfolgt mit dem so genannten KLV-Verfahren. Bei diesem Verfahren wird die Datei blockweise entsprechend den in ihr enthaltenen unterschiedlichen Datentypen sehr effektiv komprimiert. Mit dem 16 Byte langen Key (K) wird das Codierverfahren signalisiert, mit Length (L) die Länge und mit Value (V) der Datentyp der jeweiligen Blöcke. So kann der Empfänger die einzelnen Teile des Datenstroms zur Laufzeit unmittelbar decodieren. MXF unterscheidet zwischen mehreren Betriebsarten oder Komplexitätsstufen, auch Operational Patterns (OP) genannt. Derzeit existieren neun Operational Patterns, die von mehreren Herstellern auf unterschiedliche Weise unterstützt und genutzt werden. Die zur Zeit weitest verbreiteten Patterns sind OP1a-GC-D10 (MPEG/IMX System von Sony) sowie OP1a-GCDV und OP-Atom von Avid, DigiDesign und Panasonic. Trotz Normung der Patterns in verschiedenen SMPTE-Standards ist eine durchgehende Verwendbarkeit derzeit oft nur innerhalb bestimmter Produktfamilien gegeben. Darüber hinaus müssen Convertertools eingesetzt werden. Kern jedes MXF-Files ist die Essence, also die den Inhalt darstellenden Daten für Audio und Video. Die einzelnen Bestandteile der Essence sind ähnlich wie die Timeline-Darstellung auf dem Monitor eines Schnittsystems strukturiert. Sie ergeben einzelne logische Tracks (virtuelle Aufzeichnungsspuren, z. B. für Video, Audio, Szeneneinteilung, Timecode und mehr), die wiederum jeweils in einzelne Edit-Units unterteilt sind. Edit-Units sind Bearbeitungsabschnitte mit der Länge von Einzelbildern. Die Metadaten sind zuvor mittels eines so genannten Essence-Parsers automatisch aus den Gegebenheiten des Essence-Materials extrahiert worden. Sie werden im Metadata-Header zusammengefasst und als Teil des File-Headers dem Essence-Teil des Files, dem sogenannten File-Body, vorangestellt. Aktualisierte Metadaten 874
Bildbezogene Aufzeichnungs- und Dateiformate für Ton können aber auch in den einzelnen Partitions des File-Body eingefügt sein. Zugriffe sind im Prinzip auf jede Edit-Unit innerhalb einer Partition mit Hilfe einer Indextabelle möglich. Der File-Footer mit weiteren strukturellen Daten bildet den Abschluss eines MXF-Files und kann ebenfalls eine Aktualisierung bestimmter Header-Metadata noch während des Streamings erhalten.
Abb. 15/5. Framestruktur eines MXF-Files.
Das MXF-Format kann als kompatible Untermenge des aufwändigeren AAF-Formats (Advanced Authoring Format) angesehen werden, einem proprietären de-facto-Standard für den komplexen Originalmaterial-Austausch. AAF ist ebenfalls nach dem KLV-Schema codiert und kommt primär während der Aufnahme und Nachbearbeitung zum Einsatz. Eine AAF-Datei muss jedoch im Gegensatz zu einem MXF-File vollständig übertragen werden, bevor die Arbeit daran beginnen kann. AAF-Daten sind aufgrund ihrer Komplexität nicht streamingfähig, außerdem lassen sich einzelne Abschnitte aus Clips nur mit vergleichsweise hohem Aufwand extrahieren. 15.5.3.3
GXF - General Exchange Format
Ähnlich wie das MXF-Format unterstützt das GXF-Format sowohl die Speicherung in Dateiform wie auch das Streaming während der Sendung. Es basiert nicht auf dem AAFFormat, unterstützt jedoch KLV- und XML-Metadaten. Als Containerformat ist es unabhängig von den eingesetzten Codecs und transportiert lineares, nicht datenreduziertes Audio und Video ebenso wie Dolby Digital und Dolby E. Im Gegensatz zum komplexeren MXF-Format, das für die dateibasierte Postproduction ebenso wie für die Ausspielung als Stream geeignet ist, unterstützt das GXF-Format primär die Speicherung und Archivierung sowie das Streaming für den On-Air-Betrieb. Audio-, Video- und Zusatzdaten werden im Zeitmultiplex übertragen, auch einfache Edit- und Fade-Befehle für Ton und Bild können integriert werden. Der große Vorteil des GXF-Formats gegenüber dem MXF-Format ist vor allem die kürzere Latenz im Streamingbetrieb.
875
Film- und Fernsehton
15.5.4
Kanal- und Spurenbelegung für den Programmaustausch
Um die Zusammenarbeit zwischen Studios, Produktionsfirmen und Rundfunkanstalten zu erleichtern, haben sich international übliche Spuren- und Kanalbelegungen durchgesetzt, siehe auch Kap. 17.6.4 und [15.4]. Trotz Normung und etablierter Working Practices empfiehlt es sich, die Kanalbelegung auf einem Medium oder einer Übertragungsschnittstelle vor Verwendung genau zu prüfen. Nicht zum ersten Mal landeten durch Verwechslung die Surroundkanäle einer 5.1-Mischung in den Frontlautsprechern oder anstatt des fertig gemischten Sendetons das kommentatorfreie IT-Signal im Wohnzimmer. Tab. 15/2. Kanal- und Spurenbelegung Auf vier- oder mehrkanaligem Medium (z. B. auf digitalem Videoband, Server, Satellitenstrecke) 1) Spur
Programmbezeichnung Stereo PGM Left (L, Lt oder Lo) Stereo PGM Right (R, Rt oder Ro)
Zuordnung zu AES3-Interface
Bemerkung
1/1
Linker Kanal
1/2
Rechter Kanal
3
IT Links
2/1
4
IT Rechts
2/2
Alternativ für Dolby E verwendet, dann jedoch zwingend bittransparent
1 2
Auf achtkanaligem Medium (z. B. digitales Mehrspurband, Audio-Workstation, Mischpult) 1) Spur / Kanal 2) 1 2 3 4 5 6 7 8
Kanalbezeichnung 2)
Zuordnung zu AES3-Interface
Bemerkung
Left Right Center LFE Surround Left Surround Right
39447 1/2 2/1 2/2 3/1 3/2
Die paarweise Zuordnung erleichtert die Signalführung (Routing) zusammengehörender Kanäle (z. B. L/R) über zweikanalige DigitalSchnittstellen.
4/1 4/2
Stereo-Downmix aus diskretem 5.1 (oder mehr Kanälen)
Left Only (Lo) Right Only (Ro)
1)
Gemäß Empfehlung ITU-R BS.775-1, BS.775-2, ITU-R BS.1384, ITU-R BS.1116-1 [4] sowie ITU-R BR. [DOC.10/10] und allgemeiner Betriebspraxis.
2)
HINWEIS! Vor allem in US-amerikanischen Film-Tonstudios wird statt obiger Empfehlung nach wie vor die Reihenfolge L - C - R - LS - RS - LFE angewandt.
15.6
Synchronisation und Synchronverfahren
Wie bereits in Kap. 15.2.1 und Kap. 15.2.2 erläutert, ist die Synchronität zwischen Bild und Ton eine unabdingbare Voraussetzung jeder professionellen Produktion (siehe Tab. 15/1). Verschiedene Methoden zur Synchronisation von Bild und Ton stehen heute zur Verfügung. 876
Synchronisation und Synchronverfahren Der SMPTE/EBU- oder IRT/EBU-Timecode beispielsweise liefert elektronische Synchroninformationen, nach denen sich Geräte im sog. Chase-Lock selbsttätig zueinander synchronisieren können. Bei anderen Verfahren, wie etwa dem Interleaving von Audio- und Videopaketen in Dateien oder dem Zeitmultiplex bei Übertragungsverfahren wie DVB, werden die einzelnen Ton- und Bildelemente unverschiebbar miteinander verschachtelt und zusätzlich mit sog. Time-Stamps zur Synchronisation der Audio- und Videoelemente zueinander versehen.
15.6.1
Pilotton und Neo-Pilotton
Bei einer analogen Tonaufnahme wird das Bandmaterial zwar mit einer festen, normierten Bandgeschwindigkeit transportiert, zumeist 19,05 oder 38,1 cm/s, dennoch kann es durch Bandschlupf sowie Geschwindigkeitsabweichungen zwischen der Aufnahme- und Wiedergabemaschine zu Laufzeitdifferenzen kommen. Bei extremen Temperaturschwankungen kann sich das Bandmaterial auch geringfügig dehnen oder etwas schrumpfen und führt dann ebenfalls zu einer entsprechenden Laufzeitveränderung. Um diese Abweichungen zu verhindern, wird beim Pilottonverfahren eine Frequenz von 50 oder 60 Hz generiert, die zugleich mit dem Ton aufgezeichnet wird. Dadurch entsteht auf dem Band eine Art elektronische Perforation. Das wiedergebende Tonbandgerät liest diese Information vom Band, synchronisiert seine Laufgeschwindigkeit mit Hilfe eines Quarzoszillators und einer Servosteuerung nach diesem Pilotton und läuft somit exakt synchron zur Aufnahme, ebenso wie auch zum Bild. Die Aufnahme ist damit unabhängig von Bandschlupf, Dehnung, Schrumpfung und veränderten Wiedergabebedingungen. Die Pilotfrequenz wird entweder von einem Tachogenerator in der Filmkamera oder von einem externen Bezugsnormal (Quartzgenerator) erzeugt, kann aber auch aus dem Wechselstromnetz abgeleitet werden, z. B. 50 Hz in Europa und Asien oder 60 Hz in den USA und vielen Ländern Lateinamerikas. Im Gegensatz hierzu wird beim Neopilot-Verfahren der Pilotton auf zwei getrennten Spuren in der Mitte des Bandes aufgezeichnet. Für die Aufzeichnung befindet sich ein zusätzlicher Tonkopf auf dem Kopfträger, der den Neopilot-Ton mittels einer Gegentakt-Längsaufzeichnung auf das Band schreibt. Maschinen mit Quartz-Neopilot haben daher neben dem Lösch-, Aufnahme-, und Wiedergabetonkopf auch noch einen vierten, den Pilottonkopf. Die zwei Spuren des Pilottons sind zueinander gegenphasig, wodurch sie sich am Mono-Wiedergabekopf gegenseitig auslöschen. Dadurch gibt es praktisch kein Übersprechen der Pilotton-Spuren zur Audiospur und der Störabstand zwischen Pilotton- und Audiosignal ist deutlich verbessert. Wird der Ton später auf Perfoband kopiert oder in einen nonlinearen Schnittplatz eingespielt, kann mit Hilfe eines Synchronizers und der aufgenommenen Quarzfrequenz die Geschwindigkeit des Bandes exakt wie bei der Aufnahme gesteuert werden. Auf diese Weise bleibt der Ton genau synchron. Bis Mitte der 1980er Jahre war das Neo-Pilottonverfahren der Firma Nagra das weltweit beliebteste und effizienteste System zur Synchronisierung von Filmkamera und Ton. Nachteil war, dass das Übersprechen zwischen Pilotton und Audiosignal bei der stereofonen Aufzeichnung nicht ganz so gut unterdrückt werden konnte. Im Gegensatz zum Timecode wird beim Pilotton keine Echtzeit-Information übertragen, wodurch kein automatischer Chase-Lock-Betrieb mehrerer Maschinen zueinander möglich ist, wie z. B. beim Videoschnitt und in der Audio-Postproduction nötig [15.10].
877
Film- und Fernsehton
15.6.2
SMPTE/EBU-Timecode
Der elektronische Zeitcode, wie er heute nahezu in allen professionellen Audio- und Videogeräten verwendet wird, wurde von der SMPTE bereits 1969 vorgestellt und in Folge gemeinsam mit der EBU standardisiert. Er stellt eine digitale Zeitinformation mit 80 Bits pro Frame dar, die sowohl analog als auch digital aufgezeichnet und übertragen werden kann. Zusätzlich zur Zeitinformation mit 16 oder 18 Bit Wortlänge werden auch Adressdaten (30 Bit) und Nutzerdaten (32 Bit) übertragen. Der SMPTE/EBU-Timecode wird immer in der Form HH:MM:SS:FF (Stunden, Minuten, Sekunden, Frames) aufgezeichnet und angezeigt. Für besondere Anwendungen stehen auch Subframes (0 - 99) und Halbbildinformationen zur Verfügung. Verschiedene Zeitbasen erlauben den Einsatz mit unterschiedlichen Bildwechselfrequenzen (B/s), wie z. B.: -
24 B/s: 25 B/s: 29,97 B/s: 30 B/s: 23,98 B/s:
Kinofilm 16, 35 und 70 mm, div. HD-Formate (1080p/24), weltweit PAL 576i/25, HDTV 1080i/25, HDTV 1080psf/25, großteils Europa NTSC 480i/29,97 Farbe, HDTV 1080i/29,97, USA NTSC 480i/30 Schwarz-Weiß und HDTV 1080i/30, USA Kinofilm bei Abtastung für NTSC oder HDTV 1080p/23,98, USA
Die Abkürzung i steht für Interlaced (Halbbildverfahren), p für Progressive (Vollbildverfahren); jeweils zwei Halbbilder ergeben ein Vollbild. Auch die neuen High Definition TVStandards und das digitale Kino arbeiten mit dem SMPTE/EBU-Timecode. Obwohl bei vielen neuen Formaten 50 oder 60 Vollbilder pro Sekunde aufgezeichnet werden (HDTV mit 720p/50 oder 720p/60, HDTV mit 1080p/50 oder 1080p/60), bleibt die Skalierung mit jeweils 24, 25 oder 30 Bildern pro Sekunde weiter bestehen. Der Einsatz von Vollbildformaten (Progressive Scan) führt zu einer Verdopplung der Vollbildzahl und Halbierung der Framedauer, also von z. B. 40 auf 20 ms. Neben dem allgemeinen Timecode nach SMPTE/EBU gibt es verschiedene Film-Timecodes, die direkt in der Filmkamera auf den optischen Träger aufbelichtet werden und die Arbeit in der Nachbearbeitung vereinfachen. Manche dieser Film-Zeitcodes stellen proprietäre Erweiterungen des SMPTE-Timecodes dar, so z. B. der SR-2 Timecode mit 112 statt 80 Bit Information pro Frame; auch der Kodak Keycode wird bereits bei der Herstellung des FilmNegativmaterials auf dem optischen Träger aufgebracht. Er stellt eine Art Metadaten-Identifikation für Filmnegative dar, der bei der Abtastung des Materials für den On- oder OfflineSchnitt per Video mit übertragen werden kann. Der IRT/EBU-Timecode nach [DIN 15971] zählt zu den genormten und nicht-proprietären Verfahren. Der SMPTE/EBU-Timecode wird in den zwei Formaten Longitudinal-Timecode (LTC) und Vertical-Interval-Timecode (VITC) verwendet. Der LTC besteht aus insgesamt 80 Bit pro Einzelbild, die als Bit 00 bis 79 bezeichnet werden. Die Norm [EBU Tech. 3097] spezifiziert die Belegung und Verwendung der einzelnen Bits, wie z. B. 16 Bit pro Bild für die Darstellung der Zeitinformation. Bei PAL beträgt die Datenrate 2.000 Bit/s (80 Bit/Frame x 25 Frames/Sekunde). Die digitale Information wird mittels Bi-Phase-Mark-Coding codiert (s. Kap. 11.5.1.3.), um weitgehende Gleichspannungsfreiheit des Signals auf Leitungen oder bei der Aufzeichnung zu erhalten. Für die analoge Verwendung wird das Signal mittels Frequency-Shift-Keying derart umgetastet, dass Digital-Null einer Frequenz von 1.000 Hz 878
Synchronisation und Synchronverfahren entspricht, Digital-Eins genau der doppelten Frequenz, also 2.000 Hz (bei PAL). Damit ist es möglich, den LTC auf jedem analogen oder digitalen Medium aufzuzeichnen und zu übertragen. Die Aufzeichnung erfolgt longitudinal, also in Längsrichtung des Ton- oder Videobandes. Deswegen kann der LTC auch im Suchbetrieb (Jog-Shuttle) und beim Vor- und Rücklauf des Mediums gelesen werden. Nachteil des LTC ist, dass er bei Stillstand des Mediums (Pause) und bei sehr kleinen Geschwindigkeiten nicht ausgelesen werden kann. In dieser Betriebsart wird, sofern vorhanden, auf den VITC umgeschaltet. Der VITC wird in der vertikalen Austastlücke des analogen oder digitalen Videosignals eingebettet, übertragen und/oder aufgezeichnet. Bei jeder Übertragung und Überspielung eines Videobands ist der VITC automatisch mit dabei. Der VITC enthält gegenüber dem LTC zusätzliche Sync- und Prüfsummen-Bits, die eine Gesamtlänge von 90 Bit ergeben. Bis zu zwei unabhängige Timecodes können mittels VITC in das Videosignal eingebettet werden, z. B. einer für die Programmzeit (Elapsed Time) und einer für die Tageszeit (Real Time). Bei Halbbildsystemen (Interlaced Frame), wie beispielsweise bei PAL, liegt der VITC zwischen der 19. und 21. Zeile des ersten Halbbildes sowie der 332. und 334. Zeile des zweiten Halbbildes. Die Position kann im TC-Inserter oder im Betriebsmenü des Gerätes bei Bedarf verändert werden. Der VITC wird bei analogen und digitalen Videomaschinen gemeinsam mit dem Bild im Schrägspurverfahren mit einer rotierenden Kopftrommel aufgezeichnet und abgetastet. Daher kann der VITC auch beim Stillstand des Bandes ausgelesen werden, denn auch im Pause- oder Standbildmodus dreht sich die Kopftrommel weiter und tastet das Band ab. Beim schnellen Vor- oder Rücklauf fällt der VITC aus, weshalb bei den meisten Maschinen automatisch auf den LTC umgeschaltet wird. In den technischen Pflichtenblättern vieler Rundfunkanstalten und des IRT wird deswegen vorgeschrieben, dass der VITC nur in Verbindung mit dem LTC angewandt werden darf und mit diesem identisch sein muss. Bei der Arbeit mit Timecode sollte man einige grundlegende Regeln beachten: - Bei der Aufnahme oder Wiedergabe von Timecode brauchen alle Geräte einige Sekunden Zeit, um sich auf den Timecode und damit auch zueinander synchronisieren zu können (Chase-Lock). Das gilt auch vor dem Schlagen einer Timecode-Klappe. Der Timecode sollte daher immer sechs bis acht Sekunden vor dem eigentlichen Start aktiviert werden. - Verzerrungen, z. B. durch Rauschen, Übersteuerung und Clipping, führen im TimecodeSignalweg zur Unlesbarkeit des LTC, ebenso der Einsatz von Begrenzern und anderen Regelverstärkern. - Wird der Timecode auf analogen Mehrspurmaschinen aufgezeichnet, kann es aufgrund des Übersprechens zwischen den Spuren zu Störungen des Timecodes kommen, beispielsweise durch eine benachbarte Percussion-Spur mit Vollpegel und umgekehrt. - Arbeiten mehrere Timecode-basierte Geräte im Verbund, muss ein TC-Master definiert werden; alle anderen Geräte folgen diesem Master (Master-Slave). In der bildbezogenen Tontechnik gibt immer das Bild den Timecode und den Referenztakt vor, z. B. die Videomaschine oder der Server. - In großen Produktionsstudios und Rundfunkanstalten wird der Timecode fast ausnahmslos auf den Haustakt synchronisiert. So ist eine phasenstarre Verkopplung zwischen dem Haustakt (Masterclock) und dem Timecode möglich.
879
Film- und Fernsehton
15.6.3
MIDI-Timecode
Der MIDI-Timecode (MTC) entstand aus der Notwendigkeit, einfachere Audiogeräte mit Video, Film oder anderen, zeitbezogen arbeitenden Audiogeräten zu synchronisieren. Der MTC überträgt dabei die gleiche Zeitinformation wie der SMPTE/EBU-Timecode, verwendet jedoch andere User- und Adressdaten. MTC-Timecode-Converter erlauben die Wandlung von MIDI-Timecode in SMPTE/EBU-Timecode und umgekehrt. Der MIDI-Timecode hat nichts mit der MIDI-Beat-Clock zu tun, die zur Temposynchronisierung von Musikinstrumenten genutzt wird. Wie beim echten Timecode auch, muss beim MTC zunächst ein Master definiert werden, der den Takt für den Verbund vorgibt. Das kann entweder ein MTC-Generator oder auch eine Videomaschine sein, deren Timecode vorher in MTC konvertiert wurde. Der MTC unterstützt dabei Bildwechselfrequenzen von 24 Hz (Film), 25 Hz (PAL), 29,97 Hz (NTSC Farbe) und 30 Hz (NTSC S/W). Viele Geräte wie etwa Audio-Workstations und Mischpulte verwenden MTC, um bestimmte Funktionen zeitabhängig zu automatisieren, z. B. die Regler-Automatisierung. Damit ist es möglich, komplexe Audiomischungen vom Timecode einer Video- oder Filmquelle zu steuern. Der MIDI-TC kann nicht direkt als Audiosignal aufgezeichnet werden.
15.6.4
Rotosyn
In der Frühzeit der Filmtonbearbeitung wurde die Synchronität zwischen dem Filmstreifen und den Perfo-Bandlaufwerken zur Aufnahme und Wiedergabe des Tons mechanisch erzwungen. Alle Geräte wurden von einer gemeinsamen Welle angetrieben, was wenig elegant, aber ungeheuer wirkungsvoll war. Sowohl der Filmstreifen, als auch die Tonbänder waren dazu mit der gleichen Perforation versehen. Das Rotosyn-Verfahren und seine elektronischen Nachfolger, wie z. B. Syntronic-A und -M, ersetzten die gemeinsame Welle durch einzelne Elektromotoren. Als Antriebselemente kamen Synchronmotoren zum Einsatz, die über eine Treiberelektronik und einen Synchrongenerator gesteuert wurden. Bei einer Frequenz von 50 Hz war Sollgeschwindigkeit erreicht, mittels Erhöhung oder Absenkung der Frequenz konnten unterschiedliche Bandgeschwindigkeiten realisiert werden. Über entsprechende Schnittstellen konnten die Maschinen auch zu Pilotund Neopilot synchronisiert werden [15.10].
15.6.5
Multiplexing, Interleaving und Time-Stamping
Unter Multiplexing versteht man das Verschachteln von Daten, um zum Beispiel mehrere diskrete Audiokanäle und ein Videosignal über eine gemeinsame Leitungsverbindung übertragen zu können, wie beispielsweise beim SDI-Signal (s. Kap. 15.10.1). Beim Time-Division-Multiplex-Verfahren (TDM) und seinen Verwandten werden verschiedene Informationen zeitlich verschachtelt und nacheinander in einem gemeinsamen Übertragungskanal übertragen oder aufgezeichnet. Zusammengehörende Daten, wie etwa ein Datenwort aus dem Abtastzyklus eines Audio-AD-Wandlers, die dazu gehörenden Kontrollinformationen sowie die Videodaten aus einer digitalen Videokamera werden in Subframes, 880
Synchronisation und Synchronverfahren Frames oder Paketen zusammengefasst. Ein wesentlicher Vorteil des TDM-Verfahrens ist die absolute Synchronität der Übertragung. Solange sich die Daten in ihrem nativen Datenstrom befinden – egal ob in einem Kabel, einer Funkstrecke, auf Band oder einer Harddisk – ist absolute Synchronität gegeben. Viele professionelle Anwender bevorzugen daher die gemeinsame Übertragung von Ton und Bild über SDI- oder HD-SDI-Schnittstellen, anstatt sie mit einzelnen Leitungen zu verkabeln. Auch für die Übertragung von Mehrkanalton mit Dolby E ergeben sich dadurch wesentliche Vorteile. Nahezu alle digitalen Audio-, Video- und Netzwerkverbindungen arbeiten nach dem Prinzip des TDM-Verfahrens. Das Interleaving-Verfahren ist eng verwandt mit dem Multiplexverfahren. Der Hauptunterschied besteht darin, dass beim Interleaving nur logische Dateneinheiten im Sinne höherer Datensicherheit und Zugriffsgeschwindigkeit behandelt werden, um sie auf einem Medium aufzuzeichnen, während das Zeitmultiplex-Verfahren die Daten mehrerer Datenquellen über eine Leitung überträgt. Fast alle digitalen Aufzeichnungsverfahren (Videoband, DAT-Kassette, Harddisk oder Flashcard/RAM) verwenden das Interleaving-Verfahren zur Datenspeicherung. Bei richtiger Anwendung ergibt sich damit eine vollständige Synchronität zwischen Bild und Ton. Das sog. Time-Stamping kommt bei der gleichzeitigen Übertragung von verschiedenen Elementarströmen, wie etwa Video, Stereoton, Mehrkanalton und anderen Komponenten, z. B. Teletext, EPG, MHP über gemeinsame MPEG-Übertragungswege, zum Einsatz. Im sogenannten MPEG-Multiplexer erhalten die einzelnen Elemente eindeutige Zeitmarkierungen innerhalb des MPEG Transport-Streams (MPEG-TS) oder MPEG Program-Streams (MPEG-PS), die für Synchronität währen der Wiedergabe sorgen. Diese Time-Stamps sind in ähnlicher Form bei digitalem DVB-Fernsehen ebenso vorhanden wie auf einer DVD oder Blu-ray-Disc. Der Time-Stamping-Mechanismus beim digitalen Fernsehen stellt folgende Funktionalitäten bereit, die wiederum folgende Anforderungen ergeben: - Alle Komponenten oder Elementarströme (Elementary-Streams) eines Programms besitzen eine absolut konstante Laufzeit, die im Rahmen gewisser Grenzen vom Eingang des Encoders bis zum Ausgang des Decoders konfigurierbar ist. - Für Codierverfahren mit konstanter Bitrate, wie z. B. MPEG-1 Layer 2 und Dolby Digital, gilt dies auch für die Laufzeit eines im AES-Format übertragenen, bereits komprimierten Audio-Elementarstroms vom Ausgang des Audio-Encoders, also vor dem Multiplexing in den MPEG-Transportstrom, bis zum Eingang des Audio-Decoders, d. h. nach dem Entpacken aus dem Transportstrom. - Die konstante Laufzeit ist absolut reproduzierbar, z. B. nach dem Wiedereinschalten von Geräten, dem erneuten Aufbau unterbrochener Leitungsverbindungen, oder dem Programmwechsel im Empfänger; ebenso für unterschiedliche Empfänger oder Sender, abgesehen vom systemimmanenten Offset. - Mit Hilfe dieser konfigurierbaren Laufzeit wird die Synchronität der einzelnen Komponenten eines Programms sichergestellt und damit auch die Lippensynchronität bzw. die Synchronität mehrerer Audiosignale untereinander. Diese Funktionalitäten stehen jedoch nur dann verlässlich und reproduzierbar bereit, wenn bestimmte Voraussetzungen erfüllt sind, wie z. B.:
881
Film- und Fernsehton - Die zu nutzenden Geräte müssen technisch einwandfrei implementiert sein. Puffergrößen und Arbeitspunkte müssen den MPEG- und Mehrkanalton-Standards entsprechen und korrekt eingestellt sein. - Die digitalen Takte sämtlicher Elementarströme eines Programms, also Video, Stereoton und Mehrkanalton, müssen vor der Audio- bzw. Videocodierung starr miteinander verkoppelt sein. Bei allen komprimierten Verfahren (MPEG-1 Layer 2, Dolby Digital, etc.) dürfen keine Samplerate-Converter zum Einsatz kommen. - bei der Multiplexbildung und der Verarbeitung von Signalen, die über verschiedene Verteilwege zu einem Playout-Center gelangen, müssen die Synchronisationssignale im MPEGTransportstrom erhalten bleiben. Es muss vor allem sichergestellt sein, dass sich die in den Elementarströmen übertragenen Presentation-Time-Stamps (PTS) auf eine einzige, für alle Elementarströme des Programms gemeinsame Programme-Clock-Reference (PCR) beziehen und darüber hinaus einen gültigen, absoluten Offset dazu aufweisen. Damit erfolgt nicht nur eine Taktverkoppelung der Elementarströme, sondern in der Regel auch eine Kommunikation zwischen allen Multiplexern, die zu einem Programm beitragen (Phasensynchronisation der PTS, zusätzlich zur Frequenzsynchronisation). Mit Hilfe des MPEG-Synchronisationsmechanismus können die Laufzeiten der einzelnen Elementarströme reproduzierbar abgeglichen werden. Wenn jedoch bereits innerhalb der Quelldatenströme am Eingang des MPEG-Multiplexers Zeitverschiebungen auftreten, wird der Time-Stamping-Mechanismus nicht sinnvoll funktionieren. Sind die oben genannten Voraussetzungen nicht gegeben, so treten in der Regel geräte- und nutzungsabhängige, d. h. nicht eindeutig reproduzierbare und interpretierbare Artefakte auf. Die Codierung und das Multiplexing von Audio-, Video- und Zusatzdaten sind zeitaufwändige und meist unterschiedlich lange Prozesse. Übliche MPEG-Codierer und Multiplexer, wie sie im Signalweg vor dem DVB-Sender oder DVB-Satelliten-Uplink vorkommen, erlauben daher den Ausgleich von Laufzeitunterschieden und Asynchronitäten zwischen Video, Stereoton und Mehrkanalton. Diese Delays dürfen jedoch nicht dazu mißbraucht werden, produktionsseitige Asynchronitäten auszugleichen. Insbesondere darf in keinem Fall eine fehlerhafte Einstellung in einem Produktionsbereich durch eine Nachjustierung in einem anderen Bereich kompensiert werden, ohne vorher die exakten Folgen für alle Betriebsfälle zu analysieren. Für den Abgleich komplexer Signalketten ist daher die Synchronität nach jedem Übertragungsabschnitt unter Berücksichtigung der Laufzeiten einzeln sicherzustellen. Dies kann messtechnisch, in der Produktion aber auch mit Hilfe einer mechanischen oder elektronischen Klappe geschehen (s. Kap. 15.2.2). Probleme können sich auch beim Auslesen oder Entpacken der Daten ergeben. Trotz Presentation-Time-Stamps kann es im Einzelfall zum Auseinanderlaufen von Bild und Ton kommen. Vor allem Heimempfänger, insbesondere Set-Top-Boxen, sind davon betroffen. Der Grund liegt in der Verwendung des decoderseitigen RAM-Speichers, der zur Pufferung von Ton-, Bild- und Zusatzdaten dient. Ist der RAM-Speicher vom Hersteller zu klein definiert oder werden, z. B. bei jedem Kanalwechsel und im Hintergrund, zu viele Informationen von EPG, Teletext, MHP u. a. abgelegt, wird der Speicherplatz zur Pufferung zu klein; Bild und Ton laufen auseinander. Ein kurzes Aus- und Einschalten des Decoders oder der Set-Top-Box beseitigt den Datenmüll und stellt freien Speicherplatz zur Pufferung und damit zur Synchronität bereit. 882
Synchronisation und Synchronverfahren
15.6.6
Time-Alignment Audio/Video
Der Timecode liefert zwar genaue Zeitinformationen pro Einzelbild, sehr kurze Zeitverschiebungen im Subframebereich und kürzer bleiben jedoch unberücksichtigt. So erzeugen etwa typische SDI-Embedder und De-Embedder zur Einbettung von Audio in den SDIDatenstrom Latenzen zwischen ca. 1 und 17 Zeilen. Beträgt beispielsweise die Verschiebung 17 Zeilen, ergibt das bei PAL 1.088 :s > 1 ms (17 x 64 :s pro Zeile). Wird im Zuge einer Übertragung oder Aufzeichnung mehrfach Embedded und De-Embedded, liegt das Audiosignal irgendwann außerhalb des dafür vorgesehenen Zeitfensters und ist nicht mehr synchron zum Bild.
Abb. 15/6. Time-Alignment Audio zu Video (Dolby E bei PAL).
Diese Verschiebung macht sich vor allem bei der Arbeit mit codiertem Mehrkanalton wie etwa Dolby E störend bemerkbar. Dolby E entspricht in seinem Timing exakt einem Videoframe von 40 ms. Bei der Übertragung muss Dolby E eine bestimmte Zeitrelation zum Video einhalten, damit es problemlos im gleichen Takt wie ein Videoframe geschnitten oder geschaltet werden kann. Laufen Dolby E und Video um mehr als 22 Zeilen Ton nach Bild oder mehr als 9 Zeilen Ton vor Bild auseinander, kann es bei Schnitt- und Schaltprozessen zur Zerstörung des Dolby E-Frames und zu hörbaren Tonaussetzern und Knacken kommen. (s. auch Kap. 15.9.6). Grundlage jedes korrekten Time-Alignments zwischen Bild und Ton ist das Vorhandensein eines genauen, zentralen Taktes, der mit einem definierten Phasenverhalten zu allen Audiound Videogeräten verteilt wird. In der Praxis der bildbezogenen Audiotechnik sind das: - Bei Standard Definition-Systemen: Video-Referenz als Black & Burst (B & B, Genlock), auch als Bi-Level-Sync bezeichnet; oft auch in HD-Systemen verfügbar. - Bei High Definition-Systemen: Tri-Level-Sync; die Umsetzung auf B & B wie bei SD ist möglich. Diese Videotakte können mit geeigneten Convertern in audioübliche Takte wie Digital-AudioReference-Signal nach AES-11 (DARS), Wordclock (Samplingfrequenz als Rechtecksignal) und Superclock (Samplingfrequenz x 256) umgewandelt werden.
883
Film- und Fernsehton
15.7
Nachbearbeitung und Mischung
Von der Aufnahme des O-Tons bis zur fertigen Kino- oder Fernsehmischung durchläuft der Ton eine Reihe von Bearbeitungsschritten und eine Vielzahl nicht immer audiophiler Geräte. Soll am Ende der Bearbeitungs- und Übertragungskette ein hochwertiges Audiosignal stehen, welches Kunden und Auftraggeber gleichermaßen erfreut, muss jeder Arbeitsschritt mit der größtmöglichen Sorgfalt erfolgen.
15.7.1
Schnitt
Bei größeren Film- und elektronischen Fernsehproduktionen werden Bild und Ton zunächst unabhängig voneinander bearbeitet. Als Verbindungsglied dienen der Timecode des Materials sowie Schnittlisten (Edit-Decision-Lists, EDL), die das Quellmaterial (Reel, Take), die Längen (in HH:MM:SS:FF) und grob die Bearbeitungsschritte definieren. Das Bildmaterial wird vom Bildcutter geschnitten und montiert, und für das Audiomaterial stehen bei großen Produktionen eigene Dialog-, Geräusch- und Musikcutter bereit. Der fertig geschnittene Ton wird dann vom Bildcutter zum Bild angelegt, um die Übereinstimmung und Wirkung zu prüfen sowie auf dem Ton basierende Schnittentscheidungen zu treffen. Die einzelnen Töne und Tonclips werden erst in der Mischung zu einem homogenen Ganzen zusammengefügt [15.7].
15.7.2
Integrierte Audioproduktion
Beim linearen, bandbezogenen Videoschnitt waren und sind die Möglichkeiten zur Tonbearbeitung während des Bildschnitts eingeschränkt. Der eigentliche Ton- und Videoschnitt erfolgt durch elektronisches, sequentielles Umkopieren von einem oder mehreren Playern auf einen Recorder. Das Videosignal durchläuft dabei einen Bildmischer, das Audiosignal ein Tonmischpult. Zur Vermeidung von Pegelsprüngen führt die Aufnahmemaschine am Schnittpunkt automatisch eine etwa 5 ms lange Kreuzblende im Ton durch. Nachdem jeder Schnitt in Echtzeit erfolgt, sind umfangreiche Tonbearbeitungen am Schnittplatz meist nicht möglich. Außer Überblendungen von einer Quelle zur anderen, Tonzuspielungen und einfachen Signalbearbeitungen mittels EQ, Hall und Kompressor, halten sich die gestalterischen Möglichkeiten sehr in Grenzen. Daher wird bei aufwändigeren Produktionen, z. B. für größere Nachrichten- und Sportbeiträge, für Dokumentationen, Fernsehfilme und Werbung, der Ton im Synchronstudio nach künstlerisch-dramaturgischen Intentionen nachbearbeitet und gemischt. Bei der Montage, also beim Schnitt, werden verschiedene Verfahren angewendet: Von Assemble-Schnitt spricht man, wenn das Video durch die Aneinandereihung einzelner neuer Aufnahmen entsteht. Dabei werden alle Spuren auf Band, die Informationen tragen, gelöscht und neu bespielt. Dazu zählen die Timecode-, die Video-, die Audio- und die Steuerspur (CTL). Eine vorherige Aufzeichnung von Timecode und CTL mit Schwarzbild („Black“) ist nicht notwendig. Der Assemble-Modus wird daher meist bei der kontinuierlichen Auf884
Nachbearbeitung und Mischung nahme auf Leerbänder verwendet, etwa bei der Aufnahme im Camcorder, beim Mitschnitt von Sendungen oder bei der Ausspielung von Ton und Bild aus einer Workstation auf eine MAZ.
Abb. 15/7. Prinzipaufbau eines linearen Video-Schnittplatzes.
Beim Insert-Schnitt werden in eine bestehende Aufzeichnung, über einen definierten Bereich hinweg, neue Informationen eingefügt. Das Band ist dazu mit Timecode, einer Steuerspur (CTL) sowie Schwarzbild vorbespielt. Einstieg und Ausstieg werden exakt über In- und OutPunkte definiert, die auf den Timecode bezogen sind. Es werden nur diejenigen Spuren und Informationen gelöscht und neu aufgenommen, die vorher definiert wurden. So können z. B. Ton und Bild gemeinsam eingefügt werden, jedoch auch nur das Bild zum bestehenden Ton oder einzelne Tonspuren zum bestehenden Bild. Die Steuerspur (CTL) und der durchgehende Timecode bleiben erhalten und dienen als Synchroninformation. Der Insert-Schnitt ist die übliche Betriebsart in der Nachbearbeitung. Nonlineare Video-Schnittsysteme bieten umfangreiche Werkzeuge und Möglichkeiten zur Schnittbearbeitung für Video und Audio. Moderne Schnittplätze erlauben die Aufzeichnung und Bearbeitung von 24 oder mehr Tonspuren, die auf der Zeitachse (Timeline) parallel zu den Video- und Graphikspuren angelegt werden. Die Möglichkeiten reichen von einfachen Voice-Over-Aufnahmen bis zur kompletten Audiobearbeitung inklusive Audioschnitt, Panoramisierung, Dynamikbearbeitung und Filterung in jedem Kanal sowie Mischung und Mastering in Stereo als auch 5.1 Surround. Plug-Ins oder integrierte Software bieten Effekte wie Nachhall, Tonhöhenkorrektur und fast jede erdenkliche Art der Signalbearbeitung. Das Vorhandensein dieser technischen Möglichkeiten bedeutet jedoch nicht, dass damit quasi 885
Film- und Fernsehton „automatisch“ eindrucksvolle Tonmischungen entstehen. Dennoch bietet sich engagierten Allroundern die Möglichkeit, ein Film- oder Videoprojekt fast auschließlich mit einem Gerät zu bearbeiten. Ein Vorteil ist ohne Zweifel, dass der Ton nicht erst in ein anderes System exportiert und dann über Timecode zum Bild synchronisiert werden muß.
Abb. 15/8. Integrierte Tonund Bildbearbeitung in einem non-linearen Schnittsystem.
15.7.3
Synchronregie und Mischung
Wenn hohe gestalterische und technische Qualität einer Tonmischung im Mittelpunkt stehen, erfolgt die Nachbearbeitung meist im Synchronstudio. Der Ton großer Spielfilme und Dokumentationen besteht häufig aus mehreren hundert Einzelspuren, die erst bei der Mischung in sog. Stems zusammengeführt werden. Darunter versteht man die zwei- oder mehrkanaligen Vormischungen oder Subgruppen für Sprache, Geräusche, Atmosphären und Musik. Die Mischung derart komplexer Werke erfordert definierte akustische Abhörbedingungen (s. Kap. 15.8.4), die für Kinoton und Fernsehton unterschiedlich sind. Die Tonmischung erfolgt immer synchron zum fertig geschnittenen Bild, auch wenn es sich dabei um Teile oder Akte handelt. Zur Bildwiedergabe kommen heute fast auschließlich Harddisk-Videoplayer zum Einsatz, wobei das Bildsignal über einen Video-Projektor oder Monitor wiedergegeben wird. Im Gegensatz zu Filmprojektoren oder Videomaschinen arbeiten Harddisk-Player fast trägheitslos und erlauben extrem kurze Chase-Lock-Zeiten. Das ist die Zeit, die unterschiedliche Bild- und Tongeräte brauchen, um eine vorgegebene Timecode-Position zu finden und startbereit zu werden. Viele Audioworkstations bieten die Möglichkeit, Video inklusive Timecode zu importieren, direkt auf der Timeline synchron zum Ton anzulegen und über einen externen Monitor anzuzeigen. Da bei der bildbezogenen Audioproduktion der Ton dem Bild folgt, wird der Timecode von der Videoquelle vorgegeben. Kinoproduktionen, die auf Film (16, 35, 70 mm) oder auf HDVideo für Digital Cinema oder den internationalen Austausch gedreht wurden, arbeiten typischer Weise mit 24 Vollbildern/s. Die Videoformate PAL (576i/25) und HDTV (1080i/25) hingegen funktionieren mit einer Bildfrequenz von 25 Vollbildern/s. Die Abtastung von Filmen mit 25 B/s führt deshalb zu einer Verkürzung der Laufzeit und somit auch zu einer 886
Nachbearbeitung und Mischung Erhöhung der Tonhöhe des Films um 4,16 %. Während die geringe Geschwindigkeitserhöhung visuell kaum auffällt, tritt sie akustisch deutlich hervor. Die fertigen Kinomischungen werden daher mittels Tonhöhenkorrektur (Pitch-Correction) um 4,16 % nach unten korrigiert. Filme, die mit 24 B/s aufgenommen wurden, aber für Märkte mit 29,97 B/s bestimmt sind, werden bei der Abtastung auf die höhere Bildwiederholfrequenz umgewandelt, dem sog. 2:3-Pull-Up. Hier muss der Ton auf die neue, nur leicht veränderte Laufzeit mittels TimeCompression oder -Expansion angepasst werden. Bei nahezu allen Spielfilmen mit Surroundton im 4.0 oder 5.1-Format werden der Dialog sowie im Bild sichtbare Einzeleffekte fast ausschließlich über den Centerkanal wiedergegeben und nur sehr selten dem Bildinhalt entsprechend panoramisiert. Diese Maßnahme soll den Zuschauer zur Mitte der Leinwand orientieren und damit die visuelle Aufmerksamkeit steigern. Musik wird meist in Stereo in die Frontkanäle L/R gemischt, wobei die Surroundkanäle manchmal für die Raumabbildung oder den Nachhall eingesetzt werden. Die Atmosphäre einer Szene sowie bewegte Effekte werden, je nach tondramaturgischer Erfordernis, in das 4.0 oder 5.1-Surroundpanorama gemischt. Die Surroundinformationen sollen jedoch im Verhältnis zu den Frontkanälen nicht dominant werden. Der LFE-Kanal für tieffrequente Effekte wird nur für sehr energiereiche und spezielle Tonsignale, wie z. B. Explosionen und dergleichen verwendet. Beim Fernsehton, insbesondere bei Liveübertragungen, folgt man meist einer anderen Mischphilosophie. Die Sprache von Kommentatoren und Moderatoren wird zwar ebenfalls vorrangig in den Centerkanal gemischt, allerdings auch deutlich nach links und rechts panoramisiert. Selbst bei stumm geschaltetem Centerkanal ist der Kommentator trotzdem weiterhin zu hören. Off-Kommentare werden fast ausschließlich als Phantomschallquelle über den linken und rechten Kanal wiedergegeben, mit einer leichten Unterstützung durch den Centerkanal. Nachdem bei Live-Übertragungen meist viele Zuspielungen eingesetzt werden, die nur in Stereo vorliegen, z. B. Jingles, Playbacks u. a., kommen Methoden zum Surround-Upmix zum Einsatz. Der Upmix von 2.0 auf 5.1 muß jedoch in jedem Fall so erfolgen, dass ein eventueller automatischer Downmix im Heimempfänger ohne Artefakte, also ohne Phasenauslöschungen erfolgen kann. Der LFE-Kanal kommt beim Fernsehen, wie auch bei Musiksendungen, kaum zur Anwendung. Eine Ausnahme bilden meist nur Spielfilme oder effektvolle Dokumentationen, die im 5.1-Format produziert werden. Für die Wiedergabe üblicher tieffrequenter Signale ist der LFE-Kanal nicht erforderlich. Sollten alle oder einzelne Wiedergabelautsprecher nicht fullrange-fähig sein, sorgt das Baßmanagement im Wiedergabesystem für die Summierung und Wiedergabe der tiefen Frequenzen über den Subwoofer. Der Subwoofer gibt in diesem Fall nicht nur den LFE-Kanal, sondern auch den Tieftonanteil der anderen Kanäle wieder. Siehe hierzu auch Kap. 5.4. und [15.12, 15.13]
15.7.4
Lautheitssteuerung und Fernseh-Soundprocessing
Extreme Lautheitssprünge beim Wechsel zwischen TV-Sendern sowie zwischen den einzelnen Segmenten eines TV-Programms stören sehr. Sie zählen zu den häufigsten Beschwerdegründen bei den Programmanbietern. Während der Dialog eines dynamisch gemischten 887
Film- und Fernsehton Spielfilms ohne lauter zu stellen kaum zu verstehen ist, kommen Werbung und Promotion so laut aus den Lautsprechern, dass der Kunde verzweifelt leiser stellt. Und hat er oder sie die Fernbedienung schon einmal in der Hand, ist der Weg von der Lautstärketaste zur Programmwechseltaste nur kurz. Die Empfehlung ITU-R BS.1770 der International Telecommunications Union stellt Broadcaster und Studios vor die Herausforderung, nicht nur den Spitzenpegel (PPM) nach z. B. DIN/IEC 60268-10 sondern auch die Lautheit zu messen und, ähnlich wie den Spitzenpegel, auf normierte Werte zu begrenzen. Als Meßmethode setzt die Empfehlung auf Leq(RLB), eine Alternative zu Verfahren wie Leq(A) oder Leq (M). Näheres hierzu auch in Kap. 18.2. Mit Hilfe eines individuellen Soundprocessing versuchen viele Sender, unkontrollierte Lautheitssprünge in den Griff zu bekommen und ihren Sound homogener zu gestalten. Anders als beim Soundprocessing des Hörfunks geht es dabei nicht um eine „akustische Signatur“ oder besondere Lautheit, sondern um eine möglichst gleichmäßige Lautheit der Wiedergabe [15.12]. Reine Spitzenwertbegrenzer eignen sich dafür nicht, da sie nur auf Spitzenwerte, jedoch nicht auf Lautheitswerte reagieren. Zum Einsatz kommen daher komplexe MultibandProzessoren, die eine Kombination aus zeitabhängiger automatischer Verstärkungsregelung, Expander, Kompressor, pegelabhängiger Frequenzgangentzerrung sowie Begrenzer darstellen. Doch selbst bei genauer Einstellung kann es, abhängig vom Programmmaterial, zu unerwünschten akustischen Nebenwirkungen, z. B. Pumpen, und zu einer deutlichen Reduktion der Dynamik kommen. Ein Nachteil jedes Echtzeitverfahrens zur Lautheitssteuerung ist darüber hinaus seine systembedingte Trägheit. Die gehörrichtige Messung der subjektiv empfundenen Lautheit setzt in jedem Fall ein Zeitintegral voraus, kein Echtzeit-Soundprocessor kann die Entwicklung der Lautheit und der Signalsituation voraussehen. Der Versuch, es jeder Situation oder Wahrnehmungsempfindung recht zu machen, kann mit senderseitigem Soundprocessing nicht zufriedenstellend gelöst werden. Ein weitaus besserer Weg ist die Steuerung der Wiedergabelautheit über Metadaten. Diese werden vom Programmanbieter individuell für jedes Programmsegment mittels Lautheitsmessung erfasst. Die Messung erfolgt manuell während der Produktion, z. B. beim Soundcheck oder in der Nachbearbeitung. Auch die automatisierte Messung und Korrektur mit einem Serversystem ist möglich. Dabei greift ein Audio-Optimizer auf fertig produzierte Dateien zu, prüft sie und erstellt passende Metadaten, die in den Dateien, z. B. BWF, Dolby E, Dolby Digital, etc., verpackt werden. Der so gewonnene Dialogue-Normalisation-Value wird in den Metadaten verpackt und gemeinsam mit dem eigentlichen Stereo- oder Surroundton zum Kunden übertragen. Im Heimgerät werden die Informationen aus dem digitalen Datenstrom passend zum Endgerät ausgewertet und regeln dort automatisch die Wiedergabelautheit. Derzeit bieten nur Codierverfahren wie Dolby E für professionelle Anwendung, aber auch die Heimformate Dolby Digital, Dolby Digital Plus, Dolby Pulse und DTS diese Möglichkeit. Dolby Metadaten integrieren darüber hinaus auch Steuerdaten für das Downmixing von 5.1 auf 4.0 und 2.0 sowie eine vom DialNormValue abhängige Dynamic Range Control (DRC). Damit wird eine optimal ans Endgerät angepasste Wiedergabelautheit sichergestellt.
888
Filmtonformate und Wiedergabeverfahren
Abb. 15/9. Signalfluss von Audio- und Metadaten bei der Produktion mit Dolby E.
Während der Produktion wird idealerweise über das Multichannel-Audio-Tool abgehört (Abb. 15/9), mit dem die Metadaten auch erstellt oder editiert werden. Auf diese Weise können die Auswirkungen aller Metadaten in Echtzeit hörbar gemacht und etwaige Änderungen an der Lautheitssteuerung (Dialogue Normalisation), den Downmixing-Koeffizienten oder der Dynamic-Range-Control vorgenommen werden. Gleichzeitig besteht die Möglichkeit, während der Mischung die Auswirkungen der Metadaten, z. B. der Downmixing-Koeffizienten, zu kontrollieren. Die für die Produktion definierten Metadaten werden nach der Encodierung im Dolby E-Datenstrom oder über eine RS-485 Schnittstelle übertragen und an den Dolby Digital-Encoder im Sendeweg weiter gegeben. Von dort gelangt das Signal zum Empfänger. Die gleiche Methodik kommt auch bei der Produktion von Stereo- und Mehrkanal-Bitstreams für DVD und Blu-ray-Disc zum Einsatz.
15.8
Filmtonformate und Wiedergabeverfahren
Ausgehend vom Lichtton der 1920er Jahre entwickelten sich über die Jahrzehnte zahlreiche Filmtonverfahren. Entscheidend für ihr Überleben war nicht nur die Klangqualität und technische Perfektion, sondern vor allem ihre Effizienz. Für den Kinoton kommen heute fast ausschließlich analoge oder digitale Lichttonverfahren zum Einsatz. Eine Übersicht über die heute üblichen Filmtonverfahren findet sich in Tab. 15/3, die Spurlagen sind in Abb. 15.10 dargestellt.
889
Film- und Fernsehton Tab. 15/3. Codier- und Aufzeichnungsverfahren für Kinoton Verfahren Lichtton „Academy Mono“
Methode Doppel- Zackenschrift nach DIN 15503
Datenrate analog
Kanalformat Mono 1.0 Stereo 2.0
Dynamik > 50 dB
Anmerkung Bei 16, 35 und 70 mm möglich.
Lichtton Dolby Stereo A/SR
Doppel- Zackenschrift nach DIN 15503
analog
Stereo 2.0, Surround 4.0
Dolby Digital
AC-3
320 kBit/s (netto)
Stereo 2.0, Surround 5.1 und 6.1 Stereo 2.0, Surround 5.1 und 6.1
> 60/75 dB Bei 16, 35 und 70 mm möglich. Mit SurroundMatrizierung und Dolby A oder SR Rauschunterdrückung > 95 dB Nur bei 35 mm
Bei 35 und 70 mm möglich. Ton auf externen CDoder DVDLaufwerken SDDS ATRAC 1,411 MBit/s Surround 7.1 > 95 dB Wird vom Hersteller (Sony) seit 2005 nicht mehr unterstützt dci Digital Cinema PCM 18,4 MBit/s bei Bis 20 Kanäle > 110 dB Lineare PCM7.1 Codierung mit bis zu 24 Bit / 96 kHz 1) Bei digitaler, wahrnehmungsbasierter Codierung (Perceptual Coding) ist die Angabe der Dynamik und des Frequenzganges relativ und muß im Kontext des Datenreduktionsalgoritnhmus gesehen werden. Bei analogen Systemen handelt es sich um Kenngrößen, die von der Qualität der eingesetzten Geräte und von der korrekten Justage abhängig sind. DTS
15.8.1
apt
1.509 kBit/s
> 95 dB
Analoger und digitaler Lichtton
Sowohl beim analogen als auch digitalen Lichtton werden die Ton- bzw. Steuersignale fotografisch auf einem Filmstreifen aufgezeichnet. Für analogen Lichtton auf 35 mm Film wird heute die nach [DIN 15503] und [ISO 7343] genormte Doppelzacken-Schrift verwendet [15.10]. Bei Verwendung zweier Spuren kann Stereoton mittels der Zwei-DoppelzackenSchrift aufgezeichnet werden; sie bildet die Grundlage für den matrizierten Surroundton (s. auch Kap. 15.9.4). Zur Belichtung des Filmstreifens wird eine Lichttonkamera verwendet, mit der das Lichtton-Negativ erstellt wird. Je nach Verfahren wird dazu entweder ein genau fokussierter weißer Lichtstrahl oder ein Laserstrahl mit einer Strahlbreite von etwa 5 bis 7 :m verwendet. Der Licht- oder Laserstrahl wird durch elektromotorisch betriebene Spiegel, sog. Deflektoren, oder optoakustische Modulatoren im Rhythmus des Audiosignals moduliert. Auf dem S/W-Negativ entsteht der Ton dann in Form einer Zackenschrift. Diese optisch abgebildete Tonspur entspricht in ihrem Aussehen der Wellenform des Audiosignals, Dynamik und 890
Filmtonformate und Wiedergabeverfahren Pegel sind selbst mit freiem Auge gut zu erkennen (Abb. 15/10) Moderne analoge Lichttonsysteme erreichen beim Einsatz von Dolby Stereo SR einen Frequenzgang von etwa 20 - 16.000 Hz und eine Dynamik von etwa 75 dB. Dolby Stereo SR verwendet, ähnlich wie Dolby ProLogic im Heimbereich, matrizierten Surroundton (4.0), setzt zusätzlich jedoch die Dolby SR Rauschunterdrückung zur Verbesserung des Signal-Störabstandes ein.
Abb. 15/10. Tonverfahren und Spurlagen beim 35mm Film.
Moderne Lichttonkameras zeichnen in einem einzigen Arbeitsgang alle Tonformate auf, wie z. B. Stereo-Lichtton mit oder ohne Dolby SR als Doppelzackenschrift sowie Dolby Digital, DTS und SDDS in ihrer codierten Form. Die elektroakustischen Eigenschaften der digitalen Soundtracks hängen primär vom Codierverfahren ab (s.Tab. 15.3). Das Audiomaterial wird, fertig gemischt und gemastert, in codierter Form angeliefert und ohne weitere Tonbearbeitung aufbelichtet. Nach der Entwicklung wird das Tonnegativ zusammen mit dem Bildnegativ im gleichen Arbeitsgang kopiert. Ein Vorteil aller analogen oder digitalen optischen Filmtonverfahren ist, dass mit jeder Filmkopie auch alle Audioinformationen ohne Umwege mitkopiert werden. Eine Ausnahme bildet lediglich DTS. Nachdem sich auf dem Film nur eine Steuerspur befindet und die Audioinformationen auf CD-ROM oder DVD-ROM gespeichert sind, müssen die Tonträger zusätzlich kopiert werden. Fällt eines der digitalen Tonsysteme während der Wiedergabe aus, wird automatisch auf den Stereo-Lichtton mit Dolby Stereo SR als „Fallback“ umgeschaltet.
15.8.2
Magnetton
Die magnetische Aufzeichnung hat für die Filmtonwiedergabe nahezu jede Bedeutung verloren. Früher wurde beim Film die Magnetspur i. d. R. erst nach der Entwicklung auf die fertige Bildkopie aufgetragen bzw. aufgeklebt und anschließend bespielt. Wie bei allen Magnetbandverfahren ist auch beim Tonfilm mit Magnetspur die Vervielfältigung wesentlich aufwändiger, da viele Arbeitsschritte erforderlich sind. Ein Vorteil ist die gegenüber uncodiertem Lichtton deutlich bessere Wiedergabequalität. Die ersten Filme mit Mehrkanalton in den 891
Film- und Fernsehton 1950er Jahren, wie z. B. das Cinerama- und das Todd-AO-Verfahren, verwendeten ebenfalls Magnetton (s. Kap. 15.5.1). Die Kosten für die Filmkopien und die Wartung der Magnettonanlagen war jedoch erheblich teurer als bei optischen Verfahren. Sobald surroundfähige und hochwertige Lichttonverfahren zur Verfügung standen, war das Ende des Magnettons besiegelt.
15.8.3
dci - Digital Cinema Initiative
Das digitale Kino der Zukunft, heute benannt mit E-Cinema oder D-Cinema, wird weitgehend ohne datenreduzierten Ton auskommen. Bereits im Jahr 2005 wurde der Normungsvorschlag [SMPTE 428M] als Proposed Standard veröffentlicht. Es werden insgesamt bis zu 20 Wiedergabekanäle unterstützt, deren Konfiguration zu heutigen Standards von Mono bis 6.1-Mehrkanalton kompatibel ist. Enthalten sind Lautsprecher für Höheninformation (Top-Center Surround), für Informationen links und rechts außerhalb der Leinwand (Left-Wide, RightWide) sowie am oberen Bildrand (Vertical-Height Left, Vertical-Height Center, VerticalHeight Right). Die Aufzeichnung erfolgt mit 24 Bit und wahlweise 48 oder 96 kHz Samplingfrequenz. Ton und Bild sind mit hochentwickelten Verschlüsselungsverfahren sowie DigitalRights-Management (DRM) und Watermarking gegen Raubkopieren und nicht bestimmungsgemäßen Einsatz geschützt.
15.8.4
Wiedergabe in der Filmtonregie und im Kino
Die Produktion und Wiedergabe von Mehrkanalton für Kinoanwendungen unterscheidet sich deutlich von anderen Medien. Kinofilme werden gemäß [ANSI/SMPTE 202M] bzw. [ISO 2969] für Räume > 150 m³ mit definierten akustischen Eigenschaften gemischt. Die Lautsprecheranordnung folgt nicht dem Standard ITU-R BS.775-2, sondern ordnet die Lautsprecher entlang der vier Wände des Raumes an. Die Surroundlautsprecher sind bandbegrenzt, auf diffuse Abstrahlung optimiert sowie im Wiedergabepegel um 3 dB abgesenkt. Das führt zu einer Anhebung des elektrischen Surroundpegels während der Kinomischung. Filmmischungen müssen daher beim Transfer für TV oder Discmedien in ihrem Frequenzgang und dem Pegel der Surroundkanäle angepasst werden. Übereinstimmung mit dem 5.1 Abhörkreis nach ITU-R BS.775-2 gibt es beim LFE-Kanal. Er ist aufnahmeseitig im Monitoring um 10 dB angehoben, was zu einem niedrigeren elektrischen Pegel im LFE-Kanal führt. Wiedergabeseitig wird das in Form eines 10 dB In-Band-Gains im Bereich von 20 - 120 Hz ausgeglichen (s. Abb. 15/11). Bei den ersten Tonfilmen der 1920er Jahre befand sich der Lautsprecher in der Mitte hinter der Leinwand, dort wo sich auch heute der Centerkanal befindet. Dieser mittig angeordnete Lautsprecher wurde im Zuge der Einführung von 4-Kanal-Ton durch zwei weitere Lautsprecher links und rechts und durch einen rückwärtigen monophonen Surroundkanal ergänzt. Die Leinwand ist durch Perforation akustisch durchlässig; die durch die Leinwand und die Raumgröße verursachte Höhendämpfung wird durch die produktionsseitige Beachtung des Standards ANSI/SMPTE 202M und ISO/DIN 2969 (s. Abb. 15/12) ausgeglichen. Die X-Curve beschreibt einen Frequenzgang, der zwischen 63 Hz und 2 kHz linear verläuft, jedoch darüber und darunter um 3 dB/Oktave abfällt. Für Räume < 150 m³ gilt ein modifizierter Kurvenver892
Filmtonformate und Wiedergabeverfahren lauf; die Dämpfung beträgt oberhalb des linearen Bereichs lediglich 1,5 dB/Oktave. Im tieffrequenten Bereich bleibt die Kurve wahlweise linear oder wird ebenfalls um 1,5 dB/Oktave gesenkt. Bei der Mischung im Studio hört der Tonmeister nach dieser Kurve ab, erforderliche Korrekturen werden invers zur X-Curve durch eine geeignete Wiedergabeentzerrung am Mischpult vorgenommen.
Abb. 15/11. In-Band-Gain des LFE-Kanals.
Abb. 15/12. X-Curve: Wiedergabefrequenzgang für Filmton.
Nachdem im Kinosaal und in der Filmtonregie annähernd gleiche akustische Verhältnisse herrschen, vielfach auch unter Verwendung gleicher Lautsprechersysteme, wird im Idealfall 893
Film- und Fernsehton eine hohe Übereinstimmung des Klangeindrucks erreicht. Das von George Lucas im Jahr 1983 gegründete Unternehmen THX hat sich auf die Qualitätskontrolle und Zertifizierung von Regieräumen und Kinosälen spezialisiert und entsprechend strenge Standards ausgearbeitet. Für eine THX-Zertifizierung muss ein Kino oder ein Regieraum diese Standards einhalten, jährlich überprüfen lassen und auch alle Audiokomponenten von THX-geprüften Herstellern beziehen. THX ist kein Codierstandard und auch kein Wiedergabeverfahren, sondern, ähnlich wie früher DIN 45500 als Norm für den HiFi-Bereich, ein proprietärer Qualitätsstandard.
15.8.5
Wiedergabe im Kino - A-Chain, B-Chain
Im Kino kommen sowohl Stereolichtton mit 4:2:4-Matrizierung (Dolby Stereo SR) als auch digitale, diskrete Verfahren, wie beispielsweise Dolby Digital, DTS und SDDS zur Anwendung. Zur sogenannten A-Chain zählt die Abtastung der einzelnen analogen und/oder digitalen Tonspuren und die Decodierung dieser Signale mit systemeigenen Kino-Prozessoren. Für den analogen Lichtton kommt ein Stereo-Lichttonabtaster zum Einsatz, für die digitalen Streams werden CCD-Kameras zum Scannen der Tonspuren eingesetzt. Aufgrund der relativ hohen Kosten dieser Prozessoren bieten viele Kinosäle meist nur Dolby Stereo SR und eines der digitalen Verfahren an. Zur Vereinfachung des Wiedergabesystems verfügen die meisten digitalen Kinoprozessoren neben der Signalverarbeitung der A-Chain auch über eine Signalaufbereitung für die B-Chain. Zur B-Chain zählt die gesamte Übertragungskette vom Cinema-Processor über die Endstufen bis zu den Lautsprechern und zum Raum. Dazu gehören die Signalaufbereitung und die Frequenzgangentzerrung des elektroakustischen Systems mit parametrischen oder grafischen Entzerrern sowie eine genaue Laufzeitanpassung aller Wiedergabekanäle. Je nach wiederzugebendem Film und angewendeten Codierverfahren werden vom Kinoprozessor die Eingänge des Kinotonsystems angewählt, die Tonsignale decodiert und auf die erforderlichen Lautsprecher hinter der Leinwand und entlang der Begrenzungsflächen des Saals geroutet. Bei der seltenen Wiedergabe von Filmen mit Mono-Lichtton (1.0) wird beispielsweise nur der Dialog-Kanal im Center angesprochen. Die Wiedergabe stereophoner Filme (2.0, Lichton mit oder ohne Dolby Stereo SR) erfolgt über die Lautsprecher links und rechts vom Center hinter der Leinwand. Bei der Wiedergabe von matrizierten Filmen (4.0, Dolby Stereo SR) werden sowohl die Frontkanäle (L, C, R) als auch die Surround-Lautsprecher S aktiviert. Letztere sind parallel geschaltet und werden mit einem gemeinsamen MonoSignal versorgt. Erst bei der Wiedergabe von 5.1-Mehrkanalton kommen alle installierten Kanäle und Lautsprecher im Kino zum Einsatz. Die Surroundkanäle werden dazu in Stereo betrieben (LeftSurround, Right-Surround). Die Reihe der Surroundlautsprecher sollte etwa nach dem ersten Drittel, bezogen auf die Gesamtlänge des Kinosaals, beginnen. Bei 6.1 Mehrkanalton werden zusätzliche Lautsprecher für den Back Surround an der Rückwand des Kinos angebracht. Das SDDS-Verfahren bietet 7.1, wobei fünf Kanäle für die Front, zwei für die Surrounds und ein LFE-Kanal zur Verfügung stehen. Aufgrund seiner Kanalkonfiguration ist SDDS nur in Kinos mit sehr großen Leinwänden sinnvoll. Die Entwicklung und Produktion von SDDS-Komponenten wurde allerdings von Sony im Jahr 2005 eingestellt, kommt aber nach wie vor zur Anwendung. 894
Fernsehtonformate und Wiedergabeverfahren
Abb. 15/13. Lautsprecheranordnung in der Kinotonregie und im Kinosaal.
Der normierte Abhörpegel für Kinoton wurde seitens SMPTE, Dolby und anderer Empfehlungen mit 85 dB(C) um 6 dB höher als im Heimbereich angesetzt. Ausgehend vom Bezugspegel von -20 dBFS ist damit ein maximaler Schalldruckpegel von 105 dB(C) möglich [15.13]. In der Praxis wird die Einstellung des Wiedergabepegels nicht mit einem einzelnen Schallpegelmesser ermittelt sondern mit mehreren im Saal verteilten Mikrofonen auf Ohrhöhe, die über einen Signalmultiplexer mit einem Akustikmeßsystem verbunden sind. Die Surroundkanäle werden dabei um -3 dB leiser als die Frontkanäle eingestellt, um der gegengleichen Pegelanhebung während der Mischung zu entsprechen. Eine gleiche Meßanordnung wird auch für die Einmessung des Frequenzgangs eingesetzt. Wie auch beim mehrkanaligen Fernsehton wird der LFE-Kanal nicht mit Hilfe eines Schalldruckmessers kalibriert, sondern mit einem Real-Time-Analyzer mit Terzbandauflösung. Bei eingespieltem Rosa Rauschen sollte die Anzeige für den LFE in den Terzbändern zwischen 20 Hz und 120 Hz um 10 dB größer sein als im gleichen Frequenzbereich der FullrangeLautsprecher. Durch diesen In-Band-Gain ist der LFE-Kanal in der Lage, in etwa die gleiche akustische Energie abzugeben wie die Hauptlautsprecher. Die Bandbreite des LFE ist bei Dolby Digital mit einem Brickwall-Filter auf 120 Hz begrenzt, DTS überträgt den LFE nicht in einem eigenen Kanal sondern in den beiden Surroundkanälen und trennt ihn mit einer Frequenzweiche bei 80 Hz ab.
15.9
Fernsehtonformate und Wiedergabeverfahren
Der Begriff „Fernsehton“ darf nicht nur im Sinne typischer TV-Übertragungen verstanden werden. Als Überbegriff soll er auch für die Wiedergabe anderer Medien auf Fernsehgeräten 895
Film- und Fernsehton oder im Heimkino gelten, wie etwa DVD oder Blu-ray Disc, Videospiele sowie neuer Medien wie etwa IPTV oder Streaming Media. Mit der Einführung des matrizierten Surroundtons für analoge Übertragungswege sowie digitaler Übertragungssysteme für diskreten Mehrkanalton steht nun auch beim Fernsehen eine hochwertige Tonübertragung zur Verfügung. In den letzten Jahren hat sich dadurch ein deutlicher Trend weg vom gering geschätzten „Fernseh-Begleitton“ zu einer hochwertigeren Audioproduktion entwickelt.
15.9.1
Kanalformate und Wiedergabesysteme für Fernsehton
Bis in die frühen 1980er Jahre erfolgte die Tonübertragung beim Fernsehen ausschließlich in Mono, abgesehen von sog. Synchronausstrahlungen von Musiksendungen im Hörfunk und Fernsehen. Heute stehen jedoch zahlreiche analoge und digitale Übertragungssysteme hoher Qualität bereit, die unterschiedliche Kanalformate erlauben. Diskrete digitale Verfahren wie DTS und Dolby Digital bieten Kanalformate zwischen Mono (1.0), Stereo (2.0) und Surround (5.1), Dolby Digital Plus integriert zusätzlich zu 5.1 Surround sogar Audio Description in Stereo. Verfahren wie MPEG Surround und Dolby Pulse im HE-AAC-Format bieten Stereound 5.1 Surround bei kleinsten Datenraten von rund 96 kBit/s oder 128 kBit/s für mobile Anwendungen, beispielsweise DVB-H und IPTV. Die Wiedergabe von Surroundton beim Fernsehen und anderen audiovisuellen Heimmedien, wie DVD und Blu-Ray-Disc erfolgt nach ITU-R BS.775-2 im Abhörkreis (s. Kap. 5.4).
15.9.2
IRT-Zweitonverfahren (A2)
Im Jahr 1981 wurde das vom IRT entwickelte Zweitonverfahren vom ZDF eingeführt. Das Zweite Deutsche Fernsehen wurde damit zum ersten TV-Sender Europas mit Zweikanalton. Das Verfahren erlaubt die Übertragung von Mono-, Stereo- und Zweitonsendungen. Zweiton bedeutet, dass aufgrund der hohen Kanaltrennung zwei völlig unabhängige Audioinhalte, wie z. B. zwei unterschiedliche Sprachfassungen oder ein Mono-Filmton plus einer Audio-Description für sehbehinderte Mitmenschen, übertragen werden können. Mit der Fernbedienung kann der Kunde den gewünschten Ton am Empfänger anwählen. Die Übertragung erfolgt mit Hilfe eines zweiten, freqenzmodulierten Tonträgers, der um 242 kHz entfernt vom ersten Tonträger im HF-Spektrum untergebracht wird. Ähnlich wie beim UKW-Rundfunk wird auf dem ersten Tonträger eine Summe aus L + R übertragen, um zu monofonen Empfängern kompatibel zu sein. Auf dem zweiten Träger wird jedoch nicht das Differenzsignal L - R, sondern 2 x R übertragen. Hinzu kommen noch Steuertöne zur Umschaltung von Mono- auf Stereo- und Zweiton-Betrieb. Bei der Wiedergabe in Stereo erfolgt eine Decodierung zu L und R; in dieser Betriebsart kann auch matrizierter 4.0-Surroundton übertragen werden.
15.9.3
NICAM 728, NICAM Stereo
Einer der ersten im professionellen Umfeld eingesetzten Audio-Codecs war NICAM 728. Das von der englischen BBC ab 1983 entwickelte Near-Instantaneously-Companded-Audio896
Fernsehtonformate und Wiedergabeverfahren Multiplex-Verfahren wurde 1989 in Dienst gestellt und arbeitet mit einer für heutige Verhältnisse relativ geringen Codiereffizienz. Ausgehend von einer Quelldatenrate von 896 kBit/s, entsprechend zwei Audiokanäle mit je 32 kHz Abtastfrequenz und 14 Bit Auflösung, wird eine Audio-Datenrate von 704 kBit/s generiert, entsprechend einer Einsparung von lediglich zwanzig Prozent. Die Gesamtdatenrate einschließlich Fehlerkorrektur und Zusatzdaten beträgt 728 kBit/s. Ein wesentlicher Vorteil des Verfahrens ist jedoch die geringe Coding-Latenz von 1 ms, daher der Begriff Near Instantaneously. Um zu bestehenden Empfangsgeräten kompatibel zu bleiben, wird NICAM auf einem zusätzlichen HF-Träger neben dem FM-modulierten, analogen Mono-Audiosignal übertragen. NICAM ist nach [ETS EN 300 163] standardisiert. Es erlaubt die Übertragung von Stereoton und bietet eine Audiobandbreite von 15 kHz; matrizierter 4.0-Surroundton kann übertragen werden.
15.9.4
Matrizierter Surroundton
Sobald zwei getrennte, zueinander möglichst phasenstarre Audiokanäle vorhanden sind, kann matrizierter Surroundton übertragen werden. Aufnahmeseitig erfolgt die Matrizierung der vier Audiokanäle L, C, R und S in einem Surround-Encoder (Abb. 15/14). Der Centerkanal wird um 3 dB gedämpft und ohne weitere Bearbeitung gleichphasig auf den linken und rechten Kanal gelegt. Der Surroundkanal S wird im Encoder zunächst um 3 dB gedämpft, dann auf 150 - 7.000 Hz bandbegrenzt, anschließend im Dolby B-Encoder bearbeitet und in Folge um + 90/ phasengedreht und zum rechten Kanal geführt. Das Signal für den linken Kanal wird um weitere 180/ invertiert. Die Ausgangssignale des Encoders werden als Lt und Rt (Left-total, Right-total) bezeichnet. Die Decodierung des Surroundkanals erfolgt in einer Matrix durch gegenphasige Summierung des Lt- und Rt-Signals, wodurch sich ein Differenzsignal S bildet. Der Centerkanal C entsteht durch gleichphasige Summierung aus Lt und Rt. Im Gegensatz zum 3.0-Dolby Surround Verfahren, das eine passive Decodermatrix verwendet, kommt im ProLogic-Verfahren eine aktive, adaptive Matrix mit VCA-Steuerelementen zum Einsatz. Sie enthält Mechanismen zur Erkennung dominanter Signale in den einzelnen Kanälen und zur Dämpfung aller anderen Kanäle, die dieses Signal nicht enthalten. Um unerwünschte Matrix-Effekte zu vermeiden, durchläuft das monaurale S-Signal nach der adaptiven Matrix zunächst ein Anti-AliasingFilter, dann ein einstellbares Delay, einen 7 kHz Tiefpass und schließlich den Decoder eines Dolby B-Rauschunterdrückungssystems. Das Delay hat die Aufgabe, den Surroundkanal je nach Raumgröße und Abstand des Hörers zu den Surround-Lautsprechern um etwa 15 ms zu verzögern. Durch den Präzedenzeffekt orientiert sich der Zuhörer an der ersten Wellenfront, in diesem Fall gebildet aus den Lautsprechersignalen L, C, R, wodurch ein Übersprechen im Surroundkanal gehörmäßig weniger in Erscheinung tritt. Die Bandbegrenzung der Surroundkanäle auf 150 - 7000 Hz und die Störsignalunterdrückung mit Dolby B verbessern die Kanaltrennung weiter. Dolby Surround (3.0) und Dolby ProLogic (4.0) eignen sich nur bedingt für die Musikproduktion. Wie bereits bei Dolby Stereo und Dolby Stereo SR im Kinobereich muss jede Mischung idealerweise über die Encoder-Decoder-Kette abgehört werden, um zufriedenstellende 897
Film- und Fernsehton Ergebnisse zu garantieren. Da jede 4:2:4-Codierung auf der Auswertung von Phasenunterschieden beruht, ist es mit Hilfe eines Surround-Decoders möglich, auch rein stereofonen Quellen entsprechende Raumanteile, sog. „Magic Surround“, zu entlocken da praktisch jedes Audiosignal auch gegenphasigen Anteile enthält. [15.11].
Abb. 15/14. Prinzip der Surround-Matrizierung.
Neuere Verfahren, wie z. B. Dolby ProLogic II und Circle Surround von SRS erlauben nicht nur eine wesentlich präzisere Codierung und Decodierung von 4:2:4-Signalen, sondern auch die Übertragung von 5.1-Mehrkanalton in Form einer 5:2:5-Matrizierung. Aufgrund verbesserter Phasenstabilität, Frequenzbandbreite und Kanaltrennung eignen sich diese Verfahren auch für Musikproduktion. Bei der Übertragung phasenmatrizierter Signale kommt der Phasenstabilität der Übertragungswege große Bedeutung zu. Auch starke Datenreduktion kann zu Phasenfehlern führen, die ungewollte Artefakte im Surroundsignal ergeben. ProLogic IIx unterscheidet sich hinsichtlich des Decoders von ProLogic II durch zwei zusätzliche Kanäle, wodurch die Schaffung von virtuellem 7.1 aus stereofonen sowie 4:2:4- und 5:2:5-codierten Quellen möglich wird. Andere Verfahren, wie z. B. Neo:6 von DTS, Logic 7 von Lexicon und das bereits erwähnte Circle Surround von SRS bieten ähnliche Eigenschaften. Um diese Eigenschaften auch nützen zu können, muss die Übertragung und Speicherung von matrizierten Audiosignalen möglichst phasenstabil erfolgen. Dafür eignen sich VHSVideorecorder mit analogem, FM-moduliertem Hifi-Ton ebenso wie digitale Medien (CD, DVD), aber auch digitale Fernsehübertragungen mit Audiodatenraten von mehr als 192 kBit/s bei ISO-MPEG Layer II.
15.9.5
Digitale Fernsehtonverfahren für Stereo- und Surroundton
Die Einführung digitaler Fernsehübertragung ermöglicht auch neue digitale Tonverfahren, die statt matriziertem Surround diskrete Mehrkanal-Stereophonie erlauben. Während in den USA innerhalb des ATSC-Systems Dolby Digital für Stereo- und Mehrkanalton zur Anwendung festgelegt ist, kommen innerhalb des DVB-Standards unterschiedliche Verfahren zum Einsatz. Für den Stereoton verwenden die meisten DVB-Sender ISO-MPEG Layer II mit Datenraten zwischen 128 und 256 kBit/s. Soll auch Surroundton übertragen werden, wird Dolby Digital mit einer Datenrate von 384 oder 448 kBit/s meist parallel zum MPEG-Ton gesendet. Dieser Simulcast-Betrieb führt zu einer nicht unerheblichen Verschwendung an Datenrate, die man nutzbringender für höhere Tonqualität in einem gemeinsamen Audiostream mit integrierten 5.1+2.0-Mehrkanalaudio einsetzen könnte. 898
Fernsehtonformate und Wiedergabeverfahren Moderne Codierverfahren wie MPEG Surround, Dolby Digital, Dolby Digital Plus oder Dolby Pulse mit HE-AAC eignen sich zur gleichzeitigen, intergrierten Übertragung von Stereo- und Mehrkanalton. Während MPEG Surround an sich bereits einen Downmix darstellt, der erst wiedergabeseitig durch zusätzliche Steuerkomponenten auf 5.1 erweitert wird, auch als Spatial Audio Coding bekannt (SAC), integrieren die Dolby-Verfahren sogenannte Downmix-Koeffizienten. Sie werden vom Toningenieur entsprechend den inhaltlichen Anforderungen in den Dolby Metadaten gesetzt und erlauben auch bei 5.1-Übertragung eine korrekte Stereowiedergabe. Dolby Digital Plus enthält darüber hinaus einen zweiten Bitstream, der für unabhängigen Stereoton oder gleichzeitige Audio-Description eingesetzt werden kann. In Tab. 15/4 sind die derzeit gängigen Codier- und Übertragungsverfahren mit ihren typischen Merkmalen aufgelistet. Eine nähere Beschreibung dieser digitalen Verfahren findet sich auch in Kap. 12.4.6.
15.9.6
Stereo- und Mehrkanalübertragung für professionelle Anwendungen
Zur Übertragung von Stereo- und Mehrkanalton innerhalb professioneller Infrastrukturen kommt nach Möglichkeit lineare, nicht datenreduzierte Übertragung mit PCM zur Anwendung. Für Stereoton mit gleichzeitigem 5.1 Surround werden acht Kanäle benötigt. Typische Übertragungsstrecken bieten jedoch gerade einmal zwei Kanäle, Videomaschinen üblicher Weise vier Spuren. Zur Übertragung von einem Ü-Wagen ins Studio oder zur Aufzeichnung und Programmabwicklung via Band oder Server kommt daher Dolby E zum Einsatz. Es erlaubt die Übertragung von bis zu 8 Audiokanälen plus Metadaten über zweikanalige Verbindungen nach AES/EBU sowie die Aufzeichnung auf bittransparenten, zweikanaligen Medien wie z. B. MAZ, Server oder Workstations. Bei 16 Bit Wortbreite des Aufzeichnungs- oder Übertragungsmediums können 6 Kanäle übertragen werden, bei 20 oder 24 Bit sogar 8 Kanäle. Damit können erhebliche Einsparungen an Datenrate und Speicherplatz erzielt werden, ohne die klangliche Qualität zu kompromittieren.
Abb. 15/15. Timing von Dolby E-Frames und PAL-Video.
899
Film- und Fernsehton Aufgrund seiner Robustheit übersteht Dolby E bis zu 13 Codierzyklen ohne hörbare Artefakte. Voraussetzung für die einwandfreie Funktion von Dolby E ist die Bittransparenz der Medien sowie der korrekte Umgang mit Signaltiming und Metadaten. Die Codierlatenz ist encoderund decoderseitig auf 40 ms (1 PAL-Frame) festgelegt, was erforderlichenfalls leicht durch Video-Framestores korrigiert werden kann. Das Timing von Dolby E ist synchron zu Video, s. Abb. 15/15. Tab. 15/4 Codier- und Übertragungsverfahren für Fernsehton und Discmedien Verfahren
Zweiton A2
NICAM Stereo
ISO-MPEG-1 Layer II
Dolby E
Dolby Digital
Dolby Digital Plus
900
Codierung
Analog, frequenzmoduliert (FM), 2 Audioträger
Typische Datenrate für 5.1 Surround Analog
Mögliche Kanalformate Mono, Zweiton, Stereo. Bei Stereo ist 4.0 (matriziert) möglich Mono, Zweiton, Stereo. Bei Stereo ist 4.0 (matriziert) möglich
Digital, datenreduziert, 2 Audioträger (1 x digital, 1 x analoges Mono-Signal, FM moduliert) Digital, datenreduziert
Stereo mit 728 kBit/s.
Stereo mit 192 oder 256 kBit/s
Mono, Zweiton, Stereo. Bei Stereo ist 4.0 (matriziert) möglich
Digital, datenreduziert
1.536 kBit/s
Maximal 8 unabhängige „Programs“, z. B. 4 x Stereo, 1 x 5.1 Surround + 2.0 Stereo, 8 x Mono, etc.
Digital, datenreduziert, AC-3
384 oder 448 kBit/s
Digital, datenreduziert, weit skalierbar.
256 kBit/s, jedoch skalierbar auf bis 6.144 kBit/s
Dynamik, Frequenzgang (Richtwerte) 1) ~ 65 dB,
Anmerkung
Analoges TV
40 - 15.000 Hz ~ 70 dB,
Analoges TV
40 - 15.000 Hz
> 90 dB, 20 - 20.000 Hz, abhängig von Implementierung > 105 dB, 20 - 20.300 Hz
Mono, Stereo 2.0, 4.0, 5.0, 5.1 und 6.1 Surround (Dolby Digital EX)
> 90 dB,
Mono, Stereo 2.0, 5.1 bis 7.1 Surround. Audio Description in Stereo als Substream. In Zukunft bis 13.1 erweiterbar
> 90 dB,
20 - 20.000 Hz
20 - 20.000 Hz
Digitales TV (DVB), Hörfunk (DAB), VCD, SVCD, DVD. Produktion, Programmaustausch. FrameTiming wie Video (PAL 40 ms). Metadaten zur Lautheitssteuerung (DialNorm, DRC), Downmixing, etc. Digitales TV (DVB, ATSC, IPTV), Laserdisc, DVD, Blu-ray-Disc, Spielkonsolen. Metadaten zur Lautheitssteuerung (DialNorm, DRC), Down-mixing, etc. Digitales TV, IPTV, Blu-rayDisc. Metadaten zur Lautheitssteuerung (DialNorm, DRC), Downmixing, etc.
Fernsehtonformate und Wiedergabeverfahren Dolby Pulse
Verfahren
Dolby True HD
Digital , stark datenreduziert, HE-AAC
Codierung
Digital, verlustlose Datenkompression (MLP)
160 kBit/s
Typische Datenrate für 5.1 Surround ~ 6 MBit/s, jedoch skalierbar auf bis ~ 18 MBit/s
Mono, Stereo 2.0, 5.1 Surround.
Mögliche Kanalformate Mono, Stereo, 5.1 bis 20.0
> 90 dB, 20 - 20.000 Hz
Dynamik, Frequenzgang (Richtwerte) 1) > 105 dB,
Digitales TV, IPTV, DVB-H. Metadaten zur Lautheitssteuerung (DialNorm, DRC), Downmixing, etc. Anmerkung
Blu-ray-Disc. Sampling20 - 20.300 Hz frequenzen bis zu 96 kHz, Wortbreite 24 Bit. Metadaten. DVD, Blu-rayDTS und Digital, datenredu754 oder Mono, Stereo, 5.0, > 95 dB, DTS 24/96 ziert. Apt-Codec 1.509 kBit/s 5.1, 6.1 Disc. Metada20 - 20.000 Hz ten zur Lautheitssteuerung. Als DTS 24/96 Samplingfrequenzen bis zu 96 kHz, Wortbreite 24 Bit. DTS-HD Digital, datenredu~ 3 MBit/s, 1.0, 2.0, 5.0 und > 105 dB, DVD, Blu-rayziert. skalierbar bis 5.1bis 7.1 Disc. MetadaHigh 20 - 20.300 Hz ~ 6 MBit/s ten zur LautResolution heitssteuerung. Audio Samplingfrequenzen bis zu 96 kHz, Wortbreite 24 Bit. DTS-HD Digital, verlustlose ~ 6 MBit/s, 1.0, 2.0, Surround > 105 dB, DVD, Blu-rayMaster Audio Datenkompression skalierbar bis 5,0 und 5.1, 6.1, 7.1 Disc. Metada20 - 20.300 Hz ~ 24,5 MBit/s bis 20.0 ten zur Lautheitssteuerung. Samplingfrequenzen bis zu 96 kHz, Wortbreite 24 Bit. MPEG Digital, stark daten- Surround mit Mono, Stereo 2.0, > 90 dB, Digitales TV, Surround reduziert (AAC), > 96 oder Surround 5.1 IPTV, DVB-H. 20 - 20.000 Hz Spatial Audio Co128 kBit/s. SAC als Downding (SAC) mix. 1) Bei digitaler, wahrnehmungsbasierter Codierung (Perceptual Coding) ist die Angabe der Dynamik und des Frequenzganges relativ und muß im Kontext des Datenreduktionsalgoritnhmus gesehen werden. Bei analogen Systemen handelt es sich um Kenngrößen, die von der Qualität der eingesetzten Geräte und vom Übertragungsweg beeinflußt werden.
Von Dolby E werden die Bildwechselfrequenzen 23,98 B/s, 24 B/s (D-Cinema, Slow-PAL), 25 B/s (PAL) sowie 29,97 B/s (NTSC Farbe) und 30 B/s (NTSC S/W) unterstützt, wobei als Videoreferenz in jedem Fall Bi-Level-Sync (Black Burst) benötigt wird. Tri-Level-Sync muss entsprechend konvertiert werden. Basierend auf dem Videotakt passt Dolby E das Timing seiner Audioframes exakt der Länge der Videoframes an, genau 40 ms bei PAL. Durch sein 901
Film- und Fernsehton videobezogenes Timing kann Dolby E an den Frame-Grenzen geschnitten oder geschaltet werden, ohne dass Tonstörungen auftreten. Im Gegensatz zu Dolby E beträgt z. B. die Framelänge des Ausstrahlungsformats Dolby Digital 32 ms, ein videobezogenes Schneiden oder schalten ist hier unmöglich (s. Kap. 15.6.6).
Abb. 15/16. Unterschiedliche Sync-Zonen und deren Synchronisierung mit Frame-Synchronizer.
Große Vorsicht ist geboten, wenn Dolby E-Signale über unterschiedliche Zonen hinweg übertragen werden, die zwar sehr genaue, jedoch leicht unterschiedliche Takte aufweisen. Dies ist immer dann der Fall, wenn verschiedene Produktions- und Übertragungsbereiche nicht vom gleichen Master-Taktsignal versorgt werden können, wie z. B. ein weit entfernter Ü-Wagen und das stationäre TV-Studio, das das Signal weiter verarbeiten soll. Selbst eine gemeinsame Referenzierung auf GPS-Satellit oder DCF77-Uhr hilft hier wenig. Im Falle von PCM-Audio haben diese unterschiedlichen Sync-Zonen keinen störenden Einfluss, da Abtastratenwandler bzw. plesiochrone Wandler eine Anpassung des PCM-Signals an die unterschiedlichen Taktfrequenzen ermöglichen. Bei der Nutzung von Dolby E können jedoch keine Sample-Rate-Converter benutzt werden, da Bittransparenz vorausgesetzt wird. Daher muss für die Anpassung an unterschiedliche lokale Takte ein passender Frame-Synchroniser verwendet werden (s. Abb. 15/16). Ohne Re-Synchronisierung auf den lokalen Takt können deutlich hörbare Clicks entstehen, die durch beschädigte Dolby E-Frames verursacht werden. Zur Re-Synchronisierung eignen sich übliche, digitale Video-Framestore. Voraussetzung dafür ist, dass das Dolby-E-Signal zu Beginn der Übertragungskette in einen SDI- oder HDSDI-Datenstrom verpackt wurde. Damit sind Video, PCM-Stereoton und Dolby E dauerhaft synchron und können von üblichen Video-Framestores verarbeitet und auf den lokalen Takt 902
Spezifische Audio-Schnittstellen in Videosystemen gezogen werden. Die Anpassung an den lokalen Takt erfolgt über sog. Frame-Drops oder Frame-Repeats, d. h. bei zu hohem Eingangstakt werden einzelne Frames weg gelassen, bei zu niedrigem Eingangstakt werden einzelne Frames wiederholt. Aufgrund der Sync-Information in den Dolby E-Frames erkennt der Dolby E-Decoder, dass einzelne Frames fehlen oder doppelt vorhanden sind und führt an den Frame-Grenzen Kreuzblenden von 5 ms durch, um eventuelle hörbare Pegelsprünge zwischen den Frames auszugleichen.
15.10 Spezifische Audio-Schnittstellen in Videosystemen Neben den üblichen analogen und digitalen Audioschnittstellen (s. Kap. 11.5) bieten Videogeräte eine Reihe spezifischer Interfaces, die zur integrierten Bild- und Tonübertragung genutzt werden können. Hinzu kommen Schnittstellen zur Maschinensteuerung, die sowohl von Audio- als auch Videosystemen beherrscht werden müssen. Abb. 15/17 zeigt ein typisches Anschlussfeld.
15.10.1 SDI und HD-SDI Das serielle digitale Interface (SDI) wird in der professionellen Videotechnik eingesetzt und ist nach [SMPTE-259M] standardisiert. Es erlaubt die Übertragung von nicht datenreduzierten Videosignalen, einer Vielzahl von Kontroll- und Steuerinformationen sowie bis zu 16 Audiokanälen über ein koaxiales Kabel. Die Gesamt-Datenrate beträgt bei PAL-Signalen 270 MBit/s (Bildformat 4:3 und 16:9 Letterbox), die maximale Leitungslänge, bis zu der Videosignale störungsfrei übertragen werden können, beträgt etwa 250 bis 300 m. Das SDI- und HD-SDIInterface verwendet videotypische Koaxialleitungen mit 75 Ohm Wellenwiderstand (RG-59). Bei hochauflösenden Videosignalen mit 720 oder 1080 Zeilen und Halb- oder Vollbildübertragung (Interlaced oder Progressive Scan) kommt HD-SDI nach SMPTE 292M zum Einsatz. Hier beträgt die Datenrate unabhängig von der gewählten Auflösung immer 1.485 GBit/s, bei 4:2:2 Sampling. Für höhere Qualität mit 4:4:4 Sampling und RGB kann HD-SDI über ein Single-Link-Kabel mit 2.970 GBit/s oder als Dual Link mit zwei Koaxialleitungen und je 1.485 GBit/s übertragen werden. Die maximale Leitungslänge reduziert sich bei HD-SDI auf etwa 50 bis 70 m. Obwohl HD-SDI für den Ton prinzipiell die gleichen Möglichkeiten wie SDI bietet, stellt die standardmäßig größere Wortbreite und stabile Phasenlage der einzelnen Gruppen zueinander einen nennenswerten Vorteil dar. Bei SDI und HD-SDI wird der Ton als Embedded Audio in den Ancillary Data der horizontalen Austastlücke des Bildes übertragen. Er ist somit fix und zeitstarr mit dem Bild verkoppelt. Im Mindestfall können synchrone Audiosamples mit 20 Bit Wortbreite und 48 kHz Abtastfrequenz in insgesamt vier wählbaren Gruppen mit je vier Audiokanälen übertragen werden. Diese Audio-Data-Packets können, um auch Audio mit 24 Bit Wortbreite zu transportieren, durch Extended-Data-Packets erweitert werden (Abb. 15/18). Bei HD-SDI ist die AudioWortbreite standardmäßig auf 24 Bit erweitert [15.14].
903
Film- und Fernsehton
Abb. 15/17. Anschlussfeld einer professionellen Videomaschine.
Legende: A Analoge Audioeingänge für 4 Kanäle; symmetrisch, mit wählbarer Eingangsempfindlichkeit und Abschlußimpedanz (XLR). B Analoge Audioausgänge für 4 Kanäle; symmetrisch (XLR). C Analoger Monitor-Ausgang; symmetrisch (XLR); Lautsstärkesteller und Signalwähler an der Frontplatte. D Timecode (LTC) Aus- und Eingang; symmetrisch (XLR). E Cue Eingang; symmetrisch, mit wählbarer Eingangsempfindlichkeit und Abschlußimpedanz (XLR); Aufzeichnung üblich auf Longitudinal-Spur. F Cue-Ausgang; symmetrisch (XLR); Wiedergabe üblich von Longitudinal-Spur. G Referenzeingang für Videotakt (BNC, 75 Ohm); verwendbar mit SD (B&B, Bi-Level-Sync) und HD (Tri-Level-Sync); schaltbarer Abschlußwiderstand 75 Ohm (wenn Durchschliff nicht verwendet wird). H Analoge Video-Ausgänge als FBAS (Composite) und als Komponentensignale (BNC, 75 S); auf der mit „SUPER“ gekennzeichneten Buchse werden der Timecode und das Funktionsmenü ins Bild eingeblendet. I Digitale Audioeingänge für 4 Kanäle und digitale Audioausgänge für 8 Kanäle auf AES3-id (BNC, 75 S); über diese AES/EBU-Verbindungen kann auch Dolby E verarbeitet werden. J Maschinensteuerung über RS-422 (SUB-D), Sony 9-Pin Protokoll; links und darüber andere Arten von proprietären Steuerinterfaces. K Digitale HD-Videoeingänge und Ausgänge über HD-SDI (BNC, 75 S). Auf der mit „SUPER“ gekennzeichneten Buchse werden der Timecode und das Funktionsmenü ins Bild eingeblendet. L Digitale SD Videoausgänge über SDI (BNC, 75 S). Auf der mit „SUPER“ gekennzeichneten Buchse werden der Timecode und das Funktionsmenü ins Bild eingeblendet. M OPTION (Eingang und Ausgänge). N Netzanschluß mit Kaltgerätestecker.
904
Spezifische Audio-Schnittstellen in Videosystemen Sowohl bei SD als auch bei HD werden sämtliche Informationen aus der AES3-Schnittstelle lückenlos übernommen und bittransparent übertragen. Daher können auch datenreduzierte Mehrkanal-Bitstreams, wie etwa Dolby Digital oder Dolby E, über SDI und HD-SDI transportiert werden. Um Audiosignale in einen SDI-Stream einzufügen und wieder zu entpacken, werden sogenannte Embedder und De-Embedder benötigt. Der SDI-Datenstrom wird dazu durch Demultiplexing in seine Einzelteile zerlegt, die Audio-Informationen an der entsprechenden Stelle eingefügt oder entfernt und anschließend in einem Multiplexer wieder zusammengefügt. Fast alle professionellen Videorekorder verfügen über eingebaute Embedder und Deembedder.
Abb. 15/18. AES/EBU embedded in SDI.
15.10.2 SDTI – Serial Digital Transport Interface Das Serial-Digital-Transport-Interface nach [SMPTE 305M] erweitert die Fähigkeiten der SDI-Schnittstelle um zwei wesentliche Eigenschaften. Es erlaubt die Übertragung nativer, datenreduzierter Audio- und Videodaten, ohne diese vorher in ein bestimmtes Format konvertieren zu müssen. D. h. es kann verlustfrei vom Aufzeichnungsformat in ein Schnittsystem kopiert werden, ohne den Umweg über ein Schnittstellenformat wie SDI mit 10 Bit und 4:2:2 Sampling gehen zu müssen. Voraussetzung ist, dass das Schnittsystem das native Format des Camcorders oder Recorders unterstützt. Gleichzeitig können die Daten in mehrfacher Echtzeit übertragen werden. Für Audio stehen prinzipiell die gleichen Möglichkeiten wie bei SDI bereit. 905
Film- und Fernsehton
15.10.3 RS-422 und Sony 9-Pin Die Steuerung von Zuspiel- und Aufnahmemaschinen erfolgt bei linearen und nonlinearen Schnittsystemen meist über eine spezielle Variante der RS-422 Schnittstelle [ANSI/TIA/EIA422-B]. Auch viele Audiogeräte unterstützen mittlerweile diesen Standard. Wähernd RS-422 die elektrischen Eigenschaften dieser symmetrischen Schnittstelle definiert, kommt als Übertragungsprotokoll das Sony 9-Pin Protokoll zum Einsatz, unter Verwendung einer 9poligen Sub-D-Buchse. Die Übertragung erfolgt meist mit 38,4 kBit/s. Mehr als 140 Befehle und Informationen können bidirektional übertragen werden, von der einfachen Start- und Stopp-Funktion bis hin zur Timecode-Position nach LTC oder VITC sowie Statusinformationen der Geräte, In- und Out-Punkte beim Schnitt u. v. m. Bei Audiomischpulten kann über diese Schnittstelle unter anderem Audio-Follows-Video (AFV) realisiert werden. Das Tonpult folgt dabei automatisch den Überblend-Befehlen des Videomischers.
15.10.4 Mehrkanalton über Zweikanalschnittstellen Alle üblichen digitalen Audioschnittstellen für Stereoton arbeiten nach sehr ähnlichen Verfahren. In einem meist 32-Bit großen Rahmen finden sich Steuerinformationen, wie etwa die Präambel und die VUCP-Bits der AES3-Schnittstelle, sowie 24 Bit Audiodaten (AudioNutzlast oder Payload). Die Audioübertragung erfolgt dabei bittransparent, d. h. ohne Veränderung der Bitstruktur oder des Datenformats des Nutzsignals. Im Fehlerfall wird keine Korrektur durchgeführt. Diese Schnittstellen können daher auch zur Übertragung von NonAudio, also codiertem Audio oder Mehrkanalton verwendet werden. Hersteller wie Dolby oder DTS nützen die Bittransparenz der Interfaces, um an Stelle von zwei PCM-Audiokanälen bis zu acht datenreduzierte Audiokanäle zu übertragen. Die Nettodatenrate eines Datenstroms für Dolby Digital 5.1 beträgt meist 384 oder 448 kBit/s, DTS benötigt für die gleiche Kanalzahl wahlweise 754 oder 1509 kBit/s. Selbst Dolby E überträgt bis zu acht diskrete Audiokanäle über eine AES3-Schnittstelle mit 20 Bit Auflösung und 48 kHz Samplingfrequenz, was einer maximalen Netto-Datenrate von 1.920 kBit/s entspricht. Entsprechende Empfehlungen zur Schnittstellen-Implementierung und Anwendung finden sich in [IEC 61937, DIN EN 61937]. Die Übertragung von Mehrkanalton über zweikanalige Schnittstellen stellt die vorhandene Infrastruktur eines Broadcasters auf die Probe. Unsauberkeiten im Signalweg, wie stark jitterbehaftete Audioverbindungen und falsche oder keine Taktsynchronisation, führen weitaus öfter zu Problemen als bei normalem PCM-Stereo. Hintergrund ist, dass bei nicht datenreduzierter Übertragung meist Abtastratenwandler für die Beseitigung aller Taktschwierigkeiten sorgen. Diese dürfen aber aufgrund mangelnder Bittransparenz bei Mehrkanalton nicht verwendet werden. Bei der Aufzeichnung auf digitalen Videomaschinen muss sichergestellt sein, dass für die beiden Spuren sowohl die Fehlerkorrektur, als auch ein eventueller Crossfade-Modus im Schnittbetrieb deaktiviert wird. Zur Prüfung der Eigenschaften von Übertragungswegen und Aufzeichnungsmedien eignen sich übliche Schnittstellenanalyzer sowie spezialisierte Prüfeinrichtungen, wie z. B. NTI-Audio DR2 mit automatisiertem Transparency Check oder Dolby DM100.
906
Spezifische Audio-Schnittstellen in Videosystemen
Normen, Richtlinien [ANSI/SMPTE 202M-1998]
Motion-Pictures – Dubbing Theaters, Review Rooms and Indoor Theaters – B-Chain Electroacoustic Response
[ANSI/TIA/EIA-422-B]
(früher RS-422, auch ITU-T Recommendation V.11), Electrical Characteristics of Balanced Voltage Digital Interface Circuits, 1994
[BS 6840-17:1991-04-30]
Sound system equipment - Methods for specifying and measuring the characteristics of standard volume indicators (VU Meters)
[DIN 15503, Ausgabe 1985-01] Film 35 mm; Lichttonaufzeichnung; Spurlagen und Spaltbild [DIN 15971-10, 1986-05]
Film-Codierung; 80-Bit-Zeit- und Steuercode auf Magnetfilm 16 mm und Magnetfilm 17,5 mm
[EBU Tech 3311]
EBU Guidelines for Multichannel Audio in DVB
[EBU Tech. 3097]
EBU Time-And-Control Code for Television Tape-Recordings
[ETS EN 300 163]
Television systems; NICAM 728: transmission of two-channel digital sound with terrestrial television systems B, G, H, I, K1 and L
[IEC 268-17, 1990]
Sound system equipment, Standard volume indicators
[IEC 61672-1 Ed.01.0 2002]
Electroacoustics - Sound level meters - Part 1: Specifications (ersetzt: IEC 60804)
[IEC 61937-5 (2006-01)]
Interface for non-linear PCM encoded audio bitstreams applying IEC 60958
[ISO 7343, Ausgabe]
1993-05, Kinematographie; Zweispurige Lichttonaufzeichnung auf Filmkopien 35 mm
[ISO 2969]
1987. Cinematography - B-chain electro-acoustic response of motion-picture control rooms and indoor theatres - Specifications and measurements.
[ITU-R BS.775-2]
Multichannel stereophonic sound system with and without accompanying picture
[ITU-R BT.1359-1]
Relative Timing of Sound and Vision for Broadcasting
[ITU-R BS.1770]
Algorithms to measure audio programme loudness and truepeak audio level
[SMPTE 259M]
Digital Control Interfaces, Mapping and Interconnects, 2007
[SMPTE 292M]
Digital Control Interfaces, Mapping and Interconnects, 2007
907
Film- und Fernsehton [SMPTE 377M]
Material Exchange Format (MXF) File Format Specification, 2007
[SMPTE 428M - 2005]
(ersetzt RP 226). D-Cinema Distribution Master, Audio Channel Mapping and Channel Labeling, 2005
Literatur [15.1]
S. Weinzierl: Handbuch der professionellen Audiotechnik, Springer-Verlag, 2008
[15.2]
U. Schmidt: Professionelle Videotechnik, Springer-Verlag, 2003
[15.3]
H. Lehmann, F. Gierlinger: Audio/Video-Delay – ein unlösbares Problem? FKT, 10/2006
[15.4]
Technische Richtlinien zur Herstellung von Fernsehproduktionen, ProSiebenSat1 Produktion GmbH., Dezember 2007
[15.5]
J. Monaco: Film verstehen, Rowohlt Taschenbuchverlag, 1995
[15.6]
K.M. Slavik: Sounddesign - Vom Klang der Stille, media biz, April 2005
[15.7]
H. Schleicher, A. Urban: Filme machen, Verlag Zweitausendeins, 2005
[15.8]
Rycote Windshielding Devices: Figures for Windnoise Reduction, Rycote, 2000
[15.9]
F. Rumsey: Spatial Audio, Focal Press, 2005
[15.10]
J. Webers: Tonstudiotechnik, Franzis-Verlag, 1989
[15.11]
J. Hilson, D. Gray, M. DiCosimo: Dolby Surround Mixing Manual (Issue 2), Dolby, 2005
[15.12]
T. Lund: Loudness and Distortion in Digital Broadcasting, EBU Technical Review, April 2007
[15.13]
I. Allen: Are Movies Too Loud?, Dolby/SMPTE Film Conference, 1997
[15.14]
F. Rumsey, J. Watkinson: Digital Interface Handbook, Focal Press, 2004
908
16
Digitale Betriebstechnik
16.1
Zentrale Einrichtungen
Unter den zentralen Einrichtungen eines Funkhauses sind all jene Geräte, Anlagen und Systeme zu verstehen, die in ihrem Zusammenspiel die technischen Betriebsabläufe des Hörfunks ermöglichen. Die Ende des 20. Jahrhunderts einsetzende Digitalisierung des Hörfunks hat in diesem Bereich tief greifende technische und organisatorische Veränderungsprozesse in Gang gesetzt. Waren in der früheren Analogtechnik ausschließlich Einzelgeräte, meist in standardisierter 6 dB-Technik durch diskrete Leitungen zusammengeschaltet, sind heutige tontechnische Anlagen und Audiosysteme nach den Regeln moderner Daten- und Informationstechnik über komplexe Schnittstellen miteinander verknüpft. Ein allgemeingültiger technischer Standard lässt sich angesichts immer kürzerer Innovationszyklen und einer ständig wachsenden Produktfülle nur noch schwer realisieren. Insofern haben die Erläuterungen dieses Kapitels nur Modellcharakter und stellen eine Momentaufnahme derzeit realisierter Einrichtungen dar. Hinzu kommen auch noch stark variierende Workflows im Zusammenspiel der Systeme, abhängig vom Anforderungsprofil der jeweiligen Rundfunkanstalt. Üblicherweise wird jedes Hörfunkprogramm in einer eigenen Senderegie abgewickelt. Sie bildet den Mittelpunkt der Zusammenschaltung von Produktionsräumen, Sprecherstudios, Tonregieanlagen, Audiospeichern und Steuersystemen sowie zahlreicher interner und externer Leitungs- und Verbindungswege. Für die Vorproduktionen von Beiträgen oder ganzen Sendungen stehen je nach Aufgabenstellung unterschiedlich ausgestattete Produktionsstudios für Wort- und Musikaufnahmen zur Verfügung, die bei entsprechender Leitungsanbindung auch als Vorschalt- oder Ausweichstudios für den Sendebetrieb verwendet werden können, z. B. für Livesendungen von Konzerten. Für Konferenzschaltungen oder Programmübernahmen sind in den Regien zusätzliche ankommende und abgehende Leitungen vorhanden. Die für die Sendung bestimmten Tonsignale gelangen über die Senderegie in die Betriebszentrale und werden von dort aus den verschiedenen Verbreitungswegen zugeführt. Sämtliche im täglichen Betriebsablauf benötigten Signalwege werden in der Betriebszentrale über ein zentrales Koppelfeld hergestellt. Außer der Verteilung der Sendewege gehören dazu sämtliche Schaltungen zu Übertragungswagen und Regionalstudios, zu externen Veranstaltungsstätten und zu anderen Rundfunkanstalten sowie zu hausinterne Verbrauchern. Die interne und externe Signalführung zwischen den verschiedenartigsten Quellen und Senken findet ausschließlich auf der digitalen Ebene statt. Die zuverlässige Verteilung des AudioSystemtaktes ist dabei eine wesentliche Voraussetzung für das störungsfreie Zusammenspiel einer derart großen Zahl digitaler Audiokomponenten. Neuland wurde mit der Schaffung eines digitalen Audiospeichers für Hörfunkanwendungen beschritten. Das gesamte für den Betrieb benötigte Tonmaterial lagert dabei auf einem zentralen Server und steht über ein Netzwerk hausweit für Bearbeitung, Produktion und Sendung zur Verfügung. An jedem entsprechend eingerichteten Arbeitsplatz, im einfachsten Fall ein mit Soundkarte bestückter PC, ist es möglich, Recherchen im Audioarchiv durch909
Digitale Betriebstechnik zuführen und das aufgefundene Material vorzuhören. Bei erweiterter PC-Ausstattung ist eine Audiobearbeitung von Beiträgen und O-Tönen vor allem auch in Redaktionen möglich. Diese Verbindung von zentraler Datenspeicherung und dezentralem Zugriff ist das herausragende und wohl auch sichtbarste Merkmal der Digitalisierung im Hörfunk. Der Transport physischer Tonträger entfällt und ist nur noch in Ausnahmefällen erforderlich. Der technische Workflow in einer Rundfunkanstalt wird heute von leistungsstarken und hoch performanten Netzwerken und Rechnersystemen bestimmt. Zur Koordination derart vernetzter Betriebsabläufe in einem Hörfunkgebäude, zusammen mit seinem Korrespondentennetz im In- und Ausland und anderen vielfältigen Außenstellen, werden vielfältige Kommunikationseinrichtungen benötigt. Sie sind den Anforderungen entsprechend konfiguriert und können in ihrer Wirkungsweise flexibel kombiniert werden. Schließlich benötigt eine Rundfunk- und Fernsehanstalt mit ihrem elektrischen Leistungsbedarf auch eine zuverlässige Infrastruktur zur Energieverteilung. Der Absicherung gegen Versorgungsausfälle kommt durch entsprechende Sicherungsmaßnahmen hier eine besondere Bedeutung zu.
16.1.1
Betriebszentrale
Die Digitalisierung des Hörfunks brachte umfangreiche neue Einrichtungen und Systeme mit sich, deren betriebliche Betreuung im Wesentlichen in der Betriebszentrale koordiniert wird. Zu den wichtigsten Funktionen gehören: - Übernahme der Signale aus den Sendekomplexen und Weitergabe zur terrestrischen und satellitenbasierten Ausstrahlung, - Konfiguration und Umschaltung von Sende-, Kommunikations- und Signalisierungsleitungen bei Studiowechsel oder für regionale Sendungen, - Verbindungsaufbau zu anderen Rundfunkanstalten, Außenstudios, Korrespondenten, Übertragungswagen und Veranstaltungsorten über Tonleitungen, ISDN-Strecken und Netzwerkverbindungen, - technische Koordination und Abwicklung von Außenübertragungen, - Überwachung der terrestrischen und satellitengestützten Programmausstrahlung über Kontrollempfänger, - Betreuung der Einrichtungen für Programmübernahme und Programmaustausch mittels Filetransfer über Hörfunknetze (siehe auch Kap. 16.2.7.3), - betriebliche Überwachung des Hörfunk-Servers und seiner Peripherie, - Einleitung von Havariemaßnahmen im Störungsfall (Studiowechsel, Ersatzprogramm, Ballempfang), - Störungsortung und Fehlerbeseitigung in Zusammenarbeit mit den entsprechenden Fachabteilungen. Abb. 16/1 zeigt die beiden wichtigen Systeme des digitalen Hörfunks in einem vereinfachten Blockdiagramm.
910
Zentrale Einrichtungen
Abb. 16/1. Die Systeme im digitalen Funkhaus.
16.1.1.1
Koppelfeld
Technisches Herzstück der Signalverteilung im Hörfunk ist das Koppelfeld, welches Studios, Leitungen und Übertragungseinrichtungen aller Art gemäß den betrieblichen Anforderungen rückwirkungsfrei und flexibel miteinander verbindet, siehe auch Kap. 8.4.2 und Kap.13.1.3. Eine frühe technische Lösung war der von Hand zu bedienende analoge Kreuzschienenverteiler. Die Tonsignale der ankommenden Quellen wurden über die Waagrechten einer rechteckigen Steckmatrix eingespeist, die Senkrechten dienten ihrer Ableitung und Weiterverteilung zu den Senken. An jedem Kreuzungspunkt konnten Waagrechte und Senkrechte durch Setzen eines Steckers miteinander verbunden werden. Diese Bauform gestattete zwar einen raschen und unmittelbaren Zugriff, stieß aber bei umfangreichen oder sich häufig ändernden Schaltungen rasch an ihre Grenzen. Die weitere technische Entwicklung führte dann zu sehr komplexen, aus mehreren kaskadierten Untereinheiten aufgebauten Verteilern, bei denen die Steckverbindungen von Koppelpunkten in Halbleitertechnik abgelöst wurden. Seitdem ist auch eher von Koppelfeldern als von Kreuzschienen die Rede gewesen. Die Handhabung erfolgte mit speziellen Bediengeräten, bald aber auch schon über Rechner mit entsprechender Steuerungssoftware. Das allen Koppelfeldern dieser Art zugrunde gelegene Strukturkonzept wurde als Raummultiplex bezeichnet. Eine Vielzahl gleichzeitig anliegender Signale wurde weitergegeben, indem für jedes einzelne Signal ein eigener physischer Übertragungskanal vorhanden war (Abb. 16/2). 911
Digitale Betriebstechnik
Abb. 16/2. Prinzipielle Darstellung von Raum- und Zeitmultiplex.
Im Gegensatz zur lange Zeit bewährten Analogtechnik kommen digitale Koppelfelder durch das Zeitmultiplexverfahren ohne real existierende Koppelpunkte aus. Dabei werden die an den Eingängen anliegenden digitalisierten Audiosignale durch zyklische Abtastung zu einem Datenstrom gebündelt, der sämtliche Eingangssignale als zeitliche Abfolge kleinster Datenpakete enthält. Wird dieser Datenstrom zu definierten Zeitpunkten auf die verschiedenen Ausgänge des Koppelfeldes durchgeschaltet, erhält jeder Ausgang ausschließlich Anteile des für ihn bestimmten Eingangssignals, und zwar in seiner ursprünglichen Gestalt. Man spricht hier vom so genannten Zeitschlitzverfahren.
Abb. 16/3. Dezentraler Aufbau eines modernen Koppelfeldes.
Sowohl der geschilderte Mechanismus als auch die eigentliche Signalführung innerhalb des gesamten Koppelfeldes bleiben für den Anwender völlig unsichtbar, da die Funktionalitäten 912
Zentrale Einrichtungen von der in Festwertspeichern abgelegten Betriebssoftware des Systems übernommen werden. Das Schalten von Verbindungen und die Überwachung des Betriebszustands erfolgt über grafik- oder textbasierte PC-Bedienoberflächen. Auch externe Rechnersysteme und deren Bedienfunktionen können über geeignete Schnittstellen Zugriff auf bestimmte Teile des Koppelfeldes erhalten und dort Aktionen auslösen. Einrichtungen dieser Art bilden keinen einheitlichen Geräteblock mehr, sondern bestehen aus einzelnen Modulen, die über den gesamten Standort einer Rundfunkanstalt verteilt sein können. Sie sind über eigene, redundant ausgeführte Glasfaserstrecken miteinander verknüpft (Abb. 16/3). Durch einen solchen dezentralen Aufbau übernimmt das Koppelfeld heute nicht mehr nur die Verschaltung der Signale, sondern auch deren Transport in Form eines Datenstroms. Die Anbindung digitaler Geräte und Einrichtungen erfolgt dabei über AES/EBU- oder MADI-Schnittstellen. Für die noch wenigen analogen Signale stehen entsprechende Wandlerkarten an den Ein- und Ausgängen zur Verfügung. Die heute im Broadcastbereich gebräuchlichste Signaldarstellung nutzt systemweit eine Auflösung von 24 Bit pro Kanal bei 48 kHz Abtastfrequenz. Eine digitale Koppelfeldinstallation kann mehr als 1500 x 2500 Ein- und Ausgänge verwalten. Die Zahl der gleichzeitig schaltbaren Verbindungen hängt von der Anzahl verfügbarer Zeitschlitze ab und wird im Wesentlichen von der Bestückung und Topologie der einzelnen Module bestimmt. Ein exakter Wert für die Routing-Kapazität kann deshalb nicht ohne nähere Systemspezifikation angegeben werden; dies ist nur bei Koppelfeldern möglich, die aus realen Koppelpunkten aufgebaut sind. Ein großes Koppelfeld umfasst nicht nur die zur täglichen Betriebsabwicklung benötigten Quellen und Senken, sondern ist in der Lage, die gesamte Tonsignalverteilung eines Funkhauses zu übernehmen. Aufwändige, großflächige Rangierverteiler mit ihren fest verdrahteten Verbindungen gehören damit der Vergangenheit an und werden von rein softwaremäßig zu schaltenden Signalwegen abgelöst. Steuerung Die Bedienung eines digitalen Koppelfeldes orientiert sich im einfachsten Fall am Vorbild der analogen rechteckigen Matrix. In einer entsprechenden Bildschirmgrafik können Quellen und Senken durch Mausklick miteinander verbunden oder voneinander getrennt werden (Abb. 16/4). Diese Darstellung ist zwar anschaulich, aber nur bedingt praxistauglich. Neben der mangelhaften Übersichtlichkeit ist von Nachteil, dass eine Steuerung der Koppelpunkte zu definierten Zeiten nicht möglich ist. Dies schränkt den Workflow für ein modernes Schaltsystems deutlich ein. Komplexe Koppelfelder werden deshalb heute überwiegend mittels textbasierter Steuerungssoftware ausgerüstet. Mit der namentlichen Eingabe von Quellen und Senken können in verschiedenen Varianten auch zeitgesteuerte Schaltungen ausgeführt werden, sei es einmalig oder wiederholt in frei festlegbaren Zyklen, wie z. B. täglich, jeden zweiten Tag, an einem bestimmten Wochentag, mit oder ohne Kollisionsprüfung usw. Darüber hinaus können mehrere Einzelschaltungen zu Blöcken zusammengefasst und unter frei wählbaren Namen abgespeichert und aufgerufen werden. Diese Funktionalitäten stellen nicht nur eine Vereinfachung der Bedienbarkeit dar, sondern reduzieren auch das Fehlerrisiko bei regelmäßig wiederkehrenden Aufgaben wie z. B. bei Studio- oder Senderkettenumschaltungen. 913
Digitale Betriebstechnik
Abb. 16/4. Matrix zur Koppelfeldbedienung.
Bereits erwähnt wurde die Möglichkeit, über geeignete Schnittstellen Aktionen auch von anderen Systemen in der Kreuzschiene auslösen zu lassen. Dies kann beispielsweise eine im Haus eingesetzte Dispositionssoftware sein. Bei Bestellung einer Konferenz mit einem Außenstudio werden dann nicht nur alle Beteiligten über den augenblicklichen Status informiert, sondern die zum Aufbau der Konferenz notwendigen Schaltungen werden auch automatisch zeitgesteuert ausgeführt. 16.1.1.2
Leitungsanbindung
Jeder Studiokomplex ist über seine Sendewege meist redundant an das Koppelfeld angebunden. Bei Bündelung der Signale in einem MADI-Strom kann zur Erhöhung der Betriebssicherheit eine der beiden Summen zusätzlich über eine eigene AES/EBU-Verbindung zugeführt werden und als Ersatzweg zur Verfügung stehen. Darüber hinaus werden in den Studios ankommende und abgehende Leitungen zur Abwicklung von Konferenzen und Programmübernahmen benötigt. Die abgehende Leitung einer Regie ist dabei bezogen auf die 914
Zentrale Einrichtungen zugehörige ankommende Leitung eigentonfrei. Wegen der unvermeidbaren Signallaufzeiten in der digitalen Audiotechnik, ist diese Forderung bei Konferenzschaltungen zwingend notwendig, da sonst störende Nebengeräusche und Echos entstehen. Auch wenn die routinemäßige Verschaltung von Quellen und Senken im Koppelfeld ausschließlich digital vorgenommen wird, so ist es doch gelegentlich sinnvoll, wichtige ankommende und abgehende Leitungen über diskrete Brückenstecker zu führen. Dies erleichtert den Zugriff bei Umbau- oder Wartungsarbeiten und bietet im Havariefall die Möglichkeit einer provisorischen Signalverteilung. Für Sonderschaltungen stehen in einem Steckfeld außerdem einige frei belegbare digitale und analoge Ein- und Ausgänge zur Verfügung. Sie gestatten die Verschaltung von möglicherweise noch vorhandenen analoger Querverbindungen zu Studios und Betriebsräumen älterer Bauart. Außenstellen Vielfach befinden sich im näheren Einzugsbereich einer Rundfunkanstalt Übertragungsorte, zu denen regelmäßig Verbindungen hergestellt werden müssen, beispielsweise Rathäuser und Sportstätten. Die örtlichen tontechnischen Einrichtungen sind dann zumeist über dauerhaft geschaltete Tonleitungen mit dem Funkhaus verbunden, wo sie als Ortsempfangsleitungen (OEL) im Koppelfeld aufliegen. Vor Ort befindet sich im einfachsten Fall ein Ü-WagenAnschlusskasten für mobile Aufnahmeeinrichtungen bis hin zu fest eingerichteten und vollständig ausgebauten Tonregien in Konzertsälen. Auch Landes- und Regionalstudios sind über Austauschleitungen angebunden. Für besondere Übertragungen, wie z. B. bei Großveranstaltungen, werden zeitweise bei entsprechenden Providern Tonleitungen angemietet und auf frei belegbaren Ortsempfangsleitungen ins Funkhaus geschaltet. Diese Leitungstechnik ist allerdings im Rückzug begriffen und wird mehr und mehr von regionalen Netzwerken sowie ISDN-Verbindungen abgelöst, siehe Kap. 16.2. Ü-Wagen Bei der aktuellen Berichterstattung besteht in der Regel keine direkte Leitungsverbindung zwischen dem Übertragungswagen und der Betriebszentrale im Funkhaus. Die Ü-Fahrzeuge verfügen daher über spezielle Reportagesender, mittels derer die Übertragung über Funkstrecken im UHF-Bereich erfolgen kann. Für den Empfang am Standort des Funkhauses sind Antennen an geeigneter Stelle angebracht. Diese sind als drehbare Richtantennen oder in ihrer Charakteristik umschaltbare Mehrfeldantennen ausgeführt, deren Steuerung von der Betriebszentrale aus erfolgt. Vielfach sind auch an anderen geeigneten Standorten, so zum Beispiel auf Sendemasten im Umland, Antennen und Empfänger dieser Art installiert. Deren Ausgangssignale liegen dann im Funkhaus auf eigenen Ortsempfangsleitungen auf. Häufig ist der Ausgang eines Reportageempfänger mit einem ISDN-Audiocodec verbunden, welcher bei Bedarf von der Betriebszentrale aus angewählt wird (siehe auch Kap. 16.2.8.2). Eine noch weiter gehende Unabhängigkeit bei der Standortwahl bietet der Verbindungsaufbau über Satellit. Dabei richtet sich eine Parabolantenne auf dem Ü-Wagen vollautomatisch auf einen ausgewählten Satelliten aus, beispielsweise der Inmarsat-Gruppe, überprüft die Feldstärkeverhältnisse und leitet den Verbindungsaufbau ein (Abb. 16/5). Die eigentliche Datenübertragung erfolgt dann über ISDN-Audiocodecs. Die Satellitenstrecke ermöglicht 915
Digitale Betriebstechnik Übertragungskanäle in beide Richtungen, wobei allerdings nicht zu vernachlässigende Signallaufzeiten anfallen. Da Satellitenüberspielungen teuer sind, beschränken sich die Anwendung meist auf kurze Aufsager oder das Überspielen von O-Tönen.
Abb. 16/5. Reportagesender und Satellitenverbindung beim Einsatz von Ü-Wagen.
Hörfunk-Dauerleitungsnetz Jede Landesrundfunkanstalt ist in Deutschland mit jeweils vier bis acht ankommenden und abgehenden Leitungen in das Hörfunk-Dauerleitungsnetz der ARD eingebunden. Die Leitungen werden für Live-Übertragung aus anderen Funkhäusern, für Programmübernahmen bzw. -überspielungen und für Konferenzschaltungen benötigt. Sie haben jedoch in jüngerer Zeit durch die Einführung des ARD-weiten Filetransfers an Bedeutung verloren. Der technische Transport von Tonsignalen erfolgt seit Ende der 1990er-Jahre über das sogenannte Hybnet. Der bisherige ARD-Leitungsstern mit seinen Zuführungs- und Verteilleitungen (ZLT und VLT) blieb dabei als logisches Konzept erhalten und wurde auf der Doppelringstruktur des Hybnet abgebildet. Siehe hierzu auch Kap. 16.2.6. ISDN Die flächendeckende Verfügbarkeit von ISDN-Anschlüssen im In- und Ausland hat dazu geführt, dass hochwertige und kostspielige Rundfunktonleitungen heute nur noch bei besonderen Ansprüchen an die Übertragungsqualität angemietet und geschaltet werden. Vom aktuellen Betrieb bis hin zur Übertragung kompletter Veranstaltungen und Großereignisse kommen inzwischen fast ausschließlich nur noch ISDN-Codecs mit Rückkanal zum Einsatz. 916
Zentrale Einrichtungen Sie sind ein kostengünstiger Ersatz für vormals dauerhaft geschaltete und im Betrieb teure Reportageleitungen. Die Codecs bedienen sich einer großen Zahl verschiedener, häufig herstellerspezifischer Codierverfahren, die bedauerlicherweise nicht immer miteinander kompatibel sind. Entsprechend bedarf es eines umfangreichen Geräteparks, will man in einer Betriebszentrale zumindest den Großteil der weltweit verbreiteten Übertragungsverfahren abdecken. Vielfach verfügen die Geräte über eine Schnittstelle zu einer Steuersoftware, die bei Anwahl des Teilnehmers automatisch dessen Gerätetyp einschließlich Konfigurationsmerkmale erkennt. Sie ist auch in der Lage, alle Möglichkeiten der Zeitsteuerung ausführen zu können. Der schnellen Verfügbarkeit und der im Vergleich zu einer fest geschalteten Leitung enormen Verbindungsflexibilität stehen dabei allerdings oftmals Abstriche bei der Betriebssicherheit gegenüber, weshalb die ISDN-Technik bereits wieder abnimmt, zu Gunsten einer Breitbandvernetzung mit höheren Leistungsmerkmalen. Kennzeichnend für die Entwicklung der digitalen Verbindungstechnik ist die zunehmende Integration aller peripheren Systeme, verbunden mit einer dichter werdenden Vernetzung. Beispielhaft dafür ist die von einzelnen Rundfunkanstalten bereits in Angriff genommene Einrichtung eigener regionaler Netze (RegioNet). Redundant ausgelegte, breitbandige Verbindungen übernehmen hier den gesamten Datentransfer zwischen den Standorten einer Rundfunkanstalt, von Video- und Audiosignalen über programmbegleitende Dienste wie RDS bis hin zum Bürodatenaustausch. Leitungen im traditionellen Sinne werden zunehmend von Diensten auf IP-Basis abgelöst, wie z. B. 2-MBit-Strecken zur Übertragungen hochwertiger Mehrkanalsendungen. 16.1.1.3
Sendeverteilung
Die Verteilung von Hörfunkprogrammen einer Rundfunkanstalt erfolgt entweder direkt aus dem Hauptkoppelfeld oder über einen abgesetzten, kleineren Sendeverteiler. Betriebstechnisch sind beide Lösungen gleichwertig, die zweite Variante bietet jedoch mehr Spielraum bei Wartungs- und Umbauarbeiten im Bereich des Intern-Koppelfeldes. In den Zeiten ausschließlich analoger, terrestrischer Programmausstrahlung wurden die Funkhaussignale an einer definierten Schnittstelle im Postübergaberaum an die technischen Anlagen der damaligen Deutsche Bundespost (DBP) zur Weiterleitung an die Senderstandorte übergeben. Die DBP hatte früher das alleinige Leitungsmonopol in Deutschland. Auf Ortssendeleitungen (OSL) gelangte das Signal zum Rundfunkverstärkeramt der DBP und von dort aus über Fernleitungen an die Senderstandorte, die wiederum von den Landesrundfunkanstalten betrieben wurden. Auch heute noch werden die Sendesignale in einem gesonderten Signalübergaberaum in das Leitungsnetz der Telekom eingespeist, allerdings nach einer digitalen Formatumwandlung in eine 2-MBit-Rahmenstruktur. Einzelheiten zu den verwendeten Datenformaten und Codierverfahren finden sich in Kap.16.2. Zur Erhöhung der Ausfallsicherheit werden Betriebs- und Havarieweg seitens des jeweiligen Providers auf räumlich getrennten Strecken übertragen. Abb. 16/6 stellt die heute üblichen Wege schematisch dar.
917
Digitale Betriebstechnik
Abb. 16/6. Blockdiagramm zur Sendeverteilung.
Signalaufbereitung Vor der endgültigen Übergabe an die verschiedenen Verbreitungswege wird das Sendesignal einer zumeist mehrstufigen Signalaufbereitung unterzogen. Die dazu erforderlichen Geräte sind in die Ausgänge des Sendeverteilers eingeschleift. Ihre Aufgabe ist es, das Audiomaterial an die Anforderungen des jeweiligen Übertragungskanals anzupassen, wobei technische wie auch geschmackliche Aspekte zum Tragen kommen, siehe auch Kap. 6.2.1.3. Im analogen Betrieb waren früher in allen Sendeleitungen Begrenzer zum Schutz vor Übersteuerungen des Sendehubs eingefügt. Heute haben digitale Audioprozessoren diese und zahlreiche weitere Funktionen übernommen. So kann beispielsweise durch die Anhebung der mittleren Aussteuerung die Leistung des Multiplexsignals erhöht und damit die Reichweite der belegten Bandbreite vergrößert werden, verbunden allerdings mit dem Nachteil der Zunahme von Nachbarkanalstörungen durch den übermodulierten Sender. Dies kann schlimmstenfalls zum Entzug der Betriebserlaubnis seitens der Regulierungsbehörde führen. Die Einhaltung der MPX-Leistung von 0 dBr wird in Deutschland nach internationalem Recht streng und unter Strafandrohung überwacht. Bestrebungen um einen erhöhten Lautheitseindruck sowie um ein eindeutiges akustisches Erscheinungsbild der einzelnen Rundfunkprogramme haben der Tonsignalaufbereitung in den letzten Jahren ein hohes Gewicht zukommen lassen. Hinsichtlich Dynamikumfang und Klangfarbe können die eingesetzten Geräte drastische Veränderungen des Programmmaterials beim sog. Sound Processing bewirken, wobei Art und Ausmaß des Eingreifens weniger technisch-funktionalen Notwendigkeiten, als vielmehr klanglich-ästhetischen Vorstellungen seitens der Programmschaffenden entspringen. Die Folge dieses Profilierungsbedarfs ist eine regelrechte Spirale des Sound-Processing, deren Resultate sich zwangsläufig immer weiter vom Klangbild des Originalmaterials entfernen. Vor allem im Pop-Bereich spielt die 918
Zentrale Einrichtungen produktionsseitige klangliche Ausgestaltung, das individuelle künstlerische Sound-Design, eine sehr große Rolle. Eine überzogene Tonsignalaufbereitung kann auf solches Musikmaterial allerdings geradezu fatale Auswirkungen hinsichtlich eines verzerrten Klangbildes haben. Die Signalverzögerung ist ebenfalls eine Variante der Signalaufbereitung. Sie ist überall dort notwendig, wo Synchronitäten hergestellt werden müssen. So werden beispielsweise terrestrische Sender zwar meist über Leitungen, gelegentlich aber auch über Satellit versorgt. In angrenzenden Versorgungsgebieten können dann in der Überlappungszone störende Laufzeitunterschiede beim Rundfunkempfang auftreten. Schaltet beispielsweise ein Autoradio aufgrund sich ändernder Empfangsbedingungen wiederholt zwischen beiden Sendern hin und her, so wird der Zeitversatz von etwa 240 ms jedes Mal deutlich hörbar. Diesem störenden Effekt kann durch Verzögerung des terrestrisch abgestrahlten Signals um den Betrag der Satellitenlaufzeit begegnet werden; siehe Abb. 16/7.
Abb. 16/7. Laufzeitunterschied bei gemischter Senderversorgung.
16.1.1.4
Weitere Einrichtungen
Neben den Verteilern und Koppelfeldern in einer Betriebszentrale gibt es noch zahlreiche weitere Einrichtungen der Betriebstechnik. So kommen der Überwachung und Kontrolle der Sende- und Empfangssignale, aber auch dem Routing der betrieblichen Kommunikation zwischen internen und externen Teilnehmerstellen hohe Bedeutung zu. Ein zentrales Tastenfeld gestattet das Vor- und Abhören aller ankommenden und abgehenden Tonsignale. Darüber hinaus können bestimmte Einrichtungen und Geräte mit eigenen Vorhörlautsprechern für direkten Zugriff ausgestattet sein, wie z. B. Lautsprecher an Kontrollempfängern. Auch lassen sich an Abhörpunkten der Tonsignalwege unterschiedliche Aussteuerungsmesser mit Korrelationsgradanzeige oder auch ein Goniometer einschleifen bzw. auftasten. Gleichzeitig mit dem Schalten von Signalwegen lassen sich auch komplexe Kommunikationswege routen. Zur Überwachung der einwandfreien Programmausstrahlung sind in der Betriebszentrale Kontrollempfänger installiert. Sie bilden das letzte Glied der Signalkette Senderegie - Koppelfeld - Sendeverteilung - Sender. In den Zeiten terrestrischer Ausstrahlung über UKW und MW 919
Digitale Betriebstechnik waren die wenigen benötigten Kontrollempfänger häufig als Festfrequenzempfänger ausgeführt. In dem Maße, in dem die Anzahl der Hörfunkprogramme pro Rundfunkanstalt zunahm, wurden diese von hochwertigen Universalempfängern abgelöst. Die Einführung der Satellitentechnik ließ die Gestelle zur Programmkontrolle weiter anwachsen, denn letztlich wird für jedes ausgestrahlte Programm pro Verbreitungsweg ein eigener Kontrollempfänger benötigt. Darüber hinaus existieren noch eine Reihe frei einstellbarer Empfänger für interne Mitschnitte oder für Programmübernahmen per Ballempfang. Zumeist sind diese Geräte mit seriellen Schnittstellen ausgestattet, so dass die Möglichkeit einer zentralen Bedienung vom PC aus besteht mit ggf. automatischer Umschaltung zum Abhören. Für spezielle Schaltungen des Alltags stehen zusätzlich meist ein oder zwei kleine, universell einsetzbare Regiepulte mit mehreren Sendewegen zur Verfügung, die im Falle größerer Betriebsstörungen auch als Havariesendepult zum Abspielen eines Notprogramms dienen. Eine für eine Rundfunkanstalt wichtige Einrichtung ist das Mitschnittsystem. Aus rechtlichen Gründen müssen sämtliche Programme einer Rundfunkanstalt rund um die Uhr mitgeschnitten und 30 Tage lang archiviert werden. Früher geschah die Dokumentation auf Magnetband oder DAT-Kassetten, heute kommen Festplatten-gestützte Rechnersysteme mit schnellem Zugriff zum Einsatz, wobei die Audiodaten mit niedrigen Bitraten, d. h. mit eingeschränkter Audioqualität aufgezeichnet werden. 16.1.1.5
Handhabung der Systeme
Die Bedienung der verschiedenen Systeme in einer Betriebszentrale erfolgt heute fast ausschließlich an Standard-PC’s mit text- oder grafikbasierten Bedienoberflächen. Tastatur und Maus sind dabei als Eingabegeräte am weitesten verbreitet, bei Platzmangel kommen häufig auch Trackballs zum Einsatz. Gelegentlich sind sog. Hardware-Controller in Verwendung, deren Bedienelemente bestimmte Funktionen in der zu steuernden Software auslösen. Kann aus Platzgründen nicht für jeden Rechner ein eigener Monitor samt Tastatur und Maus auf der Arbeitsfläche angeordnet werden, so ermöglichen geeignete Umschalter zumindest einen wechselnden Zugriff. Bei entsprechender Größe und Auflösung des Bildschirms ist auch eine Unterteilung in mehrere Anzeigebereiche möglich. Auch ist die Verwendung von Videoprojektoren (Beamern) gelegentlich im Einsatz. Die gesamte Rechner-Hardware ist wegen der störenden Lüfter- und Laufwerksgeräusche entweder in schallisolierten Gestellschränken oder in einem gesonderten, meist klimatisierten Geräteraum untergebracht und über Glasfaserleitungen mit dem Bedienplatz verbunden. In jedem Fall erfordert die abgesetzte Installation der Rechnertechnik einen beträchtlichen Aufwand beim Anschluss von Monitoren und Eingabegeräten, vor allem auch bei der Planung ergonomischer Vorschriften am Arbeitsplatz, siehe auch Kap. 13.1.
16.1.2
Synchronisation
Alle Geräte und Einrichtungen der digitalen Audiotechnik in einem Rundfunkbetrieb benötigen zum Betrieb ein präzises Taktsignal. Es entspricht der Abtastrate der gewählten Audiocodierung, die im Rundfunkbetrieb üblicherweise fs = 48 kHz beträgt. Dieses Signal muss, 920
Zentrale Einrichtungen technisch bedingt, aus einer einzigen Quelle extern zugeführt werden. Die Versorgung aus mehreren Quellen oder die Verwendung geräteinterner Taktgeneratoren verbietet sich wegen unvermeidbarer minimaler Frequenz- oder Phasenabweichungen der Signale untereinander (Jitter). Die Folge wären Fehler bei der Datenübergabe zwischen den Geräten, die sich als zyklisch wiederkehrende störende Klickgeräusche bemerkbar machen, siehe auch Kap. 13.1. Der Takt wird aus einem hochfrequenten Referenzsignal durch Frequenzteilung gewonnen. Bei Ausfall des Hauptgenerators übernimmt ein redundantes Ersatzgerät die Versorgung; auch kann ein frequenzstabiles Signal aus dem Leitungsnetz der Telekom bezogen werden. Digitale Taktverteiler gewährleisten eine hohe Qualität des Audiosignals hinsichtlich Pegel und Signalform und sorgen für eine rückwirkungsfreie Verteilung. Bei Totalausfall dieses Systems werden alle angeschlossenen Systeme automatisch auf AES-Taktung umgeschaltet. Unter Ausnutzung der selbsttaktenden Eigenschaften des AES/EBU-Formatrahmens kann in diesem Fall das Koppelfeld selbst zur Taktverteilung herangezogen werden.
16.1.3
Vernetzung
In einem digitalen Funkhaus sind alle an Produktion, Bearbeitung, Verteilung und Speicherung von Audiodaten beteiligten Systeme über ein Netzwerk miteinander verbunden. Die vor wenigen Jahren noch übliche Nutzung von ATM-Netzwerken oder der Aufbau besonderer Netzwerktopologien zur Gewährleistung des erforderlichen Datendurchsatzes, ist heute dem flächendeckenden Einsatz von Ethernet gewichen. Vom Grundgedanken einer zentralen serverbasierten Datenspeicherung einmal abgesehen, existiert für den Aufbau eines vernetzten Funkhauses kein einheitlicher Lösungsansatz. Vielmehr sind bei den Rundfunkanstalten sehr auf den Bedarf zugeschnittene Systeme in Verwendung. 16.1.3.1
Server
Herzstück eines digitalen Hörfunkbetriebs ist ein serverbasierter Massenspeicher für jegliches Audiomaterial. Diese Speicherarchitektur für Audio- und Metadaten bildet den logisch zentralen Mittelpunkt der Gesamtinstallation. Ihm folgt modellhaft der Aufbau einer Client/Server-Struktur. Als Speichermedium dient ein zu einem RAID-Array zusammengeschaltetes großes Festplattensystem. Durch redundante Speicherverfahren reduziert sich dabei die nutzbare Kapazität, die Datensicherheit nimmt allerdings zu. Speicherkapazitäten zwischen 5 bis 30 Terabyte sind dabei heute durchaus üblich. Legt man eine Codierung nach MPEG-1 Layer 2 mit einer Datenrate von 384 kBit/s zugrunde, so ergibt sich eine Audiolaufzeit von beinahe 6000 Stunden pro Terabyte Festplatten-Speicherplatz. Ein auf dem Server installiertes Datenbanksystem verwaltet die Audiobestände und deren programmbegleitende Zusatzinformationen; es bearbeitet ebenfalls die Anfragen der einzelnen Clients und kommuniziert mit den verschiedenen Modulen der Anwendersoftware. Alle Operationen innerhalb des Netzwerkes finden dabei asynchron auf Dateibasis statt. Audiodaten in Echtzeit werden ausschließlich über das Koppelfeld und die daran angeschlossenen Systeme übertragen. Jedes Sendestudio verfügt zusätzlich über einen eigenen Sendeserver, dessen Aufgabe ausschließlich darin besteht, das für den Programmablauf benötigte Audiomaterial in der Größenordnung von 12 bis 15 Stunden zu speichern und auf Anforderung auszuspielen. Mit Hilfe 921
Digitale Betriebstechnik eines Softwaremoduls zur Sendungsplanung werden Musik, Beiträge und Layoutelemente zusammen mit ihren beschreibenden Daten vom zentralen Server über das Netzwerk auf den zuständigen Sendeserver kopiert. Sobald das Sendematerial im Sendespeicher abgelegt ist, können die Daten nur noch sehr eingeschränkt verändert werden - ein kurz vor der Sendung nochmals bearbeiteter Beitrag muss erneut übertragen werden, wobei die vorherige Version überschrieben wird. Siehe hierzu auch Abb.18.24 in Kap. 18.2. In der Senderegie wird der Inhalt des Sendeservers auf einem Bildschirm als Programmablaufplan dargestellt. Mit der Maus oder über eine Bedienkonsole können die Elemente vorgehört sowie ihre Reihenfolge vertauscht werden. Die Ausspielwege des Servers sind im Regiepult auf Regler geführt, über deren Fernstartkontakte die Wiedergabe gestartet wird. Der Einsatz separater Sendeserver bietet zum einen den Vorteil, dass Störungen des Netzwerkes oder der Datenbank keinen unmittelbaren Einfluss auf eine laufende Sendung haben, zum anderen wird der Zentralserver von Ein- und Ausspielvorgängen in Echtzeit entlastet. Der vollständige Workflow einer Senderegie ist ausführlich in Kap. 13.2 beschrieben. 16.1.3.2
Produktion
Die Client/Server-Struktur ist auch zur Anwendungen im Produktionsbetrieb der jeweiligen Programmwellen geeignet. Dabei erfolgen die Aufnahme und die anschließende Audiobearbeitung auf wellenorientierten, zentralen Produktionsservern mit lokalen Zugriffen von Redaktionsarbeitsplätzen oder Audio-Workstations in Produktionsstudios. Die Rechner verfügen über spezielle Editoren mit zahlreichen Tools zur Bearbeitung und Beschreibung des Audiomaterials. Der fertige Beitrag wird mit einem entsprechenden Eintrag in der Datenbank abgespeichert und als Audiodatei in das Archiv des Zentralservers übertragen. Dort steht der Beitrag augenblicklich hausweit zur Verfügung, sei es für den Sendeeinsatz oder zur weiteren Verwendung in der Produktion. Vernetzte audiofähige Computerarbeitsplätze kommen in verschiedenen Ausführungen und Ausstattungen in großer Zahl zum Einsatz: Leistungsstarke Audioworkstations im Produktionsstudio, einfache Aufnahme- und Bearbeitungsplätze im Redaktionsbereich incl. HeadsetMikrofon oder schlichte PC’s mit Soundkarte, die ausschließlich der Wiedergabe des im Archiv recherchierten Materials dienen. Wichtig für das Verständnis ist, dass in allen Fällen ausschließlich mit lokalen Kopien gearbeitet wird, die auf der Festplatte des jeweiligen Rechners automatisch angelegt werden. 16.1.3.3
Kontribution von Programmbeiträgen
Für das Mitschneiden von Leitungen, Empfängern und anderen Audioquellen stehen spezielle Einspielrechner zur Verfügung, die über das Koppelfeld in der Betriebszentrale beschaltet werden können. Bei dieser Anwendung ist es wichtig, dass die entstehende Audiodatei sofort „on the fly“ in Echtzeit mitgehört und für Ausschnitte sofort markiert werden kann, beispielsweise beim Livemitschnitt eines Sportereignisses, welches in Ausschnitten kurzfristig gesendet werden soll, während die Berichterstattung noch läuft. Beim laufenden Mitschnitt sendet die Einspielstation zyklisch kleine Datenpakete an den Zentralserver, der diese an die bisher aufgelaufene Datei anfügt und den Datenbankeintrag entsprechend aktualisiert. Dies geschieht zeitlich sehr rasch, so dass durchaus von Quasi-Echtzeit gesprochen werden kann. Der Zugriff 922
Zentrale Einrichtungen auf eine noch laufende Aufnahme ist somit jederzeit möglich, da stets eine lokale Kopie angelegt wird, die das bis zu diesem Moment aufgelaufene Audio enthält. Über eine geeignete Anwendersoftware können Einspielungen im Voraus disponiert und automatisch abgewickelt werden, wobei auch hier die Möglichkeit zu wochentag- oder datumsbasierter Wiederholung besteht. Umgekehrt kann aus dem System auch Audiomaterial ausgespielt werden. 16.1.3.4
Programmaustausch
Die Verteilung und der Austausch aller Arten von Audiomaterial zwischen den Rundfunkanstalten erfolgen heute überwiegend dateibasiert, wobei der größte Anteil auf den ARDweiten Filetransfer entfällt. Man spricht hier auch von Replikation. Die technische Grundlage des Datentransports ist das Hybnet, dessen Administration in den Aufgabenbereich der ARDSternpunkte in Frankfurt fällt (s. Kap. 16.2.). Die sukzessive Erweiterung des zunächst nur der aktuellen Berichterstattung vorbehaltenen Systems ermöglicht seit dem Jahr 2005 auch die Übertragung längerer Beiträge in hoher Stereo- bzw. Mehrkanalqualität. Auf internationaler Ebene kommt der breitbandige Filetransfer (BAFT) bei der Verteilung von Konzertaufnahmen im Rahmen der EBU-Kooperation zum Einsatz. Die technische Anbindung an das Hybnet und an das Internet und vor allem die damit verbundenen Sicherheitsbelange liegen nicht im Zuständigkeitsbereich des Hörfunks. Sie sind Bestandteil derjenigen Abteilungen einer Rundfunkanstalt, die mit dem Aufbau, dem Betrieb und dem Unterhalt der gesamten Rechner- und Netzwerkinfrastruktur befasst sind. Entsprechend sorgen strikte Sicherheitsmechanismen beim Filetransfer für den kontrollierten Datenaustausch zwischen der Außenwelt und dem Hausnetzwerk (Firewall). Die ein- und ausgehende Dateien werden auf Pufferrechnern zwischengespeichert und dort in einer lokalen Datenbank verwaltet. Auf diese Weise entsteht eine Warteschlange von Transferaufträgen, die von einer sog. Replikationssoftware abgearbeitet wird. Abgehende Dateien werden je nach Adressierung an den Sternpunkt oder an bestimmte Rundfunkanstalten übergeben, in ankommender Richtung wird die Weitergabe an den zentralen Audioserver angestoßen. Dabei wird gleichzeitig ein entsprechender Datenbankeintrag erzeugt, so dass das Audiomaterial gewöhnlich in weniger als einer Minute nach seinem Eintreffen dem Hörfunksystem zur Verfügung steht. Die Beauftragung eines abgehenden Filetransfers erfolgt über entsprechende Masken der im Haus verwendeten Archiv- oder Dispositionssoftware. Für Reporter und Korrespondenten im In- und Ausland besteht schließlich die Möglichkeit, über ein Web-Interface den Zugang zum Audioarchiv einer Rundfunkanstalt zu bekommen („Web-Taxi”). Eine entsprechende Zugriffsberechtigung vorausgesetzt, können dann vom heimischen Rechner aus Beiträge ins Funkhaus abgesetzt oder umgekehrt in den dortigen Beständen recherchierte Audiodateien auf den lokalen Rechner heruntergeladen werden. Jede Rundfunkanstalt verfügt außerdem über eine oder mehrere Mailboxen, die über ISDNAmtsanschlüsse erreichbar sind. Sie werden vornehmlich von Ü-Wagen oder Reportern zur raschen Übermittlung aktueller Beiträge oder O-Töne genutzt, können umgekehrt aber auch einen eingeschränkten Zugriff auf die Audiobestände des Hörfunksystems gestatten. Unter der Bezeichnung Digitale Bemusterung (DigiBemus) sorgt ein eigenes Serversystem für die Bemusterung der ARD-Rundfunkanstalten mit den Neuerscheinungen der Musikindustrie. 923
Digitale Betriebstechnik Von den Redaktionen aus können Musiktitel in einem von der Tonträgerindustrie bestückten zentralen ARD-Server in Frankfurt vorgehört und bei Bedarf heruntergeladen werden. Das Material wird daraufhin in die Audiobestände der bestellenden Rundfunkanstalt übernommen und automatisch ein entsprechender Datenbankeintrag angelegt (DigiBemA). 16.1.3.5
Datensicherheit
Zur Gewährleistung höchstmöglicher Betriebssicherheit ist der Zentralserver eines Funkhauses einschließlich seines Massenspeichers redundant ausgeführt. Datentechnisch gesehen werden dabei zwei Server stets auf demselben Stand gebracht. Im Gesamtsystem ist allerdings immer nur eine der Einheiten aktiv. Zusätzliche Sicherheit wird durch eine räumlich getrennte Aufstellung erreicht. Darüber hinaus werden die Gesamtbestände zyklisch auf Bandlaufwerken gesichert, wobei zumindest für den Audioanteil nur die Veränderungen zum jeweils vorigen Sicherungslauf festgehalten werden („inkrementelles Backup“). Nicht mehr benötigte Audiodateien werden nach festlegbaren Kriterien automatisch gelöscht, während zur Langzeitarchivierung vorgesehenes Material auf Magnetband ausgelagert wird. Die Metadaten werden dabei weiterhin in der Datenbank des Zentralservers geführt und bleiben für weitere Recherchen zugänglich. Ist das Archiv mit einem Bandroboter ausgestattet, so können ausgelagerte Audiodateien auf Bedieneranforderung innerhalb kurzer Zeit aus dem Langzeitarchiv zurück auf den Server überführt werden, siehe auch Kap. 18.8.2. 16.1.3.6
Anwendungssoftware
Ein umfangreiches Paket an installierter Anwendungssoftware auf den digitalen Audioworkstations (AWS) ermöglicht dem Nutzer den Zugriff auf die verschiedenen Funktionen. Die einzelnen Module bilden in ihrer Gesamtheit alle Betriebsabläufe eines Hörfunks ab. Die Leistungsmerkmale einer AWS umfassen im Wesentlichen: -
Aufnahme und Bearbeitung von Audiomaterial, Recherche im Audioarchiv, Sendeplanung, Sendeabwicklung, Bestellen und Disponieren von Leitungsschaltungen und Mitschnitten, Systembetreuung, Agentur-Recherche, Moderationstexterfassung und -verwaltung.
Die sich daraus ergebende Zusammenführung verschiedenartigster Hard- und Software für rechnergesteuerte Systeme unter einer einheitlichen Benutzeroberfläche ist nur über eine höchst differenzierte Vergabe von Zugriffsrechten möglich, siehe auch Kap. 13.2.
16.1.4
Sendestudio
Jedes Hörfunkprogramm benötigt zur Sendeabwicklung ein eigenes Sendestudio. Es ist derjenige Ort, an dem alle Elemente zusammengefügt werden, die in ihrer zeitlichen Abfolge die eigentliche Sendung ausmachen. Die Gesamtheit der Räumlichkeiten für Technik und 924
Zentrale Einrichtungen Redaktion einer Programmwelle wird auch Sendekomplex genannt. Bei allen Gemeinsamkeiten hinsichtlich Anordnung und Ausstattung gibt es Unterschiede in der Ausführung, die sich an den Anforderungen der jeweiligen Programme orientieren. Ein zentrales Kriterium ist dabei immer, ob die Sendungen im Regie- oder im Selbstfahrerbetrieb abgewickelt werden sollen. Unabhängig vom inhaltlichen und gestalterischen Aufbau der Programme lassen sich in technischer Hinsicht eine Reihe wiederkehrender Standardfälle angeben: -
Ansagen, Moderationen und Gesprächsrunden aus dem Sprecherraum, Nachrichten, Wetterbericht oder Verkehrsmeldungen aus räumlich abgesetzten Studios, Musik, Beiträge und Layoutelemente aus dem digitalen Sendespeicher und von Tonträgern, Übernahme von Programmen oder Beiträgen einer anderen Rundfunkanstalt, beispielsweise einer Konzertübertragung, - Abwicklung von Konferenzschaltungen mit Übertragungswagen, Außenstudios oder anderen Rundfunkanstalten per Leitung, ISDN-Codec oder Telefon, - Übernahme eines hauseigenen Programms bei Zusammenschaltung mehrerer Wellen, - Übernahme einer Sendung aus einem Vorschaltstudio, beispielsweise eine komplexe Sportsendung oder ein Live-Hörspiel. Neben der Einhaltung der geplanten Beitragsabfolge ist die stimmige Gestaltung der Übergänge zwischen den einzelnen Programmelementen eine wichtige Voraussetzunge für eine ansprechende Sendung. Das tontechnisch oft sehr unterschiedlich beschaffene Audiomaterial muss deshalb durch eine angepasste Aussteuerung im Pegel technisch und klanglich angeglichen werden. Für den Hörer soll sich ein stimmiges und in der Lautheit ausgewogenes Klangbild ergeben. In einer Hörfunkwelle mit einem breit gefächerten, anspruchsvollen Programmangebot lösen sich Inhalte ganz unterschiedlicher Dynamik und Lautheit ab, die möglichst ohne große Änderung am Lautstärkeregler wahrgenommen werden sollen: - E-Musik - vom Soloinstrument über die Kammermusik bis zur Opernaufnahme mit großen Dynamikunterschieden, - Popmusik - verschiedenste Stilrichtungen, die meist „laut” klingen, - Jazz, Folk Chanson - kleine, vorwiegend akustisch besetzte Ensembles mit ausgeglichener Dynamik, - Hörspiel - von der ruhigen Besinnlichkeit bis zum lautstarken Tumult, - Livegespräch am Studiomikrofon - vielfach mit im Sprechen unerfahrenen Personen, - Telefoninterview mit unterschiedlicher technischer Audioqualität - vom ruhigen Zimmertelefon bis zum Mobiltelefon im fahrenden Auto, - Mitschnitt von Hörfunk- oder Fernsehprogrammen, die bereits eine sendeseitige Tonsignalaufbereitung durchlaufen haben, - Umfragen oder Gespräche in unterschiedlicher Umgebung - vom ruhigen Park bis zur lauten Hauptverkehrsstraße oder Werkhalle. Ein angemessener Lautstärkeverlauf oder eine geglückte Mischung über den Sendetag hinweg lässt sich bei einer solchen Materialvielfalt mit keiner automatisierten Dynamikbearbeitung erzielen. Letzte Instanz für die ausgewogene Aussteuerung und ihre technische wie ästhetische Beurteilung ist nach wie vor ein geschultes Sendepersonal mit erfahrenem Gehör. Dabei ist es hilfreich, dass in der Senderegie nicht nur die abgehende Sendesumme, sondern das tatsächliche 925
Digitale Betriebstechnik Sendesignal nach der Tonsignalaufbereitung abgehört wird. Der zunehmende Einsatz von kleinsten Audioelementen zur akustischen Ausgestaltung der Programme (Jingles, Teaser u.s.w.), insbesondere in den Formatprogrammen, hat in klanglicher wie zeitlicher Hinsicht zu einer starken Verdichtung des Sendungsablaufes geführt, dessen stimmige und lautheitsgerechte Sendeabwicklung ein hohes Maß an Konzentration erfordert. 16.1.4.1
Konventioneller Regiebetrieb
Der konventionelle Regiebetrieb ist die klassische Sendeform im Hörfunk. Hier wird das Programm von Moderator und Techniker arbeitsteilig abgewickelt. Je nach Komplexität des Sendungsablaufes kann noch eine zusätzliche Person, ein so genannter Producer, mit Regieaufgaben neben der Sendung betraut sein, z. B. Konferenzgespräche vorbereiten oder kurzfristig eintreffende Beiträge abhören und gegebenenfalls schneiden und in den Sendeplan übernehmen. Ein Sendekomplex umfasst in diesem Fall einen Regieraum und, durch schallisolierende Fenster von diesem getrennt, mindestens einen, häufiger jedoch zwei Sprecherräume. In der Senderegie sind sämtliche für die Programmabwicklung benötigten technischen Einrichtungen installiert, wie z. B. das Sendepult, die verschiedenen Bildschirme, Tastaturen und Steuergeräte für Zugriffe auf den Sendeplan und andere Ressourcen des digitalen Sendebetriebes, die Geräte für digitale und gegebenenfalls analoge Tonträger sowie verschiedene Kommunikationseinrichtungen mit eigenen Bildschirmen und Bediengeräten. Im Sprecherraum sind mindestens ein Mikrofon für den Moderator und zusätzlich mehrere Gästemikrofone angeordnet. Sie alle sind in der Regel als Monomikrofon mit nierenförmiger Richtcharakteristik ausgeführt. Das führende Sprechermikrofon kann über eine Räuspertaste kurzzeitig stumm geschaltet werden. Eine Besonderheit stellt die Möglichkeit eines Stereomikrofons mit der Richtcharakteristik eines waagrecht liegenden Torus für Monowiedergabe dar, welches für Gespräche am runden Tisch gut geeignet ist. Dabei werden zwei gekreuzte Achten unter 90/ Phasenverschiebung zusammengeschaltet; senkrecht einfallender Schall wird weitgehend ausgeblendet, während waagrechter Schalleinfall aus allen Richtungen aufgenommen wird, siehe auch Kap. 5.5.1. Zum Abhören des laufenden Programms dienen Lautsprecher und Kopfhörer, wobei die Lautsprecher im Sprecherraum bei Öffnen eines beliebigen Mikrofons über den zugehörigen Rotlichtkontakt im Sendepult zur Vermeidung von Rückkopplungen stumm geschaltet werden. Eine Anwahltastatur gestattet ferner das Abhören des Sendesignals und weiterer Quellen. So können beispielsweise bei Sportsendungen ankommende Leitungen vorgehört oder bei Konferenzschaltungen Vorgespräche geführt werden. Auf Bildschirmen werden der aktuelle Sendeablaufplan angezeigt, aber auch Moderationstexte und Servicemeldungen. Ein Kommandomikrofon mit Sprechtaste dient der Verständigung zwischen Regie- und Sprecherraum, wobei das ankommende Kommando außer auf den Kopfhörer entweder auf einen der Abhörlautsprecher oder auf einen eigenen, im Sprechertisch eingelassenen Kommandolautsprecher gelegt sein kann. Dieser wird dann bei geöffnetem Mikrofon ebenfalls stumm geschaltet.
926
Zentrale Einrichtungen 16.1.4.2
Selbstfahrerbetrieb
Beim Selbstfahrerbetrieb übernimmt der Moderator die Aufgaben von Sendetechniker und Ablaufredakteur in Personalunion. Dies bedeutet zu allererst den Wegfall der räumlichen Trennung zwischen Regie- und Sprecherraum. An die Ergonomie des Arbeitsplatzes sind besondere Anforderungen zu stellen. Alle Bedienelemente müssen in Reichweite des Moderators angeordnet sein, ohne dass dabei die Position zum Mikrofon verlassen wird. Entsprechendes gilt für die Aufstellung der Bildschirme. Selbstfahrerstudios verfügen in der Regel über mehrere Gästemikrofone. Die Dimensionierung des Sendepults sowie Art und Anzahl der Wiedergabegeräte richten sich nach dem vorgesehenen Einsatzspektrum. Es existieren von vorneherein für Selbstfahrerbetrieb ausgelegte Pulte, deren Bedienelemente auf das Wesentliche reduziert sind. Ihr Einsatz ist aber nur dann sinnvoll, wenn das jeweilige Programm dem Sendekomplex dauerhaft zugeordnet ist und innerhalb dieses Komplexes ein vergleichbar ausgestattetes Ausweichstudio für Notfälle vorhanden ist. Häufig wird innerhalb eines Funkhauses eine weitgehend einheitliche technische Ausrüstung angestrebt, nicht zuletzt, um bei Bedarf Studioumzüge leichter realisieren zu können. Ein voll ausgebautes Selbstfahrerstudio ist in seiner technischen Ausstattung durchaus mit einer regulären Senderegie vergleichbar. Dennoch ergeben sich aus der Besetzung mit nur einer Person Einschränkungen hinsichtlich der abzudeckenden Betriebsfälle und Sendungsformen. Gelegentlich wird bei komplexen Sendungen, wie z. B. für die Sportberichterstattung, eine Art Mischbetrieb praktiziert, bei dem eine zweite Person am Selbstfahrerplatz anwesend ist und als Producer technische oder redaktionelle Unterstützung leistet. Eine universelle Lösung stellt die Zusammenfassung einer Senderegie, eines Selbstfahrerstudios und zweier Sprecherräume zu einem Sendekomplex dar. 16.1.4.3
Leitungsanbindung
Die Signale sämtlicher im Betrieb benötigten Tonquellen müssen im Sendepult auf Pegelstellern verfügbar sein. Im analogen Betrieb war dies Aufgabe eines Eingangsverteilers oder Klinkenfeldes, heute übernimmt dies eine auf der digitalen Signalebene arbeitende digitale Kreuzschiene, die logisch in das Sendepult integriert ist. An ihr sind eingangsseitig die Ausspielwege des Sendeservers, die CD-Player und DAT-Recorder, die digitalen Internleitungen aus der Betriebszentrale sowie weitere digitale Quellen über AES/EBU und MADI angeschlossen. Analoge Geräte, wie Mikrofone und Bandmaschinen sind über entsprechende Wandlerkarten angebunden. Plattenspieler für Vinyl-Schallplatten kommen im digitalen Sendebetrieb nicht mehr zum Einsatz. Auch können in der Senderegie die Eingänge mit frei wählbaren Leitungen belegt werden, wie z. B. die Ausgänge von Audiocodecs, hausinterne Tonsignale aus einem Vorschalt- oder Selbstfahrerstudio, Leitungen von Außenstudios oder Verteilleitungen des ARD-Sternpunktsystems. Die Abwicklung von Konferenzschaltungen erfolgt grundsätzlich unter Verwendung eigentonfreier Rückleitungen. Für dieses Verfahren hat sich auch der Ausdruck „n-1 Technik“ eingebürgert. Bei einer Konferenz mit n Teilnehmern wird jeder Teilnehmer über die für ihn bestimmte Rückleitung nur mit den Anteilen der anderen Gesprächsteilnehmer versorgt, während das eigene Signal nicht zugespielt wird. 927
Digitale Betriebstechnik War die n-1 Technik beispielsweise bei Verbindungen über ISDN-Audiocodecs auch im analogen Umfeld bereits notwendig, so ist sie bei ausschließlich digitaler Signalführung unverzichtbar. Die große Zahl aktiver Komponenten im Signalweg führt zu systembedingten Laufzeiten, die sich bei nicht eigentonfreier Rückführung beim entfernten Gesprächspartner im günstigsten Falle als unerwünschte Klangfärbung darstellen, bei längeren Laufzeiten jedoch ein flüssiges Sprechen unmöglich machen. Je nach Ausführung und Konfiguration des Regiepults wird diese Aufgabe unterschiedlich gelöst. Eine komfortable Variante besteht darin, zu jeder von der Betriebszentrale in die Regie geführten Leitung eine zugehörige Rückleitung vorzusehen. Die benötigten eigentonfreien Summen werden pultintern gebildet und können an Ausgängen der oben erwähnten Kreuzschiene abgegriffen werden. Zur Übernahme von Telefongesprächen gibt es mehrere Möglichkeiten, angefangen von Telefon-Anschaltgerät (Telefon-Hybrid) bis hin zu kompletten Telefonanlagen, die umfangreiche Gestaltungsmöglichkeiten bieten, insbesondere bei Sendungen mit Hörerbeteiligung. Vom Sendeausgang des Regiepults wird das fertig gemischte Tonsignal schließlich über den Sendeschalter in die Betriebszentrale geführt und von dort über das Koppelfeld weiterverteilt. Übliche Ausstattung sind zwei getrennte Stereo-Endsummen und eine Monosumme, wobei diese pultintern aus der ersten Stereosumme gebildet wird. Der Sendeschalter dient dann dazu, den zugehörigen Sendeweg in Betrieb zu nehmen oder ihn „offline“ wahlweise mit einem Kennungsgeber oder einem Pegeltongenerator zu belegen. Darüber hinaus kann eine weitere Schaltposition bei Wechsel des Studios im laufenden Betrieb vorgesehen sein, bei der die Sendeleitung statt mit der eigenen Sendesumme mit dem Ausgang eines anderen Studios belegt wird. So kann ein und dasselbe Hörfunkprogramm auf einfache Weise abwechselnd in verschiedenen Studios abgewickelt werden. Zum Zeitpunkt der Umschaltung muss lediglich gewährleistet sein, dass das abzulösende und das neu hinzukommende Studio ein identisches Signal abgeben. Dies ist beispielsweise beim Lesen der Nachrichten aus einem Nachrichtenstudio der Fall, sofern in beiden Sendestudios der Pegelsteller in gleicher Stellung geöffnet ist. 16.1.4.4
Weitere Einrichtungen
Neben den tontechnischen Standardeinrichtungen in einer Senderegie sind noch weitere technische Einrichtungen zum reibungslosen Ablauf einer Sendung wichtig. Eine Kommando-Sprechstelle ermöglicht rasche und zielgerichtete Betriebsabsprachen sowohl innerhalb des Sendekomplexes, z. B. in die Sprecherräume, als auch hausweit mit der Betriebszentrale, den Nachrichtenstudios oder den diversen Außenstudios. Auch finden sich in den Senderegien und Sprecherstudios Tasten zum Auslösen der Verkehrsfunk-Durchsagekennung sowie Anzeigen zur Rückmeldung des momentanen Zustandes (Durchsage ein/aus). Der so genannte „Hinz-Triller“ als hörbares Signal zum Schalten von Durchsagekennungen wurde inzwischen weitgehend von einer unhörbaren digitalen Signalisierung abgelöst. Diese kann allerdings nicht in das Audiosignal eingebettet werden, sondern ist Bestandteil des RDS-Datenstromes, der über Datenleitungen zu den Senderstandorten gelangt, siehe Kap. 17.5.5.1. Die Rückmeldung wird durch Auswertung des Schaltausgangs eines entsprechenden Kontrollempfängers in der Betriebszentrale gewonnen und gibt somit Aufschluss über den tatsächlichen Zustand „über Sender”. 928
Zentrale Einrichtungen Als weitere Abhörquellen stehen mindestens die Sendesummen, die Sendewege vor und nach Sendeschalter sowie diverse Kontrollempfänger zur Verfügung. Das früher übliche Abhören des Empfängers während der Sendung ist heute wegen der unterschiedlichen Signallaufzeiten beim Rückempfang nur noch eingeschränkt möglich. Andererseits ist gerade bei einem starken Processing des Sendesignals die auditive Kontrolle des tatsächlichen Sendesignals hinsichtlich Dynamik und der damit verbundener Audioqualität wichtig. In diesem Fall besteht eine Abhörmöglichkeit hinter dem Ausgang des jeweiligen Audioprozessors. Nachrichten-, Wetter- und Verkehrsstudios, meist räumlich weit entfernt von jeweiligen Sendekomplex, können je nach Anforderung als einfacher Sprecherraum mit nur einem Mikrofon und einer kleinen Abhöreinrichtung ausgeführt sein, aber auch über die flexiblere Ausstattung eines Selbstfahrerplatzes verfügen.
Abb. 16/8. Prinzipielle Leitungsanbindung eines Sende- oder Produktionsstudios.
16.1.5
Vorproduktion
Zur Herstellung von Beiträgen und vorproduzierten Sendungen sind in einem Funkhaus Studiokomplexe verschiedener Ausstattung vorhanden. Eine gut ausgebaute Produktionsregie unterscheidet sich dabei nur wenig von einem Sendestudio. Abb. 16/8 zeigt die Einbettung eines universell einsetzbaren Studios in die Signalverteilung des Hörfunks. Einfacher eingerichtete Räume dienen vorwiegend dem Bearbeiten von Audiomaterial aus dem digitalen Archiv oder dem Einspielen beispielsweise von Reporter-O-Tönen. Auch die Variante eines Selbstfahrer-Produktionsstudios oder eines Redaktionsarbeitsplatzes mit eingeschränkten technischen Möglichkeiten sind heute üblich. Darüber hinaus ist im vernetzten Funkhaus letztlich jeder PC, der über eine Soundkarte und eine passende Softwareausstattung verfügt, ein potentieller Schnittplatz. Im aktuellen News-Betrieb wird von solchen Lösungen, die praktisch ohne großen apparativen Aufwand auskommen, reger Gebrauch gemacht.
16.1.6
Intercom
Ein Funkhaus mit seinen komplexen, häufig zeitlich gedrängten Betriebsabläufen, wäre ohne die Möglichkeit der direkten raschen internen und externen Kommunikation nicht denkbar. 929
Digitale Betriebstechnik Das Zusammenwirken der verschiedenen Kommunikationssysteme zeigt Abb. 16/9.
Abb. 16/9. Kommunikationseinrichtungen des Hörfunkbetriebs.
16.1.6.1
Sprechanlagen
Im alltäglichen Sprachgebrauch steht der Begriff „Kommandoanlage“ für jede Art von Sprechanlage. Sie vereint die drei möglichen Funktionalitäten: - Kommandoanlage: unidirektionale Sprechverbindungen in nur einer Richtung, der Angesprochenen kann nicht antworten. - Gegensprechanlage: bidirektionale Sprechverbindungen für gleichzeitiges Hören und Sprechen, heute vorherrschende Form einer Kommandoanlage. - Wechselsprechanlage: bidirektionale Verständigung in beiden Richtungen, es kann immer nur eine Richtung aktiv sein. Die Sprechstellen können frei aufgestellt oder in einem Regietisch, Gerätegestell usw. fest eingebaut sein. Sie verfügen über einen Lautsprecher, ein Mikrofon und über Tasten, die der Zielanwahl dienen und gleichzeitig als Sprechtasten fungieren. Ein Signalisierungsausgang kann dazu genutzt werden, bei einem an- oder abgehenden Ruf die Abhörlautstärke für die Dauer des Gesprächs abzusenken, um die Verständigung zu erleichtern. Kernstück einer Kommandoanlage ist ein digital angesteuertes Koppelfeld. Die Anbindung der Sprechstellen erfolgt über eine serielle Datenverbindung, die Audiosignale werden entweder analog über eine eigene Leitung oder ebenfalls seriell übertragen. Frei schaltbare Verbindungen in das Audiokoppelfeld der Betriebszentrale und in die hausinterne Telefonanlage ermöglichen die Einbindung beliebiger Quellen und Senken. Über Telefonhybride können Fernsprechverbindungen in das Kommandonetz einbezogen werden, während ISDNCodecs es gestatten, nicht nur Sprache, sondern auch Steuerdaten an eine entfernte Sprechstelle 930
Zentrale Einrichtungen zu übertragen. Wird die ISDN-Strecke nicht dauerhaft benötigt, so kann deren Aufbau durch Drücken einer entsprechenden Zieltaste veranlasst werden. Die zunehmende Verbreitung der Internettelefonie (VoIP, Voice over IP) kann ebenfalls eingebunden werden, und schließlich ist es möglich, über eine Netzwerkverbindung komplette Anlagen miteinander zu verknüpfen. Moderne Kommandoanlagen dieser Art sind durch den Anwender in hohem Maße konfigurierbar. Die Eigenschaften jeder einzelnen Sprechstelle, die Belegung der Ruftasten, die Einrichtung von Gruppenrufen oder Antwortfunktionen können teils an den Sprechstellen direkt, überwiegend jedoch am PC durch ein Konfigurationsprogramm festgelegt werden (Abb. 16/10). Aufwändig aufgebaute Sprechstellen können mehrere Dutzend Tasten aufweisen, deren Belegung durch ein alphanumerisches Display angezeigt wird.
Abb. 16/10. Beispiel für die Konfigurationsoberfläche einer Kommandoanlage.
16.1.6.2
Betriebsfernsprechanlage
Meldeleitungen in Telefonqualität dienen bei Außenübertragungen für interne betriebliche Absprachen oder als Konferenzrückleitungen. Genau wie Tonleitungen werden sie auf Anforderung durch entsprechende Provider bereitgestellt. Auch zu dauerhaft geschalteten Ortsempfangsleitungen gehört in der Regel eine entsprechende Dauer-Meldeleitung. Wie die analogen Ortsempfangsleitungen werden auch Meldeleitungen zunehmend durch ISDN-Anschlüsse oder regionale Netzwerkanbindungen abgelöst. So erlaubt bereits ein einziger B-Kanal mit 64 kBit/s zumindest im Wortbereich den Aufbau einer rundfunkfähigen Verbindung in zwei Richtungen. Im Notfall können über eine solche Strecke auch aktuelle Sendungen überspielt werden. Die analoge Leitungsführung kann in Zwei- oder Vierdrahttechnik erfolgen. Bei Vierdrahtbetrieb ist für Hören und Sprechen je ein eigener Kreis vorgesehen, bei Zweidrahtbetrieb werden beide Sprechrichtungen über einen einzigen Kreis abgewickelt, siehe Abb. 16/11. 931
Digitale Betriebstechnik Letzteres entspricht der Funktionsweise des herkömmlichen analogen Telefonapparats. Die gelegentlich noch anzutreffenden Kürzel OB (für Ortsbatterie) und ZB (für Zentralbatterie) beziehen sich auf die Stromversorgung einer Telefonanlage. Im ersten Fall wird jeder Telefonapparat von seiner eigenen Batterie gespeist, im zweiten erfolgt die Versorgung aller Apparate über eine zentrale Stromquelle in der Vermittlung. In den sog. Feldtelefonen findet sich die einfachste Verkörperung des OB-Prinzips.
Abb. 16/11. Prinzipielle Darstellung von Zwei- und Vierdrahttechnik.
Die Meldeleitungen laufen in der Betriebszentrale in einer eigenen Vermittlungseinrichtung auf. Dort werden sie in die Sende- und Produktionsstudios innerhalb des Funkhauses weiterverbunden oder zu Konferenzenleitungen bei mehreren Teilnehmern zusammengeschaltet. Waren die Vermittlungseinrichtungen früher regelrechte Telefonzentralen mit beträchtlichem Platzbedarf für Bedientisch und Vermittlungstechnik, so werden heute überwiegend PCgesteuerte Kommandoanlagen mit grafischer Benutzeroberfläche verwendet. Die Signale aller Leitungen werden digitalisiert und in einem Koppelfeld nach Bedarf miteinander verbunden. Gemischte Zwei- und Vierdrahtverbindungen sowie Verbindungen in die normale Telefonanlage des Funkhauses sind ebenso möglich wie die Anbindung der Kommandoanlage oder des zentralen Audiokoppelfelds. Die Signalprozessoren der Anlage übernehmen auf der digitalen Ebene auch die für Konferenzschaltungen benötigte eigentonfreie Summenbildung. Eine solche Einrichtung wird auch als Konferenzserver bezeichnet. Gelegentlich sind noch drahtlose Personenrufanlagen in Betrieb. Diese, auch „Piepser" genannten Geräte haben angesichts der universellen Verfügbarkeit von Mobiltelefonen ihren Nutzen jedoch weitgehend eingebüßt. Bei den Piepsern handelte sich um kleine Empfänger, die über ein eigenes Bediengerät oder spezielle Rufnummern der Haustelefonanlage angesprochen werden können. Die Kommunikationsmöglichkeit beschränkt sich auf eine Durchsage an den Empfänger. Häufig ist auch nur die Übermittlung eines Signaltons als weitere Handlungsaufforderung möglich.
932
Zentrale Einrichtungen
16.1.7
Stromversorgung
Die Versorgung einer Rundfunkanstalt mit elektrischer Energie erfolgt in der Regel über das öffentliche Stromversorgungsnetz. Die dreiphasig zugeführte Hoch- oder Mittelspannung wird abwärts transformiert und steht mit den üblichen Werten von 400 V zwischen den Leitern und 230 V gegen Null zur Verfügung. Die Weitergabe an die Verbraucher erfolgt über Unterverteilungen in mehrere, nach Verwendungszwecken getrennte Netze. Vor allem die Einrichtungen der Daten- und Studiotechnik sind vor den Spannungsschwankungen und Störimpulsen, wie sie beim Schalten von Verbrauchern hohen Leistungsbedarfs entstehen, durch getrennte Netze zu schützen. Um den Sendebetrieb auch bei einem Ausfall der öffentlichen Stromversorgung gewährleisten zu können, steht in der Regel eine entsprechend dimensionierte Notstromversorgung im Hintergrund „stand by“. Die Energie-Versorgungsnetze, an die sämtliche senderelevanten Verbraucher angeschlossen sind, werden ebenfalls redundant ausgelegt. Im Störungsfall springen selbsttätig Dieselgeneratoren an und sind bereits nach kürzester Zeit in der Lage, die Stromversorgung zu übernehmen; es können Anlaufzeiten unter zehn Sekunden dabei erreicht werden. Bei Einrichtungen, die keinerlei Ausfällen oder Schwankungen der Netzversorgung ausgesetzt werden dürfen, erfolgt der Betrieb zusätzlich über eine batteriegepufferte unterbrechungsfreie Stromversorgung (USV). Die elektrische Energie wird dabei den Verbrauchern nicht direkt, sondern über eine Kombination von Leistungsgleichrichter und nachgeschaltetem Wechselrichter zugeführt. Zwischen Gleich- und Wechselrichter ist eine Akkumulatorenbatterie geschaltet, die ständig in voll aufgeladenem Zustand gehalten wird. Bei Auftreten einer Netzstörung übernimmt die Batterie über den Wechselrichter automatisch die Versorgung, ohne dass es auf Verbraucherseite zu irgendeiner Unterbrechung kommt (Abb. 16/12). Batterielaufzeiten von mehr als einer Stunde sind dabei möglich. Die Dieselgeneratoren übernehmen jedoch nach sehr viel kürzerer Zeit die Stromversorgung und laden dann auch die Akkumulatorenbatterie wieder auf. Sorgfältige Wartung sowie regelmäßige Tests und Probeläufe sind eine wichtige Voraussetzung für das reibungslose Funktionieren einer solchen Anlage.
Abb. 16/12. Prinzip einer unterbrechungsfreien Stromversorgung (USV).
Die analoge Studiotechnik kannte im Wesentlichen zwei Arten der Stromversorgung. Geräte höherer Leistungsaufnahme, wie Bandmaschinen oder Leistungsverstärker, besaßen diskret eingebaute Netzteile und wurden direkt aus dem 230 V-Netz gespeist. Baugruppen mit 933
Digitale Betriebstechnik geringerem Strombedarf wie z. B. Regietische oder Gerätegestelle wurden dagegen meist zentral mit einer 24 V-Betriebsgleichspannung versorgt. Die Netzteile waren überwiegend doppelt ausgeführt und derart miteinander verschaltet, dass bei Ausfall einer Einheit die Stromversorgung ohne betriebliche Einschränkungen vom zweiten Netzteil übernommen wurde. Durch die wachsende Vielfalt verfügbarer Geräte und Systeme und deren teils sehr unterschiedliche Anforderungen an die Stromversorgung, hat sich das Bild gewandelt. Die zentrale Gleichspannungsspeisung ist zwar noch in Anwendung, aber die überwiegende Mehrzahl der für freie Aufstellung oder Gestelleinbau vorgesehenen Komponenten ist heute mit eingebautem Netzteil und Kaltgeräteanschluss versehen. Auch die aus der Consumertechnik bekannten Steckernetzteile sind zunehmend im professionellen Bereich anzutreffen, vor allem bei kleineren Geräten der Digitaltechnik mit nur minimalem Leistungsbedarf. Ihr Einsatz gestattet zwar einen einfacheren und von vielen Sicherheitsaspekten unberührten Geräteaufbau, kann aber je nach Ausführung zu Einbußen bei der Betriebssicherheit führen. Probleme kann ferner der steigende Einsatz von Schaltnetzteilen bereiten. Vor allem bei mangelhafter Ausführung und Dimensionierung verursachen diese auf Netz- und Verbraucherseite störende Einstreuungen, deren Spektrum sich von Oberwellen der Netzfrequenz bis hin in den Rundfunkbereich erstrecken kann. Durch ihre nicht-sinusförmige Stromaufnahme erhöhen sie außerdem den Blindleistungsanteil und erschweren eine vorteilhaft gleichmäßige Belastung der Leiter im Mehrphasensystem.
16.2
Übertragungswege
16.2.1
Problemstellung
Ursprünglich wurden für Verbindungen zwischen Funkhaus und externen Übertragungsorten oder Sendern analoge Leitungen aus dem Hoheitsbereich der Post als angemietete Übertragungswege eingesetzt. Im Prinzip handelte es sich hierbei um selektierte und entzerrte Kabel des regulären Telefonverkehrs in symmetrischer 600-Ohm-Technik mit verdrillten Leiterpaaren. In der nachfolgenden technischen Entwicklungsphase wurden diese Übertragungswege gegen trägerfrequente, aber im Prinzip immer noch analoge Systeme (z. B. MSt15 mit zweimal 15 kHz Audio-Bandbreite) ausgetauscht und damit bereits ein wesentlicher qualitativer Fortschritt erzielt. Heutige Übertragungssysteme arbeiten ausschließlich digital, wobei die analogen Audiosignale nach einer Umwandlung als digitale Datensignale weitergeführt werden. Durch den Einsatz redundanz- und irrelevanzreduzierender Quellencodierung ist die Kapazität der Übertragungswege und damit die mögliche Anzahl der Audiokanäle pro Leitungsweg deutlich erhöht. Die Entwicklung der digitalen Übertragungstechnik gestattete es, dem eigentlichen Audiosignal auch programmbegleitende Zusatzinformationen hinzuzufügen. Digitale Leitungen dienen deshalb der Übertragung sowohl der eigentlichen Audiosignale wie auch der zugehörigen Begleitdaten (Essenz- und Metadaten, vgl. auch Kap.11.6). Durch die digitalen Tonleitungssysteme sind viele Schwachstellen der analogen Signaltechnik aufgehoben. Hierzu gehören in erster Linie die für die analoge Übertragungstechnik typischen 934
Übertragungswege Fehler wie additive Störungen oder lineare und nichtlineare Verzerrungen. Zusammen mit den Verbesserungen der Audioqualität ergeben sich aber auch grundsätzliche betriebliche Nachteile durch den nun vorhandenen hohen Bündelungsgrad von Informationen, was bei Unterbrechungen im Signalfluss zu Totalausfällen auf breiter Basis führen kann; auch haben nicht korrigierbare Übertragungsfehler häufig einen sehr ungewohnten, lästigen Klangcharakter. Es muss daher bei der Codierung digitaler Tonkanäle (vgl. Kap. 11.4.2) ein erhöhter Aufwand beim Fehlerschutz getrieben werden. Die digitale Leitungstechnik für Tonübertragungen basiert auf der Entwicklung der digitalen Telefonie. Alle Hierarchien dieser Technologie bauen letztlich auf der Digitalisierung von Sprachsignalen auf, bei der die Amplitude des Sprachsignals als 8-Bit-Datenwort dargestellt wird. Dies ergibt bei Abtastung mit einer Frequenz von 8 kHz (für eine Audiobandbreite von < 4 kHz) die Übertragungsbitrate von 64 kBit/s. Hieraus folgt als unterste Hierarchiestufe digitaler Tonübertragungssysteme der sog. 64 kBit/s-Basiskanal. Alle höheren Hierarchiestufen werden jeweils durch Multiplexbetrieb mehrerer Basiskanäle erzeugt. Neben leitungsgebundenen Übertragungswegen kommen immer häufiger drahtlose, bzw. satellitengestützte Übertragungsverfahren zum Einsatz, die es erlauben, Audiobeiträge auch spontan, d. h. ohne besondere Vorbereitung oder Leitungsbestellung, von nahezu jedem Punkt der Erde aus in eine Rundfunkzentrale zu übertragen. Für den Hörfunkbetrieb hat sich in diesem Zusammenhang die Nutzung des weltumspannenden Systems „Inmarsat“ bewährt. Bei diesem Verfahren wird von einer transportablen Antenneneinheit über einen Inmarsat-Satelliten die Verbindung zu einer Erde-Funkstelle hergestellt. Von dieser Erde-Funkstelle aus wird das Signal dann per Audiocodec und ISDN-Verbindung ins Funkhaus übertragen.
16.2.2
Codierverfahren
16.2.2.1
Quellencodierung
Die Quellencodierung dient der bitratenreduzierten Signaldarstellung am Eingang der Übertragungskette. Es wird grundsätzlich zwischen Redundanzreduktion und Irrelevanzreduktion unterschieden. Bei einer Redundanzreduktion ist die Quellencodierung verlustlos, d. h., das Audiosignal ist trotz der Komprimierung des Datenstroms wieder absolut identisch herstellbar. Bei der Irrelevanzreduktion ist die Quellencodierung verlustbehaftet. Durch den Einsatz von redundanz- und irrelevanzreduzierender Quellencodierung kann die nutzbare Bandbreite der zu übertragenden Kanäle oder auch deren Anzahl entscheidend erhöht werden. Die im Zusammenhang mit den weiter unten beschriebenen Schnittstellen und Übertragungsverfahren für Audioprogramme verwendeten Codecs zur Quellencodierung sind an entsprechender Stelle erwähnt. Eine ausführliche Darstellung der in der Tonstudiotechnik gebräuchlichen Verfahren und Systeme zur Quellencodierung ist im Kap. 12 „Audiocodierung“ zu finden. 16.2.2.2
Kanalcodierung
Die Kanalcodierung dient dazu, Nachrichten so zu formatieren, dass sie nach Übertragung auf einem realen Übertragungskanal wieder fehlerfrei entziffert werden können. Das Ziel der 935
Digitale Betriebstechnik Kanalcodierung ist ein Schutz der zu übertragenden Information gegen typische Störeinflüsse des Übertragungskanals und die Rücksichtnahme auf dessen spezifische Eigenschaften. Dieses Ziel wird durch eine entsprechende Signalcodierung oder die Einfügung von Redundanzen in das Datensignal erreicht, z. B. durch Mitübertragung von Prüfsymbolen. In verschiedenen Fällen, wie bei Anwendung der in Kap. 16.2.4 beschriebenen E1-Schnittstelle, findet im Zuge der Quellencodierung bereits eine Anpassung an die Übertragungsparameter der nachfolgenden Kanalcodierung statt. 16.2.2.3
Kryptologische Codierung / Verschlüsselung
Durch den Einsatz von kryptologischer Codierung oder Verschlüsselung wird einerseits vermieden, dass Unbefugte eine Nachrichtenübertragung belauschen oder unberechtigt empfangen; andererseits ermöglicht sie eine sichere Authentisierung des Absenders. Bei der Ausstrahlung von Rundfunksendungen kann sie zur gezielten Adressierung von Kundenkreisen genutzt werden.
16.2.3
Synchronisation
In digitalen Systemen ist die Verschaltung verschiedener Komponenten mit unterschiedlichen Systemtakten ohne besondere Vorkehrungen nicht möglich. Bevor ein Empfänger das Signal des Senders auswerten kann, müssen beide Systeme durch Synchronisation in Gleichlauf gebracht werden. Dies kann auf unterschiedliche Art erfolgen (s. auch Kap. 18.2.7.3): - In einfachen Konfigurationen übernimmt der Empfänger das Taktsignal des Senders. - In komplexen Systemen und Netzen steht ein hochstabiler zentraler Systemtakt zur Verfügung. An diesen werden alle einzelnen Systemkomponenten zur Synchronisation angeschlossen.
16.2.4
Die E1-Schnittstelle
16.2.4.1
Übersicht
Für die Übertragung von Daten im digitalen Telefonsystem ISDN (Integrated Services Digital Network) wurde in Europa das PCM30-System bereitgestellt. Es handelt sich dabei um ein PCM-Primärsystem, basierend auf dem Zeitmultiplexverfahren Time Division Multiplexing (TDM), bei dem jeder Datenstrom einem sich wiederholenden Zeitschlitz konstanter Länge zugeordnet wird. Das PCM30-System besteht aus 30 Sprachkanälen mit einer Datenrate von jeweils 64 kBit/s, einem Signalisierungskanal und dem Kanal für die Synchronisation. Diese 32 Kanäle bilden zusammen einen Rahmen, der sich alle 125 :s wiederholt. Hieraus ergibt sich eine Datenrate von 32 × 64 kBit/s = 2,048 MBit/s. In der digitalen Hierarchie nach europäischem Standard (ITU-T) ordnet sich das PCM30-System in die unterste Ebene mit der Bezeichnung E1 ein. Von dieser Bezeichnung leitet sich auch der Name der hier betrachteten Schnittstelle ab, die 936
Übertragungswege alternativ auch als S2M- oder 2 MBit/s-Schnittstelle bezeichnet wird. Neben der Anwendung für ISDN hat sich diese Schnittstelle inzwischen auch zur Übertragung von Audio- oder Datensignalen etabliert. In Deutschland ist sie, insbesondere wegen des dort umfassenden Ausbaus der ISDN-Netze, besonders stark verbreitet. 16.2.4.2
Technische Parameter
Die elektrischen Parameter der E1-Schnittstelle werden ausführlich in der Richtlinie [ITU-T G.703] beschrieben. Sie wird entweder als symmetrische oder als unsymmetrische Leitung ausgeführt; im Telekommunikationsbereich ist die symmetrische Leitung üblich, die aus zwei Kupferdoppeladern besteht, von denen jeweils eine Doppelader pro Übertragungsrichtung verwendet wird. Bei längeren Leitungswegen ist auch die Übertragung über eine Glasfaserverbindung möglich. Die Datenübertragungsrate beträgt 2048 kBit/s ± 50 ppm. Die wichtigsten elektrischen Parameter sind in nachfolgender Tab. 16/1 zusammengefasst; sie beziehen sich auf die Impulsmaske in Abb. 14/13. Aus dieser Impulsmaske ergeben sich die maximal erlaubten Verzerrungen der Signalform an einer E1-Schnittstelle durch Einfluss des Übertragungskanals. Tab. 16/1. Digitale Schnittstelle mit 2048 kBit/s nach G.703. Nominal-Impulsart: Rechteck Paar(e) je Übertragungsrichtung Wellenwiderstand Spitzenspannung eines Zeichens (Impuls) Spitzenspannung einer Leerstelle (kein Impuls) Nominal-Impulsbreite Amplitudenverhältnis von positiven und negativen Impulsen in Intervallmitte Abstandsverhältnis von positiven und negativen Impulsen an halber Nominal-Amplitude
Alle gültigen Signalkomponenten liegen innerhalb der Impulsmaske 1 koaxiales 1 symmetrisches Leitungspaar Leitungspaar 75 S 120 S Nenn-Lastscheinwiderstand Nenn-Lastscheinwiderstand 2,37 V 3,0 V 0 ± 0,237 V
0 ± 0,3 V
244 ns 0,95 bis 1,05
0,95 bis 1,05
Das Rahmenformat der E1-Schnittstelle wird in der Richtlinie [ITU-T G.704] beschrieben. Der 2 MBit/s-Grundrahmen (frame) hat eine Länge von 32 × 8 Bit = 256 Bit. Bei einer Rahmenwiederholfrequenz von 8 kHz ergibt sich daraus die Bitrate des Datenstroms zu 8000 × 256 Bit/s = 2,048 MBit/s. Die Rahmendauer eines Grundrahmens beträgt somit 125 :s (vgl. Kap. 16.2.4.1). Jeweils 16 solcher Grundrahmen werden zu einem Multiframe zusammengefasst, wie in Abb. 16/14 dargestellt. Die Rahmenwiederholfrequenz des Multiframes ist 8000 Hz / 16 = 500 Hz, die Rahmendauer beträgt entsprechend 2 ms.
937
Digitale Betriebstechnik
Abb. 16/13. G.703-Impulsmaske für die 2048 kBit/s-Schnittstelle.
Die Datenkapazität des Multiframes setzt sich aus insgesamt 32 Zeitschlitzen mit je 64 kBit/s zusammen. Diese können für die Übertragung einzeln genutzt oder zur Erhöhung der Nettodatenrate zusammengefasst werden. Insgesamt stehen 30 Zeitschlitze für die Übertragung bereit; das entspricht einer Nettobitrate von1920 kBit/s. Zeitschlitz 0 (TS0) ist für die Synchronisation reserviert und kann nicht anderweitig genutzt werden. Zeitschlitz 16 (TS16) diente ursprünglich bei der Übertragung von Telefongesprächen über eine E1-Leitung der Signalisierung. Bei der heute üblichen Datenübertragung ist diese Signalisierung nicht mehr erforderlich, weshalb der TS16 ebenfalls für Nutzdaten zur Verfügung steht. Wird der Zeitschlitz 16 für andere Aufgabenstellungen verwendet, ist in diesem Fall die mögliche Kapazität des Zeitschlitzes nicht immer voll ausgeschöpft. Üblicherweise werden im TS16 Begleitdaten und Zusatzinformationen übertragen; manche Hersteller implementieren hier zusätzlich Fernwirk-Möglichkeiten, die es dem Bediener erlauben, das Gerät der Gegenseite über die E1-Leitung zu konfigurieren und zu überwachen. Da die verschiedenen Anwendungen im Zeitschlitz 16 aber nicht standardisiert sind, funktionieren sie meist nur bei Geräten desselben Herstellers bzw. Typs einwandfrei.
938
Übertragungswege
Abb. 16/14. Grundrahmen / Multirahmen nach G.704 (2,048 MBit/s).
Zur Anpassung an die Eigenschaften der Übertragungsstrecke wird der Datenstrom im Anschluss an die Multirahmenbildung kanalcodiert. Die hierzu verwendete Leitungscodierung ist ternär, d. h., es stehen drei gültige elektrische Schaltzustände +!,, +0, und ++, zur Darstellung der beiden logischen Zustände Null und Eins zur Verfügung. Eine logische Null entspricht dabei physikalisch dem Zustand +0,, während die logische Eins einem Wechsel des Zustands von +!, nach ++, oder umgekehrt entspricht. Es wird der sog. HDB3-Code (High Density Bipolar of order 3) eingesetzt (Abb. 16/15), der auf dem AMI-Code (Alternate Mark Inversion) basiert; bei diesem Code dürfen nicht mehr als drei Nullen hintereinander auftreten. Dies ist insbesondere für die Taktrückgewinnung sehr wichtig, da auch bei längeren Folgen von logischen Nullen spätestens nach der dritten Null ein physikalischer Wechsel stattfindet. Der Empfänger merkt sich dabei jeweils den letzten Wechsel des Vorzeichens, wodurch eine Codeverletzung durch zwei gleiche Vorzeichen hintereinander bemerkt wird. Tab. 16/2 zeigt die zugehörige Bitmatrix. Der Empfänger muss demnach mindestens vier Bit empfangen, bevor er ein Signal ausgeben kann. Die hieraus resultierende systemimmanente Signalverzögerung beträgt 4 × 488 ns = 1,952 :s. Tab. 16/2. Bitmatrix von HDB3. Letzter Impuls Ungerade Gerade +00+ Negativ 000! !00! Positiv 000+
939
Digitale Betriebstechnik Neben der Leitungscodierung wird innerhalb des Multiframings im Zeitschlitz 0 (TS0) ein CRC-4 (Cyclic Redundancy Check) gemäß ITU-T G.704 eingesetzt. Dazu wird der Multiframe in zwei Sub-Multiframes SMF I, Frame 0 bis 7, und SMF II, Frame 8 bis 15 unterteilt. Aus diesen werden gemäß dem verwendeten G.704-Generator-Polynom die Prüfsummen zum Vergleich mit dem jeweils vorhergehenden Sub-Multiframe erstellt. Treten Übertragungsfehler auf, so können diese im Rahmen der Schutzfunktion des Polynoms kompensiert werden. Parallel zum CRC-4 wird im Zeitschlitz 0 die Prüfziffernfolge , das sog. Frame Alignment Signal (FAS), übertragen. Diese Zeichenfolge wird auf der Gegenseite ständig überwacht und führt beim Erkennen eines Übertragungsfehlers zu einem Alarmsignal AIS (Alarm Indication Signal). Fehlerzustände der Gegenstelle werden durch das Bit RAI (Remote Alarm Indication) signalisiert. Das Bit A in Zeitschlitz 0 erhält dann den Wert logisch Eins, ansonsten steht das Bit auf logisch Null.
Abb. 16/15. HDB3-Bitfolge.
16.2.4.3 Quellencodierungsverfahren bei E1 Sowohl am Ort der Außenübertragung als auch im Funkhaus kann das Audiosignal wahlweise im analogen Basisband oder als linear PCM-codiertes digitales Signal zur Verfügung stehen. Als Quellencodierungsverfahren mit Redundanzreduktion werden in Verbindung mit der E1Schnittstelle bereits seit vielen Jahren das J.41- und das J.57-Verfahren verwendet. Diese Codierungen beinhalten neben der Redundanzreduktion bereits eine Anpassung des Quellensignals an den Übertragungskanal der E1-Schnittstelle und können daher praktisch als Bestandteil der Kanalcodierung betrachtet werden. Neben diesen Verfahren werden in jüngster Zeit die Codierverfahren apt-X und enhanced apt-X verstärkt im Rundfunkbereich eingesetzt (s. Kap. 12.4.8).
940
Übertragungswege Codierverfahren nach ITU-T J.41 Das nachfolgend beschriebene Codierverfahren wird in der Empfehlung [ITU-T J.41] definiert. Es codiert ein Mono-Audiosignal von 32 kHz Abtastfrequenz und 14 Bit Wortbreite mit einem Kompressionsfaktor von 14 Bit/11 Bit = 1,27. Aus diesen Werten errechnet sich die nominale Quellcodierbitrate von 352 kBit/s. Zusätzlich wird ein Paritäts-Bit für den Fehlerschutz hinzugefügt, wodurch sich eine Übertragungsbitrate von 384 kBit/s ergibt. Insgesamt können mit diesem Codierverfahren fünf Monosignale oder zwei Stereo- und ein Monosignal über eine E1-Leitung übertragen werden.
Abb. 16/16. Segment-Codiervorschrift 14/11 und Zeitschlitzzuordnung bei J.41.
Die Übertragungsbandbreite beträgt 15 kHz. Ein studioseitig vorliegendes digitales Audiosignal mit einer Abtastfrequenz von 48 kHz und 24 Bit je Abtastwert (oder alternativ das analoge Audiosignal) muss zunächst auf 32 kHz Abtastfrequenz und 14 Bit Wortbreite umgesetzt werden. Dies geschieht im Sample-Rate-Converter (SRC, s. Kap. 11.2.1.2) des Übertragungsgeräts bzw. über dessen Analog/Digital-Wandler. Danach erfolgt die Umformung der 14-Bit-Worte in 11-Bit-Worte; hierzu wird eine nichtlineare PCM-Codierung durch eine Quantisierungskennlinie mit 11 Segmenten verwendet, die nahezu verzögerungsfrei arbeitet (vgl. Kap. 11.2.2.2). Für die Verwendung in 2,048-MBit/s-Hierarchien kommt der Typ A der beiden möglichen Varianten des Verfahrens zum Einsatz. Abb. 16/16 zeigt die positive Hälfte der Codiervorschrift für diesen Vorgang, für die negativen Werte ändert sich nur das Vorzeichen, d. h., das 941
Digitale Betriebstechnik erste Bit des Codeworts wird invertiert. Die Bits 1 bis 5 werden nach der Codierung, aber vor dem Einfügen des Paritätsbits, invertiert. In Abhängigkeit vom Signalpegel gliedert sich die effektive Auflösung der Signalquantisierung in sechs Bereiche. Signale mit niedrigem Pegel (Bereich von 0 bis 127) werden mit 14 Bit Wortbreite aufgelöst, sehr hohe Pegel (Bereich von 4096 bis 8191) nur noch mit 9 Bit Wortbreite. Die hieraus gewonnenen 11-Bit-Worte erhalten abschließend durch Einfügung eines Paritätsbits ihren Fehlerschutz; hierzu werden 32 Bit je Frame verwendet, wobei ein Paritätsbit den Fehlerschutz für jeweils drei Samples übernimmt. Die auf diese Weise entstandenen 12 Bit-Worte werden anschließend gemäß der Zuordnung in Abb. 16/16 auf die Zeitschlitze des 2,048-MBit/s-Multiframes verteilt. Ein Monosignal belegt genau sechs Zeitschlitze. Das hier beschriebene Verfahren J.41 wird in Deutschland von der Telekom für die UKWSender-Speisung verwendet. Zusätzlich lassen sich für jedes Stereo-Audiosignal Zusatzinformationen übertragen, die typischerweise als serieller Datenstrom angeliefert werden. Bei der UKW-Versorgung werden auf diese Weise begleitende RDS-Daten wie Radiotext, TMC (Traffic Message Channel) usw. zum Sender geführt. Codierverfahren nach ITU-T J.57 Das Codierverfahren nach Empfehlung [ITU-T J.57], vormals CMTT.724, nutzt den gesamten 2,048-MBit/s-Datenstrom eines E1-Systems für die Übertragung eines Stereosignals oder zweier Monosignale. Die Abtastfrequenz ist 48 kHz, die Wortbreite des digitalen Worts beträgt 20 Bit, der Kompressionsfaktor ist 20 Bit/18 Bit = 1,11. Hier steht eine Bandbreite von 20 kHz zur Verfügung. Das J.57-Verfahren ist zur Verwendung in 2,048-MBit/s- und in 1,544-MBit/s-Systemen spezifiziert. Bei 2,048-MBit/s-Systemen kommt die Variante H12 (alternativ zu H11) zur Anwendung. Nachfolgend wird die Variante H12 beschrieben. Das analoge oder digitale Audiosignal wird zunächst auf eine Abtastfrequenz von 48 kHz und 20 Bit Wortbreite gebracht, danach werden die 20-Bit-Abtastwerte in das 18-Bit-Format des Übertragungscodeworts überführt. Dies geschieht durch eine 20/18-Gleitkomma-Umsetzung. Im unteren Bereich von Abb. 16/17 ist die zugehörige Codiervorschrift dargestellt. Die Datenwortfolge wird zunächst in Blöcke von je 48 Abtastwerten pro Kanal, also insgesamt 96 Abtastwerten, unterteilt. Die Blocklänge beträgt 1 ms, was zu einer Mindest-Zeitverzögerung von 2 ms für einen nach diesem Verfahren arbeitenden Übertragungscodec führt. In jedem Block wird jeweils der größte Abtastwert des Digitalsignals als Maß für die Spitzenaussteuerung ermittelt. Aus diesem Wert ergibt sich ein Skalenfaktor, der im Prinzip aussagt, an welcher Stelle im Audio-Datenwort die erste Eins liegt. Der Skalenfaktor gibt somit an, wie viele führende (redundante) Null- oder Eins-Werte (je nach Vorzeichen) der ermittelte Maximalwert enthält; die Übertragung dieser Null- oder Eins-Werte ist daher entbehrlich. Es wird auf diese Weise für 96 Abtastwerte eine Anzahl an Bits eingespart, so dass die zur Verfügung stehenden 18 Bit ausreichend sind. Da bei dem 20-Bit-Signal im Studio die ersten beiden Bits (ohne Vorzeichen-Bit) im Bereich der Übersteuerungsreserve (Headroom) liegen, lassen sich mit diesem Verfahren bei Pegeln bis +6 dBu Signale mit der vollen Auflösung von 20 Bit übertragen. Steigt der Pegel über +6 dBu, verringert sich die Auflösung auf 19 Bit bzw.18 Bit, wie aus Abb. 16/17 zu entnehmen ist. Bei Aussteuerungen, die den Skalenfaktor 000 bzw. 001 für einen Block von 96 Abtastwerten 942
Übertragungswege hervorrufen, erfolgt durch Abschneiden (Truncation) von jeweils einem bzw. zwei Least Significant Bits (LSB) eine Verringerung der übertragenden Datenwortlänge von 20 auf 19 bzw. 18 Bit.
Abb. 16/17. Codiervorschrift für den 20/18-Gleitkomma-Wandler.
Innerhalb eines Blocks werden die 96 Abtastwerte gemäß der Vorgabe von ITU-T G.704 acht aufeinander folgenden Zeitschlitzen zugeordnet. Jeder Zeitschlitz enthält sechs Abtastwerte eines jeden Audiosignals, zuzüglich eingefügter Parity-Bits zum Fehlerschutz. Benachbarte Abtastwerte innerhalb des Blocks werden auf vier Zeitschlitze verteilt. Diese Zuordnung ist in Abb. 16/18 dargestellt. Die ersten vier Zeitschlitze beinhalten alle ungeradzahligen Abtastwerte der beiden Audiokanäle, die zweiten vier Zeitschlitze beinhalten die geradzahligen Abtastwerte. Im Falle einer Übertragungsstörung mit Beeinträchtigung einer Bitfolge von bis zu vier aufeinander folgenden Zeitschlitzen können die gestörten Bits durch Interpolation der benachbarten, nicht gestörten Abtastwerte verdeckt werden.
943
Digitale Betriebstechnik
Abb. 16/18. Bit-Verwürfelung innerhalb des 1 ms-Blocks.
Abb. 16/19. Modulation der Parity-Bits und Zusatzinformation.
Um den Skalenfaktor zu übertragen, ohne dafür zusätzliche Übertragungskapazität zu verwenden, wird das folgende Verfahren angewendet: In jedem 1-ms-Block sind insgesamt 96 Parity-Bits enthalten. Jedes einzelne Bit des 3 Bit langen Skalenfaktors wird in den Parity-Bits von acht Abtastwerten transportiert. Es gilt die Regel, dass bei einem Skalenfaktor mit dem Bitwert Null das Parity-Bit von acht Abtastwerten unverändert bleibt. Das Ergebnis dieses Vorgangs ist, dass immer dort, wo durch den sich wiederholenden Skalenfaktor eine Eins erscheint, das Parity-Bit negiert auftritt. Im Decoder müssen die Daten nun aus der Veränderung der Parity-Bits wieder rekonstruiert 944
Übertragungswege werden. Dazu wird ein Mehrheits-Entscheidungsprozess verwendet, da jedes invertierte Parity-Bit auch die Folge eines invertierenden Übertragungsfehlers sein könnte. Auf diese Weise lassen sich die Skalenfaktor-Bits ermitteln, das Original-Parity-Bit kann wiederhergestellt werden und ein Fehlerschutz der Abtastwerte ist nun möglich. Abb. 16/19 zeigt die zugehörige Matrix dieses Codiervorgangs. Die so entstandenen Achterblöcke (Oktetts) werden in die 30 verfügbaren Zeitschlitze des 2,048-MBit/s-Systems eingefügt. Die Oktetts in den Zeitschlitzen 1 bis 24 enthalten die Audioinformation, die Oktetts in den Zeitschlitzen 25 bis 30 enthalten Zusatzinformation und weitere Audiobits. Die Zusatzinformation wird transparent übertragen. Weitere Codierverfahren Alternativ zu den genannten Verfahren mit Redundanzreduktion kommen auch Verfahren mit Irrelevanzreduktion zum Einsatz, bei denen die Codiereffizienz zum Teil beträchtlich höher ist und somit die Anzahl der zu übertragenden Signale erheblich gesteigert werden kann. Als bekannteste Verfahren werden hier MPEG-1 Audio-Layer 2 / Audio-Layer 3 und AAC genannt; Details s. Kap. 12.4. 16.2.4.4 Synchronisation bei E1 Die Synchronisation von Endgeräten an einer E1-Leitung kann auf verschiedene Arten erfolgen. Im einfachsten Fall sind zwei Geräte direkt (peer-to-peer) miteinander verbunden. Jedes Gerät gibt seinen eigenen Takt an das jeweils andere weiter. Das zweite Gerät synchronisiert sich dann auf den Takt des ersten Gerätes. Man spricht in diesem Fall von einer Codirektionalen Schnittstelle (Abb. 16/20).
Abb. 16/20. Codirektionale Taktschnittstelle.
Sind beide Endgeräte Bestandteile eines übergeordneten Verbunds, z. B. Geräte an einer Telekomleitung, so lässt sich der codirektionale Betrieb nur bei sog. transparenten Leitungen realisieren. Da transparente Leitungen über keinen eigenen Systemtakt verfügen, ist deshalb die externe Synchronisation beider Seiten mit einem Zentraltakt der Normalfall (Abb. 16/21). Basierend auf der Genauigkeit von Frequenznormalen („Atomuhren“) werden solche Takte nicht nur in den internen Netzen der Leitungsprovider verwendet, sondern sie werden auch über funkgestützte Systeme wie DCF77 (Rufzeichen des Normalzeitsenders) oder GPS (Global Positioning System) verteilt. Auf diese Weise kann durch Empfang und Decodierung der Zeitsignale ein hochgenauer Zentraltakt gewonnen werden. 945
Digitale Betriebstechnik
Abb. 16/21. Zentraltakt-Schnittstelle.
In einer weiteren möglichen Anordnung liefert ein übergeordnetes Endgerät den Takt für sein Partner-Endgerät. Diese Konfiguration heißt Contradirektionale Schnittstelle (Abb. 16/22). Es gelten dieselben Randbedingungen wie vorher beschrieben.
Abb. 16/22. Contradirektionale Taktschnittstelle.
Die Anforderungen an die Taktschnittstelle sind ebenfalls in der Empfehlung ITU-T G.703 geregelt. Die Taktfrequenz beträgt 2048 kHz ± 50 ppm, sie kann symmetrisch mit 120 S Leitungswiderstand oder coaxial mit 75 S Leitungswiderstand ausgelegt sein. Die maximalen Spitzenspannungen müssen den Grenzwerten der zugehörigen Pulsmaske entsprechen.
16.2.5 Die ASI-Schnittstelle 16.2.5.1 Übersicht Die ASI-Schnittstelle (Asynchronous Serial Interface) ist eine der beiden physikalischen Übertragungsformate des digitalen Fernsehsystems DVB. Über ASI werden Datenströme transportiert, die nach dem MPEG-Verfahren komprimierte Video- und Audiodaten zusammen mit Zusatzinformationen enthalten. Durch die Verbreitung von Radioprogrammen über DVB hat die ASI-Schnittstelle auch ihre Anwendung im Hörfunk gefunden. ASI gestattet bei der Zuführung von Radioprogrammen zu einem Uplink-Standort die Möglichkeit einer Vormultiplexbildung. Das bedeutet, dass die Quellencodierung der Radioprogramme, die Einspeisung von Zusatzinformationen und die Festlegung der jeweiligen Datenraten bzw. die Anzahl der Radioprogramme direkt im Funkhaus vorgenommen werden können; das ist ein wesentlicher Vorteil gegenüber alternativen Lösungen. 946
Übertragungswege Der Hauptmultiplexer befindet sich am Standort des Satelliten-Uplinks. Dort werden die Vormultiplexsignale mit den Programmpaketen aller zuliefernden Rundfunkanstalten durch Neuordnung der Datenströme zusammengefasst. Dabei werden die Datenströme ausgelesen und neu beschriftet, eine Umcodierung erfolgt hier jedoch nicht. Alle relevanten Konfigurationsänderungen können daher weiterhin in der jeweiligen Rundfunkanstalt autonom durchgeführt werden. Derzeit wird nach diesem Verfahren z. B. die Zuordnung eines Mehrkanaldatenstroms zu verschiedenen Radioprogrammen und die zugehörige Signalsierung innerhalb des DVB-Systems vorgenommen (vgl. auch Kap. 17.2.4). 16.2.5.2 Technische Beschreibung Die ASI-Schnittstelle ist eine unidirektionale serielle Schnittstelle mit einer Datenkapazität von 270 MBit/s. Diese Datenrate ergibt sich aus der ursprünglichen Video-Anwendung von ASI und entspricht einem unkomprimierten digitalen Kamerasignal [ETSI TR 101 891]. Es gibt zwei verschiedene physikalische Ausführungen der Schnittstelle: ASI-O verwendet eine optische Glasfaserleitung, ASI-C benutzt unsymmetrisches Koaxialkabel. Dieses Kupferkabel ist typischerweise mit BNC-Armaturen versehen, der Wellenwiderstand beträgt 75 S. Die Ausgangsspannung liegt bei 800 mVSS ± 10%, die Eingangsspannung bei 200 mV bis 800 mV. Die ASI-Schnittstelle dient der Übertragung von MPEG-2-Transportströmen. Die Datenbits dieses Transportstroms werden vor der Übertragung im Zuge einer redundanzerhöhenden Kanalcodierung von 8 Datenbits in 10 Datenbits umgewandelt (Tab. 16/3). Hinzu kommt eine Leitungscodierung, die den Datenstrom selbsttaktend macht und dessen Gleichspannungsanteil minimiert; maximal fünf Null- oder Eins-Bits dürfen aufeinander folgen. Bit a wird als erstes übertragen, es folgen die Bits b bis j. Tab. 16/3. 8 Bit/10 Bit-Umsetzung. Data Byte
d7
d6
d5
d4
d3
d2
d1
d0
8B information character
H
G
F
E
D
C
B
A
10B transmission character
a
b
c
e
i
f
g
d
h
j
Gemäß der Codiervorschrift erhält jedes gültige Datenbyte eine Bezeichnung nach dem Schema . Das x entspricht hierbei dem dezimalen Wert der Bits EDCBA, das y dem dezimalen Wert der Bits HGF. Zusätzlich zu diesen Datenbytes wurden Sonderzeichen definiert. So dient das Sonderzeichen , auch „Comma“ genannt, im System als Stopfbyte (Füllwort ohne relevanten Dateninhalt); andere werden zur Synchronisation genutzt. Tab. 16/4 zeigt z. B. das MPEG-2-Transportstrom-Synchron-Byte 47H mit dem dieser Bitfolge entsprechenden Datenbyte-Namen .
947
Digitale Betriebstechnik Tab. 16/4. Darstellung des Transportstrom-Synchron-Bytes. 8B information character
0
1
0
10B transmission character RD+
1
1
1
10B transmission character RD!
0
0
0
0
0
0
0
1
1
1
1
1
0
0
1
0
1
1
0
1
0
1
Die jeweilige Bit-Polarität der Codierung hängt von RD, dem sog. Running Disparity Parameter, ab. RD bestimmt die Anzahl der aufeinander folgenden Nullen und Einsen während der Übertragung. Der Wechsel zwischen den Codeworten in Abhängigkeit von RD regelt den Gleichspannungsanteil der Übertragung. RD wird errechnet aus zwei Sub-Blöcken, den Bits abcdei und fghj. Der RD-Wert eines neuen Startblocks ergibt sich jeweils aus dem vorangegangenen Block. - RD am Ende eines Sub-Blocks ist dann positiv, wenn der Sub-Block mehr Einsen als Nullen bzw. die Werte 000111 oder 0011 enthält. - RD ist negativ, wenn der Sub-Block mehr Nullen als Einsen hat bzw. die Werte 111000 oder 1100 enthält. - Anderenfalls wird bei gleicher Anzahl von Null- und Eins-Bits der letzte RD-Wert beibehalten, da kein Handlungsbedarf bezüglich der Gleichspannungsfreiheit besteht. - Bei Neustart des Senders wird definitionsgemäß der negative RD-Wert benutzt. Die Redundanz der 8Bit/10Bit-Umsetzung kann zur Fehlererkennung genutzt werden. Die eigentliche Leitungscodierung erfolgt durch einen Biphase Mark Code. Abb. 16/23 zeigt die Codiervorschrift für diesen Code:
Abb. 16/23. Leitungscode Biphase Mark.
Laut Biphase-Mark-Codiervorschrift findet grundsätzlich immer zu Beginn eines Datenbits ein Wechsel des Leitungspegels statt, unabhängig davon, ob der Bitwert Null oder Eins ist. Für eine logische Eins findet dann ein weiterer Polaritätswechsel in der Mitte dieses Bits statt, für eine logische Null erfolgt der Wechsel erst am Ende des Datenbits. Die Anwendung dieses Leitungscodes erfordert die doppelte Bandbreite gegenüber dem ursprünglichen NRZ-Code (Non Return to Zero), in dem die Nutzdaten üblicherweise vorliegen. Der Grundtakt der ASI-Schnittstelle beträgt 27 MHz, daraus ergibt sich bei 10 Datenbits eine Übertragungsbitrate von 270 MBit/s. Die Rate des zu transportierenden Bitstroms kann 948
Übertragungswege beliebig unter diesem Wert liegen, da ungenutzte Bytes durch Stopfbytes aufgefüllt werden. Die Stopfbytes sind 10-Bit-Datenworte, die bei der 8Bit/10Bit-Codierung nicht als gültige Datenworte auftreten. Das ASI-Übertragungsformat des MPEG-2-Transportstroms wird definiert in [ISO/IEC 13818-1 (Systems)]. Der MPEG-2-Transportstrom ist zur Übertragung in Datenpakete von je 188 Byte aufgeteilt. Jedes Datenpaket besteht aus einem 4 Byte langen Header und den 184 Byte für die Nutzdaten (Abb. 16/24). Das MPEG-2-Transportstrom-Synchron-Byte 47H im Header kennzeichnet den Anfang eines jeden Transportstromdatenpakets und dient auch zur Synchronisation. Um Fehler bei der Synchronisation zu verhindern, wird in [EN 50083-9] festgelegt, dass das Byte 47H in den Datenpaketen nicht vorkommen darf. Falls das Byte 47H dennoch in den Nutzdaten auftritt, ist eine sichere Synchronisation dadurch gewährleistet, dass die Auswertung des periodischen Auftretens über mehrere Transportstromdatenpakete abgewartet wird. Die Identifikation eines Transportstromdatenpakets erfolgt mit Hilfe des Packet Identifier (PID), der mit einer Länge von 13 Bit im Header enthalten ist.
Abb. 16/24. MPEG-2 Transportstrom-Datenpaket.
Abb. 16/25. MPEG-2 Transportstrom-Datenpaket (Synchronisation).
949
Digitale Betriebstechnik In EN 50083-9 wird auch definiert, dass mindestens zwei Worte jedem Transportstrompaket vorausgehen sollen (Abb. 16/25). Aus der Kombination mit Stopfbytes und dem Synchronisationsbyte ergibt sich eine geringere maximale Nutzbitrate von 213,7 MBit/s. Optional kann dem Signal ein Vorwärts-Fehlerschutz mit 16 Reed-Solomonoder 16 Dummy-Bytes hinzugefügt werden.
Abb. 16/26. ASI-Übertragungsverfahren (Byte- und Paket-Modus).
Zur Übertragung stehen zwei verschiedene Verfahren zur Verfügung: die byteweise Übertragung (burst mode) oder die paketweise Übertragung (packet mode). Bei der byteweisen Übertragung wird der MPEG-2 Transportstrom in einzelne Bytes aufgeteilt und diese werden im Wechsel mit der gleichen Anzahl an Stopfbytes übertragen, so dass die ASI-Übertragungsbitrate von maximal 270 MBits/s erreicht wird. Bei der paketweisen Übertragung werden komplette Transportstromblöcke übertragen. Die Zwischenräume werden gleichmäßig mit Stopfbytes aufgefüllt, bis die ASI-Übertragungsbitrate von 270 MBits/s erreicht ist (Abb. 16/26). In Abb. 16/27 sind die Komponenten und Funktionsblöcke einer ASI-Übertragungsstrecke zusammengefasst.
950
Übertragungswege
Abb. 16/27. Zentrale Komponenten einer koaxialen ASI-Übertragungsstrecke.
16.2.6 HYBNET - das Netz der ARD 16.2.6.1 Übersicht Das hybride Breitbandübertragungsnetzwerk (HYBNET) der ARD wurde als Projekt in einer Zeit gestartet, als sich durch den Verfall des Leitungsmonopols der Post verschiedene Anbieter für Telekommunikationsleistungen und -Dienste am Markt etablierten.
Abb. 16/28. Verbindung der ARD-Hauptstandorte.
951
Digitale Betriebstechnik Es handelt sich beim HYBNET um ein diensteintegrierendes Breitbandnetzwerk, welches das Hörfunk-Dauerleitungsnetz, also Austausch- und Meldeleitungen, das Fernseh-Dauerleitungsnetz, sowie das Kommunikationsnetz der ARD, das sog. „Corporate-Network“ für Sprachund Datendienste beinhaltet (Abb. 16/28). Außerdem wird der Audio- und Videofiletransfer über dieses Netz abgewickelt. Das HYBNET basiert auf einer SDH-Ringstruktur (Synchrone Digitale Hierarchie) mit einer Kapazität von 2,5 GBit/s (STM-16), die alle Hauptstandorte der ARD miteinander verbindet. Eine zusätzlich eingeführte Verbindung, die sog. „Querspange“ zwischen Frankfurt/Main und Leipzig dient – neben der Lastverteilung – der zusätzlichen Sicherheit der ansonsten als einfacher Ring ausgeführten Topologie. Dadurch teilt sich das Netz auf in einen Nord- und einen Südring. An den Standorten Köln und Berlin werden Deutsche Welle und Deutschlandradio über „local loops“ mit eigener SDH-Ausstattung bei einer Kapazität von 622 MBit/s (STM-4) an die jeweiligen Hauptknoten angebunden (vgl. Abb. 16/29).
Abb. 16/29. Der HYBNET-Knoten Köln.
16.2.6.2 Struktur des HYBNET Der Aufbau des HYBNET-Übertragungssystems folgt einer für digitale Kommunikationsnetze typischen Schichten-Struktur; Basis ist die sog. Carrierschicht. Sie besteht aus unstrukturierten segmentweisen Punkt-zu-Punkt-SDH-Verbindungen zwischen den HYBNETHauptstandorten mit einer Kapazität von 2,5 GBit/s (STM-16). Auf der Carrierschicht setzt die SDH-Provider-Schicht auf. In dieser Schicht werden die SDH-Festnetzverbindungen festgelegt. Die Provider-Schicht stellt allen darüber liegenden Schichten feste logische Verbindungen im Netz zur Verfügung. Die PDH/SDH konformen Übertragungsraten sind 2, 34, 140, 155 und 622 MBit/s (PDH/SDH = Plesiochrone/Synchrone Digitale Hierarchie). Die Verbindungen werden mit ATM-Technik und über Audio/Video-Codecs realisiert. 952
Übertragungswege Die ATM-Ebene (Asynchroner Transport Modus) ermöglicht ihrerseits eine flexible Bandbreitenaufteilung über die Festlegung bestimmter Qualitätsparameter der Verbindungen, z. B. durch die Definition von QoS (Quality of Service). Bei diesen ATM-Verbindungen besteht keine zwingende Bindung an PDH/SDH-konforme Übertragungsraten. ATM bietet Verbindungen mit konstanter und variabler Bitrate. Für ATM-Verbindungen stehen im HYBNET insgesamt 622 MBit/s zur Verfügung. Nach der Optimierung des Netzes im Jahre 2005 wurde zusätzlich das ATM-Derivat DTM (Dynamic Synchronous Transfer Mode) als Übertragungstechnologie eingeführt. Bei DTM handelt es sich um ein spezielles Zeitmultiplexverfahren, das verbindungsorientiert ist; es stehen 155 MBit/s als Übertragungskapazität zur Verfügung. Durch diesen Netzaufbau können alle erforderlichen Dienste im HYBNET realisiert werden (Abb. 16/30).
Abb. 16/30. Prinzipieller Schichtaufbau des HYBNET.
16.2.6.3 Dienste im HYBNET Ein wichtiger Aspekt des HYBNET-Schichtenmodells ist die Trennung der Carrier- und Providerdienste. Dies ermöglicht den unabhängigen Bezug von Carrier-Leistungen einerseits und netztechnischem Betrieb andererseits. Nach Ablauf der Leistungsverträge mit einem Carrier können entsprechend der Marktlage Übertragungsleistungen von beliebigen anderen Carriern bezogen werden, ohne die Funktion des Netzbetriebs zu gefährden (Abb. 16/31). Die Anbindung einer Rundfunkanstalt erfolgt an jedem Hauptstandort durch einen Basisknoten in Form eines SDH-Multiplexers und der erforderlichen Peripherie. Der Anschluß des Basisknotens zur Carrier-Hardware erfolgt über eine doppelt ausgelegte Glasfaserverbindung. Die audio-/videotechnischen Geräte, sowie ATM-Switch und Peripherie werden am Basisknoten angebunden; dies gilt auch für die Netze der Steuerungstechnik, sowie für die Überwachungstechnik und die Telemetrieeinrichtungen. Die Übergabe bzw. die Installation des Basisknotens in der Rundfunkanstalt erfolgt in einem sog. Signalübergaberaum (SÜR). Von hier aus wird die interne Verteilung der verschiedenen Audio-, Video- und Datensignale über das hauseigene Leitungsnetz vorgenommen. Auch Unterstandorte von lokalen Standorten des 953
Digitale Betriebstechnik Hörfunks und des Fernsehens werden hier angebunden. Nachfolgend wird das HörfunkDauerleitungsnetz im HYBNET näher betrachtet.
Abb. 16/31. Technische Trennung von Carrier und Provider.
Aus der Gesamtkapazität des HYBNET von 2,5 GBit/s stehen 52 E1-Leitungen mit jeweils 2 MBit/s dem Hörfunk zur Verfügung. Ein Teil dieser Leitungen liegt beim ARD-HörfunkSternpunkt im E1-Koppelfeld auf und kann mit Hilfe eines Steuerrechners frei verschaltet werden. Die verwendeten Codierverfahren sind J.41 und J.57. Jede ARD-Rundfunkanstalt verfügt über mindestens eine Leitung zum E1-Koppelfeld des Sternpunkts. Als Endgeräte kommen Multiplexer zum Einsatz, die neben J.41 und J.57 auch G.722 und MPEG-1 Layer 2 als Codierverfahren beherrschen. Innerhalb des Koppelfelds wird die Verschaltung von einoder zweikanaligen Audiosignalen durchgeführt. Dabei kann auch eine Umcodierung zwischen den Verfahren J.41 und J.57 erfolgen. Die funktionale Hauptaufgabe des Dauerleitungsnetzes ist nicht allein die Verschaltung verschiedener Audioquellen und -senken, sondern die Möglichkeit, von jeder angeschlossenen Rundfunkanstalt innerhalb des hauseigenen Leitungs- und Schaltungsdispositionssystems Leitungsbestellungen und die dazu notwendigen Koppelfeldschaltungen im Sternpunkt in Frankfurt/Main buchen und auch ausführen zu können. Dies gilt dabei nicht nur für kurzfristige Schaltungen, sondern auch bei der mittel- und langfristigen Vorbereitung z. B. von Sportveranstaltungen. Das Leitungsbestellsystem gibt Auskunft über die Verfügbarkeit von Leitungen und bucht diese entsprechend, so dass eine verbindliche Vorplanung ermöglicht wird. Es können nicht nur Punkt-zu-Punkt-Verbindungen zwischen zwei Rundfunkanstalten, sondern auch Punkt-zu-Multipunkt-Schaltungen hergestellt werden. Ein Beispiel für eine solche Schaltung sind die gemeinschaftlichen Nachtprogramme der ARD, die jeweils „live“ von einer Rundfunkanstalt an die restlichen Rundfunkanstalten verteilt werden. 954
Übertragungswege Neben diesen dezentral aufbaubaren Verbindungen sind auch feste Dauerschaltungen im Sternpunktkoppelfeld eingerichtet, die für die Kontribution (Programmzuführung) oder für die Distribution (Senderzuführung) verwendet werden. Ein Beispiel hierfür ist das ADR-Programm (Astra Digital Radio) von Radio Bremen, das über das HYBNET via Frankfurt/Main und Köln zum Uplink-Standort nach Langenberg/NRW geführt wird. Für die Übertragung von Mehrkanalsendungen innerhalb der ARD und als Zuführung zu einem Satelliten-Uplink des EBU-Systems „Euroradio“ in Frankfurt/Main ist im E1-Koppelfeld die technische Möglichkeit einer transparenten Verschaltung von E1-Signalen nachgerüstet worden. Gleichzeitig wurde jeweils eine zusätzliche E1-Leitung in die Funkhäuser freigeschaltet, die im Sternpunktkoppelfeld disponiert und verschaltet werden kann. Als Endgeräte kommen hier Multiplexer zum Einsatz, die das Codierverfahren „enhanced apt-X“ verwenden (vgl. Kap. 12.4). Parallel zum 4.0-, 5.0- oder 5.1- Mehrkanalton wird bei diesen Geräten als „Simulcast“, also in zeitgleicher Aussendung, auch der Stereoton übertragen. Es besteht zudem noch die Möglichkeit, über die Geräte eine Kommandoverbindung zwischen den Teilnehmern aufzubauen. Die 52 E1-Anbindungen für den Hörfunk sind als geschützte Leitungen ausgeführt. Das bedeutet, dass jede Leitung physikalisch zweifach vorhanden ist und bei einem Ausfall der Betriebsweg von der N-Lage auf den Ersatzweg (X-Lage) umgeschaltet werden kann. Tatsächlich wird dabei der HYBNET-Ring jeweils in der entgegengesetzten Richtung zum Verbindungspartner durchlaufen. Die Umschaltung erfolgt nahezu unterbrechungsfrei, allerdings unterscheiden sich je nach Richtung die Signallaufzeiten.
16.2.7 Filetransfer 16.2.7.1 Übersicht Datennetze bieten sich schon seit einigen Jahren immer häufiger als Alternative zum konventionellen Programmaustausch über Tonleitungen an. Dies ist nicht zuletzt auf den Erfolg des Internets und den damit verbundenen Ausbau der weltweiten Netzwerke zurückzuführen. Der Austausch von Programm-Elementen über solche Netze bietet viele Vorteile gegenüber der konventionellen Überspielung über Leitungen. Neben wirtschaftlichen Vorteilen ergibt sich z. B. die Möglichkeit der Übertragung eines Beitrags schneller als in Echtzeit. 16.2.7.2 ARD-Filetransfer und Replikation Durch die Einführung von digitalen Audiospeichern in den Rundfunkanstalten konnten nicht nur die Beitragsbearbeitung und -speicherung, sondern auch die Sendeabwicklung wesentlich vereinfacht und beschleunigt werden. Der Beitragsaustausch per Filetransfer zwischen den Rundfunkanstalten wirkt sich in folgender Hinsicht positiv aus (vgl. auch Kap. 13.2): - Die in der Datenbank vorhandenen beschreibenden Daten (Metadaten), wie Titel, Autor, Aufnahmeort und Anmerkungen, werden mit dem File übertragen; das bedeutet, die Beiträge kommen bereits fertig beschriftet beim Empfänger an. Somit entfällt das Ankündigen des Beitrags durch den Absender und das manuelle Beschriften beim Empfänger. 955
Digitale Betriebstechnik - Ein bereits sendefertiger Beitrag muss beim Empfänger nicht mehr konfektioniert, also nachbearbeitet werden, wie das bei Aufnahme des Beitrags in Echtzeit bisher notwendig war. - Der Filetransfer erfolgt per Datenverbindung. Eine Replikation eines Beitrags über das Datennetz der ARD kann somit mehrfach schneller als in Echtzeit erfolgen. - Durch den Filetransfer werden überflüssige Digital/Analog- und Analog/Digital-Wandlungen vermieden und mindestens ein Datenreduktionsschritt bei der Übertragung der Beiträge eingespart. - Die technische Betriebsabwicklung wird vereinfacht und beschleunigt. Es können z. B. zusätzliche Leitungs- und Speicherbestellungen entfallen. Der ARD-Audiofiletransfer erfolgt automatisiert durch „Replikation“ der Beiträge und ermöglicht somit einen einfachen und schnellen Beitragsaustausch, sowohl zwischen den Rundfunkanstalten der ARD, als auch innerhalb einer Rundfunkanstalt. Unter der Replikation eines Beitrags ist die identische Nachbildung einer Datenbank oder Datentabelle an mehreren Orten zu verstehen. Änderungen an einem Ort werden vom Replikationssystem auch zu den anderen Orten übertragen. Die Datenbanken werden auf diese Weise auf einem einheitlichen Stand gehalten. Für die Benutzer an den unterschiedlichen Orten entsteht somit der Eindruck, als würden sie an einer gemeinsamen großen Datenbank arbeiten. Per Replikation können die teilnehmenden Sender auf einen gemeinsamen Datenbestand mit Hörfunkbeiträgen zugreifen. Sobald ein Sender einen Beitrag in seine Datenbank eingestellt hat, wird diese Änderung zu allen Sendern übertragen, und der Beitrag erscheint unmittelbar danach in deren ARD-Datenbank. Diese Verteilung erfolgt per Auto-Replikation, d. h., ohne dass ein weiterer Benutzerzugriff erforderlich wird. Für ARD-weite Angebote ist am Sternpunkt in Frankfurt/Main ein zentraler Replikator als Zwischenstation eingerichtet, so dass die Angebote vom Anbieter zunächst nur zum Sternpunkt repliziert werden müssen. Die weitere Replikation erfolgt dann sternförmig von dort aus (Abb. 16/32).
Abb. 16/32. Beitragsaustausch durch Replikation.
956
Übertragungswege 16.2.7.3 Breitbandiger Audio-Filetransfer Ein breitbandiger Filetransfer dient dem verlustfreien Austausch von Audiodaten und gliedert sich in folgende Aktionsfelder: - Phononet / Music Promotion Network (MPN) - File Transfer für den Programmaustausch innerhalb der ARD (BAFT) - Filetransfer / Filepush der EBU (European Broadcasting Union) an die öffentlich-rechtlichen Rundfunkanstalten in Europa (MusiPOP). In Abb. 16/33 ist das breitbandige Datenaustauschverfahren am Beispiel des BAFT für den Programmaustausch der ARD mit seinen wesentlichen Komponenten dargestellt. 16.2.7.4 Digitale Bemusterung Die Musikindustrie arbeitet schon immer eng mit dem Rundfunk zusammen. Im Rahmen einer „Bemusterung“ werden Neuerscheinungen regelmäßig den Musikredaktionen vorgestellt. Ursprünglich war die Schallplatte das bevorzugte Austauschmedium, diese wurde in den 1980er-Jahren von der CD-Audio abgelöst. Der Aufwand für diesen Materialaustausch und der damit verbundene Personalaufwand für Herstellung und Verteilung der Medien waren allerdings sehr hoch. So wurde nach neuen Wegen gesucht und unter Zuhilfenahme der HYBNET-Netzwerkstruktur der ARD auch eine passende Lösung gefunden. Unter den internen Bezeichnungen „DigiBemus“ (Digitale Bemusterung) und „DigiBemA“ (Digitale Bemusterung der Archive) konnten nun Neuerscheinungen per Filetransfer von der Tonträgerindustrie über deren MPN (Music Promotion Network) an die Rundfunkanstalten zeitnah übermittelt werden (vgl. Kap. 16.1). Technische Details Als Teilsystem des breitbandigen Audiofiletransfers der ARD werden die Audiodaten der Tonträgerindustrie von einer Zentrale in Hamburg aus automatisch auf den ARD-Server in Frankfurt/Main heruntergeladen („gepusht“). Die hierzu verwendete FLAC-Codierung der Audiodaten (Free Lossless Audio Coding) reduziert dabei die Daten ohne jeglichen Qualitätsverlust auf ungefähr die Hälfte (weitere Details s. Kap. 12.8.2). Zusätzlich zum Audiosignal können auch deren Metadaten bzw. Texte und Grafiken der handelsüblichen Zusatzinformationen („Booklet“) übertragen werden. Als nächster Arbeitsschritt erfolgt das Entpacken des FLAC-codierten Audiomaterials im ARD-Server und eine Konvertierung der Abtastrate von 44,1 kHz (CD-DA-Standard) auf die im Rundfunkbereich verwendete Abtastfrequenz von 48 kHz. Zusätzlich wird eine weitere Fassung des Audiomaterials als mp3-File mit einer Datenrate von 64 kBit/s in Stereo erzeugt. Danach wird sowohl das lineare, als auch das datenreduzierte Audiomaterial zusammen mit den Metadaten und den Zusatzinformationen in einem Speichersystem abgelegt. Referenz-Datum dieses Materials ist die jeweilige ArtikelNummer (EAN) der CD (vgl. Kap. 14.1). Diese Daten stehen nun im ARD-Server, dynamisch begrenzt durch die verfügbare Speichergröße, zur ARD-internen Verwendung für Redaktionen und Archive bereit. Auch hier erfolgt die Referenzierung auf den EAN-Code. Abb. 16/34 zeigt das Zusammenwirken der Teilsysteme in einer Übersicht. 957
Digitale Betriebstechnik
Abb. 16/33. Gesamtsystem: Breitbandiger Audio-FileTransfer der ARD.
958
Übertragungswege Die Musikrecherche im System gliedert sich in zwei Bereiche: Einen aktuellen Bereich bis zu 90 Tagen und einen Langzeitbereich von bis zu 2 Jahren. Für eine aktuelle Recherche kann ein Musikredakteur via Internet unter Verwendung seines Accounts auf den Recherche-Server in Hamburg zugreifen. Dabei steht ihm eine Vorhörmöglichkeit der Audiodaten im Real-Format über das Internet in Verbindung mit einer aktuellen Verlinkung zu den Web-Seiten der Schallplatten-Labels oder Interpreten zur Verfügung. Beim Abruf des Audiomaterials erkennt der Recherche-Server in Hamburg die Rundfunkanstalt und ggf. die Welle des recherchierenden Redakteurs. Die Information über das angeforderte Audiomaterial und die zugehörige Besteller-ID der Rundfunkanstalt bzw. Welle bewirken, dass das Audiomaterial mit den zugehörigen Metadaten innerhalb 15 Minuten an die Zielorganisation übertragen wird. Dieser Materialfluss ist nur in den ersten 90 Tagen nach Einstellen des Materials auf dem Server in Hamburg möglich.
Abb. 16/34. Digitale Bemusterung - Zusammenwirken der Teilsysteme.
Bei der Langzeitrecherche erfolgt die Recherche via ARD-Intranet auf dem ARD-Zwischenspeicher in Frankfurt/Main. Das Vorhören des Audiomaterials ist in mp3-Qualität mit 64 kBit/s (Stereo) über das ARD-Intranet möglich. Eine aktuelle Verlinkung zu den WebSeiten der Schallplatten-Labels oder Interpreten ist in voller Qualität nicht möglich. Unmittelbar nach einem Bestellvorgang wird das Audiomaterial in Sendequalität vom Sternpunkt 959
Digitale Betriebstechnik aus zusammen mit seinen Metadaten repliziert. Diese Verfahrensweise ist schon ab dem ersten Tag nach Einstellen des Materials auf den MPN-Server in Hamburg möglich, so dass im Verlauf der ersten 90 Tage ein Havariebetrieb möglich ist. FLAC (Free Lossless Audio Codec) Der Begriff FLAC steht für für Free Lossless Audio Codec. Bei der Verschlüsselung von linearen PCM-Audiodaten entsteht bei diesem rein redundanzreduzierenden Quellencodierverfahren kein Informationsverlust. Dies bedeutet, dass das decodierte Audiosignal identisch ist mit dem originalen Audiosignal (s. Kap. 12.8). Kopierschutz Innerhalb eines Systems, das aktuelle Neuerscheinungen der Phonoindustrie bereitstellt, ist der Schutz gegen unberechtigtes Anfertigen von Kopien eine wesentliche Aufgabe. Eine Vielzahl von proprietären Kopierschutzverfahren sollen die sensiblen Musikdaten daher gegen unbefugte Nutzung schützen bzw. deren Missbrauch entdecken. Eine umstrittene Methode ist es, die zu schützenden Audiodaten zur Kennzeichnung mit einem „digitalen Wasserzeichen“ als nicht mehr entfernbarem Echtheits- und Herkunftszertifikat zu versehen. Die besondere Schwierigkeit dabei liegt darin, dass das Kennzeichen sich einerseits nicht als Störung im Audiosignal bemerkbar machen darf und trotzdem jederzeit erkennbar und auswertbar sein muss. In wie weit „Water Marking“-Methoden in der Praxis bereits angewendet werden, lässt sich nicht sicher feststellen (s. hierzu Kap. 12.9).
16.2.8 Codecs 16.2.8.1 Übersicht Der Begriff „Codec” leitet sich sprachlich von der gerätetechnischen Kombination eines Encoders mit einem Decoder in einer gemeinsamen Geräteeinheit ab. Im Rundfunkumfeld ist durch den Einsatz von Codecs ein bidirektionaler Datenaustausch von Audiosignalen über Daten- und Kommunikationsnetze möglich. Durch die Nutzung von digitalen Telefon- und Satellitennetzen lässt sich in Verbindung mit Audiocodecs sehr kurzfristig von nahezu jedem ISDN-Anschluß ein aktueller Beitrag ins Funkhaus absetzen. Diese kostengünstige Übertragungsweise hat dazu geführt, dass viele Dauerleitungen zu Wählverbindungen reduziert wurden. In der Sportberichterstattung konnte das bestehende Leitungsnetz durch eine Vielzahl von fest installierten oder Bedarfseinwahlpunkten in Sportstadien und an Wettkampforten erheblich ausgeweitet werden. 16.2.8.2 ISDN-Audiocodecs Bei der Übertragung von Audiosignalen über Datennetze spielt das ISDN-Telefonnetz eine große Rolle. Ein ISDN-S0-Anschluß ist nahezu weltweit verfügbar, vergleichsweise preisgünstig und kurzfristig einzurichten. Er besteht aus zwei physikalischen sog. B-Kanälen mit einer Datenrate von je 64 kBit/s (in Europa). Es stehen insgesamt bis zu 10 verschiedene Rufnummern für einen solchen Anschluss zur Verfügung, von denen aber nur zwei gleichzeitig 960
Übertragungswege genutzt werden können. Mit dem Ziel, die Qualität der Sprachübertragung zu erhöhen, wurde bereits Ende der 1980er Jahre das Übertragungsverfahren nach Empfehlung [ITU-T G.722] entwickelt. Es arbeitet mit einer Übertragungsbandbreite von 7 kHz, bei einer Bitrate von 64 kBit/s (weitere Details s. Kap. 12.5). Zur Synchronisation der Geräte wird das sog. SRT-Verfahren (Statistical Recovered Timing) angewendet, welches den Audiodatenstrom nach wiederkehrenden Bitmustern durchsucht. Dies geschieht durch Auswertung statistischer Verteilungen im digitalen Signal und kann nur erfolgen, wenn auch ein geeignetes (stochastisches) Audiosignal anliegt. Alternativ dazu wurde ein Verfahren mit einer Inband-Signalisierung entwickelt, das in der Empfehlung [ITU-T H.221] beschrieben wird. Der Vorteil dieses Verfahrens ist, dass eine Synchronisation auch ohne anliegendes Audiosignal erfolgen kann. Die Audio-Verzögerungszeit des G.722-Verfahrens beträgt ungefähr 10 ms. Die Forderung nach weiterer Verbesserung der Audioqualität führte in der Folgezeit zum Einsatz von datenreduzierten Quellencodierverfahren nach MPEG-Standard (s. Kap. 12.4). Wegen der benötigten Rechenzeit dieser Verfahren nimmt die Verzögerungszeit zum Teil drastisch zu. So kann ein Codec bei Verwendung von MPEG-1 Layer 2 für die Codierung bereits eine – auch herstellerabhängige – Verzögerung (Latenz) von mehr als 100 ms erzeugen. Zur weiteren Erhöhung der Übertragungsqualität wurden Verfahren zur Bündelung von ISDN-B-Kanälen entwickelt. In Empfehlung ITU-T H.221 wurde ein Verfahren definiert, bei dem über ISDN bis zu 32 B-Kanäle gebündelt werden können, was einer Datenrate von 2048 kBit/s entspricht. Im Rundfunkbereich werden maximal 6 nach diesem Verfahren gebündelte B-Kanäle verwendet; hieraus ergibt sich eine nutzbare Datenrate von 384 kBit/s. 16.2.8.3 Satelliten-Codecs Satelliten-Codecs sind typischerweise mobile und transportable Ausführungen von ISDNCodecs. Die Besonderheit einer Satellitenübertragung ist deren Verfügbarkeit nahezu an jedem beliebigen Ort der Erde; mit einer tragbaren Anlage ist das z. B. über das InmarsatSatellitensystem möglich. Die technischen, topologischen und meteorologischen Einflussfaktoren bei einer Datenübertragung über Satellitenstrecken können zu deutlich höheren Fehlerraten führen als bei terrestrischen leitungsgebundenen Übertragungsstrecken; es kommen deshalb spezielle Quellencodierverfahren zum Einsatz, die sich durch erhöhte Störsicherheit auszeichnen. Ein derartiges auch für die Satellitenübertragung besonders geeignetes Verfahren ist TDAC (Time Domain Aliasing Cancellation). Es handelt sich bei TDAC um eine Transformationscodierung auf der mathematischen Grundlage der Modifizierten Diskreten CosinusTransformation (Modified Discrete Cosine Transform, MDCT). Die TDAC-Codierung lässt die Übertragung eines Mono-Signals mit der Audiobandbreite von 15 kHz bei einer Übertragungsbitrate von 64 kBit/s zu. Durch den Einsatz eines leistungsfähigen digitalen Signalprozessors (DSP) im Audiocodec ist die Codierzeit sehr gering. Der TDAC-Algorithmus wird primär in Senderichtung zum Funkhaus eingesetzt, in Rückrichtung wird der Algorithmus G.722 verwendet, der dann allerdings nur über 7 kHz Audiobandbreite verfügt. Durch den Einsatz noch leistungsstärkerer Signalprozessoren ist TDAC immer häufiger auch in symmetrischer „Full Duplex“-Betriebsart anzutreffen. Der unsymmetrische Modus findet dort Anwendung, wo die Latenzzeit (Durchlaufzeit) des TDAC-Algorithmus, die 80 ms beträgt, zu lang ist; das kann z. B. bei Sportkonferenzen der Fall sein. Hier bietet G.722 mit nur ca. 10 ms eine deutlich verringerte Laufzeit. 961
Digitale Betriebstechnik Bei Einsatz eines Codecs im Satellitenkanal ist grundsätzlich zu beachten, dass die Verzögerungszeit einer Satellitenverbindung im Wesentlichen durch die Ausbreitungsgeschwindigkeit elektromagnetischer Wellen auf dem Up-/Down-Link bestimmt ist. In Europa liegt die Latenzzeit bei einem einzigen Satelliten-„Hop“ in der Größenordnung von einer Viertelsekunde.
Standards [ITU-T G.703]
ITU-T Recommendation G.703. Physical/electrical characteristics of hierarchical digital interfaces. 11/2001
[ITU-T G.704]
ITU-T Recommendation G.704. Sychronous frame structures used at 1544, 6312, 2048, 84448 and 44 736 kbit/s hierarchical levels, 10/1998
[ITU-T J.41]
ITU-T Recommendation J.41. Characteristics of equipment for the coding of analogue high quality sound programme signals for transmission on 384 kbit/s channels. Extract from the Blue Book. 11/1988
[ITU-T J.57]
ITU-T Recommendation J.57. Transmission of digital studio quality sound signals over H1 channels. Formerly ITU-R CMTT.724. 06/1990
[ITU-T G.722]
ITU-T Recommendation G.722. 7 kHz Audio-coding within 64 kbit/s. Extract from the Blue Book.
[ITU-T H.221 ]
ITU-T Recommendation H.221. Frame structure for a 64 to 1920 kbit/s channel in audiovisual teleservices. 03/2004
[ETSI TR 101 891] Digital Video Broadcasting (DVB); Professional Interfaces: Guidelines for the implementation and usage of the DVB Asynchronous Serial Interface (ASI) [ISO/IEC 13818-1] Information technology - Generic coding of moving pictures and associated audio information: Systems. Second edition, 12/2000 [EN 50083-9]
Kabelnetze für Fernsehsignale, Tonsignale und Interaktive Dienste Teil 9: Schnittstellen für CATV-/SMATV-Kopfstellen und vergleichbare professionelle Geräte für DVB/MPEG-2-Transportströme. Beuth, 05/2003
Literatur [16.1]
HYBNET – Das Netz der ARD, Betriebshandbuch, srt, Mai 2002
[16.2]
Betriebshandbuch ARD-Filetransfer und Replikation, srt, Mai 2003
[16.3]
„Wie funktioniert HYBNET nach der Optimierung?“, srt, November 2005
962
17
Rundfunksysteme
Ein Rundfunksystem dient zur Herstellung und Verbreitung frei empfangbarer, hochfrequenter Aussendungen von Hörfunk- und Fernsehprogrammen der öffentlich-rechtlichen Rundfunkanstalten wie auch der privaten Rundfunk- und Fernsehanbieter. Hinzu kommt eine Reihe nichtöffentlicher (sog. kommerzieller) Funkdienste, wie z. B der Seefunk, diplomatische Funkdienste, Mobilfunkdienste u. v. a. m., die teilweise ähnliche Übertragungsverfahren benutzen. Sie sind jedoch nicht Gegenstand dieser Darstellung. Rundfunksysteme und ihre Parameter, wie z. B. Sendefrequenzen und deren Zuordnung, unterliegen einer strengen Reglementierung durch internationale Standards, Genehmigungsverfahren und Frequenzzuweisungsprozeduren, u. a. durch ITU-R (International Telecommunications Union – Radiocommunication Sector), ETSI (European Telecommunication Standards Institute), WRC (World Radiocommunication Conference), bedingt durch ihre grenzüberschreitende Wirksamkeit. Im Gegensatz zu vielen anderen Gebieten der Technik würde die Anwendung nicht standardisierter (sog. proprietärer) Lösungen in kurzer Zeit zu einem unauflösbaren Chaos im Äther führen. Hörfunkprogramme werden heute über verschiedene nachrichtentechnische Wege verbreitet. Neben den spezifischen Systemen, die allein zur Übertragung von Tonrundfunk entwickelt und betrieben wurden, wird Hörfunk auch über andere Systeme (z. B. Fernsehrundfunksysteme) und in digitalisierter Form auch über nicht rundfunkspezifische Übertragungswege, insbesondere das Internet sowie auch über Breitbandkabel betrieben. Eine Einteilung der verschiedenen Systeme ergibt sich wie folgt: - Bis in die 1980er Jahre hinein stand die analoge Funkübertragung von Hörfunkprogrammen über terrestrische Sender im Vordergrund. - Inzwischen kamen die digitale terrestrische sowie die analoge und digitale satellitengestützte Funkübertragung hinzu; damit hat sich quasi weltweit eine digitale DAB-Systemfamilie (DAB, DAB+, DMB) etabliert. - Zusätzlich werden Hörfunkprogramme auch in Breitbandkabelnetzen verbreitet, wobei hier bei der analogen Übertragung dieselben Verfahren wie bei der drahtlosen Verbreitung verwendet werden, während bei der digitalen Übertragung Systeme eingesetzt werden, die mit den Funkübertragungsverfahren viele Gemeinsamkeiten haben, aber spezifische Modulationsverfahren verwenden. - Im Gegensatz dazu nutzt die Internet-Verbreitung die dort vorhandene Übertragungsstruktur – insbesondere das Internet-Protokoll (IP) – und beruht auf den verschiedenen InternetZugangsverfahren (ISDN, ADSL, etc.). Die terrestrische und satellitengestützte Rundfunkübertragung nutzt Frequenzbereiche vom Langwellen- bis in den Mikrowellenbereich, für die jeweils unterschiedliche Ausbreitungseigenschaften gelten. Trotzdem gibt es grundlegende Effekte, wie z. B. Rauschen und Mehrwegeausbreitung, die zunächst unabhängig von den einzelnen Systemen behandelt werden, zusammen mit den wichtigsten Grundlagen der analogen und digitalen Modulations- und Codierungsverfahren. 963
Rundfunksysteme
17.1
Grundlagen
In diesem Kapitel werden die übertragungstechnischen Grundlagen zusammengefasst, die zum Verständnis der anschließend behandelten Rundfunksysteme notwendig sind. Eine ausführlichere Behandlung der beschriebenen Modulationsverfahren findet man in [17.1, 17.2] und den dort zitierten Quellen, zum Thema Kanalcodierung sei auf [17.3] verwiesen.
17.1.1
Übertragungskanäle
17.1.1.1
Terrestrischer Mehrwege-Rundfunkkanal
Der klassische Rundfunkkanal ist der terrestrische Mehrwegekanal, d. h. der Sender befindet sich an einem (meist erhöhten) Punkt der Erdoberfläche und versorgt ein angrenzendes Empfangsgebiet, dessen Form und Ausdehnung primär durch die Sendeleistung, die Ausbreitungsbedingungen und die Richtcharakteristik der Sendeantenne bestimmt wird. Die Schwierigkeiten bei einer solchen Empfangssituation ergeben sich durch Mehrwegeausbreitung. Das heißt, dass im Gegensatz z. B. zu einem Satellitenempfang mit Parabolspiegel die elektromagnetische Welle den Empfänger nicht nur über einen direkten Ausbreitungsweg erreicht. Vielmehr wird sie auf vielfältige Weise und aus unterschiedlichen Richtungen gestreut, gebeugt und reflektiert und dadurch inkohärent mit sich selbst überlagert. Die Interferenz ist abhängig von der Frequenz und dem Empfangsort – mal konstruktiv und mal destruktiv. Wegen der damit verbundenen Amplitudeneinbrüche bezeichnet man diese Interferenzen als Mehrwege-Schwund (multipath fading).
Abb. 17/1. Zeit- und frequenzabhängiges Fading.
Bei einem bewegten Empfänger wird aus der Ortsabhängigkeit eine Zeitabhängigkeit. Abb. 17/1 zeigt einen typischen Amplitudenverlauf bei fester Frequenz im VHF-Bereich für ein Fahrzeug höherer Geschwindigkeit als Funktion der Zeit und den Amplitudenverlauf als Funktion der Frequenz bei fester Zeit (festem Ort) bei Echolauflängen von einigen Kilometern, wie sie für den Rundfunkempfang durchaus typisch sind. 964
Grundlagen Bei mobilem Empfang bewegt sich das Fahrzeug durch das Interferenzmuster hindurch. Der Empfänger muss mit Situationen fertig werden, die sich in Bruchteilen von Sekunden völlig verändern. Außerdem ändert sich die Amplitude innerhalb der Übertragungsbandbreite sehr stark. Der Übertragungskanal ist also charakterisiert durch Zeitvarianz und Frequenzselektivität. Die Zeitvarianz wird bestimmt durch die Wellenlänge und die Geschwindigkeit, mit der sich das Fahrzeug durch das Interferenzmuster hindurch bewegt. Die relevanten physikalischen Größen sind die beim Empfang auftretenden Dopplerfrequenzen, die sich aus der Lichtgeschwindigkeit c, der Fahrzeuggeschwindigkeit v, der Übertragungsfrequenz f0 und den Einfallswinkeln der Ausbreitungswege berechnen. Die Dopplerfrequenz hat ihren maximalen Betrag fDmax bei einem Einfallswinkel " von 0° oder 180°. Es gilt:
f Dmax =
f0 v 1 v f0 ≈ Hz c 1080 km / h MHz
Normalerweise ergibt sich durch die verschiedenen Einfallsrichtungen ein Dopplerspektrum, das zwischen –fDmax und +fDmax liegt und an den Rändern scharf begrenzt ist. In Tab. 17/1 sind einige praktisch relevante Zahlenwerte für die maximale Dopplerfrequenz zusammengestellt. Abb. 17/2 zeigt die Amplituden- und Phasenänderungen bei einer festen Frequenz in der komplexen Ebene.
Abb. 17/2. Mehrwegeschwund (Amplitude und Phase) bei fester Frequenz als Funktion der Zeit bei einer maximalen Dopplerfrequenz von 40 Hz.
Die Frequenzselektivität wird bestimmt durch die Länge der auftretenden Laufzeitdifferenzen. Diese ergeben sich als Quotient von Lauflängenunterschied und Lichtgeschwindigkeit. In Tab. 17/2 sind einige Zahlen zusammengestellt.
965
Rundfunksysteme Tab. 17/1. Dopplerfrequenzen bei verschiedenen Übertragungsfrequenzen und Geschwindigkeiten. Frequenz 225 MHz 450 MHz 900 MHz
48 km/h 10 Hz 20 Hz 40 Hz
96 km/h 20 Hz 40 Hz 80 Hz
192 km/h 40 Hz 80 Hz 160 Hz
Tab. 17/2. Laufzeitdifferenzen. Weg Laufzeit
300 m 1 :s
3 km 10 :s
30 km 100 :s
Laufzeitdifferenzen von einigen Mikrosekunden sind z. B. typisch für zellularen Mobilfunk. Beim terrestrischen Rundfunk können Laufzeitdifferenzen von mehreren 10 :s auftreten. Bei einem so genannten Gleichwellennetz (Sendernetz, in dem mehrere Sender auf genau der gleichen Frequenz arbeiten) muss das System Echos von deutlich über 100 :s verkraften. Je länger die Echos sind, desto mehr Einbrüche gibt es innerhalb der Übertragungsbandbreite. Bei digitaler Übertragung kommt es aufgrund der Echos zu Interferenzen aufeinander folgender Übertragungssymbole, so genannten Intersymbol-Interferenzen. Wichtig für die Übertragung ist auch die Tiefe der in Abb. 17/1 erkennbaren Fading-Einbrüche. Für einen reinen Streu-Empfang ohne Sichtkomponente hat sich das statistische Modell des Rayleigh-Fadings bewährt, bei einer zusätzlichen Direkt-Komponente tritt sog. RiceFading auf. Kurzwellenkanäle Auch wenn die physikalischen Ursachen völlig verschieden sind, lassen sich die obigen Überlegungen zum Mehrwegeschwund auch auf Kurzwellenkanäle übertragen. Bei der Funkausbreitung im Kurzwellenbereich spielt die Reflexion an ionosphärischen Schichten eine entscheidende Rolle. Auf diese Weise ergeben sich Echos, die typischerweise im Bereich von einigen Millisekunden liegen. Meist handelt es sich dabei um zeitlich scharf begrenzte, diskrete Echos, die man den einzelnen Reflexionswegen zuordnen kann. Die reflektierenden Schichten sind in Bewegung, sodass sich Dopplerverschiebungen ergeben. Kurzwellenkanäle unterliegen starken Änderungen, die von der jeweiligen Sonneneinstrahlung abhängen. 17.1.1.2
Satelliten-Rundfunkkanal
Der Satellitenkanal beginnt am Ausgang der sog. Erdefunkstelle als zentralem Einspeisepunkt für die Satellitenübertragung, von der aus der Satellit über eine ggf. nachgeführte Richtantenne angepeilt und eingespeist wird. Vom Satellitensender wird dann ein definiertes Versorgungsgebiet auf der Erdoberfläche abgedeckt, das im Wesentlichen von Standort, Leistung und Richtcharakteristik der Satellitenantennen bestimmt wird. 966
Grundlagen Typisch für ein satellitengestütztes Rundfunksystem ist u. a. die im Vergleich zu terrestrischen Systemen deutlich höhere Laufzeit der hochfrequenten Signale um ca. 400 ms, die bei bestimmten Live-Sendeformen durchaus zu hörbaren Verzögerungseffekten führen können. Eine Satelliten-Übertragung wird in der Regel allein durch das additive weiße Gaußsche Rauschen im Empfänger gestört (AWGN = additive white Gaussian noise). Verantwortlich hierfür ist das thermische Rauschen in der ersten Verstärkerstufe des Empfängers. Die Rauschleistungsdichte bezeichnet man mit N0. Bei der Satelliten-Übertragung ist wegen der Streckendämpfung durch die große Entfernung die Leistungseffizienz eines Übertragungsverfahrens meist der wichtigste Bewertungsparameter. Die Leistungseffizienz eines digitalen Verfahrens ist definiert als die erzielbare Bitrate pro Empfangsleistung am Empfänger (nach der Antenne), bei der bei gegebenem N0 die geforderte Qualität gerade noch erreicht wird. Der Kehrwert, die Empfangsleistung pro Bitrate, ist gleich der notwendigen Energie Eb, die man pro Bit am Empfänger garantieren muss. Die Bitfehlerrate als Funktion von Eb/N0 ist das Bewertungskriterium für die Leistungseffizienz eines Verfahrens. Messtechnisch besser zugänglich als Eb/N0 ist der physikalische Rauschabstand SNR (signal-to-noise ratio), d. h. das Zahlenverhältnis zwischen Signalleistung und Rauschleistung (gemessen innerhalb der sog. Rauschbandbreite des Signals). In diese Größe geht die Datenrate nicht ein. Der Rauschabstand allein enthält daher zur Bewertung der Leistungseffizienz nicht genug Information. Für die Umrechnung der Größen benötigt man die Bandbreiteneffizienz 0. Diese ist definiert als die Bitrate, die pro Bandbreite bei dem Verfahren übertragen werden kann. Zwischen Eb/N0 und SNR besteht der Zusammenhang
SNR = η
17.1.1.3
Eb N0
Kabel-Rundfunkkanal
Die kabelgebundene Übertragung von Rundfunksignalen ist im Gegensatz zur terrestrischen oder satellitengestützten Übertragung weitgehend störungsfrei gegenüber äußeren Einflüssen. In Kabelkanälen kann der Empfang allenfalls durch die folgenden Einflüsse gestört werden: - Thermisches Rauschen in den Verstärkern, - Intermodulationsprodukte in nichtlinearen Bauelementen, - Reflexionen an nicht geeignet angepassten Kabel-Abschlüssen. Diese Effekte spielen insbesondere eine Rolle bei der Übertragung über Telefonleitungen. Im Breitbandkabel sind die Übertragungsbedingungen für das analoge Fernsehen ausgelegt. Dessen Anforderungen sind so hoch, dass eine digitale Übertragung in der Regel nicht nennenswert gestört wird. Nachteilig ist gegebenenfalls der relativ hohe Investitionsaufwand, da der Kabelanschluss bis zum einzelnen Empfänger gebracht werden muss, darüber hinaus entstehen neben den eigentlichen Rundfunkgebühren (GEZ) meist zusätzliche laufende Kosten (Miete), die an den Kabelbetreiber abzuführen sind.
967
Rundfunksysteme
17.1.2
Modulationsverfahren
17.1.2.1
Definitionen und Grundlagen
Mit einer elektrischen harmonischen Schwingung einer gegebenen Frequenz (der Trägerschwingung) kann man Informationen übertragen, indem man die Amplitude a und/oder die Phase N der Trägerschwingung mit dem Nutzsignal moduliert, das heißt eine Zeitabhängigkeit dieser Größen einführt.
s ( t ) = 2a ( t ) cos ( 2πf 0 t + φ ( t ) ) Die Frequenz f0 heißt Trägerfrequenz. Mit der Tilde für das Signal s(t) deuten wir an, dass es sich um eine hochfrequente Schwingung handelt. Die Amplitude a(t) und die Phase Nj(t) sind relativ zur Trägerfrequenz f0 nur langsam zeitveränderlich. Bei Rundfunk-Signalen z. B. liegen die auftretenden Frequenzen des Nutzsignals im Audio-Bereich (30 Hz bis 15 kHz), während die Trägerfrequenz im MHz-Bereich liegt.
Abb. 17/3. Quadratur – Modulator.
Es ist sinnvoll und üblich, mit einer Darstellung der Signale in der komplexen Ebene zu arbeiten:
{
jφ t s ( t ) = 2ℜ a ( t ) e ( ) e 2 πf
0t
}
wobei der Anteil des komplexen Signals, der die Nutz-Information trägt, jφ t s(t) = a (t)e ( )
von der (komplexen) harmonischen Schwingung abgespaltet wird. Dieses Signal s(t) bezeichnet man als komplexes Basisbandsignal. Es enthält alle Information über den Modulationsinhalt. Anstelle der obigen Polardarstellung mit Amplitude und Phase kann man das Signal auch kartesisch mit Realteil x(t) und Imaginärteil y(t) darstellen als
s ( t ) = x ( t ) + jy ( t ) Man bezeichnet x(t) als I-Komponente (In-phase) und y(t) als Q-Komponente (Quadrature). 968
Grundlagen Ausgedrückt durch diese Quadraturkomponenten lautet die modulierte Trägerschwingung dann:
s ( t ) = x ( t ) 2cos ( 2πf 0 t ) − y ( t ) 2sin ( 2πf 0 t ) Die Quadraturdarstellung wird bei digitaler Modulation sehr häufig verwendet. Wichtig ist in diesem Zusammenhang insbesondere die weiter unten behandelte Quadratur-AmplitudenModulation (QAM). Abb. 17/3 zeigt einen Quadraturmodulator für ein 4-QAM Signal. 17.1.2.2
Klassische analoge Modulationsverfahren
Analoge Modulation bedeutet, dass der Modulator das analoge Nutzsignal direkt in ein analoges Signal zur Übertragung umwandelt, ohne es dazwischen in irgendeiner Form zu digitalisieren, d. h. in Zahlen umzuwandeln. Die traditionellen Modulationsverfahren sind analog, sie werden aber immer mehr von digitalen Lösungen verdrängt. Amplitudenmodulation (AM) Bei einer reinen Amplitudenmodulation ist die Phase N zeitlich konstant. Das Signal hat dann die Gestalt
s ( t ) = 2a ( t ) cos ( 2πf 0 t ) Wenn man ein analoges Nutzsignal m(t) übertragen will, so muss man deshalb eine Konstante (d. h. eine Gleichspannung) hinzu addieren, damit keine Werte im negativen Bereich liegen. Der AM-Modulator sieht dann so aus, wie in Teil (a) von Abb. 17/4 gezeigt.
Abb. 17/4. AM-Modulator und -Demodulator.
Die maximale Amplitude des Nutzsignals m(t) relativ zur Amplitude der Gleichspannung (die hier auf Eins normiert wurde) bezeichnet man als den Modulationsgrad ". Im günstigsten Fall ("=1) werden also 2/3 der Gesamtleistung durch den Gleichanteil verbraucht, der selbst keine Information überträgt. Teil (b) von Abb. 17/4 zeigt den einfachsten Demodulator für AM, den Hüllkurvendemodulator. Er extrahiert aus dem Signal die Hüllkurve, indem er zunächst durch Zweiwege-Gleichrichtung den Betrag des Bandbass-Signals bildet. Durch Tiefpassfilterung erhält man daraus die Hüllkurve. Anschließend entfernt ein Kondensator (Hochpass) die Gleichspannung. 969
Rundfunksysteme Diese extrem einfache Implementierung der AM erkauft man sich durch gravierende Nachteile (siehe Abb. 17/5). Das Nutzsignal taucht zweimal im Spektrum auf: als oberes Seitenband (OSB) und als unteres Seitenband (USB). Eines davon ist redundant, d. h. es wird die Hälfte des Spektrums verschwendet. Außerdem ist die Leistungseffizienz sehr schlecht. Die Trägerschwingung, die zu dem additiven Gleichanteil korrespondiert, benötigt mindestens zwei Drittel der Sendeleistung, ohne dass damit Information übertragen wird. Zwei Drittel der Leistung sind also im „Synchronisations-Overhead“ enthalten. Darüber hinaus ist das AMEmpfangssignal stark störanfällig gegenüber atmosphärischen sowie anderen elektromagnetischen Störungen am Empfangsort.
Abb. 17/5. Amplitudenmodulation mit einem sinusförmigen Signal im Zeit- und Frequenzbereich und unteres und oberes Seitenband (USB/OSB) bei Modulation mit einem bandbegrenzten Signal.
Frequenzmodulation (FM) Frequenzmodulation bedeutet, dass die Frequenz der Trägerwelle entsprechend dem Schwingungsverlauf des Tonprogrammsignals verändert wird, bei konstant bleibender Amplitude und Leistung. Dabei ist es für die Implementierung ungünstig, die Information direkt in der Phase N(t) zu übertragen. Günstiger lässt sich aus dem Signal die (relative) Momentanfrequenz extrahieren. Diese ist über die Ableitung des Phasenwinkels definiert als
fM ( t ) =
1 d φ(t) 2π dt
Die (absolute) Momentanfrequenz f0+fM(t) fluktuiert also um die Trägerfrequenz f0 mit der relativen Momentanfrequenz fM(t). Die betragsmäßig größte relative Momentanfrequenz nennt man den FM-Hub (auch als Frequenzhub bezeichnet): 970
Grundlagen
Δf max = max fM (t) Dieser bestimmt die Bandbreite und ist eine wichtige Kenngröße zur Charakterisierung der Stärke der Modulation. Man erzeugt eine Frequenzmodulation z. B. mit einem VCO (voltage controlled oscillator). Dieser schwingt mit einer Momentanfrequenz, die proportional zur angelegten Spannung ist. Regt man den VCO mit einer Kosinus-Schwingung an, so entsteht des Signal
s ( t ) = 2a ( t ) cos ( 2πf 0 t + μsin ( 2πf1 t ) ) Die Größe : heißt Modulationsindex. Es besteht der Zusammenhang )fmax=:f1 zum FM-Hub. Die Frequenzmodulation ist in Abb. 17/6 im Zeit- und Frequenzbereich dargestellt.
Abb. 17/6. Frequenzmodulation bei verschiedener Amplitude an, aber gleicher Modulationsfrequenz f. (b = erforderliche Bandbreite, H = Frequenzhub).
Der (klassische) FM-Demodulator sieht folgendermaßen aus: Die zeitliche Ableitung der modulierten Trägerschwingung enthält die Information als AM, d. h. die Modulation erscheint jetzt in der Hüllkurve und kann durch einen Hüllkurvendemodulator extrahiert werden. Für die Implementierung ist es wichtig, dass die Amplitude wirklich konstant ist. Dies erreicht man durch einen Begrenzerverstärker. Abb. 17/7 zeigt diesen FM-Demodulator.
971
Rundfunksysteme
Abb. 17/7. FM-Modulator und -Demodulator.
Frequenzmodulation ist zwar weitgehend unempfindlich bezüglich atmosphärischer Störungen und anderer Störimpulse, hingegen sehr anfällig gegenüber Mehrwegeausbreitung mit langen Echos. Diese führen zu nichtlinearen Verzerrungen im demodulierten (Audio-)Signal, wie sie wahrscheinlich jeder im Autoradio schon als Störung wahrgenommen hat. Abb. 17/8 zeigt ein demoduliertes FM Signal, dem ein Echo mit 30 :s Laufzeit und 6 dB Dämpfung überlagert wurde. Der ungestörte Modulationsinhalt ist eine Kosinus-Schwingung der Frequenz 4 kHz. Man sieht deutlich die Verzerrungen, die sich auch im Höreindruck niederschlagen.
Abb. 17/8. Verzerrung von FM durch ein Echo.
17.1.2.3
Klassische digitale Modulationsverfahren
Digitale Modulation bedeutet, dass die Information, die mit Amplitude und Phase (bzw. I- und Q-Komponente) der Trägerschwingung übertragen wird, in Form von Datenbits vorliegt und in geeigneter Weise auf das Signal abgebildet wird. Am einfachsten geschieht das, indem man das komplexe Basisbandsignal s(t) als stückweise konstant während einer Symboldauer TS annimmt, d. h.
s(t) = 972
1 TS
s k , mit kTS ≤ t < ( k +1) TS
Grundlagen für den Takt Nummer k. Die komplexe Zahl sk = xk+jyk , die die Information trägt, nennt man das (Daten-)Symbol. Die mittlere Symbolenergie bezeichnet man als ES. Wenn das Symbol M verschiedene Werte annehmen kann, werden mit einem Symbol log2(M) Bits übertragen, und es gilt
ES = log2(M) Eb Rolloff-Faktor und Bandbreite In der Praxis verwendet man meist nicht diese rechteckigen Pulse für die einzelnen Symbole, da ihr Leistungsdichtespektrum sehr langsam abfällt (mit 1/f 2) und damit ungünstige spektrale Eigenschaften aufweist. Das Pulsformungsfilter ist ein Filter, das aus einer Folge von modulierten Dirac-Impulsen das Sendesignal mit den geglätteten Pulsen erzeugt. Gebräuchlich sind dabei sogenannte Raised-Cosine-Filter (RC-Filter), die im spektralen (quadratischen) Amplitudengang eine Kosinus-Flanke aufweisen. Die relative Breite dieser Flanke wird durch den sog. Rolloff-Faktor charakterisiert, der Werte zwischen 0 und 1 (bzw. 0% und 100%) annehmen kann. Der Rolloff-Faktor entspricht gerade der Verbreiterung gegenüber einem idealen rechteckigen Sendespektrum, welches im Zeitbereich zur Pulsform sin(B t/TS) / (B t/TS) korrespondiert. Zum Beispiel würde eine Übertragung mit einer Symboldauer TS=1 :s (d. h. mit der Rate 1 MBaud) bei einem idealen Rechteck-Spektrum (Rolloff=0) eine Bandbreite von 1 MHz belegen. Bei dem Rolloff-Faktor 50% wären es 1,5 MHz, bei einem Rolloff von 100% wären es 2 MHz. Für weitere Details wird auf [17.1, 17.2] verwiesen. QPSK Im einfachsten Fall wechseln die Quadraturkomponenten von sk = xk+jyk einfach nur ihr Vorzeichen. Man nennt dieses Verfahren QPSK (Quaternary Phase-Shift Keying) oder auch 4-PSK. Das Symbol sk kann dann 4 verschiedene Punkte in der komplexen Ebene mit den Phasenwinkeln 45/, 135/, 225/ und 315/ annehmen (Abb. 17/10 - mittleres Bild). Die Amplitude ist konstant. Die Energie eines Symbols ES ist bei diesem Verfahren unabhängig vom Symbolindex k. Man kann zwei Bits mit einem Symbol übertragen. Eins davon bestimmt das Vorzeichen des Realteils, das andere das Vorzeichen des Imaginärteils.
Abb. 17/9. KonstellationsDiagramme für PSK.
Man kann QPSK als das Standardverfahren bei digitaler Übertragung ansehen. Es wird sehr häufig eingesetzt. Ein Beispiel ist das digitale Satellitenfernsehen.
973
Rundfunksysteme BPSK Man kann natürlich auch einfach nur den Realteil des Signals modulieren und den Imaginärteil ungenutzt lassen. Vorteile bringt dies nicht, und man verschenkt einen Teil der Übertragungskapazität. Dieses Verfahren heißt BPSK (Binary Phase-Shift Keying) oder 2-PSK. In einem Symboltakt wird nur jeweils ein Bit übertragen. Das Datensymbol nimmt die Phasenwinkel 0/ und 180/ an (s. Abb. 17/9, linkes Bild). M-PSK Hier werden mit einem Symbol M Phasenwinkel übertragen, M ist eine Zweierpotenz. Zwei Punkte im Phasenstern haben den Winkelabstand 2(/M, die Amplitude ist (ES. Die Fälle M =2 und M =4 haben wir gerade behandelt. Der Phasenstern für 8-PSK ist in Abb. 17/9 im rechten Bild dargestellt. Differentielle PSK (DPSK) Die Demodulation der bisher beschriebenen kohärenten PSK benötigt die Kenntnis der Trägerphase und macht damit eine Kanalschätzung erforderlich. Dieser Aufwand lässt sich vermeiden, indem man die Informationsbits anstatt auf die absolute Phase auf die Phasendifferenz zweier aufeinander folgender komplexer Symbole abbildet. Bei einer DQPSK wird also je – nach Datenbit-Paar – die Phasendifferenz 45/, 135/, 225/ oder 315/ übertragen. Am Anfang eines Rahmens muss immer ein Phasenreferenzsymbol stehen. Wenn diese Anfangsphase 0/ beträgt, besitzt das erste Symbol danach einen der vier Phasenwinkel 45/, 135/, 225/ oder 315/. Wird jetzt wieder eine der 4 möglichen Phasendifferenzen übertragen, besitzt das zweite Symbol einen der Phasenwinkel 0°, 90°, 180°, 270°. Wegen der Phasenverschiebung der Konstellationen zweier aufeinander folgender Symbole um 45° wird dieses Verfahren auch B/4-Shift DQPSK genannt. Abb. 17/10 zeigt das Konstellationsdiagramm. B/4-Shift DQPSK wird z. B. bei DAB verwendet.
Abb. 17/10. Konstellations-Diagramm für DQPSK.
974
Grundlagen M-QAM QAM steht für Quadratur-Amplituden-Modulation. Diese Bezeichnung ist eigentlich etwas irreführend, weil eine Amplitude per definitionem immer eine positive Größe ist. Bei QAM nehmen beide Quadraturkomponenten verschiedene "Amplituden-" Werte an, die aber auch negativ sein dürfen. Die Zahl M ist wieder die Zahl der Punkte in der komplexen Ebene, die das Symbol sl annehmen kann. Für den Fall, dass M eine Quadratzahl ist, d. h. M = 4, 16, 64, ..., kann man die komplexe Konstellation in zwei reelle zerlegen. Andere als quadratische Konstellationen werden selten verwendet, sind aber z. B. im DVB-C Standard erlaubt. 4-QAM ist dasselbe wie QPSK. Abb. 17/11 zeigt das Konstellationsdiagramm für 4-QAM und für 16-QAM. Höherstufige QAM, in Verbindung mit einer geeigneten Kanalcodierung (s. u.), kann eine sehr gute Bandbreiten- und Leistungseffizienz erreichen. Dies erfordert allerdings eine sehr gute Kanalschätzung. QAM mit M = 4, 16 und 64 werden bei den Systemen DVB und bei DRM eingesetzt.
Abb. 17/11. KonstellationsDiagramme für QAM.
FSK Neben den eben erwähnten so genannten linearen Modulationsverfahren gibt es noch digitale Frequenzmodulation. Man bezeichnet sie als FSK (Frequency-Shift Keying). Bei M-FSK wird zwischen M verschiedenen Frequenzen umgeschaltet. Bei den in den folgenden Kapiteln behandelten Rundfunksystemen wird FSK nicht eingesetzt, da sie bezüglich der Leistungsund Bandbreiteneffizienz keine Vorteile bietet. Übertragung mit unterschiedlichen Pulsformen (Biphase-Modulation) Während man bei PSK und QAM immer nur mit einer Pulsform arbeitet und die Information mit dem Vorfaktor überträgt, kann man auch M verschiedene Pulse verwenden, um damit log2(M) Bits pro Takt zu übertragen. FSK kann man auch als ein Beispiel dazu auffassen. Man kann aber auch eine rechteckige Pulsform in kleinere rechteckige Teilstücke (sog. Chips) zerhacken, die gemäß einem bestimmten Code unterschiedliche Vorzeichen besitzen. Im 975
Rundfunksysteme Mobilfunk wird diese Technik viel verwendet, wobei die sog. orthogonalen Walsh-Funktionen (siehe [17.4]) ein wichtiges Beispiel sind. Das einfachste Beispiel einer Walsh-Modulation mit M=2 besteht aus den beiden möglichen Vorzeichen-Folgen (+,+) und (+,!). Dieses Verfahren wird auch als Biphasen-Modulation bezeichnet. Im AM- und FM-Rundfunk findet es Anwendung bei AMSS und RDS. 17.1.2.4
Multiträger-Modulation (OFDM)
Bei der Übertragung hoher Datenraten über große Entfernungen, wie dies beim Rundfunk zwangsläufig der Fall ist, sind die Echolaufzeiten bei den oben besprochenen klassischen digitalen Modulationsverfahren nicht mehr viel kleiner als die Symboldauer TS. Es kommt daher zu Intersymbol-Interferenzen. Bei Echolaufzeiten von einigen 10 :s ist schon bei einer Bruttodatenrate von 200 kBit/s (Bitdauer Tb=5:s) und einer Übertragung mit dem Standardverfahren QPSK die Symboldauer nur noch Ts=10 :s und damit von derselben Größenordnung wie die Echos, was einen Empfang praktisch unmöglich macht.
Abb. 17/12. Das Multiträger-Konzept.
Eine Möglichkeit, bei hohen Datenraten die Symboldauer zu verlängern und die Übertragung damit unempfindlicher zu machen, ist die der Multiträger-Modulation. Sie wird nicht nur bei den terrestrischen Rundfunksystemen DAB, DVB und DRM verwendet, sondern auch bei WLAN-Systemen (Wireless LAN = drahtlose Datenübertragung in Rechnernetzen). Der Grundgedanke besteht darin, die Symboldauer zu verlängern, indem man den Datenstrom parallelisiert und auf viele (Unter-)Träger verteilt (siehe Abb. 17/12). Jeder dieser Träger transportiert dann nur noch einen kleinen Bruchteil der gesamten Datenrate, wodurch die Symboldauer Ts bei jedem (Unter-)Träger sehr groß werden kann, insbesondere groß gegen die typischen Echolaufzeiten. Hierzu können einige hundert oder sogar über tausend Träger nötig sein. Die Modulation einer derartig hohen Zahl von Trägern ist möglich durch digitale Signalverarbeitung im komplexen Basisband, siehe linker Teil von Abb. 17/13. Eine Filterbank aus vielen schmalbandigen Bandpass-Filtern wird angeregt durch den parallelisierten Datenstrom der informationstragenden komplexen Modulationssymbole skl, wobei k der Index für die Frequenz ist und l der Index für den Symboltakt der Dauer Ts. Das Ergebnis wird anschließend aufsummiert und bildet das komplexe Basisbandsignal s(t). In der einfachsten Version, die in der Praxis bisher ausschließlich verwendet wird, entspricht diese Filterbank einer inversen schnellen Fouriertranformation (IFFT) mit anschließender 976
Grundlagen Digital-Analog-Wandlung. Man nennt das Verfahren dann OFDM (Orthogonal Frequency Division Multiplexing). Während einer Symboltaktdauer lässt sich das so erzeugte und digital/analog gewandelte Signal als endliche Fourierreihe schreiben, deren Fourierkoeffizienten die Information enthalten. Wenn die Signalgenerierung am Sender eine Fouriersynthese ist, kann man die Information skl am Empfänger durch Fourieranalyse zurück gewinnen. Implementiert wird dies empfangsseitig wieder durch eine schnelle Fouriertransformation (FFT) nach der Analog-Digital-Wandlung (ADC). Der rechte Teil von Abb. 17/13 zeigt die Kette Sender/Empfänger schematisch.
Abb. 17/13. Basisband-Signalverarbeitung zur OFDM-Erzeugung und Realisierung durch Fouriertransformation.
Abb. 17/14. OFDM mit Schutzintervall.
Durch die Parallelisierung des Datenstromes sind nun die Echos zwar deutlich kürzer als die Symboldauer, rufen aber immer noch inakzeptable Störungen hervor, die sich bei OFDM auch in Interferenzen zwischen den Unterträgern niederschlagen. Eine wirksame Maßnahme dagegen ist die Einfügung des sog. Schutzintervalls (guard interval). Das Signal wird nicht nur während der Fourier-Periode der Länge T gesendet, sondern periodisch fortgesetzt während 977
Rundfunksysteme einer Zeitdauer (= OFDM-Symboldauer) von Ts=T+), , siehe Abb. 17/14. Echos mit Laufzeiten τ < Δ bewirken dann keine Intersymbolinterferenz, sondern lediglich eine (frequenzabhängige) Phasen- und Amplitudenveränderung. Bei differentieller PSK ist dies bedeutungslos, weil sich diese Phase bei der Differenzbildung heraushebt. Bei kohärenten Verfahren werden Phase und komplexe Amplitude von der sog. Kanalschätzung ermittelt. Echos, die die Dauer des Schutzintervalles überschreiten, können zu starken Systemdegradationen führen. Die Einführung des Schutzintervalls verringert die spektrale Effizienz um den Faktor T/TS.
Abb. 17/15. OFDM – Spektrum, Amplitude oben: linear, unten: logarithmisch.
Das Spektrum eines OFDM-Signal erscheint bei einer linearen Darstellung nahezu rechteckig, siehe Abb. 17/15 oben. In der logarithmischen Darstellung (Abb. 17/16 unten) zeigt sich aber eine deutliche Außerband-Strahlung. Diese hängt u. a. von der Anzahl der Unterträger ab und kann durch geeignete Maßnahmen reduziert werden (s. z. B. [17.4]), um z. B. die Anforderungen einer spektralen Maske zu erfüllen. Für die Bandbreite des inneren Bereichs (die nominale Bandbreite) gilt
B = K / T, wobei T die Länge des Fourier-Fensters ist und K die Anzahl der Unterträger. Aus der Abbildung wird deutlich, dass die nominale Bandbreite deutlich kleiner sein muss als die 978
Grundlagen Bandbreite des Rekonstruktionsfilters im A/D-Wandler, damit dessen Filterflanke das Nutzsignal nicht verändert. Die Zahl K liegt daher deutlich unter der verwendeten FFT-Länge N. Die Länge N=2048 ist sowohl bei DAB als bei DVB-T üblich (s. u.) und gehört zu K=1536 bei DAB bzw. K=1705 bei DVB-T.
17.1.3
Kanalcodierung
17.1.3.1
Definitionen und Grundlagen
Unter Kanalcodierung versteht man das gezielte Hinzufügen von redundanten Daten zum Zweck der Fehlerkorrektur oder Fehlererkennung (siehe Kap. 18.5). Im Unterschied hierzu wird unter Quellencodierung die Redundanzreduktion der Programmsignale (Quellensignale) verstanden, entsprechende Verfahren sind unter Kap.12 beschrieben. Man unterscheidet bei der Kanalcodierung zwischen Blockcodes und Faltungscodes. Bei einem Blockcode wird immer einer festen Anzahl von Datensymbolen eine feste Anzahl von Redundanz-Symbolen hinzugefügt, die dann zusammen ein Codewort (einen „Block“) ergeben. Zum Beispiel werden bei einem (7,4)-Hamming Code immer zu jeweils 4 Datenbits genau 3 Redundanzbits hinzugefügt, siehe Abb. 17/16 oben. Dieser Code hat die Coderate 4/7. Ein Symbol kann z. B. auch ein Byte sein. Bei einem (204,188)-Reed-Solomon Code werden zu einem Datenblock von 188 Bytes immer 16 Bytes Redundanz hinzugefügt (Abb. 17/16 unten), so dass sich ein Codewort aus 204 Bytes ergibt. Dieser Code hat die Coderate 188/204.
Abb. 17/16. Beispiele für Blockcodes.
Bei Faltungscodes wird mit einer Schieberegisterschaltung und geeigneten Verknüpfungen aus einem kontinuierlichen Datenstrom ein kontinuierlich fortlaufendes Codewort erzeugt, siehe Kap. 17.1.3.2. Anwendungen im Rundfunk Blockcodes und Faltungscodes eignen sich für unterschiedliche Anwendungsbereiche. Es gibt mathematische Entwurfsmethoden für sehr starke Blockcodes, die nur relativ wenig Redundanz benötigen. Hierbei sind insbesondere die Reed-Solomon (RS) Codes zu nennen. Letztere eignen sich besonders gut, wenn aufgrund der Anwendung eine sehr niedrige Restfehlerrate gefordert ist. Dies ist zum Beispiel beim digitalen Fernsehen der Fall. Eine andere wichtige Anwendung für RS-Codes sind digitale Speichermedien wie CD-ROM und DVD-ROM. Bei 979
Rundfunksysteme einem RS-Code darf die Fehlerrate des Kanals nicht zu hoch sein, sonst kommt es zu einem Decodier-Versagen. Dies hängt damit zusammen, dass es bei RS-Codes bisher keine praktikable Möglichkeit gibt, diese weich zu decodieren (soft decision) und dabei Information über die Zuverlässigkeit des Kanals auszunutzen. Besonders in Satellitenkanälen und in FadingKanälen sollte aber von dieser Möglichkeit unbedingt Gebrauch gemacht werden. Deshalb werden in solchen Fällen praktisch immer Faltungscodes eingesetzt. Faltungscodes sind sehr robust in schwierigen Kanälen, erreichen aber nicht so niedrige Restfehlerraten. Verkettung von Codes In vielen Systemen ist es aus den oben genannten Gründen sinnvoll, Faltungscodes mit Blockcodes zu kombinieren: Die Korrektur durch den inneren Faltungscode erreicht bei schwierigen Satelliten- oder Fading-Kanälen eine moderate Bitfehlerrate. Die anschließende Fehlerkorrektur durch einen äußeren RS-Code kann dann eine extrem niedrige Restfehlerate erzielen. Man nennt dies Verfahren Code-Verkettung (concatenated coding), siehe Abb. 17/17.
Abb. 17/17. Code-Verkettung.
Interleaving Die meisten Fehler korrigierenden Codes arbeiten nur gut bei gleichmäßig verteilten Fehlern und sind sehr empfindlich gegen eine Fehlerbündelung. Fading-Kanäle produzieren aber Bündelfehler, und auch bei der eben beschriebenen Code-Verkettung kommt es beim Output des inneren Decoders zu Bündelfehlern. Als Gegenmaßnahme müsse die Datensymbole in ihrer Reihenfolge geeignet verstreut werden. Man nennt diese Maßnahme Interleaving. Ein Interleaver nimmt eine Zwischenspeicherung der Datensymbole vor und liest diese in einer veränderten Reihenfolge wieder aus. Beispiele hierfür finden sich weiter unten bei der Beschreibung der einzelnen Rundfunksysteme. 17.1.3.2
Faltungscodes
Für stärkere Codes benötigt man mehrere Schieberegister und Verknüpfungen. Dadurch steigt der Decodier-Aufwand exponentiell mit m. Man muss also einen Kompromiss finden. Bei fast allen wichtigen digitalen Rundfunksystemen wird der in Abb. 17/18 gezeigte Faltungscode mit Rc = 1/2 und m=6 verwendet (m bezeichnet die Anzahl der verknüpften Bits).
980
Grundlagen
Abb. 17/18. Faltungscode mit Memory m=6.
Korrekturfähigkeit und Codierungsgewinn Die Korrekturfähigkeit eines Codes wird vor allem durch seine Hamming-Distanz bestimmt. Dies ist die Anzahl der Symbole, in denen sich zwei mögliche Codeworte mindestens unterscheiden. Bei Faltungscodes spricht man dabei von freier Distanz dfree. Wegen der Linearität der Codes ist diese identisch mit der Anzahl der Einsen, die in einem vom Nullwort verschiedenen Codewort mindestens vorkommen. Das Nullwort ist das Codewort aus lauter Nullen. Die freie Distanz (und andere wichtige Parameter) eines gegebenen Faltungscodes kann man mit Hilfe seines Zustandsdiagramms ermitteln. Es gibt keine Konstruktionsvorschrift für gute Faltungscodes. Vielmehr werden mit Hilfe eines Computerprogramms die Zustandsdiagramme aller möglichen Faltungscodes für eine gegebene Schieberegister-Länge analysiert und so die besten ausgewählt. Man findet hierfür Tabellen z. B. in [17.3]. Tab. 17/3 zeigt einige Faltungscodes der Coderate Rc=1/2 mit ihrer jeweiligen freie Distanz. Tab. 17/3. Einige Faltungscodes mit maximaler freier Distanz. Memory m
Generatoren (oktal)
Freie Distanz
2
(5,7)
5
3
(15,17)
6
4
(23,25), (22,33)
7
5
(53,75)
8
6
(133,171)
10
Der Nutzen eines Faltungscodes drückt sich in seinem Codierungsgewinn aus. Dies ist die Leistungsersparnis bei einer gegebenen nutzbaren (Netto-)Datenrate. Man muss dazu also Eb/N0 betrachten und nicht den Rauschabstand. Der Gewinn hängt vom Übertragungskanal und der Ziel-Bitfehlerrate ab. Im AWGN-Kanal lautet der asymptotische Codierungsgewinn für einen Code der Rate Rc und der freien Distanz dfree
Ga= Rcdfree Der multiplikative Faktor Rc in der Formel erklärt sich dadurch, dass durch das Hinzufügen eines redundanten Bitstroms bei einer festen Nutz-Datenrate zunächst einmal zusätzliche Energie verbraucht wird, die durch die Korrekturfähigkeit des Codes erst wieder eingespart werden muss. Aus der Tabelle erkennt man, dass bereits der simple Faltungscode mit m=2 981
Rundfunksysteme einen Gewinn von 2,5 dB erreicht. Bei einer Satelliten-Übertragung bedeutet dies z. B. eine Reduktion der Sendeleistung von 100 W auf 40 W. In Fading-Kanälen sind die Gewinne durch Codierung wesentlich dramatischer als im Gauß-Kanal. Viterbi-Decoder Der Decoder schätzt die wahrscheinlichste Sendesequenz. Er muss dabei aber nicht alle 2L möglichen Bitfolgen durchprobieren. Durch die Schieberegister-Struktur des Faltungscodes und die endliche Anzahl an möglichen Zuständen wird die Zahl der Möglichkeiten erheblich eingeschränkt, und der Aufwand ist nur noch proportional zu 2m. Der Viterbi-Decoder nutzt dies aus und schätzt unter Ausnutzung dieser speziellen Struktur die wahrscheinlichste Sendefolge. Eine ausführliche Erklärung findet man z. B. in [17.1, 17.3, 17.4]. Punktierte Faltungscodes Bisher wurden nur Faltungscodes der Rate 1/2 diskutiert. Faltungscodes der Raten 1/3, 1/4 usw. erreicht man, indem man weitere Bitströme durch zusätzliche Anzapfungen des Schieberegisters hinzufügt. Coderaten wie Rc = 2/3, 3/4, 4/5 usw. kann man am einfachsten dadurch erreichen, dass man in dem codierten Datenstrom an definierten Stellen einzelne Symbole weglässt und nicht überträgt. Man nennt dies Verfahren Punktierung. Ein Code der Rate 1/2 erzeugt zum Beispiel die Symbole
c1, c2, c3, c4, c5, c6, c7, c8, c9,... Nach der Punktierung zu einem Code der Rate 2/3 werden nur noch die Symbole
c1, c2, c3, o , c5, c6, c7, o , c9,... übertragen, wobei hier die weggelassenen (punktierten) Symbole durch ein „o“ markiert sind. Der Decoder kennt die punktierten Positionen und fügt an diesen Stellen Dummy-Symbole mit der Zuverlässigkeits-Information („künstliche Fading-Amplitude“) al = 0 ein, so dass diese Symbole nicht in die Entscheidung eingehen. Durch Punktierung wird der Code natürlich schwächer, aber es wird weniger Redundanz benötigt. Auf diese Weise kann man ohne viel Aufwand aus einem einzigen „Mutter-Code“ eine ganze „Code-Familie“ erzeugen und so den Fehlerschutz jeweils an die Erfordernisse anpassen. Dieses Verfahren findet breite Anwendung in den im Folgenden beschriebenen Rundfunksystemen. 17.1.3.3
Reed-Solomon-Codes
Wegen ihrer zahlreichen praktischen Anwendungen kann man Reed-Solomon (RS) Codes wohl als die wichtigsten Block-Codes ansehen. Zu den Anwendungen zählen u. a. Fernerkundungen im Weltraum, digitale Speichermedien und nicht zuletzt eben auch das digitale Fernsehen. Ironischerweise sind gerade diese Art von Block-Codes, die für den Ingenieur die größte praktische Relevanz besitzen, gleichzeitig diejenigen, die wegen ihrer abstrakten mathematischen Struktur für ihn am schwierigsten zugänglich sind. Die Theorie von ReedSolomon-Codes findet man in vielen Lehrbüchern ausführlich dargestellt, eine etwas ausführlichere Darstellung, die aber ebenfalls auf die Anwendung bei DVB zugeschnitten ist, findet sich in [17.4].
982
Grundlagen Eigenschaften Die hier erläuterten Reed-Solomon-Codes basieren im Gegensatz zu den meisten anderen fehlerkorrigierenden Codes nicht auf Bit-Arithmetik im Dualsystem, sondern auf ByteArithmetik in endlichen Körpern (Galois fields). RS Codes korrigieren daher Byte-Fehler und nicht Bit-Fehler.
Abb. 17/19. RS – Code (oben) und verkürzter RS – Code (unten).
RS-Codes kann man immer als systematische Codes konstruieren, so dass die Daten-Bytes unverändert am Anfang des Codewortes stehen. Abb. 17/19 (oben) zeigt die Struktur eines systematischen RS-Code-Wortes mit einer geraden Anzahl von Redundanzbytes, die man auch Paritätsprüfbytes (parity check, PC) nennt. RS-Codes, die auf Byte-Arithmetik basieren, haben immer die Codewort-Länge N = 255. Verkürzte RS-Codes In der Praxis ist die feste Länge N=255 eines RS-Codewortes eine unerwünschte Einschränkung. Man kann mit einem einfachen Trick wieder mehr Flexibilität erreichen. Bei einem RS(N, K, D) Code mit N = 255 sollen nur K1 < K Bytes pro Block übertragen werden, man setzt daher die ersten K1!K Bytes zu Null. Dann codiert man zu einem systematischen RS(N, K, D) Codewort, bei dem ganz am Anfang nur Nullen stehen, die man nicht zu übertragen braucht. Der Decoder weiß dies und fügt die Nullen wieder ein. Dieses Verfahren wird CodeVerkürzung genannt und u. a. bei DVB eingesetzt. Abb. 17/19 (oben) zeigt das Prinzip am Beispiel der bei DVB verwendeten Parameter. Erasure Decoding Im Gegensatz zu Faltungscodes gibt es bei RS-Codes keine einfache Möglichkeit, weich entschiedene (soft decision) Empfangswerte zu verarbeiten. Wenn aber bekannt ist, dass eines der Empfangssymbole fehlerhaft ist, kann der Decoder diese Information verwerten und dieses Symbol bei der Decodierung praktisch unberücksichtigt lassen. Diese als erasure decoding bekannte Methode verbessert die Übertragungssicherheit. Praktisch kann eine solche Information z. B. aus einer Prüfsumme bei einer CRC (cyclic redundancy check)-Codierung gewonnen werden. Für den idealen Fall, dass man die Fehlerpositionen (und damit auch die Anzahl der Bytefehler) exakt kennt, lässt sich auf diese Weise die Zahl der vom RS-Code korrigierbaren Fehler verdoppeln.
983
Rundfunksysteme
17.2
Terrestrische Rundfunksysteme
Terrestrische Rundfunksysteme basieren auf der Ausstrahlung von elektromagnetischen Wellen durch terrestrische Sender, d. h. solche, die sich auf der Erdoberfläche befinden. Die Frequenzbereiche, die dafür verwendet werden, erstrecken sich von den Langwellen bis in den Mikrowellenbereich. Tab. 17/5 zeigt die Wellenbereiche, die derzeit für terrestrische Rundfunkübertragung genutzt werden und gibt einen Überblick über die derzeitige, meist noch analoge Nutzung sowie die voraussichtliche künftige Nutzung durch digitale Systeme. Tab. 17/5. Frequenzbereiche für terrestrischen Rundfunk. Bandbezeichnung
Frequenzbereich
Voraussichtliche künftige Nutzung DRM DRM DRM
„UKW“ „VHF“
148,5 bis 283,5 kHz 526,5 bis 1606,5 kHz 10 Bänder zwischen 3950 und 26100 kHz 47 bis 68 MHz 87,5 bis 108 MHz 174 bis 230 MHz
Heutige Nutzung AM-Rundfunk AM-Rundfunk AM-Rundfunk
Langwelle (LW) Mittelwelle (MW) Kurzwelle (KW)
TV FM-Rundfunk TV, DVB-T, DAB
Band IV/V „UHF“ L-Band
470 bis 860 MHz 1452 bis 1492 MHz*
TV, DVB-T DAB
DRM+ ? DRM+ ?, IBOC ? DVB-T, DAB, DMB DVB-T, DVB-H DMB (+DAB)
Band I Band II Band III
* dieser Frequenzbereich wird auch für Satellitenrundfunk verwendet.
17.2.1
Analoge Rundfunkübertragung
Für die analoge Rundfunkübertragung spielt heute der FM-Rundfunk im UKW-Band II die größte Rolle. Die Anzahl und Leistung der im Frequenzbereich unterhalb 30 MHz betriebenen AM-Sender ist hingegen in den letzten Jahren rückläufig. Sender- und Empfängertechnik, Ausbreitungs- und Sendernetzplanung der analogen Rundfunksysteme sind weit entwickelt und bieten nur noch wenig Raum für technische Innovationen und den Aufbau von zusätzlichen Senderketten. Einen ausführlichen Überblick über diese Themen bietet [17.5]. 17.2.1.1
AM-Rundfunk unterhalb 30 MHz
Der Frequenzbereich unterhalb 30 MHz bietet für den Rundfunk die einzigartige Möglichkeit, mit einzelnen Sendern große Versorgungsgebiete abzudecken und damit Hörer im In- und Ausland und sogar in Übersee zu erreichen. Dabei ist der Empfang auch innerhalb von Gebäuden mit einfachen Empfängern und Antennen möglich. Die große Reichweite der Sender kommt im LW(Langwellen)- und MW(Mittelwellen)Bereich durch die geringe Dämpfung der vertikal polarisierten Bodenwelle bei Ausbreitung 984
Terrestrische Rundfunksysteme über der leitfähigen Erde zustande. In der Nacht kommt die Rückstreuung der Raumwelle an ionosphärischen Schichten hinzu. Im KW(Kurzwellen)-Bereich ist dies der alleinige Mechanismus für die Fernausbreitung, da in diesem Frequenzbereich die Bodenwelle stark gedämpft ist. Der Kanalabstand beträgt 9 kHz (MW/LW, Europa) bzw. 10 kHz (MW, Nordamerika) und 5 kHz (KW, geografisch entkoppelt). Daher ist bei der in diesem Frequenzbereich angewandten Amplitudenmodulation (AM) die Bandbreite des Modulationssignals auf 4 bis 5 kHz limitiert und die Tonqualität entsprechend eingeschränkt. Darüber hinaus wird die NF-Bandbreite in vielen AM-Empfängern zusätzlich eingeengt (bis herab zu Bandbreiten von etwa 2,5 kHz), im Interesse einer besseren Selektivität gegenüber Nachbarsendern. Die AM-Übertragung hat eine Reihe von weiteren Nachteilen. Durch die geringe Effizienz selbst bei hohen Modulationsgraden (siehe Kap. 17.1.2) ergibt sich ein hoher Leistungsbedarf der Sender, insbesondere da im LW- und MW-Bereich ein hoher atmosphärischer Störpegel vorhanden ist. Die Mindestfeldstärke im Versorgungsgebiet beträgt im LW-Bereich etwa 72 dB(:V/m) und im MW-Bereich etwa 60 dB(:V/m). Für einen 300 kW-Sender ergeben sich hieraus Reichweiten von etwa 300 km im Langwellenbereich und 100 bis150 km im Mittelwellenbereich [17.5]. Für Kurzwellensender gelten infolge ihres deutlich abweichenden Ausbreitungsmechanismus (ionosphärische Ausbreitung) andere Bedingungen, so dass hier eine kontinentüberschreitende Versorgung erreicht werden kann (z. B. für Auslands-Kurzwellenprogramme etc.). Die Reichweite insbesondere der Mittel- und Kurzwellen weist starke Unterschiede zwischen Tag und Nacht (geringere Dämpfung der Raumwelle) auf. Durch die Mehrfachbelegung der Kanäle kommt es daher nachts zu vermehrten Störungen durch Gleichkanalsender in großer Entfernung, so dass sich eine höhere Mindestfeldstärke und damit ggf. eine geringere Reichweite ergibt. Besonders störend wirkt sich bei AM der durch die Überlagerung von Signalen mit unterschiedlichen Ausbreitungswegen hervorgerufene selektive Trägerschwund aus, wenn der Träger des AM-Signals stärker ausgelöscht wird als die Seitenbänder. Dadurch entsteht praktisch ein Modulationsgrad >1, der sich bei der Tonwiedergabe durch nichtlineare Verzerrungen bemerkbar macht. Bei mobilem Empfang von AM-Sendungen kommt es zu Empfangsunterbrechungen durch größere geerdete Umgebungs-Strukturen, z. B. bei der Durchfahrt unter Brücken und Hochspannungsleitungen. Um den Bedienkomfort von AM-Empfängern zu verbessern (z. B. Anzeige des Sendernamens und Übertragung von Alternativfrequenzen zur automatischen Auswahl des besten Signals insbesondere im KW-Bereich) können über AM-Sender zusätzlich zum Hörfunkprogramm Daten übertragen werden. Dazu wurde das AM Data System [BS.706] und später das AM Signalling System AMSS [TS 102 386] entwickelt und standardisiert, bei dem die Datenübertragung durch eine zusätzliche Biphasen-Modulation des Trägers von ± 20/ erfolgt. Die Datenrate ist allerdings gering (46 bit/s) und der Empfang zumindest im Kurzwellenbereich durch häufige Übertragungsfehler beeinträchtigt. Weitere Details siehe Kap. 17.5.
985
Rundfunksysteme 17.2.1.2
FM-Rundfunk im UKW-Band II
Im Gegensatz zum Frequenzbereich unterhalb 30 MHz ist die Nutz-Reichweite von Sendern im UKW-Band II im Allgemeinen auf den Funkhorizont der Sendeantenne begrenzt und beträgt je nach Antennenhöhe und Sendeleistung etwa 10 bis 100 km. Durch troposphärische Streuung und andere Effekte erzeugen die Sender aber auch in größerer Entfernung eine Feldstärke, die die Nutzung des entsprechenden Kanals durch andere Sender beeinträchtigt. Für Stereo-Empfang (s. u.) beträgt die Mindest-Nutzfeldstärke 54 dB:V/m. Außerdem muss ein sog. Schutzabstand zwischen Nutz- und Störfeldstärke von 37 dB erreicht werden. Für die Sendernetzplanung werden dabei statistisch konditionierte Versorgungsziele angestrebt, z. B. derart, dass diese Kriterien an 50% der Orte für 99% der Zeit erfüllt sind [17.5]. Der Rundfunk im UKW-Band II benutzt als Modulationsart Frequenzmodulation (FM) mit einem maximalen Frequenz-Hub (siehe Kap. 17.1.2) von 75 kHz und einer daraus resultierenden HF-Bandbreite von (ca.) 150 kHz. Der Vorteil der FM-Übertragung gegenüber AM besteht in der höheren Übertragungsqualität: FM überträgt praktisch den vollen hörbaren NF-Frequenzbereich zwischen 30 Hz und 15 kHz mit einem relativ hohen Störabstand von etwa 40 dB. Eine deutliche Verbesserung des Störabstandes wird durch die Vorverzerrung (Preemphasis) des Amplitudenfrequenzganges des modulierenden Signals mit einer Filterzeitkonstante von 50 :s erreicht, das bedeutet eine Anhebung der hohen Frequenzen bis zu 15 dB über den Wert bei der Bezugsfrequenz 1 kHz, siehe Abb. 17/20 (dargestellt ist die resultierende Absenkung der maximal möglichen Aussteuerung des Senders). Im Empfänger wird diese Vorverzerrung durch eine inverse Absenkung (Deemphasis) um den gleichen Betrag wieder ausgeglichen und damit gleichzeitig das Empfängerrauschen abgesenkt. Für die Praxis der Programmausstrahlung bedeutet dies jedoch, dass die höherfrequenten Anteile des Programmsignals auf keinen Fall mit voller Aussteuerung übertragen werden dürfen. Andernfalls kommt es infolge unzulässiger HubÜberschreitungen zu starken Verzerrungen im Empfangsdemodulator, sowie zur Generierung von Nachbarkanalstörungen in anderen UKW-FM-Programmen (bekannt als sog. Spuckeffekt).
Abb.17/20. Vorverzerrung (Preemphasis) des Modulationssignals bei UKW- FM mit 50 :s. (Zum Vergleich: Vorverzerrung bei der analogen Magnettonaufzeichnung mit 35 :s bei 38 cm/s Bandgeschwindigkeit bzw. 70 :s bei 19 cm/s).
986
Terrestrische Rundfunksysteme Um auch Stereosignale und Zusatzdaten übertragen zu können, werden die Sender nicht direkt mit dem Tonsignal moduliert, sondern mit einem Multiplex-Signal, das den aus der Summe des linken und rechten Kanals gebildeten Hauptkanal (M-Signal) und den aus der Differenz des linken und rechten Kanals (S-Signal) gebildeten Stereohilfskanal enthält, sowie den zusätzlichen Datenkanal für RDS (Radio Data System), siehe [17.6], sowie Kap. 17.5. Abb. 17/21 zeigt den Aufbau des Multiplexsignals. Der Hilfskanal wird amplitudenmoduliert, wobei der Träger bei 38 kHz unterdrückt wird. Um ihn im Stereodecoder eines Empfängers durch Frequenzverdopplung wieder rekonstruieren zu können, wird ein „Pilotton“ bei 19 kHz übertragen. Dadurch wird vermieden, dass das starke Trägersignal des Hilfskanals zu einer größeren Bandbreite der FM-Aussendung führt. Der Hilfsträger für das RDS-Datensignal liegt bei der dreifachen Frequenz des Pilottons, also bei 57 kHz. Die binären Daten werden mittels Biphasenmodulation aufgeprägt, wodurch 1187,5 bit/s übertragen werden können, von denen aber 456 Bit/s für Synchronisation und Fehlererkennung verwendet werden, so dass die Nutzdatenrate nur noch 731 Bit/s beträgt.
Abb. 17/21. Das FM – Stereo-Multiplexsignal, mit RDS (stilisierte Momentaufnahme).
Die FM-Übertragung hat eine Reihe von Nachteilen, die sich insbesondere beim Empfang mit tragbaren und mobilen Empfängern störend bemerkbar machen. Zum einen ist die Echotoleranz des Systems sehr gering (siehe Abb. 17/8). Zum anderen kann es durch die geringe Bandbreite bei Mehrwegeausbreitung zu „Flat Fading“ kommen, wobei das Signal über seine ganze Breite an einem Empfangsort ausgelöscht werden kann. Dadurch wird der Empfang an bestimmten Stellen unmöglich bzw. stark gestört. Dies erfordert ein Verändern der Empfängerposition bei tragbaren Geräten oder den Einsatz von aufwändigen Systemen mehrerer gekoppelter Empfangsantennen.
987
Rundfunksysteme 17.2.1.3
Analoges Fernsehen
Das analoge Fernsehen wird seit seiner Einführung in den Frequenzbändern III und V, also oberhalb des Frequenzbereiches für den UKW-Rundfunk übertragen. Als Modulationssystem für den Fernsehton wird ebenfalls FM-Modulation benutzt, im Unterschied zum UKWRundfunk jedoch mit einem geringeren Frequenzhub von lediglich 50 kHz. Dies führt u. a. zu einem um etwa 5 dB schlechteren Störabstand (Systemdynamik) im Vergleich zum Tonrundfunk. In Deutschland wird seit etwa 2005 das analoge Fernsehen zügig durch DVB-T abgelöst, siehe Kap. 17.2.3.
17.2.2
Digital Audio Broadcasting (DAB)
17.2.2.1
Übersicht
DAB (Digital Audio Broadcasting) ist ein System zur Übertragung von qualitativ hochwertigem digitalen Hörrundfunk. Es kann aber gleichzeitig beliebige andere Datendienste oder Multimedia übertragen und hat sich unterdessen zu einer DAB-Systemfamilie, bestehend aus DAB, DAB+ und DMB erweitert, siehe unten. Die Entwicklung begann bereits Ende der 1980er Jahre, Anfang der 1990er Jahre erfolgten umfangreiche Forschungs- und Entwicklungsarbeiten. Der DAB-Standard [EN 300 401] wurde im Februar 1995 veröffentlicht und die ersten Empfänger für DAB-Pilotprojekte wurden auf der Internationalen Funkausstellung 1995 präsentiert. Die wichtigsten Ziele bei der Entwicklung von DAB waren: - sicherer Empfang sowohl stationär, im Auto und mit tragbaren Geräten, - Gewährleistung einer mit CD vergleichbaren Tonqualität, - frequenzökonomisch durch Audiodatenreduktion sowie Gleichwellenbetrieb, - leistungsökonomisch durch geeignetes Übertragungsverfahren und Kanalcodierung, - Eignung für internationalen, nationalen, regionalen und lokalen Rundfunk, - zukunftssicher durch Multimedia-Tauglichkeit. Sie konnten durch den erstmaligen Einsatz zweier damals neu entwickelter Verfahren in einem Rundfunkübertragungssystem erreicht werden, nämlich eines effizienten AudiodatenReduktionsverfahrens (MPEG-1/2 Layer 2 bzw. MPEG-4 HE AAC) und des digitalen Übertragungsverfahrens COFDM (siehe Kap. 17.2). Ein weiteres besonderes Merkmal von DAB ist seine flexible Konfigurierbarkeit, die in dieser Form kein anderes Rundfunk-System bietet: Bei einer festen Brutto-Datenrate von 2304 kBit/s, die innerhalb der Bandbreite von ca. 1,5 MHz übertragen werden kann, ist für jede der einzelnen Anwendungen im Multiplex ein individuell angepasster Fehlerschutz möglich. Darüber hinaus kann diese Multiplex-Konfiguration, d. h. die Aufteilung der Kapazität und der Fehlerschutz, innerhalb von Sekunden geändert werden. Dies ist so geschickt organisiert, dass der Empfänger den Änderungen problemlos folgen kann und dabei nur den für ihn interessanten Teil-Datenstrom zu decodieren braucht.
988
Terrestrische Rundfunksysteme Die Einführung von DAB erfolgte sowohl im VHF-Band III, in vielen Regionen insbesondere im Kanal 12 (223 bis 230 MHz), als auch im L-Band (1452 bis 1492 MHz). Prinzipiell ist das System für den gesamten Bereich 30 bis 3000 MHz geeignet. Aufbauend auf dem Grundsystem DAB hat sich unterdessen eine eigene Systemfamilie etabliert, die neben DAB das hinsichtlich der Codec-Anwendungen weiterentwickelte System DAB+ (auch als DABplus bezeichnet) sowie das Multimedia-orientierte System DMB (Digital Multimedia Broadcasting, siehe Kap. 17.2.3) beinhaltet. Der ursprünglich nur für Europa geplante DAB-Standard ist unterdessen weltweit akzeptiert und in Anwendung bzw. Erprobung, mit Ausnahme von USA sowie Japan, die jeweils eigene Lösungen favorisieren, siehe weiter unten. 17.2.2.2
Tonübertragung bei DAB
Als Codec zur Übertragung von Tonsignalen wurde bei DAB ursprünglich MPEG-1 Layer 2 (siehe Kap. 12) definiert, wobei gewisse Einschränkungen gegenüber dem vollständigen MPEG-Standard zur Datenreduktion gemacht wurden. Insbesondere wurde für die Abtastrate zunächst nur der Wert 48 kHz zugelassen. Dabei liefert der Audio-Encoder Datenrahmen, die jeweils die Daten für 24 ms des Tonsignals enthalten. Das DAB-System ist deshalb zum großen Teil auf Datenstrukturen aufgebaut, die einem 24 ms-Takt folgen. Für die Datenrate stehen Werte zwischen 32 und 192 kBit/s (Mono) bzw. 64 und 384 kBit/s (bei Zweikanal und Stereo) zur Verfügung. Um die Wiedergabequalität von Diensten mit geringer Datenrate (z. B. Verkehrsdurchsagekanäle) zu verbessern, wurde zusätzlich die Möglichkeit geschaffen, auch MPEG-2 Layer 2 codierte Signale mit einer halbierten Abtastrate von 24 kBit/s zu übertragen, wobei Datenraten von 8 bis 160 kBit/s möglich sind. Die dann 48 ms entsprechenden Audiorahmen müssen dabei auf zwei aufeinander folgende logische DAB-Rahmen verteilt werden. Im Rahmen von DAB+ sowie DMB (siehe Kap. 17.2.3) ist auch ein Übergang zur MPEG-4 Audiocodierung (HE AACplus, siehe Kap.12) möglich, wobei durch effizientere Codierung die benötigte Bitrate bei gleich bleibender Qualität verringert werden kann.
Abb. 17/22. DAB-Audio-Datenrahmen mit dem PAD-Feld.
989
Rundfunksysteme Abb. 17/22 zeigt den beschriebenen Aufbau des MPEG-1/2 Audio-Datenrahmens. Am Ende des MPEG-Audiorahmens gibt es ein sog. Ancillary-data-Feld, dessen Größe wegen der festen Rahmenlänge allerdings variabel ist, da in jedem Rahmen unterschiedlich viele Bits für die Audiocodierung benötigt werden, je nach den Eigenschaften des Tonsignals. Für die DAB-Übertragung wird daher dieses Feld vom Ende des Rahmens her spezifiziert. Das drittund viertletzte Byte enthält einen CRC zur Fehlererkennung im Bereich der Skalenfaktoren, da sich unerkannte Übertragungsfehler dort besonders störend bemerkbar machen. Die beiden letzten Bytes des Rahmens können die Fixed Programme Associated Data (F-PAD) beinhalten. In diesen beiden Bytes können elementare Audioprogramm-bezogene Informationen übertragen werden, u. a. eine Musik/Sprache-Kennung, oder ein Signal zur Steuerung der Dynamikkompression im Empfänger, wenn ein unkomprimiertes Tonsignal übertragen wird (Dynamic Range Control, siehe Kap. 18.1) sowie ein serieller in-Haus- und Steuerkanal. Da pro Audiorahmen nur 2 Bytes übertragen werden können, ist die Datenrate von F-PAD auf 2 Byte / 24 ms = 667 Bit/s begrenzt (bei 24 kHz Abtastfrequenz auf die Hälfte davon). Um programmbegleitende Anwendungen wie z. B. Texte oder multimediale Inhalte übertragen zu können, wurde ein weiterer variabler Bereich für Extended Programme Associated Data (X-PAD) definiert. Hier können Datenraten von bis zu 64 kBit/s (unter Umständen jedoch auf Kosten der Tonqualität) erreicht werden. Die Anwendungen im X-PAD sind u. a. Dynamic Label (Text) und Multimedia Object Transfer (Segmentierte Übertragung von Objekten mit multimedialen Inhalten, z. B. Bildern) sowie allgemeine Daten in einem dem Packet Mode entsprechenden Format (siehe Kap. 17.2.2.7). Das Hauptmerkmal der als PAD übertragenen Anwendungen ist, dass sie gleichzeitig mit dem Tonsignal dem MPEG-Coder zugeführt und innerhalb des MPEG-Datenstroms bis zum Decoder transportiert werden können, siehe Abb. 17/22. Dadurch ist eine enge zeitliche und inhaltliche Synchronität zwischen dem Hörfunkprogramm und den Begleitinformationen möglich. Für eine nähere Beschreibung der Audiocodierung in DAB sei auf Kap. 12 sowie [17.7] verwiesen, für Details der als PAD übertragenen Anwendungen auf Kap. 17.5. sowie Kap. 18.6. 17.2.2.3
OFDM-Parameter und Übertragungs-Modi
Das DAB-System arbeitet gemäß Standard [EN 300 401] mit OFDM und differentieller QPSK, und zwar der in Kap. 17.1.2 beschriebenen B/4-Shift DQPSK. Die OFDM-Parameter müssen sorgfältig an die jeweiligen Übertragungsbedingungen angepasst werden, um einerseits die langen Echos mit dem Schutzintervall zu absorbieren, aber andererseits die Degradationen durch schnelles Fading nicht zu groß werden zu lassen (siehe Kap. 17.1). Um eine größere Flexibilität bei verschiedenen Rundfunk-Szenarien zu ermöglichen, wurden 4 Übertragungs-Modi (Transmission Modes) mit unterschiedlichen OFDM-Parametern spezifiziert (Tab. 17/6). Alle auftretenden Zeit-Parameter sind ein Vielfaches der Abtastperiode ts, die zu einer Abtastfrequenz
f s= ts-1 = 2048 kHz korrespondiert. Zu dieser Abtastfrequenz gehört bei den einzelnen Modi jeweils die kleinste mögliche 2er-Potenz für die FFT. Die ganzzahligen Faktoren in der vierten und fünften Spalte 990
Terrestrische Rundfunksysteme der Tabelle entsprechen daher der Zahl der Abtastwerte. Das Produkt K/T = 1536 kHz aus der Anzahl K der Unterträger (zweite Spalte) und dem Trägerabstand 1/T (zweite Spalte) ist für alle Modi gleich und entspricht der nominalen Bandbreite. Die Modes II bis IV lassen sich durch einfache Skalierung aus dem ersten ableiten. Das Zahlenverhältnis /T ist für alle Modes gleich und beträgt ungefähr 1/5. Die letzte Spalte gibt eine grobe Obergrenze für die höchste nutzbare Übertragungs-Frequenz an, wenn man von einer Fahrzeuggeschwindigkeit von 120 km/h und Rayleigh-Fading ausgeht. Hierbei wurde angenommen, dass die Dopplerfrequenz begrenzt ist durch
fDmaxTS . 1/20 Tab. 17/6. Die OFDM-Parameter der vier DAB Transmission Modes. Mode
TM I TM IV TM II TM III
Anzahl der TrägerSymbolUnterträger Abstand Dauer -1 K T TS 1536 1 kHz 2552 ts.1246 µs 768 2 kHz 1276 ts.623 µs 384 4 kHz 638 ts.312 µs 192 8 kHz 319 ts.156 µs
SchutzintervallDauer
Max. Frequenz
504 ts.246 µs 252 ts.123 µs 126 ts.62 µs 63 ts.31 µs
.375 MHz .750 MHz .1500 MHz .3000 MHz
Transmission Mode I mit dem sehr langen Schutzintervall von ca. 250 :s ist für eine Grundversorgung mit einem Gleichwellennetz gedacht. Eine Echolaufzeit von 200 :s korrespondiert zu einem Umweg von 60 km, was in der Größenordnung der typischen Distanz zwischen zwei Grundnetzsendern liegt. Wegen der langen Symboldauer ist dieser Modus allerdings sehr empfindlich gegen das schnelle Fading und sollte daher nur im VHF-Bereich verwendet werden. Transmission Mode II mit einem Schutzintervall von ca. 60 :s ist so konzipiert, dass damit die Echos absorbiert werden können, die typischerweise durch die Topographie des Versorgungsgebietes auftreten. Dieser Modus eignet sich auch für die lokale Versorgung auf Frequenzen im L-Band bei ca. 1,5 GHz. Der Transmission Mode IV wurde nachträglich eingeführt und liegt zwischen den beiden eben genannten. Der Transmission Mode III ist für spezielle Anwendungen mit sehr kleinen Funkzellen und Satellitenübertragung vorgesehen und wurde im Regelbetrieb bisher nicht verwendet. 17.2.2.4
DAB-Übertragungsrahmen
Für jeden Übertragungsmodus gibt es einen Übertragungsrahmen (Transmission Frame). Dies ist eine periodisch sich wiederholenden Anordnung von OFDM-Symbolen, die jeweils genau festgelegte Funktionen haben. Der Rahmen beginnt mit zwei Synchronisationssymbolen. Darauf folgen einige Symbole, die dem Steuerkanal (Fast Information Channel, FIC) zugeordnet sind. Dessen wichtigste Aufgabe ist es, dem Empfänger die aktuelle Multiplexkonfiguration mitzuteilen sowie Infomationen über die übertragenen Programme. Darauf folgt 991
Rundfunksysteme der Hauptdatenkanal (Main Service Channel MSC), der die eigentlichen Nutzdaten überträgt und der den bei weitem größten Teil des Rahmens belegt. Im Modus I beträgt die Rahmendauer 96 ms, in Modus II und III jeweils 24 ms und im neu definierten Modus IV 48 ms. Der Rahmenaufbau ist in Modus I, II und IV identisch (Abb. 17/23), nur jeweils um den Faktor 4 bzw. 2 in der Zeit skaliert. Zur groben Zeitsynchronisation dient ein Nullsymbol, während dessen Dauer kein Signal übertragen wird. Das folgende TFPR (Time-Frequency-Phase Reference) -Symbol dient der Feinsynchronisation. Der FIC umfaßt 3 OFDM-Symbole, der MCS 72. In Transmission Mode III hat der FIC 8 und der MSC 144 Symbole. Die Übertragungskapazität des MSC, die in allen Modi exakt identisch ist, berechnet sich z. B. in Modus II wie folgt: ein OFDMSymbol transportiert K=384 komplexe QPSK-Symbole, d. h. 768 Bits. Ein Übertragungsrahmen enthält 72 OFDM-Symbole im MSC und damit 55296 Bits, die in 24 ms übertragen werden. Daraus ergibt sich die Bruttodatenrate von 2304 kBit/s. In Mode I werden somit 221184 = 4 × 55296 Bits in 96 ms übertragen, was auf dieselbe Datenrate führt.
Abb. 17/23. Rahmenaufbau beim DAB Transmission Mode I, II und IV: 76 OFDM-Symbole und ein Nullsymbol.
Unabhängig vom Übertragungsmodus ist bei DAB ein Datenrahmen definiert, der einer Zeitdauer von 24 ms entspricht. Hier wurde als Zeitbasis die Rahmendauer der MPEGAudiocodierung übernommen. Dieser sog. CIF (Common Interleaved Frame) enthält 55296 Bruttobits, die bei Modus II und III jeweils genau in einen Übertragungsrahmen eingebettet werden. Bei Modus I bzw. IV werden 4 bzw. 2 davon in einen Übertragungsrahmen eingebettet, wobei jeweils einer davon genau 18 bzw. 36 OFDM-Symbole des Rahmens beansprucht. Die Kapazität des CIF von 55296 Bits kann frei auf die verschiedenen Teildatenströme (sog. Sub-channels) der verschiedenen Dienste verteilt werden, allerdings sind nicht einzelne Bits adressierbar. Vielmehr wurde eine kleinste adressierbare Einheit die „Kapazitätseinheit" (CU) definiert, die 64 Bit umfasst. Der CIF besteht aus 55296/64 = 864 CUs. Welchen Anteil davon ein Sub-channel belegt, hängt von dessen Nettodatenrate und dem verwendeten Fehlerschutz ab. 17.2.2.5
Quellenangepasste Kanalcodierung
Die Auswahl zwischen verschieden starkem Fehlerschutz für dieselbe Nutzanwendung (Audio oder Datendienste) wird bei DAB möglich durch die Verwendung von Rate Compatible Punctured Convolutional (RCPC) Codes, wie dies in Kap. 17.1.3 beschrieben ist. Dies erlaubt den Einsatz verschieden starker Codes, ohne dass ein wesentlicher Zusatzaufwand etwa durch den Einsatz mehrerer Decoder erforderlich wäre. Der Muttercode bei DAB besitzt die Rate 1/4 992
Terrestrische Rundfunksysteme und Schieberregisterlänge 6. Er wird generiert durch die in Abb. 17/24 dargestellte Schieberegisterschaltung. Auf diese Weise kann man Coderaten 8/9, 8/10, 8/11, 8/12, ..., 8/31, 8/32 generieren. Wenn man bei der Definition der Punktierungsmuster noch die Bedingung der Ratenkompatibilität einhält, kann man sogar innerhalb des Datenstromes zwischen verschiedenen Coderaten umschalten. Man hat damit die Möglichkeit zu ungleichgewichtigem Fehlerschutz (Unequal Error Protection, UEP), d. h. verschieden wichtige Bits im Datenstrom unterschiedlich stark zu schützen. Bei DAB bringt dies insbesondere bei dem Fehlerschutz der MPEG-1/2 Layer 2 - Audiodaten Gewinne, da dort der Datenrahmen sehr unterschiedlich wichtige Bits enthält, siehe Abb. 17/25.
Abb. 17/24. Erzeugung des Faltungscodes (133,171,145,133) durch Schieberregister.
Abb. 17/25. UEP für MPEG-1/2 Layer 2 Audiorahmen.
993
Rundfunksysteme Die erste Bitgruppe im Rahmen ist die wichtigste. Hier muss am meisten Redundanz zugefügt werden. Sie besteht hauptsächlich aus dem Header, ohne den nichts decodiert werden kann. Die nächste Bitgruppe besteht vor allem aus Skalenfaktoren. Fehler in dieser Gruppe führen zu starker Beeinträchtigung des Höreindrucks (Pfeif- und Zwitschertöne). Sie können aber bis zu einem gewissen Ausmaß erfolgreich verschleiert werden. Die größte Gruppe bilden die Abtastwerte in den Teilbändern (Subband Samples). Hier wird der geringste Fehlerschutz benötigt. In der vierten Gruppe werden programmbezogene Zusatzdaten übertragen (PAD, Programme Associated Data) sowie eine Fehlererkennung (CRC, Cyclic Redundancy Check) für die MSBs der Skalenfaktoren, die zur Fehlerverschleierung nötig ist. Die Empfindlichkeit ist vergleichbar mit der in Gruppe 2. Das Bild zeigt sehr deutlich, dass man erheblich mehr Redundanz benötigen würde, wenn man nur eine Coderate zur Verfügung hätte. Man müsste dann den ganzen Rahmen so stark schützen wie die empfindlichste Gruppe 1. Für Audiosignale mit der Abtastfrequenz 48 kHz stehen 14 verschiedene Datenraten zwischen 32 kBit/s und 384 kBit/s zur Verfügung. Es sind fünf Optionen für unterschiedlich starken Fehlerschutz möglich, die als Protection Level PL1 bis PL5 bezeichnet werden. Dabei bietet PL1 den stärksten Fehlerschutz (und erfordert am meisten Redundanz) und PL5 den schwächsten. Außer diesem letzteren kann man alle anderen für die mobile Übertragung als geeignet ansehen, mit unterschiedlichen Anforderungen an den Störabstand. Von diesen 14x5=70 theoretischen Kombinationsmöglichkeiten sind bei DAB 64 vorgesehen. Tab. 17/7 zeigt die beanspruchte Bruttokapazität (in CUs) in Abhängigkeit von der Audiodatenrate und dem Protection Level. Nicht vorkommende Kombinationen sind mit einem X gekennzeichnet. Man erkennt, dass man in den meisten Fällen bei gleicher Kapazitätsbelegung eine Stufe in der Datenrate heruntergehen kann, um sich dafür den nächst stärkeren Fehlerschutz zu erkaufen. Dies erleichtert Konfigurationsänderungen. Außerdem halbiert sich bei Halbierung der Nettodatenrate auch die Übertragungskapazität (Bandbreite). Man kann damit z. B. sehr leicht ein Stereoprogramm in zwei Monoprogramme teilen. Die DAB-Spezifikation sieht für Datendienste 8 Protection-Levels (PL) mit gleichmäßigem Fehlerschutz vor: Protection Level 1-A, 2-A, 3-A, 4-A mit den jeweiligen Coderaten 1/4, 3/8, 1/2, 3/4 und 1-B, 2-B, 3-B, 4-B mit den jeweiligen Coderaten 4/9, 4/7, 4/6, 4/5. Bei PL2-A und PL4-A ist der Fehlerschutz nicht ganz gleichmäßig: Die Coderate 3/8 erhält man, indem man ein Drittel der Bits mit Rate 8/22 schützt und zwei Drittel mit 8/21. Die Coderate 3/4 erhält man, indem man ein Drittel der Bits mit Rate 8/10 schützt und zwei Drittel mit 8/11. Eine Diskussion der Bitfehlerkurven für DAB bei den verschiedenen Codes findet sich in [17.4]. Tab. 17/7. Benötigte Kapazität bei verschiedenen Datenraten und verschiedenem Fehlerschutz. Audiodatenrate (Auswahl) 32 kBit/s 64 kBit/s 96 kBit/s 128 kBit/s 192 kBit/s 256 kBit/s 384 kBit/s
994
PL1
PL2
PL3
PL4
PL5
35 CUs 70 CUs 104 CUs 140 CUs 208 CUs 280 CUs 416 CUs
29 CUs 58 CUs 84 CUs 116 CUs 168 CUs 232 Cus X
24 CUs 48 CUs 70 CUs 96 CUs 140 CUs 192 CUs 280 CUs
21 CUs 42 CUs 58 CUs 84 CUs 116 CUs 168 CUs X
16 CUs 32 CUs 48 CUs 64 CUs 96 CUs 128 CUs 192 CUs
Terrestrische Rundfunksysteme Schließlich bleibt noch anzumerken, dass die Codierung mit ungleichgewichtigem Fehlerschutz einen sanften Ausstieg (graceful degradation) beim Verlassen des Versorgungsgebietes ermöglicht. Dies heißt, dass sich dabei die Audioqualität langsam verschlechtert, bevor der Empfang ganz abbricht, genauso, wie man es bei analogem Rundfunkempfang gewöhnt ist. 17.2.2.6
Interleaving
In Kap. 17.1.3 wurde die Notwendigkeit des Interleavings für die Kanalcodierung erläutert. Bei OFDM hat man zwei physikalische Dimensionen für das Interleaving zur Verfügung: Die Zeitrichtung und die Frequenzrichtung. Das Frequenzinterleaving bei DAB besteht einfach darin, dass die (D)QPSK-Symbole den Unterträgern eines OFDM-Symbols in einer festen, pseudozufällig verwürfelten Reihenfolge zugeordnet werden. Der Zeitinterleaver ist ein sog. Faltungsinterleaver, dessen Grundprinzip so funktioniert: Bit Nr. 0 eines Rahmens wird unverzögert übertragen, Bit Nr. 1 um 24 ms verzögert, Bit Nr. 2 um 2 x 24 ms verzögert usw., bis schließlich nach Bit Nr. 15, das um 15 x 24 ms verzögert wird, das Bit Nr. 16 wieder unverzögert übertragen wird, Bit Nr. 17 um 24 ms verzögert wird usw. Bei DAB wird das Prinzip des Faltungsinterleavers noch geringfügig modifiziert, indem vor der Verzögerung noch innerhalb von Blöcken der Größe 16 durch ein "Bit-Reverse" die Reihenfolge der Daten verändert wird (d. h. 0÷0, 1÷8, 2÷4, ... , 3÷12, ... , 14÷7, 15÷15). Das Zeit-Interleaving führt zu einer Codier- bzw. Decodier-Verzögerung von jeweils 192 ms. Das Zeit-Interleaving wird individuell für jeden der einzelnen codierten Datenströme durchgeführt. Der Empfänger braucht daher nur denjenigen zu verarbeiten, der für ihn gerade relevant ist (z. B. ein Audio-Programm). Sendeseitig lässt sich dagegen das Interleaving aller Datenströme gemeinsam durchführen. Das Zeit-Interleaving wird nur auf die Daten im MSC angewandt. Der FIC soll ohne zusätzliche Verzögerung decodiert werden können und erfährt daher nur ein Frequenz-Interleaving.
Abb. 17/26. Systembedingte Zeitverzögerungen bei DAB-Übertragung.
995
Rundfunksysteme Voraussetzung für gewünschte Wirkung des Interleavings ist allerdings, dass aufeinander folgende Bits auch wirklich unkorrelierte Störungen durch den Funkkanal erfahren, d. h. die entsprechenden Korrelationslängen dürfen nicht zu groß werden. Bei einem stehenden oder auch einem sehr langsam fahrenden Fahrzeug kann das Zeitinterleaving keine zeitliche Dekorrelation der Schwundeinbrüche bewirken. Bei ausschließlich sehr kurzen Echolaufzeiten versagt auch das Frequenzinterleaving. Aussagen über vom System benötigte Störabstände setzen in der Regel ideal wirksames Interleaving voraus. Die Frequenzplanung muss entweder sicherstellen, dass das Interleaving wirksam ist (Gleichwellennetze unterstützen z. B. das Frequenzinterleaving), oder aber entsprechende Degradationen von vornherein durch höhere Empfangsfeldstärken berücksichtigen. Bedingt durch die verschiedenen Codierungsprozesse (Audiocodierung einschl. eventueller Codec-Kaskadierungen, Kanalcodierung) entsteht eine signifikante Zeitverzögerung des Audiosignals im Verlaufe des DAB- bzw. DMB-Übertragungskanals, die sich deutlich von den Zeitbedingungen bei traditioneller (analoger, terrestrischer) Rundfunkübertragung unterscheidet, siehe Abb. 17/26. Ein MPEG-1/2-Audioencoder benötigt eine Verarbeitungszeit von durchschnittlich 80 ms, der Decoder ist i. Allg. etwas schneller. Diese Zeit kann sich – abhängig von der Zahl der im Verlaufe des Übertragungsweges einbezogenen Kaskadierungsstufen – gegebenenfalls vervielfachen. Audiocodecs des MPEG-2/4-Typs können derzeit noch deutlich längere Verarbeitungszeiten erfordern. Unabhängig von der benutzten Audiocodierung fügt der Kanalcodierungsprozess gemäß DAB-Standard ein festgelegtes Time-Interleaving von jeweils 192 ms auf der Sender- und Empfängerseite hinzu. Die eigentliche HF-Übertragung des Rundfunksignals kann bei rein terrestrischer Übertragung vernachlässigt werden, im Falle der Nutzung von satellitengestützten Übertragungswegen oder Versorgungsprozessen (DAB-S bzw. DMB-S) tritt je Satellitenweg eine zusätzliche Zeitverzögerung durch die Laufzeit des Signals im Orbit von etwa 250 ms auf. Die Summation aller dieser Zeiten führt bei rein terrestrischer Übertragung zu einer resultierenden Zeitverzögerung des Rundfunksignals von mindestens 500 ms, bei Satellitenübertragung sogar von mindestens 750 ms. Diese Werte sind deutlich höher als vom traditionellen terrestrischen Rundfunk (AM, UKW/FM) gewohnt, was bei entsprechend zeitkritischen Programminhalten, wie Zeitansagen (Gong) oder auch bei interaktiven Programminhalten, wie Telefongesprächen, Spielen etc. zu berücksichtigen ist. 17.2.2.7
Transportmechanismen bei DAB
Wie im Abschnitt „Rahmenstruktur“ beschrieben, ist es ungeachtet der Unterschiede der vier Transmission Modes möglich, die übertragenen Daten unabhängig davon zu gruppieren und die Aufteilung der Kapazität auf verschiedene Anwendungen zu beschreiben. Hierzu wird der FIC in eine Abfolge von Fast Information Blocks (FIBs) und des MSC in eine Abfolge von Common Interleaved Frames (CIFs) umgesetzt. Ein FIB enthält 768 Bit (d. h. 256 Bit netto wegen der festen Coderate von 1/3) und ein CIF enthält 55296 Bit (brutto). Je nach Transmission Mode werden unterschiedlich viele FIBs bzw. CIFs in einem Rahmen übertragen, jedoch jeweils im Mittel mindestens 3 FIBs und ein CIF in einem Zeitraum von 24 ms. 996
Terrestrische Rundfunksysteme Die verfügbaren Daten eines CIF werden zu 864 Kapazitätseinheiten (capacity unit, CU) zu je 64 Bit gruppiert, durchnumeriert von 0 bis 863. Eine Gruppe aufeinander folgender Kapazitätseinheiten, die zu einer Anwendung gehören, bilden einen Sub-channel. Sie unterliegen jeweils dem gleichen Fehlerschutz, können aber mit unterschiedlichen Coderaten codiert sein. Insgesamt können bis zu 64 Sub-channels gebildet werden. Die Daten des CIF haben auch bereits den Zeitinterleaver durchlaufen, enthalten also Daten die zu einem Zeitabschnitt von 360 ms gehören. Für die Strukturierung der Daten innerhalb eines Sub-channels stehen zwei Möglichkeiten zur Verfügung: Stream Mode und Packet Mode. Im Stream Mode (kontinuierliche Übertragung) wird die Kapazität eines Teilkanals von einer Anwendung vollständig in Anspruch genommen, die Daten werden transparent und synchron durch das DAB-Übertragungssystem transportiert. Auf diese Weise werden Audiodaten und andere serielle Datenströme übertragen, z. B. auch Videosignale oder kontinuierliche Datenströme. Im Stream Mode kann ungleichgewichtiger Fehlerschutz gewählt werden, wenn MPEG-1/2 Layer 2 Audiorahmen in den CIF eingepasst werden, oder gleichgewichtiger Fehlerschutz für andere Datenströme (siehe Kap. 17.2.2.5, Quellen-angepasste Kanalcodierung). Bei MPEG-1/2 Layer 2 Audio können auch innerhalb des Datenstroms weitere Daten als programmbegleitende Daten (Programme associated data, PAD, siehe Kap. 17.2.2.2, Tonübertragung bei DAB und Kap. 17.5) übertragen werden.
Abb. 17/27. Blockschaltbild der Erzeugung des Common Interleaved Frame.
Für die asynchrone Datenübertragung gibt es den Packet Mode (Paketübertragung) . Hierbei werden die Daten in jeweils mit Adressen versehenen Datenpaketen übertragen, nachdem sie zuvor in Datengruppen zusammengefasst wurden. Da durch die Paketadressen die zu einem bestimmten Dienst gehörigen Daten identifiziert werden können, ist in einem Packet-ModeTeilkanal die gleichzeitige Übertragung von Daten mehrerer Anwendungen möglich. Dies 997
Rundfunksysteme ermöglicht auch die Anwendung eines zusätzlichen äußeren Codes. Es wird ein ReedSolomon-Code verwendet, bei dem die zusätzlich erzeugten redundanten Bytes in separaten Paketen übertragen werden. Dadurch können auch Empfänger ohne RS-Decoder die Daten verarbeiten, jedoch keine Fehlerkorrektur anwenden. Abb. 17/27 zeigt die Funktionsblöcke, die die Daten von den Quellen bis zum Aufbau des CIF durchlaufen. 17.2.2.8
DAB - Multiplexkonfiguration
Die Beschreibung der Aufteilung des Main Service Channel auf die verschiedenen Teilkanäle und deren Zuordnung zu Hörfunkprogrammen und Datendiensten wird als Multiplex Configuration Information, MCI bezeichnet. Diese Aufteilung ist nicht von vornherein festgelegt, sondern kann individuell festgelegt und sogar während des laufenden Sendebetriebs verändert werden („Multiplex-Rekonfiguration“). Die jeweilige MCI und die Informationen, die ggf. bei einer Rekonfiguration zusätzlich benötigt werden, wird im Fast Information Channel übertragen. Von den in einem Sub-channel übertragenen Daten ist zunächst nicht bekannt, welche Inhalte sie darstellen. Deshalb ist eine logische Verknüpfung der verschiedenen Datenströme erforderlich. Auf dieser logischen Ebene werden alle Datenströme als Service Components bezeichnet, sofern sie jeweils für sich dem Nutzer zugänglich sind. Inhaltlich zusammengehörige Komponenten bilden einen Service (Hörfunkprogramm). Die Komponente, die für das Programm wesentlich ist (z. B. die Audio-Komponente im Falle eines Hörfunkprogramms), ist die Primary Service Component, die anderen sind Secondary Service Components. Jedes Hörfunkprogramm hat genau eine primäre Komponente und kann entweder keine, eine oder mehrere sekundäre Komponenten haben. Alle Daten, die zusammen in einem DABMultiplex übertragen werden, bilden ein Ensemble.
Abb. 17/28. Beispiel für DAB-Ensemble, Services und Service Components.
Abb. 17/28 zeigt ein Beispiel für den logischen Aufbau eines solchen Ensembles („DAB 1“), das u.a. die Services „Radio 2“, „Radio 3“ (gedacht als zwei Hörfunkprogramme desselben Anbieters) und „Musik“ enthält. Jedes dieser Programme hat als primäre Komponente ein Audio-Programm (Zuordnung durch fette Linien), daneben sekundäre Komponenten, z. B. 998
Terrestrische Rundfunksysteme Datenkanäle. Es ist möglich, dass zwei oder mehr Services auf dieselben Komponenten zugreifen, z. B., dass „Radio 2“ und „Radio 3“ einen gemeinsamen TMC (Traffic Message Channel, siehe Kap. 17.5.9) haben. In diesem Fall wird eine solche Komponente als Secondary service component jedes der Services definiert, denen sie angehört. Der gemeinsame Zugriff auf dieselbe Komponente ist auch für die Audioprogramme selbst möglich. Beispielsweise könnten Radio 2 und Radio 3 zu bestimmten Zeiten identische Inhalte übertragen, z. B. die Nachrichten. Während dieser Zeit ist es nicht notwendig, dass dieselben Audiodaten mehrfach übertragen werden, vielmehr kann „Radio 3“ für diese Zeit das Audioprogramm in dem Sub-channel, in dem auch das Audioprogramm von „Radio 2“ enthalten ist, als seine primäre Komponente definieren. Die dadurch frei werdende Kapazität könnte währenddessen für die Übertragung anderer Daten verwendet werden, etwa HTML-Dateien. Obwohl all diese Möglichkeiten in der DAB-Spezifikation vorgesehen sind, wurden sie im praktischen Betrieb bisher kaum realisiert. Diese logischen Beziehungen zwischen Services und Service Components müssen noch ergänzt werden durch die Information, in welchem Sub-channel die zugehörigen Daten übertragen werden, und ggf. mit welcher Paketadresse dies geschieht. Die Multiplex-Konfigurationsinformation umfasst also folgende Daten: - die Größe und Codierung der einzelnen Sub-channels, d. h., welche Kapazitätseinheiten des CIF welchem Sub-channel zugeordnet sind, - die Übertragungsart in jedem Teilkanal (Stream oder Packet Mode), - welche Service Components in welchem Teilkanal transportiert werden und ggf. mit welcher Paketadresse sie versehen sind, - welche Service Components zu welchem Programm gehören. Diese Informationen werden im Fast Information Channel (FIC) übertragen. Er besteht aus einer Abfolge von 32 Bytes großen Fast Information Blocks (FIBs), die jeweils 30 Bytes für Daten und 2 Bytes für ein CRC-Feld (Cyclic Redundancy Check) zur Fehlererkennung umfassen. In jedem FIB können mehrere Fast Information Groups (FIGs) übertragen werden, die jeweils einen Header (1 Byte) enthalten, in dem der Inhalt (FIG Type) und die Länge der jeweiligen FIG angegeben werden. Es sind 8 verschiedene Typen von FIGs definiert, die teilweise durch Extensions in einem Subheader noch weiter in ihrer Bedeutung unterschieden werden können. Die allgemein verwendete Bezeichnung für eine FIG eines bestimmten Typs und einer bestimmten Extension ist FIG (Typ/Extension). Mehrere FIGs können innerhalb eines FIB in beliebiger Reihenfolge übertragen werden. 17.2.2.9
DAB Service Information
Unter Service Information versteht man Daten, die zusätzliche Informationen zu Programmen oder Datendiensten enthalten, welche in einem Ensemble enthalten sind. Auch diese Informationen werden im Fast Information Channel gesendet. Abb. 17/29 zeigt die Übertragung der Service Information schematisch. Gemeinsamer „Aufhänger“ für alle Informationen ist der Service Identifier, ein 16 bit-Code, der einen Service eindeutig kennzeichnet. Je nach Transportart wird zunächst übertragen, wo im Ensemble die zu den Komponenten dieses Service gehörenden Daten zu finden sind. Bei Stream Mode- Komponenten genügt dazu die Angabe des Sub-channel durch den Sub-channel Identifier, bei Packet Mode wird ein Service Component 999
Rundfunksysteme Identifier verwendet, dem die Packet Address und der Subchannel Identifier zugeordnet wird. Schließlich können auch Daten geringen Umfangs im Fast Information Data Channel übertragen werden, der durch FIGs des Typs 5 gebildet wird. Um Daten verschiedener Anwendungen unterscheiden zu können, wird der FIDC Identifier verwendet. Für jedes Progamm wird ein Name (Label) übertragen. Der Zeichensatz für diese Namen wird durch ein 4 Bit-Feld definiert, so dass auch z. B. griechische oder kyrillische Zeichen übertragen werden könnten. Die Namen sind generell 16 Buchstaben lang. Erweiterte Namen (Extended Labels) können durch Segmentierung im FIC übertragen werden, dazu wurde ein spezieller Mechanismus unter Benutzung der FIGs vom Typ 2 definiert. Für Extended Labels können auch spezielle Zeichen durch Bitmaps definiert werden.
Abb. 17/29. Die Übertragung der Service Information im FIC.
Zu jeder Audio-Komponente kann angegeben werden, in welcher Sprache sie gesendet wird. Dies kann in mehrsprachigen oder grenznahen Gebieten die Programmwahl erleichtern. Die Programme Number, PNum, kennzeichnet jede Sendung mit dem Sendedatum und der Uhrzeit, analog zum PIN (Programme Identification Number)-Code bei RDS. Dieser Code kann zum Beispiel zur Steuerung von Aufnahmegeräten verwendet werden, oder um Sendungen aus einer elektronischen Programmzeitschrift auszuwählen. Der Programme Type, PTy dient zur Kategorisierung von Programmen und Sendungen, um dem Hörer die Auswahl aus dem Programmangebot zu erleichtern. Sie kann im einfachsten Fall (statischer PTy) dazu dienen, die Art des Programms anzugeben, unabhängig von der gerade laufenden Sendung. Weiterhin gibt es dynamische PTys die signalisieren, welchen Inhalt der gerade gesendete Beitrag hat. Bei DAB gibt es die Möglichkeit, jedem Programm bis zu zwei PTys zuzuordnen. Unter Durchsagekennung (Announcement support / announcement switching) versteht man die Kennzeichnung eines Programms, in dem bestimmte Durchsagen, z. B. Verkehrsmeldungen, prinzipiell übertragen werden einschl. der Kennzeichnung der tatsächlich gesprochenen Meldung während ihrer Ausstrahlung. So kann im Empfänger ein passendes Programm, das 1000
Terrestrische Rundfunksysteme die gewünschten Informationen enthält, gewählt werden. Während der Durchsagen kann eine bestimmte Aktion ausgelöst werden, z. B. Erhöhung der Lautstärke oder Umschalten von CD-Wiedergabe auf Radio. Ebenso wie zu Durchsagen auf ein anderes Programm innerhalb desselben DAB-Ensembles umgeschaltet werden kann, können diese auch aus einem anderen Ensemble oder von einem FM- oder AM-Sender kommen. Bei DAB können Durchsagen auch regional beschränkt werden. Weitere Details zu den Serviceinformationen enthält Kap. 17.5.4. 17.2.2.10 DAB Ensemble–Information Im FIC werden auch Daten übertragen, die das gesamte Ensemble betreffen. Dies sind insbesondere ein Ensemble Identifier und ein Label, um das Ensemble identifizieren zu können, sowie der Extended Country Code (ECC), mit dem zusammen die Service Identifier die Programme weltweit eindeutig identifizieren. Weiterhin gehören zur Ensemble-Information Datum und Uhrzeit, sowie die Definition von Regionen und Informationen über Alternativfrequenzen und Senderkennungen. Das Datum wird als Modifiziertes Julianisches Datum (MJD) angegeben, aus dem das normale Datum, die Kalenderwoche und der Wochentag berechnet werden können. Die Uhrzeit wird als Universal Coordinated Time (UTC) zusammen mit der Zeitzone für die Umrechung in die Ortszeit gesendet. Obwohl durch DAB-Gleichwellennetze (SFN, Single Frequency Network) große Versorgungsgebiete abgedeckt werden, so dass sich auch bei Autoradios das Umschalten auf andere Frequenzen meist erübrigt, können Alternativfrequenzen für die in einem Ensemble enthaltenen Programme im FIC übertragen werden. Diese können zusammen mit der Region im Gleichwellennetz, in der sie gültig sind, übertragen werden, so dass der Empfänger die wahrscheinlichsten Frequenzen zuerst prüfen kann. Die genannten Regionen können über die Senderkennung im Gleichwellennetz oder über geographische Koordinaten definiert werden. Als Alternativen können sowohl andere DAB-Ensembles, als auch FM- und AM-Frequenzen (also Lang-, Mittel-, Kurzwellensender, moduliert als AM oder DRM) angegeben werden. Im Übrigen können auch Frequenzen von anderen DAB-Ensembles und solche für Programme angegeben werden, die im gegenwärtig empfangenen Ensemble gar nicht enthalten sind. Die DAB-Frequenzinformation kann also im Prinzip eine vollständige Sendertabelle eines Landes oder einer Region enthalten. 17.2.2.11 DAB-Dienstestruktur Die Programmbereitstellung für die klassischen Rundfunkdienste erfordert(e) eine relativ einfache Struktur der Verantwortlichkeiten: Autor (Editor) und/oder Redakteur sind verantwortlich für die Produktion und Abwicklung des gesamten Sendungsinhaltes, danach findet keine weitere Beeinflussung von Inhalt oder Qualität bis zum Rezipienten mehr statt. Dies gilt sowohl für den AM- und FM-Rundfunk, als auch für die frühen Formen des digitalen Rundfunks (DSR, ADR). Die wesentlich komplexeren Inhaltsstrukturen von DAB-Programmen (also Hörfunkprogramme mit unterschiedlichem Format und Qualitätslevel, programmbegleitenden Daten im PAD, unabhängigen Datendiensten sowie Programmserviceinformationen) mit ihren diversen 1001
Rundfunksysteme Freiheitsgraden zur dynamischen Veränderung verschiedenster Parameter erfordert jedoch verschiedene, hierarchisch strukturierte Verantwortlichkeiten zur Gestaltung von Inhalt, Form und Qualität eines DAB-Dienstes, als da sind: - Programmprovider - Serviceprovider - Ensembleprovider Programmanbieter (Programme provider) Für die Hörfunkprogramme hat der Programmanbieter (Rundfunkanstalt) praktisch die gleichen Aufgaben wie in einer klassischen Rundfunkorganisation, zusätzlich hat er jedoch verschiedene programmbezogene Informationen für PAD, wie DRC (Dynamic Range Control), M/S (Musik/Sprache-Kennung), Service Informationen (Dynamic label, Programmtyp, Ansagetyp etc.) bereitzustellen. Unabhängig davon hat der Programme (Content) Provider für unabhängige Datendienste seine Beiträge für ein bestimmtes DAB-Programm zu erbringen – dies ist eine Aufgabe, die bisher nicht üblich war. Serviceanbieter (Service provider) Das Programmausgangssignal wird an einen Serviceprovider geliefert und dort mit einer Anzahl weiterer Programme zu einem Programmservice gebündelt, der auch andere Komponenten enthalten kann (z. B. SI – ähnlich wie RDS – oder zusätzliche, unabhängige Datendienste). Aufgabe des Serviceproviders ist es, diese Datendienste zu managen. Des Weiteren organisiert er die individuellen Parameter des entsprechenden Service-Multiplex, wie Rekonfigurations-Anforderungen, Änderungen von Audioparametern, wie Datenrate, Mono/Stereo-Umschaltungen u. a. mehr. Ensembleprovider
Abb. 17/30. Struktur der Informationsflüsse und Zuständigkeiten in einem DAB Service Ensemble.
1002
Terrestrische Rundfunksysteme Schlussendlich wird durch den Ensembleprovider eine Anzahl von Programmdiensten (etwa vier bis sieben) einschließlich der anderen Komponenten des Main Service Channel (MSC) und des Fast Information Channel (FIC) in ein DAB Serviceensemble eingebaut und an den DAB-Sender geliefert. Dieser Ensembleprovider ist ebenfalls verantwortlich für bestimmte statische und dynamische Serviceinformationen (SI). Abb. 17/30 zeigt die (schematisierte) Struktur der Informationsflüsse und Zuständigkeiten in einem DAB Service Ensemble. Weitere Details zu Serviceinformationen und programmbegleitenden Daten siehe Kap.17.4.
17.2.3
Digital Multimedia Broadcasting (DMB)
DMB (Digital Multimedia Broadcasting) stellt im Rahmen der DAB-Systemfamilie eine aktuelle Erweiterung von DAB zu einem universellen digitalen Multimedia-Rundfunksystem dar, basierend auf dem oben beschriebenen, weltweit gültigen DAB-Standard. 17.2.3.1
DMB - TV
Die Erweiterung des DAB-Systems im Hinblick auf die Übertragung von Zusatzdaten, insbesondere für Bewegtbilder und Fernsehen, wurde bereits Mitte der 1990er Jahre vorgeschlagen und demonstriert, zunächst durch die Übertragung MPEG-1-codierter Fernsehsignale mit einer Datenrate von etwa 1,1 MBit/s [17.8]. Durch den Fortschritt der Videocodierung im Rahmen von MPEG-4 wurde es möglich, die Übertragungskapazität auf bis zu drei Fernsehprogramme zu erhöhen, die mit einer Auflösung übertragen werden, die sich in erster Linie an den Bildschirmgrößen tragbarer Endgeräte, z. B. Mobilfunktelefone, orientiert. Das heute spezifizierte DMB-System, international standardisiert in ETSI [TS 102 427], [TS 102 428] basiert auf der Übertragung von MPEG-Transportströmen (siehe Kap. 17.2.3 und Abb. 17/32), die aus MPEG-4 codierten Video- und Audiodaten (siehe Kap. 12.4) und Zusatzdaten, z. B. Programminformationen, zusammengesetzt sind. Das „Profile 1“ verwendet für die Videokodierung das MPEG-4-AVC / H.264-Verfahren und für den Ton den MPEG-4 ER-BSAC Codec. Das „Profile 2“ verwendet für die Toncodierung hingegen das MPEG-4 HE AAC v2-Verfahren, siehe Kap. 12. Genau wie für die DVB-Übertragung werden die Pakete des MPEG-Transportstroms mit einem äußeren Reed-Solomon-Code versehen. Nach Durchlaufen eines äußeren Interleavers, der ebenfalls identisch zu dem des DVB-Systems ist wird der so codierte Datenstrom in einem Stream Mode Sub-channel des DAB-Systems übertragen (s. Abb. 17/31). Abgesehen von der DVB-identischen Vorverarbeitung der Daten macht DMB keine Änderungen am DABSystem, lediglich im Fast Information Channel wird der DMB-Datenstrom entsprechend gekennzeichnet. 17.2.3.2
DMB – Radio
Angesichts der Fortschritte der MPEG-4-Audiocodierung im Vergleich zu MPEG-2 Layer 2 liegt es nahe, diese nicht nur im Rahmen der Fernsehübertragung über DAB, sondern auch für 1003
Rundfunksysteme Hörfunkprogramme einzusetzen [17.9]. Hierfür wird ebenfalls eine Teilmenge des MPEG-4 HE AAC v2 Codec verwendet (siehe Kap. 12). Im Gegensatz zu DMB-TV wird aber nicht der MPEG-Transportstrom zur Übertragung verwendet, sondern es werden sog. Audio-Superframes gebildet, die mit der 24 ms-basierten DAB-Rahmenstruktur kompatibel sind. Diese Audio-Superframes beinhalten die Audiodaten für 120 ms und werden auf 5 DAB-CIFs verteilt. Ähnlich wie bei DMB-TV wird ein zusätzlicher Reed-Solomon-Code und äußerer Interleaver verwendet, bevor die Daten in einem DAB-Sub-channel übertragen werden (Abb. 17/31). Durch die höhere Audioqualität bei niedrigeren Bitraten können mit der MPEG-4-Codierung etwa dreimal so viele Hörfunkprogramme in einem DAB-Ensemble übertragen werden wie mit MEPG-2 Layer 2. 17.2.3.3
Koexistenz von DMB und DAB
Aufgrund des flexiblen Aufbaus des DAB-Systems, das unabhängig voneinander codierte Sub-channels mit unterschiedlicher Datenrate übertragen kann, können in einem Ensemble MPEG-2 Layer 2 codierte Hörfunkprogramme, MPEG-4-DMB-TV-Programme und DMBRadio-Programme parallel übertragen werden (Abb. 17/31). Je nach Fähigkeit des Empfängers können die entsprechenden Programme decodiert werden. Dadurch wird ermöglicht, in bestehenden Sendernetzen allmählich von DAB zu DMB überzugehen, wenn die Endgeräte eine entsprechende Verbreitung gefunden haben. Ein Basisangebot an herkömmlichen DABProgrammen kann somit noch für längere Zeit aufrechterhalten werden.
Abb. 17/31. Blockschaltbild der Erzeugung des Common Interleaved Frame bei DMB.
17.2.3.4
Implementierung von DAB/DMB-Netzen
Die DAB/DMB-Signalerzeugung, deren Prinzip in Abb. 17/27 und Abb. 17/31 gezeigt ist, verteilt sich in der Realität auf mehrere beteiligte Partner die jeweils einen spezifischen Teil der Aufgaben übernehmen (siehe auch Erläuterungen unter Kap. 17.2.2 sowie Abb. 17/30). Hierbei ist zu beachten, dass das englische „programme“ am ehesten dem deutschen Begriff einer „Sendung“, und „Service“ einem kompletten Hörfunkprogramm entspricht. Der Programme Provider ist also diejenige Instanz, die den Programminhalt erzeugt und dabei neben dem bereits MPEG-codierten Ton auch programmbegleitende Daten (PAD, siehe die ausführliche 1004
Terrestrische Rundfunksysteme Darstellung in Kap. 17.5) und Service Information erzeugt, beispielsweise den passenden PTY-Code und die Kennzeichnung einer Verkehrsdurchsage. Diese Datenströme, die einer Programmquelle zugeordnet werden können, werden ggf. zusammen mit Daten anderer Programme desselben Service Providers zu einem Service Multiplex zusammengefasst und mittels des speziell dafür entwickelten Service-Transport-Interface-Protokolls, STI, zum Ensemble Provider übermittelt. Dieser fasst die eingehenden Datenströme aller Services, die im jeweiligen Ensemble übertragen werden, in einem Ensemble Multiplexer zusammen und generiert aus der Multiplexkonfiguration und den mitübertragenen Steuerdaten den Fast Information Channel. Die Kanalcodierung wird an dieser Stelle aber noch nicht vorgenommen, da sie auf dem Weg zu den Senderstandorten (Satelliten-, Richtfunk- oder Leitungsübertragung) nicht notwendig ist und nur die Datenrate erhöhen würde. Deshalb wurde das Ensemble-Transport-Interface-Protokoll, ETI, entwickelt, mit dem die Datenströme der jeweiligen Sub-channels in noch uncodierter Form zu den Senderstandorten übertragen werden, wo die COFDM-Codierung und Modulation erfolgt. Über das ETI ist es möglich, alle benötigten Informationen zu übertragen, um eindeutig daraus ein DAB-Signal erzeugen und zu einer definierten Zeit abstrahlen zu können. Letzteres ist insbesondere in Gleichwellennetzen zur Synchronisation der Sender erforderlich. Für weitere Details wird auf [17.7] verwiesen.
17.2.4
Digital Video Broadcasting (DVB)
17.2.4.1
Überblick
Das System DVB (Digital Video Boadcasting) für digitales Fernsehen besteht in seiner ursprünglichen Konzeption aus drei unterschiedlichen Übertragungssystemen: Eines für Kabelübertragung (DVB-C), eines für Satellitenausstrahlung (DVB-S) und eines für terrestrische Übertragung (DVB-T). Um den Erfordernissen des Fernsehempfangs mit tragbaren batteriebetriebenen Endgeräten Rechnung zu tragen, wurde später noch das System DVB-H entwickelt. Für DVB-S liegt bereits eine Weiterentwicklung vor (DVB-S2), an einer solchen für DVB-T wird gearbeitet. Wegen der sehr unterschiedlichen Erfordernisse der einzelnen Kanäle ist die Modulation und Kanalcodierung der drei Systeme sehr unterschiedlich. Die drei ursprünglichen DVB-Systeme haben aber als gemeinsame Elemente die Video- und Audio-Quellcodierung nach dem MPEG-2-Standard, sowie die Multiplexbildung mit Programminformation usw. und der Synchronisation von mehreren Datenströmen (insbesondere Bild und Ton). Die Video- und Audiosignale werden dabei zunächst einzeln codiert. Dabei entstehen so genannte Elementarströme. Für die Codierung ist eine gemeinsame Zeitbasis erforderlich, um die beim Fernsehen geforderte Lippensynchronität zwischen Bild und Ton sicher zu stellen. Gegebenenfalls muss dafür das codierte Audiosignal zusätzlich zeitverzögert werden. Der Datenkanal kann z. B. Videotext, Untertitel oder einen elektronischen Programmführer (EPG) enthalten. Die unterschiedlichen Elementarströme und die zur Synchronisation erforderlichen Zeitmarken werden zu einem Transportstrom gemultiplext, der aus 188 Byte großen Paketen besteht (MPEG-TS) (Abb. 17/32). Hierbei können für die Elementarströme verschiedener 1005
Rundfunksysteme Programme verschiedene Zeitbasen verwendet werden. Im Falle der Hörfunkübertragung mit DVB entfallen die Videoströme und es können die Datenströme mehrerer Hörfunkprogramme in einem Transportstrom enthalten sein. Im Hinblick auf die Toncodierung erlauben die DVB-Systeme im Gegensatz zu DAB die volle Ausnutzung des MPEG-2-Standards (siehe Kap. 12), d. h. es kann sowohl Layer 1, 2 oder 3 mit Abtastraten von 32, 44,1 und 48 kHz in den Betriebsarten Mono, Stereo, Zweikanal oder Multichannel verwendet werden, wobei alle in MPEG-2-Audio spezifizierten Datenraten möglich sind [17.10]. Die 188 Byte umfassenden Transportpakete enthalten einen 4 Byte großen Header, der u. a. zur Synchronisation und zur Identifikation des jeweiligen Inhalts (184 Byte) des Pakets dient PID (Packet Identifier). Die relative Datenrate der einzelnen Ströme kann über die Reihenfolge der Pakete eingestellt werden. Zur Übertragung (Abb. 17/32) wird der MPEG-Transportstrom zunächst durch Modulo-2Addition einer pseudozufälligen Bitfolge in der Energie verwischt. Dies dient dazu, um lange Folgen desselben Binärwerts zu verhindern, die sich bei der Fehlerschutzcodierung oder Übertragung unvorteilhaft auswirken könnten. Dazu kommt der äußere Reed-Solomon-Code RS(204,188) zur Anwendung, wie er in Kap. 17.1.3 beschrieben wurde, sowie ein äußerer Interleaver. Dieser starke (d. h. fehlerresistente) äußere Code ist nötig, damit man die für Videosignale geforderten extrem niedrigen Fehlerraten erreicht.
Abb. 17/32. Bildung des MPEG-Transportstroms und der allen DVB-Systemen gemeinsamen äußeren Kanalcodierung.
Der soweit weiterverarbeitete MPEG-Transportstrom wird je nach Übertragungsweg (Kabel, Satellit, terrestrisch) unterschiedlich codiert und übertragen. Für DVB-C ist die äußere Kodierung der einzige Fehlerschutz, der auch völlig ausreicht, weil im Kabelkanal genügend 1006
Terrestrische Rundfunksysteme Leistung zur Verfügung steht. Sowohl DVB-S als auch DVB-T verwenden zusätzlich einen inneren Faltungscode. Für den Satelliten-Kanal geschieht das wegen des Codierungsgewinnes, der eine entsprechend hohe Ersparnis in der notwendigen Sendeleistung mit sich bringt. Beim terrestrischen Fading-Kanal ist ein Faltungscode mit soft decision praktisch immer die beste Wahl. Alle drei Systeme verwenden QAM-Modulation, DVB-S (siehe Kap.17.3) und DVB-C übertragen dabei „klassisch“ mit nur einem Träger, während bei DVB-T OFDM eingesetzt wird, um mit langen Echos fertig zu werden und Gleichwellennetze betreiben zu können. Für eine ausführlichere Beschreibung des DVB-Systems sei auf [17.10] verwiesen. 17.2.4.2
Terrestrisches Digitalfernsehen (DVB-T)
Übertragungs-Modi und OFDM-Parameter Der physikalische Kanal ist dem bei DAB sehr ähnlich. Die OFDM-Parameter lehnen sich daher sehr stark an die von DAB an. Das System soll existierende analoge TV-Signale in den entsprechenden Fernsehkanälen ersetzen. Abhängig vom jeweiligen Land und dem jeweiligen Frequenzband (VHF oder UHF) gibt es Fernsehkanäle mit 6 MHz, 7 MHz und 8 MHz Bandbreite. Das DVB-T-System kann seine Übertragungs-Bandbreite an diese drei Kanal-Bandbreiten anpassen. Außerdem gibt es für jede dieser Bandbreiten verschiedene Übertragungs-Modi, die denen beim DAB-System sehr ähneln. Es gibt den 8k-Modus und den 2k-Modus, benannt nach der jeweiligen (kürzest möglichen) FFT-Länge 8192 und 2048. Der 8k-Modus ähnelt dem Modus I bei DAB und ist für Gleichwellennetze gedacht. Der 2k-Modus ähnelt dem Modus II bei DAB und ist für konventionell Sendernetzplanung konzipiert. Wir schreiben wieder TS für die gesamte OFDMSymbol-Dauer, T für die Dauer des Analyse-Fensters und ) für die Dauer des Schutzintervalls. Anders als bei DAB gibt es mehrere Optionen für die relative Dauer des Schutzintervalls, nämlich )=T/4 (dies entspricht DAB), )=T/8, )=T/16 und )=T/32. Die Tabellen 17/8 bzw. 17/9 zeigen die OFDM-Parameter für den 8k-Modus bzw. den 2k-Modus, beides jeweils für )=T/4. Alle Zeit-Perioden sind definiert als Vielfache der Abtast-Periode ts=fs-1, die für die drei möglichen Kanalbandbreiten jeweils verschieden ist. Die drei Übertragungs-Bandbreiten ergeben sich durch eine einfache Skalierung aus einander. Tab. 17/8. Die OFDM-Parameter für den 8k-Modus von DVB-T. KanalAbtastperiode Bandbreite ts 8 MHz 7 MHz 6 MHz
7/64 µs 1/8 µs 7/48 µs
AnalyseFenster T 8192 ts 896 µs 1024 µs .1195 µs
SymbolDauer TS 10 240 ts 1120 µs 1280 µs .1493 µs
Schutzintervall 2024 ts 224 µs 256 µs .299 µs
Max. Frequenz .800 MHz .700 MHz .600 MHz
1007
Rundfunksysteme Tab. 17/9. Die OFDM-Parameter für den 2k-Modus von DVB-T. KanalAbtastperiode Analyse-Fenster Bandbreite ts T 2048 ts 8 MHz 7/64 µs 224 µs 7 MHz 1/8 µs 256 µs .299 µs 6 MHz 7/48 µs
SymbolDauer TS 2560 ts 280 µs 320 µs .373 µs
Schutzintervall 512 ts 56 µs 64 µs .75 µs
Max. Frequenz .3200 MHz .2800 MHz .2400 MHz
Transmission Mode I Die Anzahl der Unterträger beträgt K+1 = 6817 für den 8k-Modus und K+1 = 1705 für den 2k-Modus. Die nominale Bandbreite beträgt 7607 kHz für den 8 MHz-Kanal, 6656 kHz für den 7 MHz-Kanal und 5705 kHz für den 6 MHz-Kanal. Die Frequenz in der letzten Spalte ist eine optimistische Obergrenze für die höchste mögliche Übertragungsfrequenz, die bei Ryleigh-Fading und einer Fahrzeuggeschwindigkeit von 120 km/h genutzt werden kann. Hierbei wird eine geeignete Kanalschätzung angenommen sowie ein hinreichend robustes Modulations- und Codierungs-Schema. Die Zahlen für höhere Fahrzeuggeschwindigkeiten bekommt man durch Skalierung. Für 240 km/h halbieren sich z. B. die maximalen Frequenzen. Kanalschätzung
Abb. 17/33. Prinzip des Pilotgitters zur Kanalschätzung bei der OFDM-Übertragung.
Das System DVB-T sieht eine kohärente Demodulation mit QAM vor. Hierzu müssen die komplexen Fading-Koeffizienten (d. h. Amplituden und Phasen) bekannt sein. Bei OFDMÜbertragung im Mobilfunkkanal müssen diese Größen für jede Zeit und für jede Frequenz geschätzt werden. Für eine solche zweidimensionale Kanalschätzung wird ein Pilotgitter in das OFDM-Signal eingefügt (Abb. 17/33), indem an bestimmten Positionen im Zeit- und Frequenzbereich anstelle der QAM-Datensymbole (weiße Punkte) bekannte Pilot-Symbole (schwarze Punkte) übertragen werden. Die Abbildung zeigt ein rechteckiges Gitter mit der Pilot-Dichte 1/12, d. h. 1/12 der gesamten Übetragungskapazität wird für die Kanalschätzung reserviert. Dies reduziert nicht nur die spektrale Effizienz, sondern verbraucht auch Energie 1008
Terrestrische Rundfunksysteme und wird sich damit auf das notwendige Eb/N0 aus. Es ist also wichtig, das Pilotgitter möglichst gut an die Erfordernisse des Kanals anzupassen. Übertragungs-System Die Generierung des Sendesignals ist in Abb. 17/34 gezeigt. Der äußere Encoder codiert Pakete von 188 Bytes als RS(204,188,17) Codeworte, d. h. zu Blöcken der Länge von 204 Bytes (siehe Kap. 17.1.2). Der Code hat die Distanz 17 und kann 8 Byte-Fehler korrigieren. Die Bytes der Codeworte werden zum Schutz gegen Bündelfehler durch einen äußeren Faltungsinterleaver verwürfelt. Das erste Byte im Block bleibt unverändert, das zweite Byte wird einen Block verzögert, das dritte zwei Blöcke usw. bis zum 12. Byte, das wieder unverzögert bleibt und das Schema von vorne beginnt. Der Bitstrom, der aus dem Bytestrom nach dem äußeren Interleaver entsteht, wird dann mit einem Faltungsencoder mit den Generatoren (133,171)oct codiert, siehe Kap. 17.2. Mit Punktierung stehen dann insgesamt die Coderaten 1/2, 2/3, 3/4, 5/6 und 7/8 zur Verfügung.
Abb. 17/34. Erzeugung des DVB-T-Signals.
Der Datenstrom nach dem Encoder wird durch einen kleinen Interleaver mit einer PseudoZufalls-Permutation verwürfelt und anschließend auf 4-QAM-, 16-QAM- oder 64-QAMSymbole abgebildet. Vor dem OFDM-Modulator erfahren diese noch ein pseudozufälliges Frequenz-Interleaving über jeweils ein OFDM-Symbol. Danach kommt der OFDM-Modulator. Jedes OFDM-Symbol trägt 6048 QAM-Symbole im 8k-Modus und 1512 im 2k-Modus. Alle anderen Symbole dienen der Kanalschätzung. Es gibt neben dem Pilotgitter noch einzelne kontinuierliche Pilottöne im Signal. Innerhalb eines OFDM-Symbols erfolgt als Frequenz-Interleaving eine pseudozufällige Verwürfelung. Ein Zeitinterleaving ist nicht im System enthalten. Die möglichen Datenraten bei den verschiedenen Codierungsoptionen für ein 8 MHz-System und (=T/4 sind in Tab. 17/10 aufgelistet. Tab. 17/10. Modulation und Codierung bei DVB-T im 8 MHz-Kanal und (=T/4). Modulation
Coderate
4-QAM 4-QAM 16-QAM 16-QAM 64-QAM 64-QAM
Rc=1/2 Rc=7/8 Rc=1/2 Rc=7/8 Rc=1/2 Rc=7/8
Bits pro Symbol 1 1,75 2 3,5 3 5,25
Bitrate Rb
Nutzbare Bitrate
5,4 Mbit/s 9,45 Mbit/s 10,8 Mbit/s 18,9 Mbit/s 16,2 Mbit/s 28,4 Mbit/s
4,98 Mbit/s 8,71 Mbit/s 9,95 Mbit/s 17,42 Mbit/s 14,93 Mbit/s 26,13 Mbit/s
Die letzten beiden Spalten sind die Bitraten ohne bzw. mit äußerer RS-Codierung.
1009
Rundfunksysteme Bei den vielfältigen Optionen für Modulation und Codierung, die in der Tabelle aufgelistet sind, ist zu beachten, dass sich nur ein Teil für Fading-Kanäle eignet. Bei diesen spielt die freie Distanz des Codes eine stärkere Rolle als die Distanz im QAM-Symbol. Für solche Kanäle sind nur die Coderaten 1/2 und (mit Einschränkung) 2/3 zu empfehlen. Restfehlerraten Der Signalfluss am Decoder ist in Abb. 17/35 gezeigt. Nach dem OFDM-Demodulator erfolgt das Frequenz-Deinterleaving der QAM-Symbole, aus denen eine Metric Computation Unit (MCU) die weichen Eingangswerte für den Viterbi-Decoder berechnet. Der decodierte Bitstrom wird dann zu Bytes angeordnet, die der äußere De-interleaver wieder in die richtige Reihenfolge bringt. Die so entstandenen Codewort-Blöcke von jeweils 204 Bytes decodiert der RS-Decoder zu Datenblöcken von 188 Bytes.
Abb. 17/35. DVB-T-Decoder.
Um ein Zahlenbeispiel zu nennen, betrachten wir 64-QAM mit Coderate 1/2. Aus den Bitfehlerkurven in [17.4] liest man ab, dass man eine Zielfehlerrate von 2A10-4 nach dem ViterbiDecoder etwa bei einem Kanal-Rauschabstand von 18 dB erreicht. Der Reed-SolomonDecoder kann diese Restfehler fast vollständig korrigieren. Es bleibt eine Blockfehlerrate von nur 10-10. Um diese Zahl zu interpretieren, betrachten wir eine Video-Datenrate von 3 Mbit/s. Bei 188 Bytes = 1504 Bits pro Block sind dies ca. 2000 Blöcke pro Sekunde. Für die Blockfehlerrate von 10-10 beträgt die Zeit zwischen zwei fehlerhaften Blöcken dann 5A106 s, was etwa 58 Tagen entspricht. Bei solchen Zahlen spricht man von einem quasi error free channel (QEF). Die in diesem Zusammenhang häufig genannte Rest-Bitfehlerrate von10-11 ist allerdings irreführend, weil wegen der Eigenschaften des RS-Codes nie einzelne Bitfehler auftreten, sondern als Bündel von mindestens 17 Byte-Fehlern, was einem Fehlerbündel von ca. 60 Bitfehlern entspricht. Mobilempfang Das System DVB-T ist ursprünglich nicht für den mobilen Empfang konzipiert worden. Trotzdem ist es hierfür im Prinzip durchaus gut geeignet. An einigen Stellen zeigt es jedoch konzeptionelle Schwächen, die den Mobilempfang erschweren. Zur Eignung von DVB-T für den Mobilempfang seien folgende Anmerkungen gemacht: - OFDM mit kohärenter QAM-Modulation und effizienter Kanalschätzung eignet sich prinzipiell sehr gut für Mobilempfang und ist dann der differentiellen Modulation auch bzgl. Leistungs- und Bandbreiteneffizienz deutlich überlegen. Auch verkraftet das kohärente System höhere Dopplerfrequenzen. Allerdings eignen sich nur niedrige Coderaten für Mobilempfang. Ohne Einschränkung zu empfehlen ist von den Möglichkeiten bei DVB-T 1010
Terrestrische Rundfunksysteme nur Rc=1/2. Als gerade noch akzeptabel kann man Rc=2/3 ansehen. Es wäre sicher gut gewesen, wenn auch Rc=1/3 aufgenommen worden wäre. - Wegen der großen Bandbreite und typischerweise langen Echolaufzeiten ist bei DVB-T das Frequenz-Interleaving in vielen Fällen ausreichend, um die Bündelfehler des Mobilfunkkanals aufzubrechen. Das System leidet aber zweifellos am Fehlen eines Zeitinterleavings, das man wegen des ursprünglich konzipierten alleinigen stationären Empfangs nicht aufgenommen hat. Empfangsantennen-Diversity kann hier sehr effizient Abhilfe schaffen, bedeutet aber natürlich einen erheblichen zusätzlichen Aufwand. - Das System ist so konzipiert, dass man (anders als etwa bei DAB) in der physikalischen Schicht nicht die einzelnen Teildatenströme extrahieren kann. Das heißt, man muss den gesamten Datenstrom demodulieren und auch decodieren, um dann eventuell einen kleinen Teil mit niedriger Datenrate auszuwerten. In Extremfällen hat der Viterbi-Decoder dann z. B. eine 10- bis 100-mal zu große Datenmenge zu verarbeiten. Für portable, batteriebetriebene Empfänger ist der damit verbundene unnötige Energieverbrauch ein kritischer Punkt. - Bei DVB diskutiert man i. Allg. über extrem niedrige Restfehlerrate nach dem RS-Decoder, siehe obiges Beispiel. Bei Mobilempfang sind nur Blockfehlerraten signifikant, die einem zeitlichen Abstand von wenigen Minuten zwischen zwei Ereignissen entsprechen, weil sich ansonsten das Fahrzeug in eine andere Umgebung bewegt haben kann. 17.2.4.3
Erweiterung zu DVB-H (Handheld)
Mit einigen nachträglichen Korrekturen lassen sich die oben erwähnten Nachteile zum großen Teil ausgleichen. Dies führt zum System DVB-H (Digital Video Broadcasting – Handheld). Formal handelt es sich um optionale Erweiterungen des DVB-T-Standards [EN 300 744]. Der DVB-H Standard [EN 302 304] schreibt einen Teil dieser Optionen zwingend (mandatory) vor. 4k-Modus Zunächst einmal besteht die Erweiterung darin, mit dem 4k-Modus einen zusätzlichen Satz von OFDM-Parametern einzuführen. Dieser liegt zwischen dem 2k- und dem 8k- Modus und erlaubt damit eine größere Flexibilität in der Planung. Insbesondere sind höhere Dopplerfrequenzen gegenüber dem 8k-Modus möglich. Man kann Gleichwellennetze aufbauen, die allerdings gegenüber denen für den 8k-Modus um den Distanzfaktor zwei verkleinert werden müssen. In Tab. 17/11 sind die Parameter für die Dauer des Schutzintervalls (=T/4 zusammengestellt. Tab. 17/11. Die OFDM-Parameter für den 4k-Modus von DVB-H. Kanal-Bandbreite
Abtastperiode ts
8 MHz 7 MHz 6 MHz
7/64 µs 1/8 µs 7/48 µs
AnalyseFenster T 4096 ts 448 µs 512 µs .597 µs
Symbol-Dauer TS 5120 ts 560 µs 640 µs .747 µs
Schutzintervall 1024 ts 102 µs 128 µs .149 µs
Max. Frequenz . 1600 MHz . 1400 MHz . 1200 MHz
1011
Rundfunksysteme Die Anzahl der Unterträger beträgt K+1 = 3409. Die nominale Bandbreite beträgt wie in den anderen Modi 7607 kHz für den 8 MHz-Kanal. 6656 kHz für den 7 MHz-Kanal und 5705 kHz für den 6 MHz-Kanal. Die Frequenz in der letzten Spalte ist wie in Tab. 17/8, 17/9 eine optimistische Obergrenze für die höchste mögliche Übertragungsfrequenz, die bei Rayleigh-Fading und einer Fahrzeuggeschwindigkeit von 120 km/h genutzt werden kann. Bei 240 MHz halbieren sich die Zahlen. Offenbar ist dieser Modus immer noch gut geeignet für Geschwindigkeiten von z. B. ICEZügen bei Übertragung fast in allen Fernsehbändern. Time slicing Diese Erweiterung des Standards sieht die Möglichkeit vor, dem Empfänger zu signalisieren, wo die für ihn relevanten Signalströme auf der physikalischen Schicht zu finden sind. Dadurch wird das oben erwähnte Problem bezüglich des Energieverbrauchs behoben. Auf diese Weise sind in bestimmten Fällen Einsparungen von über 90% möglich. In-depth-interleaving Es wurde die Möglichkeit eines zusätzlichen Zeit-Interleavings eingebaut, das sich (abhängig vom Übertragungsmodus) im Zeitbereich über 2 oder 4 OFDM-Symbole erstreckt. Die Zeitvarianz des Fadings wird dabei nur geringfügig ausgenutzt. Vor allem dürfte dieses Interleaving eine Verbesserung der Robustheit gegenüber Impulsstörern dienen. MPE-FEC Die Abkürzung MPE steht für Multi-protocol Encapsulated (data). Um die Übertragungssicherheit weiter zu erhöhen, wird für diese Daten optional ein weiterer fehlerkorrigierender Code (FEC, forward error correction) eingefügt. Dies ist ein (zusätzlicher) äußerer RS(255,191)-Code mit einer Korrekturfähigkeit von 32 Bytefehlern. Die mit dem RS(204,188) Code versehenen IP-Datagramme werden als 191 Spalten (der Länge 256, 512, 768 oder 1024 Bytes) in eine Matrix geschrieben. An jede Zeile werden dann die 64 PC-Bytes des RS(255,191)-Codes angehängt. Da die IP-Datagramme mit einem CRC versehen sind, können fehlerhafte Spalten identifiziert werden. Der RS(255,191)-Decoder kann dann mit erasure decoding diese Information zur Verbesserung seiner Korrekturfähigkeit ausnutzen. Implizit ist durch die Anordnung der Daten hier ein zusätzlicher Zeitinterleaver eingebaut worden, der natürlich ebenfalls die Übertragungssicherheit verbessert. Ein Nachteil dieser zusätzlichen äußeren Kanalcodierung ist ein Verlust in der Bandbreiteneffizienz von ca. 25 %. 17.2.4.4
Kabelfernsehen DVB-C (Cabel)
Der Kabelkanal ist übertragungstechnisch gesehen unkompliziert. Beispielsweise sind beim deutschen Breitbandkabel-Netz, das für den analogen Fernsehempfang ausgelegt ist, alle Störungen so klein, dass sie eine problemlose digitale Übertragung ermöglichen. Insbesondere sind die Pegel von Intermodulationsprodukten und reflektierten Signalen so gering, dass sie bei digitaler Übertragung vernachlässigt werden können. Wegen der ausreichend vorhandenen Leistung ist auch der Störabstand hinreichend groß für eine höherstufige Modulation. Auf den Faltungscode kann deswegen ebenfalls verzichtet werden. Der Kabelstandard sieht deshalb ein 1012
Terrestrische Rundfunksysteme klassisches Einträger-Modulationsverfahren mit Rolloff-Faktor [17.1, 17.2] "=0,15 und einer M-QAM vor, die nur durch einen RS(204,188) Code geschützt ist. Dieser ist nötig, weil sich ohne Fehlerschutz die geforderten, sehr niedrigen Restfehlerraten nicht realisieren lassen. Der Standard erlaubt die unterschiedlichen Stufigkeiten M=16, 32, 64, 128 und 256. Als eine typische Wahl kann man wahrscheinlich M=64 ansehen. Hiermit ist eine Datenrate von 38,1 MBit/s in einem 8 MHz Kabelkanal möglich. 17.2.4.5
DVB-Multiplex und Service-Information
Der DVB-Multiplex wird – wie in der Systemübersicht (Abb. 17/32) erläutert – auf der Ebene der quellencodierten Audio-, Video- und Datenströme gebildet, die anschließend gemeinsam kanalcodiert und übertragen werden. Dies hat zur Folge, dass im Gegensatz etwa zu DAB alle Inhalte mit demselben Fehlerschutz übertragen werden und auch im Endgerät immer der gesamte Datenstrom decodiert werden muss, auch wenn z. B. nur der Audio-Strom eines über DVB-S oder DVB-T übertragenen Hörfunkprogramms genutzt werden soll. Bei DVB-H wird zusätzlich ein Zeitmultiplex der verschiedenen Inhalte durchgeführt, wodurch der Empfang und damit die zu decodierende Datenmenge zeitlich beschränkt werden, wodurch der Empfang auch mit tragbaren Geräten möglich wird. Die Informationen über die Datenströme und Inhalte des Multiplex werden ebenfalls innerhalb des MPEG-Transportstroms signalisiert, teilweise in von MPEG vorgegebenen Strukturen, teilweise in solchen, die im Rahmen des DVB-Projekts zusätzlich spezifiziert wurden. Ähnlich wie bei DAB (Abb. 17/28) werden in einem DVB-Multiplex eine Anzahl von Services übertragen, die jeweils aus mehreren Components (z. B. Bild, Ton, 2. Ton usw.) bestehen [EN 300 468]. Zusätzlich wurde hierbei aber noch der Begriff des „Bouquet“ eingeführt, der eine Menge von Programmen bezeichnet, die gemeinsam vermarktet werden, unabhängig von ihrem Verbreitungsweg. Die Signalisierung der Beziehungen der Datenströme untereinander geschieht mit Hilfe von Tabellen, die im MPEG-Transportstrom in speziell dafür reservierten Paketen (mit spezifischen PIDs) übertragen werden. Hierzu zählt die bereits vom MPEG-System bereitgestellte Program Specific Information, die der Empfänger zur Dekodierung des Transportstroms benötigt. Sie umfasst vier Tabellen, die die Informationen darüber enthalten, welche Datenströme zu einem Programm gehören, unter welchen Paketadressen diese übertragen werden, und wo die für die Zeitsynchronisation erforderliche Information übertragen wird. Außerdem können Informationen über das Sendernetz bzw. Transponder oder Kabelkanal und ggf. Daten zu Entschlüsselung von verschlüsselten Datenströmen übertragen werden. Die Referenzierung erfolgt jeweils über die PIDs der Pakete, in denen die entsprechenden Inhalte enthalten sind. Im DVB-Standard [EN 300 468] werden darüber hinaus Informationen spezifiziert, die für den Benutzer relevant sind. Dazu gehören z. B. die Programmnamen, eine Liste der im Bouquet enthaltenen Programme und der Sendungen dieser Programme, die Signalisierung von bestimmten Ereignissen (z. B. des Beginns oder der Unterbrechung einer Sendung zur Steuerung von Aufzeichnungen), und die Übertragung von Datum und Uhrzeit. Diese Informationen können über das aktuelle Sendernetz hinaus teilweise auch für andere Sendernetze übertragen werden. 1013
Rundfunksysteme Dies ermöglicht es, einen Überblick über laufende und zukünftige Sendungen anzuzeigen, wobei auch zusätzliche Informationen für jede Sendung mit übertragen werden können. Im Hinblick auf eine Übertragung von Hörfunkprogrammen über DVB ist es insbesondere wichtig, dass auch RDS-Daten einschließlich Radiotext und Durchsagekennungen als DVB Service Information übertragen werden können, wobei für die RDS-Übertragung das auch zur Steuerung von RDS-Codern verwendete UECP-Format verwendet wird (siehe Kap. 17.5.3). Über die im Rahmen der Service Information übertragenen Informationen hinaus können auch für jedes Programm Videotext und Untertitel in separaten Datenströmen übertragen werden.
17.2.5
Digital Radio Mondiale (DRM)
DRM (Digital Radio Mondiale) ist das Konsortium zur Entwicklung eines einzigen, weltweiten Systems für digitalen Rundfunk in den Frequenzbändern unterhalb 30 MHz, in denen bisher vorwiegend AM-Programme (LW/MW/KW, siehe Kap. 17.2.1) übertragen wurden. Es wurde im März 1998 gegründet und hat als Mitglieder zahlreiche Rundfunkanstalten, Senderund Empfängerhersteller sowie Forschungsinstitute. Außer für das genannte Konsortium wird "DRM" auch als Abkürzung für das vom ihm entwickelte digitale Rundfunksystem verwendet, das inzwischen international standardisiert ist, z. B. in dem ETSI-Standard [ES 201 980]. Die Ziele des DRM-Konsortiums ergeben sich aus der großen Bedeutung, die der Rundfunk im Lang-, Mittel- und Kurzwellenbereich in vielen Teilen der Welt aufgrund der besonderen Ausbreitungseigenschaften in diesen Frequenzbereichen immer noch hat. Insbesondere war es das Ziel, trotz der bestehenden Einschränkungen durch die geringe Kanalbandbreite, die schwierigen Ausbreitungsverhältnisse und die vielfältigen Störungen eine qualitativ hochwertige Tonübertragung zu erzielen, die möglichst nahe an die vom UKW/FM-Rundfunk bekannte Qualität heranreichen sollte. Die Randbedingungen für die DRM-Entwicklung waren: - die bestehenden Rundfunk-Frequenzbänder unterhalb von 30 MHz sollten weiter genutzt werden, unter Beibehaltung der heutigen Werte für Kanalabstand und HF-Bandbreite; - bestehende Sendestationen sollten mit möglichst geringen Umrüstungskosten weiter benutzt werden können; Simulcast-Betrieb, d. h. gleichzeitige analoge und digitale Ausstrahlung über den selben Sender, sollte möglich sein; - dasselbe Zielgebiet sollte mit wesentlich weniger Sendeleistung versorgt werden können als mit AM; - eine bessere Empfangsqualität sollte erreicht werden: keine Schwankungen, kein Rauschen und keine Interferenz mehr; gleichzeitig sollte eine bessere Tonqualität erzielt werden mit bis zu 15 kHz NF-Bandbreite („FM-Qualität“); - eine Bündelung von Kanälen sollte Stereoqualität möglich machen; - Programmbegleitende oder unabhängige Daten für Text, Grafiken und Bilder sollten parallel zum Hörfunkprogramm übertragen werden können; - die Empfänger sollten aufgrund einer übertragenen Abstimminformationen nach Eingabe der Stationsidentifikation selbst die entsprechende Frequenz finden, insbesondere im KW-Bereich sollte eine automatische Frequenzabstimmung auf die jeweils beste Frequenz möglich sein; - mobiler, portabler und stationärer Empfang sollte in Gebäuden und im Freien möglich sein. 1014
Terrestrische Rundfunksysteme 17.2.5.1
Übertragungs-Modi und OFDM-Parameter
Der physikalische Kanal bei Kurzwellenübertragung unterscheidet sich von den terrestrischen Funkkanälen bei DVB-T und DAB um mehrere Größenordnungen in Bezug auf die Dopplerverbreiterung und die Echolaufzeiten. Um dies an einem Beispiel zu verdeutlichen, betrachten wir den 8k-Mode von DVB-T oder den Mode I bei DAB. Diese haben ein OFDM-Analysefenster von ca. 1 ms, das um 1/4 durch ein Guard interval (Schutzintervall) verlängert wird, um die Echos eines Gleichwellennetzes in der Größenordnung von 200 :s verkraften zu können. Der Trägerabstand beträgt ca. 1 kHz. Die typischen auftretenden Dopplerfrequenzen liegen z. B. bei 20 Hz. Bei dem Kurzwellenkanal (siehe Kap. 17.1.1) sind die Dopplerfrequenzen etwa um den Faktor 20 niedriger, die Echolaufzeiten dagegen um denselben Faktor höher. Es liegt also nahe, die OFDM-Parameter um diesen Faktor zu skalieren, um die Eckwerte für ein DRM-System zu erhalten. Die Symboldauer liegt also etwa bei 20 ms und der Trägerabstand bei ca. 50 Hz. In Tab. 17/12 sind die vier Übertragungsmodi für das System dargestellt. Tab. 17/12. Die OFDM-Parameter der vier DRM-Modi. Mode A B C D
Anzahl der Unterträger K 226 206 138 88
AnalyseFenster T 24 ms 21 a ms 14 b ms 9 a ms
Symbol-Dauer TS 26 b ms 26 b ms 20 ms 16 b ms
Schutzintervall 2 b ms 5 a ms 5 a ms 7 a ms
Die ersten beiden Modi besitzen dieselbe Symboldauer und unterscheiden sich jeweils um den Anteil des Schutzintervalls, der den Übertragungsbedingungen angepasst werden kann. Modus C und D besitzen einen kürzeren Trägerabstand und sind damit gegenüber hohen Dopplerfrequenzen robuster, wobei der letztere gleichzeitig extreme Echos verkraften können soll. Die Kanalschätzung ist von Prinzip her ähnlich wie bei DVB-T beschrieben. Allerdings ist eine bis zu doppelt so hohe Pilotdichte (d. h. 1/6 der Symbole) vorgesehen, um der höheren Zeit- und Frequenzvarianz Rechnung zu tragen. 17.2.5.2
Modulation und Codierung
Bei DRM gibt es ähnlich wie bei DAB wieder einen MSC (Main Service Channel), der die eigentlichen Nutzdaten (insbesondere Audiodaten) trägt. Hinzu kommt ein FAC (Fast Access Channel) und ein SDC (Service Description Channel), die zusammen die Information tragen, die zum Decodieren der eigentlichen Nutzdaten notwendig sind. Sie entsprechen in etwa dem FIC bei DAB. Sie müssen robust decodierbar sein und sind daher durch einen starken Faltungscode geschützt und mit 4-QAM oder 16-QAM moduliert. Für den MSC verwendet man eine 64-QAM und (optional für besonders schwierige Kanäle) eine 16-QAM. Die Kanalcodierung basiert auf demselben Faltungscode der Rate 1/4, wie er bei DAB verwendet wird und, mit Rate 1/2, auch bei DVB. Im Gegensatz zu diesen beiden Systemen wird die Codierung und Modulation jedoch nicht unabhängig voneinander behandelt, sondern durch so genannte Mehrstufencodierung (multi-level coding, MLC) miteinander 1015
Rundfunksysteme verbunden. Hierdurch lassen sich Gewinne von 1 bis 2 dB gegenüber herkömmlichen Verfahren erzielen. MLC funktioniert folgendermaßen (Abb. 17/36): Der Datenstrom wird durch einen De-Multiplexer in drei (bei 64-QAM) bzw. zwei (bei 16-QAM) Teildatenströme zerlegt. Der erste Datenstrom wird mit Encoder 0 am stärksten geschützt, der zweite mit Encoder 1 etwas schwächer und der dritte mit Encoder 2 am schwächsten. Die unterschiedliche starke Codierung erhält man durch Punktierung aus demselben Mutter-Code der Rate 1/4, wie er bei DAB verwendet wird. Der zweite und der dritte Datenstrom durchlaufen zusätzlich einen BitInterleaver.
Abb. 17/36. Prinzip des Multi-level coding bei DRM.
Aus jeweils einem so entstandenen Bit-Tripel wird nun ein reelles 8-ASK -Symbol gebildet. Der am stärksten codierte Bitstrom schützt dabei das LSB (und damit die kleinste Distanz in der Konstellation), der am schwächsten codierte das MSB (entsprechend der größten Distanz). Aus jeweils zwei solchen reellen 8-ASK-Symbolen (eins für den Realteil, eins für den Imaginärteil) wird dann ein komplexes 64-QAM-Symbol gebildet.
Abb. 17/37. Multi-level Decodierung bei DRM.
Das Prinzip der Mehrstufen-Decodierung (multi-stage decoding) wird in Abb. 17/37 erläutert. Zunächst wird das LSB decodiert, das durch den stärksten Code geschützt ist. Dies ist eine Entscheidung zwischen zwei verschiedenen 4-ASK-Konstellationen, je nachdem ob das decodierte (und wieder encodierte) erste Bit den Wert 0 oder 1 hat. Für die jeweilig entschiedene 1016
Terrestrische Rundfunksysteme Konstellation wird entsprechend weiter so verfahren, bis in der letzten Stufe nur noch eine Entscheidung zwischen zwei möglichen Konstellationspunkten einer 2-ASK anliegt. Nachdem auf diese Weise eine Entscheidung für alle drei Bitströme vorliegt, kann man mit der gewonnenen Information die Prozedur noch einmal von vorne anfangen, und auf diese Weise durch Iteration die Sicherheit weiter erhöhen. Hierdurch sind erhebliche Gewinne möglich. Das Interleaving zwischen den Stufen ist notwendig, damit Fehlerbündel bei der Decodierung einer Stufe nicht als solche bei der nächsten auftauchen. Neben diesen relativ kleinen Bitinterleavern ist bei DRM noch ein großer Interleaver auf Symbolebene (cell interleaver) vorgesehen, der eine Tiefe von bis zu zwei Sekunden haben kann und der die Fadingeinbrüche des Kanals am Decoder verwürfeln soll. 17.2.5.3
Audiocodierung für DRM
Für das DRM-System wurden drei verschiedene in MPEG-4 (siehe Kap.12.4) standardisierte Audiocodierverfahren ausgewählt. Während MPEG-4 CELP und MPEG-4 HVXC nur für Sprachübertragung bei Datenraten von 2 bis 12 kBit/s geeignet sind, ist MPEG-4 AAC SBR (Advanced Audio Coding mit "Spectral Band Replication") das universelle System für alle Programminhalte, erfordert aber Datenraten über 8 kBit/s. CELP und HVXC sollen für Sprachkanäle parallel zum eigentlichen Hörfunkprogramm genutzt werden, z. B. um Nachrichten in mehreren Sprachen gleichzeitig über den selben Sender ausstrahlen zu können. Für das Hauptprogramm, das auch Musik enthalten kann, ist AAC mit SBR vorgesehen. MPEG-4 AAC ist für Mono- und Stereoübertragung geeignet und erreicht eine Audiobandbreite bis 15,2 kHz bei einer Bitrate von ca. 24 kBit/s (weitere Details zu den verschiedenen Versionen des HE AAC Codecs siehe Kap. 12.4). 17.2.5.4
DRM-Multiplex
Abb. 17/38 zeigt die DRM-Signalerzeugung an Hand eines Blockschaltbildes. Die Tonsignale werden gemäß einem der beschriebenen Verfahren kodiert, wobei über einen DRM-Sender bis zu vier Kanäle übertragen werden können, natürlich unter Berücksichtigung der zur Verfügung stehenden Datenrate (Tab. 17/13). Zusätzlich können Daten übertragen werden, z. B. Textschlagzeilen, die nur sehr wenig Datenrate benötigen, aber interessante Hinweise z. B. auf Telefonnummern, eMail-Adressen, Web-Seiten, oder auch den Titel des gerade laufenden Programms bzw. Vorankündigungen späterer Programme enthalten können. Darüber hinaus können auch HTML-basierte Daten, codierte Verkehrsmeldungen usw. übertragen werden. Diese Hörfunkprogramme und Daten werden gemeinsam multiplext und im "Main Service Channel" MSC übertragen. Aufgrund der flexiblen Konfiguration des DRM-Systems ist es erforderlich, den Empfängern die tatsächliche Konfiguration mitzuteilen. Dazu dient zum einen der "Fast Access Channel" (FAC), der mit 4-QAM übertragen wird. Er enthält Angaben über die Modulation des MSC (16- oder 64-QAM), die Anzahl der Audio- bzw. Datenkanäle, einen maschinenlesbaren Programm-Identifier, sowie die Sprache des Programms. Da der FAC immer als erstes dekodiert wird, kann dadurch ein Suchlauf nach einem bestimmten Programm oder Programmen in einer bestimmten Sprache beschleunigt werden.
1017
Rundfunksysteme
Abb. 17/38. Blockschaltbild der DRM-Signalerzeugung, nach [17.12].
Tab. 17/13. Verfügbare Netto-Datenrate (nach Fehlerkorrektur) in kBit/s bei DRM bei minimalem bzw. maximalem Fehlerschutz, nach [17.13]. Robustness Mode A/64-QAM A/16-QAM B/64-QAM B/16-QAM C/64-QAM C/16-QAM D/64-QAM D/16-QAM 17.2.5.5
Bandbreite 9 kHz 10,6 bis 16,7 7,1 bis 8,9 15,3 bis 24,1 10,2 bis 12,8 – –
Bandbreite 10 kHz 22,1 bis 34,8 14,8 bis 18,5 17,5 bis 27,5 11,7 bis 14,6 13,8 bis 21,6 9,2 bis 11,5 9,2 bis 14,4 6,1 bis 7,6
Bandbreite 20 kHz 45,8 bis 72,0 30,6 bis 38,2 35,8 bis 56,1 23,8 bis 29,8 29,0 bis 45,5 19,3 bis 24,1 19,5 bis 30,6 13,0 bis 16,3
DRM Service-Information
Neben dem FAC gibt es den Service Description Channel (SDC), der mit höherer Datenrate weitere Informationen über die übertragenen Programme und Datendienste enthält. Er wird mit 4- oder 16-QAM übertragen und enthält z. B. die Aufteilung der Datenrate auf die verschiedenen Datenströme, den Sendernamen, Tabellen von Alternativfrequenzen, ggf. mit Zeitund Zielgebietsangaben, Datum und Uhrzeit und Durchsagekennungen für Verkehrsmeldungen, Nachrichten, Wetterberichte, und Warnmeldungen. Da der SDC quasistatische Daten enthalten kann, die zyklisch wiederholt werden, kann der Empfänger diese Daten auch zur automatischen und unterbrechungsfreien Prüfung von Alternativfrequenzen verwenden. Dies ist besonders im Kurzwellenbereich wichtig, da wegen der wechselnden Ausbreitungsbedingungen meist mehrere Frequenzen für ein Zielgebiet verwendet werden. Ist ein bestimmter SDC-Block auf einer Frequenz decodiert, kann der Empfänger während einer späteren Übertragung desselben SDC-Blocks auf eine Alternativfrequenz umschalten und feststellen, ob dort tatsächlich dasselbe Programm übertragen wird und ob der Empfang dort besser ist (Abb. 17/39). Dies setzt allerdings voraus, dass die Sender auf allen Frequenzen immer wieder dieselben SDC-Blöcke gleichzeitig übertragen und rahmensynchronisiert sind, d. h. dass sie den SDC gleichzeitig senden. 1018
Terrestrische Rundfunksysteme
Abb. 17/39. Umschalten auf Alternativfrequenzen bei DRM, nach [ES 201 980 ].
17.2.5.6
Erweiterung auf DRM+
Das DRM-Konsortium erarbeitet derzeit einen Standard für ein digitales Rundfunksystem, das in den VHF-Bändern I und II eingesetzt werden kann und einzelne der dort bestehenden FMSender ersetzen kann, d. h. eine vergleichbare Bandbreite hat. Die Herausforderung besteht darin, dass diese Bandbreite viel kleiner ist, als es die Frequenzselektivität des Kanals erfordern würde, so dass „flat fading“ auftreten kann (siehe Kap. 17.1.1). Deshalb werden neben Gleichwellennetzen auch Diversity-Techniken erforderlich sein, um einen befriedigenden Empfang mit mobilen und insbesondere portablen Empfängern zu ermöglichen. Die OFDM-Parameter des Systems werden erheblich von denen bei DRM abweichen und in der Größenordnung der bei HDRadio (siehe Kap.17.2.5) bzw. der von DAB/DVB-T liegen. Abgesehen davon soll das System möglichst viele Gemeinsamkeiten mit DRM aufweisen, um eine einfache gemeinsame Implementierung im Empfänger zu ermöglichen.
17.2.6
In-Band-On-Channel (IBOC) – System „High Definition Radio“
In den USA wurden seit Mitte der 1990er Jahre digitale Rundfunksysteme entwickelt, die die Bedürfnisse der dortigen Medienlandschaft in stärkerem Maße berücksichtigen sollten, als dies mit DAB möglich gewesen wäre. Insbesondere sollte die Digitalisierung ohne neue Frequenzzuteilungen und unter Abbildung der bestehenden Marktaufteilung durch Sendeleistung, Reichweite und anderer Lizenzbedingungen der Stationen erfolgen. Aus diesem Grunde ist auch der sonst praktisch weltweit verbreitete DAB-Standard in den USA (sowie auch in Japan) nicht in Anwendung, wohl aber in Kanada. Der sowohl für Mittelwelle als auch das UKW-Band II gewählte Ansatz wurde als „in-band-onchannel“ bezeichnet (AM- bzw. FM-IBOC), um deutlich zu machen, dass für das digitale Signal keine neue Frequenz benötigt würde. Diese Bezeichnung ist aber irreführend, wie Abb. 17/40 am Beispiel des FM-IBOC zeigt. Der ursprünglich verwendete Kanal wird in der sog. „Simulcast“-Phase zunächst weiterhin durch das analoge FM-Signal belegt. Die amerikanische Regulierungsbehörde FCC lässt nun eine gewisse Nebenaussendung in den beiden Nachbarkanälen zu, die durch eine spektrale Maske begrenzt ist. Das digitale Signal benutzt deshalb diese Nachbarkanäle, wobei die digitale Leistung gegenüber dem analogen Träger soweit abgesenkt wird, dass die Anforderungen der spektralen Maske eingehalten werden und es zu keinen Störungen in analogen Empfängern kommt. 1019
Rundfunksysteme
Abb. 17/40. Nutzung eines FM-Kanals und der Nachbarkanäle durch ein FM-IBOC-System.
Diese Systeme wurden in den USA unter dem Markennamen „High Definition Radio“ (HDRadio) eingeführt. Da das FM-IBOC-System in den USA weit verbreitet ist (Ende 2006 ca. 600 Stationen) und unterdessen auch auf Interesse in Europa (insbesondere in der Schweiz) stößt, soll dieses hier behandelt werden. Das AM-IBOC-System hingegen dürfte in Europa keine Bedeutung erlangen. Die Standards der IBOC-Systeme wurden von der Fa. Ibiquity bzw. deren Vorgängern entwickelt und sind proprietär. Die vorliegende Darstellung orientiert sich an [17.14] und an den der ITU-R übergebenen Informationen [BS.1114-5]. 17.2.6.1
Service Modes
Je nach gewünschter Aufteilung zwischen analoger Signalqualität und digitaler Übertragungsrate kann das FM-IBOC-System verschieden konfiguriert werden. Das elementare System unter Verwendung der Primary Service Modes geht davon aus, dass das FM-Spektrum auf den Frequenzbereich ± 120 kHz um die Frequenz des unmodulierten Trägers herum begrenzt ist. Für das digitale Signal wird deshalb der Frequenzbereich von ± (129 bis 198) kHz verwendet. Beide Seitenbänder werden mit OFDM-Signalen gleichen Inhalts belegt, um die Empfangssicherheit zu verbessern und ermöglichen eine digitale Datenrate von 98,4 kBit/s für Audio und 0,9 kBit/s für Zusatzdaten wie Stationsname usw. Wenn die Bandbreite des FM-Signals durch Reduktion des Hubs oder Verzicht auf Stereo und RDS reduziert wird, kann die Bandbreite für das digitale System und damit dessen Datenrate vergrößert werden (Tab. 17/14), so dass neben dem Audiosignal, das mit dem analogen identisch ist, auch ein zweites Programm übertragen werden kann.
1020
Terrestrische Rundfunksysteme Tab. 17/14. Die Primary Service Modes von FM-IBOC. Mode
MP1 MP2 MP3 MP4
Digitales Frequenzspektrum (bezogen auf die Frequenz des unmodulierten Trägers) ±129,361 bis ±198,402 Hz ±122,457 bis ±198,402 Hz ±115,553 bis ±198,402 Hz ±101,744 bis ±198,402 Hz
Datenrate für Zusatzdienste bzw. ein 2. Programm 12,4 kBit/s 24,8 kBit/s 49,6 kBit/s
Erweiterungen dieser Modes mit höheren Datenraten sind möglich, wenn in einer späteren Phase das analoge Signal wegfällt und die Übertragung rein digital erfolgt. 17.2.6.2
Audiocodierung
Die Audiocodierung erfolgt mit dem MPEG-2-AAC Codec (siehe Kap. 12.3) mit Datenraten von 48 bis 96 kBit/s. Bei hybrider (analoger + digitaler) Übertragung wird bei Empfangsproblemen des digitalen Signals, die aufgrund der erheblich geringeren Sendeleistung auch innerhalb der FM-Reichweite auftreten können, das digitale Audiosignal mit dem analogen überblendet, das dazu mit einer entsprechenden Zeitverzögerung gesendet wird. Bei der rein digitalen Übertragung wird das digitale Audiosignal in einen core channel mit geringer Tonqualität und einen enhanced audio channel, der CD-ähnliche Qualität ermöglicht, aufgeteilt. Der core channel wird mit starkem Fehlerschutz übertragen, so dass auch in schwierigen Empfangssituationen das Tonsignal zumindest mit verminderter Qualität wiedergegeben werden kann. Die möglichen Konfigurationen der äußeren Seitenbänder zeigt Tab. 17/15. Bei rein digitaler Übertragung kommen dazu noch die inneren Anteile des Spektrums, also bis ±101,744 kHz. Diese können secondary channels übertragen, deren mögliche Datenraten Tab. 17/16 zeigt. Je nach Systemkonfiguration ergibt sich also ein mehr oder weniger leistungsfähiges digitales System mit mehreren unterschiedlichen Übertragungskanälen (logischen Kanälen), das bis zu zwei hochqualitative Audioprogramme und Zusatzdaten übertragen kann. Die maximalen Gesamt-Datenraten belaufen sich auf 150 kBit/s für das Hybrid-System und 275 kBit/s für die vollständig digitale Übertragung. Tab. 17/15. Die Primary Service Modes von FM-IBOC, die hybride oder rein digitale Übertragung ermöglichen. Mode
MP5 MP6 MP7
Digitales Frequenzspektrum (bezogen auf die Frequenz des unmodulierten Trägers) ±101,744 bis ±198,402 Hz ±101,744 bis ±198,402 Hz ±101,744 bis ±198,402 Hz
Datenrate Core audio 24,8 kBit/s 49,6 kBit/s 24,8 kBit/s
Datenrate Extended audio 73,6 kBit/s 48,8 kBit/s
Datenrate Zusatzdienste 24,8 kBit/s 123,2 kBit/s
1021
Rundfunksysteme Tab. 17/16. Die Secondary Service Modes von FM-IBOC, bei rein digitaler Übertragung. Mode
MS1 MS2 MS3 MS4 17.2.6.3
Zusätzliche Datenrate für Core audio 24.8 kBit/s 49.6 kBit/s
Zusätzliche Datenrate für Enhanced audio 73.6 kBit/s 49.6 kBit/s
Zusätzliche Datenrate für Low bit rate audio 24.8 kBit/s
Datenrate für Zusatzdaten 103.9 kBit/s 30.3 kBit/s 5.5 kBit/s 128.7 kBit/s
Kanalcodierung
Die digitale Übertragung erfolgt nach Kanalcodierung mit punktierten Faltungscodes mit Rate 2/5 und Interleaving (Tiefe 1,486 s) mittels QPSK-OFDM, wobei die einzelnen Kanäle auf verschiedene Frequenzbereiche innerhalb des 400 kHz breiten Spektrums verteilt werden (Abb. 17/41). Die Frequenznutzung ist jeweils symmetrisch zur nominellen Frequenz des unmodulierten Trägers (0 Hz).
Abb. 17/41. Die verschiedenen Frequenzbereiche bei der hybriden (links) und der vollständig digitalen (rechts) IBOC-Übertragung.
Die OFDM-Übertragungsparameter sind in Tab. 17/17 zusammengestellt. Im Vergleich zu DAB und DVB-T hat FM-IBOC einen um den Faktor 3 kleineren Unterträgerabstand und auch ein erheblich kürzeres Schutzintervall. Dies resultiert aus der Beschränkung auf den Frequenzbereich bis 108 MHz und daraus, dass keine Gleichwellennetze vorgesehen sind. Tab. 17/17. Die OFDM-Parameter von FM-IBOC. Mode hybrid
Symboldauer Unterträger-Abstand TS [:s] [Hz] 2752
voll digital 1022
363
Schutzintervall [:s]
Bandbreite [kHz] 2 × 68
150,5 400
Terrestrische Rundfunksysteme
17.2.7
Integrated Services Digital Broadcasting (ISDB)
Das Rundfunksystem ISDB wurde in Japan entwickelt, um ein einheitliches System für die digitale Radio- und Fernsehübertragung nutzen zu können. ISDB wurde von der japanischen Association of Radio Industries and Businesses (ARIB) standardisiert. Die technischen Details sind in der ITU-R Empfehlung [BS.1114-5] beschrieben. Ähnlich wie bei DVB gibt es unterschiedliche Systeme für terrestrische Übertragung (ISDB-T) und Satellitenrundfunk bzw. -Fernsehen (ISDB-S), ein System für die Kabelübertragung ist in Vorbereitung (ISDB-C). Abb. 17/42 zeigt das Gesamtkonzept.
Abb. 17/42. Integrated Services Digital Broadcasting (ISDB)-Gesamtkonzept.
Beide ISDB-Systeme verwenden wie DVB den MPEG-Transport Multiplex und die SystemSpezifikation. ISDB-T verwendet zur Übertragung OFDM mit ähnlichen Parametern wie DAB und DVB-T (Tab. 17/18) , die Unterträger können mit DQPSK, QPSK, 16-QAM oder 64-QAM moduliert werden. Als Kanalcodierung werden Faltungscodes mit Raten von 1/2 bis 7/8 verwendet, ebenso Zeitinterleaving bis zu etwa 1 s. Wie bei DVB kann ein äußerer (204,188)-RS Code zur Anwendung kommen. Um die verschiedenen Bandbreiten für unterschiedliche Dienste realisieren zu können, nutzt ISDB-T das Konzept der band split transmission (BST). Dazu werden OFDM-Segmente mit 1/14 der Referenzkanalbreite (6/7/8 MHz) verwendet, also mit 430/500/571 kHz Bandbreite. Je nach Anwendung (Radio-Einzelsender, Radio-Multiplex, Fernsehen) werden 1 bzw. 3 (ISDB-TSB) oder 13 Segmente kombiniert (ISD-T). Die Modulation kann hierarchisch ausgeführt werden, so dass auch ein 1-Segment-Empfänger die Basis-Inhalte eines 3- oder 13-Segmentsignals empfangen und demodulieren kann.
1023
Rundfunksysteme Tab. 17/18. Die OFDM – Parameter von ISDB-T (für Sound Broadcasting). Mode Symboldauer TS [:s] 2 504 3
1008
Unterträger-Abstand [Hz] 1984
Schutzintervall [:s] 126/63/31/16
992
252/126/63/31
Bandbreite 430/500/571 kHz (1 Seg) 1,3/1,5/1,7 MHz (3 Seg) 430/500/571 kHz (1 Seg) 1,3/1,5/1,7 MHz (3 Seg)
17.3 Satellitenrundfunk Die Rundfunkübertragung über direkt empfangbare Satellitensender im Frequenzbereich 11/12 GHz (Downlink) begann zunächst mit der analogen Übertragung von Hörfunkprogrammen über Tonkanäle innerhalb von Fernsehtranspondern und – in Deutschland – mit dem Digitalen Satelliten Radio DSR, das allerdings seit 1999 nicht mehr weiterbetrieben wurde und deshalb hier auch nicht beschrieben wird. (Details siehe [17.18]) Inzwischen ist die analoge Satelliten-Direktübertragung weitgehend durch das Astra Digital Radio (s. unten) abgelöst worden. Bei digitalen DVB-S-Transpondern können Hörfunkprogramme innerhalb des MPEG-Transportstroms zusammen mit Fernsehprogrammen übertragen werden. Während für diesen Verbreitungsweg hauptsächlich stationäre Empfänger mit auf den Satelliten ausgerichteten Hochgewinnantennen in Frage kommen, gibt es auch Satellitenrundfunkübertragung im 1,5 bzw. 2,3 GHz-Bereich. Wegen der geringeren Funkfelddämpfung genügt dort bei geeigneter Codierung bereits eine kleine, grob ausgerichtete Empfangsantenne, so dass auch Empfang mit Autoradios und portablen Geräten möglich ist. Beispiele für solche Lösungen sind die Systeme WorldSpace (mit Zielgebieten Afrika, Asien) und Sirius Satellite Radio sowie XM Radio (mit Zielgebiet USA).
17.3.1
Astra Digital Radio (ADR)
Astra Digital Radio ist ein digitales Übertragungsverfahren, das die analogen Fernsehtransponder der Astra-Satelliten benutzt [17.15]. Die Bandbreite eines Transponders ist so groß, dass im Basisband Frequenzen bis etwa 8,6 MHz übertragen werden können. Da für das analoge Video-Signal nur etwa 6 MHz benötigt werden, steht noch eine relativ große Bandbreite für den Fernsehton und weitere Tonkanäle zur Verfügung (siehe Abb. 17/43). Insgesamt können neben einem analogen Stereokanal für den Fernsehton noch 12 weitere Tonkanäle übertragen werden. Dies können wahlweise analoge Signale oder ADR-Signale sein, wobei der Vorteil bei ADR neben der besseren digitalen Qualität vor allem darin zu sehen ist, dass nur ein Transponder-Kanal für ein Stereo-Signal benötigt wird. Würde ein Transponder ohne analoges Fernsehprogramm nur für ADR verwendet, könnten 48 Stereo-Programme übertragen werden.
1024
Satellitenrundfunk
Abb. 17/43. Basisband eines analogen Satellitentransponders.
ADR nutzt zur Audiokompression das MPEG-1 Layer 2-Verfahren (siehe Kapitel 12.3) mit einer festen Datenrate von 192 kBit/s. Innerhalb des Audio-Rahmens werden als Zusatzdaten mit einem (7,4) Blockcode ADR-spezifische Daten und RDS-Daten übertragen, da die ADRÜbertragung auch zur Zubringung von Hörfunkprogrammen zu FM-Sendern genutzt wird. Der MPEG-Audio-Datenstrom wird mit einem punktierten Faltungscode der Rate 3/4 codiert. Der dadurch entstehende Datenstrom von 256 kBit/s wird differentiell mit 4-PSK moduliert und auf die entsprechende Trägerfrequenz umgesetzt. Jeder ADR-Kanal hat eine 3-dB-Bandbreite von 130 kHz und ist damit mit dem analogen Tonkanalabstand von 180 kHz kompatibel, so dass in einem Transponder analoge Tonsignale und ADR-Signale koexistieren können. Das so erzeugte Basisbandsignal wird FM-moduliert über den Satellitentransponder übertragen. Zum Empfang wird eine ADR-taugliche Set-top Box und ein Satellitenspiegel für analoges Satellitenfernsehen, üblicherweise mit 60 cm Durchmesser benötigt. Das Stationsangebot war Ende 2006 mit ca. 50 Stationen noch groß. Mit Ende der analogen TV-Satellitenübertragung wird aber auch ADR voraussichtlich zu Gunsten der DVB-Übertragung entfallen.
17.3.2
DVB über Satellit
17.3.2.1
DVB-S
Im Gegensatz zu ADR werden bei DVB-S wie in Kap.17.2.3 beschrieben die komprimierten Daten von Hörfunk- und ggf. Fernsehprogrammen gemeinsam in einem MPEG-Datenstrom übertragen. Zur Satellitenübertragung [17.10] wird dieser Datenstrom wie beschrieben mit dem äußeren RS-Code versehen sowie mit einem inneren Fehlerschutz durch einen punktierten Faltungscode mit einstellbaren Coderaten von 1/2 - 7/8. Die Daten werden mit einer QPSK über den Satellitentransponder übertragen. Für einen üblicherweise verwendeten Antennendurchmesser von 60 cm beträgt die Datenrate eines 33 MHz-Transponders etwa 45 Mbit/s, so dass neben mehreren Fernsehprogrammen eine Vielzahl von Hörfunkprogrammen übertragen werden kann. Ohne ein Fernsehsignal können zahlreiche Programme, z. T. auch in Mehrkanalton, in einem Transponder gesendet werden, siehe auch Kap.17.6. Der ARD-Hörfunktransponder (Transponder 93 auf Astra 1H) weist z. B. 63 Programme auf, die teilweise mit bis zu 320 kBit/s übertragen werden [17.25]. Hinsichtlich der Service Information und anderer Zusatzdaten gilt für DVB-S das in Kap. 17.2.3 gesagte, da diese innerhalb des MPEG-Transportstroms übertragen werden.
1025
Rundfunksysteme 17.3.2.2
DVB-S2
DVB-S2 [17.17] ist eine Weiterentwicklung des DVB-S-Standards, die größere Flexibilität hinsichtlich der übertragenen Daten und eine bessere Übertragungsleistung ermöglichen wird. Anstelle der Faltungscodes verwendet DVB-S2 Low Density Parity Check (LDPC) Codes, bei denen die große Blöcke mit einer großen Anzahl von Iterationen decodiert werden können. Die Coderaten liegen zwischen 1/4 und 9/10. Zusätzlich zur der QPSK-Übertragung wie bei DVB-S ist auch 8-PSK möglich, sowie, vor allem für professionelle Anwendungen, 16- bzw. 32-APSK. Durch diese verbesserte Kanalcodierung und Modulation ist es unter sonst gleichen Bedingungen möglich, mit DVB-S2 eine um ca. 30% höhere Datenrate als mit DVB-S zu übertragen. Dies ist hauptsächlich im Hinblick auf die Einführung von hochauflösendem Fernsehen (HDTV) zu sehen, würde aber auch die Anzahl der pro Transponder übertragbaren Radioprogramme erhöhen.
17.4
Internet Radio
17.4.1
Übersicht
Neben den oben beschriebenen traditionellen Übertragungswegen für Rundfunk (vgl. Kap. 17.2 und 17.3) gewinnt das Internet immer mehr Bedeutung für die Verteilung und den Konsum von Musik und anderen audiovisuellen Inhalten. Weltweit bestehen u. a. bereits mehrere Tausend Radiostationen, die über das Internet ihre Inhalte verbreiten, angefangen von den großen Nachrichtenportalen bis hin zu kleinen, lokalen und individuellen Sendern. Das Internet wird aber trotzdem auf absehbare Zeit die klassischen Rundfunksysteme wie FM oder DAB nicht verdrängen. Internet Radio hat jedoch ein besonderes Entwicklungspotential, da die Entwicklungen im Internet im Allgemeinen besonders dynamisch erfolgen. Bei genauer Betrachtung stellen diese neuen Entwicklungen jedoch meist keine Konkurrenz, sondern vielmehr eine Ergänzung zu bestehenden Systemen dar und eröffnen lediglich neue Möglichkeiten – so auch im Rundfunk. Neben dem technischen Übertragungsweg gilt dies insbesondere auch für die Art der Nutzung. Internet Radio und verwandte Anwendungen wie Podcasting sind daher eher als neue, zusätzliche Medien zu verstehen denn als neue Übertragungswege für das klassische Medium Radio. Die wichtigsten Stärken dieser neuen Medien sind ihre globale Verfügbarkeit, die geringen technischen und regulativen Hürden für den Betrieb, sowie die Möglichkeiten von Interaktivität und Personalisierung. Es ist darauf hinzuweisen, dass die erreichbare Übertragungs- bzw. Wiedergabequalität von Internetradio trotz digitaler Übertragung im allgemeinen nicht der eines konventionellen Rundfunkprogramms über UKW/FM oder auch DAB entsprechen wird, das ergibt sich schon aus den Möglichkeiten der eingesetzten Codecs, wie z. B. MP3. Darüber hinaus können sich weitere Einschränkungen aus temporären oder lokalen Datenraten-Engpässen ergeben, die aus der Internet-Technologie resultieren. Beiträge im Internet-Radio sind daher vorzugsweise als Informationsprogramme einzustufen.
1026
Internet Radio Marktentwicklung Internet Radio ist noch ein relativ junges Phänomen. Obwohl die ersten Übertragungen von Audio über das Internet fast schon so alt sind wie das World Wide Web selbst (ca. 1993), hat sich erst in jüngster Zeit ein signifikanter Markt entwickelt. Dieser wachsende Trend wird durch den generellen Anstieg von Internet-Nutzung und zunehmendem Online-Musikkonsum gefördert. Insbesondere spielt hier die steigende Anzahl an Breitbandanschlüssen mit festen Monatsraten (z. B. DSL Flat-Rate) eine Rolle. Im Jahr 2006 hörten in den USA bereits 12% der Nutzer jede Woche Internet Radio, was einem Wachstum von 50% gegenüber 2005 entspricht. Laut „ARD/ZDF-Online Studie 2006“ entwickelt sich die Nutzung von Internet Radio in Deutschland dabei wie in Abb. 17/44 dargestellt. Auch hier ist die Nutzung innerhalb des untersuchten Zeitraumes um 45% gestiegen. Innerhalb Europas hören etwa 20,4 Millionen Nutzer jede Woche Internet Radio.
Abb. 17/44. Nutzung von Internet Radio in Deutschland zwischen 1999 und 2006.
Diese Zahlen belegen klar den Wachstumstrend von Internet Radio und die zunehmende Popularität. Obwohl die zukünftige Entwicklung abzuwarten bleibt, ist diese Bestandsaufnahme Grund genug für eine intensive Betrachtung der Technologie und deren Auswirkungen. Besonderheiten Wie bereits erwähnt, ist Internet Radio mehr als nur ein neuer Übertragungskanal für das klassische Radioprogramm. Zwar verteilen klassische Rundfunksender ihr Programm z. T. auch parallel über das Internet, was als Re-Broadcasting oder Simulcasting bezeichnet wird, allerdings ist dies nur eine von vielen Arten der Nutzung, welche die neuen Möglichkeiten des Internets nicht ausschöpfen. Im Folgenden wird deshalb kurz auf einige Besonderheiten von Internet Radio im Vergleich zum klassischen Radio hingewiesen. Interaktivität und Personalisierung Internet Radio ist eine neue Art der Radio-Nutzung, meist über einen Computer mit Internetzugang. Der Nutzer hat dabei eine andere Bedienerschnittstelle (Bildschirm, Tastatur, Maus), und neben dem eigentlichen Tonprogramm sind begleitende Web-Seiten mit zusätzlichen Hintergrundinformationen, Bilder und auch kurze Videoclips Teil des Mediums. Dabei entwickelt sich Radio von dem Modell des unidirektionalen Informationsflusses zu einem 1027
Rundfunksysteme interaktiven Medium. Die Verweildauer des einzelnen Nutzers bei einem Sender wird in der Regel kürzer, und Inhalte können auf Anfrage (on-demand) oder auch zeitversetzt abgerufen werden. Der Zeitplan wird dabei weniger von dem Sender diktiert als von den Vorlieben des Nutzers. Außerdem existiert die Möglichkeit, stärker auf den persönlichen Musikgeschmack oder andere individuelle Interessen einzugehen. Dies geht hin bis zu personalisierten Radiosendern (d. h. bezogen auf das Anforderungsprofil des einzelnen Nutzers) die man z. B. auf den eigenen Musikgeschmack trainieren kann (siehe hierzu auch Kap.17.4.5). Globalität und Diversität Ein weiterer grundlegender Unterschied zwischen Internet Radio und klassischen Rundfunksendern besteht darin, dass die (nationale bzw. internationale) Regulierung bei der Vergabe von Sendefrequenzen entfällt. Die Verbreitung von Rundfunkprogrammen ist (nach aufwändiger staatlicher Reglementierung) einigen wenigen vorbehalten – ein Internet Radio Sender kann fast von jedem betrieben werden. Gleichzeitig ist jeder Internet Radio Sender sofort global erreichbar, ohne Abhängigkeit von Ausbreitungs- und lokalen Empfangsbedingungen – einzige Voraussetzung ist ein entsprechender Internetzugang. Selbst ein kleiner lokaler Sender kann somit zum globalen Anbieter werden. Dementsprechend gibt es auch bereits viele tausend Internet Radio Sender weltweit. Eine Konsequenz hieraus ist auch, dass mehr Nischen-Themen abgedeckt werden können – z. B. mit einem Sender, der nur persische Musik für Setar, Du oder Tombak spielt. Auch wenn der Geschmack sehr speziell ist, weltweit gibt es trotzdem genügend Zuhörer. Skalierbarkeit Wie noch genauer erläutert werden wird, ist die Versorgung einer wachsenden Zuhörerschaft (auch Skalierbarkeit genannt) ein generelles technisches Problem für Internet Radio; solange die Zuhörerschaft klein ist (weniger als 100 gleichzeitige Hörer), ist Internet Radio sehr einfach und kostengünstig zu betreiben. Wächst aber die Anzahl der Zuhörer auf mehrere 1000, so können die Kosten explodieren. Ein Internet Radio Sender kann so Opfer seines eigenen Erfolges werden. Vor dem Hintergrund der Diversität und Interaktivität ist dies aber nicht unbedingt ein wirkliches Problem: langfristig wird die Bedeutung von Sendern, die nahezu jeder gleichzeitig hört, infolge der zunehmenden Vielfalt eher abnehmen. In diesem Fall ist echtes Broadcasting nicht mehr erforderlich, und die Unicast-Technologie des Internets bestens für den Bedarf unzähliger Nischen-Sender mit Interaktivität geeignet.
17.4.2 Technische Grundlagen An dieser Stelle werden zunächst einige grundlegende Begriffe und Konzepte für die Übertragung von Rundfunkinhalten im Internet erläutert, soweit sie für das Verständnis der nachfolgenden Abschnitte relevant sind. Für eine allgemeine Einführung in die Grundlagen der Internettechnologie sei auf [17.25] verwiesen. Audioinhalte werden im Internet bereits auf viele verschiedene Arten genutzt bzw. verbreitet. Dabei kommen sehr unterschiedliche Übertragungsverfahren zum Einsatz, die wiederum mit unterschiedlichem Implementierungsaufwand verbunden sind. So kann z. B. Hintergrundmusik 1028
Internet Radio sehr einfach in HTML-Seiten eingebettet werden, während für Internet Radio eine spezielle Netzinfrastruktur notwendig ist, um eine breitere Hörerschaft zu erreichen. In Abb. 17/45 werden schematisch verschiedene Audioanwendungen im Internet anhand der zweckmäßig anzuwendenden Übertragungsverfahren sowie des daraus resultierenden technischen Aufwandes gegliedert. Diese sind auch für die technische Einordnung von Internet Radio relevant und werden im Folgenden erläutert.
Abb. 17/45. Gliederung von Audioanwendungen im Internet nach der Art der Übertragungstechnologie.
17.4.2.1
Download
Die einfachste Möglichkeit, Audioinhalte im Internet verfügbar zu machen, besteht im sog. Download. Hierzu werden Audiodateien auf einen Web-Server gespeichert, die dann über einen Link zum Herunterladen verfügbar gemacht werden. Beim Download wird die Datei zunächst komplett geladen und auf die lokale Festplatte des empfangenden Rechners gespeichert, bevor sie in einem zweiten Schritt durch eine Player-Anwendung decodiert und abgespielt wird. Der Nachteil besteht in der geringen Interaktivität. Der Nutzer muss unter Umständen mehrere Minuten warten, bis er den Inhalt hören kann. Diese Wartezeit wiederholt sich bei der Auswahl jedes weiteren Musikstücks von neuem. Die Download-Technologie erlaubt jedoch eine fehlerfreie Übertragung und das wiederholte Abspielen der Datei, wenn diese einmal gespeichert ist. Darüber hinaus ist der Transportaufwand für Download sehr einfach umzusetzen. Im Grunde ist nur der Betrieb eines normalen Web-Servers erforderlich. Beispiele für Anwendungen, die auf Download beruhen, sind Musikportale wie iTunes und Musicload oder auch Peer-to-Peer (P2P) Tauschbörsen. Auch die bereits erwähnte Einbettung von Hintergrundmusik in HTML-Seiten oder Podcasting (siehe Kap. 17.4.6) sind als Download einzuordnen. 1029
Rundfunksysteme 17.4.2.2
Streaming
Um die Wartezeit beim Download zu vermeiden, kann man auf die Technologie des Streaming zurückgreifen. Allgemein kann man von Streaming immer dann reden, wenn ein erster Teil der Audionhalte bereits decodiert und wiedergegeben wird, während der Rest noch geladen bzw. übertragen wird (d. h. Echtzeit-Wiedergabe). Hier kann man weiter zwischen Live-Streaming und File-Streaming unterscheiden. Bei Live-Streaming werden die Inhalte während der Übertragung aufgenommen und codiert. Beim File-Streaming hingegen geschieht dies vor der Übertragung und das Ergebnis wird in einer Audiodatei (File) abgespeichert. Alle Anwendungen, die auf Aktualität und geringe Verzögerung angewiesen sind, sind somit unter Live-Streaming einzuordnen. Beispiele sind Internet-Telefonie wie VoIP (Voice over IP) oder Skype, Web-Cams und auch Internet Radio, wenn z. B. der Inhalt eines Radiosenders parallel zur konventionellen Rundfunkausstrahlung auch über das Internet verteilt wird (Simulcasting, Re-Broadcasting). File-Streaming erlaubt die für das Internet typische Interaktivität. D. h. der Nutzer kann z. B. einen Song auswählen und diesen durch einen Maus-Klick starten. Die Übertragung erfolgt hier auf Abruf, sodass man von On-Demand-Streaming spricht. Außerdem kann der Datenstrom angehalten (pause) und vor- bzw. zurückgespult werden (seek) . Bekannte Beispiele im Internet für On-Demand Streaming sind Film-Trailer, YouTube, oder auch das Probehören (Preview) eines Stückes im iTunes Music Store. Viele Rundfunksender bieten ihre Reportagen oder Berichte nach der Ausstrahlung auf der begleitenden Web-Seite an. Auch hier wird meist On-Demand-Streaming (oder auch Download) eingesetzt. Einige Internet Radio Sender erwecken für den Nutzer zwar den Anschein Live übertragen zu werden, spielen aber tatsächlich ausschließlich Files aus einer Musikdatenbank nach einer vorab festgelegten Liste (Playlist) aus. Beim Aufschalten auf einen derartigen Strom hört der Nutzer einen Musiktitel nicht von Anfang an, sondern, wie beim Live-Streaming, ab einer zufälligen Stelle. Der Nutzer hat auch keine Kontrolle über die Abspielreihenfolge und kann nicht vor- oder zurückspulen. Da der Inhalt auf der Sendeseite jedoch nicht wirklich live produziert und codiert wird, sollte man eher von Pseudo-Live Streaming reden. Beispiel solcher Internet Radio Sender finden sich bei Live365 oder Pandora. 17.4.2.3
Unicast und Broadcast
Normalerweise werden Datenpakete im Internet von einem Sendeknoten zu genau einem Empfangsknoten übertragen, d. h. jedes Paket wird speziell für einen bestimmten Empfänger abgeschickt, und nur dieser bekommt es auch zugestellt. Diese Art des Transportes wird als Punkt-zu-Punkt oder Unicast bezeichnet. Für die meisten Internetanwendungen ist Unicast die richtige Art der Übertragung da jeder Nutzer individuelle Inhalte zu unterschiedlichen Zeitpunkten anfordert und somit die Pakete auch nur für einen bestimmten Empfänger von Nutzen sind. Im Gegensatz dazu steht der klassische Rundfunk, bei dem z. B. ein Radiosender das gleiche Programm an eine möglichst breite Zuhörerschaft verteilen will. Diese Art der Übertragung wird als Broadcast bezeichnet. Dort sind die Funksignale für alle Empfänger im Sendegebiet zugänglich und können bei Bedarf decodiert werden. Der Aufwand für den Sendebetrieb ist dabei unabhängig von der Anzahl der Empfänger. Das Internet ist für diese Art der Übertragung 1030
Internet Radio jedoch nicht konzipiert und stößt auf seine technischen Grenzen bezüglich der Skalierbarkeit auf viele Empfänger. Im globalen Internet mit einer fast unbegrenzten Anzahl potentieller Empfänger und Sender ist echtes Broadcasting (also die Verteilung an alle) weder praktikabel noch sinnvoll – selbst wenn es z. B. möglich wäre, mehrere 10.000 Internet Radio Sender über eine DSL-Anbindung zu transportieren. Will man trotzdem mehrere Empfänger erreichen so bietet sich zunächst die Möglichkeit an, für jeden Empfänger eine Unicast-Verbindung aufzubauen. In Abb. 17/46 (a) ist dieser Ansatz für einen Sender (S) und vier Empfänger (E1-E4) dargestellt. Sender und Empfänger sind über drei Router (R1-R3) des Internets miteinander verbunden. Für die einzelnen Empfänger ist dieser Ansatz sehr einfach zu Implementieren und aufwandsgünstig, da über den DSL-Anschluss z. B. nur der aktuell gehörte Internet Radio Sender übertragen wird. Für den Sender und die Netzinfrastruktur kann diese Lösung jedoch sehr aufwändig werden, da für jeden weiteren Empfänger eine zusätzliche Kopie jedes Paketes erstellt und verschickt werden muss. Für kleinere Internet Radio Sender mit maximal 100 Zuhörern ist diese Lösung gerade noch praktikabel, da aber Verarbeitungs- und Bitratenbedarf proportional zur Anzahl der Empfänger steigt, kann dieser Ansatz schnell an seine Grenzen stoßen.
Abb. 17/46. Verteilung von Inhalten über das Internet mittels (a) Unicast, (b) Multicast, und (c) Content Caching.
1031
Rundfunksysteme 17.4.2.4
Multicast
Die Übertragung von identischen Kopien erscheint bei näherer Betrachtung ineffektiv und überflüssig. In der Tat ist die Verteilung zu mehreren Empfängern weitaus günstiger zu realisieren, wenn die Duplizierung der Pakete nicht am Sender, sondern innerhalb des Netzwerks erfolgt. Diesen Ansatz verfolgt IP-Multicasting, indem die Duplizierung durch die Router vorgenommen wird, und zwar möglichst spät entlang des Übertragungspfades, um die Übertragungskapazität des Netzwerks so wenig wie möglich zu belasten. Wie in Abb. 17/46 (b) dargestellt, muss der Sender nur einen Datenstrom verschicken. Dieser wird so weit wie nötig weitergeleitet und dort dupliziert. IP verfügt über einen speziellen Adressbereich (Class D), über den unterschiedliche Multicast-Gruppen angesprochen werden können. Jede Adresse identifiziert eine Gruppe von Empfängern, die den Empfang durch das Beitreten (join) bzw. Verlassen (leave) einer Multicast-Gruppe kontrollieren können. Die aktuellen Empfänger jeder Gruppe sowie der günstigste Verteilungspfad werden durch den regelmäßigen Austausch von Nachrichten zwischen den Routern ermittelt – basierend auf IGMP (Internet Group Management Protocol). Multicasting erfordert die Unterstützung durch spezielle Funktionalität in den Routern, die im Internet jedoch nicht flächendeckend gegeben ist. Deshalb stellt Multicasting zwar eine elegante und gut skalierende Lösung bereit, ist in der Praxis jedoch leider nicht überall verfügbar. Für eine globale, universelle Lösung ist Multicasting deshalb derzeit nicht geeignet. 17.4.2.5
Content Caching und Content Distribution Networks
Da Unicasting zu aufwändig ist und Multicasting an der mangelnden Verfügbarkeit leidet, stellt sich weiterhin die Frage nach einer effizienten und praktikablen Lösung für die breite Verteilung von Inhalten. In der Praxis hat sich hier die Duplizierung der Inhalte in der Nähe der Empfänger (Caching) als erfolgreich erwiesen. Wie in Abb. 17/46 (c) illustriert, wenden sich die Empfänger nicht an den ursprünglichen Sender um den Strom zu empfangen, sondern an einen nahegelegenen Stellvertreter (Proxy), der über eine Kopie des Inhalts verfügt. Die Kopie erhält der Proxy direkt vom ursprünglichen Sender. Analog zu Multicasting wird hier die Duplizierung der Inhalte möglichst spät entlang des Übertragungspfades vorgenommen, um den Transport redundanter Kopien weitgehend zu vermeiden. Im Unterschied zu Multicasting wird die Duplizierung jedoch nicht auf der Ebene von IP-Paketen in Routern vorgenommen, sondern durch spezielle Server, die auf der Anwendungsebene oberhalb von IP arbeiten. Deshalb spricht man auch von Multicasting auf der Anwendungsebene (ApplicationLayer Multicast). Auf IP-Ebene wird für Empfang und Versand ausschließlich Unicasting genutzt, weshalb dieser Ansatz überall im Internet eingesetzt werden kann. Da die ProxyServer möglichst nah bei den Empfängern am Rand des Internets platziert sind, werden sie auch als Egde-Server bezeichnet. Cache-Proxies und Edge-Server sind im Internet bereits sehr weit verbreitet. Dabei ist es nicht erforderlich dass jeder Besitzer einer Web-Seite oder eines Internet Radio Senders seinen eigenen Edge-Server betreibt. Stattdessen kann diese Funktionalität von kommerziellen Anbietern gemietet werden, die weltweite Verteil-Netze (sog. Content Distribution Networks, CDN) betreiben. Diese bestehen aus einer großen Anzahl von Edge-Servern, die über die ganze Welt verteilt und über dezidierte Netzwerke mit reservierter Bitrate verbunden sind. Bei 1032
Internet Radio der Anfrage eines Nutzers wird diese an den nächstgelegenen Edge-Server umgeleitet, der die angeforderten Daten aus seinem Cache bereitstellt. Ein CDN verteilt die Last unter den geographisch verteilten Edge-Servern und erhöht damit die mögliche Anzahl an simultanen Anfragen und Datenströmen. Gegen entsprechende Bezahlung können so mehrere Tausend Datenströme weltweit verteilt werden. Zum Beispiel besteht das CDN des Marktführers Akamai aus mehr als 15.000 Servern in 70 Ländern. Obwohl diese Server vorwiegend statische Inhalte, vor allem HTML-Seiten etc. speichern und verteilen, existieren entsprechende Ansätze auch für dynamische Inhalte und Streaming-Anwendungen [17.19].
17.4.3
Streaming Protokolle
Der Begriff des Protokolls ist von zentraler Bedeutung für jede Internetanwendung. Genau wie Menschen eine gemeinsame Sprache benötigen, um kommunizieren zu können, so erfordert jede Anwendung im Internet einen wohl definierten Nachrichtenaustausch zwischen den beteiligten Rechnern. Die Regeln der Kommunikation und die inhaltliche Struktur der ausgetauschten Nachrichten werden durch Kommunikationsprotokolle beschrieben. Diese Protokolle spezifizieren die Formate der Nachrichten bzw. deren Syntax, sowie die semantische Interpretation der einzelnen Teile. Kommunikationsprotokolle sind in Schichten aufgebaut, die jeweils eine spezifische Aufgabe erfüllen. Jedes Protokoll stellt der höheren Schicht bestimmte Dienste bereit (z. B. zur fehlerfreien Übertragung) und benötigt dazu Basisdienste der darunterliegenden Schicht (z. B. Zustellung eines Datenpaketes an eine Zieladresse). Im Internet hat sich eine Gliederung in Netzwerkschicht, Transportschicht, und Anwendungsschicht durchgesetzt. Diese sind in Abb. 17/47 dargestellt, wobei die wichtigsten Protokolle im Zusammenhang mit Internet Streaming als Beispiele dienen.
Abb. 17/47. Protokollschichten für Internet Streaming.
17.4.3.1
IP-Protokoll
In diesem Zusammenhang ist die Netzwerkschicht die unterste betrachtete Protokollschicht. Sie hat als grundlegende Aufgabe ein Datenpaket vom Absender zum Empfänger zu transportieren – was mehrere Übertragungsabschnitte und Router involvieren kann. Das bekannteste 1033
Rundfunksysteme und allgegenwärtige Protokoll für diese Aufgabe ist das Internet Protokoll (IP). Über der Netzwerkschicht liegt die Transportschicht, welche einen Datenfluss zwischen zwei Anwendungen in der darüber liegenden Schicht ermöglicht. Hier gibt es mit UDP bzw. TCP zwei Protokolle mit sehr unterschiedlichen Ansätzen, die im Folgenden im Bezug auf Streaming erläutert werden. 17.4.3.2
RTP/UDP-Protokoll
Für Streaming-Anwendungen wird in der Regel das User Data Protocol (UDP) in Verbindung mit dem Real-Time Transport Protocol (RTP) bevorzugt, da diese Protokolle besonders für niedrige Laufzeitverzögerungen geeignet sind. Dies liegt daran, dass UDP ein verbindungsloses, best-effort Protokoll ist. D. h. die einzelnen UDP-Pakete werden zwar nach bestem Ermessen übertragen, aber das Protokoll gibt keine Garantie dafür, dass das Paket auch ankommt. UDP ermöglicht noch nicht einmal, den Verlust eines Paketes festzustellen. Diese und weitere Funktionalitäten müssen von der darüberliegenden Protokollschicht bereitgestellt werden. So versieht RTP alle Pakete mit einer fortlaufend ansteigenden Nummer (sequence number) um Paketverluste feststellen zu können. Darüber hinaus stellt RTP noch weitere Funktionen bereit, wie z. B. die Synchronisation mehrere RTP-Ströme durch Zeitstempel. Obwohl es der Name vermuten lässt, garantiert RTP jedoch keine Einhaltung von Echtzeitbedingungen, sondern ist im Grunde auch nur ein best-effort Protokoll. 17.4.3.3
HTTP/TCP
Im Gegensatz zu UDP stellt das Transport Control Protocol (TCP) einen verbindungsorientierten, zuverlässigen Dienst bereit, über den Daten ohne Verluste oder Übertragungsfehler in der richtigen Reihenfolge zum Empfänger vermittelt werden. Erkauft wird diese zunächst als wesentlich komfortabler erscheinende Transportart durch erhöhte Verzögerung und variablen Durchsatz. Der TCP-Empfänger bestätigt die bereits empfangenen Daten durch ein Acknowledgement (ACK), wodurch der TCP-Sender Rückschlüsse auf verlorene IP-Pakete ziehen kann. Diese werden dann zwar automatisch erneut übertragen, kommen aber verspätet am Empfänger an. Außerdem kann aus der zeitlichen Abfolge der rückfließenden ACKs auf die gerade zur Verfügung stehende Bitrate geschlossen werden, was TCP dazu nutzt, den Durchsatz fair zwischen allen Beteiligten aufzuteilen. Da die Anzahl der TCP-Verbindungen auf einer Netzwerkverbindung stets schwankt und die Bitratenschätzung von TCP nur grob ist, resultiert aus der TCP-Ratenkontrolle ein variabler Datendurchsatz. Für Streaming-Anwendungen kann sowohl die erhöhte Verzögerung als auch der variable Durchsatz von TCP kritisch sein. So macht die Wiederholung eines Datenpakets bei einer VoIP-Anwendung wenig Sinn, wenn der Rest des Satzes schon gesagt und über den Lautsprecher ausgegeben ist. In diesem Fall ist es sinnvoller, auf das verlorene Paket zu verzichten und die Lücke durch Fehlerverschleierung zu verbergen. Außerdem haben Medienströme meist eine konstante Bitrate, z. B. MP3 bei 128 kBit/s. Fällt die Übertragungsrate, bedingt durch TCP-Ratenkontrolle, für längere Zeit unter 128 kBit/s, so können die betreffenden Daten nicht schnell genug übertragen werden und die Verbindung bricht ab. Schließlich ist TCP – bedingt durch den Rückfluss der ACKs – immer eine Unicast-Verbindung mit den daraus resultierenden Problemen der Skalierbarkeit auf viele 100 oder 1000 Empfänger. UDP kann hingegen in 1034
Internet Radio entsprechend ausgerüsteten Netzen auch im Multicast-Mode betrieben werden, wodurch eine sehr effektive Skalierung möglich wird. Viele Internet Radio Systeme nutzen trotz dieser scheinbar zwingenden Gründe für RTPMulticast dennoch TCP-Unicast. Dies hat verschiedene Ursachen: - Die Anforderungen an die Verzögerungen sind bei Internet Radio nicht sehr hoch. Im Gegensatz etwa zu VoIP, mit Anforderungen an die Verzögerung von unter 150 ms, kann die Verzögerung von Internet Radio auch 10 Sekunden überschreiten ohne dass dies die Anwender sonderlich stört. Dies gilt auch für den Live-Betrieb. Bei Pseudo-Live oder On-Demand-Streaming ist die Verzögerung noch unwesentlicher. Deshalb sammeln z. B. Shoutcast-Clients (siehe Kap. 17.4.4) zunächst einige Sekunden an Audiodaten in einem lokalen Datenpuffer an, bevor sie das Ausspielen beginnen. Dies ist ggf. mit dem Hinweis „Pre-Buffering: X%“ in Player-Anwendungen zu erkennen. Diese Pufferung erlaubt es, Datenverluste durch erneute Übertragung zu korrigieren, ohne dass die Wiedergabe ins Stocken gerät. Des Weiteren kann die Schwankung des Durchsatzes kompensiert werden. Die Datenrate muss nur im Mittel über die Pufferzeit, also z. B. innerhalb eines Zeitfensters von 10 Sekunden, erreicht werden. - Der Vorteil des Multicast-Betriebs ist in der Praxis oft nicht gegeben, da diese Funktionalität nicht flächendeckend im Internet verfügbar ist. Dann muss ohnehin auf Unicast zurückgegriffen werden. - Oft verhindert das Vorhandensein einer Firewall im empfangenden Rechner den Empfang von UDP-Datenströmen. Firewalls werden oft so konfiguriert, dass nur die notwendigsten Dienste funktionieren und ansonsten eher ein Dienst zu viel als zu wenig gesperrt wird. Dies verhindert oft den Empfang von UDP, wie für RTP-Streamimg erforderlich. Eine sichere Möglichkeit, einen Audiodatenstrom durch die Firewall zu leiten, besteht darin, ihn durch das Hypertext Transfer Protocol (HTTP) zu tarnen, da dieses Protokoll für das Abrufen von Web-Seiten benötigt wird und somit stets als minimal notwendig gilt. In Abb. 17/47 ist der normale Abruf von Web-Seiten in der rechten Hälfte dargestellt (HTML/HTTP/TCP/IP), wobei die Hypertext Markup Language (HTML) als Beschreibungssprache für Web-Seiten dient. Für die Firewall verhält sich der Streaming-Client deshalb formal wie ein WebBrowser, und der Streaming-Server wie ein Web-Server. Dieser Ansatz, obwohl sicher nicht im Sinne des Erfinders, ist in der Praxis sehr effektiv, um Internet Radio ohne lästige Neukonfiguration der Firewall zu realisieren.
17.4.4
Streaming-Architektur
Abb. 17/48 veranschaulicht die typische Streaming-Architektur für Internet Radio bestehend aus den drei Segmenten Erzeugung, Verteilung, und Empfang. Obwohl der Sprachgebrauch für die darin enthaltenen Komponenten nicht einheitlich ist, wird im Folgenden von Source (auch Origin oder Broadcaster), Server (auch Relay, Edge-Server, oder Distribution Point), und Client (auch Player oder Listener) gesprochen.
1035
Rundfunksysteme
Abb. 17/48. Streaming-Architektur.
17.4.4.1
Source
Am Anfang der Übertragungskette steht die Source-Komponente (Datenquelle), welche für die Erzeugung des Datenstroms zuständig ist. Im Falle von Live-Streaming gehört hierzu die Aufnahme und Digitalisierung des Audiosignals über eine Soundkarte und dessen Codierung. Für File-Streaming können aber auch vorab codierte Files entsprechend einer Playlist gelesen werden. Da für die nachfolgenden Komponenten keine Unterscheidungsmöglichkeit besteht, scheint der Strom jedoch auch in diesem Fall live zu sein (Pseudo-Live Streaming). In beiden Fällen ist die Source-Anwendung für die Verpackung der Audiodaten in IP-Pakete und den Verbindungsaufbau mittels der zugehörigen Protokolle verantwortlich. 17.4.4.2
Server
Als zweite Komponente der Streaming-Architektur ist der Server für die effektive Verteilung der Ströme zuständig. Der Server wartet auf die Anfrage neuer Clients und verbindet diese dann mit dem Source-Strom. Ein Server kann dabei mehrere Source-Ströme empfangen, so dass er auch als Vermittlungsknoten fungiert. Die Hauptaufgabe besteht jedoch in der effizienten und störungsarmen Duplizierung eines Datenstroms. Die Unterstützung vieler simultaner Client-Verbindungen ist trotz leistungsfähiger Prozessoren eine Herausforderung und erfordert eine effiziente Implementierung der Protokolle. Hier ist zu beachten, dass eine einfache Kopie der eintreffenden IP-Pakete nicht ausreichend ist, da zu jedem Client eine eigene StreamingVerbindung aufgebaut werden muss. Typische Server können z. B. problemlos mehrere 1000 Datenströme mit 128 kBit/s auf einer normalen PC-Plattform handhaben. Trotzdem ist der Betrieb eines eigenen Servers nicht immer sinnvoll, da meist die Bitrate der Internetanbindung der limitierende Faktor ist. Die hier beschriebene Server-Kompenente kann jedoch auch als Bestandteil von CDNs in der Funktion eines Edge-Servers betrieben werden. In diesem Fall kann die Verteilung als externe Dienstleistung gemietet werden, was meist effektiver und kostengünstiger ist.
1036
Internet Radio Typischerweise können Server neben der Duplizierung von Live-Strömen meist auch lokal gespeicherte Audiofiles on-demand streamen. Will man ausschließlich ein solches Streaming anbieten, so ist keine Source-Komponente notwendig. 17.4.4.3
Client
Für den Endanwender ist der Client die bekannteste Komponente. Beispiele sind der Windows Media Player (Microsoft) oder Winamp (NullSoft). Ebenfalls sehr verbreitet ist der Flash Player (Adobe) der als Plugin für alle Web-Browser verfügbar ist und in HTML-Seiten eingebettet werden kann. All diese Client-Anwendungen sind in ihrer Basisversion frei verfügbar. Typische Client-Anwendungen verfügen über eine Vielzahl von Funktionen, wie z. B. die Interaktion mit dem Anwender (GUI, Graphical User Interface), die Verwaltung von Medienbibliotheken und Playlisten, Rechtemanagement, oder das Brennen von CDs. Im Folgenden wird jedoch nur die Funktionalität für das eigentliche Audio-Streaming betrachtet. Diese besteht aus dem Verbindungsaufbau für die Übertragung, dem Extrahieren der Audiodaten aus den IP-Paketen, deren Decodierung, sowie der Wiedergabe über die Soundkarte des Systems. 17.4.4.4
Streaming-Plattformen und -Formate
Auf dem Markt existiert eine Vielzahl von Streaming-Produkten verschiedener Hersteller. Für das reibungslose Zusammenspiel von Source, Server und Client müssen dabei kompatible Produkte verwendet werden. In der Regel bedeutet dies, dass alle Komponenten vom gleichen Hersteller stammen müssen. Die Einheit von zusammengehörigen Komponenten wird als Streaming Platform bezeichnet. Wesentliche Bestandteile der Plattform sind die verwendeten Protokolle für Verbindungsaufbau, Kontrolle und Transport, File-Formate, sowie die eingesetzten Codecs für die Kompression von Audio und Video. Die wichtigsten Streaming Platformen im Internet sind derzeit QuickTime (Apple), Real (RealNetworks), Windows Media (Microsoft) und Flash (Adobe). Darüber hinaus stellt Shoutcast (NullSoft) ein weit verbreitetes Streaming Format für reine Audioübertragungen dar. Im folgenden Abschnitt werden die Funktion einer Plattform und die verwendeten Protokolle anhand des konkreten Beispiels Shoutcast genauer beschrieben. Dieses Beispiel eignet sich durch seine Offenheit, Einfachheit und breite Verfügbarkeit besonders für eine einführende Beschreibung. Der kommerzielle Erfolg und die Bedeutung der anderen Streaming-Plattformen soll dadurch nicht in Frage gestellt werden. Die Verfügbarkeit einer kompletten Streaming-Plattform aus der Hand eines einzelnen Herstellers bietet zwar den Vorteil der reibungslosen Zusammenarbeit zwischen den Komponenten. Auf der anderen Seite begibt sich der Kunde aber in eine ungewollte Abhängigkeit. Hat er sich einmal für eine Plattform entschieden so wird ein Wechsel sehr schwierig und der Austausch einzelner Komponenten unter Umständen unmöglich. Dies gilt insbesondere für geschlossene bzw. proprietäre Formate wie z. B. Windows Audio oder Flash Video. Die Lösung besteht in der Verwendung sog. offener Standards. Das konsistente Zusammenwirken von Codecs, Protokollen und Fileformaten ist charakteristisch für jede Streaming-Plattform und ist in Abb. 17/49 anhand von ISMA 2.0 exemplarisch dargestellt. 1037
Rundfunksysteme
Abb. 17/49. Zusammenwirken von Codierformaten, Protokollen und Fileformaten in einer Streaming-Plattform entsprechend ISMA 2.0 Standard.
17.4.5
Shoutcast
Shoutcast ist eine der ersten Streaming-Platformen für Internet Radio und aufgrund seiner Offenheit und Einfachheit sehr populär. Dies lässt sich u. a. an der universellen Unterstützung in allen Client-Anwendungen erkennen. Ein Shoutcast-Datenstrom kann z. B. sowohl durch RealPlayer, QuickTime Player, Windows Media Player oder Winamp Player wiedergegeben werden. Alle Shoutcast-Komponenten (Source, Server, Client) sind frei verfügbar. Das Open Source Projekt Icecast basiert außerdem auf der gleichen Technologie wie Shoutcast und ist nahezu kompatibel. Shoutcast besteht im Wesentlichen aus zwei Technologiekomponenten: dem Audiocodec MP3 (MPEG-1 Layer 3, siehe Kap. 12) und dem Internet-Fileformat HTTP. Es wird deshalb auch als MP3-Streaming bezeichnet. MP3 ist derzeit das am weitesten verbreitete Musikformat im Internet. Gleiches gilt für HTTP bezüglich des Transportes von Inhalten auf dem Web. Neben MP3 wird auch der neue Audiocodec HE-AAC (auch unter AAC+ bekannt, siehe Kap.12) unterstützt. 17.4.5.1
Shoutcast-Source
Wie in Abb. 17/50 dargestellt, entspricht Shoutcast der bereits beschriebenen StreamingArchitektur, bestehend aus Source, Server und Client. Als Source wird häufig der Audioplayer Winamp eingesetzt, wobei die Source-Funktionalität durch ein sog. DSP-Plugin bereitgestellt werden muss. Die Audioquelle kann entweder live sein oder von einer Playlist stammen. Für 1038
Internet Radio den zweiten Fall ist darauf hinzuweisen, dass die Files decodiert und erneut codiert werden (Formatkonvertierung bzw. Transcodierung), da über die Schnittstelle zwischen Input-Plugin und DSP-Plugin stets unkomprimierte PCM-Audiosamples transportiert werden. Die Aufgabe des Source-Plugins besteht in der Übernahme der decodierten Audiosamples, der Codierung in dem gewünschten Format, sowie in der Übertragung an den DNAS (vgl. Kap. 17.4.5.9 Shoutcast-Protokoll). Das decodierte Audiosignal wird zusätzlich über die Soundkarte ausgegeben, um dem Betreiber die Kontrolle über das gesendete Signal zu geben.
Abb. 17/50. Streaming-Architektur von Shoutcast unter Verwendung von Winamp.
17.4.5.2
Shoutcast-Server
Der Shoutcast-Server, oder auch Distributed Network Audio Server (DNAS) genannt, ist die zentrale Komponente der Shoutcast-Plattform. Er wird auf einem Rechner mit fest zugewiesener IP-Adresse betrieben, welche von der beabsichtigten Zuhörerschaft erreichbar sein muss. Wird der Server in eigener Zuständigkeit betrieben, so ist darauf zu achten, dass die Einstellungen der Firewall eine Verbindung von externen Clients erlaubt. Wie erwähnt, kann es günstiger sein, den Server in einem CDN von einem Diensteanbieter zu mieten. Der Server nutzt zwei Ports: den Service-Port für den Empfang des Source-Streams und den Public-Port für den Empfang der Client-Anfragen. Ein Port ermöglicht es, unterschiedliche Anwendungen oder Anwendungsinstanzen, die auf dem gleichen Rechner ausgeführt werden, zu adressieren. Die Anwendungen nutzen dann zwar die gleiche IP-Adresse, können aber anhand des Ports gezielt angesprochen werden.
1039
Rundfunksysteme Ein Client, der sich auf den Source-Strom verbinden will, stellt eine Verbindungsanfrage an den Public-Port. In den gängigen Client-Anwendungen geschieht dies z. B. durch den FileDialog Play-URL. Zusätzlich verfügt der Shoutcast-Server über die Möglichkeit, abgespeicherte Files On-Demand zu streamen. Dafür müssen die MP3-Files in das bei der Installation definierte Content-Directory (/content) copiert werden. 17.4.5.3
Shoutcast-Client
Wie bereits erwähnt, unterstützen eine Vielzahl von Player-Anwendungen Shoutcast-Streaming. Der klassische Shoutcast-Client ist Winamp, der in der Basisversion frei verfügbar ist [17.22]. Abb. 17/51 zeigt einen Screenshot des Winamp Players, der viele nützliche Funktionen bereitstellt und sich einfach durch Plugins erweitern lässt. So können neue Codecs installiert oder das Aussehen durch Skins verändert werden. In der Medienbibliothek von Winamp ist außerdem eine Reihe von Internet Radio Stationen verfügbar.
Abb. 17/51. Bedienoberfläche des Shoutcast-Client Winamp.
17.4.5.4
Shoutcast-Protokoll
Shoutcast basiert auf TCP und einer HTTP-ähnlichen Syntax. Abb. 17/52 illustriert den Protokollfluß zwischen Source und Server. Für diesen Teil des Protokolls werden alle Daten an den Service-Port des Servers geschickt. Der Verbindungsaufbau wird von der SourceAnwendung initiiert, welche als erste Nachricht das Server-Password schickt. Somit kann z. B. der CDN-Betreiber sicherstellen, dass nur der rechtmäßige Kunde seinen Dienst nutzt. Danach überträgt die Source im zweiten Schritt den eigentlichen Audiostrom, denen ein kurzer Textbereich mit Verbindungsinformationen voran steht. Dieser Bereich wird als Header bezeichnet, in dem jeweils Paare aus Schlüsselworten und zugewiesenen Werten stehen. Heißt die Radiostation z. B. RadioX, so kann dies durch icy-name:RadioX festgelegt werden. Der Name erscheint dann z. B. im Client beim Verbindungsaufbau. Nach dem Header folgen die eigentlichen Audiodaten, also z. B. die Daten aus dem MP3-File. Ein ähnlicher Protokollfluss besteht auch zwischen Server und Client. Hier initiiert der Client die Verbindung, indem er eine kurze Textnachricht an den Public-Port des Servers schickt. Diese Nachricht, insbesondere die erste Zeile (GET / HTTP1.0), ähnelt der Anfrage einer Web-Seite in HTTP (HTTP-Request). Die Antwort-Nachricht (Response) des Servers ist ähnlich aufgebaut wie beim Source-Server Protokoll. Nach einigen Header-Zeilen mit 1040
Internet Radio verschiedenen Informationen kommen die eigentlichen Audiodaten. Wie im nächsten Abschnitt erläutert, können diese jedoch von sog. Metadaten unterbrochen sein, die in regelmäßigen Abständen eingefügt werden.
Abb. 17/52. Protokollfluss zwischen Shoutcast-Source und -Server.
17.4.5.5
Metadaten
Als Metadaten werden Zusatz-Informationen über die eigentlichen Audiodaten bezeichnet. Hierzu zählen z. B. der Name des Interpreten, der Titel des Musikstücks oder auch die Bitrate und das Codierformat einer Audiodatei. In MP3 sind Metadaten z. B. als ID3-Tags gespeichert (weitere Erläuterungen zu Metadaten siehe auch Kap.12 sowie Kap. 17.5). Shoutcast-Metadaten sind z. B. der Name des Radio Senders oder die URL zu der begleitenden Web-Site des Senders. Diese sind im Header der Response enthalten. Neben diesen statischen Metadaten können aber auch dynamische Metadaten übertragen werden. Die typische Anwendung hierfür ist die Aktualisierung der Titel-Anzeige im Winamp Player, wenn ein neuer Song beginnt. Da sich diese Daten mit der Zeit ändern, müssen sie in regelmäßigen Abständen zum Client übertragen werden. Wie in Abb. 17/53 dargestellt, kann der Shoutcast-Server deshalb regelmäßig Metadaten in dem Audiodatenstrom einfügen. Nach dem Header (H) folgt der erste Teil der Audiodatei, deren Intervallänge über das Metadatenfeld icy-matint beim Verbindungsaufbau festgelegt wird. Danach werden Metadaten (MD) und Audiodaten stets abwechselnd übertragen. Die Länge der Metadaten ist dabei variabel und wird im ersten Byte signalisiert. Auf der Homepage der Shoutcast-Plattform [17.20] existiert ein umfangreiches Verzeichnis mit Shoutcast-Servern, die aktuelle Internet Radio Sendungen ausstrahlen. Diese Liste ist z. B. auch in der Medienbibliothek von Winamp verfügbar. Die Aufnahme in dieses Verzeichnis ist kostenfrei und mit dem Shoutcast Source DSP-Plugin von Nullsoft über die Source-Anwendung durchführbar. 1041
Rundfunksysteme
Abb. 17/53. Einbettung von Metadaten in den Audiostrom bei der Übertragung vom Server zum Client.
17.4.6
Verzeichnisse und Personalisierte Dienste
Das bereits erwähnte Shoutcast-Verzeichnis verdeutlicht bei genauer Betrachtung ein interessantes Phänomen von Internet Radio. Zum Zeitpunkt des Schreibens waren dort ca.18.000 Server verfügbar, auf die mehr als 3 Mio Clients zugreifen. Das heißt, dass hier aufgrund der geringen technischen und regulativen Hürden sowie der globalen Verfügbarkeit eine enorme Anzahl von Radiostationen bzw. Dienstanbietern mit diversen Nischen-Inhalten verfügbar sind. Die sog. Nischensender binden dabei einen wesentlichen Teil der Zuhörerschaft an sich. Es istfestzustellen, dass es zwar einige wenige sehr populäre Sender gibt, die bis zu 2,4 Millionen Stunden Hörerzeit abdecken. So erreichen die Top 10 Sender nur weniger als 12% der gesamten Hörzeit. Die meiste kumulative Hörzeit wird jedoch bei Nischensendern verbracht. Dieses Phänomen, das im Gegensatz zu den Mustern beim klassischen Rundfunk steht, ist als Long Tail bekannt geworden [17.21] und ist typisch für viele Inhalte im Internet, wie z. B. auch für Web-Seiten allgemein. Ein weiteres Problem, das sich durch diese Vielfalt an Radiosendern und Inhalten stellt, besteht darin, wie der Nutzer die richtige Radiostation entsprechend seinem Musikgeschmack findet. Zum Teil wird dieses Problem bei Internet Radio durch Verzeichnisse gelöst, da hier nach Genre (Pop, Classic, Jazz, …), Qualität (Bitrate und Codec-Typ), oder Herkunftsland gesucht werden kann. Hierzu werden die oben beschriebenen Metadaten herangezogen. Einen Schritt weiter gehen personalisierte Dienste, bei denen der Programminhalt des Radiosenders nach Geschmack und Stimmung individuell gestaltet wird. Grundlage ist eine Datenbank, bestehend aus vielen Musiktiteln unterschiedlichster Genres. Diese werden entsprechend einer persönlichen Playlist im Pseudo-Live Modus gestreamt. Das besondere ist nun, dass sich die Playlist dynamisch den Vorlieben des Nutzers anpasst. Dazu muss der Nutzer ein Profil anlegen und seine Vorlieben angeben. Zusätzlich kann er gehörte Musikstücke bewerten und wird auch aufgefordert, Metadaten einzugeben, wenn diese noch nicht vorhanden sind. Diese Daten sind dann wiederum Grundlage für Empfehlungen an andere Nutzer, die nach 1042
Internet Radio dem Prinzip „Andere Zuhörer, denen dieses Stück gefallen hat, finden auch folgendes gut“ ermittelt werden. Dieses auf den Gewohnheiten einer Nutzergemeinschaft basierende Prinzip wird als Collaborative Filtering bezeichnet und kann sehr hilfreich bei der Suche von Inhalten sein. Ein klassisches Beispiel für ein Internet Radio, das nach diesem Prinzip arbeitet, ist Last.fm (www.last.fm). Sehr ähnlich arbeitet auch Pandora (www.pandora.com), nur dass hier die Metadaten nicht von den Nutzern, sondern von Experten (wie Musikern) erzeugt werden. Diese haben über 400.000 Musikstücke in mehr als 400 Klangbestandteile zerlegt, die in Anlehnung an das menschliche Genom als Musik-Gene bezeichnet werden (melody, harmony, rhythm, instrumentation, orchestration, arrangement, lyrics, vocal harmony, …). Basierend auf diesem Music Genome Project und den Bewertungen des individuellen Nutzers wird wiederum eine persönliche Playlist generiert. Jeder Nutzer kann sich so seinen eigenen Sender erzeugen und erhält einen individuellen Audiostrom über das Internet. Hier wird offensichtlich, dass diese Art der Personalisierung Unicast Übertragung voraussetzt und damit auch im Widerspruch zur klassischen Broadcast Übertragung im Rundfunk steht.
17.4.7
Podcast
Ein Podcast ist eine Art Radiosendung, die als Audiodatei über das Internet heruntergeladen und danach zeitversetzt angehört werden kann. Oft werden MP3-Player zur Wiedergabe verwendet, aber auch der Heim-PC kann Podcasts abspielen. Außerdem kann ein Podcast neben Audio- auch Video-Inhalte enthalten. Der Inhalt eines Podcast ist vergleichbar mit einem kurzen Beitrag im Radio. Es kann z. B. ein Interview, eine Filmkritik, oder eine Lektion eines Sprachkurses sein. Typisch sind vor allem aktuelle Kommentare und Diskussionen zu bestimmten Themen des täglichen Lebens, technischen Fachsimpeleien, oder Politik. Im Zusammenhang mit Internet Radio kann ein Podcast z. B. auch ein regelmäßiger Beitrag der Rundfunksendung sein, der dann später über die Web-Seite des Senders zum Download erhältlich ist. Podcasts sind in der Regel Serien, d. h. regelmäßige Beiträge zu einem Thema oder Kommentare von einer Person. Der einzelne Beitrag wird als Episode bezeichnet und die gesamte Serie als Podcast. Regelmäßigkeit und Aktualität sind wichtige Aspekte eines Podcasts. Ein Archiv mit wenigen, veralteten Audiobeiträgen ist kein Podcast. Das Besondere an einem Podcast ist die Möglichkeit, ihn sehr einfach zu abonnieren. Hat man einmal Gefallen an einer Sendung gefunden, so kann man seinen Computer mit wenigen Klicks dazu veranlassen, automatisch die künftigen Folgen des Podcasts herunter zu laden und bei Bedarf z. B. auch gleich auf einen angeschlossenen MP3-Player zu übertragen. Anders als bei einem Zeitschriftenabonnement besteht jedoch keinerlei kostenpflichtige oder zeitlich begrenzte Vertragsbeziehung zwischen Anbieter und Abonnent. Auf diese Weise hat man stets die aktuellen Lieblingssendungen auf seinem MP3-Player und kann sie bei Bedarf anhören. Der Nutzer kann so weit mehr Einfluss auf die Inhalte und den Sendeplan nehmen als bei klassischem Radio. Der Begriff Podcast bezeichnet somit eine Episode der Sendung beziehungsweise die gesamte Serie von Sendungen. Podcasting steht dagegen für das Produzieren und Anbieten von 1043
Rundfunksysteme Podcasts. Podcasting, ist eine Zusammensetzung aus dem Namen des populären MP3-Players „iPod“ von Apple und dem englischen Wort „Broadcasting“, was soviel wie „Ausstrahlung“ bedeutet. Im Grunde ist nur ein PC mit Internetanschluss notwendig, um eine eigene Podcast-Sendung zu produzieren. Daraus ergibt sich auch das eigentlich Neue an Podcasting: das breite Spektrum an Produzenten. Mittlerweile bieten auch die großen Medienproduzenten (z. B. ARD/ZDF, N-TV) ihren begleitenden Podcast an. Sympathisch wird Podcasting aber durch die Vielzahl von Amateurbeiträgen, die keinen Regeln gehorchen und immer für Überraschungen gut sind. Hier geht es nicht um höchste Produktionsqualität und professionelle Moderation, sondern um individuelle Aktualität. Deshalb wird Podcasting auch als „Radio von und für Jedermann“ bezeichnet. Deshalb wird Podcasting oft im Zusammenhang mit dem Web 2.0 genannt, bei dem die Generierung von Inhalten durch Nutzer einen wesentlichen Aspekt darstellt [17.24]. Podcaster müssen jedoch genauso wie Betreiber von öffentlichen Rundfunksendern die Rechte Dritter an den Medieninhalten beachten. 17.4.7.1
Download und Dateiformat
Die Audiodateien eines Podcast gelangen über einen einfachen Download auf den PC bzw. MP3-Player des Nutzers. In der Regel wird hier der weit verbreitete Audiocodec MP3 verwendet, aber auch andere internettypischen Audiocodecs (wie AAC oder Vorbis, vgl. Kap. 12) finden gelegentlich Anwendung. Als Übertragungsprotokoll für den Download wird HTTP/TCP eingesetzt. Podcasting kommt ohne Streaming-Technologie aus und ist deshalb mit besonders geringem Aufwand realisierbar (vgl. Kap. 17.4.2). Die Möglichkeit, Audiodateien über das Internet herunterzuladen, bestand schon viele Jahre vor dem Aufkommen von Podcasts. Dieser Teil der Podcast-Technologie ist deshalb keineswegs neu. Neu hingegen ist die Art der Nutzung über ein Abonnement, welches über sog. RSS-Feeds realisiert wird. 17.4.7.2
Abonnement über RSS
RSS steht für Really Simple Syndication und definiert ein Austauschformat für Nachrichten über ein festgelegtes Protokoll. Dabei steht Syndication für die Vereinigung mehrerer Nachrichtenquellen mit dem Ziel der Zusammenführung, und steht somit in Analogie zu dem Zusammenschluss mehrerer Firmen aus wirtschaftlichem Interesse zu einem Syndikat. Auch RSS ist keine Technologie, die speziell für Podcasting geschaffen wurde. Vielmehr wurde RSS für das Abonnement von Text-Nachrichten bzw. allgemeinen Web-Inhalten entwickelt. Podcasting kombiniert somit zwei bekannte Technologien (Audiodatei-Downlaod und RSS) zu einer ganz neuen Anwendung. RSS erlaubt es, die Inhalte einer Webseite nach Aktualisierungen zu durchsuchen und diese gezielt auf den eigenen Computer herunterzuladen. Ältere, bereits bekannte Inhalte werden ignoriert. Die zu durchsuchenden Webseiten werden über ein sog. Abonnement ausgewählt und in eine Abo-Liste übernommen. Um informiert zu bleiben, muss der Nutzer dann nicht mehr alle Webseiten manuell aufrufen, sondern bekommt die aktuellen Änderungen aller abbonierten Webseiten an eine zentrale Stelle geliefert. 1044
Internet Radio Im Falle von Podcasting bezieht sich das Abonnieren vorwiegend auf MP3-Dateien. Aber RSS eignet sich auch für die aktuelle Bereitstellung von Textinhalten, Bildern oder Videos. Solange das Abonnement läuft, werden somit regelmäßig neu hinzugekommene Daten übertragen und beim Nutzer aktualisiert. Dieser durch RSS kontrollierte Datenfluss wird auch RSS-Feed genannt. Da RSS in einer standardisierten Form beschrieben wird, kann der RSSFeed automatisch verwaltet werden. Technisch gesehen gehört RSS zur Familie der XML-basierten Dateiformate und wird derzeit in der Version 2.0 erstellt. Zusätzlich gibt es neben RSS das konkurrierende Format Atom, das ebenfalls auf XML basiert und vergleichbare Funktionen bietet. Im Folgenden wird von RSS ausgegangen. Weitere Informationen zu News-Feeds in beiden Formaten finden sich in [17.23]. 17.4.7.3
Podcast Komponenten und Nachrichtenfluss
Im Folgenden werden anhand von Abb. 17/55 wichtige Komponenten für Podcasting erläutert und der erforderliche Nachrichtenfluss in der zeitlichen Abfolge dargestellt (vgl. Ziffern 1-5).
Abb. 17/54. Podcasting Komponenten und Nachrichtenfluss.
Als erstes muss der Produzent eines Podcasts (der sogenannte Podcaster) alle benötigten Dateien auf einem Web-Server ablegen. Dies sind zunächst die eigentlichen Audiodateien der einzelnen Episoden. Im Beispiel liegen auf dem Web-Server www.radio.com die Dateien episode1.mp3, episode2.mp3 und episode3.mp3. Zusätzlich muss der Podcaster seinen RSS-Feed über eine XML-Datei beschreiben. Diese Textdatei enthält verschiedenen Angaben 1045
Rundfunksysteme über Titel und Autor des Podcast sowie Links auf die eigentlichen Audiodateien und wann diese jeweils aktualisiert wurden. In Abb. 17/55 ist diese Information in der Datei feed.rss enthalten und die Links auf die Audiodateien durch gestrichelte Pfeile dargestellt. Wird der Podcast durch eine neue Episode aktualisiert, so muss eine weitere MP3-Datei hinzugefügt und die RSS-Datei entsprechend aktualisiert werden. Um den Podcast im Internet bekannt zu machen, ist es sinnvoll, ein Podcast-Verzeichnis zu nutzen. Dies sind Webseiten, auf denen gezielt nach Podcasts gesucht werden kann, indem diese nach Kategorien geordnet oder durch Nutzer bewertet werden können. Podcast-Verzeichnisse sind sozusagen die Gelben-Seiten für Podcast-Hörer. Beispiele sind www.podcast.de oder der iTunes Music Store. Die Anmeldung eines Podcasts ist in der Regel kostenlos und wird durch die Übermittlung der Podcast-URL und weiterer beschreibender Metadaten realisiert. In Abb. 17/55 ist dies durch Schritt (1) gekennzeichnet, wobei die Podcast-URL in unserem Beispiel „www.radio.com/feed.rss“ lauten würde. Die Podcast-URL ist die eindeutige Adresse der RSS-Datei im Internet und ermöglicht es somit, diese von einem beliebigen Rechner aus zu laden. Podcast-Hörer benutzen einen sogenannten Feed-Reader für das Abonnieren und Verwalten von Podcasts. Dies sind entweder eigenständige PC-Anwendungen oder Teil eines WebBrowsers. Beispiele sind Doppler, Juice, Nimq oder iTunes. Neben dem Begriff Feed-Reader wird auch von Podcatcher, Podcast-Client, RSS-Reader oder Aggregator gesprochen. Alles, was der Hörer für das Abbonieren eines Podcast benötigt, ist die Podcast-URL. Diese erhält er meist über das Podcast-Verzeichnis oder auch direkt über die Webseite des Podcasters. In Abb. 17/55 wird davon ausgegangen, dass der Hörer die Podcast-URL beim Stöbern im Verzeichnis von www.podcast.de findet und diese in die Abo-Liste seines Feed-Readers übernimmt (Schritt 2). Die Abo-Liste des Feed-Readers ist vergleichbar mit der FavoritenListe eines Browsers. Der Hörer trägt hier alle Podcast-URLs ein, die er abonnieren will. In unserem Beispiel ist die Abo-Liste in der Datei abo-list.opml gespeichert, die nach Schritt (2) auch den Eintrag der Podcast-URL www.radio.com/feed.rss enthält. Im Schritt (3) geht der Feed-Reader automatisch die Abo-Liste durch und lädt die RSSDateien aller abbonierten Podcasts. Das Intervall dieser periodischen Abfrage kann vom Nutzer eingestellt werden (z. B. alle 30 Minuten, oder stets nach dem Start des Feed-Readers). Hat er die Datei feed.rss geladen (die in der Regel sehr klein und kompakt ist) so prüft er ob der Feed eine neue Episode enthält. Ist dies der Fall, so lädt er in Schritt (4) die zugehörige Audiodatei auf die Festplatte des Rechners. Obwohl in der Abbildung nur ein Web-Server und RSS-Feed dargestellt ist, besteht der Reiz eines Feed-Readers gerade in der automatischen Abfrage aller abonnierten Podcasts und der Aggregation dieser Information. Schließlich können in Schritt (5) die auf der Festplatte gespeicherten MP3-Dateien über einen Player abgespielt werden. Dabei kann der Player entweder ein Software-Player auf dem PC sein oder ein portabler MP3-Player. Im zweiten Fall übernimmt oft auch der Feed-Reader die Synchronisation mit dem MP3-Player, d. h. er lädt automatisch die aktuellen Episoden von der Festplatte des PCs auf den MP3-Player und löscht gegebenenfalls auch alte Episoden, die bereits gehört wurden. Ein Feed-Reader, der diese Funktionalität bietet, ist z. B. iTunes.
1046
Programmbegleitende Dienste
17.5
Programmbegleitende Dienste
17.5.1
Übersicht
Neben den eigentlichen Programminformationen, wie Musik, Sprache etc. werden in zunehmendem Maße so genannte Metadaten erfasst und übertragen. Derartige Zusatzinformationen sind auch im Hörfunk heutzutage ein unverzichtbarer Bestandteil des Rundfunkprogramms. Sie signalisieren entsprechend ausgerüsteten Empfangsgeräten beispielsweise den Programmnamen, informieren die Hörer über den soeben dargebotenen Musiktitel oder transportieren Daten zur aktuellen Verkehrslage in die Navigationssysteme der Kraftfahrzeuge. Dies alles geschieht unhörbar im Hintergrund, ohne dass die Wiedergabequalität des Audiosignals dabei beeinträchtigt wird. Diese Zusatzinformationen, auch programmbegleitende Dienste oder Mehrwertdienste genannt, dienen einer besseren und umfangreicheren Präsentation des Hörfunks beim Publikum. Einer der ersten Dienste war ARI (Autofahrer-Rundfunk-Information) in den siebziger Jahren. ARI signalisierte Verkehrsdurchsagen, auch wenn ein Autofahrer gerade eine Audiokassette hörte. In den 80er Jahren verbesserte RDS (Radio Daten System) deutlich die Übertragung von digitalen Zusatzinformationen in UKW. Die Hörfunkprogramme wurden fortan nicht mehr durch Kenntnis der Frequenz, sondern anhand des Programmnamens eingestellt. Inzwischen ist RDS mit seinen zahlreichen Features aus keinem analogen Radio mehr wegzudenken. Seit einigen Jahren werden Hörfunkprogramme vermehrt auch über digitale Rundfunksysteme verbreitet. In RDS werden die Zusatzinformationen noch mit wenigen hundert Bit pro Sekunde übertragen. Mit Digital Audio Broadcasting (DAB), Digital Multimedia Broadcasting (DMB), Digital Radio Mondiale (DRM) und Digital Video Broadcasting (DVB) steht nunmehr die zehn- bis hundertfache Übertragungskapazität für Zusatzinformationen im Hörfunk zur Verfügung. Der Schwerpunkt der im vorliegenden Kapitel beschriebenen Zusatzdienste liegt auf den Übertragungsverfahren UKW/FM und DAB. Einige dieser Dienste können auch bei DRM, bei DVB und dem neuen Übertragungsstandard für mobiles Fernsehen DMB (Digital Multimedia Broadcasting) eingesetzt werden. Weitere Aspekte und Kategorien von Metadaten werden u. a. in Kap. 14.3.3 (Digitale Tonarchive) und Kap. 18.8.2 (Datensicherheit) behandelt.
17.5.2
Typologie der Dienste
Programmbegleitende Dienste sind nach verschiedenen Merkmalen unterscheidbar. Ein Dienst besteht aus seiner Präsentationsform beim Publikum und dem eigentlichen Inhalt. Präsentationsformen sind akustischer und/oder visueller Art, d. h. die Darbietung des Dienstes erfolgt unter Zuhilfenahme der am Radio angeschlossenen Lautsprecher oder ergänzend durch die Darstellung von Texten und Bildern in einer elektronischen Anzeige (Display). Des Weiteren kann eine Ordnung der Dienste nach medienpolitischen und funktionalen Gesichtspunkten erfolgen. Wie bereits erwähnt, können die unten beschriebenen Datendienste als Teil der ständig wachsenden Familie der sog. Metadaten angesehen werden. 1047
Rundfunksysteme 17.5.2.1
Programmbegleitende und nicht-programmbegleitende Dienste
Programmbegleitende Dienste werden von Radiostationen angeboten, die prinzipielle Übertragungskette ist in Abb.17.55 dargestellt. Diese senden Hörfunkprogramme und Datendienste auf Basis des rundfunkrechtlichen Funktionsauftrags für öffentlich-rechtliche Sender oder der medienrechtlichen Zulassung für Privatradios. Daneben existieren auch “nicht-programmbegleitende“ Datendienste, wie z. B. kostenpflichtige Verkehrsinformationen. Diese Angebote werden in Kooperation mit Privatradios, oder bei DAB mit den Sendernetzgesellschaften bereit gestellt; sie unterliegen dem Mediendienstegesetz und sind ansonsten zulassungsfrei. Hintergrund für die Berechtigung von “Datenrundfunk“ dieser Art ist der Vorteil der Rundfunksysteme gegenüber herkömmlichen Mobilfunktechnologien oder anderen öffentlichen Informationssystemen bei der Aussendung von gleichartigen Informationen an möglichst viele (mobile oder stationäre) Teilnehmer. Während beim Mobilfunk die Gesamtkosten eines Dienstes für den Betreiber mit Zahl der Teilnehmer steigen, bleiben die Sendernetzkosten im Rundfunk für eine zu versorgende Fläche konstant, unabhängig von der Zahl der Hörer. Auf diese Weise stellen Rundfunksysteme – insbesondere bei digitaler Übertragung – für eigenständige Datendienste, wie z. B. Fahrgastinformationen in öffentlichen Verkehrsmitteln oder spezielle Kundendienste der Automobilhersteller, einen interessanten und effektiven Transportweg dar. 17.5.2.2
Funktionen
Abb. 17/55. Übertragungskette für Datendienste im Rundfunk.
In der folgenden Darstellung werden programmbegleitende Dienste gegliedert nach Abstimminformationen, Textübertragungen, Dateitransfer und codierte Verkehrsinformationen. Die wichtigsten Abstimminformationen in RDS und DAB, auch Serviceinformationen genannt, 1048
Programmbegleitende Dienste werden im Kap. 17.5.4 näher erläutert. Die Gemeinsamkeiten sowie Unterschiede bei der Textübertragung im analogen und digitalen Radio behandelt das Kap. 17.5.5. Der Dateitransfer ist nur in DAB bzw. DMB sinnvoll, da nur mit dieser Technik ausreichende Übertragungskapazitäten vorhanden sind. Kap. 17.5.6 behandelt eine Reihe von Diensten auf Basis von Dateitransfertechnologien, die in Deutschland entwickelt und erprobt wurden. Aus den Standards, die den verschiedenen Rundfunksystemen zu Grunde liegen, ergeben sich je nach Funktion die entsprechenden Übertragungswege der Dienste. Einige dieser Dienste sind sehr zeitkritisch und bedürfen daher einer sehr schnellen und häufigen Übertragung zum Endgerät. Andere Dienste müssen mit dem Tonsignal zeitlich synchronisiert übertragen werden, beispielsweise bei Informationen zu Titel und Interpret.
17.5.3
Datenmanagement
17.5.3.1
Generierung programmbegleitender Dienste
In den öffentlich-rechtlichen Rundfunkanstalten wurden ab Mitte der 1980er Jahre mit der Automatisierung der Hörfunkstudios die grundlegenden Voraussetzungen zur Generierung programmbegleitender Dienste geschaffen. Schrittweise wurden Arbeitsprozesse in der Hörfunkproduktion mit Computern unterstützt und die digitale Kommunikationstechnik vereinfachte den Transport dynamischer Zusatzinformationen zum Standort der Einspeisegeräte. Eine weitere wichtige Bedingung ist die redaktionelle Vorarbeit. Der journalistische Aufwand in den programmbegleitenden Medien hängt einerseits vom öffentlichen Interesse am Medium selbst ab, sowie von der nutzbaren Synergie mit anderen Verbreitungswegen. Schnelle Insellösungen zur Generierung von begleitenden Diensten erweisen sich langfristig oft als ineffizient und teuer. In den öffentlich-rechtlichen Rundfunkanstalten entstand daher vor einigen Jahren ein zweistufiges erweiterbares Konzept, um solche Dienste strukturiert im Hörfunk aufzubereiten. Die erste Ausbaustufe betrifft einen ZI-PC (Zusatzinformations-PC). Die zweite Ausbaustufe sieht die Aufbereitung von multimedialen Zusatzinhalten, wie z. B. HTML-Seiten und JPEG-Bildern, in einem CMS (Content Management System) vor. ZI-PC Der ZI-PC verarbeitet zentral alle Zusatzinformationen eines Hörfunkprogramms (siehe Abb. 17/56). Dabei werden statische Informationen mit zeitkritischen dynamischen Zusatzinformationen zusammengefasst und für die Anforderungen der unterschiedlichen Übertragungswege aufbereitet. Für die Ablaufsteuerung ist der ZI-PC auf eine große Menge von Informationen aus verschiedenen Bereichen angewiesen, die über unterschiedliche Schnittstellen bereitgestellt werden können. Um die in einer Datenbank abgelegten Informationen, z. B. Radiotexte, zu bearbeiten, hat die Redaktion über ein entsprechendes Modul die Möglichkeit, auf diese Daten zuzugreifen. In der Datenbank können auch vordefinierte Schlüsselwörter und Präsentationsvorlagen für Radiotexte abgelegt werden, zum Beispiel: „Sie hören um [UHRZEIT] in der Sendung [SENDUNGSNAME] den Titel [MUSIKTITEL] von [INTERPRET]“. Kurzfristig können auch Live-Texte bereitgestellt werden, z. B. der aktuelle Spielstand der Fußballbundesliga. 1049
Rundfunksysteme Um den Datenaustausch zwischen einer Sendeablaufsteuerung und dem ZI-PC zu ermöglichen, ist ein Sendeablaufmodul erforderlich. Typischerweise legt die Sendeablaufsteuerung die aktuellen Informationen, z. B. Titel/Interpret, in einer weiteren Datenbank ab oder sendet diese bei einer Änderung direkt über das Netzwerk an den ZI-PC. Das sog. wellenbezogene ZI-System bleibt auch bei einem Wechsel des Sendekomplexes immer mit der jeweils aktiven Sendeablaufsteuerung verbunden. Der ZI-PC verfügt in seiner Datenbank über ein aktuelles Abbild der wichtigsten Fernsteuerkontakte aus dem Sende-, Nachrichten- und Verkehrsstudio, um zugehörige Änderungen bei Texten oder Signalisierungen des Verkehrsfunks zu initialisieren. Die Schaltinformationen werden über ein Netzwerk oder eine optische Relaisschnittstelle eingelesen. Neben den im ZI-PC selbst generierten Zusatzinformationsarten besteht die Möglichkeit, bereits vorhandene Informationen zu übernehmen. Eine typische Anwendung ist, wenn TMCDaten eines Verkehrsrechners übernommen werden. Besonders im Regionalbetrieb ist auch ein Multiplex verschiedener Informationen wichtig. Daten eines Rahmenprogramms sollen über eine konfigurierbare Multiplexerfunktion gezielt gefiltert bzw. mit lokalen Informationen ergänzt werden können.
Abb. 17/56. Prinzipieller Aufbau eines ZI-PC.
1050
Programmbegleitende Dienste Im Sendeablauf eines Studios können verschiedene Ereignisse gleichzeitig auftreten und erfordern dann im ZI-PC die Festlegung einer Prioritätenregelung. Die Prioritäten einzelner ZI-Arten werden im System unveränderbar konfiguriert. Darüber hinaus muss es möglich sein, Prioritäten für aktuelle Radiotexte einzustellen. Da jedem Ereignis ein eigenständiger Radiotext zugeordnet werden kann, muss die Wichtigkeit des Ereignisses mit einer entsprechenden Priorität bewertet werden, z. B. wenn ein neues Musikstück mit Informationen zu Titel und Interpret angespielt wird und im gleichen Augenblick ein TA (Traffic announcement = Verkehrsdurchsage) -Schaltimpuls für eine Falschfahrermeldung erzeugt werden muss. Unabhängig von aktuellen Ereignissen aus dem Studio kann es erforderlich sein, zu bestimmten festgelegten Zeiten besondere Informationen zu erzeugen. Es können z. B. in einer Datenbank verschiedene Radiotexte oder Programmarten mit unterschiedlichen Sendezeiten hinterlegt werden. Hiermit lässt sich eine hohe Dynamik der ZI ohne Beteiligung des Studios erreichen. Die integrierte Zeitsteuerungsfunktion des ZI-PC kann auch dazu benutzt werden, zwischen verschiedenen Dateneingängen und Ausgängen zu wechseln. Gerade im Regionalbetrieb ist diese Möglichkeit interessant. Die Synchronität der Systemzeit des ZI-PC ist bei solchen Anwendungen Voraussetzung und wird mit einer funkgesteuerten Uhr sichergestellt. Die verschiedenen Rundfunksysteme erfordern unterschiedliche Formen der Datenausgabe. Als klassisches, serielles Protokoll für den funkhausinternen Datenaustausch sei hier das sog. Funkhaustelegramm (FHT) erwähnt, das eine Vielzahl an ZI-Informationen transportieren kann. Einen besonders großen Leistungsumfang bietet das sog. UECP-Protokoll. Alle diese Protokolle können bei Bedarf über das lokale Netzwerk oder serielle RS232- bzw. RS422Datenleitungen transportiert werden. UECP-Protokoll Das UECP (Universal Encoder Protocol)-Protokoll wurde gemeinsam von EBU (Europäische Rundfunkunion) und Industrie entwickelt, um Radiotexte, TMC-Daten, TA-Bit etc. in einheitlicher Form vom Studio zu den RDS-Codern über RS232- und UDP/IP-Schnittstelle zu übertragen. Es ist universell einsetzbar und wurde inzwischen auch für den Einsatz in anderen Rundfunksystemen erweitert. In ADR (Astra Digital Radio) und DVB-S (Digital Video Broadcasting – Satellit) wird UECP auch verwendet, um Zusatzinformationen innerhalb des MPEG-1 Layer 2-Audiodatenstroms auszusenden. Das UECP-Protokoll gliedert sich in folgende Elemente: - Mit der Zieladresse werden zentral vom Studio aus die RDS-Coder eines oder mehrerer Programme im Sendernetz angesprochen; - eine Inhaltskennung (Message Element Code) im Datenstrom gibt an, welche ZI-Arten gesendet werden; - die Zusatzinformationen werden als Multiplex in einem Datencontainer mit 255 Bytes und einem CRC-Prüfwort transportiert; - die Datensätze im Speicher des RDS-Coders werden mit der Data Set Number adressiert; - das Datenfeld Program Service Number identifiziert das Hörfunkprogramm, zu welchem die transportierten Zusatzinformationen gehören.
1051
Rundfunksysteme Funkhaustelegramm Das Funkhaustelegramm (FHT) ist ähnlich dem UECP-Protokoll geeignet, Zusatzdaten in einem einheitlichen Format innerhalb des Rundfunkbetriebs zu verteilen. Die entsprechende ARD-Empfehlung aus den 1980er Jahren verliert allerdings gegenüber dem international in vielen Produkten eingesetzten UECP-Protokoll immer mehr an Bedeutung. Das Funkhaustelegramm kann über RS232- oder UDP/IP-Schnittstelle übertragen werden und wird außerdem noch für die Einspeisung in sog. Dateneintaster bei ADR und DAB verwendet. Das Funkhaustelegramm besteht aus drei Kernelementen: - Der Datenkopf enthält eine variable Längenangabe und eine Inhaltskennung. Die Inhaltskennung beschreibt die transportierte ZI-Art, z. B. Radiotext, Programmartenkennung oder TMC. Mit der Quell- und Zieladresse können der Entstehungsort und der Zielort der Zusatzinformation identifiziert werden; - im Datenfeld werden Inhalte mit einer max. Länge von 255 Bytes übertragen; - abschließend enthält das Protokoll eine Quersumme zur Fehlererkennung. Content Management System Ein CMS (Content Management System) ergänzt die bereits vom ZI-PC gelieferten zeitkritischen Informationen um Inhalte für begleitende Dienste mit Hypertexten, Bildern und Grafiken. Das CMS ist das primäre Produktionswerkzeug für den Internetauftritt einer Rundfunkanstalt. Diese Art der Produktion erlaubt eine getrennte Behandlung der einzelnen Bestandteile: Text, Bilder und Datenstrukturen. Dazu verfügt das CMS über eine universelle Datenbank und zahlreiche auf Netzwerk basierenden Datenschnittstellen zu den angeschlossenen Redaktionssystemen des Rundfunkbetriebs. Einige Beispiele sind nachfolgend aufgeführt: - Die Sendeautomation liefert zum Start des Beitrags die dazugehörigen Informationen wie Beitragsname, Titel, Interpret, CD-Cover und weitere Metadaten an das CMS. - Das Verkehrsredaktionssystem liefert eine Beschreibung der aktuellen Verkehrslage geordnet nach Bundesländern, Städten und Straßennetzen – bei Bedarf auch codiert in den Formaten TMC oder TPEG. - Die Nachrichten-Redaktionssysteme bereiten das Weltgeschehen in verschiedene Kategorien mit unterschiedlichen Textlängen auf. So werden beispielsweise die Überschriften zu Meldungen getrennt von den Textkörpern verwaltet. Diese Art erlaubt später eine einfache Abstimmung der Textlängen für bestimmte Dienste. Ein automatisches Kürzen von Texten sollte in jedem Fall vermieden werden. - Mit Web-Kameras lassen sich aktuelle Bilder aus den Rundfunkstudios, von Veranstaltungen und zur Wetter- oder Verkehrssituation erzeugen. Im CMS werden die Medienobjekte der Quellen gespeichert. Erweiterungsprogramme, sog. Plugins, erzeugen anhand der technischen Anforderungen automatisch die entsprechenden Dienste. Beispielsweise muss sichergestellt werden, dass für den Dienst Broadcast Website bei DAB nur eine Untermenge an HTML-Befehlen sowie die gültigen Bildformate des eingesetzten Empfängerprofils verwendet werden. Diese Plugins stellen einen flexibel erweiterbaren Ansatz dar, um auf eine steigende Anzahl von neuen Diensten schnell reagieren zu können. 1052
Programmbegleitende Dienste Diashow-System Eine Diaschau ist ein Dienst, in welchem in einer definierten Reihenfolge Bilddateien, z. B. in den Formaten JPEG und PNG, auf einem Endgerät zur Anzeige gebracht werden. Ein solcher Dienst wurde bei DAB unter der Bezeichnung Slide Show spezifiziert. Ein DiaschauSystem erfordert eine Software, um einzelne Bildtafeln (Dias) zu erzeugen und deren Abfolge zu regeln. Als Eingangsschnittstellen können die Quellsysteme des CMS verwendet werden. Das Diaschau-System verfügt über eine Bearbeitungsoberfläche, mit der Platzhalter für dynamische Bild- und Textelemente auf Hintergrundbilder platziert werden können. Bei längeren Texten wird entweder die Schriftgröße automatisch angepasst oder die Texte werden umgebrochen. Die Steuerung erzeugt in bestimmter Reihenfolge abwechselnd Bildtafeln zu definierten Themen. Jeder Themengruppe muss abhängig vom Inhalt ein individueller Kompressionsfaktor für die Bilddatei zugeordnet werden, denn die daraus resultierende Dateigröße hat direkten Einfluss auf die Übertragungszeit im Datenkanal. Die JPEG- oder PNG-Dateien werden anschließend über eine Datenschnittstelle zum Dateneintaster übertragen. 17.5.3.2
Einspeisung und Übertragung bei RDS
Für die Ausstrahlung werden Informationen im RDS-Standard [EN 14819] in digitalisierter Form im RDS-Encoder zu einem kontinuierlichen Datenstrom mit einer Bruttodatenrate von 1187,5 Bit/s aufbereitet und einem 57 kHz-Hilfsträger aufmoduliert. Dieses Signal wird im UKW-Multiplexsignal an einer Stelle eingefügt, wo vorher (bis 2005) eine Kennfrequenz für Verkehrsdurchsagen unter der Bezeichnung VRF (Verkehrs-Rund-Funk) oder ARI (Autofahrer-Rundfunk-Information) eingeordnet war; aufgrund des enormen Markterfolgs von RDS ist unterdessen eine weitere Aussendung des früheren Dienstes VRF/ARI nicht mehr erforderlich. Um das ursprüngliche ARI-Signal nicht zu stören, wurde seinerzeit Zweiseitenbandmodulation mit unterdrücktem Träger eingesetzt, wobei zwischen RDS- und ARI-Träger eine feste Phasendifferenz von 90/ eingehalten wurde (Quadraturmodulation) [17.18]. Nach Abzug des Fehlerschutzes verbleibt bei RDS eine Nettodatenrate von 730 Bit/s. Diese ist in Gruppen unterteilt, die jeweils aus vier Blöcken bestehen. Bei RDS gibt es 32 verschiedene Arten von Gruppen. Einige RDS-Dienste werden in einer fest zugewiesenen Gruppe übertragen, andere können flexibel in mehreren Gruppen transportiert werden. Grundlegende Abstimm- und Suchinformationen, wie Programme Information (PI) und Verkehrsfunkkennung (TP), werden in allen Gruppen gesendet. Die Gruppenreihenfolge lässt sich individuell konfigurieren, aber die Mindestwerte der RDS-Spezifikation für die Gruppenhäufigkeit müssen eingehalten werden. Tab. 17/19 veranschaulicht die Gruppenaufteilung und die Teilkapazitäten für einzelne Dienste eines beispielhaften RDS-Programms. Dabei ist zu beachten, dass die ständig übertragene Gruppe 0A bei der Berechnung der Teilkapazitäten für weitere Dienste im RDS-Datenkanal von der Gesamtnettodatenrate abzuziehen ist. Um lokale, regionale und nationale Sendegebiete zu unterscheiden, verwendet RDS bei der Signalzuführung zum Sender eine hierarchische Adressierungslogik, die sich folgendermaßen gliedert:
1053
Rundfunksysteme - Senderstandort-Adresse (Site Address) - RDS-Encoder-Adresse - Programmkennung (Programm Service Number). Tab. 17/19. Ausgewählte Beispiele für RDS-Gruppen. RDS-Gruppe 0A 2A 6A 14A 3A 8A 11A 4A
Name Abstimm- und Schaltinformationen Radiotext Inhouse Data EON ODA TMC Differential GPS Clock Time
Teilkapazität [%] Gesamt: 100 33
Datenrate [Bit/s] Gesamt: 730 240,9
17 8 17 3 8 14 -
83,1 39,1 83,1 14,7 39,1 68,5 -
Auf diese Weise können RDS-Daten für ein oder mehrere Programme von einem oder mehreren UKW-Sendern abgestrahlt werden. Der RDS-Encoder erhält die Daten aus dem Studio im UECP-Format, entweder über serielle Schnittstellen oder LAN. Die RDS-Daten können im Speicher des Encoders in mehreren Datensätzen gesichert werden (Abb. 17/57). Für die Aussendung ist allerdings immer nur einer davon gültig. Der Datensatz beinhaltet alle an die Erfordernisse des Programms angepassten RDS-Dienste. Neben den Serviceinformationen für das Programm können über die Funktion EON (Enhanced Other Networks) auch Dienste anderer Programme signalisiert werden [17.6].
Abb. 17/57. Prinzipieller Aufbau eines RDS-Encoders.
1054
Programmbegleitende Dienste 17.5.3.3
Einspeisung und Übertragung bei DAB
Während bei RDS alle Zusatzinformationen im UKW-Multiplexsignal des zugehörigen Programms mit übertragen werden, bilden im DAB-Standard [EN 300 401] alle Programme, Datendienste und die benötigten Organisations- und Konfigurationsdaten einen gemeinsamen Datenmultiplex, auch Ensemble genannt. Der Multiplex wird als ein Signal in einem Frequenzblock ausgesendet. Die Gesamtnettodatenrate ist konfigurierbar; sie beträgt ca. 1,5 MBit/s. Der DAB-Multiplex (Abb. 17/58) teilt sich auf in den FIC (Fast Information Channel) und den MSC (Main Service Channel). Der MSC wiederum beinhaltet die einzelnen Kanäle für die Hörfunkprogramme und Datendienste, die so genannten Sub-channels.
Abb. 17/58. DAB-Multiplex und Dateneintaster.
Der DAB-Multiplex sieht dabei im Wesentlichen drei Übertragungswege für Serviceinformationen und Datendienste vor [17.7], sowie Kap.17.2: - FIC (Fast Information Channel) - PAD (Programme Associated Data Channel), jeweils im zugeordneten Audio-Sub-Channel übertragen - Datendienste im Packet- oder Stream Mode-Verfahren, in eigenen Sub-Channels übertragen Fast Information Channel Der Fast Information Channel FIC beinhaltet Serviceinformationen, wie die MCI (Multiplex Configuration Information) und den FIDC (Fast Information Data Channel) mit codierten TMC-Verkehrsinformationen (Traffic Message Channel). Die MCI transportiert Angaben zum Aufbau des gesamten Multiplex. Im Unterschied zum MSC wird der FIC zeitlich nicht 1055
Rundfunksysteme verschachtelt. Die Übertragungssicherheit wird hier durch einen höheren Fehlerschutz gewährleistet. Alle Organisationsdaten und Serviceinformationen können so im Empfänger schneller ausgewertet werden. Die Datenrate des FIC beträgt 32 kBit/s. Programme Associated Data Ein Teil der Datenkapazität des Audiokanals kann zur Übertragung von programmbegleitenden Informationen (Programme Associated Data, PAD) verwendet werden. Diese Daten werden zeitsynchron zum Hörfunkprogramm übertragen. Der PAD-Kanal besteht aus einem festen Steuerkanal (F-PAD) mit einer Datenrate von 0,7 kBit/s und einem (optional) erweiterten Transportkanal (X-PAD) mit einer Datenrate von prinzipiell 64 kBit/s. Dateninhalte des F-PAD sind u. a. - Angaben über die Größe des Transportkanals (X-PAD); - Steuerinformationen für eine angepasste Abhörsituation (Variable Dynamik = Dynamic Range Control (DRC), Sprache-/Musik-Kennung (SM)), siehe auch Kap. 18.2; - Bestellangaben und Kennzeichnung von Tonträgern; - Inhouse-Daten und Echtzeitkommandos. Dateninhalte des X-PAD sind u. a. - Radiotexte als Dynamic Label Segment; - multimediale Dateien im MOT-Protokoll; - codierte Verkehrsmeldungen im TPEG-Format. Die PAD-Daten werden zusammen mit dem Audiosignal in den MPEG-Audioencoder eingespeist. Für die Audiocodierung (z. B. mit MPEG-1 Layer-2, s. Kap.12) steht dabei eine Datenrate zur Verfügung, welche aus der am Audioencoder eingestellten Audiodatenrate abzüglich der gewählten X-PAD-Datenrate resultiert. Bei niedrigen Audiodatenraten und höheren PAD-Datenraten können sich abhängig vom Audioinhalt Qualitätseinbußen einstellen. Abhilfe schafft hier ein vernünftiges Verhältnis zwischen Audio- und Zusatzdatenrate. Datendienste im Sub-Channel Neben den Audioprogrammen lassen sich auch Kapazitäten für Datendienste im MSC reservieren. Die Vergabe dieser Datenraten erfolgt ebenso wie bei Audioprogrammen nach medienrechtlichen Vorgaben. Die beiden zur Verfügung stehenden Übertragungsverfahren sind Stream Mode, mit konstanter Datenrate, z. B. für die Übertragung von TV-Signalen mit größerer Bandbreite, und Packet Mode für die Übertragung variabel konfigurierbarer Datenpakete. Dateninhalte im Packet Mode können sein: - Multimediale Dateien im MOT-Protokoll; - codierte Verkehrsmeldungen im TPEG-Format. 17.5.3.4
DAB-Dateneintaster
Die Rundfunkanbieter und Sendernetzbetreiber speisen Zusatzinformationen und Datendienste in DAB mit Systemen von verschiedenen Herstellern ein. Nachfolgend werden grundlegende 1056
Programmbegleitende Dienste Prinzipien der in DAB zu übertragenden Dienste anhand einer konkreten Realisierung des IRT (Institut für Rundfunktechnik) erläutert, welche für die öffentlich-rechtlichen Rundfunkanstalten entwickelt wurde [17.26]. Der DAB-Dateneintaster (Abb. 17/58) übernimmt alle für die Aussendung vorgesehenen Informationen über einheitliche Schnittstellen aus dem Hörfunkstudio, erzeugt die notwendigen Übertragungsprotokolle und speist die Datenströme gemäß den bei DAB vorgegeben Sendezyklen [TR 101496] und Schnittstellen in den DAB-Multiplex ein. Der Dateneintaster unterscheidet drei Systemkomponenten: - FIC-Modul, - PAD-Modul und - Packet Mode-Modul. FIC-Modul Das FIC-Modul behandelt die dynamischen SI (Service Informationen), also Programmartenund Durchsagekennung, sowie TMC. Die SI-Daten erzeugt der ZI-PC (s. Abb. 17/56) und sendet diese als Funkhaustelegramm oder per UECP-Protokoll zum Dateneintaster. Als physikalische Schnittstelle kommen RS232 oder LAN-UDP/IP zum Einsatz. In einem Eingangspuffer des FIC-Moduls werden alle SI-Daten zwischengespeichert und gemäß ihrer Dringlichkeit sortiert. Alle wichtigen Parameter für die Zuordnung der SI-Daten zu den Hörfunkprogrammen und weitere Informationen zur Vernetzung von Inhalten werden statisch konfiguriert. Das FIC-Modul erzeugt anhand der bei DAB empfohlenen Mindestwerte für die Aussendehäufigkeit sogenannte FIGs (Fast Information Group). Einige FIGs sind im Abschnitt 17.5.4 näher beschrieben. Die FIGs werden zu Blöcken zusammengefasst und über eine serielle RS232-Schnittstelle gemäß dem STI-D-Protokoll (Service Transport Interface Data) an den DAB-Multiplexer übertragen. Das STI-Protokoll [EN 300797] wurde für die einheitliche Übertragung und Steuerung von Diensten in DAB-Netzen standardisiert. PAD-Modul Das PAD-Modul speist Datendienste, wie DLS (Dynamic Label Segment) und MOT (Multimedia Object Transfer), in die im Audiodatenstrom von MPEG-1 Layer 2 vorgesehenen Übertragungskapazitäten ein. Die MOT-Objekte werden über Datenschnittstellen eingelesen. Radiotexte, die in DLS übertragen werden, erhält der Dateneintaster im FHT- oder UECPProtokoll. Das PAD-Modul füllt die Transportdaten in den X-PAD-Rahmen und erzeugt die notwendigen Signalisierungsinformationen für F-PAD. Der PAD-Datenstrom wird gemäß einer IRT-Empfehlung (Data Interface for ISO/MPG Audio codecs and Ancillary Data Devices) über RS232-Schnittstelle in den Audioencoder eingespeist. Typische PAD-Datenraten liegen im Bereich bis zu 16 kBit/s, prinzipiell sind aber auch bis zu 64 kBit/s möglich. Packet Mode-Modul Im Packet Mode, der auch als NPAD (Non Programme Associated Data) bezeichnet wird, werden überwiegend MOT- und TPEG-Dienste übertragen. Im Packet Mode-Modul werden die Art des Dienstes, das Quellverzeichnis der Dateien sowie die Paketadresse des Datenkanals im DAB-Multiplex konfiguriert. Ferner können verschiedene Strategien zur Bildung 1057
Rundfunksysteme des Datenkarussells eingestellt werden. Bei Diensten mit mehreren Dateien kann eine feste Reihenfolge oder eine bevorzugte Übertragung einzelner Dateitypen ausgewählt werden. Anschließend werden die Daten in Gruppen organisiert. Eine Datengruppe enthält bis zu 8191 Bytes und wird über ein oder mehrere Pakete übertragen. Vorteil dieser Technik ist, dass die Wiederholung einzelner Datengruppen die Übertragungssicherheit erhöht und der Empfänger frühzeitig fehlerhafte Datengruppen anhand der CRC-Prüfbits identifizieren kann. Der Transport der Packet Mode-Daten zum DAB-Multiplexer erfolgt im STI-D-Protokoll über eine physikalische X.21-Schnittstelle. Im DAB-Multiplex werden die Dienste im Packet Mode als Vielfaches von 8 kBit/s organisiert.
17.5.4
Serviceinformationen
Als Serviceinformationen werden Umschalt- und Abstimmdienste bezeichnet, die dem Hörer den Zugriff auf Programminhalte im Empfänger vereinfachen sollen. Seit 1988 haben die öffentlich-rechtlichen Rundfunkanstalten mit RDS (Radio Data System) ein Verfahren zur unhörbaren Einfügung von Serviceinformationen im UKW-Rundfunk eingeführt. Das RDS-System erleichtert bei der in den letzten Jahren erheblich gestiegenen Zahl an UKW-Sendern das Einstellen der Empfangsgeräte auf den gewünschten Sender, besonders beim mobilen Empfang, indem RDS den eingestellten Sender mit dem Namen der Rundfunkanstalt und der Nummer der Programmkette kennzeichnet. Es enthält auch eine Verkehrsfunk- und Verkehrsdurchsagekennung. RDS bietet weiterhin Informationen über Sender, die dasselbe Programm abstrahlen; diese Information ist besonders für den mobilen Empfang im Auto nützlich, weil der Empfänger mit diesen Informationen automatisch z. B. den jeweils zuständigen bzw. optimal empfangbaren Sender mit Verkehrsdurchsagen und gleichem Programm einstellen kann. Viele dieser Funktionen stellen innerhalb der Serviceinformationen Einzeldienste dar und konnten von daher schrittweise durch Programmanbieter und Industrie eingeführt werden [17.18]. Während der Entwicklung von DAB wurde weitgehend darauf geachtet, dass solche bereits in RDS für UKW/FM eingeführten Dienste kompatibel übernommen wurden. Ein signifikanter Unterschied zwischen Serviceinformationen in RDS und DAB besteht im Transport der Daten. RDS überträgt die Dienste als Gruppen über eine oder mehrere Sendefrequenzen des Programms. DAB fasst mehrere digitale Programme zu einem Ensemble zusammen und sendet die Serviceinformationen aller im Multiplex enthaltenen Programme als FIG (Fast Information Group) im gemeinsamen FIC-Datenkanal. Serviceinformationen in RDS und DAB können entweder statischer oder dynamischer Natur sein. Statische Daten beinhalten konstante Werte, z. B. den Programmnamen oder die Programmkennung, die mit geringer Häufigkeit im Übertragungskanal gesendet werden. Dynamische Informationen signalisieren wechselnde Zustände, so dass sie während des Umschaltens häufig gesendet werden müssen. Tab.17/20 stellt Serviceinformationen in RDS und DAB gegenüber. Unterschiede im Leistungsumfang der Dienste werden in den folgenden Abschnitten behandelt.
1058
Programmbegleitende Dienste
1059
Rundfunksysteme 17.5.4.1
Programm-Identifikation
Der Programme Identification (PI)-Code bei RDS, bzw. der Service Identifier (Sid) in DAB stellen eindeutige, maschinenlesbare Signaturen für ein jedes Hörfunkprogramm dar. Beispielsweise prüft der RDS-Empfänger vor dem Umschalten auf eine stärkere Frequenz, ob die Signatur der alternativen Frequenz identisch ist zu der des eingestellten Programms. Der Code wird jedem Hörfunkprogramm eines Landes unabhängig von den verwendeten Frequenzen zentral zugeordnet. In Deutschland verwaltet das Institut für Rundfunktechnik die Codes für die öffentlich-rechtlichen Hörfunkprogramme. Der Code umfasst 16 Bit und beinhaltet neben einer Referenznummer für das Programm eine Signalisierung, in welchem Gebiet das betreffende Programm verfügbar ist. Auf diese Art können internationale, nationale, regionale und lokale Programmangebote unterschieden werden. Der PI-Code und der SId sind bei Programmäquivalenten in RDS und DAB identisch. Für Datendienste in DAB existiert ein eigener SId mit einer Länge von 32 Bit. Mit RDS wird der PI-Code im Block 1 einer jeden RDS-Gruppe übertragen. In DAB wird der SId in der Erweiterung 2 der Fast Information Group 0 (FIG 0/2) ausgesendet. 17.5.4.2
Programm Service Name
Der Programme Service Name (PS)-Code bei RDS, bzw. in DAB das Programme Service Label und das Data Service Label sind statische Textfelder, um Hörfunkprogramme und Datendienste anhand ihres Namens zu identifizieren. In RDS werden 8 Zeichen für den Namen reserviert. DAB bietet zwei Varianten: einen Kurznamen mit einer Länge bis zu 8 Zeichen und einem Langnamen mit bis zu 16 Zeichen. In der Vergangenheit wurde das PS-Feature in RDS häufig von Radiostationen genutzt, um auch längere zusammenhängende Zeichenketten für die Darbietung von Textinformationen zu übertragen. Der ursprünglich als statische Information gedachte PS-Code führte dabei (als dynamisierter Lauftext) in der Anfangsphase bei einigen RDS-Empfängern zu Problemen. Inzwischen wird von vielen Radiostationen für solche Zwecke vermehrt der Radiotext (siehe Kap. 17.5.5) verwendet. RDS überträgt den Code Programme Service Name in den Gruppen 0A und 0B. Der DABStandard sieht dafür die Erweiterung 1 in der Fast Information Group 1 (FIG 1/1) vor. Das Data Service Label für Datendienste wird in FIG 1/5 übertragen. 17.5.4.3
Programm-Typ
Die Programmartenkennung PTY kennzeichnet ganze Programme oder einzelne Beiträge nach Kategorien, wie z. B. Pop Musik, Rock Musik oder Sport. RDS definiert 32 international verabredete Kategorien mit einer Länge von jeweils 16 Zeichen und einer dazugehörigen Abkürzung mit 8 Zeichen für Empfänger mit kleineren Anzeigen. PTY wird in jeder RDSGruppe ausgesendet. Zusätzlich zu den festen Bezeichnungen kann über den Dienst “PTYName“ ein frei definierbarer Begriff mit einer Länge von 8 Zeichen ausgesendet werden. In DAB wurde PTY deutlich erweitert. Zum Basissatz von 32 Kategorien existieren weitere 32 “Coarse Codes“ (grobe Codes) und 256 “Fine Codes“ (detaillierte Codes). Darüber hinaus 1060
Programmbegleitende Dienste besteht die Möglichkeit, eigene Kennungen über die Funktion “PTY-Download“ in das Empfangsgerät zu laden. Beispiel: Sport – Fußball – Bundesliga. In DAB überträgt die Fast Information Group FIG 0/17 gleichzeitig statische und dynamische Programmartenkennungen. Eine statische Kennung ist dem gesamten Hörfunkprogramm zugeordnet, währenddessen die dynamische Kennung einzelne Beiträge klassifizieren kann. 17.5.4.4
Traffic Announcement
Dieser Dienst informiert den Hörer im Fall einer wichtigen Durchsage. Mit RDS wurde für Verkehrsdurchsagen das Feature TP/TA (Traffic Programme/Traffic Announcement) standardisiert. TP ist die dauerhafte Kennzeichnung für ein Hörfunkprogramm mit Verkehrsmeldungen und wird in der Anzeige des Radios dargestellt. Jede gesendete RDS-Gruppe enthält diese Information. Im Fall einer Verkehrsdurchsage oder einer Gefahrenmeldung (z. B. über einen Falschfahrer) wird zusätzlich die dynamische Kennzeichnung TA in den RDSGruppen 0A, 0B, 14 und 15B gesetzt. Dieses Signal veranlasst den Rundfunkempfänger, von einer anderen Audioquelle, z. B. dem CD-Spieler oder Kassettenrecorder, auf das zuletzt gehörte Programm mit einer solchen Durchsage umzuschalten. Mit EON (Enhanced Other Networks) wird bei RDS die Durchsagekennung mit mehreren Hörfunkprogrammen vernetzt. DAB bezeichnet Durchsagen als “Announcement Service“ und unterscheidet in die statische Kennung “Support“ und das dynamische Umschaltsignal “Switching“. Die dauerhafte Kennung des Durchsagentyps wird in FIG 0/18, und das Schaltsignal in FIG 0/19 übertragen. Im Gegensatz zu RDS bietet DAB – neben der Kennung für Verkehrsdurchsagen – 10 weitere Durchsagearten: Alarm, Warnung, Sport, Börse/Wirtschaft, Programmvorschau, Öffentl. Nahverkehr/Reisen, Wetter, Nachrichten/Aktuelles, Spezial/Eilmeldung, Ereignis/Service. Über die Auswahl der Durchsagen lässt sich vom Hörer ein Nutzungsprofil für Informationssendungen am Radio einstellen. Weitere Parameter erlauben die Regionalisierung von Durchsagen. Die Durchsagefunktion kann auch auf andere DAB-Ensembles (OE – Other Ensemble) erweitert werden und darüber hinaus auch auf bestimmte UKW/FM-Programme verweisen. 17.5.4.5
Alternative Frequenzliste
Der Dienst AF (Alternative Frequency List) bzw. FI (Frequency Information) ermöglicht mit Hilfe von RDS den gleich bleibend guten Empfang eines Autoradios während der Fahrt im Sendegebiet. Das Empfangsgerät wertet dazu permanent die Signalstärke des aktuellen Programms aus und schaltet – gegebenenfalls innerhalb von wenigen 100 ms – auf eine alternative Frequenz mit stärkerem Signal und gleichem PI-Code um. Die RDS-Gruppe 0A überträgt dazu Listen, geordnet nach Frequenzpaaren und bietet damit immer eine Alternative zu der im Sendegebiet verwendeten Empfangsfrequenz. Bei DAB werden alternative Frequenzen in der FIG 0/12 übertragen und beschleunigen beim Verlassen des Empfangsgebietes den Abstimmvorgang auf ein benachbartes DAB-Ensemble oder ein geeignetes UKW-Programm. Eine Umschaltung auf eine alternative Frequenz wird innerhalb des DAB-Sendernetzes nicht benötigt, da alle Sender in einem Gleichwellennetz – d. h. mit gleicher Frequenz – betrieben werden.
1061
Rundfunksysteme 17.5.4.6
Programm-Nummer
PIN (Programme Item Number) und PN (Programme Number)entsprechen dem “VPS-Signal“ (Video Programme Service) beim Fernsehen. D. h., während einer Hörfunksendung können mit Hilfe von RDS das Datum und die Startzeit des Beitrags in maschinenlesbarer Form übertragen werden. Im Verlauf der Sendung geschieht dies ca. einmal pro Minute. Bei einer Änderung des Beitrags wird für kurze Zeit dauerhaft ein neuer PIN in der RDS-Gruppe 1 bzw. bei EON in Gruppe 14A übertragen. Auf diese Art existiert für den Start einer jeden Sendung ein Triggerimpuls, der z. B. die Aufzeichnung in einem Empfangsgerät steuern kann. Im analogen Radio wurde dieser Dienst allerdings bisher wenig eingesetzt. Im digitalen Radio DAB wird dieser Steuerimpuls in der FIG 0/16 übertragen und könnte in Verbindung mit einem EPG (Electronic Programme Guide, s. Kap. 17.5.7) dafür sorgen, dass Sendungen auch bei einer Programmverschiebung richtig aufgezeichnet werden.
17.5.5
Radiotext
17.5.5.1
Radiotext in RDS
Bereits seit Jahren übertragen die Hörfunkstationen mit Radiotext Informationen zum laufenden Programm in RDS. Schon preiswerte Empfänger mit einer einfachen Textanzeige sind in der Lage, den Hörer über das gesendete Musikstück oder die aktuelle Sendung zu informieren. In der Anfangsphase waren die gesendeten Informationen meist statischer Natur. Die Ursache dafür war die fehlende Infrastruktur, um Texte im Studio zeitnah zu generieren und diese anschließend zum Senderstandort zu transportieren. Erst später entstanden in den Hörfunkbetrieben geeignete Konzepte und der Radiotext konnte inhaltlich dynamisiert werden. Mit Radiotext können bis zu 64 alphanumerische Zeichen transparent übertragen werden. In Europa wird dafür der Zeichensatz “EBU Latin“ verwendet. Jeweils vier Zeichen eines Textes werden als Segmente in den RDS-Gruppen 2A bzw. 2B transportiert. Zur Übertragung vom Studio zum RDS-Encoder wird das UECP-Protokoll (s. Kap. 17.5.3) eingesetzt. Der gerade gültige Text wird im RDS-Encoder wiederholt ausgesendet. Auf diese Weise gehen im Radio bei kurzen Störungen des Empfangssignals keine neuen Informationen verloren. Ein Umschalt-Bit im Datenstrom signalisiert dem RDS-Encoder den Beginn eines neuen Textes. Wie oft ein Radiotext auf der Studioseite aktualisiert werden kann, hängt von Textanzeige und Textspeicher des Empfangsgeräts sowie nicht zuletzt von einer für die Verkehrssicherheit verträglichen Darbietung im Fahrzeug ab. Empfangsgeräte mit nur einer Textzeile zeigen die Radiotexte als Laufschrift an. Daher empfiehlt es sich, die Abstände zwischen den Radiotexten auf diese Geräte anzupassen, so dass die Texte möglichst vollständig dargestellt werden können. 17.5.5.2
Radiotext plus
Radiotexte sind flüchtige Informationen, d. h. sie werden nur für eine gewisse Zeitdauer dargestellt und von der nächsten Meldung wieder überschrieben. Eine Verbesserung des 1062
Programmbegleitende Dienste Dienstes wäre erreicht, wenn die Inhalte, nach Themengruppen geordnet, in einem Speicher abgelegt und bei Bedarf vom Hörer erneut abgerufen werden könnten. Vor diesem Hintergrund wurde der Radiotext um die rückwärtskompatible Variante Radiotext plus (RT plus) erweitert. Mit Radiotext plus wird zusätzlich zum unverändert übertragenen Radiotext eine Steuerinformation gesendet, welche eine Klassifizierung des Inhalts sowie eine Markierung, bestehend aus einem Startzeiger und einer Längenangabe der betroffenen Zeichenkette, enthält. Ein Empfänger mit Radiotext plus filtert und speichert anhand dieser Information die Zeichenketten. Abb. 17/59 verdeutlicht das Prinzip am Beispiel einer Markierung für Titel und Interpret. Die Maßangabe (Länge) verdeutlicht die Startzeiger und Längenangaben der Inhaltsklassen bei Radiotext plus. Radiotext plus bietet 64 verschiedene Inhaltsklassen, welche größtenteils vordefiniert sind. Einige davon können aber auch vom Rundfunkveranstalter frei festgelegt werden. Mit Radiotext plus lassen sich auch Internetadressen und Telefonnummern darstellen und verlinken, so dass z. B. in einem Mobilfunktelefon mit RDS-Radio der Nutzer auf Tastendruck bequem mit den Programmmachern in Verbindung treten könnte. Die Steuerinformationen für Radiotext plus werden in RDS als ODA (Open Data Application) in der Gruppe 3 A übertragen. Die RDS-Spezifikation wurde zu diesem Zweck um eine weitere ODA-Anwendung mit einer AID (Application Identification) für Radiotext plus erweitert.
Abb.17/59. Prinzip von Radiotext plus am Beispiel der Inhaltsklassen Titel und Interpret.
Radiotext plus kann auch als Zusatzinformation innerhalb des MPEG1-Layer 2-Audiorahmens bei Hörfunkprogrammen in DVB-S ausgesendet werden. In diesem Fall wird Radiotext plus im UECP-Protokoll übertragen. 17.5.5.3
Dynamic Label Segment
In DAB wird der Radiotext als DLS (Dynamic Label Segment) bezeichnet. Im Gegensatz zu RDS kann bei DAB mit 128 Zeichen die doppelte Zeichenzahl transportiert werden. Damit eine Synchronisation zwischen Audio und Text sichergestellt ist, wird DLS in PAD (Programme Associated Data) übertragen. Ein DLS gliedert sich in 8 Segmente zu je 16 Zeichen. Die 1063
Rundfunksysteme Segmente werden auf Datengruppen des X-PAD verteilt; Steuerbits im Datenstrom signalisieren Start und Zusammengehörigkeit der Segmente. Um Texte auf den Anzeigen zu formatieren, wurden Steuerzeichen als sogenannte DLSKommandoparameter festgelegt. Der Code “0A hex“ kennzeichnet z. B. den beabsichtigten Zeilen- und Code “1F hex“ den Wortumbruch. Mit Code “0B hex“ erkennt das Endgerät Überschriften und Schlagzeilen. Die Praxis hat aber gezeigt, dass aufgrund der verschiedenen Ausbildungen der Anzeigen in den Endgeräten eine einheitliche Formatierung nicht sinnvoll ist, viel wichtiger ist die Beachtung des gültigen Zeichensatzes und einer ergonomischen Anzeigedauer. 17.5.5.4
Dynamic Label plus
DL plus bietet die gleichen Funktionalitäten wie Radiotext plus, mit einigen kleinen Unterschieden. Die Erweiterung um zusätzliche Steuerinformationen ist ebenfalls rückwärtskompatibel zu DLS. Die Markierung der Inhaltsklassen kann bei DL plus über die komplette Länger von 128 Zeichen erfolgen. Identisch mit Radiotext plus sind auch die drei Auszeichnungselemente Inhaltsklasse, Startzeiger und Länge. Die Steuerinformation wird als DLSKommandoparameter in X-PAD übertragen. Eine zusätzliche Festlegung in DL plus sortiert tabellarische Informationen, wie beispielsweise Sportergebnisse oder Börsenwerte, im Empfänger. Dazu wurde in einigen Inhaltsklassen festgelegt, dass mehr als ein vorhandenes Leerzeichen in Texten als Trennzeichen zu interpretieren ist und der erste Text vor den beiden Leerzeichen als Überbegriff zu verstehen ist. Beispiel:
Fußball__Bayern_München:_AC_Milano_2:0 Fußball__Arsenal_London:_FC_Porto_1:0
Ein weiterer Unterschied zu Radiotext plus besteht darin, dass bei DAB bis zu vier Inhaltsklassen pro Text beschrieben werden können.
17.5.6
Multimedia-Daten
Als Mitte der 1990er Jahre das Internet immer beliebter wurde, begannen auch bei DAB die Entwicklungen zu einem einheitlichen Protokoll, um Text-, Audio- und Videodateien im Rundfunk zu übertragen. Ein solches Verfahren musste sicherstellen, dass die Datendienste auf unterschiedlichen Gerätetypen von verschiedenen Herstellern nach einem gemeinsamen Standard empfangen werden konnten. In einem bidirektionalen Kommunikationsnetz mit Hin- und Rückkanal, wie Internet oder Mobilfunk, können Datenpakete, welche bei der Übertragung verloren gehen, erneut vom Empfangsgerät beim Sender angefordert werden, in einem unidirektionalen Rundfunknetz ist dies nicht möglich. Der Sender muss hier sicherstellen, dass auch in einem fahrenden Fahrzeug die Datenpakete robust vom Endgerät empfangen werden können. Bei DAB wird dies dadurch gelöst, dass die zu übertragenden Dateien in kleine Portionen segmentiert und auf Datengruppen verteilt werden. Eine Bild- oder HTML-Datei wird in viele Datengruppen 1064
Programmbegleitende Dienste aufgeteilt und mit Metadaten und Fehlerschutz versehen. Diese Datengruppen werden im Rundfunkkanal zyklisch ausgesendet. Dabei können Gruppen auch wiederholt werden, um eine höhere Übertragungssicherheit zu gewährleisten. Der Empfänger sammelt die Datengruppen in seinem Speicher und setzt sie wieder zu einer kompletten Datei zusammen. Fehlt dem Empfänger aufgrund einer Übertragungsstörung eine Datengruppe, dann wartet er auf den nächsten Übertragungszyklus und fügt später in seinem Speicher nur die fehlenden Daten hinzu. Abb.17/60 und Abb. 17/62 verdeutlichen das Prinzip dieser Übertragung. 17.5.6.1
MOT
Das MOT (Multimedia Object Transfer) - Protokoll [EN 301234] ist ein Verfahren, welches multimediale Dateien bei DAB und DRM überträgt. Neben den aus dem Internet bekannten Dateitypen, wie z. B. HTML (Hypertext Markup Language), XML (Extensible Markup Language), JPEG (Joint Picture Experts Group), PNG (Portable Network Graphic) oder MPEG (Motion Picture Experts Group) können mit dem MOT-Protokoll auch unbekannte Dateitypen signalisiert werden, z. B. für Software-Updates im Empfänger. Das MOT-Protokoll unterscheidet dabei zwischen “Header“, “Body“ und “Directory“ (siehe Abb. 17/62). Zu Beginn der Protokollstruktur steht immer der Header, der sowohl obligatorische als auch optionale Informationen beinhaltet. Wichtig für die Decodierung im Empfänger sind Transport-Id, Dateityp, Dateiname, Dateigröße und optional die Präsentationszeit, damit Dateien frühzeitig übertragen und dann zu einem definierten Zeitpunkt im Empfänger dargestellt werden können. (In der Praxis hat es sich als Vorteil erwiesen, die Präsentationszeit auf “sofort“ zu konfigurieren.) Das größte Objekt im MOT-Protokoll beinhaltet der Body, der die zu transportierende Multimediadatei enthält. Im Body können Dateien bis zur einer Größe von 255 MByte übertragen werden. Vervollständigt wird das Protokoll durch das Directory, welches ein Inhaltsverzeichnis aller zu übertragenden Dateien enthält. Die Elemente Header, Body und Directory werden vor der Aussendung segmentiert und auf die vorgesehenen Datengruppen bei DAB aufgeteilt (Abb. 17/60). Bei der Wahl der Datengruppenlänge empfiehlt sich ein Kompromiss zwischen dem Verhältnis Header zu Body einerseits, und der Übertragungssicherheit andererseits. Ein günstiger Wert aus der Erfahrung der Praxis beläuft sich auf 1024 Bytes für eine Datengruppe. Gemäß MOT-Protokoll wird bei DAB in PAD oder im Packet Mode transportiert. Bei PAD werden die Datengruppen innerhalb der MPEG-1-Audiodaten übertragen. Beim Packet Mode werden die Datengruppen auf Datenpakete verteilt und in einem eigenen Datenkanal übertragen. Der umgekehrte Weg beim Empfang von MOT-Objekten im Datendecoder wird in Abb. 17/62 veranschaulicht.
1065
Rundfunksysteme
Abb.17/60. Aufbau und Segmentierung des MOT-Protokolls.
17.5.6.2
MOT-Applikationen
Eine MOT-Applikation beschreibt die Eigenschaften des Datendienstes, die notwendigen Parameter sowie die Vorraussetzungen im Empfangsgerät. Der Decoder erkennt an der Signalisierung “FIG 0/13 User Application“ im FIC, ob eine Anwendung für ihn bestimmt ist. Aktuell sind für das MOT-Protokoll folgende Applikationen definiert: - Slide Show, - Broadcast Website, - TopNews und - EPG. Das MOT-Protokoll gestattet auch die Aussendung von proprietären Applikationen, z. B. für geschlossene Nutzergruppen, größere Fahrzeugflotten oder Fahrgastinformationssysteme. Slide Show Die MOT Slide Show (SLS) [TS 101499] definiert die Übertragung von Bilddateien in den Formaten JPEG und PNG. Ein Rundfunksender überträgt auf diese Weise Bildtafeln und informiert den Hörer beispielsweise mit CD-Tipps, Programmvorschau oder Verkehrsmeldungen. Die Bilder werden nacheinander ausgesendet und zyklisch wiederholt. Der Darstellungszeitpunkt wird vom Rundfunksender vorgegeben, die MOT-Parameter enthalten dazu einen Zeitstempel. Dieser wird in den meisten Fällen auf sofortige Darstellung konfiguriert. Gleichwohl wird der tatsächliche Präsentationszeitpunkt im Empfänger maßgeblich dadurch bestimmt, wie lange es dauert, bis die Datei übertragen ist. Dabei gilt es aus Sicht des Senders zwei wichtige Punkte zu beachten: Sollen Bildinhalte mit dem Audiosignal annähernd zeitsynchronisiert werden, z. B. bei einem CD-Cover oder Informationen zu Titel und Interpret, ist es wichtig, die Bilddatei möglichst effizient zu komprimieren, um den Versatz zwischen Bild- und Audioinhalt nicht zu groß werden zu lassen. Außerdem darf die Zeitlücke zwischen zwei Bildinhalten nicht die Übertragungszeit der Bilddatei unterschreiten, da in diesem Fall ein neues Bild gesendet werden würde, ohne dass das vorherige Bild vollständig im Empfänger gespeichert wurde. Abb. 17/61 veranschaulicht den Zusammenhang von Datenrate, Dateigrößen verschiedener MOT-Anwendungen und der daraus resultierenden Übertragungszeit. 1066
Programmbegleitende Dienste
Abb. 17/61. Übertragungszeiten von MOT-Objekten.
Der Empfänger wiederum gewährleistet anhand der MOT-Parameter, wie Transport-Id und Dateiname des Bildes, dass auch beim Einschalten des Empfängers nach Beginn der Datenübertragung die Bildinformationen sicher dargestellt werden. Nur ein Empfangsgerät mit Bildschirm ist in der Lage, die Inhalte der MOT Slide Show darzustellen. Von daher empfehlen sich Kombinationen von DAB mit PDA (Personal Digital Assistant), Navigationssystem, Mobilfunktelefon oder DMB TV-Empfänger. Broadcast Website Mit der Applikation MOT Broadcast Website (BWS) [TS 101498] können HTML- und Multimediadateien, ähnlich wie im Internet, in DAB übertragen werden. BWS ist ein lokal interaktiver Dienst, das heißt die Anwendung greift auf Dateninhalte zurück, die sich im Speicher eines DAB-Empfangsgerätes befinden, das per se nicht über einen Rückkanal verfügen muss. Im Vergleich dazu benötigt eine vollständige Interaktivität den direkten Zugriff des Empfängers auf den Datenserver über Internet oder Mobilfunk. MOT BWS baut im Speicher des Empfängers eine Verzeichnisstruktur auf, die identisch ist mit der des Sendespeichers beim Diensteanbieter (Provider). Der Nutzer startet den Dienst über eine Einstiegsseite und wählt anschließend die vernetzten Angebote nach seinen Interessen aus. Auf der Sendeseite gewährleistet die Sendesteuerung, dass wichtige Seiten, wie die Einstiegsseite oder bestimmte Themengebiete, gegenüber dem übrigen Angebot des Dienstes bevorzugt übertragen werden. Alle permanent gesendeten Dateien werden als Datenkarussell bezeichnet. Das Inhaltsverzeichnis des Datenkarussells wird im MOT-Directory beschrieben. Der Datendecoder des Empfängers erhält durch das Inhaltsverzeichnis einen zeitnahen Überblick zum Status der einzelnen Dateien des Angebots und verwaltet damit seinen Datenspeicher. Neue Dateien werden im Speicher ergänzt, veraltete Dateien werden entfernt. Abb. 17/62 veranschaulicht den Aufbau eines MOT-Datendecoders. 1067
Rundfunksysteme
Abb. 17/62. Aufbau eines MOT-Datendecoders.
Da sich Endgeräte hinsichtlich der Speichergrößen und Bildschirmauflösungen unterscheiden, definiert MOT BWS verschiedene Empfängerprofile. Das Basis-Profil [TS 101498] beschreibt ein Empfangsgerät mit den geringsten Anforderungen. Das Empfangsgerät muss über einen Bildschirm mit einer Auflösung von ¼-VGA und einen Browser für HTML Version 3.2 verfügen. Ein weiteres Profil (PC-Profil) beschreibt eine Empfängerklasse ohne Einschränkungen. Auf Basis von MOT BWS werden in Deutschland zahlreiche Dienste über DAB angeboten. Rundfunkveranstalter und Sendernetzbetreiber übertragen Untermengen ihres Internetangebots, mit Servicediensten zu Verkehr, Wetter oder Programmangeboten.
17.5.7
Electronic Programme Guide
Mit einem elektronischen Programmführer EPG wird der Zugriff auf Sendungen und Beiträge gegenüber den bereits beschriebenen Serviceinformationen noch komfortabler. Ein im selben Medium übertragener EPG bietet umfangreiche Beschreibungen zu den einzelnen Sendungen. 1068
Programmbegleitende Dienste Auf Knopfdruck erscheint in der Anzeige des Radios eine Programmvorschau über die nächsten Stunden und Tage. Die Beiträge werden darin vorgestellt und die elektronische Programmzeitung vereinfacht auch die digitale Aufzeichnung, indem die gewünschte Sendung programmiert werden kann. Im Jahr 2005 wurde in Großbritannien der EPG für DAB von der BBC und zahlreichen Privatradios eingeführt. Moderne Radiogeräte für DAB-Empfang verfügen über diese Funktionalität. Während eine elektronische Programmzeitung im Radio immer noch ein Novum darstellt, gehören Programminformationen im digitalen Fernsehen bereits seit längerem zum Alltag. Von daher ermöglicht der DAB-EPG, der auch zur Beschreibung von Fernsehinhalten in DMB vorgesehen ist, eine gemeinsame elektronische Programmzeitung für Hörfunk und Fernsehen in mobilen Kleinempfängern. Der EPG-Standard existiert in zwei Varianten: einer binären Version [TS 102 371] für die effiziente Aussendung in einem Rundfunkanal und ein XML-Schema [TS 102 818], um EPGDaten zwischen Programmveranstaltern auszutauschen. Beide Varianten beinhalten Service-, Programm- und Gruppeninformationen: Die Serviceinformationen greifen weitgehend auf die bereits in Kap. 17.5.4 beschriebenen Grundfunktionen zurück und ermöglichen die Identifizierung des DAB-Ensembles und der darin übertragenen Programme. Die Programminformationen listen die Start- und Endzeiten der einzelnen Sendeplätze des Tages und geben eine Vorschau auf die Beiträge. Der Sendeplan bildet die Grundlage für die programmierbare Aufzeichnung bestimmter Sendungen. Die Gruppeninformationen werden verwendet, wenn komplette Hörfunkserien aufgezeichnet werden sollen. Dazu reicht es aus, wenn im EPG ein Verweis auf eine Serie enthalten ist. Das Empfangsgerät würde sich dann bei jeder neuen Folge der Serie einschalten und die Sendung aufzeichnen. Für künftige Empfängergenerationen sieht der Standard vor, dass ergänzend zu Textinformationen auch grafische Logos oder Hintergrundbilder für ein einheitliches Programmmarketing geladen werden können. Ferner werden mit SMS-, Email- und Telefonfunktionen interaktive Anwendungen mit dem EPG eröffnet. Der Standard unterscheidet mit zwei Profilen verschiedene Empfängerklassen. Während das Basis-Profil Radiogeräte mit einem kleinen EPG-Datenspeicher von nur wenigen 100 kBytes beschreibt, signalisiert das sog. erweiterte Profil einen Dienst für Geräte ohne Beschränkungen. Um aktuelle Daten für elektronische Programmführer bereitzustellen, entstand in den Rundfunkanstalten der ARD ein einheitliches Datenschema für Sendeplanungsdaten bei DVB, Internet und DAB. Aus dieser Datenquelle werden die Inhalte ohne zusätzlichen Aufwand in das bei DAB verwendete binäre Format konvertiert. Der DAB-EPG sieht vor, dass für jedes Hörfunkprogramm und für jeden Tag eine eigene Datei mit Sendungsdaten erzeugt wird, deren Größe je nach inhaltlicher Ausprägung zwischen 2 und 4 kBytes beträgt. Die EPGDateien werden in DAB im MOT-Protokoll übertragen. Der Standard sieht sowohl die Übertragung im PAD- wie auch im Packet Mode-Datenkanal vor.
1069
Rundfunksysteme
17.5.8
TopNews
In den letzten Jahren erfreuen sich IPod- und MP3-Player zunehmender Beliebtheit für einen portablen Hörgenuss. Neben Musikinhalten werden vermehrt auch Hörfunkbeiträge als sog. Podcasts über das Internet auf die Minigeräte geladen und unabhängig vom Zeitpunkt der Erstaussendung angehört (siehe auch Kap.17.4). Die Medienforschung spricht dabei von der zeit- und ortssouveränen Nutzung von Rundfunkinhalten und prognostiziert ein starkes Wachstum für diese Art des Medienkonsums. Dem Prinzip des Podcasts folgt auch die Anwendung TopNews, allerdings werden hier die Audiodateien - anstatt im Internet - als Datendienst über das DAB-Rundfunksystem übertragen und im Empfangsgerät auf einer MMC (Multimedia Card)-Speicherkarte aufgezeichnet. Aus Sicht der Empfängerhersteller können für diesen Dienst bereits entwickelte Funktionen für die Wiedergabe von MP3Dateien verwendet werden. In gleicher Weise können auch andere Wiedergabegeräte, wie Mobiltelefone und Organiser, welche über einen entsprechenden Speicherkartenleser verfügen, die Audiodateien später abspielen. “TopNews“ [TS 101498] wurde als Erweiterung der existierenden Spezifikation BWS (Broadcast Website) definiert. Es verwendet das MOT-Protokoll, um die komprimierten Audiodateien in den Datenkanälen PAD- und Packet Mode auszusenden. Die MOT-Parameter signalisieren den Codierungsstandard, mit dem die Audiodatei komprimiert wurde, verweisen mit einem vom Rundfunkanbieter vorgegebener Index auf den Dienst und erzeugen im Datenspeicher des Empfangsgerätes eine ordnende Verzeichnisstruktur. Der Zugriff auf die Audiodatei erfolgt über frei definierbare Kategorien. Abb. 17/63 veranschaulicht an einem Beispiel Meldungen für die Kategorien Nachrichten und Sport. Die Inhalte können vom Nutzer dann über eine Meldungsübersicht oder eine Liste der Anbieter ausgewählt werden.
Abb. 17/63. TopNews-Verzeichnisstruktur im Empfangsgerät.
In den Metadaten der MP3-Audiodatei (sog. ID-3-Tags), die gleichen Inhaltsbeschreibungen wie in den MOT-Parametern eingebettet. Dabei gilt für ein Audioobjekt folgende Zuordnung: ID3.Artist:
Service Index
ID3.Album:
Beschreibung der Kategorie
ID3.Title:
Beschreibung des Audioinhalts
ID3.Track:
Meldungsnummer
1070
Programmbegleitende Dienste Im Gegensatz zu Bild- und HTML-Dateien erfordern Audioobjekte häufig ein deutlich größeres Speichervolumen. Größere Zugriffszeiten lassen sich verhindern, in dem lange Sendungen in eine Reihe kurzer Beiträge segmentiert werden. Beispiel: Ein Hörfunkbeitrag mit einer Dauer von einer Minute und einer MP3-Audiodatenrate von 64 kBit/s belegt bereits 500 kBytes. Entscheidend für die Nutzerfreundlichkeit des Dienstes sind eine effiziente Audiocodierung und eine ausreichende Übertragungskapazität. Aus Abb. 17/61 ist das Verhalten verschiedener MOT-Objekte bei unterschiedlichen Datenraten ersichtlich. Mit der Anwendung verbesserter Audiocodierungsverfahren, wie z. B. HE AAC+ (High Efficient Advanced Audio Coding - vgl. auch Kap.12), und zusätzlich zur Verfügung stehenden Datenkapazitäten für DAB werden die Chancen für einen solchen Dienst steigen.
17.5.9
Codierte Verkehrsinformationen
Etwa ein Viertel der Radionutzung entfällt auf das Hören im Kraftfahrzeug. Damit tragen die Radiostationen wesentlich zur Übermittlung von Verkehrsinformationen an die Autofahrer bei. Anfang der siebziger Jahre führten die öffentlich-rechtlichen Rundfunkanstalten in Deutschland hierzu die sog. Servicewellen ein. Seitdem sind gesprochene Verkehrsinformationen in den Vollprogrammen des Hörfunks nicht mehr wegzudenken. Gleichwohl empfinden die Hörer lange Verkehrsdurchsagen immer dann, wenn sie nicht selbst von den Meldungen betroffen sind, als monoton und den Hörgenuss störend. Einhergehend mit der Entwicklung von RDS wurde auch an Verfahren gearbeitet, um codierte Verkehrsinformationen unhörbar als Zusatzinformation zu übertragen. Mit TMC (Traffic Message Channel) gelang die Übertragung von ca. 360 Meldungen pro Stunde in RDS. Neben der effizienten Übertragung von Meldungen liegen in der Codierung noch weitere Vorteile: Ein Empfänger ist in der Lage, maschinenlesbare Informationen nach Fahrtroute, Fahrtrichtung und Zielort für die Ausgabe zu filtern und in der jeweiligen Landessprache des Nutzers auszugeben. Als die öffentlich-rechtlichen Rundfunkanstalten TMC im Jahre 1997 einführten, waren zunächst nur Empfänger für eine synthetische Sprachausgabe verfügbar. Der stark wachsende Markt bei Navigationssystemen führte inzwischen dazu, dass Routenführung und TMC-Decoder jetzt in ein und demselben Gerät verfügbar sind. Zahlreiche öffentliche Einrichtungen, Firmen und Institutionen verantworten die Erhebung von Verkehrsdaten. Aus Abb. 17/64 ist die Verarbeitungskette bei Verkehrsinformationen zu entnehmen. Neben der öffentlichen Hand und dem öffentlich-rechtlichen Rundfunk werden kostenlose TMC-Daten auch von ADAC und Privatradios angeboten. Unter dem Namen “TMC pro“ existiert auch ein gebührenpflichtiger Datenrundfunkdienst eines kommerziellen Anbieters in Deutschland. Auch in Digital Radio (DAB) wird TMC übertragen. Aufgrund der größeren Bandbreite des digitalen Hörfunksystems werden darin die Meldungen wesentlich robuster und schneller als in RDS übertragen. Trotz des enormen Erfolgs ist der TMC-Standard inzwischen in die Jahre gekommen und genügt häufig nicht mehr den heutigen Anforderungen. Moderne Methoden bei der Erfassung von Verkehrsdaten verwenden Sensoren und Detektoren, die die Verkehrslage immer genauer beschreiben und sogar Reisezeiten prognostizieren können. Die Planungen 1071
Rundfunksysteme für ein zukünftiges Verkehrsmanagement beziehen neben dem Straßenverkehr auch weitere Transportmittel, wie Züge, Busse, S-Bahnen und den Flugverkehr mit ein. Um diesen neuen Anforderungen gerecht zu werden, startete die EBU bereits Mitte der neunziger Jahre eine Initiative zur Entwicklung eines neuen Protokolls für Reise- und Transportinformationen, namens TPEG (Transport Protocol Experts Group).
Abb. 17/64. Übertragungskette von Verkehrsinformationen im Rundfunk.
17.5.9.1
RDS-TMC
In TMC [EN 14819] werden Meldungen gemäß dem ALERT-C-Protokoll [ENV 12313] übertragen. Dieses Protokoll beschreibt die Datenstruktur und den Transport in RDS. Die drei wesentlichen Elemente einer Meldung in TMC sind: - das Verkehrsereignis (Event Information), - die Verortungsinformation (Location Information) und - zusätzliche Serviceinformationen über das Sendernetz und den Anbieter des Dienstes. TMC-Ereignis Alle mit TMC kodierbaren Ereignisse, wie z. B. Stau, Unfall oder Baustelle werden in einer so genannten “Event-Liste“ definiert und in verschiedene Ereigniskategorien zusammengefasst. Tab. 17/21 zeigt einen Auszug der Event-Liste. Die Liste kann bis zu 2048 Einträge umfassen, von der im redaktionellen Alltag oft nur ein Bruchteil verwendet wird. Einem jeden Ereignis ist ein numerischer Code zugeordnet, der in TMC übertragen und im Empfänger anhand einer gespeicherten Liste ausgewertet wird.
1072
Programmbegleitende Dienste Tab. 17/21. Auszug aus der “Event-Liste“ für Deutschland [17.6]. Nr. … 3 4 5 6 7 …
Ereignis … Unfall Verkehrsstörung Sperrung Fahrbahnverengung Ausfahrt gesperrt …
Code … 28 14 123 19 12 …
TMC-Verortung Die Verortungsinformation beschreibt die geografische Lage des Verkehrsereignisses. Zum Zeitpunkt der Entwicklung von TMC wurden ca. 65.500 Punkte und Segmente auf Autobahnen sowie Bundes- und Staatsstraßen in einer sog. “Location-List“ festgehalten, die bei Änderungen des Straßennetzes nachgepflegt werden müssen. Die Bundesanstalt für Straßenwesen (BASt) übernimmt hoheitlich diese Aufgabe in Deutschland und veröffentlicht jährliche eine neue Version für den Gebrauch bei Polizei, Rundfunkanstalten und Herstellern von Navigationssystemen. Tab. 17/22 zeigt einen Auszug. Neben dem Code enthält die Tabelle weitere Informationen zur Verortung: der Typ beschreibt, ob es sich um ein Gebiet, einen Punkt oder ein Straßensegment handelt. Dem Eintrag folgt die Straßennummer. Handelt es sich beim Ort um einen Punkt, z. B. eine Autobahnanschlussstelle, so enthält die Liste nur den primären Namen (Name 1). Sollte aufgrund des Ereignisses ein ganzes Segment, z. B. ein Autobahnteilstück, betroffen sein, wird zusätzlich ein sekundärer Name (Name 2) verwendet. Die beiden nächsten Spalten enthalten Daten zur Vernetzung von Einträgen: Das Datum “RefA“ verweist auf das Gebiet, zu welchem die Location gehört und “RefL“ verweist vom Punkt auf den Code der Gesamtstrecke der Autobahn, im Beispiel von München nach Nürnberg. Die Einträge “Off+“ und “Off-“ beziehen sich auf den jeweils nachfolgenden und vorangegangenen Punkt der Liste. Abgeschlossen wird die Zeile durch die fortlaufende Nummer des Autobahnanschlusses. Tab. 17/22. Auszug aus der Location-Liste für Deutschland [17.6]. Off!
Exit
-
-
Code Typ Straße Name 1 Name 2 RefA … 7219 Segment A9 München Nürnberg 264
RefL 264
Off+ 7220
… 12729 12730 …
7219 7219 -
12730 12728 12731 12729 -
Punkt Punkt -
A9 A9 -
Eching Neufahrn -
-
418 418 -
69 68
1073
Rundfunksysteme Übertragung in RDS TMC wird in RDS als ODA-Anwendung (Open Data Applikation) übertragen. Die RDSGruppe 8A fasst die Ereignis- und Verortungsinformation zu einem Datenblock mit einer Länge von 37 Bit zusammen. Der Standard bezeichnet diese Daten als “TMC User Information“. Zusätzlich enthält dieser Datenblock den PI-Kode und den Namen des Anbieters sowie Abstimminformationen für den Empfänger, falls das Empfangssignal zu schwach wird und auf ein anderes Programm mit RDS-TMC umgeschaltet werden muss. Abwechselnd zur Gruppe 8A werden in der Gruppe 3A die “TMC System Information“ übertragen. Dieser Datenblock mit einer Länge von 16 Bit enthält eine Kennung für den Anbieter des Dienstes (Service Id), eine Kennzeichnung der Anwendung (Applikation Identifier) sowie einen Hinweis über die gültige Location-Liste des Landes. Die Service-Ids für TMC-Dienste der öffentlich-rechtlichen Rundfunkanstalten in Deutschland verwaltet das Institut für Rundfunktechnik. TMC wird in RDS mit einer durchschnittlichen Datenrate von 37 Bit/s ausgesendet. Damit kann eine Verkehrsmeldung pro Sekunde übertragen werden. Übertragung in DAB Die Übertragung von TMC wurde auch in DAB standardisiert. Für einen TMC-Decoder ist es daher unerheblich, ob die Daten über RDS oder DAB empfangen werden. Im Gegensatz zu RDS können aber bei DAB die Daten schneller und robuster gegen Mehrwegestörungen empfangen werden. TMC wird in DAB im FIDC (Fast Information Channel Data Channel), einem Teilkanal des FIC (Fast Information Channel) übertragen. Die Gesamtdatenrate des FIC beträgt 32 kBit/s. In der Praxis entfällt auf TMC eine Datenrate von etwa 1000 Bit/s. Der FIC gliedert alle Informationsarten in Hauptgruppen, den so genannten FIGs (Fast Information Groups) und in den dazugehörigen Erweiterungen (Extentions). Die TMC-Daten werden gemäß dieser Konvention in DAB in der FIG 5 und Erweiterung 1 (FIG 5/1) übertragen. Ein Kennzeichnungsbit im FIG-Datenstrom zeigt dabei an, ob es sich um eine “TMC User Information“ oder eine “TMC System Information“ handelt. 17.5.9.2
TPEG
Unter der Abkürzung TPEG (Transport Protocol Experts Group) verbirgt sich ein neues Protokoll für die Aussendung von Reise- und Transportinformationen über digitale Verbreitungssysteme, wie z. B. DAB, DVB und Internet. TPEG [TS 18234] ist unabhängig vom Trägersystem und unterliegt nicht den Beschränkungen wie der TMC-Dienst, welcher für einen sehr schmalen Datenkanal konzipiert wurde. Meldungen in TPEG werden auf verschiedene Weise im Empfänger präsentiert: in Form von Texten, als Symbol in einem Navigationssystem oder in synthetischer Sprache. Im Gegensatz zu TMC ist TPEG nicht nur auf den Straßenverkehr begrenzt, sondern kann sogar Daten zu Parkräumen, dem öffentlichen Personennah- und Fernverkehr, zu verkehrsrelevanten Großereignissen und zum Wetter beinhalten. Ein Nachteil von TMC ist die begrenzte Anzahl von Einträgen in der Location-Liste, so dass viele innerstädtische Meldungen fehlen. Ferner 1074
Programmbegleitende Dienste erfordert die Tabelle eine aufwendige Pflege und der jeweilige Stand der Liste muss einmal im Jahr an alle Besitzer von TMC-Geräten verteilt werden. Im Gegensatz dazu verwendet TPEG ein Verfahren, das auf den geografischen Punkten einer digitalen Karte beruht. Das gesamte Protokoll ist hierarchisch aufgebaut und fasst verschiedene Dienste zusammen. Für kommerzielle Anwendungen bietet TPEG eine eigene Verschlüsselungsebene. Der Standard existiert in zwei Varianten: eine binär codiert Form, um Daten im Rundfunkkanal zu senden, und eine XML-Struktur (Extensibel Markup Language), um Daten auf der Redaktionsseite auszutauschen. Zum Zeitpunkt der Herausgabe des Buches fanden erste Betriebsversuche in Deutschland statt. Datenstruktur Eine TPEG-Meldung besteht aus: - Statusinformationen in der Meldungsmanagement-Information, - Ereignis-Information und - Verortungs-Information (Abb. 17/65).
Abb. 17/65. Aufbau einer TPEG-Meldung.
In der Meldungsmanagement-Information sind alle Daten untergebracht, die direkt die Entstehung der Meldung betreffen. Das Datenfeld enthält u. a. den Zeitpunkt der Generierung der Meldung, die Dauer und die Dringlichkeit des Ereignisses. Darauf folgt die EreignisInformation, in welcher die Verkehrsereignisse übertragen werden. Ein Ereignis gliedert sich hierarchisch in bis zu vier verschiedene Klassen. Beispiel: Klasse 1 = Unfall, Klasse 2 = Lastwagen, Klasse 3 = schwere Güter, Klasse 4 = > 7,5 T. Ein einfacher Decoder würde nur eine der oberen Klassen auswerten, komplexere Empfänger wären in der Lage, das Ereignis detailliert aufzuschlüsseln. Alle den Straßenverkehr betreffenden Meldungen sind in der Anwendung RTM (Road Traffic Messages) zusammengefasst. Zusätzlich gibt es noch Standards für Parkrauminformationen (PKI: Parking Information) und für öffentliche Verkehrsmittel (PTI: Public Transport Information). Weitere Anwendungen sind derzeit in Arbeit, so z. B. ein neuer Dienst für eine effizientere Beschreibung von Verkehrsereignissen (TEC - TPEG Event Compact). Beispiele sind in Tab. 17/23 aufgeführt.
1075
Rundfunksysteme Tab. 17/23. Beispiele für Ereignisse der Anwendungen RTM, PKI und PTI. TPEG-Ereignis Unfall Behinderung Straßenzustand Art des Parkraums Aktueller Belegungsgrad Belegungstendenz Transportmittel Fahrpläne Serviceinformation
Beispiele Fahrzeug-, Personenunfall Fahrzeug-, Personenunfall trocken, vereist ungesicherter Platz, Parkhaus n von m belegt ansteigend, abnehmend Flugzeug, Bahn, S-Bahn Abfahrt- und Ankunftszeiten Ursache der Verspätung
TPEG-Anwendung Straßenverkehrsmeldungen
Standard RTM
Straßenverkehrsmeldungen
RTM
Straßenverkehrsmeldungen Parkrauminformationen
RTM PKI
Parkrauminformationen
PKI
Parkrauminformationen
PKI
Öffentl. Personenverkehr
PTI
Öffentl. Personenverkehr
PTI
Öffentl. Personenverkehr
PTI
TPEG-Verortung Um ein Verkehrsereignis maschinenlesbar mit einem Ort in Verbindung zu bringen, ist die strukturierte Beschreibung eines Punktes, einer Strecke oder eines Gebietes notwendig. Während bei TMC eine Liste mit fest nummerierten Punkten und Segmenten auf die Orte verweist, ist es bei TPEG eine digitale Karte. TPEG verwendet eine Verortungsmethode, welche aus mehreren Elementen besteht und sowohl für die Darstellung in digitalen Karten als auch für die Anzeige als Text geeignet ist. Abb. 17/66 veranschaulicht die Struktur der Verortungsinformation bei TPEG:
Abb. 17/66. Aufbau der TPEG-Verortungsinformation.
1076
Programmbegleitende Dienste Sprachcode:
Landessprache für alle Komponenten in TPEG;
Art des Orts:
z. B. ein Punkt, eine Strecke, ein Anschluss oder ein Gebiet;
Verkehrsmodus:
Beispiele für Verkehrsmodi: Straßenverkehr, Wasserverkehr, Schienenverkehr etc.;
WGS84:
Koordinaten (Längen- und Breitengrad) zur Beschreibung eines Punktes in einer digitalen Karte nach dem WGS84Verfahren (WGS84: World Geodetic System 1984);
Beschreibung:
zusätzliche Bezeichnungen, wie z. B. Straßennamen und Autobahnnummern;
Fahrtrichtung:
optionale Beschreibung der betroffenen Fahrtrichtung;
Zusätzliche Beschreibung:
z. B. Beschreibung eines Ortes in Textform für Endgeräte ohne digitale Karte. Beispiel: A8 Dreieck Leonberg - Kreuz Stuttgart.
Übertragung in DAB Die binären TPEG-Daten werden in einem asynchronen Rahmenprotokoll übertragen und mit einem CRC-Fehlerschutz auf den verschiedenen hierarchisch gegliederten Transportschichten gegenüber Fehlern bei der Übertragung geschützt. Die Transportschichten gruppieren alle Meldungen einer Anwendung und die verschiedenen Anwendungen des Anbieters zu einem gemeinsamen Dienst (Abb. 17/67). Die zusammengefassten Inhalte werden in einem kontinuierlichen Transportdatenstrom zum Dateneintaster bei DAB übertragen. TPEG wird als transparenter Datenstrom als PAD oder im Packet Mode mit Datenraten von 8 bis 16 kBit/s ausgesendet. Bei einer Datenrate von 8 kBit/s können ca. 7 Meldungen in einer Sekunde übertragen werden.
Abb. 17/67. TPEGMultiplex und DABÜbertragung.
1077
Rundfunksysteme
17.6
Mehrkanal-Stereofonie in Hörfunk und Fernsehen
17.6.1
Vom Mehrkanal-Kinoton zum Heimkino-Tonsystem
Der Weg zur Wiedergabe von hochwertigen digitalen Tonprogrammen im 5.1-Mehrkanalformat im Heimbereich wurde Ende der 1990er Jahre vor allem durch die DVD-Video bereitet. Im Jahr 1997 wurde der etablierte DVB-Standard nach ETSI und ETR 154 dahingehend erweitert, zusätzlich zu dem bisher vorgesehenen 5.1-Mehrkanaltonverfahren nach MPEG-2 Layer 2 optional auch 5.1-Mehrkanalton im Dolby Digital Format zu übertragen. Während der Berliner Funkausstellung 1999 war dann ProSieben die erste europäische Fernsehanstalt, die Testübertragungen in diesem Format gestaltete. Vier Jahre später war der Österreichische Rundfunk (ORF) die erste öffentlich-rechtliche Rundfunkanstalt Europas, die das traditionelle Neujahrskonzert im Fernsehen live mit 5.1-Mehrkanalton übertrug. Noch im selben Jahr folgte der Bayerische Rundfunk als erster Sender weltweit mit der Ausstrahlung von Programmen mit diskretem 5.1-Mehrkanalton ausschließlich für den Hörfunk über DVB-S im Dolby Digital-Format. Weitere ARD-Anstalten schlossen sich rasch an. Auch der Schwedische Rundfunk hat frühzeitig mit Mehrkanalsendungen experimentiert, allerdings als InternetBitstream auf der Basis des höher auflösenden DTS-Formats. Audio-Mehrkanalübertragungen haben mittlerweile einen festen Sendeplatz in vielen öffentlich-rechtlichen Rundfunkanstalten gefunden. Derzeit kann davon ausgegangen werden, dass allein in Deutschland über 1 Mio Haushalte Mehrkanalton im weit verbreiteten Dolby Digital-Format über DVB-S empfangen können. Mehrkanal-Stereofonie im Kinobereich Die Wurzeln der Mehrkanal-Stereofonie liegen zum Großteil im Kinobereich. Sehr früh arbeitete man dort mit mehreren diskreten Kanälen, um das Filmerlebnis beeindruckender zu gestalten. Der Zeichentrickfilm „Fantasia“ von Walt Disney im sog. Fantasound-Format war der erste Film, der 1940 in New York öffentlich mit Surround-Ton vorgeführt wurde. Hierzu wurden zwei Projektoren benötigt, einer für den Film incl. Monospur und einer für die vier optischen Tonspuren. Aufgrund der Komplexität und der hohen Kosten konnte sich Fantasound jedoch nicht durchsetzen. Nach 1950 wurden die ersten kommerziell erfolgreichen Mehrkanal-Tonformate für den Kinobereich entwickelt, wie das vierspurige CinemaScope (35 mm) und das sechsspurige Todd-AO-System (70 mm). Aus dieser Zeit stammt auch die Einführung des Mitten- oder Centerkanals, der den Zuschauern eine eindeutige Lokalisierung der Dialoge ermöglichte. Die Fa. Dolby Laboratories entwickelte dann Mitte der 1970er Jahre das Verfahren Dolby Stereo, aus dem später das weit verbreitete Dolby ProLogic-System hervorging. Zehn Jahre danach entstand dann das Dolby Digital-System für die digitale Aufzeichnung und Übertragung von 5.1-Tonprogrammen. [17.27, 17.28] Mehrkanal-Stereofonie im Heimbereich Im Gegensatz zum Kino beschränkten sich die Wiedergabesysteme im Heimbereich über viele Jahre hinweg auf zwei Kanäle. Schon bald nach der Etablierung der Zweikanal-Stereofonie Anfang der 1960er Jahre gab es Versuche, die räumliche Abbildung weiter zu verbessern. So entstand zunächst die Quadrofonie (Vierkanal-Stereofonie bzw. Stereo-Ambiofonie [17.16]), 1078
Mehrkanal-Stereofonie in Hörfunk und Fernsehen die teilweise bis nach 1980 angewendet wurde. Sie konnte sich aufgrund fehlender Übertragungs- und Speichermedien jedoch nie in größerem Maßstab durchsetzen, war aber ein Vorläufer des analogen Dolby Surround-Systems und somit auch Wegbereiter der heutigen digitalen Mehrkanaltonverfahren. Danach wurde das System Dolby Surround eingeführt, das speziell für den Raumklang im Heimbereich konzipiert wurde und vor allem die klangliche Umsetzung von Kinofilmen verbessern sollte. Es bietet die Möglichkeit, mittels Matrix-Codierung aus den Frontkanälen Links und Rechts ein Centersignal sowie ein Surroundsignal zu generieren, wie in Kap. 12.7 ausführlich beschrieben. Aber erst die Folgeformate der CD, nämlich DVD-Audio, SACD und insbesondere DVDVideo sorgten für eine ernstzunehmende Verbreitung von Mehrkanalaufnahmen im Consumerbereich. Durch die einfache Umsetzung des mehrkanaligen Kinotons auf DVD-Video mit Hilfe der Formate Dolby Digital und DTS erschloss sich für die Filmbranche ein sehr großer Absatzmarkt. Besonders die Codecs von Dolby erreichten aufgrund ihrer guten Kompatibilität untereinander und des erfolgreichen Einsatzes im Kinobereich eine große Popularität auf der Produktionsseite.
17.6.2
Formate für Mehrkanalton
17.6.2.1
ITU-R Surround Sound Standard
Proprietäre Systeme haben auf dem Weltmarkt nur selten eine Chance sich durchzusetzen, sofern keine allgemein gültigen Regeln zur Anwendung kommen. Die ITU-R hat in der Recommendation [BS.775-1] eine weltweite, branchenübergreifende Empfehlung für Mehrkanalton-Anwendungen dokumentiert, die Auskunft über standardisierte Kanalkonfigurationen sowie die verwendeten Lautsprecher und deren Aufstellung gibt. Die Empfehlung formuliert wichtige Voraussetzungen, um sowohl bei der Produktion als auch der Reproduktion von Mehrkanal-Audiomaterial eine möglichst hohe Qualität, Kompatibilität und Vergleichbarkeit zu gewährleisten. Als besten Kompromiss zwischen Materialaufwand und Wiedergabequalität hat man sich hier auf das sog. 3/2-Format geeinigt, das die Frontsignale Left / Right / Center und die Surroundsignale Left-Surround und Right-Surround überträgt. Um die Wirkung von akustischen Spezialeffekten zu verstärken, kann das 3/2 - Basis-Format zu einer 3/2/1-Konfiguration (sog. 5.1-Format) erweitert werden. Der „/1“ oder „.1“-Kanal ist hier als optionale Ergänzung für tieffrequente Effekte vorgesehen, die jedoch vorzugsweise nur im Kinobereich genutzt werden. Dieses LFE-Signal (Low Frequency Effects) hat typischerweise eine Bandbreite unterhalb 80 bis 120 Hz. Die ITU-R Empfehlung sieht vor, dass bei Wegfall dieses Kanals kein Anteil des künstlerischen oder musikalischen Inhalts verloren gehen darf. Es ist also kein Subwoofersignal im herkömmlichen Sinne, das die tieffrequenten Anteile als diskretes Audiosignal beinhaltet. Das LFE-Signal wird in den Decodern deshalb im Downmix nicht berücksichtigt. Daraus folgt, dass bei der Erstellung von Mehrkanalaufnahmen der Bassbereich nicht ausschließlich durch den LFE-Kanal versorgt werden darf, sondern alle anderen Kanäle das volle Frequenzspektrum enthalten müssen. Der Wiedergabepegel des LFE-Signals liegt dabei typischerweise um ca. 10 dB höher als der Pegel der übrigen Einzelkanäle, was aber keinesfalls durch 1079
Rundfunksysteme Erhöhung des Aufzeichnungspegels, sondern nur durch eine entsprechende Pegelerhöhung im Wiedergabekanal ausgeglichen werden darf, siehe auch Kap. 5.4. 17.6.2.2
Weitere Mehrkanalton-Formate
In Ergänzung zu der Basis-Konfiguration nach [BS.775-1] werden sukzessive Erweiterungsvorschläge veröffentlicht, um eine noch bessere Einbeziehung des Hörers in das räumliche Hörereignis und/oder eine stabilere Lokalisation zu erreichen, wie z. B. die Formate - 6.1 „Extended Surround“; dieses erweitert das 5.1-Format um einen zusätzlichen ”BackSurround“-Lautsprecher, der symmetrisch zum vorderen Center-Kanal eingesetzt wird. Da sich bei dieser Art der Surround-Erweiterung jedoch psychoakustische Probleme ergeben können, wie die mögliche Fehlortung von Signalen, die vom Back-Surround wiedergegeben, aber vorne geortet werden, wurde dieses Format zum 7.1-Format ausgebaut. - 7.1-Format; hier wird das 5.1-Format um zwei zusätzliche Surround-Lautsprecher erweitert, um eine größere Umhüllung im rückwärtigen Bereich zu erzielen. Dabei wird, je nach Kanalverteilung, zwischen zwei Hauptvarianten unterschieden: - Das 3/4/1-Format fügt dem 5.1-Standard durch die Erweiterung um zwei Surroundkanäle zwei Back-Surround Lautsprecher hinzu (also ein sog. 7.1-Format). Die beiden seitlichen Surround-Kanäle sind um einen Winkel von 60/ zum Center-Lautsprecher versetzt, die hinteren jeweils um 150/. Angewendet wird das Format im Heimbereich bisher nur bei den Upmix-Verfahren ProLogic IIx von Dolby und Logic7 von Lexicon. Dabei können Zweikanal-Stereo und 5.1-Quellen auf 7.1 hochgerechnet und wiedergegeben werden. - Das 5/2/1-Format ist ein reines Kinoformat, bei dem durch den Einsatz von zwei zusätzlichen Frontkanälen die Lokalisation der Dialoge auf der Leinwand verbessert wird. Die beiden Surround-Kanäle werden meist gleichmäßig auf eine ganze Reihe von seitlichen bzw. hinteren Lautsprechern verteilt. - Das 22.2-Format stellt das derzeitige Maximum der verwendeten Lautsprecheranzahl dar und wurde von der japanischen Rundfunkgesellschaft NHK für Ultra High Definition Video (UHDV) entwickelt. Dabei wird der Wiedergaberaum mit neun Lautsprechern von oben, zehn seitlichen Lautsprechern auf Ohrhöhe, drei Lautsprechern von unten und zwei Tieftonstrahlern beschallt. Dieses Format wurde entwickelt, um einen horizontalen Betrachtungswinkel von 100/ zu realisieren. Während bei HDTV mit einem Betrachtungswinkel von 30/ gearbeitet wird, entsteht bei UHDV beim Zuschauer das Gefühl, sich mitten im Geschehen zu befinden. Ein UHDV-Bild hat die 8-fache Auflösung eines HDTV-Bildes und ist somit viermal so hoch und viermal so breit wie ein reguläres HDTV-Bild. Der Drang nach einer immer höheren Vervollkommnung der akustischen Wirkung ist durchaus verständlich. Es entsteht dann aber die Gefahr, den bewusst als bestmöglichen Kompromiss etablierten Basisstandard aufzuweichen und dabei nicht nur den Konsumenten, sondern auch die produzierende Industrie zu verunsichern. Letztlich wird dadurch nicht nur der Markt provoziert, sondern auch die Qualität und Kompatibilität der mit hohem Aufwand erstellten Mehrkanal-Produktionen in Frage gestellt.
1080
Mehrkanal-Stereofonie in Hörfunk und Fernsehen
17.6.3
Postproduktion und Distribution von Mehrkanalton im Fernsehen
Bei der originären Produktion von Mehrkanalton liegt das digitale Tonsignal typischerweise im linearen PCM-Format vor. Die endgültige 5.1-Mischung, bestehend aus den vier AESPaaren L/R, C/LFE, LS/RS und optional Lo/Ro oder Lt/Rt, wird für die weitere Verteilung und/oder Aufzeichnung im Studiobereich anschließend mit dem Dolby E-Encoder codiert. Der Vorteil dieses Codier-Formates liegt einerseits in der Nutzung der bereits für Stereo-Signale verfügbaren Infrastruktur, andererseits in der leichteren Kaskadierbarkeit sowie der zeitsynchronen Verarbeitungsfähigkeit in Verbindung mit Video-Signalen, wie in den folgenden Abschnitten dargestellt wird. Vor dem Satelliten-Uplink zur Programmverteilung muss das Dolby E-Signal wieder decodiert und mit dem Dolby Digital-Encoder in das Dolby Digital-Heimformat transcodiert werden, da Dolby E nicht für die Ausstrahlung und den Consumer-Empfang konzipiert ist. Abb. 17/68 zeigt das prinzipielle Schema einer 5.1-Mehrkanaltonübertragung von der Quelle, d. h. der Produktion, bis hin zum Hörer.
Abb. 17/68. Prinzip einer 5.1- bzw. 5.0-Mehrkanalübertragung.
17.6.3.1
Dolby E-Format
Das Codierformat Dolby E wurde speziell für die professionelle Produktions- und Distributionsumgebung der Rundfunkanstalten entwickelt. Der strukturelle Aufbau eines Dolby EFrames ist in Kap. 12.4.6.3 näher beschrieben. Das Format ist in den verschiedenen Arbeitsschritten der Postproduktion – also vor der eigentlichen Programmausstrahlung – das geeignete Verfahren für die Verteilung von Mehrkanalton im gesamten Studiobereich, 1081
Rundfunksysteme insbesondere im Zusammenhang mit Video. Dolby E soll den Endverbraucher nicht erreichen, deshalb gibt es auch keine Consumer-Decoder. Ein Dolby E-Bitstrom kann bis zu acht diskrete Tonkanäle beinhalten, einschließlich individueller Metadaten und dem Timecode für jedes der Tonprogramme. Diese acht Kanäle können in einer bestehenden Infrastruktur für digitale Stereosignale z. B. über einen AES3-Kanal verteilt oder auf zwei Tonspuren eines digitalen Videorecorders aufgezeichnet werden. Das Verfahren ist systemtechnisch voll kompatibel mit der üblichen 24 Bit / 48 kHz-Infrastruktur eines Rundfunkbetriebs, denn für den täglichen Schnittbetrieb ist es notwendig, dass Ton und Bild passend zueinander geschnitten werden können, d. h. jeweils genau nach der Dauer eines Videoframes. Bei vielen anderen Audio-Codecs ist diese für die reibungslose Nachbearbeitung wichtige Voraussetzung nicht gegeben. Teilweise können dort synchrone Schnitte erst nach mehr als 30 Sekunden durchgeführt werden (siehe Tab.17/24). Für einen differenzierten Musikschnitt beispielsweise ist dies völlig inakzeptabel. Tab. 17/24. Zeitdauer des gleichzeitigen Beginns eines Videoframe mit einem Audioframe für rundfunkübliche Audiocodierverfahren [17.28]. Codec PCM Dolby AC-3 MPEG-1 Layer 1/2/3 MPEG-2 AAC
Syncdauer PAL / 25 Hz 1 frame 0,040 s 4 frames 0,160 s 3 frames 0,120 s 8 frames 0,320 s
Syncdauer NTSC / 27,97 Hz 5 frames 0,167 s 960 frames 32,032 s 720 frames 24,024 s 640 frames 21,355 s
Eine der wichtigsten Eigenschaften von Dolby E ist die native Unterstützung von Metadaten. Metadaten werden z. B. zur Steuerung einiger Wiedergabeparameter und zum Setzen von „Information-Tags“ für die Weiterverarbeitung inner- und außerhalb eines Rundfunkhauses eingesetzt. Wichtige Datenfelder betreffen u. a. auch die Beeinflussung des Dynamikumfangs, des Gesamtpegels und des Pegels einzelner Kanäle, aber auch die Kanalkonfiguration, das Downmix-Verhalten, die Videoframerate und die Synchronisation. Vor allem das Zusammenspiel von Metadaten mit Dolby Digital (AC-3) ist erwähnenswert, da diese Zusatzinformationen mit wenig Aufwand von Dolby E nach Dolby Digital übergeben und von den meisten Consumer-Decodern ausgewertet werden können. Tab. 17/25 zeigt die Konfigurationsmöglichkeiten von Dolby E [17.28]. Tab. 17/25. Modi und Parameter eines Dolby E - Encoders. Channel Mode
Bitrate [MBit/s] Mono bis 5.1 + 2.0 1,536 bis 2,304
1082
Abtastrate [kHz] 48
Bittiefe [Bit] 16; 20; 24
Framerate [fps] 30; 29.97; 25; 24; 23.98
Mehrkanal-Stereofonie in Hörfunk und Fernsehen Dolby E kann, im Gegensatz zu Dolby Digital, bis zu zehn Kaskadierstufen, d. h. eine mehrfache En- und Decodierung verkraften, ohne dass wahrnehmbare Artefakte auftreten. Darüber hinaus ist durch die Einbindung des SMPTE-Zeitcodes und die Rahmenstruktur von Dolby E sichergestellt, dass Audio und Video über die komplette Postproduktion und Verteilung ständig synchron bleiben. Dolby E in der Anwendung Für einen funktionierenden Dolby E-Betrieb muss sichergestellt sein, dass das Signal auf der gesamten Übertragungsstrecke nicht durch irgendwelche Audiogeräte in seiner Struktur beeinflusst wird, d. h. es muss eine transparente Übertragung vorliegen. Die Fehlerverschleierung der PCM-Spuren von VCRs muss beispielsweise abgeschaltet werden, da eine solche Manipulation auf eine möglichst perfekte Unhörbarkeit der Fehler im PCM-Signal hin optimiert ist, was für ein Dolby E-Signal komplett unbrauchbar wäre. Andererseits kann ein System zur Fehlerkorrektur im Signalweg durchaus empfehlenswert sein, da vagabundierende Bitfehler einen Dolby E-Rahmen zerstören können. Auftretende Bitfehler im Dolby E-Datenstrom müssen jedoch nicht unbedingt zu hörbaren oder störenden Fehlern im decodierten Signal führen, da die Hörbarkeit der Fehler sehr stark vom Audiosignal und den Bits des Dolby E-Datenstroms abhängen, die bei der Speicherung auf Band oder bei der Übertragung gestört wurden. Infrastruktur für Distribution und Speicherung Innerhalb des digitalen Produktionsprozesses werden folgende Grundanforderungen an eine Dolby E-konforme Infrastruktur gestellt: - Die AES3-Infrastruktur muss für 20 Bit Wortbreite und 48 kHz Abtastrate Bit-transparent sein. D. h., es dürfen sich innerhalb dieser Infrastruktur keine Abtastratenwandler, keine plesiochronen Wandler sowie keine Frame-Synchronizer befinden. Bei einem Embedder bzw. Deembedder muss die Möglichkeit bestehen, eventuell vorhandene Abtastratenwandler auszuschalten. - Pegelmessgeräte zeigen für Dolby E-Signale immer 0 dBFs an. Im Gegensatz zum PCMTon dürfen bei einem Dolby E-Signal jedoch auf keinen Fall Pegeländerungen vorgenommen werden. - Audioprozessoren, wie z. B. Audio-DSPs, Kompander, Limiter etc. dürfen innerhalb einer mit Dolby E betriebenen Audiostrecke nicht implementiert sein. - Die digitalen Stereo-Tonspuren der verwendeten Videorecorder dürfen keine unkorrigierten Bitfehler aufweisen, da Dolby E nicht fehlerresistent ist (kein zusätzlich eingebauter Fehlerschutz). - Das 5.1-Tonsignal muss sowohl im encodierten als auch im decodierten Zustand synchron zum Bild und zum Stereo-Ton sein. Dolby E fügt beim Encodieren und Decodieren jeweils einen Versatz von genau einem Videoframe hinzu. Das bedeutet, dass nach jeder Dolby ECodierung oder -Decodierung das Bild gegenüber dem Stereo-Ton um ein Frame entsprechend 40 ms verzögert werden muss.
1083
Rundfunksysteme 17.6.3.2
apt-X-Format
Das apt-X-Format ist ein von Audio Processing Technology (apt) entwickelter ADPCMAlgorithmus, der die Daten mittels Sample-Analyse und -Vorhersage reduziert (siehe auch Kap. 12.4.8). Dabei wird das Signal zunächst in vier Subbänder aufgeteilt und dann je Subband die Vorhersage zum nächsten Samplewert getroffen. apt-x hat in der BroadcastingBranche neben Dolby E bei Distribution und Contribution große Verbreitung gefunden. Das ursprünglich auf einer Wortlänge von 16 Bit beruhende apt-X wurde den wachsenden Anforderungen des Rundfunkbetriebs mit Mehrkanalübertragung und neuen digitalen Standards angepasst und zum ENHANCED apt-X-Codec weiterentwickelt. Dieser Codec bietet, verglichen mit dem konventionellen apt-X-Verfahren, u. a. einen um 20 bis 25 dB höheren Dynamikumfang bis zu 110 dB und unterstützt die in Tab. 17/26 angegebenen Konfigurationen. Tab. 17/26. ENHANCED apt-X Encoder-Modi und -Parameter. Channel Mode Mono; Stereo
Bitrate [kBit/s] 64 bis 576
Abtastrate [kHz] 8; 16; 24; 32; 44.1; 48
Bittiefe [Bit] 16; 20; 24
Die Besonderheiten von ENHANCED apt-X sind die äußerst niedrigen Latenzzeiten von etwa 1,9 ms bei fs = 48 kHz und die geringe Fehleranfälligkeit aufgrund sehr schneller Synchronisation. Der Codec ist als Hardware- und Software-Implementation erhältlich und ebenso wie Dolby E auf Kaskadierstabilität hin optimiert. Üblicherweise erlaubt der ENHANCED apt-XCodec eine transparente Bitraten-Komprimierung von 4:1. Ebenso wie die meisten anderen Broadcasting-Codecs bietet auch apt-X die Möglichkeit, dem Audiodatenstrom Zusatzdaten mitzugeben. Da ein einzelner apt-X-Coder für maximal zwei Kanäle nutzbar ist, müssen für Mehrkanalanwendungen mehrere Codecs verkoppelt und synchronisiert werden. Um dies möglichst problemfrei zu realisieren, existieren spezielle Hardware-Implementationen dieses Codecs für den Einsatz mit Mehrkanalton-Programmen, die den digitalen und analogen Datenaustausch über Schnittstellen wie T1, E1, X.21, ISDN, Ethernet data oder AES/EBU-3 erlauben. Dabei ist zu erwähnen, dass ein paralleler Austausch von Audiomaterial und anderen Daten über die E1- oder T1-Schnittstelle möglich ist und somit weitere Strukturen zum Datenaustausch überflüssig sind, siehe hierzu auch Kap. 16.2.4 sowie [17.29].
17.6.4
Standardisierte Kanalbelegungen für Mehrkanalton
17.6.4.1
Aufzeichnung von 5.1-Mehrkanalton nach EBU/ITU-R
Die beiden Empfehlungen von EBU [R91] und ITU-R [BR.1384] legen die Kanalbelegung für 8-Kanal-Audiorecorder für AES3 oder TDIF fest. In Tab. 17/27 sind die in diesen Empfehlungen festgelegten Kanalzuordnungen aufgeführt.
1084
Mehrkanal-Stereofonie in Hörfunk und Fernsehen Tab. 17/27. Kanalzuordnung nach EBU [R91] und ITU-R [BR.1384]. Spur Spur 1/2 Spur 3/4 Spur 5/6 Spur 7/8
Belegung Links (L), Rechts (R) Center (C), Low Frequency Effect (LFE) Links Surround (LS), Rechts Surround (RS) Default: Stereo Programm, d. h. Stereo-Downmix (Lo/Ro) Alternativ: Back Surround L (BSL), Back Surround R (BSR)
AES3 Paar A AES3 Paar B AES3 Paar C AES3 Paar D AES3 Paar D
Allerdings wurde im Bereich des öffentlich-rechtlichen Rundfunks in Deutschland darüber diskutiert, die Kanalbelegung dahingehend zu ändern, dass die Kompatibilität mit bestehenden Studioverkabelungen und dem Stereoprogramm bestehen bleibt. Tab. 17/28 zeigt diese modifizierte Kanalzuweisung, die für den Betrieb einer Video-MAZ empfohlen wird. Tab. 17/28. Kanalzuordnung für Video-MAZ gem. Fernsehproduktionsrichtlinie der öffentl.rechtlichen Rundfunkanstalten in Deutschland. Spur Spur 1/2 Spur 3/4 Spur 5/6 Spur 7/8 17.6.4.2
Belegung Stereo Programm, d. h. Stereo-Downmix (Lo/Ro) Front Links (L), Front Rechts (R) Center (C), Low Frequency Effect (LFE) Links Surround (LS), Rechts Surround (RS)
AES3 AES3 AES3 AES3
Paar A Paar B Paar C Paar D
Aufzeichnung von 5.1-Mehrkanalton nach SMPTE
Der SMPTE Standard 320M legt mit den beiden Standard-Zuordnungen (Assignments) A und B fest, wie die einzelnen Kanäle eines 5.1-Mehrkanaltonsignals auf acht Tonspuren eines digitalen Rekorders verteilt werden sollen. Hierbei herrscht volle Übereinstimmung zwischen der Zuordnung A (Assignment A) und den beiden o. g. Empfehlungen R-91 und BR.1384. Tab. 17/29 zeigt zwei unterschiedliche Spurzuweisungen A und B, die sich nur in den Spuren 7 und 8 unterscheiden, d. h. nur in diesen beiden Spuren besteht eine gewisse Flexibilität. Die Spuren 1 bis 6 müssen mit den entsprechenden Tonkanälen belegt oder, sofern sie ungenutzt bleiben, mit „u“ als unbenutzt gekennzeichnet werden. Im Fall „Assignment A“ müssen die Spuren 7 und 8 das zweikanalige Stereoprogramm enthalten, während im Fall „Assignment B“ diese Spuren beliebig belegt werden können.
1085
Rundfunksysteme Tab. 17/29. Kanalzuordnung nach Standard [SMPTE 320M] für 5.1-Mehrkanaltonsignale auf 8-Spur Recordern. Spur 1 2 3 4 5 6 7 8
Standard Belegung A L R C LFE LS1 RS1 Lt Lo oder Rt Ro
Standard Belegung B L R C LFE LS1 RS1 F2 F2
1)
Im Fall eines Programms mit einem monofonen Surroundkanal kann der Mono-Surround (MS) mit einem im Vergleich zu den beiden Frontkanälen relativen Pegel von – 3 dB auf beide Spuren 5 und 6 gelegt werden.
2)
In der Zuordnungstabelle B können die Spuren 7 und 8 frei belegt werden.
17.6.4.3
Austausch-, Zuführungs- und Verteilleitungen in ARD und ZDF
Die Möglichkeiten der Belegung der Tonkanäle beim Austausch, bei der Verteilung und bei der Zuführung für das ARD-Programm zur zentralen Sendeabwicklung (ZSAW) sind in Tab. 17/30 aufgeführt. Tab. 17/30. Zuführung und Verteilung des Tonsignals im ARD Programm. Möglichkeit 1 Kanal 1 Kanal 2 Kanal 3 Kanal 4
Möglichkeit 2
Stereo/ Dolby Surround
Stereo/ Dolby Surround
IT
Dolby E *) opt. IT in Kanal 7/8
Möglichkeit 3
Möglichkeit 4
Mono
Mono
Audiodescription/ Originalton
Audiodescription/ Originalton
Stereo/ Dolby Surround
Dolby E *) opt. Stereo in Kanal 7/8
*) wenn Dolby E-Kanal 7/8 belegt: 20 Bit - codiert, MAZ-Aufzeichnung nicht mit 16 Bit! Neben dem Stereoton kann Dolby E entweder mit Mehrkanalton oder optional auch mit International Tone (IT) auf Kanal 7/8 des Dolby E-Signals belegt werden. Darüber hinaus kann aber auch auf dem zweitem AES/EBU-Weg nur IT als PCM-Ton mitgeführt werden. Der Dolby E-Decoder der zentralen Sendeabwicklung in Frankfurt kann derart konfiguriert werden, dass zum Playout-Center und zu den Rundfunkanstalten immer ein Dolby E-Datenstrom auf dem zweitem AES/EBU-Weg abgegeben wird, wobei automatisch entweder der Stereoton auf den Dolby E-Kanälen 1/2 oder der Mehrkanalton auf den Dolby E-Kanälen 1-6 und der zweikanalige IT auf den Dolby E-Kanälen 7/8 liegen. Somit können die Rundfunkanstalten auf dem zweitem AES/EBU-Weg auch weiterhin ein Stereo-PCM-Signal zuführen oder, falls gewünscht, ein Dolby E-Signal. Auf der von der zentralen Sendeabwicklung abgehenden Verteilleitung ist jedoch immer ein Dolby E-Signal mit IT auf den beiden Kanälen 7/8 geroutet, sofern vorhanden. 1086
Mehrkanal-Stereofonie in Hörfunk und Fernsehen 17.6.4.4
DVB-Zuführungsleitung für die Dritten Programme der ARD
Im Falle der Dritten Programme wird von der produzierenden Rundfunkanstalt für die DVBZuführung eines Mehrkanaltonprogramms nicht das Dolby E-Signal, sondern das schon für die Ausstrahlung über Satellit endgültig codierte Dolby Digital-Signal angeliefert. Die Möglichkeiten der Belegung der Tonkanäle bei der Zuführung der Dritten Programme zum Playout-Center sind in Tab. 17/31 aufgezeigt. Tab. 17/31. DVB-Zuführung der Tonsignale bei den Dritten Programmen. Möglichkeit 1 Kanal 1 Kanal 2
Stereo
Kanal 3 Kanal 4 Kanal 5 Kanal 6
Stereo Dolby Digital
Rundfunkanstalt → Playout-Center Möglichkeit 2 Möglichkeit 3 Mono Stereo Audiodescription/ Originalton Mono Mono Audiodescription/ Audiodescription/ Originalton Originalton Dolby Digital
Dolby Digital
Hierbei gilt, dass für die Verbreitung Kanal 1/2 für DVB-S und Kanal 3/4 für DVB-T vorgesehen ist: - Möglichkeit 1: Stereosendungen, VPS Stereo. - Möglichkeit 2: Sendungen mit Originalton (Fremdsprache) ohne Lizenz, VPS 2-Kanal sowie für Rundfunkanstalten, die nicht zwischen Zweikanalton mit und ohne Lizenz unterscheiden können. - Möglichkeit 3: Sendungen mit lizenziertem Zweikanalton oder Audiodescription, VPS 2Kanal. 17.6.4.5
MAZ-Spurbelegung für den Programmaustausch
Die verschiedenen Tonsignal-Möglichkeiten, wie z. B. Stereo, Mono, Mehrkanalton, Audio Description/Zweikanalton sowie IT auf einer 4-Spur-MAZ bzw. 8-Spur-MAZ aufzuzeichnen zu können, sind in Tab. 17/32 dargestellt. Dabei ist zu beachten, dass die Aufzeichnung von Dolby E auf einer 4-Spur-MAZ immer auf Spur 3/4, bei 8-Spur-MAZ immer auf Spur 7/8 zwingend erforderlich ist. Wie bereits erwähnt, können im Dolby E-Datenstrom nur 6 Kanäle codiert werden, wenn lediglich 16 Bit des AES/EBU Signals verwendet werden können. Dies trifft z. B. für die Bandformate DVC-Pro und IMX zu. Hingegen kann eine 4-kanalige MAZ, die mindestens 20 Bit zur Verfügung stellt, wie z. B. Digibeta, HD-CAM, HD-CAM SR, etc., auch Dolby E mit acht Kanälen aufzeichnen.
1087
Rundfunksysteme Tab. 17/32. MAZ-Spurbelegung beim Programmaustausch.
Möglichkeit 1 Spur 1 Spur 2 Spur 3 Spur 4
4-Spur MAZ Möglichkeit 2 Möglichkeit 3
Stereo/ Dolby Surround
Stereo/ Dolby Surround
Mono Audiodescription/ Originalton
IT
Dolby E mit opt. IT in Kanal 7/8 1)
Stereo/ Dolby Surround
Möglichkeit 4 Mono Audiodescription/ Originalton Dolby E mit Stereo in Kanal 7/8 1)
8-Spur MAZ Spur 1 Spur 2 Spur 3 Spur 4
Möglichkeit 1
Möglichkeit 2
Stereo/ Dolby Surround
Stereo/ Dolby Surround
IT
IT
Spur 5 Spur 6 Spur 7
Dolby E
Spur 8
Möglichkeit 3 Mono Audiodescription/ Originalton
Möglichkeit 4 2) Stereo/ Dolby Surround
IT
L/R (Mehrkanal)
Stereo/ Dolby Surround
C+LFE
Dolby E
LS+RS
1)
wenn in Dolby E-Kanal Spur 7/8 belegt: 20 Bit - codiert, MAZ-Aufzeichnung kann nicht mit 16 Bit erfolgen!
2)
nur für Produktion
17.6.5
Kontrolle und Überwachung von Mehrkanal-Tonprogrammen beim Rundfunk
Wie im Produktionsbetrieb üblich, ist das sachgerechte Überwachen des Mehrkanaltonsignals für jede Audioproduktion von wesentlicher Bedeutung. Hierfür stehen folgende Tools zur Verfügung: - Dolby E- bzw. Dolby Digital-Decoder. - Dolby Bitstrom-Analysatoren und Lautheitsmesser. - Aussteuerungsmesser für Mehrkanal-Audio sowie Goniometer für die Visualisierung technischer Parameter von 5.1-Mehrkanalton, wie sie u. a. in Kap. 18.6. ausführlich beschrieben sind. - Standard-Lautsprecheranordnung nach ITU-R für Mehrkanalton (Kap. 5.4.1.1) - Test- und Einmess-DVD des Surround Sound Forums (SSF) [17.30]. Die standardisierte kreisförmige Anordnung der Lautsprecher gemäß ITU-R [BS.775-1] kann gelegentlich in technischen Betriebsräumen, wie beispielsweise in einem Schaltraum, an 1088
Mehrkanal-Stereofonie in Hörfunk und Fernsehen einem temporären Produktionsort oder in einem Ü-Wagen oft schwierig zu realisieren sein. Nicht zuletzt aus diesem Grund gelten deshalb für die Surround-Lautsprecher relativ große Toleranzen in Bezug auf Richtung und Entfernung. Bei Abweichungen von der Standardaufstellung lassen sich Entfernungsunterschiede beispielsweise für Center- und Surround-Lautsprecher mit Hilfe von eingefügten Verzögerungen (Delay) in gewissen Grenzen kompensieren (siehe hierzu auch Abb. 5/6 in Kap. 5.4.1.1). Eine praktische Hilfe für die Inbetriebnahme einer Mehrkanal-Abhöranlage bietet die erwähnte Test- und Einmess-DVD des Surround Sound Forums (SSF-DVD), einer interdisziplinären Arbeitsgemeinschaft von Experten aus verschiedenen Ländern. Diese DVD enthält neben Testsignalen für das Video-Bild insbesondere Mess- und Testsignale zur Einstellung von Wiedergabeanlagen für diskreten 5.1 Surround Sound und ermöglicht u. a. -
Kanal-Identifikation, Frequenzgangkontrolle, Pegelkontrolle der Kanäle einschl. LFE, Prüfung der Phasenrichtigkeit, Pegelanpassung zwischen Subwoofer und Stereo-Lautsprechern.
Virtueller 5.1-Abhörraum Neben dem erwähnten Laufzeitausgleich bei Mehrkanal-Wiedergabeanlagen kann bei ungünstigen räumlichen Bedingungen anstelle des 5.1-Lautsprecher-Monitorings auch das Verfahren nach dem sogenannte „Binaural Room Scanning“ (BRS) angewendet werden, wie es in Kap. 18.6.3 erläutert wird. Diese Wiedergabetechnik ermöglicht die realistische hochwertige Wiedergabe in einem virtuell erzeugten Wiedergaberaum mit Hilfe von Kopfhörer und HeadTracking. Neben einer deutlichen Kostensenkung für das Set-up der Lautsprecher ergeben sich einige praktische Vorteile. Durch Umschalten kann der Tonmeister während der Produktion bestimmte Raum- oder Lautsprechereigenschaften sowie die Lautsprecheranordnung verändern und vergleichen. Das ist hilfreich für die Beurteilung der Kompatibilität von Mehrkanalmischungen, beispielsweise von Studiowiedergabe versus Heimwiedergabe, oder beim Vergleich von Filmton im großen Kino mit dem Fernsehton.
17.6.6
Übertragung von 5.1-Mehrkanalton über Rundfunksysteme
Im Folgenden werden die wichtigsten Rundfunkübertragungssysteme für die 5.1- Mehrkanaltonübertragung im Bereich des europäischen und besonders des deutschen Rundfunks genannt. Aufgrund der Aktualität sind ausschließlich digitale Übertragungsformen erläutert, da analoge Empfangsmöglichkeiten von den Sendeanstalten in zunehmendem Maße ausgeklammert werden und sich die meisten Codierverfahren mit Ausnahme von Dolby ProLogic I+II kaum für eine analoge Nutzung eignen. Das derzeit für die Übertragung von 5.1- Mehrkanalton in Europa am häufigsten verwendete Rundfunkübertragungssystem stellt DVB (Digital Video Broadcasting) dar, siehe auch Kap. 17.3. DVB überträgt sowohl Fernseh- wie Hörfunkprogramme, sowie multimediale Zusatzdienste und -informationen, wie beispielsweise Sendungstitel, Inhalte zur Sendung und eine Programmvorschau (EPG). 1089
Rundfunksysteme Zusätzliche interaktive Dienste, z. B. Aufforderungen zu Abstimmungen während der Sendung, Quizfragen oder Homeshopping, werden dem Zuschauer mit MHP (Multimedia Home Platform) – mit derzeit stark rückläufiger Tendenz – angeboten. Für eine solche Interaktivität mit dem Programmanbieter benötigt der Konsument einen Rückkanal. Typischerweise werden die Stereo-Audiodaten bei DVB im MPEG-1 Layer 2-Format übertragen. Zusätzlich erlauben DVB-S, DVB-T und DVB-C auch Übertragungen im 5.1-Mehrkanaltonformat. 17.6.6.1
Programmverbreitung über DVB
DVB-S Mit DVB-S (Digital Video Broadcasting Satellite) wird die Übertragung von digitalen Rundfunksignalen über Satellit bezeichnet (siehe auch Kap. 17.3.2.). Neben dem üblichen Stereoton begannen im Jahr 1999 verschiedene Fernsehsender mit 5.1- Mehrkanalton bei einer Datenrate von 448 kBit/s im Dolby Digital-Format über DVB-S (vgl. auch Kap. 17.6.1). Das bis dahin nur für die DVD-Video genutzte Tonformat konnte nun auch vorteilhaft für die hochfrequente Ausstrahlung von Surround-Sound zur Anwendung kommen. Seit 2005 sendet die ARD das komplette Hörfunkprogramm aller deutschen Rundfunkanstalten über den Satelliten Astra 1H aus, teilweise auch in Mehrkanalton. Um das Radiound Fernsehangebot zu unterscheiden, wird das Hörfunkprogramm über den ARD-Transponder 93 als DVB-S „Radio“ bezeichnet. Einige ARD-Rundfunkanstalten bieten über diesen Verteilweg ausgewählte Hörfunk-Produktionen oder Live-Übertragungen im MehrkanaltonFormat Dolby Digital AC-3 mit einer Datenrate von 448 kBit/s an. Parallel zum Dolby Digital-Datenstrom wird sowohl bei DVB-S „Radio“ als auch bei DVB-S „Fernsehen“ für die Stereo-Audiodaten immer ein MPEG-1 Layer 2 Datenstrom übertragen [17.31, 17.32].
Abb. 17/69. Satellitenübertragung eines Mehrkanalsignals im Dolby Digital-Format.
1090
Mehrkanal-Stereofonie in Hörfunk und Fernsehen In Abb. 17/69 ist die Übertragung eines Dolby AC-3 Datenstroms via Satellit in vereinfachter Form abgebildet. Von einem AC-3 Encoder wird ein fünf- bzw. sechskanaliges Audiosignal in einen 384 kBit/s Bitstream konvertiert. In dem Übertragungsgerät auf der Senderseite wird dieser Bitstream für die Rundfunk- bzw. Fernsehübertragung in ein sog. ASI-Format moduliert und über einen Satellitentransponder übertragen. Das ASI-Satellitensignal wird auf der Empfängerseite demoduliert und der Audio-Bitstream vom AC-3-Decoder wieder decodiert. Das mehrkanalige Audiosignal kann dann über eine entsprechende Lautsprecheranordnung wiedergegeben werden. DVB-S2 Die aktuellste Weiterentwicklung des DVB-S-Standards ist DVB-S2, siehe hierzu auch Kap. 17.3.2. Das DVB-S2 Format ermöglicht eine Steigerung der Datenrate um bis zu 30 % durch die Verwendung neuer und verbesserter Modulations-, Codierungs- und Fehlerkorrekturverfahren. DVB-S2 wurde besonders mit Hinsicht auf HDTV mit seinen neuen Datenreduktionsalgorithmen, z. B. H.264 und MPEG-4 AVC, und höherer Bildauflösung entwickelt. Da für neuere Formate ohnehin neue Endgeräte mit anderen Demodulatoren und Decodern benötigt werden, ist die Übertragung von 5.1-Mehrkanalton aus diesen Gründen praktisch immer gegeben. Derzeit findet für Mehrkanalton aufgrund der Marktdurchdringung immer noch das Dolby Digital-Format Anwendung. Doch ist in Zukunft mit neuen Verfahren, insbesondere mit dem MPEG-4 Standard HE-AAC bzw. dem Dolby Digital Plus Verfahren zu rechnen. Zu Einzelheiten dieser Audiocodecs siehe Kap. 12.4.6.2. DVB-C Das Format DVB-C (Digital Video Broadcasting - Cable) beschreibt die Übertragung von digitalen Bild- und Tondaten über das Kabelnetz. Neben den digitalen Fernsehsignalen werden dabei auch Hörfunksignale übertragen. Das Einspeisesignal in die DVB-C-Kopfstationen des Netz-Anbieters ist das über Satellit empfangene DVB-S-Signal. Die Bandbreite, die für DVB-C zur Verfügung steht, ist allerdings schmaler als bei DVB-S, so dass das Programmangebot zahlenmäßig geringer ist. Mehrkanalübertragungen durch DVB-C finden regelmäßig statt. So übertragen beispielsweise das ZDF und einige private Programmanbieter Programme mit Surround Sound häufig, im Format Dolby Digital 5.1 mit einer Datenrate von 448 kBit/s. DVB-T DVB-T (Digital Video Broadcasting - Terrestrial) gilt heute als der Standard für die Übertragung von digitalen Fernseh- und Hörfunksignalen per Antenne in Europa. Im Gegensatz zu der Einführung von Digital Radio, das derzeit parallel zum analogen UKW-Rundfunk betrieben wird, wurde mit Einführung des digitalen terrestrischen Fernsehens in den einzelnen Bundesländern das analoge Fernsehen umgehend abgeschaltet, um genügend Frequenzen für das digitale Fernsehen bereitzustellen. Das dabei verwendete Modulationsverfahren ist in Kap. 17.2.4 näher beschrieben. Wie bei allen DVB-Standards wird das Stereosignal auch bei DVB-T nach MPEG-1 Layer 2 übertragen. Darüber hinaus übertragen einige deutsche Fernsehanstalten via DVB-T auch ausgewählte Beiträge in Dolby Digital 5.1. [17.31] 1091
Rundfunksysteme DVB-H Um digitalen Rundfunk auch auf mobilen Empfangsgeräten verfügbar zu machen, wurde der DVB-T Standard modifiziert und zur DVB-H Technik (Digital Video Broadcasting - Handhelds) erweitert. Die Codierung für Audiosignale erfolgt mit MPEG-4 HE-AAC. Ebenso wie bei DVB-T sind hier auch Radio- und Datendienste möglich. Die Netzbetreiber können durch die technische Verwandtschaft zu DVB-T auch beide Systeme parallel in gemischten Multiplexen senden. Zusätzlich zu den dominierenden Zweikanal-Stereoanwendungen kann auch 5.1-Mehrkanalton mit MPEG Surround Codierung bei Bitraten von ca. 64 kBit/s angeboten werden. Bei diesen Bitraten muss natürlich ein Kompromiss zwischen Bandbreite und subjektiver Qualität eingegangen werden. Inwieweit ein solcher Empfang beim Rezipienten sinnvoll ist, sei dahingestellt. 17.6.6.2
Programmverbreitung über DAB
Im Hörfunk stellt DAB (Digital Audio Broadcasting) das digitale Äquivalent zum analogen UKW-Rundfunk dar (siehe auch Kap. 17.2.2.). Die Vorteile von DAB gegenüber UKW liegen vor allem im niedrigen Frequenzbedarf; wenn bei DAB eine ausreichende Datenrate verwendet wird, existieren auch Unterschiede in der Qualität. Nicht zu Unrecht wird bei DABEmpfang häufig von CD-Qualität gesprochen, auch wenn die dabei verwendeten Datenraten nicht vergleichbar sind. Wie bei DVB-T wird zur Übertragung der digitalen Daten das COFDM-Modulationsverfahren genutzt. Im Vergleich zur analogen Ausstrahlung ist dieses Verfahren deutlich robuster gegenüber Störungen, insbesondere beim mobilen Empfang. Da aber DAB nicht für den High-End-Hörer sondern überwiegend für den mobilen Empfang gedacht ist, ist dieser Vergleich durchaus angemessen. Vorausgesetzt sind entsprechend hohe Datenraten, wie z. B. 192 kBit/s im Joint-stereo Modus. Allgemein ist die öffentliche Akzeptanz von DAB in Deutschland noch relativ gering, obwohl heute in Deutschland flächendeckend bereits mehr als 100 Programmen zu hören sind, viele davon allerdings nur lokal empfangbar. Insgesamt wird DAB in mehr als 40 Ländern ausgestrahlt, in Deutschland beträgt die Sendeabdeckung bereits 80 %. Die Audiocodierung in DAB erfolgt nach dem Format MPEG-1 Layer 2; dabei werden Datenraten von 32 kBit/s bis zu 384 kBit/s verwendet, je nach programmlicher Interessenlage des Anbieters. Zur stereofonen Programmausstrahlung haben sich überwiegend 128 bis 256 kBit/s etabliert. Eine 5.1-Mehrkanaltonübertragung in DAB ist mittels MPEG Surround möglich, wie in Abb. 17/70 dargestellt. Diese Technologie befindet sich derzeit in der Standardisierung, siehe auch Kap. 12.4. Durch eine Erhöhung der aktuellen Datenraten um den Betrag von 15 bis 20 kBit/s ist eine Übertragung von Mehrkanalton möglich. Ähnlich dem ITU-Downmix bzw. dem Dolby ProLogic-Verfahren wird sendeseitig mittels einer speziellen Matrix ein StereoDownmix erstellt, der zusätzlich zu den beiden Kanälen Links/Rechts auch die Information des Center- und der Surroundkanäle enthält. Dieser Stereo-Downmix wird dann empfangsseitig im MPEG Surround-Decoder so dematriziert, dass wieder ein diskretes 5.0-Mehrkanalsignal entsteht. Bei der Erstellung dieses Stereo-Downmixes wird ein dynamisch arbeitender, automatischer Algorithmus verwendet, grundsätzlich werden dabei die Parameter des ITU-Downmix 1092
Mehrkanal-Stereofonie in Hörfunk und Fernsehen benutzt. Allerdings findet im Vergleich zum ITU-Downmix keine reine Addition der Kanäle statt. Zusätzlich wird der Energiegehalt der einzelnen Summenkanäle mit dem der addierten Kanäle verglichen. Diese Analyse wird in jeweils 28 Frequenzbändern durchgeführt. Somit kann frequenzselektiv eine unerwünschte Überhöhung/Absenkung im Frequenzspektrum mit einer Dämpfung/Verstärkung der Amplitude des entsprechenden Teilbandes verringert werden, dabei werden auch eventuelle Kammfiltereffekte reduziert. Derzeit wird diese Signalanalyse nur zwischen den Surround- und Frontkanälen durchgeführt. während im Frontbereich, wie beim ITU-Downmix, eine reine Addition der Kanäle stattfindet. Werden hohe Ansprüche an die Qualität gestellt, kann dem MPEG Surround-Encoder anstelle des automatischen Downmixes auch eine optimierte automatische Mischung, oder sogar ein vom Tonmeister selbst durchgeführter Handmix zugeführt werden. Rundfunkanstalten können hierfür den MPEG-1 Layer 2 Stereo-Encoder mit einem MPEG Surround-Encoder ergänzen. Durch einen (ggf. zusätzlichen) MPEG Surround-Decoder auf der Empfängerseite kann dann der Mehrkanalton zurückgewonnen werden.
Abb. 17/70. DAB Surround Übertragungskette.
MPEG Surround ist vollständig rückwärtskompatibel zu allen bereits auf dem Markt befindlichen DAB-Empfängern, da bisherige DAB-Empfangsgeräte ohne MPEG Surround-Decoder ungestört das Zweikanal-Stereomaterial erkennen und die MPEG Surround-Zusatzdaten unbeachtet lassen [17.31, 17.7]. Erstmals präsentiert wurde DAB Surround im Jahr 2004 anlässlich der Münchner Medientage. 17.6.6.3
Verhalten von DVB Set-Top-Boxen bei 5.1-Mehrkanalton
Bisherige Erfahrungen bei Empfang von Programmen mit 5.1-Mehrkanalton sowie systematische Untersuchungen von DVB-Set-Top-Boxen durch entsprechende EBU-Gremien zeigen, dass Consumergeräte verschiedener Hersteller teilweise sehr unterschiedliche Eigenschaften aufweisen. Dies gilt beispielsweise für das Umschaltverhalten zwischen den einzelnen Programm-Modi, d. h. bei der Menü-Auswahl von Stereo- bzw. Mehrkanalton in Verbindung mit TV- und Radio-Diensten, aber auch für Probleme der Lippensynchronität beim digitalen Fernsehen sowie für das generelle Verhalten von Set-Top-Boxen beim Empfang von 5.1-Mehrkanalton. 1093
Rundfunksysteme Im Zusammenhang mit der Wiedergabe von 5.1-Mehrkanalton wurden u. a. folgende Eigenschaften einer Set-Top-Box untersucht: - Korrekte Anzeige des Mehrkanalton-Modus nach dessen Anwahl bei einem Fernseh- und Radioprogramm, unabhängig von der Anordnung der PID-Werte, des Vorhandenseins eines Videostreams und/oder eines MPEG-1 Layer 2 Stereo/Mono-Streams; - Verhalten des analogen Stereo- bzw. Mono-Tons bei der Anwahl des 5.1-Mehrkanaltons durch den Hörer, z. B. im Falle eines dynamischen Schaltens des 5.1 Dolby Digital Mehrkanaldatenstroms durch den Programmanbieter; - Möglichkeit der Verwendung verschiedener Datenraten und/oder Abtastraten für Dolby Digital unter der Annahme, dass die Datenrate in Abhängigkeit der Anzahl der Tonkanäle im Mehrkanal-Datenstrom dynamisch geschaltet wird; - Verhalten im Hinblick auf Übertragungsfehler des Mehrkanal-Datenstroms; - Verhalten der A/V-Synchronisation sowohl für den Mono/Stereo-Ton (MPEG-1 Layer 2), als auch für den Mehrkanalton im Dolby Digital-Format, unter Berücksichtigung des analogen sowie digitalen Tonausgangs; - Korrekte Formatierung des Mehrkanaldatenstroms am Ausgang der optischen und elektrischen S/PDIF-Schnittstelle; - Darstellung von Radiotext in Zusammenhang mit MPEG Layer 2 (Mono/Stereo) und Dolby Digital (5.1-Mehrkanalton). Im Ergebnis zeigte sich, dass einige der Set-Top-Boxen im Zusammenhang mit Fernsehdiensten erhebliche Schwierigkeiten bei der Lippensynchronität haben. Z. B. wurden Werte von ! 310 ms (Ton voreilend) bis + 70 ms (Ton nacheilend) gemessen. Eine einfache Kompensation des Tonversatzes kann hierbei nicht in allen Fällen vorgenommen werden, da sich dieser Versatz dynamisch, d. h. je nach Einschaltzeitpunkt der Set-Top-Box bzw. Ein- oder Umschalten des Fernsehservices verändert. Auch waren einige Geräte nicht in der Lage, bei Mehrkanalsendungen einen bestimmten Radioservice auszuwählen und zu identifizieren. Darüber hinaus zeigten sich gelegentliche Mängel bei der Bedienung, wie z. B. der Verlust eingespeicherter Tonoptionen u. a.
17.6.7
Quellencodierung für die Ausstrahlung von 5.1-Mehrkanalton
17.6.7.1
Dolby Digital-Format
Dolby Digital wurde ursprünglich mit dem Ziel entwickelt, 35 mm-Filmen zusätzlich zu ihrer Lichttonspur mehrkanalige Audio-Informationen zu verleihen. Seitdem hat sich das auch Dolby Digital AC-3 genannte Format als Quasi-Standard für DVB, DVD-Video und für den Kinoton etabliert (siehe Kap. 12.6) Wie bei anderen Codecs auch, z. B. bei allen MPEGCodecs, ist bei Dolby Digital nur der Decoder spezifiziert. Hersteller müssen sich an die Standards halten, können aber die Encoder im Laufe der Zeit immer wieder verbessern. Dolby Digital wurde speziell als „Emission-Codec“ entwickelt. Nach der Codierung in das Dolby-Digital-Format sind weitere Bearbeitungsschritte des Signals zu vermeiden, da das Dolby-Digital-Signal gegenüber einer Mehrfachkodierung (Kaskadierung) nicht besonders robust ist. Genau dafür wurde, wie bereits erwähnt, später das Dolby E-Format geschaffen, 1094
Mehrkanal-Stereofonie in Hörfunk und Fernsehen das speziell für die Bedürfnisse des Rundfunkprozesses vor der Ausstrahlung (Emission) entwickelt wurde. Dolby Digital macht es möglich, die Anzahl der Kanäle und die Bitraten exakt an die jeweilige Anwendung anzupassen. So können beispielsweise die 5.1-Kanäle des digitalen HeimSurround-Sound-Formats mit 384 bis 640 kBit/s codiert werden, während die beiden Kanäle eines Stereoprogrammes mit 192 bis 256 kBit/s codiert sein sollen. Für ein 5.1-Mehrkanaltonsignal werden bei DVB 448 kBit/s empfohlen, da hierbei selbst kritische Mehrkanaltonsignale keine hörbaren Beeinträchtigungen mehr erleiden. Die Decoder in den Mehrkanalreceivern können je nach Einstellung mehrkanalige Datenströme für die Wiedergabe in Mono, Stereo oder Dolby Surround intern abmischen. Tab. 17/33 zeigt die Konfigurationen, die von Dolby Digital unterstützt werden. Tab. 17/33. Dolby Digital Encoder-Modi und -Parameter. Channel Mode 1/0 Mono; Zweiprogramm (1+1); 2/0 Stereo; 3/0; 2/1; 3/1; 2/2; 3/2 Mehrkanal, plus LFE
Bitrate [kBit/s]
Sampling Rate [kHz]
Auflösung [Bit]
56 – 640
32; 44,1; 48
16; 20; 24
Praxisrelevante Eigenschaften von Dolby Digital Folgende typische Merkmale von Dolby Digital AC-3 im Studiobereich haben sich in der Praxis herausgestellt: - Das Format wird von allen Mehrkanalreceivern und allen DVB-Set-Top-Boxen, die ein digitales Audio-Interface besitzen, unterstützt. - Die Datenrate kann vom Programmanbieter bestimmt werden. - Dolby Digital eignet sich nicht für die Verteilung von Mehrkanalton im Rahmen der professionellen Postproduktion innerhalb der Produktionsbetriebe. - Eine Mehrfachcodierung (Kaskadierung) sollte vermieden werden, da Dolby Digital für niedrige Bitraten optimiert wurde und hohe Bitraten nicht unterstützt werden. - Dolby Digital Frames sind ungleich der Länge von Videoframes, daher eignet sich Dolby Digital nicht für den Schnitt, wenn das Videosignal nachträglich bearbeitet werden muss. Diese Einschränkungen für die professionelle Anwendung sind der Preis für ein überwiegend am Consumermarkt orientiertes Produkt. Dolby Digital Plus Das Format Dolby Digital plus [17.33] ist eine mit Hinblick auf die Anforderungen von digitalem Rundfunk und den neuen Medien wie z. B. Blu-ray und HD-DVD weiterentwickelte Variante von AC-3. Das auch Enhanced AC-3 (E-AC-3) genannte Format legt dabei besonderes Augenmerk auf die Kompatibilität zur bestehenden AC-3-Infrastruktur. So erlauben beispielsweise spezielle Transcoder die Verwendung von niedrigen Enhanced-AC-3-Bitraten, um auch bei der bisherigen AC-3-Infrastruktur die Zugewinne der effizienteren Codierung 1095
Rundfunksysteme nach E-AC-3 nutzen zu können. Für eine möglichst hohe Kompatibilität zu bisherigen Decodern werden Videostreams mit mehr als sechs Kanälen auf 5.1-Mehrkanal heruntergemischt und die darüber hinausgehenden Kanäle als abhängige Zusatzdaten hinzugefügt. Nach der Umwandlung eines Dolby Digital plus-Streams in einen AC-3-Stream, z. B. innerhalb einer Set-Top-Box, wird das eingehende Signal unabhängig von Format und Bitrate immer als AC-3 Bitstream mit 640 kBit/s an den S/PDIF-Ausgang des Receivers weitergeleitet. Dabei verspricht eine framesynchrone Quantisierung vergleichsweise geringe Kaskadierungsverluste. Im Gegensatz zu Dolby Digital liegt bei Dolby Digital plus die höchstmögliche Bitrate bei 6,144 MBit/s, also etwa die 10-fache übliche Datenrate. Damit können von 1.0 Mono bis 13.1 Mehrkanaltonkanäle übertragen werden. Weitere Details siehe auch Kap. 12.4.6. 17.6.7.2
DTS-Format
Das Digital Theater System Format (DTS) wurde im Jahr 1993 für das Kino entwickelt. Heute ist DTS nicht nur im Kino, sondern vor allem im DVD-Video-Bereich als Hauptkonkurrent zu Dolby Digital (AC-3) zu sehen. Bislang konnte sich DTS allerdings nur in der Filmbranche wirkungsvoll gegen AC-3 behaupten, im Broadcast-Bereich waren die Verbreitungsbemühungen von DTS bisher weniger erfolgreich. Dies dürfte überwiegend im höheren Bandbreitenbedarf in den Übertragungswegen seine Gründe haben. Qualitativ ist das Verfahren besonders bei hohen klanglichen Ansprüchen überzeugend. Auf dem Medium DVD-Video ist die Speicherung verschiedenster Audiodatenraten ebenso möglich, wie die Speicherung von Metadaten, z. B. zur Steuerung von Downmix-Parametern. Aufgrund der Komprimierung mit geringen Signalverlusten und der damit verbundenen hohen Datenrate, ist DTS zwar nicht so flexibel und vielfältig einsetzbar wie konkurrierende Codecs, wird aber oftmals wegen der hohen Qualitätsansprüche bevorzugt. Um den gestiegenen Anforderungen des sich derzeit durchsetzenden HD-Formates Blu-ray gerecht zu werden, zielen Weiterentwicklungen noch stärker auf verlustfreie Modi sowie umfangreichere Kanalkonfigurationen und höhere Bit- und Sampleraten, wie sie in Tab. 17/34 dargestellt. [17.34] Tab. 17/34. DTS Encoder-Modi und -Parameter Channel Mode 1/0 Mono bis 6.1 Mehrkanal
Bitrate [kBit/s] 64 bis 4500
Abtastrate [kHz] 44.1; 48; 88.2; 96; 192
Bittiefe [Bit] 16; 20; 24
Eine Besonderheit ist das Angebot von Mehrkanalton-CDs, die mit DTS codiert sind. Dabei ist zur Wiedergabe kein DVD-Player mit DTS-Decoder notwendig, sondern der Datenstrom kann aufgrund seiner Beschaffenheit (Datenrate, Abtastfrequenz, Bittiefe) vorteilhaft auch von Standard-CD-Playern ausgelesen und auf digitalem Weg zu einem DTS-Decoder übermittelt werden, z. B. über eine S/PDIF-Schnittstelle. Dabei bietet DTS mit dem 96 kHz / 24 BitFormat eine zumindest von den technischen Daten her ebenbürtige Lösung. Bisher ist allerdings das Sortiment an DTS-Audio-CDs sehr beschränkt, ebenso wie dasjenige von DVD-Audio oder SACD. Der Massenmarkt wird nach wie vor eindeutig von der stereofonen CD-Audio beherrscht. 1096
Mehrkanal-Stereofonie in Hörfunk und Fernsehen 17.6.7.3
MPEG Advanced Audio Coding
Das MPEG-2 AAC-Format (MPEG-2 Advanced Audio Coding) wurde entwickelt, um dem digitalen Rundfunk mit seinen Anforderungen von möglichst niedrigen Bitraten bei gleichzeitig hoher Qualität und den heutzutage verfügbaren leistungsstarken Prozessoren Rechnung zu tragen. Diese Anforderungen bestehen insbesondere beim terrestrischen Fernsehen und Hörfunk. So ist es derzeit in Deutschland bei DVB-T kaum üblich, ein Mehrkanaltonprogramm über Dolby AC-3 auszustrahlen, da die benötigte Bitrate von 448 kBit/s, bzw. mindestens 384 kBit/s in den meisten Fällen nicht zur Verfügung steht. Ziel eines neuen Formats ist es, bei einer wesentlich niedrigen Bitrate dasselbe Qualitätsniveau zu halten, das derzeit mit einer Übertragung von Dolby Digital bei 448 kBit/s möglich ist. Insbesondere für die Mehrkanaltonübertragung über terrestrische Kanäle wird ein sehr leistungsfähiges Kodierverfahren benötigt, so wie es heute von der MPEG AAC-Familie bereitgestellt wird. AAC ermöglicht mit einer Bitrate von 320 kBit/s für ein 5.1-Mehrkanaltonprogramm in den meisten Fällen eine ausgezeichnete Qualität. Doch selbst diese Bitrate ist in vielen Fällen noch zu hoch. Abhilfe schafft in diesem Fall der HE-AAC Codec, das bei der halben Bitrate, d. h. bei 160 kBit/s mit wenigen Ausnahmen für ein 5.1-Mehrkanaltonprogramm immer noch eine gute Qualität ermöglicht. Mit diesen Bitraten wird Mehrkanalton bei einer terrestrischen Übertragung Realität. Umfangreiche Tests der EBU im Jahre 2006 haben gezeigt, dass die MPEG AACFamilie bezüglich der Bitrate eine sehr gute Skalierbarkeit für ein 5.1-Mehrkanaltonprogramm ausweist. So lässt sich mit dem AAC Core-Codec und Bitraten > 300 kBit/s in den meisten Fällen eine ausgezeichnete und selbst bei Bitraten um 64 kBit/s mit HE AAC MPEG Surround noch eine zumindest für unkritische Abhörsituationen akzeptable Qualität erzielen, siehe auch Kap. 12.4ff. Tab. 17/35. MPEG AAC-Encoder-Modi und -Parameter. Mode
Channel Mode
AAC
1ch-Mono 2ch-Stereo 2ch-PS 4-Channel (2+2), 5/0 5.1, 6.1, 7.11ch-Mono 2ch-Stereo 2ch-PS 4-Channel (2+2), 5/0 5.1, 6.1, 7.1 1ch-Mono 2ch-Stereo Stereo Independent 2ch-Dual Mono
HE-AAC
HE-AAC Oversampled SBR
Bitrate [kBit/s]
Abtastrate [kHz]
Bandbreite [kHz]
8 bis 640
8 bis 48
3,8 bis 24,0
16 bis 384
16 bis 96
7,5 bis 37,5
8 bis 320
16 bis 96
8,0 bis 24,0
1097
Rundfunksysteme MPEG High Efficiency Advanced Audio Coding High Efficiency AAC (HE-AAC) oder aacPlus [17.35] wurde zur weiteren Minimierung der Bitrate bei gleich bleibender Audioqualität entwickelt. Dabei kann durch den Einsatz des in Kap. 12.3.6 beschriebenen Spectral Band Replication (SBR) Verfahrens besonders bei sehr niedrigen Bitraten die Qualität der Codierung gesteigert werden. Bei steigender Bitrate (> 100 kBit/s Stereo) verringert sich dieser Qualitätsvorsprung gegenüber AAC jedoch bis auf etwa gleiches Niveau. Codiertechnisch basiert HE-AAC auf ACC, lediglich erweitert um ein spezielles Parametric-Stereo-Verfahren (PS) und den erwähnten SBR-Modus. Ein Nachteil dieses Codierverfahrens ist die eingeschränkte Abwärtskompatibilität. Nicht PS-fähige Decoder liefern bei einem Parametric-Stereo-Stream nur ein Mono-Signal [17.36]. Die Anwendung des HE-AAC-Codecs in der Emission-Stufe einer Rundfunkinfrastruktur ist nur dann sinnvoll, wenn geeignete Empfänger zum Decodieren dieses Bitstroms bereitstehen. Solange dies (noch) nicht der Fall ist, wurde eine Transcodierung spezifiziert, die die Einbindung dieses Codierverfahrens in die bestehende Consumer-Infrastruktur gewährleistet. Das Signal wird dabei am Playout-Center mit HE-AAC codiert, zum Empfänger transportiert und dort in einen DTS-Datenstrom transcodiert, der von fast allen verfügbaren Heimempfängern verwertbar ist. Abb. 17/71 veranschaulicht diesen Signalweg [17.37].
Abb. 17/71. Beispiel eines Signalwegs bei der Verwendung von HE-AAC als Emissioncodec und DTS für die Kompatibilität mit dem AV-Receiver.
17.6.7.4
Metadaten
Kaskadierte Übertragungsstrecken erlauben unter Dolby E und Dolby Digital den durchgehenden Transport von Metadaten. Dies ist für die Produktion ein nicht unerheblicher Vorteil, denn diese Daten enthalten viele wichtige Informationen und geben Auskunft beispielsweise über das Tonformat, Codierung, Eigenschaften, Inhalt, Copyright, etc. und ermöglichen darüber hinaus auch die Steuerung der Konfiguration des Decoders für die optimale Wiedergabe unter individuell unterschiedlichen Gegebenheiten und Wünschen des Hörers (siehe Abb. 17/72). Diese Einstellungen erlauben dem Konsumenten, u. a. den Gesamtpegel, die Dynamik und das downmix-relevante Verhalten des Decoders zu steuern. Wichtige Steuerparameter für die Wiedergabe beim Hörer sind: - Dialogue Level (DialNorm), - Dynamic Range Control (DRC), - Downmix Information.
1098
Mehrkanal-Stereofonie in Hörfunk und Fernsehen
Abb. 17/72. Metadaten begleiten das Audiosignal von der Produktion bis zum Empfänger.
Tab. 17/36. Metadaten-Parameter für Dolby E und Dolby Digital. Parameter Program Configuration Program Description Text Dialogue Level Channel Mode LFE Channel Bitstream Mode Line Mode Compression RF Mode Compression RF Overmodulation Protection Center Downmix Level Surround Downmix Level Dolby Surround Mode Audio Production Information Mix Level Room Type Copyright Bit Original Bitstream Preferred Stereo Downmix Lt/Rt Center Downmix Level Lt/Rt Surround Downmix Level Lo/Ro Center Downmix Level Lo/Ro Surround Downmix Level Dolby Surround EX Mode A/D Converter Type DC Filter Lowpass Filter LFE Lowpass Filter Surround 3 dB Attenuation Surround Phase Shift
Dolby E X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
Dolby Digital X X X X X X X X X X X X X X X X X X X X X X
Standard ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 Extended Extended Extended Extended Extended Extended Extended ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52 ATSC-A/52
1099
Rundfunksysteme In den Erläuterungen von Kap. 18.5.3 und Kap. 5.4.5. sind die Zusammenhänge und Möglichkeiten dieser „Consumer“-Parameter ausführlich dargestellt. Daneben gibt es weitere, so genannte „Professional“-Parameter, welche zwar im Dolby E-Datenstrom enthalten sind, nicht aber im Dolby Digital-Datenstrom. Tab. 17/36 zeigt alle verfügbaren Metadaten-Parameter und deren Zuordnung. Dialogue Normalization Mit Hilfe des Parameters „Dialogue Level“, auch als DialNorm bekannt (siehe auch Kap. 18.5.3.3), kann auf der Sendeseite dafür gesorgt werden, dass der Hörer einen ausgeglichenen Wiedergabepegel für unterschiedliche Programmarten, wie z. B. Musik, Ansage, Action Film, Talk Show und Werbung oder Programmquellen (TV-Set-Top-Box, DVD-Player) erhält. Als Referenz für diese Einstellung dient der gesprochene Dialog bei normaler Abhörlautstärke. Darauf basierend, normalisiert ein Dolby Decoder den durchschnittlichen Pegel auf den sendeseitig gewünschten und entsprechend am Encoder voreingestellten Wert. Dies hat den Effekt einer sendeseitig kontrollierten Lautstärkebalance, welche die Aussteuerung aber nicht berührt. Diese Methode gewinnt zunehmend an Bedeutung, da bei Werbesendungen oftmals der zu laute Wiedergabepegel als lästig empfunden wird. Dynamic Range Control
Abb. 17/73. Prinzipielle DRC Kompressionskennlinie für Dolby Digital.
Im Dolby-Encoder werden Metadaten für „Dynamic Range Control“ (DRC) generiert und dem Audiosignal hinzugefügt. Sie dienen im Decoder dazu, für alle Audiokanäle die geeignete Kompression zu realisieren, abhängig von der beim Hörer gewünschten Wiedergabedynamik. Das Grundprinzip ist unter Kap. 18.5.3.1 für die Anwendung bei DAB beschrieben. Damit kann schon während der Produktion bzw. vor der Distribution auf das Kompressionsverhalten 1100
Mehrkanal-Stereofonie in Hörfunk und Fernsehen am Empfangsort Einfluss genommen werden. Das System arbeitet prinzipiell nach einer Kennlinie gemäß Abb. 17/73. Downmix Einen wichtigen Aspekt bei der Aufnahme von Musik im diskreten 3/2-Verfahren stellt die Abwärtskompatibilität dar. Die in Tab. 17/37 angegebenen Gleichungen sind der ITU-R Empfehlung [BS.775-1] entnommen. Obgleich es möglich ist, die Downmix-Koeffizienten k für die Surroundkanäle in vordefinierter Weise einzustellen, ist nicht sichergestellt, dass der so erzeugte Downmix qualitativ dem eines „echten“, also von Hand gemischten, 2/0-Stereomixes entspricht. Dies gilt vor allem für die Parameter Hall- und Lautstärkebalance sowie Tiefenstaffelung, um nur einige zu nennen. Was die Surround-Informationen betrifft, wird das zeitliche Muster von Direktsignal, frühen Reflexionen und Nachhall durch den Downmix korrekt abgebildet, wie in Abb. 17.74 zu sehen ist. Das resultierende Reflexionsmuster entspricht genau dem gewünschten Bild für eine „natürliche“ Zweikanal-Stereoaufnahme [17.31]. Unter diesem Gesichtspunkt ermöglicht der Downmix die korrekte perspektivische Darstellung eines dreidimensionalen Raumes in der zweidimensionalen Simulationsebene zwischen den beiden frontalen Lautsprechern L/R. Tab. 17/37. Kompatibilitätsmatrix 3/2 → 2/0. Downmix-Gleichung
Downmix-Koeffizienten
L0 = L + 0,7C + k LS
Auswahl:
R0 = R + 0,7C + k RS
k = 1, 0.71, 0.50, 0.36, 0
Der Standard-Downmix-Koeffizient für die Surroundsignale beträgt k = 0.7 (entsprechend [BS 775-1]). Natürlich können produktionsseitig alternative Koeffizienten definiert werden, welche als Metadaten oder „Ancillary Data“ weitergereicht werden können, um für das jeweilige Programmmaterial einen optimalen Zweikanal-Downmix zu gewährleisten. Der Koeffizient für den Center-Kanal ist mit 0.7 fix und nicht veränderbar, da sich dieser Wert (entsprechend !3dB) unabhängig vom Programmmaterial bezüglich der Richtungsabbildung sowie der Lautstärkebalance bewährt hat. Der Koeffizient k = 0 wird benutzt, wenn z. B. eine „Pseudo 3/2“-Mischung, entstanden aus einer vorhandenen Zweikanalmischung (Upmix) und die Surroundkanäle auf Grund von Klangverfärbungen ausgeblendet werden müssen. Nun kann es zwar sein, dass sich die Mehrkanalaufnahme und die 2-Kanalaufnahme bezüglich der Zeitverhältnisse nicht unterscheiden, jedoch trotzdem eine wesentliche Änderung durch die räumliche Verteilung der indirekten Signale besteht. Aus diesem Grund sollte ein weiterer wichtiger Parameter bei der Mischung von „natürlichen“ Musikaufnahmen berücksichtigt werden, nämlich die Behandlung der Zeitverhältnisse, und dies nicht nur im Fall von 3/2Stereo, sondern auch für Zweikanalwiedergabe [17.31]. Dieses bestätigen auch Untersuchungen über das „natürliche“ Panning bezüglich Qualitätsverbesserungen [17.37, 17.38]. Im 2/0-Downmix bleibt die Rauminformation des 3/2-Stereomixes völlig erhalten. Die 2-Kanalwiedergabe ermöglicht zwar einen entsprechenden räumlichen Eindruck in der 1101
Rundfunksysteme Simulationsebene, trotzdem ist die optimale stereofone Qualität nicht in allen Fällen gewährleistet.
Abb. 17/74. Reflexionsmuster im 3/2-Mix und im 2/0-Downmix.
Andererseits scheint es nicht möglich zu sein, die ursprünglich beabsichtigte Hallbalance zu erhalten. Ein weithin bekannter psychoakustischer Effekt beim binauralen Hören ist der, dass ein Raum als weniger hallig wahrgenommen wird, als beim monauralen Hören. Ein ähnliches Phänomen tritt in der Praxis auf, wenn man von 2-Kanal Stereo auf Mono bzw. von Mehrkanal auf 2-Kanal Stereo umschaltet. Dies könnte bedeuten, dass die Gesamtenergie des Hallsignals im Downmix kleiner sein sollte als in der Mehrkanalwiedergabe. Zu realisieren wäre dies anhand der Downmix-Koeffizienten mit k = 0.7 oder k = 0.5, abhängig vom Programmmaterial. Andere Erfahrungen besagen, dass die Energie der Hallkomponenten bzw. räumlichen Informationen vom Schallpegel her in Stereo und in Surround gleich sein sollte, um vom Zuhörer als natürlich empfunden zu werden. Dies würde einem Surround-Koeffizienten von k = 1 entsprechen. Der Grund dafür könnte in den verschiedenen Dichten des Hallsignals liegen, welche von der jeweiligen Mikrofonierung für den Surround-Sound abhängig ist. Die Lautstärkebalance der indirekten Signalanteile scheint mehr eine individuelle ästhetische Angelegenheit zu sein als eine Frage der allgemeinen Empfehlung, besonders in Bezug auf die Abwärtskompatibilität. Dies kommt daher, dass die Vorstellung der Hörperspektive und des räumlichen Eindruckes durch eine Anzahl von Parametern, wie z. B. Dichte, zeitliche Verteilung, Richtung und Energie von Reflexionen beeinflusst wird. Betrachtet man die Kopfhörerwiedergabe, muss man feststellen, dass hier ein einfacher Downmix entsprechend [BS 775-1] (siehe Tab. 17/37) nicht die optimale Lösung darstellt. Die weithin bekannte „Im-Kopf-Lokalisation“ stellt eine schwerwiegende Beeinträchtigung in Bezug auf die Wahrnehmung von Raum und Tiefe dar, sogar im Vergleich mit herkömmlicher Zweikanal-Lautsprecherwiedergabe. Vergleicht man den mittels einer „natürlichen“ 3/2-Stereoaufnahme erzielbaren räumlichen Eindruck, scheint dieser Mangel an ästhetischer Kompatibilität nicht hinnehmbar zu sein. Eine spezielle Downmix-Methode für Mehrkanal-Kopfhörerwiedergabe ist erforderlich, um den ursprünglichen dreidimensionalen räumlichen Eindruck zu erhalten, der in einem Mehrkanalabhörraum wahrgenommen wurde. 1102
Mehrkanal-Stereofonie in Hörfunk und Fernsehen Eine dahingehende Annäherung stellt die Anwendung von Auralisationskonzepten dar, um eine virtuelle Lautsprecherwiedergabe zu erzielen. Die in der Literatur beschriebenen Systeme basieren auf binauralen Daten, die in einem realen Mehrkanalregieraum gemessen wurden. Hieraus wird ein binaurales Signal für Kopfhörerwiedergabe generiert, um das Hören in einem virtuellen Regieraum am Referenzpunkt zu ermöglichen. Man vermeidet damit auch jede mögliche Beeinträchtigung des räumlichen Eindruckes durch Lautsprecher.
17.6.8
Laufzeiten bei Übertragung von 5.1-Mehrkanalton
Die Laufzeiten (Latenzen) der bei der Produktion eingesetzten Geräte nach Tab. 17/38 müssen auf Seiten des Video-Signales und des Stereotons derart angeglichen werden, dass das encodierte Dolby E-Signal auf MAZ, Server und Leitungsüberspielung stets synchron zum Bildund Stereosignal ist. Dasselbe gilt für die Zuführung zur zentralen Sendeabwicklung im ARDProgramm. Tab. 17/38. Typische Laufzeiten für Dolby E und Dolby Digital Komponenten. Komponente Multichannel Audio Tool DolbyE Encoder DolbyE Decoder Dolby Digital Encoder Dolby Digital Decoder (Professional) Dolby Digital Decoder (Consumer) DolbyE – DolbyDigital - Frame Synchronizer
Latenzzeit 0 ms 40 ms 40 ms 187 bis 450 ms (regelbar) 32 ms 11 ms 40 bis 80 ms
Abb. 17/75 zeigt die Konfiguration und die Laufzeiten, die z. B. bei der Zuführung der Dritten ARD-Programme zu den Playout-Centern nach Potsdam, Frankfurt und Langenberg beachtet werden müssen. Die Laufzeiten der Coder/Decoder für Dolby E bzw. Dolby Digital müssen für diese Zuführungsleitungen auf Seiten des Video-Signales und des Stereotons in der sendenden Anstalt so ausgeglichen werden, dass Video, Stereo und das encodierte AC-3Signal synchron zugeführt werden.
Abb. 17/75. Timing bei der DVB-Zuführung am Beispiel der Dritten Programme.
1103
Rundfunksysteme Das entsprechende Delay kann am Hybnet-DVB-Encoder der zuführenden Anstalt eingestellt werden. Um alle Laufzeiten des Dolby-Signals auszugleichen, werden dort Videosignal und Stereo-PCM-Ton um 227 ms verzögert.
Standards [ATC]
Advanced Television Committee, Inc: Digital Audio Compression Standard (AC-3, E-AC-3) Revision B. Document A52/B. Washington D. C., 2005.
[BPN 027]
EBU: Internal Report BPN 027. Transport Protocol Experts Group, TPEG Specifications. Geneva.
[BR.1384]
ITU-R: Recommendation BR.1384-1. Parameters for international exchange of multi-channel sound recordings with or without accompanying picture. Geneva, 2005.
[BS.775-1]
ITU-R: Recommendation BS.775-1. Multichannel stereophonic sound system with and without accompanying picture. Geneva, 1994.
[BS.1114-5]
ITU-R: Recommendation BS.1114-5. Systems for terrestrial digital sound broadcasting to vehicular, portable and fixed receivers in the frequency range 30-3000 MHz.
[BS.706]
ITU-R: Recommendation BS.706-2. Data System in monophonic AM sound broadcasting (AMDS).
[EN 50067]
ETSI: European Standard EN 50 067. Radio Data System (RDS), 1998.
[EN 14819]
ETSI: Coding protocol for RDS-TMC;
[EN 300401]
ETSI: European Standard EN 300 401. Radio Broadcasting Systems; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers.
[EN 300468]
ETSI: European Standard EN 300 468. Digital Video Broadcasting (DVB); Specification for Service Information.
[EN 300797]
ETSI: European Standard EN 300 797. DAB, Distribution Interfaces, STI.
[EN 301234]
ETSI: European Standard EN 301 237. DAB, Multimedia Object Transfer (MOT) Protocol.
[ENV 12313]
RDS-TMC ALERT-C, Part 1: Protocol, Part 2: Event List.
[ES 201980]
ETSI: European Standard ES 201 980, Digital Radio Mondiale (DRM); System Specification.
[IEC 62106]
ISO/IEC: Specification of RDS for VHF/FM sound broadcasting
[IRT]
IRT: Data Interface for ISO/MPEG Audio codecs and Ancillary Data.
[R91]
EBU: Recommendation R91-2004: Track allocations and recording levels for the exchange of multichannel audio signals. Geneva, 2004.
[SMPTE 320M] SMPTE 320M Television - Channel Assignments and Levels on Multichannel Audio Media, 1999. 1104
Mehrkanal-Stereofonie in Hörfunk und Fernsehen [SSF 01]
VDT / Surround Sound Forum: SSF 01.1 – Empfehlung für die Praxis. Hörbedingungen und Wiedergabeanordnungen für Mehrkanal-Stereofonie. Internet: http://www.tonmeister.de/foren/surround/texte/SSF_01_1_ 2002_v2.pdf, 2002.
[TR 101496]
ETSI: Technical Report TR 101 496. DAB, Guidelines and Rules for Implementation and Operation.
[TR 101497]
ETSI: Technical Specification TR 101 497. DAB, Rules of operation for MOT.
[TS 101498]
ETSI: Technical Specification TS 101 498. DAB, MOT Broadcast Website.
[TS 101499]
ETSI: Technical Specification TS 101 499. DAB, MOT Slide Show.
[TS 101756]
ETSI: Technical Specification TS 101 756. DAB, Registered Tables.
[TS 102371]
ETSI: Technical Specification TS 102 371. DAB, Electronic Programme Guide, Binary Format.
[TS 102386]
ETSI: Technical Specification TS 102 386. Digital Radio Mondiale (DRM); AM signalling system (AMSS).
[TS 102427]
ETSI: Technical Specification TS 102 427. Digital Audio Broadcasting (DAB); Data Broadcasting - MPEG-2 TS streaming.
[TS 102428]
ETSI: Technical Specification TS 102 428. Digital Audio Broadcasting (DAB); DMB Video service; User Application Specification.
[TS 102818]
ETS: DAB, Electronic Programme Guide, XML Format.
[TS 18234]
CEN/ISO: TPEG Standard.
[UECP]
RDS Forum: Document SPB 490 Final vers. 6.02: RDS Universal Encoder Communication Protocol (UECP). Geneva, 2006.
Literatur [17.1]
Kammeyer, K. D.: Nachrichtenübertragung, 3. Aufl., Teubner, 2004.
[17.2]
Mäusl, R. und Göbel, J.: Analoge und digitale Modulationsverfahren, Hüthig, 2002.
[17.3]
Bossert, M.: Kanalcodierung, 2. Auflage, Teubner, 1998.
[17.4]
Schulze, H. und Lüders, C.: Theory and Practice of OFDM and CDMA – Wideband Wireless Communications, Wiley, 2005.
[17.5]
Werle, H. (Hrsg.): Technik des Rundfunks, Technik der Systeme, Rundfunkversorgung, Heidelberg, v. Decker, 1989.
[17.6]
Kopitz, D., Marks, B.: RDS: The Radio Data System, Boston, Artech House, 1999.
[17.7]
Hoeg, W., Lauterbach, Th. (Hrsg.): Digital Audio Broadcasting – Principles and Applications of DAB, DAB+ and DMB (3rd ed.). Wiley, 2009 (in Vorbereitung).
[17.8]
Amor, H.: Bewegtbildübertragung in DAB, in: Lauterbach Th.. Digital Audio Broadcasting, Franzis, 1995. 1105
Rundfunksysteme [17.9]
Neue leistungsfähige Audiocodierungs-Technologie als Zusatzoption für DAB Digitalradio, Medienmitteilung von WorldDMB, 2006. (siehe auch http://www.worlddmb.org)
[17.10]
Reimers, U.: Digitale Fernsehtechnik, Springer.
[17.11]
Höher, P., Kaiser, S., Robertson, P.: Two-dimensional pilot-symbol-aided channel estimation by Wiener filtering, IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP-97, München, 1997.
[17.12]
Hofmann, F.: „DRM (Digital Radio Mondiale) – der neue digitale Mittel- und Kurzwellenrundfunk“, Kleinheubacher Berichte, Bd. 44, 2001.
[17.13]
DRM Broadcasters' User Manual. DRM Konsortium, 2004. (siehe auch http://www.drm.org).
[17.14]
iBiquity Digital Corporation, FM transmission system specification. Doc. No. SYTN-5009, 2001.
[17.15]
Wrede Th.: ASTRA Digital Radio: high-quality digital audio transmissions via satellite. Int. J. Satell. Commun. Vol. 18, 2000.
[17.16]
Steinke, G. und Hoeg, W.: Elektroakustische Übertragungsverfahren. In: Taschenbuch Akustik, Bd.2, Kap.10.1. Verlag Technik, Berlin, 1984.
[17.17]
Morello A., Reimers U.: DVB-S2: the second generation standard for satellite broadcasting and unicasting. Int. J. Satell. Commun. Network, Vol. 22, 2004.
[17.18]
Dickreiter, M. (Hrsg.): Handbuch der Tonstudiotechnik. K. G. Saur, München, 6. Auflage, 1997.
[17.19]
Hofmann, M. und Beaumont, L. R.: Content Networking. Elsevier, 2005.
[17.20]
Homepage der Streaming-Plattform Shoutcast. Internet: http://www.shoutcast.com, 2007.
[17.21]
Anderson, C.: The Long Tail, 1. Aufl., Hyperion, 2006.
[17.22]
Homepage des Shoutcast-Clients Winamp. Internet: http://www.winamp.com, 2007.
[17.23]
Wittenbrink, H.: Newsfeeds mit RSS und Atom. Galileo Press, Bonn, 2005.
[17.24]
Alby, T.: Web 2.0. Hanser, München, 2007.
[17.25]
Tanenbaum, A. S.: Computernetzwerke. 4. Aufl., Prentice Hall, 2003.
[17.26]
Bedienungsanleitung TripleMux, Hrsg. IRT, München.
[17.27]
Birkner, C.: Surround – Einführung in die Mehrkanalton-Technik. PPV Presse Project Verlags GmbH, Bergkirchen, 2002.
[17.28]
Fielder, L. D. ; Lyman, S. B. ; Vernon, S. u. a.: Professional Audio Coder Optimized for Use with Video. 107th Convention AES, New York, 1999.
[17.29]
apt-X algorithm. Internet: http://www.aptx.com/sitefiles/resources/aptxoverview.pdf
[17.30]
VDT: Test- und Einmess-DVD des Surround Sound Forum (SSF).
1106
Mehrkanal-Stereofonie in Hörfunk und Fernsehen [17.31]
EBU: Internal Report BPN 065. Multichannel Audio Transmission: Present multichannel audio radio & TV broadcast practices and operations in Europe. Geneva, 2004.
[17.32]
Mitterhummer, I.; Riese, M.; Foltin N.: DVB-S Radio – Ihre BR-Programme in CD-Qualität – digital über Satellit. Internet: http://www.br-online.de/brintern/thema/rundfunktechnik/pdf/DVB-S-broschuere.pdf. 2006.
[17.33]
Fielder, L. D.; Andersen, R. L.; Crocket, B. G. u. a.: Introduction to Dolby Digital plus, an Enhancement to the Dolby Digital Coding System. 117th Convention AES, San Francisco, 2004.
[17.34]
Kramer, L.: DTS: Brief history and technical overview. Internet: http://www.dts.com/media/uploads/pdfs/history,whitepapers,downloads.pdf, 2000.
[17.35]
Quackenbush, S.: MPEG Technologies: Advanced Audio Coding. Whitepaper, Nice, 2005.
[17.36]
Moser, G.: MPEG-4 aacPlus - Audio coding for today's digital media world. Internet: http://www.codingtechnologies.de/products/assets/CT_aacPlus_white paper.pdf, Nürnberg, 2005.
[17.37]
Krauss, K.; Fiedler, T. u. a.: Dolby E / aacPlus, Metadata Transcoder Solution for aacPlus Multichannel. Whitepaper, Coding Technologies, Nürnberg, 2006.
[17.38]
Hamaski, K.; Komiyama, S. u.a.: 5.1 and 22.2 Multichannel Sound Productions using an integrated surround sound panning System. NHK Science & Technical Research Laboratories, Tokyo, 2005.
1107
18
Qualitätssicherung
18.1
Einführung
Die professionelle Audiotechnik bzw. Rundfunkstudiotechnik war von jeher mit dem Anspruch einer hohen Audioqualität verknüpft. Dies war im Rahmen der analogen Tonübertragung in vielen Fällen mit einem erhöhten Aufwand bei der Konstruktion, Auswahl und Pflege tontechnischer Einrichtungen verbunden, um beispielsweise einen ausreichenden Amplitudenfrequenzgang, niedrige nichtlineare Verzerrungen oder einen guten Störabstand zu garantieren. Mit der Einführung der Digitaltechnik haben sich viele dieser Probleme quasi von selbst gelöst, da die Anforderungen an diese analogen Qualitätsparameter bei entsprechender Auslegung des digitalen Systems zunächst einmal automatisch gewährleistet sind. Während in der Analogtechnik die in einem konkreten System erreichbare Qualität weitgehend durch die eingesetzte Geräte- und Verfahrenstechnik für Aufzeichnung oder Übertragung bestimmt wird, bietet die digitale Audiotechnik vielfältige Anpassungsmöglichkeiten durch die Konfigurierbarkeit der verwendeten Systeme, z. B. durch die Wahl der Codier- und Übertragungsparameter wie digitale Auflösung, Abtastrate, Bitrate oder den eingestellten Codiermodus, was einerseits erhebliche Auswirkungen auf die erreichbare Übertragungsqualität hat, andererseits aber auch auf die benötigte Übertragungskapazität (Bandbreite) und damit auf die Effektivität (Kosten, Kanalkapazität). Dies könnte dazu verleiten, durch die Möglichkeit der einfachen Parametrierung bestehender Systeme eine rein ökonomisch motivierte Auswahl bestimmter Einstellungen (z. B. der Bitrate für die Audiocodierung) zu treffen und dadurch zwar Kosten zu minimieren, dabei aber auch die resultierende Übertragungsqualität unangemessen zu reduzieren. Das breite Spektrum der Audio-Anwendungen im Rundfunk und anderen professionellen Diensten und Prozessen lässt sich grob in folgende Qualitätsniveaus einordnen: - transparente Audioqualität (sog. CD-Qualität) - konventionelle Rundfunkqualität (FM-Qualität) - Sub-FM-Qualität (Intermediate quality) Transparente Audioqualität Transparenz bedeutet hier, dass das menschliche Gehör für beliebige Eingangssignale nach Durchlaufen eines Übertragungssystems keinen Unterschied zum Ausgangssignal feststellen kann. Liefert eine Audio-CD das Quellenmaterial, spricht man hier oft auch von „CDQualität“. Transparente Audioqualität kann man demnach so definieren, dass Unterschiede zum entsprechenden Original-Signal praktisch nicht wahrnehmbar sind bzw. in keinem Fall eine schlechtere Bewertung als die Note 4 der standardisierten Impairment-Skale (siehe Kap. 18.6.4) erhalten. Die entspricht i. Allg. der höchsten zu erwartenden Qualitätsstufe bei der elektroakustischen Übertragung. 1109
Qualitätssicherung FM-Rundfunkqualität In der Praxis ist es meist nicht erforderlich und oft auch nicht wirtschaftlich machbar, mit einem HF-Übertragungsverfahren den vollen Bereich des menschlichen Hörvermögens abzudecken. Der UKW/FM-Rundfunk ist hierfür ein bekanntes Beispiel. Trotz der Beschränkung auf 15 kHz Audiobandbreite, einem Dynamikumfang von nur ca. 50 dB und einer Kanaltrennung bei Zweikanalübertragung von weniger als 30 dB beurteilen die meisten Hörer die Qualität im ungestörten Fall als hinreichend gut. Der FM-Rundfunk kann damit als ein sinnvoller Kompromiss zwischen Aufwand und Ergebnis eingestuft werden, auch wenn hier nicht generell eine transparente Audioqualität erreicht werden kann. Sub-FM-Qualität Für bestimmte Dienste und Anwendungen, bei denen aus technischen und/oder wirtschaftlichen Gründen nur eine eingeschränkte Übertragungskapazität bzw. Bitrate zur Verfügung steht, werden von vornherein weitere Einschränkungen der Qualität in Kauf genommen. Beispiele hierfür sind Audio-Anwendungen im Internet (siehe Kap. 17.4), bestimmte Rundfunkdienste (KW, MW, DRM), MP3-Anwendungen, Computerspiele u. a. m. Zukunftsorientierte Qualitätszielstellung Für langlebige Ton- und Bilddatenträger (wie CD, DVD, Blu-ray Disc, oder moderne Archivdatenträger usw.) ist es durchaus sinnvoll, eine möglichst hohe Tonsignalqualität zu garantieren, um sowohl für zusätzliche Bearbeitungsmaßnahmen noch ausreichend Spielraum zu behalten, als auch für die Zukunft gerüstet zu sein. Gleiches gilt auch für moderne digitale Übertragungsverfahren, wie DAB, DVB oder interne Contribution-Systeme, wo in der Regel das Qualitätsniveau/durch Parametereinstellung gesteuert werden kann. Der Rundfunk sollte generell seine Chance und sein Potenzial erkennen, sich mit dem Angebot einer möglichst hohen Tonübertragungsqualität von anderen kommerziellen Anwendungen abzusetzen und damit auch seine Überlebenschancen zu festigen. Letztlich geht dies auch mit dem kulturellen Bildungsauftrag für das öffentlich-rechtliche Rundfunkangebot konform. Moderne Audiocodierverfahren weisen in der Regel eine Vielzahl von Parametern auf, die untereinander abgestimmt werden müssen, um für eine bestimmte Bitrate das bestmögliche Ergebnis zu erhalten. Sind die für gute Qualität erforderlichen Bedingungen für diese Parameter aufgrund zu geringer Datenrate nicht einzuhalten, treten hörbare Abweichungen zum Original auf (nähere Ausführungen im Zusammenhang mit digitalen Audio-Codierverfahren siehe Kap. 12). In der analogen wie in der digitalen Welt stellen Kontrolle und Sicherung der Tonqualität eine wichtige Aufgabe dar, sowohl im Rundfunkbereich wie auch in der professionellen Audiotechnik. Um hierbei zielführend zu handeln und richtige Entscheidungen treffen zu können, ist es wichtig, geeignete Parameter zu definieren, zu messen oder auf andere Weise zu beurteilen. Hierbei sind die Festlegungen der nationalen/internationalen Standardisierung zu beachten. Eine optimale Überwachung der Qualität von Tonsignalen und ihrer Parameter ist nur im geeigneten Zusammenwirken von subjektiv-akustischer, visueller (instrumenteller) und messtechnischer Kontrolle möglich. Darüber hinaus ist es aber auch wichtig, die Übersicht 1110
Qualitätsparameter des analogen und digitalen Tonkanals über das komplette System zu behalten und das Zusammenspiel aller Komponenten zu kennen.
18.2
Qualitätsparameter des analogen und digitalen Tonkanals
Die Einhaltung anspruchsvoller Werte für die „klassischen“ Tonkanalparameter wie Störabstand, Frequenzgang oder nichtlineare Verzerrungen stellt im Zeitalter der digitalen Tonsignalübertragung i. Allg. kein besonderes Problem mehr dar – dies war noch vor weniger als 15 Jahren durchaus nicht selbstverständlich, wo oft um jedes dB oder % technisch oder auch ökonomisch gerungen werden musste. Trotzdem sollte man auch heute die anerkannten Grenzen für grundlegende Qualitätsparameter des Tonkanals, die sich letztlich aus den subjektiven Wahrnehmbarkeitsschwellen des menschlichen Gehörs ergeben, nicht aus den Augen verlieren. Einerseits schon deswegen, weil jeder Übertragungsweg mindestens eine analoge Quelle (i. Allg. das Mikrofon) und meistens auch ein analoges Endglied (Lautsprecher oder anderer Wandler) enthält, häufig jedoch auch noch eine oder mehrere zwischengeschaltete analoge Bearbeitungsstufen. Andererseits beeinflussen auch in der digitalen Domain bestimmte Parameter (wie z. B. Abtastfrequenz, Auflösung, Bitrate, Spitzenpegel oder auch Verarbeitungszeit) zum Teil gravierend die am Ende der Kette wirksamen analogen Tonkanalparameter. Hinzu kommen zahlreiche neue, oft dynamisch auftretende Signalparameter, deren Wirkung sich häufig nicht in einfachen Zahlenangaben darstellen lässt (wie Aliasingverzerrungen, Bitfehlerstörungen, etc.).
18.2.1
Subjektive Grenzwerte
Die sog. subjektiven Grenzwerte (subjective threshold values) für Tonkanalparameter stellen die mittels subjektiv-statistischer Untersuchungen unter meist idealen Hörbedingungen ermittelten Wahrnehmbarkeitsschwellen bzw. Unterschiedsschwellen dar, i. Allg. bezogen auf die 50%-Aussage einer Gruppe geübter Testpersonen. Die in Tab.18/1 angegebenen Grenzwerte basieren auf Testergebnissen, wie sie in der internationalen Literatur sowie in geltenden Standards (siehe [BS.644] oder [SSF1.1]) veröffentlicht wurden. Sie stellen letztlich auch die Richtschnur für die anzustrebenden Zielwerte am Ende des gesamten Tonübertragungskanals bis zum Hörer dar, unter Berücksichtigung aktuell geltender technischer und wirtschaftlicher Grenzen. In Kap.3 finden sich weitergehende Erläuterungen zu den in der Tabelle genannten Parametern.
18.2.2
Anzustrebende Zielwerte
Anzustrebende Zielwerte (target values for the reference transmission chain) sind realistische Werte bzw. Toleranzen für Tonkanalparameter am Ende eines definierten Abschnittes des Tonübertragungskanals. Sie dienen u. a. zur Orientierung bei der Festlegung von Werten und Toleranzen für einzelne Teile oder Geräte des Tonkanals. 1111
Qualitätssicherung
1112
Qualitätsparameter des analogen und digitalen Tonkanals Tab. 18/1 zeigt die für das Ende des gesamten Tonkanals (d. h. am Ausgang eines Kontrollempfängers nach der hochfrequenten Ausstrahlung) geltenden, sog. realistischen Zielwerte gemäß [BS.644], die einen international abgestimmten Kompromiss zum Zeitpunkt (Jahr 2000) der Verabschiedung dieses Standards darstellen, wobei hier noch von gemischten Übertragungstechniken (analog + digital) ausgegangen werden musste. Bei durchgängig digitaler Aufnahme/Bearbeitung, Speicherung und Übertragung einschl. der hochfrequenten Ausstrahlung (sog. DDDD-Technologie) sind heutzutage - bei Ausschöpfung der technischen Möglichkeiten - auch deutlich bessere Globalwerte erreichbar. Daneben sind auch ausgewählte Werte und Toleranzen der RBT-Richtlinie [DAR] dargestellt, die sich auf Geräte und Systeme beziehen, die zwischen analogen Ein- und Ausgängen eine digitale Signalverarbeitung beinhalten. Die Zielwerte gelten innerhalb des sog. effektiv übertragenen Frequenzbereiches (frequency range), also dem Bereich zwischen unterer und oberer Grenzfrequenz (i. Allg. gekennzeichnet durch einen Abfall von 3 dB gegenüber dem Pegel bei 1000 Hz), innerhalb dessen ein Tonsignal übertragen wird. Für analoge Rundfunkübertragung (UKW/FM, Fernsehen) gilt üblicherweise ein Übertragungsbereich von 40 Hz < f < 15 kHz, höhere Frequenzen können ohnehin über die gängigen Übertragungswege (Distribution) meist nicht mehr übertragen werden. Bei amplitudenmodulierter LMK-Übertragung ist der Bereich systembedingt weiter eingeschränkt. Für digitale Systeme lässt die [DAR] einen Frequenzbereich von 20 Hz bis 20 kHz zu. Die in der Tabelle genannten Werte und Toleranzen dürfen von jedem Abschnitt bzw. Gerät innerhalb des Kanals nur zu einem Bruchteil in Anspruch genommen werden, da sie sich im Verlaufe des Übertragungsweges kumulativ addieren können. Für den Ausgang des Studios gelten deutlich schärfere Bedingungen. Die für die jeweiligen Parameter zutreffenden Messverfahren sind unter Kap.10 behandelt, soweit nicht in den folgenden Abschnitten erläutert. Der ITU-Standard [BS.644] enthält außerdem noch separate Werte für die Abschnitte „Studio“ und „Emission/Reception“. Für sog. Heimstudio-Geräte (gehobener Consumerbereich) sind ebenfalls entsprechende Werte festgelegt, siehe IEC-Standard EN 60268, der seit 1989 die sog. HiFi-Norm DIN 45 500 ersetzt.
18.2.3
Additionsgesetze für Werte und Toleranzen
In Abhängigkeit von den jeweiligen physikalischen und mathematisch-statistischen Bedingungen sind folgende Additionsgesetze [18.1] zutreffend, um aus gemessenen oder propagierten Einzelwerten resultierende Gesamtwerte zu berechnen: (I)
Lineare Addition
as = E ai,
(II)
Quadratische (geometrische) Addition
as = exp(1/2) (E ai2),
(III)
Addition nach 3/2-Gesetz
as = exp(2/3) (E ai3/2),
mit ai = Wert bzw. Toleranz des Einzelabschnitts, einzusetzen als lineare Größe (mV, %), as = Toleranz des gesamten betrachteten Abschnitts. 1113
Qualitätssicherung Die rechte Spalte in Tab. 18/1 gibt an, welches der genannten Additionsgesetze auf den betreffenden Parameter anzuwenden ist. Zur statistischen Vorausberechnung resultierender Gesamt-Toleranzen ist generell Formel (II) anzuwenden. Das bedeutet beispielsweise, dass sich eine Absenkung des Amplitudenfrequenzgangs bei 10 kHz von jeweils !1 dB in zwei aufeinander folgenden Geräten durch lineare Addition entspr. Gl. (I) auf !2 dB erhöht, während der Störpegel (mit z. B. jeweils !60 dB) nach dem Durchlaufen zweier Geräte durch quadratische Addition der Störspannungen nach Gl. (II) um 3 dB auf !57 dB steigt.
18.2.4
A/D- und D/A-Wandlung
Es gibt auch in der digitalen Audiowelt diverse Parameter, welche die Qualität des Audiosignals bestimmen. Zum einen sind dies Parameter, die allein durch ihren Wert die Qualität des zu verarbeitenden Signals festlegen. Dazu gehören u. a. die Abtastrate und die Anzahl der Bits im Bereich der linearen Auflösung, sowie die Art der Codierung und die Bitrate bei datenreduzierten Systemen. Zum anderen sind es Einflüsse, die durch Wandlungsprozesse entstehen oder von außen eingeprägt werden. Da auch hier am Ende der Signalkette die analoge Wiedergabe für das Ohr steht, sollte man für digitale Systeme mindestens die Qualitätsansprüche aus der analogen Welt ansetzen, auch sei hier noch einmal das ARD-Pflichtenheft [Pf 3/5] genannt. Insbesondere bei der A/D (Analog-Digital)- bzw. D/A (Digital-Analog)-Wandlung treten verschiedene Einflüsse auf, die das Audiosignal in seiner Qualität festlegen bzw. beeinflussen können. 18.2.4.1
Abtastrate
Durch die Wahl der Abtastrate (auch als Abtastfrequenz oder Sampling-Frequenz bezeichnet) wird grundsätzlich die Bandbreite des zu nutzenden Audiosignals festgelegt. Bedingt durch das Abtasttheorem (siehe Kap. 11.1) entspricht die obere Grenzfrequenz des Nutzsignals maximal der halben Abtastfrequenz. Da der für das menschliche Ohr hörbare Frequenzbereich bis etwa 20 kHz (mindestens jedoch 16 kHz) festgelegt werden kann, ist für eine qualitativ hochwertige Audioverarbeitung eine Abtastfrequenz größer als 40 kHz notwendig. Die heute gebräuchlichsten Abtastfrequenzen sind 48 kHz (im professionellen Umfeld am häufigsten genutzt) und 44,1 kHz, welche die weit verbreitete Compact Disc (CD) nutzt. Besonders hochwertige Audiobearbeitungssysteme arbeiten auch mit 96 kHz. In wieweit die durch erweiterte Bandbreite jedoch zu einer hörbaren Verbesserung der Audioqualität führt, ist nicht unumstritten. Es gibt mittlerweile auch Abtastfrequenzen von 192 kHz und sogar 384 kHz, auch bekannt unter High resolution audio. Über deren Sinn sollte jedoch an anderer Stelle diskutiert werden. 18.2.4.2
Bitauflösung, Bitanzahl
Der niedrigste Wert für das zu verarbeitende digitale Signal ist durch den Quantisierungsfehler (siehe auch Kap. 11.1) festgelegt. Diese auch als Quantisierungsrauschen bezeichnete Störung ist umso kleiner, je höher die Bitauflösung, also die Anzahl der Bits pro Datenwort ist und legt 1114
Qualitätsparameter des analogen und digitalen Tonkanals die nutzbare Systemdynamik fest. Danach ergibt sich mit höherer Bitauflösung auch ein höherer Dynamikbereich, vergleiche zu weiteren Details auch Kap. 18.5.1. 18.2.4.3
Weitere Parameter
Neben den oben genannten Parametern, welche die Qualität des digitalen Audiosignals begrenzen gibt es weitere qualitätsbestimmende Parameter. Der größte Einfluss auf diese Werte entsteht bei der Wandlung aus bzw. in die analoge Welt. Messpunkte in digitalen Systemen sind in Abb.18/1 angegeben.
Abb. 18/1. Messpunkte in digitalen Systemen für A/D-, D/D- bzw. D/A-Messungen.
Durch die mittlerweile große Erfahrung der Wandlerhersteller und verbesserte integrierte Schaltungstechniken stellen die Werte der meisten Parameter bei modernen Wandlerbausteinen kaum mehr Einschränkungen für die Audioqualität dar und werden deshalb hier nur als Stichwort erwähnt. - Amplitudenfrequenzgang - Phasengang und Gruppenlaufzeit - Polarität - Linearität - Alias-Verzerrungen - Intermodulation - Signalmodulation durch Rauschen, Kleinsignal – Rauschmodulation - Gesamtverzerrung plus Rauschen (THD+N) - Leerkanalrauschen - Übersprechen - Impedanzen Zu messende Parameter und Vorgaben zur Messung sind ausführlich in den Richtlinien [AES17] sowie [DAR] beschrieben.
18.2.5
Pegelbedingungen
Zur optimalen Ausnutzung der Übertragungskapazitäten von Tonkanälen, Aufzeichnungsmedien und anderen Geräte- und Anlagen der Tonstudiotechnik sind bestimmte Bereiche und Grenzwerte für die maximalen und minimalen Pegel einzuhalten. Gemäß ITU-R Recommendation [BS.645] gelten folgende Definitionen entsprechender Test- und Betriebspegel (siehe auch [18.2], [18.3]) für den Rundfunkkanal, die sinngemäß auch auf andere Übertragungsund Speichermedien angewendet werden können: 1115
Qualitätssicherung 18.2.5.1
Systemgrenzpegel
Der Systemgrenzpegel (System Limit Level, LSL) kennzeichnet die Übersteuerungsgrenze eines Übertragungskanals, bei der die Qualitätsgrenze bei definierten nichtlinearen Verzerrungen (gilt vorzugsweise in analogen Systemen, z. B. bei > 1% Klirrfaktor), oder die sog. Klippgrenze (gilt vorzugsweise für digitale Systeme) erreicht wird. Der Systemgrenzpegel wird gelegentlich auch als „Aussteuerungsgrenze“ bezeichnet - dieser Begriff ist jedoch mehrdeutig und sollte deshalb vermieden werden.
Abb. 18/2. Klippgrenze bzw. Systemgrenzpegel eines A/D-Wandlers.
Es ist einer der gravierenden Unterschiede zwischen analogen und digitalen Systemen, dass im digitalen Bereich selbst bei geringfügiger Überschreitung des Systemgrenzpegels die nichtlinearen Verzerrungen sprunghaft ansteigen (clipping), während in einem Analogsystem im allgemeinen eine allmähliche Erhöhung (graceful degradation) zu verzeichnen ist. Abb. 18/2 zeigt deutlich die Klippgrenze eines A/D-Wandlers. Welche Pegelbereiche mit digitalen Systemen abgedeckt werden können, hängt unmittelbar von der Pegelzuordnung zwischen analogem und digitalem Bereich ab. Für die deutschsprachigen öffentlich rechtlichen Rundfunkanstalten ist diese Zuordnung wie folgt festgelegt: 15 dBu maximaler analoger Eingangspegel entspricht 0 dBFS maximaler digitaler Pegel (das Suffix FS steht für Full Scale = Vollaussteuerung). Diese Zuordnung ist jedoch nicht generell standardisiert und kann international mehr oder weniger stark abweichen. Es sollte darauf geachtet werden, dass bei A/D- und D/A-Wandlern im System jeweils die gleichen Pegelbezugswerte eingestellt sind. Darüber hinaus sollten diese Pegel an den Wandlern in weiten Bereichen separat einstellbar sein. 18.2.5.2
Zugelassener Maximalpegel
Aufgrund der entstehenden Verzerrungsprodukte bei Überschreitung der Klippgrenze ist es wichtig, einen ausreichenden Sicherheitsabstand zwischen dem maximalen Programm1116
Qualitätsparameter des analogen und digitalen Tonkanals signalpegel und dem Systemgrenzpegel einzuhalten. Im deutschsprachigen Rundfunkbereich liegt der zugelassene Maximalpegel (Permitted Maximum Signal Level, LPMS) analoger Systeme bei 6 dBu = 1,55 V und der entsprechende zugelassene Maximalpegel digitaler Systeme bei -9 dBFS. Dieser Pegel sollte – wie bei analogen Aussteuerungsanzeigegeräten – auch bei digitalen Geräten der Anzeige 0 dB(r) entsprechen. Durch diese Festlegungen bleibt ein Sicherheitsabstand (Headroom) als Übersteuerungssicherheit und Aussteuerungsreserve, um das Klippen von Pegelspitzen des Audiosignals zu vermeiden. Es ist anzumerken, dass die Definition des Sicherheitsabstandes (Headroom) bei nichtstationären Signalen, also bei normalem Programmmaterial, von der Integrationszeit des verwendeten Aussteuerungsmessers abhängt. Der festgelegte Headroom von 9 dB bezieht sich auf den Aussteuerungsmesser mit 10 ms Integrationszeit (PPM). Bei Aussteuerungskontrolle unter Verwendung dieses Standardaussteuerungsmessers können kurzzeitige Spitzenpegel oberhalb des zugelassenen Maximalpegels auftreten, so dass der effektive Headroom unter 9 dB liegt. Störende Verzerrungen (clipping) sind bei dieser Festlegung des Headrooms jedoch nicht zu befürchten (vgl. auch Kap. 18.4.1). An dieser Stelle soll darauf hingewiesen werden, dass kommerzielle Anbieter von digitalen Tonaufzeichnungen (CD, DVD) häufig auf die Einhaltung des Headrooms verzichten und ihre Aufzeichnungen in einem vorgelagerten Bearbeitungsprozess (Pre-mastering) bis zur jeweiligen Aussteuerungsgrenze aussteuern, um so eine erweiterte Systemdynamik zu nutzen. Solche Aufzeichnungen können dann bei der Kombination mit rundfunkeigenen Programmteilen eine bis zu 9 dB höhere Aussteuerung aufweisen und sind deshalb im Vorfeld pegelmäßig anzupassen. Der zugelassene Maximalpegel LPMS erzeugt z. B. bei einem UKW/FM-Sender einen Frequenzhub von 40 kHz. Bei Frequenzen oberhalb von 1 kHz erhöht sich dieser Wert entsprechend der bei FM wirksamen Preemphasis (siehe Kap. 17, Abb. 17/22), wodurch der verfügbare Headroom vollständig aufgebraucht werden kann. 18.2.5.3
Einstellpegel
Der Einstellpegel (Alignment Signal Level, LAS) kennzeichet den Pegel eines 1 kHz-Signals zur Einstellung von Übertragungssystemen (insbesondere von Weitverbindungen oder der sog. internationalen Tonprogrammverbindung). Das Einstellsignal entspricht im Funkhaus einem Pegel von –9 dBr (bezogen auf den zugelassenen Maximalpegel) und soll nur kurzzeitig (nicht länger als 30 s) angelegt werden. Das Einstellen und Messen der entsprechenden Tonkanäle kann auch automatisch mittels eines in ITU-R Recommendation [BS.645] definierten dreistufigen Testsignals erfolgen, das aus einer festgelegten Abfolge von 1 kHz-Sinussignalen mit den Pegeln LPMS, LAS und LMS besteht. Anhand unterschiedlicher Signalmuster kann damit auch die Kanalzuordnung Links/Rechts unterschieden werden. 18.2.5.4
Messpegel
Der Messpegel (Measurement Signal Level, LMS) ist der Pegel eines sinusförmigen Messsignals beliebiger Frequenz für Messungen im Tonkanal, der 12 dB unterhalb des Einstellsignalpegels 1117
Qualitätssicherung liegt (im Funkhausbereich also bei –21 dBr). Dieser relativ niedrige Pegel ist mit Rücksicht auf eventuelle Preemphasis-Einstellungen im Übertragungskanal erforderlich. 18.2.5.5
Minimaler Programmpegel
Der minimale Programmsignalpegel (Minimum Programme Signal Level, LMPS) kennzeichnet die untere Grenze der Programmdynamik, er sollte etwa 15 bis 20 dB oberhalb des im betreffenden Kanal einzuhaltenden Störpegels liegen, also bei analoger Übertragung nicht niedriger als etwa – 40 dBr. Der daraus resultierende Wert für die Programmdynamik von ca. 40 dB ist für Rundfunkaussendungen und den internationalen Programmaustausch bereits seit 1935 empfohlen. Der Bereich zwischen minimalem Programmsignalpegel und Störpegel (Leerkanalgeräusch) wird auch als Sicherheitsabstand (Footroom) bezeichnet. In der Praxis ist allerdings nicht zu vermeiden, dass bestimmte Anteile des Programmsignals (Einsätze, Ausklingvorgänge, Einund Ausblenden) auch in diesem Bereich liegen, wobei eine Verdeckung oder nahtlose Übergänge in den Geräuschpegel nicht zu verhindern sind. 18.2.5.6
Pegelprofile im analogen und digitalen Tonkanal
Das Pegelprofil beschreibt den Abstand der Pegel der o. a. systembestimmenden Signale in Bezug auf einen definierten Einstellpegel sowie auf Übersteuerungsgrenze und Störpegel eines Tonübertragungssystems [18.2] [18.3]. Die Kenntnis des Pegelprofils eines Übertragungskanals versetzt den Anwender in die Lage, die Systemeigenschaften sowie die Qualität der Übertragung hinsichtlich der erreichbaren Tonkanalparameter wie Systemdynamik, Übersteuerungsfestigkeit u. a. einzuschätzen, die richtigen Betriebspegel, Aussteuerungs- und Anschlussbedingungen sowie anzuwendende Messpegel festzulegen. In Abb. 18/3 ist das Pegelprofil in analogen und digitalen Systemen unterschiedlicher Bitauflösung dargestellt. Bei der Festlegung von angemessenen Werten für Headroom und Footroom erkennt man, dass sich schon mit 16-Bit-Systemen eine bessere Systemdynamik abbilden lässt, als mit analogen Magnettonträgern. Mit 20-Bit-Systemen lassen sich Schallereignisse mit mehr als 70 dB Dynamik verarbeiten. Ein großes Orchester hat einen Dynamikbereich von etwa 50 bis 70 dB (vergleiche auch Abb. 2/20 in Kap. 2.3.1.4), d. h. 20-BitSysteme sind grundsätzlich ausreichend für die Übertragung von qualitativ hochwertigen Audiosignalen. Mit den heute weitgehend benutzten 24-Bit-Wandlern ist also genügend Reserve für die Bearbeitung von professionellen Audiosignalen gegeben (siehe auch Kap. 18.5).
18.2.6
Störpegel
Störpegel treten in modernen Systemen vorwiegend als breitbandige Rauschsignale auf, im Fehlerfall bzw. bei älteren Anlagen im Analogbereich können auch stromversorgungsbedingte Brummeinstreuungen (Vielfache der Netzfrequenz 50 Hz) den Wert des Störpegels bestimmen. 1118
Qualitätsparameter des analogen und digitalen Tonkanals
Abb. 18/3. Pegelprofile im analogen und digitalen Tonkanal.
1119
Qualitätssicherung 18.2.6.1
Störpegelmessung
Störpegel werden im digitalen wie im analogen Bereich mit Bewertungsfiltern gemessen (siehe auch Kap. 10.3). Im deutschsprachigen Raum wird die Messung mit der standardisierten Bewertungskurve als Quasispitzenwertmessung nach ITU-R Recommendation [BS.468], früher DIN 45 405 bzw. CCIR-Empfehlung 468, vorgenommen (siehe Kap. 10.3.2, Abb.10/9). Im internationalen Vergleich werden teilweise auch andere Bewertungskurven genutzt. Als Beispiel sei hier die häufig verwendete IEC(A)-Bewertung genannt, die eigentlich für Schallpegelmessungen bei niedrigen Pegeln gedacht ist. In Abhängigkeit von der verwendeten Bewertungscharakteristik können dabei die Werte der angegebenen Störpegel bei dem gleichen System um mehr als 10 dB differieren. Dies ist in Abb. 18/4 dargestellt.
Abb. 18/4. Gemessener Störpegelabstand eines 24 Bit - A/D-Wandlers bei unterschiedlicher Bewertung.
Bei den digitalen Störpegelwerten ist weiterhin darauf zu achten, dass sie als Abstand bezogen auf den Systemgrenzpegel 0 dBFS angegeben werden. Das bedeutet, dass diese Werte – verglichen mit der bewerteten Störspannung aus dem analogen Bereich – rein zahlenmäßig deutlich besser erscheinen. Man muss jedoch von dem entsprechenden digitalen Störpegelwert den Wert des maximalen analogen Pegels (z. B. 15 dBu), abziehen, um diese Werte mit analogen Angaben vergleichen zu können. Ein nach ITU-R BS.468 bewerteter digitaler Störpegel von !90 dBFS entspricht demnach einem bewerteten Störpegel von !75 dBqp im analogen Bereich. Dieser Umstand muss auch bei der Betriebskennlinie (siehe Kap. 10.3.3, Abb. 10/10) von Mikrofoneingängen in digitalen Mischpulten berücksichtigt werden. Einem bewerteten analogen Störpegel von !44 dBqp bei 70 dB Verstärkung steht hier ein bewerteter Störpegel von !59 dBFS im digitalen Bereich gegenüber. 18.2.6.2
Störspektrum
Zur genauen Analyse von Störungen in digitalen Systemen ist es sinnvoll, am Ausgang des Prüflings ein Leerkanalspektrum und ein Frequenzspektrum bei Speisung mit einem Prüfpegel von !1 dBFS bei f = 997 Hz aufzuzeichnen. Mit Hilfe des Spektrums lassen sich sehr schnell Störungen erkennen und auch deren Ursache eingrenzen. Abb. 18/5 zeigt das Spektrum eines A/D-Wandlers mit Anregungsfrequenz f = 997 Hz. Deutlich sind Störungen durch 1120
Qualitätsparameter des analogen und digitalen Tonkanals Netzbrummen und Einkopplung der Störfrequenz 15,625 kHz (Fernseh-Zeilenfrequenz) zu sehen, während harmonische Verzerrungen der Anregungsfrequenz im Rauschen untergehen.
Abb. 18/5. Störspektrum eines A/D-Wandlers mit deutlichen Störanteilen.
18.2.6.3
Gesamtverzerrung mit Rauschen
Da beim A/D- bzw. D/A-Wandlungsprozess neben den aus dem analogen Bereich bekannten geradzahligen harmonischen Verzerrungen auch weitere Verzerrungsprodukte entstehen, wird bei digitalen Systemen der Wert der Gesamtverzerrung mit Rauschen (THD+N) als Kennwert gemessen bzw. angegeben. Dieser Wert ist auch als Kenngröße für die praktische Systemdynamik zu sehen.
18.2.7
Zeitbedingungen
Wie bei analogen Signalen kommt es auch bei digitalen Signalen durch Störeinflüsse zu Veränderungen der Signalform. Digitale Signale sind meist deutlich unempfindlicher gegen aufgeprägte Amplitudenstörungen, da sie phasencodiert sind, d.h. die Information ist in der zeitlichen Anordnung der Flanken des Signals codiert und Beeinflussungen der Amplitude haben kaum Einfluss auf die Wiedererkennbarkeit der Signalinformationen. Beeinflussungen im zeitlichen Ablauf hingegen können das digitale Signal gegebenenfalls empfindlich stören. Statisch (ständig) oder dynamisch (zeitweise) wirkende Zeitverschiebungen können zu unterschiedlichen Fehlerbildern führen. Im Gegensatz zur Analogtechnik ist hier die digitale Audioübertragung teilweise weniger fehlertolerant.
1121
Qualitätssicherung 18.2.7.1
Jitter
Störungen, die eine Abweichung des Signals von der ursprünglichen Phasenlage der Flanken verursachen, können kritisch sein, sie werden als Jitter bezeichnet (siehe auch Kap. 11.2.2.1). Jitter verändert das digitale Signal in seiner ursprünglichen idealen Form. Dies ist in Abb. 18/6 beispielhaft zu sehen. Es werden zwei Arten von Jitter unterschieden. Interfacejitter bezeichnet die Ungenauigkeit der Nulldurchgänge des digitalen Signals, die durch Phasenmodulationen entstehen. Die Hauptursache hierfür ist die Verflachung der Flanken, was durch die Tiefpasswirkung von Kabeln oder im elektronischen Schaltungsaufbau entsteht. Samplingjitter ist die Ungenauigkeit des digitalen Taktes selbst.
Abb. 18/6. AES-Signal mit unterschiedlicher Störbeeinflussung. - Oben: ohne nennenswerte Beeinflussungen, - Unten: mit deutlichen Störeinflüssen, dargestellt als so genanntes Augendiagramm.
Jitter wird als zeitliche Abweichung vom Nulldurchgang bei einem festgelegten Signalpegel in Nanosekunden gemessen. Es gibt auch die Angabe in Bezug auf die Laufzeit eines UnitIntervalls (UI). Ein UI ist das kürzeste Taktintervall im codierten Datenstrom. Diese Angabe 1122
Qualitätsparameter des analogen und digitalen Tonkanals wird häufig als %-Wert angegeben, da die UI-Laufzeit beim AES-Signal von der Abtastfrequenz abhängig ist. Beispielhafte UI-Werte sind in Tab. 18/2 angegeben. Tab. 18/2. Abtastfrequenzen und zugehörige Unit-Intervall-Längen. Abtastfrequenz 44,1 kHz 48 kHz 96 kHz 18.2.7.2
Länge eines Unit-Intervalls 177,15 ns 162,76 ns 81,38 ns
Augendiagramm
Die Darstellung der Veränderung des ursprünglichen Signals wie sie beispielsweise in Abb.18/6 im unteren Bild gezeigt ist, wird auch als Augendiagramm bezeichnet. Die Augenschließung, engl. eye-closure, ist dabei ein Kennwert für die Größe der Störeinprägung eines digitalen Signals. Wenn der Wert des Jitter zu groß ist, kann dies dazu führen, dass ein Eingang dieses Signal nicht verarbeiten kann. Hier sind die Auswirkungen deutlich drastischer als in der analogen Welt, denn das Signal kann dann gar nicht mehr erkannt werden, was zu einem totalen Ausfall des Audiosignals führen würde. Deshalb soll ein digitaler Eingang ein AES3-Signal noch verarbeiten, dessen Augenöffnung bei einem Wert von 200 mVpp noch mindestens 50 % des idealen UI-Wertes beträgt. Genauso soll ein Eingang aber auch Jitterbehaftete Signale akzeptieren, deren Toleranz in Abb. 18/7 angegeben ist. Hier sind die Toleranzen einzelner Jitterfrequenzen angegeben. Diese Jitterfrequenzen lassen sich mit entsprechenden Messgeneratoren erzeugen und somit lassen sich Prüflinge auch gut auf die Jitterverträglichkeit gemäß der Jittertoleranzkurve prüfen. Andererseits kann Jitter durch Demodulation nach der Rückwandlung auch zu Störungen im analogen Signal führen. Jitter sollte nicht zu signifikanten Erhöhungen des THD+N-Wertes (siehe Kap. 18.2.3) im gewandelten analogen Audiosignal führen.
Abb. 18/7. Jitter-Toleranzkurve gemäß [AES3].
18.2.7.3
Synchronisation
Die Synchronisation in digitalen Systemen ist eine wichtige Voraussetzung für die fehlerfreie Verarbeitung von Signalen. Es ist nicht immer gewährleistet, dass Systeme mit exakt gleichem 1123
Qualitätssicherung Takt arbeiten. Entweder müssen die Geräte dann synchronisiert werden, oder man muss einen Taktratenwandler (Sample-rate converter, SRC) einsetzen (siehe auch Kap. 11.2.2.1). Taktsignale in der digitalen Audiowelt sind entweder ein AES-Leerrahmen oder das so genannte Wordclocksignal, welches ein Rechtecksignal mit der verwendeten Abtastfrequenz ist. Gelegentlich werden Audiosysteme auch auf ein Video-Blackburst-Signal synchronisiert, das mit der Video-Taktfrequenz verknüpft ist. Störungen durch Synchronisationsfehler bewirken eine Unterbrechung bzw. Veränderung des digitalen Datenstromes und äußern sich meist durch Knackgeräusche. Diese treten sehr kurzzeitig auf und können den maximalen digitalen Pegel erreichen. Aus diesem Grund ist es notwendig, alle digitalen Geräte eines Systems auf einen gemeinsamen Takt zu synchronisieren. Sinnvoll ist ein hochgenauer „Haustakt“, der durch redundant ausgeführte, zentral angeordnete Generatoren erzeugt wird. Solche Taktgeneratoren werden heutzutage auf weit verbreitete Taktsignale wie beispielsweise DCF- oder GPS-Signale synchronisiert. In Komplexen, in denen auch Video bearbeitet wird, müssen außerdem Video- und Audiotakt zueinander synchron sein. 18.2.7.4
Zeitversatz
Wandlungs- und Verarbeitungsprozesse innerhalb der digitalen Welt, dazu zählen auch jegliche Umrechnungs- oder Umcodierungsprozesse, laufen nicht in Echtzeit ab, sondern benötigen jeweils bestimmte Rechenzeiten. Es kommt somit zu Zeitverzögerungen (auch als Latenzzeit bezeichnet) für das Audiosignal, siehe auch Kap. 13.1.4. Laufzeiten durch A/Dbzw. D/A-Wandler und Abtastratenwandler liegen im Allgemeinen kleiner bzw. um eine Millisekunde. Auch digitale Mischpulte und Effektgeräte verursachen Laufzeiten, die jedoch meist sehr gering sind. Die Laufzeiten durch Audio-Encoder und -Decoder dagegen liegen deutlich höher und können den Bereich 100 ms durchaus überschreiten, siehe auch Kap. 12.4ff sowie Kap. 17.6. Die Bestimmung und ggf. Kompensation der Signallaufzeiten in digitalen Systemen ist daher sehr wichtig. In der Videotechnik wird das Videosignal häufig deutlich länger verzögert als das Audiosignal. Aus diesem Grund müssen auch zusätzliche Verzögerungen (auch Delay genannt) im Signalweg eingebracht werden. Diese liegen meist im Bereich um 20 bzw. 40 ms (entspricht 1 Framelänge) oder Vielfachen davon. Sehr lange Laufzeiten treten auf, wenn das Signal über Satellitenwege transportiert wird. Hier sind Laufzeiten größer als eine Sekunde keine Seltenheit, siehe auch Kap. 17.2. 18.2.7.5
Phasenversatz
Der Phasenversatz zwischen linkem und rechtem Kanal, auch als Phasengang bezeichnet, der durch Wandlungs- oder Verarbeitungsprozesse entsteht, ist aus langjähriger Erfahrung als vernachlässigbar einzustufen. Eine spezielle Art des Phasenversatzes in der Digitaltechnik entsteht jedoch manchmal durch eine Verschiebung der Links-Rechts-Zuordnung der Subframes im digitalen Audioframe. Im Signalrahmen gemäß [AES3], ist der linke und rechte Audiokanal in Subframes unterteilt, die in einem Frame zeitlich zugehörig aufeinander folgen, vgl. auch Kap. 11.5.1. Es kommt gelegentlich vor, dass im Audioframe Fn und in den folgenden Frames das linke Subframe Sf(ln) und das rechte Subframe Sf(rn-1) oder Sf(rn+1) kontinuierlich 1124
Qualitätsparameter des analogen und digitalen Tonkanals immer um ein Framelänge versetzt sind. Dies hat zur Folge, dass es zwischen dem linken und rechten Kanal zu einem frequenzabhängigen Phasengang kommt, der bei halber Abtastfrequenz genau 180 Grad beträgt. Dies führt zu einem deutlich störenden Einfluss beim Hören dieses Audiosignals. Ist ein solches Verhalten mangels Messsystem messtechnisch nicht nachweisbar, lässt sich dies auch mit einem Stereosichtgerät (siehe Kap. 18.4.6) erkennen. Wenn links und rechts ein pegelgleiches Signal mit der gleichen Frequenz anliegt, zeigt das Stereosichtgerät im Normalfall unabhängig von der Signalfrequenz einen vertikalen Strich in der Mitte. Liegt ein Phasenversatz vor, wie er oben beschrieben ist, kommt es zu einer Ovalbildung, die sich mit steigender Frequenz zur waagerechten Achse hin verändert, siehe auch Abb. 18/8.
Abb. 18/8. Darstellung eines Stereosignals L, R, mit f = 1 kHz am Stereosichtgerät. Links: ohne Zeitversatz zwischen linkem und rechtem Kanal Rechts: mit Versatz um ein Frame zwischen linkem und rechtem Kanal
18.2.8
Störungen im digitalen Datenstrom
Das Auftreten von Bitfehlern ist in der digitalen Informationsverarbeitung praktisch unvermeidlich und würde unweigerlich zu einem Verlust an Information oder zu einer Qualitätsminderung wie Bild- und Tonstörungen führen, wenn solche Bitfehler nicht korrigiert würden. Es besteht ein direkter Zusammenhang zwischen Art und Stärke der Bitfehlerstörung und dem Ausmaß an Informationsverlust. Entsprechend viele und komplexe Strategien stehen zur Bearbeitung der verschiedenen Bitfehleraspekte zur Verfügung. Die jeweils eingesetzte Strategie hängt vom Anwendungsfall ab und kann dementsprechend mehr oder weniger aufwendig sein. Maßnahmen zur Vermeidung, Erkennung sowie Korrektur von Bitfehlerstörungen sind ein notwendiges Mittel zur Gewährleistung der hohen Übertragungsqualität digitaler Systeme. Sie bedingen jedoch nicht nur zusätzliche Übertragungskapazität (bis zu 30% und mehr), sondern ggf. auch Zeitverzögerungen bei der Übertragung (siehe hierzu auch Kap.17.1.3). 18.2.8.1
Störungen im Audiobitstrom
Störungen können z. B. auch bei der Übertragung von Audioprogrammen zwischen unterschiedlichen Systemen auftreten, die über verschiedene Medien und Transportmöglichkeiten verfügen. Hierzu zählen auch Weitverkehrsverbindungen wie z.B. LAN oder Hybnet (siehe Kap. 16.2.6). Auch aufwändige Kanalcodierungen für Fehlerkorrekturen können dies nicht 1125
Qualitätssicherung immer vermeiden (siehe auch Kap. 18.2.8, Bitfehlermanagement). Die Störungen treten durch Verletzung bzw. Unterbrechung des digitalen Datenrahmens auf und betreffen ein oder mehrere Frames. Dies äußert sich dann durch Ausfall des Signals oder durch Knackstörungen. Hier ist es schwierig, den Störer zu lokalisieren, da diese Medien oft durch externe Betreiber unterhalten werden. Solche Verbindungen werden durch THD+N-Messungen (siehe Kap. 18.2.6.3) mit engem Messintervall über einen langen Zeitraum geprüft, um auch kurzzeitige und selten auftretende Störungen zu erfassen. 18.2.8.2
Störungen in den Zusatzinformationen
Digitale Signale beinhalten nicht nur das Nutzsignal, sondern auch immer mehr Zusatzdaten oder sog. Metadaten. Diese können von den Systemen ausgewertet werden, falsche oder veränderte Daten können dann zu verändertem Funktionsverhalten führen, so dass das Nutzsignal nicht oder nicht korrekt wiedergegeben wird. Die Gründe hierfür sind vielfältig und reichen von fehlerhaften Angaben im Channel Status wie beispielsweise Consumer- oder Professional-Bit im AES-Signal, über falsche Header-Einträge in File-Formaten bis hin zu Rechte- bzw. Linzenzangaben oder fehlenden Decodiermöglichkeiten für digitale Audioformate. Zur Analyse von solchen Zusatzdaten sind zum einen Schnittstellentester notwendig, zum anderen gibt es auch Softwaretools zur Analyse von Datenfiles, die Angaben über entsprechende Zusatzinformationen (Metadaten) machen. Weitere Details zu Zusatzinformationen siehe z. B. Kap. 14.3.3. 18.2.8.3
Fehlerursachen und -wirkungen
Durch thermisches und elektronisches Rauschen können unabhängig von der Ursache in unregelmäßigen Abständen Bitfehler entstehen. Die Wahrscheinlichkeit für einen Fehler hängt dabei nicht vom Auftreten früherer Fehler ab, sondern nur von der momentanen Amplitude des Rauschens. Daher ist statistisch gesehen eine gleichmäßige Verteilung der Fehler in gleich langen Zeitintervallen zu erwarten. Bei Kurzzeitstörungen, wie z. B. elektrischen Funken, Kratzern auf CDs etc. sind in der Regel mehrere Bits hintereinander fehlerhaft Das führt dann zu einer ungleichmäßigen Fehlerverteilung. Unter den Kap. 12.3.2 sowie 18.7.3 sind verschiedene Auswirkungen von Bitfehlern und anderen Störungen des digitalen Signals in ihrer subjektiven Wirkung auf das resultierende Audiosignal beschrieben. Fehlerarten Einzelbitfehler sind Fehler, die unabhängig von anderen auftreten. Bündelfehler, auch Blockfehler (error bursts) genannt, sind Bitfehler, die abhängig von anderen auftreten. In der Telekommunikation tritt diese Art von Fehlern häufig durch Störeinflüsse wie z. B. Blitze oder Relaisschaltungen auf. Ein Fehlerbündel wird dabei durch eine zusammenhängende Sequenz von Symbolen bzw. Bits charakterisiert, bei der (mindestens) das erste und das letzte Symbol fehlerbehaftet sind und dazwischen keine zusammenhängende Teilfolge von korrekt empfangenen Symbolen innerhalb des Fehlerbündels existiert. 1126
Qualitätsparameter des analogen und digitalen Tonkanals Synchronisationsfehler sind Bündelfehler, die neben einem momentanen Datenverlust auch zu einem Verlust der an sich ungestörten nachfolgenden Information führen kann, indem auch nachfolgende, richtige Bits nicht mehr verwendet werden können. Im Ethernet können so z.B. Einzelbitfehler zu Synchronisationsfehlern werden. Fehlerhäufigkeit Bitfehlerhäufigkeit oder Bitfehlerrate (bit error rate) sind Maße für die Qualität der Übertragung auf digitalen Übertragungsstrecken bzw. der Speicherung von Daten auf Speichermedien. Das Bitfehlerverhältnis (Bit Error Ratio, BER) ist dagegen der Quotient aus der Anzahl der in einem beliebigen Zeitintervall fehlerhaft empfangenen Bits (Bitfehler) und der Anzahl der im gleichen Zeitintervall insgesamt empfangenen Bits. Handelt es sich um gespeicherte Bits auf einem Speichermedium, wird nicht ein definiertes Zeitintervall zugrunde gelegt, sondern eine definierte Speichergröße. So bedeutet z. B. eine Bitfehlerhäufigkeit von 3A10-6, dass von 1 Million übertragener oder gespeicherter Bits durchschnittlich 3 Bits falsch sein können. Die Messung zur Ermittlung der Bitfehlerhäufigkeit auf Übertragungsstrecken wird BER-Test (BERT) genannt. Sie wird gewöhnlich mit Hilfe von Prüfbitmustern durchgeführt, die von einem Messgerät gesendet und nach der Übertragung wieder empfangen und verglichen werden. Im Gegensatz zur Bitfehlerrate beschreibt die Bitfehlerwahrscheinlichkeit (Bit Error Probability, BEP) eine durch theoretisch-statistische Überlegungen berechnete Wahrscheinlichkeit für das Auftreten eines Bitfehlers. Geschlossene Berechnungen von Bitfehlerwahrscheinlichkeiten sind meist nur für idealisierte Szenarien möglich, werden aber häufig verwendet, um aufwendige Simulationen zu ersetzen und die Grenzen der Leistungsfähigkeit von nachrichtentechnischen Systemen abzuschätzen. 18.2.8.4
Fehlererkennung
In digitalen Speicher- und Übertragungssystemen werden verschiedene Möglichkeiten der Fehlererkennung, ggf. einschließlich Korrektur der eingetretenen Störungen eingesetzt, die jeweils unterschiedlichen Aufwand in Abhängigkeit von der entsprechenden Anwendung bedingen. Paritätsprüfung Die Paritätskontrolle (parity check) als einfachste Form der Fehlererkennung dient der Erkennung fehlerhaft übertragener Informationsworte. Bei der Paritätskontrolle wird an das Informationswort ein Paritätskontrollbit, auch Parity bit genannt, angehängt. Das Ergebnis, welches um n+1 Stellen länger ist als das Informationswort, wird Codewort genannt. Da nicht erkannt werden kann, an welcher Stelle des Codewortes der Fehler aufgetreten ist, ist keine Fehlerkorrektur möglich. Außerdem ist bei der Paritätskontrolle nur eine ungerade Anzahl von Bitfehlern in einem Codewort feststellbar. Bei Auftreten einer geraden Anzahl von Bitfehlern wird kein Fehler erkannt.
1127
Qualitätssicherung Zyklische Redundanzprüfung Die Zyklische Redundanzprüfung (Cyclical Redundancy Check, CRC) ist ein Verfahren aus der Informationstechnik zur Bestimmung eines Prüfwerts bei der Datenübertragung, um Fehler bei der Übertragung oder Duplizierung von Daten erkennen zu können. Vor Beginn der Übertragung der Daten wird aus einer bestimmten Datenmenge ein CRC-Wert berechnet. Nach Abschluss der Transaktion wird der CRC-Wert erneut berechnet, anschließend werden diese beiden Prüfwerte verglichen. CRC ist so ausgelegt, dass Fehler bei der Übertragung von Daten, wie sie beispielsweise durch Rauschen auf der Leitung verursacht werden könnten, fast immer entdeckt werden. Zum Beispiel wird bei den meisten ComputerFestplatten die Datenübertragung durch Schreib-/Leseoperationen mit CRC-Verfahren geprüft. Hash-Algorithmen CRC-Werte können nicht die absolute Integrität der Daten bestätigen. Das heißt, es wäre theoretisch möglich, durch gezielte Modifikation einen Datenstrom zu erzeugen, der den gleichen CRC-Wert wie eine gegebene Nachricht hat. Wenn eine solche Sicherheit gefordert ist, müssen kryptografische Streuwertfunktionen (Hash-function) zum Einsatz kommen. Eine Hash-Funktion ist eine Funktion bzw. Abbildung, die zu einer Eingabe aus einer üblicherweise großen Quellmenge eine Ausgabe aus einer im allgemeinen kleineren Zielmenge erzeugt. Ein Hash-Wert wird auch als Fingerprint bezeichnet, denn wie ein Fingerabdruck einen Menschen nahezu eindeutig identifiziert, ist ein Hash-Wert eine nahezu eindeutige Kennzeichnung einer übergeordneten Menge (siehe auch Kap. 12.9). Hash-Algorithmen sind darauf optimiert, so genannte Datenkollisionen zu vermeiden. Eine Kollision tritt dann auf, wenn zwei verschiedenen Datenstrukturen derselbe Schlüssel zugeordnet wird. Da der HashWert in der Praxis meist kürzer als die originale Datenstruktur ist, sind solche Kollisionen prinzipiell unvermeidlich, deshalb muss es Verfahren zur Kollisionserkennung geben. Hamming-Abstand Der Hamming-Abstand (Hamming Distance) und das Hamming-Gewicht, benannt nach dem Mathematiker Richard Wesley Hamming (1915–1998), sind Maße für die Unterschiedlichkeit von Zeichenketten. Werden zwei gleich lange Binärwörter miteinander verglichen, dann ist die Anzahl der Bits, in denen sich die beiden unterscheiden, die Hamming-Distanz. Das Hamming-Gewicht ist der Hamming-Abstand vom Nullwort - gleichbedeutend mit der Anzahl der gesetzten Bits. Der Hamming-Abstand wird zur Fehlererkennung und evtl. zur Fehlerkorrektur benutzt, indem Dateneinheiten nach der Übertragung mit gültigen Zeichen verglichen werden. Eine evtl. Korrektur der Zeichen erfolgt nach dem Wahrscheinlichkeitsprinzip. Anwendungen siehe z. B. unter Kap.17 (DAB, DVB). 18.2.8.5
Fehlerkorrektur
Vorwärtsfehlerkorrektur (forward error correction) ist eine Technik, die dazu dient, die Fehlerrate bei der Übertragung digitaler Daten zu senken. Wenn in einem Übertragungssystem Vorwärtsfehlerkorrektur eingesetzt wird, codiert der Sender die zu übertragenden Daten in 1128
Digitale Audiomesstechnik redundanter Weise, so dass der Empfänger Fehler erkennen und korrigieren kann. Vorwärtsfehlerkorrektur wird zum Beispiel auf Compact Discs (CD) und im Mobilfunk eingesetzt. Rückwärtsfehlerkorrektur bezeichnet das Erkennen von Fehlern auf der Empfängerseite, bei dem Fehler durch erneute Übertragung(en) korrigiert werden. Aktive Rückwärtsfehlerkorrektur wird z. B. bei TCP/IP (Transmission Control Protocol / Internet Protocol) benutzt. Ein Paket gilt als korrekt übertragen, wenn eine positive Rückantwort kommt. Der Sender weiß dann, dass die entsprechenden Puffer nicht mehr benötigt werden. Bei der passiven Rückwärtsfehlerkorrektur kann der Empfänger innerhalb einer gewissen Zeit Rückfragen stellen. Als Fehlerverdeckung (error concealment) werden Verfahren zur Verdeckung von Fehlern in digitalen Datenströmen bezeichnet. Solche Verfahren kommen zum Einsatz, falls die Kapazitäten einer Fehlerkorrektur erschöpft sind, also eine weitere Korrektur von Fehlern nicht möglich ist. Fehlerhafte Datenwörter werden in diesem Fall durch einen Schätzwert ersetzt. Dieser Wert kann beispielsweise der Wert des vorhergehenden Datenwortes oder der Mittelwert zwischen beiden Nachbarworten sein. Zu Fehlerkorrektur und -verdeckung bei der Audio-CD vgl. auch Kap.14.1.4.
18.3
Digitale Audiomesstechnik
Neben der Messtechnik in analogen Audiosystemen, die ausführlich in Kap. 10 behandelt ist, existieren in der digitalen Domäne zahlreiche weitere Messverfahren und -einrichtungen, die sich jedoch nicht in jedem Fall auf adäquate Werte und Parameter beziehen, wie sie aus der analogen Welt bekannt sind. Insbesondere in bitratenreduzierten Datenströmen lassen sich Audioparameter mit konventionellen, objektiven Messverfahren nicht oder nur eingeschränkt kontrollieren. Die Unterschiede werden im folgenden erläutert.
18.3.1
Messverfahren
Richtlinien Für die Messung und Bewertung von Parametern der digitalen Audiotechnik existieren verschiedene Normen und Richtlinien. In den einschlägigen Veröffentlichungen von AES bzw. EBU sind teilweise auch Sollwerte für entsprechende digitale Parameter angegeben. Für die geläufigen Audioparameter wie z.B. THD+N, Linearität oder Störpegel, um nur einige zu nennen, sind dort jedoch keine expliziten Angaben zu finden. Aus diesem Grund wurde von den öffentlich-rechtlichen deutschen Rundfunkanstalten die "Richtlinie für die Messung von digitalen Geräten und Anlagen in der Audio-Technik" erarbeitet [DAR]. In dieser Richtlinie sind Werte für digitale Audioparameter aufgeführt, deren Einhaltung in Anlehnung an das bekannte ARD-Pflichtenheft [Pf 3/5] die Qualität für einen einwandfreien Rundfunkbetrieb sicherstellen soll. Offline-Messung Unter den Begriff Offline-Messung fallen hauptsächlich Messungen, die nicht an Echtzeit gebunden sind bzw. nicht zeitgleich zum Übertragungsverlauf stattfinden. Sie werden vielmehr 1129
Qualitätssicherung vor der Inbetriebnahme der Übertragungseinrichtung oder in Betriebspausen durchgeführt. Hierfür sind die unter Kap. 18.3.2 genannten Messsysteme geeignet. Online-Messung Messungen, die online (also zeitgleich zur Programmsignalübertragung, unter Auswertung des in Echtzeit übertragenen Signals) laufen, dürfen den Produktions- bzw. Sendebetrieb nicht stören bzw. die Qualität des Programmsignals nicht beeinflussen. Zu diesem Zwecke werden neben der akustischen Überwachung mittels Abhöreinrichtungen vor allem visuelle (instrumentelle) Kontrollen des Programmsignals durchgeführt. Das wichtigste Gerät ist der Aussteuerungsmesser, ein weiteres Kontrollgerät ist z. B. das Goniometer. Neben einer Pegelkontrolle kann so auch die Richtungsverteilung des Audiosignals mit einem Stereo- oder Mehrkanalsichtgerät abgebildet werden. Auch eine frequenzabhängige Darstellung des Audiosignals ist mit bestimmten Geräten möglich. Weitere online-basierte Testsysteme sind Computersysteme, die das Audiosignal digital zwischenspeichern und eine direkte oder auch nachträgliche Analyse zulassen. Hierunter fallen neben Lautheitsmessungen über der Zeit auch automatische Pegelausfallkontrollen und sonstige Störungsanzeigen. Details siehe Kap. 18.4 sowie Kap. 18.6.
18.3.2
Messsysteme
Für die digitale Audiomesstechnik gibt es vielerlei Messgeräte. Diese reichen von einfachen Schnittstellentestern über Schnittstellenmessgeräte bis hin zu komplexen digitalen Audiomesssystemen. Schnittstellentester Mit einfachen Schnittstellentestern lässt sich schnell ein Überblick der digitalen Schnittstelle verschaffen. Neben der Abtastrate werden auch Zusatzdaten wie z. B. Channel-Status-Daten ausgewertet und angezeigt. Meist lässt sich das Signal über einen Kopfhöreranschluss oder einem kleinen Lautsprecher abhören. Diese Geräte sind gut geeignet, ein digitales Signal grob zu prüfen und ggf. abzuhören. Eine qualitative Aussage zum Audioinhalt ist jedoch nicht möglich. Schnittstellenmessgeräte Schnittstellenmessgeräte sind Schnittstellentester, die zusätzlich physikalische Parameter messen können. Dies sind z.B. Abtastfrequenz und deren Abweichung, Jitter, Signalspannung, Augenschließung und Verschiebungen zur Referenz. Weiterhin verfügen diese Messgeräte oft auch über einen eigenen digitalen Generator, mit dem man einfache Signale zu Testzwecken erzeugen kann. Auch mit diesen Messgeräten lässt sich keine Aussage über die Qualität des Audioinhaltes treffen. Komplexe Messsysteme Komplexe Audio-Messsysteme besitzen analoge und digitale Generatoren und Analysatoren, mit denen man ein weites Spektrum von Parametern an digitalen Systemen messen kann. 1130
Digitale Audiomesstechnik Solche Systeme sind in der Regel teuer und werden daher meist nur in Entwicklungsabteilungen, in der Fertigung zur Qualitätssicherung bzw. in Prüfinstituten verwendet. Durch vorprogrammierte Ablaufroutinen lassen sich viele Messparameter in kurzer Zeit erfassen. Leider muss häufig erheblicher Programmieraufwand betrieben werden, um diese Messroutinen flexibel anwenden zu können. Dann lassen sich aber quasi per Knopfdruck vielfältige Messungen durchführen, an deren Ende ein fast fertiges Protokoll ausgedruckt werden kann.
18.3.3
Gehörbasierte objektive Messverfahren
Bis vor einigen Jahren bestand die einzige Möglichkeit, die Tonqualität moderner AudioCodierverfahren zu bestimmen, in aufwendigen Hörtests mit erfahrenen Versuchspersonen (siehe auch Kap.18.6). Die traditionelle Messtechnik, z. B. die Bestimmung des SignalRauschabstandes, des Frequenzgangs oder der nichtlinearen Verzerrungen kann prinzipiell keinen Aufschluss über die Qualität solcher Codierverfahren vermitteln. Aufgrund ihrer zunehmenden Verwendung sowohl bei der digitalen Übertragung und Speicherung von Audiosignalen als auch im Bereich von Computer-Multimedia und Internet wurden daher neuartige objektive Messverfahren benötigt. Grundprinzip dieser neuen Klasse von Messverfahren ist die gehörrichtige Analyse und Bewertung der resultierenden Qualitätsveränderung eines übertragenen Tonprogrammsignals im Vergleich mit dem entsprechenden unbeeinflussten Originalsignal. Voraussetzung hierfür ist ein mathematisch beschriebenes Modell der akustischen Wahrnehmung von Tonsignalen (sog. psycho-akustisches Modell), das die menschlichen Gehöreigenschaften möglichst besser und exakter nachbilden kann, als es in den zu untersuchenden Übertragungssystemen der Fall ist, die heute meist ebenfalls psycho-akustische Modelle zur Reduzierung der erforderlichen Übertragungskapazität benutzen. Solche Bewertungen sind in der Regel nur als offline-Messung durchführbar, da zum einen das uncodierte Referenzsignal benötigt wird und außerdem beim Vergleich der codierten und uncodierten Fassung unterschiedliche Laufzeiten entstehen. Aufgrund der Komplexität solcher Messverfahren finden entsprechende Messsysteme vorwiegend in Entwicklungseinrichtungen oder im Prüffeld Anwendung. 18.3.3.1
PEAQ
Ein solches, von der ITU-R [BS.1387] empfohlenes Messverfahren PEAQ (Perceptual Evaluation of Audio Quality) entstand 1998 in internationaler Zusammenarbeit mehrerer Forschungsinstitute. Die Messmethode basiert auf der Kombination verschiedener objektiver Qualitätsmaße, die in einem Schätzwert für die wahrgenommene Audioqualität zusammengefasst werden. Der PEAQ-Algorithmus misst z. B. lineare und nichtlineare Verzerrungen, Abstände zu einer berechneten frequenzabhängigen Verdeckungsschwelle und Änderungen der zeitlichen Struktur des Testsignals im Vergleich mit dem jeweiligen Originalsignal. Dabei wird auch die harmonische Struktur der Verzerrungsprodukte berücksichtigt. Mittels eines künstlichen neuronalen Netzes wird aus diesen verschiedenen Parametern ein globales Maß zur Abschätzung der empfundenen Audioqualität gewonnen. 1131
Qualitätssicherung Prinzipiell vergleicht ein PEAQ-Messsystem das Originalsignal mit dem decodierten Signal und misst die Qualität als sog. ODG-Wert (Objective Difference Grade), d. h. als Abweichung bzw. wahrnehmbare Änderung der summarischen Audioqualität, unter Verwendung der in der ITU-R Recommendation [BS.1284] definierten fünfstufigen Impairment-Skala (siehe Kap.18.6, Tab.18/13). Abb. 18/9 zeigt das prinzipielle Wirkschema der PEAQ-Analyse.
Abb. 18/9. Wirkschema des PEAQ-Analysators, nach ITU-R [BS.1387].
18.3.3.2
NMR
Ein weiteres bekanntes Maß ist das sog. NMR (Noise to Mask Ratio), das einen Wert (Abstand in dB) angibt zwischen der Verdeckungsschwelle und dem (hörbaren) Anteil der Störung. Hierfür sind verschiedene bekannte Messgeräte am Markt. Leider kann für das NMR bisher keine direkte Relation zur subjektiven Störwirkung angegeben werden, was allerdings auch für viele der traditionellen objektiven Messparameter zutrifft. 18.3.3.3
PESQ
Ähnlich dem PEAQ-Messverfahren gibt es eine solche Lösung speziell auch für Sprachsignale unter der Bezeichnung PESQ (Perceptual Evaluation of Speech Quality) nach ITU-T Recommendation [P.862]. PESQ ermöglicht die Beurteilung von codierten/bitratenreduzierten Sprachsignalen unter realen Netzwerkbedingungen wie VoIP (Voice over IP = InternetTelefonie), POTS (Plain Old Telephone Service = klassischer analoger Telefondienst), ISDN oder GSM.
1132
Visuelle Programmsignalkontrolle
18.4
Visuelle Programmsignalkontrolle
Eine visuelle bzw. instrumentelle Programmsignalkontrolle im Sinne der Aussteuerung des Audiosignals ist notwendig, um den Signalpegel optimal an die konkreten technischen Bedingungen des Übertragungskanals bzw. des Aufzeichnungsmediums anzupassen. Dazu sind prinzipiell eine Pegelanzeige bzw. ein Aussteuerungsmesser sowie ein Pegelsteller erforderlich. Ziele der Aussteuerung sind - Schutz des Übertragungssystems vor Übersteuerungen (zur Vermeidung störender nichtlinearer Verzerrungen, sowie – z. B. beim UKW/FM-Rundfunk – unzulässiger Nachbarkanalstörungen); - optimale Ausnutzung der verfügbaren Kanalkapazität durch Einhaltung der vorgeschriebenen Schutzbereiche (Headroom, Footroom) zur Gewährleistung der gewünschten Programmdynamik einerseits, und der erzielbaren Reichweite bei Rundfunkübertragung andererseits; - Gewährleistung eines angemessenen Lautstärkegleichgewichtes zwischen aufeinander folgenden Programmteilen im Verlaufe einer Sendung oder Produktion, bzw. zwischen verschiedenen Rundfunk- oder Fernsehprogrammen; - bei zwei- oder mehrkanaligen Audiosignalen auch die Kontrolle weiterer charakteristischer Signalparameter, wie Richtungsverteilung, Balance, Phasenlage etc. Die Aussteuerungskontrolle im oberen Pegelbereich bezieht sich vor allem auf die maximalen Pegel des Programmsignals, die einen vereinbarten Wert (Bezugspegel bzw. max. zulässigen Programmsignalpegel 100% = 0 dBr) nicht überschreiten sollen. Im unteren Pegelbereich ist die Einhaltung des minimal zulässigen Nutzpegels zu kontrollieren, der einen angemessenen Abstand (ca. 15 bis 20 dB) zum Störgeräusch des betreffenden Mediums nicht unterschreiten sollte. Zur Definition der genannten Pegelwerte siehe Kap.18.2.
18.4.1
Rundfunk-Aussteuerungsmesser
Im Unterschied zu den verschiedenartigen Aussteuerungsanzeigen in Tonstudioanlagen unterschiedlichster Ausrüstung und Aufgabenstellung gelten für Rundfunkaussteuerungsmesser weitgehend einheitliche Anforderungen, die u. a. im Technischen Pflichtenheft der ARD [Pf 3/6] definiert sind. An erster Stelle sind hier die anzuwendenden Bezugs- und Einstellpegel zu nennen, die nachstehend beschrieben werden. Bezugspegel und Einstellsignalpegel Wichtigster Bezugspunkt im Studiobereich ist der sog. Bezugspegel 0 dBr = 100%, der den maximal zulässigen Programmsignalpegel LPMS (Permitted Maximum Signal Level) kennzeichnet, siehe Kap.18.2.2. Gelegentlich wird dieser Wert auch als Funkhauspegel, Nominaloder Nennpegel bezeichnet. Die ebenfalls gebräuchliche Bezeichnung „Vollaussteuerung“ sollte jedoch vermieden werden, da sie teilweise auch für den Systemgrenzpegel verwendet wird und daher missverständlich ist. Zur Pegeleinstellung von Übertragungsstrecken und Sendern sowie im internationalen Programmaustausch wird hingegen mit dem sog. Einstellsignal (Alignment Signal Level, AL) gearbeitet, das 9 dB unterhalb des PMS liegt (siehe Kap. 18.2.2). 1133
Qualitätssicherung Es sollte beachtet werden, dass Einstellsignalpegel sowie zulässiger maximaler Programmsignalpegel in verschiedenen nationalen und internationalen Empfehlungen – bei physikalisch gleichen Spannungswerten – mit unterschiedlichen Zahlenangaben definiert werden (siehe Tab. 18/3). Innerhalb der EBU wurde der Zusammenhang zwischen Einstellsignal und Übersteuerungsgrenze (Full scale / Clipping level) für digitale Audiokanäle bereits 1992 in der Recommendation [R68] definiert. Danach beträgt die Differenz zwischen Systemgrenzpegel und Einstellsignal 18 dB. Unterschiede im internationalen Maßstab Derzeit werden in professionellen Studios Aussteuerungsmesser mit unterschiedlichen Ballistik- und Skalen-Eigenschaften eingesetzt (Tab.18/4). Während in Amerika und Australien vorwiegend noch das sog. VU-Meter verwendet wird (siehe weiter unten), empfiehlt die EBU [Tech3205] für die europäischen Länder den sog. Quasi-Spitzenwertaussteuerungsmesser (Peak Programme Meter, PPM). Tab. 18/3. Standardisierte Audio-Referenzpegel für Produktion und Übertragung. Standards für analoge und digitale Audio-Bezugspegel Anzeige am Rundfunkaussteuerungsmesser ITU-R [BS.645] Übertragungspegel (international) EBU [R68] Digital Transmission & Studio Level (International) ARD (HFBL-K) Studio-Bezugspegel (national) US, UK (BBC) Reference Level (national)
Einstellpegel LAL (Alignment level) !9 dBr (35%)
Bezugs-/Nominalpegel LPMS (Permitted Maximum Level) 0 dBr (100%)
0 dBu *)
+9 dBu
!18 dBFS
!9 dBFS **)
!3 dBu
+6 dBu +4 dBm (dBu)
*) 0 dBu = 0.775 Veff(rms, sinus) = 1.1 Vspitze(peak) **) 0 dBFS = Systemgrenzpegel (Clipping Level), FS = Full Scale
18.4.2
Quasi-Spitzenwert-Aussteuerungsmesser
Im deutschen Rundfunk ist seit etwa 1935 ausschließlich die sog. Quasispitzenwertanzeige (Quasi Peak Programme Meter, QPPM) nach [DIN 45406] vorgeschrieben. In der Folgezeit haben sich immer mehr europäische und außereuropäische Rundfunk- und Fernsehanstalten sowie professionelle Produktionsfirmen diesem Standard angeschlossen. Internationale und nationale Standards, wie IEC Publication [IEC268], EBU Document [Tech3205] oder ARD Pflichtenheft [Pf 3/6] legen hierfür weitgehend einheitliche Eigenschaften fest. Trotzdem gibt es immer noch zahlreiche Detailunterschiede in den ballistischen und konstruktiven Eigenschaften verschiedener Ausführungen (siehe Tab. 18/4), so dass im Fall eines Programmaustausches immer ein sorgfältiger Vergleich der angewandten Aussteuerungsmethoden angebracht ist. 1134
Visuelle Programmsignalkontrolle Statische Eigenschaften Als wichtigster statischer Parameter eines Aussteuerungsmessers ist der Anzeigeumfang zu nennen, der einen Pegelbereich von mindestens 40 dB (entsprechend der angestrebten Programmdynamik im Rundfunkbereich) überstreichen sollte. Ein weiterer Parameter ist der Amplitudenfrequenzgang der Anzeige, der im gesamten Übertragungsfrequenzbereich (40 Hz bis 15 kHz) linear ist und oberhalb und unterhalb dieses Bereiches eine abfallende Charakteristik haben soll. Die Anzeigegenauigkeit liegt in der Größenordnung von etwa 1 dB, daher sind Aussteuerungsmesser i. Allg. nicht für Messungen an Geräten und Anlagen zu nutzen, sondern nur für temporäre betriebliche Einstell- und Überwachungsvorgänge. Dynamische Eigenschaften Das Anzeigeverhalten eines Aussteuerungsmessers wird vorrangig von den dynamischen (ballistischen) Eigenschaften bestimmt. Maßgeblich für die Erfassung kurzer Signalspitzen ist die sog. Integrationszeit (attack time), die für Quasi-Spitzenaussteuerungsmesser je nach Definition bzw. Standard zwischen 5 und 10 ms liegt. Das bedeutet, dass kürzere Tonsignalimpulse mit einem geringeren Wert (< 80%) angezeigt werden, als ihrer tatsächlichen Amplitude entspricht. Um die tatsächlich auftretenden Übersteuerungen durch kurze Impulse, die durch die genannten Anzeigefehler oder aber auch durch individuelle Fehlablesungen zustande kommen können, ohne Störungen übertragen zu können, steht der an anderer Stelle beschriebene Übersteuerungsbereich (Headroom) zur Verfügung (max. 9 dB). Neben dem QPPM wird – insbesondere bei digitaler Signalübertragung – die Verwendung der „echten“ Spitzenwertanzeige (True Peak Programme Meter, TPPM) mit einer Integrationszeit von !9 dB auftreten. In Abhängigkeit vom Charakter des Programms treten tatsächlich kurzzeitige Signalspitzen auf, die vom QPPM nicht angezeigt werden, aber i. Allg. auch keine Übersteuerungen (clipping) verursachen. Wie bekannt, bedeutet dieselbe Aussteuerung unterschiedlicher Programmsignale nicht unbedingt dieselbe Programmlautstärke. Diese Diskrepanz ist besonders auffällig, wenn man Sprach- und Musikaufnahmen miteinander vergleicht. Um eine angemessene Lautstärkebalance bei gemischten Sendeprogrammen zu erhalten, wurden deshalb entsprechende Aussteuerungsempfehlungen für unterschiedliche Programmarten erarbeitet (Tab. 18/5), die 1141
Qualitätssicherung sowohl für Hörfunk- als auch Fernsehsendungen innerhalb der ARD und weiteren deutschsprachigen Rundfunkanstalten gelten, siehe [ARD et al]. Ähnliche Empfehlungen galten bereits in früheren Jahren in den Rundfunkorganisationen der OIRT. Tab. 18/5. Aussteuerungsempfehlungen (ARD) bei gemischten Sendeprogrammen. Programmart Wortbeiträge ohne künstlerischen Charakter Off-Sprecher Musik mit geringer Dynamik (< 15 dB) Musik mit großer Dynamik Werbung (stark komprimiert)
18.4.5
QPPMmax/dBr, 0 dBr = !9 dBFS 0 0 !3 bis !6 0 !6
Lautstärkemessung
Mit den oben beschriebenen Empfehlungen allein kann jedoch nur bedingt eine angemessene Lautstärkebalance erzielt werden. Dazu ist ein zusätzlicher Lautstärkemesser erforderlich, der den Anforderungen an einen Einsatz im Rundfunkbetrieb entspricht. Ein solcher stand jedoch bis vor einigen Jahren nicht zur Verfügung, da weder die bekannte Quasispitzenwertmessung, noch die VU-Meter-Anzeige eine ausreichende Übereinstimmung mit dem subjektiven Lautheitseindruck aufweisen. Die immer wieder aufgestellte Behauptung, dass die Anzeige eines VU-Meters wegen ihrer größeren Trägheit besser als die Spitzenwertanzeige für eine lautheitsgerechte Aussteuerung geeignet sei, wurde bereits früh widerlegt [18.3]. Auch andere gelegentlich benutzte Lautstärkemessverfahren, wie die Ermittlung des für Lautstärkemessungen in der Arbeitsmedizin genutzten „Äquivalenten Mittelungs-Lautstärkepegels“ Leq in Verbindung mit der IEC(A)-Bewertung erwiesen sich ebenfalls als nicht geeignet für betriebliche Anwendungen. Die Folge sind die seit langem bekannten, störenden Lautstärkeunterschiede bei Radio- und Fernsehprogrammen, sowohl innerhalb eines Programms, als auch im Vergleich verschiedener Sender untereinander. Als besonders störend werden die immer häufiger in Fernseh- und Hörfunkprogramme eingeschobenen Werbeblöcke empfunden, die durch entsprechende Bearbeitung (Dynamikkompression, Filterung) auf maximale Lautheitswirkung getrimmt sind und dadurch starke Sprünge im Lautheitsverlauf des Programms erzeugen können. Nicht selten sind daher solche Lautstärkeunterschiede Anlass für Beschwerden der Rundfunkhörer und Fernsehzuschauer. Um dem Problem zu begegnen, sind seit einiger Zeit Lösungen bekannt, die eine Echtzeitmessung der Programmlautstärke parallel zur Aussteuerungsmessung erlauben und die jeweils eine Mehrzahl der bekannten lautheitsrelevanten Teilparameter wie Effektivwert (RMS), Frequenzbewertung (B- bzw. C-Kurve) sowie geeignete kumulative Pegelstatistiken berücksichtigen. Die „klassische“ Methode, der sog. Zwicker-Algorithmus [DIN 45631], wurde zwar auch schon in ein Betriebsmessgerät implementiert [18.5], konnte sich jedoch nicht in der Praxis etablieren. 1142
Visuelle Programmsignalkontrolle 18.4.5.1
Studiotaugliche Lautstärkemesser
Stereo-Lautstärkemesser Untersuchungen haben gezeigt, dass der 50%-Wert der kumulativen Pegel-Häufigkeitsverteilung des QPPM-Wertes, also die Anzeige eines Aussteuerungsmessers QPPM mit einer Integrationszeit von 10 ms und einer Abfallzeit von 1,5 s, als relevant für die empfundene Lautstärke betrachtet werden kann [18.6], siehe Abb. 18/12.
Abb. 18/12. QPPM und kumulative Pegelverteilung (Testbeispiel Klavier).
Abb. 18/13. Beispiele für Signal- und Lautstärke-Pegelmessungen von Fernsehprogrammen.
1143
Qualitätssicherung Der aus den oben genannten Ergebnissen resultierende IRT-Lautstärkealgorithmus basiert auf der kontinuierlichen QPPM-Messung, wobei sich der Lautstärkepegel LSM aus der Berechnung des Medianwertes der QPPM-Pegel über ein definiertes Zeitintervall von einigen Sekunden mit einer Refresh-time von 200 ms ergibt. In Abb. 18/13 sind jeweils der Spitzenpegel TPPM_0 ms, der Quasispitzenpegel QPPM_10 ms und der Lautstärkepegel LSM_3 s für verschiedene Ausschnitte unterschiedlicher TV-Programme dargestellt. Das beschriebene Lautstärkemessverfahren ist als Zusatzfunktion in Aussteuerungsanzeigegeräten implementiert, teilweise alternativ zu dem unter Kap. 18.4.5.2 behandelten ITU-Lautstärkealgorithmus. Mehrkanal-Lautstärkemesser Der Mehrkanal-Lautstärkealgorithmus basiert auf demselben Prinzipien wie der StereoLautstärkemesser. Bei der Berechnung des Lautstärkepegels werden zunächst die Lautstärken der einzelnen Kanäle des MCA (Mehrkanal-)Signals gemessen und dann mathematisch miteinander verknüpft. Wie auch beim Stereo-Lautstärkemesser wird zwischen subjektiver und objektiver Lautstärke eine Korrelation > 90% erreicht. Abb.18/14 zeigt eine Implementierung des IRT-Lautstärkemessers in das Anzeigedisplay einer Mehrkanal-Aussteuerungsanzeige (rechter Anzeigerbalken).
Abb. 18/14: Aussteuerungsmesser mit Stereo-/MCA-Lautstärkeanzeige (rechter Balken), IRT / Fa. Pinguin.
18.4.5.2
Internationale Standardisierung
In der Zeit von 2002 bis 2006 beschäftigte sich eine Arbeitsgruppe der ITU-R mit der Standardisierung eines Lautstärkemessers für Rundfunkanwendungen. Aus mehreren Lösungsvorschlägen wurde anhand internationaler Vergleichstests ein geeigneter Algorithmus zur 1144
Visuelle Programmsignalkontrolle objektiven Lautstärkebestimmung für monofone, stereofone und mehrkanalige Audioprogrammsignale ausgewählt, der in den Recommendations [BS.1770] und [BS.1771] niedergelegt ist. Der ITU-Lautstärkealgorithmus ist dadurch gekennzeichnet, dass das Audiosignal zunächst zur Nachbildung der akustischen Eigenschaften der menschlichen Kopfform mit einem definierten Hochpass-Filter vorgefiltert wird. Anschließend wird ein Bewertungsfilter durchlaufen, dessen sog. RLB-Charakteristik (Revised Low-frequency B-curve) einem einfachen Hochpassfilter mit einer 3 dB-Grenzfrequenz bei etwa 60 Hz entspricht. Danach wird von jedem der so behandelten Signale der Effektivwert (RMS) ermittelt. Diese Werte werden summiert, wobei bei einem Mehrkanal-Signal im 3/2-Format die rückwärtigen Kanäle mit dem Faktor 1,4 bewertet werden. Der resultierende Wert, der den ermittelten Lautstärkeunterschied zu einem Referenzsignal (1 kHz Sinuston von 0 dBFS) kennzeichnet, wird in einen entsprechenden dB-Wert umgerechnet. Durch konsequente Anwendung der beschriebenen Richtlinien und Messverfahren ist ein ausgeglichenes Lautstärkeniveau innerhalb eines Rundfunkprogramms durchaus zu erreichen. Die individuellen Bedürfnisse des einzelnen Hörers/Fernsehteilnehmers können jedoch dabei nicht berücksichtigt werden, da sie je nach Hörerwartung (Musikhören, Informationsbedürfnis, Hintergrundhören) und Hörsituation (Hören im fahrenden Auto, erhöhter Umgebungsstörpegel oder eingeschränkte Wiedergabelautstärke etc.) deutlich variieren können. Dieser kann grundsätzlich nur durch eine individuelle Lautstärkesteuerung des einzelnen Hörers an seinem Hörort gelöst werden. Geeignete Verfahren (variable Dynamik, DRC, Musik/SpracheSteuerung) sind bereits seit langem standardisiert, haben jedoch bisher noch keinen ausreichenden Eingang in die Praxis gefunden, siehe Kap. 18.5.3ff. Unterdessen ist auch die EBU (P/LOUD) bemüht, die genannten ITU-Standards durch entsprechende Empfehlungen (Recommended Practice) für die betriebliche Anwendung im Rundfunkprozess zu untersetzen, um die bisher übliche Spitzenwertaussteuerung durch eine Lautheitsanzeige zu ergänzen bzw. zu ersetzen.
18.4.6
Goniometrische Messverfahren
Gewöhnlich wird die Qualität eines Klangbildes anhand des wiedergegebenen Schallfeldes beurteilt. Bei zwei- oder mehrkanaligen Signalen können dabei oft Irregularitäten wie nichtlineare Verzerrungen, Phaseneffekte etc. auftreten, die zwar als Störung empfunden werden, deren technische Ursachen jedoch durch Hören allein nicht eindeutig erkannt werden können. Derartige Schwierigkeiten nehmen i. Allg. mit steigender Anzahl von Wiedergabekanälen zu. 18.4.6.1
Stereo-Sichtgerät
Die Notwendigkeit einer zusätzlichen visuellen Kontrolle mehrkanaliger Audiosignale wurde bereits in einem frühen Entwicklungsstadium der Zweikanalstereofonie von einem ihrer Pioniere L. Lauridsen erkannt, der daraufhin die erste Lösung für ein sog. Goniometer zur Visualisierung bestimmter Zusammenhänge zwischen zweikanaligen Stereo-Signalen mittels sog. Lissajous-Figuren vorgeschlagen hat [18.8], die jedem Nachrichtentechniker als Ellipsendarstellung auf einem Oszillografenbildschirm bekannt sind. 1145
Qualitätssicherung
Abb. 18/15. Stereo-Goniometerschirmbilder (Beispiele). Erläuterungen siehe Tab. 18/7.
Tab. 18/7. Erläuterungen zu Abb. 18/15. Bild 1
2 3 4 5 6
1146
Erläuterung 1 kHz-Messsignal in verschiedenen Konstellationen: ----- M-Signal (Mono) - - nur linker Kanal (A-Signal) ….. nur rechter Kanal (B-Signal) Normal ausgesteuertes Stereosignal (A, B) mit angemessener Basisbreite Stereosignal mit halblinks eingeordneter Solistengruppe (als Monosignal zugemischt) Stereosignal mit verpolt zugemischtem Solistensignal (Solistenanteile werden bei Bildung des kompatiblen Monosignals ausgelöscht!) Pseudo-Stereosignal (ein monofones Quellsignal wurde mit unterschiedlicher Filterung in den linken und rechten Kanal eingespeist) Regelverstärker (Begrenzer, Kompressor) im Summenweg mit ungleichen oder nicht synchronisierten Arbeitskennlinien
Visuelle Programmsignalkontrolle Daraus entstanden verschiedene Modelle solcher Goniometer (später auch als Stereo-Sichtgerät oder Vektorskop bezeichnet), die sich seither bei der Überwachung in Produktion, Aufzeichnung, Übertragung und Wiedergabe von Stereo-Programmsignalen hervorragend bewährt haben, unterdessen oftmals auch als integrierter Bestandteil von Mischpulten. Die ursprüngliche Realisierung bestand aus einem Oszilloskop mit Katodenstrahlröhre ohne Zeitablenkung. Dabei wurden die Stereo-Signale A und B so an die beiden Plattenpaare angelegt, dass ein Mittensignal (A=B) eine unter 45/ nach rechts geneigte Gerade ergab. Später [18.7] wurden stattdessen Summen- und Differenzsignal gebildet und das Summensignal (A+B) an die vertikalen und das Differenzsignal (A-B) an die horizontalen Platten angelegt, wodurch sich eine sinnfälligere Anzeige ergibt, die etwa dem akustischen Höreindruck entspricht. Aus diesen Anzeigebildern, die sich dynamisch in Abhängigkeit vom Signalverlauf ändern, können mit einiger Übung leicht Informationen über - Seitenzuordnung, - Richtungsverteilung, - Stereobalance, - Phasenlage, - Übersprechen, sowie die zu erwartende Kompatibilität eines Stereoprogramms abgeleitet werden. Abb. 18/15 zeigt eine Auswahl von Goniometer-Schirmbildern typischer Signalkonstellationen, die in der nachstehenden Tab. 18/7 erläutert sind. Messtechnische Anwendungen des Goniometers beziehen sich vorrangig auf Phasendifferenzen und Pegeldifferenzen zwischen den Stereosignalen. Bei Erhöhung der Verstärkung im horizontalen Kanal können Phasendifferenzen von wenigen Grad (die z. B. in der Digitaltechnik auch aus Zeitdifferenzen herrühren können) angezeigt und gemessen werden [18.7]. 18.4.6.2
Mehrkanal-Sichtgerät
Eine vergleichbare Anzeigemethode ist auch für mehrkanalige Audiosignale verfügbar, insbesondere für Surroundssysteme mit 5 (bzw. 6 oder mehr) Kanälen. In mehrkanaligen Audiosystemen ist insbesondere für die folgenden Signalparameter einschließlich ihrer gegenseitigen Abhängigkeiten eine zusätzliche visuelle Signalkontrolle von Interesse: - Richtungsgleichgewicht innerhalb des Front-Klangbildes, - Balance zwischen Front- und Surround-Signalen, - Kanalzuordnung, Kanaltrennung (Übersprechen), Phasenverhältnisse und Korrelation zwischen den verschiedenen Signalen, - Überprüfung der Stereo-Kompatibilität (L*/R*) von down-matrizierten Signalen. Prinziplösungen zur Darstellung von vierkanaligen Signalen (sog. Quadrofonie), wurden bereits früher beschrieben, wobei Teile des bekannten Zweikanal-Goniometerbildes zur Anzeige ausgewählter Signalbeziehungen in den vier Quadranten eines Oszillografenschirms genutzt wurden. Diese Lösungen sind jedoch sämtlich ungeeignet, um die Darstellung eines dritten (oder weiteren) Frontkanals zu integrieren und die vielfältigen Signalbeziehungen zwischen allen Kanälen eines mehrkanaligen Tonsystems zu analysieren.
1147
Qualitätssicherung
Abb. 18/16. Beispiel einer Mehrkanal-Goniometeranzeige (3/2-Format) mit weiteren integrierten Anzeigen (5-Kanal-Aussteuerungsanzeige, Lautheitsanzeige), nach [18.5].
Das Ziel besteht darin, die Beziehungen und die gegenseitige Beeinflussung der einzelnen Eingangssignale des Mehrkanalsystems auf möglichst realistische Art darzustellen. Das heißt, die visuelle Darstellung der angezeigten Signalmuster soll dem akustischen Endruck möglichst 1148
Dynamik nahe kommen. Um die vielschichtigen Wechselbeziehungen der Signale erkennen und analysieren zu können, werden in verschiedenen Gerätelösungen unterschiedliche Formen (sog. Modi) der Anzeigeoberfläche angeboten. Gebräuchlich ist ein Überblick über die summarische Wirkung aller beteiligten Signale, indem mittels Darstellung der geometrischen Orte der Vektoramplituden ein Eindruck der dynamischen Richtungsverteilung innerhalb der gesamten 3/2-Wiedergabeanordnung vermittelt wird (sog. Vektor-Darstellung); dieser Anzeigemodus kann evtl. auch in den sog. Beam-Modus umgeschaltet werden, vergleichbar mit einer Strahlenigel-Darstellung, wie sie aus der Diffusitätsmessung bekannt ist [18.5]. Ebenso ist die Anzeige einer alle Abbildungsrichtungen umhüllenden Balance-Grafik in Form einer kissenförmigen Hüllkurve möglich (das Prinzip ist in Abb. 18/14 erkennbar). Daneben zeigen moderne Mehrkanal-Sichtgeräte, die heute fast ausschließlich als prozessorgestützte Display-Anzeigen ausgeführt sind, meist noch weitere nützliche Informationen, wie die mehrkanalige Spitzenwertaussteuerung aller Signale, sowie ggf. auch eine Lautstärkeanzeige, siehe Abb. 18/16.
18.5
Dynamik
Der Begriff Dynamik spielt sowohl in der Musik als auch in der Audiotechnologie eine herausragende Rolle. Während man in der Musik für Dynamik Begriffsdefinitionen wie „Lehre von den Abstufungen der Tonstärke“ findet, unterscheidet man in der Audiotechnologie eine Definition im akustischen und im elektrischen Bereich. In Bezug auf das akustische Schallereignis bezeichnet Dynamik das Verhältnis zwischen größtem und kleinstem Schallpegel, den eine Schallquelle zu erzeugen vermag. In Bezug auf das elektrische Tonsignal wird unter Dynamik das Verhältnis zwischen größtem und kleinstem übertragenen Signalpegel verstanden. Werte für die Dynamik in der Audiotechnologie – sowohl für Schalldrücke als auch für elektrische Signalpegel – werden im allgemeinen in dB angegeben, im Sinne eines Abstandes zwischen größtem und kleinstem Pegel.
18.5.1
Dynamikbereiche
Betrachtet man die gesamte Kette der Audiosignalbearbeitung von der Produktion und Übertragung bis zum Empfang, ist es sinnvoll, eine weitergehende Differenzierung des Dynamikbegriffes vorzunehmen: - Originaldynamik, - Systemdynamik, - Programmdynamik, - Wiedergabedynamik. 18.5.1.1
Originaldynamik
Der Begriff Originaldynamik soll hier auf Signale angewendet werden, die von einer Schallquelle erzeugt und über ein oder mehrere Mikrofone in elektrische Signale umgewandelt und gespeichert werden. Die Originaldynamik ist damit einerseits die Differenz zwischen dem 1149
Qualitätssicherung höchsten und niedrigsten Schallpegel, den eine Schallquelle in der entsprechenden Umgebung erzeugt, und andererseits die Differenz zwischen den aufgenommenen maximalen und minimalen Tonsignalpegeln des unbearbeiteten Programmsignals, siehe auch Kap. 18.1. 18.5.1.2
Systemdynamik
Theoretische Systemdynamik Unter theoretische Systemdynamik wird die erreichbare Differenz zwischen dem maximalen Nutzsignalpegel und dem Systemgeräuschpegel eines Systems verstanden. Diese Definition bezieht sich sowohl auf analoge als auch auf digitale Systeme. Die Unterscheidung beider Systeme liegt in der Definition des genannten Maximalpegels sowie der Herkunft des Systemgeräusches. Bei analogen Systemen wird die untere Systemgrenze in der Regel durch thermisches Rauschen oder Bandrauschen bestimmt und die obere Systemgrenze, der Maximalpegel, durch Überschreiten eines definierten Klirrfaktors. Bei digitalen Systemen ist der Maximalpegel (Systemgrenzpegel) die Übersteuerungs- bzw. Clippgrenze (0 dBFS), die untere Systemgrenze wird durch das sog. Quantisierungsrauschen festgelegt, das als Fehlersignal bei der A/D-Wandlung entsteht und sich als ein dem Informationsgehalt der digitalen Daten überlagertes Rauschen auffassen lässt (siehe Kap. 18.1). Die Messung und Bewertung analoger und digitaler Systemstörgeräusche ist identisch, wobei der Geräuschpegel unter Bezug auf entsprechende Standards, vorzugsweise nach ITU-R [BS.468] gemessen wird. Überschlägig kann der Signal/Rauschabstand, also die resultierende Systemdynamik linearer PCM-Systemen in Abhängigkeit von der Quantisierung an Hand der folgenden Formel abgeschätzt werden: S/N [dB] = 6n + 2 (mit n = Quantisierungsauflösung bzw. Anzahl der Bits). Die mit Hilfe dieser Formel berechneten – mit einem negativen Vorzeichen versehenen – Werte entsprechen dann den Effektiv-Werten (Root Mean Square, RMS) des Quantisierungsgeräusches, bezogen auf dem maximalen Programmsignalpegel (Systemgrenzpegel) 0 dBFS (Full Scale/clipping level). In Tab. 18/8 sind die resultierenden Quantisierungsgeräuschpegel in Abhängigkeit vom Messverfahren für drei typische Auflösungen dargestellt. Die genannten Werte repräsentieren die theoretisch erreichbare maximale Systemdynamik der betrachteten Systeme. In der Praxis sind davon etwa 2 dB abzuziehen, da selbst gute A/D-Wandler nur eine endliche Genauigkeit aufweisen und entsprechende Wandlerfehler verursachen. Tab. 18/8. Erzielbare Signal-Rausch-Abstände bei unterschiedlichen Quantisierungen und Störpegel-Messverfahren. Messverfahren Effektivwertmessung (RMS noise voltage) / dB Fremdspannungspegel nach [DIN 45405] / dB Geräuschspannungspegel (Noise voltage level) nach [BS.468] / dBqps 1150
16Bit !98 !90 !86
20Bit !122 !114 !110
24Bit !146 !138 !134
Dynamik Effektive Systemdynamik Praktisch steht diese theoretische Systemdynamik nicht im vollen Umfang zur Verfügung. Aus Übersteuerungsgründen ist zunächst ein Abstand zur oberen Systemgrenze, der sog. Headroom, erforderlich. Außerdem sollte man sicherstellen, dass das leiseste Nutzsignal nicht im Systemrauschen untergeht, sondern ein deutlicher Abstand zum Quantisierungsgeräusch, der sog. Footroom, eingehalten wird. Berücksichtigt man diese Schutzabstände, so kann aus der maximalen die effektive Systemdynamik abgeleitet werden. Dies ist ein technischer Parameter, der angibt, in welchem Pegelbereich sich das Nutzsignal bewegen darf, ohne mit den Grenzen des Übertragungssystems zu kollidieren.
Abb. 18/17. Effektive Systemdynamik von PCM-Systemen, nach [18.9].
Betrachtet man z. B. die Compact Disc (CD), also ein 16 Bit / 44.1 kHz PCM-System und setzt einen realistischen Headroom von 9 dB und einen Footroom von ca. 20 dB voraus, so ergibt sich eine effektive Systemdynamik von etwa 60 dB (bezogen auf die RMS-Messung des Quantisierungsgeräusches) bzw. 51 dB bezogen auf die Messung nach ITU-R [BS.468]. In diesem Dynamikbereich hat der Tonmeister das von ihm zu bearbeitende Originalsignal unterzubringen (Abb. 18/3). Bei der Definition der effektiven Systemdynamik eines digitalen Audiosystems muss außerdem die Frage gestellt werden, ob die resultierende Dynamik den Anforderungen des menschlichen Gehörs genügt. Mit anderen Worten, welche Quantisierungsauflösung ist erforderlich, um eine Übertragung ohne wahrnehmbare Systemgeräusche zu gewährleisten? Ergänzend zu den in Kap. 18.1 empfohlenen subjektiven Grenzwerten wird hier auf Untersuchungen in [18.9] hingewiesen. Die Ergebnisse sind in Abb. 18/17 dargestellt. Unter diesen Voraussetzungen werden für Lautsprecherwiedergabe (LS) 87 dB und für Kopfhörerwiedergabe (KH) 92 dB Systemdynamik benötigt. Das bedeutet, dass eine lineare digitale Aufzeichnung/Übertragung, wie sie beispielsweise bei der klassischen CD vorliegt, bei einem maximalen Wiedergabeschallpegel von 100 dBA durchaus kritischen Anforderungen bezüglich der Systemdynamik genügt. 1151
Qualitätssicherung Verglichen mit klassischen PCM-Systemen (Pulse Code Modulation) benötigen moderne Bitratenreduktionssysteme bekanntermaßen eine deutlich geringere Quantisierung (vergleiche auch Kap. 12). Die Tatsache, dass damit trotzdem Übertragungen ohne wahrnehmbare Systemgeräusche möglich sind, zeigt, dass hier prinzipiell andere Grenzwerte zu berücksichtigen sind. 18.5.1.3
Programmdynamik
Die Programmdynamik beschreibt das Verhältnis zwischen maximalem und minimalem Nutzpegel eines übertragenen Audioprogramms. Sie kann – je nach Art der Bearbeitung des Signals nach der Aufnahme – gleich oder kleiner als die ursprüngliche Originaldynamik des betreffenden Schallereignisses sein, in Ausnahmefällen jedoch auch größer (Expansion). Jedes Glied einer Übertragungskette hat seine spezifische effektive Systemdynamik. Aufgabe des Tonmeisters ist es, die Programmdynamik so anzupassen (Aussteuerung, siehe Kap. 18.4.1 sowie Abb. 18/3), dass das Programm über die gesamte Strecke übertragen werden kann, ohne dass die Signalpegel mit den jeweiligen Systemgrenzen kollidieren. Für den analogen Rundfunk gilt dabei seit vielen Jahrzehnten ein Zielwert von max. 40 dB. In vielen Fällen wird heute - in Abhängigkeit vom Programmcharakter - durch eine bewusste, stärkere Einengung des Dynamikbereiches eine deutlich geringere Programmdynamik erzeugt, als der ursprünglichen Originaldynamik oder dem tatsächlichen Vermögen des Übertragungskanals entspricht. Dies trifft insbesondere für die moderne Pop-Musik zu, aber auch für andere Programmteile, die durch einen besonders hohen Lautheitseindruck hervorgehoben werden sollen (wie z. B. auch Werbeeinblendungen). 18.5.1.4
Wiedergabedynamik
Die Wiedergabedynamik kennzeichnet den individuell am Hörort eingestellten Abstand des maximalen Wiedergabepegels vom jeweils herrschenden Störgeräuschpegel, der entweder durch den Störpegel des Wiedergabekanals, meist jedoch durch das durch äußere Einflüsse bedingte akustische Umgebungsgeräusch bestimmt wird. Prinzipiell ist auch die Wiedergabedynamik als eine Systemdynamik zu interpretieren, wobei hier das System durch den Abhörraum und die Wiedergabeeinrichtungen, also durch die Abhörbedingungen, dargestellt wird. Diese unterliegen besonders vielfältigen Einflüssen, nicht nur technischer, sondern auch psychologischer und sozialer Art, so dass es gerechtfertigt ist, die Wiedergabedynamik als eigenständigen Begriff zu verwenden. Abb. 18/18 zeigt im linken Teil die (in etwa) realisierbare Programmdynamik für verschiedene Aufzeichnungsmedien bzw. Rundfunksysteme, die je nach Art des Programmbeitrages im allgemeinen auch ausgenutzt wird, während auf der rechten Seite die unter verschiedenen Umfeldbedingungen maximal nutzbare Wiedergabedynamik angedeutet ist. Hierbei wird nicht nur der gravierende Unterschied zwischen ausgestrahlter Programmdynamik und realisierbarer Wiedergabedynamik im fahrenden Auto deutlich, sondern auch beim Hören unter durchschnittlichen Wohnbedingungen. Sowohl die oberen wie auch die unteren Systemgrenzen können in weiten Bereichen variieren. Das Umgebungsgeräusch als untere Grenze wird im Stadtbereich anders als auf dem Land sein, in einem Haus anders als in 1152
Dynamik einem Kraftfahrzeug. Die maximal tolerierbare Abhörlautstärke als obere Grenze ist in einem Mehrfamilienhaus anders als in einem Einzelhaus. Der Einfluss der jeweiligen Systemgrenzen ist darüber hinaus unterschiedlich beim Abhören mit Lautsprechern oder mit Kopfhörern, beim bewussten Zuhören oder Nutzen des Programms als Hintergrundunterhaltung.
Abb. 18/18. Wiedergabedynamik unter verschiedenen Hörbedingungen, nach [18.10].
Zwar sollte der Tonmeister bei der Gestaltung der Programmdynamik auch die zu erwartende Wiedergabedynamik berücksichtigen, doch es bleibt in der Regel offen, welche Abhörsituation und damit welche Wiedergabedynamik er als Bezug nehmen soll. Eine nicht näher definierbare, persönlich empfundene mittlere Wiedergabedynamik ist dann bestenfalls das, was berücksichtigt werden kann. Eine optimale, den Hörerwartungen und -bedürfnissen des einzelnen Hörers bzw. seiner Umgebung angepasste Wiedergabedynamik lässt sich jedoch nur durch individuelle Einstellung oder Steuerung am Hörort selbst erreichen, siehe Kap. 18.5.2, Variable Dynamik etc.
18.5.2
Dynamikkompression
Es ist zweckmäßig, die folgenden Grundaufgaben der Dynamikkompression voneinander zu unterscheiden [18.11]: - Anpassung an den Übertragungsweg - Anpassung an den Programmcharakter - Anpassung an die Wiedergabesituation 18.5.2.1
Anpassung an den Übertragungsweg
Im Falle analoger Tonübertragungssysteme (z. B. UKW-FM) ist eine (subjektive) Verbesserung des Signal-Rauschabstandes für die leisen Programmpassagen erstrebenswert, um auf diesem Wege den faktischen Versorgungsbereich des Senders zu erweitern. Aus diesem Grunde ist für diese Anwendungen im Rundfunk eine maximale Programmdynamik von etwa 1153
Qualitätssicherung 40 dB üblich, die in der Regel durch eine entsprechende manuelle Aussteuerung der Programmsignale realisiert werden musste. Eine geeignete, zusätzliche sendeseitige Kompression durch automatisch arbeitende Kompressorverstärker wirkt sich bereits ohne empfangsseitige Expansion positiv auf die Empfangsqualität bei großen Reichweiten aus. Der Kompandereffekt bei empfangsseitiger Expansion, dass heißt die empfangsseitige Erweiterung der Programmdynamik durch Expanderverstärker im Empfänger, die zur Reduzierung der Übertragungsstörungen (Rauschen) führt, wäre jedoch nur für den stationären Heimempfang vorteilhaft, nicht aber für den mobilen Empfang, da Störungen durch Mehrwegeausbreitung kaum gemildert werden und hier eine hohe Dynamik ohnehin unzweckmäßig ist. 18.5.2.2
Anpassung an den Programmcharakter
Die in der Praxis eingesetzten Prozessoren (Kompressorverstärker) können neben einer Erhöhung der Programmlautstärke zusätzliche Veränderungen der Klangfarbe, der Programmdynamik oder auch des stereofonen Eindrucks bewirken. Diese programmorientierten Veränderungen der originalen Tonqualität dienen dazu, die Attraktivität des Programms in der Weise zu steigern, dass sich ein Sender durch individuelles „Programm-Soundprofil“ von anderen Sendern absetzen möchte, oder dazu, einen "Aufmerksamkeitseffekt" zu erzielen und den Klangcharakter für den Gelegenheitsempfang in wenig anspruchsvollen Hörsituationen – wie z.B. mobiler Empfang, "Küchenradio" – zu optimieren ("easy listening"). Entsprechende Kompressionstechniken werden im Prinzip unabhängig vom benutzten Rundfunksystem eingesetzt, d. h. nicht nur für die analogen Sendewege wie UKW-FM. Auch DAB beispielsweise enthält Programme, die klanglich speziell auf den Gelegenheitshörer zugeschnitten sind. Wenn man z. B. an analoge Rundfunkdienste oder an Sendungen denkt, die vorwiegend für Autofahrer produziert werden, kann eine Dynamikkompression im Studio durchaus sinnvoll sein (Verbesserung des Signal-/Störabstandes, Anpassung der Dynamik an die Abhörsituation). Bei DAB, mit den technischen Voraussetzungen einer digitalen Übertragung in „CD-naher“ Qualität und adäquaten Empfangs- und Abhörbedingungen muss jedoch – zumindest für den Heimempfang – die Notwendigkeit eines derartigen irreversiblen Dynamikbzw. Soundprocessing in Frage gestellt werden. 18.5.2.3
Anpassung an die Wiedergabesituation
Stationärer Empfang im ruhigen Wohnzimmer, mobiler Empfang im Auto, Empfang mit tragbaren Geräten in allen Situationen, Wiedergabe mit Lautsprechern oder Kopfhörern, große oder kleine Lautstärken, konzentriertes Hören oder Musikberieselung - die Spanne der Hörsituationen ist viel zu groß für einen allseits befriedigenden Programmdynamik-Kompromiss, siehe die Erläuterungen unter Kap. 18.5.1.4 sowie Abb. 18/18. Daher ist es erstrebenswert, dem Hörer eine individuelle Einengung (Dynamiksteuerung) der oft sehr hohen Dynamik vorhandener Tonaufnahmen an die Hörsituation zu ermöglichen, so dass er das im Studio erzeugte Hörerlebnis qualitätsoptimal und situationsgerecht reproduzieren kann, siehe nachstehende Abschnitte. 1154
Dynamik
18.5.3
Dynamiksteuerung
18.5.3.1
Variable Dynamik für UKW/FM
Eine „Variable Dynamik“ kann im Prinzip durch angemessene Anhebung der Lautstärke in den leisen Passagen erreicht werden, d.h. die Lautstärkespitzen bleiben unberührt. Hierzu hatte man sich im IRT schon vor vielen Jahren bemüht, für UKW/FM ein praxisgerechtes Verfahren zu entwickeln [18.12]. Es basierte auf der studioseitigen Gewinnung einer Dynamik-Stellgröße und ihrer Übertragung über Sendestudio und Sender zum Empfänger, um dort eine individuelle Dynamiksteuerung zu ermöglichen. Jedoch ist dieses Konzept an Problemen bei der Übertragung der Stellgröße gescheitert. 18.5.3.2
Dynamic Range Control (DRC) für DAB
Der DAB Standard [ETS] bietet erstmalig die Möglichkeit einer Anpassung des Dynamikbereiches eines Rundfunkprogramms an die individuellen Bedürfnisse eines jeden Hörers als Systemlösung. Dies erfolgt auf der Basis des sog. Dynamic Range Control (DRC) - Systems mit kontinuierlicher Übertragung von Dynamik-Steuerdaten, die in den DAB- Bitstrom eingebettet sind. Außerdem ist die Übertragung einer Musik/Sprache (M/S) Kennung möglich, um dem Hörer die Möglichkeiten zu geben, das Pegelverhältnis zwischen Musik- und Sprachanteilen nach seinen individuellen Bedürfnissen einzustellen. Die Nutzung dieser programmbezogenen Datendienste (PAD, siehe auch Kap. 17.2) ist optional, sowohl für den Programmanbieter als auch für den Empfänger.
Abb. 18/19. Wirkschaltbild des DRC Systems für DAB, nach [18.10].
Abb. 18/19 zeigt ein (vereinfachtes) Wirkschaltbild des DRC-Systems für DAB. Auf der Sendeseite wird entsprechend den Voraussetzungen und Anforderungen des Programmanbieters mittels eines DRC-Generators ein kontinuierliches, digitales Steuersignal generiert, das den zeitlichen Verlauf der zur Erzielung einer Kompressionswirkung anzuwendenden Verstärkungsänderung im Tonkanal des Empfängers beschreibt. Diese Steuerdaten werden zusammen mit den (unkomprimierten) Audiodaten übertragen. Die DRC-Daten sind in den ISO-Layer 2 DAB-Bitstrom als programmbezogene Daten (PAD) eingebettet, so dass eine enge zeitliche Korrelation mit den Audiodaten gewährleistet ist. Der DAB Standard enthält eine detaillierte Beschreibung für Datenformat und Transportmechanismus. 1155
Qualitätssicherung Im Empfänger wird das Steuersignal aus den im PAD-Kanal übertragenen Daten durch einfache Interpolation zurück gewonnen und kann dort zur dynamischen Steuerung der Verstärkung, d. h. zur Kompression oder Expansion des empfangenen Programmsignals benutzt werden. Dabei kann der Hörer den gewünschten Grad der Kompression entsprechend seiner Hörsituation individuell einstellen – oder auch auf die Nutzung dieser Zusatzfunktion ganz verzichten und das empfangene Signal mit der original übertragenen Programmdynamik wiedergeben. Die im DAB-Standard festgelegten Bedingungen beziehen sich im wesentlichen auf die Codierung und den Transportmechanismus der Steuersignale. Damit bleiben ausreichende Freiheitsgrade für die Detailgestaltung des sendeseitigen Prozesses (Algorithmus, Zeitbedingungen, Wahl des Kompressionsgrades) einschließlich eventueller Innovationen, ohne dass hierbei Änderungen auf der Empfangsseite notwendig werden. Die im Empfänger erforderlichen Funktionen sind sehr einfach und belasten das Gerätekonzept nur unwesentlich. Weitere Details siehe [18.10]. Die für die Übertragung der Steuerinformationen erforderliche Datenkapazität von ca. 0,25 kBit/s ist im Verhältnis zur Gesamtbitrate sehr gering, daher bietet sich das DRC-System mit Steuersignalübertragung auch zur Anwendung bei anderen Rundfunksystemen an, die eine zeitparallele Übertragung von Daten gestatten (z.B. DMB, DVB oder DRM). Vergleichbare (jedoch nicht ohne weiteres kompatible) DRC-Systeme sind auch in verschiedenen anderen Audiocodecs implementiert, so bei Dolby Digital (siehe nachfolgenden Abschnitt) wie auch in den modernen Codiersystemen der MPEG-Familie, wie AAC (vgl. Kap.12). Letztere sind auch für die Anwendung bei Mehrkanalsignalen ausgelegt. 18.5.3.3
Dynamiksteuerung für Dolby Digital
Im Rahmen der Metadaten werden beim Mehrkanal-Codierverfahren Dolby Digital bzw. AC-3 (siehe Kap. 12.4.6 sowie auch Kap. 17.6) Einstellwerte für verschiedene Wiedergabeparameter übertragen: DRC Im AC-3 Encoder werden die Dynamic Range Control (DRC) Metadaten berechnet und dem codierten Audiobitstrom hinzugefügt. Sie dienen im Decoder dazu, für alle Audiokanäle die geeignete Kompression zu erreichen, abhängig von der beim Hörer gewünschten Dynamik. Damit kann schon während der Produktion oder vor der Distribution auf das Kompressionsverhalten Einfluss genommen werden. Das System arbeitet für alle eingestellten Profile prinzipiell nach einer einheitlichen, proprietären Kennlinie (siehe Abb. 17/73 unter Kap. 17.6.7.4), die jedoch nicht ohne weiteres zu den bei DAB verwendeten Kennlinien bzw. Datenformaten kompatibel ist. DialNorm Das speziell für die Anwendung für Film/TV-Tonspuren in Dolby Digital ausgelegte (proprietäre) System DialNorm (Dialog Normalization Value) beschreibt den Langzeit-Mittelwert des Dialog-Pegels für das zugeordnete Programm (Musik, Umgebungsgeräusch etc.). Der 1156
Auditive Programmsignalkontrolle DialNorm-Wert zeigt an, wie weit der mittlere Dialog-Pegel unterhalb der Systemgrenze (0 dBFS) liegt. Ein Dolby-Decoder kann damit den Programmpegel so steuern, dass sich eine ausgeglichene Wiedergabelautstärke des Dialogs ergibt, unabhängig von der gewählten Gesamtlautstärke des Programms. Darüber hinaus können auch andere Parameter oder Decoderfunktionen beeinflusst werden. 18.5.3.4
Empfängerorientierte Dynamiksteuerung
Die individuelle Dynamikanpassung an eine geräuschbelastete Hörumgebung könnte grundsätzlich auch empfangsseitig durchgeführt werden, und zwar sowohl für den UKW-FM Empfang als auch für den digitalen Empfang. Das sog. Musicam DRC-System [18.11] basiert z. B. auf einer Bewertung und geeigneten Modifizierung der Skalenfaktoren im ISO/MPEG Layer 2 - Decoder des Empfängers und ist damit auch für eine Dynamikkompression von Signalen externer Tonsignalquellen geeignet, die den Layer 2 - Standard benutzen (z.B. DCC). Der Hörer hat damit die Möglichkeit, für beliebige Tonquellen die geeignete Wiedergabedynamik zu wählen. Das stellgrößenfreie Konzept für diese Form der Variablen Dynamik ermöglicht es darüber hinaus, den Algorithmus für spezielle Anwendungen ohne Einschränkung zu optimieren (beispielsweise für die Heimanlage anders als für das Autoradio). Besonders vorteilhaft erscheint beispielsweise eine frequenzabhängige Kompression. Für kommende Gerätegenerationen mit digitaler Signalverarbeitung sollte eine individuelle Dynamikwahl – mit welchem System auch immer – eine selbstverständliche Ausstattungsoption sein.
18.6
Auditive Programmsignalkontrolle
Das „Abhören”, also die auditive Kontrolle der Tonqualität des Programmsignals, ist ein integraler Bestandteil aller Audioproduktionsprozesse. Das gilt für Hörfunk, Fernsehen und Film ebenso wie für andere professionelle multimediale Produktionsprozesse. Trotz aller modernen Möglichkeiten der automatisierten Überwachung und Kontrolle ist letztlich das menschliche Ohr der Maßstab für die Beurteilung der ästhetischen und technischen Qualität von Tonprogrammen. Deshalb kommt der Spezifizierung einheitlicher Abhörbedingungen eine entscheidende Bedeutung zu. Traditionell erfolgt die Wiedergabe des Tonprogrammsignals über Regielautsprecher in einem sog. Abhörraum, deren Zusammenwirken als Bezugs-Abhörstandard definiert wird. Zusätzlich stehen inzwischen neue Reproduktionsverfahren zur Verfügung, die eine virtuelle Abbildung des Bezugs-Abhörstandards mit Hilfe von Kopfhörern erlauben (Virtueller Abhörraum, siehe Kap. 18.6.3). Die für die Gestaltung von professionellen Studioabhörsituationen relevanten Forderungen sind in internationalen Empfehlungen der EBU [Tech3276] und ITU-R [BS.1116] niedergelegt. Darüber hinaus wird in weiteren nationalen und internationalen Richtlinien, wie [SSF1.1] oder [AES1001], auf diese Empfehlungen Bezug genommen, so dass man praktisch von einem weltweiten Standard für hochwertige Tonwiedergabe im Studio sprechen kann. Daneben sind in diesen wie auch weiteren Dokumenten der EBU [Tech3286] und der ITU-R 1157
Qualitätssicherung [BS.1284], [BS.1534] bestimmte Testmethoden, -parameter und –szenarien beschrieben, die sich in zahlreichen Tests der vergangenen Jahre bewährt haben. Diese Empfehlungen zum Abhörstandard bilden die Voraussetzung für optimales Arbeiten im Tonstudio, wie z. B. bei der auditiven Kontrolle bei Tonmischung und -aufzeichnung, der Bewertung der Tonqualität von Produktionen, sowie von Audiocodierverfahren oder Übertragungseinrichtungen. Anwendern wird empfohlen, für Vergleichstests diese (weiter unten detailliert beschriebenen) Bedingungen und Methoden möglichst exakt anzuwenden, da nur so die Vergleichbarkeit der Ergebnisse mit denen anderer Tests gewährleistet werden kann. Darüber hinaus können bei vergleichbaren Bedingungen an verschiedenen Orten, wie Produktionsstudios, Sendestudios etc. auch im nationalen und internationalen Programmaustausch weitgehend gleiche Qualitätsstandards eingehalten werden. Ähnliche Empfehlungen gibt es auch für die Beurteilung von Beschallungsanlagen bei LiveEvents oder in Aufführungsräumen [18.13].
18.6.1
Abhörstandard für Lautsprecherwiedergabe
Die Gesamtheit der Hörbedingungen und die erreichbare Qualität des mit diesen Bedingungen verbundenen Schallfeldes werden wesentlich beeinflusst durch: - die geometrischen und akustischen Eigenschaften des Abhörraumes, - die Eigenschaften und Anordnung der Lautsprecher im Abhörraum, sowie - den Hörort bzw. die Hörzone für ausgewählte Hörplätze. Als wichtigste Zielstellung dieser Studio-Abhörsituation sind die Begriffe „Neutralität“ bzw. „Transparenz“ zu nennen. Bei der Konstellation Lautsprecher/Wiedergaberaum ist die Beschreibung der Eigenschaft „Neutralität" insofern ein komplexes Problem, weil das Schallfeld im Wiedergaberaum durch eine Vielzahl von Randbedingungen beeinflusst wird. Hier wirken u. a. die Eigenschaften von Lautsprecher und Raum sowie die lokalen Beziehungen zwischen Lautsprechern und Hörer auf komplizierte Weise zusammen. Dies gilt gleichermaßen für monofone, stereofone und mehrkanalige Wiedergabe. Anders ausgedrückt, wenn man von der klassischen Musikaufnahme einer Schallquelle in einem Saal ausgeht, ist das Hörereignis bei der Reproduktion charakterisiert durch eine Überlagerung von „primären“ Rauminformationen aus der Aufnahmesituation und „sekundären“ Rauminformationen der Wiedergabesituation. Aus dieser Sicht kann Neutralität und Transparenz etwa folgendermaßen umschrieben werden: der Abhörraum soll es dem Tonmeister/Toningenieur ermöglichen, in einer gewohnten, d.h. räumlichen Umgebung zu arbeiten, im Gegensatz z. B. zu einer eher ungewohnten reflexionsarmen Umgebung, wie im sog. „schalltoten“ Raum. Dieser positive Raumeinfluss darf jedoch gerade so stark wahrnehmbar sein, dass die primären Rauminformationen der zu beurteilenden Aufnahme nicht überdeckt oder verfälscht werden. 18.6.1.1
Abhörräume
Aus technischer Sicht beinhaltet die Definition des Bezugs-Abhörstandards die Festlegung von Mindestanforderungen für die relevanten elektroakustischen und akustischen Parameter von Regielautsprecher und Abhörraum. 1158
Auditive Programmsignalkontrolle Die nachstehend aufgeführten Bedingungen für Bezugs-Abhörräume und -Lautsprecher sind weitgehend konform mit den eingangs erwähnten internationalen und nationalen Standards. Die darin definierten Anforderungen beziehen sich vorwiegend auf die folgenden, im professionellen Bereich typischen Abhörsituationen: Bezugs-Abhörraum Abhörraum für die kritische Beurteilung und Auswahl von Hörfunk- und Fernseh-Sendeprogrammen, wie z. B. für Programmvorstellungen oder vergleichende Programmbeurteilungen, oder zur Durchführung subjektiv-akustischer Tests zur Bewertung der technischen Qualität von Übertragungsverfahren und Einrichtungen. High-quality Regieraum Regieraum für die kritische Beurteilung der Audioqualität als Teil des Produktionsprozesses für Hörfunk- und TV-Aufzeichnungen oder kommerzielle Audio-Produktionen. Die Qualität der Hörbedingungen hängt letztlich von den Parametern ab, die das resultierende Schallfeld an den Ohren des Zuhörers erzeugt. Ihre Definitionen haben naturgemäß Designeinschränkungen in Bezug auf die Charakteristika der Lautsprecher und die Proportionen und Eigenschaften des Wiedergaberaumes zur Folge. (Es sei angemerkt, das im Falle der Kopfhörerwiedergabe die Raumeigenschaften praktisch keine Bedeutung haben.) 18.6.1.2
Geometrische Abmessungen von Abhörräumen
Die minimale Grundfläche sollte mindestens 40 m² für einen Bezugs-Abhörraum, und 30 m² für einen High-quality Regieraum betragen. Die Abmessungen eines Abhör- bzw. Regieraumes werden ggf. stark durch betriebliche Anforderungen, wie die Unterbringung von technischen Einrichtungen etc. sowie die akustischen Bedingungen beeinflusst; in keinem Fall sollte das Gesamtvolumen jedoch einen Wert von 300 m³ überschreiten. Um eine ausreichende Gleichverteilung der in jedem Raum vorhandenen tieffrequenten Eigentöne zu erreichen, sollten die Raumproportionen innerhalb bestimmter Grenzen liegen: 1,1 w/h # l/h # 4,5 w/h – 4 mit l < 3h und w < 3h wobei l = Länge (größere Dimension des Grundrisses), w = Breite (kürzere Dimension des Grundrisses), h = akustisch wirksame Raumhöhe. Dabei sollten ganzzahlige Verhältnisse von l, w und h vermieden werden. Weitere gestalterische Details können die resultierende akustische Qualität der Wiedergabe entscheidend beeinflussen, wie zum Beispiel: - der Raum sollte eine ausreichende akustische Symmetrie in Richtung der Schallausbreitung 1159
Qualitätssicherung der Wiedergabesignale aufweisen, dies betrifft nicht nur die Oberfläche der absorbierenden Elemente, sondern auch ihre Absorptionseigenschaften, insbesondere in der unmittelbaren Umgebung der Lautsprecher; - durch eine geeignete Anordnung von absorbierenden und reflektierenden Flächen ist das Auftreten von Flatterechos und störenden Einzelreflexionen zu vermeiden; - Resonanzen oder Eigenschwingungen irgendwelcher Strukturen oder Einbauten sind wirksam zu dämpfen (ihre Abklingzeit sollte niedriger als die Nachhallzeit des Raumes sein); - um störende Reflexionen zu vermeiden, sollen die raumakustischen Forderungen und Bedingungen auf alle im Raum vorhandenen Flächen und Strukturen angewandt werden, also auch auf etwaige Fenster, Türen, sowie insbesondere auch auf Oberflächen von Geräten, Mischpulten etc.; in Bezugs-Abhörräumen sollten derartige Einbauten möglichst ganz vermieden werden. In Tab. 18/9 sind die wichtigsten geometrischen Daten zu Abhörräumen und Wiedergabeanordnungen für Zwei- und Mehrkanalstereofonie zusammengestellt (in Anlehnung an [SSF 0.1]) (für Mehrkanalwiedergabe sind möglichst die jeweiligen Obergrenzen anzuwenden). An dieser Stelle soll darauf hingewiesen werden, dass dieses Dokument zusätzlich auch orientierende Bedingungen und Anforderungen für die hochwertige Wiedergabe unter Heimbedingungen enthält. Tab. 18/9. Geometrische Anforderungen an Abhörräume für 2/0- sowie 3/2-Wiedergabeanordnungen, nach [Tech3276] bzw. [BS.1116]. Parameter Raumgröße Fläche Volumen Basisbreite Basiswinkel (bezogen auf L/R) Hörabstand Hörzone Höhe der Lautsprecher über Boden Abstand zu umgebenden Reflexionsflächen 18.6.1.3
Größe [Einheit]
Wert
S [m²] V [m³] B [m] [Grad] D [m] R (Radius) [m] h [m] d [m]
>30 bis 40 < 300 2,00 bis 4,00 60 2,00 bis 1,7 x B 0,8 < 1,20 > 2,00
Bezugs-Schallfeld
Da es nach wie vor nicht möglich ist, mittels klassischer akustischer und elektroakustischer Parameter und Messverfahren die Eigenschaften der Abhörsituation eindeutig zu beschreiben, werden die Anforderungen an relevante Parameter des Bezugs-Schallfeldes am Abhörort indirekt über folgende Parameter definiert: - Direktschall (Direct sound) - Frühe Reflexionen (Early reflections) - Nachhall (Reverberation field) - Betriebsschallpegelkurve (Operational room response curve) - Abhörschallpegel (Listening level) - Hintergrundgeräusch (Background noise) 1160
Auditive Programmsignalkontrolle Direktschall Die Qualität des Direktschalls ist im wesentlichen geprägt durch die relevanten Lautsprecherparameter, wie sie unter reflexionsarmen Bedingungen gemessen werden, also die Richteigenschaften, den Amplitudenfrequenzgang (Schallpegelkurve), das Einschwingverhalten sowie die nichtlinearen Verzerrungen (siehe weiter unten). Betriebsschallpegelkurve Aus den genannten Direktschallparametern ergibt sich eine der wichtigsten Eigenschaften unter Betriebsbedingungen, das ist die sog. Betriebsschallpegelkurve, also der Amplitudenfrequenzgang des Schallpegels an jedem Abhörort im Abhörraum. Abb.18/20 zeigt die einzuhaltenden Toleranzen, wobei Lm den Mittelwert der Terzbandpegel von 200 Hz bis 4 kHz darstellt. Die Kurve gilt für jeden einzelnen Lautsprecher, eine möglichst hohe Übereinstimmung insbesondere für alle beteiligten Frontlautsprecher ist anzustreben.
Abb. 18/20. Toleranzfeld der Betriebsschallpegelkurve entsprechend EBU [Tech3276].
Anfangsreflexionen Der Pegel von Reflexionen, die früher als 15 ms nach dem Direktschall am Abhörort eintreffen, soll im Frequenzbereich zwischen 1 kHz und 8 kHz mindestens 10 dB unter dem des Direktschalls liegen. Nachhallschallfeld Der Nachhall soll im Bereich der Hörplätze (Hörzone = Listening area) möglichst diffus sein, um wahrnehmbare akustische Irregularitäten wie z. B. Flatterechos, zu vermeiden. Die mittlere Nachhallzeit Tm soll im Bereich zwischen 200 Hz und 4 kHz bei 0,2 s < Tm < 0,4 s liegen, mit Tm = 0,25 (Raumvolumen / 100)a 1161
Qualitätssicherung Für einen Abhörraum mit einem Volumen von 150 m3 ergibt sich daraus eine mittlere Nachhallzeit von etwa 0,3 s. 18.6.1.4
Bezugs-Abhörpegel
Die Einführung eines Bezugs(Referenz)-Abhörpegels LLISTref für Studio-Abhörsituationen gewährleistet eine einheitliche Wiedergabelautstärke in verschiedenen Räumen und Organisationen. Die Definition des Bezugs-Abhörpegels gestattet es darüber hinaus, die gewählte Verstärkung bzw. den gewählten Abhörpegel bei der Wiedergabe von Programm-Material zu charakterisieren sowie bei der Reproduktion desselben Programm-Materials unter anderen Wiedergabebedingungen zu reproduzieren. Der Bezugs-Abhörpegel bezieht sich auf die Referenz-Verstärkung von 0 dB je Wiedergabekanal. Die Einstellung erfolgt für jeden Wiedergabekanal separat am Bezugs-Hörort. Das Messsignal, mit dem der Wiedergabekanal gespeist wird, ist „Rosa Rauschen“. Der Eingangs-Signalpegel ist als Effektivwert zu messen und wie folgt einzustellen: - !9 dB bezogen auf den zugelassenen Maximalpegel (PML) in analogen Übertragungssystemen, gemäß [R68]; - !18 dB bezogen auf 0 dBFS (Full scale) in digitalen Übertragungssystemen, gemäß [BS.645]. Die Verstärkung jedes Übertragungskanals der Wiedergabekonfiguration ist so einzustellen, dass der resultierende Gesamt-Schalldruckpegel (RMS, slow) am Bezugs-Hörort den folgenden Wert erreicht: L LIST ref = 85 – 10 log n [dBA], wobei n die Gesamtzahl der Wiedergabekanäle (außer dem LFE-Kanal) der entsprechenden Konfiguration darstellt. Danach ergibt sich für jeden einzelnen Lautsprecher z. B. ein einzustellender Schallpegel von - L LIST ref = 82 dBA für 2/0-Lautsprecheranordnungen (Zweikanal-Stereofonie) - L LIST ref = 78 dBA für 3/2-Lautsprecheranordnungen. Die Pegeldifferenz zwischen zwei beliebigen Kanälen soll dabei 0,5 dB nicht überschreiten. Hintergrundgeräusch Der Schallpegel des kontinuierlichen Hintergrundgeräusches im Abhörraum (hervorgerufen z. B. durch akustische Störungen wie Klimageräusche und/oder Verstärkerrauschen) soll die ISO-Störpegelkurve NR15 nicht überschreiten, idealerweise jedoch die Kurve NR10 einhalten. Weitere detaillierte Anweisungen für die betriebliche Einstellung von Wiedergabeanordnungen sind in [SSF2.1] zu finden. 18.6.1.5
Anforderungen an Regielautsprecher
Als Regielautsprecher werden Studio-Abhöreinrichtungen bezeichnet, die aus einer aufeinander abgestimmten Kombination von Schallwandler(n), Verstärker, Frequenzweiche(n) und 1162
Auditive Programmsignalkontrolle Gehäuse bestehen und den genannten Anforderungen für hochwertige Wiedergabequalität genügen. Häufig findet man auch die Bezeichnungen Monitorlautsprecher oder Studiomonitor, die jedoch irreführend sein können, da der Begriff Monitor(ing) auch im Bereich der professionellen Beschallungstechnik verwendet wird. Die nachstehend aufgeführten Anforderungen sind – im Unterschied zur Betriebsschallpegelkurve – unter Freifeldbedingungen (also im reflexionsfreien Raum) zu messen, siehe auch Kap. 4. Amplitudenfrequenzgang Der Amplitudenfrequenzgang des Regielautsprechers soll im Frequenzbereich 40 Hz bis 16 kHz einen Toleranzbereich von 4 dB nicht überschreiten, für die Unterschiede zwischen den jeweils verwendeten Frontlautsprechern gilt dabei im Bereich von 250 Hz bis 2 kHz eine Abweichung von 0,5 dB. Bündelungsmaß Das Bündelungsmaß (directivity index) beschreibt die Richteigenschaften und die damit verbundene Präsenzwirkung des Lautsprechers und soll so dimensioniert sein, dass ein wesentlicher Teil der Schallenergie als Direktschall auf die Hörfläche abgestrahlt wird, um den im diffusen Schallfeld übertragenen Anteil möglichst gering zu halten. Das Schall-Bündelungsmaß C soll im Bereich zwischen 250 Hz und 4 kHz 4 dB # C # 12 dB betragen. Daraus ergibt sich, dass (zumindest für Frontlautsprecher) die Verwendung von Schallstrahlern mit kugelförmiger Abstrahlung nicht in Frage kommt. Tab. 18/10. Qualitätsanforderungen an Regielautsprecher, nach [Tech3276] bzw. [BS.1116]. Parameter Amplituden-Frequenzgang Schall-Bündelungsmaß C Nichtlineare Verzerrungen (Klirrdämpfung bei SPL=96 dB) Abklingzeit (Abfall auf Pegel von 1/e) Zeitverzögerung zwischen Stereo-Lautsprechern Dynamikbereich max. Betriebsschallpegel Geräuschpegel
Frequenzbereich 40 Hz bis 16 kHz 250 Hz bis 2 kHz 250 Hz bis 4 kHz < 100 Hz > 100 Hz
[Einheit] Wert dB 4 dB-Toleranzbereich (siehe Text) dB 4 dB bis 12 dB !30 (3%) dB (%) !40 (1%) s < 5/f [Hz] :s
< 10
dB dBA
> 112 < 10
Tab. 18/10 fasst nochmals die wesentlichen Anforderungen zusammen. Zu den Definitionen und Messverfahren der in der Tabelle genannten Parameter vergleiche Kap. 4 bzw. Kap. 10. 1163
Qualitätssicherung Ringmessungen in zahlreichen Abhörräumen europäischer Rundfunkorganisationen haben gezeigt, dass die oben beschriebenen Minimalanforderungen an Bezugs-Abhörräume und -Lautsprecher realistisch sind und vielerorts eingehalten werden [18.14]. 18.6.1.6
Nahfeldabhören
Beim Abhören mit sog. Nahfeldmonitoren – das sind kleine Lautsprecherboxen, die z. B. unmittelbar auf den Regietisch gestellt werden und so wegen des geringen Abstands den Abhörplatz überwiegend mit Direktschall versorgen – kann zwar der Einfluss des Raums minimiert werden; allerdings erfüllen solche Lautsprecher nur eingeschränkt die Qualitätsforderungen an Regielautsprecher. Die Absicht, mit solchen Abhöranordnungen den Abhörbedingungen im Wohnraum möglichst nahe zu kommen, kann ebenfalls nur näherungsweise erfüllt werden, solange es keine einheitlich definierten Bedingungen für Heimwiedergabeanordnungen (Lautsprechereigenschaften, geometrische Bedingungen usw.) gibt.
18.6.2
Abhörstandard für Kopfhörerwiedergabe
Die Überwachung mit Kopfhörerwiedergabe ist z. B. dann erforderlich, wenn die Aufnahme mittels Kunstkopf erfolgt (siehe Kap.5.6 und 5.7). Darüber hinaus empfiehlt sich das Kontrollabhören über Studio-Kopfhörer, wenn die akustischen oder räumlichen Bedingungen im Regieraum eine angemessene Wiedergabequalität über Lautsprecher ausschließen (z. B. in kleinen Ü-Wagen oder in geräuschbelasteter Umgebung). Außerdem werden Kopfhörer häufig für subjektive Tests eingesetzt. Bei Anwendung von Kunstkopfstereofonie ist das Abhören über Kopfhörer selbstverständlich. Bei Kopfhörerwiedergabe haben die Raumeigenschaften praktisch keinen Einfluss auf das Hörereignis. Hier sind ausschließlich die Eigenschaften des verwendeten Wandlers maßgebend. In den Fällen, in denen Kopfhörerwiedergabe erforderlich ist, werden Studio-Kopfhörer entsprechend EBU [Tech3276] empfohlen. Das bedeutet, der Kopfhörerfrequenzgang muss die Anforderungen nach ITU–R [BS.708] erfüllen. Alle anderen Eigenschaften des Kopfhörers müssen den Anforderungen in [IEC581] entsprechen. Vergleichende Messungen des Schallpegels im Ohrkanal haben gezeigt, dass der Pegel bei Kopfhörerwiedergabe bezogen auf eine gleich laut empfundene Lautsprecherwiedergabe um etwa 5 dB höher ist. Weitere Details siehe auch Kap. 5.7.
18.6.3
Virtuelle Abhörräume
Ein Spezialfall des Kopfhörer-Monitoring stellt das BRS-System (Binaural Room Synthesis) dar [18.15]. Mit BRS lassen sich sowohl reale als auch modellierte Abhörsituationen, also Regieräume mit Lautsprechern, auralisieren. BRS basiert prinzipiell auf der Abtastung und virtuellen Darstellung realer Abhörsituationen. Dies geschieht, indem zunächst die Außenohrübertragungsfunktionen bzw. binauralen 1164
Auditive Programmsignalkontrolle Raumimpulsantworten (HRTF, Head Related Transfer Functions) des Referenzraumes mit Hilfe eines Kunstkopfes gemessen werden. Die Reproduktion erfolgt mit Studio-Kopfhörern. Die entsprechenden Kopfhörersignale, die die virtuelle räumliche Wahrnehmung erzeugen, berechnet der BRS-Prozessor durch Faltung der Eingangssignale mit den gemessenen HRTF (Prinzipdarstellung siehe Abb. 18/21).
Abb. 18/21. Binaural Room Synthesis (BRS).
Bei optimaler virtueller Reproduktion entsprechen die Ausgangssignale des BRS-Prozessors den Kunstkopfsignalen an der Hörposition im Abhörraum, die mit Hilfe des Kopfhörers an den Ohren des Hörers authentisch reproduziert werden. Das ist der Fall, wenn die Schnittstelle Kunstkopf/Kopfhörer entsprechend ITU-R Recommendation [BS.708] definiert wird (Diffusfeldanpassung). Zur Eliminierung kunstkopftypischer Vorn/Hinten-Inversionen werden bei BRS spontane Kopfbewegungen des Hörers mit Hilfe von Headtracking ausgewertet, um die den Kopfbewegungen entsprechenden HRTF dynamisch zuzuordnen. Dabei ist – je nach Anwendungsfall – eine horizontale Bewegungsfreiheit des Kopfes bis zu ±180/ realisierbar. Generell erlaubt BRS eine räumlich und tonal authentische Abbildung der abgetasteten Referenz-Abhörsituation. Das schließt ein, dass die Qualitätsmerkmale der virtuellen Abhörsituation denen eines realen Bezugs-Abhörraumes entsprechen. Eine wichtige Anwendung von BRS ist der virtuelle Surround Sound Abhörraum. Bei heutigen Fernseh- und Hörfunkproduktionen wird in zunehmendem Maße – speziell im Hinblick auf neue digitale Medien (DVD, SACD, DVB-S, DVB-T) – Mehrkanalton eingesetzt. Das setzt geeignete Abhörbedingungen voraus, die in vielen Fällen nur mit großem finanziellem Aufwand oder nur unzureichend, wie z. B. im Ü-Wagen, realisierbar sind, siehe hierzu auch die Erläuterungen unter Kap. 17.6.5.
1165
Qualitätssicherung
18.7
Methoden zur subjektiven Beurteilung der Audioqualität
Ein wichtiger Aspekt der analogen und digitalen Audiotechnik ist die Messung und Beurteilung von Störungen in Form von Signalbeeinträchtigungen, die innerhalb der verschiedenen Bearbeitungsprozesse, z. B. Produktion, Speicherung, Übertragung auftreten können. Während sich in der analogen und in der linearen digitalen Technik bestimmte objektive Messverfahren etabliert haben, die in solchen Fällen Rückschlüsse auf die resultierende Audioqualität erlauben, stehen derartige Messverfahren für moderne digitale Systeme – insbesondere im Hinblick auf gehörbasierte datenreduzierte Audiocodierverfahren – (noch) nicht zur Verfügung. Hier sind nach wie vor psychoakustische Messungen, die auf einer subjektiven Qualitätsbeurteilung basieren, unumgänglich. Die breite Palette der heutigen Audiocodierverfahren arbeitet – im Vergleich zur bekannten CD – mit deutlich reduzierten, meistens variablen Bitraten. Dies betrifft sowohl den professionellen als auch den Consumerbereich. In der Regel ist jede Reduzierung der Datenrate systembedingt mit einer Qualitätsbeeinträchtigung verbunden. Ein in der Rundfunkpraxis zusätzlich relevanter, spezieller Aspekt ist die sog. Kaskadierung von Codecs, d. h. die mehrfache Encodierung/Decodierung ein- und desselben Signals – ggf. auch mit unterschiedlichen Verfahren – innerhalb der Übertragungskette, wodurch ebenfalls Qualitätsbeeinträchtigungen auftreten können.
18.7.1
Teststrategien
Je nach Aufgabenstellung sind verschiedene Teststrategien zu unterscheiden. Jede davon kann entweder als Einzel- oder als Gruppentest durchgeführt werden. Beim Einzeltest besteht die Möglichkeit einer individuell durch die Testperson gesteuerten Umschaltung zwischen den einzelnen Stimuli zu beliebigen Zeitpunkten – ein Verfahren, das die Empfindlichkeit der Testmethode wesentlich erhöhen kann. Absolutbewertung Wenn kein Vergleichsobjekt (Referenz) zur Verfügung steht, sind Absolutbewertungen durchzuführen. Die Testpersonen bewerten die Audioqualität gestützt auf ihre Hörerfahrung und -erwartung. Gefragt werden kann z. B. nach der Wahrnehmbarkeit bestimmter Effekte (ja/nein) oder nach der quantitativen Bewertung von bestimmten Qualitätsparametern bzw. der Gesamtqualität. Diese Art der Qualitätsbeurteilung von Tonaufzeichnungen ist prinzipiell auch Bestandteil des täglichen Produktionsprozesses in Hörfunk, Film und Fernsehen, empfohlene Methoden und Parameter sind u. a. in den EBU-Dokumenten [Tech3286] und [Tech3287] beschrieben. Geeignete Bewertungsparameter für die Absolutbewertung der Audioqualität von Musikprogrammen sind weiter unten aufgeführt (Tab. 18/11).
1166
Methoden zur subjektiven Beurteilung der Audioqualität Paar-Vergleichstest Hier werden zwei (oder mehr) Testobjekte miteinander verglichen, entweder jedes Objekt mit jedem, wenn keine Referenz existiert, oder jedes Testobjekt mit einer Referenz. Je nach Wahl der Bewertungsskala (siehe Kap. 18.7.4.1) sind dabei Absolut- oder Relativbewertungen möglich. Es werden in der Regel jeweils kurze geeignete Programmausschnitte mit einer Dauer von ca. 15 s verwendet, die innerhalb eines Vergleiches mehrfach in den zu bewertenden Bearbeitungsvarianten dargeboten werden. Referenz-Vergleichstest Insbesondere für die Erkennung und Bewertung kleiner Qualitätsbeeinträchtigungen ist ein direkter Vergleich mit einer Referenz, d. h. einem Audiosystem ohne wahrnehmbare Artefakte, sinnvoll. Obwohl sich in den letzten Jahren lineare digitale Systeme mit höherer technischer Qualität als der des CD-Standards etabliert haben (SACD 1Bit / 2.8224 MHz; DVD-Audio 24 Bit / 96 kHz), muss der weltweit verbreitete CD-Standard (16 Bit / 44,1 kHz) bzw. das erweiterte lineare PCM-Studioformat (24 Bit / 48 kHz) aus psychoakustischer Sicht weiterhin als Referenz betrachtet werden.
18.7.2
Standardisierte Testmethoden
18.7.2.1
Vergleichstest
Zur Messung der Qualität von Audiocodierverfahren wurden von der ITU-R zwei Testmethoden standardisiert, die seit einigen Jahren erfolgreich bei internationalen Tests eingesetzt werden. Beide Methoden sind sowohl für monofone, stereofone als auch mehrkanalige Audiosysteme verwendbar. In Bezug auf die Anwendungsbereiche wird grundsätzlich zwischen zwei Qualitätsklassen unterschieden: „Hohe (transparente) Qualität“ und „Mittlere (Intermediate) Qualität“, d. h. eine referenznahe und eine deutlich geringere Qualität als die Referenz (siehe Kap. 18.1). 18.7.2.2
Triple stimulus – hidden reference – double blind Test
Bei dieser Testmethode nach ITU-R [BS.1116], die bei hoher oder referenznaher Audioqualität bzw. bei kleinen Codierartefakten eingesetzt wird, werden dem Hörer drei Stimuli A, B und C angeboten. Stimulus A ist immer die Referenz. Das zu beurteilende Testsignal sowie die „versteckte“ (hidden) Referenz werden in zufälliger Reihenfolge als Stimulus B und C angeboten. Die Aufgabe des Hörers besteht darin, die Referenz bzw. das zu beurteilende Testsignal zu erkennen und dann das erkannte Testsignal im Vergleich zur Referenz anhand einer standardisierten 5-stufigen Skala (Impairment scale) zu bewerten (Tab. 18/13). Dies kann zweckmäßigerweise mit einer rechnergestützten Teststeuereinrichtung erfolgen, siehe Abb. 18/22.
1167
Qualitätssicherung
Abb. 18/22. Beispiel einer grafischen Bedienoberfläche für Tests gemäß ITU-R BS.1116. Quelle: CRC, Canada.
18.7.2.3
MUSHRA-Test
Es gibt Anwendungen, bei denen eine geringere Audioqualität aus technischen oder ökonomischen Gründen unvermeidbar ist. Dies betrifft z. B. die Verteilung und Übertragung von Audiomaterial über das Internet. Bei derartigen Anwendungen mit mittlerer (Intermediate) oder geringer (Low) Audioqualität liefert diese Methode nach ITU-R [BS.1534] zuverlässigere Ergebnisse als [BS.1116]. Diese sog. MUSHRA-Methode (Double-blind Multi Stimulus test with Hidden Reference and Anchor) gestattet es, das zu beurteilende Testsignal aus bis zu 12 zeitsynchronen Testsignalen beliebig (per Knopfdruck) auszuwählen, um es zur Beurteilung über Lautsprecher oder Kopfhörer wiederzugeben (Abb. 18/23).
Abb. 18/23. Beispiel einer grafischen Bedienoberfläche für Tests gemäß ITU-R BS.1534. Quelle: CRC, Canada.
1168
Methoden zur subjektiven Beurteilung der Audioqualität Bei MUSHRA werden neben den eigentlichen Testsequenzen drei zusätzliche Stimuli angeboten. Sie beinhalten eine gekennzeichnete Referenz (unbeeinflusstes Originalsignal, das nicht zu beurteilen ist) sowie eine versteckte Referenz und einen versteckten sog. Ankerstimulus (3.5 kHz tiefpass-begrenztes Original), welcher in gleicher Weise wie die anderen Testsequenzen zu beurteilen ist. Die Beurteilung erfolgt an Hand einer kontinuierlichen Qualitätsskala von 0 bis 100% bzw. den Attributen „bad (mangelhaft) – excellent (ausgezeichnet)“ (Tab. 18/15). Beurteilt wird die „globale Audioqualität“ unter Einbeziehung aller wahrgenommenen Störungen. Bei der Beurteilung mit Hilfe von Lautsprechern wird eine Referenz-Studioabhörsituation entsprechend EBU [Tech3276] oder ITU-R [BS.1116] vorausgesetzt. Bei der Beurteilung mit Hilfe von Kopfhörern werden Studiokopfhörer entsprechend [BS.708] benutzt. Nur wenn die Messungen unter Verwendung der oben genannten Bezugs-Abhörbedingungen durchgeführt wird, kann Zuverlässigkeit und Reproduzierbarkeit der Messergebnisse gewährleistet werden.
18.7.3
Subjektive akustische Qualitätsparameter
18.7.3.1
Globale Attribute
Hörereignisse sind komplexe Sinneswahrnehmungen und erfordern differenzierte Parameter (Attributes) zur Bewertung spezieller Qualitätsaspekte. Da differenzierte Parameter für Testpersonen oft nicht eindeutig abzugrenzen sind und außerdem der Aufwand für Bewertung und Auswertung mehrerer Parameter steigt, entschließt man sich in vielen Fällen für die Verwendung nur eines globalen Parameters [BS.1284]. Ein derartig globaler Parameter ist z. B. - Basic audio quality (grundlegende Audioqualität) und bedeutet die summarische Bewertung jeder Veränderung bzw. Beeinträchtigung des zu beurteilenden Audiosignals. Zusätzliche Sub-Parameter können zur Analyse spezieller Aspekte angewandt werden, z. B. - Stereophonic image quality (Qualität der stereofonen Abbildung) für die Bewertung zweikanaliger stereofoner Klangbilder oder - Front image quality / impression of surround quality (Qualität der Frontabbildung / des umhüllenden Klangbildes) für die Bewertung mehrkanaliger Tonbeispiele. 18.7.3.2
Detaillierte Parameter zur absoluten Bewertung
Weiter detaillierte Testparameter, der sich insbesondere zur absoluten Bewertung der technisch-ästhetischen Qualität von Musikprogrammen bewährt haben, sind in [Tech3286] definiert. In Tab.18/11 sind die - ins Deutsche übersetzten – relevanten Parameter mit entsprechenden Erläuterungen dargestellt. Die aufgeführten Parameter wurden in ähnlicher Form bereits über lange Jahre innerhalb der ehemaligen OIRT [18.13] verwendet.
1169
Qualitätssicherung Bei näherer Betrachtung und Analyse zeigt sich, dass einige der genannten Parameter mehr oder weniger stark korrelieren. Dies ist jedoch nicht unbedingt als Nachteil zu betrachten, denn je detaillierter etwaige Qualitätsbeeinträchtigungen des Audiosignals beschrieben werden können, desto einfacher können Systemmängel erkannt werden. Grundsätzlich gilt, dass jeder für einen Test verwendete Parameter für die Testperson(en) ausreichend erklärt werden muss (am besten mittels geeigneter Trainingsbeispiele), um eine sichere Zuordnung der Höreindrücke zu den entsprechenden Parametern zu ermöglichen. Hier kann eine von der EBU [Tech3287] zusammengestellte Test-CD „PEQS“ mit verschiedenen Programmbeispielen und ihrer Bewertung Hilfestellung geben. Tab. 18/11. Subjektive akustische Parameter zur Beurteilung von Tonaufzeichnungen, übersetzt nach [Tech3286]. Zum Skalentyp siehe Kap. 18.7.4.1. Hauptparameter
Teilparameter
Skale
Raumeindruck (Spatial impression)
- Homogenität des Raumschalls - Nachhalldauer, Hallbalance - empfundene Raumgröße - Tiefenstaffelung - Richtungsgleichgewicht - Richtungsstabilität - Abbildungsbreite - Lokalisierungsschärfe - Registerdurchsichtigkeit - Zeitdurchsichtigkeit - Textverständlichkeit - Durchmischung - Lautstärkegleichgewicht - Dynamikbereich - Klangfarbengleichgewicht - Klangfarbe Direktschall - Klangfarbe Raumschall - Klangeinsatz - akustische Störwirkungen - elektrische Störwirkungen
II
Stereofoner Eindruck (Stereo/Surround impression) Durchsichtigkeit (Transparency)
Akustisches Gleichgewicht (Sound balance) Klangfarbe (Timbre) Störgeräusche (Noise)
II
II
II
III
I
- Codierstörungen - Aufnahmetechnik - raumakustische Irregularitäten Akustischer (summarische Bewertung aller Gesamteindruck (Basic audio quality / Haupt- und Teilparameter) Main impression)
1170
III
Bestimmende Faktoren (Beispiele) Nachhallzeit T Direktschallmaß Frequenzgang der Nachhallzeit Richtungsdiffusität Pegeldifferenzen Phasen-/Laufzeitdifferenzen Übersprechabstand Deutlichkeit Silbenverständlichkeit raumakustische Diffusität Mischungsverhältnis Dynamik, Kompression Amplitudenfrequenzgang nichtlineare Verzerrungen Einschwingvorgänge Spiel-, Publikums-, Klimageräusche Rauschen, Knacke, Brummen Bitfehler, Vor-/Nachechos, Regelvorgänge, Schnittfehler, Echos, Resonanzen, Einzelreflexionen
Methoden zur subjektiven Beurteilung der Audioqualität 18.7.3.3
Parameter zur Beschreibung digitaler Tonsignalstörungen
Eine ausführliche Liste von Parametern zur differenzierten Beschreibung von Störungen oder Veränderungen, die durch digitale Signalverarbeitung verursacht werden können (Tab. 18/12) wird u. a. bei der Auswahl von kritischen Testbeispielen für Codec-Tests benutzt. Sie sind auch zur Analyse erkannter Störungen bei digitalen Übertragungssystemen verwendbar. Tab. 18/12. Kategorien von Signalstörungen, die bei digitaler Codierung oder Übertragung auftreten können, nach [BS.1284]. Fehlerkategorie Quantisierungsfehler
Lineare Verzerrungen (Amplitudenfrequenzgang) Verzerrungen der Arbeitskennlinie Periodische Modulationsverzerrungen Nichtperiodische Modulationsverzerrungen Zeitverzerrungen Störgeräusche
Signalverluste
Korrelationseffekte (Übersprechen)
Verzerrungen des räumlichen Klangbildes
18.7.3.4
Erläuterungen Störungen in Verbindung mit unzureichender Bitauflösung, z. B. Granularverzerrungen, Schwankungen des Geräuschpegels Verlust von hohen oder tiefen Frequenzen, Formantverzerrungen, Kammfilter-Effekte Pegel- bzw. Verstärkungsänderungen, Dynamikverzerrungen, Pegelsprünge Periodische Änderungen der Signalamplitude, wie Schwirren, Zirpen oder Pumpen Störungen in Verbindung mit Einschwingvorgängen, z. B. Einschwingverzerrungen Vor- und Nachechos, Verschleifungen (Verlust an Zeitdurchsichtigkeit) Geräusche in der Nähe der Hörschwelle, die nicht aus dem Quellenmaterial stammen, wie Knacke, Rauschen, tonale Komponenten Verlust von Signalkomponenten des Quellenmaterials, z B. verursacht durch inkorrekte Entscheidungen des Verdeckungsmodells, ausgelöst durch eine generelle Kürzung von Bits Lineares oder nichtlineares Übersprechen zwischen den zugeordneten Kanälen, oder Nebensprechen zwischen unabhängigen Kanälen Alle Arten von Störungen, wie Veränderung der Abbildungsbreite, Bewegungen, unstabile Lokalisation, Lokalisierungsschärfe, Räumlichkeit
Beurteilung von kombinierten Bild- und Toninformationen
Für eine Beurteilung der Relationen zwischen Tonwiedergabe und zugeordneter Bildinformation, wie sie bei der Bewertung von Fernseh- oder Filmprogrammen auftreten, sollten weitere spezifische Parameter hinzu gezogen werden. Hierfür existiert ebenfalls eine Empfehlung der ITU-R zu Methoden zur subjektiven Bewertung von Audiosystemen mit begleitender Bildinformation, die auch die erforderlichen Wiedergabebedingungen für zugehörige Bildinformationen definiert und spezielle Bewertungsparameter für diesen Anwendungsfall beschreibt [BS.1286], darüber hinaus siehe auch Kap. 15. 1171
Qualitätssicherung
18.7.4
Testbedingungen
18.7.4.1
Bewertungsskalen
Für die Bewertung des subjektiven Eindruckes und eine statistische Auswertung der Ergebnisse ist die Verwendung geeigneter Bewertungsskalen erforderlich. Die von der ITU-R für verschiedene Anwendungsfälle empfohlenen Skalen - Typ I: Wahrnehmbarkeit von Beeinträchtigungen (Impairment scale), siehe Tab. 18/13 - Typ II: Vergleich von Varianten (Comparison scale), siehe Tab. 18/14 - Typ III: absolute Bewertung der Qualität (Quality grade), siehe Tab. 18/15 haben sich seit mehreren Jahrzehnten international bewährt. Sie werden i. Allg. als kontinuierliche Skalen mit definierten Ankerpunkten interpretiert. Tab. 18/13. Bewertung von Störungen nach ITU-R [BS.1116]. Störungen (Impairment scale) Nicht wahrnehmbar (Imperceptible) Wahrnehmbar, aber nicht störend (Perceptible, but not annoying) Wenig störend (Slightly annoying) Störend (Annoying) Stark störend (Very annoying)
Note 5.0
„diff-grade“ (Bezugswert = 5.0) 0.0
4.0
!1.0
3.0
!2.0
2.0
!3.0
1.0
!4.0
Tab. 18/14. Vergleichsskala nach ITU-R [BS.1284]. Vergleichsskala (Comparison scale) Viel besser (Much better) Besser (Better) Geringfügig besser (Slightly better) Gleich (The same) Geringfügig schlechter (Slightly worse) Schlechter (Worse) Viel schlechter (Much worse) 1172
Note 3.0 20 1.0 0 !1.0 !2.0 !3.0
Methoden zur subjektiven Beurteilung der Audioqualität Tab. 18/15. Qualitätsskala nach ITU-R [BS.1284] bzw. [BS.1534]. Qualitätsskala (Quality scale) Ausgezeichnet (Excellent) Gut (Good) Befriedigend (Fair) Ausreichend (Poor) Mangelhaft (Bad)
Note *) (Grade) 5,0
Notenbereich / % **) (Grade-Range) 80 bis 100
4,0
60 bis 80
3,0
40 bis 60
2,0
20 bis 40
1,0
0 bis 20
*) allgemeine Anwendungen **) Anwendung mit MUSHRA Darüber hinaus sind auch andere Skalen mit abweichender Stufenzahl und Definition der Ankerpunkte in Anwendung, z. B. in [Tech3286]. Ein direkter Vergleich der Ergebnisse verschiedener Tests wird dadurch allerdings erschwert. 18.7.4.2
Testpersonen
Jeder sachgerecht durchgeführte subjektive Test erfordert den Einsatz einer ausreichenden Anzahl von Testpersonen, um den erforderlichen Basisdatensatz für die statistische Auswertung der Ergebnisse zu haben. Während z.B. für die Ermittlung bestimmter durchschnittlicher Gehöreigenschaften die Befragung einer relativ großen Menge (unter Umständen mehreren hundert) ungeübter Personen, die eine entsprechende Population repräsentieren, erforderlich ist, wird bei Tests der hier beschriebenen Art (high quality bzw. small impairments) i. Allg. auf das Urteil von sog. expert listeners zurückgegriffen. Hierunter versteht man Personen mit guter Urteilssicherheit und geschultem, analytischem Hörvermögen. Bei derartigen subjektiven Tests reichen in der Regel etwa 20 Testpersonen, um statistisch gesicherte Ergebnisse zu erhalten. Die Testhörer müssen explizit über Aufgabe und Fragestellung informiert werden und vor dem eigentlichen Test durch gezieltes Training mit den Eigenschaften der untersuchten Übertragungssysteme und den vorliegenden Testbedingungen vertraut gemacht werden. Jeder Testhörer sollte seine individuellen Urteile unbeeinflusst von anderen Testteilnehmern abgeben. Prinzipiell erfolgt die Präsentation der Testobjekte anonym. 18.7.4.3
Programm-Material
Eine wesentliche Voraussetzung für die Qualitätsbeurteilung von Übertragungssystemen ist die Verwendung geeigneten Testprogramm-Materials, da letztlich die Eigenschaften des Systems nicht direkt, sondern nur über den Umweg der Beurteilung von übertragenen Programmbeispielen ermittelt werden können. Diese Test-Programmausschnitte (excerpts), die im Allgemeinen eine Länge von ca. 15 bis 20 Sekunden haben, sollten einerseits repräsentativ sein, d. h. übliche Genres, wie z. B. Sprache, 1173
Qualitätssicherung klassische Musik, Popmusik, Geräusche beinhalten, andererseits aber auch kritische Passagen, um die im praktischen Betrieb des getesteten Systems zu erwartenden worst-case-Bedingungen zu simulieren. Eine geeignete Auswahl kurzer Testsequenzen in Zweikanaltechnik, die sich seit Jahren in vielen Tests als sehr geeignet erwiesen hat, findet sich auf der von der EBU vertriebenen CD „SQAM“ (Subjective Quality Assessment Material), siehe [Tech3253]. 18.7.5.4
Auswertung von Testergebnissen
Subjektive Urteile zur Bewertung bestimmter Qualitätsparameter zeigen oft deutliche interindividuelle Unterschiede, so dass eine ausreichende Anzahl von Testpersonen (in der Regel ca. 20) befragt werden muss, um Aussagen mit zuverlässiger statistischer Sicherheit zu erhalten. Grundsätzlich sind für die Signifikanz der Ergebnisse Qualität und Anzahl der subjektiven Einzelurteile maßgebend. Die aus den Testergebnissen abgeleiteten Schlussfolgerungen und Interpretationen sind in der Regel eng verknüpft mit der jeweils angewendeten statistischen Methode der Stichprobenanalyse. Im. Allg. werden die zu bewertenden Stichproben mit Hilfe des arithmetischen Mittelwertes und des sog. Konfidenzintervalls des Mittelwertes beschrieben, bezogen auf eine statistische Sicherheit von 95%. Für detaillierte Analysen, z. B. zum Vergleich von Systemen, zur Abhängigkeit der Ergebnisse von verschiedenen Variablen oder zu Zusammenhängen verschiedener Testparameter untereinander enthält [BS.1116] weitere Hinweise für anzuwendende statistische Methoden. Es ist darauf hinzuweisen, dass die Vergleichbarkeit von Testergebnissen, die zu verschiedenen Zeiten von unterschiedlichen Testgruppen an verschiedenen Orten gewonnen wurden, stark von der Übereinstimmung aller Testbedingungen und Fragestellungen abhängen.
18.8
Softwarepflege und Datensicherheit
18.8.1
Softwaretypen
Es gibt heute kaum mehr Geräte oder Systeme in der modernen Technik, die ohne Firmware oder Software auskommen. Fast in jedem Gerät (Hardware) befinden sich mittlerweile Prozessoren oder Microcontroller (DSP), die erst durch Software ihre Funktion erhalten. Dadurch sind Systeme flexibel konfigurierbar und lassen sich an geänderte Bedingungen anpassen. Auch Weiterentwicklungen sind oft ohne aufwändige Hardware-Änderungen realisierbar und erfordern lediglich eine Anpassung oder Erneuerung der Softwareausstattung. Dies ist ein großer Vorteil, hat aber auch zur Folge, dass die Software gepflegt und ggf. erneuert bzw. einem Update unterzogen werden muss. 18.8.1.1
Software
Software ist ein unabdingbarer Bestandteil aller Systeme mit Mikroprozessoren oder anderer Computerunterstützung. Auf einem solchen System können je nach Ausstattung verschiedenste Softwareprodukte zur Anwendung kommen. Neben dem sog. Betriebssystem (z. B. DOS, MS Windows, MAC OS, LINUX, etc.), das meist universeller Natur ist und nur die Grundfunktionen des softwarebasierten Systems sichert, gibt es unterschiedlichste Applikationen (Anwendungsprogramme), die z. B. digitale Audiodaten be- und verarbeiten können. Außer 1174
Softwarepflege und Datensicherheit den eigentlichen Funktionen der einzelnen Softwareprodukte spielt das Zusammenwirken mehrerer Applikationen eine immer größere Rolle in modernen Audio-Verarbeitungssystemen. 18.8.1.2
Firmware
Unter Firmware versteht man hardware-nahe Software für programmierbare Bauteile oder Geräte, meist Microcontroller bzw. DSP. Durch die Programmiermöglichkeiten kann man heutzutage davon ausgehen, dass derartige Geräte auch nach der Auslieferung noch kontinuierlich weiterentwickelt werden. Dies geschieht häufig auch durch die Verbesserung bzw. Erweiterung der Firmware. Deshalb ist es beim Auftreten von Geräteproblemen wichtig, zu überprüfen, ob ggf. vom Hersteller eine neue Version der Firmware vorliegt, die das entsprechende Problem behebt. 18.8.1.3
Update
Eine Aktualisierung (Update) beschreibt allgemein den Vorgang, eine bereits vorhandene Software oder einen anderen Prozess auf den neuesten Stand zu bringen, um z. B. Mängel zu korrigieren oder kleinere Programmverbesserungen einzuführen. Updates sind durch eine Änderung der Build-Nummer gekennzeichnet, also einer der Kommastellen hinter der eigentlichen Versionsnummer (z. B. von Ver.3.01 auf Ver.3.03). Da Firm- und Software oft mehrfach in gewissen Abständen erweitert und verbessert werden, kommt man bei vielen Geräte und Systemen nicht umhin, diese von Zeit zu Zeit „upzudaten“, also eine neu verfügbare, aktuellere Version über die vorhandene Version zu installieren. Durch den Zugang über das Internet bzw. durch den Datenaustausch per E-Mail ist es heute kein Problem, an die entsprechenden Updates zu kommen. Manchmal sind jedoch Schulungen notwendig, um die Anpassung fachgerecht vornehmen zu können. Nicht jedes Firm- oder Softwareupdate ist jedoch mit einer Verbesserung gleichzusetzen. Damit soll ausgedrückt werden, dass man nicht jede neue Version unbedingt braucht und diese auch gleich einspielen muss. Bevor man ein Update durchführt, ist es wichtig, die sog. Release notes zu lesen. Diese sollten von den Firmen bereitgestellt werden und die Neuerungen und ggf. auch Einschränkungen der neuen Version beschreiben. Manchmal kommt es auch vor, dass sich durch neue Versionen Gerätefehler einschleichen oder dass sich Gerätefunktionen ändern. Deshalb ist es unumgänglich, Geräte bzw. Systeme nach einem Update ausführlich zu testen. Dies geschieht am besten an separaten Exemplaren, denn es ist schwierig, Geräte wieder aus dem laufenden Betrieb zu nehmen, wenn sie nach einem Update doch nicht richtig funktionieren. Der jeweils aktuelle Zustand von Firm- bzw. Software muss notiert und mit Angabe des Datums an geeigneter Stelle gesichert werden. Auch frühere Versionen sollte man aufbewahren, um z. B. bei Nichtfunktion der neuen Version auf den alten Zustand zurückgreifen zu können. Bei Updates von Software ist nicht nur auf die neuen Funktionen zu achten, sondern auch auf die Kompatibilität und das Zusammenspiel mit anderen Softwareprodukten, die verwendet werden. Je komplexer Systeme miteinander zusammenarbeiten, umso wichtiger (und zeitaufwändiger) ist eine genaue Prüfung nach einem Update. Wichtig sind auch Updates in Form von so genannten Sicherheitspatches, die dafür sorgen, dass zwischenzeitlich erkannte Sicherheitslücken im ursprünglichen Programm oder Betriebssystem geschlossen werden. 1175
Qualitätssicherung 18.8.1.4
Upgrade
Updates beinhalten selten neue Funktionen, und wenn, dann sind diese nicht von zentraler Bedeutung für das jeweilige Programm. Für neue, wichtige oder umfangreichere Zusatzfunktionen muss ein sog. Upgrade auf eine neue Grundversion des Programms durchgeführt werden, die normalerweise durch eine neue (höhere) Versionsnummer gekennzeichnet ist, z. B. durch Ver.4.0 anstelle Ver.3.09. Im Gegensatz zu Updates sind Upgrades meist kostenpflichtig.
18.8.2
Datensicherung
Bei jedem System, das über die Speichermöglichkeit von Daten verfügt, muss man sich Gedanken über die Sicherung dieser Daten machen. Die Thematik Datensicherung ist sehr vielschichtig und immer systemabhängig, so dass hier nur auf die grundsätzliche Notwendigkeit hingewiesen werden soll. Schon bei der Planung muss man u. a. folgende Punkte berücksichtigen: - Anlegen einer Redundanz, z. B. in Form von Sicherungskopien (Backup); - Auslagerung von Daten, z. B. auf unabhängigen Datenträgern oder Speichermedien; - Absicherung gegen Datendiebstahl oder Datenmanipulation, z. B. durch Vergabe von sicheren Passworten bzw. anderen individuellen Zugangsberechtigungen; - Absicherung gegen unberechtigte Einsichtnahme von Dateninhalten durch Dritte, z. B. durch Verschlüsselung von Daten; - Schutz vor schädlichen Fremdprogrammen, wie Computer-Viren oder anderen Schadprogrammen, i. Allg. geschieht dies durch Einsatz von Virenschutzsoftware oder sog. Firewalls; diese Schutzprogramme müssen in relativ kurzen Abständen durch regelmäßige Updates auf den aktuellen Stand gebracht werden. Die detaillierte Beschreibung der technischen Verfahren und Bedingungen würde den Rahmen dieses Handbuches überschreiten, es wird daher auf die einschlägige Fachliteratur verwiesen, z. B. [18.16]. 18.8.2.1
Sicherungskopie
Eine Sicherungskopie (auch als Backup-Kopie bezeichnet) ist eine eins-zu-eins-Kopie einer Datei oder eines kompletten Datenträgers, die aus Sicherheitsgründen in der Regel auf einem getrennten Datenträger, Laufwerk oder Server anzulegen ist. Damit bestehen bei Beschädigung oder Zerstörung des Originaldateien gute Chancen für die Wiederherstellung der Informationsinhalte. Dies ist jedoch nur dann gegeben, wenn die Sicherungskopien in regelmäßigen Abständen abgelegt und auch aktualisiert werden. Bei sensiblen Datenbeständen werden deshalb oft ausgeklügelte Backup-Strategien angewandt, wobei ggf. wertvoller Speicherplatz eingespart werden kann, indem jeweils nur die aktuellen Veränderungen gegenüber einem definierten Anfangszustand gespeichert werden. 18.8.2.2
Arbeitskopien
Bei einem Audio-Band, das man bearbeiten will, aber als Originalaufnahme später noch einmal braucht, erstellt man für die Bearbeitung eine Kopie bzw. kopiert nur die Teile, die man zur Bearbeitung benötigt. Das Original muss hingegen unbearbeitet im Archiv verbleiben bzw. dahin zurückgegeben werden. 1176
Softwarepflege und Datensicherheit Schwieriger ist das Thema in der digitalen Produktion, wo ein File für viele Berechtigte zugänglich abgelegt ist und von verschiedenen Arbeitsplätzen im vernetzten System bearbeitet werden kann. Wichtigste Regel auch hier: das bearbeitete Stück muss als Kopie mit anderer Bezeichnung oder zumindest Versionsnummer erneut abgelegt werden, ohne das Original zu verändern. Das gilt für alle Bearbeitungsschritte, außer ein Autor arbeitet ausschließlich selbst an seinem Ursprungsmaterial und entscheidet selbständig, was er löschen will. Typisches Beispiel ist eine Bundestagsdebatte. Wenn sie im DigaSystem-Speicher des ARDHauptstadtstudios aufgezeichnet wird, dürfen die neun oder zehn Korrespondenten, die auf dieses Material zugreifen und mit O-Tönen aus dieser Debatte Beiträge gestalten wollen, sich ihre Ausschnitte nur kopieren. Sie dürfen und können nicht die Originalaufnahme bearbeiten, kürzen oder vorzeitig löschen. Das alles muss durch die Rechteverwaltung im Audiobearbeitungssystem sichergestellt werden. Auf der anderen Seite dürfen die Speicher nicht von überflüssigem Material überquellen. Administratoren oder beauftragte Redakteure entscheiden, was in das Langzeitarchiv verschoben und was aus dem Aktualitätenspeicher gelöscht wird. In München kommen die Beiträge der Berliner Korrespondenten bei B5aktuell an, dem Informationsprogramm des Bayerischen Rundfunks. Sie werden wahlweise in voller Länge eingesetzt, gekürzt, in unterschiedlichen Teilen verwendet, manchmal erscheint nur der enthaltene O-Ton. Auch hier muss größte Sorgfalt und Disziplin bei der Benennung der einzelnen Teile bzw. bei den unterschiedlichen Versionen herrschen. 18.8.2.3
Passwortschutz
Die meisten Audiobearbeitungssysteme sind sog. groupware-Systeme. An einer Audioworkstation, an einem Ausspielsystem arbeiten im Laufe des Tages viele unterschiedliche Mitarbeiter in Schichten, die Geräte werden häufig nie abgeschaltet. Herkömmlicher Schutz über Passworte ist da meist nicht möglich, es gibt lediglich sog. Funktions-Accounts und das aktuelle Passwort für einen ggf. betrieblich notwendigen System-Reset steht auf einem Post-it, das am Monitor hängt. Trotz solcher ungeschützter Strukturen passiert in den Rundfunkanstalten erstaunlich wenig. Da von einer Workstation aus meist viele Tabellen und Datenbanken einsehbar sind, kann Schutz nur bedeuten, dass diese Möglichkeiten durch die Rechteverwaltung auf das betrieblich notwendige Minimum beschränkt werden. Die Auswertung von Logfiles sollte die Möglichkeit schaffen, zumindest nachträglich nachzuvollziehen, wer wann an welcher Station welchen Vorgang ausgelöst hat. Eine absolut sichere Welt gibt es aber bei vernetzten Systemen nicht. Bei wertvollen Musikaufnahmen in Außenstudios von Konzertsälen oder im Übertragungswagen wird in der Regel mit einem linearen Aufnahmesystem aufgenommen. Meist sind das nicht vernetzte, sondern sog. stand-alone-Geräte. Dann wird meist eine Sicherheitskopie auf einem DAT-Recorder oder z. B. einer MX 24 von Tascam aufgezeichnet, um die unwiederbringlichen Werke auch bei einem Fehler oder Versagen des linearen Audiosystems weiter verfügbar zu haben. Alternativen wären auch da vernetzte Systeme mit gespiegelten Servern und Cluster-Strukturen.
1177
Qualitätssicherung 18.8.2.4
Archivsicherheit
Einen hundertprozentigen Schutz bieten diese Maßnahmen nicht. Man sollte aber bei Sicherheitsüberlegungen im Auge behalten, dass es auch bei herkömmlichen Archiven (die aufbewahren, was fertig bearbeitet worden ist) keinen absoluten Schutz gab. Ein Brand, ein Erdbeben, die ein Archivgebäude zerstören, haben auch in der Vergangenheit alles vernichtet, eine Bandkopie in einem anderen Gebäude gab es in den wenigsten Fällen. Für Band-Archive hätte man einfach zuviel teuren Platz vorhalten müssen, einschließlich entsprechender Klimatisierung. Beim digitalen Massenspeicher geht der Schutz der Inhalte schon erheblich weiter. Beim Konzept des Massenspeichers IDAS des BR werden die Daten bei der Digitalisierung grundsätzlich auf zwei verschiedene Typen von Magnetbändern aufgezeichnet, die in zwei unterschiedlichen Robotertypen aufbewahrt und wieder gefunden werden können. Diese Robotersysteme befinden sich in verschiedenen Gebäuden. Das täglich benutzte Hauptsystem enthält jede Kassette in zweifacher Ausfertigung, um Datenverlust zu vermeiden. Für Recherche- und Informationszwecke liegt auf dem Server des Systems noch eine weitere, datenreduzierte Kopie. In den Robotern werden die Datenkassetten regelmäßig auf Datenverluste geprüft, schon bei geringen Aussetzern werden automatische Restaurations- und Kopiervorgänge eingeleitet. Solche modernen Massenspeichersysteme speichern die Essence, also den Audioinhalt eines Beitrags, zusammen mit den Metadaten, also allen Zusatzinformationen, die den Beitrag beschreiben. Der Vorteil gegenüber dem Abspeichern nur der Inhalte z.B. auf einer CD liegt darin, dass beim Veralten des Abspiel- und Aufbewahrungssystems (z.B. Robotersystem MagStar von IBM) Essence und Metadaten zusammen automatisch auf ein neues Speichersystem überspielt werden und dann mit denselben Recherchemechanismen wie bisher gesucht, gefunden und ausgeliefert werden können. Und wenn diese Gerätegeneration nach 20 Jahren wieder durch ein neues Speichersystem abgelöst wird, kann dasselbe noch einmal geschehen. 18.8.2.5
Virenschutz
Der Schutz vor Viren, Hackern und anderen Schädlingen im Netz ist natürlich für die komplexen und anfälligen Sendesysteme einer Radiostation besonders wichtig. Einige Stationen schützen sich durch eine strikte Trennung von Produktionsnetz und IT-Netz. Während im Produktionsnetz an speziellen Workstations nur die Audiodaten bearbeitet, verschoben, geplant und gesendet werden, ist der Arbeitsplatz im IT-Netz ein allgemeiner Büroarbeitsplatz mit allen Verbindungen ins Internet. Eine solche Trennung ist teuer, verdoppelt an vielen Arbeitsplätzen den Aufwand an Geräten, lässt manche Arbeitsweise nicht zu und erschwert andere, aber sie schützt relativ verlässlich vor Korruption der wertvollen Audiodaten von außen. Andere Anstalten versuchen mit zusätzlichen Mitteln (Firewalls, „demilitarisierte“ Zonen, Webservern, Citrix-Systemen) ihre Audiodaten von Seuchen frei zu halten. Sie benötigen dazu viel zusätzliches Know-how ihrer IT-Sicherheitsfachleute, teilweise hohe Rechnerleistungen und vor allem kompetente und jederzeit verfügbare Mitarbeiter, die kurzfristig aktuelle Angriffe im Netz aufspüren und die richtigen Gegenmaßnahmen ergreifen können.
1178
Softwarepflege und Datensicherheit 18.8.2.6
Umgang mit Updates und Upgrades in Audioarchiven
Für einen Audiomassenspeicher als Hörfunkarchiv benötigt man zumindest drei softwaregestützte Systeme, um mit ihm arbeiten zu können: - eine Archivnachweisdatenbank (innerhalb der ARD die „gemeinsame Hörfunkdatenbank“, die drei unterschiedliche Datenbanksysteme abgelöst hat, und die WDR Datenbank Archimedes); - ein Content Management-System für den Massenspeicher, um Importe in den Speicher, Suche im Speicher, Exporte aus dem Speicher, Vorhören in reduzierter Qualität, und Ausliefern in hoher Qualität, den Transport zwischen Offline-Bandspeichersystemen und OnlineFestplattenspeichern bewerkstelligen zu können; - ein Audiosystem, aus dem die Audiofiles mit festgelegten Formaten (Wave, RiFF, MPEG, RF64, siehe Kap. 13.3) importiert, und in das Audiofiles exportiert werden können (Audiospeicher oder Sendungsplanung). Bei der Ersteinrichtung solcher Systeme werden die Schnittstellen so konfiguriert, dass die Abläufe der einzelnen Teilprozesse ineinander passen und der Workflow ungehindert läuft. Schon wenn beispielsweise im Audiosystem kleinere Updates vorgenommen werden, kann es zu Störungen, Stockungen, oder zunächst unerklärlichen Fehlern kommen. Der Grund liegt meist darin, dass der Programmierer die Abhängigkeit von den anderen Systemen nicht kennt, und wenn, kann er nicht alle möglichen abhängigen Systeme berücksichtigen. Hier fehlen den Softwareentwicklern im Broadcast-Umfeld häufig die erforderlichen mächtigen Instrumente, mit denen man die Qualität von Software vor dem roll-out testen kann. Sie sind für den kleinen Broadcast-Markt schlichtweg zu teuer. Es fehlen ihnen aber auch die notwendigen Mitarbeiter und betrieblichen Kenntnisse. Deshalb sind meist die Erstkunden in der Radiolandschaft die sog. Beta-Tester, die Bugs und Fehler in der Software erst aufspüren und an den Hersteller zurückmelden. Im Bereich der Software-Updates kommt es eher selten vor, dass die Schnittstellen zu den anderen Systemen betroffen sind und Fehler in den anderen Systemen erzeugt werden oder der Datenaustausch gestört wird. Anders ist es bei den Upgrades, also komplexen Weiterentwicklungen der Systeme. Diese Upgrades kosten meist auch viel Geld, während die Updates oft im Rahmen der Softwarewartungsverträge (in der Regel 5% bis 15% des ursprünglichen Lizenzpreises) liegen. Wenn beim Aufspielen eines solchen Upgrades nicht genau getestet wird, wie das umgestellte System mit den anderen peripheren Systemen zusammenwirkt, ist der Betrieb radikal gefährdet. Deshalb empfiehlt es sich, für die wichtigsten Systeme eigene Testserver und Testumgebungen aufzubauen, in denen das Zusammenspiel mit den anderen Systemen vor dem „Scharf“-Schalten off-line getestet werden kann. Nur dadurch kann man sich einigermaßen vor dem GAU, nämlich dem Stillstand eines oder aller Systeme in der Kette vom Archiv zur Sendung bewahren.
18.8.3
Mensch–Maschine–System im digitalen Hörfunkprozess
In der analogen Welt war allein der Tontechniker/Toningenieur für die technische Qualität des Audioprogramms zuständig. Er brauchte dazu ein geschultes Gehör, ein Gefühl für Qualität, 1179
Qualitätssicherung gute Augen und ggf. eine gute Schere. Er hatte dazu Bandmaschinen (z. T. mit Schere) und ein Mischpult zur Verfügung und hat überwiegend auf Anweisung der redaktionellen bzw. künstlerischen Mitarbeiter gehandelt. In der digitalen Welt arbeitet der Mensch nicht mehr (nur) an Maschinen oder herkömmlichen Tonstudioanlagen, sondern an rechnergestützten Systemen, bei denen er die Bedien-Oberfläche beherrscht, er arbeitet unter Zuhilfenahme von Monitoranzeigen, verschiedenen SoftwareApplikationen, diversen Zusatzgeräten, wie Maus, Tastatur und Hardwarecontroller. Er braucht weiterhin sein Gehör, seine guten Augen und in zunehmendem Maße gestalterische Fähigkeiten. Er ist aber nach wie vor abhängig von der Qualität der Hardware, der Soundkarte, seiner Anwendungssoftware und dem Betriebssystem dahinter, dem Netzwerk, dem Server, auf den er zugreift. Das Drumherum muss der Mensch nicht unbedingt beherrschen und begreifen, nur bedienen. Dennoch erfordert die Produktion eines Audiofiles natürlich weiterhin die Kenntnis der Rahmenbedingungen für die gestalterische Umsetzung. Heute arbeiten nicht nur Tontechniker, sondern auch Journalisten, Musikgestalter, Producer oder Dokumentare an den Audiosystemen. Das heißt, dass in der digitalen Hörfunkwelt bei der Produktion von Alltags-Beiträgen und Sendungen – anders als in der analogen Technik – nicht mehr nur technische Experten die Maschinen bedienen, sondern häufig Nicht-Techniker mit den Systemen arbeiten. Auch der Tontechniker ist in der Technik hinter der Applikationssoftware in der Regel nur Anwender. Die Anwender von heute aber benötigen leicht verstehbare Bedien-Oberflächen mit selbsterklärenden Icons, klare und einfache Schrittfolgen für die Gewährleistung der Aktualität und häufig wiederkehrende Produktionsformen, sowie möglichst wenig Wechsel der vertrauten Bedienprinzipien (die Bandmaschinenbedienung blieb 25 Jahre praktisch gleich). Ganz anders liegen die Verhältnisse in der hochwertigen Hörspiel- und Musikproduktion, bei denen die Bedienoberflächen und Systeme wegen ihrer Komplexität nach wie vor von Experten bedient werden. Im Hintergrund der neuen Prozesse aber muss eine ganz neue Phalanx von Fachleuten wirken, wie Netzwerkexperten, Server- und Datenbankexperten, Administratoren von Bearbeitungssystemen, Coaches und Supporter, die fähig sind, entstandene Störungen schnell einzugrenzen und zu beheben, aufgetretene Fehler zu lokalisieren und an die Entwickler bzw. Qualitätssicherer weiterzumelden. Solche ursprünglich aus dem IT-Umfeld kommenden Fachleute haben aber in der Regel wenig Detailwissen über die Audiotechnik, ihre Besonderheiten und Echtzeiterfordernisse. Nur wenn beides zusammenkommt, IT-Wissen und Audio-Erfahrung, können diese Experten in den Rundfunkanstalten fruchtbar und effektiv mit der Audioseite zusammenwirken. Die Audioqualität ist im digitalen Hörfunk an vielen Stellen auch durch die Vielzahl der Möglichkeiten in den eingesetzten Softwareprodukten gefährdet, deshalb müssen die Quellen von Störungen erforscht und Maßnahmen zur Sicherung der Audioqualität Schritt für Schritt in der jeweils aktuellen Umgebung ergriffen werden. 18.8.3.1
Fehlerquellen
Die wichtigsten Fehlerquellen in Rundfunk- und verwandten Produktionsprozessen lassen sich finden in 1180
Softwarepflege und Datensicherheit - den technischen und gestalterischen Prozessen der Produktion, - der Sendeabwicklung, - der Distribution, - der Archivierung. Nachstehend seien einige Beispiele für typische Fehlerquellen genannt und Möglichkeiten zur Abhilfe angedeutet. Aussteuerung Ein Austeuerungsmesser mit sample-genauer Anzeige in Sendung und aktueller Produktion liefert bekanntlich keine Aussage über die Lautheit eines Signals und ist damit nicht nutzbar zur optimalen gehörrichtigen Aussteuerung. Abhilfe: Eine standardisierte Pegelmessung mit einer Integrationszeit von 10 ms (QuasiSpitzenwertaussteuerungsmesser, PPM) lässt diese notwendige gehörrichtige Aussteuerung schon eher zu, optimal wäre der Einsatz spezieller Lautstärkeanzeigen, wie in Kap. 18.4.5 beschrieben. Des weiteren ist die Anzeige von softwareseitig eingebauten Pegelmessern in Audiobearbeitungssystemen teilweise sehr ungenau, so dass sie eher eine irreführende als eine zuverlässige Beurteilung der Aussteuerung zulassen. Abhilfe: Modifizierung der Anzeigen auf die standardisierte Quasi-Spitzenwertaussteuerung (s. o.) und geeigneter Skalierung und Darstellungsgröße in allen Stufen eines Audioproduktionsprozesses. Darüber hinaus wird bei Hörspiel- und Musikproduktionen ggf. eine (zusätzliche) Pegelanzeige mit sample-genauer Anzeige benötigt, um den Headroom in Audiosystemen optimal ausnutzen zu können (siehe Kap. 18.5). Tonsignalbearbeitung Technische Bearbeitungsmöglichkeiten (z. B. hohe Dynamik-Kompression) werden häufig zuviel und mit zu wenig Rücksicht auf Programminhalt und Qualität eingesetzt. Auch durch nachträgliche Bearbeitung (oft durch Laien) von qualitativ hochwertigen, von Toningenieuren produzierten Audiofiles werden genau geplante Effekte und Klangbilder zerstört. Abhilfe: Genaue Definition von Klangbildern (Klangdesign) für bestimmte Programminhalte und hochwertige Audio-Produkte, siehe Kap. 6. Sendeabwicklung Ein Abhörpunkt lediglich am Ende der Signalkette (hinter dem Audioprozessor = Kompressor) erlaubt Technikern und „selbst fahrenden“ Moderatoren nicht, die Folgen ihrer Aussteuerung zu erkennen. Durch den Prozessor wird das Klangbild verändert, dadurch ist es nicht möglich, diesem ein optimales Signal anzubieten, damit dieser effektiv arbeiten kann. Es kommt zu Effekten, die zu Qualitätseinbußen beim Hörer führen. Abhilfe: Abhören und Aussteuern am Mischpultausgang vor dem Dynamik-Prozessor, zusätzliche (optionale) Überwachung des Sendeausganges hinter dem Prozessor. Distribution (Signalverteilung am Ausgang des Sendestudios) Zu viele Wandlungen zwischen linearen und datenreduzierten Signalen (Codec-Kaskadierungen, s. Kap.12) schaffen Artefakte beim Hörer. Bereits in der Produktion lassen sich durch die 1181
Qualitätssicherung Notwendigkeit von sample-genauem Schnitt, Mischung, Filterung und Timestretching solche Kaskadierungen oft nicht vermeiden. Durch komplex angelegte Leitungswege zu den Sendern kommen weitere Qualitätsverschlechterungen durch Kaskadierung hinzu. Abhilfe: Minimierung der Anzahl an Kaskadierungsstufen, z. B. durch lineare (unkomprimierte) Produktion und Ausspielung. Archivierung Zum Ausschöpfen des Dynamikbereichs (siehe Kap. 18.5) werden Audiofiles und CDs häufig mit einem Spitzenpegel bis zu 0 dBFS angeliefert. Bänder und DAT-Kassetten sind hingegen teilweise mit -9 dBFS in den digitalen Archiven abgelegt. Um eine Sendeabwicklung mit einheitlicher Aussteuerung zu erreichen, sind deshalb individuelle Pegelanpassungen während der Sendung nötig. Abhilfe: Einheitliche Archivierungsnorm entsprechend dem Großteil des verwendeten Materials anwenden, automatisches Erzeugen von Pegel-Korrekturwerten (anhand von Metadaten) für die Sendeabwicklung. Qualitätssicherung kann also bedeuten, die Regeln für den Umgang mit den Systemen ein für allemal festzulegen und sich danach zu verhalten, es kann aber auch bedeuten, dass man bei der Auswahl von Hard- und Software mehr Augenmerk auf diese Bedingungen legt und die Sinne der Mitarbeiter schärft, gestalterische Facetten der Audioqualität wieder mehr zu beachten. 18.8.3.2
Durchgängiger Workflow von Audio- und Metadaten
Für den Tontechniker stehen natürlich das einzelne Audioprogramm und seine Qualität im Vordergrund, für einen redaktionellen Mitarbeiter eher der Inhalt. Für eine Rundfunkanstalt oder eine Produktionsfirma aber kommt es darauf an, dass nicht nur die Produktion des Audiobeitrages selbst wirtschaftlich und qualitativ hochwertig erfolgt, sondern der gesamte Arbeitsprozess (Workflow) von der Idee bis zur Produktion eines Beitrags oder einer Sendung über die Sendeabwicklung und Archivierung bis hin zur Abrechnung und zum Download im Internet durchgängig von Metadaten begleitet wird. Bei großen Rundfunkanstalten steht dahinter - neben den Redaktionen und der Hörfunktechnik (Sendeabwicklung), die natürlich im Mittelpunkt des Prozesses stehen - eine Riesenorganisation, von den Honorar- und Lizenzabteilungen über die betriebswirtschaftlichen Abteilungen bis zu Archiven, online-Redaktionen und der Programmdistribution. Im Prinzip kann man für einen Beitrag oder eine Sendung im Bereich der Hörfunkproduktion drei Stadien unterscheiden: - die Idee, Produktion, Anlieferung und Sendeplanung, - die Sendung selbst, - die Abrechnung, Auswertung, Mehrfachverwertung und Archivierung. Im besten Falle berücksichtigt ein Sendeplanungssystem möglichst viele der Funktionen, die dabei eine Rolle spielen, oder aber es hat klar definierte Schnittstellen zu anderen Systemen, die Daten oder das Audiofile liefern. Abb. 18/24 zeigt die komplexen Zusammenhänge am Beispiel der Sendeplanung und nachfolgender Prozesse. Für weitere Details siehe auch Kap.16. 1182
Softwarepflege und Datensicherheit
1183
Qualitätssicherung
Standards [AES3] [AES11] [AES17] [AES1001] [ARD R1] [ARD et al] [BS.468]
[BS.644] [BS.645] [BS.708] [BS.1116]
[BS.1284] [BS.1286] [BS.1534]
[BS.1387] [BS.1770] [BS.1771] [DAR]
1184
AES: Doc. AES3-2003. Serial transmission format for two-channel linearly represented digital audio data. New York, 2003. AES: Doc. AES11-2003. Synchronization of digital audio equipment in studio operations. New York, 2003. AES: Doc. AES17-1998. Measurement of digital audio equipment. AES: Technical Document TD1001.0.01-10. Multichannel surround sound systems and operations. New York, 2001. ARD: Technische Richtlinie R1. Wartung von softwaregesteuerten Geräten und Anlagen. München (IRT), 1984. ARD/ZDF/ORF/SDTV: Technische Richtlinien zur Herstellung von Fernsehproduktionen. München, 2003. ITU-R: Recommendation BS.468-4. Measurement of audio-frequency noise voltage level in sound broadcasting (ersetzt CCIR 468). Geneva, 1986. ITU-R: Recommendation BS.644-1. Audio quality parameters for the performance of a high-quality transmission chain. Geneva, 2002. ITU-R: Recommendation BS.645-2. Test signals and metering to be used on international sound programme connections. Geneva, 1992. ITU-R: Recommendation BS.708: Determination of the electro-acoustical properties of studio monitor headphones. Geneva, 1990 ITU-R: Recommendation BS.1116-1. Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems. Geneva, 1997. ITU-R: Recommendation BS.1284-1. General methods for the subjective assessment of sound quality. Geneva, 2002. ITU-R: Recommendation BS.1286. Methods for the subjective assessment of audio systems with accompanying picture. Geneva, 1997. ITU-R: Recommendation BS.1534-1. Method for the subjective assessment of intermediate quality levels of coding systems - MUSHRA (Double-blind MUlti Stimulus test with Hidden Reference and Anchor). Geneva, 2003. ITU-R: Recommendation BS.1387 (PEAQ). Method for objective measurements of perceived audio quality. Geneva, 1999 ITU-R: Recommendation BS.1770. Algorithms to measure audio programme loudness and true-peak audio level. Geneva, 2006 ITU-R: Recommendation BS.1771. Requirements for loudness and truepeak indicating meters. Geneva, 2006. RBT: DAR_V2_2001. Richtlinien für die Messung von digitalen Geräten und Anlagen in der Audiotechnik. Nürnberg, 2001.
Qualitätssicherung [DIN45405] [DIN45406] [DIN45631] [ETS]
[IEC268]
[IEC581] [HFBLK15] [P.862] [Pf3/5] [Pf3/6] [R68] [SSF1.1]
[SSF2.1]
[Tech3205] [Tech3253]
[Tech3276]
[Tech3286]
DIN 45 405. Störspannungsmessung in der Tontechnik. Berlin, 1983. DIN 45 406. Aussteuerungsmesser für elektroakustische Breitbandübertragung. Berlin, 1983. DIN 45 631. Berechnung des Lautstärkepegels und der Lautheit aus dem Geräuschspektrum. Berlin, 1991. ETSI: ETS 300 401. Radio broadcasting systems: Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers. Sophia-Antipolis, 1995 (seit 2001 ersetzt durch EN 300 401). IEC: Publication 268. Sound system equipment. Geneva Part 10: Peak programme level meters (2nd ed.). 1991 Part 17: Standard volume indicators. 1990 Part 18: Peak programme level meters – Digital audio peak level meter. 1995. IEC: Publication 581. High fidelity audio equipment and systems; minimum performance requirements. Part 10: Headphones. 1986. IRT/HFBL-K: Empfehlung 15. Headroom bei digitalen Tonsignalen. München, 1994. ITU-T: Recommendation P.862 (PESQ). Perceptual evaluation of speech quality. Geneva, 2001. ARD/ZDF: Technische Richtlinie 3/5. Tonregieanlagen. München, 1995. ARD/ZDF: Technisches Richtlinie 3/6. Aussteuerungsmesser. München, 1998. EBU: Recommendation R68-2000. Alignment level in digital audio production equipment. Geneva, 2000. VDT/Surround Sound Forum: Empfehlung für die Praxis SSF–01.1/2002. Hörbedingungen und Wiedergabeanordnungen für Mehrkanal-Stereofonie. München, 2002. VDT/Surround Sound Forum: Empfehlung für die Praxis SSF-02.1/2002. Mehrkanalton-Aufzeichnungen im 3/2-Format. Parameter für Programmaustausch und Archivierung, Einstellung von Wiedergabeanlagen. München, 2002. EBU: Doc. Tech. 3205-E: Standard peak programme meter for the control of international transmissions. Geneva, 1979. EBU: Doc. Tech. 3253-E: Subjective Quality Assessment Material (SQAM) – Recordings for subjective tests. Users' handbook for the EBU SQAM Compact Disk Geneva, 1988. EBU: Doc. Tech. 3276-E - 2nd ed.: Listening conditions for the assessment of sound programme material: Monophonic and two–channel stereophonic. 1998; incl. Supplement 1: Listening conditions for the assessment of sound programme material: Multichannel sound. Geneva, 2004. EBU: Doc. Tech. 3286–E. Assessment methods for the subjective evaluation of the quality of sound programme material – Music. Geneva, 1997. 1185
Qualitätssicherung [Tech3287]
EBU: Doc. Tech. 3287-E (PEQS). Parameters for the subjective evaluation of sound programme material – Music. Geneva, 1997.
Literatur [18.1]
Buchold, H.: Über die Verteilung und Addition der Qualitätsparameter im Tonkanal. Techn. Mitt. RFZ, Berlin,1972, H. 3.
[18.2]
Steinke, G.: Das Pegelprofil in der Tonstudio- und Rundfunkübertragungstechnik. Techn. Mitt. RFZ, Berlin, 1989, H. 3
[18.3]
Hoeg, W.: Kap.14.3 (Tontechnik), in: Handbuch der Telekommunikation. Carl Hanser Vlg., München, 2000.
[18.4]
Steffen, E.: Untersuchungen zur lautstärkegerechten Aussteuerung von RundfunkTonsignalen. Techn. Mitt. RFZ, Berlin, 1978, H.3/4.
[18.5]
Hoeg, W. und Grunwald, P.: Visuelle Überwachung von mehrkanaligen Tonsignalen auf einem VGA-Monitor. 19. Tonmeistertagung, Karlsruhe,1996.
[18.6]
Spikofski, G. and Klar, S.. Levelling and loudness in radio and television broadcasting. EBU-Techn. Review No. 297, Geneva, 2004.
[18.7]
Hoeg, W. und Steinke, G.: Stereofonie-Grundlagen. Verlag Technik, Berlin, 1972/1975.
[18.8]
Lauridsen, H. und Schlegel, F.: Stereofonie und richtungsdiffuse Klangwiedergabe. Gravesaner Blätter 1956 No. V.
[18.9]
Spikofski, G.: Signal-to-noise-ratio for digital transmission systems. Preprint No. 2196, 77. AES Convention. Hamburg, 1985.
[18.10] Hoeg, W., Gilchrist, N., Twietmeyer, H., Jünger, H.: Dynamic Range Control (DRC) and Music/Speech Control (MSC) - Programme-associated data services for DAB. EBU Techn. Review, 1994. [18.11] Theile G.: Programmspezifische Kompression im Studio, Basiskompression vor analogen Sendewegen, Variable Dynamik im Wiedergabeverstärker. ITG-Fachbericht 133. VDE-Verlag, 1995. [18.12] Plenge, G., Spikofski, G., Theile, G.: Variable Dynamik - Ein Konzept für verbesserte Versorgung in Hörfunk und Fernsehen. Rundfunktechn. Mitt., München, 1986, H. 4. [18.13] Hoeg, W., Steffen, E.: Parameter zur subjektiven akustischen Bewertung von Hörereignissen. Z. Bild und Ton, Leipzig,1981, H.7. [18.14] Spikofski, G.: Assessment of sound-field parameters - differences in studio listening conditions. EBU Techn. Review, No. 284, Geneva, 2000. [18.15] Mackensen, P., Theile, G., Fruhmann, M., Spikofski, G., Horbach, U., Karamustafaoglu, A.: Der virtuelle Surround Sound Abhörraum – Theorie und Praxis. ITG Hörrundfunk. Köln, 1999. [18.16] Müller, K.-R.: IT Sicherheit mit System. VIEWEG, 2. Aufl. 2005. 1186
19
Arbeitssicherheit und Gesundheitsschutz
19.1
Arbeitssicherheit
19.1.1
Allgemeines
Der Arbeits- und Gesundheitsschutz ist in Deutschland sowohl im öffentlichen Recht als auch im Privatrecht geregelt. Das öffentlich-rechtliche Arbeitsschutzrecht wird durch den Staat sichergestellt, Verstöße werden durch Bußgelder oder als Straftaten geahndet. Im privaten Recht ist der Arbeitgeber nach § 618 des Bürgerlichen Gesetzbuches dazu verpflichtet, die Grundsätze der Gefahrenabwehr für Leben und Gesundheit der Beschäftigten bei der Einrichtung der Räume, der Beschaffung von Maschinen und der Verrichtung der Tätigkeiten zu beachten, soweit es die Natur der Arbeit gestattet. Verstöße können zu Schadenersatzforderungen durch die Beschäftigten führen. Die Haftung des Arbeitgebers ist aber ausgeschlossen, soweit die Berufsgenossenschaften als Träger der gesetzlichen Unfallversicherung die Zuständigkeit übernommen haben, Arbeitsunfälle und Berufskrankheiten sowie arbeitsbedingte Gesundheitsgefahren zu verhüten. 19.1.1.1
Das duale System im Arbeitsschutz
Das in Deutschland seit Beginn des 20. Jahrhunderts bestehende duale System im Arbeitsschutz stützt sich auf zwei Säulen: zum Einen auf die staatliche Arbeitsschutzaufsicht der Länder, das sind die Ämter für Arbeitsschutz oder Gewerbeaufsichtsämter, zum Anderen auf die Unfallversicherungsträger, also die Berufsgenossenschaften und Unfallkassen. Die staatlichen Arbeitsschutzämter haben die Aufgabe, branchenübergreifend die betriebliche Umsetzung staatlicher Rechtsvorschriften zu kontrollieren. Da Unternehmen der verschiedensten Wirtschaftsbereiche und Branchen unterschiedliche Risiken für die Gesundheit und Sicherheit der Beschäftigten aufweisen, sorgt die branchenorientierte Ausrichtung der Berufsgenossenschaften dafür, ihre Aktivitäten auf die Erfordernisse der einzelnen Branchen zu konzentrieren. Zur Erfüllung ihres gesetzlichen Präventionsauftrages sind die Unfallversicherungsträger berechtigt, als autonomes Recht Unfallverhütungsvorschriften zu erlassen [19.1]. Die berufsgenossenschaftlichen Vorschriften werden durch die Fachgremien als Musterentwürfe erstellt und anschließend dem Bundesministerium für Wirtschaft und Arbeit (BMWA) zur Genehmigung vorgelegt. Nach erfolgter Genehmigung durch das Ministerium sind die Unfallverhütungsvorschriften öffentlich bekannt zu machen. Arbeitgeber und Arbeitnehmer steuern gemeinsam diesen Prozess und sorgen so dafür, dass die Regelungen praxisund branchengerecht umgesetzt werden. Der technische Arbeitsschutz ist durch die für den staatlichen Arbeitsschutz zuständigen Länderbehörden auf der einen und die gesetzlichen Unfallversicherungsträger auf der anderen Seite gewährleistet. Um die Übersichtlichkeit im Arbeitsschutz für die Unternehmer zu bewahren, überarbeiten die Berufsgenossenschaften das Vorschriftenwerk regelmäßig. 1187
Arbeitssicherheit und Gesundheitsschutz Staatliche Arbeitsschutzvorschriften und Unfallverhütungsvorschriften ergänzen sich zu einem umfassenden Schutz der Beschäftigten vor Arbeitsunfällen und Berufskrankheiten. 19.1.1.2
Staatliche Institutionen im Arbeitsschutz
In den einzelnen Bundesländern gibt es unterschiedliche Bezeichnungen für die Ämter für Arbeitsschutz. Auch ihre Struktur und Aufgabenwahrnehmung kann sich von Bundesland zu Bundesland unterscheiden. Die Arbeitsschutzämter kontrollieren die Einhaltung von Gesetzen und Verordnungen in den Betrieben. Dies sind z. B. das Arbeitsschutzgesetz, die Bildschirmarbeitsverordnung, die Lastenhandhabungsverordnung, das Arbeitszeitgesetz, das Jugendarbeitsschutzgesetz usw. Die staatliche Arbeitsschutzaufsicht gliedert sich in den technischen Aufsichtsdienst durch den Einsatz von Gewerbeaufsichtsbeamten und den medizinischen Aufsichtsdienst durch Gewerbeärzte. Die Gewerbeaufsichtsbeamten werden entweder von sich aus aktiv oder nach Anforderung von außen. Sie haben jederzeit das Recht, Betriebe unangemeldet und auch nachts zu betreten und zu besichtigen. Bei Rechtsverstößen können sie Zwangsmittel bis hin zu Betriebsstilllegungen anwenden. Außerdem erfüllen sie beratende Aufgaben in Unternehmen und Dienststellen. Sie erläutern und begründen gesetzliche Vorschriften und helfen bei der praktischen Umsetzung. Für arbeitsmedizinische Fragen sind bei der Gewerbeaufsicht staatliche Gewerbeärzte zuständig. Sie haben neben ihrer Aufsichtsfunktion auch noch die Aufgabe, bei einem Berufskrankheitsverfahren zu Entscheidungen der Berufsgenossenschaft Stellung zu nehmen. Sie können beispielsweise weitere Ermittlungen zur Erhebung der arbeitsbedingten Krankheitsursachen anregen. Dies muss dann in den Rentenausschüssen oder Widerspruchsstellen, die paritätisch besetzt sind, behandelt werden. Im staatlichen Recht begann ab dem Jahr 1990 die Harmonisierung im Arbeitsschutz innerhalb der Europäischen Gemeinschaft. Gestützt auf den Vertrag zur Gründung der Europäischen Wirtschaftsgemeinschaft, insbesondere durch Artikel 118 a, legt der Rat der Europäischen Gemeinschaft Mindestvorschriften in Form von Richtlinien fest. Diese müssen von den Mitgliedsstaaten in nationales Recht umgesetzt werden. Das neue Arbeitsschutzgesetz (ArbSchG) trat im August 1996 in Kraft und setzt die EG-Rahmenrichtlinie [89/391/EWG] um. 19.1.1.3
Berufsgenossenschaftlicher Arbeitsschutz
Die Berufsgenossenschaften gliedern sich nach den Erwerbsbereichen in gewerbliche Wirtschaft, Landwirtschaft und öffentlicher Dienst. Innerhalb der gewerblichen Wirtschaft sind die 35 Berufsgenossenschaften nach Branchen unterteilt und im Hauptverband der gewerblichen Berufsgenossenschaften e.V. (HVBG) zusammengeschlossen. Die für den öffentlichen Dienst zuständigen Unfallversicherungsträger arbeiten hingegen im Bundesverband der Unfallkassen (BUK) zusammen. Seit dem 1. Juni 2007 werden die gewerblichen Berufsgenossenschaften und die Unfallversicherungsträger der öffentlichen Hand von einem gemeinsamen Spitzenverband vertreten. Die Mitgliederversammlungen des BUK und des HVBG haben der Bildung eines gemeinsamen Spitzenverbandes zugestimmt. Damit schlossen sich BUK und HVBG zur Deutschen Gesetzlichen Unfallversicherung (DGUV, Sitz Berlin) zusammen. 1188
Arbeitssicherheit Zahlende Mitglieder der Berufsgenossenschaften sind die Unternehmen, versichert sind in ihnen die Beschäftigten. Für die Betriebe besteht Zwangsmitgliedschaft. Unfallversicherungsträger funktionieren als selbstverwaltete Institutionen. Alle Entscheidungen werden in Gremien mit paritätischer Besetzung getroffen, das heißt, in ihnen wirken gleich viele Vertreter der Arbeitgeber- und Arbeitnehmerseite. Die zentralen Aufgaben der Berufsgenossenschaft sind Prävention, Rehabilitation und Entschädigung. Die Aufgaben der Berufsgenossenschaften bestehen darin, mit allen geeigneten Mitteln Arbeits- und Wegeunfälle sowie Berufskrankheiten der Beschäftigten zu vermeiden sowie Erste Hilfe in den Betrieben zu überwachen. Tritt ein Unfall ein oder liegt eine Berufskrankheit vor, müssen die Berufsgenossenschaften Rehabilitations- und Entschädigungsleistungen erbringen, wie z. B. Rentenzahlungen. Seit dem Jahr 1996 haben sie zudem den Auftrag, für die Verhütung arbeitsbedingter Gesundheitsgefahren zu sorgen. Dieser so genannte „erweiterte Präventionsauftrag" bedeutet, dass sich die Berufsgenossenschaften mit allen Gesundheitsgefahren im Betrieb, also auch z. B. mit Stress und psychischen Belastungen auseinandersetzen müssen, egal, ob sie zu Berufskrankheiten oder Unfällen führen. Sie sollen auch den Ursachen von arbeitsbedingten Gesundheitsgefahren nachgehen und bei ihrer Verhütung mit den Krankenkassen zusammenarbeiten. Berufsgenossenschaften haben jederzeit Zutrittsrecht zu den Betrieben und unternehmen regelmäßig Betriebsbegehungen. Viele Berufsgenossenschaften bieten inzwischen ihre Hilfe bei den durch den Gesetzgeber vorgeschriebenen Gefährdungsbeurteilungen im Betrieb an. Dazu haben sie branchen-, arbeitsplatz- und arbeitsverfahrenspezifische Check- und Prüflisten sowie Vorschläge für zu ergreifende Maßnahmen ausgearbeitet. Außerdem können sich die Betriebe dazu von den Fachleuten der Berufsgenossenschaften beraten lassen. Vor allem Klein- und Mittelbetrieben wird Unterstützung geboten. Die Unfallversicherungsträger haben zudem für die Aus- und Fortbildung derjenigen zu sorgen, die in den Unternehmen für den Arbeits- und Gesundheitsschutz zuständig sind. Dies sind in erster Line die verantwortlichen Vorgesetzten. 19.1.1.4
Einfluss der EU
In allen Mitgliedstaaten der EU gelten die gleichen Schutzvorschriften für die Arbeitssicherheit und den Gesundheitsschutz der Beschäftigten. Die Vorgaben im Arbeits- und Gesundheitsschutz werden heute in Brüssel erarbeitet und als EG-Richtlinien den Mitgliedsstaaten mit einer Übergangsfrist zur Übernahme in nationales Recht vorgegeben. In Brüssel verabschiedete EU-Richtlinien müssen von den Mitgliedsstaaten flächendeckend umgesetzt werden. Berufsgenossenschaftliche Unfallverhütungsvorschriften konnten dies in der Vergangenheit offensichtlich nicht ausreichend genug leisten, da sie von ihrer Systematik her in den meisten Bereichen keine Flächendeckung erzielen konnten und sich die zahlreichen autonomen Berufsgenossenschaften auch zu wenig einig in der Umsetzung gezeigt haben. Zur Rechtssetzung der EU gehören deshalb auch die im EG-Vertrag genannten verbindlichen Rechtsakte, wie z. B. Verordnungen, Richtlinien und Entscheidungen sowie die nicht verbindlichen Rechtsakte wie Entschließungen und Stellungnahmen und darüber hinaus eine Reihe anderer Rechtsakte, wie z. B. Geschäftsordnungen der Organe. 1189
Arbeitssicherheit und Gesundheitsschutz Die Verordnung wird vom Rat gemeinsam mit dem Parlament oder von der Kommission allein angenommen. Sie hat allgemeine Geltung und ist in allen ihren Teilen verbindlich. Im Gegensatz zu den Richtlinien, die an die Mitgliedstaaten gerichtet sind, und den Entscheidungen, die ganz bestimmte Adressaten haben, gilt die Verordnung allgemein und unmittelbar. Sie erzeugt Recht im juristischen Sinn, das in allen Mitgliedstaaten wie ein nationales Gesetz gilt, ohne dass die Regierungen tätig werden müssen. Die Richtlinie wird vom Rat gemeinsam mit dem Parlament oder von der Kommission allein angenommen und ist an die Mitgliedstaaten gerichtet. Sie dient in erster Linie dazu, die Rechtsvorschriften anzugleichen. Die Richtlinie bindet die Mitgliedstaaten im Hinblick auf das zu erreichende Ziel, lässt ihnen jedoch die Wahl der Form und der Mittel, mit denen sie die gemeinschaftlichen Ziele im Rahmen ihrer internen Rechtsordnung verwirklichen. Wird eine Richtlinie von den Mitgliedstaaten nicht in nationales Recht umgesetzt oder wird sie unvollständig oder verspätet umgesetzt, so können sich Betroffene vor den nationalen Gerichten unmittelbar auf die Richtlinie berufen.
19.1.2
Richtlinien und Regelwerke
19.1.2.1
EG-Richtlinie 2003/10/EG „Lärm“
Die Lärmrichtlinie [2003/10/EG] ist seit ihrer Bekanntgabe im Amtsblatt der Europäischen Union mit Datum 15. Februar 2003 veröffentlicht [19.2]. Die EG-Richtlinie bezieht sich grundsätzlich auf alle Arbeitnehmer, wobei in Artikel 14 die Beschäftigten des Musik- und Unterhaltungssektors ausdrücklich mit eingeschlossen werden. Unter der Berücksichtigung der dämmenden Wirkung von Gehörschutz fordert die Richtlinie insbesondere die Einhaltung eines Grenzwertes von LEX,8h = 87 dB(A) für den Tagesexpositionspegel. Die Bundesregierung hat die Umsetzung der EG-Richtlinie am 28. Feb. 2007 beschlossen und diese ist mit der Veröffentlichung im Bundesgesetzblatt im März 2007 verbindlich in Kraft getreten. Bei Lärm sinken gegenüber der alten Unfallverhütungsvorschrift „Lärm" (BGV B3) die Auslösewerte für Präventionsmaßnahmen um 5 dB (A). Lärmbereiche zum Beispiel sind damit schon ab einer durchschnittlichen täglichen Lärmbelastung von 85 dB (A) zu kennzeichnen. Für Bereiche, in denen der Lärm 85 dB (A) übersteigt, muss der Arbeitgeber ein Programm mit technischen und organisatorischen Maßnahmen ausarbeiten und durchführen, um die Lärmexposition zu verringern. Als letzte Maßnahme sind persönliche Schutzausrüstungen, wie zum Beispiel Gehörschutz, vorzusehen. 19.1.2.2
Sicherheitsvorschriften für Produktionsstätten
Produktionen und Veranstaltungen stehen häufig unter zeitlichen und finanziellen Zwängen, die den Spielraum einer optimale Vorbereitung und gesicherten Abwicklung stark einschränken können. Gerade unter dem zunehmenden Markt- und Konkurrenzdruck kommt es immer mehr darauf an, die vorhandenen Ressourcen möglichst optimal zu nutzen und die Arbeit sicher, effektiv und störungsfrei zu organisieren. Die rechtskonforme Durchführung von Produktionen und Veranstaltungen setzt voraus, dass die Berufsgenossenschaftlichen Vorschriften und Regeln, das Staatliche Recht, die DIN1190
Arbeitssicherheit Normen, die Informationsschriften der Berufsgenossenschaften (BG) und der Gemeindeunfallversicherung (GUV) sowie die Branchenstandards allgemein bekannt sind. Sie müssen beachtet und eingehalten werden.
Abb. 19/1. Rechtspyramide
Grundsätzlich gilt für den Produktionsablauf die gleiche Rechtspyramide wie in Abb. 19/1 dargestellt. Für den Produktionsablauf sei hier auf das staatliche Recht im Arbeitsschutzgesetz, der Betriebssicherheitsverordnung und die Musterversammlungsstättenverordnung hingewiesen. Die berufsgenossenschaftlichen Vorschriften als autonomes Satzungsrecht der jeweiligen Verbände, sind dem staatlichen Recht nachgeordnet und formulieren in einer Reihe von Einzelvorschriften die Anforderungen an den Unternehmer und seine Beschäftigten. Der anzuwendende Unterbau im gültigen Vorschriftenwerk wird durch die entsprechenden DINNormen für den Veranstaltungsbetrieb erweitert. Sehr hilfreich sind für die Praxis die zahlreichen berufsgenossenschaftlichen Informationsschriften der einschlägigen Fachkreise. Beispielhaft sind hier zu erwähnen, die BGI 810 mit ihren Teilen 1 bis 5, die BGI 814, die BGI 5007, die Unfallverhütungsrichtlinien (UVR) von ARD/ZDF und die Schriften des VPLT als Standards zur Veranstaltungstechnik. Diese Informationsschriften bieten den Verantwortlichen der Branche eine praxisnahe Hilfestellung. 1191
Arbeitssicherheit und Gesundheitsschutz 19.1.2.3
Das Arbeitsschutzgesetz
Das Arbeitsschutzgesetz (ArbSchG) ist seit August 1996 in Deutschland in Kraft und setzt die EG-Rahmenrichtlinie 89/391/EWG um. Seine vollständige Bezeichnung lautet: Gesetz über die Durchführung von Maßnahmen des Arbeitsschutzes zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Beschäftigten bei der Arbeit. Der Grundgedanke im EG-Recht und somit auch im Arbeitsschutzgesetz ist eine ganzheitliche und dynamische Auffassung von Arbeits- und Gesundheitsschutz. Das Hauptaugenmerk liegt auf der Vermeidung von Unfallund Gesundheitsrisiken aller Beschäftigten, einschließlich der des öffentlichen Dienstes. Das Arbeitsschutzgesetz ist zudem die Ermächtigungsgrundlage zum Erlass von Rechtsverordnungen auf dem Gebiet Sicherheit und Gesundheit bei der Arbeit. Auf dieser Grundlage wurden bislang u. a. die Arbeitsstättenverordnungen, die Betriebssicherheitsverordnung und die Bildschirmarbeitsplatzverordnung erlassen. 19.1.2.4
Die Betriebssicherheitsverordnung
Die Schaffung eines einheitlichen, anwenderfreundlichen und EU-konformen Betriebs- und Anlagensicherheitsrechts ist das Ziel der Betriebssicherheitsverordnung (BetrSichV), die seit Oktober 2002 in Kraft ist. In der BetrSichV finden sich sämtliche staatlichen Regelungen für das Benutzen von Arbeitsmitteln und überwachungsbedürftiger Anlagen bis hin zum betrieblichen Explosionsschutz wieder. Damit stützt sich die BetrSichV auf das Arbeitsschutzgesetz (insbesondere im 2. Abschnitt) und das Gerätesicherheitsgesetz (insbesondere im 3. Abschnitt). Allerdings war auch schon vor in Kraft treten der BetrSichV der Unternehmer aufgefordert, seine betrieblichen und sicherheitstechnischen Standards ständig an den bestehenden Vorschriften zu messen und die notwendigen Maßnahmen zu ergreifen. Die BetrSichV führt die bestehenden Regelungen zusammen und schreibt diesen bekannten Ansatz auf der Grundlage des Arbeitsschutzgesetzes fort. 19.1.2.5
Die Musterversammlungsstättenverordnung
Im Mai 2002 wurde die fast 25 Jahre gültige Versammlungsstättenverordnung (VStättVO) durch die Musterversammlungsstättenverordnung (MVStättV) abgelöst. Sie ist in sieben Teile gegliedert und enthält neben den allgemeinen und besonderen Bauvorschriften, den für den Betrieb wichtigen Teil 4 der Betriebsvorschriften. Der Teil 4, Abschnitt 4, geht auf die verantwortlichen Personen und besonderen Betriebsvorschriften ein. Die Pflichten des Betreibers einer Veranstaltungsstätte wie auch die Zuständigkeiten der Verantwortlichen für Veranstaltungstechnik werden hier in den §§ 38 bis 43 sehr genau beschrieben. 19.1.2.6
Berufsgenossenschaftlichen Vorschriften und Regeln
Zu den Berufsgenossenschaftlichen Vorschriften und Regeln für die Sicherheit bei Produktionen und Veranstaltungen zählen neben der Grundlagenschrift [BGV A1], die [BGV C1], die [BGR A1] auch die [BGV A3] und mit der [BGG 912] eine umfassende Auflistung über die Prüfung von sicherheitstechnischen und maschinentechnischen Einrichtungen in Veranstaltungs- und Produktionsstätten für szenische Darstellung. Die Rechtsvorschriften über die Arbeitssicherheit richten sich an alle an einer Produktion beteiligte Personen, d. h. an den Arbeitgeber, den Unternehmer, an den Inhaber eines Betriebes 1192
Arbeitssicherheit oder den Betreiber einer Anlage und somit auch an den Betreiber einer Veranstaltungsstätte, sowie an den/die Beschäftigten, die verpflichtet sind, nach ihren Möglichkeiten sowie gemäß den Unterweisungen des Arbeitgebers für ihre Sicherheit und den Gesundheitsschutz bei der Arbeit Sorge zu tragen. [19.3, 19.4, 19.5, 19.6]. Für die Arbeitssicherheit ist nicht allein der Arbeitgeber verantwortlich, sie gehört auch zu den Aufgaben der Beschäftigten. Ganz allgemein heißt es in der Rechtsprechung: Die Erfüllung der Arbeitgeberpflichten obliegt dem „geborenen Verantwortlichen“, z. B. dem Geschäftsführer eines Unternehmens, und den „gekorenen Verantwortlichen“, d. h. einer zuverlässigen und fachkundigen Person, die der Arbeitgeber beauftragt hat, die ihm obliegende Aufgaben in eigener Verantwortung wahrzunehmen. Die in den vergangenen Jahren durch den Gesetzgeber eingeleitete Deregulierung im Arbeitsschutz führt zwangsläufig dazu, dass den verantwortlichen Akteuren mehr Spielraum in der Umsetzung der Schutzmaßnahmen gegeben ist. Gleichzeitig wachsen aber auch die Anforderungen an den Einzelnen. Mit der bloßen Schutzzielformulierung durch den Gesetzgeber fehlt häufig die in der Vergangenheit bemängelte Konkretisierung der Maßnahmen. Hier muss der verantwortliche Vorgesetzte eigene, der Situation angemessene Regelungen einleiten und die Wirksamkeit entsprechend kontrollieren.
19.1.3
Verantwortlichkeiten
Für die an den Produktionsabläufen verantwortlichen Personen ist es in vielen Bereichen nicht mehr möglich, in allen sicherheitstechnischen Fragen in ausreichendem Maße sachverständig oder aber auch nur sachkundig zu sein. Der Gesetzgeber hat neben der Unternehmensleitung und den Führungskräften deshalb weiteren Personen Aufgaben im Arbeitsschutz zugewiesen, z. B. den Sicherheitsbeauftragten, den Fachkräften für Arbeitssicherheit (Sicherheitsingenieur, Sicherheitsmeister) oder weiteren befähigten Personen gemäß Betriebssicherheitsverordnung (BetrSichV). Diese Aufgabenzuteilung bedeutet allerdings nicht automatisch die sofortige Verantwortlichkeit zur Durchführung und Haftung im Arbeitsschutz. Erst wenn zu der Aufgabe auch die Weisungsbefugnis mit der Durchführungsmöglichkeit hinzu kommt, besteht die Verantwortlichkeit und kann dann zur Haftung führen. Vielfach besteht Unklarheit bezüglich den Funktionen Betreiber und Veranstalter. Betreiber Der Betreiber betreibt die Veranstaltungsstätte und hat die Verkehrssicherungspflicht zu erfüllen. Betreiber ist jede natürliche oder juristische Person, die den Betrieb oder die Einrichtungen betreibt, besitzt oder der die maßgebliche wirtschaftliche Verfügungsgewalt hinsichtlich des technischen Betriebs übertragen worden ist. Veranstalter Der Veranstalter trägt für die jeweilige Veranstaltung die Verantwortung. Ein Veranstalter ist die für alle organisatorischen, technischen und wirtschaftlichen Abläufe einer Veranstaltung juristisch haftende Person oder Körperschaft. Diese Veranstaltung kann er selbst durchführen, beziehungsweise teilweise oder vollständig als Auftraggeber durch entsprechend qualifizierte Auftragnehmer für die Dienstleistung durchführen lassen. Unabhängig von der Vergabe von 1193
Arbeitssicherheit und Gesundheitsschutz Leistungen, verbleiben unübertragbar beim Veranstalter die Organisationspflichten, insbesondere die Auswahl- und Überwachungspflichten. Beschäftigte Die Planung, der Auf- und Abbau und die Durchführung von Veranstaltungen und Produktionen erfordern den Einsatz von Bühnen- und Studiofachkräften. Ihnen ist die Leitung und Aufsicht für diese Arbeiten übertragen. Bei Veranstaltungen und Produktionen mit geringen Gefährdungen kann die Leitung und Aufsicht vom Verantwortlichen der Produktion oder dessen Beauftragten übernommen werden, beispielsweise bei täglich wiederkehrenden Nachrichtensendungen im Fernsehstudio. Den Festlegungen müssen aber zwingend die Gefährdungsermittlung und deren Beurteilung vorausgehen. Es muss nachvollziehbar dokumentiert werden, warum die Entscheidung getroffen wurde, auf einen Verantwortlichen für Veranstaltungstechnik bei der Produktion zu verzichten. Das Ablaufschema in Abb. 19/2 zeigt die Möglichkeiten zur Verantwortung bei der Durchführung von Veranstaltungen.
19.1.4
Arten der Verantwortung
Je nach Organisation des Betriebes sowie Art und Umfang der Arbeiten, hat der Unternehmer oder die von ihm beauftragte Person unterschiedliche Verantwortungen. Die einschlägigen Gesetze, Verordnungen und Unfallverhütungsvorschriften siedeln die Verantwortung stets bei der Unternehmensleitung an, die je nach Quelle als Arbeitgeber, Unternehmer oder Betreiber bezeichnet wird. Im Grundsatz trägt jeder die Verantwortung für das, was er auch maßgeblich beeinflussen kann. Organisationsverantwortung Die Verantwortung für die organisatorische Sicherstellung der Einhaltung der Vorschriften bzw. die Herstellung sicherer Zustände liegt beim Unternehmer bzw. der jeweiligen Führungskraft. Wer für seinen Bereich durch entsprechende Vorgaben die Verantwortung für die Schaffung sicherer Zustände trägt, muss dafür sorgen, dass alles zur Einhaltung dieser Vorgaben Notwendige in seinem Verantwortungsbereich hinreichend organisiert ist und betreffend der Durchführung und Funktionsfähigkeit auch kontrolliert wird. Das heißt passende Einrichtungen schaffen, den Betrieb regeln, geeignete Maßnahmen und Anordnungen treffen und umsetzen, z. B. durch Dienstanweisungen, Betriebsanweisungen und Arbeitsregeln. Auch müssen die Beschäftigten ausreichend informiert, unterwiesen und geschult werden. Auswahlverantwortung Der Auswahlverantwortung kommt eine besondere Bedeutung zu. Zur Durchführung der Maßnahmen ist vom Arbeitgeber ein nach Eignung und Qualifikation geeignetes Personal auszuwählen, zu testen, einzuweisen und einzusetzen; qualifizierte Auftragnehmer sind auszuwählen und in größeren Betrieben in Teams zusammenzustellen.
1194
Arbeitssicherheit
Abb. 19/2. Ablaufschema zur Verantwortung bei der Durchführung von Veranstaltungen.
1195
Arbeitssicherheit und Gesundheitsschutz Aufsichtsverantwortung Die vom Gesetzgeber angesprochenen Unternehmer und Führungskräfte müssen häufig aus Gründen der fachlichen Kompetenz und auch unter dem Aspekt der Sachnähe ihnen obliegende Aufgaben aus dem Arbeits- und Gesundheitsschutz auf einen oder mehrere geeignete Mitarbeiter übertragen, die z. B. mit der verantwortlichen Durchführung einer Veranstaltung beauftragt sind. Diese Mitarbeiter nehmen die ihnen übertragenen Aufgaben in eigener Verantwortung wahr. Unter Aufsichtsführung wird die ständige Überwachung der erforderlichen Sicherheitsmaßnahmen bei der Durchführung der Arbeiten an der Arbeitsstelle verstanden. Der Aufsichtführende darf dabei nur Arbeiten ausführen, die ihn in der Aufsichtführung nicht beeinträchtigen. Eine Aufsicht ist zum Beispiel auch durch eine Einzelperson an mehreren benachbarten Arbeitsstellen möglich. Eine Beaufsichtigung erfordert die ständige ausschließliche Durchführung der Aufsicht. Daneben dürfen keine weiteren Tätigkeiten durchgeführt werden. Beaufsichtigung kann zum Beispiel erforderlich sein bei gefährlichen szenischen Vorgängen, bei Beschäftigung von unerfahrenen Hilfskräften oder gegebenenfalls bei Auf- und Abbau. Branchenstandards Die praxisgerechte Umsetzung staatlicher und berufsgenossenschaftlicher Vorschriften sind in anwenderfreundlichen Publikationen der verschiedensten Verbände zusammengefasst, wie z. B. Bundesverband der Unfallkassen (BUK), Bundesverband Beleuchtung und Bühne (BVB), Deutscher Bühnenverein, Bundesverband der Theater und Orchester, Deutsche Theatertechnische Gesellschaft e.V. (DTHG), Europäischer Verband der Veranstaltungscentren (EVVC), Unfallverhütungsrichtlinien von ARD/ZDF, Verband Deutscher Sicherheitsingenieure (VDSI), Verband für professionelle Licht und Tontechnik e.V. (VPLT) u. a. Sie stellen die gemeinsamen Positionen der beteiligten Fachkreise dar und sind das Bindeglied zu den anwendbaren Regeln der Technik.
19.1.5
Gefährdungsermittlung
Nach dem Arbeitsschutzgesetz und diversen anderen Verordnungen ist jeder Unternehmer verpflichtet, Gefährdungen und Belastungen in seinem Unternehmen zu ermitteln, zu beurteilen und entsprechende Verbesserungsmaßnahmen sowie Wirkungskontrollen einzuleiten. Aber auch die Beschäftigten sind verpflichtet, nach ihren Möglichkeiten sowie gemäß der Unterweisung und Weisung des Arbeitgebers für ihre Sicherheit und Gesundheit bei der Arbeit Sorge zu tragen. Darüber hinaus haben die Beschäftigten auch für die Sicherheit und Gesundheit der Personen zu sorgen, die von ihren Handlungen oder Unterlassungen bei der Arbeit betroffen sind [19.6]. Unter einer Gefährdung versteht man im Arbeitsschutz das Zusammenwirken einer Quelle eines möglichen arbeitsbedingten Unfalls oder einer arbeitsbedingten Gesundheitsbeeinträchtigung mit dem Menschen. Gefährdungen umfassen sowohl die Möglichkeit des Einwirkens von schädlichen Energien und Stoffen auf den Menschen als auch Belastungen, die negative Beanspruchungsfolgen hervorrufen können. 1196
Arbeitssicherheit Die Gefährdungsermittlung ist das Erkennen und Bewerten der Entstehungsmöglichkeiten von Unfällen und Gesundheitsbeeinträchtigungen infolge der beruflichen Arbeit. Sie hat das Ziel, Maßnahmen zur Beseitigung von Gefährdungen abzuleiten. Dabei sollte eingeschätzt werden, - welche Gefährdungen auftreten können, - welche Personen von den Gefährdungen betroffen sind, - ob die Bedingungen am Arbeitsplatz akzeptabel sind, insbesondere ob sie den Vorschriften und Regeln, den arbeitswissenschaftlichen Erkenntnissen, dem Stand der Technik sowie den Leistungsvoraussetzungen der Beschäftigten entsprechen, - ob Verbesserungen möglich sind, - wie dringlich und welcher Art die erforderlichen Maßnahmen sind, - welche Anforderungen geplante Arbeitsschutzmaßnahmen, neue Arbeitsstätten, neue Arbeitsmittel und neue Arbeitsverfahren erfüllen müssen. Bei der Umsetzung der Gefährdungsermittlung hat sich die Einteilung in sog. Gefährdungsfaktoren in der Praxis sehr bewährt. Gefährdungsfaktoren sind Gruppen von Gefährdungen, die durch gleichartige Gefahrenquellen oder Wirkungsqualitäten gekennzeichnet sind. Die Tab. 19/1 enthält Gefährdungsfaktoren, die bei der Arbeit auftreten können. Tab. 19/1.
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Gefährdungsfaktoren Mechanische Gefährdung Elektrische Gefährdung Gefährdung durch Gefahrstoffe Biologische Gefährdung Brand- und Explosionsgefährdung Thermische Gefährdung Gefährdung durch spezielle physikalische Einwirkungen Gefährdung und Belastung durch Arbeitsumgebungsbedingungen Physische Belastung und Arbeitsschwere Wahrnehmung und Handhabbarkeit Sonstige Gefährdungen und Belastungen Psychische Belastung durch die Arbeit Organisation Sonstige Gefährdungen
Aus den Gefährdungsfaktoren leiten sich die Gefährdungsbeurteilungen, d. h. die Risiken eines Projekts ab. Ziel ist, die Sicherheit und den Gesundheitsschutz im Unternehmen durch die Anwendung von Schutzmaßnahmen systematisch zu verbessern. Dazu ist zunächst festzustellen, welche Gefährdungssituationen an den Arbeitsplätzen vorliegen. Die Gefährdungen und Belastungen sind anschließend zu ermitteln und zu beurteilen. Durch systematische Gefährdungsbeurteilungen wird der Schutz der Mitarbeiter eines Betriebs gegen Unfälle und Gesundheitsbelastungen verbessert. Ein geeignetes Hilfsmittel zur Durchführung der Gefährdungsbeurteilung ist der Einsatz von Checklisten. Die von den Berufsgenossenschaften zur Verfügung gestellten Beurteilungsbögen der Schriftenreihe „Gefährdungsbeurteilung in Veranstaltungs- und Produktionsstätten für szenische Darstellung bei 1197
Arbeitssicherheit und Gesundheitsschutz Film, Fernsehen und Hörfunk" zur Gefährdungsbeurteilung schaffen darüber hinaus Rechtssicherheit sowohl für den Unternehmer, als auch für die betrieblichen Vorgesetzten. Es sind Unterlagen, aus denen das Ergebnis der Gefährdungsbeurteilung, die festgelegten Maßnahmen zum Arbeits- und Gesundheitsschutz sowie die Kontrolle auf Wirksamkeit der Maßnahmen ersichtlich werden.
19.1.6
Gefährdungsbeurteilung
Zur Gefährdungsbeurteilung können verschiedenen Methoden bzw. Verfahren angewendet werden, z. B. Betriebsbegehungen, Mitarbeiterbefragungen, sicherheitstechnische Überprüfungen von Arbeitsmitteln sowie spezielle Ereignis-, Sicherheits- oder Risikoanalysen. Welche Methoden oder Verfahren für den zu beurteilenden Arbeitsbereich gewählt werden, sind durch das zu erwartende Gefährdungspotential bestimmt. Eine gute Gefährdungsermittlung soll alles erfassen, was zu Unfällen oder Gesundheitsbeeinträchtigungen führen kann. Bei den Arbeitsmitteln ist zu prüfen, ob sie für die jeweiligen Arbeiten geeignet sind und ob die von den Herstellern vorgegebenen Schutzfunktionen auch wirksam sind. Darüber hinaus sind bei der jeweiligen Tätigkeit die durch die Benutzung der Arbeitsmittel entstehenden Gefährdungen in die Beurteilung mit einzubeziehen. Bei der Ermittlung der Gefährdungen ist dem Personenkreis der evtl. Leiharbeiter, der Beschäftigten aus Fremdbetrieben oder der Besucher eine besondere Aufmerksamkeit zu widmen. Gleiches gilt auch für Jugendliche und Kinder, für schwangere oder behinderte Personen die an der Produktion oder in der Veranstaltungsstätte als Mitwirkende beteiligt werden. Eine Gefährdungsermittlung kann in unterschiedlicher Schrittfolge geschehen (siehe Tab. 19/2).
19.2
Gesundheitsschutz
19.2.1
Gehörgefährdung durch elektroakustische Beschallung
Dem Faktor Lärmbelastung bei öffentlichen Veranstaltungen muss zunehmend besondere Aufmerksamkeit entgegengebracht werden. Der sorgfältige Umgang mit den technischen Klangwerkzeugen wie Lautsprecheranlagen und Mischern erfordert von den Tonschaffenden ein ausgeprägtes technisches Verständnis und ein hohes ästhetisches Geschick. Grundlage für diese Arbeit ist ein einwandfrei funktionierendes Gehör. Allen Tonschaffenden sollte also gemeinsam sein, der Gesundheit des Gehörs eine hohe Priorität einzuräumen. Aus diesem Grund wurden in der Vergangenheit Maßnahmen im Gesundheitsschutz und der Arbeitssicherheit ergriffen, die den Mitarbeiter am Arbeitsplatz, im Studio, im Übertragungswagen oder auf der Bühne vor allzu hoher Lärmbelastung schützen. Darüber hinaus ist der Beschäftigte mit verantwortlich für die herrschende Lautstärke bei Veranstaltungen. Die gesundheitlichen Folgen zu hoher Lautstärken sind schon vielfach untersucht worden. Neben den bekannten Höreinbußen wie der messbaren, objektiven Verschiebung der Hörschwelle, gibt es zusätzlich auditive Symptome wie das sogenannte Ohrensausen oder auch erhöhte Lärmempfindlichkeit. Im schwersten Fall kommt es aufgrund zu hoher Lärmbelastun1198
Gesundheitsschutz gen zu Knalltraumen oder Hörstürzen mit möglichen permanenten oder temporärem Ohrgeräusch (Tinnitus) als Folge. Wissenschaftliche Untersuchungen zeigen, dass Normalhörer ebenso belastet sind wie Freizeitmusiker, da schon nach einmaliger Belastung des Gehörs durch elektroakustische Verstärkung eine im Audiogramm nicht nachweisbare Schädigung des Gehörs vorliegen kann [19.8]. Tab. 19/2. Typischer Ablauf zur Ermittlung und Realisierung gefährdungsbezogener Arbeitsschutzmaßnahmen [19.7] 1.
2.
3.
Aufgabenstellung festlegen 1.1
Untersuchungseinheit festlegen, z. B. Arbeitsbereich, Tätigkeit, Personengruppen.
1.2
Mitwirkende Personen festlegen, z. B. Führungskraft, Spezialisten.
Gefährdungen ermitteln 2.1
Arbeitstättenbezogen: Überprüfen der Arbeitsstätte, z. B. Beleuchtung, Heizung, Klima. Verkehrswege, Fluchtwege, Brandschutz.
2.2
Arbeitsplatz- und Tätigkeitsbezogen: Ermitteln welche Arbeitsabläufe bzw. Tätigkeiten mit welchen Arbeitsmitteln in welchen. Arbeitsbereichen durchgeführt werden und welche Gefährdungen dabei auftreten.
2.3
Arbeitsmittelbezogen: Prüfen der vom Hersteller vorgegebenen Sicherheitsfunktion bzw. Schutzeinrichtungen. Ermitteln welche Gefährdungen bei der Benutzung der Arbeitsmittel entstehen können.
2.4
Personenbezogen: Ermitteln, welche Personengruppen von welchen Gefährdungen betroffen sein können. Berücksichtigung besonders schutzbedürftiger Personen und individueller Leistungsvoraussetzungen.
Schutzziele bewerten 3.1
Vergleich mit den normierten Schutzzielen, z. B. Gesetzen, Verordnungen, Normen, usw. Vergleich mit bewährten sicheren bzw. gesundheitsgerechten Lösungen und Maßnahmen. Erforderlichenfalls sind spezielle Analysen oder Risikobewertungen durchzuführen.
4.
Maßnahmen ableiten, durchführen und deren Wirksamkeit überprüfen
5.
Ergebnisse dokumentieren 5.1
vorhandene Gefährdungen
5.2
festgelegte Maßnahmen
5.3
Ergebnisse der Wirksamkeitsüberprüfung
Untersuchungen haben ergeben, dass bereits jeder vierte Jugendliche in Deutschland unter einem Hörschaden leidet und acht Millionen Bundesbürger ernsthaft an Tinnitus erkrankt sind, mit steigender Tendenz. Schwerhörigkeit steht bei den Berufskrankheiten weit vorn [19.9]. 1199
Arbeitssicherheit und Gesundheitsschutz Neben eher zufälligen Ereignissen wie Knalltraumen, verursacht durch Sylvesterböller oder Spielzeugpistolen mit einem Peak > 150 dB, die zu einseitigen Hörschädigungen führen können, sind vor allem Langzeitschäden durch regelmäßige Besuche von Diskotheken oder Konzertveranstaltungen zu erwarten. In einer Untersuchung von 1.510 männlichen Probanden im Alter zwischen 18 und 25 Jahren wurde nachgewiesen, dass rund ein Viertel aller Teilnehmer der Untersuchung Hörschäden größer 20 dB HL (Hearing Loss) aufwiesen [19.10]. Die gesundheitspolitischen und letztlich gesellschaftlichen Folgen dieser Entwicklung sind vorhersehbar. Die aktuelle Rechtssprechung bezüglich überhöhter Lautstärke bei Veranstaltungen zeigt auf, dass der verantwortliche Tonschaffende ausreichend über Ursachen und Schädigungen informiert sein sollte. So verurteilte ein Landgericht im Jahr 2004 den Veranstalter eines Rockkonzertes zu einem hohen Schmerzensgeld zuzüglich künftig zu erwartender Behandlungskosten, da eine Besucherin nach einem Konzertbesuch ernsthaft am Gehör erkrankte. Das Strafgesetzbuch unterscheidet hier zwischen schwerer Körperverletzung und fahrlässiger Körperverletzung [19.11, 19.12]. Diese strafrechtlichen Vorschriften sind für die Techniker besonders zu beachten, da die Verantwortung zwar beim Veranstalter liegt, aber bei den Beschäftigten Mittäterschaft oder Beihilfe zu einer Straftat in Frage kommen können. Als Basis für eine mögliche Verurteilung wird bei Gericht die [DIN 15905] herangezogen, siehe auch Kap.19.2.3. Für den Gesundheitsschutz der Arbeitnehmer vor Lärm gilt die Richtlinie 2003/10/EG, in der vergleichbare Grenzwerte wie in der DIN 15905 festgelegt sind. Während die DIN-Norm Grenzwerte für Besucher von öffentlichen Veranstaltungen festlegt, nimmt die EU-Richtlinie Bezug auf abhängig Beschäftigte, insbesondere Mitarbeiter von Diskotheken, Beschallungsfirmen und von Konzertveranstaltern, die vor schädigendem Lärm zu schützen sind. Der Arbeitgeber ist nach der Unfallverhütungsvorschrift Lärm (BGV B 3) verpflichtet, „Lärmbereiche auszuzeichnen“ und bei Überschreitung des Beurteilungspegel von 85 dB (A) Maßnahmen einzuleiten [19.13]. Diese sind: - technische Maßnahmen, z. B. bauliche Veränderungen, - organisatorische Maßnahmen, z. B. Erholungspausen, - persönliche Maßnahmen, z. B. Ausgabe geeigneter Gehörschutzmittel. Weitere begleitende technische Maßnahmen sind: - generelle Reduktion der Schallpegel in Diskotheken und bei Konzerten, - Abtrennung des Barbereichs und des Arbeitsbereichs des Disc Jockeys, z. B. durch geeignete Glaswände etc., ggf. unter Berücksichtigung von Bestandsschutz und wirtschaftlicher Vertretbarkeit, - optimierte Ausrichtung der Schallquellen. Der vorhandene Arbeitsschutz in Deutschland hat nur indirekt Auswirkungen auf die Besucher von Veranstaltungen. Die Frage, was die EU-Richtlinie für den Arbeitsplatz eines Beschallungstechnikers und -ingenieurs oder für den Arbeitsplatz eines Orchestermusikers bedeutet, findet hier keine Berücksichtigung.
1200
Gesundheitsschutz
19.2.2
Hörschädigungen
Grundsätzlich können Gehörschäden nicht nur durch langfristig einwirkenden Dauerschall mit hohen Pegeln, sondern auch akut durch kurzzeitig einwirkende, sehr hohe Schallpegel oberhalb der Schmerzschwelle von ca. 120 bis 130 dB(A) auftreten. Bei kurzen Impulsen mit entsprechend hohen Schallpegeln, z. B. eines Pegelanstieg > 80 dB/s und 1 bis 200 ms Dauer, lassen sich bei den Stereozilien in der Schnecke des Innenohrs abgebrochene Wurzeln der Haarzellen, zerrissene Membranen und Verklumpungen nachweisen. Ein Impulslärm bewirkt einen größeren Schäden als Dauerlärm gleichen äquivalenten Schallpegels, jedoch erst oberhalb von äquivalenten Dauerschallpegeln von ca. 115 dB(A). Als Ursache dafür wird das häufigere Erreichen knalltraumatischer Schalldruckspitzen im Zeitverlauf des Geräusches angesehen. Durch andauernde hohe Lärmeinwirkung entsteht ein Hörschaden zuerst bei den äußeren Haarzellen. Dies beeinträchtigt den Verarbeitungsprozess des Cochlearen Verstärkers. Bei weiterer Dauerbelastung werden Stützzellen und dann auch innere Haarzellen zerstört. Bei Beschallung mit Sinustönen wurden die Schäden an den Haarzellen in der innersten Reihe der äußeren Haarzellen gefunden. Folge ist hier, dass bei hohen Lautstärken die Stereozilien erschlaffen und in Folge des Steifeverlustes abknicken. Dieser Effekt kann schon kurz nach Einsetzen des Lärms beobachtet werden. Erklärungen für diesen gestörten Prozess können unterschiedlich sein. Neben Stoffwechselstörungen kommen auch Durchblutungsvorgänge in Frage. Bezüglich des Schadenspotenzials einer Gehörschädigung kommt es sehr darauf an, welche Gesamtschallenergie über die Zeit einwirkt. Als schlechteste oder den ungünstigsten Fall anzunehmende Abschätzung gilt der Anstieg des durchschnittlichen Dauerschalldruckpegels um 3 dB. Dies entspricht immerhin einer Verdopplung der Schallintensität, die sich beispielsweise in einer Diskothek als besonders nachteilig auswirkt. Bei Verdopplung der Gesamtexpositionszeit ist die Gesamtenergie äquivalent einer Erhöhung des Schalldruckpegels um 3 dB in der ersten Hälfte der gemessenen Zeit und einer Ruhephase in der verbleibenden zweiten Hälfte. Ein Anstieg des Druckpegels um 10 dB erzeugt die gleiche Wirkung in einem Zehntel der Zeit. Ruhezeiten wirken hier Schaden mindernd. 19.2.2.1
Gehörschaden aus arbeitsmedizinischer Sicht
Laut berufsgenossenschaftlichem Grundsatz für arbeitsmedizinische Vorsorgeuntersuchung „G 20 Lärm“ von 1998 (rev. Fassung 2007) liegt ein lärmbedingter Gehörschaden vor, wenn die durch Lärmeinwirkung entstandene Hörminderung bei 3 kHz den Wert von 40 dB überschreitet [19.14]. Außerdem liegen aus arbeitsmedizinischer Sicht dauerhafte Bedenken vor, wenn auf dem besser hörenden Ohr bei 2 kHz der Hörverlust 40 dB erreicht oder überschritten wird. Nach Angaben der gewerblichen Berufsgenossenschaften liegt eine geringgradige Schwerhörigkeit, d. h. eine 10-prozentige Minderung der Erwerbsfähigkeit (MdE) dann vor, wenn der Hörverlust bei 3 kHz > 40 dB, bei 2 kHz > 30 dB und bei 1 kHz > 15 dB beträgt, oder das Sprachaudiogramm einen beidseitigen Hörverlust von mehr als 20 % aufweist. Diese Grenzwerte für berufsbedingte Schwerhörigkeiten können in der Folge zu einer Minderung der Erwerbstätigkeit führen. Für einen Tonschaffenden führt eine Hörminderung auf einem Ohr bereits zur Berufsunfähigkeit. 1201
Arbeitssicherheit und Gesundheitsschutz 19.2.2.2
Vorübergehende und permanente Hörschwellenverschiebung
Die Folge der kurzfristigen energetischen Minderversorgung der Zellen kann eine zeitweilige Verschiebung der Hörschwellen oder TTS (Temporary Threshold Shift) sein. Dieser Prozess ist durch Erholungs- oder Lärmpausen von weniger als 70 dB wieder umkehrbar, abhängig von der Lärmdosis. Zeitweilige Hörschwellenverschiebungen können auch noch eine andere Ursache haben. Wie in Kap. 3.1.1 beschrieben, adaptiert der Cochleare Verstärker das Gehör an eine hohe Schallbelastung. Bei sehr lauten Tönen entstehen im Innenohr flache, breite Wanderwellen mit geringer Amplitude und unscharfer Frequenzabstimmung. Sie führen zu einer Hörwahrnehmung erst bei den inneren Haarzellen, etwa ab 50 bis 70 dB, gegenüber den äußeren Haarzellen mit höherer pysiologischer Hörschwelle. Dieser Adaptionsprozess ist zwar nur vorübergehend, wirkt aber bis in nachfolgende Ruhezeiten hinein. Schmalbandige Klänge erzeugen zeitlich begrenzte Hörschwellenverschiebungen bei Frequenzen, die eine halbe bis ganze Oktave oberhalb der wahrgenommenen Tonhöhe liegen. Breitbandige Geräusche erzeugen die stärkste Hörminderung im Bereich der C5-Senke, dies entspricht einen Verlust der Hörfähigkeit im Bereich von 4 KHz, entsprechend der Tonhöhe c5. Länger andauernde Schallbelastungen mit hoher Lautheit führen zu Verklebungen benachbarter einzelner Haarzellen, später zu Verklumpungen und schließlich zu irreversiblen Rückbildungen der Haarzellen. Dies ist dann der maximale Gehörschaden, der eine bleibende Hörschwellenverschiebungen oder PTS (Permanent Threshold Shift) nach sich zieht. Die Grenzen sind fließend, jedoch ist erwiesen, dass TTS-Effekte ohne ausreichende Ruhephasen sich zu PTS-Effekten aufsummieren können. Da die Haarzellen nach bisherigen wissenschaftlichen Erkenntnissen nicht nachwachsen, ist der PTS-Effekt definitiv und nicht umkehrbar. Je nach Art der Lärmeinwirkung können dabei Hörzellen höherer, mittlerer oder tieferer Frequenzen geschädigt werden. Wichtig für die Leistungsfähigkeit der Ohren eines Tonschaffenden ist die Tatsache, dass mit fortschreitendem Alter die Rückbildungsfähigkeit der Haarzellen stetig abnimmt. Gleichzeitig mit dem Summationseffekt können erhebliche Gehörschäden entstehen, deren Ursachen Jahrzehnte zurückliegen. Umgekehrt bestehen gute Chancen eine hohe akustische Wahrnehmungsfähigkeit zu bewahren, je weniger man in jungen Jahren sein Gehör hoher, länger andauernde Schallbelastungen ausgesetzt hat. 19.2.2.3
Fehlender Lautheitsausgleich
Der eingeschränkte Dynamikbereich der Schallwahrnehmung bei einem geschädigten Ohr äußert sich bei den Betroffenen als fehlender Lautheitsausgleich (Recruitment). Die subjektive Hörempfindung, oder auch die wahrgenomme Lautheit, wächst bei den Betroffenen über der verschobenen Hörschwelle sehr viel schneller an, d. h. die Unbehaglichkeitsschwelle wird früher erreicht als bei Normalhörern. Die Schwerhörigkeit bewirkt zudem, dass Leises nicht oder nur sehr schlecht gehört wird. Im mittleren Bereich gibt es keinen Wahrnehmungsunterschied zu Normalhörern, in lauten Hörsituationen kann es zu Überempfindlichkeiten kommen. Die Lästigkeitsschwelle gegenüber Normalhörern wird sehr schnell erreicht, auch wird aufgrund der fehlenden Dämpfung die Schmerzschwelle schon bei niedrigeren Pegeln überschritten (Hyperakusis). Schädigungen an der Wirkungsweise des Cochlearen Verstärkers 1202
Gesundheitsschutz können Ursachen für die Dynamikempfindlichkeit bei gleichzeitiger verminderter Wahrnehmung für Tonhöhenunterschiede sein. Dies erklärt auch einen großen Teil von kritischen Hörerreaktionen im Rundfunk bei gemischten Wort- und Musiksendungen. Gerade ältere Hörer beklagen die vermeintlich zu leise Sprache und die zu laute Musik. 19.2.2.4
Stapediusreflex
Das Mittelohr verfügt neben dem Cochlearen Verstärker über einen weiteren Schutzmechanismus, den so genannten Stapediusreflex oder auch „akustischer Reflex“ genannt. Dieser sorgt dafür, dass größere Schallstärken oberhalb ca. 75 bis 90 dB durch Muskelkontraktion des Mittelohres eine Veränderung der Impedanz bewirken und damit zu einer verringerten Übertragung der Schallenergie führen. Die maximale Dämpfung bei 2 kHz beträgt etwa 10 bis 20 dB. Bei höheren Frequenzen ist dieser Effekt leider unwirksam. Die Einwirkzeit zur Auslösung des Reflexes beträgt etwa 50 ms, bei maximaler Kontraktion etwa 35 ms. Bis die völlige Kontraktion erreicht ist, kommen nochmals ca. 150 bis 500 ms hinzu. Der Effekt wirkt also erst nach weniger als einer Sekunde nach dem Auslöseimpuls auf beiden Ohren, auch wenn nur ein Ohr beschallt wird. Haben mehrere Impulse einen zeitlichen Abstand von ca. 2,4 s ist der Stapediusreflex allerdings wieder unwirksam. Jeder einzelne Schallimpuls wirkt dann in voller Stärke, also mit maximaler Schädigung. Die Wirkung des akustischen Reflexes kann auch bei dauernder Schallbelastung bis zu mehreren Minuten anhalten, jedoch erfolgt eine zeitliche Adaption, die die Entlastung deutlich mindert. 19.2.2.5
Gehörschäden und Musik
Die Abschätzung von Gehörschäden durch Musik beruht auf der Bewertung des äquivalenten Dauerschallpegels. Dieser schließt die Aufsummierung der Schallenergie ein. Nicht berücksichtigt wird bei dieser Betrachtung allerdings die Impulshaltigkeit von Musikbeschallung. Drum-Sounds oder perkussive Elemente der Beschallung von Musikdarbietungen bei Rockund Popkonzerten oder vergleichbaren Veranstaltungen, sind jedoch mit industriellen Impulsschallen vergleichbar, z. B. in Kesselschmieden. Abhängig von der Regelmäßigkeit des Auftretens von Impulsschall oder BPM (Beats Per Minute) kann der Stapediusreflex das Gehör schützen. Häufig auftretende Werte bei „Rave“-Veranstaltungen (ca. 120 BPM entsprechen etwa 2 Hz) sowie die meist geringe Dynamik dieser Musik lassen das Belastungsrisiko solcher Schallereignisse hinreichend genau mit dem Mittelungspegel beschreiben. Folglich gelten hier die Schädigungsgrenzen für Dauerschall. Lange Expositionszeiten bei hohen Pegeln ohne Ruhezeiten stellen hier das große Gefahrenpotential dar.
19.2.3
Gesundheitsschutz-Gehör nach DIN 15905-5
Lärmbedingte Hörverluste wurden bislang vorwiegend unter arbeitsmedizinischen Aspekten untersucht und dargestellt. Im Folgenden werden diese allgemeinen Überlegungen auf das Hörschadenrisiko bei öffentlichen Musikveranstaltungen mit elektroakustischer Beschallung übertragen. Dazu gehören u. a. Konzerte, Besuche in Diskotheken und anderen öffentlichen, wie gewerblichen Orten. Nicht berücksichtigt ist die individuelle Belastung durch Musikdarbietungen zu Hause oder über Kopfhörer. Der Lärmemission kommt heute eine hohe Bedeutung zu. 1203
Arbeitssicherheit und Gesundheitsschutz Die Vermeidung von Gehörschädigungen durch laute Musik in Diskotheken und bei öffentlichen Veranstaltungen ist eine gesundheitspolitische Aufgabe und genießt eine hohe Relevanz. Bereits frühzeitig wurden deshalb Maßnahmen getroffen, verbindliche Regeln zum Schutze von Personen zu schaffen. Die heutige DIN 15905-5 schafft klare Voraussetzungen und wurde im Herbst 2007 umgesetzt. Sie ist eine vollständige Neubearbeitung des Normenausschusses Veranstaltungstechnik aus dem Jahr 1989. Die DIN 15905-5 ist kein Gesetz, und derzeit verhängt auch keine Behörde Bußgelder, wenn der Beurteilungspegel überschritten wird. Ihre rechtliche Bedeutung entfaltet sie aber durch das Schadensersatzrecht. Das Ziel der Norm ist, das anerkanntermaßen hohe Risiko von Gehörgefährdungen des Publikums bei öffentlichen Veranstaltungen mit Beschallungstechnik zu reduzieren. Die Norm gilt nicht für die bei Veranstaltungen beruflich tätigen Personen, sondern ausschließlich für Besucher. Es werden Maßnahmen beschrieben, die bei sich abzeichnender Überschreitung der Richtwerte für die Beurteilungspegel ergriffen werden müssen, um der Verkehrssicherungspflicht in Bezug auf Gehörgefährdungen nachzukommen. Die Norm gilt für alle Veranstaltungen mit elektroakustischer Beschallungstechnik in Gebäuden und im Freien, also von Diskotheken, Filmtheatern, Konzertsälen, Mehrzweck-, Messehallen, Räumen für Shows, Events, Kabaretts, Varietes, Hörfunk-, Fernsehstudios, Theatern, Spiel- und Szenenflächen in Freilichtbühnen, Open-Air-Veranstaltungen sowie bei Festumzügen und Stadtfesten. Ausgenommen von der Norm sind Durchsagen im Gefahren- und Katastrophenfall, Anwendungen von Pyrotechnik ohne zeitgleiche dramaturgisch verbundene Beschallung, sowie durch Publikum verursachte Geräuschpegel. Unklar ist, ob die Norm auch bei Veranstaltungen in Zelten gilt. 19.2.3.1
Verkehrssicherungspflicht
Die aktuelle Rechtsprechung siedelt die Verantwortung für entstandene körperliche Schäden von Zuschauern beim Veranstalter an. Hier gilt die Verkehrssicherungspflicht, d. h. sinngemäß ist derjenige, der eine Gefahrenquelle eröffnet dafür verantwortlich, dass niemand zu Schaden kommen kann. Eine Beschallungsanlage kann eine solche Gefahrenquelle sein. Anerkannte Regeln der Technik beschreiben Ursachen und Folgen des Einsatzes der Gefahrenquelle. Verletzt also ein Veranstalter die Regeln der Technik, kann er zivilrechtlich zur Verantwortung gezogen werden. Weiterhin ergibt sich aus dem Baurecht die Verantwortung des Betreibers einer Versammlungsstätte, für die Sicherheit des Publikums zu sorgen. Beide Parteien werden im Schadenersatzfall gesamtschuldnerisch zur Verantwortung gezogen. Umgekehrt gilt, dass der Veranstalter und möglicherweise der Betreiber einer Versammlungsstätte durch Erfüllung der DIN 15905-5 der vorgeschriebenen Verkehrssicherungspflicht nachkommen muss. Zuwiderhandlung macht ihn automatisch für alle durch die Beschallung aufgetretenen Schäden haftbar. Die DIN 15905-5 besagt, dass zu keinem Zeitpunkt innerhalb von 30-minütigen Messperioden und an keinem Ort der Veranstaltung der nach A-Filter bewertete Beurteilungspegel von 99 dB und der nach C-Filter bewertete Spitzenpegel von 135 dB überschritten werden dürfen. Unterhalb des genannten Beurteilungspegels von 99 dB(A) sowie des Spitzenpegels von 135 dB(C), bei deren Überschreitung der Veranstalter seiner Verkehrssicherungspflicht nicht nachgekommen ist, gelten weitere Schutzmaßnahmen. Bei Erreichen des Auslösewertes von 1204
Gesundheitsschutz Lr = 85 dB(A) soll durch Aushänge oder Hinweise auf eine mögliche Schädigung des Gehör hingewiesen werden. Ab Lr = 95 dB(A) müssen Gehörschutzmittel bereitgestellt und zum Tragen aufgefordert werden. Für all diese Werte erscheint die Signalisierung für das Publikum und das Bedienpersonal angesagt. Tab. 19/3. Kerndaten der DIN 15905-5 Anwendungsbereich
Wichtige Begriffe
Richtwerte Messung/Auswertung
19.2.3.2
- Messung und Bewertung der Schallimmission am lautesten Punkt im Publikum mit dem Ziel der Reduzierung einer Gehörgefährdung - Massgeblicher- bzw. Ersatzimmissionsort - Messperiode - Beurteilungszeit - LAR # 99 dB(A) für 30-minütige Messperiode - LCpeak #135 dB(C) - Anforderung an Messgerät, Bestimmung der Korrekturwerte
Schutzmaßnahmen und Information
Die DIN 15905-5 enthält neben den oben dargestellten Vorschriften auch die Beschreibung von Schutzmaßnahmen bei unterschiedlichen zu erwartenden Pegelwerten. Grundsätzlich ist es die Aufgabe des Veranstalters, das Publikum über mögliche Gefährdungen des Gehörs zu informieren. Allgemeine Schutzmaßnahmen Durch geeignete Maßnahmen, wie beispielsweise Absperrungen, ist der Nahbereich um die Beschallungsanlage wegen der möglichen Gehörgefährdung als Aufenthaltsbereich für das Publikum abzugrenzen. Bei großen Produktionen wird dieses Problem heute üblicherweise durch die erhöhte Positionierung der Lautsprechersysteme gelöst (siehe auch Kap. 9.2.3.2). Darüber hinaus ist die Beschallungsanlage so zu begrenzen, dass der nach C-Filter bewertete Spitzenschalldruckpegel LCpeak1 = 135 dB nicht überschritten werden kann. Schutzmaßnahmen bei Pegeln 85 < 95 dB(A) Ist der zu erwartende Beurteilungspegel > 85 dB(A) und werden 95 dB(A) nicht überschritten, muss das Publikum in geeigneter Weise informiert werden. In diesem Fall kann auf eine Permanentmessung verzichtet werden. Geeignete Maßnahmen zur Information des Publikums sind unter anderem - Aufdruck auf Eintrittskarten oder Handzetteln, - Aushang, - Durchsagen oder die Hinweise auf Anzeigetafeln.
1205
Arbeitssicherheit und Gesundheitsschutz Schutzmaßnahmen bei Pegeln 95 < 99 dB(A) Bei zu erwartenden Pegeln > 95 dB(A) müssen dem Publikum geeignete Gehörschutzmittel zur Verfügung gestellt werden [DIN EN 352-2]. Auch sollen den Beschallungstechnikern als Arbeitserleichterung eine Messeinrichtung mit optischer Anzeige bereitgestellt werden, um bei Annäherung oder Überschreitung der Beurteilungspegel gegensteuern zu können. Die DIN 15905 schlägt bei optischer Anzeige Farbcodes vor und zwar - Gelb
95dB(A) < LAr < 99dB(A),
- Rot
LAr > 99dB(A).
19.2.3.3
Anhang
Die DIN 15905-5 enthält zusätzlich auch einen informativen Anhang A, der praktische Beispiele für einige Anwendungsfälle aufführt. Festinstallierte Beschallungsanlagen für Live-Betrieb Bei fest installierten Beschallungsanlagen mit stets gleicher Bühnensituation jedoch wechselnden Acts bietet sich an, die Korrekturwerte K1 und K2 einmalig bei der Installation der Beschallungsanlage zu ermitteln und in der Folge die Permanentmessung bei Veranstaltungen am Ersatzimmissionsort durchzuführen. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Wechselnde Beschallungsanlagen Veranstaltungsorte mit unterschiedlichen Beschallungsanlagen und Bühnensituationen werden von wechselnden Acts bespielt. Eine fest installierte Messeinrichtung ist hier nicht sinnvoll einsetzbar. Die Korrekturwerte werden bei jeder Produktion neu bestimmt. Vorteilhaft ist eine feste Messeinrichtung, die nicht ständig betreut werden muss. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig. Festinstallierte Anlagen zur Beschallung mit Tonträgern Fest installierte Beschallungsanlagen zur Wiedergabe von Tonträgern, beispielsweise in Diskotheken, können mit einem verplombten Limiter zur Einhaltung der Norm versehen werden. Der Limiter sollte regelmäßig auf Wirksamkeit überprüft werden. Eine optische Anzeige des Lärmpegels als Orientierungshilfe ist notwendig.
19.2.4
Messung der Schallimmission
Die Messung der Schallimmission nach DIN-15905 (siehe Abb. 19.3) muss mit einem Schallpegelmesser mindestens der Genauigkeitsklasse 2 nach [DIN EN 61672-1] mit A- und CFilterung erfolgen. Darüber hinaus ist eine kalibrierte Messgerätekette nach [DIN EN 60942] zu verwenden.
1206
Gesundheitsschutz Üblicherweise sollte die Messeinrichtung über eine optische Pegelanzeige für - LAeqT = Kurzzeitmittelungspegel bei einer Integrationszeit von T $ 5s - LAr = Beurteilungspegel - LCpeak = Spitzenschallpegel, sowie über eine Protokollierung und Datenarchivierung verfügen. Der Richtwert für die Beurteilung der Lautstärke bei Veranstaltungen an dem Ort mit dem höchsten zu erwartenden Pegel, der dem Publikum zugänglichen ist, beträgt LAr = 99 dB (A) LAr ist der A-bewertete, energieäquivalente Dauerschallpegel am maßgeblichen Immissionsort für die Beurteilungszeit von 30 min = Tr. Dieser Wert entspricht der zeitlichen Integration des Schalldruckverlaufs über die Zeitperiode. Der Pegel deckt sich mit der Festlegung der Gesundheitsminister der Bundesländer [19.15]. Die Norm gilt allerdings auch als nicht überschritten, wenn die Beurteilungszeit auf 120 min ausgedehnt wird. Dies hat Auswirkungen auf Veranstaltungen von kürzerer Dauer, da der Integrationszeitraum Beschallungspausen auch nach Ende der Veranstaltung mit einschließt.
Abb. 19/3. Darstellung einer Messeinrichtung nach DIN 15905-5
Eine Messung beginnt jeweils vor Beginn einer Veranstaltung und wird in jeweils 30minFenstern fortgesetzt. Jedes Zeitfenster beginnt zur vollen und halben Stunde. Da nicht immer an dem für die Norm maßgeblichen Immissionsort, nämlich der lautesten Stelle in dem Zuschauer zugänglichen Bereich gemessen werden kann, erfolgt die Messung vor der Veranstaltung an einem anderen Ort (Beispiel Regietisch im Zuschauerraum), dem so genannten Ersatzimmissionsort. Beide Orte müssen so gewählt werden, dass hier keine verfälschenden Störsignale das Messergebnis beeinflussen können, beispielsweise durch laute Publikumsgeräusche. Der am Ersatzimmissionsort ermittelte energieäquivalente Dauerschalldruckpegel LAeqT2 unterscheidet sich durch einen zu ermittelnden konstanten Korrekturfaktor K1 von LAr. Es gilt LAr = LAeqT2 + K1. 1207
Arbeitssicherheit und Gesundheitsschutz Dieser Korrekturwert wird bei der Dauermessung während der Veranstaltung berücksichtigt. Der Richtwert für den Spitzenschalldruckpegel beträgt LCpeak = 135 dB. Er darf in keinem Beurteilungszeitraum überschritten werden. Für den C-bewerteten Spitzenschalldruckpegel gilt analog zu dem A-bewerteten energieäquivalenten Dauerschalldruckpegel die Formel LCpeak1 = LCpeak2 + K2. Auch hier wird der Korrekturwert K2 durch Messung am Ersatzimmissionsort im Vergleich zum maßgeblichen Immissionsort ermittelt. Korrekturwert Jede Messung bei einer Lautsprecheranordnung in einer Spielstätte bei genau hier genutzter Mikrofonanordnung am Immissionsort führt zu individuellen Korrekturwerten. Diese Messung muss für jede neue Veranstaltung mit einer Beschallungsanlage und möglicherweise unterschiedlichen Bühnensituationen durchgeführt werden. Als Korrekurwert K1 gilt die Pegeldifferenz bei der Vergleichsmessung zwischen dem Ersatzimmissionsort und dem maßgeblichen Immissionsort für den Mittelungspegel LAeqT2 und der Wert K2 gilt als Korrekturwert für den Spitzenschalldruckpegel LCpeak2. Als Messsignal muss rosa Rauschen verwendet werden, bei einer Integrationszeit für den energieäquivalenten Dauerschalldruckpegel LAeqT2 von T # 5s. Die Ermittlung der Korrekturwerte K1 (LAeqT = A-bewerteter energieäquivalenter Dauerschallpegel) und K2 (LCpeak = C-bewerteter Spitzenschalldruckpegel) erfolgen vor der Veranstaltung an geeigneten Orten. Diese beiden Messwerte sind während der Permanentmessung zu berücksichtigen. Messprotokoll Von den Permanentmessungen in dem 30-minütigen Zeitraster ist ein Messprotokoll anzufertigen, das folgende Angaben enthalten muss: -
Veranstalter und Name der Veranstaltung, Verfasser des Messprotokolls mit Unterschrift, Datum und Veranstaltungsort, Beurteilungspegel LAr und Spitzenschalldruckpegel LCpeak aller Beurteilungszeiten, Beginn und Ende der Messung, Beginn und Ende der Veranstaltung, zeitlicher Veranstaltungsverlauf, Verwendete Mess- und Kalibriergeräte, Ergebnis der Kalibrierung, Typ und Anordnung der genutzten Beschallungsanlage, Messpunkte: maßgeblicher Immissionsort und Ersatzimmissionsort, Korrekturwerte K1 und K2 und Art der Ermittlung, Bedienpersonal der Beschallungsanlage z. B. DJ, FOH-Techniker, Mischer.
19.2.4.1
Konsequenz der DIN 15905-5
Schutzziel der Norm 15905-5 ist, die „Reduzierung einer Gehörgefährdung des anwesenden Publikums“ bei öffentlichen Veranstaltungen zu gewährleisten. Dem liegt der Gedanke zugrund, einen Konzertgenuss zu ermöglichen, ohne einen physischen Schaden davon tragen 1208
Gesundheitsschutz zu müssen. Die Grenzwerte und Randbedingungen stellen einen sinnvollen Kompromiss dar zwischen Publikumsschutz und Durchführbarkeit und orientieren sich auch an den Vorschriften und Normen europäischer Nachbarländer. Die Akzeptanz der Norm steigt, wenn sich alle in der Branche aktiven Berufsverbände für die Einhaltung der Norm einsetzen, wie beispielsweise der Verband der Konzertdirektionen Deutschland (VDKD) als Vertreter der Veranstalter, der Verband deutscher Tonmeister (VDT) als Fachverband der Toningenieure und Tonmeister, der Verband für professionelle Licht und Tontechnik e.V. (VPLT) als Vertretung für die Beschallungsdienstleister, der Dachverband des Gastgewerbes (Deutsche Hotel- und Gaststättenbetreiber, Dehoga) als Vertreter der Diskothekenbetreiber. Die Einhaltung der DIN 15905-5 erfordert bei den Betroffenen (Veranstaltern, Betreibern, Künstlern und Publikum) ein Umdenken des bisher Gewohnten sowie Verständnis für die gesundheitlichen Folgen einer zu hohen Schallexposition. Lauter ist nicht gleich besser. Die Grenzwerte Zeit und Pegel der Norm sind so gewählt, dass allein durch den Besuch einer einzigen Veranstaltung, bei der die genannten Beurteilungspegel eingehalten wurden, kein zusätzlicher Gehörschaden entstehen kann. 19.2.4.2
Die Praxis für Veranstaltungen
Die Grenzwerte für die DIN 15905-5 sind aus den Bestimmungen zum Arbeitsschutz entnommen. Basis der Exposition sind hier eine Lärm- oder Schalldosis von 85 dB (A) bei einer wöchentlichen Expositionszeit von 40 Stunden entsprechend 3.640 Pa/s. Allerdings steigt das Gehörschadenrisiko oberhalb dieses Wertes erheblich. Hörschäden sind bei extensiver Exposition und bei besonders lauten Schallereignissen medizinisch erwiesen. Das Gehörschadensrisiko bei einer Schalldosis von 85 dB(A) für 40 Stunden, von 95 dB(A) für 4 Stunden oder von 98 dB(A) für 2 Stunden wird als vergleichbar beschrieben. Dies gilt jedoch nur bei ausreichend Zeit zur Erholung des Gehörs und ohne Berücksichtigung von Vorschäden aus zurückliegenden Schallereignissen. Auch sind die Überlegungen aus dem Lärmschutz am Arbeitsplatz nicht ohne weiteres auf Freizeitlärm zu übertragen im Sinne von Schall ist ungleich Lärm. Folgen für den Veranstalter und den Betreiber Durch die Erfüllung der DIN 15905-5 kommen sowohl der Veranstalter als auch der Betreiber einer Veranstaltung der gesetzlich vorgeschrieben Verkehrssicherungspflicht nach. Eine Zuwiderhandlung macht ihn allerdings für alle durch die Beschallung aufgetretenen Schäden haftbar. Ein Veranstalter kann seiner Verkehrssicherungspflicht nur nachkommen, wenn er sachkundige Spezialisten mit der Durchführung der Messung beauftragt. Eine rechtswirksame Messung des Mittelungspegels LAr = LAeqT2 + K1 und des Spitzenschalldruckpegels LCpeak muss mit geeichtem Messgerät durchgeführt werden und protokolliert sein. Aufklärung Die DIN 15905-5, wie auch die EG Richtlinie 2002/44/EG beschäftigen sich mit dem Gehörschutz für Zuhörer wie auch für tätige Mitarbeiter bei öffentlichen Veranstaltungen, wie z. B. Diskotheken, Open-Air-Konzerten etc. Neben der sachgerechten Aufklärung der Besucher 1209
Arbeitssicherheit und Gesundheitsschutz besteht zusätzlich die Notwendigkeit, das Bedienpersonal von elektroakustischer Beschallungstechnik über die mögliche Gesundheitsgefährdung durch hohe Schalldruckpegel > 85 dB(A) zu unterrichten. Entsprechende Ausbildungsgänge für Tonschaffende vermitteln umfassende Kenntnisse. Eine Mitverantwortung für das Bedienpersonal kann nicht ausgeschlossen werden, auch wenn die DIN-Norm die Verkehrsicherungspflicht beim Veranstalter bzw. Betreiber sieht. In Anbetracht drohender irreparabler Gesundheitsschäden, insbesondere bei Kindern und Jugendlichen durch Freizeitlärm, sind Aufklärungsmaßnahmen vonnöten. Aufklärung über die persönlichen Konsequenzen eines geschädigten Gehörs der Betroffenen durch Lehrer, Eltern, Arzt, Jugend- oder Sozialarbeiter, aber auch über die Medien ist der richtige Weg. Schadenersatzforderungen von durch Lärm geschädigten Personen werden heute in aller Regel von den Gerichten anerkannt; sie sehen den Veranstalter in der Pflicht, normgerechte Messungen durchzuführen. 19.2.4.3
Probleme der Norm DIN-15905-5
Kleinere Veranstaltungsstätten werden mit der Einhaltung der Norm gelegentlich Probleme haben. Ein Veranstaltungsort, bei dem es z. B. keine klare Abgrenzung zwischen dem Bühnen- und dem Zuschauerbereich gibt, wirkt der Pegel der Band auf der Bühne ungedämpft auf die Zuhörer. Eine sinnvolle Unterteilung der Größe einer Veranstaltungsstätte konnte in der Norm nicht gefunden werden. Es lassen sich für eine vernünftige Pegelbegrenzung auf der Bühne jedoch durchaus technischen Lösungen finden, wie z. B. das Einbauen des Schlagzeugs mit Plexiglaswänden, die Nutzung von In-Ear-Monitoring-Systemen oder die sorgfältige Verwendung von Begrenzern (Abb. 19/4)
Abb. 19/4. Beschallungsanlage mit Pegelbegrenzern
1210
Gesundheitsschutz
19.2.5
Elektrische Sicherheit
Spätestens seit dem in Kraft treten des Arbeitsschutz Gesetzes [19.3] im Jahre 1996 ist jeder Unternehmer gesetzlich verpflichtet, für eine geeignete Organisation des Arbeitsschutzes in seinem Unternehmen zu sorgen. Hierbei ist die Beachtung der Arbeitssicherheit eine notwendige Voraussetzung für das Ausführen jeglicher Arbeit. Der Gesetzgeber wendet sich mit dem Arbeitsschutzgesetz in erster Linie an den Unternehmer und verpflichtet ihn, die Sicherheit und den Gesundheitsschutz der Beschäftigten bei der Arbeit durch geeignete Maßnahmen des Arbeitsschutzes zu gewährleisten. Neben dem staatlichen Recht werden in den berufsgenossenschaftlichen Vorschriftenwerken weitere Anforderungen an den Unternehmer zum Schutz der Beschäftigten bei der Arbeit gestellt [19.17]. Zur Abwehr von Gefahren sind die Mindestanforderungen in den unterschiedlichen Bereichen in weitergehenden Vorschriften, Normen und Richtlinien festgelegt. Ihre Beachtung ist oberstes Gebot bei der Arbeit. Für die öffentlich-rechtlichen Rundfunkanstalten sind die einschlägigen gesetzlichen Bestimmungen sowie zusätzliche interne Anweisungen in den Unfallverhütungsrichtlinien [UVR von ARD/ZDF] zusammengefasst. Auf die umfangreichen gesetzlichen Vorgaben, Normen und Richtlinien soll an dieser Stelle nicht weiter eingegangen werden. Bezüglich der Verantwortlichkeit für die Umsetzung der Arbeitssicherheit ist der Unternehmer Adressat der gesetzlichen Vorgaben. Er hat im Rahmen seiner Organisationsverantwortung eine funktionierende Arbeitsschutzorganisation im Betrieb zu installieren und mit der Kontrollverantwortung für die Angemessenheit der Maßnahmen zu sorgen. Kann der Unternehmer auf Grund der Art oder Größe des Betriebes diese Aufgaben nicht alleine wahrnehmen, muss er die diese Aufgaben auf seine Führungskräfte übertragen. Diese tragen dann für den Teil der Arbeitssicherheit die Unternehmerverantwortung. Bei der Ausübung ihrer Tätigkeit sind die Arbeitnehmer durch die gesetzliche Unfallversicherung abgesichert. Der Versicherungsschutz umfasst Arbeitsunfälle, Wegeunfälle und Berufskrankheiten. Die Versicherungsprämien entrichtet der Arbeitgeber. Träger der gesetzlichen Unfallversicherung sind die Berufsgenossenschaften als Körperschaften des öffentlichen Rechts. Die zentralen Aufgaben der Berufsgenossenschaften bestehen darin, mit allen geeigneten Mitteln Arbeits- und Wegeunfälle sowie Berufskrankheiten zu vermeiden sowie eine wirksame Erste Hilfe in den Betrieben zu überwachen. 19.2.5.1
Produktionsstätten beim Hörfunk
Die ARD/ZDF-Unfallverhütungsrichtlinien enthalten umfassende Bestimmungen für Produktionsstätten bei Hörfunk, Fernsehen, Film und Veranstaltungen. Im Folgenden sind einige relevante Punkte zur elektrischen Sicherheit verkürzt genannt: Elektrische Anschlüsse Elektrische Anlagen und Betriebsmittel dürfen nur von Elektrofachkräften oder unter Leitung und Aufsicht einer Elektrofachkraft errichtet, geändert und instand gehalten werden. Sind Eingriffe in das Energieversorgungsunternehmer-Netz (EVU-Netz) erforderlich, hat dies nur durch Elektrofachkräfte unter der Verantwortung des Konzessionsträgers zu erfolgen.
1211
Arbeitssicherheit und Gesundheitsschutz Elektrischer Anschluss von Übertragungswagen Der Netzanschluss für ein Übertragungsfahrzeug erfolgt grundsätzlich über einen Zwischentransformator der die Anforderungen für Trenntransformatoren nach [DIN EN 61558-2-4] erfüllen muss. Darüber hinaus müssen alle Betriebsmittel, die zum Netzanschluss des Übertragungsfahrzeuges dienen, z. B. Stecker, Schalter, Zuleitungen, Leitungseinführung, Transformatoren, die Anforderungen der Schutzisolierung nach [DIN VDE 0100 Teil 410] erfüllen. Beim Einsatz von Übertragungswagen sind die elektrotechnischen Anforderungen gemäß [DIN VDE 0100-717] zu beachten. Die hier allgemein beschriebenen Maßnahmen, die Schutzmaßnahmen sowie die Auswahl und Errichtung elektrischer Betriebsmittel gelten sowohl für den einzelnen Ü-Wagen, wie auch für das Zusammenschalten mehrerer Fahrzeuge. Bei der Zusammenschaltung von Ü-Fahrzeugen oder transportablen Betriebsstätten sind die Schutzmaßnahmen gegen zu hohe Berührungsspannungen aufeinander anzustimmen. Tonleitungen sollen galvanisch getrennt, d. h. über einen Trennübertrager zusammengeschaltet werden. Steckdosen in fremden Häusern Vor dem Anschließen elektrischer Betriebsmittel sind die Steckdosen auf richtigen Anschluss der Außenleiter und des Schutzleiters zu überprüfen. Die Prüfung kann auch von elektrotechnisch unterwiesenen Personen mit geeignetem Prüfgerät durchgeführt werden. Bei Spannung führendem Schutzleiter darf die Steckdose unter keinen Umständen benutzt werden. Bei fehlendem Schutzleiter ist entweder auf eine ordnungsgemäße Steckdose auszuweichen, oder einen Trenntrafo, oder es ist ein Schutzschalter nach [DIN VDE 0661] oder ein Anschlusskasten mit RCD-Schutzschalter (# 30 mA und Ersatzerde) zu verwenden. Geräte der Schutzklasse II sind hiervon ausgenommen. Wird eine RCD-Sicherheitseinrichtung nach DIN VDE 0661 verwendet, ist die Einhaltung der Schutzmaßnahme der Steckdose nach dem RCD-Sicherheitsschalter mit geeignetem Prüfgerät zu prüfen. 19.2.5.2
Kabelverlegung
Kabel dürfen im Außendienst erst dann verlegt werden, wenn die erforderlichen behördlichen und/oder privaten Zustimmungen vorliegen. Die Zustimmung ist auch für andere Aufbauten oder Installationen erforderlich. Kabel müssen so verlegt werden, dass Beschädigungen vermieden werden. Senkrecht geführte Kabel sind mit Fangleinen zu halten und an Knickstellen besonders zu schützen. Über Verkehrswegen müssen Kabel in ausreichender Höhe gespannt und mit Abspannseilen entlastet werden. Eine Stolpergefahr durch auf den Verkehrsflächen verlegte Kabel ist durch geeignete Abdeckungen o. ä. auszuschließen; zusätzlich ist mit Schildern auf diese Gefahr hinzuweisen. Netzkabel zu Geräten auf Stativen müssen im Bereich des Stativfußes eine ausreichende Zugentlastung haben. Beschädigte Kabel dürfen nicht verwendet werden. Abgehängte Mikrofone und Lautsprecher Grundsätzlich sind Arbeitsmittel zum Bewegen oder Halten von Lasten über Personen so zu gestalten und zu betreiben, dass die Lasten sicher gehalten werden. Hierbei erfolgt die 1212
Gesundheitsschutz Dimensionierung der Arbeitsmittel nach dem Prinzip der Eigensicherheit. Darüber hinaus kann als weitere Maßnahme auch das Prinzip der Einfehlersicherheit erforderlich werden. Voraussetzung für beide Methoden sind konstruktive Mindestanforderungen an die verwendeten Arbeitsmittel. Nur wenn durch eine Beurteilung der Gefährdung nachvollziehbar festgestellt worden ist, dass hängende Lasten beim Herunterfallen keine gesundheitlichen Schädigungen hervorrufen, kann von den grundsätzlichen Sicherungsanforderungen abgewichen werden. Dies kann beispielsweise bei Mikrofonabhängungen, bei denen die Zugentlastung tragende Funktion hat, der Fall sein. 19.2.5.3
Anschluss elektrischer Geräte und Musikanlagen
Elektrische Geräte und Musikanlagen, die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter der Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Zu den besonderen Schutzmaßnahmen zählen insbesondere Schutzkleinspannung, Schutztrennung mit geeigneten Transformatoren und RCD Schutzeinrichtung mit einem Auslösestrom von # 30mA. Elektrische Musikanlagen müssen grundsätzlich über einen Trenntransformator angeschlossen werden. Transportable elektrische Anlagen und Geräte sind vor jedem Einsatz auf Funktionsfähigkeit und mechanischen Zustand sowie auf einwandfreien Zustand der beweglichen Anschlussleitungen durch Sichtkontrolle zu prüfen. 19.2.5.4
Gefahren des elektrischen Stroms
Bei unsachgemäßer Handhabung der elektrischen Energie kann es durch direkte oder indirekte Einwirkungen des Stroms auf Menschen zu schwersten Unfällen kommen. Unfälle entstehen bei Durchströmung über das Herz, bei Lichtbogenunfällen durch Verbrennungen oder als Sekundärunfälle als Folge von Durchströmungs- oder Lichtbogenunfällen.
Abb. 19/5. Gefährdung durch das Stromnetz
1213
Arbeitssicherheit und Gesundheitsschutz Der elektrische Durchströmungsunfall ist die Folge einer Durchströmung des Herzens durch den elektrischen Strom. Dabei können die Folgen von der reinen Wahrnehmung des Stromes ab 2 mA, über Muskelkrämpfe und Schwierigkeiten beim Loslassen des stromführenden Leiters ab 15 mA, über Bewusstlosigkeit bis 80 mA, über Herzkammerflimmern und Herzstillstand bei Strömen bis 300 mA und bis zu tödlichen Verletzungen mit Herzstillstand und inneren Verbrennungen bei elektrischen Strömen über 5 A führen. Bei Lichtbogenunfällen treten äußere Verbrennungen, aber auch Vergiftungserscheinungen durch Verdampfung von Kabelmaterial auf. Auch geringfügige Primärunfälle durch elektrischen Strom können schwere Sekundärunfälle verursachen, wenn der Betroffene z. B. auf einer Leiter arbeitet und durch die Stromeinwirkung auch nur erschreckt wird. Beim Umgang mit netzbetriebenen elektrischen Anlagen und Betriebsmitteln besteht eine besondere Gefahr dadurch, dass das Versorgungsnetz geerdet ist. Nicht nur das gleichzeitige Berühren von zwei elektrischen Leitern mit unterschiedlichem Potential (Außen- und Neutralleiter), sondern auch der direkte oder indirekte Kontakt mit nur einem der Spannung führenden Leiter ist lebensgefährlich. Auch in diesem Fall wird ein Potential überbrückt, denn durch die Erdung des Neutralleiters besteht zwischen Außenleiter und Erde eine Spannung von 230 V. Wie in Abb. 19/5 dargestellt, kann bei Berühren eines Außenleiters ein tödlicher Strom über den Menschen zur Erde fließen. Die Stromstärke I ist im Wesentlichen abhängig von der Spannung U gegen Erde, der Größe des Übergangswiderstandes Rü am Standort zur Erde, vom Schuhwerk und von der Bodenbeschaffenheit sowie dem Widerstand RM des Menschen, der u. a. abhängig von der Hautfeuchtigkeit ist. Tab. 19/4. Vergleich der alten und neuen Bezeichnungen des Stromnetzes Alte Bezeichnung R S T Mp SL NL =SL/Mp 19.2.5.5
ÿ ÿ ÿ ÿ ÿ ÿ
Neue Bezeichnung L1 L2 L3 N (Neutralleiter) PE (Protection-Earth) PEN (Protection-Earth Neutral)
Schutz vor einem elektrischen Schlag
Allgemeine Anforderungen Eine Schutzmaßnahme gegen einen elektrischen Schlag besteht immer aus einer geeigneten Kombination von zwei unabhängigen Schutzvorkehrungen, d. h. einer Basisschutzvorkehrung und einer Fehlerschutzvorkehrung, oder auch einer verstärkten Schutzvorkehrung, die den Basisschutz und auch den Fehlerschutz bewirkt. Allgemein gebräuchlich sind folgende Schutzmaßnahmen: 1214
Gesundheitsschutz -
Schutz durch automatische Abschaltung der Stromversorgung Schutz durch doppelte oder verstärkte Isolierung Schutz durch Schutztrennung für die Versorgung eines Betriebsmittels Schutz durch Kleinspannung mittels SELV oder PELV (siehe folgende Unterkapitel)
Bei der Basisschutzvorkehrung handelt es sich um den Schutz gegen direktes Berühren von Strom durchflossenen Leitern, die Fehlerschutzvorkehrung definiert den Schutz gegen indirekte Berührung. Elektrische Anlagen und Geräte müssen so beschaffen sein, dass Spannung führende Teile gegen direktes Berühren geschützt sind. Das kann dadurch geschehen, dass Spannung führende Teile in ihrem ganzen Verlauf isoliert oder durch ihre Bauart, ihre Anordnung bzw. durch besondere Vorrichtungen gegen direktes Berühren geschützt sind. Beispiele hierfür sind: Isolierung von Leitungen und Steckverbindungen, Einbau in geschlossene Gehäuse und bei Freileitungen die Verlegung außerhalb des Handbereichs. Weiterhin müssen elektrische Betriebsmittel gegen indirektes Berühren geschützt sein, d. h., berührbare Gehäuseteile dürfen auch im Störungsfall keine gefährliche Spannung führen. Dies wird in erster Linie durch eine zuverlässige Betriebsisolierung der aktiven, Spannung führenden Teile, und durch eine sorgfältige Errichtung der Anlage durch Elektrofachleute erreicht. Dennoch ist nicht auszuschließen, dass ein elektrisches Gerät durch Alterung, unsachgemäße Reparatur, Eindringen von Fremdkörpern, Feuchtigkeit oder durch mechanische Beschädigung fehlerhaft wird. Dabei können Isolationsfehler oder Körperschlüsse auftreten, die eine lebensgefährliche Spannung an Gehäuseteilen zur Folge haben. Um auch in diesem Fall einen größtmöglichen Schutz zu erreichen, sind zusätzliche Schutzmaßnahmen gegen gefährliche Berührungsspannungen erforderlich. Fehlerstrom –Schutzschaltung (RCD) Die Fehlerstrom-Schutzschaltung RCD (Residual Current protective Device) ist seit 2002 der Sammelbegriff für Schutzeinrichtungen mit und ohne Hilfsspannungsquelle (siehe Abb. 19/6).
Abb. 19/6. RCD-Einteilung
Die Fehlerstrom-Schutzeinrichtung bewirkt, dass der Stromkreis allpolig abgeschaltet wird sobald ein Fehlerstrom gegen Erde fließt, der den Nenn-Fehlerstrom des Schalters übersteigt (Abb. 19/7). Die Fehlerstrom-Schutzeinrichtung (RCD) spricht also auch auf Fehler an, die auf den Zuleitungen zum Verbraucher auftreten können, z. B. beschädigte Leitungen, über die ein Fehlerstrom zur Erde fließt. Die RCD-Schutzschaltung nach VDE 0100-410 verlangt eine 1215
Arbeitssicherheit und Gesundheitsschutz direkte Erdung der zu schützenden Verbrauchsmittel. Bei ortsveränderlichen Geräten, die über Steckverbindungen angeschlossen werden, ist eine derartige direkte Erdung dagegen in der Regel nicht möglich. Es sind aber sog. Sicherheitssteckdosenleisten (Personenschutzautomaten) im Gebrauch, die nach dem Prinzip der H-Schutzschaltung arbeiten. Allerdings wird bei diesem Verfahren die Erdung der Verbraucher indirekt über den Schutzleiter und den Schutzkontakt der Speisesteckdose vorgenommen. Die Speisesteckdose muss also einen wirksamen Schutzkontakt haben und das anzuschließende Gerät die Schutzmaßnahme „Nullung mit separatem Schutzleiter“. Sollte dies nicht der Fall sein, kann mit einer Hilfserde die Steckdosenleiste und/oder der Verbraucher geerdet werden. Durch den sehr kleinen Nenn-Fehlerstrom der verwendeten HSchalter (30 mA, 15 mA) ist ein wesentlich besserer Schutz zu erwarten, als mit alleiniger Nullung möglich ist. Der RCD-Schalter mit 15 mA Nennfehlerstrom schaltet bereits bei einem Fehlerstrom ab, der normalerweise für den Menschen ungefährlich ist. Auch die Abschaltzeit ist wesentlich schneller als z. B. mit einer Schmelzsicherung. Aus diesem Grund bezeichnet man das Verfahren auch als „schnelle Nullung“.
Abb. 19/7. RCD-Schutzschaltung
Schutzisolierung Zusätzlich zur Betriebsisolierung wird durch eine zweite isolierende Abdeckung oder durch Verwendung von isolierendem Material dafür gesorgt, dass auch im Fehlerfall das Gehäuse keine Spannung annehmen kann, wie in Abb. 19/8 dargestellt.
Abb. 19/8. Schutzisolierung
1216
Gesundheitsschutz Hierbei werden 2-adrige Zuleitungen ohne Schutzleiter verwendet. Der Anschlussstecker hat keinen Schutzkontakt. Anwendungsbeispiele: Schutz-/Vollisolierte elektrische Werkzeuge, Haushaltsgeräte, Trenntransformatoren, Netzteile für Schutzkleinspannung, Radio- und Fernsehempfänger. Nullung mit separatem Schutzleiter Über einen separaten Schutzleiter (PE-Leiter, grün-gelb markiert), der im Hausanschlusskasten mit dem Null- oder Neutralleiter verbunden ist, wird eine leitende Verbindung zwischen dem Gehäuse des Gerätes und Erde hergestellt, siehe Abb. 19/9. Dadurch kann niemals ein Potential zur Erde entstehen. Im Fehlerfall (Isolationsfehler, vollkommener Körperschluss) wird der Fehlerstrom über den niederohmigen Schutzleiter zur Erde abgeleitet. Bei Erreichen des Nennstromes der vorgeschalteten Sicherung wird der Stromkreis abgeschaltet. Dies ist die am häufigsten angewendete Schutzmaßnahme. Alle ortsveränderlichen bzw. über Steckverbindungen anzuschließenden Geräte werden mit dieser Schutzmaßnahme ausgestattet, es sei denn, sie sind schutzisoliert. Das Wichtigste an dieser Schutzmaßnahme ist der jederzeit vorschriftsmäßige Anschluss des Schutzleiters am Gerät und am Stecker sowie eine richtig installierte Schutzkontaktsteckdose. Es muss besonders beachtet und in regelmäßigen Abständen überprüft werden, ob - der Schutzleiter (PE) immer richtig an Stecker, Kupplung und Gehäuse des Verbrauchers angeschlossen ist, - die Schutzkontakte an Steckdose, Stecker und Kupplung immer einen guten Kontakt zueinander haben und nicht z. B. durch Farbe oder Schmutz, einen Übergangswiderstand aufweisen, - der grün-gelbe Schutzleiter nach einer Auswechslung von Stecker oder Zuleitung immer so angeschlossen ist, dass er im Falle des Herausreißens der Leitung die größte Zugreserve hat und somit als letzter Leiter abreißt. Bei Versagen der Zugentlastung ist somit das Gehäuse des Gerätes auch dann noch über den PE-Leiter geerdet, wenn die stromführenden Leiter schon aus den Anschlussklemmen herausgerissen sind.
Abb. 19/9. Nullung mit separatem Schutzerder
1217
Arbeitssicherheit und Gesundheitsschutz Schutztrennung Die Schutztrennung ist die galvanische Trennung des Verbrauchers vom speisenden, geerdeten Netz mit Hilfe eines Trenntransformators. Das Sekundärnetz darf nicht geerdet werden. Mit dieser Maßnahme wird erreicht, dass selbst bei einem fehlerhaften Verbraucher keine Spannung gegen Erde auftreten kann, siehe Abb. 19/10. Bei der Schutztrennung darf jeweils nur ein Verbraucher über einen Trenntrafo betrieben werden. Diese Schutzmaßnahme ist im Zweifelsfall jeder anderen vorzuziehen. Anwendungsbeispiele hierfür sind die Versorgung von elektrischen Musikanlagen über einen Trenntrafo, oder allgemein die Inbetriebnahme von Fremdgeräten, bei denen eine wirksame Schutzmaßnahme nicht sichergestellt ist.
Abb. 19/10. Schutz durch Schutztrennung
Schutzerdung Bei der Schutzerdung werden Gehäuse, Gestelle und Eisenkonstruktionen unmittelbar mit Erdern oder geerdeten Teilen verbunden (Abb. 19/11). Dadurch kann niemals ein gefährliches Potential zwischen leitenden Anlagenteilen und Erde auftreten.
Abb. 19/11. Schutzerdung
Bei einem Isolationsfehler oder vollkommenen Körperschluss wird der Fehlerstrom zur Erde abgeleitet. Bei Erreichen des Nennstromes der vorgeschalteten Sicherung erfolgt eine Abschaltung des Stromkreises. Anwendungsbeispiele sind fest installierte Großanlagen, 1218
Gesundheitsschutz Gestellschränke, Motoren etc. Da die Verbindung mit Erde über einen großen Leiterquerschnitt erfolgen muss und sich die Verbindung nur mit Werkzeugen lösen lässt, ist diese Schutzmaßnahme für ortsveränderliche Verbraucher, die über Steckverbindungen angeschlossen werden, nicht anwendbar. Schutz durch Kleinspannung mittels S-ELV oder P-ELV Der Schutz durch Kleinspannung (ELV, Extra Low Voltage) besteht prinzipiell darin, dass die Spannung auf vergleichsweise niedrige Werte begrenzt wird und damit weniger gefährlich ist (Abb. 19/12). Die Begriffe SELV und PELV haben ihren Ursprung in den verwendeten englischen Begriffen (S = Safety, P = Protective). SELV und PELV-Systeme müssen eine sichere Trennung von allen anderen Stromkreisen, die nicht SELV oder PELV-Stromkreise sind, aufweisen. Auf der Sekundärseite müssen spezielle, unverwechselbare Steckverbindungen verwendet werden. Die Schutzmaßnahmen Schutz durch Kleinspannung mittels SELV oder PELV gelten als besonders sichere Schutzmaßnahmen, die deswegen teilweise in Sonderbestimmungen als einzige Alternative, jedoch mit Einschränkungen, zugelassen sind. Unter normalen Umgebungsbedingungen sind für den Schutz gegen elektrischen Schlag die Schutzmaßnahmen durch Kleinspannung mittels SELV oder PELV immer zulässsig.
Abb. 19/12. Schutz durch Schutzkleinspannung
19.2.6
Inbetriebnahme von elektrischen Geräten und Anlagen
Vor dem Anschließen eines elektrischen Geräts an das Stromnetz ist durch Sichtprüfung der äußere Zustand zu kontrollieren. Das Gerät darf nicht angeschlossen werden, wenn Teile des Gehäuses fehlen oder beschädigt sind, wenn die Zuleitungen oder Steckverbindung defekt oder ein Fremdkörper oder Feuchtigkeit in das Gerät eingedrungen sind. Bei Anlagen mit Fehlerstromschutzeinrichtungen (RCD Schutzschalter) ist vor Arbeitsbeginn der ordnungsgemäße Zustand der RCD durch Drücken der Prüftaste (T) sicherzustellen. Der Schalter muss auslösen. Andernfalls darf die Anlage nicht in Betrieb genommen werden. Bei 1219
Arbeitssicherheit und Gesundheitsschutz Steckdosen in fremden Häusern ist vor der Benutzung mit dafür vorgesehenen Prüfeinrichtungen sicherzustellen, dass der Schutzkontakt wirksam ist. Beim Anschluss von schutzisolierten Geräten ist kein Schutzkontakt erforderlich, eine Überprüfung der Speisesteckdose erübrigt sich. Elektrische Musikanlagen dürfen nur über einen Trenntransformator angeschlossen werden. Geräte, bei denen ein ordnungsgemäßer Zustand nicht mit letzter Sicherheit anzunehmen ist, z. B. Fremdgeräte, Geräte ohne VDE-Zeichen und Geräte mit „unzuverlässigem Äußeren“, dürfen ebenfalls nur über einen Trenntransformator angeschlossen werden. Bei der Verwendung von Trenntransformatoren ist unbedingt zu beachten, dass für jeden Verbraucher ein eigener Trenntrafo verwendet wird. Beim Anschluss von zwei oder mehreren Verbrauchern an den gleichen Trenntransformator wird die Schutzmaßnahme wirkungslos. In ungünstigen Fällen kann zwischen den Gehäusen der beiden Geräte volle Netzspannung liegen. Ein Überbrücken dieses Potentials durch den Menschen z. B. über die Abschirmung von Mikrofonkabeln und Tonabnehmern der Gitarre kann zu einem tödlichen Stromschlag führen. 19.2.6.1
Anschluss ortsveränderlicher Musikanlagen
Ortsveränderliche elektrische Musikanlagen die zur Handhabung durch Darsteller vorgesehen sind, dürfen nur unter Anwendung besonderer Schutzmaßnahmen gegen zu hohe Berührungsspannung betrieben werden. Bei allen Produktionen ist vor dem Herstellen des Stromanschlusses dessen Fehlerfreiheit auf der Einspeiseseite festzustellen Zu den besonderen Schutzmaßnahmen gehören insbesondere die Schutzkleinspannung, die Schutztrennung, die Schutzisolierung bei trockener Umgebung sowie die Fehlerstromschutzeinrichtungen (RCD) mit einem Nennfehlerstrom # 30m A. Allgemeingültige Maßnahmen Elektrische Betriebsmittel von ortsveränderlichen elektrischen Musikanlagen, die den einschlägigen VDE-Bestimmungen entsprechen, z. B. [VDE 0804-100,1] oder [DIN VDE 0860], oder die als solche gekennzeichnet sind, wie z. B. durch VDE- oder GS-Zeichen, und keine äußerlich erkennbaren Mängel aufweisen, können unmittelbar an das Stromnetz angeschlossen werden. Zum brummfreien Betrieb von ortsveränderlichen Musikanlagen, die diesen Anforderungen entsprechen, dürfen deren Gehäuse, Schirmungen oder Bezugsleiter von NF-Signalstromkreisen mit gemeinsamem Bezugspotential (Funktionserdung oder Funktions- und Schutzerdung) mittelbar oder unmittelbar verbunden werden. Ist eine nach VDE-gemäße Ausführung der ortsveränderlichen elektrischen Musikanlage nicht eindeutig feststellbar, so muss jedes netzbetriebene elektrische Betriebsmittel der Anlage über je einen eigenen Trenntrafo an das Netz angeschlossen werden. Rundfunkspezifische Maßnahmen Die in Abb. 19/13 beschriebenen Maßnahmen müssen eingehalten werden, sobald eine Rundfunkanstalt als Betreiber der Produktionsstätte oder als Veranstalter auftritt, aber auch, wenn sie lediglich an der Produktion beteiligt ist. 1220
Gesundheitsschutz
Abb. 19/13. Anschluss ortsveränderlicher elektrischer Musikanlagen.
1221
Arbeitssicherheit und Gesundheitsschutz a) Die Rundfunkanstalt ist Betreiber der Produktionsstätte und/oder Veranstalter der Produktion: Der Stromanschluss muss nach den oben genannten allgemeingültigen Maßnahmen erfolgen. Wenn ein Trenntrafo wegen zu hoher Leistungsaufnahme der Musikanlage nicht verwendet werden kann, muss eine Fehlerstrom-Schutzeinrichtung (RCD) mit einem Nennfehlerstrom von # 30 mA benutzt werden. Die Anwendung der RCD-Schutzeinrichtung muss von Elektrofachkräften oder, bei Benutzung geeigneter Prüfgeräte, auch von besonders unterwiesenen und beauftragten Personen vor der Inbetriebnahme auf seine Wirksamkeit überprüft werden. Fremde Teilnehmer an der Produktion haben die von der Rundfunkanstalt galvanisch getrennten NF-Anschlüsse zu übernehmen, die Anschlüsse dürfen nicht geändert werden. b) Die Rundfunkanstalt ist an der Produktion beteiligt, die von Dritten veranstaltet werden: Die Mitarbeiter der Rundfunkanstalten sind verpflichtet, Mikrofone, Übertrager usw. nur über Trennverstärker, z. B. Mikrofontrennverstärker, zu betreiben. Sicherheit auf Bühnen Elektrische Stromunfälle auf Bühnen oder im Studio sind immer die Folge von fehlerhaften Geräten, Installationen oder unzulässigen Arbeitsgewohnheiten. Entspricht die elektrische Hausinstallation den einschlägigen Vorschriften, sind alle angeschlossenen Geräte einwandfrei in Ordnung und werden vorschriftsmäßig zusammengeschaltet, so geht von der Anlage keine Gefahr aus. Da der ordnungsgemäße Zustand aller Anlagenteile vielfach nicht sichergestellt ist, muss der Verantwortliche besondere Vorkehrungen treffen.
Abb. 19/14. Lebensgefährliche Situation bei einer fehlerhaften Musikanlage.
In Abb. 19/14 ist eine typische Situation gezeigt, die für den Musiker und andere Mitwirkende Lebensgefahr bedeuten kann: Der dargestellte Musiker bringt seinen Gitarrenverstärker mit auf die Bühne und benutzt außerdem ein Gesangsmikrofon, das an eine getrennte Gesangsanlage angeschlossen ist. Der Gitarrenverstärker ist z. B. ein Gerät ohne Schutzmaßnahme gegen zu hohe Berührungsspannung oder ist durch eine unsachgemäße Reparatur oder 1222
Gesundheitsschutz Änderung der vorgesehenen Schutzmaßnahme gegen Stromunfälle wirkungslos geworden. Auf dem Gehäuse des Gitarrenverstärkers liegt nun u. U. das volle Netzpotential von 230 V gegen Erde. Über den unsymmetrischen Klinkenanschluss der Gitarre gelangt dieses Potential auf den Leitungsschirm und damit auf den Tonabnehmer und das Griffbrett der Gitarre, aber auch auf die Stahlsaiten. Berührt der Musiker nun gleichzeitig eine geerdete Masse oder sind Metallteile des Bühnenbodens an Erdpotential gelegt, kann es zu gefährlichen, oft tödlich endenden Stromunfällen kommen. Bedauerlicherweise ist der genannte Fall nicht konstruiert. Dass es in solchen Situationen nicht grundsätzlich zu Unfällen kommt, liegt daran, dass das benutzte Mikrofon nicht immer geerdet ist und der Bühnenboden oder das Holzpodest keine Verbindung zur Erde besitzt. Dies kann sich aber leicht ändern, wenn z. B. über ein geerdetes Scheinwerferstativ metallische Bühnenteile auf Erdpotential gelegt werden. Um in dem skizzierten Beispiel und ähnlichen Situationen eine Gefahr auszuschließen, muss ein geschlossener Stromkreis von 230 V auf Erdpotential unterbrochen werden. Dies ist durch die Schutztrennung mit einem Netz-Trenntransformator, in dem Beispiel also zwischen Gitarrenverstärker und seinem Netzanschluss, zu erreichen. Zusätzliche Sicherheit bieten Trennübertrager, sog. DI-Boxen, die zwischen Mikrofon und Tonregie die Verbindung zum Erdpotential unterbrechen; sie bieten zusätzlich die Anpassung der Leitungsführung sowie des Pegels und Verzweigungsmöglichkeiten.
1223
Arbeitssicherheit und Gesundheitsschutz
19.2.7
Verhalten bei Stromunfällen
Hier kommen sowohl Hochspannungsunfälle als auch z. B. Unfälle durch schadhafte elektrische Geräte in Frage. Folgende Anzeichen lassen auf einen Stromunfall schließen: Muskelverkrampfungen: So lange der Strom wirkt, verkrampfen sich die Muskeln des Betroffenen. Er kann dadurch unter Umständen die Stromleitung nicht mehr loslassen.
Maßnahmen
Zuallererst den Stromfluss unterbrechen Bei 220/240 Volt Wechselstrom bzw. 380/400 Volt Drehstrom dazu den Stecker ziehen oder die Sicherung bzw. den Hauptschalter betätigen. Nur wenn dies nicht möglich ist, muss versucht werden, den Betroffenen mit Hilfe Strommarken: An den Stellen, an denen der Strom in den nichtleitender Gegenstände wie trockene (!) Körper eingetreten bzw. aus dem Körper Kleidungsstücke, Decken oder Holzgegenständen von der Stromquelle zu trennen. Daausgetreten ist, entstehen so genannte bei muss der Helfer – insbesondere in feuchStrommarken. ten Räumen darauf achten, dass er selbst auf Verbrennungen mit Brandwunden. einer isolierenden Unterlage steht und keine anderen Gegenstände berührt. Bewusstlosigkeit: Bei Hochspannungsunfällen kann der ErstEs kann zu Bewusstlosigkeit, Atemstillhelfer nur den Notruf veranlassen, da der stand und Herzflimmern kommen. Strom über mehrere Meter überspringen kann. Hier kann ausschließlich Fachpersonal den Betroffenen aus dem Gefahrenbereich retten. Erst danach ist weitere Hilfe möglich. Versorgung des Betroffenen: Bewusstsein kontrollieren: Die typischen Anzeichen für einen Verlust des Bewusstseins sind: Der Betroffene reagiert nicht, wenn er angesprochen wird, auch nicht bei lautem Ansprechen. Er reagiert auch nicht auf körperliche Berührung, z. B. Anfassen an der Schulter oder am Arm (den Betroffenen nicht durchschütteln!). Bei tiefer Bewusstlosigkeit sind die Muskeln völlig schlaff. Notruf: Der Notruf ist möglichst schnell durchzuführen, am besten durch einen Helfer, der nicht mit lebensrettenden Maßnahmen beschäftigt ist. Der Ersthelfer kann z. B. eine weitere Person ansprechen. Notfallopfer sollten während des Notrufs möglichst nicht allein gelassen werden. Bundesweit einheitlich sind die Notrufnummern 112 (Feuerund Rettungsleitstelle) und 110 (Polizei, gibt die Meldung an den Rettungsdienst weiter). 1224
Gesundheitsschutz Die folgenden fünf W-Fragen sind beim Notruf möglichst genau zu beantworten: Wo?
Angaben beim Notruf
Was ist geschehen?
Die Notfallsituation sollte kurz beschrieben werden (Verkehrsunfall, Brand, Stromunfall, Erkrankung), damit die Leitstelle weiß, welche Maßnahmen sie ergreifen soll.
Wie viele Betroffene?
Damit die Leitstelle genügend Fahrzeuge und Personal einsetzt.
Welche Art von Verletzungen?
Gibt es lebensbedrohliche Zustände (Herz-Kreislauf-Stillstand, Atemstillstand, Bewusstlosigkeit, starke Blutung, Verbrennung, Vergiftung, elektrischer Strom), damit gegebenenfalls z. B. Hubschrauber oder Notarzt eingesetzt werden.
Weitere Fragen?
Grundsätzlich gilt: Der Notruf ist erst dann beendet, wenn die Leitstelle keine Fragen mehr hat, nicht selbst vorher auflegen! Die Leitstelle fragt unter Umständen z. B. nach dem Namen des Anrufers.
Versorgung des Betroffenen je nach Zustand.
Ruhelage herstellen. Stabile Seitenlage, bei Bewusstlosigkeit, aber Atmung. Zweimal Atemspende, wenn keine Atmung. Herz-Lungen-Wiederbelebung, bis Atmung und Puls wieder einsetzen. Eventuelle Brandwunden versorgen.
Der Ort des Notfalls sollte möglichst genau beschrieben werden (Ort, Straße, Hausnummer, Stockwerk oder Kilometer an der Autobahn), damit die Rettungskräfte nicht lange suchen müssen.
1225
Arbeitssicherheit und Gesundheitsschutz
Standards [89/391/EWG]
Durchführung von Maßnahmen zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Arbeitnehmer bei der Arbeit.
[2002/44/EG]
Schutz der Beschäftigten vor Gefährdungen durch Lärm und Vibratoren.
[2003/10/EG]
Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen (Lärm).
[BGI 810]
Berufsgenossenschaftliche Informationen für Sicherheit und Gesundheit bei der Arbeit. Hier: Fernsehen, Hörfunk, Film, Theater, Veranstaltungen; März 2008.
[BGI 814]
Berufsgenossenschaftliche Informationen für Sicherheit und Gesundheit bei der Arbeit. Hier: Fernsehen, Hörfunk und Film, Kamerakrane; Februar 2007.
[BGI 5007]
Berufsgenossenschaftliche Informationen für Sicherheit und Gesundheit bei der Arbeit. Hier: Laser-Einrichtungen für Show- oder Projektionszwecke; Oktober 2004.
[BGV A1]
Unfallverhütungsvorschrift, Grundlagen der Prävention.
[BGV C1]
Unfallverhütungsvorschrift, Veranstaltungs- und Produktionsstätten.
[BGR A1]
BG-Regel, Grundsätze der Prävention.
[BGV A3]
Unfallverhütungsvorschrift, Elektrische Anlagen und Betriebsmittel.
[BGG 912]
Prüfung von sicherheitstechnischen und maschinentechnischen Einrichtungen in Veranstaltungs- und Produktionsstätten für szenische Darstellung.
[DIN 15750]
Technische Dienstleistungen in der Veranstaltungstechnik – Leitlinien (Entwurfsfassung).
[DIN 15905-1]
Tontechnik in Theatern und Merzweckhallen, Teil 1, Anforderungen bei Eigen-, Co- und Fremdproduktion.
[DIN 15905-2]
Tontechnik in Theatern und Merzweckhallen, Teil 2, Leitungen für tontechnische und videotechnische Nutzung – Anforderung.
[DIN 15905-3]
Tontechnik in Theatern und Merzweckhallen, Teil 3, Tonregieräume.
[DIN 15905-4]
Tontechnik in Theatern und Merzweckhallen, Teil 4, Elektrische Kenndaten für Tonregieanlagen.
[DIN 15905-5]
Tontechnik in Theatern und Merzweckhallen, Teil 5, Maßnahmen zum Vermeiden einer Gehörgefährdung des Publikums durch hohe Schallemissionen elektroakustischer Beschallungstechnik.
1226
Gesundheitsschutz [DIN 15999]
Kamerakrane – Einsatz von Kamerakranen in Veranstaltungs- und Produktionsstätten.
[DIN 56950]
Veranstaltungstechnik - Maschinentechnische Einrichtungen, Sicherheitstechnische Anforderungen und Prüfung.
[DIN EN 352-2]
Gehörschützer, Allgemeine Anforderungen.
[DIN EN 361]
Persönliche Schutzausrüstung gegen Absturz – Auffanggurte.
[DIN EN 60942]
Elektroakustik, Schallkalibratoren.
[DIN EN 61672-1]
Elektroakustik, Schallpegelmesser, Teil 1, Anforderungen.
[DIN VDE 0100]
Bestimmungen für das Errichten von Starkstromanlagen mit Nennspannungen bis 1000 V.
[DIN VDE 0100-410]
Errichten von Starkstromanlagen mit Nennspannungen bis 1000 V, Teil 4, Schutzmaßnahmen.
[DIN VDE 0100-717]
Errichten von Niederspannungsanlagen, Anforderungen für Betriebsstätten, Räume und Anlagen besonderer Art – Elektrische Anlagen auf Fahrzeugen oder in transportablen Baueinheiten.
[DIN VDE 0570]
Sicherheit von Transformatoren, Netzgeräten und dergleichen, Teil 2-4,
[DIN VDE 0711]
Leuchten –Teil 1, Allgemeine Anforderungen und Prüfungen.
[DIN VDE 0860]
Audio-, Video- und ähnliche elektronische Geräte – Sicherheitsanforderungen.
[UVR von ARD/ZDF] Sicherheit bei Produktionen und Veranstaltungen – Leitfaden. [VDE 0804, Beiblatt1] Elektrische Sicherheit, Klassifizierung der Schnittstellen für den Anschluss von Geräten an Informations- und Kommunikationsnetze. [VPLT-Standards]
Zur Veranstaltungstechnik; Herausgeber: Verband für professionelle Licht- und Tontechnik e. V.; in Zusammenarbeit mit VBG Verwaltungsberufsgenossenschaft.
Literatur [19.1]
1. Sozialgesetzbuch VII (SGB VII) vom 7. August 1996, §15.
[19.2]
Amtsblatt der Europäischen Union, LE 42/38, vom 15.02.2003; Richtlinie 2003/10/EG „Physikalische Agenzien, Lärm" des Europäischen Parlaments und des Rates vom 6.Februar 2003 über Mindestvorschriften zum Schutz von Sicherheit und Gesundheit der Arbeitnehmer vor der Gefährdung durch physikalische Einwirkungen.
[19.3]
Arbeitsschutzgesetz (ArbSchG) vom August 1996, Stand Juli 2004, § 3.
[19.4]
Unfallverhütungsvorschrift, Grundsätze der Prävention (BGV A1), Januar 2004, §2. 1227
Arbeitssicherheit und Gesundheitsschutz [19.5]
Musterversammlungsstättenverordnung (MVStättV), §38.
[19.6]
Arbeitsschutzgesetz (ArbSchG) vom August 1996, Stand Juli 2004, Pflichten der Beschäftigten, § 15
[19.7]
Schriftenreihe der Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, Ratgeber zur Ermittlung. gefährdungsbezogener Arbeitsschutzmaßnahmen im Betrieb, 2001, Sonderschrift.
[19.8]
N. Schmuziger et al, Studie des Bundesarbeitsgerichts zu „Hörschäden in der Freizeit durch elektroakustisch verstärkte Musik“, Basel 2005.
[19.9]
H. M. Strahl, 4. Europäischen Kongress für Hals-Nasen-Ohren-Heilkunde in Berlin, 13.05.2000.
[19.10] E. Hoffmann, Hochschule Aalen, Studiengang Augenoptik und Hörakustik, [19.11] Strafgesetzbuch, StGB § 226, Schwere Körperverletzung. [19.12] Strafgesetzbuch, StGB § 230, Fahrlässige Körperverletzung. [19.13] Berufsgenossenschaftliche Vorschrift B3 „Lärm“ vom 01.10.1990 mit Durchführungsanweisung vom Juli 1999. [19.14] Berufsgenossenschaftlicher Grundsatz G 20 „Lärm“, Ausgabe 2007, Handlungsanleitung für die arbeitsmedizinische Vorsorge; Deutsche Gesetzliche Unfallversicherung. [19.15] Beschluss der 78. Gesundheitsministerkonferenz der Länder vom 1.7.2005, TOP 7.1 „Maßnahmen zur Verhinderung von Gehörschäden durch Musikveranstaltungen einschließlich Diskothekenlärm". [19.16] Beschluss der 80. Gesundheitsministerkonferenz der Länder vom 5.6.2007, TOP 10.1 „Lärm und Gesundheit - Rechtliche Maßnahmen zur Verhinderung von Gehörschäden des Publikums durch elektroakustische Beschallungsanlagen“. [19.17] Gesetz über die Durchführung von Maßnahmen des Arbeitsschutzes zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Beschäftigten bei der Arbeit (Arbeitsschutzgesetz - ArbschG) vom 07.08.1996. [19.18] Berufsgenossenschaftliche Vorschrift; BGV A1, Grundsätze der Prävention und BGV C1, Veranstaltungs- und Produktionsstätten für szenische Darstellung.
1228
Fachwörter und Abkürzungen Englisch - Deutsch A A/D Analog/Digital-(Wandlung) AAC (Advanced Audio Coding) verlustbehaftetes Audiodatenkompressionsverfahren AAF (Advanced Authoring Format) proprietäres verlustbehaftetes Dateiformat zur Speicherung multimedialer Daten aberration Abweichung, Abbildungsfehler abstract Kurzfassung AC (Alternating Current) Wechselstrom AC/DC equipment Allstromgerät AC-3 (Audio Codec 3) verlustbehaftetes Bitstream-Format accentuation Anhebung access Zugriff accuracy Genauigkeit acoustic Raumklang, akustisch acoustic baffle Schallwand acoustics Akustik, Raumakustik ad, advertising Werbung adapter Anpassglied ADAT (Alesis Digital Audio Tape) optische digitale 8-Kanal-Schnittstelle für lineare Audiodaten ADC (Analog-to-Digital Converter) Analog/Digital-Wandler add-on Zusatzdaten, Hard-, Softwareerweiterung adjust einstellen, justieren adjustment Einstellung, Justierung ADPCM (Adaptive Delta Pulse Code Modulation) lineares digitales Datenreduktionsverfahren ADR (Astra Digital Radio) Digitaler Satelliten-Hörfunk über ASTRA-Satellit
ADR (Automatic Dialog Replacement) automatischer Dialogersatz bei Fremdproduktionen ADSR (Attack Decay Sustain Release) Hüllkurvengenerator ADT (Automatic Double Tracking) automatische Stimmverdopplung AES (Audio Engineering Society) internationaler Fachverband von Audioexperten AES/EBU Standard für lineare digitale Audiosignale AES10 Standard für MehrkanalAudioschnittstelle, s. a. MADI AES3 Standard zur Übertragung von 2-Kanal-Audiosignalen AES31 Standard für Dateitransfer-Format für den Austausch von digitalen Audiodaten AES42 Standard für Audioschnittstelle für Digitalmikrofone AES50 Multikanal-Audiostandard auf Cat5/6-Kabelbasis AFC (Automatic Frequency Control) automatische Frequenzsteuerung (-regelung) AFL (After Fader Listening) Abhören hinter Regler AGC (Automatic Gain Control) automatische Verstärkungssteuerung (-regelung) AIFF (Audio Interchange File Format) Datenpaketformat (Container) für lineare digitale Audiodaten AIFF-C (AIFF-Compression) Datenpaketformat (Container) für komprimierte (reduzierte) digitale Audiodaten A-Law Kompressionskennlinie des Audiocodec für Telefonie in Europa alias Fehler bei der Signalanalyse 1229
Fachwörter und Abkürzungen Englisch - Deutsch align, alignment justieren, Abgleich allocation Zuordnung alternate abwechseln AM (Amplitude Modulation) Amplitudenmodulation ambient noise Umgebungsgeräusch amp, amplifier Verstärker analyser Abtaster, Analysator ancillary data Zusatzdaten angle Winkel animation Zeichentrick, Trick ANL (Automatic Noise-Limiting) automatische Störbegrenzung annoying störend antenna, aerial Antenne AoIP (Audio over IP) Audioübertragung in (mindestens) Broadcastqualität mittels Internetprotokoll API (Application Programming Interface) Schnittstelle für Software-gesteuerte Systeme Apple Lossless verlustfreier Audiocodec, s.a. FLAC apt-X Echtzeit-Codierverfahren zur Bitratenreduktion digitaler Audiodaten archive Archiv area Bereich, Raum array Gruppenanordnung von Mikrofonen, Lautsprechern artifact Auswirkungen einer Systemschwäche auf das Nutzsignal artificial künstlich artist Darsteller, Künstler ASCII (American Standard Code for Information Interchange) Datenübertragungsstandard ASIO (Audio Stream Input/Output) Latenzzeit-optimierter AudioTreiberstandard für PC ASK (Amplitude Shift Keying) Amplitudenumtastung ASPEC (Adaptive Spectral Perceptual Entropy Coding) Audiokompression für Signale mit Bitraten von bis zu 64 kBit/s
1230
assemble montieren ATM (Asynchronous Transfer Mode) standardisierte PaketDatenübertragungstechnik ATRAC (Adaptive TRansform Acoustic Coding) proprietäres Audiodatenreduktionsverfahren attack time Anstiegszeit, Ansprechzeit attenuation Dämpfung attenuator Abschwächer, Dämpfungsglied audibility Hörbarkeit audience Zuhörerschaft, Publikum audio Tonsignal, Audio-Basisfrequenz(bereich), Niederfrequenz, NF audio editor grafisches Audiobearbeitungssystem Authoring Zwischenschritt zwischen Nachbearbeitung und Vervielfältigung einer DVD automation system Automatisierungseinheit auxiliary Eingang von Verstärkern, Hilfsweg, unterstützende Funktion AVI (Audio Video Interleave) proprietäres Containerformat zur Speicherung von Audio- und Videodaten AWS (Audio Workstation) AudioWorkstation, s. a. DAW
B backup Datensicherung baffle Schallwand, schallabsorbierende Wand balance ausgleichen, symmetrieren (Schaltung) bandpass Bandpass(-filter) bandstop Bandsperre bandwidth Bandbreite bargraph display Balkengrafikanzeige base band Signal in Originalfrequenzlage bass absorber Tiefenabsorber bass boost Bassanhebung, Tiefenanhebung bass control Tiefenregelung bass cut Tiefensperre, Trittschallfilter
Fachwörter und Abkürzungen Englisch - Deutsch batch number Chargennummer beat Takt, Interferenz, Schwebung, Überlagerung (Schwingungen) bell Glocke, Glockenkurve (Filter) benign noise nicht störendes Geräusch best of time Werbung bias current Vormagnetisierungsstrom bias frequency Vormagnetisierungsfrequenz bias setting Arbeitspunkteinstellung bidirectional in beiden Richtungen funktionierend binary binär, mit nur zwei Werten dargestellt, z. B. 0 und 1 Biphase (Mark) selbsttaktender gleichspannungsfreier Übertragungscode birdy, birdies Zwitschern, Zirpen (Tonsignalstörung/Artefakt bei digitaler Codierung) bit rate allocation Bitratenzuteilung bit stream Bitstrom, Bitfolge bit, Bit (binary digit) binäre Ziffer, z. B. 0 oder 1 Blu-ray disc optisches Speichermedium mit Blaulicht-Laser BNC (Bayonet Neill Concelman) Steckverbinder (nach seinem Erfinder benannt) bobbin Bobby, Bandkern book (red, orange, scarlet) nicht-öffentliche Standards zu optischen Speichermedien boom (Mikrofon-)Galgen boom arm Tonangel boost anheben, Anhebung boot hochfahren boundary layer microphone Grenzflächenmikrofon bpi (bits per inch) Aufzeichnungsdichte bpm (beats per minute) Schlagzahl, auch in der Musik (Popmusik) bps (bits per second) Bits pro Sekunde (Bit/s) BR (Bass Ratio) Maß für den Frequenzgang der Nachhallzeit
branching amplifier Verzweigungsverstärker, Gabelverstärker break down Ausfall, Panne, Störung bridging amplifier Knotenpunktverstärker broadband breitbandig broadcast senden, ausstrahlen, übertragen (Rundfunk) broadcast satellit Rundfunksatellit broadcast station Rundfunkanstalt broadcasting house Funkhaus, Rundfunkhaus broadcasting station operating under public law Öffentlich-rechtliche Rundfunkanstalt browse quality Vorschau- (Vorhör)qualität bubble Element in magneto-optischen Datenspeichern buffer Puffer, Zwischenspeicher buffer amplifier Trennverstärker bulk eraser Bandlöschgerät burst error Bündelfehler bush Buchse button Taste BWF (Broadcast Wave Format) rundfunkspezifisches Dateiformat zum Austausch von Audiodaten bypass Umleitung, Nebenschluss, Überbrückung byte, Byte Gruppierung von 8 Bit
C cabinet Gehäuse (z. B. Lautsprecher) cable Kabel, Leitung cache Zwischenspeicher CAD (Computer Aided Design) computergestütztes Konstruieren calibration Eichung, Abgleich camcorder Kamera-Rekorder cancelled gestrichen cans (umgangsspr.) Kopfhörer capacity Leistungsfähigkeit capstan Bandantriebsrolle 1231
Fachwörter und Abkürzungen Englisch - Deutsch caption Einblendtitel capture einfangen car radio Autoradio cardioid characteristic Nierencharakteristik carrier Träger (HF) carrier frequency Trägerfrequenz carrier suspension Trägerunterdrückung cartridge Magazin, Kassette CAV (Constant Angular Velocity) Aufzeichnung mit konstanter Drehzahl der Datenträgers CC (Compact Cassette) analoge KompaktKassette CD (Compact Disc) Speichermedium CD-DA (CD-Digital Audio) CD mit linearen Audiodaten CD-horn (Constant Directivity) horngetriebener Lautsprecher mit konstanter Bündelung CD-R (CD-Recordable) einmal beschreibbare CD CD-ROM (CD-Read Only Memory) Daten-CD (Speicherung von Fotos, MP3Dateien etc.) CD-RW (CD-ReWritable) mehrfach wiederbeschreibbare CD centre frequency Mittenfrequenz CF (Compact Flash) Typ eines Festkörperspeichers change Übergang, Wechsel change switch Umschalter, Wechselschalter, Pannenschalter (z. B. für zweiten Sendeweg) channel characteristic Kanalkennlinie channel condition Fehlergrad eines digitalen Wiedergabekanals chart Diagramm charts Hitparade chase lock Synchronisierung verschiedener Informationsträger oder Geräte check prüfen, nachprüfen chord Akkord chorus Stimmvervielfachung, Chor chunk Datenblock 1232
Circle Surround proprietäres SurroundCodierverfahren circuit Schaltungsaufbau circuit breaker elektrische Sicherung circuitry Schaltung clapp stick Klappe (Film) clapper Synchronklappe clarity Deutlichkeit class-D amplifier Leistungsverstärker mit Schaltendstufe clear löschen, auf Null setzen cleardown Verbindungsabbau click Knack click track Tempospur client Nutzer, dienstanforderndes Gerät client server structure Client/ Serverarchitektur clipping Amplitudenbegrenzung (Abschneiden) clock Zeitgeber clock frequency, clock rate Taktfrequenz clock track Taktspur clockwise im Uhrzeigersinn close up Nahaufnahme CLV (Constant Linear Velocity) Aufzeichnung mit konstanter Lineargeschwindigkeit z. B. bei CD coaxial konzentrisch code codieren, verschlüsseln, Verschlüsselung codec System aus Encoder und Decoder coder Codiergerät coding codieren, Codierung coil spulen, Spule coincident gleichzeitig coincident-microphone Intensitätsstereomikrofon combfilter Kammfilter commercial kommerzielle Sendung, Werbespot companding Kompandierung
Fachwörter und Abkürzungen Englisch - Deutsch compatibility meter Korrelationsgradmesser condenser microphone Kondensatormikrofon connector Stecker console (Misch-)Pult consumption Verbrauch container format Datenpaketformat content Inhalt control regeln, regulieren, steuern control unit Steuereinheit, Steuergerät control voltage Steuerspannung controller Eingabegerät, Bediengerät converter Umsetzer convolution Faltung copying kopieren cord Kabel, Schnur core Bobby, Filmkern correlation coefficient Korrelationsgrad cough key Räuspertaste count-down Startvorlaufzeit counter Zähler coupling bits Übergangsbits zwischen Codeworten CPU (Central Processing Unit) Zentraleinheit eines Rechners CRC (Cyclic Redundancy Check) Vefahren zur Datensicherung crossfade Überblendung crosstalk Übersprechen crosstalk attenuation Übersprechdämpfung cue Zeichen, Markierung cueing Aufnahme mit fliegendem Start, Anschluss current Strom cut schneiden, montieren cutoff-frequency Übergangsfrequenz CV (Control Voltage) Steuerspannung
D D/A Digital/Analog-(Wandlung) DAB (Digital Audio Broadcasting) digitales Hörfunksystem DAC (Digital-to-Analog Converter) Digital/Analog-Wandler daisy chain in Serie miteinander verbundene Hardwarekomponenten damping Dämpfung DASH (Digital Audio with Stationary Head) digitale MagnetbandLängsaufzeichnung DAT (Digital Audio Tape) proprietäres Stereo-Aufzeichnungsverfahren auf Magnetband über Magnetköpfe an einer rotierenden Kopftrommel data Daten data stream Datenstrom data transfer Datenaustausch database Datenbank datastructure Datenbankstruktur DAW (Digital Audio Workstation) Computersystem zur Bearbeitung digitaler Audiosignale DC (Direct Current) Gleichstrom DCA (Digitally Controlled Amplifier) digital gesteuerter Verstärker DCC (Digital Compact Cassette) Digitale Kompakt-Kassette DC-offset Gleichspannungsüberlagerung DDL (Digital Delay Line) digitales Verzögerungsgerät DDPi (Disc Description Protocol / image) Mastering-Format der Tonträgerindustrie DDS (Digital Data Storage) DAT-Kassette zur Datensicherung dead room reflexionsarmer Raum debugging Entstörung, Fehlerbeseitigung decay Abklingen decimation Kürzung eines Datenwortes durch Rundung declicking (descratching) Entfernen von Knackstörungen (bei analogen Schallplatten) 1233
Fachwörter und Abkürzungen Englisch - Deutsch declipping Glättung von Übersteuerungseffekten decoder Decoder, Entschlüsselungsmatrix decrackling Ausfilterung von Knisterstörungen decrease abnehmen, Abnahme, Verminderung DECT (Digital European Cordless Telecommunication) europäischer Standard für Schnurlostelefonie defect, defective Fehler, fehlerhaft deferred zeitversetzt degradation Beeinträchtigung, Güteabfall degree Stufe, Grad dehumming Beseitigung von Brummstörungen delay verzögern, Verzögerung, Laufzeit delay line Verzögerungsleitung, Verzögerungsgerät delete löschen demand Forderung density Dichte descrambler Entstörgerät description Beschreibung design konstruieren, Entwurf detach auseinander nehmen develop entwickeln deviate ableiten, abweichen deviation Hub, Abweichung device Baustein, Gerät, Apparat DFT (Discrete Fourier Transformation) Fouriertransformation eines zeitdiskreten periodischen Signals DIAC (Diode AC-Switch) DiodenWechselstromschalter dial Skala dialog key Dialogtaste DIB (Direct Injection Box) Adapter für elektronische Musikinstrumente diffuse zerstreuen digit Ziffer, Zahlenstelle, Codeelement, z. B. binär 0 und 1 digital display Ziffernanzeige 1234
Digital Radio Markenname für DAB directivity Richtwirkung directivity factor Bündelungsgrad directivity index Bündelungsmaß directory Adressbuch, Verzeichnis disable sperren disc, disk Schallplatte, Scheibe discharge Entladung disconnect abschalten, abtrennen disengage entkuppeln dish Schüssel (Antenne) dismantle, dismantling auseinander nehmen, Abbau displace verschieben display Anzeige display unit Sichtgerät distance Entfernung, Abstand distortion Verzerrung, Klirren distribution Verteilung disturbance, disturbed Störung, gestört dithering Hinzufügen eines Zufallssignals bei der A/D-Wandlung DJ (Disc Jockey) broadcast SelbstfahrerSendung DLT (Digital Linear Tape) DatenbandStandard mit Längsaufzeichnung DMA (Direct Memory Access) direkter Speicherzugriff DMB (Digital Multimedia Broadcasting) digitaler Multimedia-Rundfunk dongle Kopierschutzstecker down link Abwärtsstrecke (Satellit) download herunterladen downmix Mischverfahren von Mehrkanalton zurück zu z. B. Stereo DPCM (Differential Pulse Code Modulation) verlustlose Datenreduktion draft Konzept, Entwurf drama Schauspiel, Hörspiel DRC (Dynamic Range Control) automatische Dynamiksteuerung drive steuern
Fachwörter und Abkürzungen Englisch - Deutsch driver Treiberstufe DRM (Digital Radio Mondial) Hörfunkverbreitung mittels digitaler Mittel-, Lang- oder Kurzwelle drop absetzen, abfallen drop format Pseudo-Videoformat auf Basis von NTSC drop-out Aussetzer drum Trommel DSD (Direct Stream Digital) Methode der hochauflösenden Speicherung, z. B. für SACD DSL (Digital Subscriber Line) auf Telefonleitungen transportierter Datendienst DSP (Digital Signal Processor) Prozessor zur digitalen Signalverarbeitung DST (Direct Stream Transfer) verlustfreies proprietäres Datenreduktionsverfahren für SACD DTRS (Digital Tape Recording System) proprietärer Aufzeichnungstandard auf Hi8-Kassetten dubbing Synchronisierung, Kopie, Abmischung dummy head Kunstkopf duration Dauer, Laufzeit DVB (Digital Video Broadcasting) europ. Standard für digitales Fernsehen DVB-S(-Radio) (Digital Video Broadcasting via Satellite) Digitaler Satellitenrundfunk, -hörfunk DVD (Digital Versatile Disc) optisches Speichermedium mit hoher Kapazität DVD Audio Speichermedium für Ton mit hoher Qualität und Standbilder DVD Video Speichermedium für Bewegtbilder und Ton mit datenreduzierter Qualität DVI (Digital Visual Interface) Schnittstelle zur Übertragung von Videodaten DVTR (Digital Video Tape Reorder) digitaler Videorecorder dye Farbstoff als Informationsträger bei optischen Medien dynamic range Dynamikumfang
dynamic recall dynamische Automatisierung, z. B. Mischpultautomation
E ear protection Gehörschutz earphone Ohrhörer earphones Kopfhörer earth, earthing Erdung EBU (European Broadcasting Union) Europäische Rundfunkunion ECC (Error Correction Code) Hilfscode zur Korrektur von Bitfehlern echo Echo, Nachhall echo chamber Nachhallraum echo return Hallrückführung ECT (Electronic Clapper Board) elektronische Synchronklappe EDC (Error Detection Code) Hilfscode zur Erkennung von Datenfehlern edit schneiden, montieren, bearbeiten, edit cue Schnittmarke editing Schnittbearbeitung EDL (Edit-Decision List) Schnittliste EDT (Early Decay Time) Anfangsnachhallzeit EEPROM (Electrically Erasable PROM) elektrisch löschbarer und neu programmierbarer Nur-Lese-Speicher effect Effekt, Trick (Bild, Ton) effects Geräusche efficiency Leistungsverfahren EFM (Eight to Fourteen Modulation) 8 / 14 Bit Datenwort-Umwandlung bei der CD-Kanalcodierung eigentone Resonanz aufgrund stehender Wellen elapsed time Ablaufzeit electric circuit Stromkreis element Bauteil ELV (Extra Low Voltage) Schutz durch Kleinspannung embedded audio Im Videosignal eingebettetes audiosignal 1235
Fachwörter und Abkürzungen Englisch - Deutsch emission Ausstrahlung empty reel Leerspule encode verschlüsseln encoder Encoder, Verschlüsselungsmatrix encoding codieren, Codierung encore Zugabe energy Kraft engineer Ingenieur enhance verbessern enhancer Verzerrer bei hohen Frequenzen enlarge vergrößern entertain unterhalten entrance Zugang entry level Eintrittsebene envelope Hüllkurve envelope delay Gruppenlaufzeit envelope generator Hüllkurvengenerator EPG (Electronic Program Guide) elektronischer Programmführer (DVB) EPROM (Erasable Programmable Read Only Memory) UV-löschbarer und neu programmierbarer Nur-Lese-Speicher epsilon Versatzwinkel eines Koinzidenzmikrofons EQ (Equalizer) Entzerrer equalise ausgleichen equaliser Entzerrer equipment Ausrüstung erase frequency Löschfrequenz erasure Auslöschung error Fehler error code Fehlererkennungscode error concealment Fehlerverdeckung error correction Fehlerkorrektur ES (Elementary Stream) Ausgangsdatenstrom eines MPEG-Audio- oder Videoencoders essence Essenz, wesentlichster Teil ETB (End of Transmission Bloc) Ende eines Datenübertragungsblocks
1236
ETSI (European Telecommunication Standards Institute) Europäisches Normeninstitut für Telekommunikation evaluate auswerten, bewerten event Veranstaltung Exabyte 8 mm-Datenband-Kassette excerpt Ausschnitt exchange austauschen exit Ausgang expand, extend ausbauen, ausweiten experience Erfahrung (Praxis) expert Fachmann eye pattern Augendiagramm
F fade out Ausblende fader Pegelsteller, Regler failure Ausfall, Fehler fake Fälschung fan Gebläse FAQ (Frequently Asked Questions) häufig gestellte Fragen fault Fehler, Störung feature herausstellen, Hörbild, Magazinbeitrag feed versorgen, Zuführung feedback Rückkopplung feedback suppressor Rückkopplungsunterdrücker female connector Steckbuchse FET (Field-Effect Transistor) Feld-EffektTransistor FFT (Fast Fourier Transform) schnelle Fourier-Transformation fibre-optics Lichtwellenleiter figure of eight Achtercharakteristik (Mikrofon) file Datei file backup Dateisicherung file extension Dateierweiterung file format Dateiformat file header Dateikopf
Fachwörter und Abkürzungen Englisch - Deutsch file management system Dateiverwaltungssystem file system Dateisystem file transfer Dateiübertragung filter Filter filter edge Filterflanke filter pass-band Durchlassbreite final amplifier Endverstärker final decay Ausklingen FIR filter (Finite Impulse Response filter) Filter mit endlicher Impulsantwort firewall Schutzfilter (IT) FireWire standardisierte serielle PCSchnittstelle fittings Zubehör fixed feststehend FLAC (Free Lossless Audio Codec) lizenzfreier, verlustfreier Audiocodec flash memory Schnellspeicher flash over voltage Überschlagspannung flat antenna Flachantenne flat screen Flachbildschirm floating erdfrei floating point format Fließkommadarstellung FLOPS (Floating point Operations Per Second) Fließkommaberechnungen je Sekunde flutter schnelle Tonhöhenschwankung FM (Frequency Modulation) FrequenzModulation foldback Kopfhörereinspielung, Mithörkontrolle foley artist Geräuschemacher format error Formatfehler four-track-recording Vierspuraufzeichnung FPGA (Field Programmable Gate Array) programmierbare Logikschaltung fps (frames per second) Bilder pro Sekunde frame Rahmen, Datenübertragungsrahmen free-field Freifeld freelancer freier Mitarbeiter
freeze einfrieren, speichern frequency Frequenz frequency response AmplitudenFrequenzgang front credits Namensvorspann frozen picture Standbild FSK (Frequency Shift Keying) Frequenzumtastung FTP (File Transfer Protocol) standardisiertes Protokoll zur Datenübertragung fundamental Grundton, Grundwelle fuse durchbrennen, Sicherung
G gain Verstärkung, Verstärkungsgrad gain control Verstärkungsregelung gap Lücke, Leerstelle, Kopfspalt (Magnetton) gate Tor, Gatter, Torimpuls gateway Netzübergang gating Auftastung, Austastung GCR (Group Code Recording) Gruppencode bei Plattenspeichern mit hoher Speicherdichte generate erzeugen glass fibre Glasfiber, Glasfaser gobo hier: akustische Trennwand goose neck Schwanenhals gradation Abstufung gradient microphone Druckgradientenmikrofon gramophone turntable Schallplattenteller granular distortion digitale Signalverzerrung graphic Grafik groove Rille, Nut, musik. Rhythmusfigur, Emotion ground Masse, Erde group delay Gruppenlaufzeit group fader Summenpegelsteller, Summenregler 1237
Fachwörter und Abkürzungen Englisch - Deutsch GUI (Graphical User Interface) graphische Benutzeroberfläche (PC) GXF (General eXchange Format) DateiAustauschformat
H hall Halle, Saal Hamming distance Anzahl unterschiedlicher Bitstellen zwischen Codeworten handboom Mikrofonangel handling Handhabung handover level Übergabepegel handset Handapparat hands-on praxisbezogen hard disc, hard disc memory Festplatte, Festplattenspeicher (PC) hardware controller Gerät zum Steuern von Vorgängen harmonic Harmonische, Oberschwingung, Teilschwingung harmonic distortion Klirrfaktor harmonic ratio Klirrdämpfung harmonizer Harmonizer HD (High Definition) hohe Auflösung HDD (Hard Disc Drive) Festplattenlaufwerk HDM (High Density Modulation) Codierung bei der Magnetbandaufzeichnung HDMI (High Definition Multimedia Interface) Standard zur Übertragung von Audio- und Videodaten zum Monitor HDTV (High Definition TeleVision) hochauflösendes Fernsehen head end Kopfstelle head gap Kopfspalt head wheel Kopftrommel headcrash fataler Fehler bei Magnetplattenspeichern header Kopf eines Datenpakets, Vorspann header file Headerdatei headphone Kopfhörer
1238
headroom Aussteuerungsreserve headset Kopfhörsprechgarnitur hearing Gehör hearing loss Gehörschädigung, Hörverlust height Höhe helical recording Schrägspuraufzeichnung helix Schnecke (Gehör) heterodyne Überlagerung HF (High-Frequency) Hochfrequenz Hi8 (High 8) Aufzeichnungsstandard auf 8 mm - Kassettenband hidden file versteckte Datei hidden reference versteckte (anonyme) Bezugsfassung beim Hörtest hi-fi (high fidelity) hohe Klangwiedergabetreue high frequency loudspeaker Hochtonlautsprecher high pass Hochpass highly directional microphone Richtmikrofon horizontal pattern Horizontaldiagramm horn radiator Hornstrahler hornless loudspeaker Konuslautsprecher hot swap Gerätewechsel bei laufendem Betrieb hot zone Zeitfenster um dem Sendezeitpunkt housing Gehäuse howl-round Rückkopplung HP (High-Pass) Hochpass HRMAI (High Resolution Multichannel Audio Interconnection) MultikanalTonsystem auf Ethernet-Basis (AES50) HSM (Hierarchical Storage Management) hierarchische Speicherverwaltung HTTP (HyperText Transfer Protocol) Client-Server-Protokoll für den Zugriff auf Informationen aus Datennetzen hub Spulenkern, Sternverteiler (Netzwerke) hum, humming noise Brummen, Summen hybrid amplifier Gabelverstärker
Fachwörter und Abkürzungen Englisch - Deutsch
I I/O-Port Eingangs-/Ausgangsschnittstelle IBOC (In-Band On Channel) Übertragung von analogen und digitalen Signalen im gleichen Kanal IC (Integrated Circuit) integrierter Schaltkreis ID (IDentifier) Identifikationsmerkmal ident, identification Kennung IEC (International Electrotechnical Commission) internationale Interessenvereinigung der elektrotechnischen Industrie IIR filter (Infinite Impulse Response filter) Filter mit durch Rückkopplung erzeugter Impulsantwort image identische Abbildung der Struktur eines Datenträgers impact sound Trittschall impedance Scheinwiderstand, Impedanz improve verbessern impulse length Impulsdauer in ear monitoring drahtlose Beschallung mit Ohrhörern inaccuracy Ungenauigkeit inaudible unhörbar inch Zoll (Maß) incorrect fehlerhaft increase Anstieg incremental backup schrittweises Speichern von Daten auf Blockebene indicate anzeigen indicator Anzeigegerät inductance Induktivität information bit Informationsbit infrasound Infraschall ingoing edit Schnitteinstieg in-head-localisation Im-KopfLokalisation, IKL inherent distortion Eigenverzerrung initial reverberation time Anfangsnachhallzeit initial transient Einschwingvorgang
inject einspielen, zuspielen inlay Eintastung, Überblendung input Eingang, Eingangssignal input selector (switch) Eingangswahlschalter input transformer Eingangsübertrager insert einfügen, einschieben, einschleifen, Einschleifpunkt insertion point Einschleifpunkt instantaneous value Augenblickswert insulation Isolierung intelligibility Verständlichkeit intensity Intensität intercarrier Differenzträger als Folge einer nichtlinearen Übertragungskennlinie intercom Sprechanlage, Kommandoanlage interconnect zusammenschalten interface Software- oder HardwareSchnittstelle interfere stören interference Interferenz, Störung interlaced frame Zwischenzeilenbild interleaving Verschachtelung von Datenobjekten intermediate amplifier Zwischenverstärker intermediate quality Qualität auf mittlerem Niveau intermission Pause (Theater) internal geräteintern international circuit internationale Leitung interpreter Übersetzer, Übersetzungsprogramm interrogate abfragen interrupt unterbrechen intersection Kreuzung introduce einführen inverter Wechselrichter IP (Internet Protocol) InternetÜbertragungsprotokoll irradiate überstrahlen
1239
Fachwörter und Abkürzungen Englisch - Deutsch irrelevance reduction Irrelevanzreduktion (Datenkompressionsverfahren) ISDN (Integrated Services Digital Network) Dienste-integrierendes digitales Telekommunikationsnetz ISO (International Organisation for Standardization) internationale Standardisierungsorganisation isochron Signal mit konstanter Periodendauer bzw. gleichem Bitabstand isolated potenzialfrei isolation Entkopplung IT (International Tone) internat. RundfunkTonsignal ohne Kommentatoranteil ITU (International Telecommunications Union) Internationale Fernmeldeunion, Standardisierungsorganisation
J jack Buchse, Klinke jammed gestört jingle Kennung, Ton (musikalisch) jitter zittern, Phasenschwankungen bei der digitalen Abtastung jog-shuttle mechanischer Suchlaufbetrieb (Band) joint-stereo coding Codierung eines digitalen Stereosignals joy stick Eingabegerät in Form eines Steuerknüppels just-in-time zeitgenau, zum richtigen Zeitpunkt
K key Taste key input Triggereingang keyboard Tastatur, Manual knob Knopf, Drehknopf know-how Erfahrung, Können knowledge Wissen
L label Etikett, Marke, Kennzeichnung 1240
LAN (Local Area Network) lokales Netzwerk zur Datenübertragung land Referenzwert in optischen Datenspuren lanyard microphone, lapel microphone Lavaliermikrofon lapel microphone Ansteckmikrofon latency Reaktionszeit eines Systems layer Schicht, Ebene, Stufe layout Aufbau, Schaltplan lead Vorlauf (VU-Meter) leader Vorlauf-, Startband LEDE (Live End Dead End) Begriff aus der Studio-Raumakustik level Pegel level control Aussteuerung level meter Pegelmesser LFE (Low Frequency Effect) tieffrequenter Effektkanal in der Mehrkanaltechnik limit cycles periodisches Nachschwingen bei digitalen Rechenprozessen limiter Begrenzer, Regelverstärker line Leitung, Strecke line (-input, -output) Leitung(seingang, -ausgang) line-matching transformer Impedanzwandler, Anpassungsübertrager linear distortion lineare Verzerrung link verbinden, Verbindung lip microphone Nahbesprechungsmikrofon listen abhören listener Zuhörer live direkt live room halliger Raum live transmission Direktsendung liveness Halligkeit load, loading laden, Belastung, Last localistion curve Abbildungskurve für Phantomschallquellen lock, locking einrasten, feststellen, Verriegelung lockable einrastend, synchronisierbar
Fachwörter und Abkürzungen Englisch - Deutsch Logic 7 proprietäres SurroundsoundVerfahren login einloggen, Anmeldung loop Schleife loss Verlust, Abnahme lossless verlustfrei lossy verlustbehaftet loudness Lautheit, Laustärke loudness level Lautstärkepegel loudspeaker Lautsprecher low voltage Niederspannung low-frequency Niederfrequenz low-noise geräuscharm LP (Low-Pass) Tiefpass LPAC (Lossless Predictive Audio Compression) verlustfreie Audiocodierung LPCM (Linear PCM) Puls-CodeModulation mit linearer Quantisierung LSB (Least Significant Bit) niedrigstwertige Stelle eines Codeworts LTC (Longitudinal Time Code) Zeitcode in Längsaufzeichnung LTO (Linear Tape Open) Standard für Datenaufzeichnung auf Magnetband
M MADI (Multi-channel Audio Digital Interface) Multikanal-Schnittstelle für lineare digitale Audiosignale magnetic tape Magnetband main Hauptmain memory Arbeitsspeicher main stereo pair Hauptstereomikrofon mains Starkstromnetz, Hauptleitung mains supply Netzversorgung mains switch Netzschalter mains voltage Netzspannung maintenance Wartung male connector Stecker, Stiftstecker malign noise Geräusch mit unangenehmem Klang
Manchester Code selbsttaktender gleichspannungfreier Code manual von Hand (einstellbar), Handbuch mapping Abbildung marker Markierung master Original, steuerndes Gerät master control room Hauptschaltraum master copy Mutterband mastertape Originalband matching Anpassung MC (Music Cassette) analoge Audiokassette MD (Mini Disc) Scheibe zur magnetooptischen Speicherung von datenreduzierten Audiosignalen ME (Metal Evaporated) tape Magnetband mit Metallbedampfung measurement Maß, Messung, Messwert member Mitglied memory Speicher memory access Speicherzugriff merging bits Ausgleichsbits zwischen Codeworten message Mitteilung metadata Metadaten, begleitende Daten mit Informationen zur Essence meter Messinstrument, Aussteuerungsinstrument metering Funktionen zur Anzeige der Signaleigenschaften MFM (Modified Frequency Modulation) nicht gleichspannungsfreie Codierung bei Festplattenspeichern mic, microphone Mikrofon MicroDrive proprietäres MiniaturFestplattenlaufwerk MIDI (Musical Instruments Digital Interface) digitale Schnittstelle für die Übertragung von Steuerdaten zwischen elektronischen Musikinstrumenten mid-range loudspeaker Mitteltonlautsprecher mirroring Spiegelung eines Seitenbandspektrums
1241
Fachwörter und Abkürzungen Englisch - Deutsch mismatch Fehlanpassung mistake Fehler mix, mixing Mischung, Abmischung mixdown Abmischung mixer Mischpult, Toningenieur mixing amplifier Mischverstärker mixing console (US-English) Mischpult mixing desk (British English) Mischpult mobile beweglich MOD (Magnet-Optical Disc) wiederbeschreibbares, optisches Speichermedium mode Betriebsart mode selector Betriebsartenschalter module Modul, Funktionseinheit monitor abhören, überwachen, Abhörlautsprecher, Bildschirmgerät monitor unit Abhöreinheit, Überwachungseinheit monitoring Überwachung, Abhörkontrolle monitoring loudspeaker Kontrolllautsprecher Monkey’s Audio proprietärer verlustloser Audiocodec MOT (Multimedia Object Transfer) DABÜbertragungsprotokoll für Multimedia motion Bewegung moving-coil microphone Tauchspulenmikrofon MP (Metal Particle) tape MetallpulverMagnetband MPEG (Moving Picture Experts Group) Expertengruppe für die Entwicklung von Standards zur Video- und AudioDatenreduktion MPX (MultiPleX) Verfahren zur Darstellung mehrerer physikalischer oder logischer Kanäle auf einem einzigen Übertragungsmedium oder Kanal MSB (Most Significant Bit) höchstwertige Stelle eines Codeworts multicast Mehrfachübertragung multi-channel Mehrkanalmultimeter Mehrfachmessgerät multiplay mehrfaches Playback 1242
multi-track Mehrspurmulti-track tape recorder Mehrspurbandmaschine mush area Frequenzauslöschung music recording Musikaufnahme MUSICAM (Masking-pattern adapted Universal Subband Integrated Coding And Multiplexing) digitales Codierverfahren für Tonsignale mute stumm, Tonabschaltung, -unterdrückung muting Stummschaltung MXF (Material eXchange Format) offenes Austauschformat für digitale Dateninhalte (Audio, Video, Metadaten etc.)
N NA (Numerical Aperture) wellenlängenabhängiges Auflösungsvermögen bei optischen Speichersystemen narrow band Schmalband natural frequency Eigenfrequenz near field Nahfeld nearfield monitoring Nahfeldbeschallung nearfill (loudspeaker) Lautsprecher zur Nahfeldbeschallung network Netz, Leitungsnetz news, newscast Nachrichten newsroom Nachrichtenredaktion NICAM (Near Instantaneously Companded Audio Multiplex) proprietäres Codierverfahren für Audiosignale NMR (Noise-to-Mask Ratio) Verhältnis von Störgeräusch zu Maskierungsschwelle node point Knotenpunkt noise Geräusch noise gate Schwellwertverstärker, Rauschsperre noise generator Rauschgenerator noise print charakteristische Eigenschaften eines Störgeräusches noise reduction system Rauschverminderungssystem
Fachwörter und Abkürzungen Englisch - Deutsch noise shaping Verfahren zur Verlagerung des Quantisierungsrauschens in nicht wahrnehmbare Frequenzbereiche noise voltage (weighted) Störspannung (bewertet) noiseless geräuschlos noisy verrauscht non-drop format Pseudo-Videoformat auf Basis von NTSC notch filter Lochfilter, Fallenfilter note Ton, Note (Musik) NRZ (Non Return to Zero / I / L / M) Varianten eines elementaren BitZuweisungscodes NTSC (National Television System Committee) Fernsehnormenausschuss (USA) nuisance Lärmbelästigung null drift Nullpunktverschiebung null point, nulling point Nullpunkt, Erdung
O OB (Outside Broadcast), OB-van Außenaufnahme, Übertragungswagen object time Programmlaufzeit ODBC (Open DataBase Connectivity) Schnittstelle zu Datenbanksystemen odd-order harmonic distortion ungeradzahliger Klirrfaktor OEM (Original Equipment Manufacturer) Hersteller, der ein Produkt einkauft, dieses modifiziert und weiter verkauft (IT) off aus, ausgeschaltet offline vom (Daten-)Netz getrennt OMF (Open Media Format) plattformunabhängiges Dateiformat zum Austausch von digitalen Medien omnidirectional ungerichtet (Kugelcharakteristik) on an, eingeschaltet on-air auf Sendung online aktive Verbindung eines Objekts mit einem elektrisch oder elektronisch betriebenen Netzwerk
on-the-fly umgangsspr. für paralleles Markieren/Schneiden im Livebetrieb operate betätigen, betreiben, schalten operation status Betriebsart operational earth Betriebserde operator Techniker, Bediener optimise optimieren option key Optionstaste oscillator Oszillator, Generator out of service Außerbetriebnahme output Ausgang output amplifier Endverstärker, Ausgangsverstärker overdrive übersteuern overdubb Nachsynchronisierung, Playback overload Übersteuerung oversampling Überabtastung
P PA (Public Address) Beschallung, Saalbeschallung PAD (Program Associated Data) programmbezogene Zusatzdaten PAM (Pulse Amplitude Modulation) Pulsamplitudenmodulation panel Wand, Platte parallel connection Parallelschaltung parity bit Quersummenbit parity check Paritätsprüfung durch Quersummenbildung partition logisches Laufwerk (IT) PASC (Precision Adapting Subband Coding) verlustbehaftetes Codierverfahren für digitale KompaktKassetten pass band Durchlassbereich password Kennwort, Passwort paste einfügen patch bay Steckfeld patch cable Rangierkabel patch row Steckreihe patching panel, patch field Steckfeld 1243
Fachwörter und Abkürzungen Englisch - Deutsch pattern Richtcharakteristik pattern recognition Mustererkennung pause key Pausetaste payload Nutzlast PCB (Printed Circuit Board) Printplatte PCM (Pulse Code Modulation) Puls-CodeModulation PDM (Pulse Duration Modulation) Pulsdauermodulation PE (Protection Earth) Sicherheitserde peak Spitzenwert, Maximalwert peak limiting Spitzenbegrenzung peak meter Spitzenwertmesser peak value Spitzenwert PEAQ (Perceptual Evaluation of Audio Quality) objektives Messverfahren zur Qualitätsermittlung bitratenreduzierter Audiosignale P-ELV (Protective Extra Low Voltage) Schutz durch Kleinspannung PEN (Protection-Earth Neutral) neutraler Schutzleiter perception Wahrnehmung perceptual coding wahrnehmungsbasiertes Codierverfahren zur Bitratenreduktion performance Betriebszustand, Aufführung period Periode permanent circuit Dauerleitung PFL (Pre Fader Listening) Vorhören vor Regler phantom powering Phantomspeisung phantom source shift Auslenkung der Phantomschallquelle phantom supply Versorgung für Phantomspeisung phase meter Phasenmesser, Korrelationsgradmesser phaseshift Phasenverschiebung phasing Phasenschwankungen eines Audiosignals phone screening Verbindungsbegleitdaten bei Telefongesprächen phones Kopfhörer pick up Tonabnehmer 1244
pick-up head Abtastkopf, Hörkopf, Tondose (Plattenspieler) pink noise Rosa Rauschen pit Vertiefung einer optischen Speicherschicht pitch Tonhöhe pitch changer, transposer Tonhöhenversatzgerät pitch shifting, pitch shift Frequenz- oder Tonhöhenverschiebung pitch variation Tonhöhenschwankung plate Platte, Hallplatte plattern Aufzeichnungsfläche in Festplattenlaufwerken play, playback abspielen, Wiedergabe playout center Sendezentrum plug Stecker plug-in steckbar, einfügbarer SoftwareBaustein PM (Phase Modulation) Phasenmodulation PMT (Program Map Table) Tabelle mit Hinweis auf die im Multiplex enthaltenen Programme (DVB) podcast(ing) verbreiten von Mediendateien (Audio, Video) als Download über Internet polar diagram Richtcharakteristik portable receiver tragbarer Empfänger, Kofferradio post production Nachbearbeitung power cable Stromkabel power connection Stromanschluss power consumption Stromaufnahme, Leistungsaufnahme power on/off Netz ein/aus power plug Netzstecker, Kraftstromstecker power supply Netzgerät, Netzteil power transformer Netztransformator powering Speisung PPL (Phase-Locked Loop) Phasenregelschleife ppm (parts per million) 106, Millionstel PPM (Peak Programme Meter) Spitzenwertmesser, Aussteuerungsmesser
Fachwörter und Abkürzungen Englisch - Deutsch pre-amplifier Vorverstärker precedence effect Prezedenzeffekt, früher auch Haas-Effekt genannt (Psychoakustik) pre-delay Zeitspanne zwischen Schallereignis und einsetzendem Nachhall pre-mixing Vormischung pre-production Vorproduktion presence filter Präsenzfilter pressure (Schall-)Druck pressure microphone Druckmikrofon print through ratio Kopierdämpfung process bearbeiten, verarbeiten, Verfahren produce herstellen producer Produzent, Redakteur PROM (Programmable Read Only Memory) programmierbarer Nur-LeseSpeicher protect schützen provider Anbieter proximity microphone Nahbesprechungsmikrofon proxy Vermittler von Netzwerkverbindungen PS (Programme Stream, Programme Service) Datenstrom bei MPEG-2, Programm-Servicename (DAB, RDS) PSK (Phase Shift Keying) Phasenumtastung psophometric weighting curve Ohrkurve PTS (Permanent Threshold Shift) bleibende Hörschwellenverschiebung PTY (Programme Type) Programmartenkennung (DAB, RDS) pulse Impuls, Takt PZM (Pressure Zone Microphone) Grenzflächenmikrofon
Q QoS (Quality of Service) Dienstgüte (-qualität) QPPM (Quasi Peak Programme Meter) Quasi-Spitzenwert-Aussteuerungsmesser
QPSK (Quadrature-Phase Shift Keying) digitales Modulationsverfahren quality chunk Qualitätsdatenblock quality factor Güte quantisation noise Quantisierungsrauschen quantizing Quantisierung quantizing distortion Quantisierungsverzerrung, Quantisierungsrauschen quarter-inch track Viertelspur quasi-peak value Quasi-Spitzenwert
R rack Gestell, Rahmengestell rack mountable unit Einschubeinheit radian frequency Kreisfreuqenz radiant energy density Strahlungsdichte radiation Abstrahlung, Ausstrahlung radiation pattern Richtcharakteristik, Richtdiagramm radio broadcast Hörfunksendung radio circuit Hörfunkleitung radio link Richtfunkstrecke radio microphone drahtloses Mikrofon radio play Hörspiel RAID-Array (Redundant Array of Independent Disks) Gewährung der Datensicherheit durch redundante Aufzeichnung auf mehreren Festplatten RAM (Random Access Memory) Schreib/Lese-Speicher random Zufall random noise Zufallsrauschen, Weißes Rauschen range Bereich, Reichweite, Umfang rate Rate, Abtastrate, Frequenz ratio Verhältnis RCD (Residual Current protective Device) Fehlerstromschutzschalter RDS (Radio Data System) Radio-DatenSystem im UKW/FM-Multiplexsignal reactance, reactive impedance Blindwiderstand 1245
Fachwörter und Abkürzungen Englisch - Deutsch reacting time Ansprechzeit read after write Sofortkontrolle der aufgezeichneten Daten readability Lesbarkeit, Verständlichkeit readjustment Nachjustierung ready for acceptance abnahmefertig ready for transmission sendefertig RealAudio verlustbehaftetes Audiodateiformat, vorwiegend für Streaming Audio eingesetzt real-time Echtzeitrebroadcasting reception Ballempfang recalibrate nacheichen recall Aufrufen einer Einstellung oder eines Schaltzustandes receiver Empfangsgerät, Empfänger reception Empfang (Rundfunk) reception system Empfangsanlage recoding Umcodierung record aufnehmen, aufzeichnen, bespielen record player Plattenspieler recorder Aufzeichnungsgerät recorder Aufnahmegerät recording Aufnahme recording current Aufsprechstrom recording equipment Aufnahmegerät recording head Aufnahmekopf recording level Aufzeichnungspegel recording mode Aufzeichnungsverfahren recording studio Aufnahmestudio recording technique Aufzeichnungsverfahren recovery time Erholungszeit, Rücklaufzeit rectangular pulse Rechteckimpuls rectifier Gleichrichter reduction Abnahme, Verkleinerung, Verminderung redundance reduction Redundanzreduktion (Datenkompressionsverfahren) redundancy Redundanz reel spulen, Spule reference Bezug 1246
reflection Reflexion regulator Stabilisator rehearsal Probe (Aufführung), Schnittsimulation reject ausmustern, ablehnen relation Beziehung relay übertragen, übernehmen relay matrix Relaiskreuzschaltfeld relay receiver Richtfunkempfänger release herausbringen, Auslöser release time Auslösezeit reliability Zuverlässigleit remake Neuproduktion remastering Restaurierung, klangliche Überarbeitung von Audiomaterial remote access Fernzugriff remote control Fernsteuerung rendering Reproduktion repair reparieren repeat wiederholen, Wiederholung repeater Kabelverstärker, Zwischenverstärker replacement Ersatzteil replay Wiederholung report berichten, Bericht reproduce wiedergeben re-recording Überspielung, Umschnitt, Kopie re-run Wiederholung reset nachstellen, Zurücksetzen resistance Widerstand, Wirkwiderstand resolution Auflösung resonant circuit Resonanzkreis, Schwingkreis resonant frequency Resonanzfrequenz resources Betriebsmittel response Reaktion, Kennlinie, (Frequenz-, Phasen- usw.)-gang response time Ansprechzeit result Ergebnis retake Aufnahme wiederholen
Fachwörter und Abkürzungen Englisch - Deutsch retrieve abrufen reverb output Hallausgang reverb plate, reverberation plate Hallplatte reverb, reverberation Hall, Nachhall, Verhallung reverberant hallig reverberation room Hallraum reverberator Hallgerät reversal Umkehrung reverse umkehren, in Gegenrichtung reversible umschaltbar review prüfen, Rückschau rewind umspulen, zurückspulen RF64, RIFF64 rundfunkspezifisches digitales Datenpaketformat (Container), sowohl für lineare oder datenreduzierte Audiosignale ribbon microphone Bändchenmikrofon RIFF (Resource Interchange File Format) proprietäres digitales Dateiformat (Container), speziell für lineare Audiodateien rigging tender Rüstwagen right rechts, Recht ringing Ausschwingen eines tiefpassgefilterten Signals rise time Anstiegszeit RLL (Run Length Limited) Code mit hoher Aufzeichnungsdichte rms (root mean square) quadratischer Mittelwert, Effektivwert ROM (Read Only Memory) Festwertspeicher, Nur-Lese-Speicher rostrum Podest, Tribüne rough mix Vormischung routing, router Datenpaketvermittlung, Kreuzschiene RS (Reed-Solomon) digitales Fehlerschutzverfahren RT (Reverb Time) Nachhallzeit RTC (Real Time Clock) Echtzeituhr, Zeitcode mit Echtzeitbezug RZ (Return to Zero) Impulscode
S S/P-DIF (SPDIF, Sony/Philips Digital Interface Format) prorietäre Schnittstellen-Spezifikation für die Übertragung digitaler Audiosignale SAC (Spatial Audio Coding) proprietäres Mehrkanal-Codierverfahren SACD (SA-CD; Super Audio Compact Disc) proprietäres hochauflösendes Tonträger-Format, mehrkanalfähig safety Sicherheit sample Abtastwert, Probe, Muster sample and hold Momentanwertbildung und Wertehaltung bis zum nächsten Abtasttakt sampling Abtastung sampling frequency Abtastfrequenz sampling rate Abtastrate SAN (Storage Area Network) Speicherbereich-Netzwerk SAR (Successive Approximation Register) Datenwort-Generator in A/D-Wandlern satellite Satellit sawtooth-voltage Sägezahnspannung SBC (SubBand Coding) Teilbandcodierung SBR (SubBand Replication) parametrisches Codierverfahren scale Skala scaleable skalierbar scan, scanner abtasten, Abtaster scenery Bühnenbild, -bauten schedule Programmplan, Ablaufplan science Wissenschaft SCMS (Serial Copy Management System) Kopierschutz des DAT-Sytems score vertonen, Partitur scramble verwürfeln scratch Kratzer screen ansehen, abschirmen, verschleiern, Bildschirm, Leinwand screen play Drehbuch script Sprechertext
1247
Fachwörter und Abkürzungen Englisch - Deutsch SDDI (Serial Digital Data Interface) serielles Dateninterface (TV) SDH (Synchronous Digital Hierarchy) synchrones Multiplexverfahren im Bereich der Telekommunikation SDI (Serial Digital Interface) standardisierte Schnittstelle zur seriellen Übertragung von linearen digitalen Audiound Videodaten SDIF (Sound Description Interchange Format) standardisiertes digitales Dateiformat für die Beschreibung und Darstellung von Audio-Signaldaten search Suchlauf, Suchvorgang secure sicher security Sicherheit select, selection auswählen, Auswahl selector switch Anwahlschalter S-ELV (Safety Extra Low Voltage) gesicherte Kleinspannung semiconductor Halbleiter send senden sending amplifier Sendeverstärker sending level Sendepegel sensitivity Empfindlichkeit sensor Messwertgeber separate abtrennen, trennen SEPMAG (SEParate MAGnetic recording) zum Bildfilm gehörende Toninformation auf einem separaten Magnetfilm server diensteliefernder Rechner set stellen, einstellen, verstellen, ausrichten, Anlage, Gerät, Produktionsort set up aufstellen setting Einstellung, Justierung SFN (Single-Frequency Network) Gleichwellennetz SFX (Sound Effects) Sound - (Klang-) effekt shape Aufbau, Form shelf, shelving Fächerentzerrer, Kuhschwanzentzerrer shield abschirmen, Abschirmung shift verschieben, Verschiebung 1248
shift key Umschalttaste shot gun microphone Rohrmikrofon shoutcast proprietäres Streamingverfahren für Audio- und Videodateien über Internet show vorführen, Vorstellung side lobe gespiegelte Seitenbandlage sideband Seitenband signal Signal simulcast (simultaneous broadcasting) Parallelausstrahlung simultaneous gleichzeitig, simultan single-channel einkanalig Sitcom (Situational comedy) Situationskomödie (Fernsehspiel) size Format, Größe, Maß skip Vor-/Rücklauf slave von einem Master gesteuertes Gerät slaving Fremdsynchronisation slew verschleifen, verschmieren slew rate Anstiegsgeschwindigkeit slide verschieben, Dia, Standbild slim dünn slip Schlupf slope Steilheit, Flanke slow motion Zeitlupe SMPTE (Society of Motion Pictures and Television Engineers) Fernseh- und kinotechnische Gesellschaft (USA) SNG (Satellite News Gathering) Nachrichtenübermittlung via Satellit SNR (Signal-to-Noise Ratio) Störspannungsabstand socket Buchse, Fassung soft key programmierbare Funktionstaste solid-state transistorisiert solution Auflösung sonic Schall-, Klangsound Geräusch, Klang, Schall sound editing Tonbearbeitung sound engineering Tontechnik sound intensity Schallstärke sound level Lautstärkepegel
Fachwörter und Abkürzungen Englisch - Deutsch sound level meter Lautstärkemesser sound library Schallarchiv sound mixing console Tonmischpult sound operator Tontechniker sound pattern Klangbild sound pressure Schalldruck sound processing Klangbearbeitung sound propagation velocity Schallausbreitungsgeschwindigkeit sound recording Tonaufzeichnung sound signal Tonsignal sound source Schallquelle sound spectrum Klangsprektrum sound track Tonspur sound transmission Tonübertragung sound volume Klangfülle, Lautstärke sound-contacting schallleitend sound-proof schalldicht sound-reflecting schallhart source Quelle spatial räumlich speaker Lautsprecher specifications Pflichtenheft, techn. Daten specify angeben, benennen speech recording Sprachaufnahme speed Geschwindigkeit SPL (Sound Pressure Level) Schalldruckpegel splice kleben, Klebestelle splicing tape Klebeband split knicken, trennen, teilen sputtering Bedampfen eines Datenträgers square wave Rechteckimpuls SRC (Sampling Rate Converter) Abtastratenwandler stage Bühne, Podest stage box Bühnenanschlusskasten stand by Reserve, Betriebsbereitschaft standalone selbständig standards converter Normenwandler
star coupler sternförmig aufgebaute Multiplexeinrichtung stationary ortsfest, stationär status Status, Betriebszustand STB (Set-Top-Box) Beistelldecoder (Consumer-TV) stem Untergruppe einer vielkanaligen Tonmischung step function Sprungfunktion stereo broadcast Stereosendung stereo indicator Stereo-Sichtgerät, Goniometer stereo recording Stereoaufzeichnung stereo tuner Stereoempfänger stereophonic stereo, stereofon STM (Synchronous Transfer Mode) synchroner Übertragungsmodus bei SDH stop motion Zeitraffer storage Speicherung storage Speicherung, Archivierung storage medium Speichermedium store speichern story-board Ablaufplan straight-line-fader Flachbahnsteller streaming Echtzeitübertragung von Audiound Videodaten im Internet structure-borne noise Körperschall studio Studio, Senderaum, Sendestudio studio operator Studiotechniker studio production Studioproduktion subcarrier Hilfsträger sub-channel Hilfskanal subgroup, sub-group Untergruppe sub-sampling Unterabtastung subwoofer Lautsprecher zur Wiedergabe sehr tiefer Frequenzen summary Übersicht, Zusammenfassung supervisor Aufsichtsperson supply speisen, Speisung, Zuführung, Versorgung (Energie) supply cable Anschlusskabel supply unit Speisegerät 1249
Fachwörter und Abkürzungen Englisch - Deutsch support unterstützen, Gestell, Ständer, Stativ support microphone Stützmikrofon surface impedance Wellenwiderstand surface noise Eigengeräusch, Grundgeräusch surround sound Rundumklang (Lautsprecher, Kopfhörer) susceptibility to interference Störanfälligkeit, -empfindlichkeit suspension Aufhängung, Federung sustain Andauern eines Tones sustained ungedämpft sustain-level Pegel, auf dem der Ton bei längerem Drücken der Taste gehalten wird swamping Verdeckung swan-neck microphone Schwanenhalsmikrofon swap vertauschen, auslagern sweep Ablenkung, Durchlauf sweep frequency Wobbelfrequenz sweetspot Zone mit optimalen Abhörbedingungen bei stereofoner Wiedergabe switch (Um-)Schalter switch box Schaltkasten switch desk Schaltpult switch off abschalten, ausschalten switch on einschalten, zuschalten, switch over umschalten switchable umschaltbar switching error Schaltfehler switching state Schaltzustand sync mark Startimpuls sync pulse Synchronimpuls synchronise synchronisieren synchronism Synchronität, Gleichlauf synchronous synchron synopsis Exposé, Inhaltsangabe system System, Anlage, Verfahren
1250
T TA (Terminal Adapter) a/b-Wandler (ISDN) TA (Traffic Announcement) Verkehrsdurchsagekennung (RDS, DAB) table microphone Tischmikrofon tail Nachlaufband take Aufnahmeabschnitt take-up reel Aufwickelspule taking angle Aufnahmewinkel talk Bericht, Vortrag, Rede talkback Kommando, Gegensprechanlage tape Band, Tonband tape break Bandrss tape cartridge Bandkassette tape deck, tape transport Bandlaufwerk tape machine Bandgerät, Bandmaschine tape noise Bandrauschen tape speed Bandgeschwindigkeit TC (TimeCode) Zeitcode TCP/IP (Transmission Control Protocol / Internet Protocol) Protokoll für den Datentransport zwischen Rechnersystemen TDC (Transparent Data Channel) transparenter Datenkanal (RDS) TDIF (Tascam Digital Interface Format) proprietäres Schnittstellenformat für Mischpulte, Soundkarten und Audiowandler TDM (Time Division Multiplex) Zeitmultiplex teaser kurzer Aufmacher für Sendungen (Hörfunk, Fernsehen) technical equipment Betriebseinrichtung technical guidelines Technische Richtlinien technician Techniker technique Verfahren telecommunications Fernmeldewesen, Fernmeldetechnik telecommunications engineering Nachrichtentechnik telecontrol fernwirken, Fernsteuerung
Fachwörter und Abkürzungen Englisch - Deutsch telephone line Telefonleitung television channel Fernsehkanal television engineering Fernsehtechnik television receiver Fernsehempfangsgerät television screen Bildschirm television sound Fernsehton television transmission circuit Fernsehübertragungsstrecke terminal box Anschlusskasten terminating resistance Abschlusswiderstand test prüfen, Prüfung, Test, Probe test certificate Abnahmebericht, Messprotokoll test department Prüffeld test key Prüftaste test point Prüfpunkt test procedure Prüfverfahren test result Messergebnis test signal Messsignal test tone Prüfton test transmission Versuchsübertragung TFT (Thin Film Transistor) Dünnfilmtransistor (für Flachbildschirme) THD (total harmonic distortion) Gesamtklirrfaktor theatre Theater, Schauplatz thermal calibration automatische Überprüfung der Spureinstellung bei Festplatten threshold Schwelle, Schwellwert, Grenze thumbnail Miniaturansicht THX (Tomlinson Holeman’s eXperiment) proprietärer Kino-Tonwiedergabestandard ticker Agentur-Fernschreiber, Nachrichtendienst tie line Rangierleitung, Querverbindung timbre Klangfarbe time Zeit time allocation Zeiteinteilung time base correction Zeitfehlerkorrektur time compression Zeitraffung
time delay Schaltverzögerung, Zeitverzögerung time difference Zeitunterschied time lag Zeitversatz time laps Zeitraffer time leap Zeitsprung time multiplex Zeitmultiplex time shift Zeitverschiebung time stretching Zeitdehnung timecode Zeitcode timer Zeitgeber timing Takt TMC (Traffic Message Channel) Verkehrsinformationskanal (RDS, DAB) TOC (Table Of Contents) Inhaltsverzeichnis auf einem Datenträger toggle switch Kippschalter tolerance value Toleranzwert tonality Tonalität, Tonart tone abstufen, Klang, Laut, Ton tone colour, sound color Klangfarbe tone control Klangregler tone quality Tonqualität tool Hilfsmittel, Werkzeug top-cut filter Höhensperre topic Thema TOS-Link optische Leitungsverbindung für SPDIF-Signale total harmonic distortion Gesamtklirrfaktor total recall Speicherabruf einer Mischpultkonfiguration touch screen Sensorbildschirm, Berührungsbildschirm TP (Traffic Program) Verkehrsfunk TPEG (Transport Protocol Experts Group) Expertengruppe für die Entwicklung von Standards zur digitalen Verbreitung von Serviceinformationen tpi (tracks per inch) Aufzeichnungsdichte auf Festplatte oder Diskette track Spur, Aufzeichnungsspur
1251
Fachwörter und Abkürzungen Englisch - Deutsch track bouncing Zusammenfassen von Spuren tracking system automatisches Nachführsystem für bewegte Bild-(Ton-)quellen trailer Vorschau transducer Wandler transfer überspielen, umschneiden, Überspielung transfer function Übertragungsfunktion transform umwandeln, umsetzen transformation Umwandlung transformer Transformator, Übertrager transient Einschwingvorgang transition frequency Übergangsfrequenz, Sprungfrequenz transmision rights Übertragungsrechte, Senderechte transmission Sendung, Ausstrahlung, Übertragung transmission area Sendegebiet transmission centre Sendezentrum transmission channel Übertragungskanal transmission control Sendesteuerung transmission level Übertragungspegel transmission link Übertragungsstrecke transmission medium Übertragungsweg transmission method Übertragungsverfahren transmission range Reichweite, Sendebereich transmission recording Sendemitschnitt transmission standard Übertragungsnorm transmission switch Sendeschalter transmission tape Sendeband transmit senden, übertragen, ausstrahlen, abstrahlen transmittance Durchlässigkeit transmitter Sender transmitter aerial Sendeantenne transmitter amplifier Senderverstärker transmitter chain Senderkette transmitter engineering Sendertechnik 1252
transmitter frequency Sendefrequenz transmitter output Senderausgang transmitter power Senderleistung transmitter system Sendeverfahren transparency Durchsichtigkeit, Transparenz trap amplifier Trennverstärker treble Hochton, Höhen treble absorber Höhenabsorber treble boost Höhenanhebung treble cut Höhenabsenkung treble equalisation Höhenentzerrung treble filter Höhenfilter treble loudspeaker Hochtonlautsprecher treshold level Schwelle, Schwellwert, Grenze trial Probe, Versuch trigger pulse Auslöseimpuls (z. B. kurzer Impuls beim Drücken einer Taste) trimming Feineinstellung trouble ticket Problembeschreibung trouble-shooting Fehlersuche true peak wahre Spitzenwert true value Istwert truncation Abtrennen von Binärstellen trunk area Weitverkehrsbereich (Telefonie) trunk line Verbindungsleitung TS (Transport Stream), (Time Slot) a) Datenstrom bei der MPEG-Codierung, b) Zeitschlitz in Multiplexsystemen TTL (Transistor-Transistor-Logik) spezielle Bauweise von integrierten Halbleiterbausteinen TTS (Temporary Threshold Shift) zeitweilige Hörschwellenverschiebung TTS (Text-To-Speech) softwaregesteuerte Umwandlung von Textdaten in Sprache tube Röhre tune abstimmen, abgleichen tune circuit Schwingkreis tune in abstimmen
Fachwörter und Abkürzungen Englisch - Deutsch tune out entkoppeln tuner Empfangsteil, Hörfunkempfangsgerät tuning Abstimmung, Senderwahl tuning accuracy Abstimmgenauigkeit turntable Plattenspieler tweeter Hochtöner, Hochtonlautsprecher twin-track tape recorder ZweispurTonbandgerät twist verdrillen, Windung two-channel zweikanalig two-channel reception ZweikanaltonEmpfang two-channel sound reproduction Zweikanalton-Wiedergabe two-channel transmission ZweikanaltonAusstrahlung type Type (Gerät)
U UDP (User Datagram Protocol) quittungsloses Datenübertragungsverfahren UHF (Ultra High Frequency) Dezimeterwellenbereich (470 - 790 MHz) ultrasonics Ultraschall unbalanced unsymmetrisch uncompresse dekomprimieren unconnected nicht eingeschaltet undamped ungedämpft (Schwingung) undelayed unverzögert undervoltage Unterspannung undistorted unverzerrt unedited ungeschnitten unencrypted unverschlüsselt ungraded unbewertet ungrounded ungeerdet, erdfrei unidirectional einseitig gerichtet uninstall deinstallieren uninterrupted unterbrechungsfrei unipolar einpolig unipulse Einheitsimpulsfolge
unit Einheit, Gerät unity gain Verstärkungsfaktor unlimited unbegrenzt, unbeschränkt unlocking Entriegelung unmodulated unmoduliert unvoiced stimmlos unweighted unbewertet unweighted signal-to-noise ratio Fremdspannungsabstand unwind abspulen update aktualisieren, Aktualisierung, Nachfolgemodell upgrade aufrüsten, Aufrüstung, Verbesserung uplink Aufwärtsverbindung, Aufwärtsstrecke (Satellit) upward compatible aufwärtskompatibel URL (Uniform Resource Locator) standardisierte Adresse im Internet usable einsatzfähig USB (Universal Serial Bus) Bussystem für PCs use anwenden, benutzen, brauchen, Benutzung, Gebrauch, Nutzung user Anwender, Benutzer user account Benutzerkonto user data Nutzdaten user group Benutzergruppe user interface Benutzeroberfläche user preferences Einstellungen (Gerät) user program Anwenderprogramm user requirements Benutzeranforderungen usufructuary Nutzungsberechtigter UTC (Universal Time Clock) Weltzeit utilities Hilfsprogramm, Dienstprogramme UTP (Unshielded Twisted Pair) nicht abgeschirmte verdrillte Doppelleitung
V VCA (Voltage Controlled Amplifier) spannungsgesteuerter Verstärker
1253
Fachwörter und Abkürzungen Englisch - Deutsch VCF (Voltage Controlled Filter) spannungsgesteuerter Filter VCO (Voltage Controlled Oscillator) spannungsgesteuerter Oszillator VCQ (Voltage Controlled Quality) spannungsgesteuerte Filtergüte VCW (Voltage Controlled Wave form) spannungsgesteuerte Schwingungsform velocity microphone Schnelleempfänger venue Schauplatz verify überprüfen, bestätigen versatile vielseitig version Fassung vertical pattern Vertikaldiagramm VGA (Video Graphics Array) Standard für Bildschirmwiedergabe VHF (Very High Frequency) Meterwellenbereich (47 - 68 MHz, 87,5 - 108 MHz, 174 - 230 MHz) VHS (Video Home System) Videosystem im Consumerbereich vibration Schwingung, Erschütterung video Video, Fernsehen (USA) video control Bildregie video data terminal Datensichtgerät video editing Bildbearbeitung video engineering Bildtechnik video framestore Bildspeicher video mixer Bildmischpult video operator Bildtechniker video signal Bildsignal view ansehen, schauen, Ansicht viewer Betrachter viewing Film-, Videovorführung visibility Sichtbarkeit vision Bild, Sicht vision control Bildregie vision fader Bildregler visitor Besucher visual optisch visual contact Sichtverbindung visual monitor Sichtgerät 1254
visualise sichtbar machen VITC (Vertical InterleaveTime Code) Zeitcode in der vertikalen Austastlücke VLAN (Virtual Local Area Network) virtuelles lokales Netzwerk VLC (Variable Length Coding) Codierung mit variabler Wortlänge VLD (Variable Length Decoder) Variable Längendecodierung VLSI (Very Large Scale Integration) Halbleitertechnologie vocoder Sprachverschlüsselungsgerät VoD (Video-on-Demand) Abrufdienst für Videofilme voice Stimme voice doubling Stimmverdopplung voice over Off-Kommentar, Sprachbeimischung voice recording Sprachaufnahme voice tracking vorproduzierte Sendestrecke mit Moderation VoIP (Voice-over-Internet-Protocol) Telefonie über Internet voltage Spannung, Spannungswert voltage amplifier Spannungsverstärker voltage drop Spannungsabfall voltage gain Spannungsverstärkung volume Lautstärke, Schallvolumen volume control Laustärkeregelung, -regler volume indicator Lautstärkemesser, -anzeige volume level Lautstärkepegel volume range Lautstärkeumfang volume unit meter VU-Meter VPN (Virtual Private Network) vertrauliche Datenübertragung im Internet VPS (Video Programme System) Video-Steuerung zur zeitsynchronen Aufzeichnung VTR (Video Tape Recorder) Videorecorder VU-meter (Volume Unit meter) VU-Meter
Fachwörter und Abkürzungen Englisch - Deutsch
W walkie-talkie Handfunksprechgerät WAN (Wide Area Network) Weitverkehrsdatennetz WAP (Wireless Application Protocol) Protokoll für die drahtlose Übertragung von Internet-Inhalten warranty Garantie watch überwachen watermarking digitales, sichtbares oder unsichtbares Wasserzeichen in einer (z. B. Audio-)Datei WAV, WAVE proprietäres WindowsDatenpaketformat für digitale Audiodaten wave Welle wave filter Bandfilter, Bandpass wave front Wellenfront, Signalflanke wave impedance Wellenwiderstand waveform Wellenform waveguide Hohlleiter, Wellenleiter wavelength Wellenlänge WDM (Wavelength Division Multiplex) Wellenlängenmultiplex web ein über das Internet abrufbares Hypertext-System weight bewerten, gewichten weighted bewertet, gewichtet weighted background noise bewertetes Ruhegeräusch weighted noise level bewerteter Störpegel weighted signal-to-noise ratio bewerteter Geräuschabstand WFS (Wave Field Synthesis) Wellenfeldsynthese white noise Weißes Rauschen wide-band aerial Breitbandantenne wide-band amplifier Breitbandverstärker wideband cable network BreitbandKabelnetz width Breite, Basisbreite wild noise Nebengeräusch
wild sound Atmosphäre wind umspulen wind bag, wind shield Windschutz winding-off Abwicklung (Kabel) window-frame aerial Fensterantenne wire schalten, verdrahten, Leitung, Draht wire wrap lötfreie elektrische Verbindungstechnik wireless drahtlos wireless mike drahtloses Mikrofon wireman Elektriker wiring Verdrahtung, Verkabelung WLAN (Wireless Local Area Network) drahtloses lokales Netzwerk WMA (Windows Media Audio) proprietäres Audio-Dateiformat woofer Tieftöner word length Wortlänge workflow Arbeitsablauf workstation digitale Audio-Arbeitsstation wow jaulen writing speed Schreibgeschwindigkeit WWW (World Wide Web) weltweites Informationsaustauschsystem im Internet
X XLR (eXternal Life Return) Industriestandard für elektrische AudioSteckverbindungen XML (eXtensible Markup Language) Standard für Webseitenprogrammierung XTP (eXpress Transfer Protocol) zeitoptimiertes Übertragungsprotokoll
Z zero level Nullpegel zero setting Nullrückstellung zero time Nullzeit zipped file gepackte Datei
1255
Sachregister A (n-1)-Technik 724, 870, 927 100 V-Technik 550 1-Bit-Delta-Sigma-Modulation 823 1-Bit-Technologie 802 1-Strahl-Methode 801 3-Strahl-Methode 801 2 MBit/s-Schnittstelle 937 2/0-Format 185, 208, 241, 1101 3/2-Format 185, 241, 1079 3PM-(Position Modulation)-Code 773 5.1, s. Mehrkanalton 600-Ohm-Technik 934 75-O-Video-Kabel 637 8/9-Code 787 8-Kanal-Formate 785 A/D-Wandlung 602, 616, 618, 728, 821 AAC-(Advanced Audio)-Coding 682, 1097 AAC, Audioqualität und Einsatzbereiche 685 AAC, Bitstrom 684 AACplus 1097 AACS (Advanced Access Content System) 828 AAF-Format 875 Abbild, digital 815 Abbild, zeitdiskret 607 Abbildung, räumliche stereofone 203 Abbildungsbreite 321 Abbildungskurve 208 Abbildungsrichtung 321 Abbildungsverzerrungen 208 Abgeltungsrecht 749 Abhöreinheit 238, 499 Abhörkontrolle 818 Abhörraum 37, 1158 Abhörraum, virtuell 1088, 1164 Abhörstandard, Lautsprecherwiedergabe 1158 Abhörsystem 818
Absolutbewertung 1166 Absorption 14, 514 Abtast- und Halteschaltung 610, 616 Abtastfrequenz, s. Abtastrate Abtastfunktion 607 Abtasthäufigkeit 602 Abtastkriterium 602 Abtastlaser 800 Abtastperiode 607 Abtastrate 602, 607, 623, 727, 781, 1114 Abtastratenwandler 611, 727 Abtastsystem, optisch 796, 797 Abtast-Taktsignal 610 Abtasttheorem 602, 609 Abtastung 607, 611, 618, 801, 815 Abtastung, optisch 800 Abwärtskompatibilität 787 AC-3 689 A-Chain 894 ACMS (Active Copyright Management System) 803 Adaptive Filter 603 ADAT 630, 639, 784 Add-In-Komponenten 845 Additionsgesetz 1113 ADR (Astra Digital Radio) 1024 ADR (Automated Dialogue Replacement) 866 Adressbus 625 ADSR (Attack Decay Sustain Release) 91 AES/EBU-Interface 630, 632, 633 AES/EBU-Spektrum 637 AES3, s. AES/EBU AF (Alternative Frequenzliste) 1061 AFC (AntiFerromagnetically Coupled) 792 Agenturmeldung 758 AIT (Advanced Intelligent Tape) 789, 824 Akquisition (Programminhalte) 736 Aktualitätenspeicher 752 Aktuator 723, 793, 800 1257
Sachregister A-Law-Kennline 613 Aliasfehler 603 Aliaskomponente 608, 615 Aliasverzerrung 603, 608, 614 Aluminiumbedampfung 796 AME-(Advanced Metal Evaporated)-Band 791 AMP-(Advanced Metal Powder)-Band 789 Ampelanzeige 777 Amplitude 45 Amplitudendichtespektrum 605 Amplitudenfrequenzgang, Lautsprecher 1162 Amplitudenmodulation 86, 969 AM-Rundfunk 969, 984 Analyse, harmonische 47 Anfangsnachhallzeit 27 Anfangsreflexionen 1161 Anhall 30 Anpassung, elektrisch 437, 445 Anpassverstärker 496 Ansatzrohr 50 Anschluss externer Geräte 465 Ansteckmikrofon 113, 153 Anti-Aliasfilter 616, 802 API-(Application Programming Interface)Layer 813, 835 APS (Analog Protection System) 826 apt-X 695, 940, 1084 Äquivalenzen, XY- und MS-Verfahren 218 Arbeitsschutz 1187 Arbeitsschutzaufsicht 1187 Arbeitsschutzgesetz 1192 Arbeitssicherheit 1187 Arbeitsspeicher, sekundär 794 Archivbestand 829 Archivierung 794, 811 Archivmaterial 814, 817 Archivmedium 787 Archivsicherheit 1178 Archivspeichersystem 791 Archivsystem 782, 832 Archivtonträger 815 ARD/ZDF-Unfallverhütungsrichtlinien 1211 ARD-Audiofiletransfer 764 ARD-HYBNET 764 1258
ARD-Regelwerk 853 ARI-Signal 760, 1053 ASIC (Application Specific Integrated Circuits) 784 ASIO (Audio Stream Input/Output) 728 ASIO-Treiber 643 ASI-Schnittstelle 946 Aspect Ratio 827 Assemble-Schnitt 884 Assoziationsmodell der Wahrnehmung 201 Ateliermischung 822 ATF (Automatic Track Finding) 783 Atmo 253 ATM-Technik 952, 953 ATM-Verbindung 953 ATRAC (Adaptive TRansform Acoustic Coding) 807 Audio Editor 729 Audio Fingerprinting 708 Audio Watermarking 705, 713 Audioapplikation 643 Audiocodec 633, 935 Audiocodierung 649, 652 Audiocodierung, empfängerorientiert 652 Audiocodierung, psychoakustisch basiert 654 Audiocodierung, Qualitätsaspekt 667 Audiocodierung, verlustfrei 650, 702 Audiocodierverfahren 652 Audiodatei 802, 829, 842 Audiodatenkompression 649 Audiodatenmanagement 834 Audioeditor 744, 746 Audioencoding 826, 827 Audiofile 818 Audiofiletransfer 631, 737, 763, 957 Audio-ID 708 Audiointerface 728 Audiomesstechnik, analog 555 Audiomesstechnik, digital 1129 Audioqualität, FM-Rundfunkqualität 1110 Audioqualität, Testbedingungen 1172 Audioqualität, Testmethode 1167 Audioqualität, transparent 668, 1109 Audioschnittstelle, digital 631 Audioschnittsystem 763
Sachregister Audiosignal, stochastisch 961 Audiosignalprozessor 723, 780 Audiospeicher, digital 831 Aufholverstärker 491 Auflösungsvermögen, geometrisch 797 Aufnahme, s. Tonaufnahme Aufnahmestudio, Akustik 32 Aufnahmewinkel, Stereomikrofon 195, 208 Aufsichtsverantwortung 1196 Aufzeichnung, magnetisch 372, 777 Aufzeichnung, mechanisch 412 Aufzeichnung, optisch 795 Aufzeichnungscode 771 Aufzeichnungsmodulation 770, 772 Aufzeichnungsverfahren, optisch 797 Augendiagramm 770, 1123 Auslenkungskoeffizient 208 Ausschwingverhalten, endlich 627 Außenübertragungstechnik 762 Ausspielstation 845 Ausspielweg 489 Aussteuerung 1181 Aussteuerungsgrenze 615 Aussteuerungskontrolle 1133 Aussteuerungsmesser 238, 1133, 1136 Aussteuerungsrichtlinie 1140 Auswahlverantwortung 1194 Auswertelogik 797 Authoring 825 Auto-Replikation 956 Auxiliary-Bit 633 AVI (Audio Video Interleaved) 873 AWS (Audioworkstation) 730, 784, 794 Azimut 585, 789 Azimutkorrektur 816
B Backup 787, 793 Bad Block 813 BAFT (Breitbandiger Audio-File Transfer) 923, 957 Balanceregler 322, 326 Bandbibliothek 807, 836 Bändchenmikrofon 114 Bandlaufwerk, digital 837 Bandpass 341
Bandsperre 341 Base Band 617 Basisbreite 208, 477 Basiskanal 935 Basisknoten 953 Basisöffnungswinkel 208 Basisschutzvorkehrung 1214 Basissteller 477 BCC (Binaural Cue Coding) 666 B-Chain 894 BDA (Blu-ray Disc Association) 826 Bearbeitungssystem, PC-basiert 728 Becken 77 Begleitdaten 846 Begrenzer 329 Beitragsaustausch 955 Beitragserstellung 738, 744 Bemusterung 957 Benign Noise 615 Benutzeroberfläche 831, 835, 839 Berufsgenossenschaft 1188 Beschäftigte, Arbeitssicherheit 1194 Beschallung 511 Beschallung, 100 V-Technik 550 Beschallung, Bühnenrand- 524 Beschallung, Controller 545 Beschallung, dezentral 516 Beschallung, frontal 520 Beschallung, Kabel 548 Beschallung, Korrekturfaktor 1207 Beschallung, Mikrofone 544 Beschallung, Monitor- 538 Beschallung, Nahfeld- 524 Beschallung, Planungssoftware 552 Beschallung, richtungsbezogen 517 Beschallung, Verstärker 547 Beschallung, zentral 516 Beschallungskonzepte 515 Beschallungsmischpult 540 Betamax-Videorecorder 780 Betreiber, Arbeitssicherheit 1193 Betriebsfernsprechanlage 931 Betriebsgrößen 556 Betriebskennlinie 569 Betriebsrauschen 569 Betriebsschallpegelkurve 1161 1259
Sachregister Betriebssicherheitsverordnung 1192 Betriebszentrale 910 Beurteilung, subjektiv 1166 Beurteilungspegel 1200 Bewertungskurven für Schalldruck 7 Bewertungsskalen 1172 Bezugsabhörpegel 1162 Bezugsabhörraum 1159 Bezugsebene 796 Bezugspegel 591, 1133 Bezugsschalldruck 7 Bezugsschallfeld 1160 B-Format 866 BGI (Berufsgenossenschaftliche Informationen) 1191 Bildplatte 795 Bildschirm-Bedienoberfläche 720 Bildwiederholfrequenz 827 Binärsystem 612 Binaural Sky 313 Binaural Unmasking 672 Binauraltechnik 183 Biphase-Mark, Biphase(M) 630, 773, 786, 948 Biphase-Modulation 975 Birdies 671 Bit, binary digit 602 Bitauflösung 1114 Bitbudget 825 Bitfehlerrate 813 Bitkombination 809 Bitlängen, geometrisch 797 Bitmuster 772 Bitpolarität 948 Bitrate, s. Abtastrate Bitstrom 619, 623, 684 Bitverwürfelung 944 B-Kanal 960 Black Box 720 Blechblasinstrumente, Klangstruktur 68, 72 Blechblasinstrumente, Richtcharakteristik 81 Blender, elektronischer 473 Blockbildung 812 Blockcode 979 Blockdaten 768 1260
Blocking 179, 812 Blocklänge 942 Block-Transfer 642 Block-Treiber 813 Blu-ray-Technologie 809, 826, 827 BPM (Beats Per Minute) 1203 BPSK-Modulation 974 Breitbandnetzwerk, diensteintegrierend 952 Brennsoftware 802 Broadcast Web 1067 BRS (Binaural Room Scanning) 1089 Brummstörung 466, 606, 818 Bubble-Erzeugung 796 Buffer 611 BUK (Bundesverband der Unfallkassen) 1188 Bündelfehler 630, 775, 813 Bündelung von ISDN-B-Kanälen 961 Bündelungsfähigkeit 797 Bündelungsmaß, Lautsprecher 530, 1162 Burst 775 Burst Error 630, 777, 800 Burst Mode 950 BWF (Broadcast Wave Format) 645, 730, 845 Byte 950.797
C Cachespeicher 789, 793, 814 Camcorder 867 Carrier 953 Carrierschicht 952 Cartridge 787, 807 Cat-5-, Cat-6-Kabel 637 CAV (Constant Angular Velocity) 794, 798 CD (Compact Disc) 601, 767, 798 CD-Audio 822 CD-Codierung 799 CD-Master 822 CD-Player 796 CD-Pre-Master 818 CD-R 801, 823 CD-RW 797 CD-WO 801 Cembalo 74 Centercluster 525
Sachregister CF-(CompactFlash)-Karte 813 Channel Condition 777 Channel-Status-Bit A165 634 Chase-Lock 877 Chorus 75, 358 Chunk 645 Cinch-Stecker 458, 637 CIRC (Cross-Interleaved-Reed-SolomonCode) 776, 800 Circle Surround 898 Class-D-Amplifier 624 Clavinet 84 Click 606, 818 Client 735 Client/Server-Struktur 922 Clipping 547, 615 Clockgenerator 611 Clockjitter 611 Clocksignal 610 Cluster 795 CLV (Constant Linear Velocity) 798, 799 CMF (Cutting Master Format) 827 CMS (Content Management System) 1052 Cochlearer Verstärker 1202 Cocktailparty-Effekt 106, 202 Codespreizung 629, 776 787, 800 Codierartefakt 669 Codiereffizienz 945 Codierung, empfängerorientiert 652 Codierung, kryptologisch 936 Codierverfahren 673, 813, 935, 940, 941 Codierverfahren, psychoakustisch basiert 654, 675 Codierverfahren, verlustbehaftet 650 Codierverfahren, verlustfrei 650, 702, 827 Codiervorschrift 772, 941, 947 Compact-Cassetten-Format 781 Comparison Scale 1172 Composite Synthesis 87 Computermagnetband 787 Constant Angular Velocity 794, 798 Constant Linear Velocity 798 Containerformate 645, 845 Content 646, 831 Content Caching 1032
Content Protection for Recordable Media 814 Contradirektionale Schnittstelle 946 Control-Transfers 642 Corporate-Network 952 CPPM-(Content Protection for Pre-recorded Media)-System 806, 814 CRC (Cyclic Redundancy Check) 642, 771, 776, 813, 1128 CRCC-Wort 787 Crossinterleaving-Prinzip 787 CSS (Content Scrambling System) 826 CTL (Control Track Longitudinal) 872 Cuepunkt 842 Curie-Effekt 797 Curietemperatur 807 Cutting Master 824
D D/A-Wandlung 616, 622 D'Appolito-Strahler 534 DAB (Digital Audio Broadcasting) 988, 1055, 1092 DAB, Tonübertragung 989 DAB, TPEG-Daten 1077 DAB, Transportmechanismen 996 DAB+ 988, 989 DAB-Dateneintaster 1056 DAB-Datenrahmen 989, 991 DAB-Ensemble 998, 1001 DAB-Multiplex 998, 1055 Daisy Chain 640 Dämpfung, elektrisch 555 DASH-(Digital Audio with Stationary Head)-Format 785, 786 DAT (Digital Audio Tape) 781 Datenaustausch, netzwerkgestützt 829 Datenbank 831, 846 Datenbank-Engine 838 Datenbankmanager 747 Datenbankzugriff 845 Datenbus 625, 726 Datencontainer 641 Datendichte 797 Datendienst 952 Datenelement 848 1261
Sachregister Datenformatierung 770 Datenkompression 649, 803 Datenkompressionsverfahren, verlustlos 803 Daten-Magnetband 777 Datenmanagement 834 Datenmengenreduktion 603 Datenmodell, relational 848 Datennetz 735 Datenorganisation 804 Datenpaket 642 Datenrate 798, 936 Datenrate, reduziert 767 Datenreduktion 649, 818 Datensatz 832, 848 Datenserver 731 Datensicherung 794, 807, 836, 1174 Datenspeicherung 834 Datenstreamer-System 791 Datenstrom 802 Datenstrom-Störungen 1125 Datenträger 814, 823 Datenträgerfragmentierung 838 Datentyp 847 Datenwortlänge 612, 615 DAT-Format 781 DAT-Player 844 DAW (Digitale Audio-Workstation) 730 dB 589 DCC (Digital Compact Cassette) 782 dci (Digital Cinema Initiative) 892 DC-Offset 604, 770 DDP 823 DDPi 823 DDS-4mm-Format 789 Decca-Tree 248 Declipper 816 Decodierung 626, 768, 772 Decrackling 816 De-Esser 334 Dehumming 816 De-Interleaving 777 Dekompression 629 Delay 719, 821 Delay, Beschallung 543 Delay, Surround-Aufnahmen 265 1262
Delta-Sigma-Wandler 617 Delta-Stereofonie 527 Demaskierungseffekt 664 Demodulator 771 Denoising 816 Desaster-Toleranz 838 Descratcher 816 Deutlichkeitsgrad 24 Dezimation 620 DGUV (Deutsche Gesetzliche Unfallversicherung) 1188 DialNorm 1100, 1156 Dialogue Normalization 1100 Diashow 1053, 1066 DI-Box 469, 1223 Dienstgüte 631 Differenztonfaktor 567 Diffusfeld 25, 513 DigiBemA 924, 957 DigiBemus 737, 923, 957 Digital/Analog-Umsetzer 618 Digitalmikrofon 142 Dirac-Impuls 49, 606 Direct Digital Synthese 87 Direktschall 23, 515, 1160 Disc Description Protocol 823 Disc-Controller 793 Distorsion 75 Dither 614, 615, 820 Diversity-Empfang 169 DLT (Digital Linear Tape) 788, 825 DMB (Digital Multimedia Broadcasting) 1003 DMM-Schneidverfahren 419 DNV (Dialogue Normalisation Value) 888 Dokumentationssystem 762 Dolby Digital 689, 826, 1078, 1094 Dolby Digital Plus 691, 1095 Dolby E 692, 899, 1081 Dolby E Frame 692, 899 Dolby E-Interface 638 Dolby EX 690 Dolby ProLogic 701, 1078 Dolby ProLogic II 898 Dolby ProLogic IIx 702 Dolby Surround 701, 1079
Sachregister Dolby True HD 828 Dolby, Rauschunterdrückung 403 Doppel-MS 258, 263 Downkonvertierung 803 Download 1029 Downmix 822, 828, 1101 DPCM (Differenzielle Puls-CodeModulation) 629 DPSK-Modulation 974 DRC (Dynamic Range Control) 888, 1100, 1155, 1156 DRM (Digital Radio Mondiale) 1014 DRM (Digital Rights Management) 711, 892 DRM+ 1019 Drop-Format 781 Dropout 769, 770, 775, 818 Dropouter-Modul 816 Drum-Computer 91 DSD (Direct Stream Digital) 624, 785, 823 DSD-IFF-Datei 824 DSD-Technologie 802 DSD-Workstation 824 DSP (Digital Signal Processor) 625 DST (Direct Stream Transfer) 803, 824 DSTM (Dynamic Synchronous Transfer Mode) 953 DTRS (Digital Tape Recording System) 784 DTRS-Format 784 DTRS-Mehrspurrecorder 785 DTS (Decoding Time Stamp) 693, 827 DTS 96/24 694 DTS-Datenstrom 826 DTS-ES 694 DTS-HD-Master-Audio 827 DTS (Digital Theatre System) 1096 Dual-Code 612 Dual-Disc 806, 825 Dual-Layer 803 Durchsichtigkeit 22 Durchströmungsunfall 1214 DVB (Digital Video Broadcasting) 1005 DVB-C (Cable) 1012, 1091 DVB-H (Handheld) 1011, 1092 DVB-S (Satellit) 1025, 1090 DVB-S2 1026, 1091
DVB-T (Terestrial) 1007, 1091 DVD (Digital Versatile Disc) 805 DVD-A(udio) 805, 824 DVD-Authoring 826, 827 DVD-Brenner 802 DVD-Playertyp 806 DVD-R 825 DVD-ROM 806 DVD-V(ideo) 805, 824 DVI (Digital Visual Interface) 644 Dye-Polymer-Verfahren 801 Dynamic Crosstalk 665 Dynamic Label 1063 Dynamik 819, 1149 Dynamik, musikalische 62 Dynamikbereich 767, 802, 817, 1149 Dynamikbereiche, Musikinstrumente 62 Dynamikkompression 1153 Dynamiksteuerung 329, 1155
E E1-Leitung 938, 941, 954 E1-Schnittstelle 630, 936 EAN (European Article Number, Europäische Artikel-Nummer) 800, 957 E-Bass 76 ECC (Error Correction Code) 777, 791, 804, 813 Echokompensation 603 Echolöschung 390 Echtzeit 625 EDC (Error Detection Code) 775 Edited Master 824 EDL (Edit-Decision-List) 884 EEPROM (Electrically Erasable Programmable Read Only Memory) 811 Effekt, magnetooptisch 807 Effektgerät, digital 719 Effektivwert 604, 612 EFM-(Eight to Fourteen Modulation)-Code 773 EFM-Modulation 800 EFMplus-Code 774 E-Gitarre 75 eigentonfrei 915 Eingangsdatenrate 770 1263
Sachregister Eingangstiefpassfilterung 614 Einheitspuls 606 Einzelbitfehler 813 Einzelmikrofonverfahren 235 Elektrische Sicherheit 1211 Elektronische Instrumente 86 Elliptische Schrift 817 Embedded Audio 643 ENG (Electronic News-Gathering) 867 Englisch Horn 66, 71 Enhanced apt-X 696, 955, 1084 Enhancer 346 Ensemble Provider 1002 Entfernungskompensation 821 Entfernungswahrnehmung 109 Entkopplung, galvanisch 630 Entzerrer 771 E-Orgel 91 EPG (Electronic Programme Guide) 1068 EPR-(Enhanced Partial Response)Übertragungskanal 789 EPROM (Electrically Programmable Read Only Memory) 811 Equalizer 343, 818 Equalizer, grafischer 344, 542 Equalizer, parametrischer 345, 541 Erde-Funkstelle 935 Erdung 444 Ereignisplanung 757 Error Concealment 630 Error Correction Code 777, 791, 804, 813 Ersatzimmissionsort 1206 Erste Reflexionen 23, 512 E-Schlagzeug 91 Essenzdaten 603, 645, 831 Ethernet-Technologie 630, 639 ETOX-Zelle 811 Eulersche Formel 605 Europäische Artikel-Nummer 800 Exabyte 789, 823 Expander 335 Extended Search 839
F Fading 964 Fagott 66, 70 1264
Faltung 607, 720 Faltungscode 980 Faltungshall 354, 821 Fantasound 1078 FAS (Frame Alignment Signal) 940 FAT (File Allocation Table) 795, 798 Fehlanpassung 638 Fehlerauswertung 815 Fehlerbehandlung 629 Fehlererkennung 771, 775, 1127 Fehlerklassen 815 Fehlerkorrektur 775, 784, 800, 813, 1128 Fehlerrate 777, 961 Fehlerschutz 804, 935 Fehlerschutzcode 815 Fehlerschutzcodierung 789 Fehlerschutzdaten 768 Fehlerschutzvorkehrung 1214 Fehlerstrom-Schutzschaltung 1215 Fehlerverschleierung 784 Fernsehaufnahmen, klangliche Aspekte 290 Fernsehen, analog 988 Fernsehen, digital 1005 Fernsehspiel 296 Festkommaformat 626 Festplattensystem 777, 787, 791, 809, 836 Feuilleton 274 FFPA (Free Field Programmable Arrays) 727 FFT (Fast Fourier Transform) 628 FIC (Fast Information Channel) 1055 File 730 File Allocation Table 795 Filepush 957 Filesystem 804, 812 Filetransfer 731, 823, 923, 955 Filmtonformat 889 Filter 626 Filter, klassisch 338 Filter, linear 603 Filterbank 659, 683 Fingerabdruck, digital 708, 710, 713 Firewall 836 FireWire 630, 639 FIR-Filter 627 Fixed Point Format 626
Sachregister FLAC (Free Lossless Audio Codec) 703, 957, 960 Flachheitsmaß, spektral 709 Flanger 75, 358 Flash-Speicher 811 Floating Point Format 626 Flöte 68, 70 FM-Rundfunk 969, 986 FM-Rundfunkqualität 1110 FM-Stereo-Multiplexsignal 987 FOH (Front Of House) 513, 538, 540 Foley Artist 861 Form, zeitdiskret 601 Formant 60 Fotodiode 801 Fourier-Analyse 47 Fourier-Reihe 604 Fourier-Transformation 605, 628 FPGA (Field Programmable Gate Array) 625, 727 Frame 800, 940 Frequenz 2, 45 Frequenzanalyse 660 Frequenzgruppenzuordnung 660 Frequenzhub 970, 986 Frequenzmodulation 86, 970, 986 Frequenznormale 945 Frequenzspektrum 604, 1138 FSK-Modulation 975 Führungsspur 802, 807 Fukada-Tree 256 Funkhaustelegramm 1052
G G 20 - Lärm 1201 G.722.1, G.722.2 698 Gaslaser 796 Gate 335 Gefährdungsbeurteilung 1198 Gefährdungsermittlung 1196 Gefährdungsfaktoren 1197 Gegensprechanlage 930 Gehör 95 Gehör, Anpassung 102 Gehör, Eigenschaften 98 Gehör, Verdeckung 99, 102
Gehör, Verzerrungen 103 Generatorpolynom 776, 787, 940 Geräusch 44 Geräusch, granular 614 Gesetz der ersten Wellenfront 189, 202, 518 Gesundheitsschutz 1187, 1198, 1203 Gitarre 75 Gitarre, akustische 75 Glasfaserleitung 723, 937 Glasmaster 818 Gleichfeldrauschen 389 Gleichspannungsanteil 770, 818, 948 Gleichwellennetz 966 Gleitkomma-Arithmetik 724 Gleitkomma-Format 626 Gleitkomma-Umsetzung 942 Glockenfilter 343 Glosse 274 GMR-(Giant Magneto Resistance)Technologie 778 Goniometer 236, 1145 Grabbing 737 Granularsynthese 86 Granulierungsverzerrung 614 Grenzflächenmikrofon 154 Grenzkurven, Störschallpegel 33 Grenzwert, subjektiv 1111 Groovebox 91 Groß-AB 222 Großmembranmikrofon 156 Group Code Recording 774 Grundrahmen 937 Grundton 60, 604 Gruppencode 784 GUI (Graphical User Interface) 831 GXF (General Exchange Format) 875
H Haas-Effekt 108, 189, 523 Halbleiterlaser 801 Hall, siehe Nachhall Hallabstand 30 Hallerzeugung, analog 350 Hallerzeugung, digital algorithmisch 352 Hallerzeugung, Faltungshall 354, 720 1265
Sachregister Hallfeder 350 Hallfolie 351 Halligkeit 349 Hallplatte 351 Hallradius 30, 514 Hamasaki-Square 261 Hamming-Distanz 775, 1128 Hammondorgel 84 HAMR (Heat Assisted Magnetic Recording) 795 Harddisk 791 Harddisk-Sektor 798 Harmonische 60, 604 Harvard-Architektur 625 Hash-Algorithmus 1128 Hash-Funktion 709, 710 HD (High Definition) 827 HD-(High Density)-DVD 829 HDB3-Code 939 HDC (Holographic Disk Cartridge) 811 HDD (Hard Disk Drive) 791 HDM (High Density Modulation) 774 HDM-1-Kanalcode 787 HDMI (High Definition Multimedia Interface) 644 HD-Radio 1019 HD-SDI (High Density Serial Digital Interface) 903 HDTV (High Definition Television) 878 HDTV-Übertragung 644 HE-AAC (High-Efficiency AAC) 684, 1097 Headroom 615, 942 Headset 157 Heat Assisted Magnetic Recording 795 Helical-Scan-Aufzeichnung 780 Helical-Scan-Bereich 789 Helmholtz-Resonator 17 HF-Vormagnetisierung 383 HHD (Hybrid Hard Drive) 814 Hi8-Kassette 784 Hidden Reference 1167 High-quality Regieraum 1159 Hilfssumme 485 Hinterbandkontrolle 777, 782, 788, 809 Hinz-Triller 760, 928 Hochfrequenzfestigkeit 570 1266
Hochpass 339 Höhenabsenkung 616 Höhenabsorber 15 Holographic Disc 811 Holophone-System 865 Holzblasinstrumente, Klangstruktur 68, 70 Holzblasinstrumente, Richtcharakteristik 80 Hörakustik, Begriffe 22 Hören, räumliches 105 Höreraufmerksamkeit 366 Hörereignis 97 Hörfunk-Dauerleitungsnetz 914, 952 Horn 66, 73, 82 Hörsamkeit 22 Hörschaden 1200 Hörschwellenverschiebung 1202 Hörspiel 274 Hörspielkomplex 34 Hörtest 673 Hörtest, Absolutbewertung 1166 Hörtest, Bewertungsskale 1172 Hörtest, Hidden reference 1167 Hörtest, Testmethode 1167 Hörtest, Vergleichstest 1167 Hot-Zone 742, 754 HTTP/TCP (HyperText Transport Control Protocol/TCP) 1034 Hub (USB) 641 Hüllkurvensteuerung 90 HVD-(Holographic Versatile Disc)-System 811 HYBNET 923, 951, 955 Hybrid Disc 803 Hybrid Hard Drive 814 Hybrid-DVD 806 Hybrides Breitbandübertragungsnetzwerk 951 Hyperakusis 1202 Hysteresisschleife 374
I IBOC 1019 IDE-Laufwerken 795 IEM (In Ear Monitoring) 179, 539 IIR-Filter 627 Image 815
Sachregister Image Assistant 198 Im-Kopf-Lokalisation 111 Impairment Scale 1172 Impulsantwort 627, 720 Impulsmaske 937 INA 5- Anordnung 865 Inband-Signalisierung 961 Inmarsat-Satellitensystem 961 Insert 723, 885 Intensitätsstereofonie 214 Intensity Stereo 665, 672 Interblock Gaps 783 Interchange File Format 824 Intercom 929 Interface 626 Interferenzempfänger 134 Interleaving 629, 776, 980, 995 Intermediate Quality 669 Intermodulationsfaktor 566 Internetradio 1026 Interpolation 623, 777, 802, 815 Interrupt-Transfer 642 Intervall 56 Interview 274 IP (Internet-Protokoll) 631, 762, 1033 Irrelevanzreduktion 665, 935 IRT-Kreuz 264, 865 IRT-Zweitonverfahren 857, 896 ISDB (Integrated Services Digital Broadcasting) 1023 ISDN (Integrated Services Digital Network) 916, 935, 960 ISRC (International Standard Recording Code) 800, 823 ITU-T G.722 697 ITU-T J.41-Format 940, 954 ITU-T J.57-Format 940, 954
J Jaguar-Format 789 Jitter 611, 638, 769, 1122 Joint-Stereo Codierung 664 Joy Stick 723 Juke-Box 807
K Kabelfernsehen 1012 Kabelführung, -länge 442 Kabelrundfunk 967 Kabelsteckverbindungen 458 Kammermusik 281 Kammfilterkurve 239, 356 Kanal- und Spurenbelegung, MAZProgrammaustausch 876 Kanalbelegung, Mehrkanalton 1084 Kanalcodierung 628, 649, 768, 804, 935, 979, 992 Kanaldaten 768 Kanalmodulation 768, 771 Kanalstatus-Information 634 Katalogsystem 829 Kennbänder 405 Kennlinie, quasilogarithmisch 613 Kerr-Effekt 797, 807 Keulenrichtcharakteristik 134 Keyboard 90 KFM, s. Kugelflächenmikrofon KFM-Surround 260 Kinomischung 822 Kirchen, Akustik 37 Klang und Bedeutung 364 Klangabschnitt, quasistationär 58 Klangästhetik, Fernsehaufnahme 290 Klangästhetik, historische Entwicklung 288 Klangästhetik, Musikaufnahme 278 Klangästhetik, Zielsetzung 363 Klangecho 11 Klangeffekte durch Signalverzögerung 356 Klangfarbe, Beeinflussung 338 Klanggestaltung 269, 321, 338 Klangrestauration 731 Klangstruktur 47, 355 Klarheitsmaß 24 Klarinette 70 Klassik-Open Air 285 Klavier, Klangstruktur 74 Klavier, Richtcharakteristik 82 Klein-AB 221 Kleinspannung 1219 Klinkensteckverbindung 448 Klirrfaktor 565 1267
Sachregister KLV-Verfahren 874 Knackstörung 570 Knalltrauma 1199 Knotenpunkt 479 Knotenpunktverstärker 479, 495 Koaxial-Kabel 637 Kodak-Keycode 878 Koinzidenzmikrofon 149 Kollimator 801 Kommandoanlagen 930 Kommandoverstärker 465 Kommentar 274 Komparator 618 Kompressionsfaktor, Daten 941, 942 Kompressor 329 Kondensatormikrofone 138 Kontaktmikrofon 158 Kontrabass 65 Kontrollbit 800 Konzertsaal, Akustik 37, 39 Kopfabrieb 780 Kopfbezogene binaurale Übertragung 296 Kopfhörer 177 Kopfhörer, drahtlos 179 Kopfhörer, Entzerrung 301 Kopfhörer, virtuell 312 Kopfhörerwiedergabe 1164 Kopiereffekt 390, 767 Kopierschutz 781, 814, 826, 828, 957 Kopierverlust 767 Koppelfeld 450, 723, 911 Korrekturwert, Beschallung 1206 Korrelationsgrad 236, 1139 Kreisfrequenz 46 Kreuzschiene, Raummultiplex, Zeitmultiplex 724 Kugelflächenmikrofon 227, 260 Kugelwelle 4 Kunstkopfverfahren 296 Kurven gleicher Lautstärke 98 Kurzwellen-Rundfunk 964, 984
L Lackplatten-Schneidverfahren 418 LAN, Local Area Network 630 Längsaufzeichnung 785 1268
Längsparität 771 Langzeitarchiv 802 Langzeitrecherche 959 Langzeitstabilität 603, 807 Lärm 45, 1198 Lärmbelastung 1198 Lärmrichtlinie 1190 Laser 796, 800, 807 Latenz 642, 728, 793, 821, 961 Lateralisation bei Kopfhörerdarbietung 202 Laufzeitkorrektur 821 Laufzeitstereofonie 184, 220 Lautheit 99 Lautheitsausgleich 1202 Lautheitsregelung 329, 887 Lautsprecher 170, 527 Lautsprecher, Bündelungsgrad 531 Lautsprecher, Bündelungssmaß 1163 Lautsprecher, CD-Horn 534 Lautsprecher, Dipolstrahler 533 Lautsprecher, dynamisch 114 Lautsprecher, elektroakustische Eigenschaften 527 Lautsprecher, elektrostatisch 173 Lautsprecher, Frequenzgang 529 Lautsprecher, Horn- 172, 534 Lautsprecher, Kalotten- 172 Lautsprecher, Kennschalldruck 527 Lautsprecher, Konus- 171 Lautsprecher, Line-Array 536 Lautsprecher, Nennleistung 529 Lautsprecher, Regie- 176 Lautsprecher, Richtungsfaktor 531 Lautsprecher, Richtungsmaß 531 Lautsprecher, Richtwirkung 530 Lautsprecher, Spitzenschalldruck 529 Lautsprecheranordnung, Mehrkanalstereofonie 241 Lautsprecheranordnung, Zweikanalstereofonie 187 Lautsprecherbasis 208 Lautsprecherbox 175 Lautsprechersystem, Messungen 580 Lautsprecherwiedergabe 184, 201, 208 Lautstärkemessung 1142 Lautstärkepegel 99
Sachregister Lavalier-Mikrofon 54 Layer 1 679 Layer 2 680 Layer 3 681 Layer Break 825 Lead-In, Out 798, 824 Leistungsdichtespektrum 605 Leistungsverstärker 497 Leitungsführung 437 Leitungsverbindungen 447 Lesekopf 771, 788 Lesezyklus 793 Leslie-Kabinett 75, 360 LFE (Low Frequency Enhancement / Effect) 243, 822, 895, 1079 LGMR (Laser Guided Magnetic Recording) 789 Lichtbandbreite 416 Lichtbogenunfall 1214 Lichtton 890 Limit Cycle 628 Limiter 329, 818 Lineargeschwindigkeit, CD 799 Linearmotor 793 Linear-PCM 827 Linienspektrum 606 Logic 7 898, 1080 Lokalisationsunschärfe 108 Löschung, Flash 811 Lossless Coding 650, 702 Lt, Rt 701 LTC (Longitudinal Timecode) 872, 878 LTO-(Linear Tape Open, Ultrium)-Format 789 Luftschallschutzmaß 19 LWL (Lichtwellenleiter) 630
M MADI-Format 632 MADI-Verbindung 630 Magazin, Sendung 294 Magic Surround 898 Magnetband-Aufzeichnung, analog 380 Magnetband-Aufzeichnung, digital 780 Magnetband-Datensystem 787 Magnetismus 372, 808
Magnetplatte 791 Magnetschichtspeicher 807 Magnettonanlage 406 Magnettonanlage, Messungen 584 Magnettonband 378, 385 Magnettonband, Kennbänder 405 Magnettonband, Schnittbearbeitung 404 Magnettonverfahren 376 Magnettonverfahren, Aufzeichnung 380 Magnettonverfahren, Entzerrung 394 Magnettonverfahren, Wiedergabe 392 Malign Noise 614 Manchester-Code 773 Mapping 851 Maskenstruktur 813 Maskierung, frequenzabhängig 655 Maskierung, zeitabhängig 657 Maskierungsschwelle 655 Masseschleifen 467 Master-Equalizer 550 Mastering 796, 818, 822 Mastering, Surround 821 Master-Keyboard 89 Master-Medium 818 Mastertape 788, 796 Master-TOC 804 MAZ-Spurbelegung 1087 MD (MiniDisc) 807 Mean Time Between Failures 837 ME-Band 780 Medienästhetik 365 Mehrband-Kompression 334 Mehrfach-AB-Verfahren 247 Mehrfacherdung 468 Mehrkanaldatenstrom 947 Mehrkanal-Lautstärkemesser 1144 Mehrkanal-Schnittstellen 638 Mehrkanal-Sichtgerät 1146 Mehrkanal-Standard 240 Mehrkanal-Stereofonie 206, 240 Mehrkanalton, Formate 1080 Mehrkanalton, Hörfunk und Fernsehen 1078 Mehrkanalton, 5.1 724, 1079, 1089, 1094 Mehrkanalton, 7.1 724 Mehrspur-Magnettonanlagen 411 1269
Sachregister Mehrwege-Rundfunkkanal 964 Meldeleitung 931 Mellotron 84 Mel-Skala 656 Memory Stick 813 Memory-Controller 813 Memory-In-Cartridge 787, 824 Mensch-Maschine-System 1179 Menü-Navigation 825 Merging 773 Messmethoden, digitale 583 Messsysteme 1130 Messverfahren 1129 Messverfahren, gehörbasiert objektiv 1131 Metadaten 645, 704, 828, 839, 846, 1041, 1082 Metadaten, dokumentarisch 832, 841 Metadaten, Kategorien 846 Metadaten, Schnittstellenproblematik 852 Metadaten-Management 834, 852 Metadaten-Mapping 851 Metadatenmodell 847 Metadatenschnittstellen 852 Metadaten-Standardisierung 853 Metadatenstruktur 839 Metadatenverarbeitung 834 Metadaten-Visualisierung 848 Metallpartikelband 785 MFM-Code (Modified Frequency Modulation) 773, 794 MHP (Multimedia Home Platform) 1090 MIC (Memory In Cartridge) 787 Mickey-Mouse-Effekt 347 MIDI 88, 880 Mikrofon, Achterrichtcharakteristik 130 Mikrofon, Ansteckmikrofon 157 Mikrofon, Äquivalentschalldruck 122 Mikrofon, Aussteuerungsgrenze 123 Mikrofon, Bändchenmikrofon 153 Mikrofon, Breite Niere 136 Mikrofon, Bündelungsgrad 124 Mikrofon, Diffusfeldentzerrung 117 Mikrofon, drahtlos 159 Mikrofon, Druckempfänger 127, 145 Mikrofon, Druckgradientenempfänger 129, 145 1270
Mikrofon, Druckstau 129 Mikrofon, dynamisch 114, 150 Mikrofon, Eigenschaften 116 Mikrofon, Ersatzlautstärke 122 Mikrofon, Frequenzgang 117, 123 Mikrofon, Grenzflächenmikrofon 154 Mikrofon, Grenzschalldruck 123, 579 Mikrofon, Großmembran- 156 Mikrofon, Hypernierencharakteristik 133 Mikrofon, Kardioidebenenmikrofon 154 Mikrofon, Keulenrichtcharakteristik 134 Mikrofon, Koinzidenzmikrofone 149 Mikrofon, Kondensatormikrofone 138 Mikrofon, Kontakt- 138 Mikrofon, Körperschallmikrofon 158 Mikrofon, Lavalier- 157 Mikrofon, Messungen 577 Mikrofon, Nennabschlussimpedanz 123 Mikrofon, Nierencharakteristik 131 Mikrofon, Phantomspeisung 139 Mikrofon, Richtwirkung 123 Mikrofon, Röhren- 156 Mikrofon, Spannungsversorgung 138 Mikrofon, Störpegel 121 Mikrofon, Störungen durch Körperschall 137 Mikrofon, Supernierencharakteristik 133 Mikrofon, Tauchspulmikrofon 151 Mikrofon, Tonaderspeisung 139 Mikrofon, Übertragungsbereich 117 Mikrofon, umschaltbare Richtcharakteristik 146 Mikrofon, Wind- und Poppstörungen 136 Mikrofonaufnahme, Begriffe 208 Mikrofonaufnahme, Mehrkanalstereofonie 240 Mikrofonaufnahme, Zweikanalstereofonie 210 Mikrofonbasis 208 Mikrofone 115 Mikrofonständer 158 Mikrofon-Trennverteiler 464 Mikrofonverstärker 460 Mikrofon-Vorverstärker, analoger Ausgang 140 Mikrofon-Vorverstärker, digitaler Ausgang 142
Sachregister Miniaturmikrofon 113 Mirroring 603 Mischpult, digital 721 Mithören 595 Mithörschwelle 655 Mitschnittsystem 762, 920 Mittelungspegel 1203 Mittelwellen-Rundfunk 984 Mittenabsorber 17 Mittenschallquelle 270 MLC-(Multi Level Cell)-Technologie 811 MLP (Meridian Lossless Packing) 806, 825, 828 MMC-(MultiMedia)-Karte 813 Mobile Rechneranlagen, Großveranstaltungen 762 MOD (Magneto Optical Disc) 791, 797, 807 Modulationsaufbereitung 721, 819, 918 Modulationseffekt 767 Modulationsrauschen 389 Modulationsverfahren 968 Monitor-Sidefill 539 Monitor-Wedge 538 Monokompatibilität 238 Monostützmikrofone 232 MOT (Multimedia Object Transfer) 1065 Motorpegelsteller 472 MP3-File 681, 957 MP3-Player 811 MP3-Surround 689 MP-Band (Metal-Powder-Band) 780, 789 MPEG Audiostandard 653, 675, 961 MPEG-1 676 MPEG-1, Layer 1 679 MPEG-1, Layer 2 680 MPEG-1, Layer 3 681 MPEG-1/2 Audio 676 MPEG-1/2 Bitstrom 678 MPEG-2 Low Sampling Rate 676 MPEG-2 Multikanal 677 MPEG-2/4 AAC 682.1097 MPEG-2-Datenstrom 826 MPEG-2-Transportstrom 949 MPEG-2-Video 826 MPEG-4 High-Efficiency AAC 684
MPEG-Surround 688 MPEG-TS (Transport Stream) 860 M-PSK-Modulation 974 M-QAM-Modulation 975 MR-(magnetoresistive)-Technik 778, 789 MSB (Most Significant Bit) 618 MS-Codierung 217, 327 MS-Mikrofonverfahren 217, 865 MTBF (Mean Time Between Failures) 837 MTD (Memory Technology Device) 813 Multicast 1032 Multiframe 937 Multi-Level-Architektur 813 Multimedia-Daten 1064 Multimedia-PC 728 MUSHRA-Test 1168 Musikinstrumente, akustische Eigenschaften 56, 66 Musikinstrumente, Ausklingvorgang 61 Musikinstrumente, Dynamik 62 Musikinstrumente, Geräuschkomponenten 61 Musikinstrumente, Klangeinsatz 56 Musikinstrumente, Richtcharakteristiken 77 Musikrecherche 959 Musikrotation 739, 748, 753 Musterversammlungsstättenverordnung 1192 Muting 594, 630, 815 MXF (Media eXchange Format) 730, 845, 874
N NA (Numerical Aperture) 797 Nachecho 670 Nachhall 25, 514, 543 Nachhall, künstlich 350 Nachhalleffekt 671 Nachhallschallfeld 1161 Nachhallzeit 26 Nachhallzeit, optimal 28, 37 Nachhallzeit, veränderbar 35 Nachricht 273 Nachrichtenübertragung 936 Nachrichten-Verteilsystem 735 Nachverdeckung 657 1271
Sachregister Nadelschliffformen 422 Nadelton-Schallplatte 416, 798 Nadelton-Verfahren 412, 817 Nahbesprechungseffekt 119 Nahfeld 6 Nahfeldabhören 1164 Nanotechnologie 791 Naturtöne 60 Nearfills 524 Neo:6 898 Neo-Pilotton 877 Netz-Trenntransformator 466, 1213, 1218 Netzwerk, lokal 836 NICAM 728 896 NICAM Stereo 857, 896 Nieren-Trapez 262 Niveau-Filter 346 NMR (Noise-to-Mask Ratio) 657, 1132 Noise Print 816 Noise Shaping 617, 621, 820 Non Return to Zero 772 Non-Destruktiv 730 Non-Drop-Format 781 Nonlinear-Editing 730 Notchfilter 606 NRZ(I)-Code (NRZ-Inverse) 641, 770, 948 NRZ(I)-Codierung 800 NRZ(I)-Modulation 787 NRZ(L)-Code (NRZ-Level) 772 NRZ(M)-Code (NRZ-Mark) 772 NTSC-Format 826, 878 NTSC-Vollbild 781 Nullung 1217 Numerische Apertur 797 Nutzermanagement 833 Nutzerprofil 839 Nutzungsrecht 750 Nyquist-Frequenz 609, 617 Nyquist-Theorem 602
O OB (Outside Broadcasting) 762 Obertöne, s. Partialtöne Oboe 70 OCT2-Verfahren 251 OCT-Surround 257 1272
OCT-Verfahren 250 OFDM (Orthogonal Frequency Division Multiplex) 976, 1007 Off-Air-Editing 759 Offline-Messung 1129 Ogg Vorbis 700 Online-Messung 1130 Open Air, Klassik- 285 Open Air-Beschallung 550 Oper, Aufnahmetechnik 292 Opernhaus, Akustik 37, 39 Orange Book 801 Orchesteraufstellungen 281 Organic Dye 801 Organisationsverantwortung 1194 Orgel 74 Originaldynamik 819, 1149 Originalklangbild 817 ORTF-Mikrofonverfahren 225 Ortsempfangsleitung 915 Ortssendeleitung 917 OSS-Mikrofonverfahren 230 OTP-(Opposite Track Path)-Modus 806 Over Drive 75 Oversampling 610, 617
P Paar-Vergleichstest 1167 PAC (Perceptual Audio Coding) 654, 675 Packet Identifier 949 Packet Mode 950, 1056 Packungsdichte 793 PAD (Programme Associated Data) 989, 1047, 1056 PAL 826, 878 Panorama-Potentiometer (Pan-Pot) 322, 475 Paragraph 618 BGB 1187 Parametric Stereo 665 Paritätsbit 630, 944 Paritätsprüfung 776, 1127 Partialtöne 60, 604, 614 Partition 812 PASC (Precision Adapted Subband Coding) 782 Passwortschutz 1177
Sachregister Pauke 77 PCM (Phase Change Memory) 814 PCM (Puls Code Modulation), linear 601, 618, 806, 824, 838 PCM 1610/1630 780, 822 PCM, nichtlinear 941 PCM30-System 936 PCM-Aufzeichnung 778, 780, 826 PCM-Basisbandsignal 772 PCM-Block 783 PCM-Form 771 PCM-Primärsystem 936 PCM-Technologie 824 PCR (Programme Clock Reference) 882 PD (Professionel Digital Format, ProDigi) 785 PDD-(Professional Disc for Data)Verfahren 809 PDM (Puls-Dauer-Modulation) 786 PE-(Protected Earth)-Leiter 1217 Peak Shift 778 PEAQ (Perceptual Evaluation of Audio Quality) 1131 Peer-to-Peer 945 Pegel, Pegelmaße 589 Pegelanpassung 819 Pegelbedingung 1115 Pegeldiagramm 596, 1118 Pegelrechnung 594 Pegelsteller 470 Pegeltongenerator 506 P-ELV (Protective Extra Low Voltage) 1214, 1219 Perfoband 871 Periodendauer 2, 45 Permanent Threshold Shift 1202 Perpendicular Recording 795 PESQ (Perceptual Evaluation of Speech Quality) 1132 Phantomschallquelle 187, 208, 271, 322 Phantomschallquellen im Kopf 201 Phantomschallquellen, Theorien 199 Phasenänderung, Hörbarkeit 104 Phasendifferenz, Messung 571 Phasenmodulation 86 Phasenschwankung 610, 770 Phasenspektrum 605
Phasenversatz 1124 Phasenwechselprinzip 809 Phasenwechselverfahren 797 Phasenwinkel 46 Phaser 359 Phase-Vocoder 87 Phonescreening 759 Physical Modeling 85 Piano, elektronisch 91 Piccoloflöte 71 Pilotton 877 Pit 796 Pitch Shifting 347, 719, 731 Pitlänge 805 Pitstruktur 801 Plattenherstellung 418 Plattenkapazität, MOD 809 Plattenspieler, Abtastsystem 420 Plattenspieler, Abtastverzerrungen 423 Plattenspieler, Messungen 588 Plattern 792 Plesiochronwandler 611 Plug In 722, 731, 845 Podcast 1043 Poppschirm, Windschutz 137 POS (Pivoting Optical Servo) 789 Posaune 72 PPM (Peak Programme Meter) 1134 PQ-Editing 823 Precedence-Effekt 108, 189, 527 Preemphasis 986 Pregrooves 807 Premaster-CD 823 Premastering 824 Pressmatrize 796 Pressung, CD 803, 818 PRML-Detektion (Partial Response Maximum Likelihood) 774, 789 PRML-Encoding 780 ProDigi-Format 785 Programmaustausch 788, 923 Programmdynamik 1152 Programm-Identifikation 1060 Programm-Nummer 1062 Programmpegel 1118 Programmsignalkontrolle 1133, 1138 1273
Sachregister Programmsignalkontrolle, auditiv 1157 Programmsignalkontrolle, Aussteuerung 1181 Programmuhr 753 Programmzuführung 955 ProLogic 701 ProLogic IIx 1080 Protokollschicht 642 Provider-Schicht 952.1101 Prüfsumme 629 Prüfsymbol 936 PS-(Programm Service)-Name 1060 PSDH (Plesiochrone/Synchrone Digitale Hierarchie) 952 Pseudo-Video 767, 780, 822 Psychoakustik 97, 364 Psychoakustisches Modell 662 PTP-(Parallel Track Path)-Modus 806 PTS (Permanent Threshold Shift) 1202 PTS (Presentation Time Stamp) 860, 882 PTY, Programm-Typ 1060 Publikum, Schallabsorption 16 Pulsmaske 946 Punkt-zu-Punkt-Verbindung 954 PWM (Pulse Width Modulation) 786 PZM (Pressure Zone Microphone) 864
Q QoS (Quality of Service) 631, 953 QPPM (Quasi Peak Programme Meter) 1134 QPSK-Modulation 973 Q-Subchannel 800 QUADRIGA-(QUality from Analogue to Digital RIGorously Analyzed)Workstation 815 Qualitätsparameter 1111 Qualitätsparameter, Additionsgesetz 1113 Qualitätsparameter, anzustrebende Zielwerte 1111 Qualitätsparameter, subjektiv akustisch 1169 Qualitätsparameter, subjektive Grenzwerte 1111 Qualitätssicherung 802, 843, 1109 Quality Grade 1172 Quantisierung 602, 610, 618, 661 1274
Quantisierung, gleichförmig 602 Quantisierung, grob 614 Quantisierung, linear 602 Quantisierung, nichtlinear 602 Quantisierungsfehler 602, 612, 614 Quantisierungsgeräuschabstand 613, 816 Quantisierungsintervall 613 Quantisierungskennlinie 612, 615, 941 Quantisierungsrauschen 612 Quantisierungsstufe 602, 612, 615 Quantisierungsverzerrung 615 Quarzsignal 611 Quasi-Spitzenwert-Aussteuerungsmesser 1134 Quelldaten 768 Quellencode-Standard 806 Quellencodierung 628, 649, 651, 770, 838, 934, 1094 Quellencodierung, irrelevanzreduziert 629 Quellencodierung, linear 798 Quellencodierverfahren 603, 606, 629, 940 Quer-Parität 770
R R-2R-Wandler 622 Radio-Distribution 819 Radiotext 761, 1062 Radiotext plus 1062 Rahmenformat 937 RAID-(Redundant Array of Independent Disks)-Architektur 795 RAID-Technologie 836 RAM-(Random Access Memory)-Speicher 860 Rauheit 104 Raumakustik 20 Raumakustik bei Beschallungen 512 Raumakustik, Resonator 514 Raumeindruck 22, 349 Räumlichkeit 23, 349 Raummikrofone, Mehrkanaltechnik 261 Raummikrofone, Zweikanaltechnik 349 Raummultiplex 724, 911 Raumresonanzen 10, 513 Raumschall 25, 271 Rauschen 43
Sachregister Rauschen, gefärbt 612 Rauschen, Rosa 44 Rauschen, thermisch 604 Rauschen, Weiß 44 Rauschfilter, dynamisch 342 Rauschformung 621 Rauschverminderung, drahtlose Mikrofone 160 Rauschverminderung, Magnettonverfahren 399 RAW (Read After Write) 777, 795, 809 RC-(Regional)-Code 826, 828 RCD-Schutzschalter 1213 R-DAT (Rotary head Digital Audio Tape) 781 RDS (Radio-Daten-System) 761, 1047, 1053 RDS-Daten 942 RDS-Protokoll 762 RDS-TMC 1072 Recherche 738, 829 Recherche-Server 959 Recherchewerkzeug 750 Rechteckimpuls 49 Rechtedefinitionssprache 714 Rechtspyramide 1191 Red Book 798, 803, 806 Redundanz 629, 665, 769, 815 Redundanzbildung 800 Redundanzprüfung, zyklisch 776, 1128 Redundanzreduktion 659, 935, 940 Reed-Solomon-Produktcode 804, 806, 982 Reel-to-Reel-Laufwerk 785 Referenz-Vergleichstest 1167 Reflektionsverhalten 797 Reflektogramm 24 Reflexionsschicht, CD 799, 801, 807 Regeneration 769 Regenerationsschaltung 611 Regielautsprecher 1162 Regieraum, Akustik 36 Regional Code 826 Regionalisierung 757 Reiz und Wahrnehmung 363 Rekonstruktionsfilter 608, 616 Relationale Datenbank 838 Remastering 817, 820
Replikation 923, 955, 956 Reportage 273, 294 Reportagefahrzeug 763 Residualton 60 Restauration 814 RF64 646, 730 Rhythmusgerät 90 Richtrohrmikrofon 135 Richtungsabbildung, Begriffe 207 Richtungs-Code 773 Richtungsfaktor, Lautsprecher 530 Richtungshören 106 Richtungsmaß, Lautsprecher 530 Richtungsmischer 326, 474, 477 RIFF WAVE 645 RIFF64 646 Ringmodulator 87, 359 RJ45-Stecker 637 RLL-(Run Length Limited)-Code 774 Roboterarchiv 787 Robotersystem 837 Röhrenmikrofon 156 Rohrrichtmikrofon 135 Rolloff-Faktor 973 ROM (Read Only Memory) 796 Rosa Rauschen 44 Rotary Head 789 Rotationsantrieb 800 Rotationssoftware 748 Rotosyn 880 Routing 450 RS-(Reed-Solomon)-Codes 776, 809, 979, 982 RS-422 906 RSS (Really Simple Syndication) 1044 RTP/UDP-Protokoll 1034 Rückkopplungsfilter 342 Rückkopplungsgrenze 512 Rückwärtskorrektur 629 Ruhehörschwelle 655 Rundfunksystem 963 Rundfunksystem, Internet 1026 Rundfunksystem, kabelgebunden 967 Rundfunksystem, satellitengestützt 966, 1024 Rundfunksystem, terrestrisch 984 1275
Sachregister Running Disparity Parameter 948 RW (ReWritable) 797 RWE (Read Write Erase) 797 RWW (Read-While-Write) 812 RZ-(Return to Zero)-Code 772
S S0-Anschluss 960 SAC (Spacial Audio Coding) 899 SACD (Super Audio CD) 624, 785, 802, 806, 823 SACD, hybride 803 SACD-Channel Text 824 SACD-Datenstruktur 824 SACD-Masterrecorder 802 SAHD (Super Audio Hybrid Disk) 824 SAIT-(Super AIT)-Format 790 Sakralorgel 91 Sample 607 Sample and Hold 610, 616 Sampler 89 Sampling Clock 610 SAN (Storage Area Network) 836 SAR (Successive Approximation Register) 618 SATA-HDD (SATA Hard Disk Drive) 795 Satelliten-Codec 961 Satelliten-Hop 962 Satellitenkanal 962 Satelliten-Rundfunk 966, 1024 Satellitenstrecke 915, 961 Satellitenübertragung 961 Satelliten-Uplink 947, 955 Saxophon 70 SBMD-(Super Bit Mapping Direct)-System 803 SBR (Spectral Band Replication) 662 Scarlet Book 803, 805 Schah-Funktion 607 Schallabsorption 14 Schallausbreitung im Raum 9 Schallausbreitung in Luft 1 Schallbeugung 12 Schallbrechung 13 Schallbündelung 11, 513 Schalldämmung 19 1276
Schalldruck 5 Schalldruckpegel 7, 574 Schalleinsatz 30 Schallenergiedichte 25 Schallereignis 97 Schallfeld 1 Schallfeldsynthese 185 Schallformen 43 Schallgeschwindigkeit 2 Schallimmission 1206 Schallimpuls 43 Schallintensität 8 Schallkennimpedanz 5 Schallleistung 8 Schallplatte 412 Schallquellen 43 Schallreflexion 9, 514 Schallschnelle 5 Schallspeicherung, magnetisch 372 Schallspeicherung, mechanisch 412 Schallwahrnehmung 95 Schallwandler 113 Schalter 459 Schärfe, Klang 104 Scheinwiderstand 557 Schirmung 441 Schlaginstrumente 77 Schneidkennlinien 416 Schnittstellenmessung 1130 Schrägspur-Aufzeichnung 789 Schreib- und Lesegeschwindigkeit 814 Schreib-/Lesekopf 778, 788, 793, 795, 809 Schreib-/Lösch-Zyklus 812 Schreibdichte 792 Schreibgeschwindigkeit 802 Schreibkopf 768, 788 Schreibschutz 814 Schutzerdung 1218 Schutzisolierung 1216 Schutzlack 799, 803 Schutzmaßnahmen 1205 Schutzschicht, MOD 796, 807 Schutztrennung 1218 Schutzvorkehrungen 1214 Schwarzplatte 817 Schwebung 47
Sachregister Schwellwertschaltung 796 Schwingung 2, 45 Schwingung, einfach 45 Schwingung, Überlagerung 47 Schwingung, zusammengesetzte 47 SCMS 781 SCMS (Serial Copy Management System) 781 S-DAT-(Stationary Head Digital Audio Tape)-Format 781 SDH (Synchrone Digitale Hierarchie) 630, 952 SDH-Festnetzverbindungen 952 SDH-Multiplexer 953 SDH-Ringstruktur 952 SDI (Serial Digital Interface) 643, 903, 905 SDIF-2-Format 632 SD-Karte 813, 814 SDTI (Serial Data Transport Interface) 905 Segment-Codiervorschrift 941 Segmentkennlinie 613 Seitenband 608, 616 Seitenschallquelle, frontale 270 Sektor, MOD 793, 797, 800, 809 Sektoradressierung, CD 798 Selbstentmagnetisierung 384 Selbstfahrerbetrieb 733, 927 S-ELV (Safety Extra Low Voltage) 1214, 1219 Semantik 628, 851 Sendeablauf 743, 754 Sendeabwicklung 732 Sendebegrenzer 819 Sendekomplex 925 Sendeplanung 739 Sendeprotokoll 750 Senderzuführung 955 Sendeschalter 928 Sendestudio 924 Sendeverteilung 917 Sendevorbereitung 743 Sendungsbegleitende Produktion 747 Senkrechtaufzeichnungstechnik 795 SEPMAG (SEParate MAGnetic recording) 871 Sequenzer 89 Serpentinen-Modus 788
Server 735, 795, 921 Server-Netzwerk 823 Service-Informationen 1058 Service-Provider 1002 Servosignal 770 Servospur 789, 794 Servotargets 789 Set-Top-Box 1093 SFX (Sound Effects) 861, 862 Shannon-Theorem 602, 617 Shelf Life 809 Shelf-Filter 345 Shoutcast 1038 Sicherheit auf Bühnen 1222 Side Lobes 608, 616 Signal, diskret 607, 616 Signal, kontinuierlich 603, 607, 616 Signal, periodisch 605 Signal, wertdiskret 617 Signal, wertkontinuierlich 604, 617 Signal, zeitdiskret 608, 616 Signal, zeitkontinuierlich 604, 616 Signal-/Störspannungsverhältnis 610 Signalanteil, rekursiv 628 Signalanteil, verzögert 628 Signalsynthese 603 Signaltakt 768 Signalübergaberaum 953 Signalüberwachung 498 Signalverzögerung 611, 643, 728, 821, 919, 939 Signalweg, virtuell 722 Signatur, digital 704 Simulcast 955 Sinc-Funktion 616 Singformant 53 Single-Layer 803 Singstimme, Klangstruktur 53 Singstimme, Richtcharakteristik 54 Sitcom 296 Skalenfaktor 942 Skalierbarkeit 833 Slide Show 824, 1053, 1066 SMC-(SmartMedia)-Karte 813 SMPTE-Timecode 784, 868, 878 SMR (Signal-to-Mask Ratio) 657 1277
Sachregister SNG-Fahrzeug 762 SNR (Signal-to-Noise-Ratio) 610, 657 SOA (Service Oriented Architecture) 835 Solid State Disc 814 Sony 9-Pin 906 Soundfield-Mikrofon 865 Spalteffekt 777 Spaltfunktion 778 Spaltschiefstellung 771 Spatial (Binaural) Cue 658 Spatial Audio 666 Spatial Audio Coding 899 SPDIF (Sony Philips Digital Interface) 630, 637 Speicher, digital 831 Speicher, ferromagnetisch 791 Speicher, holographisch 811 Speicher, magnetooptisch 807, 809 Speicher, optisch 796 Speicher, transmittierend 796 Speicherdichte 798 Speicherkanal 769 Speicherkapazität 787, 794, 795, 798, 805, 838 Speichermedium 768, 780, 798 Speichernetzwerk 836 Speichersicherheit 837 Speichertechnologie 836 Spektrum, Digitalsignal 605 Spezialfilter 342 Spezialverstärker 490 Spiegel, semitransparent 801 Spiegelung 607 Spiegelungsfehler 603 Spielfilm 295 Spiralspur 800, 805, 809 Sport, Fernsehen 293 Sprachcodec 697 Sprache, Aufnahme 275 Sprache, Formanten 347 Sprache, Schallpegel 53 Sprache, Spektrum 52 Sprache, Verständlichkeit 55 Sprungfunktion 49 Sputtern 807 SR-2 Timecode 878 1278
SRC (Sample-Rate-Converter) 727, 941 SSD (Solid State Disc) 814 SSF (Surround Sound Forum) 1089 Stacking 535 Stage Box 723 Standbild 824 Stapediusreflex 1203 Statistical Recovered Timing 961 Statusbit 813 Statuspaket 642 Steckverbinder 637, 642 Stereobreitenregler 326 Stereoenhancer 326 Stereofonie 184 Stereohörfläche 193 Stereolautstärkemesser 1143 Stereomatrix 217, 326 Stereomikrofon 208 Stereoparameter, Messung 571 Stereosichtgerät 238, 1125, 1145 Stereosignale, Überwachung 236 Stereostützmikrofone 233 Stereoumsetzung 217, 326 Stereozilen 1201 Sternpunkt 956 Sternpunktkoppelfeld 955 Stimme, Akustik 50 Stimme, Richtcharakteristik 56 Stimmton 64 Stimmung, Instrumente 64 Stimmung, temperiert 64, 348 Stopfbyte 947, 949, 950 Störgeräuschpegel, Studio 32 Störpegel 1118 Störpegelmessung 1120 Störspannung, Messung 567 Störspannungsabstand 389 Störspektrum 1120 Stoßfunktion 49 Streaming 631, 1030, 1035 Streaming Protokoll 1033 Streichinstrumente, Klangstruktur 65, 66 Streichinstrumente, Richtcharakteristik 78 Streifentechnik 506 Studiokopfhörer 302 Stummschaltung 815
Sachregister Stützmikrofonverfahren 230 Stütztechnik und Raumeindruck 233 SUB-Block 783 Subchannel 800, 1055 SUB-Daten 783 Sub-FM-Qualität 669, 1110 Subgruppe 724 Sub-Multiframe 940 Substitutionsfehler 775 Subwoofer 244, 524 Successive-Approximation-Wandler 618 Summen-Differenzübertrager 326 Summenlokalisation 200 SÜR (Signalübergaberaum) 953 Surround Sound-Hauptmikrofon 256 Surround-Formate 633 Surround-Kanäle 253, 822 Surround-Panoramasystem 325 Surroundton, matrizierter 700, 897 Surround-Wiedergabe 240, 821 Sustain 75 S-VHS-Videokassettensystem 784 Symmetric-Phase-Recording 789 Symmetrie, elektrisch 437, 558 Synchronisationsfehler 775 Synchronisierung 633, 636, 727, 770, 945, 1123 Synchronstudio 866, 886 Sync-Zone 902 Synthese, additiv 85 Synthese, subtraktiv 86 Synthesizer 90 System, holographisch 811 System, multimedial 603 System, plesiochron 727 Systemdynamik 1150 Systemdynamik, technisch 612 Systemgrenzpegel 1116 Systemrauschen 569 Systemtakt 945
T TA (Traffic Anouncement) 760, 762, 1061 Taktfrequenz 726 Taktkanal 770 Taktrückgewinnung 939
Taktschwebungen 611 Taktsignal 727 Taktspur 770 Taktung, extern 769 Taktversorgung 727 Talkbox 75 Tandem-Codierung 673 Tape Library 836 Tapestry 811 TAR (Thermally Assisted Recording) 795 Tauchspulmikrofon 114 TCP (Transmission Control Protocol) 631 TDAC (Time Domain Aliasing Cancellation) 961 TDIF-Schnittstelle 630 TDM (Time Division Multiplexing) 880, 936 Teiltöne, s. Partialtöne Telcom-Verfahren 400 Telefon-Hybrid 928 Terrestrischer Rundfunk 984 THD+N (Total Harmonic Distortion + Noise) 1121 THX (Tomlinson Holman Experiment) 894 Tiefenabsorber 18 Tiefenstaffelung 271, 286 Tieffrequenzfestigkeit 570 Tiefpass 340, 603, 609 Time Alignment 883 Time Stretching 349, 719, 731 Timecode 785, 868 Timecode-Verkopplung 784 Time-Stamping 881 Tinnitus 1199 Titel-Datensatz 848 TMC-Daten 761, 762, 1071, 1074 TMCpro 1071 TNS (Temporal Noise Shaping) 660 TOC (Table Of Content) 804 Ton 43 Tonangel 863 Tonarchiv, digital 829, 845 Tonarm 422 Tonaufnahme 183 Tonaufnahme, Fernsehton 290 Tonaufnahme, Gesprächsrunde 274, 277 1279
Sachregister Tonaufnahme, klassische Musik 728 Tonaufnahme, Wort 273 Tonaufnahmeraum 279 Tonaufnahmetechnik, Begriffe 207 Tonaufnahmetechnik, Mehrkanal- 240 Tonaufnahmetechnik, Zweikanal- 210 Tondauer, Beeinflussung 347 Tondauer, subjektive 104 Tongemisch 43 Tonhöhe 101, 347 Tonimpuls 43 Tonkanalparameter 1111 Tonmesstechnik, analog 431, 555 Tonmesstechnik, digital, s. Audiomesstechnik Tonmischpult, digital 721 Tonregieanlagen, Aufbau 432 Tonregieanlagen, historische Entwicklung 431 Tonregieanlagen, Streifentechnik 506 Tonsignalrestauration 814, 820 Tonsignalspeicherung, analog 371 Tonsignalspeicherung, digital 767 Tonsignalspeicherung, magnetisch 372 Tonsignalspeicherung, mechanisch 412 Tonsignalstörung, digital 1171 Tonwiedergabe 183 TopNews 1070 Torus 926 TOS-Link 637 Total Recall 721 Touch Wah 75 TPEG (Transport Protocol Experts Group) 1074 Trägermodulation, periodisch 772 Transferrate 787, 795 Transformationspaar 606 Transitional Synthesis 87 Transportstrom 947 Transportstrom-Synchron-Byte 949 Transversalfilter 627 Trautonium 83 Tremolo 355 Trenn- und Verteilerverstärker 491, 496 Trennkörperverfahren 230 Trenntransformator 1213, 1218 1280
Trennübertrager 469 Trichterklang 814 Triergon 857 Trompete 72 Truncation 615, 625, 820, 943 TTS (Temporary Threshold Shift) 1202 Tuba 72 Tunnel-Oxidschicht 811 Twin-DASH 786 Twisted Pair 637
U Überabtastung 609, 617 Überbasissteller 478 Überblendregler 472 Überlagerung von Spannungen 595 Übersprechdämpfung 767 Übersprechen, Messung 573 Übersteuerung 615 Übersteuerungsreserve 942 Übertragung, mehrkanalig 637 Übertragungsbitrate, bei E1 941 Übertragungsfehler 629, 935 Übertragungsfunktion 627 Übertragungskanal, real 935 Übertragungsmodus, isochron 640 Übertragungsparameter, bei E1 936 Übertragungswagen, Akustik 37 UDF (Universal Disk Format) 798, 802, 805, 806 UDO-(Ultra Density Optical)-Verfahren 809 UDP-Protokoll 631 UECP-Protokoll 1051 UKW/FM-Rundfunk 986 UKW-Sender-Speisung 942 U-Matic 781, 822 UMID (Universal Material Identifier) 874 Umschlingungswinkel 783 Unfallverhütungsvorschriften 1187 Unfallversicherungsträger 1187 Unicast 1030 Unipulse 606 Universalverstärker 482, 490, 493 Unshielded Twisted Pair 640 Unterabtastung 609
Sachregister Uplink-Standort 946 USB (Universal Serial Bus) 630, 640, 643 USB-Funktion 641 USB-Stick 811 User Data Bit, AES/EBU 634 UDP (User Datagram Protocol) 631 UTP (Unshielded Twisted Pair) 640
V Validity-Bit 633 Variable Dynamik 1155 VCA-Pegelsteller 472 VDT (Verband Deutscher Tonmeister) 1209 Veranstalter, Arbeitssicherheit 1193 Verdeckung 655 Verhallung, MP-Schaltungen 487 Verkehrsmeldungen 758, 1071 Verkehrssicherungspflicht 1204 Versatzwinkel 208 Verstärkung 555 Verzerrer 346 Verzerrungen, linear 559 Verzerrungen, Messverfahren 564 Verzerrungen, nichtlinear 561, 767 Vibrato 355 Video-Encoding 826, 827 Videofiletransfer 952 Videoformate 790 Videolaufwerk 784 Videoschnittstelle 643 Viola 65 Violine 65 Violoncello 65 Virtual Panning Spot 309 VITC (Vertical Interval Timecode) 878 Viterbi-Decoder 774, 809, 981 VOB-(Video OBject)-Datei 806 Vocoder 361 Voice over IP 931 Voice-Tracking 755 Vokale 50 Vollaussteuerung 603 Volltextsuche 839 Volumenkennzahl 28, 39 Volumenpackungsdichte 796
von-Neumann-Architektur 625 Vorecho 670 Vorformatierung 789 Vorhang, Schallabsorber 15 Vorhören 504 Vorläuferimpuls 73 Vormultiplexbildung 946 Vorverdeckungseffekt 657 Vorwärtskorrektur 630 VPLT (Verband für professionelle Licht und Tontechnik) 1209 VU-Meter 1134, 1138
W Wägeverfahren 618 Wah Wah 75, 355 WAN-Bereich 631 Wandler, elektrodynamisch 113 Wandler, elektrostatisch 114 Wandler, magnetostrikiv 114 Wandler, piezoelektrisch 115 Watermarking 705, 706, 713, 892, 960 WAV-(WAVeform Audio File)-Format 645, 730 Wavetable-Synthese 86 Wear Leveling 812 Web-Taxi 923 Wechselsprechanlage 930 Weißes Rauschen 44, 606, 612, 614 Welle, ebene 4 Welle, Kugel- 4 Welle, stehende 10, 513 Welle, Zylinder 537 Wellenformcodierung 650 Wellenlänge 2, 797 Wellenwiderstand 937, 947 Wertdiskrete Form 601 Wertebereich 612 WFS (Wellenfeldsynthese) 185, 304 Wiedergabedynamik 286, 1152 Wiedergabekompatibilität 818 Wiedergabelaser 825 Wiedergabevorgang 392 Williams-Diagramme 226 Winchester-Laufwerk 791, 795 Windjammer 137 1281
Sachregister Windschutz 136, 864 WMA (Windows Media Audio) 700 WO-Disk, holographisch 811 Wohnzimmerakustik 10 Word Clock 727 Workflow 733, 741, 744, 847, 868 Workstation 90, 730, 795, 822 WORM (Write Once Read Multiple) 796 WORM-Bandlaufwerke 809 WORM-Medien 809 Worst-Case-Amplitude 770 Wortlänge 629 Wortproduktion 273 Wrapperformate 845 Write Once 801
X X-Curve 892 XML (eXtended Markup Language) 852 XY-Mikrofonverfahren 214, 865
Z ZBR (Zoned Bit Recording) 794, 809 ZCAV-(Zoned Constant Angular Velocity)Verfahren 809
1282
Zeitbereich, Abtastung 604, 619 Zeitfunktion 606 Zeitmultiplex 725 Zeitmultiplexverfahren 912 Zeitschlitz 936, 938, 943 Zeitschlitzverfahren 912 Zeitschlitzzuordnung 941 Zeitversatz 1124 Zeitverzögerung 719 Zentraltakt 945 ZI-PC 1049, 1050 ZI-Zusatzinformation 761 Zoned Bit Recording 794, 809 Zoneneinteilung 794 Zufalls- und Bündelfehler 800 Zugangsrecht 749 Zugriffszeit 798, 837 Zusammenschaltung von Geräten 443 Zusatzdatenkanal 800 Zusatzinformation 846, 934 Zwei- und Vierdrahttechnik 931 Zweikanal-Standardanordnung 208 Zweikanal-Stereofonie 204, 210 Zylinderwelle 537