193 80 66MB
German Pages 225 [228] Year 1993
Linguistische Arbeiten
305
Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Gerhard Heibig, Hans Jürgen Heringer, Heinz Vater und Richard Wiese
Bernd Möbius
Ein quantitatives Modell der deutschen Intonation Analyse und Synthese von Grundfrequenzverläufen
Max Niemeyer Verlag Tübingen 1993
Für Annemie
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Möbius, Bernd: Ein quantitatives Modell der deutschen Intonation: Analyse und Synthese von Grundfrequenzverläufen/Bernd Möbius.-Tübingen : Niemeyer, 1993 (Linguistische Arbeiten ; 305) NE:GT ISBN 3-484-30305-0
ISSN 0344-6727
© Max Niemeyer Verlag GmbH & Co. KG, Tübingen 1993 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt Einband: Hugo Nadele, Nehren
Inhaltsverzeichnis 1 Einleitung 1.1 Ziel der Untersuchung 1.2 Methode 1.3 Gliederung der Arbeit 2 Linguistische Grundlagen und Terminologie 2.1 Prosodie, Suprasegmentalia und Intonation 2.2 Wortakzent 2.2.1 Akustische Korrelate des Wortakzents 2.2.2 Kontrastakzent und Emphase 2.3 Akzentgruppe 2.4 Phrasierung von Äußerungen . . 2.5 Satzakzent und Fokus 2.6 Satzmodus 2.7 Deklination 2.8 Mikroprosodie 2.8.1 Vokalspezifische Grundfrequenz 2.8.2 Koartikulatorische F0-Variationen 2.8.3 Schlußfolgerungen
l 3 4 5 7 7 10 12 15 16 19 21 ,23 23 27 27 28 29
3 Intonationsmodelle 3.1 Beschreibungen der deutschen Intonation 3.1.1 Überblick 3.1.2 Strukturalistische und generative Beschreibungen 3.1.3 Erste experimentalphonetische Ansätze 3.1.4 Ansätze in der Tradition Hallidays 3.1.5 Intonationsmodelle und Sprachsynthese 3.2 Tonsequenz oder Superposition: eine aktuelle Kontroverse 3.2.1 Tonsequenz-Ansatz 3.2.2 Superpositions-Ansatz 3.2.3 Gegenüberstellung 3.2.4 Entscheidung für das Superpositionsprinzip und das Fujisaki-Modell
31 31 31 32 36 40 46 51 55 59 62
4 Das 4.1 4.2 4.3
67 67 71 77 79
Fujisaki-Modell Darstellung des Modells Physiologische Interpretation Linguistische Interpretation 4.3.1 Interpretation des Basiswertes Fmin
64
VI
4.3.2 Interpretation der Phrasenkomponente 4.3.3 Interpretation der Akzentkomponente 4.4 Anwendungen des Modells 4.4.1 Übertragungen auf andere Sprachen 4.4.2 Übertragung auf das Deutsche 5 Sprachdatenmaterial 5.1 Beschreibung der Korpora 5.2 Sprecher und Aufnahmen 5.3 Vorverarbeitung 5.3.1 Analog/Digital-Wandlung 5.3.2 Segmentation der Äußerungen 5.3.3 Automatische Grundperiodenbestimmung 5.3.4 Auditive Bestimmung betonter Silben 5.3.5 Markierung akzentuierender F0-Bewegungen
80 82 84 84 88 90 90 92 93 93 93 93 95 98
6 Automatische Bestimmung der Modellparameter 6.1 Vorüberlegungen 6.2 Parameter der Phrasenkomponente und Basisweit Fmin 6.2.1 Methode der Parameterbestimmung 6.2.2 Konstantsetzung des Dämpfungsfaktors 6.2.3 Phrasenamplitude und Fmin 6.3 Parameter der Akzentkomponente 6.3.1 Methode der Parameterbestimmung 6.3.2 Konstantsetzung des Dämpfungsfaktors 6.4 Perzeptiver Vergleich von Original und Nachbildung
101 101 104 104 105 106 107 108 110 115
7 Statistische Analyse der Modellparameter 7.1 Basiswert Fmin 7.2 Amplitude des Phrasenkommandos 7.3 Parameter der Akzentkomponente 7.3.1 Amplitude des Akzentkommandos 7.3.2 Dauer des Akzentkommandos 7.3.3 Position des Akzentkommandos in der Akzentgruppe 7.4 Zusammenfassung
118 118 120 127 127 138 141 143
8 Ergänzende statistische Analysen: Zweiphrasige Äußerungen und Fragesätze 8.1 Modifikationen des Programms "AUTFIT" 8.2 Analyse zweiphrasiger Äußerungen 8.2.1 Parameter der Phrasenkomponente und Basiswert Fmin 8.2.2 Parameter der Akzentkomponente 8.3 Analyse von Fragesätzen 8.3.1 Parameter der Phrasenkomponente und Basiswert Fmin
146 146 148 151 155 158 159
VII
8.3.2 Parameter der Akzentkomponente 8.4 Zusammenfassung
160 164
9 Regelgeleitete Generierung von Intonationskonturen 9.1 Formulierung der Regeln 9.1.1 Basiswert Fmin 9.1.2 Parameter der Phrasenkomponente 9.1.3 Parameter der Akzentkomponente 9.1.4 Generierung von Intonationskonturen nach Regeln: einige Beispiele 9.2 Akzeptabilität der regelgenerierten Intonationskonturen 9.2.1 F0-Manipulationen mit PSOLA 9.2.2 Erstes Perzeptionsexperiment: Urteile einer Expertengruppe 9.2.3 Zweites Perzeptionsexperiment: Urteile einer "naiven" Hörergruppe 9.3 Evaluierung regelgenerierter Intonationskonturen
166 166 167 168 169
10 Abschließende Diskussion 10.1 Diskussion der Ergebnisse 10.2 Ausblick 10.2.1 Anwendung in der Sprachsynthese 10.2.2 Anwendung in der automatischen Spracherkennung
182 182 193 193 195
Literaturverzeichnis
199
Anhang
213
170 173 173 174 176 178
l Einleitung Prosodische Merkmale des Sprachsignals tragen in erheblichem Maß dazu bei, daß die syntaktische und semantische Organisation einer sprachlichen Äußerung für den Hörer deutlich wird. Darüber hinaus steigern sie die Expressivität der Äußerung. Wie Experimente mit künstlich erzeugter Sprache zeigen, erhöht die Berücksichtigung prosodischer Merkmale die Verständlichkeit und Natürlichkeit der dargebotenen Sprachproben. Ein wichtiger Bestandteil in einem Sprachsynthesesystem ist daher die Prosodiesteuerung nach Regeln, für die eine adäquate Beschreibung der intonatorischen Variationsmöglichkeiten einer Sprache benötigt wird. Für das Deutsche liegt bislang eine solche umfassende Intonationsbeschreibung nicht vor, wenngleich seit der negativen Einschätzung des Kenntnisstandes zur deutschen Satzintonation durch Klein (1980) eine Intensivierung der Forschungsaktivitäten zu verzeichnen ist.1 Unter Intonation soll in dieser Arbeit das prosodische Merkmalssystem verstanden werden, dessen akustisches Korrelat der Verlauf und die Variation der Sprachgrundfrequenz (F0) als Funktion der Zeit ist. Andere prosodische Merkmale wie etwa Rhythmus, Sprechtempo und Pausenstruktur, die Dauerverhältnisse, der Intensitätsverlauf oder die Stimmqualität, die in der phonetischen und linguistischen Literatur häufig unter den Begriff der Intonation im weiteren Sinne vereinnahmt werden, stehen nicht im Mittelpunkt der vorliegenden Untersuchung; Dauer und Intensität werden jedoch im notwendigen Umfang berücksichtigt (siehe Kapitel 2). Die vielfältigen Funktionen der Sprachgrundfrequenz machen die Intonation zum weitaus wichtigsten prosodischen Merkmalssystem. In wohl allen bekannten Sprachen trägt die Intonationskontur einer Äußerung oder einer Folge von Äußerungen linguistische, aber auch paralinguistische Informationen. Die Beschreibung des intonatorischen Systems einer Sprache mit phonologischen Methoden führt leicht zu der Auffassung, daß die Invarianzen, die in den Beschreibungseinheiten impliziert sind, tatsächlich auch in den konkreten FQ-Verläufen enthalten sind: Man müßte sie nur finden. Diese Auffassung ist diskutabel. Die dynamischen Prozesse der Sprachproduktion und Artikulation mit diskreten, statischen und kontextfreien Kategorien, beispielsweise Phonemen oder distinktiven Merkmalen, beschreiben zu wollen, dürfte zumindest nicht der einzige Zugang sein (vgl. MacNeilage und Ladefoged, 1976). Ob er überhaupt geeignet ist, kann hier nicht entschieden werden. In Frage zu stellen ist jedenfalls die verbreitete Annahme, die Eigenschaften abstrakter linguistischer Einheiten blieben Dazu trug die Einrichtung des Forschungsschwerpunktes "Formen und Funktionen der Intonation" durch die Deutsche Forschungsgemeinschaft in den Jahren 1983-1988 entscheidend bei.
trotz aller Transformationen, denen sie bei der Realisierung im Sprechakt unterliegen, intakt und kämen am Ende dieses Prozesses wieder als Eigenschaften akustischer und artikulatorischer Einheiten heraus (Cooper, 1983). Diese grundsätzliche Kritik läßt sich durchaus auf prosodische Merkmale übertragen, deren akustische Manifestationen als dynamisch und nicht als statisch aufzufassen sind. Collier (1991) argumentiert, daß sich der Durchbruch des Strukturalismus, der in der Phonologic die Beziehung zwischen der phonetischen Form und der linguistischen Funktion weitgehend offenlegte, nicht in gleicher Weise positiv auf den Gegenstandsbereich der Prosodie ausgewirkt hat. Die Interaktion zwischen Prosodie und syntaktischen, semantischen, pragmatischen und anderen Eigenschaften und Aspekten einer Äußerung können noch immer nicht systematisch beschrieben werden. Liberman (1983) führt aus, daß Unterschiede und Gegensätze zwischen den beiden vom Untersuchungsgegenstand her eng verwandten Disziplinen Phonologje und Phonetik einen möglichen Erkenntnisgewinn in einigen wichtigen Fragen be- und sogar verhindern. Wie Liberman am Beispiel der Intonationsforschung zeigt, ist ein hybrider Forschungsansatz notwendig, der phonologische und phonetische Methoden und Verfahrensweisen vereinigt. Die Schwierigkeiten der Intonationsforscher, sich wenigstens auf ein vortheoretisches Beschreibungssystem zu einigen, wie es für den segmentalen Bereich im Transkriptionssystem der vorliegt, deuten darauf hin, daß es einen grundlegenden Unterschied zwischen suprasegmentalen und segmentalen Eigenschaften gibt. Hocketts (1966) design features, die man als Grundeigenschaften der Sprache interpretieren kann (vgl. Zimmer, 1988, S. 17 ff.), sind, was die prosodischen Merkmale betrifft, teilweise in Frage zu stellen. Vor allem das design feature, das die Sprache als aus diskreten Einheiten bestehend beschreibt, ist in bezug auf Prosodie und Intonation auf Satzebene nicht in dieser strengen Form zu akzeptieren. Fujimura (1987) beobachtet in der nichtlinearen Phonologie eine aktuelle Entwicklung, nämlich den Trend, zunehmend detaillierte phonetische Beobachtungen, darunter insbesondere auch artikulatorische Daten, als Grundlagen für die theoretische Diskussion zu berücksichtigen. Am deutlichsten wird dieser Ansatz in der Beschreibung von Intonations- und Akzentmustem (z.B. Liberman und Prince, 1977; Pierrehumbert, 1980; Gärding, 1983; Beckman und Edwards, 1989; Ladd, 1989). Eine gründliche akustisch-phonetische Analyse von F0-Verläufen enthüllt zunächst einmal eine Fülle von Details. Wenn man die relevanten Merkmale isolieren will, läßt sich nicht einfach durch Impression und linguistisches Vorwissen entscheiden, welche Eigenschaften wiederkehren oder gar Allgemeingültigkeit besitzen und welche man getrost vernachlässigen kann. Die in F0-Verläufen natürlichsprachlicher Äußerungen beobachtbaren Variationen sind auf eine ganze Reihe simultan auftretender Faktoren zurückzuführen. In erster Linie wird der F0-Verlauf durch die dynamischen Bedingungen der Sprachproduktion und der Artikulation beeinflußt, was sich als koartikulatorischer Effekt am stärksten
bei Plosiven, weniger stark in Nasalen und Liquiden und als annähernd konsistenter lautspezifischer Effekt bei Vokalen auswirkt (siehe Abschnitt 2.8). In dieser Arbeit bleiben die genannten Einflüsse der Artikulation, deren zeitliche Erstreckung vergleichsweise kurz ist, weitgehend unberücksichtigt. Im Mittelpunkt stehen dafür die linguistischen Kategorien Akzentuierung, Fokussierung, Phrasierung und Satzmodusmarkierung, die die konkrete Ausprägung einer Intonationskontur vorrangig steuern. Die Ergebnisse der vorliegenden Untersuchung zeigen außerdem, daß sprecherspezifische Einflüsse ebenfalls eine wichtige Rolle spielen. Nach Auffassung von Demenko et al. (1987) liegt in der großen Anzahl interagierender Quellen der Variabilität von FQ-Verläufen der Hauptgrund dafür, daß die Überführung einer Folge von F0-Werten als Eingabe in eine Folge von linguistisch relevanten, kategorialen Intonationsmustern als Ausgabe noch immer ein prinzipiell ungelöstes Problem ist.
1.1 Ziel der Untersuchung In einigen Anwendungsbereichen der Sprachverarbeitung, unter denen besonders die Prosodiesteuerung nach Regeln in der Sprachsynthese, aber auch die automatische Spracherkennung und die Sprecheridentifikation zu nennen sind, ist es von großem Vorteil, die Intonation einer Äußerung quantitativ beschreiben zu können. Ziel der vorliegenden Arbeit ist es, die auf den FQ- Verlauf einwirkenden Faktoren mit Hilfe eines quantitativen Intonationsmodells analytisch zu trennen. Das Modell basiert auf grundlegenden Arbeiten von öhman (1967) und wurde von Fujisaki (1983; 1988) für die Analyse und Synthese von FQ-Verläufen des Japanischen ausformuliert. Es ermöglicht eine parametrische Repräsentation von Intonationskonturen und somit eine erhebliche Datenreduktion. Daß sich das Modell grundsätzlich für die deutsche Sprache eignet, wurde in Möbius et al., (1990a) nachgewiesen. Diese Arbeit stellt die Weiterentwicklung des quantitativen Intonationsmodells von Fujisaki für das Deutsche dar. Sie basiert auf experimentellen Daten, die aus der Analyse von vorgelesenen Testsätzen gewonnen wurden, sowie auf größtenteils informellen Perzeptionstests. Weiterhin werden die Regeln für die Erzeugung künstlicher Intonationskonturen in verbalisierter Form vorgelegt. Die Entscheidung für ein bestimmtes Konzept bei der Beschreibung und Analyse der Intonation hängt in erheblichem Maß vom Ziel der Untersuchung ab. Ausschlaggebend ist aber auch der Forschungsstand. In dieser Hinsicht läßt sich feststellen, daß bislang keine umfassende, linguistisch fundierte Beschreibung der deutschen Intonation vorliegt. Daher ist es auch nicht möglich, auf eine systematische phonologische Repräsentation von Intonationskonturen zu rekurrieren. Dies soll auch in der vorliegenden Arbeit nicht geleistet werden. Fujisaki (1983) zeigte, daß ein auf dem Superpositions-
prinzip beruhendes Intonationsmodell ein nützliches Werkzeug bei der Analyse und Synthese komplexer F0-Verläufe ist. Die verschiedenen linguistischen und sprecherspezifischen Merkmale, die die Intonationskontur einer Äußerung beeinflussen und dabei komplex interagieren, können mit Hilfe des Modells getrennt analysiert, parametrisch beschrieben und einzeln gesteuert werden. Fujisakis Intonationsmodell strebt eine funktionale Repräsentation der Produktion von Intonationskonturen an und kann von daher zu Recht produktionsorientiert genannt werden. Ein Modell, das den Sprachproduktionsprozeß nachempfindet und aus einer vergleichsweise geringen Anzahl von linguistisch relevanten Steuerparametern sehr genaue Approximationen natUrlichsprachlicher FQ-Verläufe ermöglicht, dürfte aber auch für perzeptive Intonationsstudien ein wertvolles Werkzeug sein. Insofern ist das Intonationsmodell ein genuin phonetischer Ansatz; denn eine primäre Aufgabe der Phonetik ist es, eine adäquate Beschreibung der kommunikativ relevanten Eigenschaften von Sprachsignalen zu geben, und zwar im Rahmen einer Theorie über den funktionalen Zusammenhang zwischen den Manifestationsbereichen der Sprachproduktion, des akustischen Sprachsignals und der Sprachperzeption (Tillmann, 1973, S. 31).
1.2 Methode Die Bestimmung der Steuerparameter des Intonationsmodells erfolgt durch eine möglichst genaue Nachbildung natürlichsprachlich produzierter und mit digitalen Verfahren gemessener F0-Verläufe. Die Approximation wird jedoch nicht ausschließlich nach mathematischen Kriterien, also etwa einem bestimmten Abstandsmaß zwischen Original und Nachbildung, vorgenommen, sondern durch linguistisch motivierte Vorgaben eingeschränkt (siehe Abschnitt 4.3 und Kapitel 6). Die Notwendigkeit, einheitliche Kriterien für die Nachbildung anzulegen, was bei interaktivem, teilweise also manuellem Vorgehen in der Praxis nicht möglich ist, und die Anpassung mittels Optimierungsalgorithmen durchzuführen, machte es erforderlich, ein Computerprogramm zu entwickeln und zu implementieren, das einen vorliegenden F0-Verlauf approximiert und die Werte der Modellparameter automatisch extrahiert. Die Relevanz der Nachbildung ist darin zu sehen, daß sie denjenigen Anteil an der Variabilität eines natürlichsprachlich produzierten F0-Verlaufs, der seine Ursache in der MikroStruktur (vocal jitter und andere natürliche Schwankungen beim Sprachproduktionsprozeß sowie Mikroprosodie) hat, zwar weitgehend "glättet", daß aber alle wesentlichen, im weitesten Sinne linguistisch relevanten Merkmale des Originalverlaufs erhalten bleiben. Dennoch wird infolge der resultierenden parametrischen Beschreibung eine erhebliche Datenreduktion erreicht, die die Interpretation der Intonation und der Faktoren, die sie beeinflussen, erleichtert. Außerdem wird die Steue-
rung eines Intonationsmoduls in einem Sprachsynthesesystem durch die Bestimmung einiger weniger Modellparameter pro Äußerung möglich. Die optimale Nachbildung eines konkreten F0-Verlaufs gibt zunächst nur Informationen über diesen einen Verlauf. Aussagen über die intonatorischen Merkmale und Strukturen des Deutschen lassen sich erst machen, wenn eine große Zahl solcher Nachbildungen miteinander verglichen werden. Grundlage dafür ist die repräsentative und kontrollierte Auswahl des Sprachmaterials, das einen Großteil der intonatorischen Variationsmöglichkeiten des Deutschen enthalten sollte - zumindest im Rahmen des gewählten Sprechstils und der künstlichen Aufnahmesituation. In spontaner Sprache ist eine größere Variabilität und vielleicht sogar eine größere Anzahl relevanter prosodischer Merkmale zu erwarten. Es sei daher ausdrücklich darauf hingewiesen, daß das Sprachdatenmaterial gezielt ausgewählt wurde und die untersuchten Sprachproben als typische "Laborsprache" charakterisiert werden können. Die automatisch bestimmten Parameterwerte werden einer statistischen Analyse unterzogen, die zu einer Standardisierung der Parameter in Abhängigkeit von signifikanten Einflußfaktoren führt. Durch statistische Verfahren werden Parameterkonfigurationen zur Generierung künstlicher Intonationskonturen abgeleitet und zu linguistischen Kategorien wie Wortakzent, Phrasierung oder Satzmodus in Beziehung gesetzt. Daraus wird ein Regelwerk entwickelt, das als ein partielles Modell der deutschen Intonation betrachtet werden kann. Der statistischen Analyse kommt innerhalb dieser Arbeit eine große Bedeutung zu, da sie die Grundlage für den Prozeß der Standardisierung, Klassifizierung und Regelbildung ist. Daher wird ein Schwerpunkt dieser Arbeit die Präsentation der Verfahren sein, mit denen die Modellparameter in Hinblick auf eine regelgeleitete Generierung von Intonationskonturen klassifiziert werden.
1.3 Gliederung der Arbeit An dieser Stelle sei ein kurzer Überblick über den Aufbau und die Gliederung der Arbeit gegeben. In Kapitel 2 wird der wissenschaftliche Gegenstandsbereich, in dem die Untersuchung angesiedelt ist, genauer definiert. Dort wird auch eine terminologische Präzisierung der verwendeten linguistischen und phonetischen Begrifflichkeiten vorgenommen. In Kapitel 3 werden zunächst einige bereits vorliegende Beschreibungen der Intonation des Deutschen vorgestellt und kritisch beleuchtet. Im zweiten Teil des Kapitels wird die Kontroverse zwischen unterschiedlichen theoretischen Ansätzen für Intonationsmodelle aufgegriffen. Auf dieser Diskussion basiert auch die Entscheidung für die Verwendung und Weiterentwicklung des Fujisaki-Modells, das zu Beginn des Kapitels 4 detailliert dargestellt wird. Besprochen wird dort weiterhin die physiologische Fundierung des Modells. Die linguistische Interpretation, die in Abschnitt 4.3 vorge-
schlagen wird, unterscheidet sich nicht nur aufgrund sprachspezifischer Bedingungen von den für das Japanische geltenden Vorgaben, sondern weist durch konsequente Anwendung der in Kapitel 2 erarbeiteten linguistischen Konzepte auf die Komponenten und Parameter des Modells deutlich über die Originalarbeiten hinaus. Das verwendete Sprachdatenmaterial, die Sprecher und die Aufnahmeprozedur werden in Kapitel 5 ebenso beschrieben wie die verschiedenen Schritte der Vorverarbeitung. Das Computerprogramm zur Nachbildung der aufbereiteten FQ-Verläufe und das Verfahren zur Bestimmung der Modellparameter werden in Kapitel 6 vorgestellt. Wie in Abschnitt 6.4 gezeigt wird, lassen sich zwei Äußerungen, eine mit der ursprünglichen F0-Kontur, die andere mit der Nachbildung durch das Intonationsmodell, im Paarvergleich in den weitaus meisten Fällen perzeptiv nicht unterscheiden. Die Kapitel 7 und 8 stellen die Ergebnisse der statistischen Analyse der automatisch bestimmten Modellparameter dar. Untersucht werden linguistische und sprecherspezifische Faktoren, die für die beobachtete Variabilität der Parameterweite verantwortlich sind. Der jeweilige Einfluß wird derart quantifiziert, daß die Modellparameter schließlich in Abhängigkeit von den signifikanten Faktoren standardisiert werden können. Die für die Nachbildung von zweiphrasigen Aussagesätzen und von verschiedenen Fragesatztypen erforderliche Modifikation des Approximierungsalgorithmus wird in Abschnitt 8.1 besprochen. Die Regeln, die die Einstellung der Modellparameter steuern und, mit den in Abschnitt 9.3 ausgeführten Einschränkungen, für jede vorgegebene Zieläußerung eine Intonationskontur generieren, werden in Kapitel 9 aufgeführt. Wie die Akzeptabilitätstests (Abschnitt 9.2) zeigen, werden Äußerungen mit regelgenerierten Intonationskonturen sowohl von phonetisch geschulten als auch von prosodisch "naiven" Hörern als in hohem Maße akzeptabel und natürlich beurteilt. Die Möglichkeiten einer Evaluiemng des Regelwerks durch formelle Perzeptionsexperimente werden in Abschnitt 9.3 diskutiert. In Kapitel 10 werden zunächst die Ergebnisse der Untersuchung vor dem Hintergrund anderer relevanter Arbeiten zur Intonation diskutiert. Potentielle und bereits aktuelle Anwendungen des Intonationsmodells werden in Abschnitt 10.2 vorgestellt. Schließlich wird ein Ausbück auf Forschungsziele gegeben, die die vorhegende Arbeit inhaltlich fortsetzen.
2 Linguistische Grundlagen und Terminologie In diesem Abschnitt soll eine wohldefmierte terminologische Unterscheidung der Begrifflichkeiten vorgenommen werden, die systematisch zu derjenigen Teildisziplin der Phonetik und Linguistik zu rechnen sind, in der die vorliegende Arbeit angesiedelt ist. Allerdings erhebt die hier vorgeschlagene Definition und Hierarchie von Begriffen nicht den Anspruch, die zuletzt anläßlich der IPA-Revisionstagung in Kiel geführte Terminologiedebatte (IPA, 1989) um eine weitere Variante zu bereichern. Gerade zum Thema "Prosodie" herrschte bei dieser Tagung bezeichnenderweise die größte Meinungsvielfalt, und zwar ebenso zu den abstrakteren Ebenen wie zur symbolischen Repräsentation der Intonation, also auch zu ihrer Notation und Transkription. In der vorliegenden Arbeit geht es vielmehr darum, die einzelnen Termini eindeutig zu definieren und deren Verwendung auch konsequent durchzuhalten.
2.1 Prosodie, Suprasegmentalia und Intonation Die in der Literatur häufig anzutreffende Synonymsetzung der drei Begriffe Prosodie, Suprasegmentalia und Intonation (z.B. Bußmann, 1990, S. 352) oder zumindest der beiden erstgenannten (vor allem in der englischsprachigen Literatur) ist nicht hilfreich, um die "babylonische Sprachverwirrung" auf diesem Forschungszweig zu beheben. Wie Nöth zu Recht anmerkt, liegt eine wichtige Ursache für diesen Zustand darin, daß "[...] die Prosodie ein Bindeglied zwischen verschiedenen sprachwissenschaftlichen Disziplinen darstellt. Somit werden prosodische Themenbereiche von Autoren verschiedener sprachwissenschaftlicher Schulen und Disziplinen behandelt." (1991, S. 21) So argumentiert der Phonologe Ternes (1987, S. 111) gegen eine Verwendung des Begriffs Prosodie und empfiehlt statt dessen "suprasegmentale Eigenschaften". Ausschlaggebend für diese Empfehlung Ternes' sind weniger die mit der Bezeichnung prosodisch verbundenen "ungeschickten Evokationen", sondern vielmehr die Tatsache, daß sie zu eng mit der britischen Tradition, der "Firth-Schule", verbunden sei. Dabei Übersieht Ternes (bewußt?), daß die Bezeichnung suprasegmentale Merkmale wiederum vorwiegend von denjenigen Autoren vorgezogen wird, die in der Tradition des amerikanischen Strukturalismus stehen (Bußmann, 1990, S. 757). Diese heben in ihren Definitionen darauf ab, daß sich prosodische Merkmale auf sprachliche Einheiten beziehen, die größer als ein lautliches Segment sind. Auch Lehistes (1970) Definitionsvorschlag besteht darin, die suprasegmentalen Merkmale in Kontrast zu den segmentalen Merkmalen zu setzen:
8
"These characteristic differences between segmental and suprasegmental features make it possible to offer a tentative first definition of suprasegmentals: suprasegmental features are features whose arrangement in contrastive patterns in the time dimension is not restricted to single segments defined by their phonetic quality (i.e., distribution of energy in the frequency dimension)." (Lehiste, 1970, S. 2 f.) Diese Definition empfindet Lehiste selbst als unbefriedigend, da sie im Grunde die Suprasegmentalia negativ definiert, was den Sprachwissenschaftler der Erkenntnis dessen, was suprasegmentale Merkmale nun tatsächlich charakterisiert, nicht sehr viel näher bringt (1970, S. 3). Die Autorin weist im übrigen darauf hin, daß die gleichen phonetischen Elemente einmal mit linguistischer Funktion und ein anderes Mal auf paralinguistischer Ebene auftreten können. In ihrem systematischen Überblick beschränkt sich Lehiste dann auf die linguistischen Funktionen der suprasegmentalen Merkmale und auf ihre physiologische, akustische und perzeptive Manifestation und klammert den paralinguistischen Aspekt aus. Fant (1990) betont, daß die prosodische und die segmentale Ebene ungeachtet der terminologischen Trennung eng ineinander verzahnt sind. Keineswegs, so Fant weiter, sei die Prosodie nur eine zusätzliche Information über akustische Merkmale, die den durchaus auch allein existierenden Segmenten hinzugefügt wird: "[...] prosody is not merely some added information on durations, pitch and intensity." (Fant, 1990, S. 1390). Da jedoch suprasegmentale Merkmale ihre Funktion zumeist mit den gleichen phonetischen Mitteln erfüllen wie segmentinhärente Merkmale, spricht Lehiste (1970) von einer sekundären, überlagerten Funktion bereits vorhandener, dem Sprachsignal inhärenter Merkmale. So muß etwa eine Äußerung, um überhaupt wahrgenommen werden zu können, mit einem Mindestmaß an Intensität und Dauer sowie mit einem Grundfrequenzverlauf produziert werden. Der akustische Parameter Grundfrequenz trägt entscheidend zur Identifikation eines bestimmten Signalabschnittes als stimmhaft bei und kann gleichzeitig Teil der Manifestation eines tonalen oder intonatorischen Musters sein, das sich über viele Segmente hinweg erstreckt. Gleiches gilt mutatis mutandis für die anderen akustischen Parameter (Lehiste, 1970, S. 2). Die sprachwissenschaftliche Teildisziplin, in der die vorliegende Arbeit angesiedelt ist, soll als Prosodie bezeichnet werden. Zum Gegenstandsbereich der Prosodie (siehe Bild 2.1) gehören Merkmalssysteme, die linguistische Funktionen besitzen, und eine Reihe weiterer Merkmale, deren linguistischer Status teils umstritten, teils uneinheitlich oder zumindest nicht durchgängig ist (siehe unten). In terminologischer Anlehnung an Lehiste (1970) sollen die linguistischen Merkmalssysteme unter dem Oberbegriff Suprasegmentalia zusammengefaßt werden. Es handelt sich dabei im einzelnen um die Systeme Intonation, Lautheit und Quantität, deren akustische Korrelate Sprachgrundfrequenz, Intensität und Dauer meßtechnisch aus dem Sprachsignal extrahiert werden können. Zum suprasegmentalen Merkmalssystem Intonation gehören alle linguistisch
Prosodie Suprasegmentalia Intonation
Lautheit
Quantität
Intensität
Dauer
Sprechtempo Rhythmus Stimmqualität Pausen
Bild 2.1 Zum Gegenstandsbereich der Prosodie gehören die linguistischen Merkmalssysteme Intonation, Lautheit und Quantität sowie eine Reihe anderer Merkmale.
relevanten Funktionen des akustischen Parameters Grundfrequenz (F0) auf Silben-1, Wort- und Äußerungsebene. Dementsprechend umfaßt das Merkmalssystem Lautheit alle linguistischen Funktionen des Parameters Intensität und das Merkmalssystem Quantität alle linguistischen Funktionen der Dauerverhältnisse im Sprachsignal. Diese Systematik orientiert sich also konsequent an einer "signalnahen" Definition der suprasegmentalen Merkmalssysteme. In dieser Arbeit spielt die Intonation, realisiert durch Grundfrequenzverläufe, mit ihren vielfältigen linguistischen Funktionen auf Wort- und Satzebene die zentrale Rolle, während Intensität und Dauerverhältnisse eher implizit in die experimentellen Untersuchungen eingehen. Der gesamte zeitveränderliche Verlauf des Parameters F0 in einer Äußerung, also nicht nur "[...] the course described by the stressed syllables alone" (Thorsen, 1979b, S. 62), soll als Intonationskontur bezeichnet werden. Die Ausprägung distinktiver F0-Muster auf morphologisch definierten Äußerungsabschnitten, also auf Moren, Silben und Wörtern, soll Ton genannt werden. Diese Erscheinung tritt mit bedeutungsunterscheidender, also phonologischer Funktion in den Tonsprachen Ost- und Südostasiens sowie West- und Mittelafrikas auf jeder einzelnen Silbe auf und in den pitch accent languages (z.B. Japanisch, Litauisch und Lettisch, Norwegisch und Schwedisch, Serbokroatisch) auf bestimmten Silben. Darüber hinaus trägt der Parameter F0 neben der Dauer, der Intensität und der Lautqualität in allen Sprachen entscheidend zur Prominenz, also zur signalphonetischen und wahrnehmbaren Hervorhebung eines Äußerungsabschnittes, bei. Prominente Silben werden in der Literatur zumeist als betonte Silben bezeichnet. Diese Konvention wird hier insofern übernommen, als unter Silbenbetonung die Realisierung eines Wort-
Ehe Silbe soll hier nur im Sinne einer "nutzlichen Beschreibungseinheit" (Kohler, 1977, S. 197) verwendet und nicht auf phonologischer oder phonetischer Ebene definiert werden.
10
akzents verstanden werden soll; dabei bleibt zunächst offen, welche akustischen Parameter zu der Hervorhebung beitragen (siehe Abschnitt 2.2). Für die vorliegende Arbeit ist daher die folgende terminologische Vereinbarung wichtig: Es soll dann von einer akzentuierten Silbe oder Akzentsilbe gesprochen werden, wenn eine als betont wahrgenommene Silbe auch tonal, also durch eine deutliche F0-Bewegung, markiert ist. Insofern ist Akzent ein Spezialfall von Betonung. Sonderfalle des Akzents stellen Kontrastakzentuierung und Emphase dar. Prominenz durch Akzentuierung (und durch Intensität und Dauer) wird im Zusammenhang mit dem Konzept des Wortakzents in Abschnitt 2.2 behandelt, während die intonatorische Gliederung einer Äußerung in Akzentgruppen in Abschnitt 2.3 besprochen wird. Weitere linguistische Funktionen der Intonationskontur beziehen sich auf die Phrasierung einer Äußerung (Abschnitt 2.4) sowie auf die Markierung des Satzakzents oder Fokus (Abschnitt 2.5) und des Satzmodus (Abschnitt 2.6). Außerdem sind spezifische globale (Deklination; Abschnitt 2.7) und lokale (Mikroprosodie; Abschnitt 2.8) Ausprägungen von FQ-Verläufen für die intonatorische Analyse relevant. Die vielfältigen Funktionen der Grundfrequenz machen die Intonation zum wichtigsten prosodischen Merkmalssystem, das daher auch bei der Darstellung der linguistischen Grundlagen in diesem Kapitel die weitaus größte Beachtung findet. Als prosodische Merkmale gelten weiterhin Sprechtempo, Rhythmus, Pausen und Häsitationen, Stimmqualität, Phonationstyp und andere mehr. Alle diese Merkmale unterliegen zwar ebenfalls Konventionen der Sprachgemeinschaft, doch sind sie in ihrer Wirkungsweise weitaus weniger systematisch untersucht worden als die linguistischen Faktoren (Fant, 1990); sie werden auch in dieser Arbeit nicht näher besprochen. Daher sollen hier keine Kriterien für eine weitergehende Systematisierung vorgeschlagen werden. Die Problematik soll jedoch am Beispiel der Stimmqualität laryngalisiert (nach Lehiste, 1970, S. 60) aufgezeigt werden, die zumeist als paralinguistisch eingeordnet wird, in bestimmten Fällen ihres Auftretens aber unterstützend zu linguistischen Funktionen beitragen kann, etwa als zusätzliches Grenzsignal an Phrasengrenzen (Hedelin und Huber, 1990). Die angeführten Merkmale vermitteln darüber hinaus Informationen über den Sprechstil und den situativen Kontext und über die Einstellung und emotionale Verfassung des Sprechers.
2.2 Wortakzent Unter Prominenz soll in dieser Arbeit die linguistisch und perzeptiv relevante Hervorhebung eines Abschnittes des Sprachsignals verstanden werden. Diese Hervorhebung kann sowohl auf Silben- und Wortebene als auch auf Phrasen- und Äußerungsebene wirksam werden. Prominenz auf Wortebene wird in der Literatur zumeist als Wortakzent oder lexikalischer Akzent bezeichnet. Es lassen sich Sprachen, in denen der
11
Wortakzent fest auf einer bestimmten Silbenposition im Wort liegt, im Finnischen, Ungarischen oder Tschechischen etwa auf der ersten Silbe, von solchen unterscheiden, die über einen freien, beweglichen Wortakzent verfügen, etwa dem Russischen oder auch dem Deutschen. In Sprachen mit freiem Wortakzent ist dieser aufgrund lexikalischer und grammatischer Bedingungen an eine bestimmte Silbe gebunden. Dadurch können auch segmentell identische Wörter hinsichtlich des Wortakzents ein Minimalpaar bilden (Ternes, 1987, S. 124). Für das Deutsche typische Beispiele sind zusammengesetzte Verben, die unterschiedlich flektiert werden ("übersetzen, umfahren"), und Lehnwörter nichtgermanischer Herkunft ("August, Konstanz, Tenor"). Jedes Wort besitzt einen lexikalischen Akzent. In mehrsilbigen Wörtern steht die Position des Akzents zwar nicht fest, kann aber im Prinzip aufgrund von Regeln vorhergesagt werden. Lexikalische Akzente können als abstrakte Merkmale auf der Ebene der Wortphonologie betrachtet werden. Ternes plädiert folgerichtig für einen Status des Wortakzents als phonologisch distinktive Einheit (1987, S. 128 ff.). Auch Kohler interpretiert den Wortakzent als binäres phonologisches Merkmal (1977, S. 122; 1991a). Oakeshott-Taylor (1981) unterscheidet die phonetische Betrachtungsweise, nach der jede Silbe potentiell akzentuierbar ist, von der phonologischen, wonach die Akzentposition regelgelenkt und damit festgelegt ist. Sie selbst vertritt den linguistischen Standpunkt, wonach in einem gegebenen Kontext die meisten potentiellen Akzentpositionen in einer bestimmten Äußerung ungrammatikalisch sind. Sie schlägt keine allgemeingültige Regel für die Akzentposition vor, sondern eine multifunktionale Sicht. Danach wird die Akzentposition von mehreren Faktoren beeinflußt, die aus unterschiedlichen grammatischen Bereichen in die phonologische Komponente eingehen. An das statische Konzept des Wortakzents schließt sich in der phonologischen Analyse eine weiterführende Problematik an, nämlich die der Realisierungsregeln für Wortakzente. Nicht alle lexikalischen Akzente werden in einer konkreten Äußerung auch durch den Sprecher als prominent markiert. Es lassen sich syntaktische und morphologische Strukturbedingungen für die Realisierung von Wortakzenten angeben (siehe z.B. Kohler, 1977, S. 191 ff.; Uhmann, 1988; Bleiching, 1991). Wichtiger für die vorliegende Arbeit ist die Frage, welche akustischen Parameter zur Markierung eines Wortakzents beitragen. In der Literatur werden realisierte Wortakzente häufig auch als betonte Silben bezeichnet (siehe oben). Die phonologische Analyse gelangt zumeist zu einer kleinen Anzahl von Betonungsstufen, z.B. unbetont - schwach betont - betont - stark betont. Die Frage nach der phonetischen Manifestation des Wortakzents soll im folgenden Abschnitt besprochen werden.
12
2.2.1 Akustische Korrelate des Wortakzents Die Hervorhebung einer Silbe kann akustisch-phonetisch auf unterschiedliche Weise realisiert werden. Ternes unterscheidet zwischen dynamischem Akzent durch Intensitätsänderungen und musikalischem Akzent durch Tonhöhenänderungen; beide treten normalerweise gemeinsam auf (1987, S. 122; siehe auch Bußmann, 1990, S. 63). Nach Kohler wird der Wortakzent durch Lautdauer, Tonhöhenverlauf, Lautstärke und spektrale Eigenschaften (Vokalqualität) realisiert (1977, S. 122; 1991a). Als wichtigster akustischer Parameter bei der Realisierung von Wortakzenten und damit bei der Silbenbetonung wird von der Mehrzahl der Autoren die Grundfrequenz genannt. So zeigen Isacenko und Schädlich (1966), daß Intensitätsänderungen im Deutschen nur sekundär zur Silbenbetonung beitragen; wenn Intensität und F0-Bewegung nicht parallel verlaufen, entscheidet der F0-Verlauf. Tendenziell wird ein Wortakzent, verglichen mit der lautlichen Umgebung, mit höheren FO-Werten realisiert. Mit Ausnahme der äußerungsfinalen Position ist im Deutschen an betonten Stellen sehr viel häufiger eine steigende oder steigend-fallende als eine fallende F0-Bewegung zu beobachten (siehe Abschnitt 7.3.1). Dieses Phänomen ist allerdings sprachspezifisch; in den nordischen Sprachen weisen die betonten Silben zumeist fallende Bewegungen auf (für das Dänische: Thorsen, 1979b; für das Schwedische: Bruce, 1977). Der erforderliche tonale Kontrast wird durch posttonische steigende Bewegungen bewirkt. In ihrer Darstellung potentieller prosodischer Universalien weist Vaissiere (1983) darauf hin, daß in vielen Sprachen größere FQ-Bewegungen zumeist nur auf betonten Silben auftreten. Die lokalen F0-Gipfel sind spezifische Merkmale von Betonungsgruppenmustern (siehe Abschnitt 2.3) und reflektieren den tonalen Unterschied zwischen betonten und unbetonten Silben. In einer experimentellen Studie zum Niederländischen untersucht Slootweg (1987) den akustischen Unterschied zwischen einer Silbe, die eine phonologische Hauptbetonung (primary stress) trägt, und der gleichen Silbe, wenn sie als zweiter Bestandteil eines Kompositums eine Nebenbetonung (secondary stress) trägt. Außerdem versucht sr die Frage zu beantworten, wie ein an der betreffenden Stelle auftretender Satzakzent diese Charakteristika beeinflußt. Als dritter relevanter Faktor wird die Position der Silbe im Wort einer Varianzanalyse unterzogen. Abhängige Variable sind die akustischen Parameter FQ, Intensität und Dauer. Slootweg kommt zu dem Ergebnis, daß im Niederländischen sowohl die Betonungsstufe als auch die Silbenposition einen signifikanten Einfluß auf alle drei Parameter ausübt. Der Satzakzent wirkt sich zwar signifikant auf FQ und die Intensität aus, nicht aber auf die Dauer. Interaktionen höherer Ordnung zwischen den Faktoren treten nur im Zusammenhang mit F0 auf, so daß Slootweg F0-Bewegungen als den wichtigsten, aber auch komplexesten Faktor bei der akustisch-phonetischen Realisierung von Wort-
13
akzenten bezeichnet. Die Parameter Intensität und Dauer unterliegen den stärksten sprecherspezifischen Einflüssen. Die Studie zeigt, daß man den doch recht weiten Begriff Prominenz durchaus präzise fassen und in mehrere akustische Korrelate von Wortakzent oder Betonung aufgliedern kann. Diese Korrelate reagieren wiederum jeweils unterschiedlich auf einen weiteren phonetischen Parameter, nämlich auf die Silbenposition im Wort. Der akustisch-phonetischen Untersuchung müßte allerdings eine perzeptive folgen. Zu dem Schluß, daß F0 der wichtigste prosodische Parameter ist, kommt auch Olive (1975) aufgrund von Experimenten mit resynthetisiertem englischem Sprachmaterial. Nach seiner Beobachtung gelingt es, eine annähernd natürliche Prosodie zu erzeugen, solange nur der Äußerung eine sinnvolle F0-Kontur unterlegt wird. Andere Parameter wie Intensität, Dauer und Formanttransitionen erfordern dann nur geringfügige Änderungen. Kohler (1989) untersucht die Frage, unter welchen Bedingungen eine Verschiebung des F0-Gipfels bei unveränderter Lautdauer und Intensität die Wahrnehmung eines Wortakzents auf eine andere Silbe lenkt. Dazu verwendet er Verben, die im Deutschen prosodische Minimalpaare darstellen ("Er wird's wohl umlagern"). Die Ergebnisse seiner Experimente bestätigen die Hypothese, daß die F0-Gipfelverschiebung alleine ausreicht, um die Akzentposition auf eine andere Silbe zu verschieben. Dies gelingt in vollem Umfang jedoch nur unter der Voraussetzung, daß die Dauer der Zielsilbe nicht zu kurz ist. Daß insbesondere F0-Bewegungen als effiziente Merkmale für Prominenz dienen, ist nicht überraschend, da bereits eine /^-Änderung von wenigen Prozent (0,7% für stationäre Signale) psychoakustisch über der Wanrnehmungsschwelle liegt, während in lautsprachlichen Äußerungen FQ-Bewegungen beobachtet werden, die um ein Vielfaches größer sind ('t Hart und Collier, 1979). Das perzeptive Korrelat von F0-Änderungen sind Tonhöhenänderungen. Umgekehrt gilt dies nicht ebenso eindeutig: Der Hörer vermag Tonhöhen wahrzunehmen und zu beurteilen, auch wenn der Grundton im Sprachsignal gar nicht vorhanden ist. Dies tritt beispielsweise bei SprachsignalUbertragungen im Telefonfrequenzbereich von 300-3000 Hz auf, wo der Grundton von Männerstimmen und auch von vielen Frauenstimmen nicht übertragen wird. Der Hörer erschließt die Grundtonfrequenz dann aus den im Spektrum enthaltenen Harmonischen, also aus den ganzzahligen Vielfachen des Grundtons, indem er die virtuelle und spektrale Tonhöhe zu einer gemeinsamen Empfindungsgröße kombiniert (Terhardt, 1974; siehe auch Diskussion in Hess, 1983, S. 69 ff.), oder aber aus der Periodizität des Zeitsignals. Streng genommen ist also die Grundtonfrequenz nur eines von mehreren akustischen Korrelaten der wahrgenommenen Tonhöhe, wenn auch zweifellos ein sehr wichtiges. Zahlreiche Studien existieren zur Sensitivität menschlicher Hörer in bezug auf Frequenzunterschiede reiner Töne. Harris (1952) zeigte, daß difference limens (DL,
14
kleinste wahrnehmbare Änderungen) von weniger als l Hz durchaus nicht ungewöhnlich sind. Die DL hängen vom Sprecher, von der verwendeten experimentellen Methode und vom Lautheitspegel der Töne ab. Eine Übertragung dieser Befunde auf Sprachstimuli ist jedoch nicht ohne weiteres zulässig. Klatts (1973) Ergebnisse zum Englischen deuten an, daß die DL für sprachliche Stimuli mit sich ändernder Grundfrequenz etwa um eine Größenordnung höher liegen als für Stimuli mit konstantem F0-Wert. Die bisher einzigen einschlägigen psychoakustischen Daten liefert eine Untersuchung von Harris und Umeda (1987) mit natürlich produzierten englischen Sätzen, also sehr komplexen Stimuli. Die Autorinnen fanden DL, die etwa 20mal größer sind als die für gehaltene synthetische Vokale mit vergleichbaren F0-Werten (Flanagan und Saslow, 1958) und 2-4mal größer als die für gehaltene synthetische Vokale mit linear fallender Grundfrequenz (Klatt, 1973). Außerdem stellten Harris und Umeda (1987) eine statistisch signifikante Abhängigkeit vom jeweiligen Sprecher fest, die entweder auf sprecherspezifische Eigenschaften des akustischen Signals oder auf das verwendete Analyse- und Syntheseverfahren (LPC = linear predictive coding) zurückzuführen sind. Diese zweite mögliche Erklärung konnte mangels eines alternativen Verfahrens nicht geprüft werden. Immerhin lassen verschiedene Detailbeobachtungen sprecherspezifische Unterschiede plausibel erscheinen. Wenig läßt sich über den Einfluß der linguistischen Information in den Testsätzen sagen. So könnten beispielsweise F0-Verläufe auf Akzentsilben mehr Aufmerksamkeit von seilen des Hörers auf sich ziehen als "unwichtigere" Silben. Untersuchungen zur Wahrnehmung von F0-Bewegungen in natürlichen und synthetisierten sprachlichen Stimuli führte auch Rossi (1971) durch. Seine Resultate zeigen, daß steigende FQ-Bewegungen (güssandos) nicht als Ganzes wahrgenommen werden. Die jeweils wahrgenommene Tonhöhe entspricht dem F0-Wert an der Grenze zwischen dem zweiten und dem letzten Drittel der Bewegung ("Zweidrittelwert"). Diesen Wert bestätigt Rossi (1978) auch für fallende F0-Bewegungen. Sehr unterschiedlich, ja widersprüchlich ist die Einschätzung des Beitrags der Intensität zur Markierung betonter Silben. In traditionellen linguistischen Lehrbüchern, vereinzelt aber auch in der phonetischen Literatur (Trager und Smith, 1951; Wodarz, 1961), wurde die Intensität als wichtigstes Betonungsmittel ("Druckakzent") oder als der Grundfrequenz gleichwertig genannt. Experimentelle akustisch-phonetische Untersuchungen kamen jedoch in derselben Epoche zu dem Ergebnis, daß der Einfluß der Intensität, verglichen mit dem der Grundfrequenz, nahezu zu vernachlässigen ist (z.B. Bolinger, 1958; Fry, 1958). Eine ausführliche Diskussion dieser Problematik findet sich bei Crystal (1969a, S. 44-62,113-120 passim). In jüngerer Zeit vertritt Beckman (1986) wiederum die Auffassung, daß die Intensität wohl der wichtigste akustische Parameter bei der Hervorhebung von Silben sei. Mögliche Ursachen für diese Kontroverse diskutiert Nöth (1991, S. 43 f.).
15
Die Beziehung zwischen Intensität und Grundfrequenz hat eine physiologische Basis. Beide Parameter werden bei der Sprachproduktion durch die gleichen Mechanismen gesteuert, und zwar durch zu- und abnehmenden pulmonären Aufwand, subglottalen Druck und Stimmlippenspannung. Gewöhnlich sind die beiden Parameter positiv korreliert (Vaissiere, 1983). Schließlich trägt auch die zeitliche Strukturierung, vor allem die Lautdauer, zur Markierung betonter Silben bei. Fant (1990) stellt die Frage, wie man den Parameter Dauer als Korrelat der Betonung quantifizieren soll. Es genügt offensichtlich nicht, jeweils nur die Vokaldauer zu messen. Berücksichtigt werden müssen seiner Auffassung nach auch die vorangehenden und folgenden Konsonanten, die je nach Einzelsprache sehr unterschiedlich stark durch die Silbenbetonung beeinflußt werden, unter bestimmten Umständen selbst über Silbengrenzen hinweg. Fant stellt fest, daß die Dehnung von Segmenten als Begleiterscheinung von Betonung sprecherspezifisch ausgeprägt ist und auch mit dem Sprechstil, der Deutlichkeit der Aussprache und der Lautstärke variiert. Kohler (1988) erstellt ein Regelsystem zur Dauersteuerung im Deutschen als Komponente eines Sprachsynthesesystems. Grundlage seiner Arbeit ist eine Modifikation des von Klatt (1979) vorgelegten Modells, das eine hohe "[...] Flexibilität in der Abbildung der empirischen Befunde der Sprachproduktion" (Kohler, 1988, S. 166) zeigt. Den globalen Rahmen gibt das Sprechtempo vor, das auf die Vokaldauer einen stärkeren Einfluß ausübt als auf die Konsonantendauer. Innerhalb dieser längerfristig gesetzten Vorgabe werden die Lautdauern lokal auf kontextuelle Einflüsse hin korrigiert, deren wichtigster die Silbenbetonung ist. Segmente in betonten Silben sind länger als in unbetonten Silben. Kohler argumentiert, daß in einem Sprachsynthesesystem die Komponente zur Steuerung der Lautdauer in Abhängigkeit vom Betonungsmuster zu höherer Natürlichkeit und Verständlichkeit beiträgt. Edwards und Beckman (1988) entwickeln ihrerseits ein Dauersteuerungsmodell für die Sprachsynthese des Englischen. Trotz offensichtlicher Analogien zur FQ-Synthese sind die Autoren aber im Zweifel, "[...] whether duration synthesis can be as successful as FO synthesis, whether it can ever be the useful analytical tool for rhythm that F0 synthesis has been for intonation" (Edwards and Beckman, 1988, S. 158).
2.2.2 Kontrastakzent und Emphase Eine spezielle Art des Wortakzents und der Silbenbetonung stellen der Kontrastakzent und die Emphase dar. Thorsen (1979b) unterscheidet den Kontrastakzent (emphasis for contrast) von anderen Begriffen wie Fokus, Satzakzent oder Nukleus. Nach ihren Analysen des Dänischen und später (Gr0nnum, 1990) auch des Deutschen ragt die den Kontrastakzent tragende Silbe deutlich aus ihrer lautlichen Umgebung heraus, was in
16 erster Linie durch tonale Hervorhebung dieser Silbe und durch tonale Reduktion der unmittelbaren Umgebung erreicht wird, also über den Parameter F0. Kurze Sätze mit Kontrastakzent setzt Thorsen insofern Sätzen mit nur einem Wortakzent gleich, als in beiden Fällen die Informationen über den Satzmodus und die semantische und pragmatische Funktion der Äußerung im F0-Muster der hervorgehobenen Silbe enthalten sind. Bannert (1985) trifft keine Unterscheidung zwischen Emphase und Kontrastakzent hinsichtlich ihrer tonalen Manifestation. Beide zeichnen sich nach seinen Beobachtungen durch eine besonders ausgeprägte F0-Bewegung auf der betonten Silbe des kontrastierenden Elements aus. Zusätzlich können die F0-Bewegungen vor der Silbe, die den Kontrastakzent trägt, reduziert werden. Obwohl weder Emphase noch Kontrastakzent in dieser Arbeit eine wichtige Rolle spielen, soll eine terminologische Vereinbarung getroffen werden. Von Kontrastakzent soll dann gesprochen werden, wenn ein expliziter Gegensatz vorliegt ("Ich will ihn nicht wmfahren, sondern um/a/iren!"). Dagegen drückt Emphase einen impliziten Kontrast aus ("Ich will ihn doch nicht umfahren!"). Beide Arten der Hervorhebung werden mit Hilfe der gleichen Mittel, also durch die gleichen akustischen Parameter realisiert.
2.3 Akzentgruppe Das Deutsche wird zur Gruppe der akzentzählenden Sprachen gerechnet, zu der nach Pike (1958) und Abercrombie (1967) auch alle anderen germanischen Sprachen gehören. Im Unterschied zu silbenzählenden Sprachen, deren Silben in gleichmäßigen zeitlichen Intervallen auftreten, und zwar unabhängig davon, ob sie betont oder unbetont sind , ist das charakteristische Merkmal der akzentzählenden Sprachen die Tendenz zur Isochrome, also die Tendenz, den zeitlichen Abstand zwischen den betonten Silben einer Äußerung annähernd gleich zu halten, und zwar unabhängig von der Anzahl der jeweils dazwischenliegenden unbetonten Silben (siehe Kohler, 1977, S. 123). Dies wird gegebenenfalls durch eine Dauerreduktion vor allem der unbetonten Silben erreicht, die im Deutschen bis zur Löschung des Schwa-Vokals vor einem Sonoranten gehen kann, der dann zum Silbenträger wird. Das Intervall zwischen dem Beginn einer betonten Silbe und dem der nächsten betonten Silbe (Crystal und House, 1990, zum Englischen) oder auch das Intervall zwischen dem Beginn eines betonten Vokals und dem Beginn des folgenden betonten
Fletcher (1991) argumentiert, daß sich dieses Phänomen vor allem auf die Wahrnehmung bezieht: Die Abfolge der Silben in einer Äußerung wird so wahrgenommen, als sei sie gleichmäßig. Dabei bleibe unklar, ob es sich um eine am Sprachsignal objektiv Überprüfbare Erscheinung handelt oder um eine perzeptive Abstraktionsleistung. Fletchers Auffassung nach ist die Dichotomic "silbenvs. akzentzählend" nicht haltbar.
17
Vokals (Fant und Kruckenberg, 1989, zum Schwedischen) dient als Grundlage für die Konstituierung einer prosodischen Einheit, die von vielen Autoren Betonungsgruppe (stress group) genannt wird. Neuere Untersuchungen zur Bestimmung von Dauerdaten, denen die Betonungsgruppe als Einheit der temporalen Organisation einer Äußerung zugrundeliegt, kommen zu dem Ergebnis, daß sich das vielzitierte Isochronie-Konzept nicht halten läßt. Vielmehr nimmt die Dauer einer Betonungsgruppe mit der Anzahl der Silben und Laute zu, die sie enthält; sie hängt also von der internen Komplexität der Betonungsgruppe ab (Fant und Kruckenberg, 1989). Weder die Segmentdauern innerhalb einer Silbe noch die Segment- oder Silbendauern innerhalb einer Betonungsgruppe werden vom Sprecher so justiert, daß eine annähernd konstante oder regelmäßige Betonungsgruppendauer erzielt wird (Crystal und House, 1990). Die Autoren weisen allerdings darauf hin, daß sich in diesem Punkt vorgelesene von spontaner Sprache unterscheiden könnte. Den Stand der Forschung faßt Fant dahingehend zusammen, daß die beobachtbaren Tendenzen zur Isochrome in den stress-timed languages eher "[...] marginal and not sufficient as a basis for a theory of 'stress timing"1 (1990, S. 1394) sind. Es erscheint vielversprechend, das Konzept der Betonungsgruppe, das sich in verwandten Sprachen bewährt hat, bei der Beschreibung des Systems der deutschen Intonation zu übernehmen, allerdings mit einer etwas modifizierten Interpretation. Da sich das in der vorliegenden Arbeit vorgestellte Intonationsmodell vorrangig auf die Intonationskontur bezieht, soll der FQ- Verlauf das ausschlaggebende Kriterium für die Definition von Betonungsgruppen und für die Abgrenzung von Betonungsgnippen in einer Äußerung sein. Im Interesse einer konsistenten Terminologie soll daher im weiteren anstelle von Betonungsgruppen von Akzentgruppen gesprochen werden (vgl. groupe accentuel bei Zinglo, 1980). Dementsprechend wird auch die Markierung der Grenzen zwischen Akzentgruppen nicht anhand segmenteller Kriterien vorgenommen, sondern anhand des F0-Verlaufs (siehe Abschnitt 5.3.5). Die folgende Darstellung des Akzentgruppenkonzepts orientiert sich im wesentlichen an der Analyse des Dänischen und Deutschen durch Thorsen (1988a; 1989) und ihrer Definition von stress groups: "The prosodic stress group [...] consists of a stressed syllable and all succeeding unstressed syllables (if any) - i.e. the prosodic stress group boundary [...] lies immediately before the stressed syllable - independently of the number and type of syntactic boundaries in the utterance." (Thorsen, 1988a, S. 2; Hervorhebung im Original). Die so beschriebene Einheit ist unabhängig von Wortgrenzen, jedoch sensitiv gegenüber größeren syntaktischen Grenzen, insbesondere Phrasengrenzen. Der Einfluß von syntaktischen Grenzen auf den F0-Verlauf in Akzentgruppen ist eine sprachspezifische Erscheinung des Deutschen (aber auch anderer Sprachen), die sich deutlich von den
18
eher automatisierten Abfolgen einander sehr ähnlicher F0-Muster im Dänischen unterscheidet (Thorsen, 1989) und im Zusammenhang mit der Phrasierung von Äußerungen in Abschnitt 2.4 noch genauer darzustellen sein wird. Eine Äußerung besteht aus einer oder mehreren Akzentgruppen. Unbetonte Silben, die einer äußerungsinitialen Akzentgruppe vorausgehen, werden als proklitische Silben bezeichnet. Die prototypische Intonationskontur einer Akzentgruppe ist im Deutschen steigend-fallend, wobei die F0-Bewegung auf der akzentuierten Silbe steigend ist (Kohler, 1983b; Thorsen, 1989). In extrem kurzen Akzentgruppen, die keine oder vielleicht nur eine unbetonte Silbe enthalten, kann die fallende Bewegung notfalls abgeschnitten werden, wenn die Grenze für die Schnelligkeit von FQ-Bewegungen erreicht ist. Da sich die gedachten Linien durch die F0-Gipfel einerseits und durch die F0Minima andererseits zum Ende der Äußerung hin einander annähern, wird die steigende Bewegung in einer Akzentgruppe zunehmend durch eine Transition vom vorangehenden Minimum zum folgenden Maximum bestimmt; eine Ausnahme stellt die äußerungsfinale Akzentgruppe dar, wo oft nur noch eine fallende F0-Bewegung auftritt (Kohler, 1983b). Thorsen (1989) bestätigt im übrigen die aus der Literatur (z.B. Ohala und Ewan, 1973) bekannte Beobachtung, daß fallende F0-Bewegungen rascher ausgeführt werden können als steigende. Sie erklärt damit auch das Phänomen, daß das F0Maximum bei Anstiegen, bezogen auf den Beginn der Bewegung, relativ spät und häufig erst in der ersten posttonischen Silbe erreicht wird (siehe auch Bannert, 1983). Thorsen (1989, S. 70) führt Evidenz dafür an, daß im Deutschen der Umfang der F0-Bewegungen in einer Akzentgruppe innerhalb eines weitgehend gleichbleibenden Bereiches entsprechend der Silbenzahl und der Dauer der Akzentgruppe justiert wird. Wenn diese Beobachtung generell zutrifft, muß angenommen werden, daß der Sprecher die Struktur der Akzentgruppen in einer Äußerung vorausplant. Beispielsweise muß er die Justierung so vornehmen, daß der richtige F0-Wert am Ende einer Akzentgruppe nicht verfehlt wird. Diese besonders wichtigen Stellen in der Intonationskontur sind entweder von einer Phrasierungsgrenze abhängig oder - dies gilt insbesondere für durchgehend stimmhafte Verlaufsabschnitte - von dem Beginn der folgenden Akzentgruppe. Sie stellen somit Anker- oder Wendepunkte in der Intonationskontur dar. In diesem Zusammenhang ist in der vorliegenden Arbeit auch eine einschneidende Restriktion im Algorithmus zur Bestimmung der Modellparameter zu sehen, die die Bedingungen für die Berechnung der Parameterwerte so setzt, daß die generierte Intonationskontur einer nachgebildeten Akzentgruppe in ihrem ausklingenden Teil nicht die FQ-Werte zu Beginn der nachfolgenden Akzentgruppe übersteigt (siehe Abschnitt 6.1). Thorsen (1988a) spricht ein weiteres interessantes Phänomen an, das für die Nachbildung von Intonationskonturen relevant ist: In betonten Silben werden initiale stimmhafte Konsonanten tonal offenbar vom betonten Vokal getrennt, d.h., sie tragen auch perzeptiv nicht zum F0-Verlauf der Akzentgruppe bei. Thorsen führt Untersuchungen
19
zu Tonsprachen, aber auch zur Artikulation und zur Segmentationsproblematik an, deren Ergebnisse die Erkenntnis stützen: "[...] stress begins with the vowel" (Thorsen, 1988a, S. 7). Dies hat Konsequenzen fiir die Strategie, nach der die F0-Verläufe nachzubildender Akzentgruppen markiert werden: Bei der Markierung werden die Segmentgrenzen berücksichtigt; als Vorgabe für den Anschaltzeitpunkt des Akzentkommandos wird der Beginn des betonten Vokals markiert (siehe Bild 5.2 in Abschnitt 5.3.5).
2.4 Phrasierung von Äußerungen Das Sprachsignal trägt erheblich mehr Information als der geschriebene Text. Die Intonationskontur, aber auch andere Merkmale wie der Intensitätsverlauf oder die Veränderung der Stimmqualität liefern dem Hörer wichtige Hinweise zur korrekten syntaktischen Zerlegung von Äußerungen. Eine zentrale Rolle spielen dabei intonatorische Bruchstellen und Pausen, die mit ihnen einhergehen. Die Gliederung von Äußerungen in zwei oder mehr Abschnitte, die jeweils durch eine eigene Intonationskontur und eine eigene Deklinationslinie charakterisiert sind, wird Phrasierung genannt (siehe z.B. Bierwisch, 1966). Da es sich hier um eine prosodische, auf einer Strukturierung des FQ-Verlaufs beruhende, und nicht etwa um eine syntaktische Gliederung handelt, sollen die entstehenden Einheiten intonatorische Phrasen genannt werden. Phrasengrenzen, die gelegentlich durch kurze Sprechpausen oder sogar durch Atempausen gekennzeichnet sind, fallen im Deutschen in der Regel, aber nicht notwendigerweise, mit größeren syntaktischen Grenzen zusammen (Bierwisch, 1966; Thorsen, 1989). Sie wirken sich quantitativ und qualitativ auf den F0- Verlauf der Akzentgruppe aus, die der Grenze vorangeht. Dies gilt sowohl für Grenzen in äußerungsfinaler wie für solche in medialer Position. Die konkrete Ausprägung, die als prosodisches Grenzsignal betrachtet werden kann, ist jedoch von der Art der Grenze abhängig. Die prototypische Intonationskontur einer äußerungsfinalen Akzentgruppe wird in der Literatur häufig ah final fall beschrieben, also als äußerungsfinales Absinken des F0-Verlaufs. So beobachtet beispielsweise Adriaens (1984), daß im Deutschen die letzte prominenzverleihende F0-Bewegung in einer Äußerung in der Regel ein voller Fall über zehn Halbtöne ist. Das Gesamtmuster der Akzentgruppe wandelt sich von steigend-fallend in fallend, also ist auch die FQ-Bewegung auf der betonten Silbe eine fallende. Der Umfang dieser fallenden Bewegung ist größer als in den vorangehenden Akzentgruppen, denn sie beginnt höher. Die akzentuierende Bewegung erstreckt sich nicht über die gesamte zur Verfügung stehende Zeit. Das F0-Minimum wird vielmehr bereits in der ersten posttonischen Silbe erreicht; die übrigen Silben folgen relativ flach und eben (siehe auch Thorsen, 1989; Gr0nnum 1990). Der so beschriebene final fall dient dem Hörer als Grenzsignal, das das Ende der Äußerung ankündigt. Nach der Beobachtung Nöths (1991, S. 90) geht dieser Sprung
20
in eine äußerst tiefe Stimmlage häufig mit einer Laryngalisierung einher, die vom Sprecher nicht nur als Grenzsignal, sondern zugleich auch zur Markierung des Satzmodus Aussagesatz verwendet wird. Die Wirkung des äußerungsfinalen Falls kann bereits rund 500 ms vor Äußerungsende einsetzen (Terken, 1989a). In der vorliegenden Arbeit wird dieser Effekt durch die Einführung eines finalen negativen Phrasenkommandos in Aussagesätzen und w-Fragesätzen nachgebildet (siehe Abschnitt 4.3.2). Eine Phrasengrenze innerhalb der Äußerung unterbricht das typische F0-Muster der Akzentgruppe vor der Grenze. Es lassen sich zwei Varianten unterscheiden (Thorsen, 1989), die ebenfalls als Grenzsignale aufgefaßt werden können. In der ersten Variante fällt die Phrasengrenze mit der Grenze zwischen zwei Akzentgruppen zusammen; hier realisiert der Sprecher eine steigend-fallend-steigende Bewegung. Im zweiten Fall durchschneidet die Phrasengrenze die Akzentgruppe; hier tritt zumeist ein relativ steiler Anstieg zu der posttonischen Silbe unmittelbar vor der Grenze auf, dem ein unregelmäßiges Absinken der Intonationskontur zur ersten Silbe nach der Grenze folgt. In beiden Varianten ist also ein F0- Anstieg zur Phrasengrenze hin zu beobachten, ein Phänomen, das häufig als continuation rise bezeichnet wird (z.B. O'Shaughnessy, 1979; Collier, 1991). Adriaens (1991, S. 60) sieht an größeren syntaktischen Grenzen im Deutschen einen Neuansatz der Deklinationslinie vor. Weiterhin tritt vor nicht-finalen Phrasengrenzen ein phrase-final lengthening auf, also eine Dehnung der lautlichen Segmente vor der Grenze, das deutlicher ausgeprägt ist als die Segmentdehnung am Äußerungsende (utterance-final lengthening) (Crystal und House, 1990, zum Englischen). Die unterschiedlich starke Dehnung an medialen und äußerungsfinalen Phrasengrenzen ist möglicherweise daraus zu erklären, daß das Äußerungsende durch das typische finale Absinken der Intonationskontur bereits hinreichend signalisiert wird. Vaissiere (1983) zählt das Phänomen der Dehnung finaler Segmente zu den prosodischen Universalien: "There is a tendency to lengthen the final elements in an utterance, particularly the last vowel, before a pause [...] Lengthening a final element without a pause helps to mark the end of a word or phrase [...]" (Vaissiere, 1983, S. 60). Je näher ein Segment der Grenze ist, desto stärker wird es von der Dehnungstendenz betroffen. Nach den Untersuchungen Kohlers (1983a) zur finalen Dehnung im Deutschen wird das gesamte äußerungsfinale Wort unabhängig von seiner Silbenzahl beeinflußt. Segmenteil entfällt der größte Anteil auf die letzte Silbe, der zweitgrößte auf die betonte Silbe des Wortes. Das Phänomen der finalen Dehnung wird von zahlreichen Autoren für verschiedene Sprachen beschrieben (z.B. Lehiste, 1973; Klatt, 1975; Streeter, 1978; Crystal und House, 1990; Fant, 1990). Mit Hilfe von Phrasengrenzen lösen sowohl Sprecher als auch Hörer syntaktische Ambiguitäten auf. Price et al. (1991) zeigen an englischem Sprachdatenmaterial, daß in den meisten Äußerungen, in denen Hörer eine ihnen gestellte Disambiguierungsauf-
21
gäbe erfolgreich lösten, die Plazierung und relative Bedeutung der Grenze den Ausschlag gab. Lieberman (1967) entwickelte die Hypothese, daß eine korrekte Disambiguierung aufgrund prosodischer Informationen nur bei unterschiedlicher Oberflächenstruktur (z.B. TU move / on Saturday" vs. "I'll move on / Saturday") gelingt, nicht aber bei unterschiedlicher Tiefenstruktur (z.B. "Flying planes can be dangerous"; Beispiele aus Price et al., 1991, S. 2957). Liebermans Hypothese wurde zwar durch Wales und Toner (1979) bestätigt, doch Lehiste (1973) konnte zeigen, daß in Einzelfällen auch tiefenstrukturelle Ambiguitäten aufgrund prosodischer Informationen auflösbar sind. In der vorliegenden Arbeit wird die Wirkung der Phrasierung auf die Modellparameter der Phrasen- und Akzentkomponente des Intonationsmodells anhand ein- und zweiphrasiger Äußerungen untersucht. Dem Algorithmus zur Nachbildung von Intonationskonturen werden dabei die Phrasengrenzen manuell vorgegeben (siehe Kapitel 8).
2.5 Satzakzent und Fokus Thorsen versteht den Satzakzent wie folgt: "[...] one (or possibly more) of the stressed words in an utterance is (are) perceived as being more prominent than the other stressed words; this extra prominence is brought about with tonal means (larger and quicker pitch movements)." (Thorsen, 1988b, S. 120) Sie unterscheidet grundsätzlich zwei Typen des Satzakzents, nämlich den prosodisch oder syntaktisch festgelegten, in der Regel äußerungsfinalen default accent und einen kontextuell, d.i. semantisch oder pragmatisch, determinierten focal accent. Diese Dichotomie, die ursprünglich im Zuge der Untersuchung verschiedener regionaler Varianten des Dänischen und Schwedischen eingeführt wurde, scheint für die deutsche Sprache weniger geeignet zu sein, umso weniger, als Thorsen selbst für ihr deutsches Sprachmaterial feststellt, daß "[...] in German (Standard as well as Flensburg) they [seil, default accents; B.M.] are optional" (1989, S. 26; Hervorhebungen B.M.). Im Deutschen bietet sich zwar ebenfalls eine Unterscheidung der Begriffe Satzakzent und Fokus an, jedoch auf einer anderen theoretischen Grundlage. Danach ist der Fokus ein semantisches Konzept und bezeichnet den bedeutungsmäßig wichtigsten Teil einer Äußerung, der als "center of information in a linguistic message" (Fujisaki, 1991, S. 6) in der Regel neue Informationen im Diskurs enthält (Bannert, 1985). Die Position des Fokus ist also durch den Kontext motiviert und kann prinzipiell auf jede Silbe der Äußerung fallen (siehe auch Gr0nnum, 1990). Nach der Argumentation Nöths ist die Fokuskonstituente der Äußerung Träger des Satzakzents, so daß "[...] ein
22
sehr enger Zusammenhang zwischen dem Informationsgehalt und dem Grad der Akzentuierung [...]" (1991, S. 29; Hervorhebung im Original) besteht. Die intonatorische Relevanz des Fokus im Deutschen wird von Batliner (1989) näher untersucht. Die Existenz des Satzakzents im Deutschen scheint weithin unstrittig zu sein (vgl. Kohler, 1977; Bannert, 1985 und 1988; Thorsen, 1989; vgl. außerdem die "Schwerpunktsilbe" bei von Essen, 1956). Ungeklärt ist hingegen die Frage, ob der Satzakzent im Deutschen obligatorisch ist. Hier widersprechen sich Thorsen und Bannert, die sich jedoch in diesem Punkt möglicherweise auf verschiedenen Ebenen der Intonationsbeschreibung bewegen. Bannert postuliert das obligatorische Auftreten des Satzakzents im Deutschen: "Each sentence contains one or more pitch accents that reflect semantic focus [...] I shall call them focus accents." (Bannert, 1988, S. 5) Der Satzakzent läßt sich als phonologisches Merkmal interpretieren, das sich in der Realisierung einer Äußerung verschiedenartig auf den F0-Verlauf auswirken kann (Bannert, 1985). Thorsen hat jedoch in der Empirie, in dem von ihr untersuchten deutschen Sprachmaterial, Schwierigkeiten bei der Entscheidung, ob speziell in finaler Position ein Satzakzent vorliegt oder nicht. Daraus aber zu folgern, der Satzakzent sei im Deutschen nicht obligatorisch oder zwingend (Thorsen, 1989, S. 25), ist wohl voreilig. Dagegen scheint Thorsens Aussage an anderer Stelle (1989, S. 9), ein skalares Merkmal sei in diesem Fall einem binären vorzuziehen, durchaus mit Bannerts Auffassung in Einklang zu bringen zu sein. Nach Thorsens (1989) detaillierter Analyse ihres deutschen Sprachdatenmaterials ist der Satzakzent in äußerungsfinaler Position perzeptiv und akustisch nicht sehr prominent. Das typische Muster des final fall bleibt erhalten, allenfalls beginnt die FQBewegung vergleichsweise ein wenig höher und ist damit ausgeprägter als in finalen Akzentgruppen ohne Satzakzent. In initialer oder medialer Stellung hingegen ist der Satzakzent erheblich auffälliger. Typisches Merkmal ist ein deutlicher FQ-Abfall in der ersten posttonischen Silbe, häufig auch eine steigend-fallende Bewegung auf der betonten Silbe selbst. Diese fallenden Bewegungen werden außerdem nicht zeitlich expandiert. Die folgenden Akzentgruppen schließen an dem resultierenden niedrigen F0-Niveau an. Die äußerungsfinale Akzentgruppe nach dem Satzakzent hebt sich noch einmal leicht von dem niedrigen FQ-Verlauf ab, um einen relativ kleinen finalen Fall auszuführen (Thorsen 1989, S. 73). Die den Satzakzent tragende Silbe selbst kann, muß aber nicht notwendigerweise, tonal angehoben werden. Das perzeptiv entschei-
Bannert (1988) spricht im Original nicht von Satzakzent, sondern von Fokus. Gemeint ist aber offenbar nicht das semantische Konzept selbst, sondern dessen intonatorische Realisierung durch den Satzakzent (focus accent).
23
dende Moment scheint zu sein, daß die dem Satzakzent folgenden betonten Elemente intonatorisch abgeschwächt werden (Thorsen 1989, S. 24). Ansätze zu einer Bestimmung der Position des Satzakzents aufgrund der syntaktischen Oberflächenstruktur finden sich für das Deutsche in den Arbeiten von Bierwisch (1966) und Kiparsky (1966). Uhmann (1988) zieht zu dem gleichen Zweck auch semantische Kriterien heran. Nöth nennt eine derart festgelegte Akzentstruktur in Anlehnung an Kiparsky (1966) "Normalbetonung" (1991, S. 27). Sie tritt insbesondere auf, wenn in einem Sprachproduktionsexperiment isolierte Sätze ohne Kontextinformation vom Blatt gelesen werden, einem durchaus üblichen Verfahren, das auch in der vorliegenden Arbeit verfolgt wurde (siehe Abschnitt 5.2).
2.6 Satzmodus Unter Satzmodus wird in der Linguistik der systematische Zusammenhang zwischen Satztypen, die durch formale grammatische Eigenschaften definiert sind, und pragmatischen Funktionstypen verstanden. Beispiele für Satztypen sind Aussage-, Frage-, Aufforderungs- oder Exklamativsätze (Bußmann, 1990, S. 663). In jüngerer Zeit werden zur Definition von Satzmodi und zur Bestimmung des Satzmodus einer Äußerung zunehmend auch suprasegmentale Merkmale herangezogen (siehe insbesondere Altmann, 1987). In der vorüegenden Arbeit werden Äußerungen der Satzmodi Aussagesatz, w-Fragesatz, Entscheidungsfragesatz und assertiver (Echo-) Fragesatz in Hinblick auf ihre intonatorische Markierung durch die Phrasen- und Akzentkomponente des Intonationsmodells analysiert. Modifikationen des Algorithmus zur Nachbildung von Intonationskonturen werden in Abhängigkeit vom Satzmodus der Äußerung allerdings nur auf der Phrasenebene vorgenommen (siehe Abschnitt 8.1). Einem Vorschlag Gr0nnums (1990) folgend, können Äußerungen nach prosodischen Kriterien in terminale und nicht-terminale Äußerungen klassifiziert werden. Demnach wären im Deutschen etwa w-Fragesätze, die mit final fallender Intonationskontur realisiert werden (siehe Bild 8.2), ebenso wie Aussagesätze zu den terminalen Äußerungen zu zählen.
2.7 Deklination Vaissiere (1983) definiert das in der Intonationsliteratur (siehe vor allem Pierrehumbert, 1979; Cohen et al., 1982) häufig untersuchte und kontrovers diskutierte Phänomen der Deklination, das sie zu den intonatorischen Universalien rechnet, als "[...] a global tendency for the F0 curve to decline with time, despite successive local
24 rises and falls" (1983, S. 55). Terken, der mit Hilfe von pseudosprachlichen Stimuli ("maMAmamamaMAma") Experimente zur relativen Prominenz einzelner Wortakzente in Abhängigkeit von der globalen Intonationskontur durchführt, stellt fest: "[...] Speakers tend to produce lower F0 maxima and smaller F0 changes at the end of utterances than at the beginning" (1989a, S. 34). Der Begriff Deklination wird sowohl für die relativ raschen F0-Variationen verwendet, die mit der Akzentuierung von Silben einhergehen, deren F0-Gipfel eine allmählich fallende topline beschreiben, als auch für die langsamere F0-Variation, die eine Bezugslinie (baseline) für die darauf superponierten lokalen F0-Muster bildet. Der Umfang der F0-Bewegungen wird im allgemeinen vom Beginn zum Ende der Äußerung hin schmaler; die lokalen F0-Maxima sinken schneller als die lokalen FQ-Minima. Im Rahmen einer Diskussion sprachunabhängiger prosodischer Merkmale führt Vaissiere (1983) eine Reihe von Beobachtungen zur Form und Funktion der Deklination und auch zu den Bedingungen an, unter denen sie auftritt. Sie unterscheidet generell zwischen einer Deklinationslinie, die aus einer konstanten Deklinationsrate resultiert, und einer exponentiellen Deklination, bei der die Intonationskontur im ersten Teil der Äußerung rasch absinkt und zum Äußerungsende zunehmend flacher wird. Am ausgeprägtesten ist der Deklinationseffekt in isolierten, vorgelesenen Sätzen, während spontane Äußerungen häufig nur eine sehr geringe oder gar keine Deklinationstendenz zeigen (siehe auch Umeda, 1982). Auch in Fragesätzen, spontanen wie gelesenen, ist zumeist keine Deklination festzustellen. Die Funktion der Deklination sieht Vaissiere in der Markierung des Kontrastes zwischen Frage- und Aussagesätzen und in einem nicht unerheblichen Beitrag zur Natürlichkeit von Äußerungen. Die Ursachen für den Deklinationseffekt werden vorwiegend in den physiologischen Gegebenheiten gesucht. Lieberman (1967) erklärt das Absinken der Grundfrequenz durch eine Abnahme des transglottalen Luftdrucks vor, was aber von Hixon et al. (1971) teilweise zurückgewiesen wird. Dagegen sind die tracheal /»«//-Theorie (Maeda, 1976) und das von Ohala und Ewan (1973) angeführte Trägheitsprinzip bislang nicht widerlegt worden. Die schlüssigsten Ergebnisse legt allerdings Collier (1975; 1987) vor. Seine Experimente zeigen, daß der allmählich nachlassende subglottale Luftdruck (Ps) für die F0-Deklination verantwortlich ist, während die Aktivitäten des Cricothyroid, eines intrinsischen Kehlkopfmuskels, offenbar die lokalen steigenden und fallenden F0-Bewegungen bewirken (siehe auch Abschnitt 4.2). Alle diese Erklärungen beziehen sich auf den Sprachproduktionsapparat und schließen sich nicht gegenseitig aus. Für eine physiologische Begründung spricht auch, daß Untersuchungen für verschiedene Einzel sprachen jeweils ähnliche Ergebnisse brachten. Letztlich ist auch eine aktive Kontrolle durch den Sprecher nicht auszuschließen. Nach den Ergebnissen der Untersuchung von Pierrehumbert (1979) zum Englischen kontrolliert der Sprecher die Deklinationslinie so, daß sie jeweils mit einer geeigneten syntaktischen Einheit zusammenfällt. Der Neuansatz der Deklination (resetting)
25
markiert dann eine syntaktische Phrasengrenze, wobei das Ausmaß des resettings die Bedeutung der Grenze ausdrückt. Damit trägt die Deklination auch Informationen über die syntaktische Struktur der Äußerung. Ein weiteres wichtiges Ergebnis der Studie Pierrehumberts (1979) ist, daß ein zweiter F0-Gipfel in der Äußerung einen geringeren F0-Wert als der erste Gipfel haben muß, um den gleichen Prominenzeindruck hervorzurufen. Diese Beobachtung wird durch ein Perzeptionsexperiment von Gussenhoven und Rietveld (1988) bestätigt, in dem die Prominenz von F0-Gipfeln im Niederländischen beurteilt werden sollte. Die Autoren stellen außerdem fest, daß der Deklinationseffekt sowohl durch ein zeitabhängiges als auch durch ein finales Absinken hervorgerufen wird. Der zeitabhängige Effekt trägt nur knapp zur Hälfte der beobachteten Deklination bei. Der Rest wird durch das finale Absinken erklärt. Die beiden Effekte sind voneinander unabhängig. Allerdings war in den Produktionsdaten generell nur eine geringe Deklination vorhanden. Terken (1989b) wirft Gussenhoven und Rietveld (1988) eine Fehlinterpretation ihrer Daten vor. Tatsächlich lasse sich der Effekt des finalen Absinkens nicht belegen; er sei ein Artefakt des experimentellen Designs und müsse auch nicht in ein Modell der to/?/me-Deklination integriert werden. Seine Schlußfolgerung lautet: "Thus, the case of time dependence of topline declination is still open" (Terken, 1989b, S. 363). Kohler (1991a) hält eine zeitabhängige Deklination ohnehin nicht für ein Merkmal der natürlichen Sprachproduktion. Er argumentiert zugunsten des von Pierrehumbert (1980) vertretenen Konzepts des downstepping (siehe Abschnitt 3.2.1) von einem Akzent zum nächsten auf struktureller, nicht aber zeitlicher Basis. Geifer et al. (1987) untersuchen, ob das mit der Deklination einhergehende Absinken des subglottalen Drucks im Verlauf der Äußerung eine vom Sprecher kontrollierte Komponente der Intonation ist. Weiterhin wird die Frage gestellt, ob die Deklination sensitiv gegenüber der syntaktischen Struktur der Äußerung ist und so einen entsprechenden Neuansatz der Deklinationslinie bewirkt. Die Hypothese geht dahin, daß es wohl eine Interaktion zwischen Syntax und Intonation gibt, daß aber das Ausmaß des resettings nicht vorher geplant wird, selbst wenn das Auftreten des resettings selbst geplant sein sollte. Die von Geifer et al. (1987) vorgelegten Ergebnisse für das Niederländische und das Englische sind nicht ganz eindeutig. Während die F0-Werte der beiden Gipfel im ersten Teilsatz einer Äußerung über die verschiedenen experimentellen Bedingungen hinweg erstaunlich ähnlich sind, variiert der F0-Wert des ersten Gipfels im zweiten Teilsatz systematisch in Abhängigkeit davon, ob eine Atempause zwischen den beiden Teilsätzen vorliegt oder nicht. Bei einer Atempause liegt der Gipfel statistisch signifikant höher. Da die laryngalen Muskeln hieran nicht aktiv beteiligt sind, ist offenbar der Anstieg des subglottalen Luftdrucks (Ps) für das Ausmaß des resettings verantwortlich. Allerdings kann der jeweilige relative Anteil der Pause und des Atmens nicht
26
aufgeschlüsselt werden. Die Ergebnisse deuten an,"[...] that Ps is a controlled variable in sentence production, and that F0 declination is a consequence" (Geifer et al., 1987, S. 66). Dennoch bleibt weiterhin unklar, ob der Neuansatz der Deklination durch den Sprecher zur Markierung der syntaktischen Struktur notwendig ist, und ob er für den Hörer eine Voraussetzung zum Entschlüsseln der syntaktischen Struktur ist. Geplant im Sinne der mentalen Repräsentation der Äußerung muß das resetting nach Auffassung der Autoren jedenfalls nicht sein. Der subglottale Druck wird durch das respiratorische System stabil gehalten. Geifer et al. (1987) zeigen, daß diese Kontrolle dynamischer Natur ist. Die Stabilität wird aufrechterhalten, selbst wenn das System auf sich ändernde Luftstromanforderungen reagieren muß. Wenn das Ausblasen der Lunge ein passiver Vorgang wäre, so die Autoren, dann würde Ps in Äußerungen, in denen eine bestimmte segmenteile Struktur einen größeren Luftstrom erfordert, schneller abfallen. Statt dessen zeigt sich, daß die Rate des Absinkens unabhängig vom Luftstrom ist. Eine häufig vertretene Hypothese ist, daß die Steilheit der Deklination mit der Äußerungsdauer negativ korreliert. So nimmt beispielsweise Adriaens (1991, S. 60), gestützt auf das von 't Hart et al. (1982) vorgestellte quantitative Deklinationsmodell, an, daß die Deklination bei zunehmender Äußerungsdauer flacher wird. Gestützt wird diese Hypothese durch Erkenntnisse über Produktionsstrategien, nach denen der Sprecher vorzugsweise die Deklination an die Äußerungsdauer anpaßt, aber mit einem höheren äußerungsinitialen F0-Wert startet, wenn die Länge der Äußerung dies erfordert (Sorensen und Cooper, 1980; Sternberg et al., 1980; vgl. aber Gr0nnum, 1990, S. 210). Geifer et al. (1985) hatten jedoch zeigen können, daß sowohl die Rate des Abfalls des subglottalen Drucks als auch die der F0-Deklination über unterschiedliche Äußerungsdauern hinweg stabil bleibt. Auch in dem japanischen Sprachdatenmaterial von Fujisaki et al. (1979) ist die Deklination unabhängig von der Äußerungsdauer, wobei diese Beobachtung bei der Nachbildung der Intonationskontur von Äußerungen unterschiedlicher Dauer mit dem Intonationsmodell Fujisakis (siehe Kapitel 4) durch einen konstanten Dämpfungsfaktor der Phrasenkomponente noch bekräftigt wird. Die Ergebnisse der vorliegenden Arbeit sprechen ebenfalls eindeutig gegen einen solchen Zusammenhang (siehe Abschnitt 7.2 und Diskussion in Kapitel 10). Zur Nachbildung der Deklination gibt es verschiedene Strategien. Es wird entweder eine baseline unter den F0-Verlauf gelegt, die die lokalen Minima verbindet, oder es werden mit einer topline die lokalen F0-Maxima verbunden, oder es wird eine Kombination aus beiden Methoden gewählt. Die baseline scheint der stabilste Indikator für die Deklination zu sein (Cohen et al., 1982). Daher wird in der vorliegenden Arbeit der Verlauf der Phrasenkomponente des Intonationsmodells, addiert zum Basiswert Fmin, als Basislinie interpretiert (siehe Abschnitt 4.3.2).
27
2.8 Mikroprosodie Unter Mikroprosodie sollen sowohl vokalspezifische als auch koartikulationsbedingte FQ-Variationen verstanden werden. Beide Erscheinungen sind insofern miteinander verwandt, als sie als Modifikationen des Sprachsignals definiert werden können, die direkt auf akustische und physiologische Eigenschaften des menschlichen Sprachproduktionsapparates zurückzuführen sind (Mohr, 1971); sie unterliegen nicht der aktiven Kontrolle des Sprechers und dürften auch weitgehend sprachunabhängig sein. Die Mikroprosodie trägt nach Auffassung einiger Autoren zur Natürlichkeit des Sprachsignals bei; ihre Verwendung in einem Sprachsynthesesystem erhöht nicht nur die Qualität der Sprachausgabe, sondern verbessert auch die Verständlichkeit des Systems (Klatt, 1987; Dettweiler, 1984; Panzlaff-Reuter, 1987). Als Überblick über die Problematik der Mikroprosodie in der Intonationsforschung sei auf Di Cristo (1985) und Kohler (1991b) verwiesen.
2.8.1 Vokalspezifische Grundfrequenz Die Qualität eines Vokals beeinflußt seine spezifische (oder auch intrinsische) Grundfrequenz (/FQ): Bei Hochzungenvokalen ist 7F0 höher als bei Tief zungenvokalen (Mohr, 1971; Neweklowsky, 1975; Reinholt Petersen, 1978; Di Cristo et al., 1979; Antoniadis und Strube, 1981; Möbius et al., 1987). Es besteht eine hohe negative Korrelation zwischen 1FQ eines Vokals und dem Wert seines ersten Formanten (Di Cristo et al., 1979). Bei Vokalen gleicher Zungenhöhe weisen die hinteren ein höheres 7F0 auf (Reinholt Petersen, 1978; Antoniadis und Strube, 1981). Der Unterschied zwischen den 7F0-Werten für hohe und tiefe Vokale ist bei Kurzvokalen deutlicher ausgeprägt als bei Langvokalen. Es gelten außerdem einige Randbedingungen, die die konkrete Ausprägung der 7FQUnterschiede entscheidend mitbestimmen. Allgemein geteilt wird die Auffassung, daß der Sprecher einen statistisch hoch signifikanten Einfluß auf 7F0 eines Vokals hat, einen Einfluß, der sich zudem auf die einzelnen Vokalqualitäten unterschiedlich auswirkt. Allerdings wird die von Reinholt Petersen (1978) vertretene Vermutung einer direkten Abhängigkeit von der durchschnittlichen Grundtonfrequenz des Sprechers durch die Ergebnisse von Antoniadis und Strube (1981) widerlegt. Der Einfluß der Akzentverteilung auf IFQ im Verlauf einer Äußerung ist relativ unklar, doch scheinen die 7F0-Unterschiede in betonten Silben größer zu sein als in unbetonten Silben (Reinholt Petersen, 1978). Auch die Position innerhalb der Äußerung spielt durchaus eine Rolle: Die Unterschiede sind in der ersten Silbe eines mehrsilbigen Testwortes offenbar am größten und in der letzten Silbe am geringsten (Neweklowsky, 1975).
28
Die konkreten Werte, die die verschiedenen Autoren für die vokalspezifische Grundfrequenz angeben, weichen im einzelnen stark voneinander ab. Die Extrema reichen von 3-5% bis hin zu 20% (siehe Neweklowsky, 1975). Dies mag mit den sehr unterschiedlichen Methoden und Meßverfahren sowie mit dem verschiedenartigen Sprachdatenmaterial in den einzelnen Untersuchungen zusammenhängen. Alle angegebenen Werte liegen jedoch oberhalb der Wahmehmungsschwelle des Gehörs. Hinsichtlich der Ursachen des Phänomens "vokalspezifische Grundfrequenz" sind mehrere konkurrierende Theorien entwickelt worden, unter denen die von Ohala und Ewan (1973) modifizierte tongue-pull-Th&one Ladefogeds (1964) als die plausibelste gilt. Danach beeinflussen die vor allem vertikalen Bewegungen der Zunge bei der Artikulation der verschiedenen Vokale einen Teil der Kehlkopfmuskeln, die ihrerseits die Position und die Spannung der Stimmlippen kontrollieren. In jüngeren Studien berichten mehrere Autoren (Honda, 1983; Autesserre et al., 1987; Vilkman et al., 1989; Dyhr, 1990) über eine stärkere Aktivität des Cricothyroid-Muskels bei hohen im Vergleich zu tiefen Vokalen. Einen umfassenden Überblick zum Stand der Forschung unter besonderer Berücksichtigung der deutschen Sprache gibt Fischer-J0rgensen (1990). Sie weist daraufhin, daß es komplizierte Wechselwirkungen zwischen 7F0 und Intensität, Dauer und subglottalem Druck gibt sowie zwischen physiologischen Mechanismen, akustischen Bedingungen und Kompensationseffekten bei der Sprachwahrnehmung, die noch nicht völlig verstanden sind.
2.8.2 Koartikulatorische FQ-Variationen Bei der Verkettung diskreter Lauteinheiten zu einem kontinuierlichen Lautstrom treten bestimmte artikulatorische und akustische Phänomene auf, die nach Menzerath und de Lacerda (1933) unter dem Begriff Koartikulation zusammengefaßt werden. Darunter fällt auch die Beobachtung, daß ein Konsonant die F0-Werte benachbarter Vokale beeinflußt, und zwar weniger diejenigen des Vokals als Ganzes als vielmehr den dynamischen Verlauf im Übergang zwischen Konsonant und Vokal.4 Der Einfluß der konsonantischen Umgebung auf die F0-Kontur eines Vokals wird im allgemeinen unabhängig von der fraglichen Einzelsprache auf der Grundlage der myoelastischaerodynamischen Theorie der Stimmtonproduktion (van den Berg, 1958; siehe auch Abschnitt 4.2) erklärt. Am deutlichsten ist der Effekt bei Obstruenten und vor allem bei Plosiven erkennbar. Während man lange Zeit davon ausging, daß der Einfluß eines Konsonanten auf Diese Erscheinung wird in der Literatur zuweilen als Mikroprosodie im engeren Sinn verstanden (z.B. Di Cristo und Hirst, 1986).
29
die FQ-Werte eines benachbarten Vokals ausschließlich progressiv ist, also nur auf den folgenden Vokal einwirkt (Lehiste und Peterson, 1961; Mohr, 1971; Jeel, 1975), zeigen neuere Studien (Köhler, 1982; 1985), daß die F0-Mikrostruktur auch wesentlich zur Unterscheidung von postvokalischen Lenis- und Fortis-Obstruenten beitragen kann. Stimmlose Konsonanten erhöhen die F0-Werte des folgenden Vokals, stimmhafte Konsonanten bewirken ein Absinken der F0-Werte im folgenden Vokal. Dieser Einfluß beschränkt sich vorwiegend auf den Anfangsteil des F0-Verlaufs des folgenden Vokals (Mohr, 1971; Jeel, 1975; Möbius et al., 1987). Außer auf die absoluten FQ-Werte wirkt sich die Stimmlosigkeit bzw. Stimmhaftigkeit eines Konsonanten auch auf die F0Verteilung aus. Nach stimmlosen Konsonanten liegt das F0-Maximum unmittelbar am Vokalbeginn, während der F0-Gipfel nach stimmhaften Konsonanten eher in der Mitte des Vokals zu lokalisieren ist (Lehiste und Peterson, 1961). Die Artikulationsstelle des Konsonanten scheint hingegen keinen Einfluß auf die F0-Werte eines Vokals zu haben (Antoniadis und Strube, 1981).
2.8.3 Schlußfolgerungen Vokalspezifische und koaitikulationsbedingte F0-Variationen können die Intonationskontur einer Äußerung lokal in einer ähnlichen Größenordnung beeinflussen wie die linguistischen Faktoren, um deren Beurteilung es in der Intonationsforschung hauptsächlich geht. Eine zusätzliche Schwierigkeit bei der linguistischen Analyse von F0Verläufen liegt darin, daß sich vokalspezifische und koartikulatorische Einflüsse gegenseitig sowohl abschwächen als auch verstärken können. Dasselbe zugrundeliegende Intonationsniveau an einer bestimmten Stelle der Kontur kann also mit verschiedenen realisierten F0-Werten verbunden sein, abhängig von der segmenteilen Struktur und der Vokalqualität. Zwei Lösungswege bieten sich an. Wenn man die Auffassung teilt, daß mikroprosodische Effekte perzeptiv relevant sind und in Untersuchungen zur Intonation zu berücksichtigen sind (z.B. Thorsen, 1979a und spätere Arbeiten), müssen die sprecherspezifischen /FQ-Werte ermittelt werden und die koartikulatorischen Effekte bekannt sein. Andere Ansätze betrachten die Mikroprosodie als für die Wahrnehmung irrelevant und somit als Störgröße und eliminieren sie bei der Messung von F0-Verläufen (z.B. Batliner, 1989; auch Gr0nnum, 1990). In der vorliegenden Arbeit werden starke koartikulatorische F0-Schwankungen handkorrigiert und geglättet (siehe Abschnitt 5.3.2). 7F0-Variationen werden unter der begründeten Annahme, daß sie sich in dem umfangreichen Sprachdatenmaterial insgesamt herausmitteln, nicht gesondert behandelt. Die Berücksichtigung mikroprosodischer Erscheinungen ist in Fujisakis Modell nicht vorgesehen; im Falle längerer Pausen und stimmloser Segmente wird die F0-Kontur linear interpoliert. Nach den
30 explorativen Hörtests mit LPC-resynthetisierten Testsätzen (Möbius et al., 1990b) scheint die Mikroprosodie bei der Wahrnehmung von globalen Intonationskonturen unkritisch zu sein. Die prinzipiell mögliche Erweiterung des Intonationsmodells um eine Komponente zur Steuerung mikroprosodischer Effekte ist nach dem derzeitigen Erkenntnisstand daher nicht notwendig.
3 Intonationsmodelle In diesem Kapitel werden zunächst einige Ansätze zur Beschreibung der Intonation des Deutschen besprochen (Abschnitt 3.1). In Abschnitt 3.2 wird die aktuelle Kontroverse zwischen auf Tonsequenzen beruhenden Intonationsmodellen auf der einen und superponierenden Intonationsmodellen auf der anderen Seite aufgegriffen. In diesem Zusammenhang soll auch die Entscheidung für das Fujisaki-Modell, auf dem die vorliegende Arbeit basiert, motiviert werden.
3.1 Beschreibungen der deutschen Intonation 3.1.1 Überblick Ein Überblick über die Arbeiten zur Intonation des Deutschen wird erheblich durch den Umstand erschwert, daß den einzelnen Beiträgen zum Teil völlig verschiedene theoretische Ansätze zugrundeliegen. Beim Sichten der einschlägigen Literatur entsteht rasch der Eindruck, als gebe es schon bezüglich der zu beschreibenden Phänomene recht wenig Übereinstimmung - weniger Übereinstimmmung, als etwa in den Untersuchungen zur Intonation des Englischen (siehe auch Scuffil, 1982, S. 51). Hier spielen natürlich auch die in Kapitel 2 diskutierten terminologischen Schwierigkeiten und Unverträglichkeiten eine Rolle, die durch die verstärkte Forschungsaktivität von Linguisten und Phonetikern auf dem Gebiet der deutschen Intonationsforschung in jüngerer Zeit keineswegs ausgeräumt wurden. Die frühen Arbeiten von Klinghardt (1925) und Barker (1925) haben in erster Linie den Charakter von Lehrbüchem. Auch von Essen (1956), der sich an Klinghardt orientiert, fügt sich in diese Tradition ein, die als impressionistisch bezeichnet werden kann, da Intonationskonturen entsprechend ihrem Höreindruck verbal und graphisch beschrieben werden. Die genannten Autoren beschreiben die Intonation als ein grammatisches Mittel, und ihre Beiträge stellen im Grunde Sammlungen von Beispielen, Varianten und Ausnahmen dar. Impressionistische Transkriptionen von Intonationskonturen sind jedoch an den jeweiligen Bearbeiter gebunden, nicht reproduzierbar und nicht konsistent (siehe auch Zwirner und Zwirner, 1937; Lieberman, 1965). Die erste Arbeit auf experimenteller Grundlage ist die von Kuhlmann (1931), der genaue Angaben über konkrete Intonationskonturen in Aussagesätzen macht. Eine Einschränkung hinsichtlich der Generalisierbarkeit seiner Beobachtungen ist allerdings insofern angebracht, als er lediglich auf Äußerungen einer einzigen Versuchsperson
32
zurückgreift und darüber hinaus die meßbaren Daten nicht zu auditiv gewonnenen Daten in Beziehung setzt. Zu den wichtigeren späteren Untersuchungen auf experimenteller und instrumenteller Basis zählen die von Delattre et al. (1965) sowie von Isacenko und Schädlich (1966), die in Abschnitt 3.1.3 ausführlicher behandelt werden. Der erste Versuch, die Intonation des Deutschen im Rahmen einer generativen Grammatik zu beschreiben, ist der Beitrag von Bierwisch (1966), auf den ebenso in Abschnitt 3.1.2 eingegangen wird wie auf die Ansätze Moultons (1968) und Antonsens (1966), die in der Tradition des amerikanischen Strukturalismus stehen. Schließlich sind noch Pheby (1975) und Kohler (1977) zu nennen, die das von Halliday (l967a) entworfene System der englischen Intonation auf das Deutsche anwenden. In Abschnitt 3.1.4 wird Köhlers phonologische Beschreibung der Intonation des Deutschen näher besprochen, da diese unter den aufgeführten Arbeiten wohl die größte Aufmerksamkeit auf sich gezogen hat. In Abschnitt 3.1.5 werden neuere Ansätze zur Beschreibung der deutschen Intonation dargestellt, die auf die Steuerung der intonatorischen Merkmale als Komponente eines Systems zur Sprachsynthese nach Regeln hinzielen. Es handelt sich hierbei um die Beiträge von Bannert (1983), Kohler (1991a) und Adriaens (1991). Wenn damit auch die wichtigsten Vertreter der verschiedenen theoretischen Ansätze aufgeführt sind, so wird damit kein Anspruch auf Vollständigkeit erhoben. Verwiesen sei auch auf Stock (1980), der eine Reihe von Autoren aus dem osteuropäischen Raum zitiert.
3.1.2 Strukturalistische und generative Beschreibungen Moulton (51968) und Antonsen (1966). Moulton (1968) und Antonsen (1966) beschreiben die Intonation des Deutschen in der Tradition des amerikanischen Strukturalismus. Beide verwenden in ihrem Ansatz das von Trager und Smith (1951) entwickelte System zur Darstellung der "suprasegmentalen Phoneme" des Englischen. Das strukturalistische Analyseverfahren räumt den segmentalen Merkmalen eindeutig den Vorrang ein. Distinktive prosodische Merkmale werden immer auf die - teilweise sogar isolierten (Bloch und Trager, 1942) - Segmente bezogen und konstituieren suprasegmentale secondary phonemes (Bloomfield, 1933, S. 90). Unterschieden werden durch Lautheitsstufen definierte stress phonemes und durch Tonhöhenstufen definierte pitch phonemes (Trager und Smith, 1951). Moulton geht davon aus, daß das Englische und das Deutsche identische Intonationssysteme besitzen, die auch von den Sprechern beider Sprachen in annähernd gleicher Weise verwendet werden (1968, S. 129). Die Intonation, definiert als Tonhöhenmuster in der gesprochenen Sprache, manifestiert sich in beiden Sprachen in der
33 "Betonungsgruppe" (stress-group). Jede Betonungsgruppe wird durch einen bestimmten Intonationsverlauf charakterisiert, der in seinem finalen Bereich eine von drei distinktiven Konturen, fade, rise oder sustain, annehmen kann. Diesen terminals genannten finalen Verläufen schreibt Moulton die typischen Bedeutungen "vollständige, abgeschlossene Äußerung", "Frage" und "unvollständige Äußerung" zu. Intonationsverläufe und terminals sind nach Moulton im Englischen wie im Deutschen unabhängig von grammatischen Strukturen. Rein theoretisch kann jeder Intonationsverlauf mit jedem terminal in allen Arten von Betonungsgruppen auftreten. Eine Abhängigkeit besteht nur insofern, als in der gesprochenen Sprache jede Betonungsgruppe mit einem Intonationsmuster versehen wird, das dann auch mit einem der drei möglichen terminals abgeschlossen wird. Die typische Form für Aussagesätze ist nach Moulton /2 °3 l/, wobei die Zahlen in aufsteigender Reihenfolge Tonhöhenstufen repräsentieren und /°/ den syntactic stress auf der Silbe mit der stärksten phonetischen Betonung markiert. Dieses Muster entspricht dem "post-iktischen Fall" bei Isaöenko und Schädlich (1966). Weniger gebräuchlich ist hingegen das Muster /(2) 3 °1 l/, entsprechend dem "prae-iktischen Fall" bei Isacenko und Schädlich (1966). Die Übereinstimmung der Beschreibung Moultons mit der von Isacenko und Schädlich endet aber bereits bei der Frage-Intonation. Moulton gibt als Norm für Entscheidungsfragen /2 °3 3/ an, was bei Isaöenko und Schädlich als progredient ("praeiktischer Anstieg") zu werten wäre. Außerdem führt er eine Reihe weiterer Muster für bestimmte Satztypen, verknüpft mit unterschiedlichen Bedeutungen, an, die hier jedoch nicht im Detail diskutiert werden sollen. Die von Antonsen (1966) vorgelegte Beschreibung deckt sich im wesentlichen mit der von Moulton (1968). Antonsen hofft, über eine genaue Kenntnis der hierarchischen Struktur einer Äußerung zu einer ökonomischeren phonemischen Beschreibung der Intonation des Deutschen zu gelangen. Auch Antonsen wendet explizit die Methode der Phonemanalyse auf die suprasegmentalen Merkmale an: "The transcription I propose meets the fundamental requirement that phonemically distinct utterances receive different representations. It consists of the segmental phonemes, junctures, and accents [...]" (Antonsen, 1966, S. 587) Die suprasegmentalen Phoneme gliedern sich in zwei Klassen, nämlich Junkturphoneme an morphologischen und syntaktischen Grenzen sowie Akzente, die ebenfalls durch die morphologische und syntaktische Struktur determiniert werden. Wenig übersichtlich und systematisch ist seine Beschreibung des deutschen Intonationssystems, die auch gegenüber Moulton nichts entscheidend Neues bringt.
34
Bierwisch (1966). Einer der ersten Versuche, das Intonationssystem einer Sprache in die phonologische Komponente einer generativen Grammatik einzugliedern, ist der Beitrag Bierwischs (1966). Ausgangspunkt ist die Überlegung, daß "[...] es ganz unwahrscheinlich [ist], daß ein Phänomen, dessen aktive Beherrschung zu einem sehr frühen Zeitpunkt im Verlauf der Spracherlernung in allen wesentlichen Aspekten erworben wird, nicht durch relativ wenige, einfache Regeln charakterisiert werden kann." (Bierwisch, 1966, S. 99) Bierwisch rückt die Beziehung zwischen der Intonation und der syntaktischen Struktur einer Äußerung in den Brennpunkt seiner Untersuchung. Auf diese Weise hofft er, unter Abstrahierung von der speziellen Sprechsituation, die Grundprinzipien der verschiedenen intonatorischen Erscheinungen einsichtig zu machen. Unter diesem Aspekt könnte nach Bierwischs Auffassung auch die "[...] Frage nach universellen Eigenschaften der Intonation nicht nur auf der Basis phonetischer Ähnlichkeiten [...]" (1966, S. 99) behandelt werden. In seinem Ansatz beschreibt Bierwisch das Intonationssystem des Deutschen im theoretischen Rahmen der generativen Transformationsgrammatik. Die phonologischen Regeln, zu denen auch die Intonationsregeln zählen, operieren auf der syntaktischen Oberflächenstruktur. Die Intonation "[...] ist prädiktabel auf Grund dreier Faktoren, die entweder unmittelbar zur syntaktischen Struktur gehören oder durch sie determiniert sind: Akzent, Grenzsymbole und SIM" (Bierwisch, 1966, S. 104). "SIM" steht für "syntaktische Intonationsmarker", worunter die syntaktischen Elemente zu verstehen sind, die die Intonation determinieren, etwa Fragemorpheme und andere triggerSymbole, die allerdings großenteils in neueren Versionen der generativen Grammatik nicht mehr verwendet werden. Bild 3.1 veranschaulicht das Ineinandergreifen von Akzent-, Phrasierungs- und Intonationsregeln. Außer von den SIM hängen die Intonationsregeln auch von den Regeln für die Akzentverteilung ab, die sich an Kiparsky (1966) orientieren. Ebenso wirkt die Phrasierung, unter der Bierwisch die Verteilung von Pausen und die Zerlegung der Äußerung in "Sprechtakte" versteht, auf den Intonationsverlauf ein. Die konkreten Änderungen des Intonationsverlaufs werden schließlich durch "phonetische Regeln" vorgeschrieben, auf die Bierwisch aber nur am Rande eingeht. Bierwisch präsentiert in seiner Untersuchung keine neuen Daten. Er sucht vielmehr, auf der Basis des Materials von Essens (1956) und von Isaöenko und Schädlich (1966), neue Erklärungen für bereits bekannte Beobachtungen. So stellt er im Unterschied zu von Essen fest, daß auch Fragesätze einen fallenden Intonationsverlauf aufweisen können: "Die Entscheidungsfrage ohne Frageintonation [...] ist eine häufige und offenbar reguläre Möglichkeit der deutschen Sprache [...]" (Bierwisch, 1966, S. 166)
35 Tiefen rtruktor (T)
lonatituentenhierarohie der Oberflächenstruktur
l Pensen
Prequenzrerlauf
SIM
leplitude | Sauer uew· l
Bild 3.1 Intonationssystem im Rahmen einer generativen Grammatik, mit Akzent-, Phrasierungs- und Intonationsregeln (A, P, I) sowie syntaktischen Transformationsregeln (T) und einer Konvention (K) zur Plazierung von Phrasengrenzen (aus Bierwisch, 1966, S. 179).
Zur Veranschaulichung führt er das folgende Beispiel an (S. 166): 2 l (f) Hast du Klaus getroffen [Fall]
Entscheidungsfrage
Im Gegensatz zu Isacenko und Schädlich (1966) sieht Bierwisch einen funktionalen Unterschied zwischen dem "prae-iktischen" und dem "post-iktischen" Fall. Am Beispiel des elliptischen Satzes Ein Flugzeug.
36
zeigt er, daß bei einem "prae-iktischen" Fall eine Echofrage und bei einem "postiktischen" Fall ein progredienter Verlauf entsteht (Bierwisch, S. 158 f.). Nach Isacenko und Schädlich (1966) würde in beiden Fällen ein terminaler Verlauf angezeigt (siehe Abschnitt 3.1.3). Bierwisch betrachtet die Intonation nicht nur als akustischen Parameter des Sprachsignals, sondern als Komponente der Grammatik einer Sprache. In dieser Eigenschaft hat sie teil am generativen Charakter der Sprachproduktion (1966, S. 180). Durch eine systematische Trennung von universellen und partikulären, einzelsprachlichen Merkmalen der Intonation ließen sich nach Bierwischs Auffassung die notwendigen Voraussetzungen dafür schaffen, daß "[...] die vergleichende Intonationsforschung [...] von der reinen Beobachtungsebene zum Studium systematischer Zusammenhänge übergehen [kann]." (Bierwisch, 1966, S. 182)
3.1.3 Erste experimentalphonetische Ansätze Delattre et aL (1965). Delattre et al. (1965) untersuchen spontane, wenn auch unter Laborbedingungen produzierte Äußerungen sowie vorgelesene Sätze. Ihr Ziel ist es, auf experimentellem Wege distinktive Merkmale in progredienten und terminalen Intonationskonturen aufzufinden. Die Untersuchungen beziehen sich lediglich auf Aussagesätze; Fragesätze werden nicht berücksichtigt. Die Äußerungen werden mit Hilfe eines Sonagraphen analysiert. Ausgehend von der bekannten Erscheinung, daß bei Schmalbandeinstellung in den höheren Harmonischen eines Sonagramms der Grundfrequenzverlauf der betreffenden Äußerung deutlicher in seinen Konturen erkennbar wird, unterziehen die Autoren die auf diese Weise gewonnenen F0-Verläufe einer statistischen Auswertung. Jede Aufzeichnung einer Äußerung wird in drei Einheiten, in sogenannte Sinngruppen (sense groups), unterteilt. Nach welchen Kriterien die Sinngruppen untereinander abgegrenzt werden, und welchen linguistischen Kategorien sie entsprechen, machen die Autoren nicht klar. Zur Erläuterung wird lediglich ein Beispielsatz angegeben; die Einheiten werden wie folgt bezeichnet: (A) minor continuation, (B) major continuation und (C) finality (Beispiel aus Delattre et al., 1965, S. 135): John left Henry (A) running fast (B) to find out who had come (C) Als Resultat der statistischen Auswertung erhalten die Autoren fünf signifikante Muster, aus denen sich die Sinngruppen zusammensetzen. Folgende fünf Muster werden aufgeführt: a) tail, b) back, c) neck, d) head, und e) beak. Die etwas eigentüm-
37 liehen Bezeichnungen gehen darauf zurück, daß die resultierenden Muster für die Sinngruppen entfernt einer Vogelsilhouette ähneln (Bild 3.2).
/c N^'
Ölt Snktlkinder
* fh· crandchildrta
»·····™· Bild 3.2 Schematische Darstellung der Intona^ » tionskontur einer Sinngruppe. Das Muster aus it ttail (a), back (b), neck (c), head (a) und beak (e) ähnelt einer Vogelsilhouette (nach Delatlre __M» et al., 1965, S. 138).
UM «r·· BUrgtzMlittr·
btcueht·· 41· Yolk»w*ftn«trkt.
b of our prMidtnt
visit·* th·
e futfeVjr building·,
N
**-
Bild 3.3 Charakteristische Intonationskonturen des Deutschen und des Englischen: (a,A) minor continuation, (b,B) major continuation, (c,C) finality (aus Delattre et al., 1965, S. 159). Die Autoren kommen zu dem Schluß, daß sich terminate und progrediente Muster hauptsächlich im finalen Verlauf der Sinngruppen unterscheiden. Während in beiden Mustern die prominenten Silben die Form back annehmen, sind die folgenden schwachen Silben bei progredienter Intonation auf hohem Niveau, bei terminaler Intonation hingegen auf tiefem Niveau. Bei einem terminalen Muster ohne tail hat die betonte Silbe eine steigend-fallende Form (rise-fall), wobei die größte Intensität auf dem ansteigenden Teil liegt. Typisch für Intonationskonturen im Deutschen ist nach Auffassung von Delattre et al. (1965), daß sowohl bei progredienten als auch bei terminalen Verläufen dem eigentlichen Anstieg eine kurze Senkung vorausgeht: "This back depression before the rise of the neck is the most characteristically German section of the bird shape [...] It contains the tune by which German is recognized at a distance." (Delattre et al., 1965, S. 141; Hervorhebung im Original) Bild 3.3 illustriert diese für das Deutsche charakteristische Kontur und kontrastiert sie mit einem Beispiel für das Englische.
38
Das von Delattre et al. (1965) verwendete Transkriptionssystem ist originell und neuartig insofern, als es mit Hilfe unterschiedlich starker und unterschiedlich langer Linien neben der Darstellung des F0-Verlaufs auch die akustischen prosodischen Merkmale Intensität und Dauer anschaulich macht. Einen Ansatzpunkt für kritische Bemerkungen bieten die Autoren in ihrem methodischen Vorgehen allerdings darin, daß sie nicht auf die Wahrnehmung der Intonationsmuster durch den Hörer eingehen. Insbesondere wäre eine Überprüfung der postulierten Sinngruppen hinsichtlich ihrer perzeptiven Relevanz wünschenswert. Isacenko und Schädlich (1966). Während bei den Studien Delattres die Einbeziehung der Wahrnehmungsleistung des Hörers fehlt, steht gerade dieser Aspekt bei Isacenko und Schädlich (1966) im Mittelpunkt des Interesses. Als Ausgangspunkt ihres Perzeptionsexperiments verwenden die Autoren Äußerungen, deren F0-Verläufe "bis zum äußersten künstlich simplifiziert und schematisiert" (1966, S. 7) wurden. Kurze natürlichsprachliche Äußerungen mit Aussage-, Frage-, Kontrast- oder weiterweisender Intonation wurden durch Einsatz der Vocodertechnik monotonisiert, indem die Grundfrequenz auf einem bestimmten Niveau konstant gehalten wurde. Jede Äußerung wurde auf zwei verschiedenen Niveaus monotonisiert. Anschließend wurden Satzund Wertteile in einer Zweistufen-Konfiguration zusammengefügt und Versuchspersonen in einem Perzeptionsexperiment dargeboten. Die auf diese Weise entstandenen "Tonbrüche" wurden von den Hörern als kontinuierliche Übergänge wahrgenommen. Bild 3.4 veranschaulicht das beschriebene Verfahren. In einem Interpretationstest sollten die Hörer jeden der dargebotenen Stimuli einer der vier Kategorien "Aussage", "Frage", "Kontrast" oder "Weiterweisung" zuordnen; zusätzlich wurde eine Antwortmöglichkeit "Unentscheidbarkeit" eingeräumt. Außerdem wurde die Möglichkeit der unterschiedlichen Phrasierung einer Äußerung durch wechselnde Positionen der Tonbrüche getestet. Aufgrund der großen Anzahl übereinstimmender Bewertungen halten die Autoren es für gesichert,"[...] daß simulierte Satzintonationen hinsichtlich der von ihnen vermittelten syntaktischen Information den natürlichen Satzintonationen prinzipiell äquivalent sind" (Isacenko und Schädlich, 1966, S. 19).
160 Hz
| Vort«r«itune*n lind gij
150 Hsi l dl·!
|all·· i «t
|troff«a|
Bild 3.4 Zweistufen-Konfiguration einer Äußerung (aus IsaCenko und Schädlich, 1966, S. 14).
39
Diese Schlußfolgerung erscheint etwas vorschnell, denn man kann keineswegs sicher sein, daß die im Perzeptionstest dargebotenen zweistufigen Intonationskonturen relevanten Merkmalen der natürlichen Sprache entsprechen. Allenfalls läßt sich feststellen, daß die Hörer in der speziellen Testsituation die dargebotenen Stimuli wie natürlichsprachliche Äußerungen beurteilten. Auch wird die Feststellung von Isacenko und Schädlich, die typischen Intonationsmuster des Deutschen blieben bei ihrem Verfahren erhalten (1966, S. 17), nicht belegt. Die Zweistufen-Konfigurationen können sicher nicht als typische Intonationsmuster gelten. Wichtiger als die Beobachtung, für die Markierung eines Tonbruchs sei mindestens ein Halbtonintervall notwendig, ist die Feststellung, daß die Richtung der Tonhöhenbewegung und besonders ihre Lokalisierung, bezogen auf die Akzentsilbe (den "Iktus"), linguistisch relevant ist. So wird ein der Akzentsilbe vorangehender ("prae-iktisch") steigender Tonbruch als progredient, ein nach der Akzentsilbe ("post-iktisch") ansteigender Tonbruch als interrogativ und ein vor oder nach der Akzentsilbe fallender Tonbruch als terminal interpretiert. In Äußerungen mit mehreren Tonbrüchen ist dabei der jeweils letzte für die Kategorisierung als terminal, progredient oder interrogativ ausschlaggebend (Isaöenko und Schädlich, 1966, S. 44). Die Bedeutung des äußerungsfmalen Tonbruchs wird hier offenbar ein wenig überbewertet. Daß auch frühere Teile der Intonationskontur relevant sind, zeigen Untersuchungen mit natürlichsprachlichen, nicht monotonisierten Stimuli: Delattre et al. (1965) für das Englische und das Deutsche, Studdert-Kennedy und Hadding (1971) für das amerikanische Englisch und das Schwedische, Thorsen (1980) für das Dänische und schließlich auch Goldbeck (1983) für das Deutsche. Die linguistisch relevanten Eigenschaften der Intonation beschränken Isacenko und Schädlich auf die Merkmale, die die syntaktische Form einer Äußerung charakterisieren. Es geht ihnen in erster Linie darum, sichere Erkenntnisse über die invarianten Merkmale der Intonation als "System informationstragender Elemente" zu erhalten, bevor die "emotionellen und expressiven Konnotationen" erforscht werden können (S. 42 f.). Die von Isacenko und Schädlich (1966) vorgelegte Untersuchung ist eine der ersten im Bereich der Intonationsforschung, die durch systematische Manipulation eines bestimmten Sprachsignalparameters, nämlich der Grundfrequenz, und in Verbindung mit Perzeptionsexperimenten den Anteil dieses Parameters an der funktionalen Struktur und damit der kommunikativen Leistung der Äußerung zu ermitteln versucht.1
Die erste systematische Darstellung der Methode der kontrollierten Destruktion von Sprachsignalen, die der Erforschung der akustisch-phonetischen Voraussetzungen beim Sprachverstehen dient, findet sich bei Ungeheuer (1968).
40
3.1.4 Ansätze in der Tradition Hallidays Rekurs aufHalUday (1967a,b). Hallidays Beschreibung liegt die Annahme zugrunde, daß Intonationsverläufe von Äußerungen im britischen Englisch durch Auswahl aus einem System von fünf distinktiven Tonmustern (tones) repräsentiert werden können. "[...] connected speech can [...] be analysed into an unbroken succession of tone groups each of which selects one or other of the five tones. For purposes of analysis, the selection can be regarded as discrete on both axes, both syntagmatically and paradigmatically: we can make a good description, that is, if we postulate [...] that each tone group can be unambiguously assigned to one tone, this assignment thereby excluding all the other tones." (Halliday, 1967a, S. 9) Halliday führt vier hierarchisch geordnete phonologische Einheiten ein. Diese sind in absteigender Folge: tone group, foot, syllable und phoneme. Die tone group gliedert sich in zwei Strukturelemente, in den optional auftretenden pretonic und den für jede Äußerung obligatorischen tonic. Der tonic trägt alle primären Tonkontraste. Es ist hervorzuheben, daß sich dieses System prosodischer Strukturen auf gesprochene Äußerungen bezieht und nicht auf abstrakte Eigenschaften von Sätzen, Wörtern oder Silben. Dies bedeutet, daß einem bestimmten Satz je nach Kontext und Realisierung verschiedene prosodische Strukturen zugewiesen werden können. Unter dem übergeordneten Begriff "Intonation des Englischen" stehen bei Halliday drei Subsysteme, die unabhängig voneinander wirksam sind. Die Gliederung einer Äußerung in tone groups heißt tonality, die Plazierung des tonic innerhalb der tone group heißt tonicity. Die Auswahl aus dem Inventar der fünf primären Tonkontraste (Bild 3.5) nennt Halliday einfach tone. Halliday verwendet den Terminus Ton also nicht in dem in Abschnitt 2.1 definierten Sinn als distinktives F0-Muster auf morphologisch determinierten Äußerungsabschnitten. Hallidays Sicht der Intonation setzt voraus, daß es ein zugrundeliegendes phonologisches Tonsystem gibt, und daß die postulierten Intonationsmuster wechselseitig exklusiv sind. Gerade die Frage, ob die Intonation und generell die suprasegmentalen Merkmale systemhaft wirken, ist ein zentrales Problem in der Intonationsforschung, und die Ansichten dazu sind kontrovers. Hier setzt auch die Kritik von Crystal an, der bemängelt, daß Halliday "[...] nowhere 'shows' that intonation functions in this comparably systemic way, and in addition he ignores a great deal of evidence which goes against this assertion" (Crystal, 1969b, S. 385). Darüber hinaus, so argumentiert Crystal weiter, liefert Halliday kein Verfahren, das auf der Grundlage objektiver Kriterien eine Bestimmung der Anzahl und Art der angenommenen diskreten intonatorischen Einheiten ermöglicht. Hallidays Verständnis der phonetischen Merkmale des Sprachsignals erscheint ungewöhnlich. Seine Feststellung, jeder der fünf Töne sei jeweils für alle konkreten Reali-
41 Term in sysiem:
Visual symbol:
1
\ / V
3 4 5
Double Tonics: Term in system: 13 53
'V
Tonic movement: falling rising falling-rising rising (rising-)fall ing-rising (falling-)rising-falling Tonic movement:
Terminal tendency: low high high mid mid low Terminal tendency:
(as tone 1 plus tone 3) (as tone 5 plus tone 3)
Bild 35 Inventar der primären Tonkontraste im Englischen mit fünf einfachen und zwei komplexen Tönen (aus Halliday, 1967a, S. 16).
sierungen "[...] phonetically identical [sic!; B.M.] - that is, has the same range of phonetic variety" (1967a, S. 11), ist nur schwer nachzuvollziehen. Die akustische Identität ist mit Sicherheit auszuschließen. Wie die weiteren Formulierungen ("abstraction from the phonic data", S. 11) andeuten, meint Halliday vermutlich eine mögliche auditorisch-perzeptive "Identität" im Sinne distributioneller oder individueller allophonischer Varianten, die dann zu einem Ton-"Phonem" gehörten. Diese Sichtweise müßte erst einmal durch Einholen von HörerurteUen bestätigt werden. Weiterhin wird die Abgrenzung zwischen zwei tone groups, für Halliday eine rein theoretische Entscheidung, nicht anhand der phonetischen Merkmale überprüft, die an diesen Stellen auftreten sollten, nämlich Junkturphänomene, Pausen und andere Grenzsignale. Die Kritik soll hier nicht so weit gehen wie die Crystals, der Hallidays Ansatz jede Tragfähigkeit abspricht (1969b, S. 391). Halliday ist der erste Autor, der Aussagen über Formen und Bedeutungen der Intonation in den Rahmen einer eigenständig formulierten phonologischen Theorie der suprasegmentalen Merkmale stellt. Sein Ziel ist es, zu zeigen, daß die Intonation einer Sprache als unabhängiges System funktioniert, und daß die auftretenden kontrastiven Muster zu anderen grammatischen Erscheinungen, insbesondere zu syntaktischen Kategorien, in Beziehung gesetzt werden können. Diese Bewertung soll allerdings nicht darüber hinwegtäuschen, daß es Hallidays Ansatz an einer empirischen Verifizierung fehlt. Insbesondere wäre es wünschenswert, zu überprüfen, ob und wie sich die angesetzten phonologischen Einheiten in den phonetischen Parametern, sei es auf akustischer oder auf auditorischer Ebene, manifestieren.
42
Darstellung des Ansatzes von Kohler (1977). Kohlers phonologisch orientierte Beschreibung von "Satzakzent und Intonation" des Deutschen basiert auf dem von Halliday (1967a) für das Englische entwickelten System. Kohler definiert "Intonation" als die distinktive Verwendung der Tonhöhe auf Satzebene. Als solche ist sie sprachuniversell (Kohler, 1977, S. 126). Die vier von Halliday angesetzten phonologischen Einheiten heißen bei Kohler "Intonationseinheit", "Takt", "Silbe" und "Phonem". Äußerungen können zunächst in Takte eingeteilt werden. Die erste Silbe eines Taktes ist per definitionem eine "Hebung", also eine hervorgehobene Silbe, alle folgenden schwachen Silben ("Senkungen") bis zur nächsten Hebung gehören zu diesem Takt. Eine Folge von Takten konstituiert eine Intonationseinheit, die ihrerseits durch eine bestimmte Intonationskontur aus einem begrenzten Inventar kontrastierender Muster charakterisiert wird. Zur vollständigen Beschreibung von Äußerungen setzt Kohler auf der Satzebene sechs kontrastive Intonationskonturen an, die er "Töne" nennt. Diese Töne haben zwar keine durchgehende, von den jeweiligen konkreten Äußerungen losgelöste Bedeutung; Regularitäten in ihrer Verwendung lassen sich nach Kohlers Auffassung dennoch feststellen (1977, S. 200). Die Töne werden wie folgt beschrieben (nach Kohler, 1977, S. 198 ff.): Ton Ton Ton Ton Ton Ton
1: 2: 3: 4: 5: 6:
bis in tiefe Lage fallender Tonhöhenverlauf hoch ansteigender Tonhöhenverlauf bis zu mittlerer Lage ansteigender Tonhöhenverlauf gleichbleibende mittlere Tonhöhe fallender und wieder bis zur Mittellage ansteigender Tonhöhenverlauf ansteigender und wieder bis in tiefe Lage fallender Tonhöhenverlauf
Eine Intonationseinheit läßt sich analog zu Hallidays (1967a) Beschreibung in zwei Elemente gliedern, nämlich in den optional auftretenden Pränukleus und den in jeder Äußerung obligatorischen Nukleus, die beide jeweils einen oder auch mehrere Takte umfassen können. Das paradigmatische System von sechs Tönen gilt für den Nukleus, der alle primären Tonkontraste trägt. Der Beginn des Nukleus wird durch die "prominenteste" Silbe der Äußerung, die "Nukleussilbe", markiert (Beispiele a, b und c). Vor dem Nukleus auftretende Takte, die derselben Intonationseinheit angehören, bilden den Pränukleus. Der optionale Pränukleus tritt also nur dann auf, wenn der Ton nicht auf der ersten Hebung der Äußerung einsetzt (Beispiel c). Die Beispiele sind (Kohler, 1977) entnommen. In der Notation wird die Grenze zwischen zwei Intonationseinheiten durch einen doppelten Schrägstrich ("//") markiert, die Grenze zwischen zwei Takten durch einen einfachen Schrägstrich ("/"). Die Nukleussilbe ist in mehrtaktigen Intonationseinheiten unterstrichen. Die Ziffer zu Beginn der Intonationseinheit kennzeichnet den auf dem Nukleus realisierten Ton.
43 a) // l Lüg doch nicht / so // b) // 2 Wer hat das ge/sagt // c) // l Welcher Pla/net steht der / Sonne am / nächsten // Als "Nukleustakt" wird der erste Takt des Nukleus bezeichnet; seine Hebung ist die "Nukleussilbe". Die übrigen Takte des Nukleus gelten als "Nachlauf. Enthält der erste Takt der Intonationseinheit am Anfang nur eine Senkung, so gilt diese als "proklitisch" (in Kohlers Notation durch einen Punkt markiert): Sie fuhrt lediglich zur ersten Hebung hin (Beispiele d, e und f). d) // l Es . schneit // e) // 5 Was . machst du denn / da // f) // 2 Ver.trägt sie das / Klima / nicht // Im Gegensatz zum Nukleus, dessen Ton unabhängig von der vorausgehenden Intonationseinheit gewählt werden kann, ist der Tonverlauf des Pränukleus "[...] teilweise festgelegt durch den Nukleus, da nur gewisse Pränuklei mit bestimmten Nuklei kombinierbar sind" (Kohler, 1977, S. 203). Auf die Art und die Bedingungen dieser Abhängigkeit des Pränukleus vom Nukleus geht Kohler nicht näher ein. Offen bleibt in Kohlers Beschreibung vor allem, ob das Inventar der sechs distinktiven Töne ein geschlossenes System paradigmatischer Oppositionen bildet, oder ob weitere Töne eingeführt werden können oder müssen. Es stellt sich also die Frage, ob Kohlers Anspruch, die deutsche Satzintonation durch ein Paradigma von sechs kontrastiven Intonationskonturen erschöpfend zu beschreiben (1977, S. 198), haltbar ist. Kohler selbst weist darauf hin, daß die empirische Grundlage für sein "phonologisches Intonationssystem" ungenügend ist (1977, S. 200). Dies ist die Ausgangssituation für die im folgenden dargestellte experimentalphonetische Untersuchung. Experimentelle Untersuchung. Ziel der Arbeit von Möbius (1985) ist es, eine sich an Kohlers (1977) phonologischem System orientierende Beschreibung der Intonation aus den akustischen Parametern des Sprachsignals zu gewinnen. Wenn die sechs distinktiven Töne hinreichend und notwendig für die Beschreibung der Intonation des Deutschen sind, so die Vorüberlegung, dann mußte sich prinzipiell jede natürlichsprachliche Äußerung bezüglich ihrer Intonationskontur in das System der sechs kontrastiven Muster einordnen lassen. Jeder auf dem Nukleus einer Äußerung realisierte F0-Verlauf wäre genau einem der sechs Töne zuzuordnen. Die Zuordnung sollte aufgrund von Regeln quasi-automatisch möglich sein. In der besprochenen Untersuchung werden die Pränukleus-Nukleus-Struktur der realisierten Testsätze und die Gliederung in Takte parallel anhand der akustischen Daten und über Hörerurteile ermittelt. Bei der Bestimmung der betonten Silben findet
44
Tabelle 3.1 Hörerurteile über die Position der Nukleussilbe (Angaben in %).
Übereinstimmung Hörerurteile
100
>95
>90
>85
>80
>75
>70
>60
>40
Intonationseinheiten
31
45
56
61
73
76
86
93
100
sich eine hohe Korrelation zwischen akustischen und auditiv gewonnenen Daten, die eine automatische Festlegung der Taktfolge grundsätzlich möglich erscheinen läßt (Möbius, 1985, S. 70 f.). Dagegen bewährt sich das Verfahren, die Nukleussilbe als prominenteste Silbe einer Äußerung allein auf der Basis akustischer Informationen zu lokalisieren, nicht. Als akustische Merkmale der Prominenz werden in Anlehnung an Brown et al. (1980) das absolute F0-Maximum, die maximale F0-Dynamik und das Intensitätsmaximum der Äußerung extrahiert. Die Ergebnisse stehen in keiner zufriedenstellenden systematischen Beziehung zu den Resultaten, die auf der Auswertung des Perzeptionstests beruhen. Die Methode, zur Ermittlung der Pränukleus-Nukleus-Struktur einer Äußerung die Hörerurteile heranzuziehen, erweist sich hingegen als hinreichend verläßlich, da die Urteile relativ konsistent sind. In 86% der Intonationseinheiten wurde die Nukleussilbe von mindestens zwei Drittel der Versuchspersonen übereinstimmend identifiziert. In 56% der Intonationseinheiten waren sich die Hörer zu 90% und in 45% der Intonationseinheiten zu 95% einig. Eine hundertprozentige Übereinstimmung über die Position der Nukleussilbe ergab sich in immerhin 31% der Intonationseinheiten (Tabelle 3.1). Sieht man einmal davon ab, daß sicher nicht alle akustischen Parameter erfaßt wurden, die potentiell zur Prominenz beitragen, also akustische Korrelate der Nukleussilbe darstellen, so liegt die auch von Brown et al. (1980, S. 154 ff.) diskutierte Schlußfolgerung nahe, daß die Schwierigkeiten zumindest partiell auf den Nukleusbegriff selbst zurückzuführen sind. In den Nukleusbegriff, wie er von Halliday (1967a) und anderen Vertretern der "britischen Schule" eingeführt und verwendet wird, gehen zwei recht unterschiedliche Konzepte ein. Einerseits wird die Nukleussilbe als die phonetisch prominenteste Silbe einer Äußerung definiert, andererseits soll die Pränukleus-Nukleus-Struktur die Informationsstruktur der Äußerung widerspiegeln . Die Informationsstruktur entspricht der "Thema-Rhema-Organisation" (z.B. DaneS, 1960), also der textlinguistischen GliedeKohler übernimmt explizit nur die erste Auffassung (1977, S. 201).
45
rung einer Äußerung in einen gegebenen, bekannten Teil und in einen Teil, in dem der Sprecher etwas Neues einfuhrt. Halliday teilt dazu mit, daß der Nukleus im Englischen in sehr vielen Fällen auf die letzte betonte Silbe einer Intonationseinheit fällt. Daraus schließt er verallgemeinernd, "[...] that the information unit consists of an obligatory new element, realized as tonic, optionally preceded by a given element, realized as pretonic." (Halliday, 1967b, S. 204) Hier vollzieht Halliday einen gedanklichen Sprung. Die für die letzte betonte Silbe charakteristische F0-Kontur wurde auch von anderen Autoren und in anderen Sprachen beobachtet und zumeist als ein Grenzsignal beschrieben, das das Ende einer syntaktischen oder semantischen Einheit markiert (siehe auch Abschnitte 2.3 und 2.4). Keiner der Autoren brachte die finalen Verläufe jedoch mit der Informationsstruktur oder der Thema-Rhema-Organisation in Zusammenhang. Bei dem in (Möbius, 1985) verwendeten Sprachdatenmaterial handelt es sich um isolierte, laut gelesene Sätze ohne Kontext, in denen dem Hörer alle Elemente als "neu" erscheinen müssen. Zwar ist in den meisten Äußerungen in der Tat eine erhebliche F0-Bewegung auf der letzten betonten Silbe zu beobachten, doch kann dies kaum dahingehend interpretiert werden, daß dadurch neue Information markiert werden soll. Es ist vielmehr zu vermuten, daß es sich um ein Signal handelt, das dem Hörer das Ende der Äußerung anzeigt. Die Ergebnisse der Untersuchung stutzen Kohlers Ansatz zur Beschreibung der deutschen Intonation nur teilweise. Es konnte gezeigt werden, daß der Intonationsverlauf einer jeden Äußerung des Testmaterials genau einem der sechs kontrastiven Töne zugeordnet werden kann. Eine Einschränkung besteht darin, daß nur der FQ-Verlauf des Nukleus betrachtet wird. Die Kontur des Pränukleus, die zum Teil durch den Nukleus determiniert ist, wurde aus zwei Gründen ausgeklammert. Zum einen erlauben die Pränuklei "[...] keine völlig unabhängige Selektion aus einem Paradigma von Konturoppositionen" (Kohler, 1977, S. 203), zum anderen liefert Kohler keine systematische Darstellung der möglichen Pränukleusmuster. Die Frage, ob die von Kohler angesetzten sechs distinktiven Töne hinreichend und notwendig für die Beschreibung der deutschen Intonation sind, konnte mit der verwendeten Methode nicht schlüssig beantwortet werden. Es fällt aber auf, daß zumindest im untersuchten Sprachdatenmaterial der Ton 4 ("gleichbleibende mittlere Tonhöhe") überhaupt nicht auftritt. Um die phonologische Distinktivität der postulierten Töne zu überprüfen, sollten Perzeptionsexperimente mit systematisch manipulierten F0-Verläufen durchgeführt werden. Auf diese Weise könnte für eine bestimmte Äußerung ein Kontinuum von möglichen Intonationskonturen erstellt und Hörern zur Beurteilung in Identifikations- und Diskriminationstests angeboten werden.
46
3.1.5 Intonationsmodelle und Sprachsynthese Den experimentellen Weg mit künstlich erzeugten, meist vereinfachten oder stilisierten F0-Verläufen beschreiten die in diesem Abschnitt dargestellten Ansätze von Bannert (1983), Kohler (1991a) und Adriaens (1991). Gemeinsam ist ihnen das Ziel der Prosodiesteuerung in der Sprachsynthese nach Regeln. Die oben skizzierte Evaluierung über formelle Perzeptionsexperimente wird allerdings nur von Adriaens ausdrücklich in das methodische Vorgehen integriert. Kohler führt lediglich qualitative Urteile an, während Bannert auf diese Problematik überhaupt nicht eingeht. Bannert (1983). Bannerts Modell enthält eine temporale, eine tonale und eine Modifikationskomponente. Als Eingabe wird "an abstract, linguistically completely specified structure" (1983, S. 3), also eine vollständige phonologische Intonationsbeschreibung, benötigt. Auf dieser Grundlage soll das Modell die Segmentdauer und die F0-Kontur der betreffenden Äußerung steuern. Bannert unterscheidet zwischen linguistischen Merkmalen, die für alle Sprecher einer Sprache obligatorisch sind, und individuellen Merkmalen, die typisch für einen bestimmten Sprecher und daher in einem Intonationsmodell optional sind. Wo die sprecherspezifischen Merkmale in seinem Modell integriert sind, ob in der Modifikationskomponente oder in einem eigenen Modul, ist nicht ersichtlich. Das Sprachdatenmaterial besteht aus Sätzen, die durch systematische syntaktische Erweiterung eines kurzen "Ursprungs"-Satzes erzeugt wurden und nur stimmhafte Segmente (Vokale und Sonoranten) enthalten. Die Testsätze wurden von drei Sprecherinnen jeweils mit den Satzmodi oder, in Bannerts Terminologie, als "Intonationstypen" Aussage, Echofrage und Informationsfrage realisiert. Die Analyse der gewonnenen Daten bezieht sich auf die temporale und die tonale Komponente. Hinsichtlich der zeitlichen Strukturen interessiert Bannert vorrangig, ob sich die drei Intonationstypen signifikant auf die Äußerungsdauer und die Betonungsgruppendauer auswirken. Er stellt fest, daß die Unterschiede in der temporalen Struktur nicht vom Intonationstyp abhängen, sondern sprecherspezifisch und daher in der nicht näher erläuterten -Modifikationskomponente zu berücksichtigen sind. Charakteristisch für die deutsche Intonation ist nach Bannerts Beobachtungen, daß sich Akzente tonal durch einen F0-Anstieg auszeichnen. Die steigende Bewegung beginnt im initialen Konsonanten der Akzentsilbe und erreicht das F0-Maximum häufig erst in der folgenden nicht-akzentuierten Silbe. Eine Ausnahme von dieser Regel bildet der finale Akzent in Aussagesätzen, der tonal durch einen Fall markiert ist. Aussage- und Fragesätze kontrastieren also in der finalen Kontur, aber auch im äußerungsinitialen F0-Wert, der in Fragesätzen deutlich höher als in Aussagesätzen ist. Echofragen zeichnen sich gegenüber den anderen Intonationstypen durch einen größeren /-^-Umfang aus, die F0-Gipfel sind etwas höher. Diese Ergebnisse erwiesen sich
47
als sprecherunabhängig und werden daher in der tonalen Modellkomponente berücksichtigt. Die wichtigsten Elemente des Intonationsalgorithmus sind: (1) die F0-Minima als Startpunkte der Akzente, (2) der für Aussagesätze tiefe und für Fragesätze hohe Endpunkt der Äußerung, der zur Markierung des Intonationstyps dient, sowie (3) die F0-Bewegungen, die die Akzente markieren. Die F0-Bewegungen scheinen von einer gemeinsamen Grundlinie aus zu starten, die sich zum Ende der Äußerung hin neigt, aber durch syntaktische Grenzen durchbrochen wird. Der Hauptkritikpunkt an Bannerts Ansatz besteht darin, daß das Modell zwar auf der phonetischen Analyse von Sprachdaten beruht, aber nicht perzeptiv evaluiert wurde. Der Autor selbst hebt hervor, daß die Qualität seines Modells entscheidend davon abhängt, wie die von ihm generierten Intonationskonturen vom Hörer aufgenommen werden. Um die Stimuli für die perzeptive Validierung zu erzeugen, müßte allerdings auch die von Bannert nur am Rande behandelte Modifikationskomponente genauer ausgearbeitet werden, die die Synchronisierung der tonalen und temporalen Komponente leisten soll und vermutlich Regeln für die phonetische Realisierung und für die Modellierung von sprecherspezifischen Merkmalen enthält. Kohler (1991a). Kohler stellt das von ihm vorgelegte "Kieler Intonationsmodell" (KIM) in die britische Tradition der Intonationsforschung und bezieht sich wie schon in seiner "Einführung" (1977) ausdrücklich auf Halliday (1967a). Aktueller Anknüpfungspunkt an die britische Schule ist aber weniger die (in Abschnitt 3.1.4 diskutierte) Pränukleus-Nukleus-Struktur einer Äußerung mit den entsprechenden intonatorischen Elementen ("Töne" auf dem Nukleus). Vielmehr sieht Kohler die Attraktivität dieses Ansatzes jetzt darin, daß er intonatorische Konturen wie F0-Gipfel und F0-Täler und ihre Synchronisation mit der segmentalen Struktur berücksichtigt und sie nicht in FOZielpunkte (targets und levels) atomisiert. Gleichzeitig soll KIM aber auch generativen Charakter haben, indem die Funktionen von F0-Verläufen zunächst in einem Regelsystem formalisiert und in eine symbolische Darstellung überführt werden. Erst danach erfolgt die konkrete Umsetzung auf Signalebene. Ziel ist die Entwicklung eines funktionalen Modells der deutschen Intonation, das sich an der Produktion und Perzeption von FQ-Konturen orientiert. In Kohlers Sicht wird der F0-Verlauf einer Äußerung geprägt durch lokale mikroprosodische Variationen, die mit der Artikulation zusammenhängen, aber regelhaft auftreten und sich der globalen, makroprosodischen Kontur von Phrasen und Sätzen überlagern, sowie durch prinzipiell voneinander trennbare Einflüsse der Betonung (stress) und der Intonation. KIM unterscheidet sich nach Kohlers Darstellung von allen anderen Ansätzen in zwei Punkten. Zum einen integriert das Modell mikroprosodische Phänomene, anstatt sie zu eliminieren. Zum anderen werden syntaktische, semantische, pragmatische und
48 expressive Funktionen (meaning functions) schon bei der Erstellung des Intonationsmodells berücksichtigt; Kohlers Kritik an anderen Ansätzen lautet, daß erst intonatorische Elemente postuliert werden und dann die Frage nach den Funktionen gestellt wird. Das Intonationsmodell enthält zwei Kategorien von Regeln. Die symbolic feature rules erhalten als Eingabeinformation symbolische Segmentfolgen mit pragmatischen, semantischen und Betonungsmarkierungen, die sie in Folgen binärer Merkmale (z.B. "±TERMINAL", "±LATE" usw.) umsetzen. Die darüber operierenden parametrischen Regeln liefern schließlich die konkreten Dauer- und F0-Werte und steuern die Synchronisation der F0-Konturelemente mit der segmentalen Struktur der Zieläußerung. Auf dieser Ebene sind auch Regeln für die Abstufung von Akzentgipfeln im Verlauf der Äußerung (downstepping) sowie mikroprosodische Regem angesiedelt. Ausgangspunkt für die Entwicklung von KIM sind Kohlers Untersuchungen zur "Gipfelverschiebung" (1987a, 1987b, 1989), in denen er drei unterschiedliche Positionen des F0-Gipfels bezüglich der segmentalen Struktur einer betonten Silbe unterscheidet, die jeweils mit einer anderen Bedeutung verknüpft sind (siehe Bild 3.6): "(a) (b) (c)
early: established fact; no room for discussion; final summing up of argument medial: new fact; open for discussion; starting a new argument late: emphasis on a new fact and contrast to what should exist or exists in the speaker's or hearer's idea." (Kohler, 1991a, S. 125)
Die Verschiebung des F0-Gipfels von der Position early nach hinten bewirkt also einen kategorialen Bedeutungsumschlag von "bekannt" zu "neu": "These are the basic, underlying meanings of early vs. non-early peaks" (Kohler, 1991a, S. 125).
Bild 3.6 Schematische Darstellung der drei FQ-Gipfelmuster. Von markiert den Beginn des betonten Vokals (aus Kohler, 1991 a, S. 124).
49
Die funktionale Relevanz der F0-Gipfel steht und fällt mit der Fähigkeit des Sprechers, die entsprechenden Konturen willentlich zu produzieren, und der des Hörers, die jeweilige Gipfelposition zu identifizieren. Erstaunlicherweise scheint Kohler selbst gerade in diesem Punkt starke Zweifel zu haben, denn bei der Realisierung des Sprachdatenmaterials, das als empirische Basis für die Entwicklung mikroprosodischer Regeln dienen sollte, wurden nur ausgebildete Phonetiker herangezogen: "It had to be guaranteed that the global contours (early, medial, late peaks) stayed the same in all the sentence types. This precluded naive speakers as subjects because they are usually not able to keep a given utterance intonation constant throughout a whole experiment, which is, however, absolutely essential in the investigation of microprosody. Moreover, they even have difficulties with the realization of certain contours (e.g. early peaks)." (Kohler, 1991a, S. 126 f.) Bei geschickter Formulierung eines sprachlichen Kontextes für die Testsätze sollten eigentlich auch "naive" Sprecher in der Lage sein, die gewünschten Konturen regelmäßig zu produzieren, wenn diese funktional relevant sind. Implementiert wurde KIM im INFOVOX-Sprachsynthesesystem (Carlson und Granström, 1975; Carlson et al., 1982 und 1989). Dadurch ist es möglich, eine interaktive, hypothesengesteuerte Strategie bei der Überprüfung und Verbesserung der Regeln zu verfolgen und die Auswirkung auf das synthetisierte akustische Signal auditiv zu beurteilen. Ergebnisse formeller Perzeptionsexperimente, die die Natürlichkeit und Akzeptabilität der generierten Intonationskonturen evaluieren, liegen allerdings nicht vor. Adriaens (1991). In seiner Dissertation legt Adriaens ein "melodisches Modell" der deutschen Intonation vor, das auf dem am Instiruut voor Perceptie Onderzoek (IPO) in Eindhoven entwickelten Ansatz (z.B. Cohen und 't Hart, 1967; 't Hart und Cohen, 1973; 't Hart und Collier, 1975; 't Hart et al., 1990) beruht. Es handelt sich um eine Intonationsbeschreibung unter perzeptivem Aspekt. Grundlage ist die Erkenntnis, daß nicht alle Bewegungen im FQ-Verlauf für die Wahrnehmung durch den Hörer relevant sind. Die Methode besteht darin, die perzeptiv relevanten F0-Bewegungen durch gerade Linien zu stilisieren, 't Hart definiert die Aufgabenstellung folgendermaßen: "[...] try to draw a graph on top of the F0 curve which should represent the course of pitch as a function of time as it is perceived by the listener" (1984, S. 195). Die resultierenden Linien bilden eine "Kopiekontur" (Adriaens, 1991, S. VI; siehe Bild 3.7), die durch den Hörer nicht von der Original-Intonationskontur unterschieden werden kann, 't Hart und Collier (1975) hatten hierfür ursprünglich den Begriff perceptual equivalence eingeführt. Die Notwendigkeit der Stilisierung wird damit begründet, daß die enorme Variabilität gemessener F0-Verläufe den Blick auf Regularitäten verstellt (Adriaens, 1991, S. 16). Doch bei Verwendung der Stilisierungsmethode treten Unsicherheitsfaktoren
50
40t 100
N
u.
Ge
st
ern
S T U R M t e es
no ch
M·
ItO
B 0.0
0.3
0.9
.
1.2
1.9
t (S)
Bild3.7 FQ-Verlauf (Punkte) und Kopiekontur (Striche) der Äußerung "Gestern stürmte es noch". Die Kopiekontur enthält eine Deklinationslinie (A-E) und zwei F0-Bewegungen (B-C, C-D) (aus Adriaens, 1991, S. 59).
auf, etwa bei mehrmaliger Bearbeitung einer Intonationskontur durch die gleiche Person oder durch verschiedene Personen. Hierbei können sich prinzipiell jeweils unterschiedliche Kopiekonturen ergeben, die dann notwendigerweise auch zu divergierenden Parameterwerten führen. In Adriaens' Argumentation handelt es sich jedoch um "[...] Unterschiede, die innerhalb des perzeptiven Relevanzbereichs liegen und somit unhörbar sind" (1991, S. 38). Bei der Entwicklung des Modells stößt Adriaens auf das Problem, daß die Kategorisierung der F0-Bewegungen nicht anhand objektiver Kriterien vorgenommen werden kann. Adriaens plädiert daher für eine "heuristische Arbeitsweise" (1991, S. 56), die aber nicht näher erläutert wird. Sie orientiert sich jedenfalls am Ziel der Untersuchung, einem melodischen Modell, dessen perzeptive Adäquatheit überprüft werden kann. Die gemeinsamen Merkmale der Kopiekonturen werden standardisiert und münden in ein Modell, "[...] das aus einem beschränkten Inventar diskreter, standardisierter Steigungen und Senkungen besteht sowie aus Kombinationsregeln [...]" (Adriaens, 1991, S. 5). Adriaens postuliert zwölf standardisierte F0-Bewegungen, sieben steigende und fünf fallende, die jeweils durch ihre Position in der betreffenden Silbe, durch ihren Frequenzumfang und durch ihre Dauer spezifiziert sind. Insgesamt sieben Bewegungen, die sich am Vokal einer Akzentsilbe orientieren, tragen zur Hervorhebung bei; nach der IPO-Terminologie handelt es sich um prominence-lending pitch movements ('t Hart und Collier, 1975). Die übrigen fünf Bewegungen sind perzeptiv relevant, haben aber keine akzentuierende Funktion. Dieses Inventar wird durch vier gleichfalls standardisierte Deklinationslinien ergänzt. Sequentielle Regeln fügen die Bausteine zu Standardkonturen zusammen, die zwei Kriterien genügen müssen: Ihre Akzeptabilität muß der natürlicher Intonations-
51
konturen entsprechen, und sie müssen der Intonationskontur der jeweiligen Originaläußerung perzeptiv ähnlich sein (S. 58). Adriaens merkt an, daß die melodische Äquivalenz nicht experimentell überprüft wurde. Es ist jedoch zumindest diskussionswürdig, ob dieses Kriterium nicht zu streng ist. Adriaens möchte vermeiden, Konturen zu erzeugen, die vom Hörer akzeptiert werden, aber intonatorisch von der ursprünglichen Äußerung abweichen. Es läßt sich aber argumentieren, daß man sich bei der Standardisierung von Konturen durchaus vom Original lösen kann. Wichtiger als das Kriterium der melodischen Äquivalenz sollte vielmehr die Frage sein, ob die Position und Ausprägung der Akzente und der angestrebte Satzmodus in angemessener Weise generiert werden. Dies kann durch Hörerurteile überprüft werden. In Adriaens' melodischem Modell werden funktionale Aspekte der Intonation ausdrücklich nicht behandelt. Daher ist auch eine linguistische Interpretation seines Inventars perzeptiv relevanter F0-Bewegungen nicht möglich. Dennoch hat das Modell mehr als nur beschreibenden Charakter. Die generierten Verläufe lassen sich akustisch realisieren; natürlichsprachliche Äußerungen können mit den stilisierten Konturen resynthetisiert und auditiv in bezug auf ihre Akzeptabilität überprüft werden. Die perzeptive Validierung erstreckt sich bei Adriaens allerdings nur auf Standardkonturen, die sich an Kopiekonturen orientieren. Dies bedeutet, daß F0-Bewegungen in der Standardkontur an denselben Stellen gesetzt werden wie bei der Nachbildung des FQ-Verlaufs der Originaläußerung (1991, S. 78). Dadurch wird aber der potentiell generative Charakter des Modells vernachlässigt. Das Modell erlaubt es, Standardkonturen zu erzeugen, die akzeptabel sind, obwohl sie nicht in natürlichsprachlichen Äußerungen beobachtet wurden. Umgekehrt wird aber auch nicht die mögliche Generierung von Konturen verhindert, die perzeptiv nicht akzeptabel sind.
3.2 Tonsequenz oder Superposition: eine aktuelle Kontroverse Kontroversen über die theoretische Fundierung von Intonationsmodellen ziehen sich wie rote Fäden durch die Entwicklungsgeschichte der jüngeren Intonationsforschung. Von mehreren roten Fäden muß gesprochen werden, weil nicht eine Kontroverse an die andere anknüpft und diese ablöst, sondern weil vielmehr infolge neuer Erkenntnisse neue Erklärungsmodelle benötigt wurden, ohne daß die alten inhaltlichen Differenzen einvemehmlich hätten beigelegt werden können. Die für die vorliegende Arbeit relevanten theoretischen Kontroversen werden im folgenden zunächst kurz angerissen; breiteren Raum nimmt daran anschließend der aktuelle Methodenwettstreit zwischen den Vertretern des Tonsequenz- und des Superpositions-Ansatzes ein. In diesem Zusammenhang soll dann auch die Verwendung des Fujisaki-Modells bei der Untersuchung der Intonation des Deutschen begründet werden.
52 Global vs. atomistisch. 't Hart und Collier (1975) unterscheiden, indem sie einer Argumentation Bolingers (1972) folgen, globale und atomistische Intonationsbeschreibungen. In der globalen Sicht bildet der Intonationsverlauf distinktive Muster (tunes), die sich über die gesamte Äußerung hinweg erstrecken (z.B. Armstrong und Ward, 1926; Jones, 1957). Dieses Konzept kann zwar zu Generalisierungen über intonatorische Merkmale bis hinauf zur Textebene führen, doch es erklärt nicht die konkrete Form eines Intonationsverlaufs, die Zusammensetzung einer Kontur. "Atomistische" Beschreibungen (z.B. Palmer, 1933; Kingdon, 1958; Halliday, 1967a; Crystal, 1969a) zerlegen eine Äußerung prosodisch in tone units, die einen Nukleus enthalten (siehe auch Abschnitt 3.1.5). Damit fehlt aber der Rahmen, um intonatorische Merkmale oberhalb der tone um'f-Ebene zu behandeln. Um die Vorteile beider Beschreibungen zu nutzen, ohne ihre Nachteile in Kauf zu nehmen, plädieren 't Hart und Collier (1975) für einen integrierenden Ansatz, der akustische, physiologische und perzeptive Aspekte der Intonation gleichermaßen berücksichtigt. Dadurch soll auch das Problem der doppelten Dichotomie "global atomistisch" und "abstrakt - konkret" gelöst werden. Der durch akustische Analyse gewonnene FQ-Verlauf (global, konkret) wird durch Stilisierung, d.h. in diesem Fall durch Nachbildung mit geraden Linien, in perzeptiv äquivalente Tonhöhenkonturen (global, konkret) übergeführt, die aus Tonhöhenbewegungen (atomistisch, konkret) bestehen. Die Tonhöhenkonturen werden als Realisierungen mental repräsentierter Intonationsmuster (global, abstrakt) betrachtet (Bild 3.8).
INTONATION PATTERNS]
?v
/
|Fo CURVES t^ PERCEPTUAL EQUIVALENCE ^ PITCH CONTOURS] ui o z o u
[PITCH MOVEMENTS]
Bild 3.8 Die Beziehungen zwischen intonatorischen Phänomenen unter dem Aspekt der doppelten Dichotomie "global - atomistisch" und "abstrakt - konkret" (aus 't Hart und Collier, 1975, S. 238).
53
Levels vs, configurations. Die klassische Kontroverse zwischen den Vertretern einer Tonstufentheorie (levels) auf der einen und einer Konturtheorie (configurations) auf der anderen Seite ist durch Bolinger zugunsten der configurations entschieden worden. Bolinger (1951) kritisiert die Tonstufentheorie, die in ihrer ursprünglichen Form die Technik der Phonemanalyse von der segmentalen auf die suprasegmentale Ebene überträgt. Mit dieser Methode wird die Intonation auf (typischerweise) vier Tonhöhenstufen reduziert, die von den prominenten Silben einer Äußerung getragen werden. Die Tonhöhenstufen sind distinktiv und werden daher auch als Tonhöhenphoneme (pitch phonemes) bezeichnet (Pike, 1958; Trager und Smith, 1951). Vervollständigt wird diese Beschreibung durch drei terminate Junkturphoneme, "fallend", "steigend" und "gleichbleibend". Bolinger (1951) führt den Nachweis, daß die Tonstufen nicht phonologisch interpretiert werden dürfen. Die Tonhöhenbereiche der "Phoneme" schließen sich nicht wechselseitig aus, sondern können sich überlappen. Daraus folgt, daß ein Tonhöhenphonem isoliert, also außerhalb des Kontextes seines konkreten Auftretens, vom Hörer nicht identifiziert werden kann, da es sich immer um relative, nicht um absolute Tonstufen handelt. Bolingers Argumente widerlegen die Auffassung vom phonologischen Status der Tonstufen. Seine Ergebnisse weisen vielmehr darauf hin, daß "[...] the basic entity of intonation is a pattern, not a pattern in the relatively abstract sense of grammatical recurrences, but in the fundamental, down-toearth sense of a continuous line that can be traced on a piece of paper [...] we must start with units such as these, breaking them down later, if necessary, along lines congenial to them." (Bolinger, 1951, S. 206 f.) Eine Synthese zwischen der Tonstufen- und der Konturtheorie versucht Danes' (1960) mit seinem Ansatz der configurations of levels. In seiner Darstellung durchläuft die Intonationskontur distinktive, auf bestimmte Tonstufen fixierte Punkte. Diese konstitutiven Punkte werden durch linguistische Kategorien wie Akzent, Satzmodus oder Kontrast determiniert. Mit diesem Ansatz kann Danes' durchaus als Vorläufer der neueren phonologisch basierten Intonationstheorien gelten. In der Form des Methodenwettstreits zwischen den Tonsequenz- und den Superpositions-Modellen der Intonation findet die Kontroverse levels vs. configurations also ihre aktuelle Fortsetzung. Tonsequenz vs. Superposition. Die Unterscheidung zwischen hierarchischen Intonationsmodellen, die den F0-Verlauf einer Äußerung als komplexes Muster interpretieren, das durch Superposition mehrerer Komponenten entsteht, und Tonsequenz-Modellen, die den F0-Verlauf aus einer Folge phonologisch distinktiver Töne durch phonetische Realisierungsregeln erzeugen, beruht in erster Linie darauf, wie diese beiden verschiedenen Ansätze die Beziehung zwischen lokalen Bewegungen und globalen Trends
54
der Intonationskontur definieren (Thorsen, 1985). Die beiden folgenden Zitate streichen den konzeptuellen Gegensatz heraus: "[...] the pitch movements associated with accented syllables are themselves what make up sentence intonation [...] there is no layer or component of intonation separate from accent: intonation consists of a sequence of accents, or, to put it more generally, a sequence of tonal elements." (Ladd, 1983a, S. 40; Hervorhebung im Original) "It is my basic assumption that Standard Danish intonational phenomena are structured in a hierarchically organized system, where components of smaller temporal scope are superposed on components of larger temporal domain. Such an organization creates global tendencies with more local modifications [...] [the] components are simultaneous, parametric, non-categorical and highly interacting in their actual production." (Thorsen, 1988a, S. 2) Einen anderen, dritten Standpunkt vertreten 't Hart und Collier (1979). Sie formulieren ein Prinzip des Primats der Intonation über die Akzentuierung. Danach ist die Akzentuierung der Intonation insofern untergeordnet, als das globale Intonationsmuster einer Äußerung die Ausprägung und Abfolge von F0-Bewegungen einschränkt oder gar festlegt. Intonation und Akzent stellen jedoch keineswegs zwei getrennte Ebenen dar, vielmehr besteht die Intonationskontur einer Äußerung aus den aufeinanderfolgenden F0-Bewegungen. Der Hauptunterschied zwischen den Modelltypen ist also in der Auffassung zu sehen, wie Wortakzent und Satzintonation zusammenhängen. Die Problematik liegt darin, daß satzprosodische und wortprosodische Aspekte in der gleichen akustischen Variablen miteinander verwoben sind. Sowohl die Intonation als auch die Akzentuierung bedienen sich des gleichen akustischen Parameters, der Variation der Grundfrequenz als Funktion der Zeit. Allein aufgrund akustischer Messungen kann nicht entschieden werden, ob bestimmte F0-Bewegungen durch Akzentuierung oder durch Intonation hervorgerufen werden, ebensowenig wie allein auf perzeptivem Wege. Eine entsprechende Trennung kann aber auf der linguistischen, also auf einer abstrakten Ebene vorgenommen werden. Hier können Regeln greifen, die Akzent- und Intonationsmuster unabhängig voneinander erzeugen oder auch ihre Wechselbeziehung darstellen (siehe auch 't Hart und Collier, 1979; Thorsen, 1979b). Erfolgversprechend dürfte allerdings auch der in der vorliegenden Arbeit verfolgte Ansatz sein, Akzentuierung und Satz- bzw. Phrasenintonation mit Hilfe von Kommandos in der jeweiligen Komponente eines produktionsorientierten Modells zu steuern. Ladd (1983a,b) argumentiert, daß der Tonsequenz- und der Superpositions-Ansatz zwar formal und von der Notation her divergieren, deskriptiv aber durchaus äquivalent sein können. Dem widerspricht Thorsen:
55
"The essential difference between the two types of intonation model is not merely formal, but conceptual." (Thorsen, 1986, S. 1041) Eine zentrale These Pierrehumberts (1980) lautet, die Intonation werde ausschließlich lokal determiniert. Inzwischen liegt jedoch einige Evidenz für nicht-lokale Einflüsse vor (siehe auch Ladd, 1988). So zeigt die Untersuchung von Äußerungen mit Parenthesen, daß die Intonationskontur durch die Parenthese unterbrochen und anschließend wieder annähernd so aufgenommen wird, wie sie in der gleichen Äußerung ohne Parenthese ausgesehen hätte (Kutik et al., 1983). Ladd und Johnson (1987) zeigen, wie der erste Akzentgipfel einer Äußerung in Abhängigkeit von der Konstituentenstruktur justiert wird. Eine streng lokal orientierte Theorie greift in diesen Fällen zu kurz. Doch nicht nur die Tonsequenz-Modelle bleiben die Erklärung für bestimmte intonatorische Phänomene schuldig. Eine empirische Schwäche quantitativer, und zwar sowohl sequentieller als auch superponierender, Modelle ist nach Ladds (1989) Auffassung die quasi-kontinuierliche Variabilität von Parametern. Diese versucht er durch die Interaktion mehrerer Faktoren zu erklären. Eine Intonationstheorie, die nicht-kategorisierbare Parameter einfach hinnimmt, "[...] is likely to overlook much that is of interest to the general problem of modeling F0" (Ladd, 1989, S. 53). Speziell spricht Ladd die Akzentamplitude des Fujisaki-Modells an, die zwei kategorial verschiedene Wertebereiche innerhalb eines theoretisch zu postulierenden Kontinuums annimmt, ohne daß Fujisaki eine fundierte phonologische Erklärung liefert; er spricht nur von "either presence or absence of emphasis" (Fujisaki, 1983, S. 47). Diese Problematik wird in der abschließenden Diskussion der Ergebnisse der vorliegenden Arbeit (in Kapitel 10) noch einmal aufgegriffen. Im folgenden sollen Tonsequenz- und superponierende Intonationsmodelle zunächst eingehender betrachtet und einander gegenübergestellt werden.
3.2.1 Tonsequenz-Ansatz Pierrehumbert (1980; 1983). Die wohl einflußreichste Arbeit, die auf dem Tonsequenzprinzip basiert, ist die Dissertation Pierrehumberts (1980). Dem dort vorgelegten Intonationsmodell liegen theoretische Annahmen der metrischen Phonologic (Liberman und Prince, 1977) und der auf die Intonation angewendeten autosegmentalen Phonologie (Leben, 1976) zugrunde. Ausgangspunkt ist eine metrische Repräsentation des Äußerungstextes, die regelbasierte Informationen über betonte und unbetonte Silben liefert, sowie eine Folge von Hoch- und Tieftönen, die durch kontextsensitive Regeln mit betonten Silben und prosodischen Grenzen assoziiert werden. Mit dieser formalen Beschreibung knüpft Pierrehumbert im Prinzip an den Tonstufen-Ansatz an, ohne jedoch dessen theoretische und methodologische Irrwege zu
56 beschreiten. Wie oben gezeigt, bestehen zwei wesentliche Mängel der Vierstufentheorie darin, daß weder die Abgrenzung der Tonhöhenbereiche untereinander noch der Übergang von einem Ton zum folgenden explizit vorgeschrieben wird. Durch Anwendung des autosegmentalen Prinzips auf die Intonation werden diese Mängel überwunden. Die autosegmentale Phonologic setzt zwei oder mehr parallele Gleise (tiers) an, die jeweils aus einer Folge von phonologischen Segmenten3 bestehen, und deren Beziehungen untereinander durch Assoziationsregeln determiniert sind. Bezogen auf die Generierung der Intonation liefert sie spezifische Regeln für die Abbildung der Tonsequenzen auf die segmentale Struktur. Pierrehumberts Modell repräsentiert eine intonatorische Phrase als eine Folge von Hoch- und Tieftönen, symbolisiert durch H (high) und L (low). Hoch- und Tieftöne bilden eine primäre phonologische Opposition. Die Töne interagieren nicht unmittelbar, sondern folgen im Verlauf der Äußerung aufeinander. Sie lassen sich in drei Klassen einteilen: 1. Pro Phrase mindestens ein Tonhöhenakzent, der entweder durch einen Ton (H*, L*) oder bitonal, also durch Kombination von zwei Tönen, (L"+H*, H~+L*, H*+L·, L*+H-, H*+H·) realisiert ist. 2. Phrasenakzent am Ende des Wortes mit dem letzten Tonhöhenakzent der Phrase (H', L'). 3. Grenzton auf der phrasenfinalen Silbe (H%, L%). Das folgende Beispiel (aus Pierrehumbert, 1980, S. 50) illustriert diese Art der tonalen Repräsentation einer Äußerung. I really believe Ebenezer was a dealer in magnesium.
H* H>L* H-+L*
H>L*
H-+L*L-L%
Phonetische Regeln überfuhren die der Äußerung zugrundeliegende abstrakte tonale Repräsentation in konkrete F0-Konturen. Hier erfolgt auch die zeitliche Synchronisation der Töne mit den Akzentsilben. Die phonetischen Regeln bestimmen die FQ- Werte der H- und L-Töne in Abhängigkeit von der Basislinie, von der vom Sprecher inten-
Der Terminus Segmente ist in der autosegmentalen Phonologie nicht im Sinne lautlicher Einheiten mit begrenzter und feststellbarer zeitlicher Dauer zu verstehen, sondern als "the minimal unit of a phonological representation" (Goldsmith, 1990, S. 10). In der Notation ist die Akzentposition durch einen Stern (H*, L*) gekennzeichnet, vorangehende (leading) und folgende (trailing) Töne durch ein hochgestelltes Minuszeichen (H", L"), Grenztöne durch das Prozentzeichen (H%, L%).
57
dierten Prominenz und von den vorangehenden Tönen. In Aussagesätzen werden die Akzente im Verlauf der Äußerung um einen konstanten Faktor herabgestuft (downstepping). Die Basislinie ist eine hypothetische Linie, von der die Hoch- und Tieftonakzente nach oben und unten abweichen, und die definitionsgemäß nur mit dem tiefen phrasenfinalen Grenzton (L" L%) genau übereinstimmt. Die Berechnung der Töne erfolgt nur in Abhängigkeit von der bereits abgearbeiteten Sequenz und berücksichtigt die noch folgenden Töne nicht. Ein nach dem Prinzip einer Grammatik endlicher Zustände (finite state, Pierrehumbert, 1980, S. 2) konzipierter Mechanismus generiert auf diese Weise ausschließlich wohlgeformte Intonationsrepräsentationen. Pierrehumberts Modell hat vorwiegend sequentiellen Charakter. Selbst die tonalen Korrelate der Phrasenstruktur einer Äußerung, die Phrasen- und Grenztöne, sind als Elemente der Tonsequenz konzipiert. Globale Trends der Intonationskontur, etwa das downstepping, sind das Resultat iterativ angewendeter lokaler Regeln. Folgerichtig argumentiert Pierrehumbert (1983) gegen die Hypothese, daß der Sprecher die prosodische Struktur seiner Äußerung zumindest abschnittsweise, etwa auf Phrasenebene, vorausplant. Zugleich wendet sie sich gegen hierarchisch aufgebaute Modelle: "We also deny that intonation is built up in layers, by superposing local movements on a global component." (Pierrehumbert, 1983, S. 141) Dennoch enthält ihr Modell auch hierarchische Elemente. Die Assoziationsregeln, die die Synchronisation der Tonsequenz mit dem Text steuern, unterliegen nicht-lokalen Wohlgeforrntheitsbedingungen. Pierrehumbert hebt hervor, daß sich dieser Aspekt ihres Modells an der Schnittstelle zwischen Intonation und metrischer Phonologie befindet, deren Betonungsregeln ja gerade nicht-lokalen Charakter haben. Ein weiteres global wirkendes Element ist die Deklination, der die lineare Abfolge der Töne überlagert wird. Ladds (1988, Fußnote 1) daraus abgeleitete Einordnung des Modells als Hybride zwischen dem superponierenden und dem Tonsequenz-Ansatz erscheint daher zwar konsequent, wird jedoch dem vorwiegend sequentiellen Charakter des Modells von Pierrehumbert nicht gerecht. Ladd (1983b). Ladds phonologisches Intonationsmodell (1983b) basiert auf den Arbeiten Pierrehumberts (1980), auf dem IPO-Ansatz ('t Hart und Cohen, 1973; 't Hart und Collier, 1975)5 und dem Lunder Intonationsmodell (Bruce, 1977; Gärding, 1983). Es stellt in erster Linie aber eine Modifikation des von Pierrehumbert ausgearbeiteten Modells dar, indem es ebenfalls explizit Annahmen und Erkenntnisse der autosegmentalen und der metrischen Phonologie verwendet (Ladd, 1983b). Das am IPO in Eindhoven entwickelte Intonationsmodell wurde in seiner Anwendung auf das Deutsche (Adriaens, 1991) bereits in Abschnitt 3.1.5 vorgestellt und soll hier nicht mehr näher beschrieben werden.
58
In seinem eigenen Ansatz hofft Ladd den seiner Auffassung nach grundsätzlichen Mangel des Lunder und des IPO-Modells (und anderer) zu beheben, die phonologische und funktionale Generalisierungen nur bedingt zulassen. Die Ursache sieht Ladd darin, daß sich die angeführten Arbeiten ausgiebig mit perzeptiven und akustischen Details von FQ-Verläufen befassen, die jedoch allenfalls sekundäre Relevanz haben, wenn man die linguistische Struktur der Intonation verstehen will (1983b, S. 721). Ladd will das Prinzip der Merkmalsklassifikation von der segmentalen auf die suprasegmentale Phonologie übertragen, was auch beim Vergleich der Intonation verschiedener Sprachen von Vorteil sei. FQ-Konturen sollen als eine Folge strukturell signifikanter Punkte (accent peaks/valleys, boundary endpoints) analysiert werden: "Each peak or structurally significant point may be considered the locus of a TONE, a phonological (intonational) segment characterized by a bundle of features." (Ladd, 1983b, S. 728; Hervorhebung im Original) Akustisch läßt sich ein Ton durch seine Höhe und seine Position relativ zur Segmentkette beschreiben. Töne werden durch F0-Transitionen verknüpft, die nicht unbedingt gerade Linien sein müssen. Ein wesentlicher Unterschied zur Arbeit Pierrehumberts (1980) liegt darin, daß Ladd ein phonologisches downstep-Merkmal einfuhrt, während dieses Phänomen in Pierrehumberts Beschreibung quasi-automatisch im Zuge der phonetischen Realisierung auftritt. Motiviert ist diese Modifikation nicht zuletzt durch eine Kontroverse zwischen Pierrehumbert (1980) und Thorsen (1980) über die Interpretation von Intonationskonturen im Dänischen. Ladd glaubt, den tatsächlichen Verhältnissen im Dänischen mit einem phonologischen Merkmal für downstep gerecht werden zu können, ohne den Tonsequenz-Ansatz aufgeben zu müssen. Doch auch dieses Konzept hält Thorsen (1983) für unadäquat: Selbst für den konzeptuell einfachsten Fall, daß der Umfang des F0-Absinkens in allen Äußerungen konstant und die Steilheit umgekehrt proportional der Äußerungsdauer ist, müsse eine Vorausplanung durch den Sprecher insofern erfolgen, als er die Dauer der Äußerung bereits zu Beginn kennen muß, um die globale Neigung der Intonationskontur entsprechend zu justieren. Die Tonsequenz-Modelle verzichten aber explizit auf jeden lookahead-Mechanismus in der Sprachproduktion. Übertragungen des Tonsequenz-Ansatzes auf das Deutsche finden sich bei F6ry (1988) und Uhmann (1988; 1991).
59
3.2.2 Superpositions-Ansatz In diesem Abschnitt werden die wichtigsten Arbeiten der Vertreter einer hierarchischen Intonationstheorie besprochen. Thorsen (1988a). In einer Reihe von Publikationen6 erarbeitet Thorsen ein Modell der Intonation des Dänischen, das sich konzeptuell erheblich von den TonsequenzAnsätzen unterscheidet. Thorsen argumentiert für ein hierarchisch organisiertes Intonationsmodell, das mehrere simultane, nicht-kategoriale Komponenten unterschiedlicher zeitlicher Dimension enthält. Die einzelnen Modellebenen werden einander überlagert, d.h., eine Komponente kürzerer zeitlicher Erstreckung wird jeweils einer Komponente größerer zeitlicher Domäne überlagert (Thorsen, 1988a, S. 2). Thorsen integriert die folgenden Komponenten in ihr Modell. Als oberste Ebene gilt der Text, der eine diskursabhängige intonatorische Gliederung bewirkt ("Textkontur"). Darunter werden die Einflüsse des Satzes bzw. der Äußerung ("Satzintonationskontur") und der prosodischen Phrase ("Phrasenkontur") berücksichtigt. Die letzte linguistisch relevante Ebene wird durch Betonungsgruppenmuster repräsentiert. Diese vier Komponenten sind sprachspezifisch und können vom Sprecher gesteuert und gezielt eingesetzt werden. Weiterhin sieht Thorsen eine Komponente zur Erfassung mikroprosodischer Effekte vor7. Alle Komponenten sind in der Sprachproduktion hochgradig interaktiv und beeinflussen auf diese Weise den konkreten FQ-Verlauf einer Äußerung (Thorsen, 1988a, S. 2). Bei der Interpretation natürlicher FQ-Verläufe ist daher ein hierarchisches Konzept hilfreich, da es eine analytische Trennung der verschiedenen Einflußfaktoren auf die Intonationskontur erlaubt. Insbesondere eröffnet es die Möglichkeit, die "Beziehung zwischen Satz- und Wortprosodie"8 zu klären. Ein wesentliches Element in Thorsens Modell ist die Gliederung einer Äußerung in prosodische Betonungsgruppen (stress groups, siehe Abschnitt 2.3). Eine Betonungsgruppe besteht aus einer betonten Silbe und allen folgenden unbetonten Silben. Eine Besonderheit des Dänischen liegt darin, daß die betonten Silben tonal nicht als FQMaxima realisiert werden. Bild 3.9 zeigt das typische F0-Muster von Betonungsgruppen im Dänischen.
Eine zusammenfassende Darstellung der wichtigsten Aufsätze findet sich in Gr0nnum (1992). Außerdem wird speziell im Dänischen der Einfluß des st0d berücksichtigt, einem creaky voicePhänomen am Ende langer Vokale oder, bei kurzen Vokalen, auf dem postvokalischen Konsonanten. Der st0d hat sich sprachhistorisch aus einem distinktiven Tonmuster auf bestimmten Silben entwickelt, das im Norwegischen und Schwedischen noch existiert (Fischer-Jergensen, 1987). So lautete der Titel eines Symposiums beim 9. Internationalen Phonetik-Kongreß (1979) in Kopenhagen.
60
*,
Bild 3.9 Typisches F0-Muster einer Betonungsgiuppe im Dänischen. Es besteht aus einer tieftonigen betonten Silbe (großer Punkt) und allen folgenden unbetonten Silben (kleine Punkte) mit hoch-fallendem F0-Verlauf (aus Thorsen, 1988a, S. 3).
Die genaue Form des prosodischen Musters einer Betonungsgruppe hängt von seiner Position in der Äußerung und besonders von der Satzintonationskontur ab, der es überlagert ist. Der globale Neigungsgrad der Intonationskontur, die als gedachte Linie durch die betonten Silben einer Äußerung definiert ist, korreliert mit dem vom Sprecher intendierten und vom Hörer perzipierten Satzmodus. Abgeschlossene Aussagesätze zeichnen sich durch den steilsten Verlauf aus, während syntaktisch und lexikalisch unmarkierte Fragesätze (assertive oder Echofragen) eine nahezu horizontale Intonationskontur aufweisen (Thorsen, 1988a, S. 8). Bild 3.10 illustriert die unterschiedlichen Realisationen der Betonungsgruppenmuster in Abhängigkeit vom Satzmodus und von der Position in der Äußerung. i«·l tonei
300
cent iccondt
Bild 3.10 Betonungsgruppenmuster des Dänischen in Abhängigkeit von der Position in der Äußerung und vom Satzmodus: syntaktisch unmarkierte Fragesätze (1), syntaktisch oder lexikalisch markierte Fragesätze sowie unvollendete Äußerungen (2), abgeschlossene Aussagesätze (3). Betonte Silben werden durch große Punkte, unbetonte Silben durch kleine Punkte repräsentiert Das F0-Muster der Betonungsgruppen wird durch durchgezogene Linien wiedergegeben, gestrichelte Linien deuten die Satzintonationskontur an (aus Thorsen, 1988a, S. 4).
61
Garding (1983). Wie den Arbeiten Thorsens, so liegt auch dem von Gärding und Mitarbeitern in Lund entwickelten Intonationsmodell die Annahme zugrunde, daß sich die Intonationskontur einer Äußerung als komplexes Resultat mehrerer Einflußfaktoren analysieren läßt. Dem von Garding (1983) vorgestellten Modell dienen als Eingabeinformationen der Zielsatz mit Markierungen für lexikalische Akzente und für Akzente auf Phrasen- und Satzebene, morphologische Grenzen und Phrasengrenzen sowie der Satzmodus. Bevor aus diesen Informationen eine Intonationskontur erzeugt werden kann, müssen mehrere Stufen durchlaufen werden. Zunächst werden durch Silbenstrukturund Silbendauerregeln die zeitlichen Verhältnisse auf Silbenebene festgelegt. In einem Zwischenschritt finden sprachspezifische phonologische Regeln Anwendung; so wird etwa im Schwedischen jede Akzentmarkierung nach dem Fokus gelöscht. Anschließend werden die abstrakten Eingabemarkierungen in Symbole umgesetzt, die sich auf steigende und fallende F0-Bewegungen als globale Merkmale der Satz- und Phrasenebene und auf Hoch- und Tieftöne als lokale Merkmale von Silben oder Wörtern beziehen. Der Algorithmus zur Generierung der Intonationskontur enthält Regeln zur Festlegung des tonalen Gitters (tonal grid), das in Abhängigkeit vom Satzmodus und von größeren syntaktischen Grenzen den Rahmen für die lokalen F0-Bewegungen vorgibt, sowie für die Hoch- und Tieftöne, deren Position und Ausprägung wiederum von syntaktischen Grenzen und von Satz-, Phrasen- und Wortakzenten determiniert wird. Zuletzt werden benachbarte Hoch- und Tieftöne miteinander verbunden. Bild 3.11 zeigt das idealisierte tonale Gitter eines Aussagesatzes.
Bild 3.11 Idealisiertes tonales Gitter (durchgezogene Linien) eines schwedischen Aussagesatzes innerhalb eines normalen Stimmregisters (gestrichelte Linien). Die Hoch- und Tieftöne (numeriert) hängen von der Satz- und Phrasenintonation (1), vom Satzakzent (2), vom Phrasenakzent (3) und vom Wortakzent (4) ab (aus Garding, 1983, S. 15).
Das Lunder Intonationsmodell enthält Elemente sowohl des Tonsequenz- als auch des Superpositions-Ansatzes. Die Akzente werden zwar durch Folgen von Hoch- und Tieftönen repräsentiert, doch mit dem tonal grid enthält das Modell eine eindeutig nichtlokale Komponente. Da der Verlauf des tonalen Gitters durch Angel- oder Wendepunkte (pivots) an Grenzen zwischen größeren syntaktischen Konstituenten bestimmt ist, wird implizit eine Vorausplanung der globalen Intonationskontur durch den Spre-
62
eher angenommen. Auch das Intonationsmuster in der Umgebung des Satzakzents, der in bestimmten Fällen auch außerhalb des tonalen Gitters liegen kann (oberer Punkt 2 in Bild 3.11), unterliegt offenbar einer globalen Äußerungsplanung. Unter dem Aspekt einer Unterscheidung zwischen Tonsequenz- und superponierenden Ansätzen sollte das Lunder Modell eher zur zweiten Gruppe gerechnet werden. Dominierend in Gärdings Beschreibung ist die Auffassung, daß eine analytische Trennung der Wirkung verschiedener Faktoren auf die Intonationskontur sinnvoll und möglich ist. Die lokale Repräsentation von Akzenten durch Hoch- und Tieftöne zeigt nur, daß Elemente beider Konzepte verträglich miteinander kombiniert werden können. Die Arbeiten der wichtigsten Vertreter der Tonsequenz-Modelle und der hierarchischen Superpositions-Modelle sind nun besprochen worden. Im folgenden Abschnitt sollen die Charakteristika beider Konzepte noch einmal zusammenfassend einander gegenübergestellt werden. Das für die vorliegende Arbeit grundlegende Intonationsmodell von Fujisaki und Mitarbeitern wird in Kapitel 4 ausführlich dargestellt.
3.2.3 Gegenüberstellung In diesem Abschnitt sollen Argumente dafür angeführt werden, daß die strenge dichotome Klassifizierung von Intonationsmodellen in Tonsequenz-Modelle einerseits und hierarchische Intonationsmodelle, die mehrere Komponenten einander superponieren, andererseits, artifiziell ist und sich aufgrund inhaltlicher und methodischer Kriterien nicht durchhalten läßt. Wie am Beispiel des Lunder Intonationsmodells (Gärding, 1983) gezeigt wurde, besteht der konzeptuelle Unterschied zwischen den zuvor dargestellten Ansätzen nicht darin, ob ihnen eine phonologische Repräsentation zugrundeliegt oder nicht. Er läßt sich eher schon daran festmachen, ob ein bestimmtes Modell implizit oder explizit eine Vorausplanung bei der Sprachproduktion annimmt oder ablehnt. Unter den Vertretern der verschiedenen Intonationsmodelle scheint Einigkeit darüber zu bestehen, daß die vorwiegend lokal spezifizierten FQ-Bewegungen einer äußerungsoder zumindest phrasenübergreifenden Deklinationslinie überlagert sind. Hierin dürfte sogar der Grund für die fragwürdige Einstufung des IPO-Modells als hierarchisch (Thorsen, 1985) zu sehen sein, obwohl doch die Annahme, die akzentverleihenden FQBewegungen seien autonom und nicht integraler Bestandteil des Intonationsmusters, ausdrücklich zurückgewiesen wird ('t Hart und Collier, 1979, S. 402). Dementsprechend wäre der IPO-Ansatz zu den Tonsequenz-Modellen zu zählen. Bei näherer Betrachtung beinhalten alle oben vorgestellten Intonationsmodelle mindestens eine nicht-lokale Komponente. Wie im vorherigen Abschnitt ausgeführt wurde, weist auch die wohl einflußreichste auf einem Tonsequenz-Ansatz basierende Intonationsbeschreibung von Pierrehumbert (1980) durchaus hierarchische Elemente auf.
63
H H H L H When Harry arrived at the airport, he was arrested immediately.
Bild 3.12 Die idealisierte Intonationskontur eines Satzes wird durch die Tonsequenz, die sprecherspezifische Basislinie (FOmin) und das Register determiniert. Das Register wird durch metrische Regeln gesteuert, seine obere und untere Grenze entspricht dem lokalen Standardwert der Hoch- und Tieftöne (H, L) (aus Ladd, 1989, S. 40).
Explizit filr die Integration hierarchischer Elemente in eine tonsequentielle Intonationstheorie votiert Ladd (1989). In seinem Modell, das Einflüsse der Ansätze Pierrehumberts, Gärdings und Fujisalds in sich vereinigt, führt er als neues Element das Register ein, dessen obere und untere Grenzen mit den lokalen Standardwerten der Hoch- und Tieftöne zusammenfallen und das jeweils für eine Phrase konstant bleibt (Bild 3.12). Das Register ist orthogonal zu denjenigen phonologischen Kontrasten, die in der Tonsequenz repräsentiert sind, also auch zu den downstep-Regeln. Das bereits in Ladd (1983b) eingeführte Konzept des downstep als phonologisches Merkmal birgt ein inhärentes Problem, denn potentiell können damit auch nicht-auftretende, ja sogar unsinnige Akzentfolgen repräsentiert werden. Eine Lösung dieses Problems liegt in Ladds (1989) Vorschlag, downslep phonologisch als eine metrische Beziehung zwischen intonatorischen Konstituenten zu betrachten. Aufgrund von Regeln der metrischen Phonologie werden sinnlose Tonsequenzen verhindert. Zugleich ist downstep weiterhin außerhalb der tonalen Kontraste angesiedelt. Ladd läßt allerdings offen, ob die Deklination nicht teilweise auch auf physiologische oder andere nicht-phonologische Prozesse zurückgeführt werden kann. Dieser Anteil könnte durch ein allmähliches Absinken der sprecherspezifischen F0-Basislinie nachgebildet werden (1989, Anmerkung 1). In den Tonsequenz-Modellen dienen die downstep-Regeln zur Beschreibung der F0Deklination. Das im Verlauf der Äußerung zu beobachtende globale Absinken der Intonationskontur wird hier als Resultat wiederholter Herabstufung lokaler F0-Gipfel nachgebildet. Dagegen repräsentieren die nach dem Superpositionsprinzip funktionierenden Intonationsmodelle die Deklination direkt als eine globale Komponente des zu
64
generierenden F0-Verlaufs, entweder als je nach Satzmodus mehr oder weniger stark absinkende Verbindungslinie der lokalen F0-Minima (Thorsen, 1988a), als global zum Äußerungsende hin fallendes tonales Gitter (Gärding, 1983) oder als Phrasenkomponente, die zugleich als Basislinie dient (Fujisaki, 1983; sowie besonders Abschnitt 4.3.2 der vorliegenden Arbeit). Die autosegmentalen Theorien tragen der Unabhängigkeit der verschiedenen suprasegmentalen Beschreibungsebenen und ihres jeweiligen Einflusses auf die Intonationskontur durch eine entsprechende phonologische Repräsentation Rechnung. Edwards und Beckman (1988) sehen das erfolgversprechendste Prinzip von Intonationsmodellen dementsprechend darin, daß die Einflüsse auf jeder einzelnen Ebene bestimmt und die wechselseitigen Beziehungen untersucht werden können. Auch das auf der Intonationsbeschreibung Pierrehumberts beruhende Modell von Anderson et al. (1984) zur FQSynthese funktioniert auf diese Weise. Obwohl es von Edwards und Beckman (1988) sicher nicht intendiert ist, so reden sie damit doch zugleich einem hierarchischen Zugang und den superponierenden Intonationsmodellen das Wort. Der konzeptuelle Graben zwischen den verschiedenen Intonationstheorien scheint also nicht gar so tief, zumindest aber nicht unüberbrückbar zu sein.
3.2.4 Entscheidung für das Superpositionsprinzip und das Fujisaki-Modell Entscheidung für das Superpositionsprinzip. Es wurde bereits in der Einleitung zu dieser Arbeit darauf hingewiesen, daß die Entscheidung für ein bestimmtes Konzept bei der Beschreibung und Analyse der Intonation wesentlich vom Ziel der Untersuchung und vom Forschungsstand abhängt. Vor dem Hintergrund der angefühlten neueren Untersuchungen, die nicht-lokale Abhängigkeiten der Intonation nachweisen, scheinen diejenigen Modelle den geeigneteren Zugang zur Intonationsanalyse zu bieten, die neben lokalen Elementen auch globale Komponenten auf Satz- oder Phrasenebene enthalten. Es spricht einige Evidenz dafür, daß der globale Anteil der Intonation vom Sprecher unter Bedingungen der Vorausplanung und Vorausschau produziert wird (Thorsen, 1985 und 1989), und zwar nicht nur hinsichtlich des äußerungsinitialen F0-Wertes, der auch in Pierrehumberts (1980) Tonsequenz-Ansatz voreingestellt werden muß, sondern auch bezüglich der Phrasierung und der Intervalle zwischen betonten Silben. Hierarchisch aufgebaute Modelle, die eine unmittelbare Repräsentation der Satz- und Phrasenkomponente enthalten, eröffnen außerdem die Möglichkeit, der Intonationskontur Informationen über die syntaktische Struktur der Äußerung und über den Satzmodus zu entnehmen. Im übrigen sprechen auch Ergebnisse der psycholinguistischen Sprechfehlerforschung für die Annahme, daß der Sprecher bestimmte prosodische Elemente einer
65
Äußerung vorausplant. So berichtet Zimmer (1988), daß der globale Verlauf der Satzintonation erhalten bleibt, wenn Wörter innerhalb des Satzes infolge eines Sprechfehlers vertauscht werden. Dagegen nimmt das vertauschte Wort seine eigene Akzentuierung mit. Dies deutet darauf hin, daß die Satzintonation in einem früheren Stadium der Äußerungsplanung festgelegt wird als die FQ-Muster von Wortakzenten. Wie im vorherigen Abschnitt ausgeführt, besteht unter den Vertretern verschiedener Intonationsmodelle weitgehend Einigkeit darüber, daß der FQ- Verlauf einer Äußerung als das komplexe Resultat des Zusammenwirkens einer ganzen Reihe von Faktoren aufzufassen ist, von denen einige artikulatorisch und segmentell bedingt, andere jedoch linguistischen Kategorien zuzuordnen sind. Um herauszufinden, unter welchen Voraussetzungen und in welchem Ausmaß die linguistischen Faktoren den FQ- Verlauf beeinflussen, sollte eine analytische Trennung der einzelnen Einflußgrößen angestrebt werden. Besonders geeignet für eine solche quantitative Untersuchung ist ein superponierendes Modell, dessen Ausgangssignal, der vom Modell erzeugte F0-Verlauf, aus der additiven Überlagerung von untereinander unabhängigen Komponenten resultiert, die wiederum auf eine bestimmte segmenteile oder linguistische Einflußgröße bezogen werden können. Auf diese Weise lassen sich die Faktoren, die zur Variabilität des F0Verlaufs beitragen, einzeln untersuchen, und der Zeitverlauf jeder einzelnen Komponente kann getrennt berechnet werden. Diese Methode befürwortet auch Fujimura (1987), der sich allerdings generell auf die Analyse des komplexen Prozesses der Sprachproduktion bezieht, wenn er die Vorteile eines superponierenden Systems herausstreicht: "[...] different factors can be easily separated out by controlling contributing factors one by one. In a formidably complex process such as speech production, this is perhaps the only practical initial approach, until we have some comprehensive view of the entire system with respect to interrelations among specific parts of the system." (Fujimura, 1987, S. 18)
Motivation für die Wahl des Fujisaki-Modells. Prinzipiell eignen sich also hierarchisch aufgebaute Intonationsmodelle, wie sie in Abschnitt 3.2.3 beschrieben wurden, besonders gut zur Analyse komplexer Intonationskonturen. Das Superpositionsprinzip im streng mathematischen Sinn wird allerdings allein in den Arbeiten Fujisakis und seiner Mitarbeiter (z.B. Fujisaki et al., 1979; Fujisaki, 1983 und 1988) ausgenutzt. Das von Fujisaki vorgelegte Intonationsmodell vereint mehrere Vorteile in sich. Da es nach dem Superpositionsprinzip funktioniert (siehe Abschnitt 4.1), läßt sich der jeweilige Einfluß einzelner Faktoren getrennt für einen bestimmten zeitlichen Abschnitt oder auch für eine linguistisch oder prosodisch definierte Einheit (Akzentgruppe, Phrase; siehe auch Abschnitte 2.3, 2.4 und 4.3) bestimmen. Für jeden
66
gewünschten Zeitpunkt im Verlauf einer Äußerung kann der resultierende FQ-Wert berechnet werden. Die Werte der Modellparameter bleiben jeweils für einen längeren Zeitabschnitt, nämlich mindestens für die Dauer eines Akzentkommandos, konstant, was sich etwa bei Anwendungen in der Sprachsynthese als erhebliche Datenreduktion positiv niederschlägt. Durch die Superposition der Parameter wird ein abschnittsweise glatter Verlauf erzeugt, wodurch sich das Modell gut zur Nachbildung eines natürlich produzierten F0-Verlaufs eignet und quantitative Untersuchungen erleichtert. Von einem adäquaten Modell wird erwartet, daß es sowohl prädizierende als auch erklärende Kraft hat (Cooper, 1983). Prädiktion soll hier bedeuten, daß das Modell so präzise und quantitativ wie nur möglich, im Idealfall also mathematisch formuliert ist, was auf das Fujisaki-Modell zutrifft. Alle Wirkungen können eindeutig durch ihre Ursachen beschrieben werden. Erklärungen liefert ein Modell insofern, als es ein komplexes System so analysiert, daß das Zusammenwirken einzelner Komponenten erkennbar wird. Auch dieses leistet das Modell, wobei zunächst allerdings noch nichts darüber ausgesagt ist, wann und warum sich eine bestimmte Komponente in der beobachteten Weise verhält. Dies wird in der vorliegenden Arbeit vor allem durch Bezug auf linguistische Einheiten angestrebt. Ein weiterer Erklärungsansatz findet sich in der möglichen physiologischen Fundierung, die Fujisaki (1983; 1988) diskutiert. Das Fujisaki-Modell ist das einzige Intonationsmodell, in das eine quantitative Simulation des F0-Steuerungsmechanismus explizit eingeht; dieser Zugang ist bereits in der Arbeit von Öhman und Lindqvist (1966) angelegt. Im folgenden Kapitel werden Aufbau und Wirkungsweise des Fujisaki-Modells sowie Ansätze einer physiologischen Fundierung dargestellt. Anschließend wird eine linguistische Interpretation des Modells in seiner Anwendung auf die Intonation des Deutschen vorgeschlagen.
4 Das Fujisaki-Modell In diesem Kapitel soll das von Fujisaki und Mitarbeitern entwickelte Intonationsmodell dargestellt werden (Abschnitt 4.1). Besprochen werden auch die Ansätze einer physiologischen Fundierung des Modells (Abschnitt 4.2), die sich an der Aktivität und dem Zusammenwirken der Kehlkopfmuskeln bei der Sprachproduktion orientiert. Die in Abschnitt 4.3 vorgeschlagene linguistische Interpretation des Intonationsmodells und seiner Komponenten unterscheidet sich in wesentlichen Punkten von den für das Japanische zutreffenden linguistischen Vorgaben. Dies ist nur teilweise in den sprachspezifischen strukturellen Unterschieden zwischen dem Japanischen und dem Deutschen begründet. Vielmehr fließen die in Kapitel 2 diskutierten sprachwissenschaftlichen Konzepte der Akzentgruppe, der Deklination, der intonatorischen Phrasierung und des Satzmodus in die linguistische Modellinterpretation ein, die insofern deutlich über die Darstellung in den Originalarbeiten hinausgeht. Das hier vorgelegte Beschreibungssystem strukturiert den FQ-Verlauf einer Äußerung in intonatorische Einheiten, die wiederum auf linguistische Kategorien bezogen werden können. Die linguistische Interpretation des Modells setzt Rahmenbedingungen für die Bestimmung der Modellparameter (Kapitel 6) und bildet die Grundlage für ihre Standardisierung (Kapitel 7 und 8) und die regelgeleitete Generierung von Intonationskonturen (Kapitel 9). Am Ende des Kapitels (Abschnitt 4.4) werden schließlich einige Anwendungen des Fujisaki-Modells in anderen Sprachen als dem Japanischen besprochen.
4.1 Darstellung des Modells Das hierarchisch strukturierte Intonationsmodell von Fujisaki und Mitarbeitern basiert auf innovativen Arbeiten von öhman und Lindqvist (1966) und vor allem öhman (1967). Die erste vollständig entwickelte Version des Modells (Fujisaki et al., 1979) wurde später hinsichtlich der Steuerparameter modifiziert (Fujisaki, 1988)1. Bereits in einer Vorläuferversion hatten Fujisaki und Nagashima (1969) zeigen können, daß sich Intonationskonturen natürlichsprachlicher japanischer Äußerungen mit dem
In den Modellversionen bis Fujisaki (1983) wurde von voicing commands bzw. utterance commands gesprochen, die als Rechteckimpulse realisiert wurden. Die impulsförmigen phrase commands wurden später eingeführt und explizit in Fujisaki (1988) beschrieben.
68 Modell recht getreu nachbilden lassen. Die Möglichkeit, das Verfahren auch auf andere Sprachen anzuwenden, zeigten Fujisaki et al. (1979) am Beispiel des Englischen. Antoniadis (1984) führte erste Untersuchungen für das Deutsche mit einer allerdings erheblich modifizierten Version durch (siehe Abschnitt 4.4.2). Die folgende Darstellung des Intonationsmodells bezieht sich auf die Version in Fujisaki (1988). Das Modell wird als lineares System realisiert. Lineare Systeme im nachrichtenchnischen Sinn sind durch die Gültigkeit des Superpositionsprinzips gekennzeichnet. Dies bedeutet, daß das Ausgangsverhalten des Systems als Reaktion auf die Summe von zwei Eingangssignalen aus der Summe der Systemreaktionen auf jedes einzelne der beiden Eingangssignale vorhergesagt werden kann. Wenn also die Systemantwort auf jedes der beiden Eingangssignale bekannt ist, dann ist die Systemantwort auf die Summe der beiden Eingangssignale direkt als Summe der beiden einzelnen Systemantworten gegeben. Es handelt sich hier also um eine additive Verknüpfung von Teilkomponenten eines Systems.2
Ap
Gp(t)
T02
TOI
PHRASENSTEUERMECHANISMUS
nun
Aa
Ga(t)
T22
AKZENTSTEUERMECHANISMUS
PHRASENKOMPONENTE
GRUNDFREQUENZ
AKZENTKOMPONENTE
Bild 4.1 Schaltbild des Intonationsmodells (nach Fujisaki, 1988, S. 349). Das Intonationsmodell von Fujisaki, dessen Funktionsweise in Bild 4.1 dargestellt ist, entspricht dieser Charakterisierung linearer Systeme. Es enthält eine Phrasen- und eine Akzentkomponente, die von Mechanismen zur Steuerung der Phrasierung und der einzelnen Wortakzente im Verlauf der Äußerung erzeugt werden. Am Eingang dieser Mechanismen liegen Phrasierungskommandos als Impulsfunktionen und Akzentkom-
Eine ausführlichere Darstellung der Kriterien für lineare Systeme sowie deren Relevanz für die Sprachsignalverarbeitung und für Anwendungen in der Sprachforschung findet sich bei Rosen und Howell (1991, insbesondere Kap. 4).
69
mandos als Rechteckfunktionen an. Die Ausgangssignale der phrasen- und akzentsteuernden Mechanismen werden zu dem Basiswert Fmin addiert. Das Verhalten des Modells läßt sich folgendermaßen ausdrücken (nach Fujisaki, 1988, S. 348):
lnF0(t) =lnF min + £ Api -G p l (t - Toi) + i=1
(4.1)
Aaj-[Gaj(t-T,p-Gaj(t-T2j)] j-i
ttit)
0
für t > 0 für t < 0
und
für t>0 für t s O FmiQ I J G j(t) a, A j TQJ Ga:(t) jöj Aaj TJJ 2:
= asymptotischer Basiswert = Anzahl der Phrasenkommandos = Anzahl der Akzentkommandos = i-ter Phrasensteuerungsmechanismus = Dämpfungsfaktor von G j(t) = Amplitude des i-ten Phrasenkommandos = Zeitpunkt des i-ten Phrasenkommandos3 = j-ter Akzentsteuerungsmechanismus = Dämpfungsfaktor von Gaj(t) = Amplitude des j-ten Akzentkommandos = Zeitpunkt des Beginns des j-ten Akzentkommandos = Zeitpunkt des Endes des j-ten Akzentkommandos
Der aus Formel (4.1) resultierende Verlauf lnF0(t), mit dem natürlichsprachliche FQKonturen modelliert werden, setzt sich also additiv aus dem Basiswert Fmin und aus den Verläufen der Phrasen- und der Akzentkomponente des Modells zusammen, die ihrerseits von Steuerparametern generiert werden. Die Steuerparameter des Modells sind: der asymptotische Basiswert ^n,^, der über die gesamte Äußerung hinweg Der Modellparameter T0 sollte nicht mit dem gebräuchlichen Symbol für die Grundperiode verwechselt werden.
70 konstant ist; die Zeitpunkte TQi sowie die Amplituden A · der Phrasenkommandos; die Dämpfungsfaktoren oCj der Phrasensteuermechanismen; weiterhin die Anschaltzeitpunkte 7'jj und die Abschaltzeitpunkte T2j sowie die Amplituden A a j der Akzentkommandos; und schließlich die DämpfungsfaktorenjS: der Akzentsteuermechanismen. Die Steuerparameter der Modellkomponenten bleiben jeweils für einen definierten Zeitraum konstant: die Parameter der Phrasenkomponente genau für die Dauer einer intonatorischen Phrase, die Parameter der Akzentkomponente für die Dauer einer Akzentgruppe. Ein solcher Parametersatz, der einen Abschnitt des aus Formel (4.1) resultierenden Verlaufs lnF0(t) erzeugt, wird in der vorliegenden Arbeit als Parameterkonfiguration bezeichnet. Die komplexe Intonationskontur einer Äußerung kann mit dem Modell durch optimale Einstellung der Steuerparameter sehr genau nachgebildet werden (Bild 4.2). Dies geschieht durch ein Analyse-Resynthese-Verfahren, das durch sukzessive Optimierung der Modellparameter den vorgegebenen F0-Verlauf approximiert. Die Parameteranpassung kann dabei prinzipiell manuell oder automatisch vorgenommen werden. Mit dieser Methode wird der F0-Verlauf analytisch in die Komponenten des Modells zerlegt. Die erhaltenen Parameterkonfigurationen generieren über Formel (4.1) Verlaufsabschnitte. Konkateniert ergeben diese eine künstliche Intonationskontur, die sich resynthetisieren und mit dem natürlichen F0-Verlauf der betreffenden Äußerung vergleichen läßt. Die errechneten Parameterkonfigurationen können ihrerseits in Hinblick auf intonatorische Einheiten und linguistische Kategorien interpretiert werden. Somit gelangt man zu einer parametrischen Modellierung natürlichsprachlicher FQ- Verläufe.
380t FolH*l 300 220
Bild 4 2
/\
/
' Nacnbildung (gestrichelt) des F0-Verlaufs der Äußerung MK0101 "Heute ist
- -*-*·*-
\ ,' ^"'
S \ ·—
schönes Frühlingswetter" durch optimale Einstellung der Modellparameter.
-^.
140 100 60
hov t
stf 0:ne s f Ry:h
s VE t B t [s]
0.5
1.0
1.5
Logarithmische Skala. Das vom Hörer wahrgenommene Intervall zwischen zwei Tonhöhen hängt nicht vom absoluten Frequenzunterschied ab, sondern vom Verhältnis der
71
beiden Frequenzwerte. Eine FQ-Bewegung von 100 Hz nach 200 Hz interpretiert der Hörer als das gleiche Intervall wie beispielsweise bei einer F0-Bewegung von 180 Hz nach 360 Hz. In beiden Fällen entspricht das Intervall einer Oktave oder 12 Halbtönen. Durch die logarithmische Skalierung der Grundfrequenz läßt sich ein bestimmtes Frequenzverhältnis unabhängig von den absoluten Werten in Hz graphisch durch den gleichen Abstand darstellen. Damit wird ein direkter Vergleich zwischen männlichen und weiblichen Stimmen möglich. F0-Konturen eines Satzes, realisiert von Sprechern und Sprecherinnen unterschiedlicher Stimmlage, sind einander ähnlich, wenn sie auf einer logarithmischen Skala aufgetragen werden (siehe auch Fujisaki et al., 1979).4 Daher wird in der vorliegenden Arbeit zur Skalierung der Grundfrequenz in den Abbildungen der natürliche Logarithmus verwendet, zumal er der Modellformel (4.1) zugrundeliegt und auch in der folgenden physiologischen Interpretation des Modells eine Rolle spielt.
4.2 Physiologische Interpretation "[...] the relevant pitch movements are related to corresponding activities on the part of the speaker. These are assumed to be characterized by discrete commands to the laryngeal musculature, and should be recoverable as so many discrete events in the resulting pitch contours." ('t Hart, 1984, S. 195) Die mathematische Formulierung des Intonationsmodells wurde vorrangig im Zuge der Approximation einer künstlichen Kontur an die charakteristischen Merkmale beobachteter FQ-Verläufe entwickelt, doch strebt Fujisaki in einigen Publikationen (besonders Fujisaki, 1983 und 1988) auch eine Fundierung auf der Grundlage der physischen und physiologischen Eigenschaften der laryngalen Strukturen an. Ausgangspunkt ist die Überlegung, daß "[...] the FO contour reflects the dynamic characteristics of the control mechanism of phonation, which is a physical system consisting of elements with finite mechanical constants" (Fujisaki und Hirose, 1982, S. 58) Dieser Ansatz, den bereits Öhman und Lindqvist (1966) angeregt hatten, soll im folgenden Abschnitt unter Berücksichtigung weiterer Ergebnisse aus Untersuchungen
Abweichend von anderen Ergebnissen aus der Literatur (z.B. Zwicker und Terhardt, 1980; Traunmüller, 1990) zeigen Hermes und van Gestel (1991) allerdings, daß weder eine lineare noch eine loganthmische Frequenzskala die Wahrnehmung von intonatorisch relevanten F0-Bewegungen optimal abbildet. Am geeignetsten sei eine dazwischenliegende psychoakustische Skala, die der Frequenzauflösung des auditorischen Systems entspricht.
72 zur Produktion von FO-Verläufen diskutiert werden. Angestrebt ist eine physiologische Interpretation der Komponenten und Steuerparameter des Intonationsmodells. Physiolo&sche Faktoren. Bei der Sprachproduktion steuert der Sprecher die Grundfrequenz aktiv über das laryngale und das respiratorische System. Die Stimmlippen schwingen infolge aerodynamischer, muskulärer und elastischer Kräfte im Larynx (Kehlkopf), ein komplexer Vorgang, der durch die "myoelastisch-aerodynamische Theorie der Stimmerzeugung" (Van den Berg, 1958) erklärt wird. Die Frequenz der Stimmlippenschwingung, deren akustisches Korrelat die Grundfrequenz des Sprachsignals ist, hängt von mehreren Faktoren ab, deren wichtigste die Länge der Stimmlippen, ihre muskuläre Spannung und der subglottale Luftdruck (Ps) sind. Die laryngalen Strukturen ändern sich infolge der Aktivität einer Reihe von extrinsischen und intrinsischen Kehlkopfmuskeln. In Abhängigkeit von diesen Muskelaktivitäten variieren Länge und Spannung der Stimmlippen und damit auch ihre effektive Masse und Steifheit. Bild 4.3 illustriert die Wirkungsweise der für die Sprachproduktion wichtigsten Kehlkopfmuskeln.5
M. cricothyroideus (1)
M. thyroarytaenoideus mit M. vocalis (2)
M. cricoarytaenoideus lateralis (3) M. cricoarytaenoideus posterior (4) M. interarytaenoideus (transversus) (5) Bild 4,3 Wirkungsweise der an der Sprachproduktion beteiligten Kehlkopftnuskeln: (1) CT spannt die Stimmlippen, (2) TA und VOC sind Spannmuskeln in der Stimmlippe, (3) LCA schließt und (4) PCA öffnet die Glottis, (5) AT schließt die Stimmritze (aus Habermann, 1986, S. 39).
Für eine detaillierte Darstellung des Aufbaus und der Funktion des Larynx sei auf einschlägige Handbücher (z.B. Hardcastle, 1976; Habermann, 1986) verwiesen.
73 Vor der Diskussion der Forschungsergebnisse zu den verschiedenen physiologischen Faktoren, die die Sprachgrundfrequenz beeinflussen, und der daraus ableitbaren Implikationen für das Intonationsmodell sollen hier kurz die wichtigsten Korrelationen zwischen physiologischen Bedingungen und resultierenden F0-Werten aufgeführt werden. Der momentane F0-Wert (in Hz) steht in einem umgekehrt proportionalen Verhältnis zur Stimmlippen/cZnge: Je länger die Stimmlippen, desto niedriger die Grundfrequenz. Der Zusammenhang zwischen einer bestimmten quantitativen Änderung der Stimmlippenlänge und dem Umfang der resultierenden F0-Ändemng ist linear. Die Änderung der Summlippenspannung bewirkt eine proportionale F0-Änderung (Jafari et al., 1989), genauer: des Logarithmus der Grundfrequenz (Fujisaki, 1988). Die angeführten laryngalen Faktoren interagieren mit dem Einfluß des respiratorischen Systems. Die Variation des subglottalen Luftdrucks bewirkt ebenfalls eine proportionale F0Änderung (Atkinson, 1978). Durch Messungen der elektromyographischen (EMG-) Aktivität der Larynxmuskeln während der Produktion verschiedener Intonationsmuster zeigt Collier (1975), daß in erster Linie die Aktivität des Cricothyroid (CT, siehe Bild 4.3), eines intrinsischen Larynxmuskels, für die Richtung, den Umfang und die Schnelligkeit von FQ-Bewegungen verantwortlich ist. Bei einem starken Fall auf der äußerungsfinalen Silbe trägt auch der subglottale Luftdruck (Ps) erheblich bei. Den weitaus größten Einfluß übt Ps auf die Deklination aus, an der der CT keinen Anteil hat. Ps ist nach den Experimenten Colliers (1975; 1987) der einzige und zugleich hinreichende physiologische Faktor bei der Sprachproduktion, der als Ursache für das allmähliche Absinken des F0-Verlaufs gelten kann. Eine Einschränkung bezüglich der Generalisierbarkeit dieses Ergebnisses ist darin zu sehen, daß nur eine Versuchsperson (nämlich der Autor selbst) zur Verfügung stand. Obwohl der gleiche Einwand auch die Untersuchung Atkinsons (1978) betrifft, sind seine Ergebnisse höchst aufschlußreich. Atkinson entwickelt eine Methode zur quantitativen Messung der Korrelation zwischen den physiologischen Faktoren, die zur FQSteuerung beitragen können, nämlich der Aktivität der Larynxmuskeln und /^-Schwankungen, und der Frequenz der Stimmlippenschwingungen. Als statistisches Verfahren verwendet er die Korrelationsanalyse. Die Ergebnisse legen die Annahme eines kategorialen Unterschiedes in der F0-Steuerung in Abhängigkeit von der jeweiligen relativen Stimmlage des Sprechers nahe ("hoher vs. tiefer laryngaler Status"). Bei niedrigen F0-Werten innerhalb des Brustregisters des betreffenden Sprechers scheint Ps der dominierende physiologische Faktor zu sein, während dies bei hohen FQ-Werten die laryngale Muskelspannung ist. Die höchste und konsistenteste Korrelation mit F0 zeigt in Atkinsons Studie die EMG-Aktivität des CT, der offenbar gleichermaßen für steigende wie für fallende FQBewegungen verantwortlich ist. Während der CT jedoch bei hohen F0-Werten der ein-
74 deutig wichtigste Faktor ist und dabei durch die Aktivität des LCA-Muskels (siehe Bild 4.3) unterstützt wird, spielen bei mittleren und niedrigen F0-Werten andere Faktoren die Hauptrolle. In mittlerer Stimmlage ist der Sternohyoid (SH), ein extrinsischer Larynxmuskel, der wichtigste Faktor, der nach Atkinsons Auffassung den Übergang zwischen dem hohen und dem tiefen Status des Larynx steuert. PS weist die weitaus höchste Korrelation im niedrigen F0-Bereich auf und ist ansonsten nicht signifikant. Atkinson beschränkt sich in seiner Untersuchung aber nicht auf singuläre F0- Werte, sondern interpretiert die Daten unter linguistischen Aspekten. Hier liegt auch die Relevanz der Resultate für die Intonationsforschung. Das Sprachdatenmaterial besteht aus kurzen Äußerungen ("Bev loves Bob") mit variierendem Fokus, alternativ als Aussage oder als Frage realisiert. Die Aussagesätze weisen eine allmählich fallende Intonationskontur auf, während sich die Fragesätze durch eine steil ansteigende Kontur auszeichnen. Auch hier ist ein kategorialer Unterschied in der F0-Steuerung durch die einzelnen physiologischen Faktoren festzustellen. In Fragesätzen gibt es keinen signifikanten Zusammenhang zwischen F0 und Ps, so daß die intrinsischen Larynxmuskeln, vor allem CT und konkomitant auch LCA und VOC (siehe Bild 4.3), die Grundfrequenz steuern. Dagegen zeigt sich in Aussagesätzen die weitaus höchste Korrelation zwischen F0 und Ps. Die Aufschlüsselung der Sprachdaten nach steigenden vs. fallenden F0-Bewegungen, was in Atkinsons Studie einer Kategorisierung nach den Satzmodi Frage- vs. Aussagesatz gleichkommt, erhöht in jedem Fall die Korrelation zwischen den physiologischen Faktoren und F0. Implikationen für das Intonationsmodell. Aufgrund dieser Ergebnisse, die sich im wesentlichen mit denen Colliers (1975; 1987) decken, stellt Atkinson die Hypothese auf, daß "[...] the F0 contour for an utterance is pre-programmed as a holistic event in terms of a larger linguistic unit, such as the breath group." (Atkinson, 1978, S. 220) Wie in den Untersuchungen Colliers (1975; 1987) liegen in Atkinsons Ergebnissen Evidenzen für eine Trennung verschiedener Komponenten der F0-Kontur auf physiologischer Grundlage vor. Die Trennung in eine Phrasen- und eine Akzentkomponente, wie sie dem Intonationsmodell Fujisakis zugrundeliegt, ließe sich damit begründen, daß die allmählich absinkende F0-Kontur der Phrasenkomponente durch den im Verlauf der Äußerung fallenden subglottalen Luftdruck bewirkt wird, während die rascheren steigenden und fallenden F0-Bewegungen in erster Linie durch den CT gesteuert werden (Collier, 1987). Dabei spielt es zunächst keine Rolle, ob P& ein vom Sprecher aktiv kontrollierter Faktor ist, wie es Geifer et al. (1987) interpretieren, oder eine passive Konsequenz des Ausatmens während der Sprachproduktion.
75
vcc
VOC : VOCALIS CT : CRICOTHYROID
TK : THYROID A : ARYTENOID
c :CRICOID
Bild 4.4 Schematisierte Darstellung der wichtigsten laryngalen Strukturen. Durch Kontraktion des CT wird TH nach vorne und unten gekippt, wodurch die Spannung der Stimmlippen (parallel zu VOC) erhöht wird (nach Fujisaki, 1983, S. 54).
Fujisaki (1988) schlägt eine andere physiologische Begründung für die Phrasen- und Akzentkomponente vor. Auch er nutzt Informationen über die EMG-Aktivität der Larynxmuskeln und weist auf die wichtige Rolle hin, die der CT bei der F0-Steuerung spielt. Infolge der Aktivität des CT wird der Thyroid-Knorpel (TH) nach vome und unten gekippt, was eine Dehnung der Stimmlippen zu Folge hat (Bild 4.4). Fujisaki interpretiert die durch diese Bewegung des Thyroid (Rotation) entstehenden FQ-Bewegungen in einem Zusammenhang mit der Akzentkomponente seines Intonationsmodells. Um auch die Phrasenkomponente erklären zu können, müßten sich zwei Bewegungsarten nachweisen lassen, die unabhängig voneinander und gemäß zwei unterschiedlichen Freiheitsgraden ablaufen und jeweils die Stimmlippenspannung beeinflussen. Dieser gesuchte zweite Mechanismus könnte, so Fujisakis Hypothese, die mit Hilfe der Radiographie beobachtete Vorwärts/Rückwärts-Translation des Thyroids sein, die ebenfalls durch die Aktivität des CT hervorgerufen wird. Die beiden Bewegungsrichtungen des Thyroid-Knorpels, Rotation und Translation, wirken sich additiv auf die Stimmlippenspannung aus (Bild 4.5). Wie Fujisaki weiter ausführt, könnte die muskuläre Reaktionszeit für Rotation und Translation unterschiedlich sein. Es erscheint ihm einleuchtend, die Thyroidrotation mit der Akzentkomponente und die Thyroidtranslation mit der Phrasenkomponente in Verbindung zu bringen, auch wenn das berechnete Verhältnis der beiden natürlichen Winkelfrequenzen ungefähr bei 1:3 liegt, während das Verhältnis der Dämpfungsfaktoren der phrasen- und akzentsteuernden Mechanismen im Intonationsmodell etwa 1:7 beträgt. Ob daher das beobachtete Verhältnis der beiden Modellkomponenten völlig mit dem beschriebenen Mechanismus erklärt werden kann, mußte noch weiter untersucht werden (vgl. aber Abschnitt 6.3.2).
76
b) ROTATION OF THYROID BY PARS RECTA OF THE CRICOTHYROID HUSCLE
TRANSLATION OF THYROID „1Y PAIS OBLIQUA OF THE CRICOTHYROID
MUSCLE
Bild 45 Zwei Bewegungen des Thyroid-Knorpels infolge der Aktivität des CT: a) durch pars recta des CT bewirktes Kippen nach unten (Rotation), b) durch pars obliqua bewirkte Vorwärts-Translation (nach Fujisaki, 1988, S. 352).
Kakita und Hiki (1976), die ebenfalls den Zusammenhang zwischen F0-Bewegungen und Larynx-Aktivitäten untersuchen, stützen die Annahme von zwei unterschiedlichen Bewegungsarten des CT durch experimentelle Befunde. Ihnen geht es vorrangig darum, den jeweiligen Beitrag der intrinsischen und extrinsischen laryngalen Muskeln bei F0-Änderungen und hierüber die physiologischen Korrelate der japanischen Wortakzente herauszufinden. Es zeigt sich, daß bei einem FQ-Anstieg auf einem Akzent die Aktivität des CT etwa 50 ms vor der Aktivität anderer beteiligter Muskeln beginnt, ein Ergebnis, das von Hirose und Sawashima (1981) zwar nicht quantitativ, aber von der Tendenz her bestätigt wird. Wie Fujisaki schließen auch Kakita und Hiki (1976) auf zwei unabhängige Bewegungsarten. Sie nehmen gleichfalls an, daß der CT nicht nur rotiert, an Stelle der Vorwärts/RUckwärts-Translation postulieren sie jedoch eine zusätzliche vertikale Bewegung, wobei sie sich auf ältere laryngoskopische Studien stutzen. Die Beobachtung, daß die Aktivität des CT im Vergleich zu anderen Larynxmuskeln früher einsetzt, wird durch die Untersuchung von Jafari et al. (1989) gestützt. Jafari et al. gehen außerdem davon aus, daß die Spannung und die effektive Masse der Stimmlippen ebenso wie die Dimensionen der glottalen Öffnung vor jeder hörbaren Äußerung voreingestellt werden, und zwar durch präphonatorische Abstimmungen der Aktivität der laryngalen Muskeln. Diskussion. Die in Abschnitt 3.2.4 erörterten Betrachtungen zum Aufbau des superponierenden Intonationsmodells von Fujisaki, die eher theoretischen Charakter besitzen, werden zumindest teilweise durch physiologische Daten gestützt. Damit liegt eine Basis für die Interpretation der beobachtbaren dynamischen Eigenschaften natürlichsprachlicher Intonationskonturen in Form eines Modells der F0-Steuerung durch den Sprecher vor. Die eher langsame Variation der globalen FQ-Kontur, die durch die Phrasenkomponente des Intonationsmodells beschrieben wird, sowie die rascheren lokalen
77
F0-Bewegungen, die mit der Realisierung von Wortakzenten einhergehen und mit der Akzentkomponente des Modells nachgebildet werden können, lassen sich möglicherweise durch zwei voneinander unabhängige Bewegungsformen des CricothyroidMuskels erklären, die additiv die Spannung der Stimmlippen beeinflussen. Mit diesem Modell einer laryngalen Steuerung der Phrasen- und Akzentanteile am F0-Verlauf einer Äußerung gibt Fujisaki eine früher (Fujisaki und Sudo, 1972) formulierte Hypothese auf, nach der die Akzentkommandos muskulären und die Phrasenkommandos pneumatischen Charakter haben. Die diskutierten Ergebnisse Colliers (1975; 1987) und Atkinsons (1978) deuten aber daraufhin, daß das allmähliche Nachlassen des subglottalen Luftdrucks im Verlauf der Äußerung in hohem Maße für das Phänomen der Deklination verantwortlich ist, und daß der Sprecher möglicherweise aktiv ein schnelles Abfallen des subglottalen Drucks dazu einsetzen kann, in Verbindung mit der entsprechenden Aktivität laryngaler Muskeln, allerdings nicht des CT, einen äußerungsfinalen F0-Fall herbeizuführen. Die Ergebnisse der Untersuchung von Jafari et al. (1989), die auf eine präphonatorische Aktivität der Kehlkopfmuskeln schließen lassen, liefern im übrigen eine physiologische Motivation für die in der vorliegenden Arbeit verfolgte Strategie bei der Anpassung der Phrasenkomponente (siehe Abschnitt 6.2.2). Infolge der Interpretation des Phrasenverlaufs als Basislinie, deren Maximum zeitlich mit dem Beginn der Äußerung bzw. einer intonatorischen Phrase zusammenfällt, wird das Phrasenkommando bereits zu einem Zeitpunkt vor Beginn der Äußerung bzw. Phrase gegeben. Im folgenden Abschnitt soll eine linguistische Interpretation der Komponenten und Steuerparameter des Intonationsmodells vorgelegt werden.
4.3 Linguistische Interpretation In den meisten Publikationen Fujisakis und seiner Mitarbeiter beschränkt sich die Behandlung der möglichen linguistischen Implikationen des Intonationsmodells auf eher allgemein gehaltene Feststellungen dieser Art: "[...] if we plot the FO contour on a logarithmic scale of fundamental frequency versus time, it can always be approximated very closely by the sum of two types of components: (1) those usually accompanying prosodic words and representing the local rise and fall of FO due to lexical word accent and (2) those corresponding to larger syntactic units, such as phrases, clauses, and sentences, and representing the global rise and decay of the whole contour." (Fujisaki, 1988, S. 348) Das Verfahren besteht also darin, in einem ersten Schritt natürlichsprachlich produzierte FQ-Verläufe zu modellieren. Die Steuerparameter des verwendeten Modells lassen
78 so viele Freiheitsgrade zu, daß die aufsummierten Ausgangssignale der Modellkomponenten prinzipiell jeden beobachteten FQ- Verlauf sehr genau nachbilden können. Die Parameterwerte, die aus einer Vielzahl approximierter Konturen gewonnen wurden, werden dann im Nachhinein in Hinblick auf eine mögliche Korrelation mit linguistischen Einheiten oder Merkmalen betrachtet. Selbstverständlich stand bei der Entwicklung des Modells bereits die Idee Pate, daß eine Komponente die globalen und eine andere Komponente die lokalen Anteile eines gegebenen FQ- Verlaufs nachbilden soll. Den ersten Ansatz einer etwas ausführlicheren linguistischen Modellinterpretation findet man bei Fujisaki et al. (1990). Dort wird eine Zuordnung von prosodischen zu linguistischen Einheiten vorgeschlagen. Die hierarchische Anordnung von den kleineren zu den größeren Einheiten ist in Bild 4.6 dargestellt.
Bild 4.6 Hierarchische Anordnung syntaktischer und prosodischer Einheiten und ihre wechselseitigen Beziehungen. ICRLB steht für "immediate constituent with a recursively left-branching structure", also für eine bestimmte syntaktisch definierte Phrase (aus Fujisaki et al., 1990. S. 485)
SYNTACTIC UMTS
PROSODIC UNITS
SENTENCE
SPOKEN |SENTENCE l
CLAUSE
PROSOOIC CLAUSE
ICRLB
WORD MORPHEME
W
P
p°|°,?EC
PR
°|°°IC
MORPHEME
Ein prosodic word entspricht vom Umfang her etwa einer Akzentgruppe. Allerdings geht es hier weniger um die rhythmische und prosodische Abfolge von akzentuierten und nicht akzentuierten Silben. Prosodic words sind vielmehr syntaktisch organisierte Einheiten, die im Regelfall aus einem Inhaltswort, gefolgt von Funktionswörtern, bestehen. Sie enthalten jeweils einen einzigen Akzent, der sich intonatorisch durch eine größere lokale F0-Bewegung auszeichnet. Auf der Ebene der Phrasenkomponente setzen die Autoren die Einheit der prosodic phrase an, die ein oder mehrere prosodic words enthalten kann. Für jede prosodic phrase wird ein Phrasenkommando angenommen. Die Phrasenkomponente trägt hauptsächlich syntaktische Informationen. Eine Gruppe von prosodic phrases innerhalb von zwei Sprechpausen bildet eine prosodic clause. Die oberste prosodische Einheit, die im Umfang einer Äußerung entspricht, heißt spoken sentence. Weiterhin werden Hinweise auf Einflüsse des Diskurses, also der Textebene, auf die Intonationskontur einer Äußerung gegeben. Mit dieser Beschreibung ist die Strukturierung einer Äußerung in prosodische Einheiten, deren Beziehung zu syntaktischen Einheiten ebenfalls definiert werden kann,
79
möglich. Der konsequent erscheinende nächste Schritt, nämlich die Parameterextraktion an den linguistischen Kriterien auszurichten, wird aber von Fujisaki et al. (1990) nicht explizit vollzogen. Offenbar erfolgt die Nachbildung eines gegebenen FQ-Verlaufs nach wie vor allein entsprechend der Vorgabe einer optimalen Approximation. Dies erschwert die Interpretation der gewonnenen Parameterwerte erheblich. Wie in Abschnitt 4.3.3 noch zu zeigen sein wird, erfordert die optimale Nachbildung einer Intonationskontur häufig eine Anzahl von Akzentkommandos, die die Anzahl der Akzentgruppen einer Äußerung übersteigt. Es ist unklar, wie Fujisaki et al. (1990) in solchen Fällen die Modellparameter auf die feststehenden prosodischen und syntaktischen Einheiten abbilden können. In der vorliegenden Arbeit wird eine andere methodische Vorgehensweise vorgeschlagen. Um zu einer effektiven quantitativen Beschreibung der deutschen Intonation zu gelangen, wird der FQ- Verlauf zunächst in geeignete intonatorische Einheiten strukturiert, die ihrerseits zu linguistischen Kategorien in Beziehung gesetzt werden können. So weit entsprechen die Überlegungen noch der Darstellung bei Fujisaki et al. (1990). Die Nachbildung natürlicher Intonationskonturen und die automatische Gewinnung der Modellparameter soll nun aber nicht generell nach dem Kriterium einer bestmöglichen Approximation, sondern auf der Grundlage einer linguistischen und prosodischen Beschreibung durchgeführt werden. Dies hat zur Konsequenz, daß das in Kapitel 6 dargestellte Verfahren zur Bestimmung der Modellparameter linguistisch und perzeptiv motivierten Einschränkungen unterliegt. Die prinzipielle Eignung des Modells zur Nachbildung von Intonationskonturen deutscher Äußerungen wurde durch Möbius et al. (1990a,b) aufgezeigt. Zugleich wurde aber deutlich, daß die linguistischen Vorgaben, die für das Japanische durchaus zutreffen mögen, für die Analyse der deutschen Intonation nicht übernommen werden können. In den folgenden Abschnitten soll eine auf das Deutsche abgestimmte linguistische Interpretation der einzelnen Modellkomponenten vorgestellt werden.
4.3.1 Interpretation des Basiswertes Fmin Fujisaki gibt für den Basiswert Fmin die folgenden Definitionen: (la) "Fmin is the lowest frequency of the vocal chord vibration." (Fujisaki et al., 1979, S. 166) (Ib)"[...] Fmin is the lower limit of fundamental frequency below which vocal fold vibration cannot be sustained in the glottis of a speaker [...]" (Fujisaki, 1983, S. 41). (2) "Fmin = asymptotic value of fundamental frequency in the absence of accent components [...]" (Fujisaki, 1988, S. 348).
80
Faßt man (la) und (Ib) als bedeutungsgleiche Varianten auf, so bleiben doch zwei voneinander abweichende Definitionen stehen. Diese scheinen auf den ersten Bück den Modellparameter Fmin nur von verschiedenen Seiten her zu beschreiben, doch tatsächlich implizieren sie unterschiedliche Annahmen. Die erste Definition ist physiologisch-artikulatorisch orientiert; sie bezieht sich auf den Produzenten der Äußerung. Fmin ist somit sprecherspezifisch, aber insofern äußerungsunabhängig, als ein Sprecher die Anatomie seiner Sprechwerkzeuge, genauer: die seiner Stimmlippen, nicht von Äußerung zu Äußerung ändern kann. Die zweite Definition ist mathematisch-physikalisch orientiert; sie bezieht sich auf das Sprachsignal, auf den gemessenen FQ-Verlauf. Dies läßt die Möglichkeit offen, F^ als äußerungsabhängig zu betrachten, da der niedrigste Wert des Verlaufs sehr wohl von Äußerung zu Äußerung schwankt, so daß auch die Asymptote in ihrem Wert variiert. Die beiden Annahmen sind inkompatibel, da bei der Nachbildung einer Intonationskontur jeweils andere Parameterkonfigurationen resultieren würden. In der vorliegenden Arbeit wird die zweite Definition für Fmin verwendet. Damit wird der Basiswert als äußerungsabhängiger Modellparameter behandelt. Eine Betrachtung von Fmin als sprecherspezifische Größe wäre mit erheblichem meßtechnischen Aufwand verbunden, wobei zusätzlich geklärt werden müßte, inwieweit sich die "Tagesform" eines Sprechers auswirkt.
4.3.2 Interpretation der Phrasenkomponente Die Phrasenkomponente des Modells beschreibt die globalen, langsamen Änderungen der Intonationskontur einer Äußerung. Der Verlauf der Phrasenkomponente steigt innerhalb relativ kurzer Zeit an und fällt dann über den größeren Teil der Äußerung hinweg allmählich ab. Die Phrasenkomponente kann somit zur Beschreibung der Deklination verwendet werden. Der Verlauf der Phrasenkomponente, addiert zum Basiswert Fmin, wird in der vorliegenden Arbeit als Basislinie interpretiert, die als zuverlässigster Indikator für die Deklination gilt (Cohen et al., 1982; siehe auch Abschnitt 2.7). Fujisaki (1982) weist darauf hin, daß die Neigung der Deklination mit der Amplitude des Phrasenkommandos variiert, selbst wenn der Dämpfungsfaktor konstant gesetzt wird. Abgesehen von dem obligatorischen äußerungsinitialen Phrasenkommando setzt Fujisaki in seinen Publikationen zusätzliche Phrasenkommandos an, beispielsweise zwischen Subjekt- und Prädikatphrase. Die Anzahl der benötigten Phrasenkommandos wird dabei anhand des Kriteriums der optimalen Approximation bestimmt. Daher kann ein zweites Phrasenkommandos gegeben werden, selbst wenn die Äußerung ohne Atempause und ohne Markierung einer prosodischen Phrasengrenze realisiert wurde (Fujisaki et al., 1979).
81 220
Bild 4.7 Deklination in der e i n p h r a s i g e n Äußerung 0106 "Hans ißt so gerne Wurst", illustriert durch den Verlauf der Phrasenkompo-
F0[Hz]
,
1
J ^ """«.„^ ""·*-
60
h an s
\ ^s*\ *
x
st s o genre v u u s t t [s]
0.5
1.0
1.5
220t FnlHzl
^'^ ^ Auch in der zweiphrasigen Äußerung CR0302 "Was ich auch sagte, er glaubte es nicht" ist eine ausgeprägte Deklination in der gesamten Äußerung zu beobachten.
180
\ f
v l
""X, \
100
60
s
\ /
vasigauxsa: k t e
, '-^""""
eeglaupte
sni
t t [s]
0.5
1.0
1.5
2.0
2.5
Dieses Vorgehen ist für das Deutsche nicht angebracht, da eine deutliche Deklination über die gesamte Äußerung hinweg zu beobachten ist. Dieses Phänomen tritt am ausgeprägtesten bei einphrasigen Aussagesätzen auf, aber auch in mehrphrasigen Äußerungen (Bilder 4.7 und 4.8). Weitere Phrasenkommandos werden nur bei größeren syntaktischen Grenzen, etwa zwischen Haupt- und Nebensatz, benötigt und bewirken dann einen Neuansatz der Deklination (resetting) (Cohen et al., 1982; Geifer et al., 1987; siehe auch Abschnitt 2.4). Der starke F0-Abfall am Äußerungsende kann durch ein negatives Phrasenkommando nachgebildet werden (Hirose und Fujisaki, 1983). Terken (1989a) weist darauf hin, daß durch das final lowering auch die Wortakzente innerhalb eines Bereichs von rund 500 ms vor Äußerungsende beeinflußt werden. Die Akzentgipfel werden dann mit einem niedrigeren F0-Wert realisiert, als es aufgrund der Deklination allein zu erwarten wäre (siehe auch Abschnitt 2.7). Mit der Interpretation der Phrasenkomponente als Basislinie soll neben der Nachbildung der Deklination primär eine Beschreibung der intonatorischen Ausprägung der
82
linguistischen Kategorie Satzmodus ermöglicht werden. Inwieweit der Phrasenverlauf als Ganzes zur Unterscheidung der verschiedenen Satzmodi herangezogen werden kann oder ob eine lokale Markierung auf der Phrasenebene genügt, wird in Abschnitt 8.3 untersucht und in Kapitel 10 diskutiert.
4.3.3 Interpretation der Akzentkomponente Die Akzentkomponente beschreibt die lokalen, relativ raschen F0-Bewegungen. Diese sind der globalen Kontur der Phrasenkomponente überlagert und gehen mit der Realisierung von akzentuierten Silben einher. Um eine linguistische Interpretation der Konfigurationen der Akzentparameter zu ermöglichen, wird das in Abschnitt 2.3 eingeführte Akzentgruppen-Konzept angewendet, das sich sehr gut mit dem hierarchischen Aufbau des Fujisaki-Modells in Einklang bringen läßt. So wie sich die linguistische Kategorie Satzmodus in der Phrasenkomponente widerspiegelt, findet die linguistische Kategorie Wortakzent und die damit verbundene intonatorische Einheit Akzentgruppe ihre Entsprechung in der Position und Ausprägung der Akzentkommandos. Bezogen auf die linguistische Modellinterpretation bedeutet dies, daß für jede Akzentgruppe genau ein Kommando vorzusehen ist. Die Parameterkonfigurationen auf der Akzentebene des Modells können so als Ausprägungen des linguistischen Merkmals Wortakzent interpretiert werden. Die Anwendung des Akzentgruppen-Konzepts hat erhebliche Auswirkungen auf die Bestimmung der Modellparameter, wie an zwei Beispielen demonstriert werden soll. Grundsätzlich gelingt die Nachbildung einer Intonationskontur optimal, wenn für jede FQ-Bewegung, selbst wenn diese perzeptiv völlig unbedeutend ist, ein Kommando auf der Akzentebene vorgesehen wird. Dieses Vorgehen, das dem Kriterium der bestmöglichen Approximation entspricht, ist jedoch insofern "blind", als es keine linguistischen Vorgaben bei der Parameterextraktion berücksichtigt, was die Interpretation der Ergebnisse naturgemäß erschwert. Bild 4.9 zeigt die beste Approximation des F0-Verlaufs der Äußerung "Ein Bauer arbeitet auf seinem Acker". Die Nachbildung gelingt nahezu perfekt, indem für jede kleine /^-Bewegung ein eigenes "Akzent"-Kommando gegeben wird. Dazu werden insgesamt neun Kommandos benötigt. Wie die Abbildung bereits vermuten läßt, sind Original und Nachbildung perzeptiv identisch. Eine nahezu ebenso gute Nachbildung erhält man jedoch, wenn man nach dem Akzentgruppen-Konzept verfährt und nur für die akzentuierten Silben ein Akzentkommando setzt. Damit reduziert sich die Anzahl der benötigten Kommandos von neun auf vier (Bild 4.10). Auch hier können Original und Nachbildung auditiv nicht voneinander unterschieden werden.
83 Bild 4.9 Optimale Nachbildung des FQ-Verlauf s der Äußerung CR0124 "Ein Bauer arbeitet auf seinem Acker" ohne linguistische Vorgaben mit neun " Akzent" -Kommandos.
220
180 140 100
60
ain baue
aubai te taufsarem ake t (s)
0.5
2201
1.0
1.5
2.0
Bild 4.10 Nachbildung des F0Verlaufs der Äußerung CR0124 "Ein Bauer arbeitet auf seinem Acker" mit vier Akzentkommandos nach dem Akzentgruppen-Konzept.
F0[Hz]
180· 140 100
60'
N einbaue
aubai te taufsanam ake t [s]
0.5
1.0
1.5
2.0
Bild 4.11 Ehe Nachbildung des F0-Verlaufs der Äußerung WS0104 "Radfahrer sausen vorbei" unterscheidet sich auditiv vom Original, ist aber funktional äquivalent.
220 180 140 100
60
__r
,"V-\
R a: t f a:
R B z au zen f o b ai tM 0.5
1.0
1.5
84
Als zweites Beispiel soll der Testsatz "Radfahrer sausen vorbei" dienen (Bild 4.11). Eine optimale Nachbildung des FQ-Verlaufs gelingt, wenn man mitten in der nicht akzentuierten zweiten Silbe "-fah-" ein zusätzliches Kommando gibt. Dies ist jedoch weder mit linguistischen Kriterien noch mit auditiv gewonnenen Betonungsurteilen in Einklang zu bringen, zumal da die Silbe "-fah-" auch keine deutliche Nebenbetonung aufweist. Die Nachbildung des F0-Verlaufs mit drei Akzentkommandos, wie sie dem Akzentgruppen-Konzept entspricht, unterscheidet sich zwar durchaus auditiv vom Original. Beide Versionen sind jedoch in funktionaler Hinsicht perzeptiv äquivalent, da die erste Silbe "Rad-" in jedem Fall als betont wahrgenommen wird. Wie die angeführten Beispiele veranschaulichen, ist die linguistische Interpretation des Modells zugleich als Nebenbedingung der automatischen Bestimmung der Modellparameter zu verstehen. Die Steuerparameter der einzelnen Modellkomponenten sind so zu bestimmen, daß die linguistischen Vorgaben erfüllt sind (siehe auch Kapitel 6). Bild 4.12 zeigt den Aufbau des Intonationsmodells und die Dekomposition des FQVerlaufs einer Äußerung in die einzelnen Komponenten, wie sie sich durch die linguistische Modellinterpretation ergibt.
4.4 Anwendungen des Modells 4.4.1 Übertragungen auf andere Sprachen In einer Reihe von Publikationen6 weisen Fujisaki und Mitarbeiter darauf hin, daß das Intonationsmodell zwar für die Analyse und Synthese der wichtigsten Dialekte des Japanischen entwickelt wurde, daß es aber auch für die Modellierung der Intonationskonturen von Aussage- und Fragesätzen des Englischen geeignet ist. Fujisaki et al. (1979) verwenden die Akzentkomponente des Modells bei der Nachbildung des F0Verlaufs zweisilbiger englischer Wörter mit kontrastivem Wortakzent, der zwischen Substantiv und Verb disambiguiert (export vs. export). Auf die automatische Erkennung der vier Silbentöne des Standard-Chinesischen zielt die Arbeit von Wang et al. (1990) ab. Die Akzentkomponente des Intonationsmodells erfährt hier eine Umwandlung in eine "Tonkomponente", die auch negative Kommandos und Kombinationen aus positiven und negativen Kommandos vorsieht. So wird beispielsweise der Verlauf des Tons 2 als Kombination aus einem schwachen negativen mit einem größeren positiven Kommando erzeugt (Bild 4.13). Die Parameterwerte der Dämpfungsfaktoren (3,0 s"1) undjß (20,0 s"1) werden als Konstanten betrachtet. Einen ähnlichen Ansatz verfolgt bereits Hallo (1985).
Literaturhinweise finden sich bei Hirose und Fujisaki (1983).
85
200
Grundfrequenz
120
80 min
FnlHz]
: ^/v^x^-,
^x^
c h
j
am blaue n h me l
t [s] 1
1
1
0.5
-0.5
Akzentkomponente
Akzentkommando
1
1
1.0
1
1
1.5
1
l·
2.0
1.0t 0.5
1.0
A
a
05
Phraseno^ komponente ,/ 1
t s i: nd i vo l k e n
^\____
J-
-0.2
Phrasenkommando -0.5
°·5 t Ap t|s] -0.2
0.5
1.0
1.5
2.0
Bild 4.12 Aufbau des quantitativen Intonationsmodells. Analyse durch Synthese der Intonationskontur der Äußerung MM0103 "Am blauen Himmel ziehen die Wolken". Die Abbildung illustriert die im Sinne der linguistischen Modellinterpretation optimale Dekomposition eines f0-Verlaufs in die Phrasen- und Akzentkomponente und zeigt die zugrundeliegenden Kommandos.
86
« Bild 4.13 Nachbildung der vier Silbentöne des Standard-Chinesischen mit der modifizierten Akzentkomponente ("Tonkomponente") des Fujisaki-Modells, die auch negative Kommandos (Ton 3) und Kombinationen aus positiven und negativen Kommandos vorsieht (Töne 2 und 4) (aus Wang et al., 1990, S. 222).
Anwendungen des Fujisaki-Modells in der Sprachsynthese finden sich bei Teranishi (1990) und Bailly (1989). Teranishi setzt das Intonationsmodell als Komponente in einem text-to-speech-System für das Japanische ein. Die Zuweisung von Werten für die Modellparameter ist variabel und hängt davon ab, welcher Sprechstil und welche Sprechereigenschaften nachgebildet werden sollen. Bailly fuhrt aus, daß alle syntaktisch basierten Intonationsmodelle für das Französische eine Kongruenz zwischen Syntax und Prosodie voraussetzen, die durch einfache Projektion der syntaktischen Tiefenstruktur einer Äußerung auf die Zeitachse modelliert wird. Daneben gebe es einige rhythmisch basierte Modelle, die ohne linguistisches Wissen auszukommen versuchen. Nach Baillys Auffassung greift allerdings der gegenseitige Ausschluß syntaktischer und rhythmischer Aspekte der Prosodie zu kurz. Für die Sprachsynthese schlägt Bailly eine Kombination beider Ansätze in Form einer hierarchischen Anordnung syntaktischer und rhythmischer Bedingungen vor. Bei der Generierung des F0-Verlaufs verwendet Bailly "Fujisaki's augmented model" (Bild 4.14). Es enthält Phrasenkommandos, die mit Atemgruppengrenzen einhergehen, Sinngruppenkommandos, die als unterschiedlich ausgeprägte Akzentkommandos realisiert werden, sowie Mikromelodie-Kommandos, die je nach Artikulationsart bestimmter Konsonanten in Form negativer "Akzent"-Kommandos auf die Intonationskontur einwirken. Eine Quantifizierung des Modells wird noch nicht vorgelegt; sie soll später erfolgen, indem die Modellparameter an "reale Daten" (Bailly, 1989, S. 145) angepaßt werden.
87
[]
Impulses
1 Accents
mm
Micromelody U u
Breath Group Control System Sense Group Control System
h-v
u ·, r^_hiVx v\
Micromelodic Control System
Υ
l1
Log(FO)
u|u V/UV
1 Ai/CLJint
Bild 4.14 "Fujisaki's augmented model" (aus Bailly, 1989, S. 144). Mikroprosodische Effekte werden durch kleine negative "Akzenf-Kommandos nachgebildet
3 3
"OP"
·
O - 77.3 b - 0.7 p on
o iri
0.0 1
«O
n.
1 0.0
0.6
1.2
1.8
2.1
3.0
3.6
1.2
1.8
1
l
i u 0.6
1.2
Π
Π
υ 1.8
2.1
Π Π
3.0
3.6
1.2
1.8
Us)
Bild 4.15 Nachbildung des F0-Verlaufs der u erung "Er wiederholte die Forderung, ein Schulfach Friedenserziehung in den Unterricht einzuf hren" mit der Modellvariante von Antoniadis (1984). Oben: Der Modellverlauf entsteht durch die berlagerung des Deklinationssignals (gestrichelte Gerade), des Phrasenanteils (gestrichelte Kurve) und des Betonungsanteils (durchgezogene Linie). Unten: Zugeh rige Steuerkommandos (aus Antoniadis, 1984, S. 128).
4.4.2 Übertragung auf das Deutsche Ein erster Ansatz zur Übertragung des Fujisaki-Modells auf das Deutsche findet sich in der Dissertation von Antoniadis (1984), in der allerdings im wesentlichen nur die Grundidee der Superposition mehrerer Komponenten übernommen wird. Das Modell selbst wird in erheblicher Weise modifiziert. Zum "Phrasierungs"- und "Betonungsanteil" kommen ein "Störsignal" und ein "Deklinationssignal" hinzu, aus deren Überlagerung die erzeugte Intonationskontur entsteht (Bild 4.15). Das Deklinationssignal approximiert den mittleren F0-Abfall über die Äußerung hinweg durch eine linear absinkende Linie. Das Störsignal soll diejenigen Anteile des gemessenen F0-Verlaufs nachbilden, die von den übrigen Modellkomponenten nicht erfaßt werden. Es handelt sich in erster Linie um mikroprosodische Effekte, die auf koartikulatorische und lautintrinsische F0-Variationen zurückzuführen sind. Antoniadis' Interpretation des Modells ist nur in sehr eingeschränkter Weise als linguistisch motiviert zu bezeichnen. Er schlägt vor, für jede Phrasierungseinheit ein Phrasierungskommando zu setzen (Regel 3, S. 139). Die Phrasierungseinheiten sind in Anlehnung an Bierwisch (1966) als kleine syntaktische Einheiten mit "semantischer Homogenität" (Antoniadis, 1984, S. 141) definiert, beispielsweise kurze Nominalphrasen aus Artikel, Adjektiv und Substantiv. Nur auf diese Weise ist es möglich, einen relativ kurzen Ausschnitt des gemessenen F0-Verlaufs (offenbar "Er wiederholte die Forderung ..."; siehe Bild 4.15) mit Hilfe von drei Phrasierungskommandos, von denen das zweite auch noch negativ ist, nachzubilden, ohne auf Betonungskommandos zurückzugreifen. Diese werden nur noch zur Nachbildung besonders auffälliger Feinschwankungen des FQ-Verlaufs benötigt, häufig zur Kompensation ungewollter Effekte, die aus dem Zusammenspiel mehrerer Phrasierungskommandos entstehen. Der ursprüngliche Modellansatz wird durch dieses Vorgehen bis zur Unkenntlichkeit verändert, was grundsätzlich nicht zu kritisieren wäre, würde dadurch nicht eine linguistische Interpretation der Modellkomponenten und der Steuerparameter praktisch unmöglich gemacht. Lokale F0-Bewegungen, die mit Wortakzenten korrelieren, durch Phrasierungsimpulse nachzubilden und Betonungskommandos zur Erfassung noch feinerer F0-Schwankungen zu verwenden, erscheint als Verfahren nicht sinnvoll. Darüber hinaus muß die Notwendigkeit der Erweiterung des Modells um ein "Störsignal" bezweifelt werden. Antoniadis begründet die Berücksichtigung des Störsignals damit, daß bei der Resynthese die "Feinstruktur der Satzmelodie" erhalten bleiben soll, damit"[...] die aus den Hörexperimenten erhaltenen Ergebnisse allein dem synthetisierten Anteil des F0-Verlaufs zugeschrieben werden [können]" (Antoniadis, 1984, S. 24). Man betrachte jedoch Bild 4.12, um den Anteil des F0-Verlaufs, der dem Störsignal zugeordnet werden soll, zu ermessen. Ebenso überflüssig erscheint die Einführung des Deklinationssignals. In der einschlägigen Literatur besteht Einigkeit darüber, daß die Domäne der Deklination nicht die gesamte Äußerung, sondern die prosodische Phrase
89
ist (siehe auch Abschnitt 2.7). Wie in Abschnitt 4.3 über die linguistische Interpretation des Intonationsmodells ausgeführt, eignet sich die Phrasenkomponente hervorragend zur Nachbildung der F0-Deklination, vorausgesetzt, man verwendet sie entsprechend der ursprünglichen Intention Fujisakis als Basislinie (z.B. Fujisaki und Hirose, 1982, S. 59; Fujisaki et al., 1990). Vor dem Hintergrund dieser Problematik verwundert es denn auch kaum, "[...] daß das Verfahren [zur Extraktion der Modellparameter durch Anpassung an natürliche F0-Verläufe; B.M.] nach einer vernünftigen Rechenzeit nicht konvergierte bzw. solche Parameterwerte lieferte, die der Problemstellung nicht entsprachen." [sic!; B.M.] (Antoniadis, 1984, S. 126) Diese Schwierigkeiten bei der Bestimmung der Modellparameter unterstreichen die Bedeutung einer linguistischen Fundierung des Intonationsmodells. Umso weniger angemessen erscheint daher die Anpassung der Parameter ausschließlich nach dem Kriterium der optimalen Approximation im Sinne eines minimierten Abstandes zwischen dem gemessenen F0-Verlauf und seiner Nachbildung durch das Modell. Bevor nun der Algorithmus vorgestellt wird, mit dem die Werte der Modellparameter in der vorliegenden Arbeit bestimmt wurden, sollen zunächst die einzelnen Stufen der Vorverarbeitung beschrieben werden. Insbesondere der Schritt von der auditiven Bestimmung der betonten Segmente einer Äußerung zur Abgrenzung von Akzentgruppen wirkt sich auf die Strategie der Parameteranpassung aus.
5 Sprachdatenmaterial Grundlage für die Bestimmung der Modellparameter und die weiteren Analysen und Experimente ist das im folgenden Abschnitt beschriebene Sprachdatenmaterial. Die Verallgemeinerung der Ergebnisse ist nur unter gewissen Einschränkungen möglich. Die empirischen Untersuchungen beziehen sich ausschließlich auf Äußerungen, die von mehreren Sprechern in einem schallgedämpften Aufnahmeraum vom Blatt vorgelesen wurden. Die verwendeten Sätze wurden ausdrücklich für linguistische und phonetische Untersuchungen konstruiert und zusammengestellt. Es handelt sich also um typische "Laborsprache". Aus systematischen Gründen ist ein solches Vorgehen dennoch gerechtfertigt. Es erscheint zweckmäßig, die verschiedenen Faktoren, die die Realisierung einer Intonationskontur potentiell beeinflussen, durch Verwendung von syntaktisch und semantisch kontrollierten Testsätzen und durch einheitliche und reproduzierbare Aufnahmebedingungen zu reduzieren (Thorsen, 1988a). Auch lassen sich noch am ehesten an konstruiertem Sprachmaterial Regularitäten aufzeigen und überprüfen oder eigene Thesen illustrieren. In den folgenden Abschnitten werden das verwendete Sprachmaterial, die Sprecher und die Aufnahmeprozedur beschrieben. Anschließend werden zwei problematische Schritte der Vorverarbeitung, die Bestimmung betonter Segmente und die Markierung von Akzentgruppen, diskutiert.
5.1 Beschreibung der Korpora Zum Korpusbegriff. folgt:
Das "Lexikon der Sprachwissenschaft" definiert ein Korpus wie
"Corpus [...] Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des C. hängen weitgehend von den je spezifischen Fragestellungen und methodischen Voraussetzungen des theoretischen Rahmens der Untersuchung ab [...]" (Bußmann, 1990, S. 155) Diese recht allgemein gehaltene Definition muß für die vorliegende Arbeit genauer gefaßt werden. Mit dem Begriff Korpus wird im folgenden die Realisierung einer Menge von Testsätzen durch einen einzelnen Sprecher in einer einzigen Aufnahmesitzung bezeichnet.
91
Diese terminologische Vereinbarung ist durch den Umstand motiviert, daß der Sprecher und die Aufnahmeversion in der statistischen Analyse (siehe Kapitel 7 und 8) als potentielle Einflußfaktoren untersucht werden. Im Unterschied zum Korpus umfaßt eine Testsatzgruppe eine Menge von Testsätzen, die aus systematischen Gründen zusammengestellt wurde. Innerhalb einer Testsatzgruppe werden die Testsätze durchnumeriert. Ein Testsatz ist nur orthographisch repräsentiert; ein von einem Sprecher oder einer Sprecherin realisierter, also laut gelesener Testsatz wird Äußerung genannt. Aus diesen Konventionen ergibt sich die Benennung der Korpora. Korpus MK01 beispielsweise enthält die von Sprecherin MK in einer bestimmten Aufnahmesitzung (Aufnahmeversion 0) realisierten Sätze der Testsatzgruppe 1. Die in dieser Arbeit verwendete kodierte Kurzbezeichnung der untersuchten Äußerungen ist wie folgt zu interpretieren: Äußerung CR0217 ist die Realisierung des Testsatzes Nummer 17 aus der Testsatzgruppe 2 durch den Sprecher CR in der Aufnahmeversion 0.
Die Testsätze. Für die vorliegende Untersuchung werden Sätze aus zwei verschiedenen Quellen ausgewählt. Das Sprachmaterial der Testsatzgruppen l und 2 bildet einen Ausschnitt aus den "Berliner Sätzen" (Sotscheck, 1984). Diese Testsätze wurden allerdings nicht primär für Zwecke der Intonationsforschung, sondern nach phonologischen Kriterien konstruiert: Sie sind "phonologisch ausbalanciert", d.h., sie spiegeln die Häufigkeit und die Verteilung von Phonemen im Deutschen wider. In dieser Arbeit werden sie hauptsächlich gewählt, um einen Vergleich mit anderen Untersuchungen zur deutschen Intonation zu erleichtern, die zum Teil auf das gleiche Sprachmaterial zurückgreifen (z.B. Adriaens, 1991). Außerdem werden die "Berliner Sätze" bei der Erstellung einer geplanten phonetischen Datenbank (BMFT-Projekt "PHONDAT") berücksichtigt. Aus den insgesamt 100 Sätzen wurden zunächst 25 Aussagesätze (siehe Anhang 1) ausgewählt, die durch Syntax und Semantik eine neutrale Aussageintonation evozieren. Diese Testsätze enthalten jeweils nur eine syntaktische Phrase und wurden von den Sprechern auch prosodisch einphrasig und ohne Sprechpause gelesen. Diese Testsatzgruppe (1) wurde von drei Sprechern (Korpora CR01, MM01 und WS01) und zwei Sprecherinnen (Korpora HV01 und MK01) jeweils als Aufnahmeversion 0 realisiert. Mit einem Sprecher wurde eine Wiederholungsaufnahme (Aufnahmeversion 1) im zeitlichen Abstand von zwei Monaten durchgeführt (Korpus CR11). Dieser Sprecher realisierte auch die Sätze der Testsatzgruppe 2, die aus einer weiteren Teilmenge von 25 Aussagesätzen aus dem Sotscheck-Material besteht (Korpus CR02, siehe Anhang 2). Aufgenommen wurde eine weitere Testsatzgruppe (3) mit 10 Aussagesätzen, die syntaktisch jeweils aus Haupt- und Nebensatz bestehen, wobei die Reihenfolge der Gliedsätze wechselt. Den Gliedsätzen entspricht als prosodische Einheit jeweils eine
92
intonatorische Phrase. Das Sprachmaterial entstammt einem Übungsband zur Intonation des Deutschen, zusammengestellt von Mitarbeitern des Goethe-Instituts (Latzel et al., 1970) (siehe Anhang 3). Diese Testsatzgruppe wurde von den gleichen fünf Sprechern mit zwei intonatorischen Phrasen, zum Teil mit (sehr kurzen) Sprechpausen an der Phrasengrenze, gelesen (Korpora CR03, MM03, WS03, HV03 und MK03). Außerdem wurden Aufnahmen für die Satzmodi w-Fragesatz, Entscheidungsfragesatz und assertiver Fragesatz (Echofragesatz) durchgeführt. Eine Testsatzgnippe (4) mit jeweils 5 Testsätzen zu jedem der drei Satzmodi wurde von Sprecher CR und Sprecherin MK gelesen (Korpora CR04 und MK04, siehe Anhang 4). Generell ist zum Sprachdatenmaterial anzumerken, daß in der vorliegenden Untersuchung nicht, wie es häufig in der Literatur zu beobachten ist (z.B. Bruce, 1977; Bannert, 1983), Testsätze mit durchgehend stimmhaften Segmenten verwendet wurden. Stimmlose Abschnitte stellen bei der Nachbildung der Intonationskontur einer Äußerung mit dem Fujisaki-Modell keine besondere Schwierigkeit dar. Die Parameteranpassung erfolgt nur anhand der stimmhaften Abschnitte einer Akzentgruppe. Daher kann streng genommen nicht einmal von einer Interpolation in stimmlosen Bereichen gesprochen werden, zumindest nicht nach gängigen mathematischen Kriterien. Das Modell erzeugt einen kontinuierlichen Verlauf, dessen auf stimmlose Segmente entfallende Abschnitte bei der Resynthese ignoriert werden.
5.2 Sprecher und Aufnahmen Die Untersuchungen basieren auf den Produktionen von fünf Sprechern. Bei diesen handelt es sich um Mitarbeiter und Studenten des Instituts für Kommunikationsforschung und Phonetik (IKP) der Universität Bonn, die für ihre Mitwirkung nicht bezahlt wurden. Von den drei männlichen Sprechern ist nur WS als ausgebildeter Phonetiker zu bezeichnen. Sprecher MM arbeitet als Lektor für Sprechkunde und Sprecherziehung am IKP. Sprecher CR sowie die Sprecherinnen HV und MK können bezüglich der Intonation als "naive" Sprecher gelten. Alle fünf Probanden, deren Alter zwischen 25 und 50 Jahren liegt, sprechen Hochdeutsch mit geringfügiger regionaler Färbung. Die Aufnahmen wurden in einem schallgedämpften Aufnahmeraum des IKP durchgeführt und digital auf Videoband aufgezeichnet. Den Sprechern war bekannt, daß es sich um Untersuchungen zur Intonation handelt. Sie wurden angewiesen, die schriftlich vorliegenden Sätze laut zu lesen und dabei eine deutliche, aber nicht übertriebene Satzmelodie anzustreben. Vor der weiteren Analyse wurde sichergestellt, daß die Testsätze gemäß der Aufgabenstellung realisiert wurden.
93
5.3 Vorverarbeitung Die experimentalphonetische Untersuchung der Intonation beginnt mit der Messung des FQ-Verlaufs in einer bestimmten, je nach Untersuchungsziel zumeist großen Anzahl von Äußerungen. Dies ist eine Konsequenz aus der Erkenntnis und Erfahrung, daß selbst phonetisch geschulte und geübte Hörer keine adäquate Transkription der suprasegmentalen Merkmale liefern können (z.B. 't Hart, 1984; Zwirner und Zwimer, 1937). Lieberman (1965) wies nach, daß auch Linguisten bei der Transkription von Intonationsverläufen inkonsistent sind. Eine objektive Darstellung des F0-Verlaufs ist also nur durch eine akustische Analyse möglich. Die Messung der Grundfrequenz, die im Sprachsignal als Funktion der Zeit variiert, ist ein nicht-triviales Problem. Eine Übersicht über die zahlreichen Methoden zur Grundfrequenzbestimmung und eine Beurteilung der Einsatzmöglichkeiten und Grenzen dieser Verfahren gibt Hess (1983). Im folgenden soll das in dieser Untersuchung verwendete Verfahren beschrieben werden.
5.3.1 Analog/Digital-Wandlung Die auf Videoband digital vorliegenden Aufnahmen wurden analog wieder ausgegeben und über eine Analog/Digital-Wandlerkarte mit einer Abtastfrequenz von 16 kHz auf die Festplatte eines IBM PC AT-Rechners gewandelt. Die Äußerungen standen nun jeweils als eigene Datei für die Weiterverarbeitung zur Verfügung.
5.3.2 Segmentation der Äußerungen Zunächst wurden die Äußerungen segmentiert. Dazu wurde ein Sprachsignal-Editor eingesetzt, der eine Darstellung des Sprachoszillogramms in sehr hoher zeitlicher Auflösung ermöglicht (Stock, 1989). Das Programm wurde zur Bearbeitung und Manipulation von Sprachsignalen im Zeit- und Frequenzbereich entwickelt. Einzelne Ausschnitte des Sprachsignals können mit allen vorgenommenen Änderungen sofort über einen D/A-Wandler akustisch ausgegeben werden. Mit Hilfe dieses Editors wurden die Äußerungen außerdem eng transkribiert.
5.3.3 Automatische Grundperiodenbestimmung Eine wichtige Voraussetzung für die experimentelle Intonationsanalyse ist die Verfügbarkeit eines möglichst zuverlässig arbeitenden automatischen Verfahrens zur Grund-
94
frequenzbestimmung1. Sprachgrundfrequenz ist nur dort definiert, wo eine stimmhafte Anregung des Sprachsignals festgestellt wird. Bezüglich der Implementierung sind die Bestimmung der Stimmhaftigkeit eines Sprachsignalabschnittes und die eigentliche Grundfrequenzbestimmung zwei verschiedene Probleme. Prinzipiell braucht der Algorithmus zur Grundfrequenzbestimmung nur dort zu arbeiten, wo ein Algorithmus zur Bestimmung der Anregungsart eine stimmhafte Anregung festgestellt hat (Hess, 1983, S. 12). Dem in dieser Arbeit eingesetzten Verfahren zur Grundfrequenzbestimmung ist ein Programm ("TSP"; Hess, 1972) vorgeschaltet, das im Sprachsignal eine Trennung zwischen Sprache und Pause sowie zwischen stimmlosen und stimmhaften Abschnitten vornimmt. Der F0-Algorithmus selbst bearbeitet daher nur solche Segmente, die bereits als stimmhaft erkannt wurden. Hieraus resultiert eine erhebliche Zeitersparnis bei der Analyse; gleichzeitig wird die Zahl der Fehler stark reduziert. Um die unregelmäßigen und sprunghaften Variationen der F0-Werte am Beginn und Ende stimmhafter Abschnitte zu reduzieren, wird im Programm "TSP" ein variabler Schwellwert für die Stimmhaft-Stimmlos-Unterscheidung gesetzt, dessen Einstellung sprecherabhängig ist. Die automatische Grundperiodenbestimmung (GPB) erfolgt nach der Methode der doppelten Spektraltransformation. Es handelt sich um ein Programmpaket ("GDS"; Indefrey et al., 1985), das auf einem IBM PC AT sowie einem IBM RT 6150 implementiert wurde. Jeweils ein kurzer Signalabschnitt (Fensterbreite 40 ms, Schrittweite 8 ms) wird mittels schneller Fouriertransformation in den Frequenzbereich transformiert und dort nichtlinear verzerrt. Als Kennlinie der Verzerrung dient die 4. Wurzel des Leistungsspektrums. Diese Verzerrungsfunktion hat den Vorteil, daß das Verfahren weniger empfindlich gegen Rauschen ist als die wohlbekannte Cepstrum-Methode und gleichzeitig weniger empfindlich gegen dominante Formanten als die gleichfalls wohlbekannte Autokorrelations-Methode (Sreenivas, 1981; hier nach Hess, 1983). Der nächste Schritt besteht in der Rücktransformation des verzerrten Spektrums in einen Pseudo-Zeitbereich. Die Grundperiode wird dort aus einem signifikanten Maximum des erhaltenen Kurvenverlaufs bestimmt. Die automatische GPB liefert alle 8 ms Schätzwerte, die in den für automatische Verfahren kritischen Stimmhaft-Stimmlos-Übergängen vom Benutzer überprüft wurden, um mögliche Fehler zu verringern. Dazu wurde an diesen Stellen eine synchrone GPB durchgeführt. Bei diesem Verfahren wurde der oben bereits kurz beschriebene Sprachsignal-Editor eingesetzt. Eine Option des Programms erlaubt eine exakte Bestimmung der Dauer einzelner Perioden und die Kennzeichnung von Pausen und stimmlosen Segmenten. Mit Hilfe kleinerer Editionsprogramme wurden die automatisch gemessenen FQ- Verläufe mit den grundperiodensynchronen Werten verglichen und gegebenenfalls korrigiert.
Einen ausführlichen Überblick über Verfahren der Grundfrequenzbestimmung gibt Hess (1983).
95
Fehler bei der GPB oder bei der Bestimmung der Anregungsart können auf eine Inkongruenz zwischen einer Segmentgrenze, etwa am Übergang zwischen stimmlosen und stimmhaften Segmenten, und dem Analysefenster zurückgeführt werden. Sie konnten trotz einer sprechertypischen Schwellwerteinstellung im Programm "TSP" nicht ausgeschlossen werden und wurden gegebenenfalls manuell editiert. Handkorrigiert wurden auch Oktavsprünge oder aperiodische Oszillationen am Beginn oder Ende der Phonation. Sobald der FQ-Verlauf des Sprachsignals als Funktion der Zeit vorliegt, kann er auf verschiedene Arten weiterverarbeitet werden. Der geglättete FQ-Verlauf wird in einer Datei abgespeichert und dient als Eingabe für Computerprogramme zur graphischen Darstellung am Bildschirm oder auf dem Drucker oder Plotter sowie für die Programme "AUTFIT", "FUJIFIT" (siehe Kapitel 6) und einige andere Anwendungen.
5.3.4
Auditive Bestimmung betonter Silben
Einen Ansatz zur automatischen Erstellung einer Betonungsbeschreibung, unter der die automatische Identifikation der betonten Silben verstanden werden soll, stellt Nöth (1991) vor. Es handelt sich dabei um eine datengesteuerte Beschreibung. Nöth belegt, daß bislang nur sehr wenige Ansätze zur Erstellung einer "datengetriebenen Betonungsbeschreibung" existieren (1991, S. 16). Im Rahmen des Erlanger sprachverstehenden Dialogsystems "EVAR" werden Worthypothesen prinzipiell nach akustisch-phonetischen, aber auch nach prosodischen Kriterien geprüft. Verwendet werden außerdem "Pragmatik-Filter", die Worthypothesen gegebenenfalls nicht wegen fehlender Übereinstimmung mit dem Sprachsignal verwerfen, sondern aufgrund der jeweiligen Wortklassenzugehörigkeit. "Erwartungsgemäß nicht betonbar" sind demnach insbesondere Wörter bestimmter syntaktischer Klassen, vorwiegend Funktionswörter (Nöth, 1991, S. 151 ff.). Es wurde ein hinreichend hoher Zusammenhang zwischen "pragmatisch wichtigen Wörtern" (Nöth, 1991, S. 153) und betonten Stellen im Sprachsignal festgestellt. Eine solche automatische Betonungszuweisung stand für die vorliegende Arbeit nicht zur Verfügung, so daß die betonten Silben der Äußerungen durch Hörerurteile bzw. durch das Urteil eines ausgebildeten Phonetikers festgelegt wurden. Hierzu wurde eine Voruntersuchung (Möbius, 1985) durchgeführt, die im folgenden dargestellt werden soll. Voruntersuchung. Eine Gruppe von 20 Hörern beurteilte 62 Äußerungen hinsichtlich der Position betonter Silben. Das Sprachmaterial wurde aus dem bereits in Abschnitt 5.1 erwähnten Intonationskurs des Goethe-Instituts ausgewählt. Die von drei Berufssprechern des Bayerischen Rundfunks, einer Frau und zwei Männern, gesprochenen
96 Sätze lagen auf Band vor. Es handelt sich um ein- und zweiphrasige Aussage- und Fragesätze. Ein mehrminütiger Ausschnitt aus dem Testband wurde den 20 Hörern vorab zu einer informellen Beurteilung hinsichtlich der Natürlichkeit und Akzeptabilität präsentiert. Es wurde darauf hingewiesen, daß es sich um vorgelesene Sätze handelt. Die überwiegende Mehrzahl der Hörer (18) bezeichnete sie als natürlich klingende und akzeptable deutsche Äußerungen. Zwei der Befragten wollten sich nicht festlegen. Vier Hörer wiesen zusätzlich darauf hin, daß die Artikulation und Betonung "sehr deutlich", jedoch "nicht übertrieben und durchaus der Norm entsprechend" sei. Die Teilnehmer an der Vorstudie waren Studenten des IKP mit phonetischen und linguistischen Grundkenntnissen. Die Beurteilung auf Natürlichkeit und Akzeptabilität diente zugleich als Eingewöhnungsphase. Anschließend wurde jede der 62 zu beurteilenden Äußerungen durch eine Kennziffer angekündigt und dreimal hintereinander dargeboten. Keine Äußerung war länger als 3,5 Sekunden. Die Pausen zwischen den Wiederholungen dauerten etwa vier, die zwischen den Items etwa sechs Sekunden. Nach jeweils zehn Stimuli wurde eine etwa zweiminütige Unterbrechung eingelegt. Die Testreihe wurde im Tonstudio des IKP teils in Einzel-, teils in Gruppensitzungen durchgeführt. Die Wiedergabe erfolgte über Großlautsprecher. Die Hörer wurden für ihre Teilnahme nicht bezahlt. Die Anweisung lautete, alle Silben, die als betont wahrgenommen wurden, in der schriftlichen Fassung der Äußerungen zu unterstreichen. Es wurde ausdrücklich darauf hingewiesen, daß jeder Satz mehrere betonte Silben enthalten kann. Eine nähere Erläuterung zu dem Begriff "betont", etwa bezüglich akustischer Merkmale, die potentiell zu dem perzeptiven Eindruck der Betonung fuhren oder beitragen, wurde nicht gegeben. Die Hörer sollten auf ihr intuitives Wissen über die Unterscheidung von "betont" und "nicht betont" zurückgreifen. Graduelle Antwortmöglichkeiten waren ausgeschlossen; die Entscheidung, ob eine Silbe betont ist oder nicht, sollte kategorial sein. Das folgende Beispiel zeigt die Summe der Betonungsurteile pro Silbe für eine Äußerung: 14 3 4 14 4 18 61 Hans hat seinem Bruder immer Geld gegeben
Die 62 Äußerungen enthalten insgesamt 617 Sprechsilben. Mit der Anzahl der Betonungsurteile, die eine bestimmte Silbe auf sich vereinigen kann, nämlich von null bis maximal 20, läßt sich ihre "Betontheit" angeben. Dies sollte selbstverständlich nicht im Sinne einer 21 stufigen Betonungsskala mißverstanden werden (vgl. die Methode bei Nöth, 1991, S. 59 ff.). Bild 5.1 zeigt die prozentuale Verteilung der "Betontheit" für alle Silben. Zum Vergleich absolvierte ein ausgebildeter Phonetiker den gleichen Test. Um die Übereinstimmung zwischen der Hörergruppe und dem Experten zu messen, wurde eine einfache numerische Darstellung gewählt, die bereits von Boves et al. (1984) unter Berufung auf Miller (1969) erfolgreich verwendet wurde:
97 Bild 5.l Prozentuale Verteilung der Betonungsurteile von 20 Hörern (entsprechend 21 "Betontheitsstufen") filr alle Silben (N=617).
30 l c/j •S 20 l N
8 o. 10
O
4
D
8
D
12
16
20
Zahl der Betonungsurteile
C -
C: V: E: G:
2-G V+E
Maß für die Übereinstimmung zwischen der Gruppe der Versuchspersonen und dem Experten (0 £ C £ 1) Anzahl der von den Versuchspersonen als betont beurteilten Silben Anzahl der von dem Experten als betont beurteilten Silben Anzahl der gemeinsam von den Versuchspersonen und dem Experten als betont beurteilten Silben
Als betont sei jede Silbe klassifiziert, die von mehr als 50% der Versuchspersonen, also von mindestens 11 Hörern, als betont beurteilt wurde. Nach diesem Kriterium gelten 170 der insgesamt 617 Silben (27,6%) als betont. Der Phonetiker stufte 190 Silben (30,8%) als betont ein. Die Zahl der Silben, die sowohl von der Hörergruppe als auch von dem Phonetiker als betont beurteilt wurden, beträgt 153 (24,8%). Daraus ergibt sich ein hohes Konsensmaß C von 0,85. Ergänzend wurde die Übereinstimmung auch für einen Schwellwert von 67% (mindestens 14 Hörer) zur Klassifizierung einer Silbe als betont berechnet. Hier ergab sich ein immer noch hoher Konsens von 0,78 (E = 190, V = 132, G = 126). Es fällt auf, daß der ausgebildete Phonetiker dazu neigt, mehr Silben als betont einzustufen als die "naiven" Hörer. Dies steht in Einklang mit den Beobachtungen anderer Autoren. Boves et al. (1984) berichten von Differenzen in der gleichen Größenordnung
98
wie in der hier beschriebenen Untersuchung. Danach beträgt bei einem Sprachdatenmaterial, das von nicht-professionellen Sprechern gelesen wurde, der Anteil der als betont wahrgenommenen Silben bei dem Experten 29,3%, bei der "naiven" Hörergruppe 27,3%. Bei Sprachdatenmaterial, das von einem professionellen Sprecher gelesen wurde, ist der Unterschied noch deutlicher (28,2% bei dem Experten, 20,6% bei "naiven" Hörern). In der Untersuchung Nöths (1991, S. 61) ist der Unterschied allerdings nicht erheblich (23% vs. 22%). Nach diesen Daten ist zu erwarten, daß ein geschulter Phonetiker tendenziell mehr Silben als betont beurteilen wird als andere Hörer. Im Mittel wird bei vorgelesenem Sprachmaterial rund ein Viertel aller Silben als betont wahrgenommen. Diese Beobachtung deckt sich mit dem von Bouwhuis (1973; zitiert nach Boves et al., 1984) genannten Wert von 25%. Zu der Untersuchung von Boves et al. (1984) ist jedoch noch anzumerken, daß der Experte keine direkten, perzeptiv gewonnenen Betonungsurteile abgab, sondern eine Transkription der Intonationskontur der betreffenden Äußerung nach der Konvention des IPO-Intonationsmodells lieferte. Die Autoren stufen diese Transkription als besonders zuverlässig ein2 und leiten aus ihr Betonungsurteile gemäß der Definition von prominence-lending pitch movements ('t Hart und Collier, 1975) ab. Schlußfolgerung. Die hohe Übereinstimmung zwischen den Urteilen einer "naiven" Hörergruppe und denen eines ausgebildeten Phonetikers rechtfertigt das abkürzende Verfahren, die betonten Silben der in der vorliegenden Untersuchung verwendeten Äußerungen grundsätzlich nicht durch einen aufwendigen Abhörtest mit einer Gruppe zu ermitteln, sondern über das Urteil des Experten festzulegen. Im folgenden Abschnitt wird die Markierung von Akzentgruppengrenzen auf der Grundlage der auditiv gewonnenen Betonungsurteile beschrieben.
5.3.5 Markierung akzentuierender F0-Bewegungen In Hinblick auf eine linguistische Interpretation der Ergebnisse müssen dem Programm "AUTFTT" zur automatischen Bestimmung der Modellparameter (siehe Kapitel 6) einige Orientierungen im F0- Verlauf vorgegeben werden, und zwar besonders für die Bestimmung der Parameter der Akzentkomponente. Diese Orientierungen sind notwendig, weil das Programm als Ergebnis Parameterkonfigurationen liefern soll, die linguistischen Einheiten zugeordnet werden können.
Bei dem Experten handelt es sich um Johan 't Hart, der an der Entwicklung des IPO-Intonationsmodells maßgeblich beteiligt war.
99
Die Markierung der Akzentgruppengrenzen wurde mit dem interaktiven Programm "ACCMRK" vorgenommen, das den zuvor automatisch extrahierten und manuell geglätteten FQ- Verlauf einer Äußerung in hoher zeitlicher Auflösung darstellt und die Markierung einzelner Punkte gemäß der linguistischen Modellinterpretation ermöglicht. Ausgangspunkt für die Bestimmung der Akzentgruppengrenzen sind die perzeptiv gewonnenen Urteile des Experten über die Position betonter Silben in der Äußerung. Unter perzeptivem Gesichtspunkt läßt sich eine Äußerung also in einem ersten Schritt in Betonungsgruppen aufgliedern. In den Wahrnehmungseindruck der Betonung einer Silbe gehen, wie bereits in Abschnitt 2.2.1 diskutiert, mehrere akustische Merkmale ein, unter denen die (steigende oder fallende) Bewegung der Sprachgrundfrequenz das wichtigste ist. Die Markierungen mit dem Programm "ACCMRK" wurden ausschließlich im F0Verlauf einer Äußerung vorgenommen. Daher ist es terminologisch konsequent, von Akzentgruppen zu sprechen, deren Grenzen nicht exakt mit den anhand spektraler Merkmale durchaus segmentell festzumachenden Betonungsgruppengrenzen zusammenfallen. Analog soll im weiteren von akzentuierten und nicht von betonten Silben gesprochen werden. Diese begriffliche Unterscheidung entspricht zwar dem Vorschlag Bannerts (1983), ist jedoch anders motiviert. Bannert nennt betonte Silben, die sich tonal durch eine deutliche F0-Bewegung auszeichnen, akzentuiert. Leider läßt sich aber die Umschreibung "deutliche F0-Bewegung" nicht quantifizieren; sie gibt daher kein objektives Kriterium für die phänomenale Unterscheidung zwischen Betonungs- und Akzentgruppen her (siehe auch Abschnitte 2.2 und 2.3). Statt dessen soll hier als Arbeitshypothese formuliert werden, daß das Merkmal Grundfrequenz bei der Zuweisung eines Betonungsurteils an eine Silbe immer - und in den meisten Fällen entscheidend - beteiligt ist. Die Anzahl von Betonungs- und Akzentgruppen in einer Äußerung stimmt daher überein. Die Ausprägung der vom Programm "AUTFTT" angelieferten Parameterkonfigurationen kann aber später darüber Aufschluß geben, ob das Merkmal Grundfrequenz tatsächlich zum perzeptiven Eindruck einer Silbenbetonung beigetragen hat. Sollte aufgrund perzeptiver Kriterien eine Akzentgruppe markiert worden sein, die keine deutliche FQ-Bewegung aufweist, so dürften die extrahierten Modellparameter entsprechend niedrige Werte aufweisen. Als Grenze (G-Punkt) zwischen Akzentgruppen wurde das Ende des F0-Verlaufs jeder Akzentgruppe markiert; bei Äußerungen mit proklitischen Silben, also unbetonten Silben, die einer äußerungsinitialen Akzentgruppe vorangehen, wurde auch das Ende des stimmhaften Abschnitts der proklitischen Silben markiert (siehe Bild 5.2). Aus diesen Markierungen ermittelt das Programm "AUTFIT" die Anzahl und die Lage der Akzentgruppen im F0-Verlauf. Weiterhin wurde der Anfang ( -Punkt) der betonungsverleihenden F0-Bewegung der Akzentgruppe markiert. Der -Punkt signalisiert dem Programm "AUTFIT" den Beginn des für die Parameterbestimmung relevanten
100 FQ-Verlaufs innerhalb einer Akzentgruppe. Bild 5.2 zeigt als Beispiel den F0-Verlauf der Äußerung MM0103 mit den Markierungen. Während ein Akzentkommando generell innerhalb des Bereiches zwischen zwei benachbarten G-Markierungen an- und wieder abgeschaltet wird, ist für die Nachbildung des FQ-Verlaufs einer Akzentgruppe nur der Abschnitt zwischen dem A-Punkt und dem G-Punkt relevant. Die stimmhaften Segmente, die vor der betonungsverleihenden Bewegung einer Akzentgruppe liegen, werden bei der Parameterbestimmung nicht berücksichtigt. Mit diesem Vorgehen wird der bereits in Abschnitt 2.3 angeführten Beobachtung Thorsens (1988a) Rechnung getragen, wonach in betonten Silben initiale stimmhafte Konsonanten tonal vom betonten Vokal getrennt werden und auch perzeptiv nicht zur Intonationskontur der Betonungs- bzw. Akzentgruppe beitragen. Der geglättete FQ-Verlauf und die Markierungen dienen als Eingabe für das Programm "AUTFIT" zur automatischen Bestimmung der Steuerparameter des Intonationsmodells. Dieses Programm wird im folgenden Kapitel vorgestellt.
\
8.0
144 .8
Bild 5.2 Markierter F0-Verlauf der Äußerung MM0103 "Am blauen Himmel ziehen die Wolken" mit vier Akzentgruppen. Das untere Fenster zeigt den im oberen Fenster selektierten Verlaufsabschnitt (8 - 1440 ms) mit den Markierungen (A- und G-Punkte) für die ersten drei Akzentgruppen.
6 Automatische Bestimmung der Modellparameter In diesem Kapitel wird das Verfahren vorgestellt, mit dem die Steuerparameter des Intonationsmodells bestimmt wurden. Dabei steht weniger die Darstellung des Algorithmus im Vordergrund, der dem Computerprogramm "AUTFIT" (= AUTomatic FITting) zugrundeliegt. Vielmehr sollen hier zunächst die Vorüberlegungen dargelegt werden, die in die Entwicklung eines automatischen Verfahrens zur Nachbildung natürlichsprachlich produzierter FQ-Verläufe mündeten. Weiterhin werden die vorwiegend linguistisch und perzeptiv motivierten Einwände gegen eine uneingeschränkte, mathematisch optimale Approximation vorgetragen und die daraus abgeleiteten Restriktionen diskutiert, denen das Verfahren unterworfen wird. Details des Computerprogramms "AUTFIT" sollen hier nur insoweit besprochen werden, als sie zum Verständnis des methodischen Vorgehens beitragen oder notwendig sind. Die entsprechenden Teile der Darstellung beruhen auf der Magisterarbeit von Pätzold (1991), die im Rahmen des DFG-Projekts "Intonationsmodell" am IKP entstand. Für eine detailliertere Beschreibung des Algorithmus sei auf Pätzolds Arbeit verwiesen. Das Programm "AUTFTT" wurde auf einem Rechner des Typs IBM RT 6150 entwickelt und implementiert. Die verwendete Programmiersprache ist RT PC VS FORTRAN. Das Programm läuft außerdem auch auf (IBM-kompatiblen) Standardrechnern.
6.1 Vorüberlegungen Die Publikationen Fujisakis und seiner Mitarbeiter enthalten nicht viel aufschlußreiche Information darüber, wie die Werte der Modellparameter bestimmt wurden. Die ausführlichste Darstellung findet man bei Fujisaki et al. (1979): "The parameters of the [...] model are determined by minimizing the mean squared error between the extracted F0-contour and that of the model in logarithmic scale. The minimization process utilizes the method of Analysis-bySynthesis, and is conducted as follows. First, the number of voicing commands / and that of the accent commands J for the sample are determined by the preliminary observation of the extracted F0-contour. Second, the point of minimum mean squared error is sought using the computer in the 4(7+7)+1 dimensional space, composed of the parameters for the voicing, viz., T0i, T3i, , ,·, the parameters for the accent, viz., TV, 2 , , , and the lowest frequency of vocal chord vibration Fmin [...] The initial values and the intervals of the
102
parameters for the search are given manually to the computer." (Fujisaki et al., 1979, S. 167) Fujisaki et al. (1979) verwenden hier noch einen Modellaufbau, der sich von der aktuellen Version (Fujisaki, 1988) unterscheidet. So wird statt \onphrase commands von voicing commands gesprochen, die als Rechteckkommandos mit dem Anschaltzeitpunkt T0i und dem Abschaltzeitpunkt T3i realisiert werden. Daraus erklärt sich auch der 4(I+J)+1 dimensionale Suchraum für die Werte der Modellparameter. Übertragen auf die Version von 1988 bilden 3I+4J+1 Dimensionen den Suchraum. Die Modellparameter werden mit einem automatischen Verfahren bestimmt. Vorgegeben werden die Anzahl der benötigten Phrasen- und Akzentkommandos sowie die Initialwerte der einzelnen Parameter. Die Dimension des Suchraums entspricht der Anzahl der Modellparameter. Allerdings muß die durch das oben angeführte Zitat evozierte Annahme, alle Modellparameter würden über die gesamte Äußerung hinweg optimiert, aufgrund einer persönlichen Mitteilung Fujisakis (1989) relativiert werden: Die Parameterbestimmung wird vielmehr für die einzelnen Modellebenen getrennt durchgeführt. Sowohl auf der Phrasen- als auch auf der Akzentebene gilt als Kriterium für die Optimierung der über das Quadrat gemittelte (RMS-) Abstand zwischen der F0-Kontur der Äußerung und dem vom Modell erzeugten Verlauf. Die genaue Methode der Parameterbestimmung wird in den angeführten Publikationen allerdings nicht erläutert. Für erste Versuche, die Parameter des Modells für die deutsche Sprache zu bestimmen (Möbius et al., 1990a), wurde das Modell in einen Algorithmus umgesetzt und als interaktives Computerprogramm ("FUJIFIT") implementiert. Dieses Programm bietet dem Benutzer die Möglichkeit, gezielte Manipulationen an dem vom Modell erzeugten Verlauf vornehmen. Alle Modellparameter lassen sich manuell einstellen; die Auswirkung einer Änderung der Parameterwerte auf die resultierende Intonationskontur kann über eine in das Programm integrierte graphische Ausgabe überprüft und durch anschließende Resynthese auch perzeptiv beurteilt werden. Somit eignet sich "FUJIFIT" besonders als Entwicklungs- und Experimentierprogramm auf parametrischer Ebene. Das Programm "FUJIFIT" erlaubt es jedoch nicht, die zur optimalen Nachbildung eines gemessenen F0-Verlaufs benötigten Parameterwerte nach einem objektiven Verfahren zu ermitteln. Daher wurde das Programm "AUTFIT" entwickelt, das die Modellparameter automatisch und somit nach einheitlichen und objektiv nachvollziehbaren Kriterien bestimmt. "AUTFTT" führt eine im Rahmen der linguistischen Modellinterpretation (siehe auch Abschnitt 4.3) bestmögliche Approximation eines gegebenen FQ-Verlaufs durch Optimierung der Modellparameter durch. Die Methode der Parameterbestimmung wird im folgenden zunächst einmal kurz beschrieben.
103
Kurzbeschreibung des Algorithmus. Der gemessene F0-Verlauf einer Äußerung kann als eine Folge von Meßpunkten betrachtet werden, die, übertragen in den Maßstab des natürlichen Logarithmus, mit dem aus Formel (4.1) resultierenden Modellverlauf lnF0(t) modelliert wird. Das Ziel des Programms ist es, diejenigen Werte der Modellparameter zu ermitteln, die den Verlauf lnF0(t) gemäß den in Abschnitt 4.3 beschriebenen linguistischen Kriterien möglichst gut an die gegebenen Meßpunkte approximieren. Aufgrund des Superpositionsprinzips des Modells ist der Algorithmus so gestaltet, daß die Bestimmung der Parameter der Phrasenkomponente und des Basiswertes Fmin prinzipiell von der der Akzentkomponente getrennt werden kann. Der erste Schritt des Algorithmus besteht in der Bestimmung der Phrasenparameter sowie des Basiswertes Fmin. Die Parameter werden ermittelt, indem der aus der Addition von Basiswert Fmin und Phrasenkomponente resultierende Verlauf an den gemessenen FQ-Verlauf angepaßt wird. Sobald die Parameter bestimmt sind, wird der aus ihnen resultierende Modellverlauf generiert und von den gemessenen F0-Werten subtrahiert. Man erhält einen Restverlauf, der über die Akzentkomponente des Modells zu interpretieren und mit deren Verlauf nachzubilden ist. Die Akzentkomponente setzt sich aus Teilstücken zusammen, die von einzelnen Akzentkommandos gesteuert werden. Der Algorithmus arbeitet die Akzentgruppen, deren Anzahl in einem Vorverarbeitungsschritt anhand der G-Markierungen (siehe Abschnitt 5.3.5) festgestellt wurde, von links nach rechts ab. Die Akzentparameter werden also nicht über die gesamte Akzentkomponente hinweg optimiert. Vielmehr werden die einzelnen Akzentgruppen getrennt voneinander behandelt, und es wird jeweils eine lokale Approximation an den F0-Verlauf durchgeführt. Dieses Vorgehen ist insofern praktikabel, als die Modellparameter für das Teilstück der Akzentkomponente, das den Verlauf einer Akzentgruppe nachbildet, konstant sind. Prinzipiell sind für jede Akzentgruppe die Parameterwerte des Kommandos und der Dämpfungsfaktor des Akzentsteuermechanismus zu bestimmen. Das Ausklingen des aus einem Akzentkommando resultierenden Teilstücks der Akzentkomponente kann in den Bereich der nächsten Akzentgruppe hineinreichen, da der Verlauf zu deren Beginn nicht notwendigerweise wieder das Phrasenniveau erreicht haben muß. Dies hat für die erste Akzentgruppe einer Äußerung naturgemäß keine Konsequenzen, jedoch muß bei allen folgenden Akzentgruppen der Einfluß vorangehender Teilstücke der Akzentkomponente mitberechnet werden. Zwei Restriktionen, im folgenden als R l und R2 bezeichnet, sind vorzunehmen, um die Bearbeitung der einzelnen Akzentgruppen von links nach rechts zu gewährleisten: R l: Der F0-Verlauf einer Akzentgruppe ist so nachzubilden, daß der Verlauf einer bereits abgearbeiteten Akzentgruppe nicht mehr beeinflußt wird.
104
R2: Die Parameter müssen so gewählt sein, daß die Werte des resultierenden Verlaufs nicht größer sind als die FQ-Werte innerhalb des markierten Bereichs der folgenden Akzentgruppe. Restriktion Rl verhindert die nachträgliche Beeinflussung eines Verlaufs, der aus bereits ermittelten Parametern resultiert, durch eine folgende Akzentgruppe. Restriktion R2 schafft die Voraussetzungen dafür, daß die Nachbildung einer markierten Akzentgruppe nicht durch inadäquate Parameterkonfigurationen in der vorangehenden Akzentgruppe unmöglich gemacht wird. Zugleich ist damit sichergestellt, daß die Bedingung, eine Akzentgruppe mit dem aus genau einem Kommando resultierenden Verlauf nachzubilden, nicht verletzt wird. Beide Restriktionen können als Nebenbedingungen bei der Parameterbestimmung betrachtet werden. Zur Ermittlung der Parameter auf der Akzentebene werden diejenigen Meßpunkte herangezogen, die innerhalb des F0-Verlaufsabschnitts zwischen dem A- und dem GPunkt der nachzubildenden Akzentgruppe liegen (siehe Abschnitt 5.3.5). Die Eingabe der Markierungen im F0-Verlauf unterscheidet sich von dem Vorgehen bei Fujisaki et al. (1979). Dem Programm "AUTFIT" wird durch die Markierung der Akzentgruppengrenzen lediglich die ungefähre Lage der einzelnen Akzentkommandos mitgeteilt. Dies entspricht nur insofern einer Vorgabe von Initialwerten, als damit An- und Abschaltzeitpunkt eines Akzentkommandos grob vorgegeben sind. Die übrigen Parameter werden dadurch allerdings nicht beeinflußt. Sind alle Akzentgruppen abgearbeitet, wird der Modellverlauf mit den ermittelten Parametern über Formel (4.1) berechnet. Zuvor werden die Zeitpunkte der errechneten Werte mit denen der gemessenen FQ-Werte synchronisiert. Dadurch liefert das Modell genau an den Zeitpunkten Werte, an denen die gemessenen Werte liegen, und interpoliert in den stimmlosen Abschnitten der Äußerung. Die hier nur kurz skizzierte Vorgehensweise soll in den folgenden Abschnitten nun genauer dargestellt werden.
6.2
Parameter der Phrasenkomponente und Basiswert Fmin
6.2.1 Methode der Parameterbestimmung Die Parameter, die den Verlauf der Phrasenkomponente erzeugen, und der Basiswert Fmin werden ermittelt, indem der Verlauf
H p (t) = mFmin + £ A p l - G p i ( t - T 0 i ) i=l
105 mit
t-exi-at)
für t>0
an die gemessenen FQ- Werte angepaßt wird. Der Algorithmus wurde anhand von einphrasigen Äußerungen entwickelt und erst später auf die Nachbildung meh hrasiger Äußerungen ausgelegt. Diese Erweiterung des Sprachdatenmaterials und die entsprechenden Modifikationen des Programms werden in Abschnitt 8.1 besprochen. Im folgenden soll zunächst die vereinfachende Annahme gelten, daß nur eine intonatorische Phrase bearbeitet wird. Die zu bestimmenden Modellparameter sind demnach der Basiswert Fmin, der Zeitpunkt TQ und die Amplitude Ap des Phrasenkommandos sowie der Dämpfungsfaktor des Phrasensteuermechanismus. Der Verlauf H_(t), der sich durch Addition der Phrasenkomponente zu dem Basiswert Fmin ergibt, soll so an den F0- Verlauf einer Äußerung angepaßt werden, daß er entsprechend der linguistischen Modellinterpretation als Basislinie fungiert (siehe auch Abschnitt 4.3). Daraus lassen sich zwei mathematische Nebenbedingungen ableiten, die eine relativ einfache und schnelle Parameterbestimmung ermöglichen: 1. Der Verlauf H (t) muß während der Äußerung monoton fallen. 2. Der Verlauf H (t) soll den F0- Verlauf möglichst in zwei Punkten berühren und muß ansonsten unterhalb liegen. Die erste Nebenbedingung hat zur Folge, daß der Verlauf FL(t) so an die Äußerung angepaßt werden muß, daß er sein Maximum spätestens zu Beginn der Äußerung erreicht hat. Damit wirkt sich diese Nebenbedingung auf die Bestimmung des Parameters TQ aus. Für den Phrasenimpuls erfüllen prinzipiell alle Zeitpunkte t, die vor dem Beginn der Äußerung liegen, die erste Nebenbedingung. Um den Zeitpunkt des Phrasenimpulses eindeutig festlegen zu können, wird der Verlauf H (t) so gelegt, daß er exakt zu Beginn der Äußerung sein Maximum erreicht. Wie Pätzold (1991, S. 28) zeigt, ergibt sich somit für den Zeitpunkt des Phrasenkommandos die Beziehung 0 = l / a.
6.2.2
Konstantsetzung des Dämpfungsfaktors
Um den Dämpfungsfaktor algorithmisch zu bestimmen, muß als Kriterium der Anpassung von Rj(t) an den gemessenen FQ-Verlauf ein Abstandsmaß vorgeben werden. Es läßt sich jedoch vorhersagen, daß eine Gerade derjenige Verlauf ist, der die beiden Nebenbedingungen erfüllt und zugleich den geringsten Abstand zur F0-
106
Kontur der Äußerung aufweist. Übertragen auf das Modell hieße dies, daß der Dämpfungsfaktor einen sehr niedrigen Wert annimmt, und der Verlauf IL(t) sich einer Geraden annähert. Die versuchsweise Implementierung eines Algorithums, der die Phrasenparameter nach der Methode der kleinsten Quadrate bestimmt, bestätigte diese Überlegung. Ein Dämpfungsfaktor mit sehr niedrigem Wert hat jedoch zur Folge, daß der Zeitpunkt des Phrasenimpulses weit vor Beginn der Äußerung liegt. Dies wiederum ist im Rahmen einer sinnvollen Modellinterpretation nicht zu vertreten. Unter dem Aspekt einer tragfähigen physiologischen und sprachproduktiven Fundierung des Modells (siehe Abschnitt 4.2) würde ein Impuls weit vor Äußerungsbeginn bedeuten, daß der Sprecher eine Voreinstellung seiner Kehlkopfmuskulatur extrem früh vornimmt. Ist diese Annahme schon bei der ersten intonatorischen Phrase eines Redeabschnittes wenig plausibel, so wirkt sie bei der Berücksichtigung mehrphrasiger Äußerungen geradezu absurd. Aufgrund dieser Überlegungen wird der Dämpfungsfaktor des Phrasensteuermechanismus für alle Äußerungen konstant gesetzt, und zwar auf den Mittelwert des in den Publikationen Fujisakis vorgeschlagenen Wertebereichs (3,1 s"1); dieser Wert erwies sich in explorativen Anpassungen mit dem Modell als geeignet. Der Impuls des Phrasenkommandos T0 liegt somit 323 ms vor Äußerungsbeginn, also innerhalb eines Bereiches, der für die Voreinstellung der Stimmlippen angemessen ist (siehe Abschnitt 4.2). Der in den Originalarbeiten verwendete Zeitpunkt für TQ (Fujisaki et al., 1979 sowie Fujisaki, 1983: 210 ms vor Äußerungsbeginn; Fujisaki, 1988: 200 ms vor Äußerungsbeginn) wurde nicht übernommen. Entweder hätte dann der Verlauf sein Maximum innerhalb der Äußerung, so daß die strenge Interpretation der Phrasenkomponente als Basislinie nicht mehr aufrechtzuerhalten wäre, oder der Dämpfungsfaktor müßte auf einen Wert von 5 s gesetzt werden, um die Nebenbedingungen zu erfüllen, was wiederum die unerwünschte Folge hätte, daß der Verlauf Hp(t) zu stark gedämpft würde. Mit der Festsetzung des Dämpfungsfaktors auf einen für jede Äußerung konstanten Wert läßt sich nicht nur der Zeitpunkt des Phrasenimpulses 0, sondern auch der Phrasensteuermechanismus insgesamt unmittelbar berechnen. Die Bestimmung der Parameter reduziert sich somit auf den Basiswert Fmin und auf die Amplitude des Phrasenimpulses.
6.2.3 Phrasenamplitude und F min Die beiden unbekannten Modellparameter, die Phrasenamplitude A und der Basiswert Fmin, sind Konstanten bei der Berechnung des Verlaufs H (t). Wenn man aus dem gemessenen FQ-Verlauf zwei Meßpunkte auswählt, erhält man ein vollständig
107 bestimmtes Gleichungssystem, mit dem sich die Werte der beiden Modellparameter berechnen lassen. Aufgrund der Deklination der Intonationskontur ist einer der beiden auszuwählenden Meßpunkte das absolute FQ-Minimum, während für den zweiten Meßpunkt grundsätzlich alle anderen lokalen Minima des f0-Verlaufs in Frage kommen. Wie die Empirie zeigt, genügt es, die lokalen Minima im ersten Drittel der Äußerung heranzuziehen. Bei Aussagesätzen wird auf dieser Modellebene zusätzlich ein standardisiertes Phrasenkommando gegeben, das 0,323 s vor Äußerungsende beginnt und eine Amplitude mit dem festen Wert von -0,1 besitzt. Damit wird das typische finale Absinken der Intonationskontur (siehe Abschnitte 2.4 und 4.3) nachgebildet, das dem Hörer das Äußerungsende signalisiert. Die Phrasenkontur, die aus dem Basiswert Fmin, aus der Phrasenamplitude und dem Zeitpunkt des Phrasenkommandos resultieren, werden vom gemessenen F0-Verlauf subtrahiert, so daß auf der Akzentebene ein Restverlauf übrigbleibt, der mit Hilfe der Akzentkommandos nachzubilden ist.
6.3 Parameter der Akzentkomponente Der (Rest-) Verlauf einer jeden Akzentgruppe kann wiederum als eine Folge von Meßpunkten aufgefaßt werden, an die der Modellverlauf sukzessiv angepaßt wird. Die Akzentgruppen einer Äußerung werden von links nach rechts abgearbeitet, es erfolgt also keine Optimierung der Parameter über die gesamte Akzentkomponente hinweg. Im Bereich jeder einzelnen Akzentgruppe werden die Meßpunkte durch den aus genau einem Akzentkommando resultierenden Verlauf nachgebildet. Daher ist für die Bestimmung der Parameter eine Anpassung des Verlaufs Ha(t) an die Meßpunkte der Akzentgruppe durchzuführen, wobei H a (t) = A a - [ G a ( t - T , ) - G a (t-T 2 )]
mit G