250 37 9MB
German Pages 283 [284] Year 2001
Linguistische Arbeiten
439
Herausgegeben von Hans Altmann, Peter Blumenthal, Hans Jürgen Heringer, Ingo Plag, Heinz Vater und Richard Wiese
Stefan
Rabanus
Intonatorische Verfahren im Deutschen und Italienischen Gesprächsanalyse und autosegmentale Phonologie
Max Niemeyer Verlag Tübingen 2001
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Rabanus, Stefan: Intonatorische Verfahren im Deutschen und Italienischen: Gesprächsanalyse und autosegmentale Phonologie / Stefan Rabanus. - Tübingen : Niemeyer, 2001 (Linguistische Arbeiten; 439) Zugl.: Greifswald, Univ., Diss., 2000 ISBN 3-484-30439-1
ISSN 0344-6727
© Max Niemeyer Verlag GmbH, Tübingen 2001 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Gesetzt mit LaTeX T Druck: Weihert-Druck GmbH, Darmstadt Einband: Industriebuchbinderei Nädele, Nehren
Danksagung
Die vorliegende Intonationsstudie ist von September 1996 bis September 1999 im Rahmen des interdisziplinären Projekts „Neue Wege der Intonationsforschung" an der Universität Greifswald und während eines längeren Studienaufenthaltes am Istituto di Fonetica e Dialettologia (IFD) des Consiglio Nazionale delle Ricerche in Padua entstanden. Mein Dank gilt deshalb zunächst allen Kolleginnen und Kollegen, die dort zum Gelingen der Untersuchung beigetragen haben, besonders Cinzia Avesani, Christoph Bandt, Piero Cosi, Christina Gansei, Frank Jürgens, Roland Kehrein, Emanuela Magno Caldognetto, Bernd Pompe, Gisela Ros und Jürgen Erich Schmidt, meinem Doktorvater. Für wertvolle Hinweise und kritische Gutachten zur Arbeit danke ich Hans Altmann (München), Harald Thun (Kiel) und Richard Wiese (Marburg). Anregende Gespräche konnte ich mit Peter Auer, Peter Gilles (beide Freiburg), Jörg Peters und Margret Selting (beide Potsdam) führen, sowie mit vielen Mitgliedern der Gruppe des Freiburger Pragmatischen Kolloquiums und des Gruppo di Fonetica Sperimentale der Associazione Italiana di Acustica. Bei der Transkription sehr umgangsoder regionalsprachlicher Passagen in den italienischen Gesprächen haben mir Edda Farnetani (Padua), Anna dal Negro (Crema) und Carmela Scilipoti (Reggio Calabria) geholfen. Für Hilfe bei analyse- und programmiertechnischen Problemen bin ich Paul Boersma (Amsterdam), Christian Rabanus (Hannover) und Markus Walther (Marburg) zu Dank verpflichtet. Korrekturgelesen haben Sylvia Setzkorn, Gabriele Diederich-Schmidt und meine Eltern. Viele Personen, von denen ich Anregungen oder Hilfe erfahren habe, sind hier umgenannt geblieben, vor allem diejenigen, die anonym bleiben müssen: meine Gesprächsteilnehmer. Unter ihnen befindet sich mancher gute Freund und manche gute Freundin, deren Bedeutung für mich weit über den wissenschaftlichen Bereich hinausgeht.
Marburg an der Lahn, September 2000
Inhaltsverzeichnis
Abkürzungen
XI
Transkription
XIII
Gesprächsteilnehmer 1 Einleitung 1.1 Ziele 1.2 Korpus 1.3 Gliederung 2 Phonologie und Phonetik der Intonation 2.1 Prosodische Merkmale und Einheiten 2.2 Silbe 2.2.1 Die Silbe als zentrale Analysekategorie 2.2.2 Die Isochronie-Hypothese 2.3 Intonationsmodelle 2.3.1 Das Intonationsmodell der Britischen Schule 2.3.1.1 Intonationsgruppen und ihre Begrenzung 2.3.1.2 Akzenttöne und Nukleus 2.3.2 Das Intonationsmodell der autosegmentalen Phonologie . . . . 2.3.2.1 Metrische Komponente 2.3.2.2 Intonationskomponente: Das Pierrehumbert-Modell . 2.3.2.3 ToBI 2.3.2.4 Funktionen der Intonation 2.3.3 Theorie und Empirie: Die Modelle im Vergleich 2.4 Akzentstruktur und Fokussierung 2.5 Phonetik der Intonation 2.5.1 Akustik der Intonation 2.5.2 Perzeption der Intonation 2.5.3 Artikulation der Intonation 2.5.4 Das IPO-Intonationsmodell 2.5.5 Wichtige phonetische Phänomene 2.5.5.1 Deklination 2.5.5.2 Downstep 2.5.5.3 Alinierung 2.5.5.4 Register und Umfang 2.5.5.5 Durchschnittswert 2.6 Beschreibungskategorien 2.6.1 Toninventar 2.6.2 Aufnahme- und Messtechnik
XV 1 2 3 3 5 5 9 9 13 15 16 16 18 21 24 29 33 34 36 39 43 44 45 47 49 50 50 54 54 55 56 56 56 59
VIII 3
Intonation im Deutschen und Italienischen 3.1 Nicht-intonatorische prosodische Merkmale 3.2 Untersuchungen der Intonation des Deutschen 3.2.1 Forschung der 50er/60er Jahre 3.2.1.1 Otto v. Essen 3.2.1.2 Isacenko und Schädlich 3.2.2 Grammatisch orientierte Intonationsforschung 3.2.2.1 John Pheby 3.2.2.2 Das Münchner Projekt von Hans Altmann 3.2.3 Das „Kiel Intonation Model" 3.2.4 Konversationsanalytische Intonationsforschung 3.2.5 Autosegmentale Intonationsforschung 3.2.5.1 Dieter Wunderlich 3.2.5.2 Susanne Uhmann 3.2.5.3 Caroline Fery 3.2.6 Zwischenbilanz 3.3 Untersuchungen der Intonation des Italienischen 3.3.1 Britische Schule 3.3.1.1 Giulio Lepschy 3.3.1.2 Luciano Canepari 3.3.1.3 Amedeo De Dominicis 3.3.2 Autosegmentale Intonationsforschung 3.3.2.1 Martine Grice 3.3.2.2 Cinzia Avesani 3.3.3 Zwischenbilanz 3.4 Sprechstile: gelesen vs. spontansprachlich 3.5 Kontrastive Untersuchungen 3.5.1 Italienisch - Englisch 3.5.2 Italienisch - Französisch 3.5.3 Deutsch - Französisch 3.5.4 Englisch - Deutsch - Italienisch 3.5.5 Resümee
63 63 64 65 65 66 68 68 70 75 79 80 80 81 82 84 85 86 86 88 91 93 93 95 97 98 100 100 101 101 102 103
4
Gesprächsanalytische Intonationsforschung 4.1 Methodische Grundlegung 4.1.1 System des Verhaltens in Gesprächen 4.1.2 Äußerungspaare 4.1.3 Das „richtige Korpus" 4.1.3.1 Experiment 4.1.3.2 Teilnehmende Beobachtung 4.1.3.3 Voruntersuchung: Interview 4.1.4 Vineta-Korpus: Die Gespräche im Varietätengefüge 4.1.4.1 Gesprächssituation, Diaphasik, Diastratik 4.1.4.2 Diatopie 4.1.5 Transkription
105 105 105 106 109 109 111 111 112 112 114 118
IX 4.2
Funktionskategorien 4.2.1 Ethnomethodologische Konversationsanalyse 4.2.1.1 Aushandlungsprozesse in Gesprächen 4.2.1.2 Untersuchungsfelder der Konversationsanalyse . . . . 4.2.2 Sprechakttheoretische Dialoganalyse 4.2.2.1 Verlaufsorientierte Beschreibung 4.2.2.2 Musterorientierte Beschreibung 4.2.3 Dialoganalyse und/oder Konversatiönsanalyse? 4.2.4 Verhaltenskategorien: Übersicht 4.3 Intonatorische Verfahren
120 121 122 125 128 129 130 134 137 139
5 Empirische Untersuchung 5.1 Einzelsprachliche Untersuchungen 5.1.1 Selbstinitiierte Selbstreparaturen 5.1.1.1 Selbstinitiierte Selbstreparaturen im Deutschen . . . . 5.1.1.2 Selbstinitiierte Selbstreparaturen im Italienischen . . 5.1.2 Bearbeitung akustischer Verstehensprobleme 5.1.2.1 Akustische Verstehensprobleme im Deutschen . . . . 5.1.2.2 Akustische Verstehensprobleme im Italienischen . . . 5.1.3 Lokale Erwartungsprobleme 5.1.3.1 Lokale Erwartungsprobleme im Deutschen 5.1.3.2 Lokale Erwartungsprobleme im Italienischen 5.1.4 Turnbeanspruchung 5.1.4.1 Turnbeanspruchung im Deutschen 5.1.4.2 Turnbeanspruchung im Italienischen 5.1.5 Turnverteidigung 5.1.5.1 Turnverteidigung im Deutschen 5.1.5.2 Turnverteidigung im Italienischen 5.1.6 Widerspruch 5.1.6.1 Widerspruch im Deutschen 5.1.6.2 Widerspruch im Italienischen 5.1.7 Insistieren 5.1.7.1 Insistieren im Deutschen 5.1.7.2 Insistieren im Italienischen 5.2 Vergleich 5.2.1 Form-Funktions-Zuordnungen 5.2.1.1 Konversationelle Reparaturen 5.2.1.2 Kampf um das Rederecht 5.2.1.3 Inhaltlicher Dissens 5.2.2 Funktions-Form-Zuordnungen
145 145 145 145 155 158 158 162 166 166 169 174 174 176 182 182 186 198 198 210 218 218 228 237 237 237 238 240 240
6 Zusammenfassung und Ausblick
243
Bibliographie
247
Sachregister
266
Abkürzungen
Α.I.Α. dB C Durchschnittswert F0 FHG GAT GToBI H* HH% Hz IdS IFD IPA IPO KIM λ MIT ms σ SK ST T* (L*) T- (L-) T% (L%) ToBI ToBIt V
Associazione Italiana di Acustica Dezibel Strukturstelle auf der Skelett-Ebene: „Konsonant" durchschnittliche Fo des tiefen Onsets eines Sprechers Grundfrequenz Fokus-Hintergrund-Gliederung Gesprächsanalytisches Transkriptionssystem German Tone and Break Indices hoher Akzentton hoher Phrasenton hoher Grenzton Hertz Institut für deutsche Sprache Istituto di Fonetica e Dialettologia International Phonetic Alphabet Instituut voor Perceptie Onderzoek Kiel Intonation Model Lambda-Operator Massachusetts Institute of Technology Millisekunde Silbe Steigungskoeffizient Semitone, Halbton tiefer Akzentton tiefer Phrasenton tiefer Grenzton Tone and Break Indices Tone and Break Indices italiani Strukturstelle auf der Skelett-Ebene: „Vokal"
Transkription
Die Transkription der Gespräche erfolgt in Blöcken aus je drei Zeilen. Die Basistranskription in der ersten Zeile richtet sich nach den Konventionen des Gesprächsanalytischen Transkriptionssytems (GAT). Die Feintranskription der Intonationskontur wird mit dem in Kap. 2.6.1 eingeführten Toninventar in der zweiten Zeile vorgenommen. Akzenten, denen kein Ton sicher zugewiesen werden kann, wird in dieser Zeile das Zeichen » ? « zugeordnet. In der dritten Zeile werden - soweit messbar - die Hz-Werte der Zielpunkte der Akzent- und Grenztonbewegungen angegeben. Der Wert des „frühen Gipfels" in H + T * wird in Klammern notiert. Für Äußerungen des teilnehmenden Beobachters SF, die in der Intonationsanalyse nicht berücksichtigt werden, erfolgt weder Feintranskription, noch Messung. Wenn die akustische Qualität der Äußerungen nicht ausreicht, fallen diese Zeilen auch bei den Redebeiträgen anderer Interaktanten weg. In der Arbeit werden folgende GAT-Konventionen verwendet: Wo [rt [Wort Turn= =Turn
Überlappung, Simultansprechen von Wörtern schneller Anschluss eines Turns an einen anderen
.hh, .hhh hh, hhh
kurze Pause, kleiner als 0,2 s Pause von 0,2 bis 0,5 s gemessene Pause in s Dehnung, je nach Länge, z.B. so: : Abbruch durch Glottisverschluss, z.B. i c h d e ' Einatmen, je nach Dauer Ausatmen, je nach Dauer
((lacht)) so(h)o hm, ja, äh, eh etc. hm=m, ja=a etc. 'hm'hm
Deskription von Nonverbalem Lachpartikel beim Reden einsilbige Diskurspartikeln zweisilbige Diskurspartikeln redupliziertes Signal mit Glottisverschlüssen
( )
Auslassung im Transkript Verweis auf im Text behandelte Transkriptzeilen unverständliche Passage vermuteter Wortlaut nicht mit Sicherheit identifizierbare Laute/Silben
(.) (-) (2.0)
etc.
(solche) al(s)o akZENT akzEnt akIZENT!
prominentester Akzent der IP, „Hauptakzent (Akzentsilbe in Majuskeln) anderer Akzent, „Nebenakzent" (Vokal(e) der Akzentsilbe als Majuskel(n)) extra starker Akzent
XIV finale Tonhöhenbewegung: hoch steigend mittel steigend gleichbleibend mittel fallend tief fallend t 4
Tonhöhensprung nach oben Tonhöhensprung nach unten
« t > . . .> « h > . . .> « f > . . ·> « p > . . ·> « a l l > . . ·>
(global) tiefes Tonhöhenregister (global) hohes Tonhöhenregister Lautstärke: forte piano Sprechgeschwindigkeit: allegro, schnell
{okay}
Äußerung, die vom jeweiligen Standard abweicht und dialektalen oder fremdsprachigen Aussprachekonventionen folgt (in G A T nicht vorgesehen)
Gesprächsteilnehmer
Die Tabelle informiert über die Sozialdaten der Sprecher (Geschlecht, Muttersprache, Alter, Beruf, Heimatort) und die Durchschnittswerte ( 0 ) des tiefen Offsets ihrer Intonationsphrasen: η ι = Gesamtzahl der Äußerungen mit messbarem tiefen Offset, «2 = längere Äußerungen, η·Λ = Kurzäußerungen/Diskurspartikeln. Sigle BB
SK
RM RR MR SC NH
MM
PA
IH
GP JB
KB IC
weibl., dt., 23 Studentin, Bergen/Rügen weibl., dt., 30 wiss. Mitarbeiterin, Köln weibl., it., 40 Lehrerin, Mailand weibl., it., 27 Lehrerin, Reggio C. weibl., it., 30 Lehrerin, Reggio C. weibl., it., 48 Hausfrau, Colico (LC) weibl., dt., 27 Studentin, Hochheim/Main weibl., it., 26 Studentin, Messina/Reggio C. männl., dt., 23 Student, Anklam /Vorpommern männl., dt., 27 Student, Hückelhoven (Kreis Heinsberg/NRW) männl., it., 59 Restaurator, Palermo männl., dt., 30 wiss. Mitarbeiter, Bielefeld männl. dt., 24 Student, Bansin/Usedom männl., it., 50 Handwerker, Colico (LC)
Πι
0
712
0
205 Hz
18
0 197 Hz
n3
27
9
220 Hz
77
179 Hz
57
178 Hz
20
181 Hz
58
173 Hz
16
166 Hz
19
188 Hz
17
173 Hz
16
173 Hz
1
175 Hz
14
171 Hz
14
171 Hz
36
159 Hz
30
158 Hz
6
164 Hz
90
153 Hz
65
149 Hz
25
163 Hz
9
132 Hz
6
126 Hz
3
144 Hz
19
122 Hz
16
118 Hz
3
144 Hz
20
110 Hz
15
104 Hz
5
128 Hz
11
104 Hz
7
101 Hz
4
109 Hz
44
102 Hz
30
103 Hz
14
100 Hz
9
100 Hz
7
102 Hz
2
95 Hz
52
96 Hz
43
96 Hz
9
98 Hz
1
Einleitung
Intonation, der Gebrauch des Tonhöhenverlaufs, ist ein Phänomen, dessen Erforschung umfassende Möglichkeiten des Verstehens von Sprechen und Kommunikation eröffnet. An der Erforschung der Intonation wird stärker als an anderen Phänomenen deutlich, dass Kommunikation über ein Zusammenwirken sprachlicher und nichtsprachlicher Signalisierungssysteme funktioniert. Die Bedeutung der Intonation für die Kommunikation lässt sich nur bestimmen, wenn gleichzeitig die anderen Signalisierungssysteme - allen voran Grammatik und Lexik - berücksichtigt werden. In der Intonationsforschung wird außerdem evident, dass die phonetischen Merkmale der Rede, die auf Artikulation, Transmission und Perzeption des Sprachsignals beruhen, Produkte entsprechender (sprach-) wissenschaftlicher Untersuchungsmethoden sind und nicht die Phänomene an sich abbilden. Im Mittelpunkt einer Studie, die die Zuordnung von Formen zu Funktionen in natürlicher Interaktion zum Thema hat, steht die Perzeption: Funktion hat nicht das, was der Analytiker misst, sondern das, was die Interaktionsteilnehmer hören. Aufgrund der vielen Schwierigkeiten, die der Analyse in dieser Situation entstehen, ist das Wissen über das Phänomen Intonation trotz einer über hundertjährigen Forschungsgeschichte und zahlreicher großer Projekte in den letzten Jahren noch immer gering. Die vorliegende Studie versteht sich deshalb als Beitrag zur Grundlagenforschung. Sie versucht, die analysepraktischen Schwierigkeiten zu überwinden, indem sie die Interferenzen der anderen Signalisierungssysteme nicht als „Störungen" auffasst, die es zu beseitigen gelte. Die Komplexität wird, im Gegenteil, als Chance begriffen, an der Intonation beispielhaft das Funktionieren von Sprechen und Kommunikation als Ergebnis des Zusammenspiels verschiedener Signalisierungssysteme zu zeigen. Aus diesem Grund wird die Intonation in ihrer natürlichen Umgebung untersucht: in ungesteuerten Alltagsgesprächen. Mit der Herauslösung der zu untersuchenden Phänomene und der Versetzung in die künstliche Umgebung des Experiments würden die interaktiven Funktionen verlorengehen, die untersucht werden sollen. Mit der Verbindung von Gesprächsanalyse und Intonationsforschung wird daher einem Desiderat entsprochen, das trotz erster konversationsanalytischer Arbeiten in dieser Richtung noch weitgehend unerfüllt ist. Die vorliegende Studie setzt das in Rabanus (1998) skizzierte Programm um. Sie ist den methodischen Prinzipien der ethnomethodologischen Konversationsanalyse verpflichtet. Die Analyse wird an einem Korpus aus deutschen und italienischen Gesprächen vorgenommen. Zur Intonation dieser beiden bedeutenden europäischen Sprachen liegt bisher keine umfassendere kontrastive Studie vor. Der Blick auf zwei Sprachen gibt außerdem Aufschluss darüber, was von der These zu halten ist, dass die Intonation ein universales, übereinzelsprachliches Signalisierungssystem ist.
2
1.1
Ziele
Die Untersuchung orientiert sich an den folgenden vier Leitfragen: 1. Welche Funktionen erfüllt Intonation in der konversationellen Interaktion und welche Punktionskategorien sind für die kontrastive Analyse geeignet? 2. Wie lässt sich Intonation formal beschreiben und welchen Anforderungen müssen die Beschreibungskategorien in der kontrastiven Analyse genügen? 3. Wie sind die Formen mit den Punktionen gekoppelt? 4. Welche Unterschiede in der Form-Funktions-Zuordnung bestehen zwischen Deutsch und Italienisch? Die Funktionskategorien, die gleichzeitig die Vergleichskategorien der kontrastiven Analyse bilden, sind einem abstrakten und übereinzelsprachlichen System, des Verhaltens in Gesprächen entnommen (Kap. 4.1.1). In Fortführung von Arbeiten der Konversations- und Dialoganalyse werden sieben Funktionskategorien als Teil dieses Systems definiert (Kap. 4.2): Selbstinitiierte Selbstreparatur, Bearbeitung akustischer Verstehensprobleme, lokales Erwartungsproblem, Turnbeanspruchung, Turnverteidigung, Widerspruch, Insistieren. Der Ausdruck der syntaktischen und diskurssemantischen Funktionen der Intonation, die in den Laboruntersuchungen bevorzugt betrachtet werden (Kap. 3), tritt in der konversationellen Interaktion hinter den Ausdruck diese Funktionen zurück. Die formale Beschreibung der Intonationskonturen erfolgt im Rahmen des Intonationsmodells der autosegmental-metrischen Phonologie (Kap. 2.3.2) mit einer an die Erfordernisse dieser Studie angepassten Fassung des Transkriptionssystems ToBI (Kap. 2.6.1). ToBI wird als System zur auditiven phonetischen Beschreibung von Tonhöhenverläufen rekonstruiert. Phonologische Einheiten (Phänomene, die das Kriterium der phonologischen Distinktivität erfüllen) sind hinsichtlich der betrachteten Funktionskategorien allerdings nicht die Töne von ToBI, sondern intonatorische Verfahren (Kap. 4.3), mit denen Konturen zum Zweck der Unterscheidung der genannten Funktionskategorien bearbeitet werden. Intonationskonturen werden als Ressource verstanden, mit der sich die Interaktionsteilnehmer non-verbal über ihre lokalen Handlungsziele verständigen. Welche Zuordnungsverhältnisse zwischen Formen (intonatorischen Verfahren) und Funktionen (Kategorien aus dem System des Verhaltens in Gesprächen) bestehen, wird zunächst für Deutsch und Italienisch getrennt untersucht (Kap. 5.1). Anschließend werden die Ergebnisse der einzelsprachlichen Untersuchungen einander gegenübergestellt und interpretiert (Kap. 5.2).
3 1.2
Korpus
Die empirische Basis der Untersuchung ist ein Korpus aus drei deutschen und drei italienischen Alltagsgesprächen aus den Jahren 1997 und 1998. Um Verwechslungen mit den Korpora referierter Untersuchungen zu vermeiden, habe ich mein Korpus „Vineta-Korpus" genannt. 1 Die deutschen Gespräche wurden in Greifswald und Mainz aufgezeichnet, die italienischen in Reggio di Calabria und in Colico am Comer See. Die Anzahl der Teilnehmer pro Gespräch variierte zwischen drei und fünf Personen, womit abgesehen von mir selbst - ich habe als teilnehmender Beobachter an allen Gesprächen teilgenommen - sieben deutsche und sieben italienische Muttersprachler aktiv an den Gesprächen beteiligt waren. An den italienische Gesprächen nahmen mehr Frauen als Männer teil, in den deutschen ist das Geschlechterverhältnis zahlenmäßig ausgeglichen. Alle deutschen Sprecher waren zum Zeitpunkt der Aufnahmen zwischen 23 und 30 Jahren alt und gehörten als Studenten oder wissenschaftliche Mitarbeiter dem akademischen Milieu an. Auch die italienischen Sprecher waren größtenteils Akademiker, nur ein Gespräch fand im Haus eines Handwerkerehepaars statt. Das Alter der italienischen Muttersprachler lag zur Aufnahmezeit zwischen 27 und 59 Jahren. Die italienischen Sprecher repräsentieren die größere Bandbreite an sozialen Beziehungen. Regionalsprachliche Variation gibt es sowohl in den deutschen als auch in den italienischen Gesprächen. Allerdings orientieren sich alle Sprecher an der Standardnorm. Äußerungen im Basisdialekt kommen nur in Gesprächen homogener Gruppen mit regionalsprachlicher Kompetenz vor (in zwei italienischen Gesprächen) und werden von den Teilnehmern als Abweichungen von der Norm kontextualisiert. Das Korpus wird ausführlich in Kap. 4.1.4 beschrieben. Die Transkription von insgesamt 46 Minuten aus den Gesprächen ist in der Digitalen Bibliothek Marburg, online im Internet unter http://archiv.ub.uni-marburg.de/sonst/2000/0003/ [Stand: 23.09.2000] abgelegt. Die Tonaufnahmen der in Kap. 5 untersuchten Außerungspaare sind dort mit der Transkription verknüpft und können angehört werden.
1.3
Gliederung
In Kap. 2 werden Terminologie und Begriffiichkeit der Intonationsforschung eingeführt und erläutert. In den Kapiteln 2.1 bis 2.4 werden die phonologischen Aspekte der Intonationsforschung diskutiert. Dazu zählen die Unterscheidung von prosodischen Merkmalen und Einheiten, sprachtypologische Fragen hinsichtlich Silbe und rhythmischer Struktur, Intonationsmodelle und der Zusammenhang von Akzentstruktur und Fokussierung. Kap. 2.5 beleuchtet die phonetischen Aspekte der Intonationsforschung und führt die Intonation als Untersuchungsgegenstand der akustischen, auditiven und 1
Vineta ist der Name einer sagenhaften, reichen und prächtigen Stadt, die vor der Küste der Insel Usedom, 50 Kilometer von Greifswald entfernt, auf dem Grund der Ostsee liegen soll.
4 artikulatorischen Phonetik vor. In Kap. 2.6 werden das für diese Studie entworfene Toninventar sowie die Aufnahme- und Messtechnik vorgestellt. In Kap. 3 wird die Forschungsgeschichte anhand der wichtigsten Arbeiten zur Intonation im Deutschen und im Italienischen referiert. Weil sich die vorliegende Arbeit - bei aller Exaktheit der phonetischen Analysen - als phonologische Grundlagenforschung versteht, werden hier zwar auch experimentell-phonetische und anwendungsorientierte Untersuchungen referiert, der Schwerpunkt liegt aber auf sprachwissenschaftlichen Studien, in deren Zentrum der Form-Funktions-Zusammenhang steht. Kap. 3.2 referiert in einem Forschungsüberblick ausgewählte Untersuchungen der deutschen Intonation. Die Geltung der dort postulierten Form-Funktions-Zuordnungen wird im Hinblick auf konversationeile Kontexte relativiert. In Kap. 3.3 werden analog dazu Untersuchungen der italienischen Intonation referiert. In Kap. 3.4 wird gezeigt, dass nicht nur die Form-Funktions-Zuordnungen, sondern auch die phonetischen Merkmale von gelesenen Sätzen und spontansprachlichen Äußerungen differieren. Merkmale, die das lautliche Erscheinungsbild des Deutschen von dem des Italienischen unterscheiden, ohne intonatorisch zu sein, werden in Kap. 3.1 aufgelistet. Kap. 3.5 stellt einige Ansätze zur kontrastiven Intonationsanalyse vor. In Kap. 4 wird der Ansatz zur gesprächsanalystischen Intonationsforschung entwickelt. Er ist Konsequenz der Überlegungen hinsichtlich der Eignung der in Kap. 3 vorgestellten Modelle für die (kontrastive) Analyse der Intonation im Gespräch. In Kap. 4.1 wird die Methode begründet. Kap. 4.2 expliziert die Funktionskategorien vor dem Hintergrund von Konversations- und Dialoganalyse. In Kap. 4.3 werden die intonatorischen Verfahren eingeführt. Kap. 5 enthält die empirische Untersuchung. In Kap. 5.1 wird die Analyse, nach Funktionskategorien geordnet, für Deutsch und Italienisch getrennt durchgeführt. In Kap. 5.2 werden die Ergebnisse der einzelsprachlichen Untersuchungen zusammengefasst, verglichen und interpretiert. In Kap. 6 werden die in Kap. 1 gestellten Leitfragen abschließend beantwortet.
2
Phonologie und Phonetik der Intonation
In den folgenden Kapiteln werden die phonetischen und phonologischen Konzepte der Intonationsforschung diskutiert. Die Phonologie (Kap. 2.1 bis 2.4) wird mit einer doppelten Begründung vor der Phonetik (Kap. 2.5) behandelt: Einerseits werden perzipierte phonetische Merkmale vom Sprachteilhaber direkt und unreflektiert funktional interpretiert. Andererseits finden phonetische Untersuchungen im Rahmen der Sprachwissenschaft immer vor dem Hintergrund einer bestimmten phonologischen Theorie oder zur Überprüfung einer phonologischen Hypothese statt. Beides spricht dafür, die phonologische Aspekte vor den phonetischen zu behandeln. In Kap. 2.6 werden die in Auseinandersetzung mit den phonetischen und phonologischen Aspekten entwickelten Beschreibungskategorien erläutert: das Toninventar und die Art und Weise, wie die Zuweisung der Töne durch phonetische Messwerte gestützt wird.
2.1 Prosodische Merkmale und Einheiten
Prosodie wird verstanden als Oberbegriff für diejenigen suprasegmentalen Aspekte der Rede, die sich aus dem Zusammenspiel der akustischen Parameter Grundfrequenz ( f o ) , Intensität und Dauer in silbengroßen oder größeren Domänen ergeben. 1
Dieses Zitat gibt die in der Forschung weithin akzeptierte Definition für sprachliche Phänomene an, die oberhalb der Ebene der Lautsegmente angesiedelt sind. Mit dem Terminus Prosodie wird heute wieder auf all jene Phänomene referiert, die man in den 70er und 80er Jahren des 20. Jahrhunderts als Suprasegmentalia bezeichnet hat. 2 Bezugseinheit für die in dieser Arbeit behandelten prosodischen Phänomene ist die Silbe. Zur Systematisierung der zahlreichen prosodischen Phänomene wird hier die auf Kohler und Schmidt zurückgehende Unterscheidung von prosodischen bzw. suprasegmentellen Merkmalen und prosodischen bzw. suprasegmentellen Einheiten aufgegriffen.3 1 2
3
Selting (1995), S. 1. Vgl. Schmidt (1986), S. 17, Fn. 4. Prosodie wird vorgezogen unter anderem von Zifonun et al. (1997), Bd. 1, S. 189 in der Grammatikschreibung, Wiese (1996), S. 26 in der generativen Phonologie, Cruttenden ( 2 1997), S. 1 in der Phonologie der Britischen Schule, Bertinetto/Magno Caldognetto (1993), S. 143 in der italienischen Terminologie und Selting (1995), S. 1 wie zitiert in der Konversationsanalyse. In der generativen Phonologie ist diese Präferenz mit der Einführung der autosegmentalen Phonologie begründet, siehe S. 22. Kohler ( 1 1977), S. 118f. oder ( 2 1995), S. 110 spricht nur von prosodischen Merkmalen und verzichtet auf einen eigenen Terminus für prosodische Merkmale mit sprachlicher Punktion. Schmidt (1986), S. 16-38 schließt an Köhlers Überlegungen an und führt den Terminus suprasegmentelle Einheiten für die suprasegmentellen bzw. prosodischen Merkmale mit sprachlicher Funktion ein. Prosodische Einheit entspricht in etwa Prosodem, vgl. dazu z.B. Hammarström (1963).
6 Akustische Merkmale
Auditive Merkmale
Prosodische Einheiten
Abb. 2.1: Der artikulatorische Zusammenhang Prosodische Merkmale sind phonetische Phänomene, die in einem Dreiebenenmodell als auditive, akustische und artikulatorische Merkmale beschrieben werden können. Dazu zählen: 1. die auditiven Merkmale Dauer, Tonhöhe und Prominenz, 2. die akustischen Merkmale zeitliche Erstreckung, Grundfrequenz und Intensität und 3. die artikulatorischen Merkmale zeitliche Steuerung der Artikulationsbewegung, Schwingungsverhalten der Stimmlippen, Erzeugung und Zustand des Ausatmungsluftstroms, soweit sie nicht intrinsische Eigenschaften kleinster syntagmatischer Segmente sind. 4
Prosodische Einheiten sind dagegen phonologische Phänomene. Von prosodischen Einheiten spricht man dann, wenn die Phänomene das Kriterium der phonologischen Distinktivität erfüllen, das heißt, wenn sie sprachliche Funktionen distinguieren. Prosodische Einheiten unterscheiden eine Fülle von syntaktischen, semantischen und pragmatischen Funktionen. Kohler unterscheidet ausgehend von den auditiven prosodischen Merkmale drei prosodische Einheiten, nämlich Quantität, Akzent und Intonation: Neben die phonetische D a u e r tritt die phonologische Q u a n t i t ä t , neben die phonetische P r o m i n e n z der phonologische W o r t - und S a t z a k z e n t und neben die phonetische T o n h ö h e der phonologische T o n und die phonologische I n t o n a t i o n. 5
Prosodische Einheiten sind auditive prosodische Merkmale mit sprachlicher Funktion. Zwischen prosodischen Einheiten und akustischen Merkmalen gibt es dagegen keine eineindeutige Beziehung. Die akustischen Merkmale stehen in einem komplexen artikulatorischen Zusammenhang. Das bedeutet, dass mit einer prosodischen Erscheinung (und einem auditiven Merkmal) jeweils ein ganzes Bündel akustischer Merkmale 4 5
Schmidt (1986), S. 17f. Kohler ( 2 1995), S. 110. Gibbon (1995), S. 458 unterscheidet in seinem Modell die linguistischen Domänen word level mit den Einheiten tone, stress und length und supra-word level mit intonation, accent und rhythm.
7
korreliert.6 Abb. 2.1 verdeutlicht den artikulatorischen Zusammenhang. Besonders augenfällig ist der artikulatorische Zusammenhang beim Akzent. Es ist umstritten, welches der akustischen Merkmale Intensität, Grundfrequenz und zeitlicher Erstreckung primär ist bzw. ob es überhaupt ein primäres Merkmal gibt. 7 Aber auch für die Intonation besteht ein artikulatorischer Zusammenhang. In der vorliegenden Arbeit werden alle prosodischen Merkmale auf die Kategorien Quantität, Akzent und Intonation bezogen. Auf eine ihnen nebengeordnete „Restkategorie" für Phänomene wie Sprechtempo, Rhythmus, Stimmqualität und Pausen, wie sie Möbius (1993, S. 9) vorschlägt, wird verzichtet. Sprechtempo, Rhythmus und Pausen gehen partiell in die Analyse der metrischen Struktur ein. Die Punktionen von Stimmqualität und Klangfarbe werden hier nicht untersucht. Die prosodische Einheit Intonation steht im Mittelpunkt der vorliegenden Untersuchung. In der Forschungsliteratur kommen unterschiedliche Konzeptualisierungen von Intonation/intonazione vor.8 Intonation wird mit dem auditiven Merkmal 'Tonhöhe' gleichgesetzt,9 als 'Intonation im weiteren Sinn' und damit als Synonym zu Prosodie verstanden 10 oder als prosodische Erscheinung wie oben ausgeführt neben Akzent und Quantität gestellt. 11 In der vorliegenden Untersuchung wird Intonation in der letztgenannten Konzeptualisierung verwendet: Intonation ist der „Gebrauch des Melodieverlaufs" und korreliert mit der Tonhöhe (auditiv) und dem Schwingungsverhalten der Stimmlippen am Kehlkopf (artikulatorisch). 12 Unter den korrelierenden akustischen Merkmalen kommt der Grundfrequenz besondere Bedeutung zu. Intonation meint den Melodieverlauf der Gesamtäußerungen und beschränkt sich nicht auf die letzte Tonhöhenb e wegung. Intonation wird in der autosegmentalen Phonologie durch Akzent-, Phrasen- und Grenztöne auf der Ton-Ebene repräsentiert. Die Intonationskontur wird als Summe lokaler Töne aufgefasst. Die in Kap. 3 referierten Studien zeigen, welche syntaktischen, diskurssemantischen und einstellungsbezogenen Funktionen durch Töne unterschieden werden können. Die in dieser Arbeit untersuchten Funktionen aus dem System des Verhaltens in Gesprächen werden allerdings nicht durch einzelne Töne oder Intonationskonturen ausgdrückt, sondern durch intonatorische Verfahren.13 „Gebrauch des Tonhöhenverlaufs" heißt deshalb auch: 'Verwendung eines bestimmten intonatorischen Verfahrens'. Lexikalische Töne oder Tonakzente kommen in den untersuchten Varietäten des Deutschen und Italienischen nicht vor.14
6
7 8 9 10 11 12 13 14
Die Ergebnisse des Greifswalder Projekts zeigen, dass für die Perzeption von Funktionen Merkmalskombinationen signifikanter sind als Einzelmerkmale, vgl. Bandt et al. (2001). Siehe unten, S. 8f. Zur Begrifflichkeit in der englischsprachigen Debatte vgl. Ladd (1996), 6ff. Z.B. von Selting (1995), S. 1. Z.B. von Altmann et al. (1989), S. 2; Canepari (1985), S. 31; Pheby (1981), S. 839. Z.B. von Kohler ( 2 1995), S. 121 und Dominicis (1992), S. VIII. Vgl. im Detail Kap. 2.5. Siehe dazu Kap. 4.2 und 4.3. Zu Tonakzenten in deutschen Dialekten vgl. Schmidt (1986).
8 Auch Akzent wird in der Forschung unterschiedlich konzeptualisiert. Die wichtigste Unterscheidung ist die zwischen Wortakzent und Satzakzent.15 In der vorliegenden Studie wird Akzent als Satzakzent oder, zutreffender, als Außerungsakzent verstanden und folgendermaßen definiert: Akzent ist die Hervorhebung einer oder mehrerer sprachlicher Einheiten (Silbe, Wort, Konstituente) durch phonetische Mittel. Primäres auditives Merkmal des Akzents ist die Prominenz. Für die akustischen Merkmale des Akzents gilt das oben zum artikulatorischen Zusammenhang Ausgeführte ganz besonders: Zur Prominenzsignalisierung können alle phonetischen Merkmale beitragen. Der (Äußerungs-)Akzent ist durch kommunikative Erfordernisse (zum Beispiel Markierung der Informationsstruktur) gesteuert. 16 Auch der Wortakzent zeichnet sich durch auditive Prominenz aus. Weil der Wortakzent aber weitgehend unabhängig von kommunikativen Erfordernissen ist und stattdessen nach abstrakten Regeln zugewiesen wird, 17 sind akustische Korrelate nicht in jedem Fall nachweisbar. Für die Perzeption von Wortakzenten mag in maxichen Fällen das Sprachwissen ausreichend sein.18 Wortakzente werden in der vorliegenden Untersuchung nicht empirisch untersucht. 19 Dem Deutschen wird traditionell ein auf Grundfrequenzvariation gegründeter melodischer Akzent zugeschrieben.20 Neuere Untersuchungen sehen dagegen in der zeitlichen Erstreckung der prominenten Silbe das primäre akustische Merkmal des Akzents. 21 Unter bestimmten Bedingungen (zum Beispiel beim Flüstern) ist Prominenzsignalisierung durch Grundfrequenzvariation sogar unmöglich.22 Auch im Italienischen wird der Akzent primär durch zeitliche Erstreckung realisiert. 23 Unabhängig davon, welchen Stellenwert die Grundfrequenzvariation für die Prominenz Wahrnehmung hat, lassen meine Analysen die Feststellung zu, dass auf Akzenten in den allermeisten Fällen Grundfrequenzvariation stattfindet. In der autosegmentalen Phonologie wird die Akzentstruktur auf der metrischen Ebene repräsentiert. Die metrische Analyse24 ist notwendige Voraussetzung für die Analyse der Intonationsstruktur, weil nur Akzenten (und Grenzstellen) Töne zugewiesen werden.
15 16 17 18
19 20 21
22 23 24
Vgl. Kohler ( 2 1995), S. 114-120. Vgl. Kap. 2.4. Schmidt (1986), S. 27 spricht deshalb vom „normativen Wortakzent". In der englischsprachigen Literatur wird deshalb im Anschluß an Bolinger (1972b), S. 22 zwischen realisiertem accent und abstraktem stress unterschieden, wobei stress notwendige Bedingung für accent ist. Vgl. Ladd (1996), S. 48f.; Uhmann (1991), S. 21f.; Bertinetto (1981), S. 50-53. Anders konzeptualisiert Cruttenden ( 2 1997), S. 13. Vgl. aber die Ausführungen zu den Wortakzentregeln in Kap. 2.3.2, S. 26ff. Vgl. Isacenko/Schädlich ( 2 1971), S. 20ff. Vgl. Dogil (1999), S. 291-299, bes. S. 292f. und Jessen et al. (1995), passim. Kontrovers dazu Möbius (1993), S. 10-16. Kohler (1991), S. 298-305 unterscheidet im „Kiel Intonation Model" einen auf zeitlicher Erstreckung basierenden von einem auf Grundfrequenzvariation basierenden Akzent. Siehe Kap. 3.2.3, S. 75ff. Vgl. Kohler ( 2 1995), S. 114. Vgl. Voghera (1992), S. 96 und den umfassenden Überblick in Bertinetto (1981), S. 41-90. Vgl. Kap. 2.3.2, S. 24ff.
9 Quantität ist eine prosodische Einheit, deren primäres auditives Merkmal die Dauer ist. Im Standarddeutschen können Dauerunterschiede als redundante Merkmale von Vokalqualitäten aufgefasst werden können. 25 Im Standaritalienischen und in verschiedenen deutschen Dialekten sind Quantitäten dagegen prosodische Einheiten, weil sie nicht nur die Vokale, sondern die gesamte Silbe betreffen. 26 Quantitäten spielen in der vorliegenden Untersuchung nur eine untergeordnete Rolle in der metrischen Analyse. Sie werden auf der CV-Ebene wiedergegeben, die in den Analysen nicht systematisch berücksichtigt wird. Die Intonation wird direkt an die Silbenstruktur angebunden.
2.2
Silbe
2.2.1 Die Silbe als zentrale Analysekategorie Die Bezugseinheit prosodischer Merkmale und Einheiten ist in dieser Arbeit die Silbe. Der Vorschlag der (linearen) generativen Phonologie der „Sound Pattern of English", die Silbe als Trägerin prosodischer Eigenschaften abzuschaffen, indem in die Merkmalskomplexe von Lautsegmenten auch abstrakte Akzentstärken (stress) integriert werden, ist nicht zuletzt von der späteren generativen Phonologie selbst zurückgewiesen worden. 27 Zahlreiche phonotaktische Regeln beziehen sich auf die Silbe. Auch die Regeln zu Akzentverteilung und Tonassoziation lassen sich mit Bezug auf die Silbe einfacher formulieren als mit Bezug nur auf Lautsegmente und morphologische Grenzsymbole.28 Außerdem besitzt die Silbe für die meisten Muttersprachler mentale Realität, was sich darin ausdrückt, dass den meisten Muttersprachlern die Zerlegung von Äußerungen in Silben auch ohne linguistische Kenntnisse keine Schwierigkeiten bereitet. 29 Die Silbe ist also eine perzeptiv relevante Einheit und eine wichtige phonologische Kategorie. Im generativen Modell von Nespor und Vogel (1986, S. 11) ist die Silbe eine von sieben prosodischen Konstituenten in hierarchischer Stufung: 25 26
27
28 29
Vgl. Schmidt (1986), S. 22-24. Bannert (1976), S. 25 belegt, dass die Domäne der Quantität im Mittelbairischen „aus der Sequenz von betontem Vokal und dem folgenden Konsonanten besteht." Es sind nur die kontrastierenden Sequenzen 'Langvokal + Kurzkonsonant' und 'Kurzvokal + Langkonsonant' möglich. Im Mittelfränkischen sind vokalische und konsonantische Dauer unter Tonakzenten komplementär, vgl. Schmidt (1986), S. 185-191. Zum Standarditalienischen vgl. Solari (1997), S. 225. Der Verzicht auf die Silbe ist auch in den „Sound Pattern of English" nicht vollkommen, weil Chomsky und Halle (1968), S. 354 für Vokale das Merkmal [+syllabic] anstelle von [+vocalic] ansetzen. Siehe dazu in der vorliegenden Arbeit auch S. 21f. Vgl. Auer (1994), S. 56. Vgl. Wiese (1996), S. 33. Selbst in der exotischen Sprache Fijian kommt „syllabic oral spelling" vor, vgl. Blevins (1995), S. 209f. Interessant ist auch das Ergebnis einer Untersuchung von Burani und Cafiero (1991), die für die Silbe im Italienischen eine Rolle bei der Erkennung graphisch repräsentierter Wörter nachweist.
10
σ
Onset
Reim
Nukleus
Koda
Abb. 2.2: Konstituentenstruktur der Silbe These seven units, from large to small, are: the phonological utterance (U), the intonational phrase ( / ) , the phonological phrase (φ), the clitic group (C), the phonological word (ω), the foot (Σ) und the syllable (σ). 3 0 Als phonetische Einheit ist die Silbe problematisch, weil Silbengrenzen exakte Korrelate weder in akustischer noch in artikulatorischer Hinsicht haben. 3 1 Für die Silbe (symbolisiert durch » σ « ) wird in der generativen Phonologie eine Konstituentenstruktur angenommen. Für Englisch, Deutsch und Italienisch gilt das in Abb. 2.2 dargestellte Modell. 32 Wiese (1996, S. 44) ergänzt dieses Modell um eine für das Deutsche gültige Skelett-Ebene. Die Annahme eines Silbenmodells mit einer 30
Vgl. dazu auch Nespor (1999), S. 117-126. Die Konstituente Fuß lässt sich im Deutschen mit Gesetzmäßigkeiten in der Wortbildung und der Distribution von [?] begründen, vgl. Wiese (1996), S. 56-61. Darüber hinaus ist der Fuß eine wichtige metrische Kategorie in den sog. akzentzählenden Sprache, siehe Kap. 2.2.2, S. 13. Das phonologische Wort - nach Auer (1994), S. 71 zusammengesetzt „aus dem Stamm, den Präfixen, den meisten Suffixen (ausgenommen -heit, -keit, -bar, -lieh etc.) und den enklitischen Erweiterungen" - wird als Domäne der Silbifizierung, zahlreicher phonologischer Regeln (z.B. der Assimilation) und des Wortakzents angesehen, vgl. Wiese (1996), S. 65ff. Auer (1994), S. 76 hält das phonologische Wort für die prosodische Hauptkategorie des Standarddeutschen. Die Bedeutung der klitischen Gruppe ist umstritten, die der phonologischen Phrase im Deutschen als Domäne für bestimmte Akzentverschiebungen sehr begrenzt. Vgl. Wiese (1996), S. 74-77 zur phonologischen Phrase im Deutschen, und Nespor (1985), passim zur phonologischen Phrase im Italienischen. Die More (μ) ist nach einer traditionellen Auffassung - vgl. Auer (1991), S. 10 - für das Standard-Neuhochdeutsche empirisch nicht gerechtfertigt und wird auch für das Italienische selten operationalisiert. In modernen autosegmentalen Ansätzen zeichnet aber eine Änderung dieser Auffassung ab. Van der Hülst (1999), S. 10-14 verwendet die More als universales Konzept zur Bestimmung des Silbengewichts. Peters (in Vorb.) unterscheidet durch Zerlegung von Silben in Moren unterschiedliche Realisierung der Fokusintonation in verschiedenen regionalen Varietäten des Deutschen.
31
Vgl. dazu den Forschungsüberblick von Bertinetto (1981), S. 148-156. Heike (1992), S. 26 schreibt: „Zusammenfassend kann man sagen, daß die Silbe sich im (natürlichen oder simulierten) lautsprachlichen Produktionsprozess mit dem zeitlichen Erstreckungsbereich (ko-)artikulativer Steuerungsprozesse deckt [...], daß sie aber entgegen einer diskretsegmentalen Vorstellung keine scharfen Grenzen hat." Graphik nach Eisenberg/Ramers/Vater (1992), S. V. Zum Englischen vgl. Blevins (1995), S. 213, zum Italienischen Nespor (1993), S. 156 und Mioni (1993), S. 128, zum Deutschen Vater (1992), S. 100.
32
11 σ
Onset
Reim
Nukleus
C
C
V
C
Koda
C
Abb. 2.3: Konstituentenstruktur der Silbe und CV-Struktur Konstituentenstruktur - gegenüber einem „flachen" Modell ohne Konstituenten - ist sinnvoll, weil sich viele phonotaktische und phonologische Regeln auf genau eine dieser Konstituenten beziehen (Abb. 2.3). 33 So sind zum Beispiel homorgane ObstruentSonorant-Cluster wie [pm], [fm], [krj] im Onset ausgeschlossen, während sie in der Koda als [mp], [mf], [rjk] auftreten. 34 Nur im Reim findet dagegen die Vokalisierung von [R] statt. 3 5 Regressive Nasalassimilationen scheinen auf die Koda beschränkt zu sein. 36 Dagegen ist die Annahme einer Skala abnehmender Schallfülle oder Sonorität31 vom Zentrum der Silbe (»V« des Nukleus) zu ihren Rändern sowohl theoretisch als auch empirisch problematisch. Heike (1992, S. 9) sieht in der Konstruktion der Sonoritätshierarchie ein typisches Beispiel für zirkuläre Argumentation, weil einerseits behauptet wird, „die Sonoritätshierarchie steuere die phonotaktischen Gegebenheiten, und andererseits [...] die Beoachtungen an der Phonotaktik als Basis für die Formulierung des Sonoritätskonzepts angenommen" werden. Heike weist auch daraufhin, dass der Vorwurf zirkulärer Argumentation bei der Bestimmung der Sonoritätshierarchie bereits von de Saussure (1972, S. 88-90) gegen Sievers ( 2 1881) erhoben wurde. Die Silbe ist eine auditive Einheit. In der Intonationsanalyse - im unten vorgeschlagenen autosegmentalen Modell ist die Silben-Ebene die zentrale Achse, mit der die Einträge auf der metrischen, der Ton- und der Segment-Ebene assoziiert werden - muss die Zahl der Silben einer Äußerung sicher bestimmt werden. Für das Italienische sieht Bertinetto (1981, S. 162) weder große Probleme bei der Bestimmung der Silbenzahl noch bei derjenigen der Silbengrenzen. Für die Bestimmung der Silbenzahl 33
34 35 36 37
Die Symbole » C « und » V « bezeichnen Strukturstellen und sind nicht als Abkürzungen für 'Konsonant' und 'Vokal' misszuverstehen. Z.B. wird in diesem Modell ein langer Vokal oder Diphthong mit der Folge VC assoziiert, ein Beispiel findet sich unten, S. 13. Vgl. dazu Wiese (1996), S. 37-43. Vgl. Vater (1992), S. 105f., außerdem Wiese (1996), S. 44 und S. 234ff. Wiese (1996), S. 252-258. Vgl. Wiese (1996), S. 218-224; Vater (1992), S. U l f . Kohler (21995), S. 73-75 nennt folgende Klassen von Lauten mit abnehmender Sonorität: offene Vokoide, geschlossene Vokoide, Liquide, Nasale, stimmhafte Frikative, stimmlose Frikative, Plosive. Vgl. zur Sonoritätshierarchie auch Wiese (1996), S. 258-261.
12 seien lediglich Laute, die bei schnellem Sprechtempo zwischen [i] und [j] bzw. zwischen [u] und [w] oszillieren, problematisch. 38 Für die Bestimmung der Silbengrenzen zeigt ein Perzeptionsexperiment differierende Urteile von Informanten nur bei Clustern aus [s] oder [z] und Konsonant bzw. bei [tm] und [tl].39 Auch im Deutschen ist die Bestimmung der Silbenzahl nur dort problematisch, wo [r]- oder [i]-Glides auftreten, außerdem in Silben, die [a] als Kern haben und in der fließenden Rede oft zu den silbischen Konsonanten [m], [η], [1] und [R] reduziert werden. 40 Die Silbengrenzen sind im Deutschen mit seinen komplizierten Konsonantenclustern dagegen in vielen Fällen nur sehr schwer zu bestimmen. 4 1 In der phonologischen Theorie lassen sich Bestimmungsschwierigkeiten jedoch überwinden: Beispielsweise wird das Problem der Festlegung der Silbengrenze nach akzentuiertem Kurzvokal durch die Annahme ambisilbischer Konsonanten gelöst. 42 Die unterschiedlichen Schwierigkeitsgrade in der Bestimmung von Silbenzahl und Silbengrenzen im Deutschen und Italienischen werden üblicherweise mit der unterschiedlichen typologischen Einordnung der Sprachen als silbenzählend (Italienisch) und akzentzählend (Deutsch) erklärt. 43 Die italienische Silbe hat in der Skelett-Ebene eine starke Tendenz zu CV. 44 Untersuchungen zeigen, dass 55% aller italienischen Silben die CV-Skelettstruktur aufweisen. 45 Die maximal möglichen dreifachen Konsonantencluster wie CCCV in [stra] sind im Onset sehr selten, in der Koda kommen Zwei- und Dreifachcluster - CVCC in /'golf/ oder CVCCC in /'films/ - ausschließlich in Fremdwörtern und Neologismen vor. 46 Assimilations- und Reduktionsprozesse verstärken im Italienischen diese Tendenz. Der potentiell viersilbigen Form lo ha detto mit der Skelettstruktur CVVCVCCV entspricht gesprochen und geschrieben die dreisilbige Standardrealisierung l'ha detto mit CVCVCCV. Das rhythmisch ungünstige Zusammentreffen zweier V wird vermieden. Dagegen haben Assimilations- und Reduktionsprozesse im Deutschen oft gegenläufige Tendenz: Sie verstärken die ohnehin starke Neigung zu komplizierten Konsonantenclustern. In der Skelett-Struktur sind im Onset Dreifachcluster wie CCCVCC in /'Jtro:m/ und in der Koda sogar Fünffachcluster vom Typ CVCCCCC in /'heRpsts/ möglich. 47 Die Tilgung von [a], die in der gesprochenen Sprache häufig auftritt, aber auch im Konjugationsparadigma bestimmter Verben vorgesehen ist, führt dazu, dass zum Beispiel das Wort Barren mit der 38 39 40
41 42
43 44
45 46 47
Vgl. Bertinetto (1981), S. 158. Vgl. Bertinetto (1981), S. 161-163. Vgl. Kohler (1996), passim; Wiese (1996), S. 49-51; Auer (1994), S. 68; Vater (1992), S. 106-110; Bertinetto (1981), S. 157f. Zur Phonotaktik des Deutschen vgl. Kohler ( 2 1995), S. 175-186. Vgl. dazu Ramers (1992). Wiese (1996), S. 51 ist deshalb der Meinung, „that very few clear cases for non-predictable syllabification are available" und skizziert deshalb ein (vorläufiges) Regelwerk der Silbifizierung im Deutschen (S. 51-56). Siehe Kap. 2.2.2. Was nach Prince/Smolensky (1993), S. 89 die Struktur von „universally optimal syllables" und in allen Sprachen der Welt möglich ist. Bortolini (1976), S. 12. Vgl. auch Auer/Uhmann (1988), S. 244-249. Vgl. Bortolini (1976), S. 8ff. Wieses Modell sieht einen solchen Fünffachcluster nicht vor. Das Wort /'hcRpst/ wird in eine Silbe mit der Struktur CVCC und zwei von einem extrasilbischen C abhängende Konsonanten zerlegt. Vgl. Wiese (1996), S. 47-49.
13 potentiellen Skelett-Struktur CVCVC in der Regel als / ' b a n n / mit CVCC realisiert wird. Die Fehlerforschung spiegelt die Relevanz der Unterschiede in der Skelett-Ebene von Deutsch und Italienisch wider. Italienische Deutschlerner tendieren zum „Segmentieren" langer oder unbekannter Konsonantencluster durch Sprossvokalbildung. Deutsch /'pfana/ mit der im Italienischen unbekannten Affrikate [pf] und der Struktur CCVCV wird zu /pa'fanna/ mit CVCVCCV. Der im Italienischen seltene konsonantische Wortauslaut wird oft durch Tilgung des finalen C oder Ergänzung von [a] beseitigt. Aus dem Infinitiv /'vapnan/ mit CVCCVC wird /'vapna/ mit CVCCV; das Substantiv /'boxt/ mit CVCC wird zu /'boita/ mit CVCCV. 48 In beiden Fällen wird die Skelettstruktur der im Italienischen idealen CV-Alternation angenährt.
2.2.2
Die Isochronie-Hypothese
In der Isochronie-Hypothese wird die Beobachtung formuliert, dass der Mensch dazu tendiert, akustische Eindrücke in rhythmischen Gruppen zusammenzufassen. Die Tendenz ist relativ unabhängig von der Genauigkeit der Folge der akustischen Stimuli (beispielsweise in der musikalischen Aufführung), und sie kann sogar dort beobachtet werden, wo akustisch keine rhythmische Gliederung nachweisbar ist (zum Beispiel kann auch das gleichmäßige Ticken der Uhr als rhythmisch gegliedert perzipiert werden). Obwohl die Isochronie-Hypothese nicht bewiesen ist, kann man mit ihr unter bestimmten Bedingungen sinnvoll operieren. In der sprachwissenschaftlichen Tradition werden zwei Typen von Isochronie und entsprechend zwei Typen von Sprachen unterschieden: silbenzählende Sprachen (Sprachen mit isocronia sillabica) und akzentzählende Sprachen (Sprachen mit isocronia accentuate)l.49 Standarditalienisch wird weithin als Prototyp einer silbenzählenden Sprache genannt, während Deutsch und Englisch als akzentzählende Sprachen gelten. Konkret lässt sich die Isochronie-Hypothese wie folgt formulieren: Silbenzählende Sprachen erhalten die Isochronie ihrer Silben, das heißt, die Silbendauer ist unabhängig von der Akzentverteilung. Akzentzählende Sprachen erhalten dagegen die Isochronie ihrer Füße, 50 das heißt, die Silbendauer nimmt mit zunehmender Silbenanzahl zwischen zwei Iktus ab. 5 1 Gemäß dieser These müsste eine zweisilbige italienische Äußerung exakt die doppelte Dauer einer einsilbigen haben, eine dreisilbige exakt die dreifache. Im Deutschen wären solche Vorhersagen nicht auf der Ebene der Silben, aber auf derjenigen der Füße möglich: Der Abstand zwischen zwei Iktus müsste konstant bleiben, unabhängig davon, ob zwischen ihnen eine, zwei oder drei unbetonte Silben liegen. Auer und Uhmann (1988, S. 220-237) geben einen Überblick über Überprüfungen der Hypothese hinsichtlich verschiedener, auch nicht-indogermanischer Sprachen und stel48
49 50
51
Beispiele aus Zuanelli Sonino (1975), S. 93 und S. 99. Die Notierung des langen Vokals [o:] durch VC auf der Skelett-Ebene folgt dem Vorschlag von Wiese (1996), S. 38f. Vgl. Bertinetto/Magno Caldognetto (1993), S. 147ff. Wiese (1996), S. 56 definiert Fuß wie folgt: „[...] the foot consists of the string of syllables starting from one stressed syllable up to (but not including) the next one." Damit ist Fuß synonym mit Takt in der Definition von Pheby (1981), S. 852. Vgl. Auer/Uhmann (1988), S. 217. Zu Iktus vgl. Pheby (1981), S. 852fF.
14 len fest, dass die Isochronie-Hypothese phonetisch nicht haltbar ist. Durch Messungen lassen sich die postulierte isocronia sillabica des Italienischen und isocronia accentuale des Deutschen nicht beweisen. 52 Exakte Messungen der Silben- und Fußdauer scheitern am Fehlen fester Messpunkte. Artikulatorisch oder akustisch sind Silbengrenzen als potentielle Messpunkte in der fließenden Rede nicht zu bestimmen. In Fällen, wo Testsilben unter experimentellen Verhältnissen deutlich voneinander abgegrenzt sind, hat man eine nicht zu quantifizierende Differenz zwischen der akustischen und der auditiven Silbengrenze festgestellt. 53 Die Isochronie-Hypothese darf dennoch nicht einfach verworfen werden: Es gibt unbestreitbare Unterschiede in der Wahrnehmung der rhythmischen Struktur von Deutsch und Italienisch. Oben (S. llf.) wurde ausgeführt, dass sich Silbengrenzen im Italienischen leichter bestimmen lassen als im Deutschen. Die komplizierte Konsonantenclusterung und die starke Tendenz zur Vokalreduktion sorgen im Deutschen dafür, die Silbengrenzen zu verwischen und den Eindruck zu erwecken, dass sich die Äußerung allein zwischen den Iktus strukturiert. Dieses Intervall wird aufgrund der Disposition des Menschen zur rhythmischen Gliederung seiner Wahrnehmungseindrücke als isochron perzipiert. Im Italienischen wird die Deutlichkeit der Silbengrenzen von Assimilations- und Reduktionsprozessen nicht verringert. Diese Prozesse unterstützen noch die Tendenz der Silben zur CV-Struktur. Auf dieser Grundlage fällt es leicht, alle Silben einer italienischen Äußerung als isochron wahrzunehmen. 54 Eine neuere Untersuchung von Vekäs und Bertinetto (1991) zieht die Konsequenzen aus den wenig erfolgreichen Versuchen, die Isochronie-Hypothese durch Zeitmessungen zu stützen. Die Autoren schlagen vor, die auf die gemessene Zeit aufbauende Dichotomie von isocronia accentuale (IA) und isocronia sillabica (IS) aufzugeben. Stattdessen werden Sprachen, die wie das Italienische versuchen, auch in fließender Rede die phonetischen Merkmale der einzelnen Laute möglichst intakt zu halten (Strategie des controllo locale), von solchen unterschieden, die wie das Deutsche stark zur Koartikulations-, Assimilations- und Reduktionsprozessen neigen (Strategie der compensazione): Ε infatti ipotizzabile che le lingue ad IA siano quelle che attuano, a tutti i livelli della struttura prosodica, una strategia di 'compensazione', imputabile ad una maggior flessibilitä articolatoria. Per converso, le lingue ad IS sarebbero quelle in cui la produzione dei singoli elementi fonematici tende ad avvenire nel quadro di una strategia di 'controllo locale', mirante a conservare il piü possibile intatte le caratteristiche acustiche e prosodiche delle entitä che compongono la catena fonica. 55
Dass die Wahrnehmung der Silbe als Grundbaustein der Äußerung tatsächlich von der Kontrolle der phonetischen Merkmale abhängt, versuchen Vekäs und Bertinetto durch Messungen der Frequenz des zweiten Formanten der Laute [i] und [1] in Non52
53 54 55
Auer und Uhmann (1988), S. 229 interpretieren dabei hinsichtlich des Italienischen die Daten eines Experiments von Bertinetto (1981), S. 266, mit denen dieser allerdings die Tendenz des Italienischen zur isocronia sillabica zu beweisen versucht. Vgl. Bertinetto (1981), S. 183ff. Zum Problem des sog. P-Centers siehe Auer/Uhmann (1988), S. 241-243. Vgl. Nespor (1993), S. 260. Vekäs/Bertinetto (1991), S. 155.
15 senswörtern verschiedener Länge zu belegen. Dieselben Nonsenswörter werden von deutschen, englischen und italienischen Informanten produziert. Es zeigt sich, dass der zweite Formant bei den italienischen Informanten relativ konstant bleibt, während er sich bei den deutschen und englischen Informanten in Abhängigkeit von der lautlichen Umgebung verändert. 5 6 Dadurch scheint zumindest die unterschiedliche Tendenz der Sprachen - Italienisch tendiert zur lokalen Kontrolle, Deutsch zur Kompensation belegt zu sein.
2.3
Intonationsmodelle
Intonation ist die prosodische Erscheinung, die primär auf dem auditiven Merkmal Tonhöhe beruht. Es hat seit Helmholtz (1870) oder Sievers (1876) viele Versuche gegeben, den Tonhöhenverlauf entsprechend der durch ihn ausgedrückten Funktionen 5 7 zu schematisieren. Die heutige Forschungssituation ist im Wesentlichen von der Konkurrenz zweier großer Richtungen geprägt: Die sog. „Britische Schule" modelliert Tonhöhenverläufe als Tonhöhenbewegungen (configurations), die eher amerikanisch geprägte autosegmentale Phonologie dagegen als Folge von Tonhöhenstufen (levels). Bolinger (1951) h a t t e mit seiner Kritik an den Intonationsmodellen des amerikanischen Strukturalismus - Pike (1945), Wells (1945), Trager/Smith (1951) - , deren vier Tonhöhenstufen empirischen Distinktivitätstests nicht standhielten, die „levelsvs.-configurations controversy" angestoßen. 5 8 Ich werde in Kap. 2.3.3 ausführen, dass dieser Gegensatz beim heutigen Stand der Modellbildung kaum noch eine Rolle spielt, dass sich die Modelle hinsichtlich der Bewertung der Akzenttöne aber substantiell unterscheiden. Am niederländischen Instituut voor Perceptie Onderzoek (IPO) wurde ein Modell zur Schematisierung von Tonhöhenverläufen entwickelt, das sich von den in den beiden nächsten Unterkapiteln dargestellten dadurch unterscheidet, dass es keinen phonologischen Charakter hat. Die Arbeiten der „Holländischen Schule" werden ausführlich in Kap. 2.5 vorgestellt. 5 9 Das stark experimentalphonetisch ausgerichtete „Kiel Intonation Model" wird in Kap. 3.2.3 behandelt. 6 0 Die Beschreibungskategorien der vorliegenden Studie (Kap. 2.6.1) werden aus dem Modell der autosegmentalen Phonologie und dem Notationssystem ToBI entwickelt. Ausschlaggebend für diese Entscheidung war neben den modellimmanenten Vorzügen, die im Folgenden deutlich werden, die Tatsache, dass ToBI die für eine kontrastive Studie unverzichtbare internationale Verständlichkeit sicherstellt - im Gegensatz zu den in den Einzelsprachen erheblich differierenden Modellen nach dem Vorbild der Britischen Schule.
56
57 58 59 60
Vgl. Vekäs/Bertinetto (1991), S. 158. Funktion und Bedeutung werden synonym verwendet. Vgl. Ladd (1996), S. 60f. Zum IPO-Intonationsmodell siehe Kap. 2.5.4, S. 49f. Zu Modellen für die Synthese von Intonationskonturen vgl. Avesani (1999).
16
2.3.1 Das Intonationsmodell der Britischen Schule Forschungsrichtungen, für die die Intonation einer Äußerung maßgeblich durch den Tonhöhenverlauf auf der Nukleussilbe festgelegt wird, werden dem internationalen Sprachgebrauch folgend als „Britische Schule" zusammengefasst. Die Intonationseinheit - tone unit, intonation-group - gliedert sich nach Crystal (1969) in vier Komponenten, von denen drei (eingeklammert dargestellt) fakultativ sind: (Prehead) (Head) Nucleus (Tail). Die funktional relevante Bewegung ist in diesem Modell auf den Nucleus61 beschränkt. Grice (1995, S. 19) stellt dagegen fest, dass die Tail unter Umständen einen großen Teil der funktional relevanten Tonhöhenbewegung trägt und folgert daraus, dass „the nuclear syllable and tail function as a more or less indivisible unit. The shape of either can be greatly influenced by the segmental structure of the syllables concerned, and the shape of each is dependent to a large degree on the shape of the other." Deshalb hat sich heute ein Modell aus drei Komponenten durchgesetzt: (Prehead) (Head) Nuclear Unit.62 Das Modell mit der Nukleuseinheit aus Nukleus und postnuklearen Silben wird in der Mehrzahl der in Kap. 3 referierten nicht-autosegmentalen Studien operationalisiert.
2.3.1.1
Intonationsgruppen und ihre Begrenzung
In Intonationsgruppen werden mit intonatorischen Mitteln Sinneinheiten konstituiert, die oft, aber nicht immer auch durch grammatische Mittel kenntlich gemacht werden. Während die Nukleuseinheit bedeutungstragend ist, hat die Intonationsgruppe phrasierende Funktion. Die Bestimmung der Grenzen der Intonationsgruppe unabhängig von grammatischen Merkmalen ist allerdings eines der größten Probleme der Intonationsforschung. Cruttenden (21997) unterscheidet zwischen internen und externen Kriterien für das Vorliegen einer Intonationsgruppe. Das wichtigste interne Kriterium ist das Vorhandensein eines Akzenttons.63 Die Erfüllung dieses internen Kriteriums ist notwendig es gibt keine Intonationsgruppe ohne mindestens einen Akzentton - , aber nicht hinreichend für die Bestimmung der Intonationsgruppengrenze. Externe Kriterien sind die Existenz von Pausen, Dehnungen finaler Silben, Anakrusis und Tonhöhensprünge auf unakzentuierten Silben. Alle diese Merkmale können als Grenzsignale fungieren. 64 Kein Merkmal ist allerdings ein hinreichendes und zugleich notwendiges Kriterium für das Vorliegen einer Intonationsgruppengrenze. Cruttenden führt zur Funktion von Pausen aus:
61
62
63 64
Zu konkurrierenden Bezeichnungen für die Nukleussilbe in der Britischen Schule vgl. die Synopse in Grice (1995), S. 12. Vgl. Grice (1995), S. 21. Nuclear Unit entspricht tonic bei Halliday (1967) und tonia bei Canepari (1985), siehe Kap. 3.3.1.2. Weitere Modelle zeigt die Übersicht in Uhmann (1991), S. 124. Vgl. Cruttenden ( 2 1997), S. 35. Ausführungen zu pitch accents unten, S. 18. Vgl. Cruttenden ( 2 1997), S. 30-37.
17 Pauses seem typically to occure at three places in utterances: (i) at major constituent boundaries (principally between clauses and between subject and predicate). There is a correlation between the type of constituent boundary and the length of pause, i.e. the more major the boundary, the longer the pause. [...] (ii) before words of high lexical content or, putting it in terms of.information theory, at points of low transitional probability. [...] (iii) after the first word in an intonation group. This is a typical position for other 'errors of performance', e.g. corrections or false starts and repetitions.65 Nur Pausen des Typs (i) fungieren als Grenzsignal. Pausen der T y p e n (ii) und (iii) sind Hesitationsphänomene und kommen intonationsgruppenintern vor. In H514 kommen zwei Pausen des Typs (ii) in einer Intonationsgruppe vor, H440 wird durch eine Pause des Typs (i) von H442 getrennt: H513 IH: [auf dieses auf dieses IBILD!, T*+HH-H'/, 131 194 dEr der vAfter übergibt (.) die brAfUt [(.) dem [BRÄUtigam. T* T*+HHH*HT*+HHH+T» Τ- T'/. 133 108 169 133 100 147 (111)105 93 81 H440 NH: NEE; H*T-T"/, 169 144 (")
hat keiner beHAUPtet;
H+T* T-T"/.
(161)147 138
Die Dehnung der finalen Silbe einer Intonationsgruppe wird manchmal als „filled pause" 6 6 bezeichnet. Eine Dehnung markiert eine Intonationsgruppengrenze allerdings ebensowenig eindeutig wie eine Pause. Die Rede von der „Dehnung der finalen Silbe als Grenzsignal" ist zirkulär, wenn die Silbe erst durch die Dehnung als final markiert wird, oder redundant, wenn die Dehnung eine zusätzliche Markierung einer schon durch andere Mittel konstituierten Grenze ist. Auch Anakrusis (schnelles Sprechtempo vom Beginn der Intonationsgruppe bis zum ersten Akzent) kann als Grenzsignal und innerhalb von Intonationsgruppen auftreten. Pausen, Dehnungen und Anakrusis können also als Grenzsignale verwendet werden, aber auch intonationsgruppenintern vorkommen. Ein hinreichendes Kriterium und damit ein klares Grenzsignal ist ein Tonhöhensprung auf einer unakzentuierten Silbe. Der Tonhöhensprung auf 116 Hz bei su markiert den Beginn der Intonationsgruppe A067: A066 IC: non ne parLAvano; Vi H*T-T·/. 86 96 71 sie sprachen
-> 65
66
nicht
davon
su in CAsa non si parlAva; Η'/. H* H*T-T'/, 116 133 118 93 zuhause
sprach man nicht
davon
Cruttenden (21997), S. 30f. Zum Verhältnis von prosodischen Merkmalen und der Stärke syntaktischer oder semantischer Grenzen vgl. die Untersuchungen der Holländischen Schule von Swerts (1997) und Pijper/Sanderman (1994). Zum Italienischen vgl. Farnetani (1989). Cruttenden (21997), S. 33.
18 Intonationsgruppenintern finden Tonhöhensprünge nur auf akzentuierten Silben statt (siehe zum Beispiel oben, H514). Tonhöhensprünge auf unakzentuierter Silbe sind aber keine notwendige Bedingung für Intonationsgruppengrenzen. Angesichts fehlender eineindeutiger Korrelationen von Intonationsgruppengrenzen und prosodischen Merkmalen hat sich bei der Transkription der Gespräche des VinetaKorpus gezeigt, dass für die Zerlegung von Äußerungen in Intonationsgruppen nicht auf die Orientierung an grammatischen Merkmalen verzichtet werden kann. Das Vineta-Korpus zeigt zudem, dass die Sprecher in ungesteuerten Alltagsgesprächen weitaus öfter grammatisch wohlgeformte Sätze produzieren, als das gemeinhin für konversationeile Äußerungen angenommen wird.
2.3.1.2
Akzenttöne und Nukleus
Die Intonationsgruppe enthält einen oder mehrere Akzente. Silben können durch unterschiedliche prosodische Merkmale akzentuiert werden, nicht nur durch den Tonhöhenverlauf. Aber auch bei Silben, deren Akzent nicht primär melodisch ist, lässt sich in den allermeisten Fällen Grundfrequenz variation beobachten. Der Akzentton (pitch accent) ist der melodische Aspekt der akzentuierten Silbe. Cruttenden (21997, S. 40) unterscheidet vier Bewegungen, die für sich oder miteinander kombiniert Akzenttöne konstituieren können: PITCH ACCENTS depend on some sort of obtrusion of pitch at the point of accent from the pitch of sorrounding syllables. Such obtrusions depend on movements to or from the accented syllable, involving (i) step-up, (ii) step-down, (iii) a movement down-from, or (iv) a movement up-from.
Der wichtigste Akzentton ist der Nukleus, der nach seiner auditiven Prominenz als prominentester und/oder nach seiner Stellung als am weitesten rechts stehender Akzentton bestimmt wird. 67 Die Position des Nukleus hängt vom Fokus ab: Wenn der Nukleus auf eine weit rechts stehende lexikalische Konstituente fällt, wird in der Regel weiter Fokus signalisiert. Jede andere Nukleuspositionierung signalisiert engen Fokus und gilt als „markiert". 68 67
68
Cruttenden ( 2 1997), S. 42: „NUCLEUS is used to describe the pitch accent which stands out as the most prominent in an intonation-group. In the majority of cases the pitch accent which stands out as most prominent is the last pitch accent." Fery (1993), S. 8: „Per definitionem, 'nucleus' designates the last pitch accent of the Intonation Phrase which is generally the one realized or perceived as most prominent." Grice (1995), S. 9: „Syntagmatically, it is the last accented syllable of the tone unit; paradigmatically, the nuclear syllable can carry a greater range of pitch movements (if no tail is present) than other types of accented syllable. However, it is more than just the last accented syllable: the nuclear tone, which it (partly) carries constitutes the 'peak of prominence' of the tone unit [...]" Cruttenden ( 2 1997), S. 75 schreibt: „By this sort of traditional definition, it followed that any placement of the nucleus on a grammatical item or on a non-final lexical item represented some sort of narrow focus." Das Zusammenspiel von Akzent und Fokus wird in Kap. 2.4 behandelt.
19 Der Kern des Intonationsmodells der Britischen Schule besteht in der Klassifikation der Nukleartöne. Als Nuklearton wird die Tonhöhenbewegung auf der Nukleuseinheit bezeichnet. Der Nuklearton ist die finale Tonhöhenbewegung der Intonationsgruppe. Nukleartöne sind formale Konfigurationen, die sprachliche Punktionen distinguieren und damit das Kriterium der phonologischen Distinktivität erfüllen. Als phonologische Einheiten sind die Nukleartöne einzelsprachenspezifisch zu bestimmen. Cruttenden unterscheidet für das Englische in seinen wichtigsten Standardvarietäten (der britischen Received Pronunciation und dem General American) sieben Nukleartontypen: high-fall, low-fall, rise-fall, high-rise, low-rise, fall-rise, mid-level. Eine formale Konfiguration wird dann als Nukleartontyp festgelegt, wenn sie gegenüber einer anderen Konfiguration zu einer „größeren Bedeutungsdifferenz" führt. „Größere Bedeutungdifferenz" („major difference of meaning") ist aber ein skalierbares Kriterium, mit Hilfe dessen keine klare Zahl von Nukleartontypen produziert werden kann. Der Ubergang von einem Typ zum nächsten erfolgt sowohl formal als auch funktional kontinuierlich. Folgerichtig räumt Cruttenden ( 2 1997, S. 50f.) ein: This is an area, where almost every analyst varies in his judgement of what constitutes a 'major difference of meaning' and hence in the number of nuclear tones which are set up. Nor are the arguments for any particular set of nuclear tones ever very convincing or indeed explicit; in fact, given that intonational meanings are often so intangible and nebulous, it is difficult to see how a wholly convincing case for any set of nuclear tones can be made.
Innerhalb der Klassifikation in sieben Nukleartöne ist besonders die Unterscheidung von high-fall und low-fall bzw. high-rise und low-rise schwer zu begründen. Die Länge eines Falls bzw. Anstiegs ist beliebig fein skalierbar. Als unterschiedliche Tontypen werden high-fall und low-fall deshalb betrachtet, weil high-falling tones die Bedeutung 'involved' und low-falling tones die Bedeutung 'business-like' transportieren. Das klassenkonstituierende Merkmal ist eine Einstellungsbekundung. Nach Cruttenden ( 2 1997, S. 87ff) gibt es im Englischen keine Korrelationen zwischen Nukleartontyp und Satztyp, eine Zuschreibung grammatischer Funktionen ist deshalb nicht sinnvoll. Nukleartöne drücken im Englischen einstellungsbezogene (attitudinal) und diskursbezogene (discoursal) Funktionen aus. Diese Funktionen lassen sich als disjunkte Mengen auffassen. Weil aber die Elemente der Mengen nicht theoretisch ausformuliert, sondern nur alltagssprachlich bezeichnet werden, geht die klare Unterscheidung von einstellungsbezogenen und diskursbezogenen Funktionen in der Analyse verloren: Α discoursal approach to meanings of tones deals in concepts like the shared mutual knowledge of speaker and listener(s), the desire of a speaker to dominate listener(s) and the sort of expectations which a speaker has about a listener's reply. In practice it is not always easy to separate such a discoursal approach to tones from an attitudinal approach which involves labels like 'protesting', 'detached', 'interested', 'impressed' and 'encouraging'[...] 69
Die Intonation interagiert mit anderen Signalisierungssystemen. Die Funktionen, die Cruttenden den sieben englischen Nukleartönen zuordnet, sind deshalb im Gesprächs69
Cruttenden ( 2 1997), S. 89.
20 kontext Modifikationen unterworfen.70 Alle fallenden Töne drücken (in Deklarativsätzen) 71 Abgeschlossenheit, Endgültigkeit und Distanziertheit aus. Low-fall transportiert zusätzlich die Bedeutungen 'uninteressiert', 'unbeteiligt' und - nach vorhergehendem step-down - 'gewichtig', während high-fall 'interessiert', 'aufgeregt', 'beteiligt' und - nach step-up - 'protestierend' signalisiert. Rise-fall drückt die Bedeutungen 'beeindruckt' oder 'herausfordernd' aus. Alle steigenden Töne (mid-level wird zu den steigenden Tönen gerechnet) drücken in nicht-finalen Intonationsgruppen eine Art von Unabgeschlossenheit aus. Während mid-level aber lediglich die Bedeutung 'unabgeschlossen' transportiert und deshalb auch nur in nicht-finalen Intonationsgruppen vorkommt, hat low-rise als Nebenbedeutung 'formal', 'gelesen', high-rise 'beiläufig'. Fall-rise signalisiert 'kontrastiv'. In finalen Intonationsgruppen drückt low-rise in Abhängigkeit vom Satztyp und vom Typ eventueller pränuklearer Akzenttöne 'distanziert' und 'unbeteiligt', 'murrend' oder 'drohend' aus. High-rise steht dagegen ziemlich unabhängig von Umgebungsvariablen für 'Echofrage' und 'Ungläubigkeit'. Fall-rise hat auch in finalen Intonationsgruppen die Nebenbedeutung 'kontrastiv' alternativ aber auch 'appellierend', 'rechtfertigend' und 'warnend'. Es hat Versuche gegeben, heterogene Klassifikationen dieser Art durch Klassifikationen mit zwei oder drei Klassen mit abstrakten diskurssemantischen Basisbedeutungen zu ersetzen.72 Durch die Verabsolutierung der diskurssemantischen Oppositionen geraten allerdings die von Nukleartönen ebenfalls signalisierten einstellungsbezogenen Funktionen aus dem Blick. Außerdem wird der Nachweis für die interpretative Relevanz der Klassen nur mit konstruierten Beispielen erbracht. 73 Das Intonationsmodell der Britischen Schule beschränkt sich weitgehend auf die Nukleartöne. Dadurch wird der Blick auf die Gesamtkontur und die pränuklearen Akzenttöne verstellt, ohne dass der Nachweis angetreten würde, dass funktional relevante Tonhöhenbewegungen nur auf der Nukleuseinheit ausgeführt werden.
70
71
72 73
Vgl. im Folgenden Cruttenden ( 2 1997), S. 91-104. Das einflussreiche Modell von Halliday (1967) wird an seiner (nahezu buchstabengetreuen) Übernahme durch die italienische Forschung illustriert, siehe S. 86f. Cruttenden bezieht die Nukleartöne auf ihren syntaktischen Kontext (Satztyp) und ihre intonatorische Umgebung. Intonationsgruppen sind in hierarchisch höherstehenden intonarischen Einheiten (paratones) eingebunden und haben dort finale oder nicht-finale Stellung. Paratones sind „spoken equivalent of paragraphs", vgl. Cruttenden ( 2 1997), S. 47 und Couper-Kuhlen (1983). Brazil (1975) und Gussenhoven (1984a) schlagen solche Klassifikationen vor. Cruttenden ( 2 1997), S. 107 bezeichnet Brazils Vorgehen als „very much post hoc". Pierrehumbert und Hirschberg (1990), S. 284f. bestreiten die Gültigkeit von Gussenhovens Funktionsbeschreibungen für das amerikanische Englisch. Vgl. auch die Kritik von Selting (1995), S. 24ff.
21 2.3.2
Das Intonationsmodell der autosegmentalen Phonologie
Autosegmentale Phonologie ist eine wichtige theoretische Richtung der nicht-linearen generativen Phonologie. 7 4 In der autosegmentalen Phonologie wird der Redestrom in interagierende segmental-phonologische und prosodische Erscheinungen dekomponiert. Die autosegmentale Phonologie wurde in der Tonsprachenforschung entwickelt und geht wesentlich auf die Arbeiten von Goldsmith (1978a, 1978b) zurück. Goldsmith ging von dem in den 70er Jahren des 20. Jahrhunderts vorherrschenden Modell der linearen generativen Phonologie von Chomsky und Halle (1968) aus. In diesem Modell stehen Derivationsprozesse im Vordergrund: Redeteile werden als Ketten von Einzelsegmenten und Grenzsymbolen aus der morphosyntaktischen Struktur abgeleitet. Alle phonetischen Eigenschaften der Rede werden binär kodiert und, in Merkmalskomplexen zusammengefasst, den Segmenten zugeordnet. Merkmale der Vokalbzw. und Konsonantenqualität der Laute werden nicht getrennt von Merkmalen der Akzent- und Intonationsstruktur behandelt. Eine Äußerung aus drei Lauten h a t demnach eine Form folgenden Typs: 7 5
+cons —syll +son —High —nas
—cons +syll +son —nas +High
-I-cons —syll + SOTL —High +nas
Goldsmiths Untersuchungen zeigen, dass dieses Modell für afrikanische und asiatische Tonsprachen nicht erklärungsadäquat ist. In der Tonsprache Igbo 7 6 treten beim Zusammentreffen hoher und tiefer Töne Assimilationsprozesse auf, die erst d a n n erklärbar und vorhersagbar werden, wenn das Ton-Merkmal aus dem Merkmalskomplex des Einzelsegments herausgelöst wird und von einer eigenen Ebene aus mit mehreren Segmenten in komplexe Interaktion tritt:
Ebene
+cons —syll +son —nas
T o n - Ebene 74 75
76
—cons +syll +son —nas
[ +High
-I-cons —syll +son +nas
]
Zur Einführung siehe Grewendorf/Hamm/Sternefeld (61993), S. 107-149. Vgl. Uhmann (1991), S. 19. [+cons] heißt 'Konsonant', [+son] 'Sonorant', [+nas] 'Nasal'. Segmenten mit dem Merkmal [+syll], 'silbisch', kann das Akzentmerkmal [-(-stress] zugewiesen werden. Das Merkmal [+High] - mit großem Anfangsbuchstaben - bezeichnet die Tonhöhe des Segments und nicht die Position der Zungenspitze. Vgl. Goldsmith (1978a), S. 32ff.
22 Diese Differenzierung entspricht prima facie der traditionellen Konzeptualisierung von Suprasegmentalia.77 Um aber den bei den traditionellen Begriffsbestimmungen möglichen Eindruck zu vermeiden, suprasegmentelle Merkmale lieferten nur „Zusatzinformation" und seien, verglichen mit den segmentellen Merkmalen, „sekundär", schlägt Goldsmith (1976a, S. 28) vor, den Terminus suprasegmental aufzugeben und die TonEbene als autosegmental zu bezeichnen. Sie wird dadurch der Segment-Ebene terminologisch gleichgestellt: If the "suprasegmental" of pitch, does by itself form a sequence of tonal segments, then "suprasegmental" is a misleading label. A more accurate picture we suggest is parallel sequences of segments, none of which "depend" or "ride on" the others. Each is independent in its own right; hence the name, ouiosegmental level.
Eine autosegmentale Ebene oder tier - in der Folgezeit hat sich in den englischsprachigen Arbeiten für level der Terminus tier eingebürgert - ist eine unabhängige artikulatorische und auditive Größe. In Tonsprachen können die Verhältnisse auf der TonEbene unempfindlich gegen Assimilations- und Reduktionsprozesse auf der Segmentebene sein. 78 Die Veränderung oder der Wegfall eines Segments hat keine Auswirkung auf die Gestalt des Tonmusters. Der Ton, der mit einem Segment seinen bisherigen „Träger" verloren hat, verbindet sich mit dem auf der Zeitachse nächsten Segment. Außerdem drücken Tonmuster vielfach feste Bedeutungen aus, die von der Besetzung der Segment-Ebene unabhängig sind. Goldsmith nennt das Tempussystem der exotischen Sprache Tiv, das nicht durch lexikalische Morpheme, sondern durch Tonmuster realisiert wird. 79 Für solche Tonmuster postuliert Goldsmith eine eigenständige Verankerung im mentalen Lexikon. 80 Das autosegmentale Modell wurde sehr bald von der Ton- auf die Intonationssprachenforschung übertragen. 8 1 Die prosodischen Einheiten - Tonhöhenoppositionen mit sprachlicher Funktion - sind in Ton- und Intonationssprachen nicht substantiell verschieden: Lediglich die Funktionsdomänen unterscheiden sich. In Tonsprachen sind Tonhöhenoppositionen zur Unterscheidung von Wortbedeutungen und grammatischen Kategorien (zum Beispiel der Tempora) bereits im Lexikon verankert. 82 Bei Intonationssprachen wirken Tonhöhenoppositionen im postlexikalischen Bereich. Die Tatsache, dass die mittelfränkischen Dialekte des Deutschen Tonakzente mit wortun77
78 79 80 81
82
Vgl. z.B. die Suprasegmentalia-Definition von Lehiste (1970), S. 2f.: „Suprasegmental features are features whose arrangement in contractive patterns in the time dimension is not restricted to single segments defined by their phonetic quality [...]" In dieser und vielen anderen Definitionen werden Suprasegmentalia ex negativo definiert, in Kontrast zu den Segmentalia. Z.B. bei der Kompositabildung in Lomongo, vgl. Goldsmith (1976a), S. 43ff. Vgl. Goldsmith (1978a), S. 46ff. Vgl. Goldsmith (1978a), S. 48. Die Übertragung ist gerechtfertigt, wie im Folgenden ausgeführt wird. Goldsmith (1981), S. 289 „begründet" sie allerdings nur im üblichen generativen Sprachduktus, indem er feststellt, dass „our ideas about the less exotic languages which we call accentual can be enriched by viewing them in the context of tone languages". Zur Kritik an derart vagen Formulierungen vgl. Vennemann (1986), S. 5. Vgl. Wunderlich (1988), S. 10.
23
(yTon-Eben^JjH*
- A \j ί ) silben-Ebene ^
W
Η*
H+T* T - T % ^
σ/ σ σ σ σ σ Ι~Λ σσσ Κ / \ '
Ν
Ν
\
/
^γ-^Γ
( ) Segment-Ebene^) j für mich war das die größte LÜgej Τ χ X X
X jZ
"χ
x x
X
X
x x x
X-
(^ ) Akzent-Ebene ^ y) x x xxx x x x χ χ Abb. 2.4: Autosegmentale Darstellung der Äußerung H069 terscheidender Funktion kennen, 83 spricht dafür, dass statt einer Dichotomie von Tonund Intonationssprachen ein Kontinuum in der Zuordnung von Punktionsdomänen und Tonhöhenoppositionen angenommen werden muss. Sprachen und Dialekte mit Tonakzenten (zum Beispiel Mittelfränkisch und Schwedisch) haben eine mittlere Position in diesem Kontinuum. Außerdem gibt es mit den Diskurspartikeln auch in der Intonationssprache Deutsch Wörter, deren Bedeutung erst durch Tonhöhenoppositionen konstituiert wird. 84 Neben Segment- und Ton-Ebene gibt es weitere tiers. In der vorliegenden Studie werden neben diesen beiden Ebenen die Silben-Ebene und die metrische Ebene operationalisiert. In der lexikalischen Phonologie wird auf die Skelett- oder CV-Ebene zur Dekomposition der Silbenstruktur zurückgegriffen.85 Manche Forscherinnen 86 nehmen komplexe prosodische Ebenen an, die eine Hierarchie prosodischer Konstituenten repräsentieren. Die Silbe ist die zentrale Analysekategorie dieser Studie. Unter Vorwegnahme der im Folgenden eingeführten Konventionen hat die autosegmentale Repräsentation der Äußerung H069 die in Abb. 2.4 dargestellte Form. Merkmale verschiedener Ebenen werden durch Assoziationslinien (association lines) miteinander verbunden. Assoziationslinien dürfen sich nicht kreuzen. 87 Der Raum, in dem die Ebenen angeordnet sind, ist deshalb dreidimensional konzipiert (autosegmentale Phonologie wird auch 83 84
85 86
87
Vgl. Schmidt (1986) und Heike (1962). Vgl. dazu Kehrein/Rabanus (2001). Vgl. auch Kohler ( 4 9 7 7 ) , S. 198f., wo die Bedeutungen der Diskurspartikel ja in Abhängigkeit von sechs verschiedenen „Tönen" beschrieben wird. Siehe Kap. 2.2. Z.B. Pierrehumbert und Beckman (1988), Grice (1995) und Avesani (1997). Siehe Abb. 3.5 auf S. 94. Goldsmith (1976a), S. 36 formuliert die no-crossing constraint als zweite Wohlgeformheitsbedingung für die autosegmentale Darstellungen der Ton-Struktur.
24 als dreidimensionale Phonologie bezeichnet). Assoziationslinien drücken die Simultanität von Merkmalen verschiedener Ebenen aus. 88 Die Notierung der Merkmale folgt ebenenspezifischen Konventionen. Intonation wird in der autosegmentalen Phonologie als Folge der mit Akzent- und Grenzsilben assoziierten Töne aufgefasst. Die autosegmentale Repräsentation der Intonationskontur ist das Ergebnis eines generativen Prozesses. Dieser Prozess wird von zwei Regelwerken (Komponenten) gesteuert: der metrischen Komponente und der Intonationskomponente. Die Bestimmung der metrischen Struktur ist aber nicht nur für generative Zwecke sondern auch für die empirische Analyse unverzichtbar: Die Zuweisung von Akzenttönen ist nicht möglich ohne die vorherige Bestimmung der Akzentstellen. Deshalb wird in den nächsten Abschnitten zunächst die metrische Komponente und danach die Intonationskomponente eingeführt.
2.3.2.1
Metrische Komponente
Metrische Phonologie ist eine zweite große theoretische Richtung der nicht-linearen Phonologie. Sie nimmt ihren Ausgangspunkt in Untersuchungen zur relativen „lautlichen Gewichtung von Außerungsteilen", 89 untersucht also Prominenzrelationen. Prominenzrelationen werden durch metrische Bäume (metrical trees) oder metrische Gitter (metrical grids)90 abgebildet. Beide Modelle gehen auf die Arbeit von Liberman und Prince (1977) zurück. 91 Metrische Bäume werden durch die rekursiv angewendete Regel generiert, jede Äußerung/jeden Außerungsteil als Produkt einer binären Verzweigung in einen prominenteren (bezeichnet durch »s« für 'strong') und einen weniger prominenten Teil (»w« für 'weak') aufzufassen. 92 Metrische Bäume bilden damit gleichsam die „Entstehungsgeschichte" der Prominenzrelationen in Äußerungen ab, während metrische Gitter das Ergebnis des Prozesses darstellen. 93 Elizabeth Selkirk (1984) hält metrische Bäume deshalb für redundant und entwickelt das Modell des metrischen Gitters weiter.94 In Selkirks Modell ist ein metri88 89 90 91
92
93 94
Von der Assoziation muss das Alignment unterschieden werden, siehe S. 54f. Grewendorf/Hamm/Sternefeld ( 6 1993), S. 114. Vgl. zur englischen Terminologie Hayes (1995), S. 27. Dieser Aufsatz beruht wiederum auf der unveröffentlichten Dissertation von Liberman (1975). Liberman und Prince (1977), S. 279f. führen aus: „We will hypothesize, therefore, that trees are an immediant concomitant of stressing: that each time a rule applies [+ stress], the syllables in the domain of that application are organized metrically, in the only way they can be." Vgl. auch Uhmann (1991), S. 24-28. Vgl. Liberman/Prince (1977), S. 313. Vgl. Selkirk (1984), S. 17. Selkirk stellt pure grids dar und nicht die metrischen Bäumen bedeutungsgleichen bracketed grids, die etwa van der Hülst (1999), S. 9 vorzieht. Vgl. zu Varianten in Notation und Konzept van der Hülst (1999), S. 70f. und Hayes (1995), S. 38f. Wiese (1986) gibt einen guten Uberblick über Selkirks Studie. Uhmann (1991) adaptiert das Modell für die metrische Analyse des Deutschen.
25 sches Gitter die Visualisierung der Prominenz von Silben als Summe rhythmischer Schläge in folgender Weise:
χ σ (si)n
χ χ χ χ σ ΑΙ Η*
χ σ le
χ χ χ χ χ σ tWEG Η*
χ χ σ 4nach Τ-
X χ χ σ he
χ σ ΓΗ'/.
5. Lage 4. Lage 3. Lage 2. Lage 1. Lage Silben-Ebene Segment-Ebene Ton-Ebene
In dieser Abbildung (der Äußerung R374) 95 sind vier Ebenen dargestellt: die TonEbene, die Text-Ebene, die Silben-Ebene und die metrische Ebene in Form eines metrischen Gitters. Das metrische Gitter besteht aus - von unten nach oben gelesen - fünf Lagen (engl, levels, rows oder layers), in denen rhythmische Schläge notiert werden. Die Höhe der Säulen (columns) zeigt an, bis zu welcher Lage eine Schlagposition tatsächlich besetzt ist. Die Höhe der Säule bildet die relative Prominenz der mit der entsprechenden Schlagposition assoziierten Silbe ab. Nach Selkirk (1984) wird das metrische Gitter aus der syntaktischen Struktur durch Regeln aus vier Regelblöcken entwickelt: Text-Gitter-Regeln (Text-to-Grid Alignment), GittereuphonieRegeln (Grid Euphony Rules), Hinzufügung stummer Halbschläge (Silent Demibeat Addition) und Deakzentuierung (Destressing). Der Interaktion der Regeln liegt das Prinzip der rhythmischen Alternation (The Principle of Rhythmic Alternation) zugrunde: Betonte und unbetonte Silben alternieren in einem annähernd konstanten Zeitintervall. Das Prinzip der rhythmischen Alternation ist somit eine Konsequenz der Isochronie-Hypothese: a. Every strong position on a metrical level η should be followed by at least one weak position on that level. b. Any weak position on a metrical level η may be preceeded by at most one weak position on that level. 96
An der Entwicklung des metrischen Gitters für die Äußerung R374 soll im Folgenden das Modell von Selkirk (1984) erläutert werden. Die Darstellung beschränkt sich auf die Text-Gitter-Regeln. R374 ist eine aus sieben Silben bestehende Äußerung. Die Regel des Demibeat Alignment97 bewirkt, dass in der 1. Lage jeder Silbe ein Schlag zugeteilt wird. Damit wird die Silbenstruktur ins metrische Gitter importiert. Diese Regel gilt für Englisch, Deutsch, Italienisch und alle anderen Sprachen, in denen die Silbe einen vergleichbaren Status hat. Das bedeutet für R374: χ σ (si)n
95
96 97
x x σ σ Al le
χ σ tWEG
χ σ |nach
x x l . Lage σ σ Silben-Ebene he rSegment-Ebene
Im metrischen Gitter werden die Laute stets in orthographischer Transliteration geschrieben. Die phonetische Transkription für R374 lautet: [n ala vek naxhee]. Selkirk (1984), S. 52. Selkirk (1984), S. 57: „Align just one demibeat with every syllable."
26
Die Basic Beat Rules,98 die die Besetzung der 2. Lage steuern, enthalten dagegen Variablen (s>x«, »y«), die einzelsprachenspezifisch gefüllt werden müssen. Im Englischen bekommen alle schweren und alle wurzelinitialen Silben einen Schlag." Hayes (1995, S 15) konkretisiert, dass [a], [m] und [n] niemals, und [u] nur in bestimmten Kontexten ein Schlag auf der 2. Ebene zugewiesen wird. Diese Spezifikationen gelten auch für das Deutsche. 100 Uhmann (1991, S. 177) nennt alle Silben, die nicht die von Hayes genannten Laute aufweisen, „potentielle Iktusträger". Im Standarditalienischen, das zur Intakthaltung der phonetischen Merkmale der Einzellaute tendiert und in dem deshalb Schwundstufen wie [Θ] kaum vorkommen, ist damit zu rechnen, dass nahezu alle Silben einen Schlag in der 2. Lage bekommen: 101 In R374 wird den Silben [η], [la] und [B] in der 2. Lage kein Schlag zugewiesen:
χ σ (si)n
χ x x σ σ Al le
x χ σ "fWEG
x
x χ σ .Jnach
x x l σ σ he r-
.
2. Lage Lage Silben-Ebene Segment-Ebene
Auch in der 3. Lage, der Lage des Iktus, der oft mit dem Wortakzent im Simplex übereinstimmt, gilt es, zwischen den Einzelsprachen zu differenzieren. Selkirk formuliert die English Main Stress Rule.102 Uhmann (1991, S. 177) folgt für das Deutsche den Wortakzentregeln von Wurzel (1980). Deren Fundament ist die lexikalische Klassifizierung der Simplicia in native und nichtnative Wörter, für die jeweils unterschiedliche Akzentregeln aufgestellt werden. 103 Weil die Akzentverteilung nach Wurzel (1980, S. 312-317) sechs verschiedenen und teilweise konkurrierenden Akzentprinzipien (segmental-phonologisch, morphologisch, syntaktisch, semantisch, kommunikativ, rhythmisch) folgt, wird sie für jede der beiden Wortklassen durch eine Gruppe von Regeln spezifiziert. Unter Vernachlässigung der Einzelheiten gilt als Grundregel: In n a t i v e n B a s i s m o r p h e m e n erhält der Vokal der ersten Silbe einen 1 - A k z e n t [Wortakzent, StR]. [...] In n i c h t n a t i v e n Wörtern erhält der Vokal der l e t z t e n schweren Silbe (der letzten Silbe, die auf langen Vokal, D i p h t h o n g oder K o n s o n a n t e n d e t ) einen 1-Akzent, vorausgesetzt, der Vokal s t e h t in einem nichtnativen M o r p h e m . 1 0 4
Dieser Festlegung steht eine auf Kiparsky (1966) zurückgehende neuere Ansicht gegenüber, nach der der Wortakzent nach einem einheitlichen Set von Generalisierungen 98
Selkirk (1984), S. 58: „a. Align a syllable of compositional t y p e χ w i t h a beat. b. Align a syllable in position y w i t h a beat." 99 Zur Heavy Syllable Basic Beat Rule und Initial Basic Beat Rule vgl. Selkirk (1984), S. 84. 100 V g l . die Regel A R l b , m i t der Wurzel (1980), S. 302f. die B e t o n u n g v o n Silben, deren N u k l e u s aus [a] b e s t e h t , ausschließt. 101 V g l . U h m a n n (1991), S. 33f. u n d Wiese (1986), S. 258, die ihre typologischen Aussagen allerdings auf die o b e n kritisierte Unterscheidung v o n akzent- u n d silbenzählenden Sprachen gründen. In süditalienischen Dialekten ist [a] dagegen häufig, vgl. z.B. Albano L e o n i / M a t u r i (1995), S. 40f. 102 S e l k i r k (1984), S. 95 (formalisiert auf S. 104): „Align the r i g h t m o s t basic b e a t within a R o o t c o n s t i t u e n t w i t h a grid position o n t h e third metrical level." W u r z e l (1980), S. 301 u n d S. 312f. Vgl. auch die neuere Z u s a m m e n s t e l l u n g der Regeln in Zifonun et al. (1997), B d . 1, S. 203-212. 104 W u r z e l (1980), S. 3 0 2 / 3 0 6 . 103
27 immer vom rechten Rand des Simplex her zugewiesen wird, eine Unterscheidung in native und nichtnative Wörter also obsolet ist. Die Generalisierungen haben eine verschieden hohe Verlässlichkeit, das heißt, sie lassen unterschiedlich viele Ausnahmen zu. Die drei verlässlichsten Generalisierungen sind die three-syllable window restriction (der Wortakzent im Simplex fällt auf eine der drei letzten Silben), die closed-penult restriction (der Wortakzent fällt auf die Penultima, sofern sie geschlossen ist) und die final-schwa restriction (der Wortakzent fällt auf die Penultima, wenn die letzte Silbe [a] enthält). 105 In R374 fallen rhythmische Schläge auf [al] und [he] und werden damit sowohl von Wurzeis Regel als auch von der closed-penult restriction korrekt vorhergesagt. Für [vek] gibt es keine Alternative zur realisierten Zuweisung. Das metrische Gitter hat bis zur 3. Lage folgende Form:
χ σ (si)n
χ χ x x σ σ Al le
χ χ χ σ tWEG
χ 3. Lage x x 2. Lage χ x x l . Lage σ σ σ Silben-Ebene |nach he rSegment-Ebene
Die Prominenzverhältnisse oberhalb der Simplicia werden in der 4. Lage dargestellt. Selkirk formuliert die Nuclear Stress Rule106 für Phrasen und Sätze und die Compound Stress Eule107 für Komposita. Während die Prominenzverhältnisse in Komposita noch Teil der Wortakzent-Problematik sind, betrifft die in der Nuclear Stress Rule formulierte Hypothese die Akzentstruktur, wobei Akzent 'Äußerungsakzent' im Sinne der oben (S. 8f.) vorgenommenen Konzeptualisierung meint. Akzente sind kommunikativ gesteuert. Die Anwendung der Nuclear Stress Rule auf R374 würde zu einem Ergebnis führen, das nicht mit der empirisch festgestellten Akzentstruktur der Äußerung übereinstimmt. Als Korrektiv der syntaktischen Text-Gitter-Regeln wirkt daher das kommunikative Akzentprinzip, über das Wurzel (1980, S. 314) schreibt: Die Bedingungen für die Plazierung des Akzents ergeben sich aus der Kommunikationssituation. Es werden sprachliche Einheiten betonungsmäßig hervorgehoben, wenn sie für das korrekte Verständnis einer Äußerung von besonderer Bedeutung sind und/oder die Gefahr des Mißverstehens besteht. Der Akzent erfüllt die Funktion der Hervorhebung von kommunikativ wichtigen sprachlichen Einheiten, die normalerweise nicht betont würden.
Die Wirkung dieses Korrektivs ist so stark, dass unter Umständen der Akzent sogar auf einer Silbe liegen kann, deren Nukleus von [Θ] gebildet wird, einem Laut also, dem nach der Basic Beat Rule schon in der 2. Lage kein Schlag mehr zugewiesen würde. 108 105
Vgl. zur Wortakzentproblematik Jessen (1999), S. 515-532 und Wiese (1996), S. 272-311. Selkirk (1984), S. 149 (formalisiert auf S. 151): „Within a given syntactic phrase, the rightmost beat of the metrical grid (fragment) aligned with the (entire) phrase that is on at least the third metrical level is made the most prominent beat of that metrical grid." 107 Selkirk (1984), S. 150 (formalisiert auf S. 151): „Within a given word, the beat of the metrical grid fragment aligned with the leftmost immediate constituent of the word that is both (a) the most prominent beat of that fragment and (b) on at least the third metrical level is made the most prominent beat of the metrical grid (fragment) aligned with the entire word." 108 Vgl. Wurzel (1980), S. 312. Durch die Akzentuierung wird [θ] dann allerdings zu [e:], vgl. Wurzel (1981), S. 926f. 106
28
Uhmann (1991, S. 179) zieht deshalb in ihrer Adaptation die Pitch Accent Prominence Rule, mit der Selkirk das kommunikative Akzentprinzip in die Text-Gitter-Regeln einbindet, 109 von der 5. in die 4. Lage vor. R374 trägt zwei Akzente, dem metrischen Gitter werden in der 4. Lage zwei Schläge zugewiesen:
χ σ (si)n
x x χ χ x x σ σ Al le
χ x χ σ "fWEG
χ x
x
χ σ juach
x x l σ σ he r-
4 . Lage 3 . Lage 2 . Lage . Lage Silben-Ebene Segment-Ebene
In der 4. Lage des metrischen Gitters können - wie hier im Beispiel - zwei oder mehr Akzente repräsentiert werden. Diese Akzente können identische Prominenz haben. In vielen Fällen werden die Akzente aber als unterschiedlich prominent perzipiert. In diesen Fällen - wie auch hier im Beispiel - wird das metrische Gitter um eine 5. Lage erweitert, in der dem prominentesten Akzent ein zusätzlicher rhythmischer Schlag zugewiesen wird. In den meisten Fällen wird die Konstituente als besonders prominent wahrgenommen, die in der syntaktischen Struktur am weitesten rechts steht. Uhmann (1991, S. 179) spricht von der Regel der Endakzentstärkung und greift damit auf die Nuclear Stress Rule zurück. Mit der Schlagzuweisung in der 5. Lage ist der Aufbau des metrischen Gitters abgeschlossen.
X X X X σ Al
X
X X X X X
X X
X X X
X
r-
σ
σ
σ
σ
le
tWEG
Illach
he
σ
5 . Lage 4 . Lage 3 . Lage 2 . Lage 1. Lage Silben-Ebene Segment-Ebene
Zusammenfassung: In der 1. Lage wird die Breite des metrischen Gitters in Abhängigkeit von der Silben-Ebene festgelegt. Die 2. Lage repräsentiert die potentiellen und die 3. Lage die tatsächlichen Iktusträger. Die 4. Lage und die 5. Lage stellen die Akzentstruktur dar. Der Aufbau des metrischen Gitters wurde ausschließlich nach Text-Gitter-Regeln vorgenommen. Die Anwendung von Gittereuphonie-Regeln 110 - Beat Addition, Beat Movement und Beat Deletion - ist in R374 überflüssig, weil die Text-Gitter-Regeln keine Verstöße gegen das Prinzip der rhythmischen Alternation produzieren. Die Hinzufügung stummer Halbschläge - Silent Demibeat Addition - dient dazu, Pausen, finale Dehnungen und andere Verzögerungsphänomene ins metrische Gitter zu integrieren. Das raddoppiamento sintattico - unter bestimmten Umständen wird der wortinitiale Konsonant im Italienischen verdoppelt, so zum Beispiel bei /,pju 'kkaldo/ - ist 109
Selkirk (1984), S. 152 (formalisiert auf S. 276): „A syllable associated with a pitch accent is more prominent (on the grid) than any syllable that is not associated with a pitch accent." Dieser Regel liegt wiederum die Basic Focus Rule zugrunde. Selkirk (1984), S. 207: „A constituent to which a pitch accent is assigend is a focus." Die Basic Focus Rule formuliert Selkirk (1995), S. 561 explizit auch für Deutsch und Niederländisch. 110 Vgl. Selkirk (1984), S. 55f. Speziell zum Italienischen vgl. Nespor/Vogel (1989), S. 69-89, zum Deutschen Uhmann (1997a), S. 97-184.
29 ebenfalls mit der durch stumme Halbschläge ausgedrückten zeitlichen „Nähe" der aufeinandertreffenden Wörter zu erklären. 111 In der metrischen Phonologie werden zwei weitere Konzepte kontrovers diskutiert, auf die hier jedoch nicht eingegangen werden kann. 112 Destressing bzw. Deakzentuierung meint, dass bestimmte Silben durch rhythmische Transformationen ihren Schlag in der 2. Lage verlieren. Extrametricality heißt, dass bestimmte Silben beim Aufbau des metrischen Gitters ausgeblendet werden.
2.3.2.2
Intonationskomponente: Das Pierrehumbert-Modell
Von allen Intonationsmodellen der autosegmentalen Phonologie hat die Dissertation von Janet Pierrehumbert, „The Phonology and Phonetics of English Intonation" ( 1 1980/ 2 1987), den größten Einfluss entfaltet. 113 Pierrehumbert führt verschiedene Ansätze nicht-linearer Phonologie der 70er Jahre - autosegmentale Theorie von Goldsmith (1976b), metrische Theorie von Liberman und Prince (1977), Untersuchungen zum (schwedischen) Wortakzent von Bruce (1977) - zu einem generativen Intonationsmodell zusammen. In diesem Modell wird eine phonetische Repräsentation durch tonale Implementierungsregeln aus einer phonologischen Repräsentation abgeleitet. Das Pierrehumbert-Modell ist rein formal, Funktionen werden explizit aus der Modellbildung ausgeschlossen.114 An der Generierung der phonologischen Repräsentation sind drei Regelsysteme beteiligt: 1. eine Intonationsgrammatik, in der das Toninventar und die Syntax der Ton-Ebene festgelegt sind, 2. eine metrische Komponente, die wie dargestellt 115 die Akzentstruktur der Intonationsphrase generiert, und 3. eine Verbindungskomponente, die unter Rückgriff auf die metrische Ebene die Assoziation zwischen Ton- und Silben-Ebene regelt. Das Toninventar der Intonationsgrammatik entsteht einerseits aus einer Reduzierung, andererseits aus einer Erweiterung des Inventars von Goldsmith (1976b), der zwischen Η ('hoher Ton'), L ('tiefer Ton') und Μ ('mittlerer Ton') unterschieden hatte. Die Zahl der Tonhöhenstufen wird auf zwei reduziert, auf die Opposition Η ('hoch') und L ('tief'). 116 Die zwei Tonhöhenstufen werden aber durch Diakritika zu jeweils drei Tontypen spezifiziert: mit »*« zu den Akzenttönen (pitch accents) Η* und m
V g l . zu den Timing-Phänomenen generell Selkirk (1984), S. 297-334 und Sluyters (1990), passim. Vgl. zum raddoppiamento sintattico - traditionell - Mioni (1993), S. 131f. und De Dominicis (1990), passim und - im R a h m e n der metrischen Phonologie - Selkirk (1984), S. 329-333, zur Kritik daran Wiese (1986), S. 268-270. 112 Vgl. dazu van der Hülst (1999), S. 33-36; Ladd (1996), S. 174-179; Goldsmith (1990), S. 203ff.; Jacobs (1988), S. 128ff.; Selkirk (1984), S. 87-94 u. S. 111-131. 113 Vgl. dazu das Urteil von Ladd (1996), S. 3. Eine zusammenfassende Darstellung von Pierrehumberts unübersichtlichen Ausführungen findet sich bei U h m a n n (1991), S. 72-97. 114 Wodurch sich das Pierrehumbert-Modell zur phonetischen Beschreibung von Tonhöhenverläufen und damit für die Zwecke der vorliegenden Arbeit qualifiziert. Siehe dazu ausführlicher S. 36fF. 115 Pierrehumbert konnte sich bei der Erstveröffentlichung ihrer Arbeit 1980 natürlich noch nicht auf Selkirk (1984) beziehen. Ihr Modell übernimmt die Überlegungen von Liberman (1975) und Liberman und Prince (1977). Vgl. Pierrehumbert ( 2 1987), S. 15-24. 116 V g l . Pierrehumbert ( 2 1987), S. 9ff.
30 Boundary Tone
Pitch Accents
Phrase Accent
Boundary Tone
Abb. 2.5: Die wohlgeformte englische Intonationsphrase
L*, mit » % « zu den G r e n z t ö n e n (boundary tones)
H% u n d L% u n d mit » - « zu den
Phrasentönen (phrase accents) Η- und L-. Durch Kombinationen werden zusätzlich die fünf bitonalen Akzenttönen L*+H-, L-+H*, H*+L-, H-+L* und H*+H- gebildet. Das Toninventar besteht also aus sieben Akzent-, zwei Grenz- und zwei Phrasentönen. 117 Während in Goldsmiths Grundkonzeption auch in Intonationssprachen mit jeder Silbe Töne assoziiert sind, 118 tragen in Pierrehumberts Modell nur die Silben Töne, die durch ihre Prominenz oder durch ihre Position an den Grenzen der Intonationsphrase besonders exponiert und deshalb zum Funktionsausdruck besonders geeignet sind. Untersuchungen (der Britischen Schule) zeigen, dass der Tonhöhenverlauf gerade auf initialen, finalen und akzentuierten Silben eine besondere Variation zeigt bzw. diese Variation in vielen Fällen die entsprechenden Silben überhaupt erst als initial, final oder akzentuiert konstituiert. 119 Akzenttöne sind Töne, die mit (in der metrischen Analyse ermittelten) Akzentsilben assoziiert werden und prinzipiell bedeutungstragend sind. 120 Im Unterschied zum Modell der Britischen Schule wird kein Unterschied zwischen nuklearen und pränuklearen Akzenttönen gemacht, der über die unterschiedliche Prominenz hinausgeht (der Nukleus ist als prominentester Akzentton durch einen Schlag in der 5. Lage oder den einzigen Schlag in der 4. Lage des metrischen Gitters gekennzeichnet). Grenztöne 117
Die Binärdaxstellung ist erfolgreich schon von Isacenko und Schädlich ( 1 1966) bei der Entwicklung des Modells prä- und postiktischer Tonbrüche verwendet worden, siehe S. 66f. Pierrehumberts bitonale Akzenttöne L*+H-, L--l-H*, H*+L-, H--(-L* geben exakt das Modell von Isacenko und Schädlich wieder, ohne es explizit zu nennen. 118 Goldsmith (1976a), S. 36 formuliert als erste Wohlgeformtheitsbedingung für die autosegmentale Darstellung der Tonstruktur: „All vowels are associated with at least one tone. All tones are associated with at least one vowel." 119 Vgl. Cruttenden ( 2 1997), S. 34 und S. 40. Siehe auch Kap. 2.3.1. 120 Vgl. dazu Kap. 2.3.2.4, S. 34.
31
haben phrasierende Funktion: Sie geben die Tonhöhe der Eckpunkte der Intonationsphrase wieder und werden mit den initialen bzw. finalen Silben assoziiert, ohne dass diese dafür besondere metrische Prominenz haben müssen. Phrasentöne kontrollieren den Tonhöhenverlauf zwischen dem letzten Akzentton und dem finalen Grenzton. 121 Die wohlgeformte englische Intonationsphrase hat die in Abb. 2.5 122 dargestellte Form. Pierrehumbert (21987, S. 9) schreibt: The well-formed tunes for an intonation phrase are comprised of one or more pitch accents followed by a phrase accent and then a boundary tone. (There is also a leading boundary tone after a pause.)
Phrasenton und finaler Grenzton sind obligatorisch, sie werden jeder Intonationsphrase zugewiesen. Besteht eine Intonationsphrase nur aus einer Silbe, wird mit dieser Silbe ein Akzent-, ein Phrasen- und ein finaler Grenzton assoziiert, um die Wohlgeformtheitsbedingung zu erfüllen. Die Vergabe initialer Grenztöne und die Zahl der Akzenttöne wird dagegen nicht von abstrakten Regeln, sondern von kommunikativen Faktoren bestimmt: Die Verbindungskomponente legt fest, dass Akzenttöne nur mit Akzentsilben assoziiert werden können, und für die Zuweisung von Akzenten gilt das kommunikative Akzentprinzip. Das heißt nicht, dass mit jeder Akzentsilbe notwendigerweise ein Akzentton assoziiert ist: Die Prominenz der Silbe kann auch auf den auditiven Merkmalen Dauer oder Intensität beruhen. Der Nukleussilbe wird jedoch in jedem Fall ein Akzentton zugewiesen, um den Wohlgeformtheitsbedingungen zu genügen. Die phonologische Repräsentation wird durch tonale Implementierungsregeln in eine phonetische Repräsentation verwandelt. Die tonale Implementierung (tonal implementation) umfasst zwei Regelkomplexe: „One kind of rule evaluates tones phonetically, and a second constructs the FO contour between one target value and the next." 124 Im ersten Schritt werden die Bewertungsregeln abgearbeitet, die jedem Ton einen phonetischen Wert zuweisen. Im zweiten Schritt erhalten die Abschnitte zwischen zwei Tönen durch Interpolationsregeln einen phonetischen Verlauf. In die Berechnung der phonetischen Werte der Töne gehen vier Variablen ein: 1. der Tontyp, 2. die Positionierung des Tons in der Tonfolge, 3. der Downstep-Koeffizient125 und 4. die Prominenzrelation. Der Downstep-Koeffizient ist dafür verantwortlich, dass hohe Akzenttöne gleicher Prominenz in der Intonationsphrase von links nach rechts 121
Das diffuse Konzept des Phrasentons wird von Beckman und Pierrehumbert (1986) modifiziert, siehe in der vorliegenden Arbeit S. 33. 122 Pierrehumbert ( 2 1987), S. 13. Der im ersten Abschnitt der Zeichnung zwischen H% und L% hindurchgehende Pfeil drückt aus, dass der initiale Grenzton fakultativ ist. 123 Pierrehumbert ( 2 1987), S. 15: „The basic observation is that pitch accents are assigned to metrical feet on the basis of the metrical structure of the entire phrase. The outcome is that the designated terminal element of an arbitrary metrical foot may, but need not necessarily, carry a pitch accent. Since all outcomes of the grammar of allowable tonal sequences have at least one pitch accent, the well-formed text-tune associations have a pitch accent on the nuclear stress, or designated terminal element of the phrase." 124 Pierrehumbert ( 2 1987), S. 25. 125 Zum Konzept Downstep siehe unten, S. 54.
32 abnehmende F0-Werte haben. 126 Pierrehumbert gibt für die Berechnung der Werte der einzelnen Tontypen einen Algorithmus aus neun Formeln an. 127 Nicht erfasst von diesen Bewertungsregeln werden der finale Grenzton L%, der auf der Basislinie liegt und deshalb generell den Wert 0 hat, 1 2 8 und der erste Akzentton, dessen Wert von kontextuellen Faktoren bestimmt wird: „The value of the first pitch accent in the phrase is a free choice, governed by pragmatic or expressive factors." 129 Die Eingabe der Grundfrequenzwerte erfolgt nicht in H z , sondern in normalisierten Grundlinieneinheiten: „FO peaks are scaled as the peak-to-baseline difference (in Hz) divided by the baseline value at the location of the peak." 130 Die Grundlinieneinheit β wird folgendermaßen berechnet: 131
Die Skalierung hoher Akzenttöne (H*) lässt sich mit zwei sukzessiv angewendeten Formeln wiedergeben. Mit Formel 2.2, die Pierrehumbert ( 2 1987, S. 88-91.) auch für die Berechnung des Η-Anteils in den bitonalen Akzenten und der hohen Phrasentöne (H-) verwendet, wird aus dem Wert eines hohen Akzenttons der Wert des folgenden hohen Akzenttons berechnet: 132
Wenn zwischen / H i / und /Hi+1/ ein tiefer Akzent- oder Phrasenton positioniert ist, wird der oben errechnete Wert mit Formel 2.3, der Downstep Rule, korrigiert: 133 (2.3)
/Hi+1/
=
k*/Hi/
Ahnliche Formeln werden für tiefe Akzent- und Phrasentöne und für die Upstep Rule angegeben. Pierrehumbert ( 2 1987, S. 228f.) führt die Wirkungsweise der Bewertungsregeln am Beispiel der Erzeugung einer ίο-Kontur aus der Tonfolge H* H-+L* H-+L* vor. 126
Pierrehumbert (1979), S. 363 kommt in einem Perzeptionsexperiment zu dem Ergebnis, dass „when two stressed syllables sounded equal in pitch, the second was actually lower." 127 Vgl. Pierrehumbert ( 2 1987), S. 79f. und die Erläuterungen dazu bei Uhmann (1991), S. 87-91. 128 Vgl. dazu auch unten, S. 51. 129 Pierrehumbert ( 2 1987), S. 79. 130 Pierrehumbert ( 2 1987), S. 67. 131 Pierrehumbert ( 2 1987), S. 68. Dabei bliebt allerdings unklar, wie der Wert für die Basislinie unter dem Grundfrequenzgipfel 6P quantifiziert werden soll, da die Basislinie nur ein theoretisches Konstrukt und deshalb nicht messbar ist. Siehe dazu auch unten, S. 51. 132 Wobei gilt: /Hi+1/ folgt /Hi/. Vgl. Pierrehumbert ( 2 1987), S. 79. Pierrehumbert macht keinen Unterschied zwischen auditiven und akustischen Merkmalen und verwendet Prominenz und Intensität synonym. 133 Wobei für den Downstep-Koeffizienten k gilt: 0 < k < 1. Vgl. Pierrehumbert ( 2 1987), S.80/91.
33 Die Interpolationsregeln werden von Pierrehumbert nicht exakt ausgearbeitet. Uhmann (1991, S. 94f.) entwickelt aus Pierrehumberts Ansätzen drei Interpolationsregeln: 1. Verbinde aufeinanderfolgende Η-Töne unabhängig von ihrem phonetischen Wert durch eine muldenbildende Kontur über den intervenierenden unakzentuierten Silben. 2. Verbinde aufeinanderfolgende phonologisch nicht identische Tonwerte durch eine direkte Kontur. 3. Verbinde aufeinanderfolgende L-Töne durch eine flache Kontur. M a t h e m a t i s c h w e r d e n die Interpolationsregeln nicht weiter s p e z i f i z i e r t . 1 3 4
2.3.2.3
ToBI
Das Intonationsmodell von Pierrehumbert (1980) ist in der Folgezeit modifiziert worden. Beckman und Pierrehumbert (1986) führen in der Überarbeitung des Modells für den Sprachvergleich Englisch - Japanisch das Konzept der Intermediärphrase (intermediate phrase) ein, einer der Intonationsphrase hierarchisch untergeordneten Konstituente, die der phonologischen Phrase von Nespor und Vogel (1986) entspricht und als deren Grenzton der Phrasenton (phrase accent) fungiert. 135 Beckman und Ayers (1997) integrieren das überarbeitete Pierrehumbert-Modell in das Notationssystem ToBI. ToBI steht für „Tone and Break Indices" und ist der aktuelle Standard für die prosodische Transkription in der autosegmentalen Phonologie. ToBI sieht vier Ebenen vor: eine Text-Ebene (orthographic tier), eine Ton-Ebene (tone tier), eine Grenzsymbol-Ebene (break index tier) und eine Ebene für die Darstellung anderer phonetischer Merkmale (miscellaneous tier).136 ToBI entspricht daher dem in Abb. 2.4 (S. 23) dargestellten Grundmodell, erweitert es aber mit dem Break Index (BI) um eine Komponente, die sich nur indirekt auf die Silben-Ebene beziehen lässt. Mit dem Break Index wird die Stärke der Grenze zwischen zwei Einheiten auf einer Skala von 0 bis 4 angegeben. BI 4 markiert die Grenze der Intonationsphrase, BI 3 die Grenze der Intermediärphrase. Mit BI 4 wird folglich auf der Ton-Ebene ein Grenzton assoziiert, mit BI 3 ein Phrasenton. Die BI-Ebene spielt eine große Rolle in der Sprachsynthese. 134
D a s Ineinandergreifen von Bewertungs- und Interpolationsregeln wird von U h m a n n (1991), S. 95-97 - durch die Erweiterung von Pierrehumberts ( 2 1987, S. 228f.) Beispiel um die Ergebnisse der Interpolationsregeln - graphisch illustriert. 135 Vgl. Pierrehumbert ( 2 1987), S. VII und Ladd (1996), S. 92-94. Primäres Anliegen der Untersuchung von Grice (1995) ist die Uberprüfung der Leistungsfähigkeit dieses Modells, siehe Kap. 3.3.2. Zu Nespor/Vogel (1986) siehe oben, S. 9. 136 Vgl. Beckman/Ayers (1997) und Beckman/Hirschberg (1994). Das ToBI-Modell ist verschiedentlich erweitert worden. Stenström (1994) schlägt einen illocutionary force type tier vor, weil sie von einer Korrelation zwischen Intonation und Sprechakttyp ausgeht. Vgl. dazu Campbell (1995), S. 25, in der vorliegenden Arbeit S. 99. Ich werde zeigen, dass tatsächlich ein Zusammenhang zwischen Intonation und bestimmten Sprechakttypen besteht. Die Integration der Sprechakttypen in ToBI halte ich dennoch für unglücklich, weil die klare Unterscheidung von Form- und Funktionskategorien damit verlorengeht.
34 Die Prinzipien des ToBI-Modells sind wie die Prinzipien des ihm zugrundeliegenden Pierrehumbert-Modells übereinzelsprachlich. Die inhaltliche Bestimmung der einzelnen Komponenten (zum Beispiel das Toninventar) ist dagegen einzelsprachenspezifisch. Töne haben im ToBI-Modell phonologischen Status, das heißt, jedem Ton wird bedeutungsunterscheidende Kraft zugeschrieben. Für welche Töne das der Fall ist, muss für jede Sprache separat untersucht und festgelegt werden. Für das Deutsche wurde mit „GToBI" 137 ein einheitliches System vorgeschlagen, für das Italienische liegt „ToBIt" 138 vor.
2.3.2.4
Funktionen der Intonation
Der Tonhöhenverlauf der Intonationsphrase wird von Pierrehumbert (1980) als „phonologische Repräsentation" aus hohen und tiefen Tönen bezeichnet, weil diese Töne tiefenstrukturell zu begreifen seien.139 Die Tonfolgen erfüllen das Kriterium der phonologischen Distinktivität jedoch nicht, weil Pierrehumbert mit Verweis auf die Kontextabhängigkeit intonatorischer Bedeutung explizit von einer funktionalen Analyse absieht. 140 Pierrehumbert holt die funktionale Analyse in zwei Arbeiten zusammen mit Julia Hirschberg nach. Hirschberg und Pierrehumbert (1986) greifen das Konzept der Diskursstruktur von Barbara Grosz und Kollegen141 auf und führen ein Experiment durch, in dem die Bedeutung der Intonation für die Verstehbarkeit der synthetischen Sprachproduktion eines Computer-Lernprogramms (zur Erklärung des UNIXTexteditors „vi") untersucht wird. Dabei stellen sie fest, dass es Korrelationen zwischen der Art der Fokussierung und der Prominenz der auf den fokussierten Elementen realisierten Akzente gibt. 142 Über Variation des Tonhöhenumfangs wird die inhaltliche Stellung der Diskurssegmente zueinander ausgedrückt: Gleiche Tonhöhe bedeute inhaltliche Nebenordnung, geringere Tonhöhe inhaltliche Unterordnung der entsprechenden Segmente.143 Welcher Typ Grenz- oder Akzentton mit dem entsprechenden 1 3 7 Vgl.
Benzmüller/Grice (1997) und Grice et al. (1996). Vorläufer sind das „Saarbrücken System" von Grice/Benzmüller (1995) und das „Stuttgart System" von Mayer (1995). 1 3 8 Vgl. Avesani (1995). ToBIt enthält keine Break Indices. Vgl. dazu auch Caputo/D'Imperio (1995). 1 3 9 Vgl. Pierrehumbert ( 2 1987), S. 2. 1 4 0 Vgl. Pierrehumbert ( 2 1987), S. 31-33. 1 4 1 Grosz/Sidner (1986) und Grosz/Joshi/Weinstein (1995). 1 4 2 Vgl. Hirschberg/Pierrehumbert (1986), S. 141f. 1 4 3 Hirschberg/Pierrehumbert (1986), S. 140 schreiben, dass „a hierarchical segmentation of discourse can be marked by systematic variation in pitch range, which can signal movements between levels in the segment hierarchy. In addition, by varying the amount of final raising or lowering at the end of phrases, we can indicate the degree of conceptual continuity between one phrase and the next." Der Ansatz wurde auch für das Italienische und das Niederländische erprobt, vgl. Avesani (1997), Avesani/Vayra (1992), Schirru (1993) und Swerts (1997). Meines Wissens liegt noch keine Anwendung auf deutsche Monologe vor. Ich habe den Ansatz auf ausgewählte deutsche Passagen aus dem Vineta-Korpus angewendet. Er konnte für diese dialogischen Sequenzen nicht bestätigt werden. Vermutlich überlagert der Ausdruck gesprächsorganisierender Funktionen die - im Sinne von Grosz und Kollegen - diskursstrukturierenden.
35 Diskurssegment assoziiert wird, spielt dagegen für die Diskursstruktur keine Rolle: Akzent- und Grenztontypen dienen lediglich als Korrelate „propositionaler Einstellungen": „contours can convey propositional attitudes the speaker wishes to associate with the propositional content of an utterance." 1 4 4 Pierrehumbert und Hirschberg (1990) revidieren diese Position und entwickeln ein Modell, in dem die Bedeutung von Intonationskonturen als Summe der Einzelbedeutungen von Akzent- und Grenztönen betrachtet wird. Jedem Tontyp wird eine separate Funktionsdomäne zugewiesen. Akzenttöne vermitteln - ähnlich wie Nukleartöne in den Modellen der Britischen Schule - Informationen über das Verhältnis der Proposition zu den vermuteten Wissensbeständen der Interaktionsteilnehmer. 1 4 5 Grenztöne drücken den Status der Einheit im semantischen Kontext aus, wobei die Bezugseinheit der Phrase Accents die Intermediärphrase und die Bezugseinheit der Boundary Tones die Intonationsphrase ist. Zusammengefasst: Pitch accents convey information about the status of discourse referents, modifiers, predicates, and relationships specified by accented lexical items. Phrase accents convey information about the relatedness of intermediate phrases - in particular, whether (the propositional content of) one intermediate phrase is to form part of a larger interpretive unit with another. Boundary tones convey information about the directionality of interpretation for the current intonational phrase - whether it is "forward-looking" or
Einfache Akzenttöne werden in der Erweiterung zu bitonalen Akzenttönen bzw. durch Ergänzung von Grenztönen „präfigiert" bzw. „suffigiert". 1 4 7 Der Proposition α werden durch Akzent- und Grenztöne folgende Bedeutungen zugewiesen: 1. einfache Töne: H* l·148 'a ist neu'; L * l· 'a ist nicht neu, d.h. a ist gegeben oder falsch' 2. Töne mit Präfix: H + L * h 'Der Hörer glaubt, a ist neu, aber a ist nicht neu'; L + H * l· 'Der Hörer glaubt, a ist nicht neu, aber a ist neu' 3. Töne mit Suffix: L * + H l· 'a ist nicht neu, die Debatte ist unabgeschlossen'; H * + L l· 'a ist neu, die Debatte ist nicht unabgeschlossen'
Hirschberg/Pierrehumbert (1986), S. 142. Als „propositional attitudes" (im Original in Fettsatz) werden genannt: 'knowing', 'believing', 'intending', 'uncertainty' und 'ignorance'. 1 4 5 Vgl. Pierrehumbert/Hirschberg (1990), S. 285. 146 Pierrehumbert/Hirschberg (1990), S. 308. 1 4 7 Vgl. Pierrehumbert/Hirschberg (1990), S. 289ff. und Hobbs (1990), S. 314ff. Hobbs (1990), S. 323 fasst die Bedeutungen folgendermaßen zusammen (Tonetiketten im Original in Fettsatz): „It consists of mere three elements: a H*/L* choice to signal new or not new, a shift form a L or Η to a H* or L* to indicate a kind of correction or accomodation to what the hearer might have believed the status to be, and a Η suffix to indicate the status is still an open question." 1 4 8 Das Zeichen 3>h« steht für die logische Zuordnung 'wenn - dann'. 144
36 2.3.3
Theorie und Empirie: Die Modelle im Vergleich
Das Modell von Pierrehumbert ist ein in jeder Beziehung generatives Modell. Im Unterschied zu anderen generativen Modellen beruft es sich nicht nur auf generative Prinzipien: Die Bewertungsregeln werden als mathematische Formel formuliert, so dass einerseits tatsächlich Tonhöhenverläufe generiert werden können und andererseits die Regeln dadurch falsifizierbar sind. Im vorstehenden Kapitel wurden die Überlegungen von Pierrehumbert und Hirschberg (1990) zur Funktion der Intonation im Englischen referiert. Wichtiger als die Frage, was von den einfachen diskurssemantischen Funktionszuschreibungen zu halten ist, 149 ist hier die Tatsache, dass die Autorinnen damit einen Aspekt nachholen, der im Modell von Pierrehumbert (1980) nicht enthalten war, aber unerlässlich ist, um das Modell als phonologisch zu bezeichnen. Ohne die Berücksichtigung von Funktionen lässt sich aber nicht überprüfen, ob die postulierten Tontypen das Kriterium der phonologischen Disktinktivität erfüllen. Im Unterschied zu den Modellen der Britischen Schule handelt es sich beim Pierrehumbert-Modell von 1980 also nicht um ein phonologisches Intonationsmodell, sondern um ein Modell zur phonetischen Beschreibung von Tonhöhenverläufen. Ich stelle diesen Punkt hier besonders heraus, weil er in der autosegmentalen Phonologie oft übersehen, aber das Pierrehumbert-Modell erst dadurch für die kontrastive Analyse qualifiziert wird. 150 Folgen aus relationalen Binärtönen sind formale Konfigurationen, mit denen Tonhöhenverläufe eindeutig abgebildet werden können. Aus funktionalen Gründen 1 5 1 ist es sinnvoll, die Tonzuweisung im Englischen, Deutschen und Italienischen auf Akzent- und Grenzsilben zu beschränken. Theoretisch lässt sich der Tonhöhenverlauf aber in jedem beliebigen Feinheitsgrad beschreiben, indem an jedem Wendepunkt der Kurve die relationalen binären Einheiten 'hoch' und 'tief' gesetzt werden. Der Frage, ob Töne als Tonhöhenstufen die artikulatorischen und perzeptiven Realitäten besser abbilden als die Tonhöhenbewegungen der Britischen Schule, kommt dabei untergeordnete Bedeutung zu. Ladd (1996, S. 63-70) referiert zwar Untersuchungen, die dafür sprechen, dass Tonhöhenstufen primär und Bewegungen nur sekundär sind: Produktionsexperimente zeigen, dass die Tonhöhe von Akzent- und Grenztönen zwar individuell verschieden, aber in unterschiedlichen Äußerungen desselben Sprechers sehr konstant ist, während sich ähnliche Konstanten beim Umfang von Tonhöhenbewegungen nicht beobachten lassen. In Perzeptionsexperimenten mit Tonhöhenstufen (Diskriminierung von Tönen unterschiedlicher Grundfrequenz) werden bessere Ergebnisse erreicht als in solchen mit Tonhöhenbewegungen (Diskriminierung von Bewegungen unterschiedlichen Umfangs). Aber während beispielsweise in der Tonsprache Efik allein Tonhöhenstufen - und nicht Tonhöhenbewegungen - Lexeme distinguieren, 152 ist in den Intonationsspra149
Eine Überprüfung würde ein englisches Korpus erfordern. Vergleichbare Modelle hinsichtlich Deutsch und Italienisch werden in Kap. 3 untersucht. 150 Genau so, nämlich zur phonetischen Beschreibung, wird die ToBI-Notation auch in dem in Potsdam und Freiburg verorteten DFG-Projekt „Intonation regionaler Varietäten des Deutschen" verwendet. Vgl. Auer et al. (1998), Anmerkung 10 und Auer (2001). 151 Vgl. dazu die Kap. 2.3.2 und 2.4. 152 Vgl. Ladd (1996), S. 62f.
37 chen Englisch, Deutsch und Italienisch die Abfolge von 'hoch' und 'tief' ohne Bedeutungsänderung als 'fallende Tonhöhenbewegung' zu bezeichnen. Hinsichtlich der Nukleartonbewegungen gibt es keinen substantiellen Unterschied zwischen tonaler und britischer Beschreibung.153 Der substantielle Unterschied betrifft die pränuklearen Akzenttöne. Denn während im tonalen Ansatz die gesamte Intonationskontur einschließlich der pränuklearen Akzenttöne präzise beschrieben wird, erfasst die Britische Schule pränukleare Akzenttöne lediglich mit groben holistischen Kategorien. Der Einschätzung von Ladd (1996, S. 211) - „There is no deep incompatibility between AM [autosegmental-metrical, StR] assumptions and the idea that the nucleus has a special status." - muss also widersprochen werden. Im Pierrehumbert-Modell hat der Nukleus - abgesehen von einer größeren Prominenz - keinen besonderen Status. Ladds eigener Ansatz weicht in diesem Punkt vom hier präferierten Pierrehumbert-Modell ab. Auch die Ansicht, dass die pränuklearen Töne einer Intonationsphrase immer denselben Tontyp realisieren, ist unzutreffend.154 Im Deutschen gibt es zwar eine gewisse Tendenz dazu, aber auch Intonationsphrasen mit unterschiedlichen pränuklearen Akzenttönen kommen vor (zum Beispiel H190, H376, H514, R142, R298). Im Italienischen kann man nicht einmal von einer Tendenz zu einem einheitlichen pränuklearen Tontyp reden (A100, A105/110, A175, A252, F267, P061 und viele weitere). Deshalb werden in dieser Studie Tontypen als Beschreibungskategorien präferiert. Die hörerrelevanten Formkategorien sind dagegen die intonatorischen Verfahren.155 In Kap. 5 wird gezeigt, dass für den Ausdruck der untersuchten interaktiven Funktionen primär intonatorische Verfahren - und nicht Töne - verantwortlich sind. Die in Kap. 2.3.2 eingeführten generativen Regeln haben in der vorliegenden Untersuchung den Status von Hypothesen über Wahrnehmungsgewohnheiten. Eine vergleichbare empirische Lesart der generativen Regeln vertritt auch Uhmann (1991, S. 35), wenn sie schreibt, dass die „Nuclear Stress Rule und die Compound Stress Rule [...] die empirische Beobachtung [zusammenfassen], daß in Phrasen und Sätzen häufig die rechten Konstituenten die prominentesten sind, während für die Komposition die stärkste Prominenz auf den linken Konstituenten zu finden ist." Auch Hayes (1995, S. 369) relativiert die Nuclear Stress Rule als „phonological default, [which] may be overwritten by many factors ". Weil sich in empirischen Untersuchungen die rechts stehenden Konstituenten meistens als prominenter herausstellen als die links stehenden, werden in der Nuclear Stress Rule und der Compound Stress Rule Hörererwartungen ausgedrückt. Diese Erwartungen sind aber in der Wahrnehmung korrigierbar. Auch Pierrehumbert leitet die Wirkungsweise der Verbindungskomponente aus der empirischen Beobachtung ab, wenn sie von „basic observation" spricht. 156 Die Erklärungsadäquatheit des Modells zeigt sich im Vergleich der Vorhersagen mit den empirischen Befunden. 1 5 3 Die
britische Beschreibung ist deshalb in die tonale überführbar, was in den Kapiteln 3.2 und 3.3 auch getan wird. Vgl. dazu auch die „Ubersetzungstabelle" von Ladd (1996), S. 82. 1 5 4 L a d d (1996), S. 208 spricht davon, dass die pränuklearen Akzenttöne ,,seem[s] to represent a single linguistic choice, regardless of whether there are one or two such accents." 1 5 5 Vgl. Kap. 4.3. 1 5 6 Vgl. Pierrehumbert ( 2 1987), S. 15, zitiert oben, S. 31, Fn.
38
Ich habe die Erklärungsadäquatheit der Bewertungsregeln durch die nachträgliche Berechnung des bereits gemessenen Tonhöhenverlaufs von H069 überprüft. H069 NH: für mich war das die g [(.) Η* -> 233
größte !LÜ[:!ge; ((lacht)) Η* H+T* T-T'/. 222 (220)193
Die Berechnung der Werte für die Töne Η* II* H+T* führt zu folgendem Ergebnis, wenn man kreativ mit Pierrehumberts Algorithmus umgeht: 233 Hz (eingesetzter Ausgangswert), 217 Hz (vs. 222 Hz gemessen), 209 Hz (vs. 220 Hz gemessen), 122 Hz (vs. 193 Hz gemessen). Während damit die Fo-Werte der hohen Akzenttöne relativ gut vorhergesagt werden, produziert Formel 2.4 157 keine korrekte Vorhersage für den Fo-Wert des tiefen Akzenttons:
(2.4)
/L/ = k*
/#/
Die Bewertungsregeln weisen zahlreiche Defizite auf: 1. Die Berechnung der Grundlinieneinheit β nach Formel 2.1 (S. 32) ist nicht durchführbar, weil der Wert der abstrakten Basislinie unter dem Grundfrequenzgipfel nicht bestimmt werden kann. 2. Pierrehumbert macht keine Angaben dazu, wie die Prominenzwerte zu normalisieren sind. 3. Der wichtige Downstep-Koeffizient k wird nicht klar expliziert. Die Anwendung von k = 0,6 aus Pierrehumberts eigener Beispielrechnung158 führt, wie gezeigt, zu einer falschen Vorhersage. 4. Die Anwendung der Downstep-Regel (Formel 2.3, S. 32) wird vom Vorhandensein eines tiefen Phrasentons abhängig gemacht. Während aber in Pierrehumberts Analysen gelesener Sätze den Akzenttönen in fast allen Fällen Phrasentöne folgen, sind Phrasentöne in spontaner Rede eher selten. Die Deklination bliebe in diesen Fällen unberücksichtigt. Die richtige Vorhersage der hohen Akzenttöne in H069 (ohne Phrasentöne) erscheint vor diesem Hintergrund eher zufällig. Trotz dieser zahlreichen und grundlegenden Defizite stellt die Formulierung von Bewertungsregeln einen fruchtbaren Ansatz dar. Im Gegensatz zu den oft unüberprüfbaren allgemeinen Hypothesen über mentale Prinzipien sind konkrete Regeln falsifizierbar. Erst die Möglichkeit der Falsifizierung erlaubt die Verbesserung des Modells.
157
Die Formel gilt für den zusammengesetzten Akzentton H+L*, vgl. Pierrehumbert ( 2 1987), S. 79. 158 Pierrehumbert ( 2 1987), S. 228f.
39 2.4
Akzentstruktur und Fokussierung
Akzente markieren das, was in der Äußerung wichtig ist. Seit Aristoteles 1 5 9 gibt es die Vorstellung, dass grammatische und semantische Sätze grundsätzlich zweigeteilt sind. Ein Teil stellt den Ausgangspunkt oder die Basis des Satzes dar: das, worüber gesprochen wird. Der andere Teil drückt das aus, was darüber gesagt wird. Paul ( 4 1909) führt die „syntaktischen Grundverhältnisse" auf die Unterscheidung von psychologischem Subjekt und psychologischem Prädikat zurück. 160 Die Prager Schule entwickelt aus dieser Sprachpsychologie die Funktionale Satzperspektive, in der die Informationsverteilung zwischen Thema und Rhema geregelt ist, wobei sich diese Elemente durch einen unterschiedlichen Grad an kommunikativer Dynamik161 auszeichnen. Weniger als die oft zitierte Dichotomie 'alt' vs. 'neu' interessiert also in der späteren Prager Schule die Frage, wie sehr ein Äußerungsteil die Kommunikation „voranbringt". Zwischen „eigentlichem" Thema und „eigentlichem" Rhema liegen alle Äußerungsteile auf einem Kontinuum mit zunehmendem Grad an kommunikativer Dynamik. Joachim Jacobs (1988) untersucht den Einfluss der Informationsverteilung im Satz auf Grammatik und Akzentstruktur und konzeptualisiert deshalb die Thema-RhemaGliederung neu: als Fokus-Hintergrund-Gliederung (FHG): Die FHG ist, grob gesagt, eine Gliederung von Sätzen in hervorgehobene und nichthervorgehobene Teile. [...] Wir bezeichnen die hervorgehobenen Teile [...] als Fokus, die entsprechenden nicht-hervorgehobenen als Hintergrund. Wenn es [...] mehrere einzeln hervorgehobene Teile gibt, sprechen wir von einem mehrteiligen Fokus. 162 Als Markierungsmittel für die Fokus-Hintergrund-Gliederung konkurriert die Akzentstruktur mit der Satzgliedstellung (wie schon Paul bemerkt hatte). 1 6 3 Während im Deutschen die Akzentuierung das wichtigste Mittel der Fokusmarkierung zu sein scheint, 164 spricht einiges dafür, dass im Italienischen der Satzgliedstellung größere 159
Aristoteles (1995) unterscheidet zwischen Namen (onoma) und Ausspruch (rhema). Paul ( 4 1909), S. 124 schreibt: „Zwar müssen wir unterscheiden zwischen p s y c h o l o g i s c h e m und g r a m m a t i s c h e m S u b j e k t , respektive Ρ r ä d i k a t, da beides nicht immer zusammenfällt, wie wir noch im Einzelnen sehen werden. Aber darum ist doch das grammatische Verhältnis nur auf Grundlage des psychologischen auferbaut. Das psychologische Subjekt ist die zuerst im Bewusstsein des Sprechenden, Denkenden vorhandene Vorstellungsmasse, an die sich eine zweite, das psychologische Prädikat anschliesst." Und auf S. 126: „Zur Unterscheidung von Subjekt und Prädikat gab es ursprünglich nur ein Mittel, die T o n s t ä r k e . Im isolierten Satze ist das psychologische Prädikat als das bedeutsamere, das neu hinzutretende stets das stärker betonte Element. Dies dürfen wir wohl als ein durch alle Völker und Zeiten durchgehendes Gesetz betrachten. Ein zweites Unterscheidungsmittel könnte die W o r t s t e l l u n g abgegeben haben." 161 Firbas (1974), S. 24: „By the degree or amount of CD [communicative dynamism, StR] carried by a linguistic element, I understand the relative extend to which the element contributes to the development of the communication, to which, as it were, it 'pushes the communication forward'." 162 Jacobs (1988), S. 89f. 163 Weitere Mittel nennt Jacobs (1988), S. 114. 164 Vgl. Uhmann (1991), S. 3.
160
40 Bedeutung zukommt. 165 Andererseits signalisiert die Akzentstruktur Funktionen, die über die Fokus-Hintergrund-Gliederung hinausgehen. 166 In den meisten Fällen lässt sich Akzentuierung jedoch als Fokusmarkierung interpretieren. Ein Beispiel: K079 KB: COla? T*H-H7. 115 160 BB: WASser; -> Η* T-T'/. 263 218
In der Äußerung K080 liegt der Akzent auf der Silbe WAS, womit das Getränk 'Wasser' von Sprecherin BB besonders hervorgehoben 167 und zur zuvor von Sprecher KB geäußerten Annahme, die Bezugspersonen PA wünsche 'Cola' (K079), in Kontrast gesetzt wird. Durch Zuweisung eines Fokusmerkmals werden das oder die Elemente des Satzes hervorgehoben, zu denen im Kontext nicht realisierte Alternativen denkbar sind. 168 In K080 ist die Alternative zu 'Wasser' mit 'Cola' in der vorhergehenden Äußerung K079 explizit gegeben, in den meisten Fällen liegt sie aber nur implizit vor. Zur Ermittlung der fokussierten Elemente wird eine formal-semantische Repräsentation mit einem konkreten Kontext verknüpft. Kontext ist in diesem Zusammenhang sehr weit gefasst und umfasst sowohl die verbale und nonverbale Gesprächssituation als auch Bewußtseinszustände bei Sprecher und Hörer, soweit sie kontextualisiert werden. 169 In K080 korrigiert BB die Annahme KBs, die Bezugsperson PA wünsche 'Cola'. Folglich ist 'Wasser' fokussiert. Die semantische Repräsentation lässt sich etwa folgendermaßen in der von Jacobs vorgeschlagenen Form darstellen: ASS (#AX (WÜNSCHEN (PA, X)), WASSER # ) 1 7 0 Die für die wohlgeformte semantische Repräsentation notwendigen Elemente PA (ein Gesprächsteilnehmer) und WÜNSCHEN und sind kontextuell präsent.111 Während man im Vorlesestil Deakzentuierung kontextuell präsenter Elemente feststellt, fällt die Realisierung dieser Elemente in K080 komplett aus. Kontextuell präsente Elemente werden in natürlichen Gesprächen meist nicht verbalisiert. 165
Vgl. die Überlegungen Ladds (1996), S. 179 zu 'plastic accent patterns' im Englischen und 'non-plastic accent patterns' im Katalanischen. Das Deutsche ist diesbezüglich dem Englischen, das Italienische dem Katalanischen vergleichbar. 166 Vgl. Jacobs (1988), S. 115ff. 167 Zur metrischen und intonatorischen Detailanalyse siehe unten, S. 200. 168 Vgl. Jacobs (1988), S. 91. 169 Z u m Konzept der Kontextualisierung siehe unten, S. 123f. 170 Vgl. Jacobs (1988), S. 90 u. 95. Der Lambda-Operator λ wird verwendet, weil X keine Variable, sondern selbst eine Funktion ist. WASSER ist dagegen ein konkreter Funktionswert. Zum λ-Kalkül vgl. z.B. Lohnstein (1996), S. 132-151. 171 Jacobs (1988), S. 128 definiert: „Als kontextuell präsent bezeichnen wir Konstituenten von geäußerten Sätzen, deren Denotat in der unmittelbaren, d.h dem Kurzzeitgedächtnis und den Wahrnehmungsorganen der Kommunikationspartner direkt zugänglichen Umgebung der Äußerung bereits vorhanden oder auffällig ist, sei es, weil es dort gerade erwähnt wurde, sei es, weil es dort für alle Beteiligten sichtbar, hörbar oder anders wahrnehmbar physisch präsent und 'im Vordergrund' ist (so daß auf es nicht eigens, z.B. durch Zeigegesten, aufmerksam gemacht werden muß)."
41 Das fokussierte Element hängt von einem FHG-sensitiven (fokuszuweisenden) Operator ab, welcher den Skopus des Fokus festlegt. In K080 steht WASSER im Skopus des Operators ASS, womit der Illokutionstyp bzw. Satzmodus Assertion/Aussage ausgedrückt wird. Neben den in der Regel nicht lexikalisierten Operatoren für Illokutionstyp bzw. Satzmodus 1 7 2 gibt es eine Reihe lexikalisierter fokuszuweisender Operatoren. Jacobs (1988, S. 94f.) führt in einer offenen Liste die Gradpartikeln sogar, auch, selbst, nicht einmal und auch nur, die Satzadverbien leider, versehentlich und zufälligerweise und die Einstellungsverben bedauern, bezweifeln und sich freuen auf. H179 ist ein weiteres Beispiel für Fokus im Skopus des Illokutionstyps bzw. Satzmodus' Assertion/ Aussage·. ASS ( # λ Ρ (ES GEBEN BEI (DAS, Ρ FAMILIEN)), ANDEREN # ) 1 7 3 H178 NH: ich mein nlch nur bei den KENnedys;
Η*
->
Η* T-T/,
212 175 154 auch bei ANdern familien-
Τ'/.
H+T*
135 (161)134
Τ-
H'/.
131
135
H105 ist ein Beispiel für Fokus im Skopus der Gradpartikel sogar: SOGAR ( # λ Χ (ES GEBEN (X)), EINE NEUE BEWEGUNG # ) H105 IH: es gibt doch sogar son so ne ne neue be' naja beWEgung,
->
H»
T89
H+T* H-H'/. (95)93
Beim Vergleich von H179 und H105 fällt auf, dass in H179 Fokussierung und Akzentuierung auf ANdern zusammenfallen, während in H105 nicht nur das akzentuierte Wort be WEgung, sondern die Konstituente ne ne neue be' naja be WEgung im Skopus des Operators steht. Dieser Unterschied der semantischen Repräsentationen ist nicht aus der Akzentstruktur ableitbar. Er widerlegt die als 'radical Focus-to-Accent' approach bezeichnete Auffassung, dass zwischen Fokus und Akzent ein Verhältnis der Eineindeutigkeit besteht, also dass Akzent immer Fokus und Fokus immer auch Akzent bedeutet. 1 7 4 Die semantische Repräsentation von H105 ergibt sich durch Bezug auf die in Abb. 2.6 dargestellte syntaktische Struktur. 1 7 5 Trägerin des Fokusmerkmals » + « ist die NP eine neue Bewegung. Entsprechend der morphosyntaktischen Struktur wird das Fokusmerkmal - und damit der Akzent - auf Bewegung und, innerhalb des Wortes, die Silbe we vererbt. 1 7 6 Die Adäquatheit einer Fokusinterpretation wird 172
Zu Satzmodus vgl. Kap. 3.2.2.2. Die Elemente ES GEBEN BEI und DAS der semantischen Repräsentation sind kontextuell präsent. 174 Vgl. Ladd (1996), S.163-166. Der radical Focus-to-Accent approach wird z.B. von Grosz/Sidner (1986) vertreten. 175 Der Deutlichkeit halber wird die Struktur des Satzes Es gibt eine neue Bewegung abgebildet. Generative Strukturbäume sind nicht Thema dieser Arbeit. Mit dem vorgeführten Strukturbaum erhebe ich keinen Anspruch auf Abbildung der aktuellen generativen Theorie. 176 Vgl. Jacobs (1988), S. 116ff. 173
Abb. 2.6: Strukturbaum des Satzes Es gibt eine neue Bewegung durch Fokuskontrolle überprüft. Die in der generativen Theorie üblichen konstruierten Sätze werden in Abhängigkeit vom Typ des fokuszuweisenden Operators bestimmten Tests unterzogen. 177 Diese Art von Fokuskontrolle ist für die Analyse der Äußerungen aus dem Vineta-Korpus nicht möglich. Durch sorgfältige Konversationsanalyse lässt sich allerdings in den meisten Fällen die Adäquatheit der Fokusinterpretation zuverlässig ermitteln. In H179 wird ANdern akzentuiert, weil es einen Kontrast mit KENnedys (H178) bildet. Das vom globalen Kontext vorgegebene Element 'Familie' bleibt invariant und gehört deshalb hier zum unfokussierten Hintergrund. In H105 wird dagegen ne ne neue be' naja beWEgung komplett fokussiert, weil der Sprecher damit ein neues Topik einführt. Wenn, wie in H179, das Fokusmerkmal direkt einem lexikalischen Element zugewiesen wird, spricht man von engem Fokus (narrow focus). Wird das Fokusmerkmal dagegen, wie in H105, einer abstrakten Konstituente zugewiesen, entsteht weiter Fokus (broad focus).178 Enger Fokus wird in vielen Fällen mit einer ausgeprägteren Akzenttonbewegung realisiert als weiter Fokus - notwendig ist das aber nicht. Die Ausführungen Ladds (1996, S. 199-202) zeigen, dass sich in H105 anhand der phonetischen Merkmale nicht entscheiden lässt, ob enger Fokus mit Skopus beWEgung oder weiter Fokus mit Skopus ne ne neue be' naja beWEgung vorliegt. Lässt die Konversationsanalyse eine klare Interpretation nicht zu, bleibt der Fokus ambig. Inwieweit es tatsächlich Äußerungen mit neutraler Akzentuierung ohne Fokuszuweisung gibt, soll 177 178
Vgl. Jacobs (1988), S. 98f. Vgl. Ladd (1996), S. 162f.
43
an dieser Stelle nicht diskutiert werden. 1 7 9 Auch das auf Höhle (1982) zurückgehende Konzept der Normalbetonung spielt im Rahmen dieser Studie keine Rolle. 180
2.5
Phonetik der Intonation
Das Studium der prosodischen Merkmale ist für die Identifizierung und Beschreibung der prosodischen Einheiten unerläßlich. Es dient der Verankerung der phonologischen Konstrukte in der Lebenswelt. Hierbei sind alle drei Teilbereiche der Phonetik - artikulatorische, akustische und auditive Phonetik - relevant. In der artikulatorischen Phonetik wird mit Methodik und Terminologie gearbeitet, die aus der Medizin (Anatomie und Physiologie) übernommen sind. Die Untersuchung artikulatorischer Merkmale in der Intonationsforschung ist sehr aufwendig und verlangt komplizierte (medizinische) Messgeräte, weil die Messungen direkt am oder sogar im menschlichen Körper vorgenommen werden müssen. Nur speziell ausgerichtete phonetische Einrichtungen verfügen über derartige Analysemöglichkeiten. Deshalb sind die in der Intonationsforschung verwendeten artikulationsphonetischen Daten im Normalfall aus zweiter Hand (auch hier). Dagegen werden in den meisten Intonationsanalysen sowohl akustische als auch auditive Daten selbst erhoben. Akustische und auditive Daten müssen mit unterschiedlichen Methoden in unterschiedlichen Analysedurchgängen erhoben werden, sie sind nicht voneinander ableitbar. Dieser Umstand schließt nicht aus, mithilfe logarithmischer Formeln physikalische Messwerte annäherungsweise in perzeptive Größen umzurechnen. Die Ergebnisse solcher Rechenoperationen haben allerdings immer nur den Charakter von Annäherungen. Zwischen den einzelnen akustischen Merkmalen besteht ein komplexer artikulatorischer Zusammenhang. Die auditive Prominenz einer Silbe stimmt nicht in jedem Fall mit dem aus dem gemessenen Intensitätswert berechneten dB-Wert überein, weil auch Grundfrequenz und/oder zeitliche Erstreckung zur Prominenzperzeption führen können. 1 8 1 Dagegen scheint es Beziehungen zwischen artikulatorischen und auditiven Merkmalen dergestalt zu geben, dass perzeptiv relevante Merkmale auf intentional kontrollierte Artikulationsbewegungen zurückführbar sind. 179
Vgl. Jacobs (1988), S. 120. Normalbetonung ist nach Höhle (1982), S. 85 zunächst eine Kategorie der intuitiven stilistischen Einschätzung: „Ein Satz ist normal betont, wenn die Sprecher diese Betonung als stilistisch normal empfinden; er ist nicht-normal betont, wenn sie diese Betonung als stilistisch nicht-normal empfinden." Sie lässt sich intersubjektiv besser fassen, wenn man sie auf die Zahl der Kontexte bezieht, in denen sie auftreten kann. Höhle (1982), S 103: „Die Betonung eines Satzes St ist stilistisch normal, wenn Si hinsichtlich der Betonung kontextuell relativ unmarkiert ist; sie ist stilistisch nicht-normal, wenn S, hinsichtlich der Betonung kontextuell markiert ist." Folglich kann diejenige Betonung als Normalbetonung gelten, die die die höchste Zahl unterschiedlicher Fokussierungen zulässt. Höhle (1982), S. 122 schreibt: „Unter allen Sätzen ESi sind die Si3 hinsichtlich der Wortstellung kontextuell relativ unmarkiert, die in der größten Zahl von Kontexttypen vorkommen können. Alle anderen Sätze S;/t in ESi sind hinsichtlich der Wortstellung kontextuell markiert." 181 Das Äußerungstripel F269/271/275 exemplifiziert den artikulatorischen Zusammenhang anschaulich, siehe Abb. 5.59, S. 229. 180
44 Im Zentrum meiner Untersuchung stehen die auditiven Merkmale, da nur diejenigen Merkmale sprachliche Funktion haben können, die perzipiert werden. Die Forscher des Eindhovener Instituut voor Perceptie Onderzoek (IPO) stellen ebenfalls die Perzeption in den Mittelpunkt ihrer Arbeit. 1 8 2 Deshalb orientieren sich die folgenden Ausführungen zur Phonetik stark an den Arbeiten des IPO.
2.5.1
Akustik der Intonation
Gegenstand der akustischen Phonetik ist das mit physikalischen Methoden messbare Schallereignis. Akustische Intonationsforschung heißt, die quasi-periodischen Schwingungen des Sprachsignals während der Transmission zu erfassen, auf einem Speichermedium zu konservieren und anschließend mit technischen Geräten zu analysieren. Die akustischen Merkmale der Intonation sind zeitliche Erstreckung, Grundfrequenz und Intensität. Diese Merkmale sind physikalische Größen. Das Zeitintervall, über das sich die analysierte Einheit erstreckt, wird in Sekunden bzw. Millisekunden (s, ms) angegeben. Die Frequenz ist ein Maß für die Anzahl der Schwingungen in einem bestimmten Zeitintervall. Die Anzahl der Schwingungen pro Sekunde bildet die Maßzahl Hertz (Hz). Bei der natürlichen Sprachproduktion werden von den an der Artikulation beteiligten Organen viele verschiedene und sich gegenseitig überlagernde quasi-periodische Frequenzen mit jeweils eigenen sprachlichen Funktionen erzeugt (Fi, F2, F3 etc.). Für die Wahrnehmung der Tonhöhe ist die größte quasi-periodische Frequenz verantwortlich, die an der Glottis erzeugt und als Grundfrequenz (Fo) bezeichnet wird. Die Intensität des Signals ergibt sich aus der Amplitude, das heißt, metaphorisch gesprochen, aus der Höhe der Schwingungen über der Zeitachse. Sie wird in Metern (m) gemessen. F ü r die effektive Schallintensität am Zielpunkt (dem Ohr) muss natürlich der Abstand zur Schallquelle berücksichtigt werden. Die Schallintensität wird in Watt pro τη2 berechnet. 1 8 3 Mit der entsprechenden technischen Ausstattung lassen sich akustische Merkmale relativ leicht bestimmen. Die Intonation einer Äußerung wird hauptsächlich von der Grundfrequenz in Abhängigkeit von der Zeit charakterisiert. 1 8 4 Ein in Hz angegebener Grundfrequenzwert ist immer der Grundfrequenz-Mittelwert eines bestimmten Zeitintervalls. Akustische Werte sind nicht direkt phonologisch interpretierbar: Akustische Werte beschreiben das komplexe (artikulatorisch und auditiv einheitliche) Sprachsignal nur hinsichtlich einer bestimmten physikalischen Messdimension. Der mehrfach genannte komplexe artikulatorische Zusammenhang akustischer Merkmale bedeutet, dass eine einheitliche Artikulationsbewegung in der Messung so zerlegt wird, dass die akus182
Vgl. 't Hart et al. (1990) und einführend 't Hart (1984). In der Intonationsforschung ist die Quantifizierung der Intensität mit physikalischen Maßzahlen nicht üblich. Stattdessen wird die auditive Lautheit in dB angegeben, siehe Formel 2.6, S. 46. 184 Mehnert (1992), S. 135-136 schreibt: „Der Parameter Grundfrequenz ist in der Lage, beim Hörer mehr akustisches Referenzwissen zu aktivieren, als es die Parameter Intensität oder Zeit oder beide zusammen vermögen." Vgl. auch Möbius et al. (1992), S. 109; Oppenrieder (1988b), S. 179; Wunderlich (1988), S. 1, Scherer (1982), S. 126-128. 183
45
tischen Merkmale weder Abbildungen von Teilen der Artikulationsbewegung sind noch zu den im Verstehensprozess konstituierten bedeutungstragenden Einheiten führen. 185 Die akustischen Merkmale sind nichts anderes als Produkte des Messprozesses. Auch die für die Sprachfunktion relevante Unterscheidung von segmentellen und prosodischen Merkmalen wird von der Messung nicht widergespiegelt. Die Unterschiede in der intrinsischen Grundfrequenz von Vokalen betragen bis zu 24 Hz (zwischen [au] und [i]).186 Das heißt, dass erhebliche //z-Unterschiede unter Umständen nicht als Tonhöhenunterschiede, sondern als Unterschiede in der Vokalqualität perzipiert werden. Eine formale Ableitung der Tonhöhe aus dem Hz-Wert kann zu einer falschen Bestimmung der Intonationskontur führen.
2.5.2
Perzeption der Intonation
Die auditiven prosodischen Merkmale sind Dauer, Tonhöhe und Prominenz. Perzeptiv relevante Größen lassen sich nicht exakt aus akustischen Daten ableiten. 187 Dessenungeachtet gibt es Versuche, Zusammenhänge zwischen auditiven und akustischen Merkmalen mathematisch darzustellen. Das geschieht in Modellen zur Nachbildung der nicht-linearen menschlichen Perzeption und in der Erforschung akustischer Schwellenwerte als Bedingung der Möglichkeit von Perzeption. Die bekanntesten logarithmischen Maße, mit denen die menschliche Perzeption nachgebildet wird, sind Oktave und Halbton für die Tonhöhe und Phon und Dezibel für die Prominenz. Diese Maße bezeichnen keine absoluten Werte, sondern Relationen zu (beliebigen) Bezugswerten. Der Halbton (engl, semitone, deshalb abgekürzt ST) ist ein Maß, mit dem der perzipierte Abstand von zwei F 0 -Werten ausgedrückt werden kann. Der Abstand Α zwischen den beiden Fo-Werten f\ und ji wird folgendermaßen bestimmt: 188
(2.5)
A = \2*log2^
= J2
-^—*loglQ^logw2
f2
Die Umrechnung eines ifz-Abstands in einen ST-Abstand ist für die Interpretation nützlich, weil Irreführungen durch identischen Fo-Umfang zweier Verläufe in unterschiedlichen Registern vermieden werden: Identischem Fo-Umfang entspricht nämlich bei zunehmender F 0 -Bandbreite abnehmender Tonhöhenumfang. 189 Äußerungen weiblicher Sprecher haben oft einen größeren ίο-Umfang als diejenigen männlicher Sprecher, ohne dass deshalb in jedem Fall ein größerer Tonhöhenumfang perzipiert würde. Durch Einsetzen der Werte in Formel 2.5 lässt sich zeigen, dass ein 185
Vgl. dazu auch Ladd (1996), S. 38ff. Vgl. Neppert/Petursson ( 3 1992), S. 150. 187 Auditiv referiert auf Merkmale, die linguistischen Analysen und Bewertungen unterzogen werden und wird mit dem heute altertümlich wirkenden ohrenphonetisch synonym verwendet. Perzeptiv bezieht sich auf Wahrnehmungen und Bewertungen durch nicht linguistisch ausgebildete Muttersprachler. 188 Vgl. 't Hart et al. (1990), S. 24. Die Funktion log2 ist bei Taschenrechnern i.d.R. nicht vorhanden, deshalb muss der dritte Teil der Gleichung gerechnet werden. 189 Zu den Begriffen Fo-Umfang, Fo-Bandbreite und Register siehe unten, S. 55f. 186
46 ίο-Umfang von 50 Hz auf der F 0 -Bandbreite von 100 bis 150 Hz ebenso wie ein Umfang von 90 Hz zwischen 180 und 270 Hz einem Tonhöhen-Umfang von 7 ST entspricht. Die Tonhöhendifferenz zwischen zwei derartigen Äußerungen ist nicht durch den Umfang, sondern durch das Register bedingt. Im vorliegenden Fall erschöpft sich die sprachliche Funktion des Registerunterschieds möglicherweise in der Identifizierung des Sprechers als FYau. Dezibel (dB) ist eine Relativeinheit für die Angabe von Prominenz oder Lautheit eines Signals. Sie kann auf einen beliebigen Ausgangswert bezogen werden. Sinnvollerweise beginnt die 5 s wird Formel 2.8 verwendet: (2.8)
SK =
^
Für eine Äußerung der Länge 2 s wird ein Steigungskoeffizient von -3,14 ^ errechnet - ein Wert, der mit Mehnerts Angaben vereinbar ist. Umgerechnet in Hz bedeutet das ein Absinken der Fo von zum Beispiel 108 auf 75 Hz in 2 s. 227 Mit Kenntnis des Steigungskoeffizienten sind Vorhersagen über die Länge der (gelesenen oder isoliert produzierten) Äußerung möglich, die umso exakter sind, je kürzer die Äußerung ist. 228 Bei längeren Äußerungen kommen zur Deklination in gewissen Intervallen Neuausrichtungen der Basislinie (Baseline Resets).229 Artikulatorisches Merkmal der Deklination ist das kontinuierliche Absinken des subglottalen Luftdrucks im Verlauf der Äußerung. Die Auffassung, dass die Aktivität der Laryngalmuskulatur für die Deklination verantwortlich ist (wie es beispielsweise Beckenridge (1977) vertritt), ist durch neuere Messungen widerlegt worden.230 Auch die Tatsache, dass neben der Grundfrequenz im Verlaufe der Äußerung auch die Intensität des Signals kontinuierlich absinkt, spricht gegen einen Kausalzusammenhang von Laryngalmuskelaktivität und Deklination: Die Laryngalmuskulatur beeinflusst lediglich den Fo-Verlauf, das parallele Absinken des Intensitätsverlaufs kann nur durch nachlassenden subglottalen Luftdruck verursacht werden. 231 Diese intuitiv naheliegende Erklärung motivierte die Entwicklung der Expirationsgruppentheorie, in der Intonationseinheiten als einheitliche Expirationsgruppen (breath groups) definiert werden. 232 Die Expirationsgruppentheorie gilt heute allerdings als nicht mehr haltbar. 233 Erstens konnte der vermutete Zusammenhang zwischen Deklination, Baseline Resets und Atmung experimentell nicht verifiziert werden: Weder geht der abrupten Erhöhung der Fo in einem Baseline Reset systematisch ein Atemzug voraus noch führt ein Atemzug notwendigerweise zur Erhöhung der Grundfrequenz. 234 Zweitens ist Liebermans pauschale phonologische Einteilung in „unmarkierte" Intonationseinheiten - global fallende Verläufe, zum Beispiel in Deklarativsätzen - und „markierte" Intonationseinheiten - „gegen" die Deklination steigende Verläufe, zum Beispiel in Entscheidungsfragen - von den phonetischen Daten allein nicht gedeckt. Bleibt die Frage, ob Deklination ein Mittel zum Ausdruck sprachlicher Funktionen oder lediglich ein physiologisch bedingtes Nebenprodukt anderer Artikulationsvorgänge ist. Vayra (1991) vertritt die These, dass die Deklination zwar physiologisch bedingt, aber intentional kontrolliert sei. Die Deklination der Grundfrequenz sei ein 227
Die Ergebnisse von Möbius (1993), S. 120-127 bestätigen allerdings die These der Abhängigkeit des Steigungskoeffizienten von der Länge der Äußerung nicht. 228 Vgl. den Experimentbericht in 't Haxt et al. (1990), S. 143-145. 229 Vgl. 't Hart et al. (1990), S. 129-132. 230 Vgl. 't Hart et al. (1990), S. 133f. 231 Vgl. Vayra (1991), S. 140-143. 232 Vgl. Lieberman (1967), der für die Deklination den transglottalen Luftdruck verantwortlich macht. Diese These ist inzwischen widerlegt, vgl. Möbius (1993), S. 24. 233 Vgl. Ladd (1996), S. 114f.; De Dominicis (1992), S. 67f; Neppert/Petursson ( 3 1992), S. 137ff. 234 Vgl. 't Hart et al. (1990), S. 140.
53 Aspekt einer declinazione globale im Sprechen. Deren intentionale Kontrolle könne an der Artikulation segmenteller Laute gezeigt werden. 235 Untersuchungen der Holländischen Schule zeigen in der Tat, dass die Laryngalmuskulatur, deren Aktivtität als intentional kontrolliert erwiesen werden konnte (siehe oben), eine große Rolle bei der Artikulation der Laute spielt. 236 Es wäre aber ein Fehlschluss, aus der intentionalen Kontrolle der Lautproduktion eine intentionale Kontrolle der luftdruckbasierenden Fo-Deklination abzuleiten.
In the framework of the question whether declination is voluntarily controlled or takes place automatically, indications have been obtained in favour of an automatic declination by means of a control system. For resets, on the other hand, there is substantial evidence that these Eire voluntarily controlled by the speaker, witness the laryngeal activity involved in their production. 237
Oben wurde gezeigt, dass intentionale Kontrolle durch Messungen der Laryngalmuskelaktivität nachweisbar ist. Bei Baseline Resets und beim Onset der Intonationseinheit spielt die Aktivität des Cricothyroideus eine entscheidende Rolle. 2 3 8 Baseline Resets sind für die Phrasierung relevant, Tonhöhensprünge auf unbetonten Silben sind ein klares Kriterium für den Beginn einer neuen Intonationseinheit. 239 Die Höhe des Onsets projektiert (zumindest in gelesenen Äußerungen) die Länge der Äußerung. 240 Ist der Startpunkt des Fo-Verlaufs aber erst einmal festgelegt, folgt das Absinken der Grundfrequenz einer rein physiologischen Disposition. Der Hörer „erwartet" die Deklination, und gerade deshalb wird sie in der Perzeption neutralisiert: „listeners perceptually compensate for the declination effect when evaluating the relative height of successive peaks in an utterance." 2 4 1
235 Vayra
stützt die These der declinazione globale auf eigene Untersuchungen (Vayra 1991, S. 144-150) und auf Ergebnisse der Akzentanalysen von Bertinetto (1981), S. 65-80. 236 Siehe oben und 't Hart et al. (1990), S. 95. 2 3 7 ' t Hart et al. (1990), S. 149. 2 3 8 ' t Hart et al. (1990), S. 139f. 239 Vgl. Kap. 2.3.1, S. 16ff. Vgl. auch Möbius (1993), S. 24f. 2 4 0 , t Hart et al. (1990), S. 134. 241 Leroy (1984), S. 39; zit. nach 't Hart et al. (1990), S. 142. Vgl. die Erläuterungen bei 't Hart et al. (1990), S. 141-143. Avesani (1987) teilt meine Einschätzung hinsichtlich der Deklination als Folge einer rein physiologischen Disposition. Vayras Ausführungen (1991, S. 144) stützen für mich auch viel mehr diese als Vayras eigene These, mit der ein Schluss von der Deklination in der Lautproduktion auf die Deklination des Fo-Verlaufs von Äußerungen gezogen wird: „Mi sembra che, entro un'ipotesi di declinazione come processo articolatorio generale di indebolimento esteso a vari parametri acustici, la mancanza di simmetria nei giudizi accentuali riscontrata da Bertinetto possa suggerire che gli ascoltatori 'si aspettano' declinazione globale nel parlato, alio stesso modo in cui, negli esperimenti di Pierrehumbert (1979) und Silverman (1987), gli ascoltatori mostrano di aspettarsi declinazione dei picchi intonativi."
54 2.5.5.2
Downstep
Das Phänomen Downstep bezeichnet (vor allem in der autosegmentalen Phonologie) den Umstand, dass die F 0 -Werte einer Folge von hohen Akzenttönen kontinuierlich abnehmen, obwohl ihre Tonhöhe als identisch perzipiert bzw. der letzte Akzentton mit dem niedrigsten ίο-Wert sogar als der höchste Akzentton wahrgenommen werden kann. 242 Weil „downstepped pitch accents" entlang der Dachlinie der Intonationsphrase liegen, sind Deklination und Downstep zwei Aspekte desselben Phänomens. 243 Pierrehumbert ( 2 1987, S. 80 und S. 91ff.) behandelt die Downstep Rule (Formel 2.3, S. 32) als eine tonale Implementierungsregel. Die Bestimmung des für die Berechnung entscheidenden Downstep-Koeffizienten k wird aber nicht klar expliziert. In einer Beispielanalyse 244 setzt sie k = 0,6. Dieser Wert wird nicht erkennbar hergeleitet und erweist sich in der Überprüfung als zu niedrig. 245 Kohler (o.J.) setzt im „Kiel Intonation Model" für den Downstep einen realistischeren Wert von nur 6 % an, das heißt, dass jedes Grundfrequenzmaximum 6 % niedriger ist als das jeweils vorhergehende. Grundsätzlich bestätigen die voneinander unabhängigen auditiven und akustischen Analysen der Äußerungen des Vineta-Korpus die Notwendigkeit einer Downstep-Regel bei der Generierung von Grundfrequenzverläufen. 246 Als tonale Implementierungsregel hat die Downstep-Regel keine eigene phonologische Bedeutung. Es gilt das oben für die Deklination Ausgeführte: Der Hörer erwartet die Auswirkungen des Downsteps und neutralisiert sie in der Perzeption. 247 Deklination und Downstep müssen in der Interpretation von Grundfrequenzwerten unbedingt berücksichtigt werden, sie sind aber für die auditiven Analysen ohne Belang.
2.5.5.3
Alinierung
Im Intonationsmodell der autosegmentalen Phonologie werden Töne mit Silben assoziiert. Die phonetische Realisierung der Assoziation wird als Alinierung (engl. Alignment) bezeichnet. 248 Die Positionierung des Grundfrequenzgipfels steuert die Perzeption der Akzenttöne. Der Ton H+T* ist Folge eines „frühen Grundfrequenzgipfels". Das Grundfrequenzmaximum liegt am Anfang oder sogar vor Beginn der akzentuierten Silbe. Der Ton H* steht für einen „mittleren Gipfel", das heißt, das Grundfrequenzmaximum liegt im Reim der akzentuierten Silbe. Der Ton T*+H ist ein „später 242
Vgl. Pierrehumbert (1979). Vgl. Cruttenden (21997), S. 120ff.; Pierrehumbert (21987), S. 81. 244 Pierrehumbert ( 2 1987), S. 228f. 245 Siehe oben, S. 38. 246 Folglich enthalten Syntheseprogramme eine Downstep-Regel, vgl. z.B. den PSOLAAlgorithmus von Möhler und Dogil (1995). 247 Dagegen vetritt Ladd (1996), S. 90) die Ansicht, dass Downstep eine bedeutungsunterscheidende „independent intonational choice" sei und Funktionen wie 'finality' und 'completeness' signalisiere. Die intensive Downstep-Debatte zwischen Ladd und Pierrehumbert wird von Fery (1993), S. 161-169 nachgezeichnet. Gilles (2001) hält die Art und Weise der Verwendung von Downstep-Konturen für regionalsprachenspezifisch. 248 Vgl. Ladd (1996), S. 53-55. 243
55 Gipfel", das Grundfrequenzmaximum liegt am Ende der akzentuierten Silbe (in der Koda) oder auf der Folgesilbe. 249 Darüber hinaus variiert die Position des Grundfrequenzgipfels unter dem Einfluss von Merkmalen wie der zeitlichen Erstreckung des Reims in Abhängigkeit von der Sprechgeschwindigkeit und der Zahl der postnuklearen Silben: Wenn der Nukleussilbe viele unakzentuierte Silben folgen, verschiebt sich der Punkt des Alignments nach rechts. 250 Die Ergebnisse des Freiburg/Potsdamer Projekts zur Dialektintonation deuten außerdem darauf hin, dass die Position des Grundfrequenzgipfels eine Rolle für die Unterscheidung regionalsprachlich auffälliger Intonationskonturen spielen könnte. 251 Die Einschätzung Ladds (1996, S. 128-130), Italienisch zeichne sich generell durch frühes, Deutsch und Englisch durch spätes Alignment aus, wird von meinen Untersuchungen jedoch nicht bestätigt.
2.5.5.4
Register und Umfang
Die FQ -Verlaufskurve der Intonationseinheit liegt in einem bestimmten Frequenzbereich. Dieser Bereich wird als Fo-Bandbreite bezeichnet. Die Fo-Bandbreite erstreckt sich zwischen dem F 0 -Maximum und dem ίο-Minimum der Intonationseinheit und wird folglich mit zwei Hz-Werten, dem minimalen und dem maximalen, exakt bezeichnet. Das auditive Korrelat der Fo-Bandbreite ist das Tonhöhenregister. Von der Fo-Bandbreite ist der Fo-Umfang einer Intonationseinheit zu unterscheiden. Er bezeichnet den Abstand zwischen dem Fo-Maximum und dem Fo-Minimum, für seine Angabe genügt ein Hz-Wert. Auditiv spricht man vom Tonhöhenumfang.252 Die Funktionen von Fo-Bandbreite und Fo-Umfang sind vielfältig. Wie oben exemplifiziert wurde, können Bandbreite/Register und Umfang Geschlechtsunterschiede ausdrücken und sonst kommunikativ neutral sein. Cruttenden weist jedoch darauf hin, dass auch Geschlechtsunterschiede kommunikativ eingesetzt werden können. 253 Die Hauptfunktion des Fo-Umfangs wird für den Ausdruck von Emotionalität und Befindlichkeit angenommen. Oft verhalten sich Bandbreite/Register und Umfang quantitativ analog. Auf hohem Tonhöhenregister werden oft Bewegungen großen Umfangs durchgeführt, womit dann Befindlichkeiten wie Freude, Angst, Überraschung etc. ausgedrückt werden. Mit kleinem Tonhöhenumfang auf niedrigem Register wird dagegen Langeweile oder Trauer signalisiert. 254 249
Detaillierte Ausführungen in Kap. 2.6.1. Vgl. dazu die akustische Untersuchung von Silverman/Pierrehumbert (1990). 251 Vgl. Gilles (2001) und Peters (1999). 252 Die Britische Schule unterscheidet zwischen register und key. Cruttenden ( 2 1997), S. 123 definiert: „Key was said to involve the width of the pitch range over whole intonationgroups." Und S. 124: „Register differences, as opposed to key differences, involve a raising of the baseline; in other words, the range itself within which a speaker is operating is raised [...]" Auf den Umfang von Akzenttonbewegungen referiert Cruttenden ( 2 1997), S. 45 mit accent range. 253 Sein Beispiel - Frauen imitierten in einem hohen Tonhöhenregister die Sprechweise von Kindern, um damit Hilfebedürfnis zu signalisieren - wäre allerdings kritisch zu prüfen. Vgl. Cruttenden ( 2 1997), S. 124. 254 Untersuchungen der Intonation zum Ausdruck von Befindlichkeit und Emotion leiden in 250
56 2.5.5.5
Durchschnittswert
Für den Sprachvergleich der vorliegenden Untersuchung werden Tonhöhenumfang und Tonhöhenregister in Halbtönen bestimmt. Halbtöne bilden die Perzeption besser ab als Grundfrequenzwerte. Für die Bestimmung des Umfangs einer Tonhöhenbewegung (in den meisten Fällen der Akzenttonbewegung) reicht es, die zwei an den Eckpunkten der Bewegung gemessenen Hz-Werte mithilfe von Formel 2.5 (S. 45) in einen ST-Abstand umzurechnen. Für die Bestimmung des Tonhöhenregisters einer Intonationseinheit werden die Fo-Minima der Einheit in Relation zum inidividuellen durchschnittlichen Offset jedes Sprechers gesetzt. Für diese Bestimmung gehe ich in Ubereinstimmung mit den Ergebnissen vieler Studien 255 davon aus, dass der Offset ein von Länge und Tonhöhenumfang der Äußerung relativ unabhängiges Stimmmerkmal ist. Im Unterschied zu Pierrehumbert 256 verzichte ich aber auf die problematische Konstruktion der Basislinie und errechne den Durchschnittswert als Mittelwert aller messbaren tiefen Offsetwerte in den Äußerungen eines Sprechers im Vineta-Korpus. 257 Der Wert, der in den Analysen einfach als Durchschnittswert bezeichnet wird, dient der Einschätzung des Tonhöhenregisters einer Äußerung oder eines Äußerungsteils. Er erlaubt darüber hinaus, die Höhe und Länge von Akzenttonbewegungen verschiedener Sprecher miteinander zu vergleichen. Der Vergleich wird stets in Halbtönen (ST) durchgeführt. Die errechneten ST-Werte werden auf die erste Nachkommastelle gerundet.
2.6
2.6.1
Beschreibungskategorien
Toninventar
Töne haben in der ursprünglichen autosegmentalen Konzeption phonologischen Status. Deshalb wurden für Englisch, Deutsch und Italienisch jeweils verschiedene ToBIModelle vorgeschlagen. Aus den in Kap. 2.3.3258 ausgeführten Gründen wird das tonale Beschreibungsmodell in dieser Studie nicht phonologisch, sondern als Modell den meisten Fällen - das zeigen die hier Cruttenden ( 2 1997), S. 124 entnommenen Befindlichkeitsbezeichnungen - an der unscharfen Begrifflichkeit der von ihnen bezeichneten Zustände. Einen Neuansatz in der intonatorischen Emotionsforschung unternimmt Kehrein im Rahmen des Greifswalder Projekts, vgl. Kehrein (2001). 255 Sorianello (1997), S. 98; Avesani/Vayra (1992), S. 371; Neppert/Petursson ( 3 1992), S. 143; Pierrehumbert ( 2 1987), S. 65/73. 256 Pierrehumbert ( 2 1987), S. 65ff.; siehe in der vorliegenden Arbeit oben, S. 51. 257 Nicht berücksichtigt werden Werte, in deren unmittelbarer Umgebung extrastarke Akzente, Lachen oder globale Markierungen wie » f « vorkommen. Die Stabilität des tiefen Offsetwerts wird im Telephongespräch R382-435 augenfällig, siehe im Internet unter http://archiv.ub.uni-marburg.de/sonst/2000/0003/ [30.08.2000]. Eine Aufstellung der Durchschnittswerte und der Zahl der ihnen zugrundliegenden Offsetwerte findet sich auf S. XV. 258 Siehe S. 36.
57 zur auditiven phonetischen Beschreibung von Tonhöhenverläufen verstanden. Töne sind binäre und relationale auditive Beschreibungskategorien. Daher kann das in diesem Kapitel vorgeschlagene Toninventar - eine den Erfordernissen der kontrastiven Analyse angepasste Fassung von ToBI - zur Beschreibung der Intonation sowohl der deutschen als auch der italienischen Varietäten verwendet werden. Die Binarität der Töne ist ausreichend erläutert worden. Die Relativität der Kategorien 'hoch' und 'tief' wird mit Blick auf die Äußerung A446 deutlich: A445 IC: cioi non sa[pE:va nemMEno (cosa)H* also er wusste noch nicht mal SC: [e qUESti e QUESti: gli dlcono-> Η'/. Η* Η- Τ'/. Η* ΗΗ* Τ-Τ'/. 213 229 346 227 232 344 209 192 172 und die und die sagen ihm
Die wiederholte Einheit e QUESti hat einen initialen Grenzton. Obwohl er in der Wiederholung mit 227 Hz höher ist als in der Bezugseinheit mit 213 Hz, wird nur der erste initiale Grenzton mit »H%« bezeichnet, weil von T% in A444 zu H% in A446 ein Sprung nach oben von 72 Hz stattfindet. Der zweite initiale Grenzton bekommt das Etikett »T%«, weil er 119 Hz tiefer liegt als der vorausgehende hohe Phrasenton. Töne sind auditive Beschreibungskategorien. Sie haben perzeptive Realität, was bedeutet, dass sie (in Ausnahmefällen) auch an Stellen wahrgenommen werden, an denen keine entsprechenden akustischen Merkmale (Grundfrequenzgipfel oder ähnliches) messbar sind. Im Normalfall korrelliert mit dem auditiven Ton aber ein Bündel akustischer Merkmale, wobei dem Grundfrequenzverlauf überragende Bedeutung zukommt. Als Toninventar dieser Studie werden vier Akzenttontypen, zwei Phrasentontypen und zwei Grenztontypen festgelegt. Akzenttontypen: Es wird zwischen H+T*, H*, T*+H und T* unterschieden. Abb. 2.7 visualisiert den Tonhöhenverlauf der Akzenttöne. H+T* steht für einen Tonhöhenverlauf, dessen Gipfel vor Beginn der Akzentsilbe liegt und der auf der Akzentsilbe in ein Tal fällt. Das Intensitätsmaximum liegt auf der Akzentsilbe und korrespondiert deshalb mit dem Grundfrequenzminimum bzw. dem Tiefpunkt des Tonhöhenverlaufs. H+T* entspricht »H+L*« in ToBIt. 259 In GToBI werden solche Tonhöhenverläufe nicht als tiefe, sondern als „heruntergesteppte" hohe Akzenttöne verstanden und mit »H+!H*« etikettiert. 260 >H+L*« bezeichnet in GToBI dagegen einen großen Tonhöhensprung in eine tiefe Stimmlage. In Kohlers Terminologie261 ausgedrückt liegt hier ein „early peak" vor: < - V A L L E Y , E A R L Y > . H* steht für einen Tonhöhenverlauf, der auf der Akzentsilbe steigt, seinen Gipfel in den ersten zwei Dritteln des zeitlichen Verlaufs der Akzentsilbe erreicht und danach wieder fällt. Folgt auf H* ein hoher Phrasenton, unterbleibt der silbenfinale Fall. Das Intensitätsmaximum korrespondiert mit dem Grundfrequenzmaximum. Es wird ein hoher Ton perzipiert. H* entspricht »H*« in ToBIt und in GToBI. 262 In Kohlers Terminologie ist H* ein „medial peak": < - V A L L E Y , - E A R L Y , - L A T E > . 259
Vgl. für die Vergleichsetikettierungen hier und im Folgenden Avesani (1995), S. 91ff. und Benzmüller/Grice (1997). 260 Zur Problematik des mit » ! « gekennzeichneten Downsteps siehe S. 54. 261 Siehe Kap. 3.2.3, S. 75ff. 262 Mit »L+H*« enthalten ToBIt und GToBI einen Ton, den ich bei der formalen Beschrei-
T*+H steht für einen Tonhöhenverlauf, der auf der Akzentsilbe steigt und seinen Gipfel erst im letzten Drittel der Akzentsilbe oder auf der folgenden Silbe erreicht. Ein finaler Fall auf der Akzentsilbe findet nicht statt. Das Intensitätsmaximum korrespondiert mit dem Grundfrequenzminimum bzw. dem Beginn des Grundfrequenzanstiegs. Es wird ein von einem tiefen Startpunkt steigender Ton perzipiert. T*+H entspricht »L*+H« in ToBIt und in GToBI. In Kohlers Terminologie handelt es sich um einen „late peak": . Τ* bezeichnet zwei Phänomene: 1. steht T* bei Akzentsilben mit einem Tonhöhenminimum, die auf eine Silbe folgen, mit der H* assoziiert ist. 263 2. bezeichnet T* ein Tonhöhenminimum, dem in derselben Phrasierungseinheit (Intonations- oder Intermediärphrase) kein Tonhöhenmaximum vorausgeht, wobei dieses Phänomen sehr selten ist. 264 T* entspricht grob »L*« in ToBIt und »H+L*« in GToBI. Dabei ist zu beachten, dass für »H+L*« in GToBI immer der Tonhöhensprung konstitutiv ist, während es bei T* (in der zweiten Bedeutung) die Phrasengrenze ist - der Tonhöhensprung ist nur eine (mögliche) Folgeerscheinung.
bung für verzichtbar halte. » L + H * « ist ein ausgeprägt steiler Anstieg zu einem hohen Akzentton. Der Unterschied zu » H * « ist jedoch nicht diskret, sondern kontinuierlich. In einem Experiment zur Validierung des GToBI-Inventars hat sich die Unterscheidung von » H * « und » L + H * « als unklar erwiesen: 33 % aller nicht-übereinstimmenden Zuschreibungen betrafen das Paar L + H * / H * , vgl. Grice et al. (1996), S. 1718. In ToBIT wird » L + H * « funktional als eigener Tontyp gerechtfertigt, vgl. unten, S. 96. 263 Siehe in der vorliegenden Arbeit z.B. S. 148f. 264 E i n anschauliches Beispiel ist die eine eigene Intonationsphrase bildende Diskurspartikel E H in A072, siehe S. 230ff.
59 Phrasentontypen: Der Phrasenton ist der (finale) Grenzton der Intermediärphrase. Er wird hier nicht streng syntaktisch konzeptualisiert: Intermediärphrasen können sowohl an syntaktischen als auch an semantischen Grenzen orientiert werden, die nicht stark genug sind, um als Intonationsphrasengrenze interpretiert zu werden. Fallen Intonationsphrase und Intermediärphrase zusammen, geht der Phrasenton dem Grenzton der Intonationsphrase voraus und spezifiziert die finale Tonhöhenbewegung exakter, als es durch den finalen Grenzton allein möglich wäre. Es gibt zwei Phrasentontypen: H- steht für den Zielpunkt eines vom letzten Akzentton der Intermediärphrase steigenden TonhöhenVerlaufs, T- für den Zielpunkt einer fallenden Bewegung. Wenn der Akzentsilbe nur eine weitere Silbe folgt, wird der Phrasenton zusammen mit dem Grenzton der finalen Silbe der Intonationseinheit zugewiesen. Wenn die Akzentsilbe gleichzeitig die finale Silbe ist, werden Akzentton, Phrasenton und Grenzton dieser einen Silbe zugewiesen. Grenztontypen: Jede Intonationsphrase wird von einem Grenzton abgeschlossen. Es gibt zwei Grenztontypen. H% steht für den Zielpunkt einer vom Phrasenton steigenden Tonhöhenbewegung, T% für den Zielpunkt einer vom Phrasenton fallenden Tonhöhenbewegung. In seltenen Fällen wird der ersten Silbe der Intonationsphrase ein hoher oder tiefer initialer Grenzton zugewiesen. Die Kriterien für die Zuweisung des initialen Grenztons lassen sich nicht formalisieren. Seine Zuweisung ist bei ungewöhnlichen Tonhöhensprüngen nach oben oder unten sinnvoll. Für die Kombination von Akzent-, Phrasen- und Grenztönen gibt es keine formalen Restriktionen. An der Visualisierung der akustischen Analyse 265 von R366/370 wird die Art der Tonzuweisung exemplifiziert (Abb. 2.8). Tonzuweisungen sind dessenungeachtet das Ergebnis der auditiven Analyse. Töne werden nicht aus dem Grundfrequenzverlauf abgeleitet und, wie der finale Grenzton T% von R366, auch dann zugewiesen, wenn die Grundfrequenz nicht messbar ist.
2.6.2
Aufnahme- und Messtechnik
Für die Aufzeichnung der Gespräche wurden ein Stereo-Mikrophon und ein darauf abgestimmter digitaler Kassettenrekorder der Firma Sony verwendet. 266 Mit dieser Anlage wurden Stereo-Aufnahmen mit einem Richtwinkel von 120 ° durchgeführt. Die Aufnahmen wurden in etwa 20 s lange Abschnitte gestückelt und in Klang-Dateien (in den Formaten *.nsp und *.wav) von jeweils 300 bis 400 KB Größe umgewandelt. Im ersten Analysedurchgang wurden die Grundfrequenzwerte aller perzipierten Töne mit dem externen „Computerized Speech Lab" (CSL) der Firma Kay und dem entsprechenden Computerprogramm gemessen. 267 Das Sprachsignal wird als Oszillogramm eingelesen, die F 0 -Werte als Verlaufskurve in Abhängigkeit von der Zeitachse dargestellt. Jeder einzelne Punkt der Verlaufskurve kann als Hz-Wert auch nummerisch ausgegeben werden. Bei Unsicherheiten in der Feststellung von Assoziation und Ali265
Zur Darstellungsweise siehe Kap. 2.6.2. Mikrophon ECM-959A und DAT-Walkman TCD-D7. 267 CSL Model 4300B, Programmversion 5.05. 266
60 500-
300-
200·
150 100-
70500
2.189
Abb. 2.8: Tonzuweisung am Beispiel (R366/370) nierung kann die Verlaufskurve mit einem Breitband-Sonogramm unterlegt werden. In Abhängigkeit von der wechselnden akustischen Qualität des Ausgangsmaterials wurde die Größe des Analysefensters und der Analyseschritte zwischen 15 und 50 ms variiert. Das CSL erfüllte hinsichtlich Handhabung und Ausgabefunktionen die Erwartungen nicht. Deshalb wurde der zweite Analysedurchgang mit dem Computerprogramm „Praat" durchgeführt, das ohne externes Messgerät auskommt. 268 Praat erlaubt die simultane Darstellung mehrerer Informationsebenen und ihrer Assoziationsbeziehungen in einem graphischen Fenster. In dieser Arbeit wird neben dem Grundfrequenzverlauf (in Hz) und dem Intensitätsverlauf (in dB) die Text-Ebene dargestellt. Die gemessenen Intensitätswerte werden direkt in das auditive Maß dB umgerechnet. Hinsichtlich der Übereinstimmung dieser errechneten mit echten auditiven Prominenzrelationen gilt das in Kap. 2.5.2 Ausgeführte. Alle Grundfrequenzverlaufsdarstellungen in dieser Arbeit wurden mit Praat erzeugt. Mit Praat wurde die Feinanalyse der Äußerungen und Äußerungspaare durchgeführt, auf die in der Argumentation dieser Arbeit zurückgegriffen wird. Die Länge des Analysefensters beträgt in Praat standardmäßig 10 ms. Die Grundfrequenz wird auf einer Bandbreite von 75 bis 600 Hz mit der Autokorrelationsmethode bestimmt. 269 Für die Messung der Intensität muss ein Schwellenwert von 75 Hz überschritten werden. Praat errechnet Hz- und dB-Werte mit mehreren Nachkommastellen. Die Werte werden in dieser Arbeit auf Vorkommastellen gerundet. Grundfrequenz- und Intensitätsverlauf werden aus darstellungstechnischen Gründen in einem Fenster gegeben, 268
Praat für Linux, Version 3.8.7. Praat wurde von Paul Boersma und David Weenink an der Universität Amsterdam entwickelt. Informationen online im Internet unter http://fonsg3.hum.uva.nl/praat/ [Stand: 30.08.2000]. 269 Vgl. Boersma (1993).
61
Time (s)
Abb. 2.9: Aufbau einer Praat-Graphik (P096/101) wobei der Grundfrequenzverlauf ebenfalls aus darstellungstechnischen Gründen mit einer in Praat implementierten Funktion in einer Bandbreite von maximal 10 Hz geglättet wird (die nummerisch angegebenen Werte sind davon nicht betroffen). Beide Verläufe orientieren sich an der Zeitachse (=X-Achse), ihre Werte auf der Y-Achse sind vollkommen unabhängig voneinander: Die linke Skala gibt die Hz-Werte der Grundfrequenz, die rechte die dB-Werte der Intensität an, wie in Abb. 2.9 dargestellt. Die Hz-Werte sind auf der Skala logarithmisch angeordnet, um die Visualisierung des Grundfrequenzverlaufs an die Visualisierung des perzipierten Tonhöhenverlaufs anzunähern. In Fällen wie P096/101, wo die Komponenten des analysierten Äußerungspaares durch längere andere Turns oder Turnkonstruktionseinheiten voneinander getrennt sind, werden diese die Deutlichkeit der Visualisierung störenden Abschnitte aus dem Sprachmaterial herausgeschnitten. Solche Schnittstellen sind durch die Strichelung der horizontalen Linien markiert. Die Zeitachse gibt in solchen Fällen nicht das Intervall wieder, in dessen Kontext die Komponenten stehen, sondern nur die Dauer der zusammengeschnittenen Äußerungen.
3
Intonation im Deutschen und Italienischen
Es gibt zahlreiche Studien zur Intonation im Deutschen und im Italienischen. Im Forschungsüberblick in den Kapiteln 3.2 und 3.3 werden die Untersuchungsmethoden und -ergebnisse solcher Studien referiert. Die Darstellung kann nicht vollständig sein. Wie in anderen Uberblicksdarstellungen1 werden die Studien deshalb hinsichtlich der operationalisierten Intonationsmodelle und betrachteten Funktionen zu Gruppen zusammengefasst. Die Methoden und Ergebnisse der Gruppen werden an ausgewählten Arbeiten erläutert. Zweck dieses Kapitels ist es zu untersuchen, inwieweit die in Laboruntersuchungen gewonnenen Erkenntnisse Gültigkeit für die Verhältnisse in Gesprächen haben und daraus Konsequenzen für die Entwicklung der Methodik in Kap. 4 zu ziehen. Dafür wird die der jeweiligen Untersuchung eigene Deskription der Intonationskontur in eine tonale Transkription nach den in Kap. 2.6.1 skizzierten Konventionen „übersetzt". Dann wird überprüft, ob und wo in den Gesprächen des Vineta-Korpus abweichende Form-Funktions-Kopplungen anzutreffen sind. In Kap. 3.4 werden zwei unterschiedliche Sprechstile (gelesen/spontansprachlich) hinsichtlich ihrer prosodischen Merkmale konfrontiert. In Kap. 3.5 wird eine Reihe von Arbeiten vorgestellt, die Intonationssysteme verschiedener Sprachen miteinander vergleichen. Weil es noch keine umfassende kontrastive Untersuchung der Intonation im Deutschen und im Italienischen gibt, werden hier einige Vergleiche von Deutsch bzw. Italienisch mit jeweils anderen Sprachen vorgestellt, wobei das Hauptaugenmerk den verwendeten Methoden gilt. Das folgende Kap. 3.1 nennt kurz einige lautliche Unterschiede von Deutsch und Italienisch, die nicht in der Intonation begründet sind.
3.1 Nicht-intonatorische prosodische Merkmale
Die Standardvarietäten des Deutschen und des Italienischen haben trotz ihrer sprachtypologischen Nähe ein deutlich verschiedenes klangliches Erscheinungsbild.2 Italienisch gilt allgemein als eine sehr melodische und hochmusikalische Sprache, wohingegen Deutsch als 'eckig' oder 'hart' charakterisiert wird. Diese Unterschiede sind nur zu einem kleinen Teil intonatorisch bedingt. Sie gehen primär auf Unterschiede in der metrischen Struktur, der Silben-Struktur und der Segment-Struktur zurück. In Kap. 1
2
Brünner (1989) stellt Ansätze zu diskurs- und gesprächsbezogener Intonationsforschung (bis 1989) zusammen. Ladd, Silverman und Scherer (1983) klassifizieren Studien hinsichtlich der Bedeutung der Intonation für den Ausdruck von Sprechereinstellungen in „parametrische" und „kategorische" Ansätze. Ladd und Cutler (1983) unterscheiden Studien von „measurers", die Bedeutungen direkt auf phonetische Merkmale zurückführen wollen (Zentralbegriff: realization), und Studien von „model builders", für die Bedeutungen von phonologischen Repräsentationen vermittelt werden (Zentralbegriff: representation). Die Ausführungen dieses Kapitels beziehen sich ausdrücklich nur auf die Standardvarietäten und nicht auf die zahlreichen Dialekte und Regionalsprachen.
64 2.2 wurde bereits ausgeführt, dass Silben im Deutschen tendenziell komplexer sind als im Italienischen und stärker Reduktions- und Assimilationsprozessen unterliegen. Vokalismus: In nebentoniger Position verschwindet im Italienischen nur die Opposition von offenen und geschlossenen Vokalen, während im Deutschen von der in haupttoniger Position größeren Zahl an Vokalen 3 nur noch Schwundstufen (v.a. [θ]) und vokalisierte K o n s o n a n t e n bleiben. 4 Das führt dazu, dass italienische Äußerungen in der metrischen Analyse wesentlich mehr rhythmische Schläge bekommen als im Deutschen und insgesamt prominenter ('vollklingender') sind. Konsonantismus: I m Italienischen sind die Merkmale ' s t i m m h a f t ' und 'stimmlos' primär, im Deutschen die Merkmale 'fortis' und 'lenis'. 5 Die Aspiration, die stimmlosen deutschen K o n s o n a n t e n folgt, ist im Italienischen ebenso unbekannt wie der Glottisschlag [?] vor haupttonigen Vokalen im Anlaut. E b e n s o unbekannt sind im Italienischen die L a u t e [h], [ς], [χ] und die Affrikate [pf]. 6 I m deutschen System nicht enthalten sind dagegen [ji], [X], [w] und die Affrikate [dz]. 7 Auch Deakzentuierungen treffen das Italienische weniger als das Deutsche. W ä h rend im Deutschen W ö r t e r mit geringer kommunikativer Dynamik deakzentuiert werden (weil sie 'gegeben' oder 'wiederholt' sind), bleiben die Akzentverhältnisse im Italienischen in der Regel auch unter solchen Bedingungen unverändert. Stattdessen wird auf das syntaktische M i t t e l der Rechtsversetzung zurückgegriffen. 8 Alle diese typologischen Unterschiede haben nichts mit Intonation - wie in K a p . 2.1 konzeptualisiert - zu tun. Sie werden deshalb in dieser Arbeit nicht vertieft.
3.2
Untersuchungen der Intonation des Deutschen
Die nachfolgend referierten Studien werden als E x p o n e n t e n der einflussreichsten Richtungen in der Erforschung der Intonation des Deutschen verstanden. 9 M i t den referiert e n Studien wird gezeigt, zu welchen Ergebnissen die in K a p . 2 eingeführten Modelle - die in den meisten Fällen das Englische als Bezugssprache haben - hinsichtlich 3
4 5 6 7
8
9
Im standarditalienischen Vokalsystem gibt es weder Zentralität noch distinktive Quantitätsunterschiede. Vgl. Solari (1995), S. 223ff. und Canepari (1985), S. 76f. Vgl. Solari (1995), S. 225f. und Canepari (1985), S. 32f. Vgl. Solari (1995), S. 226. Vgl. zu [pf] S. 13. Zur kontrastiven Darstellung der Lautsysteme vgl. Zuanelli Sonino (1975) und Ladefoged/Maddieson (1996). Siehe dazu auch Kap. 2.4, bes. S. 40. Zu Rechtsversetzung (dislocazione a destra) und Linksversetzung (dislocazione a sinistra) im Italienischen vgl. Berretta (1995) und Berruto (1986, 1985). Zu Diskursstrategien in den romanischen Sprachen vgl. Wehr (1984), zu den in diesem Zusammenhang grundlegenden Konzepten Chafe (1976). Die Literatur zur Syntax kann hier nicht erschlossen werden. Zu weiteren Ausführungen zu Unterschieden in der Akzentstruktur vgl. Ladd (1996), S. 168-197. In der vorliegenden Arbeit werden nur Studien aus der Zeit nach dem Zweiten Weltkrieg berücksichtigt. Beispiele für die Intonationsforschung des 19. Jahrhunderts sind Sievers (1876) und Bremer (1893). Vgl. dazu zusammenfassend Schmidt (1986), S. 42-50.
65 des Deutschen führen. Das Modell der autosegmentalen Phonologie wird in Studien von Wunderlich, Uhmann und Fery eingesetzt (Kap. 3.2.5). O t t o v. Essen (Kap. 3.2.1.1) sowie Pheby und das Münchner Projekt (Kap. 3.2.2) konzentrieren sich auf Nukleustonbewegungen und stehen damit der Britischen Schule nahe. Isacenko und Schädlich (Kap. 3.2.1.2) sowie Kohler (Kap. 3.2.3) stehen ebenfalls in der Tradition der Britischen Schule. Ihr Ansatz ist allerdings stärker experimentell-phonetisch: Sie versuchen, über die Analyse stilisierter Grundfrequenzverläufe zu den perzeptiv relevanten Intonationseinheiten zu kommen. Selting untersucht als Exponentin der konversationsanalytischen Intonationsforschung ebenfalls Tonhöhenbewegungen, beschränkt sich jedoch nicht auf die Nukleussilbe (Kap. 3.2.4). Datenmaterial: Nur in der konversationsanalytischen Intonationsforschung werden ungesteuerte Gespräche untersucht. O t t o v. Essen und Pheby entwickeln ihre Modelle allein auf Grundlage ihrer linguistische Intuition. In allen übrigen Studien werden gelesene oder in Experimenten elizitierte Sätze analysiert. Bei der Beantwortung der Frage, ob und inwieweit die referierten Form-FunktionsZuordnungen in den Gesprächen des Vineta-Korpus anzutreffen sind, geht es nicht darum, an den angeführten Studien Kritik zu üben. Die referierten Untersuchungen haben erheblich zur Durchdringung des Gegenstandsbereichs Intonation beitragen. Untersuchungen mit grammatischen oder sprachdidaktischen Zielsetzungen nehmen überdies nicht für sich in Anspruch, den Gebrauch der Intonation in der konversationellen Interaktion korrekt vorhersagen zu können. Die vorliegende Arbeit nimmt ihren Ausgangspunkt dennoch auch und gerade bei diesen Studien, weil sie weithin das Verständnis dessen bestimmen, wie Intonation funktioniert.
3.2.1 3.2.1.1
Forschung der 50er/60er Jahre O t t o v. Essen
O t t o v. Essens „Grundzüge der hochdeutschen Satzintonation" (x 1956/ 2 1964) sind ein Sonderfall in der neueren Forschungsgeschichte, weil mit ihnen eine Arbeit zentrale Bedeutung für alle späteren Forschungen erlangt hat, die nicht im eigentlichen Sinne wissenschaftlich war. Die „Grundzüge der hochdeutschen Satzintonation" haben ursprünglich didaktische Zielsetzung: Sie sollen Ausländern, die Deutsch als Fremdsprache lernen, intonatorische Kompetenz vermitteln. 1 0 Darüber hinaus greifen sie auf psychologische Konzeptualisierungen und introspektive Datenerhebung zurück. Trotzdem sind viele Überlegungen v. Essens in späteren, methodisch aufwendigen Studien bestätigt worden. Nach v. Essen baut die Intonation auf der semantisch bestimmten Akzentstruktur des Satzes auf. „Sinnwichtige" Wörter werden durch Akzente hervorgehoben. Das sinnwichtigste Wort erhält die Schwerpunktsilbe, um die herum Vorlauf und Nachlauf gruppiert sind (was der britischen Einteilung in Head, Nucleus und Tail entspricht). 1 1 10
11
Vgl. v. Essen (21964), S. 5. Auch die Arbeit von Klinghardt (1923), an der sich v. Essen orientiert, hat den Charakter eines Lehrbuchs. Stock (1980), S. 4 stellt sich in diese unterrichtspraktische Tradition, wenn er über seine Studie, die sich wissenschaftlich auf der Höhe ihrer Zeit befindet, schreibt, sie trage „sprechwissenschaftlichen Charakter". Vgl. v. Essen (21964), S. 18ff.
66
Die Hervorhebung eines Wortes kann durch Veränderungen von Dauer, Atemdruck und Tonhöhe erfolgen, wobei Tonhöhenveränderungen das wichtigste Mittel der Akzentsetzung ist. 12 Geht dem Wort, das die Schwerpunktsilbe enthält, ein Wort mit annäherend gleichem Bedeutungs- und Akzentuierungsgrad voraus, entsteht zwischen den beiden Hauptakzentsilben ein rhythmischer Körper}3 Die Ausspruchskategorie14 wird von der Endphase des Satzes bestimmt, das bedeutet, von Schwerpunktsilbe und Nachlauf. In Abhängigkeit vom Grad der psychischen Spannung bei der Äußerung werden drei Intonationsmuster (v. Essen (21964, S. 15f.) spricht von Melodemen) unterschieden: Sinkt die Tonhöhe auf oder nach der Schwerpunktsilbe in 'spannungslösende Tiefe', hat der Satz terminale Intonation. Steigt die Tonhöhe 'spannungssteigernd' an, liegt interrogative Intonation vor. Ist die Tonhöhe 'spannungserhaltend' auf mittlerem Niveau, spricht man von progredienter Intonation. Längere Sätze können durch tieftonigen Neuansatz in zwei Intonationseinheiten (v. Essen (21964, S. 33ff.) spricht von rhetorischen Syntagmen) gegliedert werden, wobei die erste Einheit mit progredienter Intonation auf die zweite verweist. Die Wahl einer Ausspruchskategorie macht die Verwendung des entsprechenden Intonationstyps obligatorisch, v. Essen (21964, S. 65f.) führt dazu aus: Die t e r m i n a l e Intonation wird angewandt in Aussagen, Aufforderungen, Ausrufen, vorangestellten Anreden, Ergänzungsfragen, indirekten Reden, den zweiten Gliedern von Doppelfragen. Die p r o g r e d i e n t e Intonation wird angewandt in allen unvollendeten Redeteilen, denen die Schwerpunktsbildung erst folgen soll. Es kann sich handeln um Satzteile, Vordersätze von Satzgefügen, erste Glieder von Doppelfragen (hier aber auch ausgeprägt interrogative Intonation!). Die i n t e r r o g a t i v e Intonation wird angewandt in Entscheidungsfragen, Nachfragen (hier gewöhnlich mit größerer melodischer Breite), ferner - als Variante - in Aussagen, Aufforderungen und Ergänzungsfragen, wenn sie Warnungen oder Drohungen darstellen sollen, in geringerer melodischer Bewegung auch bei Aufforderungen als Ausdruck der Höflichkeit. Bei rhetorischen Fragen schwanken progrediente und interrogative Intonation.
3.2.1.2
Isacenko und Schädlich
Die von Alexander Isacenko und Hans-Joachim Schädlich ( 1 1966/ 2 1971) an der Berliner Akademie durchgeführten Perzeptionsexperimente sind an den Hypothesen v. Essens orientiert. Auch Isacenko und Schädlich (21971, S. 45) nehmen an, dass die letzte Tonhöhenbewegung „allein die notwendigen Anhaltspunkte (cues) [liefert], um den syntaktischen Charakter des Satzes (interrogativ/nicht-interrogativ) zu bestimmen." Die Eingabe der Perzeptionsexperimente sind gelesene und resynthetisierte Sätze, deren Tonhöhen verlaufe auf zwei binäre Tonhöhenstufen reduziert sind. Isacenko und Schädlich (21971, S. 19) nehmen die Dekomposition der Intonationskontur in hohe und tiefe Töne bei Pierrehumbert (1980) vorweg, indem sie feststellen:
12 13 14
Vgl. v. Essen ( 2 1964), S. 14. Vgl. v. Essen ( 2 1964), S. 26ff. Vergleichbar mit dem Satzmodus, vgl. v. Essen ( 2 1964), S. 15.
67 Die verwirrende „irrationale" Gradualität (gradience) des Melodieverlaufs der Sprechstimme [...] wird kontrollierbar, wenn man die deutsche Satzintonation als geordnete Folge zweier Tonstufen, eines Tieftones und eines Hochtones ansieht.
Isacenko und Schädlich kommen in ihren Experimenten zu dem Ergebnis, dass erstens das primäre akustische Korrelat des deutschen Akzents der Grundfrequenzverlauf ist, 15 wie schon v. Essen angenommen hatte, und zweitens die Intonationsmuster nicht nur von der Tonhöhenbewegung, sondern auch von der Tonbruchstelle abhängen. Die Tonbruchstelle ist der Punkt im Äußerungsverlauf, an dem die Tonhöhenstufe wechselt. Dieser Punkt kann vor oder nach dem Iktus liegen. 16 Die Intonationsmuster sind mit einer doppelten Binäropposition beschreibbar: 1. als Ubergang von Ή zu T ' oder 'T zu H' und 2. als Übergang 'vor' oder 'nach' dem Iktus. Das interrogative Intonationsmuster wird als postiktisch steigender Tonbruch bestimmt, das progrediente als präiktisch steigender Tonbruch. 17 Interrogative und progrediente Intonation bilden zusammen eine intonatorische Klasse. Ein Fragesatz wird in diesem Modell durch steigende Tonhöhenbewegung und postiktischen Tonbruch konstituiert. Terminale Intonation ist im Kontrast dazu negativ definiert: Das semantische Merkmal 'Abgeschlossenheit' wird vom Nicht-Vorliegen einer steigenden letzten Tonhöhenbewegung signalisiert: Der Satz ist dadurch eine Nicht-Frage. Die Tonbruchstelle ist hier nur sekundär für die Differenzierung von zwei Arten terminaler Intonation relevant: Durch einen postiktisch fallenden Tonbruch wird eine stärkere 'Kontrasthervorhebung' als durch einen präiktisch fallenden angezeigt. Isacenko und Schädlich überführen v. Essens 3-Klassen-System in ein 2 * 2-KlassenSystem. Für die fallenden Verläufe gibt es eineindeutige tonale Repräsentationen: - präiktisch fallend = H + T * T- T% - postiktisch fallend = Η* T- T% Für die steigenden Verläufe gibt es jeweils mehrere tonale Repräsentationen: - präiktisch steigend = Η* Η- H% ν18 Η* Τ- H% ν Η* Η- T% - postiktisch steigend = H + T * Η- H% ν Τ* Η- Η% ν Τ * + Η Η-Η% ... Bei zahlreichen Äußerungen im Vineta-Korpus finden sich die von Isacenko und Schädlich sowie v. Essen genannten Form-Funktions-Zuordnungen, aber auch Abweichungen davon. So ist das interrogative Intonationsmuster nicht auf Fragehandlungen beschränkt. In vielen Äußerungen werden assertive Sprechhandlungen mit interrogativer Intonation markiert, die in den folgenden Beispielen der Sicherung des Rederechts dient. 19 H165 NH: also die gEben das an den vatiKAN, T*+H H+T*H-H·/. 205 256 (200)182 264
15 16 17 18 19
Vgl. Isacenko/Schädlich ( 2 1971), S. 20-23. Vgl. Isacenko/Schädlich ( 2 1971), S. 29ff. Vgl. hier und im Folgenden Isacenko/Schädlich ( 2 1971), S. 46ff. Das Zeichen » v « repräsentiert ein logisches oder. Weitere Beispiele sind H142, H215, R017 und R043; vgl. S. 74. Zu einem ähnlichen Ergebnis kommt bereits Zacharias (1966), zit. bei Stock (1980), S. 93ff.
68 H166 NH: und dEr muss e s dann, Η'/. Τ* H286 222 244
IH: hm-=
NH: =[dEr sEgnet d a s AB. Τ* Η* HT*T-T7. 208 227 256 233 K075 PA: NEE, -> T*+HH-H'/, 125 140 n : UASser o d e r s o ;
Η* Η-
Τ'/.
128 140
109
A145 JB: d a s ( . ) kUcken d i e s i c h AN, -> H* H+T*H-H·/. 111 (103)88 181 sagen d a s STIMMT n i c b ,
Η*
109
H-H·/. 200
(.) und GUT. H+T*T-T'/, (166)114
Dagegen können Fragehandlungen auch mit dem progredienten (zum Beispiel K062) oder einem terminalen Intonationsmuster wie in R360 ausgedrückt werden: 2 0 R360 SK: lOhnt s i c h s o d e r l o h n t s i c h s NICH; -»• Η* HH+T*T-T7, 185 294 (294)166
Postiktisch fallende terminale Muster markieren nicht immer Kontrasthervorhebungen. Während in R376 mit Η* T- T% tatsächlich ein semantischer Kontrast ausgedrückt wird (siehe S. 203f.), ist das in H078 (siehe S. 223ff.) nicht der Fall. Terminale Muster schließen auch syntaktisch und semantisch unvollständige Sätze bzw. Propositionen ab (zum Beispiel in H203, siehe S. 148f.).
3.2.2 3.2.2.1
Grammatisch orientierte Intonationsforschung John Pheby
Auch John Pheby (1981) versucht, v. Essens Ergebnisse weiterzuentwickeln und linguistisch zu präzisieren; er knüpft dabei an das Modell von Halliday (1967) an. 2 1 Intonation ist eine relativ autonome phonologische Komponente der Grammatik. Wie im T-Modell der generativen Grammatik 2 2 gibt es bei Pheby keine direkte Verbindung zwischen phonologischer und kommunikativ-pragmatischer Komponente. Deshalb werden alle sprachlichen Funktionen der Intonation ausschließlich über die Syntax vermittelt. 20 21
22
Siehe auch K074, S. 200. In beiden Fällen handelt es sich um Alternativfragen. Vgl. Pheby (1981), S. 839. Wie bereits ausgeführt, bestimmt Pheby Intonation synonym zu Prosodie. Vgl. auch Pheby (1983 u. 21980). Hallidays Modell ist in Italien stark rezipiert worden, vgl. deshalb die Ausführungen in Kap. 3.3.1. Vgl. Chomsky (71993), S. 17.
69 Intonation beinhaltet vier physiologisch eng miteinander verbundene und zeitlich oft simultan auftretende artikulatorische Aktivitäten, die zu vier phonologischen Kategorien führen: Es handelt sich um Tonhöhenbewegung und Tonmuster, Gliederung und Tongruppe, Rhythmus und Takt sowie Hervorhebung und Tonsilbe.23 1. DEIS Tonmuster ist eine Abstraktion der Tonhöhenbewegung24 mit phonologischem Status. 25 In der Klassifizierung schließt sich Pheby an die impressionistische Beschreibung v. Essens bzw. Hallidays an und unterscheidet die Muster 'fallend' (1), 'steigend' (2) und 'gleichbleibend' (3) mit den Subtypen 'kontinuierlich fallen' (la), 'steigend-fallend' (lb), 'kontinuierlich steigend' (2a) und 'fallend-steigend' (2b). 2. In Abhängigkeit von der syntaktischen Struktur konstituieren sich die Tongruppen als Intonationeinheiten in der fließenden Rede. Tongruppengrenzen werden durch Tonmusterwechsel (notwendig) und linguistische Pausen (optional) signalisiert. 3. Durch Setzung der Iktus wird die Tongruppe rhythmisch in Takte gegliedert. 26 4. Jede Tongruppe enthält genau eine akzentuierte Tonsilbe, die der Nukleussilbe in der Britischen Tradition entspricht. Die Tonsilbe bildet mit eventuell folgenden Silben und Takten die Tonstelle (vergleichbar mit der Nuclear Unit), die das Tonmuster trägt. Den phonologischen Hauptkategorien Tongruppe, Tonsilbe und Tonmuster werden syntaktische Funktionen zugeschrieben (der Takt wird in diesem Zusammenhang von Pheby nicht mehr erwähnt). Die Erstreckung der Tongruppe signalisiert syntaktische Abhängigkeitsverhältnisse und damit indirekt auch semantische Strukturen. So stehen zum Beispiel restriktive Relativsätze mit ihren Bezugseinheiten zusammen in einer Tongruppe, während appositive Relativsätze eigene Tongruppen bilden. 27 Die Tonsilbe markiert den Informationsschwerpunkt der Tongruppe. 28 Die Tonmusterselektion dient der Unterscheidung von Satzarten, von Subtypen innerhalb der Satzarten und dem Ausdruck des Verhältnisses von Informationseinheiten zueinander (als Koordination oder Subordination). 29 Bei der Funktion der Tonmuster für die Unterscheidung von Satzarten weist Pheby deutlicher als seine Vorläufer auf die Interaktion der Intonation mit anderen Signalisierungssystemen hin. 30 Lediglich die Interpretation eines Satzes mit Verb-Zweitstellung als Aussage oder Entscheidungsfrage wird durch die Wahl des Tonmusters bestimmt. Wichtiger sind die Tonmuster 23 24
25
26
27
28
29 30
Vgl. Pheby (1981), S. 840-857. Pheby führt keine Grundfrequenzmessungen durch. Zur Funktion der Grundfrequenz für die Gliederung der Äußerung in syntaktische Einheiten vgl. Helfrich (1985). Pheby (1981), S. 843 führt zum phonologischen Status der Tonmuster aus: „Eine solche phonologische Opposition [zwischen steigenden und fallenden Tonmustern, StR] besteht dann, wenn an irgendeiner Stelle in der Syntax deutlich wird, daß ein gegebener Unterschied in der Tonhöhenbewegung systematische Unterscheidung trägt." Pheby (1981), S. 852 bestimmt Iktus wie in Kap. 2.1 definiert als perzeptive Einheit, die manchmal keine akustischen Korrelate hat. Vgl. Pheby (1981), S. 859-866. Für das Zuordnungsverhältnis zwischen syntaktischen und phonologischen Einheiten verwendet Pheby den Begriff Kongruenz. Pheby (1981), S. 866-874 definiert Informationsschwerpunkt als „syntaktisches Korrelat der Tonsilbe", weil das Grammatikmodell eine direkte Verbindung zur kommunikativpragmatischen Komponente ausschließt. Vgl. im Folgenden Pheby (1981), S. 874-879. Zu Signalisierungssystemen siehe Kap. 4.1.2.
70 für Differenzierungen innerhalb der Satzarten. Auch hier interagieren sie mit genuin syntaktischen Merkmalen wie der Satzgliedstellung. Für die Binnendifferenzierung rekurriert Pheby (1981, S. 845) entgegen seiner Ursprungsintention auf diffuse „expressive" bzw. „emotionale" Kategorien. So werde in einem mit einem W-Wort eingeleiteten Fragesatz durch ein steigendes Tonmuster ein größeres Interesse des Fragenden an der Antwort signalisiert als durch ein fallendes, außerdem gelte die mit dem steigenden Tonmuster geäußerte Frage als höflicher. Dagegen drücke bei einer Entscheidungsfrage mit Verb-Erststellung ein steigendes Tonmuster größeres Interesse an der Antwort aus als ein fallendes, außerdem Emphase und Kontrast. 3 1 Phebys Überlegungen beruhen auf Introspektion. Form und Funktion von Äußerungen in konkreten Handlungszusammenhängen werden nicht untersucht. Die erörterten „spezifischen syntaktischen Funktionen der Intonation" (Kategorien wie 'Verbindlichkeit', 'Höflichkeit', 'Markiertheit') 3 2 sind Zuschreibungen, deren Vorliegen sich mit gesprächsanalytischen Mitteln nur in den seltenen Fällen überprüfen lässt, in denen sie explizit thematisiert werden. Und eineindeutige Zuordnung von Intonationsmustern zu Satzarten gibt es deshalb nicht, weil die Intonation mit anderen Signalisierungssystemen interagiert. Pheby (1981, S. 880) ist sich dieser Tatsache bewusst und schreibt: Die Intonationsmerkmale können je nach syntaktischer Umgebung unterschiedliche kommunikativ-pragmatische Funktionen haben, und kommunikativ-pragmatische Funktionen werden in verschiedenen syntaktischen Zusammenhängen unterschiedlich realisiert.
3.2.2.2
Das Münchner Projekt von Hans Altmann
Ein Münchner Forschungsprojekt unter der Leitung von Hans Altmann 3 3 untersucht Intonation als grammatisches Mittel zur Unterscheidung von Satzmodi im Deutschen. Der Satzmodus wird als komplexes sprachliches Zeichen definiert, das im Unterschied zum rein syntaktischen Satztyp einen Form- und einen Funktionsaspekt hat: Satzmodus als der grundlegende Begriff soll im folgenden die regelmäßige Zuordnung eines Satztyps (oder einer Gruppe von Satztypen) mit angebbaren formalen Eigenschaften zu einer bestimmten Art von Funktion (oder einer Guppe von Funktionen) im sprachlichen Handeln, die ich Funktionstyp nennen will, bezeichnen. 34
Form- und Funktionsaspekt werden in der Forschung unterschiedlich gewichtet. Vermischungen und Verwechslungen von Form- und Funktionsaspekt lassen den Satzmodus in vielen Darstellungen als äußerst nebulöses Konzept erscheinen. 35 Satzmodi sind weder identisch mit Illokutionstypen noch liegt ihre primäre Funktion in der Signalisierung von Illokutionstypen. Satzmodi sind Teil der grammatisch determi31 32 33
34 35
Vgl. Pheby (1981), S. 874ff. Vgl. Pheby (1981), S. 879-897. Die Ergebnisse liegen in den von Altmann (1988) und Altmann et al. (1989) herausgegebenen Sammelbänden vor. Altmann (1987), S. 22. Vgl. die gleichlautende Kritik von Grewendorf/Zaefferer (1991), S. 274f.
71
nierten Bedeutung von Sätzen und werden kontextfrei aufgrund von Formmerkmalen bestimmt. 36 Illokutionstypen werden dagegen konkreten Äußerungen zugeschrieben. Es gibt jedoch eine Art von „Normalbeziehung" zwischen bestimmten Satzmodi und bestimmten Illokutionstypen: Deklarativ und assertive Illokution, Interrogativ und erotetische Illokution sowie Imperativ und direktive Illokution bilden Paare mit Normalbeziehung. In direkten Sprechakten unterstützen Satzmodi den Ausdruck der IIlokutionen, mit denen sie in Normalbeziehung stehen, in indirekten Sprechakten ist die Normalbeziehung aufgehoben. Satzmodi haben demzufolge in konkreten Äußerungen den Status von Illokutionsindikatoren, die mit anderen Illokutionsindikatoren (explizit performativen Formeln, Modalpartikeln etc.) kookkurrieren. 37 Semantisch lässt sich der Satzmodus als „durch den Satztyp ausgedrückte[r] Einstellungsoperator [...] betrachten, der die Proposition (die Propositionen) in seinen Skopus nimmt." 38 Der Sprecher drückt mit dem Satzmodus demnach primär keine Illokution aus, sondern bezieht Stellung zum propositionalen Gehalt des Satzes. Im Falle des Deklarative erklärt er Ubereinstimmung mit dem propositionalen Gehalt. Traditionell werden für das Deutsche die drei Satzmodi Deklarativ, Interrogativ und Imperativ postuliert, von manchen Autoren zusätzlich Exklamativ und Optativ.39 Oppenrieder (1988b, S. 186) bezeichnet Deklarativ, Interrogativ und Imperativ als „major types" oder „zentrale Satzmodi", Exklamativ und Optativ dagegen als „minor types" oder „periphere Satzmodi" (die fragwürdig bleiben). Altmann (1987) expandiert das System mit fünf Satzmodi auf ein System mit sieben Funktionstypen: Assertion, Ε-Interrogation, W-Interrogation, Wunsch, Aufforderung, Exclamation, W-Exclamation. 40 Die Aufspaltung des Interrogativs in E-Interrogation und W-Interrogation und des Exklamativs in Exclamation und W-Exclamation ist aber weniger auf die nur geringfügig verschiedenen propositionalen Grundeinstellungen als mehr auf unterschiedliche formale Realisierung zurückzuführen (»W« verweist auf Vorhandensein eines W-Worts, »E« auf Verb-Erststellung). Im Münchner Projekt geht es dann auch um diejenigen Formmerkmale, die für Konstitution und Distinktion der fünf obengenannten Satzmodi relevant sind. Altmann (1987) bestimmt Satzmodi über vier Gruppen grammatischer Merkmale: Reihenfolgemerkmale (Stellung der Konstituenten), morphologische Merkmale, kategoriale Füllung (Vorhandensein von Strukturstellen, die nur mit Elementen bestimmter grammatischer Kategorien gefüllt werden können, z.B. mit W-Wörtern und Modalpartikeln) und intonatorische Merkmale.41 36 37
38
39
40 41
Zum Begriff grammatisch determinierte Bedeutung vgl. Bierwisch (1980). Vgl. dazu Brandt et al. (1990), S. 143ff. und Motsch/Pasch (1987), S. 45. Brandt et al. (1992), S. 81 sehen im Satzmodus eine „Vermittlungsinstanz zwischen Satztyp und Illokutionstyp". Brandt et al. (1990), S. 120. Ähnlich konzeptualisieren Pasch (1990), S. 97 und Altmann (1987), S. 23f. Kritisch dazu Rosengren (1990), S. 117. In Systemen mit vier Satzmodi wird meist der Optativ nicht genannt. Vgl. Lumer (1995), S. 167; Grewendorf/Zaefferer (1991), S. 270. Vgl. das Schema in Altmann (1987), S. 25. Vgl. Altmann (1987), S. 29-46, besonders das Schema auf S. 32. Ähnlich klassifiziert Pasch (1990a), S. 108.
72
Ein Beispiel: Der V-l-Imperativsatz Laß (du) das Buch da! wird durch folgenden Merkmalskomplex 4 2 konstituiert: [+'Verb-Erststellung, +/-Subjektspronomen, +Subjektspronomen im Mittelfeld, +Morphologie für den Verbmodus Imperativ, +Fokusakzent, -(-fallender Tonhöhenverlauf auf der Nukleussilbe, +tiefer Offset]. Durch die Variation der Merkmale entsteht ein Satzmodussystem mit sieben Grundformtypen: Aussagesatz, V-l-Fragesatz, w-V-2-Fragesatz, V-1-/V-2-Imperativsatz, V-lWunschsatz, V-l-/V-2-Exclamativsatz und w-V-2-/V-L-Exclamativsatz. Die Grundtypen werden als „bezüglich der mit ihnen ausdrückbaren propositionalen Grundeinstellungen relativ indifferenziert und flexibel" 43 betrachtet. Der Operator für die propositonale Grundeinstellung ist für die Konstitution der Grundtypen sekundär. F ü r eine Reihe anderer Typen (vor allem von Mischtypen) ist der Operator dagegen primär, und die grammatischen Merkmale sind sekundär. Die assertive Frage kann nur dann als „Mischtyp", kombiniert aus Aussagesatz und V-l-Fragesatz, aufgefasst werden, wenn sie als „Gemisch aus den für die beiden Ausgangstypen geltenden propositionalen Einstellungen" 4 4 aufgefasst wird. Würde Altmann auch hier grammatisch klassifizieren, müsste er Spielen die Bayern schlecht?*5 als V-l-Fragesatz auffassen. In der Klassifikation werden also semantische und grammatische Merkmale vermischt. Intonation wird von der Münchner Gruppe als Summe aller prosodischen Merkmale konzeptualisiert. 4 6 Auf die Ausarbeitung oder explizite Übernahme eines Intonationsmodells - anfangs wurde das Modell der autosegmentalen Phonologie in Betracht gezogen - verzichten die Münchner. Ihre zusammenfassenden Beschreibungen erfolgen aber in der Art der Britischen Schule. In den Untersuchungen wird aus den Äußerungen eines Korpus' zunächst eine Reihe von akustischen Werten extrahiert, die mit dem Anspruch präsentiert werden, nicht-interpretativ zu sein. Weil die Bezugskategorien der Intonationsanalyse die fünf traditionellen Satzmodi sind, werden Werte extrahiert, von denen man gemäß dem Stand der Forschung annehmen konnte, dass sie für die Satzmoduskennzeichnung relevant sind: „Für die intonatorische Satzmoduskennzeichnung von überragender Bedeutung ist danach die Form des Grundfrequenzverlaufs (Tonhöhenverlaufs) 'in der Gegend' der Nukleussilbe und die Grundfrequenz (Tonhöhe) am Äußerungsende." 4 7 Andere Funktionen intonatorischer Merkmale wie zum Beispiel die Fokusmarkierung werden nicht näher betrachtet. Das Korpus besteht aus insgesamt 956 unter Laborbedingungen gewonnenen Testsatzrealisationen. 4 8 Die Testsätze sind durch die Einbettung in imaginierte Kontexte in Minimalpaaren und -tripein aufeinander bezogen, wodurch Segment- und Ak42 43 44 45 46 47
48
Nach Altmann (1987), S. 37. Altmann (1987), S. 47. Altmann (1987), S. 48. Vgl. Altmann (1987), S. 49. Vgl. hier und im Folgenden Altmann et al. (1989). Oppenrieder (1988b), S. 179. Auch dB- und Sekunden-Werte bestimmter Einheiten werden gemessen, vgl. im Einzelnen Oppenrieder (1988b), S. 177f. und (fast wortgleich) Batliner/Oppenrieder (1989), S. 283. Die Beschreibung von Verlauf und Ergebnissen des Münchner Projekts in den obengenannten Sammelbänden ist unübersichtlich und teilweise redundant. Oppenrieder (1988b), S. 173.
73 zentstruktur (und damit auch die ersten drei der oben eingeführten grammatischen Merkmale: Reihenfolgenmerkmale, kategoriale Füllung, morphologische Merkmale) invariant gehalten werden. Der unterschiedliche Satzmodus der Elemente der Minimalpaare und -tripel wird von den Versuchspersonen allein durch die Variation der intonatorischen Merkmale ausgedrückt. 49 Die Testsätze wurden - teils mit, teils ohne Präsentation von Kontext - einer Reihe von Hörtests (Akzenttests, Natürlichkeitstests, Kategorisierungstests) 50 unterzogen. Der Blick auf die Ergebnisse der entscheidenden Kategorisierungstests zeigt, dass lediglich die Fragesätze von jeweils um 90 % (82,5 % bis 95,5 %) der Versuchspersonen und damit ziemlich konsistent erkannt wurden. 51 Im Gegensatz zu Oppenrieders eigener Interpretation 52 ist damit die Bedeutung der Intonation für die Signalisierung des Satzmodus nicht hinreichend belegt. Vor allem die peripheren Satzmodi Exklamativ und Optativ bleiben fragwürdig. Infolgedessen steht die den Kategorisierungstests folgende Beschreibung der intonatorischen Prototypen der Satzmodi auf unsicherem Fundament. Die intonatorischen Prototypen werden anhand der extrahierten Werte derjenigen Testsatzrealisierungen bestimmt, die in den Kategorisierungstests von mindestens 80 % der Versuchspersonen kontextfrei erkannt wurden. 53 Die Differenzierung der Prototypen erfolgt primär nach den Merkmalen 'Tonhöhenverlauf auf der Nukleussilbe' (Kontur) und 'Tonhöhe am Außerungsende' (Offset). Bei den peripheren Satzmodi Exklamativ und Optativ werden auch die Merkmale Dauer und Tonhöhenumfang berücksichtigt. 54 Die Kontur wird schematisch visualisiert, der Offset mit 'hoch' oder 'tief' spezifiziert. Das Ergebnis der Überlegungen ist eine Liste mit 18 Satztypen, denen intonatorische Prototypen zugeordnet werden. 55 Kehrein (1995, S. 39) zeigt, dass sich die Zahl der Prototypen des Münchner Projekts durch konsequente Vereinheitlichung der Beschreibung auf fünf reduzieren lässt. Unter Verwendung einer Notation aus drei Tonhöhenstufen für die Kontur auf der Nukleussilbe (mit 1 für 'tief', 2 für 'mittel' und 3 für 'hoch') ergeben sich folgende Zuordnungen von intonatorischen Prototypen und Satztypen: - Konfiguration Α mit 1-2-1 und tiefem Offset: Verb-Zweit-Exklamativsatz (Typ 2a) und Verb-Erst-Exklamativsatz (5b). - Konfiguration Β mit 1-3-2 und tiefem Offset: Ergänzungsfragesatz (Typ 6). 49
50 51
52 53
54 55
Vgl. Batliner/Oppenrieder (1989), S. 281-286; Detailbeschreibung der Korpora in Batliner/Oppenrieder (1989), passim. Vgl. Oppenrieder (1988b), S. 175-177. Vgl. den Ergebnisüberblick in Oppenrieder (1988a), S. 165-167. Zwei Fragesatztypen hatten niedrigere Werte. Vgl. Oppenrieder (1988a), S. 163f. Vgl. Oppenrieder (1988b), S. 184. Der Durchschnittswert für die Erkennung der Punktionsklasse, des entsprechenden Satzmodus', findet keine Berücksichtigung. Folglich gehen auch einzelne „gut" erkannte Exemplare von insgesamt schlecht erkannten Satzmodi wie Exklamativ und Optativ in die Bestimmung der intonatorischen Prototypen ein. Oppenrieder (1988b), S. 184ff. Vgl. Oppenrieder (1988b), S. 203-205. Prototypizität bedeutet bei Oppenrieder (1988b, S. 189), dass „ein prototypischer Kern allmählich in eine Peripherie ausläuft. Hier handelt es sich um die mehr oder weniger typischen Ausprägungen der im 'intonatorischen Prototyp' zusammengefassten Einzelmerkmale."
74 - Konfiguration C mit 1-3-2 und hohem Offset: Versicherungsfragesatz (Typ 7b). - Konfiguration D mit 2-1-3 und hohem Offset: assertive Frage (Typ lb), Entscheidungsfragesatz (3b), Entscheidungsfragesatz (4b), Entscheidungsfragesatz (5c), imd-Ergänzungsfragesatz (7a), Versicherungsfragesatz (8a) und Wortfrage-Ubernahme (9a). - Konfiguration Ε mit 2-3-1 und tiefem Offset: Aussagesatz (Typ la), Aussagesatz mit 'Kontrast' (2b), Adhortativsatz (3a), Sie-Imperativsatz (4a), Imperativsatz mit 'Kontrast' (5a), Aussagesatz (8b) und ιυ-Verb-Letzt-Exklamativsatz (9b). Die Intonation differenziert also lediglich zwei Gruppen von Satztypen klar: Fragen (Konfigurationen C und D) und Nicht-Fragen (Konfigurationen Α und E). 66 Entscheidendes Merkmale ist der Offset, der bei Fragen 'hoch' und bei Nicht-Fragen 'tief' ist, was der tradierten Auffassung über die Form von Fragen entspricht. Das Münchner Projekt ist grammatisch orientiert und nimmt für sich nicht in Anspruch, den Zusammenhang von Form und Funktion der Intonation im Gespräch zu erklären. Intonation hat in Gesprächen viele Funktionen, die über den Ausdruck von Satztypen oder Satzmodi hinausgehen bzw. mit ihnen konkurrieren. Ein Beispiel: Der deklarative Satzmodus ist definiert als Produkt der Zuordnung der Konfiguration Ε (2-3-1 und tiefer Offset) zu einem Aussagesatz. Im Vineta-Korpus gibt es aber eine Reihe von Äußerungen, die nur als Deklaration (jedenfalls nicht als Frage) interpretiert werden können, obwohl sie Intonationskonturen mit der Konfiguration D (2-1-3 und hoher Offset, also: H+T*H-H%) haben, die für Fragen reserviert ist. 57 R017 SK: also erst mal rEchnungen beZAHln, -+ ? H+T*H-H'/. (164)154 223 aber auch die:kUcken ve:r kriegt noch geld ZURÜCK, H* H*H-H'/, 217 262 (1.3) R042 SK: nee die harn ja überWIEsen, H"/. H*H-H'/, 204 192 223 den BEItrag, H+T*H-H'/, 186 224 und vir ham das dann ans hoTEL überviesn;
T7. Η*
186 196
H+T* Τ- Τ'/. 190
Mit dem Satzmoduskonzept lassen sich diese Konturen nicht adäquat erklären. Die Tonfolge H+T*H-H% dient in R017 und R043 nicht der Distinktion von Frage und Nicht-Frage. Die Sprecherin verwendet die Kontur in R017 zur Listenbildung und in R043 zur Sicherung ihres Rederechts.
56 57
Ausnahme ist der Ergänzungsfragesatz als Konfiguration B. Weitere Beispiele: H142, H165, R145. Vgl. S. 67.
75 3.2.3
Das „Kiel Intonation Model"
Klaus Kohler (1991a, 1991b, o.J.) stellt in seinen Untersuchungen am Kieler Institut für Phonetik und digitale Sprachverarbeitung die phonetischen Merkmale der Intonation in den Vordergrund. Das Ergebnis der Experimente mit resynthetisierten Sätzen ist das „Kiel Intonation Model" (KIM), das Algorithmen für die Intonationskomponente in Sprachsynthesesystemen bereitstellt 58 und kontextlosen Intonationskonturen (verstanden als Verkettungen phonetischer Merkmale) sprachliche Bedeutungen zuweist. Das Verhältnis von KIM zum Modell der autosegmentalen Phonologie ist ambivalent. Einerseits lehnt Kohler die Grundannahmen der generativen Grammatik kategorisch ab 5 9 und stellt das Kieler Projekt in die Tradition der Britischen Schule. 60 Andererseits richtet er seine Ablehnung explizit lediglich gegen die lineare Phonologie von Chomsky und Halle (1968). KIM ist als Bestandteil von Sprachsynthesesystemen ein genuin generatives Modell. Zwischen der in Kap. 2.3.2 eingeführten autosegmentalen Konzeptualisierung und KIM gibt es zahlreiche Berührungspunkte. 6 1 Der Intonationskomponente ist auch im KIM eine Akzentkomponente vorgeordnet. Die Akzentkomponente 62 sieht Wort- und Satzakzente vor, wobei der (normative) Wortakzent (lexical stress) die Vokale markiert, auf die der Satzakzent (sentence stress) fallen kann, die aber im Kontext auch unakzentuiert sein können. In Abhängigkeit von den akustischen Korrelaten des Akzents werden die Merkmale (Prominenz, die primär auf die zeitliche Erstreckung der Einheit zurückgeht) und (Prominenz, die primär auf Grundfrequenzvariation zurückgeht) unterschieden. Die Stärke des Akzents wird auf einer Skala von 1 bis 9 bestimmt, wobei 2 für Hauptakzent (primary stress) und 1 für Nebenakzent (secondary stress) steht. Für unbetonte Funktionswörter wird der Wert 0 vergeben. Abgeschwächte Wortakzente in Komposita behalten zur Unterscheidung davon zwar den Wert 1, bekommen aber das zusätzliche Merkmal zugewiesen, das ihre Deakzentuierung anzeigt. Besondere Betonung wird als Emphase mit dem Merkmale markiert. Die Skala der Emphase (3-9, weil die Werte 2 und 1 für Haupt- und Nebenakzent reserviert sind) ist das Merkmal mit @ = 0, 1,... 7. Zur vollständigen Beschreibung der Akzentstruktur wird jedem Vokal ein Komplex aus diesen fünf Merkmalen zugewiesen: < + / - F S T R E S S > , < + /-DSTRESS>, < + / - D E A C C > , < + /-EMPH> u n d
mit @ = 0, 1,... 7. Die ebenfalls aus fünf Merkmalen bestehende Intonationsstruktur ist an die Akzentstruktur gebunden, indem alle Haupt- und Nebenakzente Intonationsmerkmale erhalten: All vowels with 'primary' or 'secondary' sentence stress, i.e. with the feature specification receive intonation features, which may be either 'valleys' or 'peaks' specified as , and in the case of 'peaks' (), they may contain a 58
59 60 61
62
R U L S Y S / I N F O V O X T T S System, vgl. Kohler (o.J ). Das Kieler Institut ist auch am Verbmobil-Projekt beteiligt. Vgl. Kohler ( 2 1995), S. 131ff. Halliday (1967), vgl. Kohler (1991a), S. 20. Kohler (1991a), S. 20 schreibt deshalb auch, dass „Intonation models should [...] be developed in a generative framework [...]". Vgl. Kohler (1991b), S. 298-305
76 unidirectional FO fall, classified as , or rise again at the end, resulting in a (rise-)fall-rise, categorized as .63 bezeichnet also ein Grundfrequenzmaximum mit anschließendem Absinken der Grundfrequenz, ein Grundfrequenzminimum mit anschließendem Ansteigen der Grundfrequenz. Die Bewegung beginnt vor dem akzentuierten Vokal - oder nach ihm - . Bei Grundfrequenzmaxima - wird außerdem zwischen spezifiziert. Mit der doppelten Binärunterscheidung sind also drei Positionen für den Grundfrequenzgipfel möglich: 'early', 'medial', 'late'. Hält das obligatorische Absinken der Grundfrequenz nach dem Maximum bis zum Ende der Einheit an, wird der Verlauf mit gekennzeichnet. Setzt nach dem Absinken ein finaler Anstieg ein, wird geschrieben. Die Höhe des finalen Anstiegs schlägt sich in < + / - Q U E S T > nieder. Den intonatorischen Merkmalen wird eine heterogene Menge informell beschriebener Funktionen zugeordnet. 64 In der Gruppe der final fallenden Konturen - - transportiert ein früher Startpunkt des Falls - - die Bedeutung 'closed/established'. Ein später Startpunkt des Falls - , die Grundfrequenz steigt auf der Akzentsilbe an und sinkt erst kurz vor deren Ende ab - bedeutet 'open/new'. Finaler Grundfrequenzanstieg - - zeigt an, dass „there is something else to come". 65 Die Höhe des Anstiegs - < + / - Q U E S T > - signalisiert dabei die Größe des Sprecherinteresses. Der Startpunkt des Ansteigens der Grundfrequenz aus einem Minimum heraus - - bringt die Emotionalität des Sprechers zum Ausdruck: „ gives the impression of casualness, matter-of-fact, lack of interest, whereas brings out the speaker's feelings".66 In Fragesätzen behauptet der Sprecher seine Dominanz in der Situation mit , mit ordnet er sich unter. Akzentsilben als Träger intonatorischer Einheiten werden zu komplexeren Konturen zusammengesetzt, den Hut-Mustern 67 kommt dabei besondere Bedeutung zu: Das Hut-Muster, das aus der Kombination 'medial peak' und 'early peak' entsteht, sei für den Stil gelesener Tatsachenberichte im Deutschen typisch. 68
Die intonatorischen Merkmale des KIM lassen sich in Töne und Tonfolgen übersetzen. Es eineindeutige Beziehungen zwischen den Merkmalskomplexen des KIM und den in Kap. 2.6.1 eingeführten Akzenttontypen: -
= H* = T*+H = H + T *
Hinsichtlich der Gesamtkonturen gibt es nicht in jedem Fall eineindeutige Beziehungen. Aber auch Gesamtkonturen lassen sich in Tonfolgen übersetzen. Auf diese Weise kann der Geltungsgrad der Form-Funktions-Zuordnungen, die Kohler (1991b, S. 31163 64 65 66 67 68
Vgl. Kohler (1991b), S. 305. Vgl. im Folgenden Köhler (1991b), S. 306-310. Kohler (1991b), S. 307. Kohler (1991b), S. 308ff. Siehe dazu Kap. 2.5.4, S. 49. Vgl. Kohler (1991b), S. 328.
77 318) an den 11 im Folgenden referierten intonatorischen Realisierungen des gelesenen Satzes wie HEISST du exemplifiziert, für die ungesteuerten Alltagsgespräche des Vineta-Korpus bestimmt werden. Weil der Satz durch die Satzgliedstellung und das W-Wort syntaktisch als Frage kategorisiert ist, ist die Geltung der im Folgenden beschriebenen Zuordnungen auf Fragehandlungen beschränkt. 69 (a) « H+T* T- T% An 'early peak' [...] signals an order to give ein answer [...] ( b ) « H * T -
T%
Α 'medial peak' [...] is associated with a request for information, without consideration for the addressee [...] (c) « T*+H T- T% By comparison with a 'medial peak', a 'late peak' [...] contrasts the speaker's position and views with his environment, and signals 'talking down' [...] (da) (medial low fall-rise) « H* T- H% (db) C-TERMIN, -VALLEY, QUEST, -EARLY, -LATE> (medial high fall-rise) « H* H- H% The finality of the peak pattern is attenuated in by bringing in the addressee, inviting him to continue, although still asserting the speaker's authority, expressed by . < + / - Q U E S T > convey different degrees of consideration for the listener [...] (e) « (H+)T* H- H% An 'early low valley' [...] sounds matter of fact, casual, disinterested, with little involvement on the speaker's part and little consideration for the addressee, but brings him in nevertheless, and subordinates the speaker to the listener [...] (f) < - T E R M I N , VALLEY, -QUEST, EARLY, EMPH> « (H+)T* H- H% An 'early slowly rising high valley' [...] expresses more consideration for the addressee than (e) [...] ( g ) « T * T - H %
A 'late low valley' [...] signals little consideration for the addressee, as (e), but also the speaker's feeling and involvement [...] ( h ) R2 T * T - H %
A 'late slowly rising high valley' [...] expresses more consideration for the addressee than (g) [···] (i) C-TERMIN, VALLEY, QUEST, EARLY> (H+)T* H- H% A 'early fast rising high valley' [...] combines the consideration for the addressee of (f) with Ein insistance on wanting to know [...] ( j ) « T * T - H %
A 'late fast rising high valley' [...] adds the speaker's feeling and involvement to (i) [...] Im Vineta-Korpus treten die Konturen (a), (b), (da), (db), (f) und (i) auf. 70 Die Kontur (a) - H + T * T- T% - mit der Funktion 'order to give an answer' ist R223 zuschreibbar: R223 SK: v a s MEINST d u ;
—V
H+T*
T-T'/.
(225)187
Mit Kontur (a) wird die Handlungsaufforderung unterstrichen, während Kontur (b) 69 70
Vgl. Kohler (1991b), S. 311f. Kontur (c) kommt bei Fragehandlungen nicht vor. Die formale Differenzierung der Konturen (e), (f), (i) und (g), (h), (j) würde weitere phonetische Spezifikationen erfordern.
78
Η* Τ- Τ% - in Η466 den Informationswunsch - 'request for information' - hervorhebt. H466 NH: die hEIraten doch evanGElisch; H+T* H*T-T'/. (142)128 140 131
Die Interaktantin NH handelt in H466 allerdings nicht 'without consideration for the addressee'. H466 wird in einer Gesprächspassage geäußert, in der ein Teilnehmer den kirchenkritischen Gesprächspartnern von der am nächsten Tag stattfindenden Hochzeit seines Bruders erzählt. Die Situation ist hinsichtlich der Images 71 der Teilnehmer höchst sensibel. Obwohl die Kategorie 'consideration for the addressee' mit gesprächsanalytischen Mitteln nur schwer nachweisbar ist, liegt es in diesem Kontext nahe, NH 'consideration for the addressee' (Adressat ist der Teilnehmer, dessen Bruder heiratet) zuzuschreiben. Für K242 ist die Funktionszuschreibung 'without consideration for the addressee' angemessen. K242 BB: «Ann hast du es dich das lEtzte mal geÄrgert und vaRUM; -»· H* H+T* H+T»HH*T-T'/. 272 251 (233)192 250 213 189
K242 steht allerdings im standardisierten Kontext eines Interviews und nicht in einem ungesteuerten Alltagsgespräch. Die Kontur (da) - H* T- H% - ist im Vineta-Korpus selten (ggf. R440), Belege für die Kontur (db) - H* H- H% - sind häufiger (zum Beispiel H003, H037, R232.). Es ist aber kaum möglich, mit gesprächsanalytischen Mitteln den 'degree of consideration for the listener' festzustellen und damit die mit diesen Konturen korrelierenden Funktionsklassen zu differenzieren. Die frequenteste Kontur bei Fragehandlungen im Vineta-Korpus ist (H+)T* H- H% (zum Beispiel bei H001, H039, H478, R248/249, K106). Die Zuschreibung der Funktion 'consideration for the addressee', die für (f) und (i) postuliert wird, ist für R248/249 möglich, weil die Frage Fürsorge des Sprechers für die Adressatin ausdrückt. R248 JB: SYLvia, H+T*H-H'/. (125)111 172 möchtst du AU noch?
H+T* H-H'/. 128 2 0 0
Im selben Kontext richtet derselbe Sprecher die technische Frage R243 an dieselbe Adressatin, ohne damit Fürsorge auszudrücken. Dabei verwendet er die Kontur (b): R243 JB: was fürn was fürn proZES^sor hast du denn;
->
Η*
159
Τ-
Γ/.
101
Die Konturen (b) und (f)/(i) scheinen klar die Funktionsklassen 'consideration' und 'without consideration for the addressee' zu distinguieren. Die oben angeführte ebenfalls mit (b) realisierte Äußerung H466, in der durchaus Sorge (für das Image des Adressaten) mitschwingt, lässt diese klare Differenzierung aber wieder verschwinden. 71
Das Image ist das positive Selbstbild der Gesprächsteilnehmer, dessen Erhaltung für das Gelingen des Gesprächs notwendig ist. Zur Imagearbeit siehe S. 122.
79 Es zeigt sich, dass die experimentell ermittelten Form-Funktions-Zuordnungen bei den Äußerungen aus dem Vineta-Korpus zwar häufig, aber nicht ausnahmslos wiederzufinden sind. Offenbar können die im KIM vorgesehenen Zuordnungen im Gesprächskontext von anderen Faktoren überschrieben werden. Es wäre zu prüfen, welchen Grad an Verlässlichkeit die Vorhersagen des KIM für Gespräche haben und ob alle 11 beschriebenen Kopplungen mit demselben Grad an Verlässlichkeit durch das KIM vorhergesagt werden.
3.2.4
Konversationsanalytische Intonationsforschung
Margret Selting betreibt Intonationsforschung nach konversationsanalytischen Prinzipien.72 Folglich führt sie weder Perzeptionsexperimente mit Intonationskonturen unter Laborbedingungen durch (wie Altmann) noch arbeitet sie mit synthetisiertem oder resynthetisiertem Sprachmaterial (wie Kohler). Seltings Habilitationsschrift „Prosodie im Gespräch. Aspekte einer interaktionalen Phonologie der Konversation" (1995) ist die einzige der in Kap. 3 referierten Studien, die den Analysen authentische Alltagskonversation zugrundelegt. Die Schrift schließt sich eng an die englischen Arbeiten zur „Phonology for Conversation" an. 73 An Gesprächsaufnahmen untersucht Selting die Bedeutung prosodischer Merkmale für 1. die Konstruktion von Turnkonstruktionseinheiten und Turns, 2. die Organisation des Sprecherwechsels, 3. die Konstitution interaktiv relevanter Aktivitätstypen und 4. die Signalisierung kohäsiver Beziehungen zwischen Aktivitätsteilen und Aktivitäten sowie für die Herstellung von Interaktionsstilen. Im Rahmen der Kontextualisierungstheorie 74 wird Prosodie als Signalisierungssystem aufgefasst, das zusammen mit anderen Signalisierungssystemen Hinweise für die präferierte Interpretation der damit verbundenen konversationeilen Aktivität gibt. Analysemethode ist die Ohrenphonetik, zur Beschreibung werden recht grobe auditive Kategorien verwendet. Akustische Analysen werden nur selten zur Unterstützung der auditiven Analyse durchgeführt. 75 Die Rolle der Intonation bei der Lösung konversationeller Aufgaben (Konstruktion von Turnkonstruktionseinheiten und Turns, Sprecherwechsel, Signalisierung kohäsiver Beziehungen zwischen Aktivitäten) wird mit konversationsanalytischer Methodik ermittelt. Bei den Überlegungen zur Konstitution interaktiv relevanter Aktivitätstypen verlässt Selting die orthodoxe konversationsanalytische Linie. Aktivitätstypen sind immer auch inhaltlich bestimmt. 76 72
73 74 75 76
Vgl. z.B. Selting (1992, 1995, 1998a, 1998b), Gibbon und Selting (1983) und den von Couper-Kuhlen und Selting (1996) herausgegebenen Sammelband. Die vorliegende Untersuchung versteht sich selbst als Teil der konversationsanalytischen Intonationsforschung. Deshalb wird an dieser Stelle auf eine Explikation konversationsanalytischer Methodik verzichtet. Sie wird ausführlich in den entsprechenden Theoriekapiteln dieser Arbeit Kap. 4.1.3, 4.1.4, 4.1.5, 4.2.1 und 4.2.3 - erläutert und im Empiriekapitel 5 vorgeführt. Vgl. Local/Kelly/Wells (1986). Siehe unten, S. 123f. Zu den Beschreibungskategorien vgl. Selting (1995), S. 41ff. und Selting (1987c), passim. Selting (1995), S. 232ff. setzt sich in diesem Zusammenhang unter anderem mit dem Satzmoduskonzept bei Uhmann (1991) und Altmann et al. (1989) auseinander. Gibbon und Selting (1983), S. 54ff. erwägen in Anlehnung an v. Essen die Beschreibung von drei globalen Intonationskonturen: N-Kontur, Z-Kontur, SB-Kontur.
80 Auf die exhaustive Darstellung der Prosodie und Taxonomie konversationeller Fragen soll hier nicht eingegangen werden. 77 Viele Aspekte meiner Untersuchung sind direkt auf Seltings Ansatz bezogen. Deshalb wird der Ansatz nicht in diesem Kapitel sondern an den entsprechenden Stellen in den Kapiteln 4, 5 und 6 detailliert besprochen. 78
3.2.5 3.2.5.1
Autosegmentale Intonationsforschung Dieter Wunderlich
Wunderlich (1988) dekomponiert die phonetisch als F 0 -Verlauf gegebene Intonationskontur in eine Abfolge von hohen und tiefen Tönen. 7 9 Durch die Tonfolgen werden syntaktische Strukturen disambiguiert sowie Fokusstruktur und Satzmodus ausgedrückt. Pragmatische Funktionen wie Diskurssteuerung werden explizit aus der Betrachtung ausgeschlossen. 80 Durch akustische Analysen gelesener deutscher Sätze wird ein Inventar aus sechs tonalen Bausteinen gebildet, die unter Beachtung bestimmter Restriktionen zu längeren Tonsequenzen verbunden werden können: Η*, Η* Η L*, %H L*, L* H%, L* Η (H%), Η* H. 81 In diesem Inventar kommen neben Akzenttönen (>T*«) 8 2 und initialen ( » % T « ) bzw. finalen ( » T % « ) Grenztönen auch freischwebende Töne (floating tones) vor, „die mit allen Silben einer durch Grenze oder Akzentsilbe begrenzten Domäne zu assoziieren sind." 8 3 Die Funktionen der Töne hängen im Wesentlichen ebenso wie die Grenzen der Intonationsphrase, die von diesen Tönen gebildet wird, von der Fokusstruktur ab: „Die Intonationsphrasie ergibt sich durch Abbildung einer F-Struktur [Fokusstruktur, StR] auf eine prosodische Struktur (P-Struktur)." 8 4 Folglich formuliert Wunderlich die Regeln, nach denen Intonationsphrasen Tonsequenzen zugewiesen werden, in Abhängigkeit von den Regeln, die die Fokusstruktur der Sätze generieren. Die Regeln werden theoretisch entwickelt und mit kleineren Experimenten abgesichert. Das einzige „tonale Morphem" 8 5 des Deutschen ist der hohe finale Grenzton H%, welcher den Satzmodus Interrogativ 86 markiert.
77 78 79 80 81 82
83 84 85 86
Vgl. Selting (1995), S. 232-306. Vgl. unten, S. 126fT., 138f., 143, 169f. und 237ff. Vgl. Wunderlich (1988), S. 1. Vgl. Wunderlich (1988), S. 2f. Vgl. Wunderlich (1988), S. 11-13. » T « steht hier - und im Folgenden bei Fery (1993) und Grice (1995) - nicht für 'tief' sondern für 'Ton'. Wunderlich (1988), S. 13. Wunderlich (1988), S. 18. Wunderlich (1988), S. 10. Vgl. Wunderlich (1988), S. 6.
81
3.2.5.2
Susanne Uhmann
Uhmanns „Fokusphonologie" (1991) 87 stellt eine systematische Übertragung des Intonationsmodells von Pierrehumbert (1980) auf das Deutsche dar. Die theoretischen Überlegungen von Uhmanns Studie wurden in Kap. 2.3.2 bereits behandelt. Im empirischen Teil werden ein Toninventar und eine Intonationsgrammatik für das Deutsche entwickelt. Die Datenbasis bilden zwei Korpora aus Testsätzen, die über drei sequentielle Kontexte hinweg variiert werden: 1. in Frage/Antwort-Sequenzen, 2. in KorrekturSequenzen und 3. in Tripel-Sequenzen mit dem Format Frage/Antwort/Echofrage. 8 8 Explizit nimmt Uhmann auf das Münchner Projekt Bezug. 8 9 Als „Funktionstypen" erscheinen deshalb Satzmodi, und zwar Deklarativa, Echofragen, Typ I-Fragen (ohne W-Wort) und Typ Ii-Fragen (mit W-Wort). Die Testsätze werden akustisch analysiert. Anhand der Visualisierungen ihres Grundfrequenzverlaufs im Oszillomink-Ausdruck wird in Auseinandersetzung mit Pierrehumberts Vorschlägen ein Toninventar für das Deutsche entwickelt. Es sieht die Akzenttöne H * + T , T * + H , Τ * , H* und die Grenztöne H% und T% vor, aber keine Phrasentöne. Die wohlgeformte deutsche Intonationsphrase hat damit die in Abb. 3.1 dargestellte Form. 90 Hinsichtlich der Akzenttöne bestehen substantielle Unterschiede zum in Kap. 2.6.1 eingeführten Toninventar meiner Studie. 91 Lediglich die Definition von T * + H ist in beiden Inventaren identisch. Uhmann notiert einen auf der Akzentsilbe zunächst steigenden und dann fallenden F 0 -Verlauf mit > H * + T « , wogegen » H * « einen vom Beginn an über die gesamte Dauer der Akzentsilbe fallenden Grundfrequenzverlauf repräsentiert. » T * « steht für einen auf der Akzentsilbe fallend-steigenden F 0 -Verlauf. Uhmanns Notierung » H * + T « entspricht also meinem H*, » H * « bei Uhmann stimmt etwa mit H + T * überein. Uhmanns » T * « steht für eine Kontur, die nach meiner Auffassung mit komplexen Tonfolgen wie zum Beispiel T * H- ausgedrückt werden muss.
87
88 89 90
91
Vgl. außerdem Uhmann (1988). In jüngeren Arbeiten (Uhmann 1997a, 1997b) überschreitet Uhmann die Grenze zwischen autosegmentaler Phonologie und Konversationsanalyse und tritt für einen integrativen Ansatz ein. Vgl. dazu in dieser Arbeit S. 134ff. Vgl. Uhmann (1991), S. 99ff. Batliner (1989a, 1989b); Oppenrieder (1989b). Vgl. Uhmann (1991), S. 115-119. Uhmann (1991), S. 175. » G T « steht für 'Grenzton', » A T « für 'Akzentton'. Vgl. damit die wohlgeformte englische Intonationsphrase, Abb. 2.5, oben, S. 30. Vgl. im Folgenden Uhmann (1991), S. 158ff. Die Divergenz entsteht, weil Uhmann die Akzenttöne trotz ihrer phonetischen Illustration als funktional distinktive Einheiten auffasst.
82
In einer Tabelle92 werden die Tonfolgen zusammengestellt, die für die vier obengenannten Satzmodi konstitutiv sind: GT 0%
H% T%
Erster AT 0* T*+H T* H* H*+T T*+H H*+T 0* T*+H
Letzter AT
GT
H*+T
T%
Deklarativa Deklarativa 1. AT markiert T*+H
H%
H*+T H*+T T% T*+H
3.2.5.3
Funktionstyp
Echofragen Fragen I Fragen I letzter AT mark. Fragen II Fragen II letzter AT mark, (viel, auch best. Deklarativa)
Caroline Fery
Wie für Wunderlich (1988) ist auch für Fery (1993) die Fokus-Struktur (im Sinne von Jacobs Fokus-Hintergrund-Gliederung) entscheidend für die Plazierung der Akzenttöne. 93 Ein Akzentton konstituiert in den meisten Fällen eine Fokusdomäne.94 Semantischen Fokusdomänen entsprechen in der Regeln intonatorische Intermediärphrasen. Im Unterschied zu Wunderlich (1988) geht Fery nicht von einer l:l-Abbildung der Fokus-Hintergrund-Gliederung auf die phonologische Struktur (Akzenttöne und Fokusdomänen) aus, sondern schreibt pragmatischen, kulturellen, sozialen und idiosynkratischen Faktoren einen (nicht näher spezifizierten) regulierenden Einfluss zu.95 Eine Intonationsphrase besteht aus einer oder mehreren Intermediärphrasen. Fery folgt in dieser Hierarchisierung der Konzeption aus Beckman und Pierrehumbert (1986). Hinsichtlich des Toninventars nimmt sie einige substantielle Veränderungen 92
93 94 95
Uhmann (1991), S. 174. Diese Intonationsgrammatik hat vorläufigen Charakter. Die Wortfolge „viel, auch best." im Feld rechts unten heißt vermutlich „vielleicht auch bestimmte". Vgl. Fery (1993), S. 18f. Vgl. auch Fery (1994, 1988). Vgl. zum Begriff Fokusdomäne Fery (1993), S. 30. Vgl. Fery (1993), S. 20f. und S. 30. Ebensowenig wird die Art der Zuordnung von Fokusdomänen zu Intermediärphrasen präzisiert. Fery (1993), S. 49 schreibt, dass „the Focus Domain has no necessary independent tonal correlate in the form of boundary tones [...] It must be hypothesized that hearers rely on other factors than intonational ones to decide on the division of sentences into Focus Domains." Fehlende Präzision in der Begriffsbestimmung und -explikation machen die Lektüre von Ferys Studie schwierig.
83 am Modell von Pierrehumbert vor. Mit Ausnahme des fakultativen H% gibt es keine Grenztöne. Das Ende der Intonationsphrase wird nicht durch einen obligatorischen finalen Grenzton, sondern durch ein Bündel von interagierenden, weder hinreichenden noch notwendigen Merkmalen bestimmt. 9 6 Die Grenzen der Intermediärphrasen werden durch den Trail Tone des bitonalen Akzents markiert. 9 7 Das bedeutet, dass es keine einfachen Akzenttöne gibt. Damit hat die deutsche Intonationsphrase folgende Form: 98
[[...T* T]iP [...T* T]ip
(T%)],p
Das Akzenttoninventar besteht aus zwei Klassen. Nukleare Akzente können bi- und tritonal sein. Als pränukleare Akzente werden die bitonalen Akzente H* L und L* Η verwendet, die unter bestimmten Bedingungen zu den monotonalen Akzenten H* und L* reduziert werden können. 99 Weil Grenztöne (fast) nicht vorkommen, sind nukleare Akzenttontypen gleichzeitig Konturtypen. Fery unterscheidet also nukleare und pränukleare Töne, gibt aber die systematische Unterscheidung von Akzent- und Grenztönen auf. Damit entfernt sie sich vom ursprünglichen Pierrehumbert-Modell und nähert sich den Auffassungen der Britischen Schule. 100 Fery (1993, S. 82-96) unterscheidet vier Grundtypen und zwei Sondertypen. Die Grundtypen und die ihnen zugeordneten Funktionen lauten: - H* L: „used in most declaratives and in some questions" - L* Η: „used in questions and progredient intonation" - H* L H%: 1. „question", 2. „the other context is a marked one, questioning (or menacing) and typically used by or for addressing children" - L* Η L: „meaning like 'of course' (or can also be slightly menacing)" Die Sondertypen sind: 101 - Η* L Η und Η* Μ: stylized contour für Vokative - Η Η* L, early peak: „typical of television reporters" Vokative werden in vielen Intonationsstudien als Sonderfälle behandelt, 1 0 2 Fery (1993, S. 98ff.) behandelt die Vokative als eigenen Form-Funktionsklasse. Diese Einschätzung wird von meinen Analysen nicht gestützt. Die adressierende Verwendung von Eigennamen wird im Vineta-Korpus von den verschiedensten Intonationskonturen im Zusammenspiel mit den anderen Signalisierungssystemen unterstützt: H* T- T% bei K032, H + T * T- T% bei K143, H* H- H% bei K057, T* H- H% bei K045 und K054, H + T * H- H% bei R248. Die Intonation bei Eigennamen könnte mit der bei Diskurspartikeln vergleichbar sein, weil Eigennamen keinen über die Referenzsicherung hinausge96
Vgl. Fery (1993), S. 60. Zum Problem der Einheitengrenzen vgl. auch die Ausführungen in Kap. 2.3.1, S. 16f. 97 Vgl. Fery (1993), S. 77. 98 Darstellung nach Fery (1993), S. 78. » T « steht für 'Ton', » I P « für 'Intonationsphrase', » i p « für 'Intermediärphrase' und die Klammerung » ( ) « für Fakultativität. 99 Vgl. Fery (1993), S. 116-128. 100 Vgl. Fery (1993), S. 81ff. 101 Vgl. Fery (1993), S. 96-106. 102 Vgl. z.B. Ladd (1996), S. 136-139; Avesani (1995), S. 96f.; Cruttenden ( 2 1997), S. 119.
84 henden lexikalischen Gehalt haben. 103 Gegen die Einordnung als eigene Formklasse spricht, dass kein Kriterium erkennbar ist, mit dem die (Vokativ-)Kontur Η* Μ von der (Deklarativ-)Kontur H* L unterschieden werden könnte. Was den Sondertyp Η H* L als 'early peak' formal von H* L unterscheidet, wird nicht klar. Für H* L (also H + T * T- T % in meinem Beschreibungssystem) gibt es im Vineta-Korpus unzählige Beispiele. Diese Kontur ist die Standardrealisierung für Deklarativsätze mit weitem Fokus. Eine eigene Form-Funktionsklasse für Η H* L als typische Fernsehreporter-Kontur lässt sich mit dem Vineta-Korpus weder begründen noch widerlegen. Die Form-Funktions-Zuordnungen der Grundtypen sind Erweiterungen der traditionellen Zuordnungen v. Essens (1956). Ferys Zuordnungen tragen dem Umstand Rechnung, dass Fragen ohne das interrogative Intonationsmuster geäußert werden können, wenn durch andere Signalisierungssysteme hinreichend klar wird, dass mit der entsprechenden Äußerung eine Fragehandlung ausgeführt wird. 104 Die Kontur L * Η L drückt auch in der konversationeilen Interaktion des VinetaKorpus' die von Fery beschriebene Funktion „meaning like 'of course' (or can also be slightly menacing)" aus. Ein anschauliches Beispiel ist K113: 1 0 5 K113 BB: nEE JETZ; -> H*T- Τ*+ΗΤ-Π 346 238 238 417 218
3.2.6
Zwischenbilanz
Die Ergebnisse der referierten Studien bestehen in der Beschreibung von Intonationsmustern mit stabilen grammatischen, diskurssemantischen oder einstellungsbezogenen Funktionen. Den Intonationsmustern wird ein über das Phonologische - Distinktion von Bedeutungen - hinausgehender quasi-morphologischer Status zugeschrieben: Die Intonationsmuster sind die Träger der Bedeutungen (intonatorische bzw. tonale „Morpheme"). Damit ist die Funktion gegebener Formen vorhersagbar, und die Validität der Form-Funktions-Zuordnungen kann am Eintreten der Vorhersagen bewertet werden. In der Uberprüfung der Vorhersagen am Vineta-Korpus zeigt sich, dass die Vorhersagen der Zuordnungen, die in Experimenten mit gelesenen Sätzen oder durch Introspektion ermittelt wurden, für konversationeile Äußerungen nur bedingt verlässlich sind. Es ist jetzt zwar keine neue Erkenntnis, dass es in konversationeller Interaktion keine eineindeutigen Zuordnungen zwischen Tönen bzw. Intonationsmustern und grammatischen oder diskurssemantischen Funktionen gibt. Es ist noch keine grammatische oder sonstige Regel formuliert worden, gegen deren Geltung in 1 0 3 Zur
Intonation bei Diskurspartikeln vgl. Bandt et al. (2001), Kehrein/Rabanus (2001), Schmidt (2001). 1 0 4 Vgl. die Beispiele auf S. 77f. 1 0 5 W i e schon mehrfach ausgeführt sind derart approximativ bestimmte psychologische Kategorien mit gesprächsanalytischen Mitteln selten sicher zuschreibbar. Versehen mit diesem Unsicherheitsfaktor sind hier auch H 1 5 4 / 1 5 8 (siehe S. 147ff.), R223 (S. 205ff.) und K 1 8 8 / 2 0 1 (S. 218ff.) zu nennen.
85 der Gesprächsanalyse kein Beleg gefunden worden wäre. Weil aber auch das Verhalten in Gesprächen nicht willkürlich, sondern wohlorganisiert erfolgt (wie in Kap. 4.2 ausgeführt wird), müssen aus den von den Vorhersagen abweichenden Zuordnungen Konsequenzen für die Modellierung der Intonation im Gespräch gezogen werden. Das kann auf zwei Arten erfolgen. Auf der einen Seite können die referierten Ansätze weiterentwickelt und die Form- und die Funktionsbeschreibungen so verbessert werden, dass „Bausteine der Intonation" 106 identifiziert werden, deren Verwendung in experimentellen Settings und in der Gesprächsanalyse gleichermaßen nachgewiesen werden kann. Spezifische grammatische Funktionen wie z.B. 'Entscheidungsfragesatz' werden in solchen Beschreibungen durch allgemeinere handlungslogische Kategorien wie z.B. 'Reaktionsaufforderung' ersetzt. 107 Die Forschung steht bezüglich neuer Form- und Funktionstypen zwar noch noch am Anfang. Weil für diese Art Intonationsforschung aber eine voll entwickelte strukturalistische Methodik existiert, sind in den nächsten Jahren deutliche Fortschritte zu erwarten. In dieser Studie wird ein anderer, bislang zu wenig beachteter Aspekt der Intonation in den Blick genommen: Intonationskonturen werden nicht als isolierte Einheiten, sondern in konversationsanalytischer Sicht als Produkte des Gesprächsprozesses untersucht. Die Abweichungen von den experimentell ermittelten Zuordnungen werden erklärbar, wenn man Intonationskonturen als Ressource versteht, die die Gesprächsteilnehmer für den Ausdruck ihrer jeweiligen Handlungsziele bearbeiten/optimieren. Dazu bedienen sie sich geregelter intonatorischer Verfahren (siehe Kap. 4.3), die die experimentell ermittelten Zuordnungen „überschreiben" können.
3.3
Untersuchungen der Intonation des Italienischen
Die Studien zur Intonation im Italienischen 108 lassen sich den beiden dominierenden Forschungsrichtungen zuordnen: diejenigen von Avesani und Grice der autosegmentalen Phonologie (Kap. 3.3.2), diejenigen von Lepschy, Canepari und De Dominicis der Britischen Schule (Kap. 3.3.1). Wie in Kap. 3.2 werden auch hier lediglich wichtige Exponenten vorgestellt, Anspruch auf Vollständigkeit wird nicht erhoben. Der Konversationsanalyse wurde in Italien wenig Beachtung geschenkt, konversationsanalytische Intonationsforschung ist bis heute ein Desiderat. 109 Die Intonation ungesteuerter Alltagsgespräche wird nicht untersucht. De Dominicis analysiert im Labor inszenierte Einzelsätze, Grice und Avesani stützen sich auf in formalen Settings elizitierte und resynthetisierte Äußerungen. Lepschy und Canepari beziehen ihre Daten aus der Introspektion.
106
Vgl. Schmidt (2001). Vgl. z.B. das Funktionsmodell in Kehrein/Rabanus (2001). 108 Vgl. auch die Übersichtsdarstellung von Bertinetto und Magno Caldognetto (1993). 109 Vgl. das Plädoyer dafür von Grimaldi (1995), S. 118. Vereinzelte konversationsanalytische Untersuchungen finden sich in der innovativen italienischen Dialektologie, vgl. z.B. Sobrero (1995). 107
86 3.3.1 3.3.1.1
Britische Schule Giulio Lepschy
Das Intonationsmodell von Giulio Lepschy (1978a, 1978b) ist das Fundament der neueren italienischen Intonationsforschung. Lepschy überträgt die Überlegungen von Halliday (1967) auf das Italienische und steht damit in der Tradition der Britischen Schule. Die Intonationsanalyse folgt drei Prinzipien: 1. tonalitä: Sätze sind in Intonationsphrasen gegliedert. 2. tonicita: Der (intonatorische) Nukleus fällt mit dem (semantischen) Fokus zusammen. 3. toni: Die funktional relevante Tonhöhenbewegung findet auf der Nukleussilbe statt und lässt sich jeweils einem von fünf Tontypen zuordnen. Die fünf Töne des Italienischen lassen sich in Analogie zu denjenigen des Englischen folgendermaßen beschreiben und mit semantischen Charakterisierungen versehen: (1) discendente [fallend, StR]: esprime certezza; viene usato per le frasi dichiarative; anche per le interrogative che contengono termini interrogativi (chi, quale, quando, ecc.) e per certe interrogative retoriche. (2) ascendente [steigend, StR]: esprime incertezza; viene usato per le interrogative che richiedono come risposta un si ο un no; puö anche indicare sospensione. (3) costante, ο costante ascendente [gleichbleibend, StR]: esprime informazione incompleta; viene usato per indicare sospensione; nelle enumerazioni; e puö comunicare un senso di esitazione, incertezza, ecc. (4) discendente-ascendente [fallend-steigend, StR]: esprime un dubbio relativo a un'affermazione; viene usato nelle domande a eco, ο in domande che esprimono sorpresa; puö indicare enfaticamente la sospensione, come mettendo in dubbio una presupposta affermazione precedente, e puö mutare una interrogativa di tipo si-o-no in una che si apre a risposte piü varie. (5) ascendente-discendente [steigend-fallend; StR]: esprime un'affermazione energica, insistita; viene usato per contraddire ο correggere affermazioni precedenti (formulate ο presupposte); puö avere valore concessivo, indicando che ci sono delle riserve ο delle implicazioni. 110 Diese Töne sind diskrete Einheiten („scelte discrete") im italienischen Sprachsystem und damit zu unterscheiden von nicht-diskreten Variationen des Tonhöhenverlaufs, die bestimmte Einstellungsbekundungen, die geographische Herkunft oder den Idiolekt des Sprechers ausdrücken. 1 1 1 Lepschy ermittelt das Toninventar nicht durch detaillierte akustische oder auditive Analysen und sichert die Diskretheit auch nicht statistisch ab: Er leitet alle Beobachtungen aus seiner eigenen linguistischen Intuition ab. 1 1 2 Lepschy variiert auf dem 110
Lepschy (1978b), S. 133 V g l . Lepschy (1978b), S. 134ff. 112 Lepschy (1978b), S. 136 führt dazu aus: „II sistema discusso qui e basato sulla mia intuizione linguistica s su giudizi uditivi, e non su un'analisi strumentale. [...] E, con i toni, non si t r a t t a neppure di grandezze uditive ma dell'intuizione linguistica riguaido a tali grandezze." Lepschy vertritt die Berufung auf die Introspektion viel offensiver als v. Essen m
87 Papier die Form von Einzelsätzen und beurteilt anschließend selbst die damit verbundenen Funktionsänderungen. 113 Dabei erweisen sich die Systeme Tonicitä, Toni und Serialisierung als Mittel zum Ausdruck der Thema-Rhema-Gliederung des Satzes: L'elemento tonico e la parte della fräse che comunica qualcosa di NUOVO, il punto focale dell'informazione; il resto e DATO, ο ΝΟΤΟ, cioe introdotto da ciö che e giä stato detto prima, nel discorso, ο dalla situazione (dal contesto linguistico, ο da quello extralinguistico). L'ordine non marcato e D A T O + N U O V O . 1 1 4
Die Form-Funktions-Zuordnungen müssen in Bezug auf konversationelle Interaktion relativiert werden. Das fallende Intonationsmuster ist nicht auf Deklarativsätze und rhetorische oder W-Fragen beschränkt, sondern wird auch bei syntaktisch unmarkierten, durch kontextuelle Faktoren als Fragehandlungen gekennzeichneten Entscheidungsfragen verwendet wie in F095: F095 RH: invEce da VOi [c'£; -f H* H*T- H*T-T7. 233 303 223 dagegen bei euch ja GP: [Sl [sl; H* T*T-T'/. ja ja
Steigende Intonation drückt nicht nur Unsicherheit aus: Sie kann auch bei völliger Gewissheit des in Rede stehenden Sachverhalts Aufmerksamkeit einfordern (P008), die Geltung von Propositionen unterstreichen (F243, S. 212) oder einzelne Argumente betonen, wie bei A100 TE: P008 ME: a m E proprio mi cade in un moMENto, -> H* H*H-H"/, bei mir fällt das jetzt grade in eine Zeit (1.4) RR: perCHfi? T"/. H»H-H'/, 196 296 A100 IC: che magAri se rimane inclnta anche da qualcun Altro danno la colpa (a) TE, H*TH+T*HH*HH*H-H'/. 143 115 119 150 128 122 169 denn auch wenn sie von einem anderen schwanger wird geben sie dir die Schuld
Zum Weiterverweis in Aufzählungen wird nicht nur gleichbleibende Intonation verwendet, sondern auch fallende, zum Beispiel in dem mit fallender Tonhöhe „vokalisierten Doppelpunkt" in F220: oder Pheby, die ebenfalls introspektiv Sprachdaten erheben. Dagegen möchte ich an die Kritik Labovs (1976), S. 270-303 erinnern: Gerade Sprachwissenschaftler können sich nicht auf ihre Intuition verlassen, weil sie berufsbedingt eine Außenseiterrolle in der Sprachgemeinschaft haben und im Extremfall die umgangssprachliche Gebrauchsnorm zugunsten einer in theoretischer Sprachreflexion wurzelnden Privatnorm verlieren. 1 1 3 Vgl. Lepschy (1987b), S. 137f. 1 1 4 Lepschy (1978b), S. 138f.
88 F220 HM: [secondo mE l a gEnte s i b U t t a s u l l ' i n g l E : : s e perCHfi. H*T- H+T* T* HH+T»T-T'/, 229 201 189 139 meiner Meinung nach stürzen sich die Leute aufs Englische GP: [hmSi-si; H* T*T-T7. 118 93 RH: c o m m e r c i A : : l e s c i e n t l f i c o TUTto; H*TH*TH*T-T'/, 192 178 232 172 227 169 wirtschaftlich wissenschaftlich alles
weil
Steigend-fallende Muster werden nicht nur für energische Widersprüche verwendet. In A214 drückt IC expressiv aus, dass ihm der erzählte Vorgang bereits bekannt ist, ohne damit in inhaltiche Opposition zur Erzählerin RM zu geraten: A214 IC: [e s i me l ' h a DETto « p > l a LAra;> -• Η* H* TH*T-T"/, 112 86 ja, das hat sie mir gesagt die Lara
Energische Widersprüche können dagegen eine einfache, fallende Intonation haben (P063/070, S. 231). Überraschung wird auch durch fallende Intonation signalisiert (besipielsweise bei F153), nicht nur durch fallend-steigende.
3.3.1.2
Luciano Canepari
Auch die Arbeiten Luciano Caneparis115 stehen in der Tradition der Britischen Schule. Canepari (1985, S. 18f. u. 49) konzeptualisiert Intonation als direkten Ausdruck logisch-semantischer Grundstrukturen, worunter er die Kategorien asserti ('Feststellungen'), domande ('Fragen'), composizione testuale ('Diskursstrukturierung'), enfasi ('Emphase'), attenuazione ('Abschwächung'), cortesie ('Höflichkeit'), segnali ('Signale') und parentesi ('Einschübe') versteht, also eine äußerst inhomogene Menge. Konsequenz von Caneparis psychologisch orientierter Grundhaltung116 ist der Anspruch des Modells auf universale Gültigkeit.117 Canepari erklärt den Nachweis des Ausdrucks logisch-semantischer Grundstrukturen durch die Intonationskontur zur Aufgabe der Intonationsforschung. Zur Deskription der Kontur entwickelt Canepari eine intonatorische Partitur mit der in Abb. 3.2 dargestellten Form. 118 Die Äußerungseinheit wird in Segmente zerlegt, diese Segmente werden den durch vertikale Linien getrennten Feldern zugeordnet. Die intonia (Intonationseinheit) wird durch zwei Pausen begrenzt. Die tonia (Nukleuseinheit) gruppiert sich um die tönica (Nukleussilbe) herum, dem einzigen obligatorischen Baustein der intonia. Die beiden postöniche (Tail) und die 1 1 5 Vor
allem Canepari (1985); zusammenfassend auch Canepari (1988), zur Methode Canepari (1990), zu den unterschiedlichen Varietäten des Italienischen Canepari (1980). 1 1 6 Ausdruck dieser Grundhaltung ist die Orientierung am Reiz-Reaktions-Schema für die Verwandlung der Perzeption/impressione in den sprachlichen Ausdruck/espressjone, vgl. Canepari (1985), S. 20. 1 1 7 Vgl. Canepari (1985), S. 18f. 1 1 8 Canepari (1985), S. 37.
89
a-b
c/f
d-e
d-e
1 intonla 2 protonia 3 tonla
a-b c d-e f g
C-D
g-f
antetöniche prima protönica intertöniche protöniche ultima protönica
Α Β C D
pretönica tönica postönica interna postönica terminale
Abb. 3.2: Die intonia im Italienischen gesamte protonia (Head, Prehead) sind fakultativ. 119 Die horizontalen Linien dienen als Notenlinien zur Notierung der jeweiligen Tonhöhe. Die Tonhöhe wird in den drei Stufen 'hoch', 'mittel' und 'tief' notiert. Der Tonhöhenverlauf in der Tonia drückt universale intonatorische Grundfunktionen aus, und zwar conclusione ('Abschluss'), sospensione ('Weiterverweis') und interrogazione ('Frage'). Mit der tonia divisiva besteht die Möglichkeit, eine Art „Atempause" ohne besonderen kommunikativen Ausdruck einzulegen. Col tipo conclusive, /./, il parlante comunica che ha terminato un enunciato, completo in se dal punto di vista semantico, sia per quanto riguarda la struttura morfo-sintattica, magari implicitamente, cioe anche se manca qualche elemento lessicale e/o grammaticale, che e implicato, presupposto ο nominato precedentemente. [...] Invece, il tipo sospensivo, /,/, comunica l'esatto opposto di quello conclusivo. Infatti, (pre)avverte l'ascoltatore che seguirä qualcosa d'importante che merita particolare attenzione [...] Iniine, la tonia di tipo interrogativo, /?/, e - se vogliamo - una specie di combinazione dei due tipi precedent!. Infatti, comunica che il parlante ha concluso, almeno per il momento, e che aspetta dall'ascoltatore una risposta. Questa puö essere semplicemente « S i » , «No», «Forse>, « m a » , «Boh>, dopo che il primo interlocutore puö continuare, avendo avuto l'informazione desiderata (anche «Boh!» e informativo, in quanto non e ne « S i » ne «No»); oppure l'ascoltatore, data ο no la risposta precedente, puö continuare espandendo la sua esposizione, ο ponendo a sua volta una domanda. [...] La tonia non-marcata si definisce divisiva, /•/, perche serve prevalentemente per respirare mentre si parla e/o per suddividere il discorso in gruppi fono-sintattici, senza perö aggiungere sfumature semantiche particolari [.. ] 1 2 0
119 Die
pretönica bleibt unklar. (1985), S. 46f.
120 Canepari
90
~
/. /
I I
·
I
Ι~Π
/, / I I
I I
/ ? /
/•/I Abb. 3.3: Die tonie des Italienischen
Dieses längere Zitat zeigt, dass die Funktionen zwar grundsätzlich mit denjenigen von Lepschy (1978b) oder v. Essen (1956) übereinstimmen, aber differenzierter - weil nicht auf Satzmodi oder Satztypen beschränkt - dargestellt werden. Das System wird außerdem durch die Einführung der tonia divisiva erweitert, die im Unterschied zu den anderen Tonie als „nicht-markiert" bezeichnet wird und alle anderen Tonie dann ersetzt, wenn deren Funktionen nicht voll ausgedrückt werden sollen. Die Form der Tonie stellt sich in der intonatorischen P a r t i t u r wie in Abb. 3.3 dar. 1 2 1 Caneparis Ansatz entwickelt die (italienische) Intonationsforschung weiter, indem er die strikte Grammatikbezogenheit überwindet und auf die Bedeutung der Intonation für den Ausdruck von Kategorien der konversationeilen Interaktion vorausweist. Außerdem berücksichtigt er die diatopische Variation. 1 2 2 Die Ausarbeitung leidet jedoch an der starken Heterogenität der Kategorien und den teilweise fragwürdigen Zuordnungen innerhalb von Subklassen. So klassifiziert Canepari zum Beispiel Imperative als besondere Form des Grundtyps Assertion, während eingebettete Zitate (citazioni) als eigener Grundtyp gelten. 1 2 3 Eine lange Liste von allen möglichen körperlichen und geistigen Zuständen, Situationen und sozialen Rollen 1 2 4 verstößt gegen sämtliche Regeln für die Erstellung von Klassifikationen. Die Zuordnung von Intonationskonturen (spezifiziert durch eine der dargestellten Tonie, fakultative andere Komponenten der Intonia und verschiedenen als „paralinguistisch" bezeichnete Merkmale 1 2 5 ) führt folglich zwar zu interessanten Beobachtungen, lässt aber nicht erkennen, wo und wie die Intonation systematisch Verhaltenskategorien ausdrückt. Voghera (1992) versucht eine Synthese der Arbeiten der 70er und 80er Jahre zur Intonation im Italienischen. 1 2 6 Sie kommt dabei zu dem Ergebnis, dass bis 1992 ausschließlich die Intonation isolierter Sätze untersucht wurde. Bei Vogheras eigener Un121
Canepari (1985), S. 49. Vgl. Canepari (1985), S. 40, 54, 58, 60. Zur theoretischen Begründung vgl. Canepari (1980). 123 Vgl. Canepari (1985), S. 63 u. 73. 124 Vgl. Canepari (1985), S. 92-104. 125 Canepari (1985), S. 91 nennt hier unter anderem globale Tonhöhenbewegungen, Rhythmus, Dauer, Pausen und Flüssigkeit der Rede. 12e Einschließlich der auf die Intonation bezogenen Kapitel der Arbeiten von Muljacic (1972), Chapallaz (1979) und Sornicola (1981). Vgl. Voghera (1992), S. 87-120. 122
91 tersuchungen zeigt sich aber, dass für die Konstitution der Intonationseinheit (gruppo tonale oder sintagma intonativo) in gebundener Rede die Pausen nicht die Bedeutung haben, die Canepari (1985) annimmt. Das System von Lepschy (1978b) mit fünf funktional relevanten Tonhöhenbewegungen erweist sich für die Analyse der Intonation in gebundener Rede als unzureichend, weil zwei Bewegungen ('discendente', 'costante ascendente') 80 % aller Belege ausmachen, die Bedeutungen der zahlreichen Varianten (allotoni) dieser Bewegungen aber noch völlig ungeklärt sind. Voghera sieht also trotz ihrer eigenen Untersuchung, die sich auf die Analyse globaler auditiver Merkmale beschränkt, in der Klärung von Form - aus artikulatorischen, akustischen und auditiven Merkmalen - und Funktion der Intonation ein bleibendes Desiderat für die Forschung.
3.3.1.3
Amedeo De Dominicis
Die Studie „Intonazione e contesto" von Amedeo De Dominicis (1992) knüpft an die These von Canepari (1985) an, dass die Intonation logisch-semantische Grundstrukturen ausdrückt. Während Caneparis Kategorien, wie dargestellt, eine heterogene Menge bzw. offene Liste bilden, entwickelt De Dominicis eine systematische Klassifikation von modalen Kategorien, mit denen der Ausdruck von Einstellungen (attitudini) in bestimmten kommunikativen Situationen repräsentiert wird. 1 2 7 Mit einem formallogischen Inventar aus dem Negationsoperator ( » - « ) , fünf Modaloperatoren - credere ('glauben', » c « ) , dovere ('müssen', » d « ) , volere ('wollen', » v « ) , potere ('können', » p « ) , sapere ('wissen', > s « ) - , dem Operator fare ('machen', > f « ) , den Argumenten 'Sprecher'/'Hörer' ( » S « , » H « ) und der Variablen » A c t « werden sieben Einstellungstypen hinsichtlich ihrer modalen Struktur beschrieben: richiesta ('Forderung'), provocazione ('Provokation'), ordine ('Befehl'), concessione di facoltativitä ('Einräumen von Entscheidungsfreiheit'), informazione ('Information'), valutazione ('Bewertung') und rivelazione ('Enthüllung'). 1 2 8 Zum Beispiel wird der T y p richiesta mit fünf logischen Sätzen beschrieben: 1 2 9 1. Sc HpfAct, verbalisiert: 'der Sprecher glaubt, dass der Hörer die Handlung ausführen kann' 2. ScSv HfAct, verbalisiert: 'der Sprecher glaubt, dass der Sprecher will, dass der Hörer die Handlung ausführt' 3. HcSv SvHfAct, verbalisiert: 'der Hörer glaubt, dass der Sprecher glaubt, dass der Sprecher will, dass der Hörer die Handlung ausführt' 4. HcSc HpfAct, verbalisiert: 'der Hörer glaubt, dass der Sprecher glaubt, dass der Hörer die Handlung ausführen kann' 127
Bertinetto und Magno Caldognetto (1993), S. 159-167 rechnen diesen Ansatz zur Erforschung der „paralinguistischen" Funktionen der Intonation. Vgl. dazu auch Magno Caldognetto/Ferrero (1996) und Kori/Magno Caldognetto (1990). 128 Vgl. De Dominicis (1992), S. 24f. u. 28-32. Als zusätzliche Kategorie wird domanda si/no ('Entscheidungsfrage') genannt. Sie taucht im Ergebnisüberblick bei De Domincis (1992), S. 123 und in der Anwendung des Modells in der kontrastiven Analyse bei De Dominicis (1995), S. 382 (siehe S. 101) aber nicht mehr auf. 129 Nach De Dominicis (1992), S. 29.
92 5. He HvfAct, verbalisiert: 'der Hörer glaubt, dass der Hörer die Handlung ausführen will' Der Typ provoeazione unterscheidet sich davon nur durch die Negation des Operators ρ (potere, 'können'), also in den Sätzen 1 und 4: 1. Sc H-pfAct, verbalisiert: 'der Sprecher glaubt, dass der Hörer die Handlung nicht ausführen kann' 4. HcSc H-pfAct, verbalisiert: 'der Hörer glaubt, dass der Sprecher glaubt, dass der Hörer die nicht Handlung ausführen kann' Die Beschreibung der Intonationskonturen erfolgt in einem Modell, das eine Verknüpfung der beiden vorstehend referierten Konzepte darstellt. 1 3 0 Von Canepari entlehnt er das Modell zur Dekomposition der Intonationsphrase in Tonia und Protonia. 1 3 1 Hinsichtlich der funktional relevanten Tonhöhenbewegungen orientiert sich De Dominicis an Lepschy. Er schließt allerdings nicht direkt an die Konzeptualisierung von Lepschy (1978b) an, die die Bewegungen funktional in Abhängigkeit vom Modaloperator credere ('glauben') bestimmt, sondern an eine jüngere Ausarbeitung des Modells von Halliday (1985), in dem nach sapere ('wissen') funktional klassifiziert wird. 1 3 2 Während bei Lepschy, wie oben ausgeführt, deshalb die Funktionskategorien zwischen den Polen certezza ('Sicherheit') und incertezza ('Unsicherheit') liegen, befinden sie sich bei Halliday zwischen noto ('bekannt') und ignoto ('unbekannt'). Die oben aufgeführten Einstellungstypen bzw. ihre durch Modaloperatoren differenzierte Struktur sind die Punktionskategorien („unitä del piano del contenuto"), für deren Ausdruck die Intonation („unitä del piano dell'espressione") verantwortlich gemacht wird. Die Studie untersucht also den Zusammenhang von Intonation und modaler Struktur: [...] l'impianto generale di questa indagine e volto a rendere possibile delle prove di commutazione tra unitä del piano dell'espressione (che chiamiamo genericamente tratti di intonazione) e unitä del piano del contenuto. Queste ultime, perö, non sono ovviamente costituite dagli atti comunicativi in se ("richiesta", "provoeazione", ecc.), ma dalle strutture modali che sono componenti della loro definizione. Di conseguenza, possiamo affermare che cercheremo di individuare i correlati intonativi di particolari strutture modali, manifestabili in piü atti comunicativi. 133
Die Kommutationsprobe, von der im Zitat die Rede ist, besteht darin, dass den Testsätzen Mangia la pasta und Sposa Giancarlo Intonationskonturen zugeordnet werden. In Korpus 1 werden die Testsätze von einem Schauspieler entsprechend der sieben oben aufgeführten Sprechakttypen gelesen. 134 Durch Perzeptionsexperimente wird sichergestellt, dass die vom Schauspieler intendierten Einstellungen auch erkennbar 130
De Dominicis (1992), S. 35ff. grenzt sich ausdrücklich von allen Modellen der generativen Grammatik ab, deren Grundmodell die von ihm intendierte Erforschung des Zusammenhangs von Semantik und Intonation nicht zulasse. 131 De Dominicis (1992), S. 61-64. 132 Vgl. De Dominicis (1992), S. 59. 133 De Dominicis (1992), S. 13f. 134 Vgl. De Dominicis (1992), S. 73f. Die Realisierung der jeweiligen Einstellung wurde von einem imaginierten Kontext, einer „sceneggiatura" gesteuert, vgl. De Dominicis (1992), S. 32f. und S. 99f.
93 Ma VIEne d'inVERno?
Abb. 3.4: Intonationsverlauf auf Μα VIEne
d'inVERno?
sind. Korpus 2 enthält zusätzlich zu den acht (resynthetisierten) Sätzen aus Korpus 1 19 weitere Sätze, deren Konturen künstlich verändert bzw. aus Teilen der ersten acht Sätzen neu zusammengesetzt wurden. 135 Mit Perzeptionsexperimenten wird festgestellt, welcher Konturabschnitt für das Erkennen des Einstellungstyps verantwortlich ist und bei welchen Konfigurationen welche Typen erkannt werden. Die Ergebnisse 136 zeigen die zentrale Bedeutung der Tonica (Nukleussilbe) für die Signalisierung des Einstellungstyps. Der Modaloperator ρ korreliert mit einem gleichbleibend-flachen („tono piatto"), — ρ mit einem fallenden Verlauf („tono discendente") auf der Tonica. Der Operator s ist mit einem mittleren („MEDIO"), — s mit einem tiefen Register („BASSO") gekoppelt.
3.3.2 3.3.2.1
Autosegmentale Intonationsforschung Martine Grice
Die Studie „The Intonation of Interrogation in Palermo Italian. Implications for Intonation Theory" von Martine Grice (1995) hat primär wissenschaftstheoretische und nur sekundär deskriptive Ausrichtung. Das Phänomen - Intonation als Interrogationsmarker in der regionalsprachlichen Varietät von Palermo - dient Grice zum Nachweis dafür, dass das autosegmentale Intonationsmodell den Intonationsmodellen der Britischen Schule überlegen ist. Bei Entscheidungsfragen im Palermitanischen fällt auf, dass die letzte Tonhöhenbewegung in 70 % der Fragen fallend ist. 137 Dieser Befund steht scheinbar im Gegensatz zu den Verhältnissen im italienischen Standard: Weil Entscheidungsfragen morphosyntaktisch mit Aussagesätzen identisch sein können, wird die Frage intonatorisch durch eine steigende letzte Tonhöhenbewegung markiert. Mit den Intonationsmodellen der Britischen Schule lässt sich zwar zeigen, dass auch im Palermitanischen die Interrogation mit einer steigenden Tonhöhenbewegung markiert wird. Diese Bewegung findet allerdings nicht am Ende der Intonationsphrase statt, sondern zwischen Head und Nukleuseinheit, wie das Beispiel in Abb. 3.4 138 zeigt. Die fallende Tonhöhenbewegung nach der Nukleussilbe VER ist kein Interrogationsmarker, sondern ein Grenzsignal. Warum dieses Grenzsignal aber bei manchen Fragen phonetisch stark ausgeprägt und 135
De Dominicis (1992), S. 96ff. Vgl. De Dominicis (1992), S. 123f. 137 Vgl. Grice (1995), S. 26. 138 Graphik nach Grice (1995), S. 27. Die gestrichelte vertikale Linie trennt Head und Nukleuseinheit. Diese Art der Punktdarstellung verwendet schon Klinghardt (1923). 136
94
Abb. 3.5: Die prosodische Ebene im palermitanischen Italienisch bei anderen überhaupt nicht nachweisbar ist, können die Modelle der Britischen Schule nicht erklären. 139 Dagegen ist das autosegmentale Modell hinsichtlich des untersuchten Phänomens erklärungsadäquat. Grice entwickelt das Modell, das Pierrehumbert und Beckman (1988) fürs Japanische entworfen haben, fürs palermitanische Italienisch weiter. Dieses Modell (Abb. 3.5) sieht einen prosodischen Tier mit drei hierarchisch gestuften Ebenen vor: Intonationsphrase, Intermediärphrase und Silbe. 140 Der Interrogationsmarker befindet sich als L*+H auf der Ton-Ebene (unterhalb des Knotens PA, anstelle der Variable » T T « ) und wird als steigende Tonhöhenbewegung perzpiert. Er ist fest mit der metrisch stärksten Silbe verbunden, in der Terminologie, die Grice von Pierrehumbert und Beckman (1988) übernimmt, heißt das: Zwischen L*+H und der metrisch stärksten Silbe besteht zentrale Assoziation.141 Die Einschließende fallende Tonhöhenbewegung wird durch zwei tiefe Töne im Anschluß an die steigende Bewegung ausgedrückt: L*+H L (L). 142 Die beiden L-Töne sind als Grenztöne nicht zentral mit Silben assoziiert, sondern mit den hierarchisch höherstehenden Phrasen, 139
Vgl. Grice (1995), S. 35f. Nach Grice (1995), S. 181. 141 Central association, vgl. Grice (1995), S. 182. Die Assoziationslinien sind in Abb. 3.5 gestrichelt dargestellt. 142 Beispiele in Grice (1995), S. 204-206. 140
95 die sie begrenzen. Man spricht hier von peripherer Assoziation,1*3 wobei der erste Ton (»L«) mit der Intermediärphrase und der zweite (>>(L) lautet, drückt das englische 2 good 3morning3 —> eine Distanziertheit des Sprechers in Bezug auf den Hörer aus. Wenn der englische Italienischlerner allerdings das neutrale englische Grußmuster im Italienischen verwendet und 2buan 3giorno1l äußert, drückt er das Gegenteil des Beabsichtigten aus: nämlich Distanziertheit statt höflicher Zuwendung. 1 6 7
3.5.2
Italienisch - Französisch
De Dominicis (1995) vergleicht in einem Aufsatz die Intonation im Italienischen mit der im Französischen auf Grundlagen der von De Dominicis (1992) entwickelten Funktionskategorien. 1 6 8 Der Satz /ba,nwa ,vje da'mc/ - Benoit vient demain bzw. Benoit, viens demain - wird als Ausdruck der sieben oben bestimmten Einstellungstypen produziert. Die Realisationen werden Perzeptionsuntersuchungen und akustischen Messungen unterzogen. 1 6 9 Vergleichskategorien sind also durch Modaloperatoren differenzierte Einstellungstypen. Zur Beschreibung dienen das Dekompositionsmodell von Canepari (1985) und das System der funktional relevanten Tonhöhenbewegungen von Lepschy (1978b) bzw. Halliday (1985). Es zeigt sich, dass die Intonation bei richiesta, provocazione, ordine, informazione und rivelazione identisch ist, während concessione di facoltativitä und valutazione im Italienischen und Französischen intonatorisch unterschiedlich realisiert werden. 1 7 0
3.5.3
Deutsch - Französisch
Jins Studie „Intonation in Gesprächen. Ein Beitrag zur Methode der kontrastiven Intonationsanalyse" (1990) wurde bereits in Rabanus (1998, S. 263f.) behandelt. Jin 165
Agard/Di Pietro (1965), S. 72f. Agard/Di Pietro (1965), S. 66. 167 Agard/Di Pietro (1965), S. 73. 168 Siehe Kap. 3.3.1.3, S 91ff. 169 Vgl. De Dominicis (1995), S. 383. 170 Vgl. De Dominicis (1995), S. 391. De Dominicis (1995), S. 386-390 interpretiert die Unterschiede als Folge unterschiedlicher Transformationen aus einer einheitlichen, autosegmental formulierten intonatorischen Tiefenstruktur. 166
102 untersucht natürlichsprachliche Äußerung in einem Versuchsaufbau, der möglichst übereinstimmende Handlungsziele und damit gleiche Sprechhandlungen in den untersuchten Sprachen Deutsch und Französisch elizitieren soll: 171 In den beiden Sprachen wird je zwei Probanden eine interaktionslogische Aufgabe gestellt: Sie müssen ohne Sichtkontakt, das bedeutet, ausschließlich über den akustischen Kanal ein Gebilde aus Bauklötzchen bauen, wobei ein Proband die Bauklötzchen und der andere die Bauanleitung hat. Die zur Lösung der Aufgabe geführten Gespräche werden auf Tonträger aufgezeichnet und transliteriert. Jin geht davon aus, dass die interaktionslogische Aufgabe zu gleichen Sprechhandlungen in beiden Sprachen führt. Der geschickte Versuchsaufbau würde der Analyse verlässliche Vergleichskategorien verschaffen. Statt jetzt allerdings Formkategorien in Beziehung zu diesen Vergleichskategorien zu setzen, zählt Jin lediglich die Frequenz der Formkategorien aus. Sie lässt damit ein viel versprechendes Potential ungenutzt. Jins Analyse besteht darin, dass sie zum Beispiel bestimmt, wie häufig „interne Akzente" und „externe Akzente" im Französischen und „Akzente" und „Grenztöne" im Deutschen auftreten. Die Beantwortung der Frage, ob diese unterschiedlichen Formkategorien auf unterschiedliche sprachliche Phänomene oder nur auf unterschiedliche Forschungstraditionen in Deutschland und Frankreich zurückgehen, ist für den Wert der Analyse entscheidend. Jin (1990, S. 98) reflektiert folgerichtig: Die Frage, die man sich vor einem Vergleich stellen muß, ist die Frage, welche prosodischen Einheiten im Französischen den deutschen Akzenten entsprechen. Nimmt man an, daß der französische interne Akzent einem Grenzton entspricht, dann kann man den externen Akzent mit dem deutschen Akzent vergleichen [...]
Den Nachweis für diese Annahme bleibt Jin schuldig. Mir scheint es aufgrund von Jins eigenen Ausführungen 1 7 2 nicht so, als ob die postulierten Übereinstimmungen zwischen den Konzepten vorlägen. Folglich fehlt dem Vergleich eine notwendige Grundlage.
3.5.4
Englisch - Deutsch - Italienisch
Ladd räumt der „ Cross-language comparison of intonation" breiten Raum in seiner Gesamtdarstellung „Intonational Phonology" (1996) ein. 173 Die Art kontrastiver Intonationsanalyse, die Ladd betreibt, soll an seinem Kapitel über die Konzepte compression und truncation gezeigt werden. 174 Unter compression und truncation versteht man in der autosegmental-metrischen Phonologie zwei Möglichkeiten des Umgangs mit tiefenstrukturellen Tonsequenzen. Das Englische ist nach Ladds Einschätzung eine Sprache, die zu Kompression neigt, was bedeutet, dass alle Töne, die mit einer Silbe assoziiert sind, auch tatsächlich auf m
V g l . Jin (1990); S. 45-47. Kehrein (2001) greift für seine (einzelsprachliche) Analyse auf diesen Versuchsaufbau zurück. 172 Vgl. Jin (1990), S. 42f. 173 Ladd (1996), S. 113-159. 174 Vgl. Ladd (1996), S. 132-136.
103 dieser Silbe realisiert werden: In der einsilbigen Äußerung Sue!? werden also alle Töne der Folge L* Η L H% in einer lebhaften Tonhöhenbewegung realisiert. Das Italienische tendiert dagegen zur Trunkierung: Wenn mit einer Silbe tiefenstrukturell drei und mehr Töne cissoziiert sind, wird die Tonsequenz in der phonetischen Realisierung „trunkiert": Töne fallen weg.175 Das Deutsche hat in dieser Sprachtypologie eine besondere Stellung: Kompression ist möglich, wird aber weitgehend vermieden. In Fällen, in denen eine Silbe tiefenstrukturell mit drei Tönen verbunden ist, deren Produktion eine große artikulatorische Anstrengung bedeuten würde, wird diese Tonsequenz durch eine andere, leichter artikulierbare ersetzt. So wird die in einem bestimmten Kontext angemessene Tonfolge H* L H% auf einem einsilbigen Wort durch Η* Η H% oder L* Η H% ersetzt. 176 Die Beschreibungskategorien sind die Töne des autosegmentalen Intonationsmodells. Als Vergleichskategorie weist Ladd die tiefenstrukturelle Tonfolge aus. Es bleibt allerdings der Verdacht, dass Ladd trotz der Herkunft der Begriffe compression und truncation aus der dänischen Intonationsforschung177 statt der Tiefenstruktur eher die Verhältnisse im Englischen als Maßstab für die Bewertung anderer Sprachen anlegt. Eine tiefenstrukturelle Tonfolge ist empirisch nicht nachweisbar. Die Vergleichskategorie bei Ladd scheint eher ein bestimmter Sprechhandlungstyp zu sein, dessen intonatorische Realisierung vom segmentellen Kontext abhängt. 178 Neuerdings wird die Opposition zunehmend phonetisch operationalisiert. 179 Peters (2000b) und Gilles (2001) zeigen, dass final fallende Akzentsilben im Hamburgischen zur Kompression, im Berlinischen dagegen zur Trunkierung tendieren, ohne dass dafür auf tiefenstrukturelle Tonfolgen rekurriert würde.
3.5.5
Resümee
Nur die von Ladd (1996) verwendete tonale Notation der Intonationskontur stellt die Vergleichbarkeit seiner Ergebnisse international sicher. Die Beschreibungskategorien von Agard und Di Pietro (1965) sind auf diese eine Studie beschränkt, die Notation von De Dominicis (1995) wie ausgeführt auf die italienische Forschung. Ladd (1996) und Jin (1990) verwenden keine validen Vergleichskategorien. Agard und Di Pietro (1965) sowie De Dominicis (1995) nutzen Satzmodi bzw. Einstellungstypen als Vergleichskategorien, wobei nur De Dominicis die Vergleichskategorien expliziert: als Verkettungen von Modaloperatoren und damit als abstrakte, außersprachliche Kategorien. In Kap. 4.1.1 wird ausgeführt, dass nur solche Kategorien für die kontrastive Analyse geeignet sind. Ein einziger, im Labor produzierter Satz ist allerdings eine zu schmale empirische Basis für den Vergleich der Intonationssysteme zweier Sprachen. Im nächsten Kapitel wird deshalb die kontrastive gesprächsanalytische Intonationsforschung von Grund auf neu konzipiert. L a d d (1996) führt generell keine eigenen empirischen Untersuchungen durch. Hinsichtlich der Aussagen zum Italienischen bezieht er sich auf die Daten von Grice (1995), S. 171ff. 1 7 6 Vgl. Ladd (1996), S. 133f. 1 7 7 Vgl. Gr0nnum (1991). 1 7 8 Vgl. dazu auch die Ausführung in Rabanus (1998), S. 262. 1 7 9 Vgl. Grabe (1998), besonders die experimentellen Untersuchungen auf S. 149-183. 175
4
Gesprächsanalytische Intonationsforschung
In diesem Kapitel wird ein Ansatz zur kontrastiven gesprächsanalytischen Intonationsforschung entwickelt. In Kap. 4.1 werden die Konsequenzen aus den in Kap. 3.5 beschriebenen methodischen Defiziten gezogen. In Kap. 4.2 werden konversations- und dialoganalytische Kategorien als tertium comparationis für die kontrastive Analyse eingeführt. Der Darstellung konversations- und dialoganalytischer Methodik wird ein ähnlich breiter R a u m wie der Darstellung des Intonationsmodells der autosegmentalen Phonologie gegeben. Diese Arbeit schlägt eine Brücke zwischen Konversationsanalyse und autosegmentaler Phonologie und damit zwischen zwei disparat sich entwickelnden Bereichen. In Kap. 4.3 wird unter Vorwegnahme emprischer Ergebnisse ein Set von intonatorischen Verfahren eingeführt, die als Formkategorien mit dem Ausdruck der gesprächsanalytischen Funktionskategorien korrelieren.
4.1
4.1.1
Methodische Grundlegung
System des Verhaltens in Gesprächen
Die Schwäche der in Kap. 3.5 dargestellten kontrastiven Studien besteht in unzureichenden oder unzureichend explizierten Beschreibungs- und Vergleichskategorien. Auf dieses Defizit weisen schon Rovere und Wotjak (1993, S. 3) in der Vorbemerkung zu einem Sammelband mit Studien zum romanisch-deutschen Sprachvergleich hin: Sprachvergleich als Systemvergleich wie aber auch als Textvergleich setzt Kompaxabilität, aber auch je einzelsprachliche Detailbeschreibung, möglichst mit den gleichen Methoden und dem gleichen oder doch einem vergleichbaren Terminusinventar voraus, wobei in aller Regel - und dies gilt ganz besonders für die insgesamt weniger systematisch beschriebenen Sprachen Portugiesisch, Spanisch (z.T. auch Italienisch) - eigentlich vorgängige Detailanalysen in wenigstens einer der beiden Sprachen nicht oder nicht in der gewünschten Qualität (= gleiche Beschreibungsmethode) vorliegen. Komparabilität besteht nur dann, wenn gleiche Beschreibungskategorien und einheitliche Vergleichskategorien verwendet werden. Die Komparabilität der Beschreibungskategorien wird in dieser Arbeit durch das Beschreibungsmodell der autosegmentalen Phonologie und das in Kap. 2.6.1 beschriebene Toninventar hergestellt. Die Zuweisung hoher und tiefer Töne zu Akzent- und Grenzstellen ist das Ergebnis einer auditiven Analyse, die die potentiellen Funktionen der Töne außer Acht lässt und deshalb sogar ohne Kenntnis des entsprechenden Sprachsystems möglich wäre. Das gilt erst recht für die apparative Feinanalyse, in der Tonhöhen, Prominenz- und Dauerphänomene quantifiziert werden. Die Komparabilität der Beschreibungskategorien wird erreicht, indem Intonationskonturen und Unterschiede zwischen Intonationskonturen einzelsprachenunabhängig bestimmt werden. Ebenso einzelsprachenunabhängig werden die
106 intonatorischen Verfahren (Kap. 4.3) bestimmt, die sich in der Analyse als die bedeutungsunterscheidenden Formkategorien erweisen. Für die Komparabilität der Vergleichskategorien gelten dieselben Prinzipien. Vergleichskategorien sind nicht innerhalb eines Sprachsystems zu finden, sondern in einem System, das den einzelnen Sprachsystemen übergeordnet ist. Nach Saussure ist die Linguistik Teil einer übergreifenden Wissenschaft von semiotischen Systemen, der Semiologie.1 Die Sprache sei das wichtigste dieser Systeme, der Prototyp, dem möglicherweise alle anderen Systeme nachgebildet sind,2 aber nicht das einzige. Innerhalb der Semiologie lassen sich viele semiotische Systeme annehmen, mit denen bestimmte Regularitäten des sozialen Lebens zu beschreiben sind. Für die Zwecke der vorliegenden Untersuchung wird ein System des Verhaltens in Gesprächen postuliert. Dieses System ist nicht ausgearbeitet, eine vollständige Beschreibung ist auf absehbare Zeit auch undenkbar. Es stellt allerdings auch unausgearbeitet, als bloße Idee, einen theoretischen Rahmen dar, in dem bereits erforschte Teilsysteme zueinander in Beziehung gesetzt werden können. Die verschiedenen Formen der Gesprächsanalyse können als Teilsysteme des Systems des Verhaltens in Gesprächen verstanden werden. Das System beschreibt die Regularitäten in einem Bereich des sozialen Lebens - nämlich in Gesprächen - und ist in diesem und nur in diesem Bereich anderen semiotischen Systemen (Sprache, Körpersprache, Ästhetischer Ausdruck und ähnliches) hierarchisch übergeordnet. Das System des Verhaltens in Gesprächen enthält alle denkbaren Verhaltenskategorien, die in Gesprächszusammenhängen eine Rolle spielen können. Es ist deswegen abstrakt und universal. In keiner Kultur wird auf alle Kategorien zurückgegriffen. In jeder Kultur wird eine Teilmenge der Verhaltenskategorien selektiert und mit Hilfe untergeordneter semiotischer Systeme realisiert. Der Zweck von Sprachvergleichen besteht grundsätzlich darin zu untersuchen, ob und wie in unterschiedlichen Sprachsystemen universale Verhaltenskategorien realisiert werden. In dieser Studie wird die Rolle der Intonation für die Realisierung der Verhaltenskategorien untersucht. 3 Die Vergleichskategorien dieser kontrastiven Arbeit sind deshalb gesprächsanalytische Funktionskategorien. Sie werden in Kap. 4.2 expliziert. Die diesem Vorgehen zugrunde liegende Programmatik wurde bereits in Rabanus (1998) erläutert.
4.1.2
Äußerungspaare
Bei der sprachlichen Realisierung der Verhaltenskategorien interagiert eine Vielzahl von Signalisierungssystemen innerhalb und außerhalb des semiotischen Systems Sprache. In den Signalisierungssystemen werden formale (meist sprachliche) Mittel und die 1
2
3
Saussure (1972), S. 33 schreibt: „La linguistique n'est qu'une partie de cette science generale, les lois que decouvrira la semiologie seront applicables ä la linguistique, et celle-ci se trouvera ainsi rattachee ä un domaine bien defini dans l'ensemble des faits humains." Deshalb kehrt Barthes (1985), S. 9 das Saussuresche Postulat um und sieht die Semiologie als Teil der Linguistik. Schmidt (1990), S. 523 weist darauf hin, dass die Feststellung der Funktionskategorien auch in der einzelsprachlichen Intonationsanalyse vorgängig sein muss, um zu validen Identifizierungen formaler Merkmale zu gelangen.
107 Regularitäten ihrer Verknüpfung zusammengefasst, die bei der Äußerungsproduktion in Gesprächen eingesetzt werden. In dieser Arbeit werden Sequenzierung, Grammatik, Lexik, Metrik und Intonation berücksichtigt. Unter Sequenzierung wird die Positionierung einer Äußerung im Gesprächsverlauf verstanden. In der Grammatik werden morphologische und syntaktische (stellungsbezogene) Mittel zusammengefasst. Lexik bezieht sich auf die wörtlichen Bedeutungen, die durch lexikalische Mittel in der Äußerungssituation aufgerufen werden.4 Metrik umfasst die rhythmische und akzentuelle Gestaltung der Äußerung. Intonation bezieht sich auf den Tonhöhenverlauf. Die non-vokalen Signalisierungssysteme Gestik, Mimik, Proxemik, Kinesik und andere spielen für Face to Face-Kommunikation ebenfalls eine große Rolle, können aber aus arbeitsökonomischen Gründen hier nicht berücksichtigt werden. Henne und Rehbock ( 2 1982, S. 54) geben für die Transkription eines akustisch aufgezeichneten Gesprächs ein Verhältnis von 1:50 bis 1:100 zwischen 'transkribierter Zeit' und "Transkribierungszeit' an. Bei Berücksichtigung der Videoaufzeichnung erhöhe sich das Verhältnis auf 1:200 bis 1:400.5 Um in der Untersuchung der Intonation Interferenzen der anderen Signalisierungssysteme auszuschließen, wird in den meisten der in Kap. 3 referierten Studien die strukturalistische Minimalpaaranalyse angewendet. Die Laboruntersuchungen bzw. Perzeptionsexperimente werden an Äußerungspaaren bzw. Äußerungstupeln vorgenommen, die grammatisch, lexikalisch und metrisch identisch sind.6 In natürlichen Alltagsgesprächen kommen echte Minimalpaare nur sehr selten vor. Bei sorgfältiger Analyse zeigt sich aber, dass Wiederaufnahmen und Bearbeitungen von Äußerungen oder Äußerungsteilen in bestimmten kommunikativen Zusammenhängen relativ häufig sind. Wiederaufnahmen von Äußerungen sind ein starkes Mittel, um Kohärenz zu signalisieren. In den meisten Fällen werden zentrale lexikalische Elemente aufgenommen, oft aber auch die grammatischen und metrischen Strukturen, in die sie eingebunden sind.7 Deshalb wird in dieser Arbeit die Intonation von Äußerungen untersucht, deren grammatische, lexikalische und metrische Strukturen weitgehend übereinstimmen. Weil die Strukturen selten völlig identisch sind,8 wird nicht von Minimalpaaren, sondern von Außerungspaaren gesprochen. Die Komponenten von Äußerungspaaren unterscheiden sich vor allem durch die Position in der Sequenz und die Intonation. Die Position in der Sequenz kann bei aufeinander bezogenen Äußerungen nicht übereinstimmen. Es gibt nur Vor- und Nachzeitigkeit: Die Komponenten der Äußerungspaare folgen entweder im selben Turn unmittelbar oder durch wenige Turnkonstruktions4
5
6
7
8
Lexik als formales Signalsierungssystem darf nicht mit Semantik als linguistischer Disziplin zur Beschreibung von Bedeutungen verwechselt werden. Signalisierungssysteme operieren mit Formmerkmalen. Zur Interaktion von Intonation und Gestik vgl. Schönherr (1997); Poggi/Magno Caldognetto (1996); und Magno Caldognetto/Poggi (1994). Wegen des in den meisten Fällen ausgeschlossenen optischen Kanals fallen die non-vokalen Signalisierungssysteme weg, Sequenzierung spielt bei isolierten Äußerungen keine Rolle. Vgl. die Zusammenstellung und Klassifikation von Bearbeitungsverfahren in Gesprächen von Gülich und Kotschi (1995) und Gülich (1994). Auch echte Minimalpaare kommen vor, siehe z.B. K 1 8 8 / 1 9 5 , S. 218f.; K 2 0 2 / 2 0 4 , S. 222f.; P 0 6 3 / 0 7 0 , S. 231f.; P 0 9 6 / 1 0 1 , S. 233f.
108 einheiten voneinander getrennt aufeinander, oder sie finden sich in einer dreizügigen Sequenz im ersten und dritten Turn. 9 Mit den beiden Merkmalen 'davor' und 'danach' sind die Möglichkeiten des Signalisierungssystems Sequenzierung beschränkt. Eine differenzierte Unterscheidung von Funktionen allein durch die Position der Äußerung in der Sequenz ist nicht möglich. Unterschiede in den Funktionen der Komponenten eines Außerungspaars werden deshalb vor allem der Intonation zugeschrieben: Die Intonation der zweiten Komponente eines Außerungspaars distinguiert die Funktionen, die der ersten Komponente nicht zugeschrieben werden können. Nur bei Außerungspaaren mit nahezu identischer Intonation hat die Position in der Sequenz entscheidende Bedeutung für die zusätzlichen oder anderen Funktionen der zweiten Komponente. 10 In Kap. 5 werden 55 Außerungspaare untersucht. Eine interessante Parallele zu diesem Ansatz hat eine von Swerts geleitete Arbeitsgruppe (Swerts et al. 1998a) in Untersuchungen zur japanischen Prosodie entwickelt.11 Swerts untersucht die Funktion prosodischer Merkmale für die Signalisierung der Verhaltenskategorien confirmation und conflict. Swerts Gespräche dienen der Lösung einer map task, das heißt, der Gesprächsablauf wird durch die Aufgabe weitgehend vorgegeben: Sprecher 1 gibt Sprecher 2 eine Wegbeschreibung, Sprecher 2 signalisiert durch Echofragen den Grad seines Verstehens. Die Echofragen nehmen oft die grammatisch-lexikalische und metrische Struktur der Bezugsäußerungen aus der Wegbeschreibung auf und bearbeiten die intonatorische Struktur. Die Funktion der Rückfrage als zweiter Komponente des Äußerungspaars kann also auch hier der Intonation (und anderen prosodischen Merkmalen) zugeschrieben werden. 12 Echoing wird folgendermaßen operationalisiert:
Let Λ· be a sequence of utterance units made in a single speaking turn, and Y be another sequence of utterance units made in the directly following turn. Then, X and Y axe echoic pairs if and only if a sequence of morae that occupies 50 % or more of Y already appears in X or is a semantic paraphrase of a part of X 1
Diese Definition erweckt allerdings den Eindruck einer formaler Exaktheit, die nicht gegeben ist, weil semantic paraphrase nicht bestimmt wird. Deshalb wird hier auf die Formulierung einer solchen Operationalisierung verzichtet.
9 10 11
12
13
Zu Turn und Turnkonstruktionseinheit siehe S. 125. Vgl. hierzu z.B. die Analyse der Minimalpaare K188/195 und K202/204, S. 218ff. Bei der Arbeit von Swerts et al. (1998a) handelt es sich um das Manuskript eines Vortrags, den Swerts am 23.9.98 am IFD in Padua gehalten hat. Vgl. dazu auch Swerts et al. (1998b) und Shimojima et ed. (1998). Die Ergebnisse der Untersuchung bleiben sehr allgemein: conflict wird durch ausgeprägtere prosodische Merkmale und (tendenziell) durch hohe finale Grenztöne ausgedrückt, vgl. Swerts et al. (1998a), S. 13ff. Swerts et al. (1998a), S. 10. Die More ist die für das Japanische relevante Rhythmuseinheit.
109 4.1.3
Das „richtige Korpus"
Das „richtige Korpus" ist in der Sprachwissenschaft nicht abstrakt, sondern stets in Abhängigkeit vom Untersuchungsziel zu bestimmen. Während in der Grammatikforschung von Gesprächstranskriptionen bis zu introspektiven Überlegungen ganz verschiedenartige Daten zur Stützung von Hypothesen herangezogen werden können, besteht in der modernen Intonationsforschung Einverständnis darüber, dass das „richtige Korpus" aus Tonaufnahmen gesprochener Sprache bestehen muss. Tonaufnahmen lassen sich auf zwei Arten gewinnen: Entweder versucht der Sprachwissenschaftler, durch ein experimentelles Setting bei den Probanden ein bestimmtes Sprachverhalten zu elizitieren, oder er bemüht sich darum, möglichst unvoreingenommen das Sprachverhalten zu beobachten, das die Probanden von sich aus zeigen. Elizitierungstechniken der ersten Art sollen hier als Experimente, solche der zweiten Art als Beobachtungen bezeichnet werden. Die meisten in Kap. 3 referierten Studien beziehen ihre Daten aus Experimenten. Interaktionsverhalten lässt sich allerdings kaum im Labor simulieren, deshalb werden in den Analysen dieser Studie ausschließlich Beobachtungen natürlicher Interaktion angestellt. Damit experimentelle Ansätze in der Intonationsforschung erfolgreich sein können, müssen bestimmte Voraussetzungen erfüllt sein.
4.1.3.1
Experiment
Das Experiment hat seinen Platz historisch in den Naturwissenschaften, vor allem in der Physik. Ein physikalisches System wie die klassische Mechanik wird auf der Basis der vier Prinzipien Determinismus, Verifizierbarkeit, Universalität und Objektivität konstruiert. Diese Prinzipien führen zur Idee des Naturgesetzes, das jederzeit und überall Gültigkeit hat. Die Wirkung eines Naturgesetzes wird in Experimenten ermittelt, in denen alle Faktoren mit Ausnahme der untersuchten Variablen konstant gehalten werden. Das erlaubt die beliebige Wiederholbarkeit des Experiments mit stets gleichen Ergebnissen. Dass die Bedingungen im Experiment verschieden von den Bedingungen in der natürlichen Welt sind, ist bei Gültigkeit der vier genannten Prinzipien unproblematisch: Sie stellen sicher, dass die Ergebnisse jederzeit vom Labor auf die ganze Welt übertragen werden können. Die Gültigkeit der Prinzipien ist mit der Quantenmechanik innerhalb der Physik fragwürdig geworden.14 Quantenmechanische Erkenntnisse beeinträchtigen allerdings nicht den Erfolg von Experimenten im Rahmen der klassischen Mechanik. Experimente beispielsweise zur Ermittlung der Fallbeschleunigung lassen sich tatsächlich jederzeit und überall wiederholen. Das Ergebnis wird immer eine Fallbeschleunigung von 9,80 jy sein, wenn man nur die Außenbedingungen konstant hält. Der Erfolg eines so simplen Experiments hängt aber von drei Voraussetzungen ab: 1. Es gibt nur eine unbekannte Variable. 2. Mein kennt alle Faktoren, die auf die zu beobachtende Variable einwirken. Für die Fallbeschleunigung sind das der Luftwiderstand (9,80 ^ werden nur im Vakuum erreicht) und der Ort des Experiments (zwischen Pol und Äquator variiert die Fallbeschleunigung zwischen 9,83 und 9,77 14
Vgl. Mittelstaedt (1997).
110
3. Die Faktoren sind physisch einstellbar (Erzeugung desselben Vakuums) oder stehen mathematisch in einem festen Verhältnis zueinander (Berücksichtigung des Breitengrades des Untersuchungsortes bei der Interpretation des Messwertes). Eine experimentelle Vorgehensweise zur Untersuchung der Intonation im Gespräch scheitert schon an der ersten Voraussetzung: Es gibt zwei unbekannte Variablen: Form und Funktion. Weder ist vor Untersuchungsbeginn klar, welche Formen funktional relevant sind, noch, welche Funktionen mit den Formen ausgedrückt werden. Auch die zweite Voraussetzung ist nicht einlösbar: Ein Gespräch ist ein komplexes Interaktionsgeschehen, in dem verschiedenen Signalisierungssysteme ineinandergreifen. Welche Faktoren aus welchen Signalisierungssystemen auf Form und Funktion der Intonation einwirken, ist bis heute nur ansatzweise untersucht. Nicht anders verhält es sich mit der dritten Voraussetzung. Während das Sprachverhalten eines einzelnen Probanden annäherungsweise „einstellbar" ist (indem man ihn beispielsweise einen Satz lesen lässt), ist die Festsetzung eines Interaktionsgeschehens als konstante Außenbedingung eines Experiments zur Ermittlung intonatorisches Einheiten so abwegig, dass mir kein derartiger Versuch bekannt ist. Der Wissenschaftstheoretiker Schwemmer (1983) plädiert deswegen generell für eine „Empirie ohne Experiment" in den Sozialwissenschaften und führt aus: Denn mit der Beschränkung auf "tatsachengetreue", wertungs- und deutungsfreie Qualifikation rückt man diese unsere Beobachtungen und Erlebnisse aus ihrem Kontext und Situationszusammenhang heraus und definiert sie damit zugleich zu den isolierten, nämlich für sich bereits hinreichend informativen, und damit allen möglichen anderen Beobachtungen und Erlebnissen anderer jederzeit vergleichbaren "Daten" unter den Augen eines unbestechlichen und allgegenwärtigen Beobachters um [...] Der zur "Datenbasis" umdefinierten Welt unserer Wahrnehmungen, unserer Beobachtungen und Erlebnisse, werden so auf der einen Seite ihre kontext- und situationsgetragenen Bedeutungen [...] entzogen und dafür neue Bedeutungen (die in ihr ursprünglich gar nicht vorkamen, sondern teilweise überhaupt erst durch die "wissenschaftliche" Behandlung erzeugt worden sind [...]) eingesetzt [...] 15
Diese Ablehnung ist meiner Meinung nach zu kategorisch. In den Sozialwissenschaften können Experimente erfolgreich durchgeführt werden, aber nur dann, wenn die drei oben eingeführten Bedingungen erfüllt sind. Schmidt (1986) führt das in seiner Untersuchung der mittelfränkischen Tonakzente als Mittel zur Differenzierung lexikalischer Bedeutungen vor. In diesen Untersuchungen waren die Funktionen (Wortbedeutungen) klar, die formale Ausprägung des Wortakzents war die einzige unbekannte Variable und deshalb in Perzeptionsexperimenten zuverlässig zu bestimmen. Ahnliche Perspektiven eröffnet das Greifswalder Intonationsprojekt: Kehrein und Rabanus (2001) haben ein Modell zur funktionalen Beschreibung von Diskurspartikeln, Bandt und Mitarbeiter (2001) ein Verfahren zur Quantifizierung von Formdifferenzen zwischen Intonationskonturen bei Diskurspartikeln entwickelt. Daraus lassen sich eine Vielzahl von Hypothesen ableiten, deren Validität mit Experimenten über den Bereich der Diskurspartikeln hinaus überprüft werden kann.
15
Schwemmer (1983), S. 85f.
Ill 4.1.3.2
Teilnehmende Beobachtung
Beobachtungen ermöglichen die Untersuchung von unbekannten Variablen in ihrem natürlichen Kontext. 16 Für die Analyse des Interaktionsgeschehens in Gesprächen hat sich die teilnehmende Beobachtung durchgesetzt. Die Methode der teilnehmenden Beobachtung wurde in der Ethnologie entwickelt und durch die Arbeiten der „Chicagoer Schule" in den 20er Jahren auf soziologische Fragestellungen übertragen. 17 Teilnehmende Beobachtung ist immer dann angezeigt, wenn menschliches Zusammenleben ganzheitlich erfasst werden soll und der Forscher sich der Tatsache bewusst ist, dass er sich selbst dann mit potentiell Fremdem auseinandersetzt, wenn er seine eigene Kultur erforscht. Die Perspektive ist in der teilnehmenden Beobachtung prinzipiell offener als in der Befragung (zum Beispiel im Interview). Dafür muss der Forscher aber ständig zwischen der Beobachter- und der Teilnehmerrolle hin- und herpendeln. Verlegt er sich zu stark auf die Beobachterrolle, wird er zum Störfaktor für die Interaktion (besonders dann, wenn er zur Beobachtung technische Hilfsmittel einsetzt). Identifiziert er sich zu sehr mit der Teilnehmerrolle, verdirbt er die Daten durch zu starke Einflussnahme. Das Gelingen teilnehmender Beobachtung erfordert gute Vorbereitung und einiges Geschick. Die für die Intonationsforschung notwendigen Tonaufnahmen lassen sich nur an geschlossenen Schauplätzen durchführen. Der Forscher muss sich dort von Mittelsleuten in einer geeigneten Rolle einführen lassen. Sowohl ethisch-juristische als auch praktische Gründe sprechen dafür, dass er seine Forscherrolle offenlegt und sie zu Beginn des Gesprächs thematisiert. Meiner Erfahrung nach lässt sich damit in den meisten Fällen bei den Gesprächsteilnehmern echtes Interesse wecken und eine natürliche Themenprogression initiieren. Durch die Tonaufnahme werden die vokalen Aspekte des Gesprächs objektiv dokumentiert. Weitere potentiell relevante Information zum Interaktionsgeschehen und die Sozialdaten der Teilnehmer müssen sofort im Anschluss an das Gespräch protokolliert werden. Vor dem Hintergrund der Tatsache, dass es in der Untersuchung der Intonation in Gesprächen zwei unbekannte Variablen (Form und Funktion) gibt, ist die teilnehmende Beobachtung eine geeignete Methode. Sie schränkt die Wahrnehmung minimal ein und stellt damit sicher, dass potentiell relevante Form- und Funktionsmerkmale nicht von vornherein unberücksichtigt bleiben. Ich war in allen Gesprächen des Vineta-Korpus selbst teilnehmender Beobachter.
4.1.3.3 Voruntersuchung: Interview Trotz der oben dargelegten Reflexionen wurde in einer Voruntersuchung die Tauglichkeit des Gesprächstyps Interview für die Zwecke der vorliegenden Arbeit überprüft. Interviews sind in vielerlei Hinsicht einfacher und schneller analysierbar als ungesteuerte Gespräche.18 Für die Voruntersuchung wurde ein Leitfaden-Interview aus der 16 17 18
Vgl. Lüdtke (1988). Vgl. Legewie ( 2 1995). Das Interview dient hier als Gesprächstyp und nicht als Methode zur sozialwissenschaftli-
112
Dialektologie19 und eine von mir davon angefertigte Übersetzung ins Italienische verwendet. Das Interview ist ein Gesprächstyp, der sich dadurch auszeichnet, dass er die Interaktantenrollen, das Interaktionsschema und den thematischen Rahmen des Gesprächs festlegt. Damit wird eine Reihe von invarianten Faktoren geschaffen, an die der Sprachvergleich anknüpfen kann. In der Voruntersuchung wurden vier Interviews von jeweils 20 Minuten Länge mit zwei italienischen und zwei deutschen Informanten durchgeführt. Die Gespräche lieferten (erwartungsgemäß) viele Exemplare weniger Sprechhandlungstypen, vor allem Fragen und Antworten. Andere Funktionen waren in den Gesprächen kaum vorhanden. Labov (1976) charakterisiert die Sprache von Interviews als vergleichsweise formal. 20 Die Intonationsanalyse hätte sich also auf die mit der Frage-AntwortSequenz korrelierenden Intonationskonturen in deutschen und italienischen Interviews beschränken müssen. Fragehandlungen sind aber die in der bisherigen Intonationsforschung in beiden Sprachen am besten beschriebenen Phänomene. Ein weiterer Erkenntnisgewinn wäre diesbezüglich kaum erwartbar gewesen. Das Interview wurde deshalb als Gesprächstyp verworfen.21
4.1.4
Vineta-Korpus: Die Gespräche im Varietätengefüge
4.1.4.1 Gesprächssituation, Diaphasik, Diastratik Alle Gespräche des Vineta-Korpus 22 fanden an geschlossenen Schauplätzen statt. Der Zugang fiel mir im Fall der deutschen Gespräche leicht, weil alle Informanten aus meinem Freundeskreis stammten. Der Zugang zu den Schauplätzen der italienischen Gespräche erfolgte dagegen über Mittelsleute. Dennoch konnte das Setting für alle Gespräche konstant gehalten werden. Ort war in jedem Gespräch die Wohnung eines Gesprächsteilnehmers, Situation ein gemeinsames Kaffeetrinken bzw. Abendessen. Die Tonaufnahme der Gespräche erfolgte offen, das Mikrophon stand für alle Interaktionsteilnehmer gut sichtbar auf dem Tisch. 23 Ethisch-juristische und analysepraktische Gründe verboten die verdeckte Aufzeichnung der Gespräche. Das Kaffeetrinken bzw. Abendessen führte zu einer Minderung der akustischen Qualität der Aufnahmen (Klimpern mit Geschirr und Besteck, undeutliche Artikulation mit vollem Mund), war aber als Ablenkung von der im Mikrophon vergegenständlichten Aufnahmesitua-
19 20
21
22
23
chen Datenerhebung. Zu den Befragungsverfahren in den Sozialwissenschaften vgl. Hopf (21995) und Atteslander (1988). Moosmüller (1991), zitiert nach Schlobinski (1996), S. 46f. Labov (1976), S. 2 schreibt: „Die Sprache des Interviews ist formal - nicht in bezug auf einen absoluten Maßstab, aber im Vergleich mit der Umgangssprache des täglichen Lebens. Im großen und ganzen ist das Interview sozial kontrolliertes Sprechen - überwacht und gesteuert infolge der Anwesenheit eines außenstehenden Beobachters." Zu Vergleichszwecken wurden einige Frage-Antwort-Sequenzen transkribiert und analytisch aufgearbeitet: K210-258. Das Vineta-Korpus ist online im Internet unter der Adresse http://archiv.ub.unimarburg.de/sonst/2000/0003/ [Stand: 23.09.2000] zugänglich. Eine Videoaufzeichnung der Gespräche war aus technischen Gründen nicht möglich, ihre Auswertung hätte im Rahmen der Dissertation auch nicht geleistet werden können.
113
tion erfolgreich. Nach einer individuell unterschiedlich langen Einstiegsphase von 5 bis 15 Minuten hatten die Gespräche einen weitgehend natürlichen Verlauf, die Aufnahmesituation beeinträchtigte die Natürlichkeit der Gespräche nicht in beobachtbarer Weise. Bei den untersuchten Gesprächen handelt es sich um ungesteuerte Alltagsgespräche, deren Zwecke vor allem im Gespräch selbst liegen. Ein einzelnes Gespräch zerfällt dabei in verschiedene Phasen, die ihren jeweiligen Zwecken entsprechend unterschiedlich klassifiziert werden. Als narrativ24 werden Einstiegs- und Überbrückungsphasen bezeichnet, in denen es darum geht, überhaupt ins Gespräch zu kommen bzw. den Fortgang des Gesprächs zu sichern. Diskursiv sind Phasen, in denen Sachverhalte, Bewertungen oder die Kommunikation selbst teilweise kontrovers behandelt werden. Die meisten analysierten Äußerungspaare treten in diskursiven Gesprächsphasen auf. Dabei kommt dem konversationeilen Erzählen25 (vor allem in Gespräch A) eine besondere Bedeutung zu. Direktiv sind Phasen, in denen außerhalb des Gesprächs liegende Handlungen vorbereitet oder gesteuert werden (auf wenige Passagen der Gespräche K, R und Ρ beschränkt). Die Teilnehmer der deutschen Gespräche stellen eine relativ homogene soziale Gruppe dar, weil sie zum Zeitpunkt der Aufnahmen ausnahmslos Studenten oder wissenschaftliche Mitarbeiter der Universität im Alter zwischen 23 und 30 Jahren sind. Hinsichtlich ihrer familiären Herkunft gehören sie zur Mittelschicht, 26 wobei nicht-akademische Elternhäuser dominieren. Die deutschen Gespräche werden von den Partnern von Lebensgemeinschaften geführt, zu denen im Gespräch Κ noch ein gemeinsamer Freund stößt. Auch die Teilnehmer der italienischen Gespräche sind zum größten Teil Akademiker, aber nur MM ist zum Zeitpunkt der Aufnahme als Studentin noch an der Universität aktiv. Das Alter der italienischen Sprecher liegt zur Aufnahmezeit zwischen 27 und 59 Jahren. Auch die Bandbreite der von ihnen repräsentierten sozialen Beziehungen ist größer. Gespräch Ρ wird von etwa gleichaltrigen Freundinnen (27 bis 30 Jahre) mit vergleichbarer akademischer Bildung geführt. In Gespräch Α unterhält sich ein Handwerkerehepaar (zwischen 45 und 50 Jahren) mit einer etwas jüngeren gemeinsamen Freundin, die als Lehrerin arbeitet. In Gespräch F reden hauptsächlich ein 59j ähriger Ehemann und eine 40jährige ehemalige Schülerin seiner Frau. Auch die italienischen Sprecher sind zur Mittelschicht zu rechnen. Das Zahlenverhältnis zwischen den Geschlechtern ist in den deutschen Gesprächen ausgeglichen. An den italienischen Gesprächen nehmen etwas mehr Frauen als Männer teil. Weibliches und männliches Sprachverhalten wurde nicht gesondert untersucht. Anatomisch bedingt liegen die Äußerungen von Frauen durchschnittlich in einem höheren Tonhöhenregister als die Äußerungen von Männern. Eine detaillierte Studie von Schirru (1995) zeigt, dass die durchschnittliche Sprechhöhe italienischer Männer bei 123 Hz liegt, die von Frauen hingegen bei 222 Hz. 27 Auch der durchschnittliche 24
25 26 27
Diese Klassifikation richtet sich nach den Handlungsdimensionen des Gesprächs von Henne und Rehbock ( 2 1982), S. 36f. Es gibt zahlreiche andere Klassifikationsansätze, vgl. den Forschungsüberblick und die Mehrebenenklassifikation von Texten und Gesprächen in Heinemann/Viehweger (1991), S. 129-175. Vgl. dazu Quasthoff (1980a, 1980b). Zum Begriff Schicht vgl. Wiehn (1987). Schirru (1995), S. 439.
114
ίο-Umfang weiblicher Äußerungen ist mit 253 Hz deutlich höher als der männlicher Äußerungen mit 117 Hz.28 Im Vineta-Korpus wird der durchschnittliche F 0 -Wert des tiefen Offsets als Durchschnittswert bestimmt und als universale Bezugsgröße verwendet. 29 In Abhängigkeit von diesem Durchschnittswert zeigt sich eine von der Sprache unabhängige Schichtenbildung: Die individuellen durchschnittlichen Werte für den tiefen Offset der Frauen liegen in beiden Sprachen zwischen 132 und 205 Hz, diejenigen der Männer zwischen 96 und 122 Hz.30 Die Registerunterschiede scheinen keine über die anatomisch bedingte Geschlechterdifferenzierung hinausgehende Funktion zu haben. Die für Tonhöhenvergleiche generell verwendete Maßeinheit Halbton neutralisiert die Wirkung des Faktors Geschlecht auf die Interpretation der Tonhöhenunterschiede. In der Literatur immer wieder benannte Unterschiede im Sprachverhalten von Männern und Frauen - gelegentlich wird sogar behauptet, Kommunikation zwischen Männern und Frauen sei „interkulturelle Kommunikation" - müssen sich am Einsatz sprachlicher Mittel zeigen lassen, die über den bloßen Registerunterschied hinausgehen. 31
4.1.4.2
Diatopie
Viele moderne Intonationsuntersuchungen nehmen nicht mehr eine mehr oder weniger abstrakte deutsche oder italienische Standardsprache in den Blick, sondern beschränken sich auf eine regionale Varietät. 32 Auch die Ergebnisse meiner Untersuchung haben primär für die Varietäten Geltung, in denen sie empirisch verwurzelt sind. Dennoch ist die Annahme einer Standardvarietät sowohl im Deutschen als auch im Italienischen sinnvoll. Die Standardvarietät ist das abstrakte Bezugssystem, das die Sprecher aktivieren, wenn sie sich mit Personen verständigen wollen, die nicht ihrer (regionalen oder lokalen) Gruppe angehören. Dieser Status der Standardsprache lässt sich besonders gut fürs Italienische zeigen, weil dem teilnehmenden Beobachter (in den Transkripten mit der Sigle »SF« bezeichnet) als Nicht-Muttersprachler im Italienischen von vornherein keine Dialektkompetenz zugeschrieben wird. Die Teilnehmer der Gespräche Α und Ρ sprechen Dialekt nur dann, wenn der Beobachter die Äußerung nicht verstehen muss bzw. nicht verstehen soll. Dieses funktional motivierte Codeswitching macht deutlich, dass den Sprechern die Unterschiede zwischen Standard 28
29 30
31 32
Dagegen beträgt der durchschnittliche Intensitätsumfang - bei annährend gleichem Mittelwert von 66 dB bei Männern gegenüber 67 dB bei Frauen - bei Männern 33,6 dB und bei Frauen nur 26,3 dB. Vgl. Schirru (1995), S. 439. Vgl. dazu Kap. 2.5.5, S. 56. Eine Tabelle im Anhang, S. XV, stellt Sozialdaten und Durchschnittswerte der Sprecher zusammen. Vgl. dazu Günthner (1992). Vgl. Caputo (1997) zu den Verhältnissen in Neapel, Savino/Refice (1997), Grice/Savino/Refice (1997) und Grice/Savino (1995) zu Bari und Grice (1995) zu Palermo. Vgl. fürs Italienische zusammenfassend Endo/Bertinetto (1997). Das Freiburg/Potsdamer Projekt untersucht die Stadtsprachen von Hamburg und Berlin. Vgl. dazu Auer et al. (1998), Auer (1998, 2001), Gilles (2000, 2001), Peters (1999, 2000a, 2000b) und Selting (1999). Ehlich/Schnieders (1998) und Ehlich (1992) nehmen die Varietäten von Wien, Hainburg, Stuttgart und Leipzig in den Blick.
115 und Dialekt wohlbewusst sind und dass sie die Varietäten zweckorientiert verwenden. Das schließt nicht aus, dass die Varietäten, die die Sprecher als Standardsprache aktivieren, remanente regionalsprachliche Merkmale aufweisen. Außerdem wird kontrovers diskutiert, welche Varietät heute als gesprochene italienische Standardsprache bezeichnet werden kann.33 Im Deutschen ist die Situation ähnlich. Die deutschen Sprecher haben zwar durchgehend weniger Dialektkompetenz als die italienischen, und in keiner ihrer Herkunftsregionen gibt es noch eine klassische Diglossiesituation. Weil dem teilnehmende Beobachter aber auch für die deutschen Varietäten regionalsprachliche Kompetenz fehlt, vermeiden auch die deutschen Sprecher regionalsprachlich markierte Äußerungen. Gespräch A: Das Gespräch wurde in Colico (Provinz Lecco, Region Lombardei) aufgenommen, einem kleinen Ort am nördlichen Ende des Comer Sees, der als Wassersportzentrum und durch das Zusammenlaufen von Straßen und Eisenbahnlinien aus dem Veltlin und aus Chiavenna nach Mailand eine gewisse lokale Bedeutung hat. Die Teilnehmer bilden eine relativ homogene Sprachgruppe: IC und SC sind gebürtig aus Colico, RM stammt aus Mailand, wohnte zum Aufnahmezeitpunkt aber schon länger als 15 Jahre in Colico. Die Lombardei ist in weiten Teilen durch eine Diglossiesituation zwischen Basisdialekt und (italienischer) Standardsprache geprägt: Ein regionalsprachliches Register zwischen Dialekt und Standard im Sinne einer lombardischen Koine scheint erst in Ansätzen zu existieren.34 Jedenfalls sind die Unterschiede zwischen den lombardischen Dialekten so groß, dass eine aus dem weniger als 100 Kilometer entfernten Bergamo stammende Kollegin des IFD, die ich um Hilfe bei der Transkription gebeten hatte, teilweise unüberwindliche Verstehensprobleme hatte. Basisdialekt und Standardsprache sind formal und funktional streng voneinander getrennt. Funktional heißt, dass Dialektäußerungen in Gespräch Α ausschließlich in VorwurfRechtfertigungs-Interaktionen und kommunikativen Konfliktsituationen vorkommen. Der Vorwurf wird im Dialekt geäußert, die Rechtfertigung bzw. der Gegenvorwurf erfolgt wieder im Standard. 35 Formal heißt, dass der Dialekt über ein eigenes System auf allen linguistischen Ebenen verfügt. Die Beschreibung des Dialekts von Colico kann nicht auf der Basis der wenigen Dialektäußerungen in Gespräch Α erfolgen. In Ubereinstimmung mit der Literatur zu den Dialekten in den Provinzen Como, Lecco und Sondrio lassen sich aber in Gespräch Α verschiedene typische Merkmale zeigen. Besonders auffällig sind die im italienischen Standard nicht enthaltenen Umlaute. Sie kommen in fast jeder Dialektäußerung vor 33
34
35
Vgl. einführend Lepschy/Lepschy (1977) und Berretta (1988). Die gesprochene Standardvarietät wird z.B. als italiano popolare (Berruto 1987, S. 105-138), als italiano dell'uso medio (Sabatini 1985), als italiano tendenziale (Mioni 1983) und als Annäherung an das milanesische Lombardisch als der Varietät mit dem höchsten Prestige (Galli de' Paratesi 1985) konzeptualisiert. Vgl. zur Situation in der Lombardei Spiess (1989), S. 182; ebenso Sanga (1997), S. 253 und Devoto/Giacomelli (®1991), S. 24. In weiten Teilen Italiens war Diglossie zwischen Dialekt und Standardsprache bis in die jüngste Zeit der Normalfall, vgl. Di Luzio (1988), S. 1293. Inzwischen scheinen die Regionalsprachen aber an Bedeutung zu gewinnen. A078-080, A338-343, A357-362. Siehe S. 191f.
116 (während die Metaphonie im milanesischen Lombardisch zurückgeht). 36 In PIÜ, ['pjy] (A359) entspricht [y] dem standardsprachlichen [u] in / ' p j u / . 3 7 Die 1. Pers. PL Präsens des Verbs mangiare, 'essen', die im Standard als /man'dgama/ realisiert wird, lautet im Dialekt [man'd3Dm] (A359). 38 In A079 gibt DIT, ['dit] den lateinischen Vokalismus aus /'dictum/ wieder und nicht die toskanische Weiterentwicklung zu / ' d e t t o / . Außerhalb von Vorwurf-Rechtfertigungs-Interaktionen kommt kein Basisdialekt vor. Das Wort sbiottare39 (A176) für spogliare, 'ausziehen' ist im modernen Standard nicht mehr bekannt und höchstens noch in Norditalien anzutreffen. Ein Element des Basisdialekts ist es der lautlichen Realisierung nach in A176 jedoch nicht. Gespräch F: Auch dieses Gespräch wurde in Colico aufgezeichnet, allerdings war die Teilnehmergruppe nicht homogen. Abgesehen von RM wohnte kein Teilnehmer zur Aufnahmezeit dauerhaft in Colico. GP stammt aus Palermo und EN, die kaum aktiv am Gespräch teilnimmt, ist deutsche Muttersprachlerin. Folglich wird F in der Standardsprache geführt. Die einzige Abweichung vom Standard besteht in gewissen sizilianischen Lautcharakteristika in GPs Äußerungen, so in F029, in der Konsonantenverdopplung bei [abbu'zato]. Gespräch Ρ: Die Aufzeichnung von Gespräch Ρ fand in Reggio di Calabria statt, der an der Straße von Messina gelegenen größten Stadt Kalabriens. Auch Kalabrien ist sprachlich keine Einheit. Rohlfs (1932, S. 10-15) schlägt eine Zweiteilung, Falcone (1976, S. 7) eine Dreiteilung und Trumper (1997, S. 356-361) eine Vierteilung vor. Die heutige Provinz Reggio war ein Kernland des antiken Großgriechenland, die Latinisierung und alle Phasen der italienischen Sprachentwicklung wurden von Sizilien vermittelt, was den Dialekt von Reggio demjenigen von Messina ähnlicher macht als dem der nördlichen kalabresischen Provinzen. Sizilianische Einflüsse reichen bis in den Kreis der Gesprächsteilnehmer: Der Vater von MR stammt aus der Provinz Messina, MM wurde in Messina geboren. Inwieweit die historische und alltagsweltliche Nähe Messina ist das regionale Oberzentrum, liegt in Sichtweite und ist mit dem Tragflügelboot in 30 Minuten erreichbar - dazu führt, dass die auch in Kalabrien vorherrschende Diglossiesituation in Richtung eines Regionaldialekts Reggio/Messina geöffnet wird, lässt sich auf der Grundlage der vorhandenen Daten nicht diskutieren. Weil alle Gesprächsteilnehmer immer in Reggio gelebt haben, ist die Verwendung des Basisdialekts in Gespräch Ρ ebenso möglich wie in Gespräch A. Basisdialekt und Standardsprache sind in Ρ allerdings funktional weniger klar verteilt als in A. Zwar wird auch in Ρ Dialekt vor allem in kommunikativen Konfliktsituationen verwendet (P030-033, P046), aber auch außerhalb von ihnen (P003, P019). Außerdem finden sich lautliche Merkmale des Dialekts von Reggio auch in lexikalisch und grammatisch standardsprachlichen Äußerungen. Das betrifft vor allem die Alternanz von [e] und [ι] bzw. [o] und [u] am Wortende und von [gw] und [v] am Wortanfang: 4 0 In sonst standardsprachlichen Äußerungen tauchen die nicht normgerechten Realisierungen [supe'rjori] 36
37 38 39 40
Sanga (1997), S. 255. Zur Metaphonie im Italienischen vgl. auch die umfangreiche Studie von Krefeld (1999). Sanga (1997), S. 254; Devoto/Giacomelli ( 5 1991), S. 22. Vgl. Sanga (1997), S. 254. Aus biut, 'nackt', vgl. Devoto/Giacomelli ( 5 1991), S. 27. Vgl. Devoto/Giacomelli ( 5 1991), S. 137; Rohlfs (1949), S. 286.
117
(P046), ['tjertu] (P035, P085) und ['varda] (P007, P020, P039) auf. Die nicht ganz klare Verteilung von Dialekt und Standard könnte damit erklärt werden, dass der teilnehmende Beobachter als einziges Gruppenmitglied ohne Dialektkompetenz zwar anwesend ist, aber nicht aktiv in das Gespräch von MR und RR eingreift. Die Dialektäußerungen sollen hier nicht im Detail analysiert werden.41 Es soll lediglich noch auf die Verbalflexion hingewiesen werden.42 Schon die wenigen Daten zeigen, dass die lateinischen Verhältnisse der 1. Pers. Sg. im Dialekt besser konserviert werden als im italienischen Standard: ['vaju] (P019) von lat. vado, ['staju] (P040) von lat. stajo als Ursprung der Kurzform sto und ['aju] (P046) von lat. habeo. Das lateinische facio hat sich im Dialekt von Reggio zu ['fattsu] (P046) entwickelt,43 während die Standardrealisierung /'fattjo/ lautet. Gespräch Η: Der Aufnahmeort von Gespräch Η ist Mainz. Die linguistische Situation dort unterscheidet sich erheblich von den beschriebenen italienischen Regionen, weil in den städtisch geprägten Regionen des Westmitteldeutschen eine durchgreifende Entdiglossierung stattfindet. Der Basisdialekt spielt kaum noch eine Rolle: „Die Sprecher werden sprachlich in einem sprechsprachlichen Gesamtsystem in Form eines Dialekt-Standard-Κontinuums sozialisiert, das weder zum Regionaldialekt noch zur Standardsprache erkennbare klare Einschnitte aufweist."44 Schon das schließt Codeswitching in der für die italienischen Varietäten beschriebenen Art aus. Sprecherin NH stammt aus dem unmittelbaren Mainzer Umland. Für sie trifft die zitierte Charakterisierung genau zu. Ihre in überdurchschnittlich vielen Anakoluthen erkennbare Unsicherheit ist wahrscheinlich weniger auf die direkte Wirkung der Aufnahmesituation zurückzuführen, als auf das Bemühen, eine möglichst korrekte Standardsprache zu sprechen. NH war zum Aufnahmezeitpunkt Studentin, dennoch ist ihre Sprachkompetenz eher im oberen Bereich des Kontinuums Neuer Substandard45 der Region anzusiedeln als in der deutschen Standardsprache selbst. Äußerungen der Form [,ιρ 'vaez ,ned] (H065) deuten daraufhin. Sprecher IH stammt aus dem Aachener Umland, für das ein den Verhältnissen im Ruhrgebiet ähnliches Standard-SubstandardKontinuum angenommen werden kann.46 Die Bergbaureviere Nordrhein-Westfalens zeichnen sich dadurch aus, dass Basisdialekte aufgrund sozialer Umwälzungen im 19. Jahrhundert in der Sprachrealität eine noch geringere Rolle spielen als zum Beispiel in Mainz. IHs Herkunft ist deshalb zwar hörbar, die remanenten lautlichen Substandardmerkmale sind bei ihm aber so schwach ausgeprägt, dass sie nicht in die Transkription nach GAT eingehen. Gespräch R: Die für das Gespräch Η beschriebene Sprachsituation gilt ähnlich auch für das Gespräch R, das zwar in Greifswald aufgenommen wurde, dessen Teilneh41
42 43 44 45 46
Vgl. zu den kalabresischen Dialekten generell Falcone (1976), zu den Vokalsystemen aus Sicht der nichtlinearen lexikalischen Phonologie Marotta/Savoia (1991) und Trumper/Romito/Μaddalon (1991). Vgl. dazu Falcone (1976), S. 73-81. Vgl. Rohlfs (1949), S. 452. Schmidt (1998), S. 171. Dort wird auch weiterführende Literatur genannt. Bellmann (1983), S. 124. Vgl. Schmidt (1998), S. 172.
118 mer aber aus Köln (SK) und Bielefeld (JB) stammen. Substandardmerkmale sind im Transkript nicht nachweisbar. Inwieweit die Sprecher in eventuellen Regionaldialekten aktive Kompetenz besitzen, lässt sich auf der Grundlage der vorhandenen Daten nicht beurteilen. Gespräch K: Das Gespräch wurde in Greifswald aufgenommen, alle drei Teilnehmer stammen aus Pommern. An der Küste gibt es für eine Minderheit noch eine Diglossiesituation (zweiter Ordnung) 4 7 zwischen Niederdeutsch und (hochdeutscher) Standardsprache. Die Küstenregion Mecklenburg-Vorpommerns gilt insgesamt als ein „relativ mundartfestes Gebiet". 4 8 Von den drei pommerschen Teilnehmern besitzt allerdings nur BB aktive Kompetenz im Niederdeutschen. Codeswitching kommt nicht vor. Die remanenten lautlichen Substandardmerkmale, die die Sprecher als Pommern ausweisen, sind so schwach ausgeprägt, dass sie in der GAT-Transkription nicht notierbar sind.
4.1.5
Transkription
Die Gesprächsaufnahmen werden in drei Arbeitsschritten transkribiert: 4 9 - Transkription des Wortlauts und wichtiger prosodischer Merkmale; - Transkription der Intonationskontur; - Messung des Grundfrequenz Verlaufs. Eine ideale Transkription würde eine Ausgangsqualität der Gesprächsaufnahmen voraussetzen, die mit dem vor allem der Natürlichkeit der Aufnahmesituation verpflichteten Setting nur selten erreicht wird. Die akustische Qualität der Aufnahmen wurde durch unterschiedliche Störgeräusche beeinträchtigt, zum Beispiel Straßen Verkehrslärm durchs offene Fenster (in Gespräch A), ein laufendes Fernsehgerät im Hintergrund (in P), lang andauerndes Rascheln mit Papiertüten (in K), knarrende Dielen (in K), häufiges Klimpern mit Geschirr und Besteck (besonders in Η und R) und Ahnliches. Obwohl die Gesprächsteilnehmer auf die meisten derartigen Störungen nicht erkennbar reagieren, sie wegen fehlender interaktiver Relevanz also nicht einmal als nonverbal-nonvokale Ereignisse in der Transkription festgehalten werden, verhindern sie in vielen Fällen verlässliche Messungen des Grundfrequenzverlaufs, manchmal auch die Transkription der Intonationskontur nach auditiven Kriterien. Für die optimale Aufarbeitung hinderlicher als die in der Regel singulären Störgeräusche ist jedoch die überlappende Rede mehrerer Sprecher, die beim Sprecherwechsel in ungesteuerten Gesprächen häufig ist. Schon wenn zwei Sprecher simultan reden, wird es schwierig, auch nur den Wortlaut der Redebeiträge zu transliterieren. Reden drei Sprecher simultan, ist die vollständige Transkription des Wortlauts fast ausgeschlossen. 50 Die Transkription der Gesprächsaufnahmen ist unter diesen Umständen so enorm aufwendig, dass eine vollständige Aufarbeitung des Ausgangskorpus' mit einer Länge von 3 | Stunden 47 48 49 50
Vgl. Stellmacher (1997), S. 100. Vgl. Herrmann-Winter (1997), S. 398. Die Transkription orientiert sich an den Prinzipien der Konversationsanalyse, vgl. S. 122f. Das gilt ungeachtet der Tatsache, dass die Überlappungen meist kurz bleiben. Siehe dazu auch unten, S. 125.
119 nicht möglich war. Die Transkription wurde auf die Gesprächsabschnitte beschränkt, in denen der Arbeitsaufwand und die Dichte des interaktiven Geschehens in einem angemessenen Verhältnis zueinander standen. Das traf für 26 Minuten aus deutschen Gesprächen und 20 Minuten aus italienischen Gesprächen zu. 51 Diese Aufnahmen mit insgesamt 46 Minuten Länge bilden das Vineta-Korpus, auf das sich alle empirischen Aussagen dieser Studie beziehen. Im ersten Schritt werden der Wortlaut und diejenigen prosodischen Merkmale transkribiert, die nötig sind, um Missverständnisse hinsichtlich der semantischen Struktur und pragmatischen Funktion der Einheiten im Gesprächskontext auszuschließen. Der Wortlaut wird transliteriert. Eine phonetische Umschrift mit den Symbolen des IPA ist für den Untersuchungszweck nicht erforderlich und wird aus arbeitsökonomischen Gründen unterlassen. Die Transkription erfolgt im Rahmen des Gesprächsanalytischen Transkriptionssystems (GAT). 5 2 GAT ist ein zeilenorientiertes Transkriptionssystem, in dem der Zeile der Texttransliteration beliebig viele weitere Zeilen für die Feintranskription der Intonation, die phonetische Transkription oder - bei fremdsprachigen Gesprächen - eine Interlinearübersetzung hinzugefügt werden können. Die Texttransliterationszeile gibt neben der grammatischen und lexikalischen Struktur sowie Kommentaren und Beschreibungen von nonverbalen und nonvokalen Ereignissen folgende prosodische Merkmale wieder: 53 Akzente (durch Majuskeln markiert), Pausen (Angabe der gemessenen Zeit), letzte Tonhöhenbewegung der Intonationseinheit (durch die Zeichen » . « für 'tief fallend', > ; « für 'mittel fallend', » - « für 'gleichbleibend', » , « für 'mittel steigend' und » ? « für 'hoch steigend', die nicht als Satzzeichen missverstanden werden dürfen), außergewöhnliche Tonhöhensprünge (durch Pfeile nach oben oder unten) und globale Charakteristika von Äußerungen oder Außerungsteilen wie besondere Lautstärke, besonderes Register und dergleichen (durch die aus der Musik bekannten italienischen Abkürzungen » f « , » p « etc. und die daran angelehnten Registerangaben s>h« für 'hoch' und » t « für 'tief'). Der Zeilenumbruch wird am Ende der Intonationseinheit vorgenommen. Intonationseinheit und Turnkonstruktionseinheit fallen zusammen. Von diesem Darstellungsprinzip wird dann abgewichen, wenn durch seine Einhaltung die Kenntlichkeit der zeitlichen Stellung von Äußerungen verschiedener Sprecher zueinander leiden würde, wenn also simultan gesprochene Äußerung nicht mehr als solche deutlich werden würden. In diesen Fällen werden entweder mehrere Intonationseinheiten in einer Zeile komprimiert, oder eine Intonationseinheit über mehrere Zeilen gestreckt dargestellt (was durch das Fehlen des die letzte Tonhöhenbewegung bezeichnenden Transkriptionszeichens erkennbar ist). Die Transkription der Intonationskontur erfolgt in einer eigenen Zeile. Die Intonationskontur wird durch Töne aus dem in Kap. 2.6.1 eingeführten Toninventar repräsentiert. Weil der Tonhöhenverlauf und nicht der Grundfrequenzverlauf die Intona51
Ein großer Teil von Gespräch Ρ konnte auch deswegen nicht berücksichtigt werden, weil die Stromversorgung des Aufnahmegeräts durch eine defekte Steckdose instabil war. Gespräch Κ besteht zum größten Teil aus zwei Interviews, die aus den oben geschilderten Gründen nicht berücksichtigt wurden.
52
Selting et al. (1998). Zu Details siehe S. XHIf.
53
120 tion trägt, wird die Kontur wie ausgeführt auditiv bestimmt. 5 4 Die auditive Analyse wird auch deshalb vorgezogen, weil sie in vielen Fällen die Notation der Intonationskontur selbst dort zulässt, wo Störgeräusche oder Simultansprechen die akustische Analyse unmöglich machen. Meine eigenen Beiträge ( » S F « ) werden in der Intonationsanalyse nicht berücksichtigt. Die Messung des Grundfrequenzverlaufs liefert Werte, die die Ergebnisse der auditiven Intonationsanalyse als unabhängige Außenevidenzen absichern. Außerdem ermöglicht sie die Quantifizierung dieser Ergebnisse, den phonetischen Vergleich identischer Akzenttonfolgen und damit der Identifizierung der intonatorischen Verfahren. Die Messung des Grundfrequenzverlaufs erfolgt mit dem in Kap. 2.6.2 beschriebenen technischen Instrumentarium und wird in einer dritten Zeile notiert. Als Fo-Wert für einen einfachen Ton wird der Fo-Wert angegeben, der sich im letzten Drittel der Bezugssilbe befindet. Die Transkription einer Äußerung - im Beispiel A333 - ist damit ein Komplex aus vier Zeilen - Wortlaut/Akzentstruktur, Intonationskontur, Grundfrequenzwerte, Interlinearübersetzung - , dem die Außerungsnummer und die Sprechersigle voranstehen: A333 SC: per suonAre esto clAcson ha fatto BI:P BI:P (-) e bAata. Π. H+T*HH+T* Τ- H* H*HH+T*T-T'/. 167 (221)172 263 176 159 286 303 157 122 beim Hupen hat diesen Hupe piep piep gemacht, und Schluss
4.2
Funktionskategorien
Es gibt keine systematische Beschreibung des oben (S. 106) postulierten Systems des Verhaltens in Gesprächen. Allerdings untersuchen Wissenschaften wie die kognitive Anthropologie, die Soziologie und die analytische Philosophie auf unterschiedliche Weise Möglichkeiten menschlichen Verhaltens. Die Gesprächsanalyse nimmt von den allgemeinen Arbeiten dieser Disziplinen ihren Ausgang und wendet sie auf die verbale Interaktion an. In der deutschen und internationalen Gesprächsanalyse dominieren die ethnomethodologische Konversationsanalyse und die sprechakttheoretische Dialoganalyse. Diese beiden Ansätze nehmen zwar nicht alle Möglichkeiten menschlichen Verhaltens in Gesprächen in den Blick. Man kann aus ihnen jedoch eine Menge von Verhaltenskategorien gewinnen, die nach heutigem Stand der Wissenschaft zur Beschreibung der wichtigsten Aspekte konversationeller Interaktion ausreicht. Nach einer Einführung der Grundkonzepte von Konversations- und Dialoganalyse (Kap. 4.2.1 und 4.2.2) und einer Stellungnahme zur Auseinandersetzung zwischen den mit den Ansätzen verbundenen „Schulen" (Kap. 4.2.3) werden die Verhaltenskategorien expliziert (Kap. 4.2.4).
54
Pierrehumbert (21987), S. 4 übersieht meines Erachtens diesen Umstand, wenn sie unter Verweis auf die Unsicherheit der Ohrenphonetik die Tonzuweisung vom Grundfrequenzverlauf abhängig macht.
121 4.2.1
Ethnomethodologische Konversationsanalyse
Die ethnomethodologische Konversationsanalyse ist die Ausformulierung des ethnomethodologischen Programms für die konversationeile Interaktion. 5 5 Ethnomethodologie war ein Unternehmen zur Erneuerung der Soziologie in den 50er Jahren. 5 6 Garfinkel (1967) versuchte, mit der Ethnomethodologie ein Instrumentarium zu konzipieren, mit dem die Vorgänge in der vorher von der Soziologie ignorierten „Lücke" zwischen der allgemeinen sozialen Ordnung einer Gesellschaft und den konkreten Handlungen und Wahrnehmungen ihrer Mitglieder sichtbar gemacht werden können. 5 7 Die Lücke entsteht daraus, dass zwar jede Gesellschaft über gültige Normen für alle Bereiche des täglichen Lebens verfügt; deren Gültigkeit konditioniert aber kein konkretes Verhalten. Die Normen sind keine konstitutiven Regeln, ohne deren Anwendung bestimmte Handlungen oder Wahrnehmungen nicht zustande kommen könnten. Paradoxerweise werden Handlungen und Wahrnehmungen in konkreten Interaktionen aber so produziert, als sei die Produktion unabhängig vom Interaktionsprozess. Die Ethnomethodologie deckt diese Mechanismen auf und geht „von der Prämisse aus, daß die Handelnden das, was sie im alltäglichen Handeln als vorgegebene soziale Tatsachen, als unabhängig von ihrem Zutun existierende Realität wahrnehmen und behandeln, erst in ihren Handlungen und Wahrnehmungen als solche hervorbringen." 5 8 Das Interesse der Ethnomethodologie gilt nicht der inhaltlichen Bestimmung der Normen, sondern den Verfahren, mit denen die Gültigkeit von Normen für konkrete Handlungen und Wahrnehmungen ausgehandelt wird. Diese Aushandlung erfolgt nicht willkürlich oder subjektiv, sondern nach Methoden, die für alle Gesellschaftsmitglieder zugänglich (accountable) sind. Wenn das nicht der Fall ist, kann keine gesellschaftliche Interaktion erfolgen. Aushandlung darf hier nicht im Sinne eines demokratischen Entscheidungsfindungsprozesses missverstanden werden. Aushandlung bedeutet, dass die Normen einer Gesellschaft in jeder Situation in ihre Gültigkeit stets neu eingesetzt werden müssen. Dafür stehen stabile Methoden zur Verfügung, über die erwachsene und psychisch gesunde Gesellschaftsmitglieder verfügen. Die Durchsetzung von Normen durch die Androhung von Sanktionen bei Nichteinhaltung widerspricht nicht dem Konzept der Aushandlung. Im Gegenteil ist Sanktionsmöglichkeit notwendige Bedingung des Aushandlungsprozesses. Konstitutive Regeln sind dagegen nicht sanktioniert, weil sie nicht nicht beachtet werden können: Wenn zum Beispiel die Regeln eines Schachspiels nicht eingehalten werden, drohen keine Sanktionen, sondern es findet schlicht kein Schachspiel statt. 5 9 55
56
57 58 59
Vgl. die deutschen Überblicksdarstellungen von Bergmann (1994, 1981) und die italienische Darstellung von Marcarino (1997). Vgl. zur Entwicklung und theoretischen Konzeption der Ethnomethodologie die umfangreichen Ausführungen bei Patzelt (1987), S. 9-150 und die von Weingarten, Sack, Schenkein (1976) und der Arbeitsgruppe Bielefelder Soziologen (1973) herausgegebenen Sammelbände. Zur Bedeutung Gaxfinkels vgl. Heritage (1984). Bergmann (1994), S. 6. Aus diesem Grund ist es verwirrend und irreführend, wenn in ethnomethodologischen Abhandlungen immer wieder von (konstitutiven) Regeln die Rede ist, wo (empirische) Regularitäten gemeint sind.
122 Die Methoden, mit denen in Gesellschaften Aushandlungsprozesse durchgeführt werden, sind der Untersuchungsgegenstand der Ethnomethodologie. Die Konversationsanalyse konzentriert sich auf die Aushandlungsprozesse in der konversationeilen Interaktion. Die Methodik der Konversationsanalyse ist nirgendwo systematisch niedergelegt. Statt von einer ausgearbeiteten Methodik spricht Bergmann (1994, S. 28) deshalb von einer „Heuristik des konversationsanalytischen Vorgehens". Während aber anfangs Konversationsanalyse als unscharfer Oberbegriff für verschiedene Ansätze der Gesprächsanalyse verwendet wurde, 60 ist die Konversationsanalyse nach einer Reihe methodologischer „Reparaturversuche" in den 80er Jahren 6 1 heute in einer wohldefinierten Analysepraxis fundiert.
4.2.1.1
Aushandlungsprozesse in Gesprächen
Für die Aushandlung von kommunikativem Sinn in der konversationellen Interaktion gelten folgende Prämissen: 1. Objekt des Aushandlungsprozesses ist die gesamte Wirklichkeit, der kommunikative Sinn ebenso wie seine Entstehungsbedingungen, das heißt, die zugrunde liegende Situation. 2. Die Sinnkonstitution wird im Aushandlungsprozess ständig kontrolliert und bewertet. 3. Der Aushandlungsprozess erfolgt soweit wie möglich implizit. Daneben ist die Beziehungsgestaltung durch die Aufrechterhaltung der Images für das Funktionieren der konversationeilen Interaktion grundlegend. Goffman (1971, S. 10) definiert Image (engl, face) als „ein in Termini sozial anerkannter Eigenschaften umschriebenes Selbstbild." Jeder Interaktionsteilnehmer hat ein Image, für dessen Schutz die Interaktionsgruppe gemeinsam verantwortlich ist. Die Zerstörung des Images eines Interaktionsteilnehmers führt in der Regel zum Scheitern der Interaktion. 6 2 Prämisse 1 hat zur Folge, dass jedes Gespräch Objekt konversationsanalytischer Untersuchungen sein kann. Das besondere Interesse der Konversationsanalyse richtet sich zwar auf ungesteuerte Alltagsgespräche ohne klare Themenbindung (wie die in dieser Arbeit untersuchten Gespräche im Freundes- und Bekanntenkreis, beim Kaffeetrinken und bei Tisch), aber auch die in der Dialoganalyse bevorzugt behandelten Formen institutioneller Kommunikation können konversationsanalytisch untersucht werden. Im Unterschied zur Dialoganalyse, die solche Kommunikation mit theoretisch konzipierten Mustern zu erfassen versucht, hat die Konversationsanalyse den Anspruch der Unvoreingenommenheit. Die Interaktionsteilnehmer sind in der Sinnkonstitution autonom. Handlungs- und Wahrnehmungsmuster werden in jedem Gespräch neu entwickelt. Deshalb ist der Ausgangspunkt der Konversationsanalyse das authentische Gespräch selbst, während die Dialoganalyse im authentischen Gespräch vorher konstruierte abstrakte Kategorien wiederfinden will. Als Daten gelten in der Konversationsanalyse ausschließlich (au60 61 62
So z.B. in Kallmeyer/Schütze (1976). Vgl. Streeck (1989, 1983). Vgl. zur Imagearbeit allgemein Goffman (1971), zur Imagearbeit in Gesprächen im Deutschen Holly (1979).
123 diovisuelle) Aufzeichnungen und Transkriptionen authentischer Gespräche. Abstrakte Muster und imaginierte Gespräche haben keinen Datenstatus und können nicht als Belege herangezogen werden. Die Konservierung der Gespräche auf Ton- oder Bildträger ist notwendig, um im Laufe der Analyse immer wieder auf den Gesprächsverlauf in seiner Vollständigkeit zurückkommen zu können. Diese Vollständigkeit kann in der Gesprächstranskription nicht wiedergegeben werden: Die Fülle der Rohdaten ist in natürlichen Gesprächen unüberschaubar.63 Die Autonomie der Sinnkonstitution in jeder Interaktion bedingt aber, dass kein scheinbar bedeutungsloses Detail des Gesprächsverlaufs a priori aus der lYanskription ausgeschlossen werden darf. In der Transkription werden alle Daten vermerkt, die nach dem jeweiligen Erkenntnisstand potentiell Bedeutung tragen. Objekt des Aushandlungsprozesses ist nicht nur die Sinnkonstitution im engeren Sinn, sondern auch die ihr zugrunde liegende kommunikative Situation: Die Interaktionsteilnehmer verständigen sich darauf, was aus der Fülle der Daten in der Umgebung natürlicher Gespräche als Kontext relevant gemacht, das heißt, „kontextualisiert" wird. Dieser Prozess wird mit dem auf Cook-Gumperz und Gumperz (1976) zurückgehenden Begriff der Kontextualisierung umrissen. Mit der Kontextualisierungstheorie wird der zuvor als außersprachliche Konstante angesehene Kontext als Variable in die Konversationsanalyse integriert.64 Mit Kontextualisierungshinweisen (contextualization cues) wird eine Verbindung zwischen dem unterstellten oder vermuteten Kontextwissen der Interaktionsteilnehmer und dem beobachtbaren interaktiven Geschehen hergestellt. Der Konversationsanalytiker kann aufgrund seines Weltwissens den Interaktionsteilnehmern zwar ein gewisses Kontextwissen zuschreiben und auf dieser Grundlage den Kontext des Gesprächs definieren. Damit ist aber nicht erwiesen, welches Wissen die Gesprächsteilnehmer zur Produktion des Kontexts tatsächlich einsetzen. Auer (1986, S. 23) führt aus, dass selbst scheinbar objektive Fakten wie die Rollen 'Ärztin' und 'Patient' in der medizinischen Kommunikation eben nicht objektiv gegeben sind, sondern erst durch entsprechende Kontextualisierungshinweise in ihre Gültigkeit eingesetzt werden. Das geschieht zum Beispiel dadurch, dass die 'Ärztin' mit entschiedener oder lauter Stimme das Gespräch mit der Frage nach dem Zustand des 'Patienten' eröffnet, während dieser zurückhaltend oder leise die gewünschte Auskunft gibt. Dieselben natürlichen Personen können in einem anderen Zusammenhang ganz andere Rollen einnehmen: Zum Beispiel kann der 'Patient' 'Lehrer' sein und die 'Ärztin' als 'Schülerin' in einer Fremdsprache unterrichten. Auer (1986, S. 24) definiert: Unter Kontextualisierung wollen wir all jene Verfallren verstehen, mittels derer die Teilnehmer an einer Interaktion für Äußerungen Kontext konstituieren. Solche Verfahren stellen zwischen zwei essentiellen Bestandteilen eine Verbindung her: einem empirisch gegebenen (beobachtbaren) Datum, das der kontextualisierende Teilnehmer aus einem Zei63 64
Vgl. die Taxonomie in Henne/Rehbock ( 2 1982), S. 62. Vgl. die Überblicksdarstellung in Auer (1986), außerdem die neueren Arbeiten von Auer (1992) und Gumperz (1992a, 1992b). Gumperz' eher kognitivistische Konzeption von Kontextualisierung ist nicht vollkommen deckungsgleich mit dem hier erläuterten gesprächsanalytischen Konzept. Einführend zum Begriff Kontext in verschiedenen Wissenschaftsdisziplinen sind Goodwin und Duranti (1992).
124 chenvorrat sprachlicher und nichtsprachlicher Art auswählt - dem Kontextualisierungshinweis ("contextualization cue") -, und einer Komponente des Hintergrundwissens. Wir wollen davon ausgehen, daß dieses Hintergrundwissen in Form von Schemata organisiert ist. Kontextualisierungsverfahren sind also dadurch bestimmt, daß in ihnen bestimmte Kontextualisierungshinweise auf eine bestimmte Art eingesetzt werden, um Schemata aus dem Hintergrundwissen verfügbar zu machen.
Als Kontextualisierungshinweise treten vor allem sprachliche Mittel auf, die nicht durch den Transfer propositionaler Bedeutungen gebunden sind. Den Signalisierungssystemen Intonation und Gestik kommt hier eine besondere Bedeutung zu. 65 Die in Kap. 4.3 explizierten intonatorischen Verfahren werden dementsprechend auch als Kontextualisierungshinweise verstanden. Prämisse 2: Erst durch die von den Interaktanten vorgenommene gesprächsbegleitende Kontrolle und Bewertung wird die Sinnkonstitution im Gespräch beobachtbar. Isolierten Äußerungen kann der Analytiker Sinn nur unter Rückgriff auf seine individuelle Kompetenz als Sprachteilhaber zuschreiben. Konversationsanalytische Sinnzuschreibung erfordert die Berücksichtigung der Nachfolgeäußerungen, weil sich in ihnen die Sinnzuschreibung der Interaktanten selbst ausdrückt. Konversationsanalyse ist Sequenzanalyse. Der Sinn einer Äußerung als von den Interaktanten geteilter Sinn erschließt sich erst unter Berücksichtigung der Nachfolgeäußerungen.66 Der Projektion des Sinns von den Nachfolge- auf die Ausgangsäußerung auf Analyseseite entspricht die Vorwegnahme der Reaktionen im Partnerdesign der Äußerung auf der Produktionsseite. Partnerdesign (recipient design) bedeutet, dass die Interaktanten das Format ihrer Äußerungen auf die spezifische Situation einschließlich der unterstellten Erwartungen der Interaktionspartner zuschneiden: With "recipient design" we intend to collect a multitude of respects in which the talk by a party in a conversation is constructed or designed in ways which display an orientation and sensitivity to the particular other(s) who are the coparticipants. 6 7
Untersuchungseinheit der Konversationsanalyse ist also nicht die einzelne Äußerung, der Sprechakt, sondern die Gesprächssequenz. In der Sequenzanalyse rekonstruiert der Konversationsanalytiker die Methodik der Aushandlung in Äußerung und Nachfolgeäußerungen. Prämisse 3 besagt, dass der Aushandlungsprozess nur zu einem geringen Teil auf der explizit-verbalen Ebene erfolgt. Bei der Rekonstruktion des interaktiven Geschehens müssen Präsuppositionen und Implikaturen berücksichtigt werden. Präsuppositionen sind jedoch nicht einfach vorgegeben, sondern ihre Gültigkeit wird gemäß Prämisse 1 ausgehandelt: Mit Kontextualisierungshinweisen verständigen sich die Interaktions65
66
67
Vgl. Selting (1995), S. 10; Gumperz (1992b), S. 231f.; Auer (1986), S. 26. Speziell zur Gestik vgl. Heath (1992). Ein Interaktant stellt mit seiner initialen Äußerung ein Objekt in den kommunikativen Raum, das von den Interaktionspartnern in den Nachfolgeäußerungen ihren Interpretationen entsprechend bearbeitet wird. Nachfolgeäußerungen sind also progressiv, indem sie das Gespräch voranbringen und reaktiv, indem sie Verstehenskontrollen und Bewertungen produzieren. Sacks/Schegloff/Jefferson (1978), S. 43.
125 teilnehmer über eigenes oder dem anderen unterstelltes Kontextwissen. Prinzipiell wird die Aushandlung immer dann explizit-verbal, wenn Probleme auftauchen und es zu kommunikativen Konflikten kommt.
4.2.1.2
Untersuchungsfelder der Konversationsanalyse
In der Praxis der Konversationsanalyse hat sich die Analyse bestimmter Verfahren als besonders wichtig für die Rekonstruktion des interaktiven Geschehens erwiesen. Besondere Bedeutung in der Forschungsgeschichte und für die Erfordernisse der kontrastiven Intonationsanalyse haben drei Bereiche: - die Organisation des Sprecherwechsels; - die sequentielle Organisation des Gesprächs; - die Reparaturen. Sprecherwechsel ist konstitutiv für Gespräche aller Art. Durch Sprecherwechsel wird das Gespräch in Turns bzw. Redezüge gegliedert. Ein Turn besteht wiederum aus einer oder mehreren Turnkonstruktionseinheiten. Bei der Konstruktion der Turnkonstruktionseinheit wirken Grammatik, Lexik und Intonation zusammen, in den meisten Fällen können Turnkonstruktionseinheit und Intonationseinheit gleichgesetzt werden.68 Die Ubergabestelle (transition-relevance place) befindet sich jeweils am Ende einer Turnkonstruktionseinheit. Die Rederechtsübergabe erfolgt auch in ungesteuerten Alltagsgesprächen weitgehend reibungslos, die Überlappungen von Redebeiträgen unterschiedlicher Sprecher bleiben kurz.69 Dafür verfügen die Interaktanten über Techniken zur Signalisierung des Turnkonstruktionseinheitenendes (possible completion point). Sacks, Schegloff und Jefferson (1978, S. 34) deuten an, dass für die Projektierung des Einheitenendes syntaktische Mittel entscheidend sind. Sacks, Schegloff und Jefferson (1978, S. 12f.) skizzieren die Grundzüge des Sprecherwechselsystems, indem sie in einer (irrigerweise in Regeln formulierten)70 sog. „einfachen Systematik" zusammenfassen, was an einer Ubergabestelle im Gespräch passieren kann: - Das Rederecht wird vom aktuellen Sprecher einem anderen Interaktanten zugewiesen: Fremdselektion (current speaker selects next). - Ein anderer Interaktant übernimmt den Turn eigeninitiativ: Selbstselektion (selfselection). - Der aktuelle Sprecher behält das Rederecht und setzt seinen Turn fort. Weil in einem funktionierenden Gespräch nicht mehrere Interaktanten längere Zeit gleichzeitig sprechen können, ist das Rederecht eine „Mangelware",71 deren Verteilung zu Konflikten führen kann. Grundsätzlich gilt: Wer redet, redet zu Recht. Mit 68 69
70 71
Vgl. dazu die ausführliche Darstellung bei Selting (1995), S. 50-177. Levinson ( 2 1994), S. 295 berichtet von Untersuchungen, nach denen nur 5 % des Redestroms in Gesprächen simultan gesprochen wird. Vgl. dazu die Kritik von Searle (1992), S. 15ff. Levinson ( 2 1994), S. 296.
126 der Verteilung der Rollen 'Sprecher', 'Adressat' und 'Zuhörer' 72 ist eine soziale Ordnung etabliert, der Legitimität zuerkannt wird. Veränderungen stehen prinzipiell im Verdacht fehlender Legitimation. Selbstselektion löst in vielen Fällen einen „Kampf um das Rederecht" aus. Selting (1995, S. 178-231) beschäftigt sich intensiv mit der Organisation des Sprecherwechsels und der Rolle der Prosodie für die gegenseitige Verständigung darüber. Zusätzlich zur oben zitierten einfachen Systematik entwirft sie eine Taxonomie für die Kontextualisierung überlappender Rede durch den Sprecher, also für Verhaltensmöglichkeiten in konfliktträchtigen Situationen (Kampf um das Rederecht). 73 Überlappende Rede kann entweder turnkompetitiv als Turnbeanspruchung oder Turnverteidigung kontextualisiert werden oder nicht-turnkompetitiv als Hintergrundkommentar. Im Fall der turnkompetitiven überlappenden Rede ist eine nicht-legitime von einer legitimen Turnbeanspruchung oder Turnverteidigung zu unterscheiden. Inwieweit die letzte Unterscheidung prosodisch zu rechtfertigen ist, wird zusammen mit den anderen sprachlichen Mitteln, die Selting anführt, in Kap. 5 diskutiert. Mit dem Prinzip der sequentiellen Organisation ist gemeint, dass Außerungsfolgen als sinnhafte Verkettung von Handlungen aufgefasst werden. Während die Dialoganalyse versucht, die Zusammengehörigkeit von Äußerungen handlungslogisch zu erklären, beschränkt sich die Konversationsanalyse darauf festzustellen, dass Interaktanten bestimmte Äußerungen als Sequenz konstituieren und dass sich statistisch bestimmte Sequenztypen festmachen lassen. Am häufigsten werden Paarsequenzen (adjacency pairs) wie Frage-Antwort oder Gruß-Gegengruß genannt. 74 Auf eine Äußerung reagiert der Adressat an der nächsten Ubergabestelle mit einer (inhaltlich abhängigen) Gegenäußerung. Dass Paarsequenzen Teilnehmerkategorien sind, ist in den Fällen belegbar, in denen der zweite Teil der Paarsequenz ausbleibt und eingefordert wird. Paarsequenzen wie Frage-Antwort oder Gruß-Gegengruß sind institutionalisiert. Durch die Äußerung des ersten Teils der Sequenz wird ein konventionalisiertes Handlungsmuster aufgerufen, welches eine bestimmte Reaktion des Interaktionspartners erwartbar macht. Schegloff (1972, S. 363ff.) führt dafür den Begriff der konditioneilen Relevanz (conditional relevance) ein, der ausdrückt, dass ein Interaktant mit der Äußerung des ersten Teils einer Paarsequenz einen slot öffnet, für den einbestimmter filier seitens des Adressaten im Handlungsmuster vorgesehen ist: By conditional relevance of one item to another we mean: given the first, the second is expectable; upon its occurence it can be seen to be a second item to the first; upon its nonoccurence it can be seen to be officially absent - all this provided by the occurence of the first item. 75
72
73
74 75
Bei Gesprächen mit mehr als zwei Teilnehmern kann es notwendig sein, zwischen 'Adressat' und 'Zuhörer' zu unterscheiden. Alle Gespräche des Vineta-Korpus haben mehr als zwei Teilnehmer. Vgl. das Schema in Selting (1995), S. 228. Selting (1995), S. 208f. übernimmt ihre Klassifikation aus Studien zur englischen Prosodie von French/Local (1983). Vgl. Schegloff/Sacks (1973), S. 295ff. Schegloff (1972), S. 364.
127 Reparaturen sind Modifikationen, die die Interaktionsteilnehmer an kommunikativen Objekten vornehmen, die den Erfordernissen der Situation nicht genügen und damit die Interaktion stören. Schegloff, Jefferson und Sacks (1977, S. 363) unterscheiden den Oberbegriff Reparatur von der Spezifikation Korrektur: Korrekturen sind immer Reparaturen, aber Reparaturen wie Präzisierungen, Formulierungsarbeit (word search) und dergleichen sind keine Korrekturen. Reparaturen werden nach Art ihrer Initiierung (repair-initiation) und ihrer Durchführung (repair-outcome) in einer doppelten Binärunterscheidung in selbstinitiierte Selbstreparaturen, fremdinitiierte Selbstreparaturen, selbstinitiierte Fremdreparaturen und fremdinitiierte Fremdreparaturen klassifiziert. Das Morphem selbst- bezieht sich auf den Interaktanten, der das die Interaktion störende kommunikative Objekt produziert hat. 76 Selbstinitiierte Selbstreparaturen werden meist in dem Turn initiiert und ausgeführt, in dem sich auch das Reparandum (trouble source) befindet. Die Interaktionspartner nehmen aus Gründen der Imageschonung in der Regel keine eigeninitiative Turnübernahme zum Zwecke einer Reparaturinitiierung vor und lassen sogar Ubergabestellen verstreichen, um dem Produzenten des Reparandums die Möglichkeit zur Selbstreparatur zu lassen.77 In seltenen Fällen wird die Selbstreparatur im dritten Turn initiiert und durchgeführt.78 Die Fremdinitiierung von Reparaturen erfolgt im zweiten Turn, die Reparatur kann einige weitere Züge in Anspruch nehmen. Wenn im zweiten Turn keine Fremdinitiierung und auch im dritten Turn keine Selbstinitiierung vorgenommen wird, findet oft überhaupt keine Reparatur mehr statt: Der Raum für die Initiierung einer Reparatur (repair-initiation opportunity space) ist lediglich drei Redezüge lang.79 Schegloff, Jefferson und Sacks (1977, S. 370ff.) stellen in ihrer Untersuchung fest, dass Selbstreparaturen quantitativ sowohl nach Selbst- als auch nach Fremdinitiierung präferiert und dass die seltenen Fremdreparaturen in ihrer Form meist abgeschwächt sind.80 Selting untersucht in zwei Studien fremdinitiierte Selbst- (1987a) und Fremdkorrekturen (1987b) im Deutschen. Sie konzeptualisiert Fremdinitiierungen in diesem Zusammenhang als Manifestationen lokaler Verstehens- und Verständnisprobleme. Fremdinitiierte Selbstreparaturen bestehen aus drei Phasen: aus „(1) Problemmanifestation durch den Problemträger", d.h. durch den Interaktanten, der die Reparatur (fremd-)initiiert, „(2) Problembearbeitung durch den Rezipienten von (1) oder durch den Problemträger und den Rezipienten von (1) gemeinsam und (3) Signalisierung der Problemlösung durch den Problemträger".81 In den Phasen (1) und (2) wird das 76 77 78 79 80
81
Vgl. hier und im Folgenden Schegloff et al. (1977), S. 364-370 Selting (1987b), S. 52 widerspricht dieser Einschätzung von Schegloff et al. (1977). Vgl dazu Schegloff (1997). Vgl Schegloff et al. (1977), S. 375. Was mit dem Interesse gegenseitiger Imageschonung erklärt werden kann, vgl. Selting (1987b), S. 56. Theoretisch denkbar und empirisch nachweisbar sind für fast alle Arten von Reparanda sowohl Selbst- als auch Fremdreparaturen. Es ist fraglich, ob die von Schegloff et al. (1977), S. 370, Fn. 18 angeführte präferiert selbstinitiierte Selbstreparatur von Grammatikfehlern wirklich eine Ausnahme darstellt. Nicht abgeschwächte Fremdkorrekturen werden meist als Zeichen für eine über den Effekt des lokalen Reparandums hinausgehende Störung der Interaktion interpretiert. Vgl. Schegloff et al. (1977), S. 380. Selting (1987a), S. 130.
128 Reparandum jeweils einem Problemtyp zugeschrieben. Selting (1987a) unterscheidet drei Typen von Problemen unterschiedlicher Präferenz in der Interaktion. 8 2 1. „Akustische Verstehensprobleme" liegen vor, „wenn der Rezipient einer Äußerung den vorherigen Sprecher [...] auffordert, einen Teil bzw. die gesamte voraufgegangene Äußerung zu wiederholen bzw. zu reformulieren." 2. „Semantische Zuordnungsprobleme liegen vor, wenn der Problemträger signalisiert, daß er die voraufgegangene Äußerung des Interaktionspartners nicht interpretieren kann, weil er einzelnen Elementen oder der gesamten Äußerung keine Bedeutung zuordnen kann." 3. „Lokale Erwartungsprobleme" liegen vor, wenn gilt: „Der Problemträger kann [...] dem Bezugselement durchaus eine Bedeutung zuordnen, allerdings ist dieses Bezugselement für ihn unerwartet bzw. steht gar im Widerspruch zu seinen Erwartungen und seinem Wissensrahmen über relevante Sachverhalte im Bezugskontext." Auf die Manifestation eines Problemtyps in Phase (1) reagiert der Interaktionspartner in vielen Fällen mit der Realisierung eines entsprechenden Problembearbeitungtyps in Phase (2). Von Rekategorisierung des Problemtyps in Phase (2) spricht man, „wenn der Rezipient der Problemmanifestation nicht mit einem der erwartbaren bzw. konditionell relevanten Verfahren der Problembearbeitung reagiert, sondern mit einer Problembearbeitung, die zu einem anderen Problemtyp "gehört"." 8 3 Die Problemtypen akustisches Verstehensproblem, semantisches Zuordnungsproblem und lokales Erwartungsproblem sind in absteigender Reihe präferiert. Im Sinne der Schonung des Images aller Interaktionsteilnehmer wird ein akustisches Verstehensproblem präferierter manifestiert, bearbeitet und rekategorisiert als ein semantisches Zuordnungsproblem. Dieses wird wiederum einem lokalen Erwartungsproblem vorgezogen. Die Verfahren und sprachlichen Mittel zur Manifestation und Bearbeitung von Problemen werden in den Kapiteln 5.1.1 bis 5.1.3 untersucht. 84
4.2.2
Sprechakttheoretische Dialoganalyse
Die sprechakttheoretische Dialoganalyse ist der Versuch, Konzepte der Sprechakttheorie auf die konversationeile Interaktion zu übertragen. 8 5 Der Reflexion über die Konstitution von Sprechakttypen wird in der Dialoganalyse die linguistische Analyse der sprachlichen Mittel ihrer Realisierung und die Entwicklung von Prinzipien für die Verkettung einzelner Sprechakte zu Sequenzen und Dialogtypen hinzugefügt. Der Weg von der Sprechakttheorie zur Dialoganalyse ist länger als derjenige von der Ethnomethodologie zur Konversationsanalyse. 86 Die Sprechakttheorie steht in der Tradition 82 83 84
85
86
Die Zitate der folgenden Liste sind aus Selting (1987a), S. 132, 134 u. 139. Selting (1987a), S. 143. Diese Arbeit nimmt die Kategorien von Selting (1987a), S. 131-142 auf. Alternativvorschläge machen Bührig (1996), Gülich/Kotschi (1995) und Gülich (1994). Mit sprechakttheoretischer Dialoganalyse ist hier und im Folgenden die Dialoganalyse der sog. Hundsnurscher-Schule gemeint. Vgl. die Überblicksdarstellung in Hindelang (1994). Vgl. zur Sprechakttheorie die Gründungsschriften von Austin (1962) und Searle (1969, dt. 1983) und die Formalisierung von Searle/Vanderveken (1985). Zur kritischen Weiterentwicklung der Sprechakttheorie vgl. Rolf (1997a, 1986). Zu Unterschieden und Über-
129 einer (analytischen) Sprachphilosophie, die mehr eine Philosophie des Geistes und des Bewußtseins als eine Philosophie des Sprechens ist. Sprechen wird in ihr nicht in Analogie zu Interagieren, sondern in Analogie zu Denken konzeptualisiert. Searle (1984, dt. 1987) setzt zwar Denken und Sprechen nicht gleich, weil vorsprachliche Intentionalität zum Beispiel bei Kindern unbestreitbar sei. 87 Zwischen illokutionären Akten in der Sprache und intentionalen Zuständen im Geist sieht Searle aber so weitgehende Analogien, dass er illokutionäre Akte als intentionale Zustände ausdrückt: Der illokutionären Rolle im Sprechakt entspricht der psychische Modus im intentionalen Zustand, dem propositionalen Gehalt im Sprechakt der Repräsentationsgehalt im intentionalen Zustand. 88 Die Fundierung der Dialoganalyse in der Philosophie ist einerseits eine Hypothek für die linguistische Analyse. Sie eröffnet aber andererseits Erkenntnismöglichkeiten, die der Konversationsanalyse fehlen. Die Dialoganalyse kann konversationelle Interaktion als zweckgerichtetes sprachliches Handeln in den Blick nehmen. Dafür haben sich in der hier betrachteten Form der Dialoganalyse zwei Methoden entwickelt: die verlaufsorientierte und die musterorientierte Beschreibung von Gesprächen.
4.2.2.1
Verlaufsorientierte Beschreibung
In der verlaufsorientierten Beschreibung89 wird jedem Redezug bzw. jeder Turnkonstruktionseinheit eines (transliterierten) Gesprächs eine illokutionäre Rolle zugewiesen. Ein authentisches Gespräch wird so als Abfolge von Realisierungen abstrakter Sprechakttypen rekonstruiert. Für die Explizierung der illokutionären Rolle als Ausdruck des intentionalen Zustands hat sich nach Searle (1987, S. 50f.) eine Metasprache aus den Kategorien WOLLEN (voluntativer Modus) und GLAUBEN (epistischer Modus) und wenigen zusätzlichen logischen Operatoren als ausreichend erwiesen. 90 Bei der Zu-
87 88
89 90
einstimmungen von Sprechakttheorie und Dialoganalyse vgl. Hindelang (1994), S. 96-100. Die italienische Rezeption dokumentiert Sbisä (1989). Searle (1987), S. 20. Vgl. Searle (1987), S. 21. Nach Searle ist diese Analogie nicht allein methodisch begründet, sondern durch eine psychisch reale Verbindung. Searle (1987), S. 2 1 / 2 5 : „Sprache leitet sich von der Intentionalität her [...], der Vollzug des Sprechaktes ist mit Notwendigkeit ein Ausdruck des entsprechenden intentionalen Zustands." Intentionalität ist ein Zentralbegriff der Philosophie des Geistes und wird vielleicht am besten mit 'Gerichtetheit' expliziert. Absicht ist nur eine von verschiedenen Formen von Intentionalität. Der Begriff Intentionalität spielt eine große Rolle in der Philosophiegeschichte, im 20. Jahrhundert vor allem durch Husserl. Vgl. dazu z.B. Husserl ( 2 1982). Es bleibt mir unverständlich, wie Searle (1987), S. 1 2 / 4 6 die Tradition bewusst und willentlich ignorieren und Versuche der Begriffsbestimmung als notwendigerweise zirkulär abtun kann. Vgl. Hindelang (1994), S. lOOff. Mötsch (1995), S. 144-149 entwickelt auf der Grundlage von Searles Überlegungen die Notationsformel Ε : INT (ρ). Die illokutionäre Rolle wird darin als intentionaler Zustand konzeptualisiert, der zusammengesetzt ist aus den Variablen » E « für den 'Einstellungsträger' (Sprecher oder Hörer), » I N T « für den 'intentionalen Modus' (WOLLEN oder GLAUBEN; „inferentielle Modi" wie MÖGLICH oder N O T W E N D I G gehen als Voraussetzungen in die Ziele der intentionalen Modi ein) und » p « als den
130 Schreibung von illokutionären Rollen zu Äußerungen ist der Dialoganalytiker mit dem Problem konfrontiert, dass sprachliche Mittel keine eindeutigen Illokutionsindikatoren sind. Bei der Konstituierung der die illokutionäre Rolle tragenden Außerungsbedeutung interagieren pragmatische Präsuppositionen und konversationeile Implikaturen mit grammatischer und lexikalischer Bedeutung. 91 Deshalb bleibt die Zuschreibung dialoganalytisch spekulativ und allein in der Sprachkompetenz des Analytikers begründet. Die Zuschreibung der von den Interaktanten konstituierten Sprechakte kann durch eine (konversationanalytische) Sequenzanalyse sichergestellt werden.92
4.2.2.2
Musterorientierte Beschreibung
Ausgangspunkt der musterorientierten Beschreibung93 ist nicht das authentische Gespräch, sondern das Gedankenexperiment: Der Dialoganalytiker denkt sich einen Dialogzweck und entwirft daraufhin ein globales dialogisches Handlungsmuster. Dann rekonstruiert er das Muster in authentischen Gesprächen. Dabei wird auch von überzeugten Dialoganalytikern zugestanden, dass nicht jede Form konversationeller Interaktion sinnvoll als Realisierung eines zweckgerichteten Handlungsmusters untersucht werden kann. Searle (1992, S. Iff.) verweist selbst auf grundlegende Unterschiede zwischen Sprechakt und Gespräch. Es sei prinzipiell nicht möglich, in Analogie zu den Regeln, die Sprechakte konstituieren, Regeln zu formulieren, die Gespräche konstituieren: The reason that conversations do not have an inner structure in the sense that speech acts do is not (as sometimes claimed) because conversations involve two or more people, but because conversations as such lack a particular purpose or point. Bach illocutionary act has an illocutionary point, and it is in virtue of that point that it is an act of that type. 9 4
Dessenungeachtet gibt es mindestens in institutionalisierter Kommunikation Dialoge, denen ein globaler Handlungszweck zuzuschreiben ist, dem die einzelnen Redezüge
91
92 93 94
'Repräsentationsgehalt'. Kommunikative Sprecherintentionen hängen vom voluntativen Modus ab und haben die Form: S : WOLLEN(H : INT(p)). Der gewollte psychische Modus des Hörers bleibt eine Variable. Eine assertive Illokution hat die Form S : WOLLEN(H : GLAUBEN(p)) - verbalisiert: 'Der Sprecher will, dass der Hörer glaubt, dass p'. Dabei wird S : GLAUBEN(p) - 'Der Sprecher glaubt, dass p' - vorausgesetzt, was selbst ein intentionaler Zustand, aber keine kommunikative Intention ist. Eine direktive Illokution hat die Form S •. WOLLEN(H : WOLLEN{jp)) - verbalisiert: 'Der Sprecher will, dass der Hörer will, dass p'. Vorausgesetzt wird S •. GL AU Β EN (Qp), verbal: 'Der Sprecher glaubt, dass ρ möglich ist'. Zum Stand der Forschung zur pragmatischen Implikation vgl. die Auswahlbibliographie von Meggle/Rolf (1993), außerdem Rolf (1994) und die von Rolf (1997b) und Liedtke (1995) herausgegebenen Sammelbände. Siehe unten, S. 137. Vgl. Hindelang (1994), S. 105ff. Searle (1992), S. 20.
131 der Gesprächsteilnehmer zuarbeiten. 95 Das Vineta-Korpus enthält keine Formen institutionalisierter Kommunikation. Diese Art der Dialogmusterbeschreibung soll nicht vertieft werden. In der Analyse von Alltagsgesprächen ohne globalen Handlungszweck lässt sich eine andere Form musterorientierter Beschreibung anwenden. Die Abfolge von Redezügen in einer Gesprächsequenz kann als Abfolge lokaler Handlungsziele der Interaktionsteilnehmer rekonstruiert werden. Der Handlungsgehalt der Redezüge der Sequenz wird in Relation zum Handlungsgehalt des initialen Sprechakts bestimmt. Damit entsteht eine funktionale Phase mit folgender Struktur: Interaktant 1 formuliert mit dem initialen Sprechakt ein lokales Handlungsziel. Interaktant 2 - seine Rationalität und Kooperationsbereitschaft vorausgesetzt - reagiert darauf in mehr oder weniger responsiver Weise. 96 Entweder akzeptiert der Adressat das Handlungsziel von Interaktant 1 und die Konsequenzen, die sich daraus für ihn selbst ergeben, oder er weist es ganz oder teilweise zurück. Der Sprechakt des Adressaten veranlasst wiederum den Produzenten des initialen Sprachakts zu einer mehr oder weniger responsiven Reaktion. Die so an einer beliebigen Stelle im Gespräch konstruierbare funktionale Phase kann durch Nachfolgezüge weiter ausgebaut werden. Die konsequenteste mir bekannte Ausarbeitung dieser Konzeption hat Franke (1990) vorgelegt. Franke (1990, S. 108-122) konzeptualisiert Dialog als eine Struktur, die 1. aus einem in funktionale Phasen gegliederten dialogischen Kern, 2. einem für das soziale Setting notwendigen situativen Rahmen und 3. einem kommunikativen Vor- und Nachfeld, in dem die Voraussetzungen für den Handlungszweck des Dialogs ausgehandelt werden, besteht. Einzelne Handlungsziele werden in separaten funktionalen Phasen verfolgt, die spezifische Dialogmuster abbilden. Im Kontext kommen funktionale Phasen allerdings nicht „rein" vor: Sie werden expandiert oder reduziert, addiert oder gekreuzt, um das Erreichen des jeweiligen Handlungsziels zu befördern. Wenn ein lokales Handlungsziel erreicht worden ist, spricht Franke (1990, S. 22) von einem Minimal-Dialog: Vollzieht ein Sprecher S1 eine initiale Sprechhandlung, so strebt er, wie wir bereits festgestellt haben, ein bestimmtes Handlungsziel an. Dieses Handlungsziel ist in d e m Augenblick erreicht, in d e m sein Interaktionspartner S2 auf den Initialsprechakt von S1 mit der Abgabe eines positiven Bescheids reagiert.
Initiale Sprechhandlung sind die aus der Searleschen Taxonomie bekannten Typen. Für ihre Konstitution gelten die in dieser Tradition beschriebenen Bedingungen. 97 95
96
97
Siehe z.B. die Analysen medizinischer und therapeutischer Kommunikation von Nothdurft et al. (1994), Ehlich et al. (1990) und Bliesener/Köhle (1986), die Untersuchungen zur Kommunikation vor Gericht von Hoffmann (1989) und die Studie zum Verkaufs-/EinkaufsGespräch von Hundsnurscher/Franke (1985). Schwitalla (1979), S. 133 definiert responsiv als „die Qualität eines respondierenden Aktes, die den Grad angibt, wie sehr der Antwortzug auf T h e m a u n d / o d e r Intention des initiierenden Zuges eingeht." Vgl. Searle und Vanderveken (1985) und Rolf (1997a).
132
Abb. 4.1: Sprechhandlungsmöglichkeiten im 1. und 2. Zug Abb. 4.1 stellt die Handlungsmöglichkeiten des zweiten Zuges graphisch dar. 9 8 Interaktant 2 kann auf den initialen Sprechakt ( » I S A « ) entweder gegeninitiativ ( » G I S A « ) oder reaktiv antworten. Entscheidet sich Interaktant 2 für einen reaktiven Sprechakt, so handelt er entweder „spezifisch" durch Akzeptieren ( » P B « ) oder Ablehnen ( » N B « ) des im ISA ausgedrückten Handlungsziels oder „nichtspezifisch" durch einen entscheidungsvorbereitenden oder -umgehenden Sprechakt, womit das lokale Handlungsziel in der Schwebe bleibt. Mit welchen Sprechakttypen die Positionen ausgefüllt werden können, hängt im Falle gegeninitiativer und spezifischer reaktiver Typen vom Typ des ISA ab. Franke (1990, S. 19-21) nennt für die Sequenz ISA-PB als mögliche Kombinationen 'bitten-zusagen', 'fragen-antworten', 'behaupten-zustimmen' und 'vorschlagen-akzeptieren', für die Sequenz ISA-NB 'bitten-abschlagen', 'fragen-Antwort verweigern', 'behaupten-bestreiten' und 'vorschlagen-ablehnen', für die Sequenz ISA-GISA die Kombinationen 'Vorschlag-Gegenvorschlag', 'Angebot-Gegenangebot', 'Behauptung-Gegenbehauptung' und 'Vorwurf-Gegenvorwurf'. Nichtspezifische reaktive Sprechakte können im Anschluss an jeden beliebigen ISA geäußert werden. Franke (1990, S. 19f.) nennt als entscheidungsvorbereitende Sprechakte 'einwenden', 'anzweifeln' und 'Bedenken äußern', und als entscheidungsumgehende Sprechakte 'ausweichen', 'zurückweisen', 'verzögern', 'ablenken' und 'übergehen'. 99 Das lokale Handlungsziel - und damit ein abgeschlossener Minimal-Dialog - ist nur nach Erteilung eines positiven Bescheids erreicht: Der P B signalisiert, dass Konsens über das lokale Handlungsziel besteht und der perlokutionäre Akt des ISA erfolgreich durchgeführt wurde. 98 99
Vgl. Pranke (1990), S. 15-25. Das Schema ist angelehnt an Hindelang (1994), S. 106. Zu den nicht-spezifischen reaktiven Sprechakten vgl. auch Pranke (1981).
133
Abb. 4.2: Sprechhandlungsmöglichkeiten im 2. bis 4. Zug Abb. 4.2 100 zeigt (vereinfacht) die Handlungsmöglichkeiten des dritten und vierten Zuges. Interaktant 1 hat im dritten Zug drei Möglichkeiten, auf das Scheitern des perlokutionären Aktes (in NB oder GISA) zu reagieren: 101 1. Sprecher 1 verzichtet darauf, sein ursprünglich angestrebtes Handlungsziel zu erreichen; er expliziert diesen Verzicht im Vollzug retraktiver Sprechakte. 2. Sprecher 1 modifiziert sein ursprüngliches Handlungsziel und bringt es in abgeänderter Form erneut im Vollzug revidierender Sprechakte in den Dialog ein. 3. Sprecher 1 hält an einem ursprünglichen Handlungsziel fest und bringt es durch den Vollzug re-initiativer Sprechakte erneut ins Spiel.
Ein retraktiver Sprechakt (»RETSA«) im dritten Zug schließt die Sequenz als Minimal-Dialog (markiert mit > # « ) ab. Interaktant 1 vollzieht einen RETSA als resignierenden Sprechakt, wenn er sein lokales Handlungsziel nicht gegen den Widerstand von Interaktant 2 durchsetzen kann. Wenn Interaktant 1 dagegen einsieht, bei Formulierung des Handlungsziels von ungültigen Voraussetzungen ausgegangen zu sein, vollzieht er einen RETSA als revozierenden Sprechakt. Die revidierenden Sprechakte (»REVSA«) 'Einschränkung', 'Alternativ-Angebot' und 'Kompromißvorschlag' sind typisch für Aushandlungsdialoge, die sich idealerweise durch REVSA-REVSAAbfolgen auszeichnen. Reinitiative Sprechakte (»REISA«) können dazu dienen, das Verständnis des lokalen Handlungsziels abzusichern (verständnissichernde Sprechakte) oder das Handlungsziel gegen den Widerstand des Adressaten durchzusetzen (in100 101
Vgl. Pranke (1990), S. 26-41. Schema nach Hindelang (1994), S. 108. Franke (1990), S. 27.
134
sistierende Sprechakte). 102 Im vierten Zug und allen weiteren Zügen bestehen dieselben Handlungsmöglichkeiten wie im dritten Zug. Der erfolgreiche Abschluss eines Minimal-Dialogs ist an den Vollzug eines RETSA gebunden.
4.2.3
Dialoganalyse und/oder Konversationsanalyse?
Konversationsanalyse und Dialoganalyse sind gesprächsanalytische Ansätze mit unterschiedlicher wissenschaftsgeschichtlicher Fundierung. In diesem Abschnitt soll gezeigt werden, dass sie deswegen nicht als antagonistisch aufgefasst werden müssen. Es wird stattdessen vorgeschlagen, sie als komplementär zu begreifen und fruchtbar miteinander zu verbinden. Obwohl eine solche Verbindung in weiten Teilen der Linguistik noch auf Unverständnis stoßen wird, zeichnet sich zur Zeit doch eine Öffnung bisher orthodox vertretener Positionen ab. So argumentiert Uhmann (1997) analog zur hier vertretenen Auffassung für eine Kombination von Konversationsanalyse und generativer Grammatikforschung. Die Zielsetzung der Sprachwissenschaft liegt schließlich nicht primär im Beleg der Stimmigkeit bestimmter Theorien, sondern in der Rekonstruktion des Phänomens Sprechen. Uhmann schreibt: Ein wichtiger Schritt hierzu wäre schon dann getan, wenn man akzeptiert, daß man [...] beide Kompetenzbereiche - die des native speakers, der weiß, welche Wortfolgen seiner Sprache grammatische Sätze sind, und die des native members, der in Interaktionen den Regeln seiner Gemeinschaft entsprechend handeln kann - analysieren muß, wenn man zu einem Gesamtbild dessen kommen will, was es heißt, Mitglied einer Sprachgemeinschaft [...] zu sein. 1 0 3
Ethnomethodologie ist ursprünglich eine Bewegung zur methodischen Erneuerung der Soziologie, die Sprechakttheorie ist bis heute in Bewusstseinsforschung und Philosophie verankert. Die Konversationsanalyse konzentriert ihre Arbeiten auf die formalen Mechanismen, mit denen Menschen ihre kommunikative Interaktion regeln. Die Dialoganalyse zielt dagegen auf die Kompetenz zur Konstruktion handlungslogisch spezifizierter Dialogmuster ab. Diese Kompetenz umfasse ein System von Regeln, durch deren korrekte Anwendung wohlgeformte Dialoge erzeugt würden. Mit der Übernahme der Begriffe Kompetenz, idealer Sprecher/Hörer, Wohlgeformtheit und schließlich der Formulierung des Ziels einer Dialoggrammatik stellt Hundsnurscher (1980, S. 91f.) die Dialoganalyse in den Rahmen der generativen Grammatik. Authentische Gespräche werden bis zu dem Punkt von der Dialoganalyse erfasst, bis zu dem sie regelhaft verlaufen. 104 Dialoganalyse ist kognitive Linguistik und deshalb notwendigerweise mit der Fundamentalkritik interaktionistisch und pragmatisch orientierter Gesprächsanalytiker 102
Pranke (1983) und (1990), S. 42-61 beschäftigt sich intensiv mit den insistierenden Sprechakttypen, die auch in meiner kontrastiven Analyse eine besondere Bedeutung haben. 103 Uhmann (1997a), S. 5. Vgl. die Exemplifizierung dieses Programms bei Uhmann (1997a) und am Beispiel der Selbstreparaturen in Uhmann (1997b). 104 Vgl. Hundsnurscher (1986), S. 47.
135 konfrontiert. Levinson ( 2 1994, S. 285-293) reformuliert das Ziel der Dialoganalyse105 als Beschreibung eines Inventars von Diskurseinheiten, die durch Sequenzierungsregeln zu wohlgeformten Dialogsequenzen verkettet werden. Als Diskurseinheiten werden im Allgemeinen Sprechakttypen verwendet. Levinsons Hauptkritik an diesem Ansatz besteht darin, dass man weder einen Algorithmus für die Zuweisung von Sprechakttypen zu Äußerungen angeben, noch überhaupt sinnvoll von nicht-wohlgeformten Sequenzen sprechen kann. 106 Selbst Vertreter des Birmingham Approach räumen ein, dass sich für jede beliebige Außerungssequenz eine Situation imaginieren lässt, in der die vermeintliche ill-formedness der Sequenz in einer wohlgeformten Struktur aufgehoben wird. 107 Schegloff (1988, S. 61) kritisiert, dass die Sprechakttheorie als philosophische Schöpfung die Bedeutung des je spezifischen Kontexts und die indexikalische Qualität natürlicher Gespräche nicht erfassen könne. Abweichungen von idealen Gesprächssequenzen können nur als „Verunreinigungen" kognitiver Muster aufgefasst werden. Folglich muss die Dialoganalyse vor konversationellen Konstrukten kapitulieren, die sich nicht am Schreibtisch konstruieren oder in Experimenten abrufen lassen, sondern nur in natürlichen Gesprächen vorkommen und allein aus der Sequenz, das heisst, aus den Nachfolgeäußerungen erklärt werden können. In fourth position repairs108 nimmt Interaktant 2 im vierten Zug der Sequenz eine Umdeutung seiner im zweiten Zug geäußerten Interpretation des ersten Zuges von Interaktant 1 vor. Dem ersten Zug von Interaktant 1 muss also Potential für zwei verschiedene Sprechakttypen zugeschrieben werden, ein Problem, das für die Dialoganalyse kaum lösbar ist. 109 Diese Kritik an einer als Dialoggrammatik verstandenen Dialoganalyse ist berechtigt. Searle (1992, S. 20) räumt ein, dass es für Gespräche keine konstitutiven Regeln der Art gibt, wie sie bei der Konstituierung von Sprechakten wirksam werden (siehe oben). Muster wie das von Franke (1990) eingeführte sind starr, weil sie nur den erfolgreichen Vollzug oder das Scheitern lokaler Handlungsziele kennen, und nicht die Nuancen, die für Aushandlungsprozesse in natürlicher Interaktion typisch sind. Andererseits ist berechtigte Kritik auch gegen die Konversationsanalyse vorzubringen. Bei der postulierten strikten Beschränkung auf formale Mechanismen muss jeder inhaltliche Aspekt ausgeklammert bleiben. 110 Formale Mechanismen, zum Beispiel die Rederechtszuweisung, sind aber unter Verzicht auf inhaltliche Kategorien, zum Beispiel das Rederechtszuweisungspotential, das im Sprechakttyp 'Frage' steckt, kaum zu erklären.111 Taylor und Cameron (1987, S. 117ff.) zeigen, dass konsequent formales konversationsanalytisches Arbeiten grundsätzlich nicht zu Erkenntnisgewinnen über 105
Levinson ( 2 1994), S. 287 kritisiert nicht die Dialoganalyse in der oben ausgeführten Form, sondern bezieht sich auf die unter dem Etikett Diskursanalyse versammelten Vertreter der mit der Hundsnurscher-Schule vergleichbaren sog. Britischen Diskursanalyse bzw. des „Birmingham Approach". Siehe dazu Sinclair und Coulthard (1975), Coulthard ( 2 1 9 8 5 ) und die Darstellung in Lörscher und Schulze (1994).
Vgl. Vgl. 1 0 8 Vgl. 1 0 9 Vgl. U0Vgl. 1 1 1 Vgl. l06
107
Levinson ( 2 1994), S. 290f. Taylor/Cameron (1987), S. 78. Schegloff (1988), S. 57ff. dazu auch Franke (1990), S. lOff. Hundsnurscher (1980), S. 90. Searle (1992), S. 8.
136 die Organisation kommunikativer Interaktion führt: Wenn eine Äußerung niemals aus sich selbst heraus, sondern immer aus der Folgeäußerung beurteilt wird, gerät die Analyse in einen infiniten Regress: In other words, the analyst, in attempting to apply in practice the principles of accountability and displayed intersubjectivity, is left to choose between (a) relying on intuition to identify the conversational work a turn is doing, a method the ethnomethodological approach was designed, at least in part, to improve or (b) abandoning any hope of identification, thanks to the infinite regress applying those principles entails. 1 1 2
In der Praxis der Konversationsanalyse wird deshalb das Gebot des rein formalen Vorgehens stillschweigend verletzt. Der Konversationsanalytiker bringt seine Kompetenz als Mitglied der Sprachgemeinschaft ins Spiel. Seine Intuitionen werden schon bei der Auswahl und Transkription der zu interpretierenden Gesprächssequenzen wirksam. 113 Außerdem bleibt die Konversationsanalyse nicht bei der Rekonstruktion des je spezifischen Gesprächssinns stehen, sondern sucht in spezifischen formalen Mechanismen „ein generatives Prinzip [...], das in der Lage ist, sowohl die Ausgangsdaten in ihrer jeweiligen Spezifität zu reproduzieren, als auch neue Fälle zu erzeugen, die als in der Realität mögliche Ereignisse erkennbar sind." 114 Die Anklänge an die generative Grammatik sind unüberhörbar. Diese „Inkonsequenzen" sind mit Blick auf das Erkenntnisinteresse aber gerechtfertigt. Die Konversationsanalyse hat sich in ihrer Frühphase mit Recht auf detaillierte Einzelanalysen beschränkt, um die Grenzen und Unzulänglichkeiten traditioneller und generativer Grammatikschreibung hinsichtlich konversationeller Interaktion aufzuzeigen. Das darf aber nicht in einen dauerhaften Verzicht auf Generalisierungen münden, die (in bestimmten Grenzen) Prognosen über Sprachverhalten in konversationeller Interaktion möglich machen würden. Die Konversationsanalyse muss sich des Umstandes bewußt sein, dass sie mit dem Beharren auf ihren methodischen Prinzipien am Beginn des neuen Jahrtausends vielerorts offene Türen einrennt und dass die Zeit immer neuer Einzelanalysen, die auf die Unübertragbarkeit ihrer Ergebnisse auf andere Situationszuammenhänge pochen, vorbei ist. Deshalb werden in dieser Arbeit Kategorien aus Konversations- und Dialoganalyse nebeneinander verwendet. Die Domäne der Konversationsanalyse sind die formalen Mechanismen in der Organisation der konversationellen Interaktion. Das sind hier konkret die konversationellen Reparaturen und die Verhaltensmöglichkeiten im Kampf um das Rederecht. Die Domäne der Dialoganalyse sind die handlungslogischen Einheiten, durch die Gespräche inhaltlich kohärent werden, hier: die Verhaltensmöglichkeiten zum Ausdruck von inhaltlichem Dissens. Die Anwendung des Wohlgeformtheitsbegriffs auf Gespräche ist generell unangemessen. Wohlgeformtheit kann weder mit Gesprächstranskriptionen belegt werden noch haben Sprachteilhaber hinsichtlich der Gesprächsstrukturen ähnlich klare Intuitionen wie hinsichtlich der Syntax, in der die Wohlgeformtheit von Sätzen mit relativ hoher Verläßlichkeit beurteilt werden kann. Anstelle von Wohlgeformtheit lässt sich in der Dialoganalyse aber sinnvoll 112
Taylor/Cameron (1987), S. 122. Vgl. Bergmann (1994), S. 12; Searle (1992), S. 19f.; Pranke (1990), S. 139f. 114 Bergmann (1994), S. 11. 113
137 mit Angemessenheit oder Erwartbarkeit115 bei der Beschreibung von Sequenzen operieren. So betrachtet sind beispielsweise Dialogmuster mit konversationsanalytischen Paarsequenzen kompatibel. Während die Konversationsanalyse deren Aufeinanderbezogensein statistisch belegt, expliziert die Dialoganalyse ihre Zusammengehörigkeit inhaltlich. Andererseits lassen sich mit Hilfe der konversationsanalytischen Sequenzanalyse illokutionäre Rollen sicher zuweisen. Streeck (1983, S. 91) fasst die Leistungen der Sequenzanalyse für die Dialoganalyse folgendermaßen zusammen: Die Bestimmung des Handlungspotentials, das eine Äußerung im konkreten Fall realisiert, verlangt eine Konsultation ihrer sequentiellen Umgebung; nicht die einzelne sprachliche Handlung, sondern allein die Aktivitätssequenz ist als Einheit für die Analyse geeignet. Hierfür sprechen u.a. folgende Gründe: erstens, es gibt zahlreiche Äußerungen oder Äußerungstypen, deren "Tun" (doing) sich ausschließlich ihrer sequentiellen Plazierung verdankt; zweitens, in zahllosen Fällen ist das Tun einer Äußerung intuitiv nicht erschließbar oder widerspricht der Intuition des Analysierenden und kann deshalb nur in seinen Resultaten, d.h. den sequentiellen Folgen, wiedergefunden werden; drittens, Sequenzierung ist ein Mechanismus, der Beteiligten nicht nur zur Verkettung ihrer Handlungen, sondern auch zur wechselseitigen Demonstration ihres Verstehens von Äußerungen, d.h. zur Verständigung dient; und viertens verflüchtigt sich fast immer das Problem, daß einer Äußerung verschiedene "illokutive" Lesarten zugeordnet werden können, sobald man ihre sequentielle Umgebung untersucht und dabei herausfindet, welche Lesarten die Beteiligten selbst bevorzugt haben.
Die Fundamentalkritik, die Taylor und Cameron (1987) an allen gängigen gesprächsanalytischen Verfahren üben, soll hier zurückgewiesen werden. Taylor und Cameron (1987, S. 159ff.) kommen nach der Überprüfung der theoretischen Stimmigkeit der Ansätze zu dem Ergebnis, dass alle Verfahren - einschließlich Konversations- und Dialoganalyse - Spielarten eines rules and units approaches sind. Das heißt, sie gehen von Einheiten aus, die mittels Regeln verkettet werden. Weil dieser Ansatz aber unbeweisbare Prämissen enthalte, müsse er als ganzer verworfen werden. Die Sprachwissenschaft müsse eine völlig neuartige Konzeption entwerfen. Eine solche rigide Haltung ist meines Erachtens dem linguistischen Erkenntnisinteresse nicht förderlich. Es ist gezeigt worden, dass durch Kombination von Methoden aus Konversations- und Dialoganalyse Defizite der jeweils isolierten Ansätze ausgeglichen werden können.
4.2.4
Verhaltenskategorien: Übersicht
In der Analyse werden sieben, aus Konversations- und Dialoganalyse gewonnene Kategorien für das Verhalten in Gesprächen berücksichtigt. 51 von 55 deutschen und italienischen Außerungspaaren des Vineta-Korpus kann mindestens eine dieser Kategorien zugeschrieben werden.116 Entscheidend dafür, ob eine Kategorie primär kon1 1 5 Vgl.
Kohrt (1986), S. 75. deutschen Äußerungspaaxen werden die zusätzlichen Kategorien 'Turnzuweisung', 'Ratifizierung', 'revidierender Sprechakt' und 'retraktiver Sprechakt' zugeschrieben. Diese Kategorien gehen nicht in den Sprachvergleich ein, weil sie in italienischen Äußerungspaaren nicht ausgeführt werden.
1 1 6 Vier
138 versationsanalytisch oder primär dialoganalytisch konstituiert wird, ist die explikative Kraft der entsprechenden Konzeptualisierung für die im Vineta-Korpus betrachteten Phänomene. Diese Phänomene sind auch ausschlaggebend für die genaue Festlegung weitgefasster oder mehrdeutiger Ausgangskategorien. Bei den Kategorien handelt es sich um: 1. Selbstinitiierte Selbstreparaturen: Als selbstinitiierte Selbstreparatur wird das Verhalten eines Interaktanten bezeichnet, der in einem Redezug ein defizitäres kommunikatives Objekt produziert und repariert, ohne dass die Interaktionspartner auf diesen Vorgang beobachtbar reagieren. 2. Bearbeitung akustischer Verstehensprobleme: Mit Bearbeitung eines akustischen Verstehensproblems wird ein Verhalten von Interaktant 1 im dritten Zug der Gesprächssequenz bezeichnet: Interaktant 1 führt eine Selbstreparatur durch, die durch die Manifestation eines akustischen Verstehensproblems von Interaktant 2 im zweiten Zug initiiert wird. Die Bearbeitung eines akustischen Verstehensproblems wird in Übereinstimmung mit Selting (1987a, S. 133f.) festgelegt. Franke (1990, S. 31) rechnet solche verständnissichernden Sprechakte m.E. unzutreffenderweise zur Gruppe der reinitiativen Sprechakte. 3. Lokale Erwartungsprobleme: Die Kategorie Manifestation eines lokalen Erwartungsproblems wird als Verhaltensmöglichkeit von Interaktant 2 im zweiten Zug der Gesprächssequenz festgelegt. Interaktant 2 macht mit der Manifestation eines lokalen Erwartungsproblems eine Äußerung von Interaktanten 1 (im ersten Zug der Sequenz) zum Reparandum: Interaktant 2 rückt die Äußerung von Interaktant 1 in einen Gegensatz zu seinen Erwartungen im Bezugskontext. Das in Übereinstimmung mit Selting (1987a, S. 139) konzeptualisierte Phänomen wird von Franke (1990, S. 19f.) unter dem Aspekt der nichtspezifischen reaktiven Sprechakte beleuchtet. 4. Turnbeanspruchung: Mit Turnbeanspruchung wird ein Verhalten von Interaktant 2 im zweiten Zug der Gesprächssequenz bezeichnet: Interaktant 2 versucht, den Turn eigeninitiativ (Selbstselektion) zu übernehmen, obwohl Interaktant 1 den ersten Zug noch nicht abgeschlossen hat. 5. Turnverteidigung: Die Kategorie Turnverteidigung legt ein Verhalten von Interaktant 1 im dritten Zug der Gesprächssequenz fest, dessen erster Zug vor der Übergabestelle von Interaktant 2 durch Selbstselektion beendet worden ist: Interaktant 2 versucht, das Rederecht zurückzugewinnen. Mit Turnzuweisung wird im Gegensatz dazu das Verhalten eines Interaktanten im ersten Zug bezeichnet, der an einer Übergabestelle versucht, einen Interaktionspartner zur Produktion des zweiten Zuges anzuregen (Fremdselektion). 6. Widerspruch: Die Kategorie Widerspruch wird als Verhaltensmöglichkeit von Interaktanten 2 im zweiten Zug der Gesprächssequenz festgelegt. Interaktant 2 erteilt einem lokalen Handlungsziel von Interaktant 1 einen negativen Bescheid im Sinne von Franke (1990, S. 15ff.). Eine rein formale Festlegung entsprechender Phänomene als fremdinitiierte Fremdkorrekturen im Sinne der Ausführung von Selting (1987b) hätte eine geringere explikative Kraft. In der Konzeptualisierung als fremdinitiierter Fremdkorrektur fehlte der Verweis auf divergierende lokale Handlungs1 ziele der Interaktanten.
139 Wenn Interaktant 2 einem lokalen Handlungsziel von Interaktant 1 einen positiven Bescheid erteilt, wird sein Verhalten als Ratifizierung bezeichnet. 7. Insistieren: Die Kategorie Insistieren wird als Verhaltensmöglichkeit von Interaktant 1 im dritten Zug der Gesprächssequenz festgelegt. Interaktant 1 insistiert auf dem von ihm selbst im ersten Zug der Sequenz eingeführten lokalen Handlungsziel, dem von Interaktant 2 im zweiten Zug kein positiver Bescheid erteilt worden ist. Interaktant 1 vollzieht einen reinitiativen Sprechakt im Sinne von Franke (1990, S. 27), und zwar einen insistierenden. Demgegenüber vollzieht Interaktant 1 im dritten Zug der Sequenz einen revidierenden Sprechakt, wenn er sein lokales Handlungsziel modifiziert. Wenn er das Handlungsziel nach Ausbleiben eines positiven Bescheids im zweiten Zug der Sequenz im dritten Zug aufgibt, vollzieht er einen retraktiven Sprechakt.
4.3
Intonatorische Verfahren
In Gesprächen interagiert die Intonation mit Grammatik, Lexik, Metrik und anderen Signalisierungssystemen. Es hat sich gezeigt, dass Vorhersagen von syntaktischen, diskurssemantischen und einstellungsbezogenen Bedeutungen von Tönen/Intonationskonturen auf der Grundlage der in Kap. 3 referierten Modelle in Gesprächen nur bedingt verlässlich sind. Der heutige Wissensstand erlaubt (noch) keine umfassendere Identifizierung von über wechselnde Gesprächskontexte hinweg stabilen bedeutungstragenden Intonationsmustern. Erste Vorschläge für Kontur-Funkions-Korrelationen, die sich auch gesprächsanalytisch validieren lassen, beschränken sich auf isolierte Fallbeispiele. Kehrein (2001) beschreibt ein Intonationsmuster, das in verschiedenen Gesprächskontexten zum Ausdruck positiver Befindlichkeit stabil bleibt. Bandt und Mitarbeiter (2001) identifizieren einen Teil der von Kehrein und Rabanus (2001) beschriebenen Funktionsklassen bei Diskurspartikeln allein aufgrund formaler Merkmale, ohne dabei Kontextfaktoren berücksichtigen zu müssen. In der vorliegenden Studie wird ein anderer, bislang wenig beachteter Aspekt der Intonation untersucht. Gesprächsteilnehmer führen systematisch Wiederaufnahmen und Bearbeitungen der Intonationskonturen handlungslogischer Bezugsäußerungen durch und bedienen sich dabei geregelter intonatorischer Verfahren. Die Analyse in Kap. 5 wird zeigen, dass die in Kap. 4.2.4 für die kontrastive Analyse zusammengestellten Verhaltenskategorien nicht durch Ton- oder Konturtypen, sondern vielmehr durch die Art des Umgangs mit bereits im Gespräch produzierten Ton- und Konturtypen unterschieden werden. Die Arten des Umgangs mit Intonationskonturen werden als intonatorische Verfahren bezeichnet. Wechselnde Gesprächskontexte beeinflussen die Korrelationen von Verhaltenskategorien und intonatorischen Verfahren im Vineta-Korpus nicht. Um Interferenzen der verschiedenen Signalisierungssysteme auszuschließen und zu validen Ergebnissen zu kommen, wird in dieser Arbeit nur der Umgang mit Intonationskonturen in Äußerungspaaren untersucht, d.h. in Paaren von Äußerungen, deren grammatisch-lexikalische und metrische Strukturen höchstens minimal voneinander
140 abweichen.117 Die intonatorischen Verfahren werden an dieser Stelle theoretisch konzipiert und im folgenden Kapitel empirisch nachgewiesen. Die Identifizierung eines intonatorischen Verfahrens erfordert in der Analyse zwei bzw. drei binäre Entscheidungsoperationen, die im Folgenden eingeführt und erläutert werden. 1. Operation: Das Äußerungspaar besteht aus zwei Äußerungen desselben Sprechers oder aus Äußerungen verschiedener Sprecher. Beim Vergleich der Intonationskonturen von Äußerungen verschiedener Sprecher ist zu beachten, dass Bandbreite und Register der Tonhöhenbewegungen individuell verschieden sind. Die Konturen lassen sich dennoch zueinander in Beziehung setzen, weil die auditive Halbtonskala und die Orientierung am sprecherindividuellen Durchschnittswert die durch das Geschlecht oder die sonstige körperliche Konstitution bedingten Stimmunterschiede neutralisiert. 2. Operation: Die Tonfolgen der Äußerungen des Äußerungspaars sind identisch oder verschieden. Die Intonationskontur wird als Ergebnis des Zusammenspiels auditiver Merkmale betrachtet, deren wichtigstes der Tonhöhen verlauf als Folge hoher und tiefer Töne ist. Die perzeptive Ähnlichkeit von zwei Intonationskonturen bemisst sich also primär am Grad der Ubereinstimmung der Tonfolgen und dort besonders an der Ubereinstimmung der Akzenttöne. Akzenttöne markieren immer Stellen, die für die Signalisierung des Handlungsziels entscheidend sind. Die Bedeutung von Grenz- und Phrasentönen geht dagegen oft nicht über die formale Strukturierung der Äußerung in Äußerungsteile (Intonationsphrasen, Intermediärphrasen) hinaus. Die „Uberführung" der Intonationskontur der ersten Komponente eines Äußerungspaars in die zweite betrifft also primär die Akzenttonfolge. Zwei Tonfolgen können als identisch perzipiert werden, obwohl Phrasen- oder Grenztöne nicht übereinstimmen. Werden die Tonfolgen nicht als identisch perzipiert, ist die Bestimmung des intonatorischen Verfahrens nach zwei Entscheidungsoperationen an dieser Stelle beendet. 3. Operation: Die Intonationskontur der zweiten Äußerung wird 'stärker' oder 'schwächer' perzipiert als die Kontur der ersten Äußerung. Die Termini Intonationskontur und Tonfolge sind nicht synonym. Identische (Akzent-)Tonfolgen werden nur in so seltenen Fällen als identische Intonationskonturen perzipiert, dass diese Fälle aus meiner Betrachtung ausgeschlossen werden. In der Regel wird auch bei identischen Tonfolgen die zweite Komponente des Äußerungspaars als 'lauter'/'höher' oder 'leiser'/'niedriger' wahrgenommen als die erste. Für diese Unterschiede können alle phonetischen Merkmale, die in Kap. 2.1 eingeführt wurden, verantwortlich sein. Meist wird der Eindruck einer bestimmten globalen Prominenz durch ein Merkmalsbündel erzeugt. In dieser Studie werden systematisch folgende phonetische Merkmale von Intonationskonturen untersucht: - die Höhe der Akzenttöne (über dem sprecherindividuellen Durchschnittswert); - die Länge der Bewegung auf den (komplexen) Akzenttönen einschließlich der Bewegung unmittelbar vor und nach der Akzentsilbe sowie des Phrasentons; - die Intensität der Akzenttöne; - das Tonhöhenregister der Intonationsphrase (in Relation zum sprecherindividuellen Durchschnittswert). Zusätzlich werden die Dauer einzelner Silben, Wörter oder Phrasen, die Bandbreite der Tonhöhenbewegung auf der gesainten Intonationsphrase und die Höhe finaler und 1 1 7 Vgl.
Kap. 4.1.2.
141 Kontur
eigene
Übernahme
Abschwächung
Modifikation
Verstärkung
fremde
Übernahme
Abschwächung
Modifikation
Verstärkung
Abb. 4.3: Intonatorische Verfahren initialer Grenztöne (Onset/Offset) außerhalb der Akzenttonbewegungen berücksichtigt, wenn dies zur Bestimmung eines intonatorischen Verfahrens notwenig ist. Mit den drei oben dargestellten Entscheidungsoperationen gelangt man zu einem Set von sechs intonatorischen Verfahren, das wie folgt aussieht: 1. Abschwächung der eigenen Kontur: Das Außerungspaar besteht aus zwei Äußerungen desselben Sprechers. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen überein. Die Intonationskontur der zweiten Komponente wird als schwächer perzipiert als die der ersten Komponente. 2. Verstärkung der eigenen Kontur: Das Außerungspaar besteht aus zwei Äußerungen desselben Sprechers. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen überein. Die Intonationskontur der zweiten Komponente wird als stärker perzipiert als die der ersten Komponente. 3. Modifikation der eigenen Kontur : Das Äußerungspaar besteht aus zwei Äußerungen desselben Sprechers. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen nicht überein. 4. Abschwächung der fremden Kontur: Das Äußerungspaar besteht aus zwei Äußerungen verschiedener Sprecher. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen überein. Die Intonationskontur der zweiten Komponente wird als schwächer perzipiert als die der ersten Komponente. 5. Verstärkung der fremden Kontur: Das Äußerungspaar besteht aus zwei Äußerungen verschiedener Sprecher. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen überein. Die Intonationskontur der zweiten Komponente wird als stärker perzipiert als die der ersten Komponente. 6. Modifikation der fremden Kontur: Das Äußerungspaar besteht aus zwei Äußerungen verschiedener Sprecher. Die (Akzent-)Tonfolgen der beiden Komponenten stimmen nicht überein. Die Zusammenstellung der intonatorischen Verfahren ergibt das in Abb. 4.3 dargestellte 3-Bit-Schema. Sie gehen in das in Abb. 4.4 dargestellte Modell der Intonation
142 Intonatorische Kompetenz
Handlungskonzept/Verhaltenskategorie
Bezugskontur —
Töne
Verfahren
C^CEX© (©(EXtE) (^^fremde^^
(Xbschwächung)
1 Ν β
Ε 3 (^Modifikation^)
Abb. 4.4: Modell der Intonation im Gespräch im Gespräch ein. Dieses Modell beinhaltet auch eine tonale Komponente. Die Analyse wird zeigen, dass die intonatorischen Verfahren in Bezug auf die dialoganalytischen Kategorien 'Widerspruch' und 'Insistieren' mit hohen Akzenttönen interagieren. Die Erzeugung der Widerspruchs-Kontur lässt sich als dreistufiger Prozess modellieren: 1. wird die Bezugskontur aus dem Gesprächskontext selektiert, 2. ein hoher Akzentton gesetzt und 3. das intonatorische Verfahren Verstärkung bzw. Modifikation gewählt.118 In die tonale Komponente werden alle Töne und Intonationsmuster integriert, deren Grundbedeutungen keinen kontextbedingten Modifikationen unterliegen (zum Beispiel das Intonationsmuster für den Ausdruck positiver Befindlichkeit). Im Falle der hier zum Sprachvergleich neben 'Widerspruch' und 'Insistieren' verwendeten Verhaltenskategorien bleibt die tonale Komponente jedoch inaktiv. In den Analysen in Kap. 5 lässt sich eine Affinität zwischen den Verfahren Verstärkung und Modifikation beobachten. Modifizierte Konturen sind hinsichtlich der Intensität fast immer verstärkt. 119 Dabei ist allerdings zu beachten, dass die im VinetaKorpus realisierten Verhaltenskategorien vorwiegend kompetitiv sind (Kampf um das Rederecht, inhaltlicher Dissens) und die Modifikation in der Ersetzung von T * durch H* bestehen. Beim revidierenden Sprechakt im Paar K082/085 (S. 227f.), einer kooperativen Sprechhandlung, in der H* durch T* ersetzt wird, ist die modifizierte Kontur nicht verstärkt. Kooperative Sprechhandlungen werden im Vineta-Korpus zu selten in Außerungspaaren realisiert, als dass sich darüber valide Feststellungen treffen lassen könnten. Intonatorische Verfahren werden als Kontextualisierungshinweise verstanden. Sprecher nutzen intonatorische Verfahren, um den Gesprächspartnern die präferierten In118Zum
Widerspruch vgl. Kap. 5.1.6. z.B.: R 0 7 4 / 0 7 5 , S. 184f.; A 3 8 6 / 3 8 7 , S. 193f.; K 0 7 9 / 0 8 0 , S. 200f.; F 2 4 3 / 2 4 4 / 2 4 7 , S. 212ff.; H 0 6 9 / 0 7 8 , S. 223ff.
1 1 9 Vgl.
143 terpretationen ihrer Äußerungen zu vermitteln. Zum Nachweis der Funktionen intonatorischer Verfahren werden nur Intonationskonturen in Äußerungspaaren herangezogen, bei denen Interferenzen anderer Signalisierungssysteme ausgeschlossen sind. Es gibt aber deutliche Anzeichen dafür, dass intonatorische Verfahren - in Interaktion mit den Mitteln anderer Signalisierungssysteme - auch außerhalb von Äußerungspaaren eingesetzt werden. Die Beschränkung auf Äußerungspaare erfolgt lediglich aus methodologischen Gründen. Der von mir verwendete Terminus intonatorisches Verfahren ist dem Ausdruck konversationelle Strategie bei Uhmann (1997a) ähnlich. 120 Auch die Strategie-Bestimmung von Heinemann und Viehweger (1991, S. 214) - „Wir bestimmen daher S t r a t e g i e als das Resultat einer Kette von - in der Regel unbewußt ablaufenden Auswahl- und Entscheidungsoperationen, durch die Lösungsschritte und Mittel markiert werden zur Durchsetzung kommununikativer Ziele." - ist meiner VerfahrensBestimmung nicht unähnlich, weil ich die intonatorischen Verfahren als Ergebnis einer Reihe von Entscheidungsoperationen eingeführt habe. Ich möchte hier trotzdem auf die Verwendung des Begriffs Strategie verzichten. Einerseits legt die Explikation von Heinemann und Viehweger eine psychologische Konzeptualisierung nahe, die hier vermieden werden soll. Andererseits wird Strategie in der Konversationsanalyse allgemein mit Goffman (1981, S. 88) verstanden als „ein System verschiedener Handlungsweisen, deren jede im voraus einer möglichen Entscheidung des Gegners zugeordnet ist, so daß [der Interaktant, StR] wie immer sein Gegner handelt, automatisch einen durchdachten Zug in der Hand hat, mit dem er sofort antworten kann." Intonatorische Verfahren sind formale Mittel, denen nicht notwendigerweise ein strategischer Handlungsplan zugrundeliegt. 121 Auch Selting (1995, S. 135-142) behandelt die Wiederaufnahmen von Akzentsequenzen. Allerdings sieht sie die Punktion der Wiederaufnahmen auf die Signalisierung von Kohärenz beschränkt: Die Wiederholung von Akzentsequenzen drücke Kohärenz zwischen den die Akzente tragenden Einheiten aus, die Umkehrung von Akzentsequenzen unterstreiche einen diskurssemantischen Gegensatz. Dieser pauschalen Einschätzung entspricht die grobe auditive Beschreibung der Konturen und das Ausblenden der anderen Signalisierungssysteme. Selting operationalisiert keine Äußerungspaare im oben bestimmten Sinn.
120 121
Eine Begriffsexplikation fehlt bei Uhmann. Zur spieltheoretischen Definition von Strategie vgl. Thimm (1990), die Beiträge im von Cody und McLaughlin (1990) herausgegebenen Sammelband und zusammenfassend Gruber (1996), S. 288-318.
5
Empirische Untersuchung
In der empirischen Untersuchung wird die in Kap. 4 entworfene Methode zur gesprächsanalytischen Intonationsforschung am Vineta-Korpus erprobt. In Kap. 5.1 wird untersucht, welche intonatorischen Verfahren beim Ausdruck der in Kap. 4.2.4 definierten Verhaltensmöglichkeiten zur Anwendung kommen und ob diese Verhaltenskategorien auch direkte tonale Korrelate haben. Die Analyse erfolgt für Deutsch und Italienisch getrennt. In Kap. 5.2 werden die Ergebnisse für Deutsch und Italienisch kontrastiert und inhaltlich interpretiert.
5.1
Einzelsprachliche Untersuchungen
5.1.1 5.1.1.1
Selbstinitiierte Selbstreparaturen Selbstinitiierte Selbstreparaturen im Deutschen
R318/320: In Abschnitt R222-381 reden die Gesprächsteilnehmer über Sinn und Unsinn des Computerbetriebssystems Windows 95. Sprecherin SK gesteht in R304 ein, keine Gründe für die geplante Anschaffung dieses Betriebssystems angeben zu können. Die Frage nach Gründen wird an SKs Lebensgefährten, den Physiker JB, weitergegeben (R311/312), der in R316 ein Argument für Windows 95 liefert: R316 JB: wahrscheinlich ist das irgendwann ne kompatibi[liTÄTSfrage
NE,
Η» Τ- Π H»H-H·/.
133 [der der PUNKT,
SK:
H*
286
320 -y
der PUNKT ist eben einfachΗ* T - H"/. 278 212 218 jA geNAU; H* H+T*T-T'/, 236 (204)185 der PUNKt is dEr dass ähH* ? T238 213 Ich eben den Eindruck hab dass mit drei elf überHAUPT nichts Η* Η* H+T* H217 (200)185 250 mehr gemacht wird,
Η'/.
256
Noch vor Ende von JBs (kooperativem) Redezug übernimmt SK wieder den Turn (R317). Die mit der PUNKT1 projektierte Begründung ihrer Modernisierungspläne, 1
Die Nominalphrase der PUNKT
hat hier die Funktion eines continuers, vgl. Müller (1996).
146
Abb. 5.1: R 3 1 8 / 3 2 0
mit der SK die Zweifel SFs an der Nützlichkeit von W i n d o w s 95 ( R 3 0 0 / 3 0 2 ) ausräumen will, 2 wird in R 3 1 7 und R318 nicht realisiert. Erst nach der Ratifizierung von R 3 1 6 durch die inhaltlich zustimmenden Diskurspartikeln 3 in R319 führt SK die Begründung für die Modernisierungspläne aus (R320-322). R 3 1 8 und R320 dienen jeweils der Reparatur der unvollständigen Vorgängeräußerung. Die apparative Analyse des Äußerungspaars R 3 1 8 / 3 2 0 führt zu dem in Abb. 5.1 dargestellten Ergebnis. 4 D a s Zentrallexem PUNKT trägt in allen drei Äußerungen einen hohen Akzentton, dessen phonetische Werte kontinuierlich geringer werden (286, 278, 238 Hz), obwohl die Äußerungen im selben Tonhöhenregister liegen (T- mit 212 Hz in R 3 1 8 und 213 Hz in R320). Die Intensität der Akzentsilbe ist in R320 mit 78 dB niedriger als in R 3 1 8 mit 81 dB.
2
3
4
Die Verwendung der Modalpartikel einfach in R318 unterstützt die Signalisierung dieser Absicht, vgl. Heibig und Heibig (1990), S. 112. Mit Diskurspartikeln werden hier und im Folgenden ein- und zweisilbige Partikeln und Interjektionen bezeichnet, die unflektierbar aber betonbar sind, als selbständige kleinste Außerungseinheiten fungieren können und häufig an kommunikativ entscheidenden Stellen im Gespräch auftreten. Vgl. Schmidt (2001) und Kehrein/Rabanus (2001). Dort wird auch weiterführende Literatur genannt. Eine Ubersicht über Formen und Funktionen solcher Außerungseinheiten im Deutschen findet sich auch bei Zifonun et al. (1997), Bd. 1, S. 360-408. Vgl. Bazzanella (1995) zu den italienischen segnali discorsivi. Zur Semantik der Diskurspartikeln vgl. auch Fischer (1998). Zum Aufbau der Praat-Graphik vgl. Kap. 2.6.2, bes. Abb. 2.9, S. 61. Die Visualisierung der Fo-Verlaufskurve von R317 ist nicht möglich, weil R316 und R317 simultan geäußert werden. Die Messung des Grundfrequenzwertes von H* in R317 ist dennoch möglich. Fälle, in denen im Transkript Grundfrequenzwerte ausgewiesen werden, obwohl keine Visualisierung des FQ- Verlaufs der Gesamtäußerung gegeben werden kann, sind im Korpus nicht selten. Einerseits gibt es bei überlappenden Äußerungen minimale Pausen, in denen die akustischen Werte messbar sind. Andererseits ist die Grundfrequenz ein relativ stabiles phonetisches Merkmal, das an manchen Stellen sogar einem gestörten Sprachsignal zu extrahieren ist. Eine Verlaufskurve lässt sich aber auch in solchen Fällen nicht darstellen.
147
Abb. 5.2: H154/158 H154/158: In einer Passage von Gespräch Η führen die Interaktanten eine längere Diskussion über die Möglichkeit der Aufhebung katholischer Trauungen (H126-336). NH kritisiert solche Annullierungen, wie sie zum Beispiel in der Familie Kennedy durchgeführt würden (H137/138) und in den Vereinigten Staaten häufig seien (H142). NH begründet ihre Kritik: H149 NH: das is vie so ne: wie so ne HINtertür; H* H - TV. 232 232 127 150 JA, T*H-H·/. 125 162 « p > A L [ s o > [(PRAKtisch) « f > u m dann die !NEU!e, H*T-T'/, Η* T-T'/. T*+HHIH: [hmSF: [ja aber ich dAchte diese annuLLIErung, NH: damit die NEUe J.Ehe le'; >
T*+HH- T*
155
->
188 256 192 sAg ich mal> in die (0.7) Ehe komm vol [Iii;
Η*
112
Τ*
98
Η* Τ-
204 185
T"/.
175
IH unterbricht in H108 seinen Turn nach der Projektierung eines restriktiven Relativsatzes (H107). Die Pause H108 kann wie H204 9 als Reformulierungsindikator gewertet werden. In Hl 10 wird lEUte durch JUNge attribuiert, bevor der Relativsatz abgeschlossen wird. NH übernimmt anschließend den Turn mit einer negativen Bewertung des von IH berichteten Verhaltens ( H l l l - 1 1 4 ) , der IH in H115 inhaltlich zustimmt. Mit LEUte ist (nach einem in Abb. 5.6 durch absinkenden Intensitätsverlauf kenntlichen Einatmen IHs) in H107 ein hoher Akzentton H* assoziiert. In der Reparatur wird der hohe Akzentton auf das Attribut JUNge verschoben, der Akzent auf lEUte wird zu H + T * abgeschwächt. Im Unterschied zu der hinsichtlich der syntaktischen Struktur vergleichbaren Reparatur H203/205 wird das Attribut JUNge in H109 zum Fokusexponenten gemacht. In H205 bleibt das Nomen kinder ungeachtet der Attribuierung Fokusexponent der Nominalphrase. H109 trägt nach der Verschiebung von H* zwei Akzenttöne, ohne dass der Konturverlauf dadurch verändert würde. Die Veränderung besteht darin, dass H* in H107 1,6 S T unter, in H109 1,8 S T über IHs Durchschnittswert (110 Hz) liegt. (Beide Komponenten liegen etwa im selben Tonhöhenregister: T % mit 95 Hz in H107, T - mit 100 Hz in H109.) R456/458: Im Verlauf von Gespräch R, das im Wohnzimmer von SK geführt wird, treffen Gäste ein (R405), die sich auf der Terrasse aufhalten wollen, wo sie bessere 9
Siehe oben, S. 148.
153 •75.67 50fr
43.27 300V 20fr 150-
10fr
7fr
[ja aber sie [sind jetz
ähm
hm die SIND jetz
dA
5fr 3.115
Abb. 5.7: R456/458 Spielmöglichkeit für ihr Kleinkind vermuten (R407). SK fordert deshalb JB und SF auf, mit ihr auf die Terrasse zu kommen. R449 SK: gehn wir RAUS? Η'/. T*+HH-H·/. 227 233 329 450 oderJB: hm=m, [GLEICH. T*T-T'/. 96 SF: [hm; dann i s d i e AUFnah[me h i e r v o r b E I ; 455 JB: [ e r s t e r s t [ma' i n a l l e r RUhe h i e r H+T* HSK: [ j a a b e r s i e s i n d j e t z ähm-y H» T235 207 (0.7) hm: d i e SIND I j e t z dA; -f H* T*T-T'/, 319 197 i c h mUss d i e j a irgendwie ( . ) verSORgn; H* H*T-T'/. 238 285 185 460 SF ach SO, na GUT. dann machen wir j e t z t SCHLUSS.
JB reagiert auf diese Aufforderung 10 nur teilresponsiv (R451/452), weil er zunächst seinen Kaffee austrinken und seinen Kuchen essen will (R455). SF, der teilnehmende Beobachter, sieht sich durch Verlegung des Kaffeetrinken auf die laute Terrasse 10
R 4 4 9 ist eine W i e d e r a u f n a h m e von R403. D i e b e i d e n Ä u ß e r u n g e n sind j e d o c h zeitlich zu weit auseinander, u m ein Außerungspaar i m Sinne d e s in K a p . 4.1.2 A u s g e f ü h r t e n zu bilden.
154
Abb. 5.8: Selbstinitiierte Selbstreparaturen seiner Aufnahmemöglichkeit beraubt und reagiert in R453/454 mit einem entscheidungsumgehenden Sprechakt. SK übernimmt in R456 den Turn kompetitiv zu JBs Äußerung. Mit aber werden die Einwände JBs und SFs zurückgewiesen, die Äußerung bleibt aber semantisch unvollständig. Die Diskurspartikel ahm, die R456 abschließt, dient als Reformulierungsindikator und zugleich als Turnsicherungssignal. Nach der Pause R457 und der Diskurspartikel hm (ebenfalls Turnsicherung) nimmt SK R456 wieder auf und vervollständigt die Proposition zu 'die Gäste mit dem Kleinkind sind da', was die Notwendigkeit impliziert, auf die Terrasse zu gehen (R458). SF ratifiziert die Schlüssigkeit der Argumentation (R460/461) und beendet die Gesprächsaufnahme (R462). Die Wortfolge sie/die sind jetz und die mit ihr cissoziierte Tonstruktur stimmt in beiden Komponenten des Äußerungspaars R456/458 überein (Abb. 5.7). Der hohe Akzentton H* erreicht in der Reparatur aber 319 Hz, gegenüber 235 Hz im Reparandum. Weil beide Komponenten etwa im selben Tonhöhenregister (T- in R456 mit 207 Hz, T% in R458 mit 197 Hz) liegen, ist die Akzenttonbewegung in der Reparatur wesentlich ausgeprägter: 8,4 ST gegenüber 2,2 ST im Reparandum. Die Intensitätswerte können aufgrund des Simultansprechens nicht gemessen werden, die Reparatur ist aber deutlich prominenter. Es handelt sich hier wie in H098 um eine Korrektur der Fokusstruktur, wobei der Fokusexponent des Reparandums nicht realisiert ist. Mit H* bei SIND in R458 wird ein enger Fokus auf diesem Lexem signalisiert. H* auf sind in R456 wird dagegen erst retrospetiv vom Äußerungsabbruch her zum prominentesten Akzent der Intonationseinheit. Der Fokus von R456 war auf (das nicht realisierte) DA projektiert. Zusammenfassung: Selbstinitiierte Selbstreparaturen werden in vier deutschen Äußerungspaaren (R318/320, H154/158, H203/205, H533/534) mit dem intonatorischen Verfahren 'Abschwächung der eigenen Kontur' realisiert. Bei R318/320, H154/158
155 und H203/205 werden dabei jeweils beide Komponenten im selben Tonhöhenregister produziert, Akzenttonhöhen, Umfang der Akzenttonbewegungen und Prominenz der Akzente sind in der Reparaturäußerung geringer als im Reparandum. Bei H533/534 wird in der Reparatur ein Affirmationsadverb mit einem hohen Akzentton ergänzt. Davon abgesehen schwächt auch hier die Sprecherin ihre eigene Kontur ab. Die Reparatur H534 liegt außerdem in einem tieferen Tonhöhenregister als das Reparandum H533. Die Fokus-Hintergrund-Gliederung der Reparanda wird in den Reparaturen nicht verändert. Bei H098, R456/458 und H107/109 wird dagegen das Verfahren 'Verstärkung der eigenen Kontur' selektiert. Bei gleichem Tonhöhenregister sind Akzenttonhöhen, Umfang der Akzenttonbewegungen und Intensität der Akzente in der Reparatur jeweils größer als im Reparandum. Grund dafür ist, dass die Reparatur die FokusHintergrund-Gliederung der Äußerung verändert und die Korrektur des Fokusexponenten durch eine Erhöhung des hohen Akzenttons unterstrichen wird. Mit Ausnahme von H533/534 werden die Akzenttonfolgen in den Reparaturen nicht verändert. Hohe Akzenttöne sind notwendig, aber nicht hinreichend für korrigierte Fokusexponenten, weil hohe Akzenttöne auch in R318/320 und H203/205 vorkommen. Die Funktionen in der Kategorie 'selbstinitiierte Selbstreparatur' werden also nicht durch Töne, sondern durch intonatorische Verfahren distinguiert. Abb. 5.8 verdeutlicht, wie die Komponenten des in Kap. 4.3 eingeführten Modells der Intonation im Gespräch zusammenarbeiten, um die Intonationskontur bei selbstinitiierten Selbstreparatur im Deutschen zu erzeugen. Im folgenden Kapitel 5.1.1.2 wird gezeigt, dass dieses Modell auch für das Italienische Gültigkeit besitzt.
5.1.1.2
Selbstinitiierte Selbstreparaturen im Italienischen
F315/316: Der Abschnitt F314-317 ist ein Teil eines Redezugs (F313-326), in dem RM ihre umstrittene und besonders von GP angegriffene These, die französische Sprache habe in der heutigen Zeit keine Bedeutung mehr (F269-275, F300 und weitere Äußerungen), argumentativ sichern will. Sie werde nur noch wegen der vorhandenen Französischlehrer unterrichtet: F314 RM: adEsso in italiA' in itAlia insegnano ancora franCEse, Η* H*HH+T* H*H-H'/. 313 237 193 233 372 heute in Italien in Italien unterrichten sie noch Französisch 315 perchS ci son tUtti gli insegNANdi che ha';
Η'/. Τ* ->·
Η*
H+T*H-
357 183 208 (250)217 302 ujeil da sind alle die Lehrkräfte die ha(ben) che gli insegnAnti che hanno il cadreghlno di franCEse' H+T* H* H+T*H-H'/t (222)172 200 176 213 die Lehrkräfte die eine Anstellung für Französisch haben e ovviamEnte non [possono [mEttere in mEzzo(h)o alia STRA(h)Ada; ((lacht)) H* H+T* H+T* Η* T-T·/. 214 323 217 und natürlich können sie die nicht auf die Straße setzen
RM macht in F315 einen Aussprachefehler, indem sie gegen die standarditalienische Norm [inseji'jiandi] spricht. Sie bricht nach dem Fehler die Turnkonstruktionseinheit
156
Abb. 5.9: F315/316
im Verb des restriktiven Relativsatzes, das syntaktisch als hanno, 'haben' projektiert ist, ab und korrigiert das Reparandum zu [inseji'jianti] (F316). Die Interaktionspartner führen keine Reparaturinitiierung durch. SF quittiert die Äußerung von RM in F318, danach setzt RM ihren Turn noch sieben Intonationseinheiten lang fort, ehe SF und GP das Rederecht nach einer längeren Pause in F328/329 nahezu simultan übernehmen und GP die argumentative Auseinandersetzung weiterführt. Abb. 5.9 zeigt die phonetische Realisierung der Korrektursequenz. RM nimmt in der Korrektur den Akzent H+T* des Reparandums insegnAnti wieder auf und reproduziert ihn in einem niedrigeren Register. Die Grundfrequenzwerte des Zentrallexems sind in F315 deutlich höher als in F316. Gleiches gilt für die Intensität: Auf T* im Reparandum (F315) beträgt sie 76 dB (den höchsten Wert beider Intonationseinheiten), in der Korrektur (F316) dagegen nur 73 dB. Auch die ausgeprägte Bewegung (5,7 ST) zu einem hohen Phrasenton fällt in F316 weg. Auf der anderen Seite hat der fallende Akzent H+T* in F315 eine Länge von 2,5 ST, in F316 dagegen von 4,4 ST. A203-205: Die Passage A203-209 steht am Anfang einer längeren Alltagserzählung von Sprecherin RM über die Erfahrungen eines Bekannten als Koch in Nigeria (A193295). Während sich die Interaktionspartner im weiteren Verlauf der Erzählung, die ungefähr zwei Minuten lang ist, auf wenige Hintergrundkommentare und Hörersignale beschränken, ist der Anfang durch einige Interventionen von IC charakterisiert. Vor der unten gegebenen Gesprächspassage äußert IC die Vermutung, von diesem Bekannten schon gehört zu haben (A198/199), in A202 sieht er sich in dieser Vermutung bestätigt. RM erzählt unmittelbar anschließend (A203), dass der Gastronom, in dessen Londoner Restaurant RMs Bekannter arbeitet, auch in Nigeria ein Restaurant eröffnet hat:
157
Abb. 5.10: A203-205
A203 RM: e sUo-> H»T277 250 und sein il paDROne del ristH* H 272 310 der Inhaber des Rest(aurants) 205 il sOcio del ristorante dove lui laVOra, -> H* H H+T*H-H'/t 256 305 (220)156 222 der Teilhaber des Restaurants wo er arbeitet IC: hmRM: gliel ehhA Una ha m£sso: un: in piEdi una una spEcie di ME:N:sa:,
Η* Η*
Η*
Τ-
Η*
Τ-
207 221 237 159 225 164 hat eine hat eine eine Art Kantine ristoRANte, H+T*H-H·/. (192)164 250 Restaurant
Η*
232 aufgebaut
H+T* H-H'/. 161
196
RM ist in der Versprachlichung des Beginns ihrer Erzählung unsicher. Sie führt zwei Fehlstarts durch (A203/204), bevor sie in A205 die Äußerung, mit der sie auf den Arbeitgeber ihres Bekannten referiert, vervollständigt, was IC mit der Diskurspartikel hm (A206) quittiert. In A207 produziert RM einen weiteren Fehlstart, und auch die Bezeichnung MENsa (A208) wird mit ristoRANte (A209) repariert. Die Erarbeitung des semantischen Arguments der Passage (das durch A208 prädiziert wird) im Äußerungstripel A203-205 stellt sich in der akustischen Analyse wie in Abb. 5.10 dar. Die Bezugselemente der drei Komponenten tragen hohe Akzenttöne mit abnehmenden Fo-Werten, mit denen aber keine abnehmenden Intensitätswerte gekoppelt sind: 277 Hz und 73 dB (A203), 272 Hz und 70 dB (A204), 256 Hz und 74 dB (A205). Die hohen Akzente werden von Tonhöhenbewegungen zu den zunehmend höheren Phra-
158 sentönen gefolgt: -1,8 ST (H* T- bei A203), 2,3 ST (H* H- bei A204), 3,1 ST (H* Hbei A205). Akustisch liegt also eine Verlaufskurve mit immer späteren Gipfeln vor. Die Bestimmung des intonatorischen Verfahrens hängt von den phonetischen Merkmalen ab, die zum Vergleich herangezogen werden. Die perzeptiv relevanten Unterschiede der Konturen sind in jedem Fall minimal. Zusammenfassung: In den italienischen Gesprächen des Vineta-Korpus gehört ein Außerungspaar und ein Außerungstripel (derselben Sprecherin) zur Funktionsklasse 'selbstinitiierte Selbstreparatur'. Bei F315/316 verwendet die Sprecherin das Verfahren 'Abschwächung der eigenen Kontur'. Die Reparatur wird in einem niedrigeren Tonhöhenregister, mit geringerer Akzenttonhöhe und Akzentprominenz, aber einem größeren Umfang der Akzenttonbewegung realisiert als das R e p a r a n d u m . Beim Außerungstripel A203-205 ist die Konvergenz der phonetischen Merkmale gering: Die Akzenttonhöhe ist in den Reparaturen geringer als in den Reparanda, die Akzenttonbewegungen sind aber durchgängig und die Akzentprominenz partiell größer. Deshalb wird A203-205 das Verfahren 'Verstärkung der eigenen Kontur' zugeschrieben. Während in F315/316 ein Aussprachefehler korrigiert wird, ist A203-205 Formulierungsarbeit mit dem Ziel eines möglichst adäquaten inhaltlichen Ausdrucks. Das in Abb. 5.8 (S. 154) dargestellte Modell ermöglicht also eine korrekte Voraussage der Intonationskontur bei selbstinitiierten Selbstreparaturen im Italienischen.
5.1.2
Bearbeitung akustischer Verstehensprobleme
Weil die erste Komponente aller untersuchten Außerungspaare der Funktionskategorie 'Bearbeitung akustischer Verstehensprobleme' von anderen Äußerungen überlappt wird, wird hier generell auf die Visualisierung der akustischen Analyse durch mit P r a a t erzeugte Graphiken verzichtet: Solche Graphiken wären defizitär und irreführend. Stattdessen werden hier (und im Folgenden bei ähnlichen Verhältnissen in anderen Funktionskategorien) die metrische Struktur und der Tonhöhenverlauf von Hand nachgezeichnet. Die Darstellung der metrischen Struktur, deren genaue Feststellung der Transkription aller untersuchten Äußerungen zugrunde liegt, folgt den in Kap. 2.3.2 eingeführten Konventionen. Der Tonhöhenverlauf wird in einer groben Strichzeichnung abgebildet. 1 1 Die Zuordnung der intonatorischen Verfahren erfolgt allein auf der Grundlage der (nicht quantifizierbaren) auditiven Analyse.
5.1.2.1
Akustische Verstehensprobleme im Deutschen
K051/056 Die Interaktanten KB und BB wollen den gerade am Aufnahmeort eingetroffenen PA (K024) überreden, sich interviewen zu lassen. 1 2 KB bietet PA zu diesem Zweck Kaffee und Kuchen an: 11
12
Schmidt (1986), S. 164 u.a. geht ähnlich vor, um die für den Vergleich der mittelfränkischen Tonakzente notwendige „maximale [...] suprasegmentelle Identität" (S. 153) der Minimalpaarkomponenten zu repräsentieren. Zur Fortsetzung dieses Gesprächs siehe unten, S. 200f. Zu Interviews allgemein vgl. S. l l l f .
159 χ Χ X Χ
X X
X X
χ X χ
X X
willst noch (.) KAFfe? H+T* H-H%
X X
KAFfe? T* H-H%
Abb. 5.11: K051/056 K048 KB: kriegst auch von mir η stück KUCHen ab; H+T* Τ- T'/. 104 98 (2.1) 050 BB: vir können die jA [au noch DURCHteilen; H* H* T- n, 274 KB: [willst noch (.) KAFfe? -• H+T* H-H'/. BB: « p > [ d i e sind ja ziemlich [GR0SS;> H* H+T*T-T'/. SF: [ja geNAU; KB: [PEter, T*H-H'/. 055 PA: WAS, H*H-H'/. KB: K A F K e ? T* H-H'/, 127 BB: [hOlst mal bitte η MES[ser ( - ) kay-Uwe? Η* ΗT* H*H-H'/. 270 303 256 302 358 PA: [ja wenn noch welcher
IS, H*H-H'/.
KB: jA IS noch; Η* T-T·/.
PA reagiert auf das von KB simultan mit Überlegungen BBs hinsichtlich der Verteilung des Kuchens geäußerten Kaffeeangebot in K051 zunächst nicht. KB fordert die Reaktion durch die direkte Ansprache mit PEter (Vorname von PA) in K054 ein. PA manifestiert durch das W-Wort K055 ein akustisches Verstehensproblem und initiiert damit die Selbstreparatur, die KB durch Reformulierung (partielle Wiederholung) des Reparandums in K056 durchführt. PA ratifiziert das Angebot durch Annahme in K058. Lexikalisch-grammatisch ist K056 ein Teil von K051. Davon abgesehen, dass mit pränuklearen Silben in K056 die Möglichkeit zu einem „Auftakt" mit Η fehlt, sind die Tonstrukturen identisch (Abb. 5.11 zeigt die Visualisierung des Ergebnisses der auditiven Analyse, auch PEter in K054 hat dieselbe Tonstruktur). Der Vergleich von Prominenz und Tonhöhe der Bezugselemente fällt wegen überlappender Äußerungen schwer. Die Stärke der Ausprägung der auditiven Merkmale scheint aber von K051 (über K054) zu K056 kontinuierlich abzunehmen. H677/683: Nach einem Gesprächsabschnitt über die bürgerliche Familie im 19. Jahrhundert (H566-657) machen NH und SF die Situation der Arbeiter und Bauern zum
160 χ Χ X X Χ Χ X X Χ Χ X X Χ Χ X X X XX χ wenn sen Eigenen klEInen HOF, Η* Τ* Η*
χ X X X χ χ χ Χ X X X X X X wenn sen Eigenen klei:nen Η*
χ X X χ χ χ χ χ XX X X X X X (0.7) kleinen GRUNDbesitz hatten; H*
Abb. 5.12: H677/683
neuen Topik 13 (H660, H664). Nach einer inhaltlichen Kompetition mit NH (H669-674) äußert IH die Ansicht, das Recht zur Heirat sei in der Vergangenheit an bestimmte materielle Bedingungen geknüpft gewesen. H675 IH:
->
680
685
13
[es gab AU ma zEItenH* H+T*T149
Τ* ΗΤ» H-H·/. 97 152 102 164 Ich glaub die durften nur HEIraten [wenn sen Eigenen klEInen HOF, H* H*T-H'/. Η* Τ* H* 158 141 141 111 147 NH: [aber nlch im neunzehnten jahrHUNdert; H+T* Η* T-T'/. IH: NEE; h+t*t-t·/. (192)176 nich im NEUNzehnten; H* T- Tl. 111 [aber FRÜher; H*T-T7. 115 102 NH: [hm=m, IH: wenn sen Eigenen klei:nen (0.7) kleinen GRUNDbesitz hatten; Η* Η» Τ- T'/. 108 102 96 oder [SO; NH: [hm; (1.5) es kOmmt auch drauf AN; H* H+T*T-T'/, 217 (192)175 161
Topik wird in der Konzeptualisierung von Wehr (1994), S. 621 verwendet: „Ich verstehe unter TOPIC das Konzept, über das (i.a. eine Zeitlang) gesprochen wird."
161 Intonatorische Kompetenz — Bearbeitung eines Verstehensproblems
Bezugskontur
Töne
Verfahren
(T^OCz) ® ( E X £ > • (^V^rstärkung^) (^Modifikation^)
Abb. 5.13: Bearbeitung akustischer Verstehensprobleme NH bestreitet den Geltungsanspruch dieser Behauptung für das 19. Jahrhundert, über das in dieser Passage gesprochen wird (H678). IH gesteht zu (H679), dass seine Proposition nicht für das 19. Jahrhundert gilt (H680), aber er insistiert auf dem Geltungsanspruch für frühere Zeiten (H681) und wiederholt die materiellen Bedingungen, an die das Heiratsrecht geknüpft gewesen sei (H683). NH signalisiert mit der Diskurspartikel H682 inhaltliche Zustimmung zu IHs Konzession H680, ratifiziert H683 aber nicht. Die Diskurspartikel H685 drückt Unentschiedenheit aus, was die Pause H686 noch unterstreicht. 14 Anschließend macht NH allgemeine Aussagen über die Geltung historischer Sachverhalte (H687, H694, H696), was als Kritik an IH interpretiert werden kann. IH reagiert darauf verbal nicht, NH führt in H701 mit der „Mädchenbildung" im 19. Jahrhundert ein neues Topik ein. Trotz der inhaltlichen Kompetition in diesem Gesprächsabschnitt ist H683 kein primär insistierender Sprechakt. NH äußert zwischen H677 und H683 keinen Widerspruch, der eine notwendige Konstitutionsbedingung für einen insistierenden Sprechakt - wie in Kap. 4.2.4 definiert - ist. 15 Auch logisch-semantisch liegt keine Negation vor, weil die kompetitiven Propositionen von IH und NH unterschiedliche zeitliche Geltungsbereiche haben. Deshalb wird H683 primär als Bearbeitung eines akustischen Verstehensproblems interpretiert (wenngleich auch hier mit der Problemmanifestation eine eigentlich notwendige Konstitutionsbedingung fehlt): IH sichert das Verstehen seiner in H677 überlappend geäußerten Proposition durch die Wiederaufnahme in H683.
14
15
Die argumentative Struktur der Gesprächspassage lässt in H686 eine inhaltliche Stellungnahme NHs erwarten, weshalb die Pause NH „gehört": Obwohl sie mit 1,5 s ziemlich lang ist, übernimmt kein anderer Interaktant den Turn. H678 wird simultan zum Konditionalsatz in H677 geäußert, der Widerspruch kann sich also nicht auf seinen Inhalt beziehen.
162 H683 ist eine lexikalische Expansion von H677, wobei die grammatische und metrische Grundstruktur erhalten bleibt (Abb. 5.12). Der tiefe Akzentton auf klEInen fällt in der Bearbeitung H683 weg. Akzenttonhöhe und Akzentprominenz sind in H683 niedriger als in H677. Zusammenfassung: In den beiden deutschen Äußerungspaaren, in denen akustische Verstehensprobleme bearbeitet werden (K051/056, H677/683), kommt das intonatorische Verfahren 'Abschwächung der eigenen Kontur' zum Einsatz (Abb. 5.13, S. 161). Mit den akustischen Analysen fehlt die Möglichkeit eines Detailvergleichs der einzelnen phonetischen Merkmale. Eine eigenständige Bedeutung der Töne ist nicht erkennbar.
5.1.2.2
Akustische Verstehensprobleme im Italienischen
A105/110: In A061-178 thematisieren die Interaktionspartner die sexuelle Aufklärung von Kindern und Jugendlichen. Interaktant IC, zum Zeitpunkt der Aufnahme etwa 50 Jahre alt, behauptet, dass es in seiner Jugend in Colico keine Aufklärung gegeben habe (A061-74). Seine Ehefrau SC widerspricht ihm unter Verweis auf ihre eigene Jugend in Colico (A070, A075/076, A080, A085; siehe unten, S. 171ff.). IC relativiert daraufhin seine Position und erzählt, was seine Mutter sagte, als er morgens um fünf Uhr von einem Besuch bei einem Mädchen zurückkehrte: A099 IC: stai atTENto; H*T-T·/. 175 116 pass auf 100 che magAri se rimane inclnta anche da qualcun Altro danno la colpa (a) TE, H*TH+T*HH*HH*H-H7. 143 115 119 150 128 122 169 denn auch wenn sie von einem anderen schwanger wird geben sie dir die Schuld SF: ((lacht)) IC: ECco; H*T-T'/. 169 120 sehr tftr QUESte le uniche vOlte in cui mia mAdre, Η» H* H*H186 179 161 179 diese (Dinge waren) die einzigen Male in denen meine Mutter per DIre; T7. H*T-T"/. 147 sozusagen 105 SC: tU a |tU0 [tflglio [^manco QUELle hai dEt[to;
->
110 ->
Η*
Τ*
Η* Η-
Η*
H+T* T-T'/.
365 250 360 du hast deinem Sohn nicht einmal diese SF: [ RM: [ IC:
(Dinge)
gesagt
[EH, hä SF: [ « p > N 0 io K0 no;> SC: « p > t u a J-tUO flglio [manco flUELlo hai dEt[to;> Η* T* H+T* H* H+T*T-T'/. 312 227(217)172 du hast deinem Sohn nicht einmal das gesagt IC: [ « p > ( )> [mA son cOse che vengono Η* H* 156 147 aber das sind Sachen die kommen
163 χ X χ χ χ χ X χ χ X χ χ χ χ Χ X X XX χ χ χ χ χ X X XX χ χ χ χ χ χ χ Χ t u a i t u o T f l g l i o Imanco QUELle h a i d E t t o ; H+T* Τ-Τ% Η* Τ* Η* ΗΗ*
χ χ χ χ χ tU a 4-tUO f l g l i o manco QUELlo h a i d E t t o ; Η* Τ* H+T* H* H+T*T-T%
Abb. 5.14: A105/110
A112 IC: spon[TAnee-
H+T+T-H·/.
SC:
spontan
[NO,
H*H-H·/. 271 nein
In A105 verschiebt SC den Dissens von der Ebene der Jugend der Eheleute auf die Ebene aktueller Fragen der Erziehung und Aufklärung ihrer eigenen Kinder. Sie wirft IC vor, seinem Sohn nicht einmal das Minimum an Aufklärung zu vermitteln, das seine Mutter ihm in ihrem lakonischen Kommentar vermittelt habe. IC kontextualisiert A105 durch die Diskurspartikel EH mit deutlich steigendem Tonhöhenverlauf 16 als Reparandum und initiiert eine Reparatur, die SC in AHO in der Reformulierung ihrer Äußerung vornimmt. Zur Kommunikationsachse 17 zwischen SC und IC kommt in A106/107 und A109 eine Kommunikationsachse zwischen RM und SF. Die Äußerungen auf dieser Achse sind durch leise Sprechweise zwar als nicht-turnkompetitiv kontextualisiert. Ein Einfluß auf die Kommunikation zwischen SC und IC ist dennoch vorhanden, wie das „Kommunikationsachsenswitching" von IC in A l l l zeigt. Uberlappende Rede lässt die akustische Analyse nur an wenigen Stellen zu. Die Reparaturäußerung ist mit Ausnahme von Genus und Numerus des jeweils den prominentesten Akzent der Intonationseinheit tragenden Pronomens (QUELle ist Fem. PI. und referiert direkt auf QUESte in A103, QUELlo ist Mask. Sg.) mit dem Repa16
17
Damit ist E H eine Reaktionsaufforderung. Poggi (1995), S. 423 präzisiert die Punktion in einer Position wie A109 als 'richiesta di ripetizione'. Der Begriff der Kommunikationsbzw. Interaktionsachse geht auf Watson und Potter (1962) zurück.
164
randum lexikalisch, grammatisch und metrisch identisch. Die Tonstrukturen weisen einen Unterschied auf: H* H- auf flglio in A105 wird in A110 durch H + T * ersetzt. Dominant in der Perzeption sind jedoch die deutlich geringeren Grundfrequenzwerte der Akzenttöne in der Reformulierung. Auch auffällige Tonhöhensprünge sind seltener. Abb. 5.14 illustriert die auditive Analyse. In der Sequenzanalyse ist es nicht möglich, die Reparatur eindeutig als Bearbeitung eines akustischen Verstehensproblems zu rekonstruieren. Für eine solche Rekonstruktion spricht, dass IC den Verlauf der Kommunikation auf beiden Achsen verfolgt, wie sein Kommunikationsachsenswitching in A l 11 belegt, und dass er deshalb SCs Äußerung nicht verstanden haben könnte. Dagegen - und dafür, A110 als insistierenden Sprechakt zu interpretieren - spricht der inhaltliche Dissens, den IC und SC vor und nach der in Rede stehenden Sequenz austragen. Um zirkuläre Argumentation zu vermeiden, habe ich die Sequenz Kollegen des IFD zur Beurteilung vorgelegt: Sie haben die Sequenz als nicht-kompetitiv und damit als Reparatur identifiziert. A 313/315: Nach RMs Erzählung über die negativen Erlebnisse eines Bekannten mit der Militärdiktatur in Nigeria (A193-295) verallgemeinert SC die erzählten Sachverhalte als Aspekte eines überall vorkommenden Machtmissbrauchs (A300). IC insistiert auf der Besonderheit der geschilderten Situation, räumt dann aber ein: A308 IC: l'a' 1'abUso di potEre C"6; Η* H* H*T-T'/. 167 152 115 94 den den Missbrauch der Macht gibt c'l in iTAlia [c'£-
H+T*
310
es
H* T- H+T*
114 124 111 102 den gibt es in Italien SC: [sl Sl
den gibt es
H* H*T-T·/,
m a non STO
ja ja [dicEndo-
H*
T*T-
286 204 aber ich sage ja auch nicht IC: [ECco [perchi per CONtoH*
->
315 ->
H+T*
H-
also weil wegen RM: [ma noil a quei liVELli ins0m[ma; H* T- H+T*T-T'/. 196 156 150? aber nicht auf diesem Niveau jedenfalls IC: [EH? H*H-H·/. 110 147 hä RH: cioe non a quei [liVELli C ) αlso nicht
H*T-
auf diesem Niveau [BE' e [quEllo [che i succEsso al simOne coi carabiniEri H* H*TH+T* H* H*H251 (244)213 233 204 262 gut und das was dem Simone mit den Carabinieri passiert ist IC: [Sl; H*T-T'/, SF: [ SC: non e abUso di poTE[reH+T* H+T*H-H* 152 132 ist das kein Machtmissbrauch SC:
165
χ XXX XXX
χ χ χ
χ χ χ χ χ χ χ χ χ χ χ χ χ χ χ χ χ
m a non a quei liVELli insOmma; H* T H+T*T-T%
χ χ
χ X
X X X
X
XXX
cioe non a quei
liVELli H* T -
X X X X X
XX X X
Abb. 5.15: A313/315
In A308-312 deutet sich durch die Signalisierung wechselseitiger Konzessionsbereitschaft eine Einigung von SC und IC an. RM verhindert die Einigung, indem sie durch ihre mit ma als adversativ gekennzeichnete Äußerung A313 den Dissens erneuert. 18 IC manifestiert durch die Diskurspartikel EH in A314 ein akustisches Verstehensproblem. RM wiederholt ihre Äußerung und führt damit eine Selbstreparatur durch. Die grammatisch-lexikalische, metrische und intonatorische Struktur der Äußerungen ist - mit Ausnahme des in A315 nicht reproduzierten insOmma - identisch (Abb. 5.15). Perzeptiv ist die mit der Akzentsilbe liVELli assoziierte Prominenz und Tonhöhe in A315 größer als in A313. Zusammenfassung: Zur Bearbeitung der akustischen Verstehensprobleme werden in den zwei italienischen Äußerungspaaren zwei verschiedene intonatorische Verfahren selektiert: Bei A105/110 wird die eigene Kontur abgeschwächt. Akzenttonhöhen (teilweise messbar) und Akzentprominenz (immer ohrenphonetisch) sind in der Reparatur geringer als im Reparandum. Bei A313/315 wird die eigene Kontur dagegen verstärkt. Neben der Bearbeitung des akustischen Verstehensproblems wird bei A313/315 auch eine formale und inhaltliche Kompetition durchgeführt: RM stellt sich mit dem Äußerungspaar in einen mit ma (A313) signalisierten Gegensatz zu SCs Position. In A315 verteidigt sie außerdem ihr Rederecht gegen die mit der rhetorischen Frage A316/317 ihrerseits widersprechende Interaktantin SC. 19 Die Erzeugung von Intonationskonturen bei der Bearbeitung akustischer Verstehensprobleme wird deshalb für Deutsch und Italienisch identisch modelliert (Abb. 5.13, S. 161).
18
19
SC initiiert in den Folgesequenzen zur argumentativen Stützung ihrer Position die auf S. 186ff. analysierte längere Alltagserzählung. Beide Verfahren sind auch im Äußerungstripel A012/013/017 beobachtbar. Er wird hier nicht behandelt, weil keine Problemmanifestation eines Interaktionspartners vorliegt und damit eine notwendige Bedingung für die Konstitution der Kategorie 'Bearbeitung eines akustischen Verstehensproblems' fehlt. Dass es sich beim Äußerungstripel A012/013/017 aber tatsächlich um Wiederaufnahmen zur Verstehenssicherung und nicht um einen Turnübernahmeversuch handelt, zeigt die Pause A018, die IC ohne Turnübernahme verstreichen lässt.
166
5.1.3 5.1.3.1
Lokale Erwartungsprobleme Lokale Erwartungsprobleme im Deutschen
H493/498: Im Gespräch Η führt NH ein neues Topik mit der Bemerkung ein, dass die Braut in der Hochzeitszeremonie eine viel wichtigere Bedeutung habe als der Bräutigam: H489 NH: als brAUt bist du aber absolut im MITtelpunkt-
H'/.
490
-> 495
->
IH: SF: IH:
IH:
Τ* Η*
H+T*
H-T'/.
149 161 bist noch vIElmehr im mittelpunkt als [brÄU' als der BRÄUtigam; Η* H* H*H-T'/. 161 161 153 217 147 [hm; ja [KLAR. [KLAR. H*T-T'/. 119 113 (2.4) is eigentlich AUCH komisch-
H*
T-H'/.
106 103 105 (1.4) NH: na=ja Ebn; H*T-T'/. 222 147 wie viesO is das eigentlich fKLAR; H* H*T-T7. 158 195 185
SF und IH drücken ihre inhaltliche Zustimmung simultan mit KLAR aus, womit sie die Selbstverständlichkeit dieser Rolle unterstreichen (H492/493). Nach der langen Pause H495 problematisiert IH die Selbstverständlichkeit der Rolle, indem er eine Reparaturinitiierung durchführt (H495). Nach einer weiteren Pause (H496, IH schließt keine Selbstreparatur an) stimmt NH IHs Problematisierung mit zwei Diskurspartikeln inhaltlich zu (H497) und manifestiert ein lokales Erwartungsproblem (H498, Abb. 5.16), das in den Nachfolgesequenzen von den Interaktionspartnern bearbeitet wird. 20 Das W-Wort wieSO trägt das Intensitätsmaximum (71 dB) der Problemmanifestation. Diesem Maximum ist die Perzeption des hohen Akzenttons zuzuschreiben, der aus dem Grundfrequenzverlauf kaum ersichtlich ist. Bei der Wiederholung des Reparandums KLAR reproduziert NH die Kontur H* T- T% in H498 in einem höheren Tonhöhenregister: Der tiefe finale Grenzton von H498 liegt mit 185 Hz 3,3 ST über NHs Durchschnittswert (153 Hz). Dagegen liegt der tiefe finale Grenzton des Reparandums H493 mit 113 Hz nur 0,5 ST über IHs Durchschnittswert (110 Hz). Allerdings liegt nicht die gesamte Problemmanifestation, sondern lediglich die Wiederholung des Reparandums nach einem auffälligen Sprung in einem höheren Register. Akzenttonhöhe und Akzentprominenz betragen in H498 4,2 ST (über dem Durchschnittswert) und 70 dB, in H493 1,4 ST und 69 dB. 21 Der Umfang der Akzenttonbewegung auf KLAR ist dagegen mit etwa 0,9 ST in den beiden Komponenten nahezu identisch. 20 21
Siehe unten, S. 182f. Die akustische Analyse ist im Bereich des von SF und IH absolut simultan geäußerten KLAR nicht vollkommen verläßlich. H498 ist allerdings auch perzeptiv deutlich prominenter als H493.
167
Abb. 5.16: H493/498
R366/370: In der Gesprächspassage über das Für und Wider des Betriebssystems Windows 95 (R222-381) expliziert SK den Grund, der sie noch vor dem Update mit Windows 95 zögern lässt: R362 SK: Einzige was mich daran ABnerven würde-
Η*
Η* Τ-
H7.
204 238 222 250 (1.9) dass ich also das komplEtte die komplEttn sAchen die iEtz aufm computer Η* ΗΗ* Η - Τ* Η+Τ* 169 192 185 217 181 (185)175 drAUf sind,
365
Η+Τ* Η-Η·/.
(185)169 200 wieder alle RUN^ternehn: müss[te;
-*
HX
JB:
218
Η* Τ-
224
Τ'/.
169
[MUSST ja nich; H* T - Tl. 98 95
->
->• 370
->
(1.7) SK: « p > W I E muss ich nich->
Η* Τ-
Η%
150 155 JB: wieso musst die RUN+ternehm:-
Η'/.
Η* Τ-
Η'/.
124 113 84 87 (2.2) JB: kannste alle DRAUFlassn->
Η* Τ- H*/.
111 78 89
JB reagiert auf die Ausführungen SKs mit einer expliziten Negation (Fremdreparatur) in R367. Nach der langen Pause R368 manifestiert SK diesbezüglich ein lokales Erwartungsproblem (R369). Statt einer Bearbeitung manifestiert JB in R370 seiner-
168 •70.21
500 42.05
300
200
150
lOO 70 viedei alle RUN
temehm müs
[ste
wieso nuBt di< RUN
50
temehm
2.189
Abb. 5.17: R366/370
seits ein lokales Erwartungsproblem, dessen Reparandum (im engeren Sinn) allerdings R366 ist, wodurch also das Äußerungspaar R367/369 (siehe nächster Abschnitt) umschlossen wird. Die in R371 folgende lange Pause wird von SK nicht zur Problembearbeitung genutzt, weshalb JB selbst die Bearbeitung vornimmt (Fremdreparatur). JB ersetzt das Reparandum RUN\.temehm durch das seines Erachtens korrekte Verhalten DRAUFlassn (R372). SK ist davon nicht überzeugt. Nach einer weiteren langen Pause (R373) wird die Diskussion in R374 fortgesetzt. 22 Abb. 5.17 zeigt die akustische Analyse des Äußerungspaars R366/370. Obwohl das W-Wort wieso nicht akzentuiert ist, trägt es auch hier das Intensitätsmaximum der Problemmanifestation. In der Reparatur wird sowohl das Zentrallexem RUN\,ternehm als auch die Kontur H* T- reproduziert. Die Problemmanifestation R370 wird als phonetisch ausgeprägter perzipiert als das Reparandum R366. 23 In R370 ist der Umfang der Akzenttonbewegung H* T- mit 5,1 ST geringfügig größer als in R366 (4,9 ST). Außerdem liegt der Grundfrequenzgipfel früher im zeitlichen Verlauf der Akzentsilbe. Der hohe Akzentton liegt in R370 allerdings nur 1,8 ST über JBs Durchschnittswert (102 Hz) und hat eine Intensität von 65 dB. In R366 liegt er 3,9 ST über SKs Durchschnittswert (179 Hz) und hat eine Intensität von 70 dB. R370 befindet sich auch in einem niedrigeren Tonhöhenregister als R366 (T- liegt in R370 3,4 ST, in R366 nur 1 ST unter dem jeweiligen Durchschnittswert). R367/369: Die Analyse des Äußerungspaars R367/369 ist wegen der überlappenden (R367) und extrem leisen (R369) Äußerung der Komponenten nur bedingt verläßlich (Abb. 5.18). Auch hier wird wird in der Problemmanifestation (R369) die Kontur des 22 23
Siehe unten, S. 203f. Kollegen haben die Problemmanifestation zudem als 'ungehalten' charakterisiert.
169 χ χ χ
χ χ χ
Η*
Τ- Τ%
X X X M U S S T ja nich;
χ χ
χ
Η*
Τ-
χ
X X χ χ X X χ χ W I E m u s s ich n i c h -
Η%
Abb. 5.18: R367/369
Reparandums (R367) reproduziert, wobei das W-Wort die höchste Intensität trägt. Allerdings liegt R369 in einem tieferen Tonhöhenregister als R367: In R369 liegt der tiefe Phrasenton 3,1 ST unter dem Durchschnittswert, in R367 der tiefe Grenzton nur 1,7 ST. Akzenttonhöhen und Akzentprominenz sind nicht messbar, ohrenphonetisch sind aber auch hier der Problemmanifestation niedrigere Werte zuzuschreiben als dem Reparandum. Zusammenfassung: Lokale Erwartungsprobleme werden in zwei der drei deutschen Außerungspaare (H493/498, R366/370) mit dem intonatorischen Verfahren 'Verstärkung der fremden Kontur' manifestiert. Zur Zuschreibung dieses Verfahrens ist es nach dem vorausgehenden akzentuierten W-Wort ausreichend, wenn eines der auditiven Merkmale 'Umfang der Akzenttonbewegung', 'Akzenttonhöhe'/ 'Akzentprominenz' und 'Tonhöhenregister' in der Problemmanifestation ausgeprägter ist als im Reparandum. Bei H493/498 sind Akzenttonhöhe/Akzentprominenz und Tonhöhenregister in der Problemmanifestation höher als im Reparandum, der Umfang der Akzenttonbewegung stimmt überein. Bei R366/370 ist der Umfang der Akzenttonbewegung in der Problemmanifestation größer, die anderen Merkmale sind weniger ausgeprägt als im Reparandum. Bei R367/369 scheint dagegen das Verfahren 'Abschwächung der fremden Kontur' selektiert zu werden. Mangelnde akustische Qualität lässt keine Detailanalyse aller potentiell relevanten Merkmale zu. Diese Ergebnisse präzisieren die Feststellungen von Selting (1987a, S. 141), dass bei Manifestationen des Widerspruchs zum Wissensrahmen „stärkere Akzente als normal [...] und/oder die Formulierung der Problemmanifestation auf hoher bzw. höherer globaler Tonlage als bei den umliegenden Sequenzen" auftritt. Lokale Erwartungsprobleme werden prosodisch dadurch signalisiert, dass die Kontur des Reparandums aufgenommen und auf der Problemmanifestation phonetisch stärker reproduziert wird (Abb. 5.19). Die prominenteste Akzentsilbe der Problemmanifestation ist mit dem W-Wort der Problemmanifestation assoziiert, das keine strukturelle Entsprechung im Reparandum hat.
5.1.3.2
Lokale Erwartungsprobleme im Italienischen
F029/034: In einem Abschnitt von Gespräch F über Unterschiede zwischen dem italienischen und dem deutschen Universitätssystem bewertet GP die Praxis des Doktortitelerwerbs in Italien als missbräuchlich.
170 Intonatorische Kompetenz Handlungskonzept: Erwartungsproblem
Bezugskontur
Töne
Verfahren
(i^OCr) m (^bschwächunj)
(^Modifikation^)
o> Ü" * CtoO 3£ 3er
H* H+T*H-H'/. 135 (131)103 153 in missbräuchlicher Art 030 RH: EH: ; H*T-T'/, 222 196 hiη GP: eh:äh abbiA:mo molti tltoli di di dotTOri; Η* H* H*T-T·/, 135 133 133 air haben viele Doktortitel RM: eh NO eh:H* T333 170 äh nein also perchE: abuSA'; Η* H+T* 276 (176)124 warum
missbräuch(lich)
RM hatte in einem Gesprächsabschnitt vor Beginn der Transkription den Wunsch geäußert, mit SF einen gemeinsamen Aufsatz zu schreiben, wenn dieser seine Doktorarbeit fertigstellt hätte. Sie ging dabei davon aus, dass SF mit dem Doktortitel einen Abschluss anstrebe, den sie bereits besitze. 24 GPs negative Bewertung in 24
Der Abschluss geisteswissenschaftlicher Studiengänge in Italien, die laurea, wird in Wörterbüchern mit 'Doktorexamen' übersetzt, entspricht aber tatsächlich dem deutschen Magisterexamen bzw. Diplom, wenn auch die schriftliche Hausarbeit in Italien in der Regel etwas umfangreicher ist. Dem deutschen Doktorat entspricht das italienische dottorato di ricerca.
171
Abb. 5.20: F029/034 F030 quittiert RM mit der Diskurspartikel EH, die den hohen Grad an Aufmerksamkeit ausdrückt, mit dem RM GPs Ausführungen folgt. 25 Die in F032 vervollständigte Proposition - 'in Italien werden Doktortitel missbräuchlich erworben' - verstößt gegen RMs Erwartungen und bedroht ihr Image als dottoressa. Die Partikelfolge 26 und der sehr hohe Akzentton in F033 drücken Überraschung und Betroffenheit RMs aus. In F034 manifestiert sie das lokale Erwartungsproblem. In den Nachfolgesequenzen bemüht sich SF, das beschädigte Image von RM wiederherzustellen und ratifiziert in F044/045 die (sachlich nicht gerechtfertigte und in F048 wieder zurückgenommene) Gleichsetzung der Doktortitel, die RM zur Imageverteidigung in F042 vornimmt. In Abb. 5.20 ist das Äußerungspaar F029/034 akustisch dargestellt. Das W-Wort perchE trägt mit 276 Hz und über 70 dB das Grundfrequenz- und Intensitätsmaximum der Intonationseinheit F034. abuSA' (F034) reproduziert die Tonfolge H + T * von abbuSAto (F029). Der Fall H + T * ist auf abbuSAto 4,2 ST und auf abuSA' 6,1 ST lang. Der tiefe Akzentton bei abuSA' liegt 5,8 ST unter dem Durchschnittswert von RM (173 Hz) und damit tiefer als der tiefe Akzentton bei abbusato, der fast exakt den GPs Durchschnittswert (104 Hz) abbildet. Die Akzentprominenz ist auf abuSA' mit 67 dB deutlich geringer als auf abbuSAto mit 70 dB. A074/075: Im schon behandelten Gesprächsabschnitt über die sexuelle Aufklärung von Kindern und Jugendlichen (A061-178) beschreibt Interaktant IC, zum Zeitpunkt der Aufnahme etwa 50 Jahre alt, die Situation in seiner Jugend in Colico: 25 26
Die Diskurspartikel hat hier die Funktion 'segnale di attenzione', vgl. Poggi (1995), S. 422. Die Diskurspartikel eh hat hier die Funktion 'rafForzativo'/'Verstärkung', die im Deutschen nicht durch vergleichbaxe Diskurspartikeln/Interjektionen ausgedrückt werden kann. Vgl. das Ebenenmodell zur Beschreibung der Funktionen von Diskurspartikeln von Kehrein/Rabanus (2001) und die Ausführungen zu eh in Poggi (1995), S. 423.
172 A062 IC: i nostri
SF: IC:
065
SF: IC:
SF: 070
SC: IC:
SF: -> 075 ->
IC:
SC:
IC:
080
SC:
[geniTOriH+T*T-H'/. (143)82 93 unsere Eltern [St; i:l [sEsso cosl era taBÜ, Η* H* H*H-H·/. 147 145 110 der Sex war tabu [Si; non ne parLAvano; Π. H»T-TX 86 96 71 sie sprachen nicht davon su in CAsa non si parlAva; Η'/. H* H*T-T7, 116 133 118 93 zuhause sprach man nicht davon per DI[re; H*T-T'/. 106 sozusagen [eh c'Era us cErto momEnto in cui mio pAdre rai veNIva: a non so[:, äh es gab eine gewissen Moment in dem mein Vater kam um mir, ich weiß nicht [a casa HIa si. H*H-T*T-T'/. bei mir zuhause (aber) doch [no NO, H*H-H7, nein nein invECce da NOI nO « p > E H - > H*HH* H*T-TV. T*T-H'/. 134 144 132 109 98 96 100 dagegen bei uns nicht, ne certe [cOse no « p > a l l ' e T A di [non so-> bestimmte Dinge zu erklären, ja, im /Iter von, ich weiß nicht [invEce da da NOI nO: Η* H* H*T-T/. H*H-H'/. 152 135 114 96 dagegen bei bei uns nicht, ne [CUme nOI nO; H*T- H*T-H*T-T·/. 329 205 232 204 215 204 wie, bei uns nicht pArla per TE, H* H H+T*H-HV. 222 333(357)152 232 rede für dich perCHi; H*T-T'/. 141 85 warum {tE la tua MAMM, Η'/. H*H-H·/. 145 159 dir, deine Mutter cos'fc ta l'ha DIT} [(ma); Η'/. Η* Η* T-T·/. 167 124 122 u/as hat sie dir gesagt [a m E ha spieGAto. H* T*T-T·/. 322 172 154 mir hat sie (die Dinge) erklärt
ICs Ehefrau SC, die ebenfalls in Colico aufgewachsen ist, signalisiert schon in A070, dass sie mit ICs kategorischen Setzungen nicht einverstanden ist. Auf die wiederholte Äußerungen invEce da NOi nO (A072/074, siehe unten, S. 230f.) reagiert SC mit der Manifestation eines lokalen Erwartungsproblems (A075) und einem expliziten Verweis
173
Abb. 5.21: A074/075
an ihren Ehemann (A076). In einem an dieser Stelle offenen kommunikativen Konflikt fordert IC seine Ehefrau auf, Gründe für die Bestreitung seiner Behauptung zu nennen. Er wechselt dazu von der italienischen Standardsprache in den Basisdialekt von Colico (A078/079). 27 SC kommt dieser Forderung in A080 und A085 nach. IC beginnt daraufhin seine oben behandelte Erzählung über ein erotisches Jugendabenteuer (A084-101). Trotz überlappender Rede wird in der akustischen Analyse des Äußerungspciars A074/075 ein gutes Ergebnis gewonnen (Abb. 5.21), weil die Intensität der betrachteten Intonationseinheiten diejenigen der simultanen Außerungsteile weit übertrifft. Auch hier liegen das absolute Grundfrequenz- und Intensitätsmaximum (329 Hz und 81 dB) auf dem W-Wort (CUme) der Problemmanifestation (A075). Die Problemmanifestation erfolgt insgesamt in einem höheren Tonhöhenregister. Das durchschnittliche Minimum der Bewegungen (T-) liegt in der Problemmanifestation (A075) 4,4 ST über SCs Durchschnittswert (159 Hz), im Reparandum (A074) stimmt es mit dem Durchschnittswert von IC (96 Hz) nahezu überein. Auch Akzenttonhöhen und Akzentprominenz sind in der Problemmanifestation ausgeprägter als im Reparandum: 12 S T u n d 81 d B auf CUme vs. 8 S T u n d 73 d B auf invEce, 6,5 S T u n d 74 d B vs.
5,9 ST und 70 dB auf NOI, 5,2 ST und 73 dB vs. 3 ST und 71 dB auf nO. Dagegen ist der Umfang aller Akzenttonbewegungen in der Problemmanifestation geringer als im Reparandum: Der Bewegung auf CUme (Η* T-) ist mit 8,2 ST zwar ausgeprägt, aber weniger als die Bewegung auf invEce mit 8,3 ST. Für NOI gilt ein Verhältnis von 2,2 zu 6,2 ST und für nO eines von 0,9 zu 3 ST. In der akustischen Detailanalyse fallen außerdem Unterschiede in der Alinierung der hohen Akzenttöne zu NOI und nO auf: Die ίο-Gipfel liegen in A075 früher in den Akzentsilben und zeitlich vor den 27
Zum Dialekt von Colico vgl. oben, S. 115f.
174 Intensitätsgipfeln. In A074 liegen die ίο-Gipfel später und nach den Intensitätsgipfeln. Möglicherweise begründet die unterschiedliche Alinierung die staccatoartige Realisierung der Lexeme in A075, was wiederum zur Zuweisung der vielen tiefen Phrasentöne führt. Zusammenfassung: Bei den zwei italienischen Außerungspaaren, in denen lokale Erwartungsprobleme manifestiert werden, wird das Verfahren 'Verstärkung der fremden Kontur' selektiert. Für die Anwendung des Verfahrens ist es nach dem vorausgehenden W-Wort mit hohem Akzentton ausreichend, dass eines der auditiven Merkmale 'Umfang der Akzenttonbewegung', 'Akzenttonhöhe'/'Akzentprominenz' und 'Tonhöhenregister' in der Problemmanifestation ausgeprägter ist als im Reparandum. Im Außerungspaar F029/024 ist der Umfang der Akzenttonbewegung in der Problemmanifestation größer, die anderen Merkmale sind weniger ausgeprägt als im Reparandum. Im Außerungspaar A074/075 liegt die Problemmanifestation in einem höheren Register, Akzenttonhöhen und Akzentprominenz sind ausgeprägter als im Reparandum. Dagegen sind im Reparandum die Akzenttonbewegungen stärker. 28 Abb. 5.19 (S. 170) ist also auch für das Italienische zutreffend.
5.1.4
Turnbeanspruchung
Turnbeanspruchungen konstituieren im Vineta-Korpus kommunikative Konflikte, die implizit ausgetragen werden (Kampf um das Rederecht). Weil es dadurch zu längerem Simultansprechen kommt, ist keine Visualisierung der akustischen Analyse durch Praat-Graphiken möglich.
5.1.4.1
Turnbeanspruchung im Deutschen
Η392/396: Im Gespräch über Ehe und Familie stellt IH fest, dass die katholische Kirche den Menschen in ein Dilemma bringe, weil er entweder beim außerehelichen Geschlechtsverkehr oder durch eine spätere, nie ausschließbare Ehescheidung Schuld auf sich lade (H348-378, besonders H376-378). SF macht daraufhin eine scherzhafte Bemerkung: H381 SF: GUT; es gibt ja den Unwahrscheinlichen fall dass man auf Ewig mit seiner frau GLÜCKlich ist; IH: ja385 ((lacht)) SF: ((lacht)) soils ja AUCH geben wennNH: hmSF: wenn auch bestimmt nicht HÄUfig; 390 IH: (JA und)
H*
109 28
Zum Vergleich sei hier noch auf F118-121 verwiesen, das eine vollständige Sequenz aus Reparandum, Manifestation eines lokalen Erwartungsproblems und Problembearbeitung darstellt.
175 χ X
X
X X Χ Χ Χ Χ XXX XX
χ
X
Χ Χ Χ
χ
X XXX XXX
also Ich unterstEll sowieSO, Η* H+T* H*H-
X
X Χ Χ Χ Χ XXX XX
Χ Χ Χ
χ
X X XXX XXX
also ich unterstEll (.) sowieSO, H+T* H*H-
Abb. 5.22: H392/396
H391 NH: das [vAr halt zu Zeiten als man früh geSTORben
Η*
Η*
Η*
ist;
T-T·/.
233 232 [also Ich unterstEll sovieSO, H* H+T* H*H(129)114 131
NH: [war das so dass man auf Evig zusammen GLÜCKlich war; H+T* Η* ΤΠ (204)192 233 182 130 [((lacht)) IH: [also ich unterstEll (.) so[vieS0, H+T* H*H(125)113 128 NH: [das IS halt leider soIH:
-ν
395 ->
H*
T-
H'/.
196 200 IH: vIE:len leuten dass die (0.9) auch (0.8) kirchlich hEIraten wegen der {SHOW}; Η* Η* T* H+T*T-T·/. 132 175 108 89 Also-
H*
400
96 NH: ja
IH:
[KLAR, H*H-H'/. 189 [bin ich ganz EHRlich; H* T-T'/.
In H385/386 wird SFs Bemerkung durch gemeinsames Lachen ratifiziert. Während NH aber die scherzhafte Kommunikation weiterführt (H391/394), kehrt IH zur Ernsthaftigkeit des Themas zurück. Sein durch die Diskurspartikel ja in H384 und H390 angemeldeter Anspruch auf Turnübernahme wird jedoch zunächst durch das gemeinsame Lachen, dann durch die Turnübernahme NHs zurückgewiesen. Mit der Wiederholung der Äußerung H392 in H393/396 setzt IH sein Rederecht gegen NH durch. NH respektiert IHs Rederecht trotz der äußerungsinternen Pausen in H398 und ratifiziert den Wechsel zurück zur Ernsthaftigkeit mit ja KLAR in H400. IH reproduziert in H396 die lexikalisch-grammatische Struktur von H392 (Abb. 5.22). Auch die Kontur wird mit Ausnahme des hohen Akzenttons bei Ich in H392 und eines zusätzlichen metrischen Schlags bei sowieSO in H396 im selben Tonhöhenregister reproduziert. Die Akzenttöne H+T* und Η* H- sind jedoch in der Reproduktion phonetisch geringfügig schwächer: Die Akzenttonbewegung von 129 zu 114 Hz in H392 wird in H396 als Bewegung von 125 zu 113 Hz reproduziert, der in H392 131 Hz hohe Akzent- und Phrasenton mit 128 Hz in H396. (Die Akzentprominenz ist wegen simultaner Rede nicht messbar.)
176 Intonatorische Kompetenz Handlungskonzept: Turnbeanspruchung (dt.)
Töne
Bezugskontur dB*
Verfahren
( D © (EXE) '· -(Xbschwächung>
fremdej^)
(^V^tärkung^)
c 3 er ® Ν Β) ffi
W £ "O 3
3 CO Abb. 5.23: Turnbeanspruchung im Deutschen Zusammenfassung: In einem Äußerungspaar (H392/396) wird Turnbeanspruchung signalisiert. 29 Dabei wird das Verfahren 'Abschwächung der eigenen Kontur' verwendet. Beide Komponenten des Außerungspaars liegen im selben Tonhöhenregister, Akzenttonhöhe und Akzenttonbewegungen sind in der zweiten Komponente jedoch schwächer ausgeprägt als in der ersten. Abb. 5.23 visualisiert das Prozessmodell.
5.1.4.2
Turnbeanspruchung im Italienischen
F021/025: Am Anfang von Gespräch F thematisieren die Interakionspartner Unterschiede im System der universitären Studienabschlüsse in Deutschland und Italien. RM führt dieses Topik durch die Vermutung ein, SF, der sich als Dokorand vorgestellt hatte, müsse jetzt bald seinen Magisterabschluss erreicht haben (F002). SF macht daraufhin klar, dass er seinen Magisterabschluss/seine laurea schon erreicht habe und nun die Promotion/das dottorato di ricerca absolviere, das nicht mit der laurea verwechselt werden dürfe. 30 F011 SF: N0=n0; dotto[rAto di ri!CER!ca; GP:
Forschungsdoktorat
(Promotion)
[in gerMAniaH* Ttn
Deutschland
SF: [di ri!CER!ca; (Doktorat)
29
30
in der
Forschung
In den Äußerungen H315/339 wird der Turn ebenfalls durch Wiederaufnahme beansprucht. Die beiden Äußerungen liegen aber zeitlich zu weit auseinander, um ein Äußerungspaar im Sinne des in Kap. 4.1.2 Ausgeführten zu bilden. Zur Sachlage siehe oben, S. 170, Fn.
177 F015 RM: [ah e un tltolo piü speCI[fico;= Η* H* T-T·/, 294 ah das ist ein speziellerer Titel GP: [Sl; SF: =Si=si; titolo [PIÜ:ein (spezieller)er Titel RM: [AH; H*T-T'/. aha 020 SF: β [io sOno giä docEnte all'universiTAund ich bin schon Dozent an der Universität GP: [in:fAtti i tedEschi;
-+
025
->
RM: GP:
030
Η*
Η* T-
Η*
Η*
in der Tat, die Deutschen RH: ah sei gii doCEN[te; H* T*T-T·/. 323 213 ah du bist schon Dozent SF [ RM: che [BRAvo; H*T-T'/. wie tüchtig GP: [infAtti i'tedEschi ci CRIticano;
RM:
GP:
H* T-T'/.
137 in der Tat kritisieren uns die Deutschen per[CHfi:::H*Hwei l [perCHE? H*H-H'/. warum NOi::; H*T-T'/, 133 112 wir in mOdo abbuSAto, H* H+T*H-H'/. 135 (131)103 153 in missbräuchlicher Art EH: ; H*T-T'/. 222 196 hm eh:äh abbiA:mo molti tltoli di di dotTOri; Η* H* H*T-T7. 135 133 133 wir haben viele Doktortitel
Die Interaktionspartner erarbeiten anhand der Lebensläufe von SF und RM die unterschiedlichen Bedeutungen von Doktorat in Deutschland und Italien. Das Gespräch wird zunächst von SF und RM als Trägern der verhandelten Biographien bestimmt. GP hat in dieser Situation Schwierigkeiten, den Turn zu übernehmen. F008 ist als inhaltliche Zustimmung ohne Turnübernahmeanspruch zu werten, mit F013 projektiert GP jedoch eine längere Äußerung, die er gegen die Kommunikationsachse SF-RM nicht realisieren kann. Das gilt auch für die erste Komponente des hier untersuchten Außerungspaars in F021. Erst in F025, nach Abschluss einer Bestätigungssequenz, in der RM SFs biographische Angaben mit che BRAvo (F024) honoriert, 31 übernimmt 31
Vgl. dazu Holly (1979), S. 73ff., der unter dem Aspekt positiver und negativer Bewertung in der Imagearbeit vier Grundtypen ritueller Muster unterscheidet: Selbstbestätigung und Partnerbestätigung, Selbstkritik und Partnerkritik. Hier liegt Partnerbestätigung vor.
178 χ X X X X X Χ Χ XX XX Χ Χ Χ Χ Χ Χ Χ Χ in:fAtti i tedEschi; Η* Η* Τ -
X X X X X Χ Χ XX XX X X Χ Χ Χ Χ Χ Χ X X infAtti i tedEschi ci Η* Η*
X χ χ χ χ χ χ χ χ χ CRIticano; H* T-T%
Abb. 5.24: F021/025 GP den Turn: Die Turnbeanspruchung wird durch Wiederholung und Vervollständigung von F021 deutlich. GP bringt eine Bewertung in den Sachdiskurs ein, indem er die deutsche Kritik am italienischen System referiert und durch abbuSAto (F029) negativ bewertet, wobei nicht klar wird, ob das seine eigene oder die referierte deutsche Position ist. RM ratifiziert die Turnübernahme indirekt durch die Reaktionsaufforderung perCHE (F027), womit sie GP zu weiteren Ausführungen einlädt. Auf GPs Ausführungen reagiert RM mit dem oben (S. 169ff.) analysierten lokalen Erwartungsproblem. GP wiederholt in F025 die lexikalisch-grammatische, metrische und intonatorische Struktur von F021, realisiert sie aber phonetisch schwächer (Abb. 5.24). Da nur die Grundfrequenz eines Akzents messbar ist, lässt sich der auditive Befund nicht quantifizieren. F174/177: In einer späteren Passage von Gespräch F diskutieren die Interaktanten kontrovers über den Status bestimmter Sprachen im Zeitalter der Globalisierung. RM drückt ihre Verwunderung darüber aus, dass sich SF mit dem Italienischen beschäftigt (F157) und setzt fort: F171 RM: [ i t a l I A : n o [ c h i 6 che l o c h i £ che l o c o n S : : I d e r a H% H+T*T-T·/. Η'/. Τ* Η'/. Τ* Η+Τ* Τ-Η'/. 286 159 256 213 256 223 151 165 Italienisch, wen gibt es wen gibt es, der sich damit beschäftigt SF: [NO n o ; GP: h m : : [no s i f A n n o : d e i c O r s i : -y Η* H» nein man macht Kurse 175 RM: [ c i o e mi s e m b r a s t r A n o che un t e d E s c o s i b U t t i v i a i l tE:mpo
H7.
H*T-
?
Η*
250 264 also mir scheint es seltsam dass ein Deutscher [con I ' i t a l l A n o ; H+T*T-T'/, 143 mit dem Italienischen GP: [ S I s i fAnno d e i c O r s i p r i V A t i i n g e r [ m A ' ;
H+T*T-T·/. Η*
180
Η*
H+T*
H+T*
208 s e i n e Zeit verschwendet
H+T*
126 (128)108 ja man macht Privatkurse in Deutsch(land) RM: [ma p e r c h e d e v e e s s e r e Uno che h a H*H2 5 1 277 aber weil, es muss einer sein der hat un amore p a r t i c o l A r e p e r l ' i T A : : l i a ; H+T* Η* Τ-Γ/. 175 191 118 e i n e besondere Liebe für Italien GP: [ S i s i s i ;
179
Χ Χ Χ Χ no
si
Χ
fAnno: Η*
dei
XX cOrsi:Η*
Χ Χ Χ Χ Χ Si si f A n n o d e i H + T * T - T % Η*
XX
χ χ χ χ ΧΧΧΧ
cOrsi priVAti Η* H+T*
in
XX germA'; H+T*
Abb. 5.25: F174/177 SF signalisiert in F164/165 und F170 explizit Widerspruch zu den Präsuppositionen, die der rhetorischen Frage von RM in Fl71 und ihren darauf folgenden Ausführungen (F175/176, F178-183) zugrunde liegen, nämlich: 'Italienisch ist eine unbedeutende Sprache' und 'für einen Deutschen gibt es keinen Grund für eine Beschäftigung mit dem Italienischen'. In F185/186 nennt SF eine enge geschichtliche Verbindung als Grund für die besondere Nähe von Deutschland und Italien. Auch GP widerspricht der Position RMs. Er argumentiert allerdings nicht gegen die Präsuppositionen, sondern gegen die in der rhetorischen Frage ausgedrückte Unterstellung: 'niemand beschäftigt sich mit dem Italienischen'. GP liefert in F177 ein Sachargument, das RM in F178183 durch eine Modifikation ihrer Position ratifiziert: 'nur wegen einer großen Liebe zu Italien beschäftigt man sich mit dem Italienischen'. GP unternimmt einen ersten Turnübernahmeversuch an der Ubergabestelle in F174. RM setzt ihren Redezug simultan dazu fort. Noch in derselben Turnkonstruktionseinheit RMs unternimmt GP den zweiten Ubernahmeversuch: Die Turnbeanspruchung wird durch Wiederholung und Weiterführung von F174 in F177 ausgedrückt. GP führt F177 bis zu dem Punkt aus, an dem die Proposition verstanden wird. Allerdings setzt RMs Rede vor der Ubergabestelle erneut ein. GP stimmt in F180 und F184 RMs Ausführungen inhaltlich zu und ratifiziert damit indirekt ihre Turnverteidigung. Das Schaubild in Abb. 5.25 illustriert die auditive Analyse. GP beansprucht den Turn in F177 durch die Wiederholung und Vervollständigung von F174. Grammatischlexikalische, metrische und intonatorische Struktur stimmen in den beiden Komponenten des Äußerungspaares überein. Akzenttonhöhen und Akzentprominenz sind in der Wiederaufnahme jedoch geringer. Wie bei F021/025 sind auch hier keine Quantifizierungen möglich. F200/202/205:
Die Interaktion geht mit SFs historischem Argument weiter.
F185 SF:
[ma c'£ sEmpre stata aber es gab immer [una certa viciNANza t r a [la germAnia e 1'itAliaeine gewisse Nähe zwischen Deutschland und Italien RM: [((räuspert sich)) GP: [SL- « p > A N C h e ; > ; H*T-T·/.
190
ja, (das) auch SF: e qulndi non e niEnte di sorprenDENte; und deshalb ist es nicht überraschend RH: a m E [sorPRENdeT'/. H*
H+T*T-T'/.
201 334 208 204 mich überrascht es
180 X X XX XX giä i l Η*
X Χ il
X X X X Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ f r a n C E s e ha p E r H*HH+T*
X X X X X X X X X X X X X X X X X X f r a n c E s e ha g i ä p E r s o H*HH+T*
Χ Χ il
χ χ Χ XX Χ XX franCEse: H*H-
x X X X X X X X X X X x x x x x x x x X X X x x x x x x x x m o l t i P U N : t i r i s p e t t o ad a n n i f A ; H* T H+T*T-T%
Abb. 5.26: F 2 0 0 / 2 0 2 / 2 0 5
F191 SF: RM:
SF:
195
RM:
SF: RM:
200 -> SF: ->
RM:
[Dlrezu sagen SAI perch6, H*HT*T-TV. 250 185 weißt du warum perCHfi i Π H* 200 229 wei l naturalniF.nte i l francEse & una lingua PIÜ: grande; H+T* Η» Η» Τ- T"/. (153)135 156 166 125 119 natürlich ist das Französische eine größere Sprache sOno sOno: eh-= Η* H* 135 138 es sind es sind äh =ECco; H*T-T·/. 192 167 genau eh [sonoäh es sind [peRÖ; H'/. T*T-T"/, aber SAI; H+T*T-T'/. 179 weißt du CgiA i l franCEse ha pErH* H*HH+T* 222 238 257 196 schon das Französische hat verlo(ren) [piü numeROsi [ g l i studEnti che fanno i l franCEse; zahlreicher die Studenten die Französische machen [ i l franCEse:, H*H238 263 das Französische
181 Intonatorische Kompetenz
Mandlungskonzept: Turnbeanspruchung (it.)
Bezugskontur
•κ JS
:S
Q. » Φ
Töne
Verfahren
(!£>CEXE> »>•
• ^^eigenej^)
CS
(^Modifikation^)
3 αφ Ν ω Ö in ο Ό 3
S * C 3 CO
Abb. 5.27: Turnbeanspruchung im Italienischen
F203 RM: [SI mA; H» T*T-T·/, 222 189 10 aber SF: [ma POI, aber dann 205 RM: il francEse ha giä pErso molti PUN:ti rispetto ad anni fA;
-t
H*H-
H+T*
Η* Τ-
H+T+T-T'/.
237 303 (205)173 182 164 (161)152 ias Französische hat schon viele Punkte verloren, im Vergleich e [secondo mE i destinA:ta a morlre anche il [franCEse; Η» H* H*T-T'/. 227 178 und meiner Meinung nach ist auch das Französische zum Sterben
zu vor
Jahren
bestimmt
RM bestreitet den Geltungsanspruch des historischen Arguments, indem sie SFs Formulierung niEnte di sorprenDENte (F189) aufnimmt und mit sorPRENde (F190) negiert. RM interpretiert F189 als syntaktisch und intonatorisch abgeschlossene Einheit und übernimmt den Turn an der Übergabestelle. Dessenungeachtet expandiert SF seine Äußerung in F191 und löst damit einen bis F205 reichenden Kampf um das Rederecht aus, der einen tiefen inhaltlichen Dissens reflektiert. RM verweigert die Ratifizierung der Äußerungen F194/201, die als Konzession SFs an RMs kritische Position dem Italienischen gegenüber und damit kooperativ interpretiert werden können. Stattdessen etabliert RM Französisch als Topik (F200) und prophezeit den Untergang des Französischen als Weltsprache. Die harte Formulierung destinAta a morlre in F206 provoziert in F207-211 eine Intervention GPs und eine längere Diskussion über den Status von Französisch in der globalisierten Welt. Vor allem GP, der in seiner Jugend (er ist zum Zeitpunkt der Aufnahme 59 Jahre alt) in Paris studiert hat, vertritt in dieser Diskussion die Gegenposition zu RMs Ausführungen. In Abb. 5.26 wird die metrische Struktur und der Tonhöhenverlauf des Äußerungstripels F200/202/205 dargestellt, mit dem RM versucht, den Turn zu übernehmen und francEse als Topik zu etablieren. Die metrische und intonatorische Struktur und das
182
Tonhöhenregister des Zentrallexems francEse ist in den drei Äußerungen identisch. In der Länge weicht nur francEse in F202 mit einer der finalen Dehnung geschuldeten Länge von 590 ms vom Wert in F200 (400 ms) und F205 (410 ms) ab. Die akustische Messung der Tonfolge H* H- zeigt Werte, die von einem fast identischen hohen Akzentton zu einem immer höheren Phrasenton ansteigen: 238 bis 257 Hz (F200), 238 bis 263 Hz (F202) und 237 bis 303 Hz (F205). Zusammenfassung: In den drei italienischen Außerungspaaren bzw. Außerungstripeln werden zur Turnbeanspruchung zwei unterschiedliche intonatorische Verfahren selektiert: bei F021/025 und F174/177 'Abschwächung der eigenen Kontur' und bei F200/202/205 'Verstärkung der eigenen Kontur' (Abb. 5.27). Überlappende Rede lässt für die Außerungspaare F021/025 und F174/177 keinen Detailvergleich der phonetischen Merkmale zu. Im Äußerungstripel F200/202/205 ist der Umfang der Akzenttonbewegung in jeder Komponente höher als in der jeweils vorangehenden. Die Ausprägung der anderen Merkmale ist gleich.
5.1.5 5.1.5.1
Turn Verteidigung Turnverteidigung im Deutschen
H506/507/513: In der Gesprächspassage über die Rollen von Braut und Bräutigam bearbeitet IH in H503-514 das in H498 manifestierte lokale Erwartungsproblem NHs: 32 H498 NH: vie viesO is das eigentlich tKLAR; H* H*T-T'/, 158 195 185 also-
Π
500
505 -V
133 sin ja BEIde; Η'/. H*T-T'/, 156 204 161 alsoT'/. 149 (0.7) IH: JA, H*H-H'/. 140 aber es is [ElgentlichNH:
H*
[er könnte ja [AUCH so η kleid Anhabn- ((lacht)) H* H*T-T'/. IH: [auch dieses IBILD!, T*+HH-H'/. 125 196 es is ja [auch dieses IBILD!, T*+HH-H'/, 123 204 NH: [er könnte ja AUCH was bes0nde[res ( )
Η*
IH:
H+T*
(208)185
[dEr-
H*
161
32
Siehe oben, S. 166f.
183
Abb. 5.28: H506/507/513
H510 SF: HAT er aber nich.= NH: =HAT er aber nich; ((lacht))
Η* Τ-
515
T'/.
SF: [muss ma einfach so FESTstellen; IH: [auf dieses auf dieses !BILD!, T«+HH-H7, 131 194 dEr der vAfter übergibt (.) die brAfUt [(.) dem [BRAUtigam. T* T*+HHH«HT»+HHH+T* Τ - T'/. 133 108 169 133 100 147 (111)105 93 81 NH: [dem (so') [dem SCHWIEgersohn;= Η'/. H*T- T7. 196 192 159 144
IHs Problembearbeitung wird von einer Elaboration des Erwartungsproblems (H505, H508) und einem Sachverhaltsdiskurs von SF und NH (H510-512) unterbrochen. IH versucht das Rederecht, das er in H503 an einer Ubergabestelle übernimmt, durch Wiederholung der Nominalphrase um das Zentrallexem !BILD! zu verteidigen. Nach Abschluss des Sachverhaltsdiskurses gelingt die Turnverteidigung. Der Erfolg scheint IH so zu überraschen, dass er am Anfang von H514 verbal „ins Stolpern gerät": Er korrigiert den Artikel dEr, dessen als Akzent perzipierte Intensität wohl noch der an dieser Stelle überflüssig gewordenen Turnverteidigung zu schulden ist. 3 3 NH führt in H515 eine interaktive Vervollständigung durch. 34 S F ratifiziert IHs Ausführungen und NHs Vervollständigung in H516.
33
34
Diese Stelle zeigt, wie flexibel prosodische Merkmale auf veränderte kommunikative Erfordernisse reagieren: Die prosodische Markierung fällt nur einen Sekundenbruchteil nach Ende der Turnkompetition weg. Vgl. dazu gleichlautende Beobachtungen von French und Local (1983), referiert von Selting (1995), S. 209. Zum Konzept der interaktiven Vervollständigung vgl. Gülich (1994), S. 83f.
184
Abb. 5.29: R074/075
Die akustische Analyse des Zentrallexems IBILD! im Tripel H506/507/513 führt zu dem in Abb. 5.28 dargestellten Resultat. Mit dem in allen drei Komponenten nahezu im selben Tonhöhenregister ausgeführten IBILD! ist jeweils der extrastarke steigende Akzentton T * + H (gefolgt von H- H%) assoziiert. Dem Grundfrequenzverlauf korrespondiert ein zweigipfliger Intensitätsverlauf. Der hohe Offset H% der Akzenttonbewegung ist mit dem höheren, der tiefe Akzentton T* mit dem niedrigeren Gipfel des Intensitätsverlaufs aliniert. 35 Der Umfang der Akzenttonbewegung ist in allen drei Fällen sehr groß: in H506 7,8 ST, in H507 8,7 ST und in H513 6,8 ST. R074/075: In R001-111 berichtet SK über die finanzielle Abrechnung einer wissenschaftlichen Tagung, die am Wochenende zuvor stattgefunden hat und für dessen Organisation SK verantwortlich war. SK zeigt sich unzufrieden mit dem Tagungshotel (R054) und befürchtet einen Streit um die Abrechnung (R047/048, R056-058). R070 SK: natürlich war das alles BILlig und GÜNStig;
Η*
075 -¥
35
?
Η* T-T7.
219 188 154 irgendWIE; H+T*T-T7. (169)154 JA, T*+HH-H% 156 217 äh: [mJB: [aber das Angebot hatten sie auch so ge^MACHT. H» HH+T*T-T'/t 117 131 (143)90 SK: das Angebot ham die ja so gef!MACHT!, H* HH*H-H·/. 206 213 238
Überlappende Hede auf IBILD! lässt keine Ablesung der absoluten dB-Werte zu.
185
•2
c ο JC
»
1® «2. S
•"Η
ο
I i I (Ο I 5 ι
Abb. 5.30: Turnverteidigung im Deutschen F076 SK: also das is [ja nun dEren proBLEM, T7, H* H*T-T7. 238 167 169 200 JB: [RICHtig; SK: irgend[vie-
Η* T-T'/.
T ·/.
JB:
142
[geNAU;
Η+Τ*Τ-Π
Auf die Äußerung R070, mit der das Verhalten der Hotelbetreiber partiell zu entschuldigen wäre, reagiert JB mit einem negativen Bescheid (R074): Ein Angebot sei in jedem Falle einzuhalten. Weil SK durch eine Modal- und zwei Diskurspartikeln (R071-073) Formulierungsarbeit signalisiert, ist R074 nicht als Widerspruch zu SKs Ausführungen zu interpretieren, sondern als Formulierungshilfe. SK ratifiziert R075 auch durch Wiederholung und schließt R076 inhaltlich daran an, was wiederum JB honoriert (R077, R079). SK und JB signalisieren sich einen vollständigen Konsens in der Einschätzung der Sachlage. Weil JB den Turn aber trotz der Diskurspartikel R073 mit turnsichernder Funktion übernimmt (also turnkompetitiv) , 36 dient die Wiederholung von R075 primär der Turnverteidigung und nur sekundär der inhaltlichen Zustimmung. Mit der Reformulierung macht SK R074 zu ihrem eigenen Beitrag und beharrt damit auf dem Recht zur Eigengestaltung des Berichts. Die grammatisch-lexikalische und metrische Struktur der Komponenten des Äußerungspaars R074/075 stimmt weitgehend überein. Die intonatorischen Strukturen weisen Unterschiede auf (Abb. 5.29). Der hohe Akzentton auf Angebot ist mit einer Höhe von 2,4 ST über dem Durchschnittswert in beiden Komponenten gleich ausgeführt. Der Intensitätsgipfel (74 dB) des Lexems ist in beiden Komponenten mit dem hohen 36
Die Situation wird allerdings dadurch kompliziert, dass R073 in R072 eine Reaktionsaufforderung vorausgeht.
186 Phrasenton assoziiert. Während aber mit geMACHT in R074 ein 8 ST langer fallender Ton H+T* (T- T%) assoziiert ist, ist die finale Silbe von gelMACHT! in R075 mit einem extrastarken Akzent (74 dB) und der Tonfolge H* H- H% verbunden. Zusammenfassung: In den deutschen Gesprächen findet Turnverteidigung in einem Außerungspaar und einem Außerungstripel statt. Im Tripel H506/507/513 wird die erste Komponente unter Verwendung des Verfahrens 'Verstärkung der eigenen Kontur' in die zweite Komponente überführt: Der Umfang der Akzenttonbewegung ist (im selben Register) in der zweiten Komponente größer als in der ersten. In der dritten Komponente ist er allerdings geringer als in den beiden vorangehenden. Bei R074/075 selektiert die Sprecherin das Verfahren 'Modifikation der fremden Kontur': Der fallende Akzentton der Bezugsäußerung wird in der Turnverteidigung durch einen hohen Akzentton ersetzt (Abb. 5.30, S. 185). Im einzigen Außerungspaar, dem im Vineta-Korpus die Funktion 'Turnzuweisung' zuschreibbar ist (H647/652), wird das Verfahren 'Verstärkung der eigenen Kontur' gewählt.
5.1.5.2
Turnverteidigung im Italienischen
Alle in Außerungspaaren realisierte Turnverteidigungen des italienischen Teils des Vineta-Korpus' stehen im Kontext einer längeren Alltagserzählung in Gespräch A (A321-525). Interaktantin SC initiiert die Erzählung über einen Konflikt ihres Sohnes Simone mit den Carabinieri (der kasernierten Polizei),37 um ihre Position in der oben bereits referierten Diskussion über Machtmissbrauch zu stützen: Machtmissbrauch der staatlichen Behörden sei kein nigerianisches Phänomen, sondern komme auch in Italien vor. Der Vorfall, von dem SC erzählt, ist ihrem Ehemann IC ebenso bekannt wie ihr selbst. Die Erzählung wird jedoch nicht gemeinsam und kooperativ durchgeführt. Beide Eheleute nehmen für sich in Anspruch, über die Vorkommnisse besser Bescheid zu wissen als der Ehepartner, und versuchen deshalb, ihre Version der Erzählung durchzusetzen. Der dauerhaft geführte Kampf um das Rederecht führt in A357-363 zu einer explizit-verbalen Auseinandersetzung über die angemessene Weise, den Vorfall zu erzählen. 38 A326/329 In A316/319 verweist SC auf die Erlebnisse von Simone mit den Carabinieri, um RMs Einschätzung, in Italien gäbe es keinen den Verhältnissen in Nigeria vergleichbaren Machtmissbrauch der Behörden (A313/315), zu widersprechen (siehe S. 164f.). RM drückt in A320 aus, dass ihr die entsprechenden Vorkommnisse nicht bekannt sind. SC beginnt daraufhin in A321 ihre Erzählung mit einer zeitlichen Einordnung der Vorkommnisse. 37
38
Die Arma dei Carabinieri ist eine kasernierte Polizeitruppe, die als Waffengattung des Heeres dem Verteidigungsministerium unterstellt ist. Daneben gibt es die dem Innenministerium unterstellte Polizia di Stato, die dem Finanzministerium unterstehende, ebenfalls militärisch organisierte Guardia di Finanza und eine Reihe anderer Polizeitruppen. Die Carabinieri sind zur Verfolgung von Schwerverbrechern und Terroristen ausgebildet. Siehe unten, S. 191f.
187 A321 SC:
[l'anno SCORso; H*T-T'/, 197 149 vergangenes Jahr quando l'hann fermAto con L'Ape;
Η*
325
-¥
330
Η* T-T7.
179 178 139 als sie ihn mit der Ape (Name eines Fahrzeugs) gestoppt haben IUI aveva L'Ape, H* H*H-H'/. 223 208 250 er hatte die Ape che aveva prEso una acquazzOne giü SOTto, H* ? H*H-H'/. 176 159 199 und war in einen Wolkenbruch geraten da unten e si era incantAto il CLACson, H+T* H+T*T-H·/. 172 130 175 und die Hupe hatte sich verklemmt [cioE non suoNAva; H*HH+T*H-H'/. das heißt sie hupte nicht IC: [quando si bAgna son quei clAcson esTERni; H+T*HH* H*T-T'/. 98 88 79 wenn sie nass wird, das sind die Aufenhupen N0,= H*H-H·/. 97 ne SC: =non suoNAva, H'/. H+T*H-H'/, 211 (235)167 222 sie hupte nicht e alLOra ehH*T- H*/. 277 200 208 und dann äh IUI ha trovato il suo amlco che:: dovevan andare a giocare a pallone asSIEme, H* H*TH*H-H'/, 286 228 167 193 278 er ist zu seinem Freund gefahren weil sie zusammen zum Fußballspielen wollten
IC äußert in A327 (überlappend und turnkompetitiv) eine Erklärung des Sachverhalts, dass die Hupe der Ape ('Biene', Name einer Kombination aus Motorroller und Kleintransporter) nicht funktionierte. SC verteidigt durch Wiederholung von A326 in A329 ihr Rederecht und setzt den Turn fort. Die „Rückeroberung" findet allerdings an einer Ubergabestelle statt. IC stellt mit der Diskurspartikel NO in A328 das Rederecht wieder zur Disposition. 39 Die Komponenten des Außerungspaars A326/329 haben mit Ausnahme des A326 einleitenden cioE identische grammatisch-lexikalische, metrische und intonatorische Struktur. Die Wiederholung findet in einem höheren Tonhöhenregister s t a t t , die Akzente sind prominenter. Eine Quantifizierung der Unterschiede ist nicht möglich, weil A326 nicht gemessen werden kann. A335-337: In A332 fährt SC mit der Erzählung fort: A332 SC: EH: ha fAtto per chiaMARlo? H*TH* H+T*T-H·/. 285 185 196 164 334 äh er wollte ihn auf sich aufmerksam 39
machen
NO ist in diesem Kontext eine Reaktionsaufforderung, mit der gleichzeitig die Aufmerksamkeit und die inhaltliche Zustimmung des Hörers eingefordert wird: 'richiesta di attenzione'. Vgl. dazu Poggi (1995), S. 425 und Bazzanella (1995), S. 241.
188 X X X X X X XX X XX X X XX X XX X X cioÄ non suoNAva; H+T*H-H% H*H-
X X X X XX X X X XX X X non suoNAva, H% H+T*H-H%
—
Abb. 5.31: A326/329
A333 SC: per suonAre esto clAcson ha fatto BI:P BI:P (-) e bAsta. VI. H+T*HH+T* Τ- H* H*HH+T*T-T'/. 167 (221)172 263 176 159 286 303 157 122 beim Hupen hat diesen Hupe piep piep gemacht, und Schluss .hh β IUI Dice; H+T* H*T-T'/. 149 286 222 und er sagt 335 se lo fAI trE quAttro cinque v01[te finchä sUrri' si surrisCALda, -¥ . Η* T* H+T* H* H*TH+T*HH+T* H-H'/. 249 221 202 222 214 (227)179 238 wenn du es drei vier fünf Mal machst bis sie sich erwä' sich erwärmt IC: «p>[si aSCIUga,> -v H+T* H-H'/. (105)81 101 trocken wird SC: si asciUga BEne, -> H'/, T*H- T*H-H'/. 306 169 233 157 254 gut trocken wird IC: DAI; H*T-T'/. 105 95 komm {taglia SO}; Η'/. H+T*T-T·/. 109 80 machs kurz 340 VA, H*H-H·/. 94 los SC: EH: ; H*T-T'/. 192 137 äh .hh si aSCIU[ga, -> H'/. H+T*H-H7. 217(250)204 307 trocken wird IC: [β ma (TAGlia che); H* T145 aber mach doch inSOma; H*T-TV. 145 104 im Endeffekt 345 particaHENte; H*T-T7. 130 also
In A336 greift IC erneut in die Erzählung ein. Retrospektiv ist A336 als Versuch ICs interpretierbar, den Fortgang der Erzählung durch das den Sachverhalt tref-
189
Abb. 5.32: A335-337 fend beschreibende si aSCIUga zu beschleunigen. Die global niedrige Lautstärke der Äußerung ist ein Indiz dafür, dass IC A336 als nicht-turnkompetitiven Hintergrundkommentar projektiert. Durch die Turnverteidigung (mittels Wiederholung von ICs Äußerung mit identischer grammatisch-lexikalischer, metrischer und intonatorischer Struktur) in A337 kontextualisiert SC A336 jedoch als Angriff auf ihr Rederecht. Die akustische Analyse (Abb. 5.32) zeigt, dass bereits si surrisCALda (A335) die Kontur von A336 aufnimmt. 40 Allerdings sind erst auf si asciUga BEne (A337) beide Akzenttonbewegungen - die fallende und die steigende - ausgeprägter als auf si aSCIUga (A336). Die ST-Werte für die Bewegungen sind: 1. si aSCIUga (A336): H+T* mit 4,5 ST und T* H-H% mit 3,8 ST. 2. si surriscAlda (A335): H + T * mit 4,1 ST und T* H-H% mit 4,9 ST. 3. si asciUga (A337): H% T* mit 10,3 ST und T* H- mit 5,7 ST. 4. BEne (A337): Η- T* mit 6,8 ST und T* H-H% mit 8,3 ST. Alle Elemente von SCs Äußerungen liegen in einem höheren Tonhöhenregister: Nur T* in BEne unterschreitet mit 157 Hz knapp (0,2 ST) SCs Durchschnittswert (159 Hz), während T* in si aSCIUga mit 81 Hz deutlich (2,9 ST) unter ICs Durchschnittswert (96 Hz) liegt. Ein Vergleich der Akzentprominenz ist wegen der A336 überlappenden Rede nicht möglich. Innerhalb von SCs Redezug liegt das Intensitätsmaximum von 72 ST auf dem hohen initialen Grenzton. Die tiefen Akzenttöne weisen eine stetig zunehmende und damit zur Grundfrequenz umgekehrt proportionale Intensität auf: 179 Hz zu 67 dB , 169 Hz zu 68 dB und 157 Hz zu 72 dB. Alle Äußerungen werden mit einem hohen finalen Grenzton abgeschlossen. 41 40
41
Die GAT-Notationskonventionen führen in diesem Fall dazu, dass ein Element aus Zeile A335 zeitlich nach der Zeile A336 realisiert wird. Die Bewegung vom extrem hohen initialen Grenzton H% zu T* in si asciUga ist einem Phänomen ähnlich, dass Peter Auer in der Beschreibung der Hamburgischen Intonation als „Schöpfkellenkontur" bezeichnet. Vgl. die Ergebnisdarstellung des Projekts „Intona-
190
Abb. 5.33: A337/342
A337/342: In A338-340 fordert IC seine Ehefrau SC zu schnellerem und weniger weitschweifigem Erzählen auf. Das Kernstück dieser impliziten Kritik am bisherigen Erzählstil SCs, A339, wird im Basisdialekt von Colico geäußert. 42 SC weist die Kritik durch die Diskurspartikel EH (A341) zurück, die den Unmut der Sprecherin über die Aufforderung ihres Ehemanns signalisiert.43 Die Tonhöhe auf der gedehnten Diskurspartikel fällt sehr tief und erreicht auf T% einen Wert von 2,3 ST unterhalb des Durchschnittswerts (Abb. 5.33). SC verteidigt den Turn durch die Wiederholung von si aSCIJJga in A342. Auf si aSCIUga (A342) wird die Kontur von si asciUga und BEne (A337) komprimiert, und zwar in einem höheren Register und mit höherer Intensität. Der tiefe Akzentton liegt mit 204 Hz (4,3 ST über dem Durchschnittswert) und 75 dB deutlich über den oben angegebenen Werten für A337. Hinsichtlich des Umfangs der Akzenttonbewegungen liegt si aSCIUga (A342) zwischen si asciUga (A337) und BEne: H+T* mit 3,5 ST und T* H- H% mit 7,1 ST. Die Turnverteidigung SCs verläuft nicht erfolgreich: IC übernimmt das Rederecht noch während der Realisation von A342 und erneuert seine Kritik an SCs Erzählstil durch Wiederaufnahme von A339 in A343. Nach den beiden Diskurspartikeln inSOmau
42 43 44
tion regionaler Varietäten des Deutschen" unter http://omnibus.uni-freiburg.de/%7Egillesp/erste.htm [Stand: 30.08.99] und Auer (2001), S. 162f. Vgl. dazu auch S. 191. Poggi (1995), S. 417 weist EH: (eeh) die Funktion 'indignazione'/'Entrüstung' zu. Die Doppelkonsonanz im standarditalienischen /in'zomma/ wird in den oberitalienischen Dialekten zu /in'zoma/ verkürzt. Vgl. Rohlfs (1949), S. 380ff. Schwarze (1988), S. 352 schreibt über insomma: „Ausdruck des Sprechers, daß er sich über das Thema nicht weiter äußern und daß er die Unterhaltung darüber nicht fortsetzen möchte."
191 (A344) und praticaMENte45 (A345) versucht er, selbst die Erzählung inhaltlich voranzubringen (A346). SC hält turnkompetitiv mit dem äußerst prominent geäußerten LUI in A347 dagegen. In den Sequenzen A346-356 ist es nicht möglich, Turnbeanspruchung und Turnverteidigung zu unterscheiden. Die global hohe Lautstärke der Äußerungen wird als Ausdruck der Absicht interpretiert, den Fortgang der Erzählung zu bestimmen. Zur formalen kommt in A349/353 auch eine inhaltliche Kompetition. SC widerspricht ICs Einordnung des Vorfalls als schiaMAZzo. Diese kompetitiven Sequenzen münden in eine Vorwurf-Rechtfertigungs-Interaktion (A357-362). A355 IC: « f > i n S 0 M : m a > laH* T 128 im Endeffekt questa ma' questa Auto che era da'-
H'/.
H*H-
147 dieser Wa(gen)
EH,
H*
137 dieses Auto das da(vor)
mar
H*H-H'/. 159 äh m a SILvia;
Τ'/. Η* T-T'/.
360
89 169 108 after Silvia (Vorname von SC) {se nO mAngiom PIÜ}H*H-T* Η*Η-Π 144 181 161 129 119 wenn (du) nicht (schneller erzählst) essen wir (heute) nicht questa aU[to che era da[VANti HO, H* Η * Τ - Π T*H-H'/, 165 dieses Auto das davor war, ne SC: [(ma) [mAnco fossi digiUno da tre GIORni;
Η*
H*H-
mehr
Η* T-T7.
316 286 361 293 aber (du tust) als ob du seit drei Tagen auf Diät wärst IC: sl ma non !PUQI! raccontaxe che scArpe aveva il simOne; Η* Η* ΤH* H*T-T'/, 217 208 105 128 107 94 ja aber du kannst nicht erzählen welche Schuhe der Simone anhatte perchE noncioE praticamEnte STA(v)o; H*HH*T- H» T-T'/, 152 172 also praktisch, ich war dabei (zu erzählen)
Die Vorwurf-Rechtfertigungs-Sequenz zeichnet sich durch eine klare Verteilung von Dialekt und Standardsprache auf die Komponenten aus. IC äußert den Vorwurf in A359 (und im oben angeführten A339, siehe S. 190) im Basisdialekt von Colico: se nO mAngiom PIÜ entspricht dem standarditalienischen, aber gleichwohl lexikalischgrammatisch sehr verkürzten se non non mangiamo piu. SC reagiert darauf mit der zwar kolloquialen und norditalienischen, aber nicht dem Basisdialekt zugehörigen Äußerung A361, manco fossi digiuno da tre giorni, der im Standard ma come se tu fossi digiuno da tre giorni entspricht. Dialoganalytisch wird A361 als partielles Nichteingehen auf den Vorwurf bezeichnet, auf das IC in A362 mit einer Präzisierung 45
Diese Diskurspartikel dient hier als "riempitivo" dazu, eine zwischenzeitliche Unsicherheit des Sprechers zu überbrücken. Vgl. Bazzanella (1995), S. 256.
192 seines Vorwurfs reagiert. (Mit dem standardsprachlichen A341/342 übergeht SC den impliziten Vorwurf A339 vollständig.) 46 A375/377/379: Mit der Vorwurf-Rechtfertigungs-Interaktion A357-362 setzt sich IC hinsichtlich des Rederechts durch und übernimmt die Erzählinitiative. A365 IC: c'erano dUe occuPANti,= H* H*H-H'/. 128 da u/aren zwei Insassen SC: =[EH, hm IC: [s"e ferMAtaH* T-H·/. 139 89 es hat angehalten s'e blocCAta in mezzo a strAda, H+T* H*T-H'/, 103 175 es ist mitten auf der Straße stehengeblieben son SCEsi, H+T*H-H'/. 127 200 sie sind ausgestiegen 370 SF: SiIC: EH::H*T-H·/, 147 111 114 äh haim [prEso il siMOne aH* H*H- T*T167 200 110 97 sie haben sich den Simone vorgenommen SC: « p > [ c o n una Uno BIANca;> H* H+T*T-T7. mit einem weifen (Fiat) Uno IC: ed Erano 11 maresciAllo e suo fratEllo che invEce e un semplice metroNOTte, H* H H+T*HH+T*HH+T* H+T*H-H'/, 131 169 114 193 114 161 102 und es waren der Polizeimeister und sein Bruder der aber ein einfacher Hetronotte (Angestellter einer Wach- und Schließgesellschaft) ist 375 ciofe non £ unH* 114 also er ist kein SC: [ Rosaria (Vorname von RH) IC: [non hA nesSUN:-* H* H*T124 151 83 er hat kein SF: « p > h m ; > IC: metronOtte non non έ un un una cArica ufficiAle dello STAto in[s0mmaH*TΗ* H* H+T* H+T*HT*T-T'/. 154 134 106 94 76 Metronotte ist nicht ist kein kein offizieller staatlicher Auftrag, also 380 SF: [Sl; IC: BE', H*H-T"/, 147 kurz und gut (di) fAtto un una specie di guArdia priVAta; H* H* H*T-TX 109 103 im Prinzip ein eine Art privater Wachdienst SF: Si;
46
Vgl. zur dialoganalytischen Betrachtung solcher Sequenzen Eritz/Hundsnurscher (1975). Zum Basisdialekt von Colico siehe oben, S. 115f.
193
Abb. 5.34: A 3 7 5 / 3 7 7 / 3 7 9
SCs Äußerung A373 wird aufgrund der geringen Lautstärke und der Tatsache, dass IC nicht beobachtbar reagiert, als nicht-turnkompetitive Hintergrundbemerkung interpretiert. Mit A376 baut SC allerdings eine Kommunikationsachse auf, deren Adressatin zunächst R M (mit Vornamen Rosaria) ist, auf der aber kurzzeitig auch S F agiert (A378). Eine Rekonstruktion der Aktivitäten auf dieser Kommunikationsachse ist nicht möglich, weil die diesbezüglichen Äußerungen sehr leise gesprochen werden. Sie befinden sich aber in formaler Kompetition mit ICs Bearbeitung des Ausdrucks metronotte. Bei dieser Bearbeitung handelt es sich um eine selbstinitiierte Selbstreparatur: IC geht nicht davon aus, dass allen Interaktionsteilnehmern die Bedeutung von metronotte bekannt ist. Die Reparatur wird aber von der Turnverteidigung überlagert. Bei der Bedeutungsexplikation unternimmt IC zwei Fehlstarts, Äußerungen, die nach einer nur aus Argument und Negationsoperator bestehenden Proposition abbrechen (A375/377). Diese Äußerungen und die entsprechenden Lexeme in A379 sind lexikalisch nicht identisch, aber ihre syntaktischen und semantischen Funktionen stimmen weitgehend überein (Abb. 5.34). Der sprachliche Repräsentant des logischsemantischen Arguments bzw. das syntaktische Prädikat trägt in allen Äußerungen einen hohen Akzentton, dessen Wert von links nach rechts zunimmt ( 1 1 4 , 1 2 4 , 1 3 4 Hz). A386/387: S F ratifiziert durch SI in A380 und A383 die Selbstreparatur. IC greift den Erzählfaden wieder auf, indem er A372 in A384 partiell wiederholt. A384 IC: insOmma l'hann PREso, H+T* H*H-HX 124 141 221 also, sie haben ihn sich 385 e sicC0me;= H»T161 83 und weil
vorgenommen
194
Abb. 5.35: A386/387 1386 SC: =gli hann chiEsto i docuCMENti; -+ Η* H+T* T-T·/. 215 (181)150? sie haben von ihm die Papiere verlangt IC: [gli hann chiEsto i docuMENti-
->
390
Η*
lui no non Ii avEva; TL H* T-T'/. 128 125 106 er hatte kein keine una cOsa ο [L'ALtra, H* H*H-H'/. 123 144 196 so oder so ähnlich SC: [non li-
Η* T-H·/.
146 172 155 164 sie haben von ihm die Papiere verlangt
H·/.
217 (er hatte) sie nicht IC: hann portAto in caSERma; H+T* H+T*T-TX 104 80 sie haben ihn in die Kaserne gebracht
In A386/387 kommt es erneut zur Turnkompetition, weil SC den Turn an einer nicht für die Ubergabe vorgesehenen Stelle übernimmt: Die Semantik von sicCOme (A385) signalisiert die Turnfortsetzungsabsicht ICs. IC verteidigt seinen Turn in A387. Die Komponenten des Äußerungspaares A386/387 haben identische grammatischlexikalische und metrische, aber unterschiedliche intonatorische Struktur. Während die Akzentsilbe in docuMENti in A386 mit H+T* assoziiert ist, trägt sie in A387 den hohen Akzentton H*. Abb. 5.35 visualisiert die akustische Analyse. Die Messung des Grundfrequenzverlaufs der Töne von docuMENti ist in A386 wegen ICs überlappend einsetzender Rede nicht möglich. T* muss aber aus artikulatorischen Gründen einen Wert von etwa
195
Abb. 5.36: A446 (geschätzt) 150 Hz haben, der Offset liegt damit ungefähr bei SCs Durchschnittswert (159 Hz). H* bei chiEsto liegt 5,2 ST über diesem Wert. Dagegen liegt H* bei chiEsto in A387 7,3 ST über ICs Durchschnittswert (96 Hz). Auf docuMENti ist H* 10,4 ST und H% 9,38 ST über ICs Durchschnittswert. Bei starken Tonhöhenbewegungen liegt A387 insgesamt in einem höheren Register als A386. A446'· Im Erzählabschnitt über die Ereignisse in der Kaserne setzen IC und SC ihre Turnkompetition zunächst fort. Mit A405/407/410 und A414 - produziert mit global hoher Lautstärke - gelingt es SC, die Erzählinitiative für einen längeren Abschnitt (A418-440) zurückzugewinnen. SC schildert den Abschluss der Schikanen: A438 SC: quAndo e arrivAto il momEnto di firmare il verBAle, ? Η* H* H+T*T-H'/. 217 208 170 294 als der Augenblick gekommen ist das Protokoll zu unterschreiben ehm: ci sono delle rlghe in cui Uno puö: dichiarare [qualCOsa; H+T*HH* TH*T-T7. (205)161 222 200 145 200 152 ähm da gibt es so Zeilen wo man etu/as erklären kann SF: [hm440 SC: non son colpEvole non SO:: ; H*TH*T-T7, 216 166 216 141 ich bin nicht schuldig , ich weiß nicht
[o ( )
oder IC: [il verbalizzAto puö dichiaRAre; H* H+T*T-T/, 118 86 das zu Protokoll Gegebene kann er angeben SC:
Η'/.
Η*
H*T-
Η*
Η*
H+T*T-H'/,
232 250 331 189 218 221 172 323 und ihm und er sagt, (es ist) das erste Hai das mir das passiert cOsa dEvo FAre; Η* H* H+T*T-T·/. 313 178 172 141 was soll ich tun
ist
196 A445 IC: cioe non sa[pE:va nemMEno
H*
450
(cosa)-
also er wusste noch nicht mal [e qUESti e QUESti: gli dlconoSC: H/ ' . Η* Η- Π, Η* ΗΗ* T-T7. 213 229 346 227 232 344 209 192 172 und die und die sagen ihm scrlvi quEllo che VUOi; Η* H* H*T-TV. 239 238 245 166 schreib was du willst metti sU che hai l'acqua in ca' [cAlda in CAsa; Η* H+T* H*T-T7. 238 193 182 schreib dass du Wasser im Ha(us), warmes Wasser zuhause hast [EH; IC: H*T-T'/, hm SC: ce L'HAI l'acqua calda [in casa tuttoH'/. H*H208 250 hast du warmes Wasser zuhause IC: [cioE una una prEsa in giro [ Η* Η* H* H*H-H'/, H*H-H'/, 119 106 105 also eine eine Fopperei so, ne SC: [prEsa in Giro; H* H*T-T·/. 209 216 153 Fopperei SF: hm;
Mit A442 beginnt die Turnkompetition, die in A418-440 ausgesetzt war, wieder neu. SC kontextualisiert A443 durch global hohe Sprechlautstärke, A443/444 und A446 durch die Zuweisung eines Akzenttons zu feist jedem Inhaltswort als turnkompetitiv. Während SC ihren Turn aber in A443 erst nach Abschluss von ICs Äußerung wieder aufnimmt, verteidigt sie ihn in A446 schon während der Produktion von ICs kompetitiver Äußerung, die dann vor dem syntaktisch projektierten Ende abgebrochen wird. Die akustische Analyse von A446 (Abb. 5.36) zeigt zwei nahezu identische Konturen im selben Tonhöhenregister.47 Der minimale Unterschied in der phonetischen Realisierung der Folge H* H- hat keine perzeptive Relevanz. Die Turnverteidigung erfolgt durch die nahezu identische Reproduktion des in direkter Kompetition stehenden und damit gleichsam „angegriffenen" Elements QUESti. A451/452: In A447-450 beschreibt SC in drei Turnkonstruktionseinheiten ein Verhalten der Carabinieri, das IC in A451 in der Wertung prEsa in Giro zusammenfasst. SCs Wiederholung dieses Phraseolexems in A452 lässt sich aus dem Gesprächsverlauf nicht zweifelsfrei als Turnverteidigung rekonstruieren. A452 könnte auch als Ratifizierung einer Formulierungshilfe ICs, die Turnfortsetzung in A454 als Selbstzuweisung des nach SFs Quittieren (A453) zur allgemeinen Disposition stehenden Rederechts interpretiert werden. Um eine zirkuläre Argumentation ausgehend von der intonatorischen Struktur zu vermeiden, wird hier deshalb erneut auf das Urteil von Muttersprachlern zurückgegriffen: Sie schätzen die Stelle als formal-kompetitiv und SCs Verhalten damit 47
D a s s der initiale G r e n z t o n in der W i e d e r h o l u n g m i t 2 2 7 Hz als T % , der initiale G r e n z t o n des B e z u g s e l e m e n t s mit 2 1 3 Hz als H % gilt, ist d e m V e r h ä l t n i s zur T o n h ö h e der v o r h e r g e h e n d e n bzw. nachfolgenden Silbe geschuldet. Siehe d a z u o b e n , S. 57.
197
Abb. 5.37: A451/452
als Turnverteidigung ein. Auch der globale Gesprächskontext legt diese Interpretation nahe. Das zentrale Phraseolexem wird grammatisch-lexikalisch und metrisch identisch reproduziert. Auch die Tonzuweisung stimmt in den beiden Komponenten des Außerungspaares überein. Allerdings zeigt die akustische Analyse (Abb. 5.37) Unterschiede in der Alinierung des hohen Akzenttons bei Giro. Grundfrequenz- und Intensitätsgipfel liegen in der Turnverteidigung A452 später im zeitlichen Verlauf der Silbe als im Bezugselement A451. In A451 wird der F 0 -Gipfel auf Giro nach 60 ms erreicht, in A452 erst nach 170 ms, was in A452 auch die Zuweisung von T * + H anstelle von H* denkbar erscheinen lässt. Die hohen Akzenttöne in A452 liegen mit 4,7 S T (209 Hz) und 5,3 ST (216 Hz) höher über SCs Durchschnittswert, als diejenigen in A451 über ICs Durchschnittswert liegen (1,7 S T bei 106 Hz und 1,6 S T bei 105 Hz). Das Tonhöhenregister der Äußerungen (das bei IC nur geschätzt werden kann) ist ungefähr gleich. Auf der anderen Seite sind die Intensitätswerte der hohen Akzenttöne in A451 (74 dB bei prEsa und 71 dB bei Giro) höher als in A452 (trotz Simultansprechens nur 70 dB bei prEsa und 65 dB bei Giro). Zusammenfassung: Von den sieben italienischen Außerungspaaren bzw. -tripein werden drei (A326/329, A337/342, A375/377/379) klar durch 'Verstärkung der eigenen Kontur' realisiert: Alle messbaren Werte sind in der zweiten Komponente (Turnverteidigung) höher als in der ersten. Bei A446 wird das Bezugselement gegenläufig zur Deklination mit identischen phonetischen Merkmalen wiederholt, weshalb auch A446 das Verfahren 'Verstärkung der eigenen Kontur' zugeordnet wird. Bei A335-337 wird 'Verstärkung der fremden Kontur' gewählt: Tonhöhenregister, Akzenttonhöhen und Akzenttonbewegungen sind in der zweiten Komponente ausgeprägter als in der ersten. Bei A386/387 wird die fremde Kontur modifiziert. Zusätzlich sind die globalen
198 Intonatorische Kompetenz
Handlungskonzept: Turnverteidigung (it.)
Töne
Bezugskontur
Verfahren
PEter.> H*T-T7.
BB: OH;
Η*Τ-Π 436 303 PEter; H*T-T7. 435 217
C{HI}; h*t-t·/.
035
KB: [hast du η bisschen ZEIT, T*+HH-H'/. BB: das is [toTAL geniA'H* H+T* KB: [dann stell ich PEter no mal die frAgnH* H+T*T-H'/. 147 (103)98 104 Oder? T*H-H·/.
102 200
BB: oh Ich [möcht pEter die FRA[gen stelln;=
->
Η* 303 PA:
040
H* 270 [halLO, H*H-H'/.
H+T* T-
11
244
SF: [HALlo; KB: =blrte stellt peter die FRAgen; H* TH+T* T-T'/. SF: ; PA: ((stöhnt))
K B schlägt in K036 vor, PA die Interviewfragen zu stellen und artikuliert in K037 eine Reaktionsaufforderung mit dem Ziel, die inhaltliche Zustimmung der Interaktionspartner zu bekommen. B B erteilt dem Vorschlag in K038 jedoch einen negativen Bescheid. K B führt daraufhin in K041 einen retraktiven Sprechakt durch. 49 S F , dem als Aufnahmeleiter die Entscheidungsbefugnis zugesprochen wird, ratifiziert die Rollenverteilung in K042. Das Außerungspaar K036/038 besteht aus zwei lexikalisch weitgehend übereinstimmenden Komponenten, deren syntaktische, metrische und intonatorische Struktur jedoch unterschiedlich ist. Diese Unterschiede reflektieren den kommunikativen Konflikt. In der Äußerungssituation ist es nicht möglich bzw. sinnvoll, dass beide Sprecher ihren Wunsch verwirklichen, Interviewfragen zu stellen. Dieser Umstand lässt sich zwar nicht als logisch-semantischer Widerspruch formalisieren. Gleichwohl schließen sich die lokalen Handlungsziele der Interaktanten in der Gesprächssituation aus: Dass K B sein Handlungsziel (Interviewfragen stellen) nicht erreicht, ist eine Gelingensbedingung dafür, dass B B ihr Handlungsziel (ebenfalls: Interviewfragen stellen) erreicht. Deshalb ist die Zuschreibung der Verhaltenskategorie 'Widerspruch' zu Κ038 gerechtfertigt. 49
Siehe unten, S. 226f.
200 X X X X X X X X X X X X X X X X X X X X X X X X X d a n n s t e l l ich P E t e r no m a l d i e frAgn· H* H+T*T-1
XX
Χ
XX
X X X
χ
oh Ich möcht pEter die FRAgen stelln; Η* Η* H+T* TT%
Abb. 5.39: K036/038 Simultanes Sprechen von KB und BB sowie die Gruß-Gegengruß-Sequenz K039/040 lassen keine Messung der Intensität und keine Visualisierung der akustischen Analyse zu. Abb. 5.39 zeigt das Ergebnis der auditiven Analyse. In K038 wird Ich als Argument des zweistelligen Prädikats 'Fragen stellen' aufgenommen und mit einem hohen Akzentton assoziiert. 50 Mit 303 Hz liegt H* 6,8 ST über BBs Durchschnittswert (205 Hz). H* auf pEter in K038 ist mit 270 Hz 4,8 ST über dem Durchschnittswert und damit weniger hoch als H* auf PEter in K036 (mit 147 Hz 6,7 ST über KBs Durchschnittswert (100 Hz)). Umgekehrt bleibt H + T * auf frAgen in K036 nur wenig (0,5 ST) über dem Durchschnittswert, während H + T * in FRAgen in K038 immerhin 3 ST darüber liegt. K079/080: In den folgenden Sequenzen versuchen KB und BB, PA zur Beantwortung der Interviewfragen zu überreden. An PAs Stöhnen (K044) und seinen zunächst fehlenden und dann entscheidungsumgehenden Äußerungen (K061-063, K065, K069) wird deutlich, dass er, von diesem Anliegen überrumpelt, eine inhaltliche Stellungnahme vermeiden will. In den Sequenzen, in denen das der Situation angemessene Getränk ausgehandelt wird, 51 agiert BB partiell stellvertretend für PA. K069 PA: dann [mUss ich aber erst mal was TRINken. H* H+T*T-T'/. 070 BB: [beiSF: ((lacht)) dass die stimme Schön geSCHMEIdig is [oder »As, KB: [willst du erst was FRIsches trinken,
Η* Η-
50
51
H'/.
Das unterstreicht die Unterschiedlichkeit der Referenzobjekte prosodisch - in K036 KB, in K038 BB. Siehe auch oben, S. 158f.
201
Abb. 5.40: K079/080 K074 KB: oder gleich KAFfe; Η'/. H+T* T-T·/. (138)71 075 PA: NEE, T*+HH-H·/. 125 140 n: WASser oder so; H* HT"/. 128 140 109 na das is so HEISS draußen; Π Η* Τ- T'/. 200 139 [es is FURCHTbar; H* T-T*/. 185 139 KB: [COla? -> T*H-H'/. 115 160 080 BB: WAS [ser ; = -> H* T-T'/. 263 218 SF: [na=JA; KB: das HAM wir doch nich; Η* ΗT7. 137 164 110 0der?= T*H-H'/. 106 119 BB: =TÜRlich; H« T-T'/. 270 250 In K079 manifestiert KB ein akustisches Verstehensproblem, zeigt aber gleichzeitig, dass COla der von ihm präferierte Getränkewunsch ist. Retrospektiv wird deutlich, dass sich die Präferenz für COla aus KBs Annahme herleitet, es sei kein Weisser mehr im Haus. BB widerspricht mit WASser (K080) stellvertretend für PA dieser
202
Abb. 5.41: R168/170 Erwartung und in K084/086 auch den anschließend explizierten Gründen für KBs P r ä f e r e n z f ü r COla: das HAM wir doch
nich.52
Die akustische Analyse (Abb. 5.40) des Äußerungspaares zeigt gegenläufige Konturen bei den Komponenten. COla wird mit einer von einem tiefen Akzentton zu einem hohen Grenzton ansteigenden Kontur gesprochen, WASser mit einer von einem schnell erreichten hohen Akzentton fallenden Kontur. H* ist mit 76 dB prominenter als T* mit 74 dB. R168/170: In einem Abschnitt von Gespräch R thematisieren die Teilnehmer Textgestaltungskonventionen und deren Einhaltung in wissenschaftlichen Aufsätzen. Als wissenschaftliche Mitarbeiter sind alle Interaktanten immer wieder mit Aufsätzen befasst, die den formalen Kriterien nicht genügen. SK drückt in R157-165 in sehr emotionaler Weise ihre Kritik an der mangelnden formalen Sorgfalt aus, die zeitraubende Nachbearbeitungen erfordere. Einschränkend äußert sie aber Verständnis für fehlende technische Kompetenz der Autoren: R166 SK: ich mein GUT, H*H-H'/. 250 dass jEmand vielleicht sich mit diesen dingen nicht gAnz so AUSkennt-
17. H*
->
52
208 222 das kAnn i(ch) ja noch verSTEHN; H* H*T-T·/. 197 176 166 JB: NEE. H*T-T*/. 128 85
H*
200
Η*
185
Η* T-H'/.
156
Siehe unten, S. 227f. Eine genaue semantische Analyse von K079/080 findet sich in Kap. 2.4, S. 40f.
203 R170 SK: kann i(ch) übertHAUPT 4.nich verstEhn-J· H* TH*H-T"/, 147 94 104 99 SK: !Α Iber;
H*T-T'/.
196 172 was ich nlch verstehn kann: is so klEIne forMAliaH* ΤH* H*T-T'/, 250 181 217 227 169 166
J B , der in R132-148 bereits eine sehr entschiedene Haltung zur Problematik der Nachbearbeitung einnimmt, erteilt einem solchen Verständnis in R169/170 einen entschiedenen negativen Bescheid (und führt die Gründe dafür in R199-206 aus). SK geht in R171 nicht auf den Widerspruch ein, sondern kehrt - eingeleitet durch das adversative Aber - zu ihrer Kritik an der mangelnden formalen Sorgfalt zurück. J B realisiert seinen Widerspruch durch die Reproduktion der grammatisch-lexikalischen und intonatorischen Struktur von R168. SKs Modalisierung ja noch ersetzt J B durch die adverbial verstärkte Negation überHAUPT nich (Abb. 5.41). Die Negationspartikel NEE trägt mit fast 76 dB den prominentesten Akzent des Außerungspaars. R170 liegt in einem geringfügig höheren Register als R168: T % ist in R168 1,3 ST, in R170 nur 0,5 ST unter dem jeweiligen Durchschnittswert. Der erste hohe Akzentton ist in R170 mit 6,3 ST über dem Durchschnittswert (102 Hz) und 74 dB deutlich stärker ist als in R168 mit 1,1 ST (über 179 Hz) und 70 dB. Der Wert des zweiten hohe Akzenttons stimmt in beiden Komponenten ungefähr mit dem Durchschnittswert überein, ist in R170 aber mit 71 dB prominenter ausgeführt als in R168 (68 dB). R374/376: Im bereits mehrfach behandelten Gesprächsabschnitt über Windows 95 expliziert SK in R363-366 den Grund, der sie noch vor einem Update mit Windows 95 zögern lässt, nämlich der Aufwand für die Entfernung und anschließende Neuinstallation aller Programme.53 J B behauptet, diese Operationen seien unnötig: R372 JB: kannste alle DRAUFlassn-> Η* Τ- Η1/. 111 78 89 (2.1) SK: «all>(si)n Alle tWEG ^iachher->
Η*
375
->-
Η*
Τ- H/ '.
172 213 155 172 JB: NEE; H+T*H-H'/. (112)79 «all>(si)n Alle noch fDA:;> H* H»T-T'/, 100 123 85
J B führt in R372 keine Gründe für seine Behauptung an. Nach der langen Pause R373 erneuert SK in in R374 die Ansicht, ihre Daten gingen beim Update verloren. J B widerspricht durch die Negationspartikel NEE und die anschließende Wiederaufnahme von R374 in R376 dieser Ansicht. Die syntaktische und intonatorische Struktur der Komponenten des Außerungspaars ist identisch, Unterschiede in der metrischen Struktur gehen auf Unterschiede in der lexikalischen Struktur zurück. WEG in R374 wird durch das semantisch disjunkte DA in R376 ersetzt. Zwischen den Sätzen 'die Daten sind weg' und 'die Daten 53
Siehe oben, S. 167f.
204
Abb. 5.42: R374/376
sind da' liegt ein semantischer Widerspruch vor. Die Konturen stimmen in Tonfolge (mit Ausnahme von H% in in R374) und visualisiertem Grundfrequenzverlauf überein (Abb. 5.42). Der Widerspruch wird jedoch mit höherer Intensität und größerer Tonhöhe realisiert: H* auf DA hat 75 dB Intensität (gegenüber 70 dB auf WEG), liegt 3,2 ST über dem Durchschnittswert (gegenüber 3 ST), und der anschließende Sprung nach unten ist 6,4 ST lang (gegenüber 5,5 ST). H* auf Alle liegt in beiden Komponenten etwas unter dem Durchschnittswert. R376 liegt in einem etwas niedrigeren Tonhöhenregister. Zusammenfassung: In zwei der vier Außerungspaare, in denen die Verhaltenskategorie 'Widerspruch' realisiert wird (R168/170, R374/376), kommt klar das Verfahren 'Verstärkung der fremden Kontur' zur Anwendung: In R168/170 sind Akzenttonhöhen, Akzentprominenz und Register im Widerspruch größer als in der Bezugskomponente, in R374/376 sind es Akzenttonhöhe, Akzentprominenz und Akzenttonbewegung, während der Widerspruch in einem etwas niedrigeren Register liegt als die Bezugskomponente. In K036/038 wird die Kontur in der zweiten Komponente (durch Ergänzung eines zusätzlichen hohen Akzenttons und eine Prominenzverschiebung) geringfügig verändert. Höheres Register und (partiell) höhere Akzenttöne erlauben es dennoch, auch bei K036/038 von 'Verstärkung der fremden Kontur' zu sprechen. Bei K079/080 wird das 'Modifikation der fremden Kontur' selektiert. In allen Äußerungspaaren wird der Widerspruch durch die Setzung hoher Akzenttöne unterstrichen: bei R168/170 und R374/376 durch die Verstärkung der schon in der ersten Komponente vorhandenen hohen Akzenttöne, bei K036/038 durch Ergänzung eines hohen Akzenttons und bei K079/080 durch Ersetzung des tiefen durch einen hohen Akzentton. Im Fall der Verhaltenskategorie 'Widerspruch' ist die tonale Komponente des Intonationsmodells (Abb. 5.43) aktiv und bewirkt die Setzung eines
205 Intonatorische Kompetenz
Handlungskonzept: Widerspruch
_L Bezugskontur
'S
s
(^Verstärkung^·
φ 3 Ό 2
®£ 5" 3. ξ
Abb. 5.43: Widerspruch hohen Akzenttons. Die Verfahrenskomponente sorgt für die Verstärkung der fremden Kontur. An drei weiteren Außerungspaaren aus der Gesprächspassage über Windows 95 (R222381) soll im Folgenden gezeigt werden, dass Äußerungen, in denen ein 'Widerspruch' im Sinne der Definition in Kap. 4.2.4 ausgedrückt wird, durch die Intonation klar von Äußerungen distinguiert werden, in denen ein Interaktant durch die Beantwortung einer Frage Sachverhalten widerspricht, die er dem Fragenden unterstellt - die der Fragende aber nicht expliziert. In diesen „indirekten Widersprüchen" (R227/231, R232/234 und R262/265/266) werden zwar hohe Akzenttöne (oder T*+H) gesetzt bzw. reproduziert, die fremde Kontur wird aber nicht verstärkt. 54 R227/231: SK initiiert den Gesprächsabschnitt über Windows 95 mit einer Frage nach der Meinung JBs zum beabsichtigten Update des Betriebssystems. R222 SK: ich vErd jetz übrigens noch die geschlchte mit meinem {comPUter} angehn-
H*
192 was MEINST du;
H+T*
225
54
Η*
204
H*T-
250 175
Η'/.
185
T-T'/.
(225)187 (1.0) JB: jA KLAR; H+T* H*T-T'/, (156)133 227 119 SK: krieg ich denn äh {windows} fiinfundnEUnzig auf mEIns überhaupt DRAUF? H+T* H+T* T*+HH-H·/. (204)185 185 147 263 (1.0) JB: auf deinen {conPUT(er)}, H*H-H·/.
Die Verhaltenskategorie 'Ratifizierung' findet sich nur bei R260/261. In der auditiven Analyse wird 'Abschwächung der fremden Kontur' festgestellt.
206
Abb. 5.44: R227/231 R230 SK: JA, H*H-H'/. 192 250 JB: TÜRlich kriest [das drAUfH* H*T-H·/. 196 104 SK: [rEIcht der SPEIcher,
->
Τ*
163
Η* H-H'/.
241 314
(-)
-ν
JB: ach der !SPEI Icher is kein problem; T*+H ΤVI. 100 111 95 91
JB antwortet auf SKs Fragen in R226, R231 und R234 sehr knapp. Angesichts der Tatsache, dass JB Physiker ist und ihm alle Gesprächsteilnehmer eine hohe Kompetenz im Computerbereich zuschreiben, bewertete eine von mir befragte Kollegin JBs Verhalten als 'verächtlich' SK gegenüber. In R231 leitet JB seine Antwort mit TÜRlich ein. 55 In R289 unterstreicht er die Selbstverständlichkeit des Sachverhalts zusätzlich. 56 R231 unterscheidet sich sowohl grammatisch als auch intonatorisch von der Bezugsäußerung R227. Abb. 5.44 zeigt das Ergebnis der akustischen Analyse. Auf dem Zentrallexem drAUj ist in R231 zwar ein hoher Akzentton ausgeführt (gegenüber T*+H in R227). Die Bewegung überschreitet mit 104 Hz jedoch kaum JBs Durch55
56
Das Modalwort natürlich hat nach Heibig und Heibig (1990), S. 171 folgende Bedeutung: „Sprecher drückt mit Nachdruck und persönlicher Anteilnahme aus, daß ρ in bezug auf Richtigkeit, Gültigkeit, Faktizität, Notwendigkeit der Realisierung keiner weiteren Erklärung bedarf, daß es sich aus der Natur der Sache versteht und dadurch motiviert ist." R289 ist zeitlich zu weit entfernt, um in der Analyse des Äußerungspaares R227/231 berücksichtigt zu werden.
207
Abb. 5.45: R232/234 schnittswert (102 Hz). Dagegen ist auf DRAUF in R227 eine über 10 ST steigende Bewegung realisiert, die mit H% 6,7 ST über SKs Durchschnittswert liegt. DRAUF hat in R227 eine Intensität von 74 dB, in R231 nur 71 dB. R232/234: Ein ähnliches Bild bietet die Analyse des Äußerungspaars R232/234 (Abb. 5.45). Eine kontinuierlich über 11,4 ST zu einem 9,7 ST über dem Durchschnittswert liegenden hohen finalen Grenzton steigende Frage (R232) beantwortet JB durch die Wiederaufnahme des Zentrallexems SPEIcher mit einer minimalen Tonhöhenbewegung T*+H, deren Endpunkt nur 1,5 ST über dem Durchschnittswert liegt (R234). Auch die Intensität von SPEIcher ist mit 69 dB (gegenüber 72 dB) in R234 geringer. Die Perzeption eines extrastarken Akzents ist in R234 der größeren zeitlichen Erstreckung der Akzentsilbe geschuldet. R262/265/266: Nach einer längeren Pause (R235) erkundigt sich JB nach technischen Merkmalen des Computers, auf dem Windows 95 installiert werden soll: R236 SK: H* TJB: [vier vier em bE wirst du ja schon DRAUF habn; H+T* Η* Τ-Ί7. 91 147 91 oder NICH; H+T*T-T/. (105)99 SK: ACHTH*T-T'/. 172 240 JB: JAH*T-H'/. 111 78 90 das rEIcht doch alleMAL; H+T* H*T-T'/. 73 166 119
208 R242 SK: ACHT (.)[und die zweihundertsechsundfünfzig äh [{CACHE} T*H-H'/. H* H*H135 217 204 JB: [was fürn was fürn proZES^sor hast du denn; Η* ΤT'/. 159 101 SF: [ 245 SK: «p>oder wie die da HEIS[sen;> Η* T-T·/. 185 JB: [jA=JA; H* T*T-T'/. (2.2)
250
255
260
—>
265 -V ->
270
JB: SYLvia, H+T*H-H'/. (125)111 172 möchtst du AU noch? H+T» H-H·/. 128 200 SK: proZEStsor? Η* H-H7. 223 304 den sechsundSECHzig. H* T-T'/. 217 185 (1.6) SK: HEISST [es doch; H* H- T'/. 185 JB: [STÜCKchen? H+T* H-H'/, SK: NE? H*H-H'/. 208 256 doch dieNEE; H*T-T'/, 192 166 JB: [JA, H+T*H-H'/. 123 SK: [is die freQUE[NZH*T-H·/. 192 JB: [vIEr vIEr sechsundACHtziger oder (so)was (das)H* H* H+T* ΤΗ'/. 166 161 88 108 SK: «p>[vIEr sechsundACHtziger;» H* H+T* T-T1/. JB: [oder oder η PENtium schon; H+T* ΤT'/. (126)100 90 81 (-) SK: NEE:H*T-T·/. 175 169 kein PENtiumH+T*T-H'/. 175 166 pEntium is doch SCHROTT. H* HH+T*T-T"/, 181 200 (197)174 (1.0) JB: äh: :: ffSF: .hh [hmSK: [a(h)aja=ja is AUCH quatsch alles, H+T* ΗΗ1/. (169)142 169 A:ber-= JB: =nicht diREKT, H*H-HX
209
Abb. 5.46: R262/265/266
Dem durch die Fragen nach den technischen Daten signalisierten Interesse an SKs Fragestellung steht eine gleichzeitig von JB initiierte Interaktion entgegen, die sich auf das Austeilen von Kuchen bezieht (R244, R248/249, R254). Weil diese Interaktion partiell auf derselben Kommunikationsachse (SK-JB) liegt, erschwert sie die Elaboration der technischen Sachlage erheblich. Erst in R261 ist die Bestimmung des Prozessortyps vier sechsundACHtziger (Baureihe 80486 der Firma Intel) abgeschlossen. Die von JB in R262 vorgetragene Frage nach einem möglicherweise in SKs Computer integrierten PENtium (nachfolgender Prozessortyp der Firma Intel) dient der Absicherung des Ergebnisses. In R264/265 verneint SK die Frage, in R266 bewertet sie die Leistungsfähigkeit des Pentium-Prozessors negativ. JB reagiert zunächst nonverbalvokal überrascht (R268), dann explizit-verbal widersprechend (R272). Von R272 her betrachtet ist JBs Äußerung R262 eine positive Bewertung des Pentium-Prozessors zuschreibbar. Das Adverb schon hat in R262 neben der temporalen eine bewertende Bedeutung, indem es die Notwendigkeit der Ersetzung des 80486 durch das Nachfolgemodell Pentium ausdrückt. R266 steht deshalb in inhaltlichem Gegensatz zu R262. Die Äußerungen R262, R265 und R266 sind hinsichtlich des Zentrallexems pentium vergleichbar (Abb. 5.46). PENtium in R265 nimmt die Kontur von PENtium in R262 auf, realisiert sie aber phonetisch schwächer. Einem Fall von 5,8 ST auf H+T* T- in R262 entspricht in R265 ein Fall von lediglich 0,9 ST. Die Intensität von T* beträgt in R262 74 dB, in R265 nur 63 dB. Mit pEntium in R266 ist dagegen die Folge H* H- assoziiert, wobei der hohe Akzentton aufgrund seiner schwachen Realisierung (mit 181 Hz nur 0,2 ST über dem Durchschnittswert; 65 dB) nur sehr schwer als solcher identifiziert werden kann. Den prominentesten Akzent der Einheit trägt SCHROTT mit einem 2,2 ST langen Tonhöhenfall bis knapp unter den Durchschnittswert von SK (179 Hz) und 68 dB.
210 5.1.6.2
Widerspruch im Italienischen
F115/118: Im Gesprächsabschnitt über die Unterschiede des italienischen und deutschen Universitätssystems ist das Image der Gesprächsteilnehmerin RM dadurch bedroht, dass GP die Praxis des Doktortitelerwerbs in Italien als missbräuchlich bezeichnet (F029/034, siehe oben, S. 169f.). SF bemüht sich in den folgenden Sequenzen, einerseits RMs Image zu schützen bzw. wiederherzustellen, andererseits aber auch die unterschiedlichen Anforderungen, die für den Erwerb des Doktortitels in Italien und Deutschland gestellt werden, herauszuarbeiten und damit sein eigenes Image als deutscher Doktorand zu verteidigen. Die Rekonstruktion der unterschiedlichen Systeme mündet in die Feststellung: F103 SF:
105
110
115 ->
->
[eh ci si puö chiamAre dotTDre solo dopoάΤι man kann sich Doktor nennen erst nach GP: DOpo;= H*T-T·/. 141 109 nach SF: =D0po il dotto' [dottorAto di ricErca; nach dem Dokto(rat) Forschungsdoktorat GP: [hm=m; eh per eSEM[pio; Η'/. Η* T-T·/. 138 153 äh zum Beispiel RM: [ma ΟΑΣΗ'/. T*T-H'/. 196 164 167 wirklich GP: [eh lei [non si PUÖ chiamA:re {frau dOktor}; H+T* H+T* H+T* T-T7. 122 äh Sie können sich nicht Frau Doktor nennen RM: [invEce [NOi da NOi, H* H+T* H* eöer wir bei uns SF: [PRIma, zuerst EN: NO; nein SF: [NO; nein GP: [perchi hai ha solTANto:: Η» T 124 109 weil du hast Sie haben nur RM: il dot[to!RA!to; Η'/. H+T* T-T7. (258)219 152 das Doktorat GP: [( ) n0=N0; nein nein H* T*T-T·/. 156 127 ha [soltA(h)Auto la !LAU!rea; Η* H* T-T'/, 134 91 Sie haben nur den Magister EN: [N0=n0;
Während vorher die Imagebedrohung RMs nur indirekt durch die Bewertung des italienischen Universitätssystems bestanden hatte, bezieht sich GP in F109 direkt auf RM und bestreitet ihr das Recht, sich in Deutschland als frau dOktor zu bezeich-
211
Abb. 5.47: F115/118 nen. 57 EN und SF stimmen GP inhaltlich zu, GP setzt in F l 14 zur Ausführung der Gründe für seine Feststellung an. RMs Image wird in dieser Situation direkt und sehr massiv angegriffen. Sie nutzt deshalb eine Hesitation GPs (ausgedrückt durch die finale Dehnung von soltanto::, die Vervollständigung der Intonationseinheit in F l 16 ist nicht rekonstruierbar) zur (turnkompetitiven) interaktiven Vervollständigung von GPs Äußerung. Sie setzt in F l 15 mit dottoRAto die zur Imagewahrung als dottoressa notwendige lexikalische Einheit. GP erteilt dieser Vervollständigung in F117 allerdings einen negativen Bescheid und ersetzt sie nach der partiellen Wiederaufnahme von F114 durch LAUrea in F118. In F120/122 signalisiert RM ein lokales Erwartungsproblem. Abb. 5.47 zeigt die akustische Analyse des Äußerungspaars F115/118. Der hohe initiale Grenzton zu Beginn der interaktiven Vervollständigung F l 15 dient der Rederechtsdurchsetzung. Mit dottoRAto ist ein H+T*-Akzentton assoziiert, durch den die gesamte Einheit F114/115 in den Skopus eines weiten Fokus rückt. 58 Damit vermeidet RM eine besondere Markierung von dottoRAto·. Der Besitz des Doktortitels wird ungeachtet der in F035-105 herausgearbeiteten Systemunterschiede als Selbstverständlichkeit dargestellt. F l 18 wiederholt die grammatisch-lexikalische, metrische und intonatorische Struktur von F l 14, setzt an die Stelle der Vervollständigung dottoRAto allerdings das mit einem hohen Akzentton assoziierte LAUrea. LAUrea und dottoRAto liegen im selben Tonhöhenregister (T% ist 2,3 ST tiefer als der jeweilige Durchschnittswert), der hohe Akzentton von LAUrea ist mit 73 dB nur geringfügig 57
58
'Deutschland' wird als Geltungsbereich dieser Feststellung durch Codeswitching vom Italienischen zum Deutschen festgelegt. Die Akzentsilbe ist zusätzlich durch eine „gequetschte" Sprechweise markiert, die sich mit den hier betrachteten phonetischen Merkmalen nicht exakt ausdrücken lässt. Die Visualisierung ist außerdem wegen des Simultansprechens auf dottoRAto undeutlich.
212 lauter als der fallende Akzentton von dottoRAto mit 72 dB. Die lexikalisch ausgedrückte Unterschiedlichkeit der Universitätsanschlüsse - eine 'laurea' ist kein 'dottorato' wird also vor allem durch den hohen Akzentton bei LAUrea ausgedrückt. F243/244/247: Im weiteren Verlauf der oben (S. 178ff.) bereits behandelten Gesprächspassage über den Status bestimmter Sprachen im Zeitalter der Globalisierung führt RM zur Situation in Europa aus: F241 RH: le llngue da saPEre oggi come oggi [in eurOpa [sarEbbero teDESco; H*TH+T*TH+T* H+T*H-H·/, H'/. H+T*T'/, 250 178 166 152 173 164 die Sprachen die man heute in Europa kennen muss wären Deutsch GP: [St [teDESco inGLEseH+T*T-r/. H+T*T-H7. H*T-T7. Deutsch Englisch ja RH: inglEse tedEsco e spaGNOlo, -> H*TH*TH+T*H-H7. 219 166 246 208 (172)128 141 Englisch Deutsch und Spanisch GP: H+T* T-T'/. (101)93 Spanisch 245 RH: [ECco; H«T-T'/. 144 so quEste sono le lingue che dovrEbbe util [utilMENteH* H* H+T* 226 173 das sind die Sprachen die man nütz nützlicherweise (können) müsste GP: [perO lo spaGNOJ-lo ( . ) e un po:: -> H*HH*TH'/. 161 107 110 allerdings ist das Spanische ein bisschen RM: Eh lo spagnOlo prende PIEde->• H*TH*HH+T*H-T'/. 221 208 278 303 (188)157 161 158 also das Spanische gewinnt Bedeutung EH. T*H-H'/. 156 222 also 250 prende piE[de sempre PIÜH+T* H+T*T-T·/. (213) 139 es gewinnt immer größere Bedeutung GP: [Sl=si; H* T*T-T·/. ja ja RM: op!PU!reH7. H+T* H-H·/. 300 275 300 oder auch va BE', H+T*T-T'/. 182 na ja a meno che Uno abbia il corA:ggio e la capacitA di buttArsi su quAlche H* H+T*HH+T* H+T* H+T* 255 175 209 185 167 166 vorausgesetzt jemand hat den Mut und die Fähigkeit sich auf eine 255 lingua orienTA::le; H+T*T-H'/. 137 147 östliche Sprache zu stürzen
RM nennt in einer Liste (F241/243) Englisch, Deutsch und Spanisch als die heute in Europa wichtigen Sprachen. Die Zustimmung GPs in Bezug auf Englisch und Deutsch
213
Abb. 5.48: F243/244/247
drückt sich in GPs eigener, simultan zu F241 geäußerten Liste (F242) aus. 59 Hinsichtlich des Spanischen äußert GP in F247 jedoch eine Proposition, die mit der Nennung nur des Arguments zwar unvollständig bleibt, die aber durch perO als adversativ gekennzeichnet und von RM in F248 auch als Widerspruch interpretiert wird. Die Einleitung des Widerspruchs ist retrospektiv schon der leise gesprochenen Wiederaufnahme von spaGNOlo in F244 zuschreibbar: Mit F244 wird 'Spanisch' als Topik der Äußerungen F244-251 etabliert (Abb. 5.48). Mit dem Lexem wird in F244 auch der Ton H + T * aus F243 reproduziert. Beide Lexeme liegen in einem niedrigen Register und werden leise gesprochen: Die Bewegungen auf der Akzentsilbe beginnen bereits unterhalb der Durchschnittswerte der Sprecher, Länge und Intensität sind mit 1,4 S T und 55 dB in F244 aber deutlich geringer als in F243 mit 5,1 S T und 68 dB. In F247 wird eine andere Kontur mit spaGNOlo assoziiert. Das Lexem trägt einen hohen Akzentton, der 7,6 St über GPs Durchschnittswert (104 Hz) liegt, gefolgt von einem Sprung nach unten bis etwa auf das Niveau des Durchschnittswerts. Die Intensität der Akzentsilbe beträgt in F247 76 dB (gegenüber 60 dB in F243). F247/248: Mit F248 kontextualisiert RM F247 als eine Relativierung ihrer Ausführungen zum Spanischen. Der durch eunpo' ausgedrückten Relativierung widerspricht sie mit prende piede, das semantisch eine Amplifikation enthält. Abb. 5.49 visualisiert die akustische Analyse. Der hohe Akzentton von F247 wird in F248 reproduziert und erreicht einen Wert von 8,2 S T (der folgende hohe Phrasenton sogar 9,7 S T ) über RMs Durchschnittswert (173 Hz). H* hat in F248 eine Intensität von 77 dB (gegenüber 76 dB in F247). Rein akustisch betrachtet wird der Grundfrequenzgipfel in F248 nach rechts verschoben. Lediglich das Merkmal zeitliche 59
Zur Listenbildung im gesprochenden Italienisch vgl. Müller (1991).
214
Abb. 5.49: F247/248 Erstreckung ist für spaGNOlo in F247 mit 600 ms ausgeprägter als in F248 mit 360 ms. Die hauptsächlich in der finalen Dehnung liegende Länge von spaGNOlo in F247 ist durch die Formulierungsarbeit GPs begründet. F282/284: Mit F252 beendet RM den inhaltlich auf die Bedeutung des Spanischen bezogenen Abschnitt und kehrt nach drei Äußerungen (F254-257) zu den östlichen (asiatischen) Sprachen zum Haupttopik 'Französisch' zurück. In F262-273 spricht sie sich erneut dagegen aus, Französisch als Weltsprache zu behandeln (siehe S. 228f.), und schließt ihre Ausführungen mit einer Schlussbewertung ab: F274 RM: .h veDREteH»T-H7. 249 199 210 ihr werdet sehen 275 non servirA piü a NIENte il fran[cEse, Η* Η* H+T* T H+T*H-H7. 294 291(275)160 (167)149 152 zu nichts mehr taugt das Französische SF: [un giudlzio molto seVEro; ein sehr strenges Urteil che non [piacerEbbe (-) ai franCEsi; das den Franzosen nicht gefallen würde RM: [Slja SF: [no, ne 280 RM: [ECco ma; ((lacht))
H*T- Π
->•
226 188 ja aber gli [starebbe giUsto BE[ne; ((lacht)) H* T*T-T'/. 250 192 es würde ihnen gut anstehen GP: [sa'[sarä sEmpre la lingua: C0::Lta;
H+T*
es wi(rd)
H»
H* τ-τχ
123 113 115 109 es wird immer die Kultursprache
sein
215
Abb. 5.50: F282/284
F283 CP: una lingua [( ) Η* 109 eine Sprache RM: [ma !C0L::!ta; -> η* τ-τχ 221 190 aber was Kultur(sprache) 285 come si ffA dire che il francEs e una lingua COLta; HZ Η* H* H+T*T-T'/. 249 373 280 204 185 196 wie kann man sagen dass Französisch eine Kultursprache ist GP: [ ja RM: [molto meglio 1'italIAno alloraH* TTL 358 156 viel besser dann Italienisch GP: AN:Che italiAno maH+T*Tauch Italienisch aber sonoH·/. 115 sie sind 290 SF: « p > i l fran[cEse e 1'italIAno si;> das Französische und das Italienische, ja GP: [si soMIGLiano diciAmo; H* T H*T-T·/. 151 sagen wir mal, sie sind sich ähnlich
Wie oben bereits ausgeführt, wird durch die Abwertung des Französischen das Image von GP bedroht, der in seiner Jugend in Paris studiert hat (GP ist Restaurator). Folglich verteidigt er auch sein eigenes Image, wenn er in F282 die Bedeutung des Französischen als Kultursprache (im Gegensatz zum Englischen als Massensprache, siehe F215) herausstellt. RM widerspricht dieser Einschätzung in F284 ganz massiv
216 und sieht im von ihr zuvor ebenfalls herabgestuften Italienisch noch eher eine Kultursprache als im Französischen (F287). Die von GP (F288, F291) und SF (F290) signalisierte Konzessionsbereitschaft honoriert RM nicht: In F292 wird die Auseinandersetzung fortgeführt. RM äußert ihren Widerspruch in F284 durch das adversative Adverb ma und die Aufnahme von GPs (semantischer Prädikation) COLta. Dadurch wird 'colta'/'kultiviert' zum Maßstab der Bewertungen der Sprachen und löst den zuvor gültigen Maßstab 'utile'/'nützlich' (F219, F238, F246) ab. Das Zentrallexem COLta ist in beiden Komponenten von F282/284 mit der Tonfolge H* T- T% assoziiert (Abb. 5.50). In F284 liegt es nach einem steilen Tonhöhenanstieg aber in einem höheren Register als in F282: Der Fall geht von 4,2 ST (221 Hz) zu 1,6 ST (190 Hz) über RMs Durchschnittswert (173 Hz) - gegenüber einem Fall von 1,7 ST (115 Hz) zu 0,8 ST (109 Hz) über GPs Durchschnittswert (104 Hz). Der extrastarke Akzent in F284 wird auch von der Intensität (86 dB, gegenüber 75 dB in F282) getragen. A300/306/308: RM schließt ihre Erzählung über die negativen Erfahrungen eines Bekannten mit dem Militärregime in Nigeria (A193-295, siehe oben) mit der Feststellung ab, dass Arbeiten für Ausländer in Nigeria zwar lukrativ, aber auch gefährlich ist (A294/295). Daraufhin bemerkt IC: A297 IC: m a i süldi non te Ii regala nesSUno; T'/. H*HH*T-T'/. 109 159 116 84 aber das Geld schenkt dir halt niemand c'i SEMpre un motIvo [per cui-
H'/. Η»
300
->
Η*
SF: SC:
IC: 305
->
H*
143 169 118 es gibt immer einen Grund aus dem SC: [(be be) ach was sEmpre ab[Uso di poTE:re Ii;
RM:
IC:
Η*
Η* Τ- T'/.
189 170 149 138 133 (das ist) immer Machtmissbrauch [hm:«p>DAI;> T*T-T'/. (-) komm [ma ( ) aber [va BE' comUnqueH* H» 248 256 klar, aber 1'abUso, H*H115 120 der Machtmissbrauch SILvia;
Η* T-T·/, ->
141 100 l'a' 1'abUso di potEre C'fe; Η* H* H*T-TX 167 152 115 94 den den Machtmissbrauch gibt es c't in iTAlia [c'fc-
H+T*
Η* Τ- H+T»
114 124 111 102 den gibt es i n Italien,
den gibt es
217
Abb. 5.51: A300/306/308 A310 SC:
[st Si Η* Η*Τ-Τ'/. ja ja
ma non STO [dicEndoH* T*T286 204
aber ich sage ja nicht
SC interpretiert ICs Bemerkung A296-298 als Rechtfertigung für die von RM geschilderten Vorfälle und weist sie zurück (A299). Sie sieht diese Vorfälle als Auswirkungen eines zu allen Zeiten (sEmpre) vorkommenden Machtmissbrauchs (A300) und fordert in A302 von IC eine Ratifizierung dieser Sichtweise. 60 IC signalisiert in A304 Dissens und etabliert in A306 l'abUso als das strittige Referenzobjekt. Mit A307 sichert er die Kommunikationsachse zu SC (Vorname: Silvia) gegen RM, die als Erzählerin der Ereignisse in Nigeria ebenfalls als Adressatin von ICs Ausführungen in Betracht käme (und in A305 trotz ihrer Rolle als Zuhörerin auch interveniert). In A308/309 konzediert IC, dass Machtmissbrauch ein universales Phänomen ist. SC kontextualisiert ICs Position mit dem adversativen Adverb ma in A311 dennoch als Gegensatz zu ihrer eigenen. Bevor SC ihre Position mit einer längeren Alltagserzählung begründet, 61 folgen in A313/315 die oben (S. 164f.) analysierten Äußerungen RMs. Mit dem zentralen Lexem abUso bzw. dem Phraseolexem abUso di poTEre werden in allen Komponenten des Äußerungstripels A300/306/308 hohe Akzenttöne assoziiert (Abb. 5.51). A300 liegt in einem sehr niedrigen Tonhöhenregister. Die hohen Akzenttöne auf abUso di poTEre sind nur 1,2 S T über bzw. sogar 1,1 S T unter 60
61
Die im Italienischen häufige, aber unübersetzbare Diskurspartikel dai ist vom Imperativ des Verbs dare, 'geben' hergeleitet und wird hier verwendet, um den zögerlichen Interaktionspartner (IC) zu einer Handlung (der Ratifizierung) zu veranlassen. Siehe oben, S. 186ff.
218 SCs Durchschnittswert (159 Hz), der tiefe finale Grenzton liegt sogar 3,1 ST unter dem Durchschnittwert. Dagegen liegt H* in A306 3,1 ST über ICs Durchschnittswert (96 Hz), die hohen Akzentöne auf abUso di potEre (A308) sogar 9,6 ST und 8 ST. Der tiefe finale Grenzton hat ungefähr den Durchschnittswert. Die Intensität auf abUso beträgt in A306 78 dB und in A308 80 dB - gegenüber 70 dB in A300. Zusammenfassung: Die Verhaltenskategorie 'Widerspruch' wird in drei von fünf italienischen Außerungspaaren/-tripeln klar mit dem Verfahren 'Verstärkung der fremden Kontur' ausgedrückt: Bei F247/248, F282/284 und A300/306/308 sind alle (messbaren) phonetischen Merkmale der Komponenten, die den Widerspruch tragen, ausgeprägter als diejenigen der Komponenten, denen widersprochen wird. Im Tripel A300/306/308 steigen die Werte kontinuierlich von der ersten bis zur dritten Komponente an. Bei F115/118 und F243/244/247 wird die fremde Kontur modifiziert: Fallende werden durch hohe Akzenttöne ersetzt. Zusätzlich wird die den Widerspruch tragende Komponente mit höherer Intensität und in einem höheren Register produziert. Weil in F247/248, F282/284 und A300/306/308 der Widerspruch durch Verstärkung der (schon in der ersten Komponente vorhandenen) hohen Akzenttöne unterstrichen wird, ergibt sich ein einheitliches Bild für die Signalisierung des Widerspruchs im Italienischen: Widerspruch wird durch die Setzung prominenter hoher Akzenttöne und die Verstärkung der fremden Kontur signalisiert, wie es in Abb. 5.43 (S. 205) dargestellt wird.
5.1.7 5.1.7.1
Insistieren Insistieren im Deutschen
K188/195: In einem Abschnitt von Gespräch Κ reden die Teilnehmer über ihre Vorlieben hinsichtlich aktueller Kinofilme. SF äußert sich kritisch zum amerikanischen Actionkino (K145, 168-170) und sagt, dass er französische (K171) und italienische (K174) Liebes- und Beziehungsfilme (K163, 170) bevorzugt. Daraufhin fragt KB: F173 KB: hAst du gesehn: [äh (.) {chacUn chErche sOn CHAT}, Τ* Η* Η* T* H*H-H"/, 112 122 122 109 137 SF: [oder itallEnische; 175 (1.1) NEE. (1.5) KB: und jEder sucht sein KÄTZchen;
Η»
Η* T-T·/.
« p > h e i ß t das [glaub ich (sogar) auf DEUTSCH;> 180
Η+τ*τ-τχ
SF:
[ja=JA ja=JA; hab ich die kriTIK glaub ich gelEsen [undKB: [das soll so GEI:L: sein;
H+T*
185
(130)104 SF: ja=JA; aber [«p>na=ja,> KB: [der H E f glaub ich auch gar nicht hier so richtig Η* H* 122
T-T'/. 96
219 F186 KB: in den DEUtschen [kinos; H+T* τΤ'/. 114 SF: [ACH; BB: DOCH dErT*+H T285 304 286 na=JA, Τ"/. H*H-H'/. 217 239 190 aber [HIER kam er in [GREIFSvald; Η* Τ- Τ'/. Η* Τ - Π 182 232 SF: [na=JA [also in GREIFS[wald halt nich. KB: [WAS; T*T-T7. JEder sucht sein kÄtzchen ka'H* Η* Η- T* 173 120 120 der KAM doch nicht in grEifswald; H+T* H+T* T-TX 105 195 BB: D0:CHH*H-TX 304 299 das hab ich dir doch VORgelesen im klnoprogramm; H* H*TΤ"/. 244 227 193 dass das KA:M; -> H*T-T·/. 222 172 aber [dass ichSF: [tatSÄCHlich, 200 BB: dass ich dir halt nur sagen konnte (.) dass es !KA::M! un nich kOm[mt. -> Η* H*TΗ* T-T·/. 227 237 135 196 150 KB: CTWAS!? T*+HH-H·/. 149 BB: !JA::!; -> H*T-tx 312 189 KB: und jEder sucht sein kätzchen war [in GREIFSvald? H+T* H+T* H-H·/. 114 BB: [!JA::!; -> H*T-T'/. 356 237 205 KB: H+T* Τ- Τ'/, (1.1) PA: [LETZten mittwoch kam das lEben (-) ist eine BAUstelle; T* H+T*HH+T* T- T% 118 130 BB: [dann glAUbstes mir halt NICH, H* H*H-H·/. 204 PA: der war AUCH lustig. H* T- T7.
BB widerspricht der Vermutung ihres Lebengefährten KB, der Film „Und jeder sucht sein Kätzchen" 62 sei nicht in den deutschen Kinos gewesen (K185/186) mit der Partikel DOCH in K188: „Wenn die Partikel doch auf eine Äußerung folgt, die einen Negationsträger enthält, stellt sie immer eine Korrekturanweisung dar; der Gesprächspartner wird dazu aufgefordert, seine negative Annahme über einen Sachverhalt zu revidie62
Französischer Film von Cedric Klapisch mit Garance Clavel und Zinedine Soualem aus dem Jahr 1996.
220
Abb. 5.52: K188/195 ren." 63 Als Beleg für ihren Widerspruch führt BB an, der Film sei im Greifswalder Kino gelaufen, woraus notwendig folgt, dass KBs Behauptung falsch ist. Die Setzung der Partikel na=JA in K189 dient der Imageschonung von KB, logisch betrachtet wäre sie fehlplaziert. 64 In K192 manifestiert KB ein lokales Erwartungsproblem und fordert BB damit zur Revision ihrer Proposition auf. BB insistiert mit DOCH in K195 jedoch darauf, dass der Film in Greifswald (und damit in Deutschland) gezeigt worden sei. Die intonatorische Struktur von K188 wird in K195 im selben Tonhöhenregister reproduziert (Abb. 5.52). Der Akzentunterschied - T*+H T- vs. Η* Η- T% - geht auf Unterschiede in der Alinierung von Grundfrequenz- und Intensitätsverlauf zurück. Der Intensitätsgipfel (79 dB) liegt in K188 klar auf dem tiefen Akzentton, während er in K195 nach rechts in Richtung auf den Grundfrequenzgipfel hin verschoben ist. Die Tonhöhenbewegung ist bei K195 sowohl zeitlich länger als auch ausgeprägter als bei K188: 110 ms und 3 ST vs. 50 ms und 1,1 ST. Die Steigungskoeffizienten der Komponenten sind aber fast gleich: 380 Sf- in K188 und 445 ^ in K195. Das Signalisierungssystem Intonation kookkuriert hier mit Lexik und Sequenzierung: Die Funktion 'Insistieren' ergibt sich in K195 aus der Kombination der Wortbedeutung von doch mit der Verstärkung der Intonationskontur. 63 64
Willkop (1988), S. 158. Willkop (1988), S. 187 schreibt zur Funktion der Partikel na ja: „Ist naja als Interpretationsanweisung für einen eigenen nachfolgenden Beitrag zu verstehen, wird damit angedeutet, dass das Folgende entweder nicht so genau oder nicht so wichtig zu nehmen sei. Bei responsiver Verwendung wird der Vorgängerbeitrag oft in seiner Relevanz eingeschränkt. Besonders in einvernehmlichen Dialogpartien fungiert naja dann oft als Beschwichtigungssignal." BB verwendet na=JA als Beschwichtigungssignal, SF gibt mit na=JA (K191) dagegen die Anweisung, seine Proposition in K191 nur als partiellen Widerspruch zu KBs Proposition K185/186 zu interpretieren.
221
Abb. 5.53: K197/200
K197/200: BB verweist zur Stützung ihrer Behauptung, der Film sei in Greifswald gezeigt worden, auf ein als gemeinsam unterstelltes Wissen (K196-200): Sie habe mit KB über den Film gesprochen, allerdings zu einem Zeitpunkt, als die Vorführungen schon beendet gewesen seien. Das Zentrallexem ihrer Ausführungen ist KAM/kOmmt. Der Gegensatz von KAM und kOmmt in K200 signalisiert die Vorzeitigkeit der Filmvorführung gegenüber dem diesbezüglichen Gespräch von KB und BB. Der extrastarke Akzent bei KAM in K200 kann in diesem Zusammenhang als Kontrastakzent (Kontrast KAM vs. kOmmt) interpretiert werden. Die Tatsache, dass KAM aus K197 aber überhaupt wiederholt wird, gibt dagegen BBs Insistieren wieder. In der durch die Konfliktsequenz K185-195 kompetitiv aufgeladenen Gesprächssituation kontextualisiert BB SFs turnkompetitive Erwartungsproblemmanifestation in K199 als Widerspruch. Weil BB ihre Behauptung gegen SFs Erwartungsproblem und gegen KBs Widerspruch (der nach der Konfliktsequenz K185-195 erwartbar ist, möglicherweise simultan zu K197/198 schon mimisch signalisiert und in K201-205 dann auch verbalisiert wird) verteidigen muss, ist die Wiederaufnahme von KAM in K200 eher der inhaltlichen Kompetition zuschreibbar als der Rederechtsverteidigung. Abb. 5.53 zeigt das Ergebnis der akustischen Analyse. Die intonatorische Struktur des Zentrallexems ist mit H* T- an allen drei Stellen identisch. Das Grundfrequenz- ist mit dem Intensitätsmaximum aliniert, wobei die Intensität kontinuierlich abnimmt: 71 dB, 70 dB und 68 dB. Der Tonverlauf von H* zu T- beträgt bei KAM in K197 4,4 ST, bei KAM in K200 9,7 ST und bei kOmmt 4,6 ST. Alle Bewegungen sind in einem niedrigen Tonhöhenregister angesiedelt, diejenige auf kOmmt findet sogar vollständig unterhalb von BBs Durchschnittswert (205 Hz) statt. Die phonetischen Merkmale sind also in K200 lediglich bei KAM ausgeprägter. Der Akzent bei kOmmt wird nicht als insistierend kontextualisiert.
222
Abb. 5.54: K202/204
K202/204 : KB reagiert auf BBs Argumentation mit der Manifestation eines lokalen Erwartungsproblems in K201 und K203. BB führt keine neuen Argumente für ihre Behauptung an und insistiert in K202 und K204 mit expressivem JA. Keiner der beiden Interaktanten zeigt sich kooperationsbereit. Der Dissens wird nicht beseitigt, seine Fortdauer findet in den Abschlussformulierungen (von KB in K205, von BB in K208) Ausdruck. PAs Versuch, den Dissens durch einen Themenwechsel (K207/209) in den Hintergrund treten zu lassen, wird nicht honoriert. Die Partikel JA ist in beiden Komponenten des Außerungspaares mit über 500 ms sehr lang, was eine für Diskurspartikeln ungewöhnlich ausgeprägte Tonhöhenbewegung ermöglicht. Die intonatorische Struktur ist identisch, beide Diskurspartikeln werden zudem im selben Tonhöhenregister produziert (Abb. 5.54). Der Anstieg vom Onset zu H* ist in K204 sowohl in der zeitlichen Erstreckung (250 ms gegenüber 130 ms) als auch in der melodischen Erstreckung (7,3 ST gegenüber 3,5 ST) ausgeprägter in K202. Die Steigungskoeffizienten stimmen aber in etwa überein (438 ^f- in K202 und 488 ~ in K204). Die Bewegung von H* zu T- ist mit 8,6 ST (gegenüber 7 ST) dagegen in K202 länger als in K204. Das Grundfrequenzmaximum erreicht mit 9,6 ST (gegenüber 7,3 ST) in K204 einen höheren Wert als in K202. In beiden Komponenten ist das Intensitätsmaximum mit der Mitte des Fo-Anstiegs aliniert. 65 Beide JA sind insistierend. Der geringfügig stärkere Ausdruck des Insistierens bei K204 wird phonetisch vom einem längeren initialen Anstieg zu einem höheren Grundfrequenzmaximum und von der späteren Position in der Sequenz getragen.
65
Ein Vergleich der dB-Werte ist wegen der Überlappung von K203 und K204 nicht möglich.
223 H069/078: Am Beginn von Gespräch Η erzählt SF über die Vorbereitungen für die kirchliche Trauung und die Hochzeitsfeier seines Bruders, die am nächsten Tag stattfinden soll (H001-047). Auf die Ankündigung, dass die Braut zur Trauung ein weißes Kleid tragen wird (H047), reagiert NH mit Unverständnis: H052 NH:
055
SF: NH:
IH: 060 SF: NH: IH: 065
SF: NH:
SF: NH:
070
SF: NH: IH: NH:
075
-f
080
[Ich Ich verSTEHS nichH* Η» H+T* T-H'/. 172 147 ECHT; H*T-T'/. 169 139 also ich [mEIn; h*t-t·/. [WIE; ich find das toTA:L eigenartig; Τ'/. Η* Η* ΤT'/. 222 213 185 154 kirchlich in wEIS zu HEIraten; H* H+T* H+T*T- T'/. 200 156 159 149 [TJA,> H*H-H'/, 141 (1.4) ja also;= =[ich würd vor schAm im BOden versch versinken glAUb ichH* Η* Η* ΤH* T-H'/. 263 176 131 141 151 [SIND die dennH* TwieSO? ich WEISS netH+T* H-T·/, 135 [weil es[ ich kÄ'H* 227 für mich war das die g [(.) größte !LÜ[:!ge; ((lacht)) Η* H* H+T* T-T'/. 233 222 (220)193 [weil de [weil DU jetz HEIrat so LÄcherlich-= =ich [bin schon seit iAhren nich mehr in die KIRche und; Η* Η* T278 223 189 [UNbefleckt; H*H- T'/. erst JA; T*T-T7. 137 erstens mal DAS, H*H-H'/. 227 und da(h)ann, τ·/. 127 ((lacht)) also es war für mich Echt die .h die f!LÜ!4-ge. Η* Η* T-TX 227 313 201 195
Τ* Η* H-H7. BB: =«p>ja.> KB: ((geht aus dem Raum)) KB begründet in K082 seine Vorschlag COla mit der Annahme, Wasser sei nicht im Haus. Mit der Reaktionsaufforderung Oder (K083) markiert er diese Annahme 67
Siehe oben, S. 200f.
228 jedoch als ratifizierungsbedürftig. BB widerspricht in K084 der Annahme mit einer reduzierten Form des Modalworts natürlich,68 woraufhin KB in K085 einen revidierenden Sprechakt durchführt: Er fragt BB explizit-verbal, ob Wasser im Haus ist. Die positive Antwort BBs (K086) honoriert er, indem er das Getränk holt (K087). Die auditive Analyse (Abb. 5.58, auch hier überschlägt sich KBs Stimme) zeigt Unterschiede sowohl in der grammatisch-lexikalischen und metrischen als auch in der intonatorischen Struktur. Im Unterschied zu den oben beschriebenen insistierenden Sprechakten wird die Bedeutung des zentralen, existenzsetzenden Lexems HAM/hAm in K085 intonatorisch heruntergestuft. In K085 ist hAm nicht die prominenteste Silbe der Intonationseinheit, trägt einen tiefen Akzentton und ist perzeptiv schwächer als HAM in K082.
5.1.7.2
Insistieren im Italienischen
F269/271/275: In der Gesprächspassage über die Bedeutung von Premdsprachen erneuert und radikalisiert RM im Anschluss an Ausführungen zur neuen Weltsprache Spanisch ihre Position aus F206, dass Französisch eine sterbende Sprache sei, für deren Erlernung keine Zeit verschwendet werden solle. F262 RM: il franCEse, H+T* T-H"/. (303)161 184 Französisch GUA'; H*T-T'/. 228 schau tl dlco Io; Η* H* H*T-T7. 278 277 294 170 ich sage dir 265 sapEre che mio flglio studia francEse a SCU01a,= H*HΗ* H* H+T*H-H'/, 333 355 264 227 167 228 zu wissen dass mein Sohn Französisch in der Schule lernt SF: =Slja RM: preferirEi di gran lUnga che studiAsse laTIno; H+T* H*HH+T* H*T-T7, (345)169 296 371 159 238 152 ich würde bei weitem bevorzugen, dass er Latein lernt perCHE, H*H-H7. 285 wei l fran|cEse ^aecondo finE una lingua MORta Ormai-> Η1/. H*HH*HH* H+T* H - H*T-H'/. 323 451 495 344 194 (186)137 157 161 147 151 Französisch ist meiner Meinung nach inzwischen eine tote 270 SF: .hhh RM: cioe una lingua 4-che non ser[virA piÜ a [!NIEN:!te, -> Η'/. Η* Η Η* T* H+T* Η - H'/, 223 250 294 220 200(204)159 165 174 also eine Sprache die zu nichts mehr taugt GP: [hmSF: [hm; RM: .h veDREteH*T-H'/. 249 199 210 ihr werdet sehen 68
Siehe dazu S. 206, Fn.
Sprache
229
Abb. 5.59: F269/271/275
F275 RH: n o n servirA p i Ü a NIENte il fran[cEse, -> Η* Η* H+T* T H+T*H-H·/. 294 291(275)160 (167)149 152 zu nichts mehr taugt das Französische SF: [un giudlzio moltο ein sehr strenges
seVEro; Orteil
Im Verlauf des Gesprächs ist bis zu diesem Punkt schon hinlänglich klar geworden, dass die Interaktionspartner RMs Einschätzungen nicht teilen. Mit diesem Wissen interpretiert RM das ostentative Einatmen von SF in F270 und die Diskurspartikeln von GP und SF in F272 und F273 als inhaltliche Ablehnung, auf die sie mit einer zunehmenden Radikalisierung ihrer Formulierungen reagiert. Ihr Insistieren fasst sie nach einer expliziten Behauptungs-Widerspruchs-Sequenz 69 in F300 noch einmal zu70
sammen. Die Komponenten des Äußerungstripeis F269/271/275 (Abb. 5.59) 71 weisen syntaktische Unterschiede, aber eine weitgehend übereinstimmende lexikalische Struktur auf. Mit wenigen Ausnahmen (eingebettete Kontur auf secondo mE in F269, rechtsversetztes il francEse in F275) liegt in allen Komponenten übereinstimmend die fol69 70
71
Siehe oben, S. 214f. Äußerung F300 wird nicht als Komponente des Äußerungstupels aufgefasst, weil sie zeitlich zu weit entfernt ist. Die akustische Analyse zeigt, dass F300 phonetisch schwächer realisiert ist als die Komponenten des Tripels, die Tonhöhe fällt auf dem prominentesten Akzent H + T * nur mit einem Steigungskoeffizienten von -28 Damit zeigt sich, dass die funktionale Reichweite des Signalisierungssystems Intonation nicht über die lokale Äußerungssitiuation hinausgeht. F274 wird als Teil der Kontur von F275 berücksichtigt. Die Länge der Äußerung erzwingt in der Abbildung eine stark abgekürzte Darstellung der Text-Ebene. Vgl. die Transkription für den vollständigen Text.
230
gende intonatorische Struktur vor: (H%) Η* Η* (H*/T*) H+T* H-/T- H%. Den prominentesten Akzent jeder Äußerung trägt das Element, das lexikalisch die negative Bewertung des Französischen ausdrückt, also MORta ('tot') und NIENte ('(taugt zu) nichts'). Dieser Akzent wird mit H+T* assoziiert, wobei das Register und die Nachdrücklichkeit der Bewegung in jeder Komponente zunimmt. Die Länge des Falls beträgt in F269 5,3 ST, in F271 4,3 ST und in F275 9,4 ST. Die geringere Länge des Falls in F271 wird dadurch ausgeglichen, dass das Zentrallexem in F271 mit größerer Intensität und größerer zeitlicher Erstreckung realisiert wird als in den anderen Komponenten: 76 dB und 880 ms gegnüber 68 dB und 480 ms in F269 und 73 dB und 450 ms in F275. 72 Die Realisierung der Komponenten des Äußerungstripeis belegt den artikulatorischen Zusammenhang der akustischen Merkmale: Perzeptiv relevante Einheiten können durch die akustischen Merkmale Grundfrequenz und/oder Intensität und/oder zeitliche Erstreckung realisiert werden. A072/074• Im Gesprächsabschnitt über die sexuelle Aufklärung von Kindern und Jugendlichen führt IC aus, dass Sexualität in seiner Jugend ein Tabu war, über das nicht gesprochen wurde. A066 IC: non ne parLAvano; Τ'/. Η*Τ-Π 86 96 71 sie sprachen nicht davon su in CAsa non si parlAva; H'/. H« H*T-T7. 116 133 118 93 zuhause sprach man nicht davon per DI[re; H*T-T'/, 106 sozusagen SF: [eh c'Era un cErto momEnto in cui mio pAdre mi veNIva: a non so[:, äh es gab eine gewissen Moment in dem mein Vater kam um mir, ich weiß nicht 070 SC: [a casa MIa si. H*H-T*T-T·/. bei mir zuhause (aber) doch IC: [no NO, H*H-H'/. nein nein invE[ce da Ν0Ι nO « p > E H - > -> H*HH» H*T-T7. T*T-H'/. 134 144 132 109 98 96 100 dagegen bei uns nicht, ne SF: certe [cOse no « p > a l l ' e T Ä di [non so-> bestimmte Dinge zu erklären, ja, im Alter von, ich weif nicht IC: [invEce da da Ν0Ι n 0 : « p > [ E H , > Η* H* H*T-T7. H*H-H'/. 152 135 114 96 dagegen bei bei uns nicht, ne 075 SC: [CUme nOI nO; H*T- Η»Τ-Η·Τ-Γ/. 329 205 232 204 215 204 wie, bei uns nicht
IC gerät damit in Gegensatz zu den Interaktionspartnern: Seine Ehefrau SC signalisiert mit dem Einwand A070 und dem lokalen Erwartungsproblem A075,73 dass sie 72
Damit ergeben sich folgende Steigungskoeffizienten: in F269 -102 in F275 -255 S
in F271 -51
und
231
Abb. 5.60: A072/074 den Geltungsanspruch von ICs Proposition für den in Rede stehenden Bereich (Colico in den 60er Jahren) bestreitet, während sich SFs Ausführungen auf das Deutschland der 80er Jahre beziehen und damit nur partiell in Kontrast zu ICs Äußerungen stehen. Die inhaltliche Kompetition zu SCs Widerspruch wird durch die Negation in A071 und den Widerspruch in A072 ausgedrückt. Als Reaktion auf SFs besonders prominent geäußertes Zentrallexem spieGAre (A073) insistiert IC darauf, dass es keine sexuelle Aufklärung gegeben habe. Beide Komponenten des Außerungspaars werden durchgängig überlappend und kompetitiv zu SFs Turn produziert. Ihre grammatisch-lexikalische Struktur ist identisch, metrische und intonatorische Struktur unterscheiden sich geringfügig. Die akustische Analyse (Abb. 5.60) zeigt, dass die F 0 -Gipfel in der zweiten Komponente höher sind als in der ersten Komponente. Durch den Wegfall des hohen Phrasentons bei invEce wird der F 0 -Gipfel in A074 nach links verschoben. Beide Komponenten liegen im selben Tonhöhenregister, der tiefe finale Grenzton entspricht ICs Durchschnittswert (96 Hz). Die Intensitätswerte sind wegen der überlappenden Rede nicht verlässlich bestimmbar. P063/070: In Gespräch Ρ sprechen die Interaktionspartner über Berufsperspektiven. Interaktantin MR ist als Lehrerin ausgebildet und hält sich mit zeitlich auf wenige Wochen oder Monate befristeten Arbeitsverträgen (supplenze, siehe P091) über Wasser. Auf den Hinweis von RR, sie könne nach 40.000 Pensionierungen (P004) mit einer festen Stelle rechnen, reagiert MR zurückhaltend. Sie führt aus, dass sie keine Stelle in der Mittelschule antreten will (P022/023), 74 weil sie während ihrer befristeten 73 74
Siehe oben, S. 171f. Die aus drei Schuljahren bestehende scuola media folgt in Italien auf die vierjährige Grundschule/scuo/α elementare und ist obligatorisch für alle Kinder. Erst danach erfolgt eine
232 Anstellungen dort deprimierende Erfahrungen gemacht habe ( P 0 4 9 / 0 5 0 ) . M R fährt fort: P053 HR: perchi a quEll'eTiH« H+T-H7, 263 239 weil in diesem Alter GUARda, T*H-H'/. 200 227 schau 055 (-) « t , p>ma:CELli;> Η*τ-τχ 169 lieber Himmel (Ausruf) parlagli di SES:so; T-T'/. 169 erzähle ihnen von Sex di VIta;= H*T-T'/, 204 167 von Leben RR: =di [DROga; H*T-T-/. von Drogen 060 LR: [DROlga, H*T-T7. Drogen MR:
H*TH*HT*T-T·/. 324 357 370 185 153 von Drogen, aber rede ihnen nicht von Schule POI [seH* 316 dann, wenn RR: [non e VEro; —> H+T*T-T7. (196)152 148 das ist nicht wahr HR: POIH* 295 dann 065 (0.6) ο sOno (e)sperienze sbaGLIAte che ho avuto Io; Γ/. Η*? H+T* H+T»T-T'/. 219 437 286 204 oder sind es falsche Erfahrungen die ich gemacht habe RR: [SI H*T-T'/. ja MR: [Io H*Tich alla scuo[la MEdiaH+T* H in der Mittelschule 070 RR: [perche non e VE:ro; H+T* T-T1/. (238)175 172 weil es nicht wahr ist assolutaMENte; H+T*T-H'/. 170 182 auf keinen Fall
die Wahl zwischen Gymnasium/(iceo und beruflich orientierten Schulen/isiituti tecnici t professionali. Die Kinder sind in der scuola media zwischen 11 und 14 Jahren alt.
233
Abb. 5.61: P063/070 MR behauptet in P053-061, dass sich Kinder im Mittelschulalter für alles mehr interessieren als für Schule. R R widerspricht dieser Behauptung in P063 kategorisch. M R verteidigt ihre Position nach einer Planungspause (P065) unter Verweis auf selbstgemachte Erfahrungen (P066) und durch explizite Selbstreferenz mit dem akzentuierten Ιο (P066, P068). R R insistiert in P070 auf ihrem Widerspruch, den sie durch assolutaMENte (P071) als fraglos und außerhalb jeder Diskussion darstellt. In P072-081 berichtet sie von ihren positiven Erfahrungen in der Mittelschule und erklärt die Voraussetzungen für Erfolg in der Schule. MR, deren Image dadurch bedroht ist, führt in P082 die Diskussion fort. Bei P063/070 handelt es sich mit Ausnahme der P070 einleitenden Konjunktion um ein echtes Minimalpaar (Abb. 5.61). P070 liegt in einem höheren Register als P063 (oberhalb von RRs Durchschnittswert von 173 Hz), der Fall H + T * ist in P070 mit 5,3 S T länger als in P063 mit 4,4 ST. P070 wird als prominenter perzipiert als P063 (die Quantifizierung des Intensitätsunterschieds ist wegen Überlappungen mit anderen Äußerungen nicht möglich). P096/101: Im weiteren Verlauf von Gespräch Ρ werden Familienangelegenheiten besprochen. Weil sich die Interaktionspartner gut kennen, wird in dieser Passage viel gemeinsames Wissen präsupponiert, das in der Analyse nicht rekonstruiert werden kann. Schlechte akustische Qualität (Störgeräusche durch einen Fernseher und die Vorbereitung des Abendessens), häufige Redeüberlappungen und viele Anspielungen führen dazu, dass die Hinführung zur Passage P093-106 auch mit Hilfe einer am Gespräch beteiligten Muttersprachlerin nicht transkribiert werden konnte. MM erzählt in der Pcissage P093-106 über den schlechten Gesundheitszustand einer Tante:
234
Abb. 5.62: P096/101
P093 HM: perchä c'β m i a zla che sta troppo MAle; weil meiner Tante geht es zu schlecht c'6 m i a Zla che gli i uscltaH* Η* T437 370 303 meiner Tante ist rausgerutscht 095 gli sta venEndo tutta 1'artrOsi deformAnte nelle os nelle SPALle; Η* Η* H» H+T*T-T'/. 188 185 (169) 152 sie bekommt gerade eine schlimme Arthrose in den Kno(chen) in den Schultern RR: c'i una sola cOsa da fare-> Η* H+T* T-H7. 262 193 184 189 da ist nur eine Sache zu machen —> «p>operaZIOne;> H+T*T-T7. (206) 187 Operation MM: NO; H*T-T·/. 244 192 nein c'e tutta la claVIco(la) l'e uscita di fuOriH* H+T*T-H·/. 244 233 238 das ganze Schlüsselbein ist ihr rausgerutscht 100 RR: ((räuspert sich)) c'i una fSOla cOsa da fare; -+ Η'/. Η* H+T* T-T·/. 295 302 216 182 178 da ist nur eine Sache zu machen si dEve opefrAr 4-e mettere Una PROtesiΗ* Η* H* H+T*T-H'/. 238 395 217(206)158 161 man muss operieren und eine Prothese setzen se nO non guaRIsce [e peggiOra sEmpre. Η'/. Η* Η* ΤΗ* Η+Τ*Τ-Τ·/. 217 233 313 263 sonst wird es nicht besser sondern immer schlimmer
235
Abb. 5.63: P097/102
P104 LR:
105
[ H* TH*H- T*T-T·/. 204 233 189
RH: non SOlo resta a piEdi;
Η*
ihm
323
bleibt
dann
für
deinen
armen
Bruder
viel
zu
tun
H+T+T-T7.
(189) 179 165
nicht
nur
viel
allein
mit
seinem
rEsta SOlo con suo PAdre. H* H*HH+T*T-T'/. 228 217 250 172 er bleibt
bleibt
zu
tun
Vater
R R macht in P096/097 einen Therapievorschlag, den MM in P098/099 unter Verweis auf ein weiteres Detail der Arthrose ihrer Tante zurückweist. R R insisitiert in P101/102 auf dem Therapievorschlag, ohne den die Tante ihrer Einschätzung nach sterben wird (P106). R R insistiert unter Verwendung von zwei Außerungspaaren. P096/101 ist ein echtes Minimalpaar (Abb. 5.62). Beide Komponenten liegen im selben Tonhöhenregister, der Tonhöhenumfang der Gesamtäußerung ist in P101 aber größer: Vom hohen initialen bis zum tiefen finalen Grenzton wird ein Bereich von 10,5 S T durchlaufen (gegenüber 3,9 S T in P096, das keinen initialen Grenzton hat). Der Fall von H * zu T * beträgt in P101 5,8 S T und damit kaum mehr als in P096 mit 5,3 S T . H * liegt in P101 aber 9,6 S T über dem Durchschnittswert von R R - gegenüber 7,8 S T in P096. Der Intensitätsgipfel ist in Ρ101 nach vorne verschoben: Er liegt mit 80 dB auf der Akzentsilbe in SOla. In P096 liegt er mit 77 dB auf der Silbe zwischen den beiden Akzentsilben. Jede Silbe von P101 hat eine höhere Intensität als die entsprechende Silbe von P096. Ρ097/102\ Die Äußerungen P097 und P102 sind aufeinander beziehbar, weil P102 eine grammatisch-lexikalische Expansion von P097 ist. Bei diesen Äußerungen han-
236 Intonatorische Kompetenz Handlungskonzept: Insistieren (it.)
Ή 9 :S
»»· Ω. υ> φ α
Töne
Verfahren
(3>