110 52 53MB
German Pages 425 [430] Year 2022
BEIHEFTE
Tillmann Pistor
Universelle Intonationsmuster Ein empirischer Nachweis konstanter prosodischer Strukturen in Regionalsprachen des Deutschen und darüber hinaus
Germanistik
ZDL
Franz Steiner Verlag
zeitschrift für dialektologie und linguistik beihefte
193
Zeitschrift für Dialektologie und Linguistik In Verbindung mit Michael Elmentaler, Jürg Fleischer und Mark L. Louden Herausgegeben von Jürgen Erich Schmidt Beiheft 193
Universelle Intonationsmuster Ein empirischer Nachweis konstanter prosodischer Strukturen in Regionalsprachen des Deutschen und darüber hinaus Tillmann Pistor
Franz Steiner Verlag
Diese Publikation wurde im Rahmen der gemeinsamen Forschungsförderung von Bund und Ländern im Akademienprogramm – Projekt "Regionalsprache.de", betreut von der Akademie der Wissenschaften und der Literatur | Mainz, – mit Mitteln des Bundesministeriums für Bildung und Forschung und des Landes Hessen erarbeitet. Koordiniert wird das Akademienprogramm von der Union der deutschen Akademien der Wissenschaften.
Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist unzulässig und strafbar. © Franz Steiner Verlag, Stuttgart 2022 Druck: Beltz Grafische Betriebe, Bad Langensalza Gedruckt auf säurefreiem, alterungsbeständigem Papier. Printed in Germany. ISBN 978-3-515-13332-6 (Print) ISBN 978-3-515-13337-1 (E-Book)
VORWORT Das vorliegende Buch stellt eine leicht veränderte Fassung meiner Dissertation dar, die ich im November 2020 am Fachbereich 09 der Philipps-Universität Marburg eingereicht habe. Zuerst danke ich hierfür meinen wissenschaftlichen Lehrern und Förderern Jürgen Erich Schmidt und Roland Kehrein, die über die Jahre immer an mich und meine Arbeit geglaubt haben und mit ausführlichem Rat und Denkanstößen in Richtungen unbestrittener Wege diese Monografie mit mir zu dem gemacht haben, was sie ist. Ich habe versucht, ein Buch zu schreiben, das ich mir selbst während meiner Doktorandenzeit gewünscht hätte. Eines, das den durch die Vielzahl an stets unterschiedlich ausgerichteten internationalen Studien und Lehrbüchern scheinbar undurchdringlichen Gegenstand linguistischer Prosodie etwas durchdringbarer macht, einige der äußerst heterogenen Ansichten gegenüberstellt und – wenn möglich – vereint. Der Theorieteil dieser Monografie fällt entsprechend umfangreich aus, wobei ich nicht den Eindruck habe, alles mitgenommen zu haben, was mir über die Jahre meiner Beschäftigung mit ebendiesem Gegenstand über den Weg gelaufen ist. Die von mir im Methodenteil dieses Buchs beschriebene Beteiligung an der Entwicklung eines Machine-Learning-Algorithmus war für mich, mit der Mathematik als meinem Schul-Nemesis, eine besondere Herausforderung. Für diesen Teil spreche ich Carsten Keil meinen großen Dank aus, auf dessen Programmier- und Erdfindergeist das hier vorgestellte und angewandte Tool wurzelt und der mir außerdem zu jeder noch so unorthodoxen Tageszeit mit Antworten, Daten und Ratschlägen parat stand und die Zusammenarbeit so fruchtbar gemacht hat. Für die nötige mathematische Nachhilfe danke ich außerdem meinem guten Freund Patrick Boländer. Das empirische Herausstellen prosodischer Universalien mit diesem Algorithmus mit der anschließenden Verbindung in sprachevolutionäre Theorien stellt für mich den Kern der Linguistik als Brückenfach zwischen Natur- und Geisteswissenschaften dar. In diesem Bereich der Biolinguistik, die an vielen Stellen über den Tellerrand in die Anthropologie spickt, danke ich Simon Kasper für anregende Gespräche oder einfach nackte Kritik, die mich stets zum Weiterforschen und möglichst breitem Lesen angeregt haben. Alle größeren Kapitel dieses Buchs enden mit einer Zusammenfassung – etwas, das ich mir auch selbst oft gewünscht hätte. Wer sich die theoretischen Ausschweifungen, die mathematischen Formeln und die Datenflut der Analyse sparen möchte, sei auf jene Kapitel verwiesen. Für textliche Korrekturen, inhaltliche oder formatbezogene Hinweise und andere hilfreiche Perspektiven danke ich Brigitte Ganswindt, Angie Hoffmeister, Bettina Kehrein, Jens Lanwer, Juliane Limper, Salome Lipfert, Hanni Th. Schnell, Lisa Smit, Lars Vorberger, Jan Wagner und Katharina Wohlleben. Ich bin sehr stolz auf das, was ich hier geschafft habe. Ich denke, das ist keine Überheblichkeit, sondern ein Gefühl, das ich jeder Person, die ein solches Projekt hinter sich hat, wünsche und auf den Weg geben möchte.
INHALTSVERZEICHNIS 1. EINLEITUNG ........................................................................................... 11 2. PROSODIE ................................................................................................ 16 2.1 Phonetik der Prosodie ......................................................................... 21 2.2 Phonologie der Prosodie ..................................................................... 32 2.2.1 Prosodische Struktur und prosodische Domänen ...................... 37 2.2.2 Die lexikalische Ebene ............................................................... 46 2.2.3 Die Äußerungsebene .................................................................. 49 2.2.3.1 Hervorhebung und Informationsstruktur ....................... 49 2.2.3.2 Linguistisch vs. paralinguistisch .................................... 53 2.2.4 Die Beschreibung von Intonationsmustern in verschiedenen Modellen .................................................................................... 58 2.2.4.1 Britische Schule: Tone-Groups ...................................... 59 2.2.4.2 AM-Phonologie und Tonsequenzmodell: Intonationsphrasen ......................................................... 63 2.2.4.3 Konversationsanalyse: Turnkonstruktionseinheiten und Basic Discourse Units ............................................. 70 2.2.4.4 Alternativmodelle........................................................... 73 2.2.5 Zugriff über kurze Äußerungen: regulative Intonationsmuster ...................................................... 78 2.2.5.1 Prosodieforschung anhand von Partikeln, Interjektionen und Ein-Wort-Äußerungen ............................................ 78 2.2.5.2 Formen und Funktionen von hm (EHLICH 1979) ........... 83 2.2.5.3 Bausteine der Intonation (SCHMIDT 2001) ..................... 85 2.3 Universalien der Prosodie ................................................................... 89 2.3.1 Prosodische Universalien bei Diskurspartikeln ......................... 90 2.3.2 Weitere universelle Strukturen und Funktionen der Prosodie ... 94 3. MODERNE REGIONALSPRACHENFORSCHUNG ........................... 104 3.1 Klassische Dialektologie: Dialekteinteilungen ................................. 104 3.2 Sprachdynamik und regionalsprachliche Spektren ........................... 108 3.3 Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung............................................................................. 114 4. EIGENE EMPIRISCHE UNTERSUCHUNG......................................... 122 4.1 Ziele, Forschungsfragen und Hypothesen ......................................... 122 4.2 Anlage der Untersuchung: ein neuer methodischer Zugriff.............. 125
8
Inhaltsverzeichnis
4.2.1 Vordefinierte funktionale Einheiten ....................................... 125 4.2.2 Kommunikations- und interaktionstheoretische Modellierung ............................................................................ 126 4.2.3 Perzeptionstest: relevante prosodische Merkmale .................. 132 4.2.4 Der VokalJäger 2.0: Prosody Enhanced Algorithmic Toolbox (VJ.PEAT) .................................................................... 138 4.2.4.1 Messphonetik ............................................................... 141 4.2.4.1.1 Sweeping ....................................................... 143 4.2.4.1.2 Smoothing: die Diskrete Cosinus Transfomation (DCT) ................................... 144 4.2.4.1.3 Best Fit .......................................................... 149 4.2.4.2 Klassifikationsphonetik................................................ 151 4.2.4.2.1 Machine Learning und Binärklassifikation ........................................ 151 4.2.4.2.2 Trainingssequenzen ....................................... 154 4.3 Anwendung auf regionalsprachliche Daten ...................................... 168 5. ANALYSE: REGULATIVE INTONATIONSMUSTER IN REGIONALSPRACHEN DES DEUTSCHEN ....................................... 177 5.1 Ausführliche Analyse – Oberdeutsch: Ohlsbach .............................. 177 5.1.1 Dialektologische Einordnung................................................... 177 5.1.2 Analyse .................................................................................... 182 5.1.2.1 Übersicht ...................................................................... 182 5.1.2.1.1 Phonetische Befunde ..................................... 182 5.1.2.1.2 Strukturelle und segmentelle Befunde .......... 190 5.1.2.2 Einzelanalysen ............................................................. 196 5.1.2.2.1 REAKT........................................................... 197 5.1.2.2.2 TURN............................................................. 218 5.1.2.2.3 QUIT ............................................................. 229 5.1.2.2.4 POS ............................................................... 247 5.1.3 Zusammenfassung für Ohlsbach und Revision der funktionalen Variablen ............................................................. 254 5.2 Kontrastanalyse – Mitteldeutsch: Dresden........................................ 259 5.2.1 Dialektologische Einordnung................................................... 259 5.2.2 Analyse .................................................................................... 264 5.2.2.1 Phonetische Befunde .................................................... 264 5.2.2.2 Strukturelle und segmentelle Befunde ......................... 271 5.2.3 Zusammenfassung der Ergebnisse für Dresden ...................... 277 5.3 Westdeutsch: Bergisch-Gladbach ..................................................... 279
Inhaltsverzeichnis
5.3.1 Dialektologische Einordnung................................................... 279 5.3.2 Analyse .................................................................................... 285 5.2.2.1 Phonetische Befunde .................................................... 285 5.3.2.2 Strukturelle und segmentelle Befunde ......................... 291 5.3.3 Zusammenfassung der Ergebnisse für Bergisch-Gladbach ..... 294 5.4 Niederdeutsch: Oldenburg ................................................................ 296 5.4.1 Dialektologische Einordnung................................................... 296 5.4.2 Analyse .................................................................................... 302 5.4.2.1 Phonetische Befunde .................................................... 302 5.4.2.2 Strukturelle und segmentelle Befunde ......................... 307 5.4.3 Zusammenfassung der Ergebnisse für Oldenburg ................... 310 5.5 Einzelanalysen aus den Orten Dresden, Bergisch-Gladbach und Oldenburg ......................................................................................... 312 5.5.1 REAKT ..................................................................................... 312 5.5.2 TURN ....................................................................................... 323 5.5.3 QUIT ........................................................................................ 328 5.5.4 POS .......................................................................................... 341 6. ZUSAMMENFASSUNG DER EMPIRISCHEN ERGEBNISSE .......... 347 7. THEORETISCHE EINORDNUNG DER BEFUNDE............................ 357 7.1 Sprachliche Universalien und Sprachevolution: phylogenetische Aspekte .................................................................. 357 7.1.1 Sprache und Kommunikation .................................................. 360 7.1.2 Grundlegende Unterscheidungen in Sprachevolutionstheorien ......................................................... 362 7.1.3 Protosprache ............................................................................. 365 7.1.3.1 Lexikalische Protosprache (Ein-Wort-Äußerungen) ... 368 7.1.3.2 Interjektionsbasierte Protosprache ............................... 370 7.1.3.3 Prosodische Protosprache ............................................ 373 7.1.4 Soziale Motivation für den adaptiven Ausbau kommunikativer Fähigkeiten ................................................... 381 7.2 Sprachliche Universalien und Spracherwerb: ontogenetische Aspekte .................................................................... 388 7.3 Zusammenfassung: zur Genese regulativer Intonationsmuster......... 392 8. FAZIT UND AUSBLICK ....................................................................... 396 LITERATURVERZEICHNIS ..................................................................... 397 ANHANG .................................................................................................... 421
9
1. EINLEITUNG There are many methodological boxes to be opened, rethought and re-examined with care and new insight. And there are many wide-open domains for the study of prosody and its applications […]. The future of prosody? It’s about time. (GIBBON 2018: 8)
Die Untersuchung prosodischer Phänomene in Form und Funktion erlebt in der Linguistik seit den letzten fünf Jahrzenten eine neue Blütezeit. Problematisch erscheinen die Beschreibungen funktionaler Einheiten aber, wenn die relevanten akustischen und auditiven Parameter vernachlässigt werden oder die Abgrenzung der angesetzten prosodischen Einheiten gleichsam auf denjenigen prosodischen Parametern beruht, die es zu untersuchen gilt. Dieses Zirkularitätsproblem beschreibt bereits CRUTTENDEN (1997) und es ist ein methodologisches, das sich neben anderen gleichzeitig auf die Fortschritte in der Prosodieforschung im einzelsprachlichen und sprachübergreifenden Rahmen auswirkt. Das Fazit des oben aus einem Keynote-Beitrag zur internationalen Tagung „Speech Prosody“ zitierten Plädoyers von GIBBON (2018) für ein Einschlagen neuer methodischer Wege oder zumindest ein kritisches Reflektieren der alten bei der Erforschung von Prosodie in Form, Funktion und Anwendung ist hier erneut zu unterstreichen: Es ist Zeit!1 Besonders zeigt sich das in der Prosodieforschung zu den Regionalsprachen des Deutschen, denn hier ist der Forschungsstand selbst eines der zentralen Probleme. SCHMIDT et al. (2019: 33–34) stellen so zum aktuellen Stand der Dinge fest: „Während die segmentelle Phonetik und Phonologie der am besten und erfolgreichsten bearbeitete Forschungsgegenstand der deutschen Regionalsprachenforschung ist, gilt für die regionalsprachliche Prosodieforschung das Gegenteil.“ Auch PETERS (2019: 672–673), der zwar erhebliche Fortschritte im Kenntnisstand zur regionalsprachlichen Prosodie vor allem in den letzten Jahrzehnten konstatiert, räumt ein, dass dieser Kenntnisstand immer noch „sehr lückenhaft“ ist und entsprechenden Desideraten nachzukommen ist. Um prosodische Forschung im Rahmen von regionalen Varietäten und Sprechlagen angehen zu können, fehlen im Vergleich etwa zu segmentalphonologischen Ansätzen der Variationslinguistik valide abstrakte Konzepte und entsprechende Möglichkeiten, regionale Prosodie der Forschung überhaupt zugänglich zu machen (vgl. PETERS 2006a: 9). Diese Unzugänglichkeit hatte schon früh zur Folge, dass
1
Bei der Lektüre des Artikels wird klar, dass die Ambiguität des englischen Satzes it’s about time eine von GIBBON (2018) intendiert gewählte ist. Sie zielt einerseits auf die Dringlichkeit neuer Forschungswege und andererseits auf den Einbezug verschiedener, zeitlich begrenzter Äußerungsabschnitte bei der Untersuchung von Prosodie in gesprochener Sprache ab. Solche zeitlichen, regeldominierten strukturellen Einheiten bespreche ich unter dem Terminus prosodische Domänen in Kapitel 2.2.1.
12
Einleitung
etwa im Zuge der lautgeographischen (Sprach-)Raumbildungen der klassischen Dialektologie oder der Erstellung von vergleichenden Dialektgrammatiken im „Deutschen Sprachatlas“ intonatorische und/oder prosodische Betrachtungen bei Autor*innen trotz des oft proklamierten Status als Alleinstellungsmerkmal mancher Varietäten (wie etwa die Tonakzentdistinktion im Mittelfränkischen) und der intuitiv wichtigen Rolle der Sprechmelodie für Dialektsprecher*innen und -hörer*innen bei der Verortung bis auf wenige Fälle unberücksichtigt blieben (vgl. PETERS 2006a: 7).2 Um dieser Forschungslücke entgegenzutreten, wurden viele Versuche unternommen, deskriptive Intonationsgrammatiken für Regionalsprachen oder einzelne Varietäten anzusetzen. Hierbei wurde oftmals die Variation in der phonetischen Realisierung von Intonationsmustern vermeintlich phonologisch-systemischen Unterschieden zugeschrieben, oder die funktionale Ebene wurde komplett ausgeblendet. Solche Defizite sind unter anderem darauf zurückzuführen, dass von der Form von etwa Intonationsmustern beliebiger Ausdehnung auf die Funktion geschlossen wird, wobei der Ansatz in genau umgekehrter Reihenfolge erfolgen müsste. Oder aber es wird von mittlerweile überholten Annahmen der Funktionen von Prosodie wie etwa der Determination syntaktischer Konzepte wie dem Satzmodus als Variable ausgegangen.3 Dieser Punkt führt zur Kernproblematik in der Prosodieforschung – und zwar nicht nur im regionalsprachlichen Kontext: Wenn über die Funktionen von Prosodie und letztlich von konkreten prosodischen Einheiten (vornehmlich der Äußerungsebene, vgl. Kapitel 2) nur wenig bekannt ist, wie soll dann eine vergleichende areale Prosodieforschung möglich sein? Ein bis dato neuer Zugang zu prosodischen Fragestellungen wurde von SCHMIDT (2001) in Anlehnung an die Analysen von EHLICH (1979, 1986) zu „kurzen“ Äußerungen wie Partikeln und Interjektionen im Projekt „Bausteine der Intonation“ (vgl. Kapitel 2.2.5.3) gewählt: Anhand isolierter Diskurspartikeln wie hm und äh, bei denen das potenziell zirkuläre Problem der Abgrenzung gar nicht erst auftritt, wurde in laborsprachlichen Experimenten für das standardnahe Deutsch ein Inventar von sieben potenziellen Prototypen auf einzelnen Silben basierender Intonationsmuster mit diskreten Form-Funktionszuordnungen erstellt. In einer Anschlussstudie von PISTOR (2017) konnten mit diesen Formprototypen als Vergleichsbasis vier Kategorien von Intonationsmustern auf ebensolchen Diskurspartikeln in einer ebenso laborsprachlichen Untersuchung in Sprachen aus fünf verschiedenen Sprachfamilien (Deutsch, Mandarin, Arabisch, Koreanisch und Ghomálá’, einer Sprache der Westprovinz Kameruns) sowohl in der Form als auch in ihrer Funktion als potenziell universell gekennzeichnet werden (vgl. Kapitel
2
3
Einzelortsbezogene Intonationsbeschreibungen im deutschsprachigen Raum sind jedoch im Rahmen von Ortsgrammatiken in einer großen Vielfalt bereits ab Mitte des 19. Jahrhunderts entstanden. Vgl. hierzu die ausführliche Auflistung solcher Arbeiten in PETERS (2006a und 2019). Vgl. hierzu etwa SCHÄDLICH / ERAS (1970). Die Annahme der Intonation als primär syntaktisches Phänomen tritt bereits bei BREMER (1893: 194) auf: „Der Satz-Tonfall ist ein noch nicht gebührend gewürdigter Teil der Syntax.“ Diese Annahme hat sich so fast 100 Jahre halten können.
Einleitung
13
2.3.1). Die Frage, die sich nach dieser Beobachtung stellt, ist die folgende: Benutzen Sprecher*innen verschiedener deutscher Regionalsprachen bei solchen kurzen Äußerungen dieselben Intonationsmuster, wie Sprecher*innen des Mandarin, des Arabischen, des Koreanischen und von Ghomálá’? Wenn ja, gilt das auch in den „tiefsten“ deutschen Dialekten, die nach dialektologischen Angaben besonders weit vom Standard entfernt sind? Wie lassen sich typologische und variationslinguistische Forschungen in einem zeitgenössischen Ansatz miteinander verbinden und inwiefern können diese beiden Traditionen dabei voneinander profitieren? Gegenstand der vorliegenden Untersuchung ist ein horizontaler und vertikaler Vergleich regulativer Intonationsmuster4 in Form und Funktion im variativen Spektrum deutscher Regionalsprachen. Die standardferne Varietät Dialekt ist hierbei besonders interessant, da in den standardnäheren Varietäten und Sprechlagen auch in der Prosodie im Vergleich hierzu weniger Variation zu erwarten ist (vgl. Kapitel 4.1). Über die im Fokus der Studie stehenden regulativen Intonationsmuster in deutschen Regionalsprachen ist bisher kaum etwas bekannt, da solche Äußerungseinheiten in Untersuchungen zur regionalsprachlichen Prosodie bislang nicht untersucht und in der Regel zugunsten größerer Äußerungseinheiten wie etwa der Intonationsphrase ausgeklammert wurden (vgl. Kapitel 2.2.5 und 3.3). Im Fazit des Bausteine-Projekts formuliert SCHMIDT (2001: 26–27) zwei der noch unbeantworteten Forschungsfragen wie folgt: „Inwieweit lassen sich die bei hm ermittelten Intonationsmuster auch bei anderen Diskurspartikeln, Ein-Wort-Äußerungen und schließlich vor allem bei komplexen sprachlichen Äußerungen nachweisen?“ Hierbei ist außerdem zu überprüfen, ob „Intonationsmuster bei Äußerungen unterschiedlicher Komplexität und unterschiedlicher segmentell-lexikalischer ‚Basis‘ identisch, ähnlich, unähnlich usw. sind.“ Eine Antwort auf die erste Frage kann im Zuge der vorliegenden Untersuchung gegeben werden, indem überprüft wird, auf welcher segmentellen Basis die Intonationsmuster in den zu untersuchenden Datenkorpora realisiert werden. Außerdem ist zu überprüfen, an welchen Stellen im Redefluss sich die gesuchten Äußerungen identifizieren lassen und ob sich solche verschiedenen syntagmatischen Positionen auch auf die Form oder die Funktion der Einheiten auswirken. Zu den Herausforderungen einer solchen komparativ angelegten, regionalsprachlichen Intonationsforschung gehören zum einen auf der Funktionsseite das Hinzuziehen abstrakter Bezugseinheiten (Variablen), um eine phonologische Herangehensweise zu ermöglichen. Zum anderen gehört hierzu auf der Formseite das Vermeiden subjektiver Parametrisierungen phonetischer Messungen von digital generierter Prosodie und letztlich deren Interpretation. Um diesem Desiderat nachzukommen und die hierfür durchgeführten phonetischen Messungen einer großen Datenmenge möglichst objektiv zu gestalten, wurde in Zusammenarbeit mit CARSTEN KEIL dessen Machine-Learning-Algorithmus „VokalJäger“ (KEIL 2017) eigens für die Studie auf die Untersuchung prosodischer Merkmale erweitert. Unter dem Akronym VJ.PEAT wurde die von KEIL programmierte Erweiterung hier als Instrument zur phonetischen Messung und Klassifikation genutzt. Damit lässt sich auch die Beantwortung der zweiten von SCHMIDT formulierten Frage in der vorliegenden Untersuchung angehen. 4
Zum Terminus regulative Intonationsmuster vgl. Kapitel 2.2.4.4.
14
Einleitung
Angesiedelt ist die Untersuchung im seit 2008 von der Akademie der Wissenschaften und der Literatur (Mainz) geförderten Langzeitprojekt „Regionalsprache.de“ (REDE). Sie gliedert sich in das dort formulierte Teilziel zwei ein: die Analyse der variationslinguistischen Struktur und Dynamik der modernen Regionalsprachen des Deutschen.5 Nach Abschluss der segmentell-phonologischen Analysen werden im Projektrahmen auch die prosodischen Strukturen der erstmals vollständig erhobenen modernen Regionalsprachen des Deutschen analysiert. Die Studie liefert mit der Analyse regionalsprachlicher prosodischer Einheiten nicht nur für das Projekt wertvolle Erkenntnisse, sondern setzt sich außerdem zum Ziel, bei den regulativen Intonationsmustern zu klären, „wie die intonatorische Primärfunktion zusammen mit der lexikalisch-segmentellen, der syntaktisch-formalen und der kontextuellen Information eine komplexe Äußerungsbedeutung ergibt“ (SCHMIDT 2001: 27). Das vorliegende Buch ist in jeweils zwei theoretische und empirische Teile gegliedert. Im ersten theoretischen Teil erläutere ich in Kapitel 2 phonetische und phonologische Grundlagen der Prosodie, skizziere traditionelle und rezente Beschreibungsmodelle zur Intonation sowie die kurzen Äußerungen der Partikeln, Interjektionen und Ein-Wort-Äußerungen, die als segmentelle Basis der zu untersuchenden Intonationsmuster dienen. Zum Ende des Kapitels gebe ich einen Überblick über Vorgängerstudien und deren Ergebnisse zur Erforschung von Universalien in der Prosodie. In Kapitel 3 beleuchte ich die Prinzipien der klassischen Dialektologie und der modernen Regionalsprachenforschung und gebe des Weiteren einen Überblick über bisherige Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung. Kapitel 4 dient daraufhin als Übergang zwischen Theorie und Empirie: Im ersten Teil des Kapitels formuliere ich die Ziele, die konkreten Forschungsfragen und daran anschließende Hypothesen, die die Untersuchung begleiten. Im zweiten Teil definiere ich zunächst die oben geforderten Variablen und die vier verschiedenen syntagmatischen Positionen, in denen sie konversationsanalytisch analysiert werden können. Anschließend schildere ich den hier gewählten, neuen methodischen Zugriff über den Machine-Learning-Algorithmus VJ.PEAT. Ich beschreibe in diesem Teil den Aufbau des Algorithmus und wie auf der Grundlage von Perzeptionsdaten und aufwendigen Trainingssequenzen in unterschiedlichen Korpora ein statistisch robustes Tool für die Messung und Klassifikation prosodischer Merkmale in spontansprachlichen Gesprächen aus unterschiedlichen Regionalsprachen des Deutschen entsteht. Der zweite empirische und Hauptteil des Buches ist den quantitativen und qualitativen Korpusanalysen freier Gespräche aus den REDE-Erhebungen gewidmet. Analysiert werden Freundesgespräche aus dem Niederalemannischen (Ohlsbach), dem Obersächsischen (Dresden) sowie dem Ripuarischen (Bergisch-Gladbach) und dem Nordniederdeutschen (Oldenburg). Die Analyse erfolgt multimethodisch über den Einbezug von Daten aus Perzeptionsexperimenten, der Anwendung des Algorithmus zu phonetischen Messungen und Klassifikationen sowie klassischem konversationsanalytischem Vorgehen. Die Ergebnisse werden dabei stets in Relation 5
Zu den Zielen und der Struktur des Projekts vgl. GANSWINDT / KEHREIN / LAMELI (2015) und ; Stand: 01.07.2022.
Einleitung
15
zu den Erwartungen aus vorangegangenen Studien zur jeweiligen Region gesetzt. Der zweite theoretische und abschließende Teil des Buches dient der Einordnung der Befunde in Modelle zur phylogenetischen und ontogenetischen Sprachentwicklung. Dieser Abschnitt bietet einen theoriebasierten Vorschlag zur Genese der im Zuge der Analysen herausgestellten universellen regulativen Intonationsmuster.
2. PROSODIE Den Untersuchungsgegenstand klar zu definieren ist wohl eine der wichtigsten Aufgaben zu Beginn jeder textlichen Gestaltung, sei sie schriftlich oder mündlich. Der in dieser Studie fokussierte Gegenstand Prosodie birgt dabei die ersten Hürden bereits in sich selbst: Kaum ein anderes sprachliches Phänomen erfuhr in den mindestens 140 Jahren seiner Forschungsgeschichte eine vergleichbare Vielfalt an Definientia, die nicht zuletzt einer ebenso großen Vielfalt an Definienda geschuldet ist. So ändert sich etwa die Terminologie in Abhängigkeit davon, welche sprachlichen Phänomene zur Prosodie gezählt werden und ob diese akustisch oder auditiv analysiert werden. Das liegt unter anderem auch an der zu verschiedenen Forschungsepochen unterschiedlichen Zugänglichkeit von Technik oder davon abhängigen Messwerkzeugen (vgl. GILLES 2005: 4). Die oberbegrifflichen Termini, die die zu untersuchenden Phänomene vereinen und in der Forschungsliteratur weitgehend synonym konkurrieren, sind Prosodie, Suprasegmentalia und Intonation. Die Phänomene, die den drei Termini unterstellt sind und die es zu beschreiben gilt, sind nach einer Definition VON ESSENS (1981: 46) „den Lauten eines Wortes ‚hinzugesungene‘ Kennzeichen (griech. Pros-o̅de̅ – ‚Hinzugesungenes‘).“ Diese Kennzeichen, die bei VON ESSEN unter dem Kapitelstichwort „prosodische Merkmale“ gelistet sind, heißen Akzent, Quantität, Lautdauer und tonale Gestaltung (vgl. VON ESSEN 1981: 46–50). Hier werden bereits erste Schwierigkeiten deutlich, die ich an einem ausgewählten Beispiel verdeutlichen möchte: Als Quantität wird das von CHOMSKY / HALLE (1968) eingeführte phonologisch distinktive, also intellektuell bedeutungsunterscheidende Merkmal [± lang] eines Lautes bezeichnet. Man bezeichnet Sprachen als quantitätssensitiv, wenn sie einen phonologischen Kontrast zwischen langen und kurzen Segmenten aufweisen (vgl. HALL 2000: 249). Über diesen phonologischen Kontrast lassen sich Minimalpaare bilden, also etwa Wortpaare als Lautketten, die sich in nur einem lautlichen Merkmal voneinander unterscheiden, wie etwa in /ʃtaːl/ vs. /ʃtal/. Der distinktive Unterschied in diesem Minimalpaar beruht (als einer von zwei Vokalen im Deutschen) allein auf der länger wahrnehmbaren Lautdauer des Vokals /a/ im ersten Lexem gegenüber der Lautdauer desselben Vokals im zweiten. Bei Quantität handelt es sich also um eine phonologische Einheit, die auf einem wahrnehmbaren phonologischen Merkmal beruht. VON ESSEN beschreibt die Termini korrekt, der Auflistung beider Begriffe unter der Kategorie prosodische Merkmale fehlt aber die klare Differenzierung zwischen wahrnehmbaren Merkmalen, die ihrerseits wiederum auf messbaren physikalischen Merkmalen beruhen und linguistischen Größen. Ein weiterer Punkt aus VON ESSENS (1981) Definition, der vor allem im Rahmen des Strukturalismus lange Zeit gegenstandsprägend war, ist der des „Hinzugesungenen“. Hier wird deutlich, dass die zu beschreibenden Phänomene „zwar von
Prosodie
17
den Lauten getragen, […] aber nicht Eigenschaften der Laute“ selbst sind (VON ESSEN 1981: 46). Im Strukturalismus werden Laute als Segmente bezeichnet, und ihre Eigenschaften entsprechend als segmentale Eigenschaften. Da nun einige Eigenschaften, wie etwa die oben beispielhaft beschriebene Lautdauer, keine inhärenten Merkmale der Laute selbst sind, sondern nur von ihnen getragen werden, dominierte der Terminus Suprasegmentalia synonym zu Prosodie für ebensolche Merkmale vor allem in den siebziger und achtziger Jahren (vgl. u. a. LEHISTE 1970 und SCHMIDT 1986). Als Suprasegmentalia werden aus zeitgenössischer Perspektive phonetisch-phonologische Phänomene bezeichnet, die über das Lautsegment hinausgehen und somit Domänen bilden, die größer sind als einzelne Segmente,6 zu denen etwa auch die Silbe gezählt wird (vgl. HALL 2000: 29, ALTER 2002: 148 und WIESE 2011: 76). Handelt es sich bei Suprasegmentalia nun um Lauten hinzugetönte Eigenschaften oder strukturelle Beschreibungsbereiche, die potenziell mehrere Laute zu Einheiten zusammenfassen? Nach GUSSENHOVEN (2004: 12) stellt der Terminus Suprasegmentalia klar einen Oberbegriff für strukturelle Beschreibungsbereiche der Phonologie dar, zu deren Aspekten Akzent, Ton und Intonation zählen. Der Begriff ist dennoch vor allem unter der Tradition autosegmentaler Beschreibungsmodelle (vgl. unten, Kapitel 2.2.4.2) weiterer Ambiguität ausgesetzt, da in diesen Beschreibungen Töne, spezifiziert als phonetische Zielpunkte, in einer linearen Darstellung selbst als Segmente und somit nicht mehr über dem Segment fungieren (vgl. KEHREIN 2002: 5 sowie PETERS 2014: 4 und 25). Ich werte den Terminus Suprasegmentalia aufgrund seiner Ambiguität als für den hier gewählten Untersuchungsgegenstand als nicht verfolgenswert.7 Ein ebenso weit gefasster, zur Prosodie synonym verwendeter Begriff ist der der Intonation im weiteren Sinne. Dieser umfasst in einer Darstellung von PETERS (2014: 4) neben den wahrnehmbaren Tonhöheneigenschaften einer Äußerung auch andere kommunikativ relevante Eigenschaften wie die „der Dauer und der Lautheit, aus deren Zusammenwirken komplexe Phänomene resultieren, die traditionell als Betonung, Akzent und Rhythmus bezeichnet werden.“ Dies entspricht in vielen Teilen der hier verfolgten Definition von Prosodie. Intonation als Überbegriff für kommunikativ relevanten Phänomene zu nutzen, von denen Intonation selbst bereits eins der Phänomene ist, halte ich (wie PETERS 2014) aber für zirkulär. Intonation im engeren Sinne dagegen ist als ein Bereich phonologischer Einheiten der Prosodie zu sehen. SCHMIDT (2001: 9) definiert Intonation als „die vornehmlich auf der Tonhöhenperzeption beruhenden prosodischen Einheiten […], die klar separierbare Äußerungsabschnitte […] oder in sich abgeschlossene Ein- oder Mehrwortäußerungen durch eine ganzheitliche Kontur integrieren.“ Ich schließe mich dieser Definition an, integriere den zeitlichen Faktor und definiere Intonation als die wahrnehmbaren und nur dadurch relevanten Tonhöhenveränderungen über die Zeit einer
6 7
In Kapitel 2.2.1 wird sich zeigen, dass dies nicht immer zutrifft. Eine Diskussion mit historischem Überblick zu den Termini Suprasegmentalia und Prosodie in der europäischen und amerikanischen Forschungsgeschichte bietet LADD (2014: 57–83).
18
Prosodie
Äußerung.8 Intonation ist somit als Teil der Prosodie einer Sprache anzusehen, was Prosodie als den geeigneten Überbegriff für die hier untersuchten Phänomene darstellt, zu dem ich im Folgenden zurückkomme. Einen für seine Zeit sehr modernen Begriff von dem, was im zeitgenössischen Sinne unter Prosodie als übergeordnetem Terminus verstanden wird, beweist in der germanistischen Tradition sehr früh bereits SIEVERS (1976 [1901]: 215). Hier werden auch der oben beschriebene Begriff Intonation und die in den nachfolgenden Kapiteln kommenden Begriffe Domänen, bzw. hierarchische Struktur, Rhythmus, Intensität, Dauer und Tonhöhe in sich vereint: Damit eine Reihe von Lauten als Silbe, eine Reihe von Silben als Wort […], eine Reihe von Wörtern […] als Satz empfunden werde, ist es notwendig, dass die Glieder der einzelnen Reihe einerseits durch ein gemeinsames rhythmisch-melodisches Band zusammengehalten werden, andererseits in einem bestimmten Ueber- und Unterordnungsverhältniss zu einander stehen. Diesen Bedingungen wird genügt durch die planmässige Abstufung der einzelnen Glieder nach Stärke und Dauer einer- und nach der Tonhöhe andererseits.
Diese Beschreibungen finden sich bei SIEVERS allerdings unter den Stichworten „Accent und Quantität“, während er den Terminus Prosodie (aus dem Griechischen προσῳδία, Prosodia) in dieser Definition als „aus der Accentlehre ganz ausgeschieden“ markiert (SIEVERS 1976 [1901]: 216). Aus der inhaltlichen Perspektive unterscheidet sich diese Definition aber nur wenig im Vergleich zu moderneren, etwa aus sprachwissenschaftlichen Lexika: Die neben den segmentalen Eigenschaften bzw. diese übergreifend überlagernden […] sprachlichen Lauteigenschaften wie Akzent, Intonation, Pausen. (GLÜCK / RÖDEL 2016: 542) Gesamtheit spezifischer sprachlicher Eigenschaften wie Akzent, Intonation, Quantität, (Sprech-)Pausen. Prosodie bezieht sich im Allgemeinen auf Einheiten, die größer sind als ein einzelnes Phonem. Zur Prosodie zählt auch die Untersuchung von Sprechtempo und Sprechrhythmus. (BUSSMANN 2002: 542)
Aus der ersten Definition aus dem „Metzler Lexikon Sprache“ sowie aus der zweiten aus HADUMOD BUSSMANNS Lexikon der Sprachwissenschaft ist herauszulesen, dass Intonation, wie oben dargestellt, als Teilmenge der Prosodie zu sehen ist. Zudem lassen sich aus den Definitionen vier generelle Aussagen über Prosodie ableiten. Die in beiden Definitionen auftretenden Zuordnungen sprachlicher (Laut-)Eigenschaften lassen die Aussage zu, dass 1. Prosodie selbst ein sprachliches Signalisierungssystem ist. Intonation als Teil der Prosodie ist ebenso Teil der Grammatik einer Sprache. Dies lässt sich – ganz banal – dadurch belegen, dass etwa für das Deutsche die Intonation als Regelwerk im Grammatikteil des „Duden“ (vgl. PETERS 2009: 102–128) kodifiziert ist. Prosodie interagiert als Teil der Grammatik einer 8
Dies entspricht in etwa dem, was laienhaft unter Sprechmelodie verstanden wird. Ich meide den Terminus, weil er meines Erachtens eine ungewollt große Parallele zur musikwissenschaftlichen Terminologie herstellt. Es existiert zwar eine Vielzahl an parallelen Phänomenen in der Musik und in der Sprache (vgl., Kapitel 7), die funktionale Interpretation der „Melodie“ gesprochener Sprache und musikalischen Interpretationen ist aber in vielen Aspekten eine grundsätzlich andere.
Prosodie
19
Sprache sowohl mit allen Ebenen der Verbalsprache, wie etwa der Lexik, der Morphologie und der Syntax (vgl. SELKIRK 1984, WIESE 1996, NESPOR / VOGEL 2007 und FÉRY 2017), als auch mit Bereichen der nonverbalen Kommunikation, wie etwa der Mimik, der Gestik und der Proxemik. Aus demselben Auftauchen der (Laut-) Eigenschaften in den Definitionen lässt sich ableiten, dass 2. Prosodie ein genuin sprechsprachliches Phänomen9 ist. Die gesprochene Sprache ist neben Gestik und Mimik als Kommunikationsmittel phylogenetisch und ontogenetisch primär und von der gesprochenen Sprache wird bereits vor der Geburt die Prosodie als erstes erworben (vgl. LENNEBERG 1977: 340, KARMILOFF / KARMILOFF-SMITH 2002: 2, KAUSCHKE 2012: 23 und Kapitel 7.2). Aus den Charakteristika lautübergreifend diese überlagernd, in der zweiten Definition durch „größer als ein einzelnes Phonem“ beschrieben, lässt sich (rückblickend auf den Terminus suprasegmental) formulieren, dass 3. Einheiten aus Bereichen der Prosodie sich über mehr als ein lautliches Element erstrecken und die Realisierung der Einheit gleichzeitig mit der des lautlichen Segments geschieht. Eines der Merkmale des sprachlichen Zeichens nach FERDINAND DE SAUSSURE (2001 [1916]) ist die Linearität, also die zeitliche Abfolge nacheinander. Einheiten der Prosodie scheinen dabei die Ausnahme zu sein: Sie erscheinen im sprachlichen Signal simultan, statt linear. In den oben gegebenen Definitionen sind die Termini Akzent, Intonation und Quantität einmal unter dem Oberbegriff Eigenschaften und einmal unter dem Oberbegriff Einheiten gelistet. Ich werde in den folgenden Kapiteln eingehend darstellen, dass eine Differenzierung zwischen Einheiten und Eigenschaften (bzw. Merkmalen) für eine klare terminologische und methodologische Unterscheidung unabdingbar ist. Zunächst lässt sich hieraus aber ableiten, dass für die Prosodie bestimmte linguistische Einheiten angenommen werden, denen, da sie, wie gezeigt, nur auf der lautlichen Ebene der Sprache zu finden sind, auch eine phonologische Funktionsseite zugeschrieben wird, die auf einer phonetischen Formseite beruht. Die SAUSSURE’sche (2001 [1916]) Bilateralität von sprachlichen Zeichen ist demnach auch für Einheiten der Prosodie gegeben. Die Schlussfolgerung lautet also, dass 4. Prosodie eine phonetische und phonologische Beschreibungsdimension hat. Die untrennbaren und dennoch differenziert voneinander zu betrachtenden Bereiche der Phonetik und der Phonologie der Prosodie stellen einen seltenen Konsens in international und interlingual ausgelegten Untersuchungen und Lehrwerken zur Prosodie dar (vgl. u. a. SCHMIDT 1986, KEHREIN 2002, GILLES 2005, PETERS 2006a, 2014, WERTH 2011, LEEMANN 2012, SIEBENHAAR 2015 und FÉRY 2017). In dem hier verwendeten Modell, basierend auf SCHMIDT (1986) und KEHREIN (2002), werden auf der funktionalen, phonologischen Ebene prosodische Einheiten beschrieben, die sich typischerweise in den Bereichen Akzent, Intonation und Quantität fin9
Vgl. auch NEPPERT (1999: 155) und KEHREIN (2002: 5). In der Schriftsprache können Leser*innen manche Funktionen der Prosodie durch Interpunktion oder typografische Gestaltung (etwa Hervorhebungen durch Großbuchstaben) suggeriert werden. FÉRY (2006) zeigte außerdem, dass selbst auf nicht laut vorgelesener Sprache durch Leser*innen prosodische Strukturen abgebildet werden und dort etwa zur Desambiguierung ambiger Satzstrukturen, sogenannter garden-path-Sätze, genutzt werden.
20
Prosodie
den. Auf der formalen, phonetischen Seite werden hingegen diejenigen prosodischen Merkmale beschrieben, die die prosodischen Einheiten konstituieren. Hierbei besteht eine besondere Wichtigkeit in der Differenzierung von auditiven und akustischen prosodischen Merkmalen, die allesamt auf artikulatorischen Faktoren beruhen und untereinander in komplexen Zusammenhängen stehen können. Ich werde diesen Aspekten in den folgenden Teilkapiteln 2.1 und 2.2 Rechnung tragen. Eine weitere, häufig vorgenommene Einteilung sieht die getrennte Betrachtung linguistischer und paralinguistischer (an mancher Stelle dazu noch extralinguistischer) Prosodie vor (vgl. u. a. CRUTTENDEN 1997, NEPPERT 1999, GUSSENHOVEN 2004, CHEN 2005, LADD 2008, 2014, LEEMANN 2012, FÉRY 2017 und SENDLMEIER 2018). Da diese Einteilung auf funktionalen Aspekten der Prosodie beruht, komme ich darauf in Kapitel 2.2.3.2 zurück. Sprechtempo und Rhythmus sind in den Definitionen die letzten zu erklärenden Begriffe. ALTER (2002: 154) definiert Rhythmus als eine „perzeptive Regularität, mit der prominente (hervorgehobene) Einheiten beim Sprechen wahrgenommen werden.“ Nach WIESE (1996: 306) handelt es sich bei Rhythmus um das Ergebnis alternierender Betonungsmuster stark und schwach betonter Silben. Eine aktuelle neurokognitive Perspektive auf die Verarbeitung von Rhythmus im Deutschen und Englischen bietet HENRICH (2015). Unter Sprechgeschwindigkeit wird das Tempo der Artikulationsrate über bestimmte abgegrenzte Einheiten verstanden. Da hier artikulatorische Bewegungsabläufe die Basis des Phänomens darstellen, lässt sich für dieses „nur ein relationales Maß der Form Silben pro Zeiteinheit“ ansetzen (POMPINO-MARSCHALL 2009: 250). In der Regel wird die Sprechgeschwindigkeit somit in realisierten Silben pro Sekunde gemessen, zuweilen werden aber auch einzelne lexikalische Einheiten als Referenzeinheit angesetzt. Aktuelle Forschung im Bereich der Variation von Sprechgeschwindigkeit im deutschsprachigen und englischsprachigen Raum findet sich in HAHN / SIEBENHAAR (2016) und LEEMANN (2016). Die Phänomene sind beide silbenbasiert, spielen aber auf größeren Domänen (vgl. unten, Kapitel 2.2) als der Silbe eine kommunikative Rolle. Sowohl Rhythmus als auch Sprechgeschwindigkeit sind Resultate aus dem Zusammenspiel verschiedener prosodischer Merkmale, die, gerade bei der Sprechgeschwindigkeit in hohem Maße, auf artikulatorische Vorgänge zurückzuführen sind. Sie konstituieren somit keine eigenen prosodischen Merkmale und werden in der folgenden Arbeitsdefinition daher als resultierende Phänomene (oder mit KEHREINS 2002: 5 Terminus der „Epiphänomene“) behandelt.10 Zusammenfassend verwende ich in dieser Arbeit Prosodie als explizit inkludierenden Begriff, der sowohl die relevante artikulatorische, akustische und auditive Phonetik, die daraus resultierende Phonologie und die auf ihr basierenden Strukturen bezeichnet. Ich orientiere mich stark an der an den Grundlagen SCHMIDTS (1986) und dem Modell in MÖBIUS (1993) angelehnten Definition KEHREINS (2002: 10 Da beide Phänomene zwar zum Bereich der Prosodie gehören, bei den hier untersuchten Einheiten der Intonation aber keine Rolle spielen, werde ich nicht tiefgreifender auf sie eingehen. Die anderen, sowohl in den Definitionen der Lexika als auch in meiner Arbeitsdefinition auftauchenden Begriffe, die eine zentrale Rolle spielen, werden in den folgenden Teilkapiteln ausführlicher erläutert.
Prosodie
21
5) und definiere Prosodie als diejenigen Merkmale der Stimme, die eine Sprechhandlung begleiten: Tonhöhe, Dauer, Lautstärke, Stimmqualität und daraus resultierende Phänomene wie Akzentuierung, Intonation, Sprechgeschwindigkeit, Rhythmus, Phrasierung und Pausen konstituieren zusammen das prosodische System einer Sprache.11
2.1 PHONETIK DER PROSODIE In dem hier verwendeten Modell werden auf der phonetischen Seite der Prosodie prosodische Merkmale beschrieben. Die für die vorliegende Untersuchung relevanten, auditiv wahrnehmbaren Merkmale sind der Tonhöhenverlauf, das Tonhöhenregister und die Dauer. Ich werde in diesem Kapitel die Zusammenhänge zwischen diesen wahrnehmbaren, auditiven Merkmalen und den ihnen zugrundeliegenden messbaren, akustischen Merkmalen und der Artikulation aufzeigen. Ich orientiere mich dabei weitestgehend an den Analysen zum Deutschen in KEHREIN (2002: 80), der prosodische Merkmale wie folgt definiert: 1. die auditiven Merkmale Dauer, Tonhöhe und Prominenz, 2. die akustischen Merkmale zeitliche Erstreckung, Grundfrequenz und Intensität und 3. die artikulatorischen Merkmale zeitliche Steuerung der Artikulationsbewegungen, Schwingungsverhalten der Stimmlippen, Erzeugung und Zustand des Ausatmungsluftstroms, soweit sie nicht intrinsische Eigenschaften kleinster syntagmatischer Segmente sind.
Die wahrnehmbare Lautstärke (als Teil der Prominenz) spielt, wie ich in Kapitel 4.2.3 zeigen werde, für die hier untersuchten Einheiten zwar eine diskriminative, aber keine kommunikativ relevante Rolle. Eine eingeschränkte Relevanz hat auch das auditive prosodische Merkmal Stimmqualität. Da ich in den GAT2-Transkriptionen der Analysekapitel stellenweise Lautstärkedifferenzen und qualitative Merkmale der Stimme notiert habe, werde ich die zugrundeliegende Phonetik dieser Merkmale dennoch skizzieren. Zunächst muss klargestellt werden, um welche Betrachtungsweise es sich in der Phonetik der Prosodie handelt, da eine fehlende Unterscheidung zwischen Phonetik und Phonologie zwangsläufig zu irreführenden Interpretationen prosodischer Phänomene führt. Nach KOHLER (1995a: 22) ist der Gegenstand der Phonetik „das Schallereignis der sprachlichen Kommunikation in allen seinen Aspekten, d.h. die Produktion, die Transmission und die Rezeption von Sprachschall […].“ Methodisch spielen dabei „sowohl symbol- als auch meßphonetische Betrachtungsweisen“ eine Rolle (KOHLER 1995a: 22). Symbolphonetische Betrachtungen stellen Wiedergaben des audi-
11 Im Gegensatz zu KEHREIN (2002) betrachte ich Pausen und Stimmqualität als linguistisch relevante prosodische Phänomene, da für beide gezeigt werden konnte, dass sie bei der Phrasierung eine Rolle spielen können (vgl. u. a. PETERS / KOHLER / WESENER 2005 und WELLMANN et al. 2012) und, dass Variation der Stimmqualität zumindest im Hoch- und Niederdeutschen ein regionalspezifisches prosodisches Merkmal konstituieren kann (vgl. PETERS 2018).
22
Prosodie
tiven Höreindrucks durch Symbole dar. Diese sind in der vorliegenden Untersuchung in phonetisch-interpretativen Transkriptionen der segmentellen Basis als Träger der Prosodie unter Verwendung des internationalen phonetischen Alphabets (IPA, vgl. International Phonetic Association 2007) vorgenommen worden.12 Die messphonetische Betrachtung von Prosodie erfolgt in der Regel über das Sichtbarmachen physikalischer Vorgänge durch Sprachanalyseprogramme wie etwa Praat (BOERSMA / WEENINK 2019). Messphonetische Betrachtungen, vor allem die des Grundfrequenzverlaufs über sogenannte pitch-tracker, spielen eine zentrale Rolle in der Methodologie der Studie und werden in Kapitel 4 eingehender betrachtet. Da es sich bei der Phonetik um die Untersuchung lautlicher Kommunikation handelt, müssen die oben genannten Aspekte Produktion, Transmission und Rezeption in einem mindestens dyadischen (zweiseitigen) Verhältnis zueinander stehen. Anders ausgedrückt: Ein Signal muss in einem kommunikativen Zusammenhang von Sender*innen produziert, über ein Medium übertragen und von Empfänger*innen rezipiert werden.13 TILLMANN / MANSELL (1980: 193) sprechen beim Zusammenhang der phonetischen Beschreibungsbereiche der Produktion, Transmission und Rezeption und der letztendlichen Übertragung eines sprachlichen Signals von Sprecher*in zu Hörer*in vom „signalphonetischen Band“. Einen dazu alternativen Terminus bieten DENES / PINSON (2012: 5) in ihrem Modell der „speech chain“. Eine hieran angelehnte Modellierung der relevanten Vorgänge bei Sprecher*in und Hörer*in als Sender*in und Empfänger*in zeigt Abbildung 1.
Abb. 1: Relevante Bereiche des signalphonetischen Bands in Anlehnung an TILLMANN / MANSELL (1980: 193), POMPINO-MARSCHALL (2009: 14) und DENES / PINSON (2012: 5)
12 Das in der Arbeit verwendete Format in der Transkription der Gespräche GAT2 (vgl. SELTING et al. 2009) gibt auch den auditiven Höreindruck durch Symbole wieder. Der primäre Zweck dieser Transkripte ist die Konversationsanalyse, weswegen ich hier nicht von symbolphonetischer Betrachtung im engeren Sinne spreche. 13 Dies entspricht der Modellierung von Kommunikation in vielen prominenten Ansätzen.
Phonetik der Prosodie
23
Die Produktionsphase auf der Sprecher*innenseite involviert neuronale Vorgänge, die kognitive Voraussetzungen zur Steuerung der an sämtlichen Produktionsprozessen beteiligten Muskeln sind. Des Weiteren werden hierunter die psycholinguistischen Planungsphasen der Mikro- und Makroplanung sowie der referentiellen Besetzung subsumiert (vgl. DIETRICH / GERWIEN 2017: 122).14 Die physiologischfunktionalen Vorgänge der neuronalen Muskelsteuerung setzen die Phasen der Sprachproduktion in Gang: Initiation (Erzeugung eines pulmonalen Luftstroms durch Atmung), Phonation (Stimmgebung durch Schwingung der Stimmbänder) und Artikulation (Modifikation des stimmhaften oder stimmlosen Luftstroms, vgl. POMPINO-MARSCHALL 2009: 17–86). Der dadurch entstehende Sprechschall stellt das Signal dar. Dieses wird noch vor der Transmission durch proprio-rezeptives Feedback von Sprecher*innen selbst wahrgenommen, überprüft und gegebenenfalls korrigiert. Dieser Vorgang verläuft taktil durch die neuronale Rückkopplung der Artikulationsorgane und auditiv durch die eigene Wahrnehmung des produzierten Signals. In der Phonetik sprechen TILLMANN / MANSELL (1980: 302) und POMPINO-MARSCHALL (2009: 73–78) dabei von Reafferenzen. Der in der Psycholinguistik gängige und hier gewählte Terminus solcher Selbstüberprüfungen beim Sprechen lautet Monitoring (vgl. DIETRICH / GERWIEN 2017: 115). Das so überprüfte und produzierte Resultat dieser Prozesse lässt sich als (Sprach-)Schall zusammenfassen. Die Transmission von Schall erfolgt über Schallwellen. Schallwellen sind aus akustischer Perspektive zunächst physikalische Luftdruckschwankungen und somit das Schwingen elastisch fixierter Teilchen im Medium Luft (vgl. NEPPERT 1999: 19). Verläuft diese Schwingung regelmäßig, ist sie periodisch, wie etwa bei einem einzelnen Sinuston. Verläuft sie hingegen unregelmäßig, ist sie aperiodisch, wie etwa bei Rauschen. Durch die Artikulationsorgane, vornehmlich die Glottis, können des Weiteren auch quasi-periodische Signale erzeugt werden. So handelt es sich beim Sprachschall um mit Informationen kodierte gemischte Schalle, die sowohl aus quasi-periodischen Schwingungen als auch aus aperiodischen Schwingungen sowie aus der Kombination von beidem bestehen können (vgl. NEPPERT 1999: 47–48). Da es sich bei Schall um physikalisch-akustische Größen handelt, sind diese messphonetisch erfassbar und quantifizierbar. Die auditive Wahrnehmung dieser bis dahin akustischen Größen findet beim Menschen über das Außen-, Mittel- und Innenohr statt. Hier wird der Schall empfangen, bestimmte Frequenzbereiche werden im Außenohr verstärkt und anschließend über alle drei Teile des menschlichen Ohrs zunächst mechanisch bis an das eigentliche Hörorgan, die Cochlea, übertragen (vgl. NEPPERT 1999: 279 und POMPINO-MARSCHALL 2009: 145). Dort wird die mechanische Schallübertragung in neuronale, sogenannte Aktionspotenziale umgewandelt. Dieser Bereich entzieht sich der symbol- und messphonetischen Betrachtung. Die linguistische Interpretation des auditiv wahrgenommenen Signals findet anschließend „in den verschiedenen Teilen des Gehirns statt“
14 Die Planungsaspekte im signalphonetischen Band spielen für die kommunikationstheoretischen Modelle in Kapitel 4.2.2 eine Rolle und werden dort beschrieben. Für die gängige phonetische Betrachtung der Signalübertragung lasse ich diese Bereiche daher zunächst außen vor.
24
Prosodie
(NEPPERT 1999: 274). Weiteres zur Perzeption vornehmlich der Prosodie wird in den folgenden Abschnitten und in späteren Kapiteln erläutert. Aus dieser Modellierung lässt sich schlussfolgern, dass für die Prosodie der Einheiten dieser Studie, konkret den auditiv wahrnehmbaren Merkmalen Tonhöhe, Dauer, Lautstärke und Stimmqualität, allesamt messbare akustische Korrelate zugrunde liegen, die ich im Folgenden unter Hinzuziehung artikulatorischer Aspekte im Einzelnen erläutere. Tonhöhe Für die auditive Wahrnehmung der Tonhöhe und ihres Verlaufs über die Zeit ist maßgeblich (aber nicht ausschließlich) die akustische Größe der Grundfrequenz der stimmhaften Anteile des Signals relevant. Erzeugt wird sie durch die Öffnung und Schließung der Stimmlippen. Die Grundfrequenz, in dieser wie in vielen anderen Arbeiten synonym mit dem Symbol F0 versehen, wird als die tiefste Frequenz einer komplexen periodischen Schwingung (und zwar der Frequenz der ersten harmonischen Teilschwingung eines zusammengesetzten Schalls, s. o.), bestimmt durch die Rate der Schwingung der Stimmlippen verstanden (vgl. PÉTURSSON / NEPPERT 1996 und POMPINO-MARSCHALL 2009). In ihren Zyklen der Öffnung und Schließung erzeugen die Stimmlippen allerdings keine reinen periodischen Schwingungen, wie es etwa bei einem Sinuston der Fall wäre, sondern lediglich „quasi-periodische Folgen von impulsartigen Druckänderungen“ (PÉTURSSON / NEPPERT 1996: 135).15 Messbar ist die Grundfrequenz in Schwingungen pro Sekunde, ausgedrückt in der Einheit Hertz (Hz). Frequenzwerte in der Messeinheit Hertz geben zwar den physikalischen Vorgang adäquat wieder und eignen sich zur Darstellung einer akustischen Analyse, sind aber bei der Beschreibung des auditiven Höreindrucks nur wenig aussagekräftig. So besteht zwischen den messbaren, absoluten Grundfrequenzwerten und der wahrgenommenen Tonhöhe kein direktes eins-zu-eins-Verhältnis. Der menschliche Gehörkomplex perzipiert nicht linear die absoluten, sondern logarithmisch die relativen Werte des Tonhöhenverlaufs akustischer Signale (vgl. CRUTTENDEN 1997: 4, RABANUS 2001: 45, GILLES 2005: 59 und FÉRY 2017: 22– 23). Der Repräsentation dieses logarithmischen auditiven Höreindrucks stehen verschiedene Skalierungssysteme zur Verfügung, etwa die aus der Musiktheorie stammenden Maße Oktave und Halbtöne (HT, oder englisch: semitones, ST) und die in der Psychoakustik genutzte Equivalent Rectangular Bandwidth Skala (ERB) (vgl. RABANUS 2001: 45, REETZ 2003: 94–99, GUSSENHOVEN 2004: 5 und FÉRY 2017: 23). In der Regel (und auch hier) werden zur Beschreibung von Grundfrequenzverläufen dennoch quasi-periodische Grundschwingungen pro Sekunde als Maß in der Einheit Hertz genutzt (NEPPERT 1999: 56–57). 15 Die Glottis (Stimmritze) wird zuweilen auch als Knallgenerator bezeichnet, da ihre durch Explosion erzeugte Schallart (impulsartige Druckänderungen) durch subglottale Überdruckerzeugung mit einer kurzzeitig stark steigenden und fallenden Amplitude der akustischen Definition eines Knalls entspricht (vgl. NEPPERT 1999: 30).
Phonetik der Prosodie
25
Die Grundfrequenz entsteht durch das Zusammenspiel aus in der Relation langfristigem sub- und transglottalem Druck und kurzfristiger Muskelaktivität der Kehlkopfmuskeln (vgl. COLLIER 1975, ATKINSON 1978, PÉTURSSON / NEPPERT 1996 und LEEMANN 2012). Bei der Produktion einer Äußerung, die einen messbaren F0-Verlauf hat, wird je nach Sprecher*in (und biologischem Geschlecht) ein bestimmter F0-Umfang für die jeweilige Äußerung genutzt. Dieser Umfang ist durch Minimalund Maximalwerte von F0 in Hertz auf der individuellen, für Sprecher*innen stimmlich nutzbaren F0-Bandbreite begrenzt. Die Grundfrequenzwerte von Männerstimmen bewegen sich regulär in einem genutzten F0-Umfang zwischen 60 und 240 Hz bei einem Durchschnittswert von etwa 120 Hz, die von Frauenstimmen regulär zwischen 180 und 400 Hz bei einem Durchschnitt von etwa 220 Hz (vgl. CRUTTENDEN 1997: 3). Die individuellen Minimalwerte des F0-Umfangs einer Gesamtäußerung werden als Grundlinie einer Äußerung, die Maximalwerte als Dachlinie einer Äußerung bezeichnet (vgl. PETERS 2014: 38–39).16 Während der gesamten zeitlichen Erstreckung einer isolierten Äußerung, etwa einer Aussage oder einer Aufzählung, sinkt der subglottale Druck und die zur Phonation genutzten Muskeln entspannen sich (vgl. FÉRY 2017: 107). Das Resultat dieses rein artikulatorisch bedingten Vorgangs ist eine kontinuierliche Verringerung des über die Äußerung genutzten F0-Umfangs, bei dem sowohl Grund- als auch Dachlinie absinken, wobei die Dachlinie schneller sinkt, als die Grundlinie. Dieser Vorgang wird Deklination genannt (stellenweise auch Downdrift oder Downtrend, vgl. COHEN / ʼT HART 1967: 184, CRUTTENDEN 1997: 123–124, POMPINO-MARSCHALL 2009: 247, PETERS 2014: 38 und FÉRY 2017: 107).
Abb. 2: Deklination, in Anlehnung an POMPINO-MARSCHALL (2009: 247) und PETERS (2014: 39)
Abbildung 2 stellt diesen Vorgang exemplarisch anhand einer fiktiven Aufzählung mit einem stilisierten F0-Verlauf und drei akzentuierten Silben dar.17 16 Dies geschieht vornehmlich, aber nicht nur, in Beschreibungen von Tonsequenzmodellen, die ich unten in Kapitel 2.2.4.2 skizzieren werde. 17 Die Schreibweise der Äußerungen in dieser wie in den Abbildungen 3 und 4 ist an die in dieser Arbeit genutzten GAT2-Konventionen angelehnt, bei der typographisch hervorgehobene Buchstaben auch eine auditiv wahrgenommene Hervorhebung darstellen (vgl. SELTING et al. 2009).
26
Prosodie
Mit der Annahme, bei Deklination handele es sich um ein rein artikulatorisches Phänomen, wird in ʼT HART / COLLIER / COHEN (1990) ebenso argumentiert, dass es sich bei Deklination um ein unkontrolliertes Phänomen handele. Demnach gilt, dass der Grundfrequenzverlauf der Äußerung dennoch konstant sinken müsste, selbst wenn keine kontrollierten und somit möglicherweise phonologisch relevanten Tonhöhenveränderungen durch Sprecher*innen in einer Äußerung herbeigeführt würden (vgl. LADD 2008: 16). Diese Annahme ist in Abbildung 3 anhand der fiktiven Äußerung des lang gehaltenen /a/-Vokals erneut mit einem stilisierten F0Verlauf illustriert.
Abb. 3: Deklination bei lang gehaltenem /a/
Das Konzept der Deklination geht maßgeblich auf die Ergebnisse des IPO-Ansatzes (ʼT HART / COLLIER / COHEN 1990) zurück, in dem ein rein phonetisches Beschreibungsmodell der Prosodie verfolgt wurde. Es scheint daher kontrovers, dass Deklination einerseits als rein phonetisches Merkmal beschrieben wird, dem im selben Modell aber dennoch mögliche phonologische Relevanz zugesprochen wird. Bereits PIERREHUMBERT (1980) kritisiert die rein phonetische Auslegung dieses Phänomens und sieht Deklination als von Sprecher*innen kontrolliertes Phänomen.18 Zudem muss hier klargestellt werden, dass ein Abwärtstrend der Grundfrequenz nicht universell für alle produzierten sprachlichen Äußerungstypen gelten kann und es auch längere segmentierbare Äußerungsabschnitte gibt, bei denen die messbare Grundfrequenz vom Anfang (F0-Onset) bis zum Ende (F0-Offset) kontinuierlich steigt, obwohl der subglottale Druck kontinuierlich sinkt, was erneut für ein kontrolliertes Phänomen spräche (vgl. KEHREIN 2002: 61). Das hier relevante auditive Merkmal ist das Tonhöhenregister (vgl. CRUTTENDEN 1997: 123–124, RABANUS 2001: 55, GUSSENHOVEN 2004: 76–77 und PETERS 2014: 38). In der phonetischen Messung spreche ich fortan von F0-Register. Wird von Sprecher*innen ein höheres Tonhöhenregister gewählt, steigt die durchschnittliche Grundfrequenz des gesamten betroffenen Äußerungsbereichs, während der 18 Weitere, teils kritische Auseinandersetzungen mit dem IPO-Ansatz und Deklination finden sich in KEHREIN (2002: 53–63) und LADD (2008: 12–18).
Phonetik der Prosodie
27
Grundfrequenzverlauf und der im Register genutzte F0-Umfang unbetroffen bleiben können (vgl. PETERS 2014: 38–39).19 Dasselbe gilt vice versa für ein tiefer gewähltes Tonhöhenregister. Abbildung 4 stellt die fiktive Äußerung der Interjektion ah mit langem Vokal links in einem für einen männlichen Sprecher durchschnittlichen und rechts in einem erhöhten Tonhöhenregister bei gleichem, stilisiertem Grundfrequenzverlauf dar.
Abb. 4: Unterschiedliche Tonhöhenregister gleicher, stilisierter F0-Verläufe
Die soeben dargestellten Phänomene Deklination und Wahl des Tonhöhenregisters betreffen den Grundfrequenzverlauf auf ganzen Äußerungen oder Äußerungsabschnitten. Auf der lokalen, etwa einzelne Segmente betreffenden Ebene können jedoch auch bereits deren intrinsische phonetische Eigenschaften Einfluss auf ihren messbaren Grundfrequenzwert haben. Solche segmentellen Effekte werden als Mikroprosodie bezeichnet (vgl. u. a. MÖBIUS 1993: 27, BAUMANN 2006: 6, LADD 2008: 25 und FÉRY 2017: 30–31). So zeigen etwa geschlossene Vokale in der Regel eine höhere Grundfrequenz als geöffnete (vgl. BAUMANN 2006: 6). Auch kombinatorische und koartikulatorische Effekte können die Grundfrequenz einzelner Laute beeinflussen: Unintuitiverweise zeigen Vokale in Verbindung mit stimmlosen Konsonanten eine höhere Grundfrequenz als mit stimmhaften (vgl. NEPPERT 1999: 174). Intuitiver wirkt hingegen die Tatsache, dass stimmlose oder teilentstimmte Konsonanten an ihren stimmlosen Stellen auch keine messbare Grundfrequenz aufweisen und so den kontinuierlichen Grundfrequenzverlauf einer Äußerung an den entsprechenden Stellen kurzzeitig unterbrechen. Perzeptiv zeigt sich jedoch, dass nicht alle mikroprosodischen Phänomene, insbesondere solche kurzzeitigen Unterbrechungen, zur Wahrnehmung des gesamten Tonhöhenverlaufs beitragen (vgl.
19 PETERS verwendet alternative Termini, die bereits auf die phonologische Ausrichtung des Tonsequenzmodells verweisen. So lautet etwa der Terminus für den F0-Umfang dort „tonaler Bezugsbereich“ (PETERS 2014: 38). Der internationale Terminus lautet pitch register, der allerdings auch je nach Forschungstradition anders verwendet werden kann. Vgl. hierzu RIETVELD / VERMILLION (2003) für eine terminologische Übersicht und KÜGLER / GENZEL (2011) für eine Studie zur funktionalen Variation des Tonhöhenregisters.
28
Prosodie
MIXDORFF 2012: 55). Ich werde diesen Punkt im Methodenteil der Arbeit erneut aufgreifen. Dauer Die auditiv wahrgenommene Dauer sprachlicher Signale stellt ein weiteres prosodisches Merkmal dar. Ihr akustisches Korrelat ist die zeitliche Erstreckung, die in Millisekunden messbar ist. Die zeitliche Erstreckung von Sprachsignalen entsteht durch die nacheinander ablaufenden, muskulär gesteuerten Artikulationsvorgänge und ist somit ein jedem sprachlichen Signal inhärentes Merkmal. So gibt es keine sprachlichen Signale ohne messbare zeitliche Erstreckung, sehr wohl aber etwa ohne die oben beschriebene Grundfrequenz (etwa beim Flüstern, also Atmung und Artikulation ohne Phonation).20 Segmentelle Eigenschaften können auch bei der Messung der zeitlichen Erstreckung von sprachlichen Signalen Effekte auf mikroprosodischer Ebene haben. Hierbei können Artikulationsort und Artikulationsart, koartikulatorische sowie positions- und kombinationsbedingte Faktoren eine Rolle spielen. So zeigen etwa geöffnete Vokale eine höhere zeitliche Erstreckung als geschlossene Vokale. Stimmhafte Konsonanten zeigen im Durchschnitt eine kürzere zeitliche Erstreckung als stimmlose Konsonanten (vgl. NEPPERT 1999: 181). Wie bei der Grundfrequenz, bei der zwischen absoluten, messbaren Werten und der wahrgenommenen Tonhöhe kein eins-zu-eins-Verhältnis besteht, ist auch bei der Wahrnehmung der Dauer Ähnliches zu beachten: „[…] die subjektiven Dauerverhältnisse […] hängen zwar in recht guter Entsprechung von den physikalischen Dauerwerten ab, dennoch nicht absolut eindeutig“ (NEPPERT 1999: 180). Ich werde des Weiteren zeigen, dass der lexikalische Gehalt einer sprachlichen Einheit auch ein Einflussfaktor auf die messbare zeitliche Erstreckung sein kann. Lautstärke und Prominenz Prominenz fasse ich, wie SCHMIDT (1986) und KEHREIN (2002), in dieser Arbeit als rein auditives Merkmal auf. In einer Fußnote weist KEHREIN (2002: 80) darauf hin, dass Prominenz „auch als Lautstärke bezeichnet werden könnte“. Ich werde Lautstärke und Prominenz in diesem Abschnitt separat beschreiben, da es sich bei Prominenz um das wahrgenommene Resultat akustischer Merkmalsbündel handelt, Lautstärke aber ebenso eine eigene auditive Entität abseits etwa als prominent wahrgenommener Silben bestehen kann. 20 Da die Zeit in unserer westlichen Vorstellung stets als Linie verläuft, könnte man argumentieren, das oben aufgestellte Charakteristikum prosodischer Merkmale „simultan statt linear“ träfe bei der zeitlichen Erstreckung nicht zu. Die zeitliche Domäne, die in dieser Arbeit relevant ist, ist die der kurzfristigen, physikalisch messbaren zeitlichen Erstreckung sprachlicher Signale in ihrer Produktion. Weitere, für die Prosodieforschung auch relevante Zeitdomänen behandelt GIBBON (2018).
Phonetik der Prosodie
29
Der wahrgenommenen Lautstärke eines Signals steht auf der akustischen Seite die messbare Intensität gegenüber. Intensität wird in der Einheit Dezibel (dB) gemessen. Sie stellt den Schalldruckpegel dar und referiert somit auf die Amplitude, also die Stärke der Ablenkung von Teilchen von ihrem Nullpunkt. Diese akustische Größe entsteht durch ein Zusammenspiel aus glottalen und subglottalen Mechanismen, bei denen vor allem die Abruptheit akustisch relevant ist, mit der der egressivpulmonale Luftstrom (aus der Lunge nach oben strömend) durch die Schließung der Glottis unterbrochen wird (vgl. POMPINO-MARSCHALL 2009: 39). Ein schnelleres, abrupteres Abschneiden des Luftstroms durch die Glottis bei erhöhtem subglottalen Druck resultiert in kürzeren Öffnungsphasen der Glottis, wobei mehr Luft in kürzerer Zeit ausströmt und es somit zu stärkeren akustischen Impulsen kommt (vgl. POMPINO-MARSCHALL 2009: 39–40). Wie bei der Tonhöhe besteht auch hier kein lineares, sondern ein logarithmisches Verhältnis zwischen der Erhöhung des physikalischen Schalldruckpegels (der Intensität) und der Wahrnehmung der Lautstärke eines Signals. Zudem spielt die Grundfrequenz auch hier eine Rolle: Höhere Frequenzen werden lauter wahrgenommen als niedrigere (vgl. POMPINO-MARSCHALL 2009: 153–154). Am empfindlichsten reagiert das menschliche Gehör auf Frequenzbereiche um etwa 3 Kilohertz (kHz). Diese Bereiche sind auch diejenigen, die, wie oben angedeutet, bei der Transmission vom Außenohr verstärkt werden (vgl. NEPPERT 1999: 276 und POMPINO-MARSCHALL 2009: 143 und 154). Für die Wahrnehmung von Prominenz sind neben der Intensität auch die Grundfrequenz und die zeitliche Erstreckung als akustische Parameter konstitutiv (vgl. u. a. KOHLER 1995a: 78, KEHREIN 2002: 91 und BAUMANN 2006: 6). Welches dieser akustischen Merkmale oder welche Kombination für die Wahrnehmung einer Silbe im Vergleich zu einer anderen als prominent ausschlaggebend ist und ob und wie sich diese Merkmale hierarchisieren lassen, ist von der Muttersprache der Hörer*innen abhängig. ISAČENKO / SCHÄDLICH (1966: 22–25) zeigten, dass für das Deutsche die Erhöhung des Grundfrequenzverlaufs das ausschlaggebende akustische Merkmal ist – in der Hierarchie gefolgt von einer höheren zeitlichen Erstreckung und höherer Intensität. In einem sprachübergreifenden Perzeptionstest mit zwei Varietäten des Englischen, zwei des (Schweizer-)Deutschen, zwei des Chinesischen sowie dem Dänischen und dem Französischen überprüften LEEMANN et al. (2016) die perzeptiv relevante Rolle der zeitlichen Erstreckung für die wahrgenommene Prominenz einer Silbe gegenüber einer anderen. Im bisyllabischen Stimulus baba wurden in unterschiedlichen Prozentgraden die zeitliche Erstreckung entweder der ersten oder der zweiten Silbe manipulativ erhöht oder reduziert, während Grundfrequenzverlauf und Intensität stets gleichblieben. Die Hörer*innen der Stimuli sollten daraufhin entscheiden, welche der Silbe sie als stärker („stronger“) empfanden (vgl. LEEMANN et al. 2016: 446–447). Die Ergebnisse zeigten auf der einen Seite ein Bias der Proband*innen, der je nach den Wortakzentregeln (vgl. WIESE 1996) der jeweiligen Muttersprache verursachte, dass die Proband*innen entweder die erste oder zweite Silbe als prominenter wahrnahmen, selbst dann, wenn keinerlei Variation der prosodischen Merkmale vorlag – so etwa bei beiden Varietäten des Schweizerdeutschen und des Französischen (vgl. LEEMANN et al. 2016: 447–448). Auf der
30
Prosodie
anderen Seite konnte gezeigt werden, dass die verschiedenen Varietäten auch verschieden stark auf Variation des Merkmals zeitliche Erstreckung reagierten: Alle Hörer*innen zeigten unterschiedlich starke Reaktionen auf die Manipulationen, bei Hörer*innen mit Dänisch und Singapur-Englisch als Muttersprache blieb der Effekt jeweils sogar unter der Signifikanzschwelle (vgl. LEEMANN et al. 2016: 448). ANDREEVA / BARRY (2012) zeigten, dass bei Muttersprachler*innen des Deutschen und Bulgarischen im Vergleich zwar unterschiedliche Präferenzen in der Nutzung der prominenzkonstituierenden Merkmale vorliegen, sich diese Präferenzen aber nicht exakt so in der Perzeption widerspiegeln. So konnte in Produktionsund Perzeptionstests für das Merkmal Intensität gezeigt werden, dass, obwohl bulgarische Muttersprachler*innen häufiger eine höhere Intensität zur Produktion prominenter Silben nutzten als deutsche Muttersprachler*innen, die Variation des alleinigen Merkmals in der Perzeption zwar als diskriminativ wahrgenommen, ihr aber keinerlei kommunikative Funktion zugesprochen wurde (vgl. ANDREEVA / BARRY 2012: 282–283). Andere Forscher*innen bestätigen den geringen perzeptuellen Effekt des einzelnen Merkmals Intensität auf die Wahrnehmung von Prominenz im Deutschen wie im Englischen.21 Die Prominenz von Silben und die aus ihrer Wahrnehmung resultierenden prosodischen Einheiten im Bereich der Akzentuierung sind für die vorliegende Untersuchung maximal von sekundärer Relevanz. Dennoch lässt sich anhand der Prominenz gut demonstrieren, dass es bei prosodischen Analysen in der Regel nicht ausreicht, ein bestimmtes prosodisches Merkmal als das konstitutive für linguistische (prosodische) Einheiten zu deklarieren und die anderen auszublenden. Die Intensität, die ich im selben Abschnitt besprochen habe, ist ein weiteres gutes Beispiel für die komplexen Zusammenhänge zwischen auditiver Wahrnehmung, akustischen Parametern und diesen zugrundeliegenden artikulatorischen Vorgängen. Bei der Artikulation von Sprachlauten im supralaryngalen System (Mund- Nasen- und Rachenraum) geht bei der Phonation mit einer stärkeren Spannung der Stimmlippen durch die Kehlkopfmuskulatur meist auch eine Erhöhung des subglottalen Drucks einher (vgl. KOHLER 1995a: 78). Entsprechend führt etwa eine bewusste artikulatorische Erhöhung der Grundfrequenz in der Regel gleichzeitig zu einer Erhöhung der Intensität, was zu höheren Messwerten in Hertz und Dezibel für das jeweilige Merkmal führt. Der Nachweis der perzeptiven Relevanz der prosodischen Merkmale auf der Hörer*innenseite ist daher eine wichtige Voraussetzung für phonetische Analysen prosodischer Strukturen.
21 So etwa FRY (1955), UHMANN (1991), KOHLER (1995a) und BAUMANN (2006). Zu einer kritischen Auseinandersetzung mit Prominenz im Englischen aus phonetischer und phonologischer Sicht vgl. auch GUSSENHOVEN (2015).
Phonetik der Prosodie
31
Stimmqualität Der Terminus Stimmqualität geht in hohem Maße auf die Überlegungen von ABERCROMBIE (1967) zurück, wurde aber durch die grundlegenden Untersuchungen von LAVER (1980) in der Phonetik prominent. Nach LAVER (1980: 1) handelt es sich bei Stimmqualität um die durch laryngale und supralaryngale Vorgänge und Einstellungen (Settings) herbeigeführte, auditiv wahrnehmbare Färbung der Stimme, die Sprecher*innen zu linguistischen und paralinguistischen Zwecken nutzen.22 Diese Settings können sowohl die Position des Kehlkopfs und die Anspannung bestimmter Teile der Kehlkopfmuskulatur als auch die supralaryngalen Artikulationsorgane (etwa Lippen, Zähne, Zunge und dadurch geformte Resonanzräume) betreffen. Die für die Phonation wichtigen sind die laryngalen Settings. Ausgehend von einem neutralen Setting, der „modal voice“, beschreibt LAVER (1980: 109–134) vier davon variierende Grundtypen und zwei geringere Modifikationen der modal voice: Falsetto, whisper, creak und harshness gelten als die Variationen, während harshness und breathiness lediglich als Modifikationen der modal voice beschrieben werden. Falsetto wird nach LAVER (1980: 210) nicht zu linguistischen Zwecken und nur in kulturell bedingten, besonderen Anlässen, etwa bei besonders honorativen Begrüßungen, eingesetzt. Breathy voice sieht LAVER (1980) als eine Modifikation, die der Flüsterstimme (whisper) ähnlich ist. Bei beiden verhindern geometrische Einstellungen der Stellknorpel oder eine zu geringe Steife den kompletten Verschluss der Stimmlippen, sodass sie nur mit sehr niedriger Intensität und geringer Grundfrequenz schwingen können oder beim whisper so weit auseinanderliegen, dass sie nicht schwingen und so auch keine messbare Grundfrequenz abgeben (vgl. LAVER 1980: 120–133 und POMPINO-MARSCHALL 2009: 40). Eine Ähnlichkeit beschreibt LAVER (1980) ebenso bei den Stimmqualitäten der Knarrstimme (creak) und der rauen Stimme (harshness). Bei beiden verändern Irregularitäten in Form und zeitlichem Ablauf der Stimmlippenschwingung das regulär abrupte (s. o.) Abschneiden des Luftstroms und verändern somit gleichzeitig den Intensitäts- und Grundfrequenzverlauf (vgl. POMPINO-MARSCHALL 2009: 40). Die durchschnittliche Grundfrequenz ist bei der creaky voice wesentlich niedriger als bei der harsh voice und sinkt zuweilen auf im Durchschnitt 34,6 Hz (vgl. LAVER 1980: 122). In der deutschen regionalsprachlichen Prosodieforschung gehört die Untersuchung der Stimmqualität noch immer zu den am wenigsten durchdrungenen Gegenständen. Dies stellt ein Forschungsdesiderat dar, dem in rezenten Studien nachgegangen wird (vgl. PETERS 2018). Zusammenfassend ist zur Phonetik der Prosodie Folgendes festzuhalten: Den wahrnehmbaren auditiven Merkmalen Tonhöhe, Dauer, Lautstärke, Prominenz und 22 Abzugrenzen ist dieser Begriff von Qualität von dem der Klangqualität (auch Timbre), an der maßgeblich die Wahrnehmung der Frequenzen des ersten, zweiten und eingeschränkt des dritten Formanten und somit der Vokale beteiligt ist. Die Formanten, verstanden als Frequenzbänder verstärkter Energie, entstehen wiederum durch Resonanzen des spezifisch geformten Vokaltrakts bei der Phonation und Artikulation (vgl. SENDLMEIER / SEEBODE 2008, POMPINOMARSCHALL 2009: 108 und SENDLMEIER 2018: 162).
32
Prosodie
Stimmqualität liegen allesamt messbare akustische Merkmale zugrunde, die wiederum auf einem komplexen Zusammenspiel artikulatorischer Faktoren beruhen. Das auditive Merkmal der Tonhöhe basiert maßgeblich auf dem akustischen Merkmal der Grundfrequenz, verstanden als messbare Periodizität der Öffnungs- und Schließvorgänge der Stimmlippen durch das Wirken von subglottalem Druck und Anspannung der Kehlkopfmuskulatur. Das auditive Merkmal Dauer resultiert in der zeitlichen Erstreckung der muskulär gesteuerten Bewegungen der Artikulationsorgane. Die auditiv wahrgenommene Lautstärke basiert maßgeblich auf dem Schalldruckpegel, der als Intensität bezeichnet wird. Diese entsteht durch die Regulierung des sub- und transglottalen Drucks und der daraus resultierenden Abruptheit der Öffnungs- und Schließbewegungen der Stimmlippen. Den auditiven Merkmalen Prominenz und Stimmqualität können mehrere akustische Merkmale zugrunde liegen. So verändern sich bei etwa bei als creaky wahrgenommener Stimmqualität die akustischen Parameter Grundfrequenz und Intensität. Bei wahrgenommener Prominenz können sich alle drei akustischen Parameter verändern – in Abhängigkeit der Muttersprache der Sprecher*innen mehr oder weniger. Zwischen der Wahrnehmung der auditiven Merkmale und den ihnen zugrundeliegenden akustischen Merkmalen besteht in der Regel kein Eins-zu-eins-Verhältnis, was eine isolierte Betrachtung einzelner Parameter bei der Perzeption von Prosodie enorm erschwert.
2.2 PHONOLOGIE DER PROSODIE Auf der phonologischen Seite der Prosodie werden nach dem hier angewandten Modell prosodische Einheiten beschrieben. Prosodische Einheiten sind funktionale Einheiten des Sprachsystems.23 Sie basieren auf den soeben vorgestellten prosodischen Merkmalen und finden sich typischerweise, wie oben aus den Definitionen ableitbar ist, in den Bereichen Akzent, Intonation und Quantität. KEHREIN (2002: 82) definiert prosodische Einheiten unter Rückgriff auf SCHMIDT (1986: 21) als „linguistische Größen, die auf der lexikalischen Ebene distinktive Funktion haben und auf der Äußerungsebene verschiedene sprachlich-kommunikative (z. B. syntaktische, kommunikationssteuernde, emotionale) Grundbedeutungen/-funktionen tragen.“ Die prosodischen Einheiten, die für die vorliegende Untersuchung eine Rolle spielen, finden sich im Bereich der Intonation wieder. Der Fokus dieses Teilkapitels wird daher auf der Phonologie der Intonation liegen, wobei ich die Bereiche Akzent und Quantität der Vollständigkeit halber auch kurz beschreiben werde. Aus den Analysen wird hervorgehen, dass die hier zu untersuchenden Intonationsmuster vornehmlich in der Definition genannte kommunikationssteuernde und emotionalwertende Grundfunktionen erfüllen, weswegen ich die syntaktischen Funktionen 23 So wie im klassischen Strukturalismus in der Phonetik formale Phone und in der Phonologie funktionale Phoneme beschrieben werden, wird als alternativer Terminus zu prosodischen Einheiten in der Phonologie der Prosodie zuweilen auch von Prosodemen gesprochen (vgl. SCHMIDT 1986 und WERTH 2011).
Phonologie der Prosodie
33
für diese Studie weitestgehend ausblenden werde. Wichtig hierfür ist zu wissen, dass die Prosodie nicht etwa, wie überwiegend in den Siebzigern und Achtzigern proklamiert wurde, den Satzmodus determiniert oder zumindest eng mit diesem zusammenhängt (vgl. auch SCHMIDT 2001: 16). So ist spätestens seit BOLINGER (1989: 98) bekannt, dass Intonationskonturen unabhängig von der syntaktischen Struktur eines Satzes phonetisch implementiert werden können und dass Intonation in dieser Hinsicht eher etwa zur Disambiguierung syntaktisch gleicher Sätze dienen kann (vgl. KAISER / BAUMANN 2013: 491–493). Die syntaktische Struktur interagiert dennoch mit der prosodischen Struktur einer Äußerung, etwa auf den prosodischen Domänen der Äußerungsebene (des higher level, vgl. Kapitel 2.2.1), insofern, als sie die Möglichkeiten der phonetischen Intonationsgestaltung einer Äußerung oder die Akzentplatzierung einschränken kann (vgl. PETERS 2014: 83–85). Die Leser*innen seien an dieser Stelle auf die Literatur verwiesen, in der die Interaktion von Syntax und Prosodie fokussiert wird (vgl. u. a. VON ESSEN 1964, PHEBY 1975, ALTMANN / BATLINER / OPPENRIEDER 1989, BOLINGER 1989, TRUCKENBRODT 1999 und KORTH 2014). Zur Phonologie der Prosodie wurde eine Vielzahl an teilweise international sehr einflussreichen Modellen entwickelt. Ich werde in diesem Teilkapitel nur diejenigen Aspekte dieser Modelle eingehender beschreiben, die für die späteren Analysen relevant sind. Auf vollständige Darstellungen der Modelle verzichte ich aufgrund des Umfangs der empirisch ausgelegten Studie und verweise in den entsprechenden Abschnitten stattdessen auf die spezifische Literatur, in denen die Modelle in aller Ausführlichkeit dargelegt und teils kritisch diskutiert werden. Wie im vorigen Kapitel möchte ich auch hier zunächst darstellen, um welche grundlegende Betrachtungsweise es sich in der Phonologie der Prosodie handelt. Die moderne Phonologie im Strukturalismus wurde maßgeblich von der Prager Schule und nicht zuletzt von ihrem Mitbegründer NIKOLAJ TRUBETZKOY geprägt. In seinem Werk Grundzüge der Phonologie (1967 [1939]) geht TRUBETZKOY darauf ein, dass in der Phonologie wie in der Phonetik die lautlichen Aspekte der Sprache im Fokus der Untersuchungen stehen, allerdings in der Phonologie aus funktionaler und systematischer Perspektive. Er nennt die Phonologie unter Bezugnahme auf SAUSSURE Sprachgebildelautlehre, wobei das Sprachgebilde als System aufzufassen ist, das aus Regeln und Normen besteht, die als Grammatik verstanden werden können (vgl. TRUBETZKOY 1967 [1939]: 6–7). Nach HALL (2000: 37) ist der Gegenstand der Phonologie „die Systematik der Laute einer Sprache.“ Prosodie wird in der Phonologie demnach aus einer grammatische Perspektive betrachtet (vgl. u. a. GUSSENHOVEN 2004: 57–58 und FÉRY 2017: 5). Es wird davon ausgegangen, dass die phonetische Realisierung von prosodischen Einheiten, und auch die hier zu untersuchenden Einheiten der Intonation, grammatischen Regeln unterliegen und diese Regeln phonologischer Natur sind (vgl. BIERWISCH 1966: 99, PHEBY 1975: 9 und LADD 2008: 3). Systematische Verteilungen und somit grammatische Regeln eines lautsprachlichen Phänomens beschreiben zu können setzt voraus, dass die linguistische Funktion des Phänomens bekannt ist. Nur dann, wenn Einheiten mit einer Funktion in einer Einzelsprache ermittelt werden können, lässt sich für sie eine spezifische Form beschreiben. Bei der Form im phonologischen Sinne handelt es sich um eine abstrakte Größe und zwar in diesem Sinne, dass sie
34
Prosodie
von den konkreten und individuellen Eigenschaften, die in der Phonetik beschrieben werden, zu abstrahieren sind (vgl. CHOMSKY / HALLE 1968 und WIESE 2011). Denn die tatsächliche, individuelle Realisierung solcher abstrakten Einheiten kann in der gesprochenen Sprache unterschiedlich sein. Dies gilt auch für die Prosodie. Deutlich machen möchte ich diesen Punkt anhand eines Beispiels einer prosodischen Einheit aus dem Bereich Akzent, die maßgeblich auf der Wahrnehmung von Prominenz beruht. In dem zweiteiligen Kompositum Mohnblume24, das aus drei intuitiv einteilbaren Silben besteht, ist die erste Silbe in der Regel die auditiv prominentere. In der Regel bedeutet, dass im Deutschen die Prominenz der ersten Silbe gegenüber der zweiten und dritten systematisch bei zweiteiligen Komposita als das unmarkierte und am häufigsten vorkommende Akzentuierungsmuster gilt (vgl. WIESE 1996: 296–297). Es liegen für diese Einheit, eine besondere Form des Wortakzents, also einzelsprachliche, grammatische Regeln vor (vgl. KIPARSKY 1966). Wie im vorangegangenen Kapitel gezeigt wurde, kann die Wahrnehmung von Prominenz, die den Wortakzent konstituiert, durch die Veränderung aller drei akustischen Parameter Grundfrequenz, Intensität und zeitliche Erstreckung hervorgerufen werden. Für ein Experiment mit Studierenden habe ich den Grundfrequenzverlauf der ersten Silbe bei dem durch eine weibliche Sprecherin eingesprochenen Wort Mohnblume mit der pitch-Resynthese-Funktion von Praat (BOERSMA / WEENINK 2019) verändert, genauer: gespiegelt, während die natürlichsprachlichen Ausprägungen der anderen prosodischen Merkmale erhalten blieben.25 Den Studierenden wurden beide Sounddateien auditiv präsentiert. Sie wurden im Anschluss gefragt, welche Silbe die prominenteste im Wort ist. Die Antwort war stets, dass die erste Silbe am prominentesten wahrgenommen wurde.
Abb. 5: Unterschiedliche Grundfrequenzverläufe im Wort Mohnblume, dargestellt mit Praat (BOERSMA / WEENINK 2019)
24 Zweiteilig bedeutet hier im morphologischen Sinne zusammengesetzt aus zwei lexikalischen, freien Stammmorphemen. 25 Der Grundfrequenzverlauf der zweiten und dritten Silbe ist durch die Stilisierung, die im Resyntheseprozess vorgenommen wird, nicht mehr mit dem ursprünglichen Verlauf identisch. Es wurde jedoch an diesen Stellen nichts weiter verändert.
Phonologie der Prosodie
35
Abbildung 5 zeigt die Darstellung der akustischen Analysen. Links im Bild ist die natürlich eingesprochene Version zu sehen, rechts die manipulierte. Das Beispiel zeigt, dass die linguistische, durch einzelsprachliche Regeln bedingte Einheit Wortakzent jeweils durch Prominenz als auditives Korrelat konstituiert wird. Die individuellen Unterschiede in der phonetischen Konstitution von Prominenz selbst lassen sich hier im Bild gut beobachten. So wird die Prominenz der ersten Silbe Mohn links durch eine erhöhte zeitliche Erstreckung (sichtbar durch die Eingrenzungen in den vertikalen, gestrichelten Linien), eine erhöhte Intensität (sichtbar durch den unteren, durchgezogenen Linienverlauf) und eine erhöhte Grundfrequenz (sichtbar durch den gepunkteten Linienverlauf im oberen Teil des Bildes) im Vergleich zu den anderen Silben erreicht. Rechts im Bild lässt sich dagegen eine niedrigere Grundfrequenz der prominenten, ersten Silbe im Vergleich zu den anderen beobachten.26 Dieselbe abstrakte linguistische Größe (Wort-)Akzent wird hier also durch unterschiedliche formale Merkmale realisiert. Akzentuierungsmuster, wie sie hier im Beispiel anhand des Wortakzents beobachtbar sind, sind Teil der Grammatik einer Einzelsprache (in diesem Fall des Deutschen) und somit Teil des mentalen Lexikons (vgl. WIESE 1996: 272). Eine Abstraktion, wie sie in diesem Falle vorliegt und ein für die Kommunikationspartner dennoch gleichzeitig mögliches Beziehen der Merkmale der tatsächlichen Realisierung der abstrakten Form kann nur dadurch gewährleistet werden, dass die Merkmale der Realisierung perzeptiv relevant sind (wie für die hier ausschlaggebenden Parameter im vorherigen Kapitel dargestellt wurde). Es muss des Weiteren überprüft werden, ob die Zuordnung der wahrnehmbaren Form teils multipler Merkmale zu einer bestimmten Funktion diskret oder kontinuierlich verläuft (vgl. SCHMIDT 1986: 30 und KEHREIN 2002: 84).27 Diskret bedeutet dabei, dass eine bestimmte Ausprägung von Merkmalen eine bestimmte kategorielle Funktion konstituiert und dass eine Veränderung der Merkmale auch ein kategorielles Umschwenken der Funktion bedeutet (vgl. KEHREIN 2002: 84). Die Funktion (oder die Kategorie) ist entweder da oder nicht, aber nicht in einem Mehr-oderweniger-Verhältnis, beziehungsweise einem Je-desto-Verhältnis, wie es bei einer kontinuierlichen Form-Funktionszuordnung der Fall ist: Hier führt nach KEHREIN (2002: 84) „ein Mehr oder Weniger von Merkmalsausprägungen zu einer Modifikation der Grundbedeutung […].“ GUSSENHOVEN (2004: 51) verdeutlicht Diskretheit anhand eines meines Erachtens sehr anschaulichen Beispiels: „Discreteness is the property that linguistic forms […] are either present or absent, but, like pregnancy, cannot be a little bit present.“ Zusätzlich, und bereits vor dem Wissen um die für die Perzeption der jeweiligen prosodischen Einheit relevanten prosodischen Merkmale, muss festgestellt werden, wo eine Einheit im kontinuierlichen Redefluss beginnt und wo sie endet. 26 Dass eine Akzentuierung durch Prominenz im Deutschen sowohl durch eine höhere als auch eine niedrigere Grundfrequenz hervorgerufen werden kann, bestätigen auch andere Forscher*innen, wenngleich letztere Variante die seltenere darstellt (vgl. etwa ISAČENKO / SCHÄDLICH 1966, UHMANN 1991, MÖBIUS 1993, BAUMANN 2006 und PETERS 2014). 27 Alternative Termini sind kategoriell vs. graduell (vgl. WERTH 2011: 28–30). Angelehnt ist diese Terminologie an HAMMARSTRÖM (1963).
36
Prosodie
Im darauffolgenden Schritt muss dann geklärt werden, welche linguistische Funktion die ermittelte Einheit hat. Dies ist die klassische Vorgehensweise der Phonologen im Strukturalismus: segmentieren und klassifizieren. Das Segmentieren setzt dabei voraus, dass sich jede Äußerung auch tatsächlich in einzelne Segmente oder Segmentketten mit jeweils klaren Grenzen einteilen lässt. Die konkrete Frage dabei lautet: Wo beginnt eine Einheit und wo endet sie? Das Klassifizieren setzt im SAUSSURE’schen Sinne voraus, dass die segmentierten Einheiten in einem systematischen Bezug (syntagmatisch und/oder paradigmatisch) zueinander stehen (vgl. RAHMERS 2007: 70–71). Dieses sukzessive Vorgehen wurde bereits von GOLDSMITH (1976: 30) in konziser Manier beschrieben: […] logically the first procedure in linguistic analyses is to “slice” the linguistic signal vertically into a number of pieces – segments, we may call them. Care must be taken, of course, to make sure that the signal is sliced finely enough to find the truly minimal units of the utterance. Once this process of ‘segmentation’ has been completed, the classification of these slices may proceed.
Die Voraussetzung, dass sich jede Äußerung dementsprechend segmentieren lässt, nennt GOLDSMITH (1976: 30) die „Absolute Slicing Hypothesis“. Das Absolute Slicing setzt voraus, dass eine lineare, zeitlich aufeinanderfolgende Repräsentation von Segmenten mit bestimmten phonologischen Eigenschaften vorliegt. Wie oben bereits hergeleitet wurde, tauchen prosodische Eigenschaften simultan statt linear zu anderen Eigenschaften eines oder mehrerer Segmente auf. Prosodische Eigenschaften eines Segments lassen sich also innerhalb der Absolute Slicing Hypothesis nicht erfassen – die Hypothese versagt an dieser Stelle (vgl. GOLDSMITH 1976: 30– 33). Diese Beobachtung, dargelegt in GOLDSMITHS Dissertation, markiert die Geburtsstunde der autosegmentalen Phonologie. Der Kerngedanke dieser phonologischen Ausrichtung ist, dass sich prosodische Merkmale als Resultat eines generativen Prozesses phonologisch anders verhalten als die übrigen Merkmale der klassischen linearen Darstellung nach CHOMSKY / HALLE (1968) und daher nicht in demselben Merkmalsbündel, sondern von diesem losgelöst (als nicht-lineare Autosegmente) zu betrachten sind (vgl. HALL 2000: 155–156 und RABANUS 2001: 24). Auf dieser Basis entstanden nach den einschlägigen Arbeiten von LIBERMAN (1978) und PIERREHUMBERT (1980) die heute international einflussreichen Tonsequenzmodelle, von denen ich für die Studie relevante Komponenten in Kapitel 2.2.4.2 darstellen werde. Die klassische, strukturalistische Phonologie befasst sich mit den kleinsten Segmenten einer Sprache. Dies sind in der Regel Einzellaute. Die generative, prosodische Phonologie im modernen Sinne betrachtet hingegen auch Einheiten, die größer als ein einzelnes Lautsegment sind und somit dem entsprechen, was oben als suprasegmental bezeichnet wurde (WIESE 1996: 27). Die Grundideen hierfür stammen aus den maßgeblich auf CHOMSKY zurückgehenden Grundlagen der generativen Transformationsgrammatik und wurden auf die prosodische Phonologie übertragen: „[…] the phonological component […] must be seen as a set of interacting subsystems, each governed by its own principles […]“ (NESPOR / VOGEL 2007: 1). Bezüglich der Segmentierung prosodischer Einheiten müssen demnach
Phonologie der Prosodie
37
verschiedene subsystematische Wirkungsbereiche vorliegen, auf denen die phonologischen Regeln für eine bestimmte prosodische Einheit gelten. Diese Wirkungsbereiche werden prosodische Domänen genannt. Ich werde diese im folgenden Abschnitt erläutern, die für die zu untersuchenden Einheiten relevanten ausführlicher als die übrigen. 2.2.1 Prosodische Struktur und prosodische Domänen Eine Hierarchie prosodischer Domänen, aus der die prosodische Struktur einer Sprache hervorgeht, wurde zuerst von LIBERMAN (1978) und SELKIRK (1984) entwickelt und später von NESPOR / VOGEL (2007) unter Hinzuziehung sprachtypologisch vielfältiger Daten ausgearbeitet. Den Grundstein für eine hierarchisch eingeteilte prosodische Struktur einer Sprache bildet die im internationalen Forschungskontext anerkannte, allgemeine Funktion von Prosodie, den kontinuierlichen Sprachfluss syntagmatisch in kleinere Einheiten zu strukturieren (vgl. hierzu u. a. BOLINGER 1978, SELKIRK 1984, KEHREIN 2002, GUSSENHOVEN 2004, NESPOR / VOGEL 2007, JUN 2014, LADD 2014 und FÉRY 2017). Ursprünglich nur an die syntaktische Oberflächenstruktur einer Äußerung angelehnt (BIERWISCH 1966), entstehen prosodische Domänen neben der Syntax auch durch die Interaktion mit der Morphologie, der Semantik, der Informationsstruktur einer Äußerung und der in der Äußerung identifizierbaren pragmatischen Rollen (vgl. NESPOR / VOGEL 2007: 17–22 und FÉRY 2017: 6). Die Ausdehnungen der Domänen sind dennoch zum Großteil an die morphosyntaktischer Einheiten angelehnt. So können größere prosodische Domänen in ihrer Ausdehnung mit morphosyntaktischen Einheiten korrelieren, müssen es aber nicht: „Morphosyntactic units are mapped to prosodic units of different sizes, even if the mapping is not always isomorphic“ (FÉRY 2017: 36).
Abb. 6: Hierarchie prosodischer Domänen, in Anlehnung an WIESE (1996: 83, modifiziert) und FÉRY (2017: 36)
38
Prosodie
Abbildung 6 zeigt die Hierarchie prosodischer Domänen, wie sie hier und in anderen rezenten Darstellungen (vor allem FÉRY 2017) verwendet wird. Wie die Hierarchie strukturiert ist, ist einzelsprachabhängig (vgl. zur Übersicht HIRST / DI CHRISTO 1998). Aufgrund welcher Kriterien sich die in der prosodischen Struktur postulierten Domänen segmentieren lassen, ist wiederum modellabhängig. Durch diese Vielfalt entstehen auch hier teils heterogene Darstellungen. Dennoch werden bei den meisten Autor*innen weitgehend dieselben prosodischen Domänen als Einheiten angesetzt. Diese sind die More, die Silbe, der Fuß, das prosodische (stellenweise phonologische) Wort, die Intonationsphrase und die (phonologische) Äußerung. Diese Hierarchie wird von der Strict Layer Hypothese reguliert, die besagt, dass eine Domäne in der Hierarchie stets von der unmittelbar höheren dominiert wird (vgl. HALL 2000: 313 und NESPOR / VOGEL 2007: 1–13).28 Hierarchisiert und unterschieden wird zwischen Domänen des lower level, die mit Einheiten der Phonologie und der Morphologie korrelieren können, und Domänen des higher level, die am ehesten mit morphosyntaktischen Einheiten korrelieren (vgl. FÉRY 2017: 36– 37). In den international einflussreichen Modellen der Prosodie, vornehmlich der Intonation, werden die Domänen des higher level, besonders die Intonationsphrase, in den Fokus gestellt, während die des lower level selten bis gar nicht diskutiert werden. Grund dafür ist, dass Intonation stets auf der Äußerungsebene angesiedelt wird, was auch korrekt ist. Wenn nun eine vollständige Äußerung mit einer beschreibbaren Intonationskontur aus nur einem einsilbigen Wort besteht, greifen die meisten der in den Modellen angesetzten Definientia für etwa die Intonationsphrase nicht mehr. Grob definiert ist diese in PETERS (2014: 5) als „die Domäne, in der Intonationskonturen realisiert werden […]“. Intonationskonturen selbst umfassen alle in einer Sprache beschreibbaren Tonhöhenverläufe mit einer linguistischen Funktion (vgl. PETERS 2014: 2). In den meisten Studien zur Intonation werden nur substanzielle und per definitionem vollständige Intonationsphrasen analysiert, während regulative Intonationsphrasen, die oft mit Ein-Wort-Äußerungen zusammenfallen, ausgeschlossen werden (vgl. GILLES 2005: 43–44). Da genau diese Fälle Fokus der vorliegenden Studie sind, werde ich die Domänen des lower level in diesem Teilkapitel relativ ausführlich beschreiben, während die des higher level in den Teilbeschreibungen der Modelle in Kapitel 2.2.4 erläutert werden, zusammen mit den soeben verwendeten Termini, die aus verschiedenen Modellen stammen. Lower level Die Domänen des lower level sind die More, die Silbe, der Fuß und das prosodische Wort. Diese Hierarchisierung ist mittlerweile unumstritten. Das war aber nicht immer so: HALL (2000), CRUTTENDEN (1997) und NESPOR / VOGEL (2007) nehmen die More in ihrer Auflistung noch nicht als relevante prosodische Domäne auf; HALL (2000: 301) verweist dabei auf die Umstrittenheit. Auf den Domänen des 28 Die Strict Layer Hypothese wird unter dem Aspekt der Rekursion prosodischer Domänen unter anderem in FÉRY (2017) diskutiert.
Phonologie der Prosodie
39
lower level erstrecken sich diejenigen prosodischen Einheiten, die auf der lexikalischen Ebene eine bedeutungsunterscheidende Funktion tragen. Ich beginne mit der Silbe, da sie eine für diese Studie zentrale Domäne darstellt und sich Moren besser anhand von Silben erklären lassen. Silben sind natürlich abgrenzbare Sprecheinheiten (vgl. WIESE 2011: 67). Sie sind zwar in der Regel größer als Einzellaute, trotzdem kann es im Deutschen vorkommen, dass eine Silbe nur aus einem einzigen Vokal besteht und dennoch als wohlgeformt, also den sprachspezifischen Regeln entsprechend wahrgenommen wird. Silben sind intuitiv zugänglich und daher die offensichtlichste und salienteste prosodische Domäne im Deutschen und vielen anderen Einzelsprachen (vgl. WIESE 1996: 33). Umso erstaunlicher wirkt es, dass bislang keine befriedigende phonetische Definition vorliegt. Ich werde die Silbe im Vergleich zu den anderen Domänen etwas ausführlicher beschreiben, da sie für prosodische Untersuchungen, auch für die hier zu untersuchenden Einheiten aus dem Bereich der Intonation und in international einflussreichen Modellen der Intonation eine ausschlaggebende Rolle spielen: „The syllable is a particular important constituent for the investigation of intonation because stress and tones are usually expressed by changes in F0, intensity and duration at the level of the syllable“ (FÉRY 2017: 39). Die Silbe bildet den Kontext für eine Vielzahl phonologischer Regeln, etwa der erlaubten und unerlaubten syntagmatischen Lautverteilung (Phonotaktik), und sprachspezifischer phonologischer Prozesse, etwa der Auslautverhärtung im Deutschen (vgl. HALL 2000: 205–209 und NESPOR / VOGEL 2007: 73). Silben spielen in der Metrik, vor allem bei der Konstitution von Rhythmus, genauso eine Rolle wie im Spracherwerb: Einzelne Silben können betont oder unbetont sein, in der hier verwendeten Terminologie also in der Wahrnehmung prominent oder nicht. Das Ergebnis eines auf der Silbe als Domäne regelhaft operierenden Alternierungsmusters prominent und weniger oder nicht-prominent wahrgenommener Silben ist der Rhythmus (s. o.). Die phonologischen Prozesse und Regeln, die auf der Silbe als Domäne ausgetragen werden, bestimmen den Spracherwerb von Kindern mit Deutsch als Muttersprache im ersten Lebensjahr maßgeblich (vgl. KAUSCHKE 2012: 23–29). Die Silbe ist ebenso die zentrale Beschreibungseinheit der generativen Phonologie. Sie wird zwar in verschiedenen Sprachen unterschiedlich verwendet, jedoch lässt sich nach Ansichten von CHOMSKY (1965) und JACKENDOFF (2002) keine menschliche Sprache ohne diese zentrale Domäne konstruieren. Aus ebendiesem Grund rechnet CHOMSKY Silben auch als eine der angeborenen, kognitiven, universellen Konstruktionseinheiten seiner Universalgrammatik (vgl. JACKENDOFF 2002: 77). Zur phonologischen Beschreibung von Silben können zwei in ihrer Ausrichtung sehr unterschiedliche Modelle herangezogen werden: das Konstituentenmodell und das Sonoritätsmodell. Das Konstituentenmodell wurde ursprünglich in PIKE / PIKE (1947) entwickelt und nimmt eine direkte Aufteilung der Silbe in zwei Hauptkomponenten an: Onset und Reim, wobei der Reim wiederum in Nukleus und Koda zerfallen kann (vgl.
40
Prosodie
RAHMERS 2007: 113 und WIESE 2011: 72–73).29 Die Silbe als Einheit selbst wird oft, und auch hier, mit einem Sigma symbolisiert. Abbildung 7 zeigt anhand des einsilbigen Beispielwortes Zelt die Silbenstruktur im Konstituentenmodell.
Abb. 7: Die Silbe im Konstituentenmodell anhand des Beispielworts Zelt in Anlehnung an RAHMERS (2007: 113, modifiziert)
Im Konstituentenmodell bildet der Silbenkern, der Nukleus, die wichtigste und als einzige obligatorische Komponente der Silbe; Onset und Koda können leer bleiben (vgl. WIESE 2011: 73). Konsonanten werden hier mit einem C versehen, Vokale mit einem V. Vokale bilden im Deutschen und vermutlich in allen anderen natürlichen Sprachen den Silbenkern, wobei im Deutschen durch phonologische Prozesse wie die Schwa-Tilgung auch Sonoranten (Nasale und Liquide) in den Silbenkern rücken können, etwa in [va̠ːɡⁿŋ̩] oder [mɪtˡl̩ ] (vgl. HALL 2000: 215–216). Dieser Prozess ist wichtig, um auch einsilbige Äußerungen beschreiben zu können, die nur aus einzelnen Segmenten bestehen. So etwa eine Diskurspartikel, die phonetisch nur aus einem stimmhaften, bilabialen Nasal [m] besteht, der phonologisch per definitionem den Silbenkern bildet. Im Sonoritätsmodell wird die Silbe aus einer phonetischeren Perspektive betrachtet. Hier wird die Silbe nicht in weitere Subelemente unterteilt, sondern als Lautfolge aufgefasst, in der, wie WIESE (2011: 71) es formuliert, „[…] die Sonorität vom Beginn der Silbe zur Mitte (das heißt dem Vokal) hin zunimmt und zum Ende der Silbe hin wieder abnimmt.“ Sonorität selbst wird verstanden als Schallfülle, also eine wahrnehmbare Größe, die primär durch den Öffnungsgrad des Lautes und sekundär auch durch seine wahrnehmbare Lautstärke charakterisiert ist (vgl. RAHMERS 2007: 180). Laute werden demnach nach ihrer Sonorität klassifiziert und 29 Onset und Reim gelten als eigenständige Konstituenten, weil auf ihnen, verstanden als Unterdomänen der Silbe, Regeln für unterschiedliche phonologische Prozesse greifen. So bildet der Onset die Unterdomäne für phonotaktische Beschränkungen von etwa zulässigen und nichtzulässigen Konsonantenclustern (vgl. WIESE 1996: 44). Aufgrund der rein segmentalen Phonologie, die diesen Prozessen zugrunde liegt, bedarf dieser Punkt hier keiner weiteren Erläuterungen.
Phonologie der Prosodie
41
hierarchisiert, was wiederum phonotaktische Beschränkungen erzeugt. Vokalen wird stets die größte Sonorität zugeschrieben, weswegen sie auch in diesem Modell in der Regel den Silbenkern bilden, um den sich nach WIESE (2011: 72) die übrigen Laute in folgender, zunehmender Sonoritätshierarchie von links nach rechts gruppieren: Plosive – Frikative – Nasale – /l/ – /r/. Abbildung 8 zeigt erneut das einsilbige Beispielwort Zelt, dargestellt im Sonoritätsmodell. Die Striche unterhalb der Transkription symbolisieren die zu- und abnehmende Sonorität der Einzellaute zum und vom vokalischen Silbenkern.
Abb. 8: Die Silbe im Sonoritätsmodell anhand des Beispielworts Zelt in Anlehnung an WIESE (2011: 71, modifiziert)
Wie komplex oder einfach eine Silbe gestaltet ist, das heißt, wie viele Einzelsegmente sich einer Silbe zuordnen lassen und in welcher Reihenfolge sie auftreten, hängt innerhalb verschiedener Einzelsprachen und Varietäten von individuellen phonotaktischen Beschränkungen ab. So scheinen bestimmte Präferenzen auch für die Regionalsprachen des Deutschen vorzuliegen. Während dieser Punkt noch weitestgehend unerforscht ist, liegen für das Standarddeutsche solche Beschreibungen bereits vor (vgl. etwa SPIEKERMANN 2000 oder HAHN / SIEBENHAAR 2016). Die Silbe lässt sich in einer phonologischen Auffassung von Quantität weiterhin in Moren als silbische Subkonstituenten einteilen. In der segmentalen Phonologie wird die More als Einheit des Silbengewichts dargestellt, wobei etwa einem Kurzvokal eine More und einem Langvokal zwei Moren zugewiesen werden (vgl. HALL 2000: 259). Im ersten Fall spricht man dann von einer leichten Silbe, im zweiten von einer schweren. Das von mir oben gegebene Beispielwort Zelt besteht dementsprechend aus einer leichten Silbe, da dem Vokal nur eine More zugeordnet wird. Für die prosodische Phonologie hat sich die More als saliente Domäne für prosodische Einheiten erwiesen. So stellte bereits TRUBETZKOY (1967 [1939]: 169– 179) die Hypothese auf, dass prosodische Einheiten zwar häufig, aber nicht immer einheitlich mit der Silbe zusammenfallen. Dies trifft vor allem auf Töne in Tonsprachen (vgl. u. a. YIP 2002 und GUSSENHOVEN 2004) und Tonakzente zu, auch in Regionalsprachen des Deutschen, etwa im Moselfränkischen (vgl. u. a. SCHMIDT
42
Prosodie
1986, GILLES 2002, SCHMIDT / KÜNZEL 2006 und WERTH 2011) und im Ripuarischen (vgl. u. a. HEIKE 1962 und 1964, GUSSENHOVEN / PETERS 2004, PETERS 2006b und GUSSENHOVEN 2018).30 CRUTTENDEN (1997: 23) bezeichnet die der Silbe nächstgrößere Domäne in Konkurrenz zu dem in der Phonologie des Englischen durch HALLIDAY (1967a: 12) etablierten Fuß als rhythm-group. Hier wird die Modellabhängigkeit deutlich, da CRUTTENDEN (1997) Intonation im Rahmen der traditionellen, sogenannten Britischen Schule beschreibt, auf die ich unten erneut zu sprechen komme. Silben setzen sich auf der nächsthöheren Ebene der prosodischen Hierarchie nicht direkt zu Wörtern zusammen, sondern zu Füßen, wobei ein Fuß aus einer prominenten und einer (zunächst undefinierten) Anzahl geringer prominenter Silben besteht (vgl. NESPOR / VOGEL 2007: 83–84). Neben der aus dieser Definition hervorgehenden Domäne für Akzentuierungsmuster auf der lexikalischen Ebene einer Sprache, was den Fuß somit auch für Rhythmus relevant macht, sind auch phonotaktische Regeln vom Fuß als Domäne abhängig – so etwa das Auftreten von Glottisplosionen zwischen zwei Vokalen im Standarddeutschen (vgl. NESPOR / VOGEL 2007: 90 und WIESE 2011: 83–84). Nimmt man zum oben gegebenen Beispielwort Zelt eine zweite Silbe (ein zweites, lexikalisches, freies Stammmorphem) in Form von Platz hinzu, entsteht das Kompositum Zeltplatz, mit dem sich die Struktur eines prototypischen standarddeutschen Fußes gut darstellen lässt. Nach den oben genannten Regeln für den Kompositumsakzent zeigt sich die erste Silbe in der Regel prominenter (s für strong) als die zweite (w für weak).
Abb. 9: Fußstruktur des zweisilbigen Beispielwortes Zeltplatz in Anlehnung an WIESE (2011: 85, modifiziert)
30 Töne und Tonakzente werde ich als prosodische Einheiten der lexikalischen Ebene in Kapitel 2.2.2 kurz skizzieren. Moren, Töne und Tonakzente gelten als sprachtyplogisches Unterscheidungskriterium (vgl. TRUBETZKOY 1967 [1939]: 174–175). Für die hier untersuchten Einheiten der Intonation spielen sie allerdings nur eine sekundäre Rolle und werden daher nicht ausgiebig erläutert. Der/die Leser*in sei stattdessen auf die oben angegebene Literatur verwiesen, in der Töne und Tonakzente aus verschiedenen Perspektiven in aller Ausführlichkeit diskutiert werden.
Phonologie der Prosodie
43
In Abbildung 9 wurden in der orthoepischen Transkription zusätzlich die IPA-Diakritika für primary und secondary stress jeweils zu Anfang der ersten und zweiten Silbe verwendet. Ein Fuß besteht per Definition also aus mindestens zwei Silben, einer starken und einer schwachen. Nun hätte man ebenso ein zweisilbiges Beispielwort wählen können, das kein Kompositum darstellt und trotzdem diesem Kriterium der Fußstruktur entspricht, etwa Zettel oder laufen. An dem hier gewählten Beispiel lassen sich aber gut Probleme in den theoretischen Überlegungen darstellen, die die Strict Layer Hypothese mit sich bringt. Die nächstgrößere Domäne zum Fuß ist das prosodische Wort. Dieses markiert den Übergang zu denjenigen Domänen, die an der Schnittstelle von phonologischen, morphologischen und syntaktischen Regeln operieren (vgl. NESPOR / VOGEL 2007: 109 und FÉRY 2017: 51). WIESE (1996: 65–74) zeigt für das Deutsche, dass das prosodische Wort zwar vom morphologischen ableitbar ist, dennoch nicht immer mit diesem zusammenfällt und deshalb parallel zum morphologischen Wort eine Existenzberechtigung als Domäne für phonologische Regeln hat. Das Beispielwort Zelt ließe sich in dieser Auffassung als prosodisches Wort analysieren, das mit dem morphologischen Wort zusammenfällt. Konsequenterweise ließen sich auch die zwei Silben des Kompositums Zeltplatz als einzelne prosodische Wörter analysieren, die, folgt man den Regeln der morphologischen Lexembildung, wiederum einem morphologischen Wort (dem Kompositum) entsprächen. Die Akzentuierungsregeln, die für das Kompositum herrschen sind andere als etwa für Phrasen und berechtigen nun in Zeltplatz das prosodische Wort als Wirkungsbereich für diese rein phonologisch motivierte Regel (vgl. NESPOR / VOGEL 2007: xvii). Bezogen auf die Hierarchie prosodischer Domänen ließe sich nun argumentieren, dass in Zeltplatz auch der Fuß und das prosodische Wort zusammenfallen. In Zelt und Platz fallen die einzelnen Silben jeweils auch mit dem prosodischen Wort zusammen. In beiden Fällen lassen sich die prosodischen Wörter auch als (zusammengesetzte oder einzelne) freie, lexikalische Morpheme und somit morphologische Wörter analysieren. Wenn das gesamte Kompositum nun ein prosodisches Wort konstituiert, das aus zwei weiteren prosodischen Wörtern besteht, verletzt das die Regel der Strict Layer Hypothese: Zwei prosodische Wörter würden von einem weiteren prosodischen Wort dominiert und nicht etwa von der nächsthöheren Domäne. Diese befindet sich bereits auf dem higher level der Hierarchie und lautet prosodische Phrase (vgl. WIESE 1996: 73, HALL 2000: 314 und NESPOR / VOGEL 2007: xvii).31 31 In NESPOR / VOGEL (2007: 145–163) wird zwischen dem phonologischen Wort und der phonologischen Phrase noch die klitische Gruppe als intermediäre Domäne angesetzt, um unter anderem solchen problematischen Zuordnungen entgegenzuwirken. WIESE (1996: 83) sieht für diese Domäne jedoch für das Deutsche keine Relevanz als eigenständige Domäne und betrachtet sie eher als Subelemente des prosodischen Worts, ähnlich wie Onset, Nukleus und Koda bei der Silbe. Die Idee einer intermediären Domäne zwischen phonologischem Wort und Phrase findet in der Intonationsforschung dennoch Anklang und wird dort häufig intermediate phrase genannt (vgl. u. a. GUSSENHOVEN 2004: 125–126 und LADD 2008: 88). Aktuellere Aufsätze zum prosodischen Wort finden sich in ULBRICH / WERTH / WIESE (2018).
44
Prosodie
Higher level Die Domänen des higher level sind die prosodische Phrase, die Intonationsphrase und die Äußerung. Wie die letzte Domäne bereits vermuten lässt, erstrecken sich auf diesen Domänen diejenigen prosodischen Einheiten, die auf der postlexikalischen Äußerungsebene verschiedene Funktionen redeorganisatorischer, emotionaler oder syntaktischer Art erfüllen. Die Intonationsphrase wird, wie oben bereits erwähnt, in den Teildarstellungen verschiedener Modelle diskutiert, weswegen ich hier darauf verzichte. Die Domänen des higher level reflektieren nach FÉRY (2017: 59) den Einfluss der Prosodie auf die Syntax und vice versa: „These categories are phonological in nature because they are part of the sound system of languages, but they also reflect the syntactic structure.“ Anders als bei den Domänen des lower level sind sich verschiedene Forscher*innen über die Hierarchie und gleichzeitig hiermit auch über die Konstitution derselben recht einig. Unterschiede betreffen die Benennung (prosodisch vs. phonologisch) und die Hierarchie der Domänen selbst. WIESE (1996: 93) und HALL (2000: 301) nehmen die Intonationsphrase als die größte prosodische Domäne einer Sprache an, während andere Autor*innen darüberstehende Domänen ansetzen. WERTH (2011: 33–34) setzt die phonologische Phrase als die größte Domäne an, während diese wiederum bei FÉRY (2017) unter Rückgriff auf NESPOR / VOGEL (2007) und SELKIRK (1984) inhärente Elemente der Intonationsphrasen (und damit hierarchisch niedriger als diese eingestuft) sind. PETERS (2014: 77–82) setzt zusätzlich zur Äußerung noch prosodische Paragraphen an, die der makroprosodischen Organisation dienen. Während NESPOR / VOGEL (2007: 165–186) eine primär syntaktische Motivation für Domänen des higher level vorschlagen, sind sie nach FÉRY (2017: 60) aus phonologischer Sicht durch Prominenzwahrnehmungen auf der Äußerungsebene gerechtfertigt. So auch die erste Domäne dieses Levels, die prosodische Phrase. Aus der Perspektive einer Schnittstelle der Phonologie zur Syntax definiert FÉRY (2017: 323) prosodische Phrasen als Domänen, die in ihrer Ausdehnung in etwa mit syntaktischen Phrasen zusammenfallen. Als Beispiele werden hier einzelne Nominal- oder Verbalphrasen genannt. Dieselben Beispiele aus der Syntax zur Ausdehnung dieser Domäne gibt auch WIESE (1996: 74). Eine prosodische Phrase besteht aus dem Zusammenschluss mehrerer prosodischer Wörter. WIESE (1996: 74–77) spezifiziert für das Deutsche die prominenzbasierte Domäne als diejenige für phonologische Regeln der Akzentverschiebung. So ändert sich das Akzentuierungsmuster eines Wortes bei der Erweiterung der segmentellen Struktur, etwa im phonologischen Wort [ˈba̠ːnˌhoːf], bei dem die Silbe Bahn die prominenteste Silbe ist, gegenüber dem Kompositum [ˈha͡ ̠ ʊptˌba̠ːnhoːf], bei dem dieselbe Silbe nicht mehr die prominenteste ist, da sich ihre Position im Syntagma verändert hat (vgl. WIESE 1996: 300). Diese Akzentverschiebungen sind diejenigen, die regelbasiert auf der Phrasenebene greifen, weswegen sie der Äußerungsebene und nicht der lexikalischen Ebene zugeschrieben werden (vgl. WIESE 1996: 306–311).
Phonologie der Prosodie
45
Prosodische Phrasen, die aus einer Reihe von prosodischen Wörtern bestehen, setzen sich wiederum zu Intonationsphrasen zusammen. Diese können (phonologische) Äußerungen bilden, die aus mehreren, oder aber nur einer Intonationsphrase bestehen können. Während in NESPOR / VOGEL (2007: 221–222) erneut syntaktische Begrenzungen aus der generativen Grammatik vorgeschlagen werden, gibt PETERS (2014: 77–80) durch den direkten Vergleich zur Subeinheit Intonationsphrase eine rein intonatorisch ausgelegte Alternative dazu: Intonationsphrasen sind in diesem Modell durch eigene Grenztöne delimitiert, phonologische Äußerungen (in PETERS Terminologie Äußerungsphrasen) haben dagegen keine eigenen Grenztöne, es sei denn, sie fallen mit nur einer Intonationsphrase zusammen. Ein weiteres Kriterium zur Abgrenzung von Äußerungen, die aus mehreren Intonationsphrasen bestehen, ist ein gemeinsamer, sich über die gesamte Äußerung erstreckender (globaler) Trend zur oben in 2.1 beschriebenen Deklination (vgl. PETERS 2014: 77). Das Ende einer mehrere Intonationsphrasen umfassenden Äußerung lässt sich in dieser Beschreibung durch einen Tonhöhensprung nach oben, den sogenannten pitch-reset bestimmen, der gleichzeitig phonetisch das Ende des globalen Deklinationstrends markiert (vgl. PETERS 2014: 78–79).32 Wie schon bei den Domänen des lower level sind auch Äußerungseinheiten, die sich auf Domänen des higher level erstrecken, nicht immer so direkt trenn- und hierarchisierbar, wie es nach der Strict Layer Hypothese sein sollte. Besonders deutlich wird dieser Umstand erneut bei Ein-Wort-Äußerungen, aber auch Interjektionen und Partikeln, in Frage-Antwort-Sequenzen (vgl. PETERS (2014: 78). Gegeben sei folgender fiktiver Dialog, dargestellt im GAT2-Format: A: B:
gEhst du hEUte mit mir ins KIno? klar.
In dieser fiktiven Frage-Antwort-Sequenz nutzt B eine einsilbige, aber dennoch aus pragmatischer Sicht vollständige Äußerung. In diesem Fall würden mindestens die Silbe, das prosodische Wort, die Intonationsphrase und die phonologische Äußerung zusammenfallen.33 Wenn nun die phonologische Äußerung, wie oben dargelegt, durch die sie enthaltenden Intonationsphrasen definiert ist und Intonationsphrasen in Tonsequenzmodellen wiederum dadurch, dass sie „mindestens einen starken Akzent“ (GILLES 2005: 6) aufweisen, bleiben für die hier erdachte Äußerung von B, die keinen starken Akzent zeigt, nur das prosodische Wort und die Silbe als Beschreibungsdomänen für etwa den Tonhöhenverlauf dieser vollständigen Äußerung. Nimmt man nun an, B hätte statt mit klar mit der Diskurspartikel hm mit einem fallend-steigenden Tonhöhenverlauf geantwortet, was im Deutschen in der Regel als klare Bestätigung, als ja verbalisiert werden kann (vgl. SCHMIDT 32 Dieses Abgrenzungskriterium entspricht einem der Abgrenzungskriterien der in der Britischen Schule beschriebenen tone-groups (vgl. u. a. CRUTTENDEN 1997: 29–37, der hier von „intonation groups“ spricht). Ich komme auf diese Kriterien in Kapitel 2.2.4.1 erneut zu sprechen. 33 Der Fuß und die phonologische Phrase wären hier per definitionem ausgeschlossen, da der Fuß mindestens zwei Silben und die phonologische Phrase mindestens zwei phonologische Wörter enthalten.
46
Prosodie
2001: 25), handelte es sich auch hierbei um eine pragmatisch vollständige Äußerung. Diese kann nun aber nicht als prosodisches Wort analysiert werden, wenn prosodische Wörter wiederum vom morphologischen Wort abzuleiten sind und hm aus morphologischer Sicht weder ein freies, noch ein gebundenes Morphem als kleinste bedeutungstragende Einheit darstellen kann.34 So bleibt für die erdachte Äußerung nur noch die Silbe als reliable, intuitiv abgrenzbare Domäne für den auf ihr implementierten Tonhöhenverlauf übrig. So undurchsichtig die Hierarchisierung im Einzelnen auch zu sein scheint, lassen sich dennoch über die verschiedenen Level gut die regelhaften Differenzierungen in die lexikalische und postlexikalische Äußerungsebene der Prosodie nachvollziehen. Diese Aufteilung ist neben den phonologischen Regularitäten auch für die funktionale Zuweisung prosodischer Einheiten essentiell. Dies ist der Fokus der nächsten zwei Teilkapitel. 2.2.2 Die lexikalische Ebene Die prosodischen Einheiten der lexikalischen Ebene sind der Wortakzent, Ton und Tonakzent und Quantität. Wie zu Anfang des Kapitels dargestellt, liegt die Funktion prosodischer Einheiten der lexikalischen Ebene in der Distinktion segmentell identischer Einheiten (vgl. SCHMIDT 1986: 21 und KEHREIN 2002: 90). Dies gilt nicht für den normativen Wortakzent, dessen Position in einem Simplex, einem Kompositum oder sogar einem Phraseologismus als Teil des mentalen Lexikons sprachspezifische Regularitäten hat (s. o. und vgl. WIESE 1996: 272–302 und KEHREIN 2002: 90). Bedeutungsunterscheidungen auf lexikalischer Ebene leistet hingegen der distinktive Wortakzent als prosodische Einheit aus dem Bereich der Akzentuierung. Für den distinktiven Wortakzent lassen sich im Deutschen nur wenige Beispiele finden, etwa [ʔʊmˈfa̠ːʁən] vs. [ˈʔʊmfa̠ːʁən] oder [ʔyːbɐˈt͡siːən] vs. [ˈʔyːbɐt͡siːən].35 Die segmentelle Basis und somit die prosodische Domäne des distinktiven (und auch des normativen) Wortakzents ist die Silbe. Bei beiden folgt die Position oben skizzierten Regeln, die auch phonotaktischer Natur sein können. Die beschreibbare Form beider lexikalischer Akzentarten ist die stärker wahrnehmbare Prominenz einer Silbe gegenüber anderer Silben desselben Lexems – durch das Zusammenspiel mehrerer akustischer Korrelate (vgl. SCHMIDT 1986: 26, KEHREIN 2002: 90–91 und WIESE 2011: 77–80). Distinktion segmentell identischer Einheiten leisten auch Töne und Tonakzente als prosodische Einheiten aus dem Bereich der Intonation. Ich beginne mit Tönen, auch wenn diese für das Deutsche nur eingeschränkt relevant sind. Bei dem Begriff Ton muss zunächst unter der phonetischen, eher akustischen und der phonologischen Auffassung differenziert werden. Ein Ton wird in der Akustik, wie oben in 34 Partikeln, denen durch Intonation ein äußerungssemantischer Gehalt zugewiesen wird, wurden in den Siebzigern, etwa in EHLICH (1979), dennoch mit Morphemen verglichen. Auf EHLICHS grundlegende Analysen von hm gehe ich in Kapitel 2.2.5.2 näher ein. 35 Dies sind neben der Distinktion des Vornamens gegenüber des Monatsnamens August Paradebeispiele des deutschen distinktiven Wortakzents. Die Beispiele wurden aus SCHMIDT (1986: 26) und STEINBACH (2007: 169) entnommen.
Phonologie der Prosodie
47
Kapitel 2.1 skizziert wurde, definiert als periodische Schwingungen von Luftmolekülen, die rein sinoidal sind, das heißt, bei ihrer Ablenkung um den Nullpunkt eine Sinuskurve in einer Periode beschreiben (vgl. POMPINO-MARSCHALL 2009: 91–94). Der Ton im phonologischen Sinne ist ein davon lediglich abgeleiteter Terminus, der mit einer reinen Sinoidalschwingung nichts zu tun hat. WIESES (2011: 90) grobe Definition von Tönen im phonologischen Sinne als „Tonhöhenverläufe, die distinktiv zur Unterscheidung von Wörtern oder Morphemen eingesetzt werden“, träfe ebenso auf den oben beschriebenen distinktiven Wortakzent zu. So behilft man sich in der Definition von Tönen mit der Typologie, genauer mit der Definition von Tonsprachen, die Töne im phonologischen Sinne verwenden. YIP (2002: 4) definiert eine Tonsprache wie folgt: „A language with tone is one in which an indication of pitch enters into the lexical realization of at least some morphemes.“ Diese Definition setzt voraus, dass Leser*innen wissen, dass Morpheme kleinste bedeutungstragende Einheiten einer Sprache sind. Eine an PIKE (1948: 3) angelehnte Definition, die den Gegenstand meines Erachtens am treffendsten beschreibt, geben PÉTURSSON / NEPPERT (1996: 158), die eine Tonsprache als eine Sprache definieren, „in der jede Silbe eine distinktive Tonhöhe oder einen Tonhöhenverlauf besitzt.“ In dieser Definition ist erstens die Form der prosodischen Einheiten Ton und Tonakzent zu erkennen, die als eine spezifische, wahrnehmbare Tonhöhe oder Tonhöhenbewegung auf einer Silbe eines Lexems zu beschreiben ist. Zweitens wird der Unterteilung von Tönen in statische Level- (Tonhöhe) und dynamische Konturtöne (Tonhöhenverlauf) Rechnung getragen, die auch für zeitgenössische Tonsequenzmodelle übernommen wurde.36 Ein Großteil der auf der Welt gesprochenen Sprachen sind Tonsprachen. Zu ihnen zählen etwa Thai und Mandarin-Chinesisch aus der sinotibetischen Sprachfamilie oder Yoruba und Ghomálá‘ aus den NigerKongo-Sprachen (vgl. GREENBERG 1970: 8–9, KÖNIG 2007: 34 und PISTOR 2017: 55). Im Vergleich zu Tonsprachen, bei denen, wie oben dargestellt wurde, der Tonhöhenverlauf jeder Silbe zur Distinktion beiträgt, sind Tonakzente nach SCHMIDT (1986: 24–25) „auf einzelsprachspezifische Silbenstrukturen und -positionen beschränkte […] Einheiten, bei denen die Tonhöhe einen Beitrag zur Distinktion leistet.“ Zur Abhängigkeit von Silbenstrukturen und Silbenpositionen tritt nach PETERS (2014: 3) noch die Lexemgebundenheit der Tonakzente in den Einzelsprachen und Varietäten, die sie verwenden, hinzu. Solche Sprachen sind etwa das Litauische und das Kroatische, sowie Varietäten des Schwedischen, des Norwegischen und auch des Deutschen (vgl. SCHMIDT 1986: 25, WERTH 2011: 13 und PETERS 2014: 3). Sowohl bei Tönen als auch bei Tonakzenten beruht die Distinktionsleistung aus-
36 Dort haben Töne allerdings einen anderen Status (s. u.). Auch diese Aufteilung geht auf PIKE (1948) zurück. Töne als prosodische Einheiten und deren Aufteilung spielen für meine Untersuchung keine Rolle, weswegen ich auf eine ausführliche Beschreibung verzichte. Dargelegt ist das Phänomen in einer Vielzahl an Publikationen und Untersuchungen zu verschiedenen Tonsprachen. Vgl. hierzu PIKE (1948), MADDIESON (1978), WEIDERT (1981), GUSSENHOVEN (2004), WERTH (2011), BECKER / JURGEC (2018) und DONOHUE (2018). Eine alternative Beschreibung von Tönen, die die Aufteilung in Level- und Konturtöne nicht unterstützt, findet sich in YIP (2002).
48
Prosodie
schließlich auf dem auditiven Korrelat der wahrnehmbaren Tonhöhe oder dem Tonhöhenverlauf. Diese Parallele veranlasst WERTH (2011: 263–265) dazu, den Tonakzenten im Mittelfränkischen, einer Regionalsprache des Deutschen, den phonologischen Status von Tönen zuzuordnen und auch, dass die Tonakzente in besagtem Areal auf die Genese von Tönen zurückzuführen sind.37 Die prosodische Domäne von Tönen und Tonakzenten sind sowohl die Silbe als auch die More. Töne erstrecken sich, wie aus obiger Definition hervorgeht, über Silben. Die Erstreckung von Tonakzenten kann – abhängig vom syntagmatischen Kontext – sowohl mit Silben als auch mit Moren assoziiert werden (vgl. NEPPERT 1999: 172 und WERTH 2011: 34). So hat WERTH (2011: 179, 241 und 264–265) nachweisen können, dass die Distinktionsleistung der mittelfränkischen Tonakzente in der Perzeption sowohl auf der ersten als auch der zweiten More stattfindet, und zwar je nach regionaler Herkunft der Hörer*innen. Die letzte prosodische Einheit der lexikalischen Ebene, die die Distinktion als Funktion hat und ihren eigenen Bereich konstituiert, ist die Quantität. Die Domäne der Quantität ist ebenfalls die Silbe, genauer: der Stammvokal im Nukleus der Silbe. Die beschreibbare Form der Quantität ist die länger wahrnehmbare Dauer eines Vokals gegenüber dem Vokal eines sonst segmentell identischen Lexems. Ihr akustisches Korrelat ist die messbare zeitliche Erstreckung. Quantität wurde bereits zu Beginn dieses Kapitels in einem Beispiel eingeführt und hat für das Deutsche lediglich den Status eines redundanten Merkmals, da sich im Standarddeutschen, abgesehen von [a̠] vs. [a̠ː] und [ɛ] vs. [ɛː] mit der Vokalquantität auch die Vokalqualität ändert (vgl. SCHMIDT 1986: 23, WIESE 1996: 21 und KEHREIN 2002: 90). Die hier vorgestellten prosodischen Einheiten sind zwar Einheiten der lexikalischen Ebene, weil sie dort die Distinktion zur Funktion haben, werden aber ebenso auf der postlexikalischen Äußerungsebene realisiert (vgl. KEHREIN 2002: 91). Ein Blick auf die in 2.2.1 vorgestellte Domänenhierarchie macht diesen Punkt schlüssig: Wenn eine komplexe Äußerung aus mehreren Subeinheiten besteht, greifen für diese eingebetteten Subeinheiten natürlich genauso die spezifischen Regeln, wie wenn sie selbst eine Äußerung konstituieren. In den Fällen, in denen prosodische Einheiten der lexikalischen Ebene mit denen der Äußerungsebene kookkurieren, ist zu überprüfen, ob die beschreibbare Form konstant bleibt oder sich durch die Überlagerung möglicherweise verändert.
37 Vgl. hierzu auch die kritische Diskussion in W. KEHREIN (2018), in der der Autor den Tonakzenten im Mittel- und Niederfränkischen ihren Status als Töne abspricht und stattdessen argumentiert, dass der wahrgenommene Kontrast vielmehr auf der (prosodischen) Fußstruktur beruhe. W. KEHREIN (2018) und auch PETERS (2014) sprechen von lexikalischen Tönen. Da Töne, so wie sie hier definiert sind, ausschließlich auf der lexikalischen Ebene operieren, vermeide ich diese Doppelung.
Phonologie der Prosodie
49
2.2.3 Die Äußerungsebene Prosodische Einheiten der Äußerungsebene sind ebenso in den Bereichen Akzentuierung, Intonation und (eingeschränkt) Quantität zu finden und haben dort nach der oben gegebenen Definition KEHREINS (2002: 82) „verschiedene sprachlichkommunikative (z. B. syntaktische, kommunikationssteuernde, emotionale) Grundbedeutungen […].“ Hieran ist bereits deutlich zu erkennen, dass die Funktionen prosodischer Einheiten der Äußerungsebene nicht so einfach und eindeutig zu beschreiben sind, wie es auf der lexikalischen Ebene gelingt und dass linguistische gleichzeitig mit sogenannter paralinguistischer Information auftreten kann. Ich werde in diesem Kapitel zuerst diejenigen Bereiche der Äußerungsebene beschreiben, die gut untersucht sind und für die international weitestgehend Konsens in der Forschungsliteratur besteht. Dies betrifft zum einen prosodische Einheiten der Äußerungsebene aus dem Bereich der Akzentuierung, die oft unter den Schlagworten Hervorhebung, Fokus oder Informationsstruktur zu finden sind. Zum anderen betrifft dies denjenigen funktionalen Bereich der Prosodie, mit dem Emotionen, Bewertungen und im weitesten Sinne sprecher*inneninterne Merkmale und Befindlichkeiten indiziert werden können. Im Anschluss beschreibe ich für die Arbeit relevante Einheiten der Intonation aus Sicht verschiedener einschlägiger Modelle.
2.2.3.1 Hervorhebung und Informationsstruktur KEHREIN (2002: 90–96) unterscheidet in seinem Modell zur Prosodie im Deutschen zwischen Äußerungsakzent und Hervorhebungsakzent, die jeweils auf einer unterschiedlichen Ausprägung des auditiven Korrelats Prominenz beruhen. Der Äußerungsakzent setzt lexikalische und grammatische Elemente einer Äußerung zueinander in Beziehung und regelt somit die Informationsverteilung der Äußerung (vgl. KEHREIN 2002: 95). Das bedeutet, dass dies diejenigen Akzente sind, die in einer Äußerungseinheit durch die Positionen des jeweiligen (normativen) Wortakzents bestimmt sind. KEHREIN grenzt damit den Terminus Informationsverteilung klar von dem der Informationsstruktur ab, bei der durch Sprecher*innen willentlich herbeigeführte Akzentuierungen Konstituenten einer Äußerung als für Hörer*innen im sogenannten Fokus der Äußerung stehend oder als neu vs. gegeben markiert werden können (s. u.). Letztere Funktion sieht KEHREIN (2002: 95 und 226) in ähnlicher Art und Weise im Hervorhebungsakzent, mit dem Sprecher*innen die „Markierung von Konstituenten als besonders wichtig“ vornehmen – unabhängig davon, ob sie für Hörer*innen neu oder gegeben sind. Im Gegensatz zu Äußerungsakzenten, deren Position durch die einzelsprachlichen Regeln zur Wortakzentposition bestimmt wird, sind die Positionen von Hervorhebungsakzenten, so KEHREIN (2002: 94), „allein von der jeweiligen Sprecherintention und dem Kontext abhängig […].“ CRUTTENDEN (1997: 73) beschreibt diese Funktion im Rahmen der Britischen Schule auch für den dort so genannten Nukleus, definiert als die prominenteste Silbe einer Äußerung (vgl. PALMER 1922: 7): Sprecher*innen wählen die Position des
50
Prosodie
Nukleus so, dass die Aufmerksamkeit der Hörer*innen auf einen bestimmten Teil einer Äußerung gelenkt wird. Die Unabhängigkeit von der grammatischen Struktur findet sich entsprechend auch in der prosodischen Gestaltung der Informationsstruktur, hier nach FÉRY (2017: 137): „Information structure is largely independent of the lexical or propositional content of a sentence, around which grammar usually centers.“ Der Terminus Informationsstruktur wurde von HALLIDAY (1967b: 200–201) eingeführt. Grundgedanke HALLIDAYS war, dass gesprochene Sprache stets in separierbare Informationseinheiten eingeteilt wird, was einer der allgemeinen Grundfunktionen von Prosodie entspricht. Die interne Strukturierung sowie Anfang und Ende dieser Informationseinheiten sind dabei nicht von syntaktischen oder anderen grammatischen Konstituenten bedingt, sondern werden maßgeblich durch die Intonation von Sprecher*innen reguliert. Die daraus entstehende Struktur wird dann wiederum auf die grammatische Struktur der Äußerung projiziert (vgl. HALLIDAY 1967b: 200). Ein essentieller Teil von Beschreibungen der Informationsstruktur ist die FokusHintergrund-Gliederung, die durch Akzentuierung auf der Äußerungsebene umgesetzt wird (vgl. UHMANN 1991: 3). Hierbei wird nach UHMANN (1991: 3) der Fokus einer Äußerung verstanden als „der Teil, der inhaltlich im Vordergrund steht“, während der Hintergrund derjenige Teil ist, der „inhaltlich vorausgesetzt wird, kontextuell bekannt oder inferierbar ist.“ Die Markierung des Fokus setzt nach FÉRY (2017: 139) eine Reihe möglicher Alternativen für die Interpretation der Äußerung relevant. Ich verdeutliche diesen Punkt anhand eines Beispiels. Gegeben seien folgende Aussagen: (1) (2) (3) (4) (5) (6)
wIlly WILLY wIlly wIlly wIlly wIlly
Isst Isst ISST Isst Isst Isst
EIne EIne EIne EINE Eine Eine
kUgel kUgel kUgel kUgel KUGEL kUgel
EIs. EIs. EIs. EIs. EIs. EIS.
In (1) ist keine besondere Fokusstruktur erkennbar. Die Akzentuierungen, dargestellt im GAT2-Format, sind Resultat des Wortakzents und entsprechen somit KEHREINS (2002) Äußerungsakzent. In (2) ist Willy graphematisch hervorgehoben. Eine mögliche Alternative, die hier relevant gesetzt werden könnte, wäre ein anderer Akteur, der die Kugel Eis isst. Entsprechend könnte hier gefragt werden, wer eine Kugel Eis isst. In (3) besteht die Alternative aus der Aktion, die etwa zu einem bestimmten Zeitpunkt vonstattengeht: Willy kauft keine Kugel Eis, er isst sie (bereits). In (4) wird die Anzahl der Kugeln Eis als mögliche Alternative relevant gesetzt, in (5) wäre die Menge denkbar: nicht eine ganze Packung, sondern nur eine Kugel. In (6) wäre schließlich etwas anderes Essbares in Kugelform als Alternative denkbar. In den Fällen (2)–(6) würde die jeweils fokussierte Konstituente der Äußerung im Sinne KEHREINS Hervorhebungsakzents als besonders wichtig markiert. Sie steht somit inhaltlich im Vordergrund, während die anderen Konstituenten der Äußerung den Hintergrund darstellen. Eine alternative Terminologie bezeichnet die
Phonologie der Prosodie
51
Fälle (2)–(6), in denen ein Fokus- oder Hervorhebungsakzent vorliegt und eine bestimmte Konstituente als besonders relevant setzt, als engen Fokus, während (1), in dem lediglich Äußerungsakzente vorliegen und somit die gesamte Äußerung als relevant gesetzt wird, als weiten Fokus oder alternativ all-new-sentence (vgl. CRUTTENDEN 1997: 74 und FÉRY 2017: 148). Zu beachten ist, wie oben bereits in Bezug auf die Positionierung des Hervorhebungsakzents gesagt wurde, dass die Wahl des engen oder weiten Fokus und letztlich der gesamten Fokus-Hintergrund-Gliederung eine von Sprecher*innen willentlich herbeigeführte ist, die darauf basiert, ob Sprecher*innen eine bestimmte Information für besonders berichtenswert halten oder nicht (vgl. BAUMANN 2006: 138). Ich schließe mich diesbezüglich KEHREIN (2002: 95) an und betrachte Fokus- oder Hervorhebungsakzente als auditiv zu bestimmende Einheiten, die sich nicht etwa durch regelbasierte Fokusprojektionen oder Endakzentstärkungen (vgl. CHOMSKY 1972 und UHMANN 1991) vorhersagen lassen. Formal geht der Grundtyp des Hervorhebungsakzents, oder enger Fokus, auditiv mit einer stärker wahrnehmbaren Prominenz einher, die akustisch durch die relative Erhöhung der Grundfrequenz, der Intensität und der zeitlichen Erstreckung korrelieren kann, während der Äußerungsakzent, weiter Fokus oder Hintergrund, durch in Relation geringer wahrgenommene Prominenz charakterisiert ist (vgl. KEHREIN 2002: 226, BAUMANN 2006: 146–148 und FÉRY 2017: 148).38 Fokusmarkierungen können des Weiteren genutzt werden, um eine bestimmte inhaltliche Information als neu im Vergleich zu bereits gegebener Information zu markieren. Der weit gefasste Begriff Information innerhalb einer Äußerung kann hierbei ein Ereignis, ein Zustand oder ein Referent, sprachlicher wie außersprachlicher Natur sein (vgl. CHAFE 1994: 69–70 und CRUTTENDEN 1997: 81). Die Unterscheidung gegeben vs. neu kann dabei nach BAUMANN (2006: 36) nur auf der Diskursebene operieren, da gegebene Information (die in etwa oben gegebenem Terminus Hintergrund entspricht) per definitionem entweder bereits durch den vorangegangenen Diskurs kommuniziert werden musste oder aber durch den Kontext des Diskurses erschließbar sein muss (vgl. UHMANN 1991: 3 und FÉRY 2017: 138). Eine diesen Gegenstand vereinfachende, aber dadurch sehr leicht verständliche Paraphrasierung gibt HALLIDAY (1967b: 212): „‘given’ means ‘what you were talking about’ (or ‘what I was talking about before’) […].“ Auch hier beruht diese Markierung auf der auditiv wahrnehmbaren Prominenz bestimmter Silben einer Äußerung. Die Ausprägung der Prominenz ist dabei nach BAUMANN (2006: 90–91) von unterschiedlichen Graden der Gegebenheit einer Information abhängig. Solche unterschiedlichen Grade der informationsstrukturellen Zugänglichkeit einer Information nimmt auch CHAFE (1976 und 1994) an. CHAFES Schwerpunkt liegt in der Beschreibung des Bewusstseinszustandes von Sprecher*innen und Hörer*innen in einer Konversation, ohne die es fast unmöglich sei, den Unterschied von gegebener und neuer Information adäquat beschreiben und verstehen zu können (vgl. CHAFE 1994: 72). Die Unterscheidung zwischen neuer, gegebener und 38 Zu einer Diskussion der in diesem Forschungsdiskurs häufig auftretenden komplementären, aber nicht immer eindeutig genutzten Termini Thema vs. Rhema, Fokus vs. Hintergrund und neu vs. gegeben vgl. BAUMANN (2006: 26–36).
52
Prosodie
zugänglicher Information als einem Zwischenstatus basiert nach CHAFE auf verschiedenen activation states (Aktivierungsstatus) der Information im Bewusstsein der Interaktant*innen. Hierbei unterscheidet CHAFE (1994: 53) zwischen drei Aktivierungsstatus: „According to whether some idea is in the focal, peripheral, or unconscious state, we can speak of it as active, semiactive or inactive.“ Im Bewusstsein beider Interaktant*innen aktive Information wird mit gegebener Information gleichgesetzt, während primär für Hörer*innen zugängliche (accessible) Information semiaktiv und für Hörer*innen neue Information inaktiv in deren Bewusstsein sind (vgl. CHAFE 1994: 73). Als Grund für einen unterschiedlichen Aktivierungsstatus bestimmter Information im zeitlichen Verlauf einer sprachlichen Interaktion gibt CHAFE (1994: 140) die limitierte Leistung eines aktiven Bewusstseins auf nur eine kleine Menge an neuer Information an: „We are […] physically designed to deal with only a very small amount of information at one time […] in one focus of active consciousness.“ In der weiteren Beschreibung gibt CHAFE (1994: 53 und 140) hierfür ein vergleichendes Beispiel, das sich in der Übertragung auf die verschiedenen Aktivierungsstatus meines Erachtens auch als ein sehr gelungenes erweist: Bei visuellem Fokus des menschlichen Auges (oder mancher Kameras) ist nur ein bestimmter Bereich im exakten Fokus und somit scharf erkennbar (aktiv, gegeben). Die anderen Bereiche des peripheren Sehens sind dann nicht unsichtbar, aber unscharf (semiaktiv, zugänglich). Objekte außerhalb des Sehfeldes können hingegen nicht erfasst werden (inaktiv, neu). Die Aufmerksamkeit der Wahrnehmenden muss erst auf den neuen Bereich gelenkt werden, hier etwa mechanisch durch Drehen des Kopfes, in der sprachlichen Interaktion durch Akzentuierung. Ich werde auf das Intonationsmodell CHAFES erneut in Kapitel 2.2.4.4 zu sprechen kommen. Aufmerksamkeitslenkungen dieser Art sowie die Konzepte von aktiv und semiaktiv spielen des Weiteren in der funktionalen Modellierung der in dieser Arbeit zu untersuchenden prosodischen Einheiten im Rahmen der Konversationsanalyse eine Rolle und werden erneut in Kapitel 4.4 aufgegriffen. Intonatorische Analysen von Information in unterschiedlichen Graden der Zugänglichkeit unter Rückgriff auf CHAFES Modell finden sich in BAUMANN / GRICE (2006) und BAUMANN (2008).
2.2.3.2 Linguistisch vs. paralinguistisch Wie in der Einleitung dieses Kapitels bereits zu lesen war, ist eine häufig vorgenommene funktionale Einteilung in der Prosodieforschung die, die zwischen linguistischer und paralinguistischer Prosodie unterscheidet. Diese beiden Bereiche sind jedoch eng miteinander verbunden, oft kaum sauber trennbar und konstituieren zusammen komplexe Äußerungsbedeutungen (vgl. LADD 2008: 34–35). Offenbar besteht auch hier erneut keine Einigkeit unter den Forscher*innen darüber, was linguistisch und paralinguistisch ist. So klassifiziert LEEMANN (2012: 24–30) die allgemeinen Funktionen von Prosodie der Kommunikationsorganisation und das sprachliche Lautkontinuum in kleinere Einheiten einzuteilen als paralinguistisch. Emotionen, Sprecher*innencharakteristika und Befindlichkeiten werden hingegen als
Phonologie der Prosodie
53
nicht-linguistisch behandelt. Phänomene nonverbaler Kommunikation, die einer Äußerung Bedeutungsanteile hinzufügen können, werden zuweilen auch zu paralinguistischen Phänomenen gezählt. So etwa Gestik und Mimik von Sprecher*innen, deren Proxemik (vor allem körperliche Nähe vs. Distanz zu Kommunikationspartner*innen) und die Blickrichtung (vgl. BOLINGER 1986: 194–214 und LADD 2014: 91–92). Ich werde in diesem Teilkapitel nur diejenigen paralinguistischen Aspekte betrachten, die Äußerungen durch Ausprägungen prosodischer Merkmale Bedeutungsanteile hinzufügen können oder sogar eigene Bedeutungen konstituieren. In der hier gewählten Einteilung untersucht die linguistische Prosodie Merkmale, die linguistisch (relevante) funktionale Einheiten konstituieren. Diese sind diejenigen, die bereits vorgestellt wurden: Wortakzent, Fokus- oder Hervorhebungsakzent, Ton und Tonakzent, Quantität und Intonationsmuster.39 Die paralinguistische Prosodie untersucht hingegen Merkmale, die diesen linguistischen Einheiten Bedeutungsanteile hinzufügen können und somit potenziell gleichzeitig auftreten können. KEHREIN (2002: 323) konnte für das Deutsche belegen, was LADD (2008: 34–36) generell für paralinguistische Phänomene formulierte, nämlich, dass „zwischen den akustischen Parametern der kontinuierlichen prosodischen Einheiten mit emotionaler Bedeutung und der prosodischen Einheiten mit primär linguistischen Funktionen keine relevante Interaktion besteht.“ So bleiben Akzentuierungen stets auditiv wahrnehmbar und der globale Trend steigender oder fallender Intonationsmuster auf Domänen der Äußerungsebene bleibt auch dann erhalten, wenn dem betroffenen Äußerungsabschnitt Emotionalität attestiert werden kann. Ich folge des Weiteren NEPPERT (1999: 193–194) und teile paralinguistische prosodische Merkmale in potenziell bewusst steuerbare und in der Regel nicht bewusst steuerbare Merkmale ein.40 Letztere umfassen sprecher*innenspezifische, biologische Gegebenheiten, die nicht der aktiven Kontrolle der Sprecher*innen unterliegen und keinerlei linguistische Funktion erfüllen, den Rezipient*innen aber vielerlei Information über die jeweiligen Sprecher*innen vermitteln können (vgl. NEPPERT 1999: 192 und SENDLMEIER 2018: 219). Hierzu zählen biologisches Geschlecht, Alter sowie Gesundheit und sprechpathologische Besonderheiten.41 Das biologische Geschlecht wirkt sich vor allem auf verschiedene messbare Frequenzwerte aus: Durch den längeren Vokaltrakt von Männern gegenüber dem 39 Besonders bei Intonationsmustern ist eine klare Separierung der linguistischen und paralinguistischen Ebene schwierig, da hier dieselben prosodischen Merkmale an der Konstitution verschiedener prosodischer Einheiten beteiligt sein können (vgl. hierzu besonders KEHREIN 2002). 40 Ich schränke die Steuerbarkeit zusätzlich mit potenziell und in der Regel ein, da emotionale Zustände oft nicht der Kontrolle der Sprecher*innen unterliegen und andere paralinguistische Merkmale wie die des Alters oder des biologischen Geschlechts durch Imitationen oder auf anderen Wegen artifiziell herbeigeführt werden können. 41 NEPPERT (1999: 194) zählt des Weiteren geographische, bzw. dialektale Merkmale und soziale, bzw. Gruppenmerkmale zur nicht bewusst steuerbaren paralinguistischen Prosodie. Vor allem erstere Merkmale spielen aus variationslinguistischer Sicht eine große Rolle und sind oft keineswegs als paralinguistisch zu betrachten, sondern sind meines Erachtens linguistischer Natur. Ich behandle regionalsprachliche Aspekte vornehmlich der Intonation im Forschungsüberblick in Kapitel 3.3 und fortwährend in den einleitenden Teilkapiteln der Analyse in Kapitel 5.
54
Prosodie
von Frauen produzieren Männer im Durchschnitt tiefere Formantfrequenzen. Ähnliches gilt für die durchschnittliche Grundfrequenz, die bei Männern aufgrund der größeren und schwereren Stimmlippen generell tiefer als die von Frauen ist, da die Stimmlippen durch diese anatomischen Gegebenheiten langsamer schwingen (vgl. GUSSENHOVEN 2004: 72). Durch den biologischen Alterungsprozess des Menschen kommt es im Kehlkopf zu Verknöcherungen der an der Phonation beteiligten Stellknorpel (Arytenoiden), Gewebeveränderungen der Stimmlippen und der Schwächung des Musculus Vocalis. Hierdurch kann es zu Irregularitäten beim Ablauf der Stimmlippenschwingung kommen, was wiederum Auswirkungen auf die Stimmqualität hat, die bei älteren Menschen daher oft als creaky oder breathy voice wahrgenommen wird (vgl. Kapitel 2.1) sowie zu Veränderungen der durchschnittlichen Grundfrequenz, die bei Männern im Alter in der Relation höher und bei Frauen tiefer ist (vgl. SENDLMEIER 2018: 271–273). Zusätzlich ist bei beiden Geschlechtern mit zunehmendem Alter in der Regel ein Rückgang der durchschnittlichen Intensität und eine Reduktion der durchschnittlichen Sprechgeschwindigkeit zu beobachten (vgl. SENDLMEIER 2018: 272–274). Bezüglich der Gesundheit und Sprechpathologie muss zwischen kurz- und langfristigen Auswirkungen unterschieden werden. Während etwa Erkrankungen der oberen Atemwege nur kurzfristige Auswirkungen auf die Stimmqualität, die Sprechgeschwindigkeit, die Intensität und den genutzten F0-Umfang haben können, bringen sprach- und sprechpathologische Besonderheiten oft langfristigere und umfassendere Veränderungen prosodischer Merkmale mit sich (vgl. NEPPERT 1999: 193–194). Bleiben jedoch etwa bei verschiedenen Typen der Aphasie, die häufig nach einem erlittenen Schlaganfall auftreten können, die Prosodie inklusive ihrer kommunikationsorganisierenden Funktion unberührt (vgl. RICKHEIT et al. 2002: 330), gibt es neurogene Sprach- und Sprechstörungen, bei denen das prosodische System langfristig betroffen sein kann. In einem solchen Fall spricht man von Dysprosodie, die etwa in manchen Fällen des Morbus Parkinson auftritt. Auswirkungen des Syndroms können dabei eine ganze Reihe prosodischer Merkmale in ihrer Produktion betreffen: Die durchschnittliche Grundfrequenz, der genutzte F0-Umfang vor allem bei der Akzentuierung, die Struktur äußerungsglobaler Intonationsverläufe, die durchschnittliche Intensität, die zeitliche Erstreckung einzelner Äußerungssegmente sowie die Sprechgeschwindigkeit können im Rahmen einer Parkinsonerkrankung im Vergleich zu gesunden Sprecher*innen derselben Sprache oder Varietät abweichen (vgl. SKODDA / RINSCHE / SCHLEGEL 2009, TYKALOVA et al. 2014 und GALAZ et al. 2016). Nach NEPPERT (1999: 191–192) zählen zu den in der Regel bewusst steuerbaren paralinguistischen Merkmalen Emphase, Stimmung und situative Merkmale. NEPPERT (1999: 191) zufolge werden Merkmale aus diesen Bereichen von Sprecher*innen eingesetzt, um „sprechsituationsbezogene Zusatzinformationen zu vermitteln.“ Solchen Zusatzinformationen ist jedoch ein größerer kommunikativer Wert zuzuschreiben, als es der Terminus an sich vermuten lässt. Dies stellt bereits PIKE (1945: 22) fest: „[T]he hearer is frequently more interested in the speaker’s attitude than in his words […].“ Die steuerbaren paralinguistischen Bereiche, denen
Phonologie der Prosodie
55
ein hoher Wert in der kommunikativen Interaktion zugeschrieben wird, sind nach dem Zitat insbesondere Sprecher*inneneinstellungen, die wiederum maßgeblich an der Wahrnehmung von Emotionen beteiligt sind. Eine eindeutige Definition des Begriffs Emotion ist dabei jedoch weder für den Laien noch aus wissenschaftlicher Perspektive unkontrovers, vor allem im Hinblick auf die Abgrenzung zu anderen semantisch nahestehenden Begriffen wie Affekt, Gefühl oder Stimmung (vgl. SCHERER 1990: 2 und SCHWARZ-FRIESEL 2007: 1). SCHERER (1990: 3–5) definiert Emotionen als Prozesse, an denen ein Netzwerk an steuernden und expressiven Komponenten kognitiver, neurophysiologischer und motivationaler Art sowie einer Ausdrucks- und Gefühlskomponente beteiligt sind. Die Ausdruckskomponente erscheint als die für die empirische Sprachwissenschaft relevanteste, zumindest für die Untersuchung von Form und Funktion emotionalen Ausdrucks in kommunikativer Interaktion. Die Kommunikation einer Emotion durch die Ausdruckskomponente dient in der Interaktion nach SCHERER (1990: 5) dem „Ausdruck und damit der Kommunikation von Reaktion und Intention sowie der Ausführung willentlicher Handlungen.“ Der in der Regel kontrollierbare verbale Ausdruck von Emotionen erfüllt demnach einen pragmatischen Zweck und hat einen Handlungswert, weswegen ich davon absehe, wie LADD (2008: 35) die Kommunikation von Emotionen, Einstellungen, Bewertungen und Sprecher*innenbefindlichkeiten als bloße Modifikationen linguistischer (in LADDS Worten phonologischer) prosodischer Kategorien zu betrachten. Nach BOLINGER (1986: 195 und 1989: 1) dient die Intonation als Resultat phylogenetischer Entwicklungsvorgänge sogar primär der Kommunikation von Emotionen.42 Auch diese Ansicht teile ich nicht in Gänze, zumal ich die linguistischen Funktionen der Prosodie und teilweise prosodischer Einheiten aus dem Bereich der Intonation bereits vorgestellt habe. Der verbale Ausdruck, und davon die Prosodie als sprachliches Signalisierungssystem ist, wie aus der Definition SCHERERS hervorgeht, nur ein Teil der Ausdruckserscheinungen von Emotionen. KEHREIN (2002: 101) spricht in diesem Fall somit korrekterweise von Indikatoren solcher empirisch schwer zugänglichen Vorgangskomplexe. KEHREIN (2002: 142, im Original teilweise kursiv) definiert Emotionen des Weiteren in Abhängigkeit von Sprecher*inneneinstellungen auf bestimmte Elemente der Umwelt: Emotionen in der kommunikativen Interaktion konstituieren sich durch die sprachliche Manifestation der Einstellung/Befindlichkeit eines Sprechers – auf den Dimensionen Valenz, Aktivierung, Dominanz […] – gegenüber aktuellen […] Elementen seiner Umwelt auf der Grundlage eigener Vorstellungen/Erwartungen.
Der definitorische Zusammenhang zwischen Emotionen und Einstellungen gegenüber Elementen der Umwelt wird auch in SCHWARZ-FRIESEL (2007: 48) deutlich, die in ihrer Arbeitsdefinition darlegt, dass es sich bei Emotionen „um auf innere und äußere Erlebenskomponenten bezogene Bewertungen handelt.“ Der wertende Charakter emotionaler Äußerungen gegenüber bestimmten, aktuellen Elementen der Umwelt und dem inneren Erleben ist demnach gegenstandskonstituierend. Ak-
42 Vgl. hierzu auch SCHERER (1995). Ich werde diesen Punkt erneut in Kapitel 7.1 aufgreifen.
56
Prosodie
tuelle Elemente der Umwelt in der Kommunikation von Emotionen können Gesprächspartner*innen (Personen und deren soziale Rolle), Gegenstände und Sachverhalte, die eigene Person und ihre Einstellung sowie die Gesamtsituation sein (vgl. KEHREIN 2002: 143). Die eigenen Vorstellungen und Erwartungen können dabei konventionalisiert sein, und zwar durch die oben dargestellten Elemente der Umwelt. Der verbale (und so auch der prosodische) Ausdruck von Emotionen, beziehungsweise dessen Darbietung unterliegt dabei bestimmten soziokulturellen Regeln und Normierungen, die als Display Rules (Darbietungsregeln) bezeichnet werden (vgl. EKMAN / SORENSON / FRIESEN 1969 und EKMAN 1972). Emotionen lassen sich in Anlehnung an WUNDT (1910) und HAMM / VAITL (1993) durch mehrere Dimensionen kategorisieren (vgl. KEHREIN 2002: 110–111). Je nach Einteilung auf diesen Dimensionen können dabei auch die verbalsprachlichen und somit prosodischen Ausdrucksparameter variieren. Verbalsprachliche Indikatoren von Emotionen gehen dabei in Abhängigkeit von der Dimension Aktivierung, Dominanz und Valenz43 auch mit unterschiedlichen Ausprägungen verschiedener prosodischer Merkmale einher. So lassen sich nach SCHERER / WALLBOTT (1990: 384) „hohe Grundfrequenz, große Lautstärke und schnelle Sprechgeschwindigkeit mit einem hohen, niedrige Grundfrequenz der Stimme mit geringer Variabilität, geringer Intensität und langsamem Tempo mit einem niedrigen Erregungsniveau“ korrelieren. Die für die vorliegende Untersuchung besonders relevante Dimension ist die Valenzdimension, da auf ihr in der kommunikativen Interkation positive und negative Evaluationen gegenüber den aktuellen Elementen der Umwelt vorgenommen werden. Von einer ausführlichen Analyse konkreter Emotionen und deren Ausprägungen prosodischer Merkmale kann daher hier abgesehen werden.44 Ich folge entsprechend SENDLMEIER (2018: 233), der diesen Punkt wie folgt darstellt: Für die Untersuchung evaluativer Äußerungen ist weniger eine genaue Definition des Begriffs Emotion von Bedeutung, sondern lediglich die Unterscheidung zwischen positiven und negativen Emotionen. Diese Unterscheidung wird in der Regel sehr übereinstimmend aufgrund der Positionierung entlang der Valenzdimension vorgenommen […].
SENDLMEIER (2018) führt zur Untersuchung evaluativer Äußerungen auf der Valenzdimension akustische und auditive Analysen neun semantisch neutraler Einzelsätze durch, die sowohl von männlichen als auch von weiblichen Sprecher*innen eingesprochen und anschließend in einen Kontext eingebettet wurden, der in darauffolgenden Perzeptionstests eine positive oder negative Bewertung ermöglicht (vgl. SENDLMEIER 2018: 224–225). Die in den Tests positiv beziehungsweise negativ bewerteten Äußerungen wurden daraufhin auf ihre Ausprägungen der auditiven prosodischen Merkmale Tonhöhenregister und genutzter Tonhöhenumfang, Dauer 43 Valenz ist hier keineswegs im grammatischen, sondern rein im emotionspsychologischen Sinn zu verstehen. 44 Die Leser*innen seien stattdessen auf eine Vielzahl solcher Untersuchungen verwiesen, etwa SCHERER (1990), SCHERER / WALLBOTT (1990), FIEHLER (1990 und 2008), SCHERER (1995), KIENAST (2002), PAESCHKE (2003), ENTERLEIN / BARTELS / SENLDMEIER (2005) und vor allem zu negativ konnotierten Emotionen SENDLMEIER / STEFFEN / BARTELS (2016).
Phonologie der Prosodie
57
bei Akzentuierungen sowie der wahrgenommenen Sprechgeschwindigkeit, Klangqualität und Rhythmus untersucht (vgl. SENDLMEIER 2018: 227–229).45 Für positiv bewertete Äußerungen ließen sich dabei ein relativ hohes Tonhöhenregister und ein hoher genutzter Tonhöhenumfang, zusätzlich zu einer erhöhten Sprechgeschwindigkeit beobachten, während für negativ bewertete Äußerungen ein relativ tiefes Tonhöhenregister, ein niedrig genutzter Tonhöhenumfang in Kombination mit einer verringerten Sprechgeschwindigkeit (was auditiv den Eindruck monotonen Sprechens erweckte) und eine erhöhte Dauer einzelner Segmente bei Akzentuierungen charakteristisch waren (vgl. SENDLMEIER 2018: 227–235). Evaluative Äußerungen lassen sich so in Abhängigkeit der Ausprägung ihrer prosodischen Parameter kontinuierlich (oder graduell) entlang der emotionalen Dimension der Valenz abstufen. Abbildung 10 veranschaulicht diesen Prozess.
Abb. 10: Valenzdimension evaluativer Äußerungen
Die in SENDLMEIER (2018) untersuchten Sätze sind allesamt prosodischen Domänen des higher level zuzuordnen. Aus meinen Perzeptionstests und Analysen wird jedoch hervorgehen, dass einige der Befunde, besonders die Korrelation zwischen niedrigem Tonhöhenregister von Intonationsmustern und negativ konnotierten Äußerungen, auch für prosodische Einheiten auf Domänen des lower level gelten. Dieser Befund geht konform mit den Aussagen von LADD (2008) über das Verhältnis von paralinguistischen Phänomenen und prosodischen Domänen. So sind nach LADD (2008: 38) paralinguistische prosodische Einheiten unabhängig von der prosodischen Domäne. Das bedeutet, dass, obwohl viele der emotionalen prosodischen Einheiten auf dem higher level der prosodischen Domänen verortet sind, es ebenso möglich ist, dass sich paralinguistische Prosodie nur über in der Hierarchie niedriger gestellte Domänen erstreckt. So kann auch nur einzelnen Teilen einer Äußerung ein evaluativer oder emotionaler Wert zugesprochen werden. Zudem unterliegen nach LADD (2008: 37) alle paralinguistischen prosodischen Einheiten, vornehmlich der Intonation, kontinuierlichen Form-Funktionszuordnungen, während Diskretheit nur für linguistische Funktionen anzunehmen ist. Diese Charakteristika decken sich allerdings nur teilweise mit den Befunden für das standardnahe Deutsch von KEHREIN (2002: 322), der lokale, mit einzelnen Silben korrelierende, und globale, mit größeren Segmentketten korrelierende emo-
45 Auf Klangqualität und Rhythmus werde ich nicht weiter eingehen, da die Phänomene für meine Analysen nicht relevant sind. Der Autor verwendet des Weiteren teils andere Termini, die ich in die hier verwendete Terminologie übertragen habe.
58
Prosodie
tionale prosodische Einheiten in einem spontansprachlichen Korpus findet. Die globalen emotionalen prosodischen Einheiten des Deutschen, denen jeweils eine kontinuierliche Form-Funktionszuordnung zugrunde liegt, sind das Sprechtempo und die globale Prominenz. Die beschreibbare Form des Sprechtempos zeigt eine Erhöhung oder Verminderung der durchschnittlichen Anzahl der Silben pro Sekunde. Funktional stuft die Einheit auf der Dimension der Aktivierung kontinuierlich zwischen den Polen erregt und ruhig ab. Die beschreibbare Form der globalen Prominenz zeigt eine Erhöhung oder Verminderung des durchschnittlichen F0-Umfangs und der relativen Intensität. Ihre Funktion liegt in einer ebenso kontinuierlichen Abstufung auf der Dimension der Dominanz zwischen den Polen stark und schwach (vgl. KEHREIN 2002: 322–323). Weiterhin identifiziert KEHREIN (2002) in seinem Korpus aber auch eine lokale prosodische Einheit des Deutschen, die genuin emotionaler Natur ist und der eine diskrete Form-Funktionszuordnung zugrunde liegt.46 Es handelt sich dabei formal um ein komplexes, fallend-steigend-fallendes Intonationsmuster, das auf der Valenzdimension eine positive Bewertung kodiert (vgl. KEHREIN (2002: 322).47 PISTOR (2017) konnte zeigen, dass diese Einheit nicht nur für das (standardnahe) Deutsche Gültigkeit beansprucht, sondern in fünf verschiedenen Sprachen aus jeweils unterschiedlichen Sprachfamilien in dieser Form-Funktionszuordnung existiert und somit potenziell universell ist. Die Analysen werden weiterhin zeigen, dass die Universalität dieser Einheit auch auf alle hier untersuchten Regionalsprachen des Deutschen und darin auf unterschiedliche Generationen mit unterschiedlichen segmentalphonologischen Dialektalitätsniveaus zutrifft. 2.2.4 Die Beschreibung von Intonationsmustern in verschiedenen Modellen Die vorliegende Untersuchung beschäftigt sich primär mit prosodischen Einheiten der Intonation auf der Äußerungsebene. Wie oben bereits dargestellt, haben prosodische Einheiten dieser Ebene verschiedene Funktionen, von denen eine die syntagmatische Strukturierung des kontinuierlichen Redeflusses in kleinere Einheiten ist. Wie einleitend in Kapitel 2.2 zu sehen war, setzt dies im klassischen Strukturalismus voraus, dass sich alle Einheiten auch entsprechend segmentieren lassen (Absolute Slicing). Aus dieser Segmentierung gehen dann diejenigen prosodischen Einheiten hervor, die sich über bestimmte Domänen erstrecken. In diesem Kapitel sind es die Einheiten des higher level, die von besonderem Interesse sind. Die Segmentierung dieser Einheiten, also die Abgrenzung zu anderen Einheiten des Redeflusses 46 Identifiziert wird diese Einheit neben einer lokalen prosodischen Einheit paralinguistischer Natur mit erneut einer kontinuierlichen Form-Funktionszuordnung, die Erwartbarkeit indiziert und ein stark erhöhtes F0-Maximum auf einer akzentuierten Silbe darstellt (vgl. KEHREIN 2002: 322). Einige dieser Befunde decken sich mit den biologischen Kodes aus GUSSENHOVEN (2004). Hierbei werden bestimmten paralinguistischen Phänomenen universelle Funktionen oder Interpretationen zugesprochen. Ich behandle diese Thematik in Kapitel 2.3.2 nebst anderen potenziell universellen Strukturen der Prosodie. 47 Vgl. hierzu auch SCHMIDT (2001: 25), der diese Einheit in experimentellen Studien ebenso gefunden hat.
Phonologie der Prosodie
59
mit klarem Beginn und Ende ist dabei keineswegs unproblematisch und wird in verschiedenen Modellen der Prosodie unterschiedlich angegangen. Zu klären ist hierbei ganz basal, mit welchen segmentellen Größen prosodische Einheiten jeweils assoziiert sind. Sind die Einheiten ausschließlich aufgrund ihrer Segmentstruktur zu ermitteln und abzugrenzen, oder lassen sich an bestimmten Stellen im kontinuierlichen Tonhöhen- und Lautstärkeverlauf der Intonation einer Äußerung Grenzen feststellen? Das Problem der prosodischen Einheiten der Intonation auf der Äußerungsebene ist hierbei im Gegensatz zu den in den Kapiteln 2.2.3.1 und 2.2.3.2 vorgestellten Einheiten ihre nicht bekannte oder nur unzureichend geklärte konkrete linguistische Funktion. Ist diese im Vorfeld bekannt, lassen sich auch reliable Abgrenzungen vornehmen. Um dennoch Einheiten der Intonation beschreiben und entsprechend im Vorfeld abgrenzen zu können, wurden Lösungen in verschiedenen internationalen Prosodiemodellen auf unterschiedlichen Wegen vorgeschlagen. So wurden im Rahmen unterschiedlicher Modelle phonetische, phonologische, teilweise prosodische, aber auch äußerungssemantisch-pragmatische oder syntaktische Kriterien zur Abgrenzung festgelegt. Ich werde in den folgenden Teilkapiteln die verschiedenen Verfahrensweisen zur Beschreibung prosodischer Einheiten der Intonation auf der Äußerungsebene beleuchten. Ich werde bei allen Modellen darauf eingehen, wie die entsprechenden Einheiten in der jeweiligen Forschungstradition bezeichnet werden, wie sie definiert sind, durch welche Parameter sie abgegrenzt werden und an einigen Stellen darstellen, welche Stärken und Schwächen die Vorgehensweise im jeweiligen Modell mit sich bringt. Ich werde zudem skizzieren, welche linguistische Funktion den Einheiten zugeschrieben wird – sofern dies im entsprechenden Modell angegangen wurde. Beginnen werde ich mit den einschlägigen Beschreibungsrahmen der Britischen Schule und der autosegmental-metrischen (AM) Phonologie, aus deren Modellierungen letztlich rezente Beschreibungen im vielfach angewendeten Tonsequenzmodell hervorgehen. Im Anschluss gehe ich auf konversationsanalytisch orientierte und andere alternative Modelle ein. Auf eine erschöpfende Gesamtdarstellung der Modelle verzichte ich hierbei und konzentriere mich auf die relevanten Beschreibungseinheiten. Ich beschreibe hierbei die ersten beiden Modelle aufgrund ihrer internationalen Anerkennung und Verwendung ausführlicher als die anderen.
2.2.4.1 Britische Schule: Tone-Groups Die sogenannte Britische Schule der Intonationsforschung wurde maßgeblich von den Arbeiten von PALMER (1922), HALLIDAY (1967a), CRYSTAL (1969) und ihrem Vertreter CRUTTENDEN (1997) geprägt, dessen Lehrbuch eine ausführliche Darstellung des Modells bietet. Auf das Deutsche übertragen wurde das Modell von VON ESSEN (1964), PHEBY (1975) und in Teilen KOHLER (1991a und 1995b) in dem von ihm eingeführten Kieler Intonationsmodell (KIM) sowie ebenfalls in Teilen PETERS
60
Prosodie
(2009) im Rahmen der „Duden“-Grammatik.48 Anhand PALMERS Text wird klar, dass die Tradition der Britischen Schule ursprünglich zum Lernen/Lehren englischer Intonation eingeführt wurde, was VON ESSEN dann ebenso für das Deutsche übernommen hat (vgl. FÉRY 2017: 125). Die zentrale und gleichzeitig größte Beschreibungseinheit des Modells ist die von PALMER (1922: 7) so benannte Tone-Group. Alternative Termini für die ToneGroup sind sense-group, breath-group, tone-unit, phonological phrase oder clause, intonation-group oder intonational phrase (vgl. CRUTTENDEN 1997: 29). An dieser Auflistung lässt sich bereits die Vielfalt an Kriterien erkennen, die zur Delimitation der Beschreibungseinheiten herangezogen wurden. Suggeriert der Terminus sensegroup semantische Kriterien, erinnert der Terminus breath-group eher an exspiratorisch-artikulatorische Eigenschaften. Die phonological phrase wirkt regelbasiert (vgl. Domänen in Kapitel 2.2.1). Tone-unit, intonation-group sowie intonational phrase scheinen hingegen rein prosodisch definiert zu sein. PALMER (1922: 7, im Original kursiv) definiert die Tone-Group als „a word or series of words in connected speech containing one and only one maximum of prominence.“ Dieses Maximum an Prominenz liegt stets auf einer weiteren zentralen Beschreibungseinheit, dem Nukleus, begriffen als „the stressed syllable of the most prominent word in the Tone-Group“ (PALMER 1922: 7). Nach CRUTTENDEN (1997: 42) fällt diese Silbe zumindest in der Mehrheit der Fälle mit der letzten akzentuierten Silbe einer ToneGroup zusammen. Die Zuweisung des Nukleus verläuft also zu Teilen auditiv prominenzbasiert und zu Teilen strukturregelbasiert. Wurde der Nukleus ermittelt, wird die Tonhöhenbewegung von diesem Punkt ausgehend bis zum Ende der ToneGroup Nucelar Tone genannt. Diesem Verlauf wird die größte Bedeutung zugeschrieben, die von vorausgehenden Akzentuierungen in derselben Tone-Group lediglich in geringerem Maße modifiziert werden können (vgl. CRUTTENDEN 1997: 50–54). Im Rahmen der Britischen Schule werden diesen Intonationsverläufen, den Nuclear Tones, direkt linguistische Funktionen zugesprochen. Steigende und fallende Tonhöhenbewegungen, (falls und rises) die den Nuclear Tone konstituieren, werden somit als „distinktive tonale Einheiten“ angesehen (PETERS 2014: 19). Während der Nukleus obligatorischer Bestandteil von Tone-Groups ist, kann er optional von den Elementen pre-head, head und tail begleitet werden, wobei dem head akzentuierte und unakzentuierte Silben vor dem Nukleus, dem pre-head unakzentuierte Silben vor dem head und dem tail alle Silben nach dem Nukleus zugewiesen werden (vgl. PETERS 2014: 19). Abbildung 11 zeigt die gängige Notation von Tone-Groups in der Britischen Schule anhand eines fiktiven Beispielsatzes. Die Notation erfolgt meist in einer Partiturdarstellung in der sogenannten tadpole-Notation (zu Deutsch: Kaulquappennotation). Bei dieser Notation wird jeder Silbe ein Punkt zugeordnet, der je nach zugeschriebener Akzentuierung groß oder klein ausfällt. Der Punkt für den Nukleus wird zusätzlich mit einem Bogen versehen, der steigende oder fallende Tonhöhenbewegungen darstellt (vgl. PETERS 2014: 19–20). 48 PETERS (2009) nutzt Teile von Modellen der Britischen Schule (Nuclear Tones) in Kombination mit denen der AM-Phonologie (Grenztöne), die im nächsten Teilkapitel beleuchtet werden.
Phonologie der Prosodie
61
Abb. 11: Tadpole-Notation der Britischen Schule in Anlehnung an PETERS (2014: 23)
Die Abgrenzungskriterien der hier wichtigen Beschreibungseinheit Tone-Group, deren segmentelle Basis ein Wort oder eine Reihe von Worten sein kann (s. o.), lassen sich nach CRUTTENDEN (1997: 29) in externe und interne Kriterien einteilen. Unter externen Kriterien werden phonetische und prosodische Merkmale gelistet. Diese sind Pausen, Anacrusis, verstanden als eine plötzliche Erhöhung des Sprechtempos, und Dehnung der finalen Silbe sowie sprunghafte Veränderungen der Tonhöhe oder des Tonhöhenverlaufs unakzentuierter Silben (vgl. CRUTTENDEN 1997: 29–34). Als interne Kriterien gelten nach CRUTTENDEN (1997: 29 und 35) das Vorhandensein eines „pitch accent“, der unumgänglicherweise dann als Nukleus bezeichnet wird und dadurch entstehende „acceptable ‘whole’ intonation patterns.“ Die Tone-Group ist intern also durch den Nukleus definiert, während der Nukleus selbst durch sein Auftreten innerhalb der Tone-Group definiert ist. CRUTTENDEN (1997: 29) bemerkt dazu selbst: „The assignment of intonation-group boundaries is therefore something of a circular business.“ Funktionale Beschreibungen für die Tone-Group selbst liegen nicht vor – abgesehen von der syntagmatischen Strukturierung, die Ausgangsbasis für die Annahme einer solchen Einheit war. Dies ist der Vorstellung geschuldet, dass sämtliche Bedeutung auf Ausprägungen des Nuclear Tone zu finden sei, für die im Gegensatz zur Tone-Group teils konkrete Funktionsbeschreibungen vorliegen. Nach CRUTTENDEN (1997: 73 und 89) liegt die Funktion des Nukleus selbst in der Fokussierung einer Einheit (s. o., Kapitel 2.2.3.1), während der Nuclear Tone, also das Gesamt aus Nukleus und tail, diskurs- oder einstellungsbezogene Spezifizierungen des fokussierten Elements als Grundfunktion trägt. CRUTTENDEN (1997: 87–88) wendet sich weiterhin explizit gegen die Annahme, die Intonation (wenngleich auch nur diejenige des Nuclear Tone) determiniere syntaktische Strukturen, etwa von Deklarativen, Interrogativen oder Imperativen. Einen solchen Ansatz verfolgt OTTO VON ESSEN (1964) in seiner Übertragung der Britischen Schule auf die deutsche Satzintonation. Wie im Vorwort zur ersten Auflage zu lesen ist, war es VON ESSENS Absicht, ähnlich wie PALMER (1922), ein Lehrwerk zu erstellen, dass Lerner*innen Regelhaftigkeiten der deutschen Intonation auf der Äußerungsebene näherbringen sollte. Pre-head und head heißen bei VON ESSEN Vorlauf, während der Nukleus als Schwerpunkt und der tail als Nachlauf bezeichnet werden (vgl. VON ESSEN 1964: 19). VON ESSEN (1964: 64–65) unterscheidet zwischen drei verschiedenen Intonationstypen: terminal, progredient und
62
Prosodie
interrogativ. Diese sind jeweils direkt mit Satztypen und -modi verbunden. Der terminale Intonationstyp ist dabei dadurch charakterisiert, dass seinem Schwerpunkt „kein Mittel- oder Hochton mehr folgt“, sondern ein „geschlossen tieftoniger Nachlauf oder [ein] schneller Tonabfall in der Schwerpunktsilbe selbst“ beobachtet werden kann (VON ESSEN 1964: 64). Dem progredienten Intonationstyp wird kein Schwerpunkt zugewiesen. Abgesehen davon unterscheidet er sich nur unwesentlich vom terminalen. Äußerungen dieses Typs laufen im mittleren Tonhöhenniveau, mit VON ESSENS (1964: 65) Worten „mit gehobener Stimme aus.“ Bei Intonationstypen der interrogativen Form folgen auf den Schwerpunkt „nur noch ansteigende Silbentöne als Nachlauf […], meistens mit Aufwärtsverschleifung des letzten Silbentones“ (VON ESSEN 1964: 64).49 Abbildung 12 zeigt VON ESSENS Notationen der drei vorgestellten Intonationstypen in seiner Adaption der Tradition der Britischen Schule.
Abb. 12: Notation des terminalen, progredienten und interrogativen Intonationstyps nach VON ESSEN (1964: 64)
Auch in VON ESSENS Modell sind in der Britischen Schule die Tonhöhenverläufe direkt mit einer Bedeutung verknüpft, die VON ESSEN (1964: 65–66, Sperrungen im Original) unter „Anwendungen“ beschreibt: Die t e r m i n a l e Intonation wird angewandt in Aussagen, Aufforderungen, Ausrufen, vorangestellten Anreden, Ergänzungsfragen, indirekten Reden, den zweiten Gliedern von Doppelfragen. Die p r o g r e d i e n t e Intonation wird angewandt in allen unvollendeten Redeteilen, denen die Schwerpunktsbildung erst folgen soll. Es kann sich handeln um Satzteile, Vordersätze von Satzgefügen, erste Glieder von Doppelfragen […]. Die i n t e r r o g a t i v e Intonation wird angewandt in Entscheidungsfragen, Nachfragen […], ferner – als Variante – in Aussagen Aufforderungen und Ergänzungsfragen, wenn sie Warnungen oder Drohungen darstellen sollen, in geringerer melodischer Bewegung auch bei Aufforderungen als Ausdruck der Höflichkeit. 49 Es ist zu beachten, dass VON ESSEN den Terminus Ton anders verwendet, als er in dieser Arbeit definiert wurde und zwar eher im Sinne meiner Arbeitsdefinition von Intonation. Ähnliche (syntaktisch motivierte) Form-Funktionszuordnungen nebst solchen zu Akzent und Rhythmus, die auch in präskriptiver Absicht entstanden, finden sich in SIEBS (1901: 78–84) Anweisungen zur Deutschen Bühnenaussprache. Zum Terminus Verschleifung vgl. Kapitel 5.4.1.
Phonologie der Prosodie
63
Die verknüpften Bedeutungen mit den Intonationstypen terminal und progredient sind jeweils rein syntaktischer Natur und treten besonders in direkter Verbindung mit Satzmodi oder Satzfügungen auf. Der interrogative Intonationstyp ist neben der syntaktischen Bedeutung zusätzlich mit pragmatischen, teils soziokulturell motivierten Bedeutungskomponenten (Warnung, Drohung, Höflichkeit) verknüpft. Diese können, folgt man der Definition in 2.2.3.2, als steuerbare paralinguistische Phänomene klassifiziert werden, die den primär syntaktischen Funktionen Bedeutungsanteile hinzufügen können.50 Ein klarer Vorteil von Intonationsmodellierungen in der Britischen Schule sind ohrenphonetische Zuweisungen der distinktiven Einheiten und simple Notationen, die das Konzept intuitiv und leicht zugänglich machen (vgl. PETERS 2014: 8). Als Schwäche zeigt sich vor allem die Zirkularität in den Definitionen und Delimitationen der zentralen Einheiten: Nukleus, Nuclear Tone und Tone-Group werden in Abhängigkeit voneinander beschrieben. Diese Zirkularität, die nicht zuletzt dem Heranziehen prosodischer Kriterien zur Abgrenzung prosodischer Beschreibungseinheiten selbst geschuldet ist, ist nur ein Problem in der Untersuchung von Spontansprache, das sich in Untersuchungen der Satzprosodie einzeln eingesprochener Sätze gar nicht erst stellt (vgl. KEHREIN 2002: 85). Diese Strategie wurde im Rahmen der Britischen Schule lange verfolgt, weshalb die Abgrenzungskriterien und auch die Konzepte des Nukleus und des Nuclear Tone lange haltbar waren. Hierzu bemerkt CRUTTENDEN (1997: 29) jedoch, dass spontansprachlich auftretende Phänomene wie unter anderem Häsitationen, Wiederholungen und unvollständige Sätze die Delimitation von Tone-Groups erheblich erschweren. Meines Erachtens ist der Hauptgrund dafür die Willkür in der prosodischen Gestaltung von Äußerungen der jeweiligen Sprecher*innen, die maßgeblich von der Intention/der kommunikativen Absicht derselben abhängt und relativ unabhängig von der grammatischen Struktur der Äußerung ist.
2.2.4.2 AM-Phonologie und Tonsequenzmodell: Intonationsphrasen Ich unterscheide zur Vermeidung von Konfusionen bereits in der Überschrift dieses Teilkapitels AM und Tonsequenzmodell, da in der Anwendung moderner Tonsequenzmodelle bei Intonationsanalysen (etwa GILLES 2005 oder PETERS 2006) zwar ein Großteil der Modellannahmen der AM-Phonologie genutzt wird, zuweilen aber auch Prinzipien und Beschreibungseinheiten der Britischen Schule und dem amerikanischen Strukturalismus herangezogen werden (vgl. PETERS 2014: 25). Ich beginne mit dem klassischen Modell der AM-Phonologie und zeige anschließend dessen Verbindung mit Komponenten der Britischen Schule zum Tonsequenzmodell. 50 Eine wie hier abgebildete final steigende Intonationskontur gilt im Deutschen neben Komponenten anderer Signalisierungssysteme (vornehmlich der Syntax) als Marker für Fragehaltigkeit. Perzeptiv angelegte Studien hierzu bieten etwa BATLINER (1989a und 1989b) und KOHLER (2004). Einen aktuelleren Überblick zur Rolle der Intonation bei der Interpretation von Äußerungen als fragehaltig bietet MICHALSKY (2017).
64
Prosodie
Die nichtlineare Phonologie, autosegmental-metrische Phonologie oder auch kurz AM wurde maßgeblich von den Arbeiten von GOLDSMITH (1976), BRUCE (1977), LIBERMAN (1978) und PIERREHUMBERT (1980) geprägt und basiert grundsätzlich auf der Auflösung der Darstellungen von CHOMSKY / HALLE (1968), die Sprache als lineare Abfolge von Segmenten mit gleichzeitigen suprasegmentalen Informationen betrachten (vgl. Kapitel 2.2). Im Modell wird diese Linearität aufgelöst, indem von der Segmentebene tonale und metrische Merkmalsebenen, sogenannte tiers, abgekoppelt werden und somit segmental unabhängig betrachtet werden können (vgl. UHMANN 1991: 19). Diese Ebenen werden aufgrund ihrer Selbstständigkeit als Autosegmente bezeichnet. Trotz ihrer selbstständigen Repräsentation kann die komplexe Bedeutung einer Äußerung nach FÉRY (2017: 96) erst durch den Bezug der tonalen Ebene zur segmentalen Textebene, der sogenannten text-to-tune Relation, erschließbar werden. Wie gerade bereits angedeutet, werden für die Intonation im Rahmen der AM-Phonologie zwei Komponenten oder Merkmalsebenen angenommen: die tonale (intonatorische) und die metrische Ebene (vgl. UHMANN 1991: 21 und RABANUS 2001: 24). Gegenstand der metrischen Ebene ist die regelbasierte Generierung von Prominenzrelationen zwischen Äußerungsteilen, die als metrische Gitter oder Bäume dargestellt werden (vgl. UHMANN 1991: 21). Da die metrische Ebene für die vorliegende Untersuchung keine zentrale Rolle spielt, behandle ich diese Komponente in dem Kapitel nicht. Ausführliche Darstellungen hierzu finden sich u. a. in UHMANN (1991) und RABANUS (2001). Der Gegenstand der intonatorischen Ebene, die vor allem zurückgehend auf PIERREHUMBERT (1980) als Intonationsgrammatik bezeichnet wird, sind phonologisch relevante Ereignisse im ausschließlich betrachteten Tonhöhenverlauf einer Äußerung. Innerhalb der AM-Phonologie werden Intonationsverläufe weder holistisch, also in ihrer Gesamtheit, noch als lokale Tonhöhenbewegungen wie in der Britischen Schule betrachtet, sondern als „Sequenzen statischer Töne“ aufgefasst (PETERS 2014: 25). Die Darstellung entspricht dabei einer linearen Abfolge solcher Töne, die relational zueinander als hoch (high, in der Notation symbolisiert mit H) oder tief (low, symbolisiert mit L) interpretiert werden, weshalb sich im Deutschen der Name Tonsequenzmodell etabliert hat. Die im Modell zentrale und größte Beschreibungsebene ist die Intonationsphrase, kurz IP. Auf ihr werden als prosodische Domäne der Äußerungsebene bestimmten Silben spezifizierte Töne zugewiesen. In der Literatur findet sich keine einheitliche Definition von Intonationsphrasen. Während FÉRY (2017: 321) eine domänenspezifische Definition vorschlägt, in der die IP als prosodische Domäne des higher level dargestellt wird, die mehr oder weniger mit syntaktischen Phrasen korreliert, definiert PETERS (2014: 98) die IP anhand rein intonatorischer Merkmale als „Abschnitt einer Äußerung, in dem eine vollständige Intonationskontur realisiert wird“. Vollständig bedeutet dabei lediglich das Vorhandensein mindestens eines Tonhöhenakzents (s. u.). PETERS (2014: 76) unterscheidet des Weiteren zwischen autonomen und klitischen IPs, wobei erstere unabhängig von der Intonationskontur vorangegangener IPs sind und letztere von der Intonationskontur vorangegangener IPs beeinflusst werden. Bei den Konstituenten, die eine IP definieren, werden Parallelen zur Britischen Schule deutlich. So weist nach GILLES (2005: 6) jede IP „mindestens einen starken
Phonologie der Prosodie
65
Akzent auf, der dann als Ankerpunkt für den Intonationsverlauf dient.“ Dieser starke Akzent wird im von PETERS (2014: 31) beschriebenen Tonsequenzmodell in Anlehnung an die Britische Schule nuklearer Akzent genannt und befindet sich ebenso in der Regel auf der letzten akzentuierten Silbe einer IP. Dennoch können in einer IP auch andere Silben einen Akzent tragen. Den Silben in einer IP, die einen auf ihrer auditiv wahrgenommenen Prominenz basierenden Akzent tragen, werden Akzenttöne zugewiesen, die in der Notation mit einem Sternchen (H* oder L*) versehen werden. Akzenttöne können optional zusammen mit Begleittönen auftreten, die entweder vor (dann als Leitton bezeichnet) oder nach (dann als Folgeton bezeichnet) dem Akzentton verortet werden (vgl. LADD (2008: 87–88 und PETERS 2014: 29). Ist dies der Fall, werden die beiden Töne durch ein Pluszeichen verbunden (etwa L+H* oder L*+H). Akzenttöne können alleine oder in Kombination mit Begleittönen Tonhöhenakzente (pitch accents) bilden. Im ersten Fall spricht PETERS (2014: 30) von monotonalen, im zweiten Fall von bitonalen Tonhöhenakzenten. Zusätzlich zu Akzent- und Begleittönen werden noch Grenztöne angesetzt. KEHREIN (2002: 21) beschreibt Grenztöne als „die Töne auf der ersten und letzten Silbe einer […] Intonationsphrase, unabhängig von ihrer Prominenz.“ Grenztöne treten also an den Rändern von IPs auf und werden in der Notation abhängig von ihrer Position am Anfang oder Ende einer IP mit einem voran- oder nachgestellten Prozentzeichen versehen (etwa %L oder L%). Nun werden aber im Tonsequenzmodell in einer IP nicht allen, sondern nur einzelnen Silben (in der Regel den prominenten Silben und den Grenzsilben) des Tonhöhenverlaufs H- oder L-Töne als phonetische Zielpunkte zugewiesen. Das bedeutet, dass davon ausgegangen wird, dass „nicht auf jeder Silbe ein eigener phonetischer Zielpunkt für den Tonhöhenverlauf […] auftreten muss“ (PETERS 2014: 26). PETERS (2014: 26) spricht dabei von tonaler Unterspezifizierung. Abbildung 13 zeigt den Vorgang der unterspezifizierten Tonzuweisung nach dem Tonsequenzmodell.
Abb. 13: Notation eines Beispielsatzes im Tonsequenzmodell, angelehnt an PETERS (2014: 26)
Aus dem klassischen Modell entlehnt sind dabei die Merkmalsebenen (tiers), von unten nach oben mit der Segmentebene, der Silbenebene und schließlich der Tonebene (vgl. RABANUS 2001: 23). Für die Abbildung wurde ein Sprachbeispiel aus
66
Prosodie
PETERS (2014) verwendet, das online zugänglich ist und dessen Grundfrequenzverlauf hier im oberen Teil der Abbildung zunächst in Praat dargestellt ist.51 Der darunterliegende Verlauf zeigt die einzelnen phonetischen Zielpunkte und ihre Verbindungen. Ein international anerkanntes Notationssystem, das auf den Grundannahmen der AM-Phonologie beruht, ist das für das amerikanische Englisch in SILVERMAN et al. (1992) vorgestellte Tone and Break Indices, kurz ToBI. Ziel der Gruppe war es, ein System zu etablieren, mit dem sich große Datenkorpora mit den AM-Notationen annotieren lassen (vgl. GUSSENHOVEN 2004: 132). Mittlerweile wurde ToBI für verschiedene Sprachen52 adaptiert, so auch für das Deutsche in GToBI (German Tone and Break Indices, vgl. GRICE / BAUMANN 2002). Zusätzlich zum oben angegebenen Toninventar werden in den ToBI-Notationen unter Rückgriff auf PIERREHUMBERT (1980) Phrasenakzente (phrase accents) angesetzt, die besonders für intermediäre Phrasen relevant sind, die nach Modellansicht keine vollständigen IPs sind (vgl. LADD 2008: 88 und Kapitel 2.2.1, Fußnote 32). Es gibt eine Vielzahl an Anwendungen des Tonsequenzmodells und der GToBI Notationen für das Deutsche. Unter den Monographien zählen dazu etwa UHMANN (1991), BAUMANN (2006) und BERGMANN (2008). Die Modelle und Notationskonventionen sind in der angegebenen Literatur ausführlich beschrieben, spielen aber für die vorliegende Untersuchung keine Rolle, weswegen ich auf eine Darstellung verzichte und mich im Folgenden auf die immer wieder in der Literatur diskutierten Abgrenzungskriterien und der daraus folgenden Segmentierung der größten Domäne der Äußerungsebene der Modelle konzentriere: der Intonationsphrase. Eine ähnliche Vielfalt, wie sie in der Definition des Terminus selbst zu beobachten war, spiegelt sich auch in der Ausdehnungsgröße der Beschreibungseinheit wider. In manchen Fällen korrelieren die IP-Grenzen mit denen von syntaktischen Phrasen (vgl. etwa PIERREHUMBERT 1980, WIESE 1996, LADD 2008 und FÉRY 2017), in manchen mit denen phonologischer Phrasen (vgl. etwa NESPOR / VOGEL 2007) und in anderen wiederum mit denen prosodischer Wörter oder einzelner Silben. Über welche Anzahl von Segmenten sich eine Intonationsphrase erstreckt, ist äußerungsabhängig und somit nicht festlegbar. So können sich IPs über komplette syntaktische Phrasen und ganze, grammatisch vollständige Sätze, ebenso aber über einsilbige Ein-Wort-Äußerungen oder Partikeln und entsprechende Domänen erstrecken (vgl. LEEMANN 2012: 10). In AM- und Tonsequenzmodellen werden zur Delimitation von IPs verschiedene Merkmalskomplexe herangezogen. Die Grenzen von IPs werden dabei durch Bündel prosodischer (eigentlich phonetischer) Merkmale gebildet (vgl. GILLES 2005: 5). Es handelt sich hierbei um dieselben Kriterien, die CRUTTENDEN (1997) zur Abgrenzung von Tone-Groups (intonation-groups, s. o.) anführt. Das Prinzip stammt also erneut aus der Britischen Schule und so las-
51 Die Sounddateien zum Buch von PETERS (2014) sind unter der URL abrufbar, Stand: 15.10.2019. 52 Aufsätze zur Prosodie verschiedener Sprachen, in denen ToBI-Notationen verwendet werden, finden sich bei JUN (2005 und 2014).
Phonologie der Prosodie
67
sen sich die Kriterien auch hier konsequent in interne und externe Kriterien gliedern. Das interne Kriterium lautet nach PETERS (2014: 75): „Jede vollständige IP weist mindestens einen Tonhöhenakzent auf. Dies ist der nukleare Akzent.“ Als externe Kriterien werden eine Reihe phonetisch-prosodischer Merkmale angesetzt, etwa die akustische Realisierung globaler (Verlauf und Skalierung der Grundfrequenz) und lokaler Signale. Lokale Signale sind dabei nach PETERS (2014: 76) „der Gebrauch tonaler Mittel (z. B. die Wahl eines hohen initialen Grenztons nach einem tiefen finalen Grenzton der vorangehenden IP) und pitch reset […].“ Des Weiteren werden phrasenfinale Silbendehnung und „eine akustische Pause vor Beginn der nächsten IP sowie ein beschleunigter Einsatz zu Beginn der nächsten IP“ zur Abgrenzung herangezogen (PETERS 2014: 76).53 PETERS / KOHLER / WESENER (2005: 145) veranschlagen darüber hinaus zusätzliche phonetische Merkmale wie Laryngalisierung, Glottalisierung, Glottisplosionen als Segmentrealisierungen sowie eine Veränderung der Intensität. Ein offensichtlicher Kritikpunkt an dieser Art der Delimitation ist erneut das Zirkularitätsproblem, das bereits bei den Tone-Groups der Britischen Schule festgestellt wurde: Bestimmte Formen prosodischer Merkmale werden angesetzt, um teilweise dieselben prosodischen Merkmale zu beschreiben. Eine Legitimation erhalten diese Kriterien dennoch dann, wenn ihre perzeptive Relevanz für die zugeschriebene Funktion (Grenzbildung) nachgewiesen und dabei geklärt werden kann, welche Kriterien der umfangreichen Liste aus der Literatur ausschlaggebend sind. Diesen Fragestellungen sind verschiedene Forscher*innengruppen auf neurolinguistischer Ebene nachgegangen. Deren Vorgehen und Ergebnisse werde ich nun kurz skizzieren. GILLES (2005: 5) behauptet bereits, die IP sei die „kognitive Verarbeitungsdomäne für eine Intonationskontur“, führt dafür aber keine Belege an. Neuronale Belege für das Deutsche finden sich in dieser Richtung hingegen bei PANNEKAMP et al. (2005). In ihrer Studie untersuchen die Autor*innen die closure positive shift (kurz CPS, in Anlehnung an STEINHAUER / ALTER / FRIEDERICI 1999), beschrieben als neurophysiologisches Korrelat der Perzeption von IP-Grenzen, das sich über ereigniskorrelierte Potenziale (EKP) innerhalb eines Elektroenzephalogramms (EEG) nachvollziehen lässt. Die Autor*innen stützen sich dabei auf ein Experimentdesign, in dem durch Perzeptionstests mit Stimuli ohne segmentelle Information (gesummte Sätze, sogenannte hummed sentences) gezeigt werden sollte, dass die CPS eine Segmentierung des Sprachflusses auch unabhängig von der segmentellen Basis reflektiert (vgl. PANNEKAMP et al. 2005: 413). Als Abgrenzungskriterien stehen ein hoher Grenzton sowie eine erhöhte Dauer im Fokus. Dies sind diejenigen Parameter, die bereits in PIERREHUMBERT (1980) und SELKIRK (1984) als Grenzmarker angenommen werden. Akustischen Pausen schreiben PANNEKAMP et al. (2005: 408) derweil eine geringere Wirkung zu: „[…] the CPS reflects the processing of the prosodic boundary itself rather than the perception of an (optional) pause loosely related to it.“ Pausen werden damit als optionale Grenzmarker erklärt, während oben beschriebene „major intonational boundaries“ (PANNEKAMP et al. 53 In CRUTTENDENS Terminologie Anacrusis (1997: 21–32, und vgl. Kapitel 2.2.4.1).
68
Prosodie
2005: 413) als potenziell relevanter erachtet werden. Welche phonetischen Formen sich bei diesen Grenzmerkmalen beschreiben lassen und welche der Merkmale (die Autor*innen sprechen stets im Plural) genau die CPS auslösen, wird weder in den Ergebnissen noch in den Methoden exakt dargelegt. So heißt es bei den Auswertungen zuweilen lediglich, die Grenze (boundary) einer angenommenen IP werde „reflected by tonal and durational parameters“ (PANNEKAMP et al. 2005: 419). Die Hypothese des sekundären Rangs von Pausen in der Grenzmarkierung gegenüber Intonationskonturen wird auch von MÜLLER / BAHLMANN / FRIEDERICI (2010) unterstützt. In einer Studie zur Lernbarkeit von eingebetteten syntaktischen Strukturen, also Einschüben in Form von etwa Relativsätzen, in einer künstlichen Sprache und Grammatik, konnte zunächst gezeigt werden, dass Syntagmen besser regelhaft gelernt werden können, wenn sie ein global fallendes Intonationsmuster tragen. Einzelne Silbensegmente werden dadurch integriert und fortan als zusammengehörig gekennzeichnet, auch, wenn zwischen den Silbensegmenten desselben Syntagmas akustische Pausen eingefügt werden. Die integrierende Funktion global fallender Intonationsmuster zeigte bereits KEHREIN (2002). MÜLLER / BAHLMANN / FRIEDERICI (2010) verzichten, wie PANNEKAMP et al. (2005), auf eine detaillierte Beschreibung der Intonationsmuster, obwohl diese das wichtigste Merkmal ihrer Hypothese darstellen. Der/die Leser*in wird lediglich mit „a descending intonational contour (declination)“ über die Form des Intonationsmusters unterrichtet (MÜLLER / BAHLMANN / FRIEDERICI 2010: 341). HOLZGREFE-LANG et al. (2016) untersuchen in einer weiteren EEG-Studie Tonhöhenveränderungen, Pausen und finale Dehnung als IP-Grenzmarker im Deutschen – jeweils einzeln und in Kombination miteinander. Die Studie besticht im Vergleich durch akkurate Beschreibungen der akustischen Parameter und klare Ergebnisse. Für die Untersuchung wurden zunächst sechs verschiedene Substantiv-Konjunktionen-Sequenzen aufgenommen. Diese bestanden aus jeweils drei Namen getrennt durch die Konjunktion und, etwa (Moni und Lilli) (und Manu), bei denen jeweils durch die verschiedene Klammersetzung im Schriftbild Zusammengehörigkeit visualisiert wurde (vgl. HOLZGREFELANG et al. 2016: 907–908). Eingesprochen wurden die Paare von einer deutschen Muttersprachlerin aus dem brandenburgischen Raum. Die Aufnahmen wurden im Anschluss hinsichtlich des Grundfrequenzverlaufs und der zeitlichen Erstreckung einerseits der Silbe vor der angenommenen Grenze und andererseits der akustischen Pause nach dieser Silbe gemessen. Die Werte wurden anschließend als Referenzwerte für die Manipulation der Teststimuli genutzt, um möglichst natürliche akustische Parameter zu simulieren. Bei den Teststimuli wurden zunächst per Praat alle eingesprochenen phonetischen Grenzmarker entfernt. Anschließend wurden entweder die einzelnen Merkmale oder Merkmalskomplexe an bestimmten Stellen im Syntagma eingefügt und die Stimuli wurden Hörer*innen auditiv präsentiert. Für die Testung der Tonhöhenveränderung modellierten die Autor*innen in Relation zu den im Vorfeld geglätteten Stimuli einen F0-Anstieg um 206 Hz (bzw. 13,16 Halbtöne) über beide Silben des mittleren Namens, während für die Testung der finalen Dehnung die zeitliche Erstreckung des letzten Vokals desselben Namens um 180 % der vorherigen zeitlichen Erstreckung erhöht wurde (vgl. HOLZGREFE-LANG et al.
Phonologie der Prosodie
69
2016: 909). In die Auswertung der Perzeptionstests wurden behaviorale Daten (Entscheidungen der Proband*innen, ob im gehörten Stimulus eine oder mehrere Grenzen vorliegen) und neuronale EEG-Daten (Überprüfung des Vorliegens einer CPS) einbezogen. Die Ergebnisse zeigen zunächst, dass akustische Pausen zwar als salient wahrgenommen werden, zur Wahrnehmung einer Grenzmarkierung aber nicht notwendig sind (vgl. HOLZGREFE-LANG et al. 2016: 917). Des Weiteren konnten HOLZGREFE-LANG et al. (2016: 917) zeigen, dass sich weder allein durch den modellierten Tonhöhenanstieg noch allein durch die Dehnung der finalen Silbe eine CPS evozieren ließ, sondern nur in Kombination der beiden Merkmale miteinander: „[…] the perception of German IPBs [intonation phrase boundaries, T.P.] is caused by the combination of pitch and final lengthening, but not by pitch or final lengthening alone.“ Insgesamt lässt sich aus den vorgestellten Studien neurolinguistische Evidenz für einerseits die integrierende Funktion global fallender Intonationsmuster (wie sie KEHREIN 2002 postuliert) und andererseits die grenzbildende Funktion final steigender Intonationsmuster in Kombination mit phrasenfinaler Silbendehnung (vgl. PIERREHUMBERT 1980 und SELKIRK 1984) festhalten. Offen bleibt zunächst, welche Relevanz die anderen postulierten phonetischen Grenzmarker für die Perzeption einer solchen haben und auch, ob diese Merkmale ebenso an denjenigen Grenzen von Äußerungseinheiten auftreten, die durch nicht-prosodische Kriterien ermittelt wurden (vgl. Kapitel 2.2.4.4). Aus der funktionalen Perspektive wird der Intonationsphrase hier wie in der Britischen Schule keine konkrete Grundbedeutung zugeschrieben. Die Phrasierung oder syntagmatische Strukturierung des Redeflusses steht oft im Fokus, wobei nicht ganz klar ist, ob sie Funktion von IPs ist, oder diese als Resultat aus ihr hervorgehen. Den auf der IP zugewiesenen Tönen kommen derweil diskurssemantische und informationsstrukturelle Funktionen zu. So bestimmen Akzenttöne informationsstrukturell das Verhältnis des gesagten zum geteilten Interaktionswissen und regeln die Bestimmung neuer gegenüber alter Information sowie das Verhältnis von Fokus und Hintergrund (vgl. vor allem UHMANN 1991). Grenztöne, Phrasen- und Begleittöne zeigen diskurssemantisch informatorische Abgeschlossenheit oder Unabgeschlossenheit bzw. Weiterweisung an, wobei tiefe finale Grenztöne L% mit Abgeschlossenheit und hohe finale Grenztöne H% in der Regel mit Weiterweisung assoziiert werden (vgl. vor allem GILLES 2005, aber auch PETERS 2006 und 2014). Initialen Grenztönen werden keinerlei eigene Funktionen zugesprochen, da sie in den meisten Modellen generell als fakultative Elemente einer IP gesehen werden. Vorteil der Darstellungen der AM-Phonologie und der Notationen in ToBI, GToBI und anderen, darauf basierenden Modellen ist die internationale und interlinguale Vergleichbarkeit, auf deren Basis sich vor allem systemische Unterschiede (vgl. LADD 2008: 116) hinreichend darstellen lassen. Nachteil der Modelle ist die fehlende klare Unterscheidung zwischen phonetischem Transkriptionsinstrumentarium und funktionaler phonologischer Beschreibung. Die Transkriptionen und Notationen etwa in GToBI bedürfen linguistischer Entscheidungen, etwa beim Identifizieren des Nukleus, der nur subjektiv auditiv (und dann durch die Satzsemantik) bestimmt werden kann und dessen perzeptive Relevanz bisher nicht nachgewiesen
70
Prosodie
ist (vgl. KEHREIN 2002: 76 und LEEMANN 2012: 39). Die exklusive Betrachtung des Tonhöhenverlaufs und die radikale tonale Unterspezifizierung schließen systematisch eine mögliche perzeptive Relevanz des zwischen den Zielpunkten liegenden Tonhöhenverlaufs und anderen prosodischen Merkmalen aus. Die Entscheidung, ob ein Tonhöhenakzent als monotonal, bitonal oder sogar tritonal (vgl. PETERS 2014: 30) darzustellen ist, ist aus phonetischer Perspektive schwer nachvollziehbar und muss deshalb individuell und dann erneut subjektiv vorgenommen werden. Das Inventar für die Zielpunkte aus zwei Tonqualitäten H und L ist des Weiteren (als universell postuliert und kritisiert, vgl. etwa LADD 2008) unzureichend für etwa Tonsprachen, in denen mindestens vier (Mandarin, oder sogar acht im Vietnamesischen) Töne unterschieden werden. Die selbst für nicht-Tonsprachen wie das Deutsche bemängelte Unzulänglichkeit von nur zwei Tönen ist den AM-Phonolog*innen (zumindest stellenweise) durchaus bewusst. So konstatiert FÉRY (2006: 167): „Eine vollständige Analyse der deutschen Intonation würde selbstverständlich noch weitere Töne enthalten.“ Die hier beschriebenen Abgrenzungsmerkmale mögen, abgesehen vom Zirkularitätsproblem, für die Theorie und in der Analyse von Laborsprache (also primär zu Analysezwecken aufgenommene Sprachsequenzen) Sicherheit gewährleisten, verlieren aber in spontan gesprochener Sprache oft ihre Gültigkeit. So ist es auch aus Sicht mancher diese Praxis anwendenden Autor*innen, etwa BERGMANN (2008: 7), möglich, dass „mehrere der erwähnten Kriterien als Merkmalsbündel auftreten und eine Einheitengrenze markieren, ebenso ist jedoch möglich, dass keines der Kriterien beobachtet werden kann und dennoch eine Abgrenzung vorgenommen wird.“ Eine Objektivierung vorgenommener Abgrenzungen und der entsprechenden Kriterien ist hierbei also nicht immer gegeben.
2.2.4.3 Konversationsanalyse: Turnkonstruktionseinheiten und Basic Discourse Units Die soeben vorgestellten theoretischen Annahmen und ihre Modellbildung basieren, gleichwohl sie in modernen Anwendungen auf Spontansprache übertragen wurden, vornehmlich auf der Analyse einzeln eingesprochener Sätze als syntaktische oder grammatische Phänomene. Kritisiert wird diese Vorgehensweise im ethnomethodologischen Ansatz der Prosodieforschung in der Konversationsanalyse, für die im Deutschen AUER (1986) unter dem Stichwort Kontextualisierung und allen voran SELTING (1995) auf Basis der Grundüberlegungen in SACKS / SCHEGLOFF / JEFFERSON (1974) und SCHEGLOFF / JEFFERSON / SACKS (1977) den Weg geebnet haben. Gegenstand der ethnomethodologischen Konversationsanalyse (oft anhand des englischen Terminus conversation analysis durch CA abgekürzt) sind nach SELTING (1995: 9) „die formalen Organisationsmechanismen konversationeller Interaktion […].“ Damit grenzt sich das Vorgehen der CA eindeutig von der prosodischen Analyse einzelner Sätze ab und untersucht anhand spontansprachlicher Korpora die „Rolle der Prosodie bei der Organisation der alltäglichen Konversation“ (SELTING 1995: 11). Struktur und Organisation von Konversationen werden
Phonologie der Prosodie
71
anhand des Interaktionskontexts zunächst in bestimmten Abschnitten der Konversation untersucht. Im Anschluss werden Hypothesen aufgestellt und mit der Analyse von Folgeäußerungen validiert (vgl. KEHREIN 2002: 64). Ersteres Vorgehen erhält bei SELTING (1995: 14–16) den Terminus Strukturanalyse, letzteres Sequenzanalyse. Zusätzlich werden bei SELTING (1995: 12–13) interaktiv relevante Aktivitätstypen untersucht, etwa Sprecher*innenwechsel durch Selbst- und Fremdwahl, Reparaturen (vgl. SCHEGLOFF / JEFFERSON / SACKS 1977 und Kapitel 2.3.2) oder bestimmte Typen konversationeller Fragen. Die Analyse prosodischer Parameter erfolgt in der Regel ausschließlich auditiv (vgl. SELTING 1995: 45). Die funktionale Zuweisung wird dann meist über Sequenzanalysen vorgenommen. Studien, die quantitative akustische Messungen mit qualitativem konversationsanalytischem Vorgehen verbinden sind etwa KEHREIN (2002) für die Analyse von Prosodie auf Domänen des lower und higher level, ZELLERS / OGDEN (2013) auf higher level Domänen und COUPER-KUHLEN (2014) auf lower level Domänen. Systematische Struktur- und Sequenzanalysen in Verbindung mit akustischen Messungen perzeptiv relevanter prosodischer Merkmale werden zudem in den spontansprachlichen Korpusanalysen der vorliegenden Untersuchung angewendet. Untersuchungsgegenstand der CA sind Gespräche. Ein Gespräch zeichnet sich durch in eine bestimmte Kommunikationssituation eingebettete Abfolge von Gesprächsbeiträgen (Turns) mindestens zweier Teilnehmer*innen aus, die räumlich und/oder zeitlich miteinander verbunden sind. Das Gespräch hat eine thematische Orientierung und ist dabei dialogisch, also wechselseitig ausgerichtet, was auch die Rollenverteilung von Sprecher*in und Hörer*in betrifft (vgl. BRINKER / SAGER 2010: 11–15). SACKS / SCHEGLOFF / JEFFERSON (1974) identifizieren eine ganze Reihe systematischer Beobachtungen und Regeln, die sowohl für moderierte Gespräche (etwa Interviews) als auch für völlig ungezwungene Spontansprache gelten. Während das Gespräch den Rahmen für die Untersuchungen bildet, sind die in Gespräche eingebetteten Turns die größten Beschreibungseinheiten der CA, auf denen, wie oben bereits skizziert wurde, prosodische Phänomene untersucht werden, die maßgeblich zur Gesprächsorganisation beitragen. Wichtig ist dabei, dass weder ein Gespräch noch ein Turn in ihrer Ausdehnung festgelegt sind oder es werden können (vgl. SACKS / SCHEGLOFF / JEFFERSON 1974: 701). Als zentrale Beschreibungseinheit werden daher Turnkonstruktionseinheiten (erneut anhand des englischen Terminus turn cosntructional units durch TCU abgekürzt) angesetzt. TCUs sind keine linguistischen Einheiten, sondern konstituieren potenziell vollständige Turns, die in einer übergangsrelevanten Stelle (transition relevance place, TRP) enden (vgl. SELTING 1998: 478–480). FORD / THOMPSON (1996, hier zitiert nach DEGAND / SIMON 2009: 4) stellen jedoch fest, dass am Ende einer TCU (folglich an einem TRP) nicht notwendigerweise ein Sprecher*innenwechsel stattfinden muss: „less than half of turn transitions occur at turn endings which have syntactic, prosodic, and pragmatic completeness actually coincide.“ Die nur potenzielle Vollständigkeit von TCUs wird hier sichtbar, was die letztendliche Abgrenzung nur durch das Heranziehen mehrerer Kriterien möglich macht. TCUs und Turns selbst sind konsequenterweise nach SELTING (1998: 511, aus dem Englischen übersetzt von mir,
72
Prosodie
T.P.) „das Resultat des Zusammenspiels von Syntax und Prosodie in einem bestimmten, semantisch-pragmatischen und sequenziellen Kontext.“ Nach SACKS / SCHEGLOFF / JEFFERSON (1974: 701–702) können TCUs aus ganzen Sätzen, Phrasen und lexikalischen Ein-Wort-Äußerungen bestehen. Damit kommt ihnen auf segmenteller Ebene derselbe Status ihrer Ausdehnung wie Intonationsphrasen oder ganzen Turns zu, nur werden im Gegensatz zu AM-Modellen zur Definition und Delimitation der Beschreibungseinheiten in der CA mehrere Signalisierungssysteme herangezogen. SELTING (1998: 511–512) beschreibt TCUs aus diesem Grund als Epiphänomen verschiedener Signalisierungssysteme und gibt dementsprechend eine zusammenfassende Definition: The TCU as epiphenomenon is, however, by no means irrelevant for the external and internal organization of turns in conversational interaction. TCUs must be conceived of as the smallest interactionally relevant complete linguistic units in their given context. They end in TRPs, unless particular linguistic and interactional resources are used in order to project and postpone TRPs to the end of larger turns.
Zur Abgrenzung von TCUs werden mehrere Signalisierungssysteme herangezogen. Hierbei werden allen voran syntaktische (+/– Abgeschlossenheit) und prosodische Phänomene berücksichtigt, wobei SCHEGLOFF (1998: 237) syntaktischen gegenüber etwa intonatorischen Phänomenen die primäre Rolle zuschreibt. SELTING (1998: 493–504) betont wiederum, dass weder die Syntax noch die Prosodie alleine für die Konstitution einer TCU ausreichen, sondern beide Signalisierungssysteme unter zusätzlicher Begutachtung anderer wie der Semantik und der Pragmatik stets zusammen betrachtet werden müssen. Als prosodische Phänomene spielen neben an der Britischen Schule orientierten Grenzmarkern wie Pausen und Anacrusis vor allem intonatorische Merkmale wie global steigende, gleichbleibende und fallende Tonhöhenverlaufe derjenigen Abschnitte, die eine oder mehrere akzentuierte Silben tragen und bei SELTING (1995: 40) „kohäsive Akzentsequenz[en]“ genannt werden, eine abgrenzende Rolle. Auch hier plädiert SELTING (1998) erneut für den Einbezug anderer Signalisierungssysteme und die dadurch entstehende komplexe Äußerungsbedeutung. Dass der Intonation eine hohe interpretative Relevanz für die Abgeschlossenheit oder Weiterführung einer TCU zukommt, macht SELTING (1998: 510) dennoch klar deutlich: „even if a TCU is possibly complete – syntactically, semantically and pragmatically – prosody can be used on its own in order to project turn continuation.“ In diesem Fall ist nach SELTING ein gleichbleibender oder nur leicht steigender Tonhöhenverlauf bei syntaktisch vollständigen Einheiten (also Sätzen) zu beobachten, während steigende oder fallende Tonhöhenverläufe syntaktisch vollständiger Einheiten eine mögliche übergangsrelevante Stelle markieren (vgl. SELTING 1998: 510). Die Signalisierung von Abgeschlossenheit und Weiterführung sind aus der Konversationsanalyse abgeleitete zentrale Funktionen von Intonationsmustern auf TCUs und werden als konversationelle Strategien auch in Studien zur regionalsprachlichen Prosodie als Variablen eingesetzt (vgl. besonders GILLES 2005 oder LEEMANN 2012 und Kapitel 3.3). Ein alternativer Terminus, sehr wohl aber kein alternatives Konzept zu TCUs, stellen Basic Discourse Units, kurz BDU dar. DEGAND / SIMON (2009) setzen für
Phonologie der Prosodie
73
BDUs dieselben Abgrenzungskriterien mehrerer Signalisierungssysteme an, die oben für TCUs beschrieben wurden, mit dem Unterschied, dass syntaktischen und (erneut zirkulären) prosodischen Grenzmarkern der größte Stellenwert zugesprochen wird. Nach DEGAND / SIMON (2009: 6) können BDUs nur dann abgegrenzt werden, wenn die Grenzmarker beider Signalisierungssysteme zusammenfallen: „The basic discourse unit results from coinciding syntactic and prosodic boundaries.“ Als syntaktische Grenzmarker werden hierbei diejenigen von „syntactic dependency clauses“ (DEGAND / SIMON 2009: 6), also Teilsatzgrenzen, angesetzt. Als prosodische Grenzmarker werden dieselben herangezogen, die in Tonsequenzmodellen und in der Britischen Schule gelten, wobei die Autorinnen hier den finalen Tonhöhenbewegungen und der finalen Dehnung die Größte Wichtigkeit zusprechen (vgl. DEGAND / SIMON 2009: 8). Es ist im Vorgehen der CA zu beachten, dass intonatorische Phänomene stets eingebettet in semantische, pragmatische und durch den Aktivitätstyp der CA spezifische Kontexte betrachtet werden. Die Integration mehrerer Signalisierungssysteme erweist sich als klarer Vorteil dieser Vorgehensweise, wenngleich theoretische Vorannahmen etwa der Gestalt von Intonationskonturen erneut das Zirkularitätsargument hervorbringen können. Die Abgrenzung sprachlicher Einheiten der Konversation aus äußerungssemantischer und pragmatischer Sicht bedarf des Weiteren erneut subjektiver Entscheidungen der Konversationsanalytiker*innen, die oft auf Erfahrung und Weltwissen beruhen und zwar über Plausibilität erklär- und nachvollziehbar, aber nur schwer (wenn überhaupt) empirisch fassbar sind.
2.2.4.4 Alternativmodelle Im Folgenden werde ich Beschreibungseinheiten der Intonation aus zwei weiteren Intonationsmodellen vorstellen, die sich selektiv an den Vorgehensweisen der bisher dargelegten Modelle und Traditionen orientieren, aber jeweils einen anderen funktionalen Schwerpunkt sowie unterschiedliche Kriterien zur Abgrenzung haben. Diese Einheiten sind a) pragmatische Basiseinheiten aus dem Modell von KEHREIN (2002) und b) intonation units aus dem Modell von CHAFE (1994). Pragmatische Basiseinheiten (KEHREIN 2002) KEHREINS (2002) Modell der Intonation des Deutschen basiert auf Korpusanalysen freier Gespräche,54 bei denen, wie oben angemerkt, quantitative akustische Messungen mit qualitativem konversationsanalytischem Vorgehen verbunden wurden. KEHREIN (2002: 84–86) moniert die Abgrenzungskriterien anderer, oben vorgestellter Modelle, in denen, sollte eine objektive Abgrenzung vorgenommen werden, 54 Das Korpus wurde mir freundlicherweise zur Verfügung gestellt und wurde in dieser Studie zu Trainingszwecken für den Algorithmus genutzt. Ich beschreibe das Korpus im Zuge der Methodendarlegung unten in Kapitel 4.2.4.2.2.
74
Prosodie
sich entweder rein auf syntaktische Kriterien gestützt oder zirkulär prosodisch argumentiert wird. Der Autor plädiert dabei für eine Abgrenzung prosodischer Einheiten als „kommunikativ-pragmatische Größen“ aufgrund äußerungssemantischer und -pragmatischer Kriterien. Der pragmatische Aspekt steht dabei im Vordergrund. Genannt werden diese Größen bei KEHREIN (2002: 86) pragmatische Basiseinheiten und sind definiert als „separierbare/segmentierbare Sequenzen gesprochener Sprache, die im Kontext äußerungssemantisch vollständig sind und eine erkennbare Äußerungsabsicht haben, d. h. es handelt sich um potenziell selbständige sprachliche Handlungseinheiten.“ Pragmatische Basiseinheiten sind dabei durch a) ihre äußerungssemantische Vollständigkeit und b) eine im Kontext erkennbare Äußerungs-/Handlungsabsicht definiert (vgl. KEHREIN 2002: 181). Die aus dieser Abgrenzung hervorgehenden prosodischen Einheiten werden in KEHREINS Modell nach ihrer Ausdehnung (lokal vs. global), der Art und Weise ihrer Form-Funktionszuordnung (diskret vs. kontinuierlich) und ihrem primären auditiven Korrelat (Tonhöhe, Dauer, Prominenz) eingeteilt (vgl. KEHREIN 2002: 83). Die Ausdehnung prosodischer Einheiten wird anhand der Länge der Segmentketten festgelegt. So erstrecken sich lokale prosodische Einheiten in der Regel auf einzelne Silben, globale hingegen meist auf mehrere Silben (vgl. KEHREIN 2002: 83). Lokale prosodische Einheiten werden des Weiteren entweder auf der lexikalischen Ebene oder der Äußerungsebene betrachtet. Lokale prosodische Einheiten der lexikalischen Ebene sind der in Kapitel 2.2.2 beschriebene Wortakzent, Ton und Tonakzent sowie Quantität (vgl. KEHREIN 2002: 90–91). Lokale prosodische Einheiten der Äußerungsebene sind die in Kapitel 2.2.3.1 beschriebenen Äußerungs- und Hervorhebungsakzente und die hier besonders relevanten lokalen Intonationsmuster (vgl. KEHREIN 2002: 91–96). Lokale Intonationsmuster erstrecken sich per definitionem in der Regel über die prosodische Domäne einer Silbe. Ihr primäres auditives Korrelat ist die wahrnehmbare Tonhöhe; die Form-Funktionszuordnung erfolgt in den Einheiten aus KEHREINS Korpus stets diskret. In dem untersuchten Korpus konnte KEHREIN (2002: 217–226 und 322) vier lokale Intonationsmuster ermitteln:55 – – –
Ein lokal fallendes Muster mit steil fallendem F0-Verlauf und der Funktion Beendigung/Abschluss, ein lokal gleichbleibendes Muster mit relativ gleichbleibendem F0-Verlauf, Dehnung der Silbe und der Funktion Rederechtssicherung/Turnhalten, ein lokal steigendes Muster mit steil steigendem F0-Verlauf ohne Veränderung der Intensität mit der Funktion Reaktionsaufforderung und
55 Diese Formen und Funktionen der Intonation konnten bereits im Projekt „Bausteine der Intonation“ (SCHMIDT 2001) auf laborsprachlicher Basis ermittelt werden. Ich stelle die Ergebnisse des Projekts unten in Kapitel 2.2.5.3 vor. In einer darauf aufbauenden typologisch vergleichenden Studie von PISTOR (2017) konnte des Weiteren gezeigt werden, dass diese Form-Funktionszuordnungen auch sprachfamilienübergreifend existieren (vgl. dazu ausführlicher Kapitel 2.3.1). Ich werde im Zuge der Analysen zeigen, dass die oben gelisteten Zuordnungen der Formen zu den hier spezifizierten Grundfunktionen auch in allen hier untersuchten regionalsprachlichen Räumen intergenerationell und interindividuell stabil sind.
Phonologie der Prosodie
–
75
ein komplexes Intonationsmuster mit einer F0-Gipfelkontur, Dehnung der Silbe, einem fallend-steigenden Intensitätsverlauf und der Funktion positive Bewertung.
Globale Intonationsmuster, die mit mehreren Silben korrelieren können, werden nur auf der Äußerungsebene betrachtet, da sie sich in der Regel über eine gesamte Äußerung erstrecken, die dann als pragmatische Basiseinheit abgrenzbar ist (vgl. KEHREIN 2002: 181). Die Grundfunktion globaler Intonationsmuster liegt in der Bildung und Abgrenzung von Syntagmen innerhalb eines Redebeitrags (vgl. KEHREIN 2002: 180–181). KEHREIN identifiziert in seinem Korpus auf der Basis dieser Grundfunktion auf dem Konzept der pragmatischen Basiseinheit zwei abgrenzbare äußerungsglobale Intonationsmuster. Diese sind erstens ein global fallendes Intonationsmuster, das nach KEHREIN (2002: 199) formal durch die phonetischen Parameter F0-Onset höher als F0-Offset in Relation zum sprecher*innenspezifischen Durchschnitt beschrieben werden kann und die Funktion „Bildung und Abgrenzung redesyntaktischer Einheiten“ trägt und zweitens ein global steigendes Intonationsmuster, das formal (umgekehrt) durch die phonetischen Parameter F0Onset tiefer als F0-Offset in Relation zum sprecher*innenspezifischen Durchschnitt beschreibbar ist und zum einen die Funktion trägt, redesyntaktische Einheiten voneinander abzugrenzen und zum anderen, zu signalisieren, dass Kommunikation nach Beendigung der vollständigen und damit potenziell selbstständigen Äußerungseinheit der Fortsetzung bedarf (vgl. KEHREIN 2002: 209). Klarer Vorteil dieses Modells ist die Abgrenzung der Einheiten ohne zirkulären Rückgriff auf prosodische Information unter Hinzuziehung anderer Signalisierungssysteme. Den gleichzeitigen Nachteil dieser semantisch-pragmatischen Vorgehensweise zur Segmentierung linguistischer Einheiten in freien Gesprächen beschreibt KEHREIN (2002: 181) selbst: Wenn Alltagsgespräche mit freier Themenwahl analysiert werden sollen und nicht wie in seinem Korpus nachvollziehbare Handlungsschritte vorliegen, dann muss „auf vage Konzepte wie Stereotype, gesellschaftliche Norm- und Moralvorstellungen, Weltwissen oder das möglicherweise vorhandene Wissen eines Interaktanten um Aspekte der vorangegangenen Interaktion zurückgegriffen werden.“ Dies sind dann subjektive, auf Basis des von Analysierenden interpretierten äußerungssemantischen und pragmatischen Gehalts getroffene Entscheidungen. Ließen sich die Grenzen pragmatischer Basiseinheiten mit den oben beschriebenen, durch neurolinguistische Evidenz belegten Grenzmarkern von Intonationsphrasen korrelieren, könnte zum einen das Zirkularitätsproblem behoben und zum anderen der Entscheidung der Analytiker*innen eine objektivere Komponente zugeschrieben werden. Ein weiterer hier anzumerkender Nachteil ist terminologischer Natur und betrifft die Distinktion von lokal vs. global. Lokale Intonationsmuster können auf der Äußerungsebene potenziell simultan zu globalen Intonationsmustern auftreten, aber auch eigenständige Äußerungen und somit der Definition folgend pragmatische Basiseinheiten konstituieren. Die Unterscheidung zwischen lokalen und globalen Intonationsmustern ist dann auf der Basis der prosodischen Domäne hinfällig, etwa, wenn eindeutig separierbare, einsilbige
76
Prosodie
Ein-Wort-Äußerungen, Partikeln oder Interjektionen äußerungssemantisch vollständig sind, eine erkennbare Äußerungsabsicht haben und dann sich zwar nur über eine Silbe als Domäne (lokal), aber äußerungspragmatisch über die gesamte Äußerung (global) erstrecken.56 Aus meinen Analysen freier Gespräche wird hervorgehen, dass dies sehr häufig der Fall ist. Einen alternativen Terminus zu lokalen Intonationsmustern bietet das Modell von CHAFE (1994), das ich nun als letztes der hier aufzuführenden Modelle skizzieren werde. Intonation units (CHAFE 1994) CHAFES (1994) Modell der Intonation des Englischen zielt funktional vornehmlich auf die in 2.2.3.1 beschriebenen Bewusstseinszustände, Aktivierungsstatus von Informationen und deren Regulierung ab. Der Autor verbindet in seinem Modell konversationsanalytisches Vorgehen mit Grundannahmen der Britischen Schule und der AM-Phonologie. Die zentralen Beschreibungseinheiten der Intonation werden so in direkter Referenz auf CRUTTENDENS Tone-Groups und PIERREHUMBERTS Intonationsphrasen und besonders intermediäre Phrasen intonation units (Intonationseinheiten) genannt, wobei der Autor hervorhebt, dass seine Intonationseinheiten ungleich den Tone-Groups mehr als einen pitch accent umfassen können (vgl. CHAFE 1994: 57–58). Als Abgrenzungskriterien werden bei CHAFE diejenigen Kriterien herangezogen, die auch in den beiden internationalen Modellen als Grenzmarker Anklang finden: Pausen, fallende oder steigende globale Tonhöhenverläufe, Dehnung der finalen Silbe und Anacrusis, wobei den letzten beiden Phänomenen die größte Bedeutung als Grenzmarker zugesprochen wird (vgl. CHAFE 1994: 58–60). Auch in diesem Modell werden andere Signalisierungssysteme in die Analyse und Delimitation von Intonationseinheiten einbezogen, so etwa die Syntax, vor allem aber die Pragmatik. Bezüglich der Syntax beschreibt CHAFE (1994: 60) die Kookkurrenz global fallender Tonhöhenverläufe mit Deklarativen sowie durch ein Fragewort initiierte Fragesätze und global steigende Tonhöhenverläufe mit Ja-NeinFragen. CHAFE (1994: 60) bezeichnet die erste Kontur als terminal, also abschließend und die zweite als nicht-terminal.57 Der Autor macht jedoch ganz deutlich klar, dass diese letztlich prosodischen (und somit erneut zirkulären) Phänomene nicht hinreichend zur Abgrenzung von Intonationseinheiten sind und dass (ähnlich wie BERGMANN 2008: 7 es formulierte, vgl. Kapitel 2.2.4.2) alle oder keines dieser Phänomene prävalent sein können und dennoch Intonationseinheiten abgrenzbar sind, da es sich bei diesen in der Essenz (ähnlich wie bei KEHREIN 2002) um diskurspragmatisch funktionale Einheiten handelt, die deshalb auch nur unter Hinzuziehung funktionaler Kriterien abgrenzbar sind (vgl. CHAFE 1994: 57–59).
56 Vgl. hierzu etwa das Beispiel zum Zusammenfall einzelner prosodischer Domänen in Kapitel 2.2.1. KEHREIN (2002: 96–97) thematisiert diese definitorische Problematik, bezieht sich dabei aber auf lokale Einheiten aus dem Bereich Akzent. 57 Die Parallele zu VON ESSENS Terminologie scheint dabei ein Zufall zu sein.
Phonologie der Prosodie
77
CHAFE (1994: 63) unterscheidet in seinem Modell drei Typen von Intonationseinheiten: fragmentarisch, substanziell und regulativ. Dies geschieht teils aufgrund ihrer prosodischen Form, hauptsächlich aber ihres äußerungssemantischen Inhalts und ihrer diskurspragmatischen Funktion. Die konkrete Ausdehnung der Intonationseinheiten misst CHAFE (1994: 64–65) nicht in Silben, sondern Wörtern. Diese Maßeinheit ist auf der prosodischen Domänenhierarchie am ehesten dem prosodischen Wort zuzuordnen, wobei der Begriff eines Wortes, der auch bei CHAFE nicht weiter diskutiert wird, zweifelsohne kontrovers ist. Fragmentarische Intonationseinheiten werden über ihre prosodische Form definiert. Sie tragen unvollständig realisierte Intonationskonturen, bei denen das erwartbare Ende des Grundfrequenzverlaufs abgeschnitten wirkt, wofür im Deutschen, etwa bei PETERS (2014: 43), der Terminus Trunkierung verwendet wird. Ein konkretes Maß der Ausdehnung legt der Autor bei diesen Einheiten nicht vor. Substanzielle (oder vollständige) Intonationseinheiten werden bei CHAFE (1994: 63) maßgeblich durch ihren äußerungssemantischen Inhalt definiert. Sie vermitteln Ideen von Ereignissen, Zuständen und Referenten und erstrecken sich im Durchschnitt über vier Wörter. Regulative Intonationseinheiten definieren sich primär durch ihre diskurspragmatische Funktion. Sie regeln die kommunikative Interaktion sowie den Informationsfluss und erstrecken sich im Durchschnitt über ein einzelnes Wort. In einer funktionalen Subklassifikation werden bei CHAFE (1994: 64) regulative Intonationseinheiten des Weiteren in textuelle, interaktionale, kognitive und validationale Einheiten eingeteilt. Die Funktion textuell regulativer Intonationseinheiten liegt demnach in der Steuerung der Diskursentwicklung, wie etwa in Vorbereitungen oder Konnektoren, während interaktionale Einheiten direkt in Verbindung mit der Interaktion der Gesprächsteilnehmer*innen stehen, die auch den Kanal betreffen können, wie etwa in phatischen Rückmeldesignalen (Backchannel). Kognitive Einheiten referieren die mentalen Prozesse von Sprecher*innen, die auch paralinguistischer Natur sein können, wie etwa Überraschung, während validationale Einheiten gegebene Informationen bezüglich ihrer Validität prüfen und so etwa Zweifel oder Uneinigkeit ausdrücken können. Regulative Intonationseinheiten umfassen also diskurspragmatische, kognitive sowie emotional-wertende Grundfunktionen und erstrecken sich in der Regel über Ein-Wort-Äußerungen oder andere, kurze sprachliche Äußerungen: „the regulation of discourse flow, whether it functions textually, interactionally, cognitively, or validationally, is accomplished in very short segments of speech“ (CHAFE 1994: 64– 65). Regulative Intonationseinheiten bieten somit einen die Problematik von lokal vs. global meidenden attraktiven Terminus für die hier untersuchten Einheiten, deren Grundfunktionen, wie ich zeigen werde, sich ebenso über diskurspragmatische, kognitive und emotional-wertende Bereiche erstrecken. Ähnlich wie KEHREIN (2002) konstatiert auch CHAFE (1994: 64) einerseits das potenziell simultane Auftreten regulativer Intonationseinheiten innerhalb größerer Beschreibungseinheiten, andererseits aber auch ihre potenzielle Selbstständigkeit. Der Autor bezieht dieses Statement dabei auf die Funktion und Verteilung der von SCHIFFRIN (1987) beschriebenen Diskursmarker, die ebensolche kurzen Äußerungen in Form von Parti-
78
Prosodie
keln, Interjektionen oder Ein-Wort-Äußerungen umfassen und dieselben Grundfunktionen erfüllen können, die hier beschrieben wurden. Dieser Punkt ist Gegenstand des folgenden Teilkapitels.
2.2.5 Zugriff über kurze Äußerungen: regulative Intonationsmuster In den letzten zwei vorgestellten Modellen von KEHREIN (2002) und CHAFE (1994) beziehen die Autoren Intonationsmuster kurzer, oft nur ein- oder zweisilbiger Äußerungen in ihre Betrachtungen ein. In den zuvor vorgestellten international einflussreichen Modellen werden solche Beschreibungseinheiten des lower level der prosodischen Hierarchie auf der Äußerungsebene entweder komplett ausgeklammert oder stehen zumindest nicht im Fokus einzelner, den jeweiligen Modellen folgenden Untersuchungen (vgl. GILLES 2005). In der vorliegenden Studie sind genau solche prosodischen Einheiten Gegenstand der Untersuchung: regulative Intonationseinheiten, die sich auf segmenteller Basis von mono- oder bisyllabischen Partikeln, Interjektionen, Ein-Wort-Äußerungen und hochfrequenten, oft phonetisch reduzierten, floskelhaften Äußerungen finden. Dieses Kapitel dient zum einen der terminologischen Annäherung an die Elemente der segmentellen Basis und zeigt zum anderen vorliegende Studien, in denen die Prosodie, vornehmlich die Intonation, ebensolcher Äußerungen systematisch untersucht wurde.
2.2.5.1 Prosodieforschung anhand von Partikeln, Interjektionen und Ein-Wort-Äußerungen Partikeln, Interjektionen und Ein-Wort-Äußerungen dienten bereits bei SCHMIDT (2001), KEHREIN / RABANUS (2001) und KEHREIN (2002) als Untersuchungsgegenstand im Rahmen prosodischer Forschungen. Ziel dieses Abschnitts ist es, die oben beschriebene segmentelle Basis für potenzielle prosodische Einheiten auf Domänen des lower level aus lexikalischer, morpho-syntaktischer und natürlich auch (aber eben nicht primär) prosodischer Perspektive terminologisch abzugrenzen. Anders: Ich kläre hier, wie sich Partikeln, Interjektionen und Ein-Wort-Äußerungen als Forschungsgegenstand durch die Literatur definieren lassen und, wenn vorhanden, welche Charakteristika ihnen dort zugeschrieben werden. Am Ende des Kapitels werde ich diese Charakteristika, die fortan als Klassifikationsgrundlage der zu untersuchenden segmentellen Einheiten dienen werden, zusammentragen. Kurzen Äußerungseinheiten im Deutschen, hier als Kollektivum für die obigen drei Kategorien verwendet, wurden, anders als EHLICHS (1986: 1) Urteil zu hierzu gehörenden Interjektionen als „ungeliebtes Objekt der Sprachwissenschaft“, eine Vielzahl an Studien gewidmet. Nichtsdestotrotz erkennt man, dass den kleinen Äußerungseinheiten wichtige Funktionen beim sprachlichen Handeln zukommen, die es zu erforschen gilt (vgl. EHLICH 1986: 23). Ein Großteil der Forschung zu solchen Äußerungseinheiten, besonders zu Partikeln, wurde für das Deutsche vor allem in
Phonologie der Prosodie
79
den späten siebziger, achtziger und den frühen neunziger Jahren vorgenommen. So entstanden zu dieser Zeit vor allem unter der Federführung HARALD WEYDTS diverse Sammelbände von Aufsätzen, die entsprechende Äußerungen aus der Perspektive sämtlicher linguistischer Systemebenen und dabei oft auch aus interaktionaler Sicht betrachten, so etwa in WEYDT (1979, 1983 und 1989) sowie ABRAHAM (1991). Zu Interjektionen im Deutschen ist EHLICHS (1986) Monographie als einschlägiges Werk zu nennen. Partikeln und Interjektionen finden danach auch Platz in Beschreibungen zur Grammatik des Deutschen, so etwa in ZIFONUN et al. (1997), WEINRICH (2005), KÜRSCHNER (2008) und in der Grammatik des „Duden“ (2009). Aktuellere Sammelbände, die sich mit solchen kurzen Äußerungen auseinandersetzen, sind etwa HARDEN / HENTSCHEL (2010) zu Partikeln im Allgemeinen, ROTHSTEIN (2012) primär zur Statusdiskussion nicht-flektierender Wortarten sowie GÜNTHNER / BÜCKER (2009) und BLÜHDORN et al. (2017) zur Analyse der Äußerungen in der gesprochenen Interaktion. In BUSSMANN (2002: 561) stößt man auf die Definition von Partikeln als „Sammelbezeichnung für nichtflektierende Wörter bzw. Wortarten mit sehr unterschiedlicher Verwendung.“ Eine weitreichende Umschreibung des Gegenstands wie diese überrascht nicht, versucht man verschiedene Klassen von Partikeln etwa bestimmten Wortarten zuzuordnen. Als erstes konkretes Charakteristikum ist die nicht-Flektierbarkeit festzuhalten. HENTSCHEL / WEYDT (1989) und ROTHSTEIN (2012) thematisieren unterdessen solche Probleme bei der konkreten Zuordnung verschiedener Partikeln zu Wortarten. Hierbei schlagen HENTSCHEL / WEYDT (1989: 6) vor, Partikeln aus semantischer Perspektive zu kategorisieren, und zwar als Synsemantika, die ihren semantischen Gehalt nur „im Zusammenhang mit anderen Wortarten entfalten.“ In einem früheren Aufsatz betonte WEYDT (1979) bereits, dass es sich bei Partikeln um Wortklassen handelt, die keine selbstständige lexikalische Bedeutung aufweisen, aber die Bedeutung ihrer jeweiligen Bezugselemente modifizieren können.58 ROTHSTEIN (2012: 2–4) kategorisiert Partikeln maßgeblich am oben bereits genannten Charakteristikum der nicht-Flektierbarkeit und lehnt sich damit an verschiedene Darstellungen der Grammatik des Deutschen an. So definiert KÜRSCHNER (2008: 146) unter der zusätzlichen Betrachtung der Fähigkeit, Satzglieder zu bilden, Partikeln als unflektierbare Wörter, die im Gegensatz zu den Adverbien für sich nicht als Satzglieder fungieren können […]“, mit dem Zusatz, dass einige Partikeln im Gegensatz dazu aber „für sich als Satzäquivalent stehen [können, TP].“ Sowohl KÜRSCHNER (2008) als auch die „Duden“-Grammatik (NÜBLING 2009) nehmen semantisch-funktionale Kriterien zur weiteren Differenzierung von Partikeln zur Hand. Unterschieden werden so je nach semantischer Funktion – – – –
Abtönungs- oder Modalpartikeln (eigentlich, nur, vielleicht, schon), Grad- oder Intensitätspartikeln (sehr, ziemlich, fast, nahezu, äußerst), Fokuspartikeln (eben, ausgerechnet, nur, besonders, sogar), Negationspartikeln (nicht, keineswegs, ebenso wenig),
58 Dies trifft aus einzellexematischer Perspektive am ehesten auf Modal- und Gradpartikeln zu. Eine aktuelle, einführende Übersicht zu Modalpartikeln im Deutschen bietet MÜLLER (2014).
80 – –
Prosodie
Antwortpartikeln (ja, nein, doch, vielleicht, gern, hmh) und Reaktionspartikeln (bitte, danke).
Eine weitere Kategorie, die in der Forschungsliteratur häufig zu finden ist, aber in den hier herangezogenen Grammatikbeschreibungen fehlt, ist die der Diskurspartikeln. Diskurspartikeln sind intuitiv und oft unbewusst verwendete, unflektierbare, aber mit einem Intonationsverlauf versehbare Minimaläußerungen wie hm, äh oder regional geprägte Varianten wie gell. Sie treten oft isoliert an den für den Kommunikationsverlauf relevanten Stellen auf und beeinflussen dort Fremdwahl, Selbstwahl, generelles Turn-Taking und somit den gesamten Diskurs (vgl. SCHMIDT 2001: 17–18). GLÜCK / RÖDEL (2016: 155) nennen im „Metzler Lexikon Sprache“ Diskurspartikeln synonym zu Diskursmarkern (s. u.) und Gliederungssignalen und definieren Diskurspartikeln aus primär funktionaler Perspektive als Kollektivum für „sprachliche Ausdrücke, deren Vorkommen der Organisation, Gliederung, Strukturierung vor allem gesprochener Sprache dient […].“ Hier wird die definitorische Nähe zu dem vor allem in der konversationsanalytisch geprägten sprachlichen Interaktionsforschung aktuell gängigeren Terminus Diskursmarker (vgl. AUER / GÜNTHNER 2005) deutlich. Nach IMO (2017: 50) wird der Terminus „als Sammelbegriff für Gesprächspartikeln und -floskeln verwendet, in anderen [Ansätzen, TP] werden damit ausschließlich äußerungsinitial positionierte, […] kurze Wörter sowie verfestigte Phrasen bezeichnet.“ Mit der zweiten Kompositumskomponente Marker wird der Tatsache Rechnung getragen, dass nicht alle Äußerungen, die vornehmlich aufgrund ihrer diskurspragmatischen Funktion als Diskurspartikeln analysiert werden können, rein formal auch der Wortart Partikeln angehören.59 So werden in der Regel nicht nur Ein- sondern auch (floskelhafte) Mehr-Wort-Äußerungen in die Analysen einbezogen. Bei Letzteren lässt sich, wenn sie häufig auftreten, in spontansprachlichen Korpora zudem oft ein Univerbierungsprozess beobachten, bei dem durch Tilgungen oder Assimilationen einzelner Laute Mehr-Wort-Äußerungen zu Ein-WortÄußerungen reduziert beziehungsweise integriert werden, wie etwa in weißt du zu weißte oder, wie im westlichen Oberdeutschen oft zu beobachten, weischt (vgl. BLÜHDORN / FOOLEN / LOUREDA 2017: 17 und GÜNTHNER 2017: 116–123). Neben lexikalischen und solchen morphologischen Kriterien werden auch syntaktische und prosodische Aspekte in die Charakterisierung von Äußerungen als Diskursmarker einbezogen. Wie oben im Zitat von IMO bereits zu erkennen ist, spielt die syntagmatische Positionierung etwa im Vor-Vorfeld (vgl. AUER 1997) und die syntaktische sowie prosodische Integrierbarkeit dabei eine Rolle: Diskursmarkern wird sowohl eine syntaktische als auch eine prosodische Selbstständigkeit zu den größeren Äußerungseinheiten zugesprochen, in die sie möglicherweise eingebettet sind oder zumindest in deren unmittelbarer syntagmatischer Umgebung stehen (vgl. BLÜHDORN / FOOLEN / LOUREDA 2017: 17–18). Im Gegensatz zu etwa Modalpartikeln scheinen nach BLÜHDORN / FOOLEN / LOUREDA (2017: 18) Diskursmarker 59 Vgl. dahingehend auch BLÜHDORN / FOOLEN / LOUREDA (2017: 10). IMO (2012) diskutiert unterdessen den Status von Diskursmarkern als eigene Wortart.
Phonologie der Prosodie
81
„keinen belastbaren prosodischen Beschränkungen [zu, TP] unterliegen.“ Meine Analysen werden zeigen, dass die prosodische Gestaltung sprachlicher Äußerungen, die formal und funktional als Diskursmarker klassifiziert werden können, interindividuell und interregional systematischen Beschränkungen unterliegen, die primär an ihre spezifische Funktion im Diskurs und weniger an ihre syntaktische Position gebunden sind. BLÜHDORN / FOOLEN / LOUREDA (2017: 11) definieren, angelehnt an SCHIFFRIN (1987), Diskursmarker als „Ausdrücke, die ihre spezifischen Funktionen vor allem im Gespräch entfalten, Verknüpfungen zwischen Beiträgen unterschiedlicher Partner herstellen können und dem Management von Informationsfluss, gemeinsamem Wissen und Interaktionsfortgang dienen.“ Dies entspricht in der Essenz der unten durch HOFFMANN gegebenen Definition von Interjektionen, was verdeutlicht, wie sehr die Grenzen zwischen den einzelnen Wortarten und funktionalen Kategorien verschwimmen. An späterer Stelle nehmen BLÜHDORN / FOOLEN / LOUREDA (2017: 23) aus pragmatischer und interaktionsbezogener Perspektive „das Gliedern und Strukturieren komplexer Äußerungseinheiten als prototypische Diskursmarkerfunktionen“ an. Dies entspricht den Grundfunktionen prosodischer Einheiten der Äußerungsebene oder der Intonation im engeren Sinne, wie sie in sämtlichen hier vorgestellten Modellen zum Tragen kommt.60 Der Terminus Interjektion stammt aus dem Lateinischen und kann, folgt man EHLICH (1986: 19), mit inter-iectio als Dazwischengeworfenes oder Eingeschobenes übersetzt werden. Diese freie Übersetzung macht deutlich, dass, wie es EHLICH (1986: 19) selbst treffend formulierte, „die Kategorie lediglich unter Bezug auf etwas anderes“ existieren könne und sich somit auch der Definition als eigenständige Wortart entziehe.61 Ähnlich wie in der oben gegebenen Definition WEYDTS (1979) von Partikeln tragen also auch Interjektionen keine eigene lexikalische Bedeutung, sondern beziehen ihre Semantik stets auf einen anderen Referenten, ein Ereignis oder einen Zustand. BUSSMANN (2002: 349) und KÜRSCHNER (2008: 157) nehmen zu diesem Charakteristikum noch die der nicht-Flektierbarkeit und der syntaktischen Unintegriertheit auf. Beide weisen zudem auf die funktionale Komponente von Interjektionen hin, Empfindungen zu kommunizieren. So auch der Grammatik„Duden“ (NÜBLING 2009: 597), nach dem Interjektionen „dem Ausdruck spontaner, reaktiver Emotionen oder Bewertungen“ dienen.62 Funktional decken Interjektionen innerhalb dieser Grundfunktion ein sehr breites Spektrum auf der Valenzskala von positiv bis negativ ab (vgl. NÜBLING 2009: 597). 60 Umso erstaunlicher wirkt es, dass der Prosodie in den Beiträgen zur Diskursmarkerforschung in Relation etwa zu lexikalischen, syntaktischen und syntagmatisch-strukturellen Aspekten so wenig Aufmerksamkeit geschenkt wird. 61 Einen Ähnlichen Gedankengang könnte man analog zur am Anfang von Kapitel 2 durch VON ESSEN (1981) gegebenen wörtlichen Übersetzung von Prosodie als Hinzugesungenes vornehmen. Dies würde, nähme man die reine Semantik des Ausdrucks für ausschlaggebend, zur Erklärung beitragen, warum die Prosodie in der traditionellen Regionalsprachenforschung und dort etwa in der Kartierung von Phänomenen in Atlanten im Vergleich zu anderen Signalisierungssystemen und Phänomenbereichen stets das Schlusslicht darstellt (vgl. Kapitel 3). 62 Als alternativer Terminus wird dementsprechend dort Empfindungswörter vorgeschlagen.
82
Prosodie
In der Grammatikbeschreibung des Instituts für Deutsche Sprache bilden Interjektionen nach HOFFMANN (1997: 362) „eine Klasse selbständiger funktionaler Einheiten im Diskurs, deren Elemente nur sehr eingeschränkt an den Möglichkeiten syntaktischer Kombinatorik teilhaben, die unflektierbar sind, sich durch das Vorkommen von Tonmustern, die distinktiv sein können, auszeichnen und nicht als Träger von Propositionen dienen.“ Zu den Interjektionen zählt HOFFMANN (1997) Äußerungen wie hm, äh, ah, oh, ich, na, ach und pst, die in der „Duden“-Beschreibung als Antwortpartikeln klassifizierten ja und nein werden unter dem Terminus Responsive geführt. In dieser Definition wird zum ersten Mal konkret ein Bezug zur Prosodie hergestellt: das Vorkommen von Tonmustern (in der hier verwendeten Terminologie: Intonationsmuster) erbringt bei den Interjektionen die Distinktionsleistung innerhalb ihrer Formklassen (vgl. HOFFMANN 1997: 365). Unterschieden wird so zwischen einem Falltonmuster, einem Steigtonmuster, einem Mitteltonmuster mit gleichmäßig ebenem oder leicht sinkendem Tonhöhenverlauf, einem steigend-fallendem Gipfeltonmuster und einem fallend-steigendem Taltonmuster (vgl. HOFFMANN 1997: 365).63 Zudem werden für alle Formen kurze oder lange sowie reduplizierte Varianten unterschieden. Die konkreten Funktionen der einzelnen Intonationsmuster auf der segmentellen Basis der Interjektionen lehnt stark an die einschlägigen Analysen von EHLICH (1979) an, auf die ich im nächsten Teilkapitel eingehe. Die Grundfunktion der Interjektionen besteht nach HOFFMANN (1997: 362) „in der unmittelbaren (oft automatisiert ablaufenden) Lenkung von Gesprächspartnern, die sich elementar auf die laufende Handlungskooperation, Wissensverarbeitung und den Ausdruck emotionaler Befindlichkeiten erstrecken kann.“ Die laufende Handlungskooperation und Wissensverarbeitung sind wesentliche Aspekte der Funktion, auf die ich im Methoden- und Analyseteil der Arbeit zurückgreifen werde. EHLICH (1986: 212) betont zur funktionalen Differenzierung bereits, dass Form und Funktion dieser Äußerungen eine komplexe Einheit bilden und die konkrete, linguistische Funktion nur durch eine eingehende Analyse der Form aufzudecken ist. Bei HOFFMANN (1997: 365) findet sich zudem ein Hinweis darauf, dass viele Interjektionen „eine regionale bzw. dialektale Spezifik“ zeigen. Die Untersuchung der Form-Funktionszuordnungen der hier beschriebenen kurzen Äußerungseinheiten im interregionalen Vergleich stellt einen Kern der vorliegenden Untersuchung dar. Die Abgrenzung von Ein-Wort-Äußerungen zu Partikeln und Interjektionen erfolgt im Vergleich nun recht einfach über einen lexikalischen Eintrag und eine dadurch inhärente Eigensemantik sowie einen potenziellen propositionalen Gehalt. Ich fasse die hier erarbeiteten Charakteristika für Partikeln (auch stellvertretend für Diskurspartikeln und Diskursmarker), Interjektionen und Ein-Wort-Äußerungen zusammen. Diese sind unflektierbar, aber betonbar, haben keine lexikalische Eigenbedeutung und keinen propositionalen Gehalt. Diese drei Punkte treffen auf Ein-Wort-Äußerungen per definitionem selbstverständlich nicht zu. Gerade hier er-
63 Hier wird direkt die Parallele zu den in Kapitel 2.2.4.3 beschriebenen lokalen Intonationsmustern von KEHREIN (2002) deutlich.
Phonologie der Prosodie
83
scheint es besonders lohnenswert, zu erforschen, wie sich die komplexe Äußerungsbedeutung aus dem Zusammenspiel von lexikalischer Eigensemantik und der Prosodie zusammensetzt. Die weiteren Charakteristika sind ihre intuitive und oft unbewusste Verwendung, die in der Regel Mono- oder Bisyllabizität, das oft isolierte und nicht syntaktisch integrierte Auftauchen an übergangsrelevanten Stellen im Diskurs und die Fähigkeit, satzäquivalent zu sein. Die Funktionen der Äußerungen werden durch die Prosodie, oder genauer, durch die auf ihnen implementierten Intonationsmuster, determiniert. Bei Ein-Wort-Äußerungen muss selbstredend die lexikalische Information berücksichtigt werden. Die Grundfunktionen liegen in den Bereichen Steuerung des Diskurses, Status der Verarbeitung und Ausdruck von Sprecher*innenbefindlichkeiten und Einstellungen. Insgesamt zeigen die Äußerungen damit eine hohe funktionale Ähnlichkeit mit Intonation im engeren Sinne. Zudem sind sie durch ihre syntaktische und semantische Unintegriertheit und Eigenständigkeit problemlos von anderen Einheiten des kontinuierlichen Redeflusses abgrenzbar und bieten durch das Fehlen des semantischen Gehalts aus weiteren Signalisierungssystemen, etwa bei der Partikel hm, ein forschungsoptimales lautliches Material zur Überprüfung der Funktion von „Intonation pur“ (SCHMIDT 2001: 18). Ein Vorreiter in dieser Hinsicht ist EHLICH (1979), der Funktionen ebendieser Partikel anhand ihrer Intonation untersuchte. 2.2.5.2 Formen und Funktionen von hm (EHLICH 1979) EHLICHS (1979) Ergebnisse seiner phonologisch-pragmatisch ausgerichteten Untersuchung zu Partikeln der Klasse hm beeinflussten viele der zum Teil bereits dargelegten Beschreibungen von Partikeln und Interjektionen in Grammatiken (vgl. etwa HOFFMANN 1997: 365–372 und NÜBLING 2009: 594–596). EHLICH moniert zu seiner Zeit das Desinteresse der Linguistik an Partikeln und Interjektionen. Konkret bemängelt er die unsystematische Aufnahme von Partikeln der Klasse hm etwa bei Tonbandtranskriptionen, bei denen der wesentliche Teil der linguistischen Information, die zur kommunikativen Funktion der Partikeln beiträgt, nicht zur Geltung komme: die Intonation (vgl. EHLICH 1979: 504). Der Autor fordert eine systematische Untersuchung der segmentellen Form von hm in Verbindung mit der prosodischen Information ihrer Intonation und stellt fest, dass hierbei besonders durch die Intonation distinkte Form-Funktionszuordnungen zu Tage gebracht werden können, „von denen keineswegs einfach die eine durch die andere ersetzt werden kann“ (EHLICH 1979: 504).64 Als überdachende Grundfunktionen etabliert EHLICH (1979: 507–512) die Begriffe Konvergenz und Divergenz. Diese werden verstanden als positive oder negative Rückkopplungen auf den vorangegangenen Sprachhandlungsprozess (oder 64 Im weiteren Verlauf vergleicht EHLICH (1979: 504–56) die intonatorische Systematik von hm mit Tonsystemen in Tonsprachen etwa des asiatischen oder afrikanischen Raums. Ich werde diese These nicht weiter ausbauen, zumal hier Ton und Intonation als zwei verschiedene Bereiche prosodischer Einheiten gesehen werden.
84
Prosodie
konkret: den Turn oder die TCU vorangegangener Sprecher*innen) und seine Einbettung in andere Handlungen. Der Autor charakterisiert in seiner Studie anhand dieser beiden Konzepte hm als stets reziproke Signale mit für Sprachhandlungen strukturierendem Charakter. Das heißt, sie steuern direkt kommunikative Handlungsabläufe: „Es sind die Divergenzen bzw. Konvergenzen hinsichtlich der Prozessierung der sprachlichen Handlungen und ihrer Einbindung in andere Handlungen, auf denen die Klasse HM operiert.“ (EHLICH 1979: 512). Auf dieser funktionalen Basis und formal rein aufgrund der Analyse der prosodischen Merkmale Tonhöhenverlauf und Dauer beschreibt EHLICH (1979: 507– 508) vier Grundformen der Intonation bei Partikeln der Klasse hm. Grundform I fällt und steigt, Grundform II steigt kontinuierlich, Grundform III weist eine ebene Struktur auf und Grundform IV fällt kontinuierlich; Grundform I wird dabei der Funktionsklasse Konvergenz zugeordnet, während die Grundformen II–IV der Funktionsklasse Divergenz zugeschrieben werden.65 Für alle Grundformen werden zusätzlich Kurzformen sowie reduplizierte Formen angenommen. Die formale Veränderung der prosodischen Form (bei Kurzformen) und der segmentellen Substanz (reduplizierte Formen) wirken sich dabei jedoch nicht diskret, sondern kontinuierlich auf den jeweiligen Grad der kommunizierten Konvergenz oder Divergenz aus (vgl. EHLICH 1979: 510). EHLICH bestimmt die Funktion von hm rein bezogen auf den Diskurs zwischen Sprecher*in und Hörer*in, was erneut die Kommunikationsorganisation als eine der zentralen Funktionen der Intonation und ebensolcher regulativen Intonationseinheiten in den Vordergrund rückt. Die Voraussetzungen für eine derartige Zuordnung sind dabei eine Erwartungshaltung der Hörer*innen, ein dialogisches Verhältnis sowie eine klare Rollenverteilung von Sprecher*in und Hörer*in im Gespräch. Zentral ist bei EHLICH (1979: 511) jedoch stets der Hörer, „von dem der Sprecher verlangt, daß er sich zu der Sprechhandlung verhält.“ Die Intonationsverläufe in Kombination mit Partikeln der Klasse hm werden somit bei EHLICH stets zum Hörer*innenreaktionssignal. Dieses drückt Konvergenz oder Divergenz aus und fordert auf pragmatischer Ebene eine Reaktion der Hörer*innen ein. In seiner späteren Monographie beschreibt EHLICH (1986: 222), dass Partikeln und Interjektionen, stets maßgeblich durch die Intonation differenziert, auch Einfluss „auf die auf interaktionale kommunikative Abläufe bezogenen mentalen Tätigkeiten des anderen“ haben. Sie operieren somit auf der (etwa durch Sprachaufnahmen) direkt beobachtbaren Gesprächsebene sowie auf der mentalen Ebene nicht nur der Hörer*innen, sondern beider Interaktionsteilnehmer*innen.66 Ich werde die Steuerung auf der mentalen (kognitiven) Ebene als funktionalen Aspekt ebenso im Methoden- und Analyseteil berücksichtigen und werde zeigen, dass sich mit diesem Konzept eine funktionale Differenzierung einiger der zu untersuchenden Einheiten
65 Rein formal erinnern diese Grundformen an die grundlegenden Intonationstypen aus SIEBS (1901) und VON ESSEN (1964), die oben in Kapitel 2.2.4.1 vorgestellt wurden. 66 Hier zeigt sich, dass die in Kapitel 2.2.5.1 für Interjektionen gegebene Funktionsbeschreibung HOFFMANNS (1997) maßgeblich auf den Analysen EHLICHS (1979, 1986) beruht.
Phonologie der Prosodie
85
durchführen lässt. Eine ausdifferenziertere funktionale Analyse von Intonationsmustern auf Diskurspartikeln wurde zudem in einem Forschungsprojekt von SCHMIDT (2001) durchgeführt.
2.2.5.3 Bausteine der Intonation (SCHMIDT 2001) Im interdisziplinär angelegten Forschungsprojekt „Bausteine der Intonation“ (SCHMIDT 2001) untersucht die Marburger und Greifswalder Forschungsgruppe, ob sich die Massen an Intonationsmustern einer Einzelsprache eventuell auf einige wenige Prototypen (oder Bausteine) zurückführen lassen. Gegenstand sind Intonationsmuster explizit und ausschließlich auf Diskurspartikeln, und zwar aus primär den oben genannten Gründen des forschungsoptimalen lautlichen Materials und der intuitiven Zugänglichkeit für Hörer*innen und Sprecher*innen. Das durch SCHMIDT (2001: 16) formulierte Desiderat der Studienreihe ist es, „die unzureichend geklärten funktionalen Einheiten ins Zentrum […] zu stellen“ und dabei eine „exakte Analyse der hörerrelevanten funktionalen Kategorien“ durchzuführen. In laborsprachlichen Experimenten wurden zunächst 28 Varianten der Partikel hm durch Studierende in einem vierwöchigen Selbstbeobachtungsexperiment erhoben. 20 der Varianten wurden im weiteren Vorgehen von anderen Muttersprachler*innen des Deutschen als eindeutig zur deutschen Sprache zählend bewertet. In einer anschließenden Verbalisierungsaufgabe wurden die aufgenommenen Partikeln 49 Proband*innen in einem Hörtest isoliert vorgespielt. Die Proband*innen wurden dann mit der Aufgabe betraut, zu überlegen, „welche Worte […] der Sprecher bzw. die Sprecherin anstelle ‚HM‘ [hätte, TP] verwenden können“ (SCHMIDT 2001: 19). In wörtlicher Rede wiedergegeben wurden diese Angaben genutzt, um über semantische Ähnlichkeiten funktionale Kategorien für die Partikeln zu erstellen, die anschließend in einem weiteren Hörtest 112 Proband*innen vorgespielt wurden. Diesmal sollten die gehörten Items direkt vorgegebenen, aus dem vorigen Test entstandenen Funktionskategorien zugeordnet werden. Über nachgeschaltete Clusteranalysen konnten so sieben potenzielle Formprototypen, teilweise mit Formvarianten, von Intonationsmustern auf Partikeln herausgestellt werden, deren Funktionsklassen sich denjenigen übergeordneten Funktionsbereichen zuordnen lassen, die EHLICH (1979, 1986) für Partikeln und Interjektionen sowie CHAFE (1994) für regulative Intonationseinheiten herausstellte: Sie erfüllen diskurspragmatische, kognitive und emotional-wertende Grundfunktionen. Abbildung 14 fasst die Ergebnisse der soeben beschriebenen Testreihe zusammen.
86
Prosodie
Abb. 14: Formprototypen, Formvarianten und Funktionsklassen des Deutschen nach SCHMIDT (2001: 25)
Die zweite und vierte Spalte der Tabelle gibt jeweils den idealisierten Grundfrequenzverlauf des Formprototyps respektive der Formvariante an. Die sechste Spalte zeigt die Bezeichnung der Funktionsklassen. Die siebte gibt die am häufigsten gegebenen Verbalisierungsangaben der gehörten Partikeln durch die Proband*innen an. Die Formprototypen und -varianten enthalten auch die von EHLICH (1979) postulierten vier Grundformen. Die Funktionsklassen Konvergenz und Divergenz ließen sich hierauf auch übertragen. Zielsetzung der Studie war es jedoch, eine feinkörnigere Differenzierung der Form-Funktionszuordnungen, und zwar zunächst primär hinsichtlich ihrer Diskretheit zu überprüfen. Die Validität der experimentell und vor allem laborsprachlich erhobenen Daten in spontaner gesprochener Sprache zu überprüfen und sie funktional exakt zu klassifizieren erfordert eine andere Methode (vgl. SCHMIDT 2001: 22). Diesem Desiderat sind KEHREIN / RABANUS (2001) im Zuge desselben Projekts nachgekommen. Ziel ihrer Studie war es, zu überprüfen, welche der sieben Formprototypen aus SCHMIDT (2001) in freien Gesprächen auftauchen und wie hoch ihr formaler Übereinstimmungsgrad untereinander ist. Im weiteren Vorgehen wurde mit konversationsanalytischen Methoden eine Funktionsbestimmung vorgenommen. Für den Grad der Übereinstimmung legen die Autoren keinerlei formales Maß fest. Mögliche Kandidaten bestimmen KEHREIN / RABANUS (2001: 36) zunächst auditiv, woraufhin eine Übereinstimmung dann festgestellt wird, „wenn die Visualisierung des Tonhöhenverlaufs auf einer Diskurspartikel ‚so aussieht‘ wie der Formprototyp der
Phonologie der Prosodie
87
entsprechenden Funktionsklasse.“ Für die funktionale Klassifizierung wurde ein überregionales Korpus freier Gespräche (Gespräch beim Kaffee, Talkshow, Interview und eine Aufnahme des Lego-Korpus, vgl. Kapitel 4.2.2.2) analysiert, in dem insgesamt 329 Diskurspartikeln inklusive ihrer je nach Formtyp häufig erkannten Formvarianten begutachtet wurden. Die konkrete Funktion der identifizierten Diskurspartikeln wurde dabei konversationsanalytisch durch ihre Position innerhalb des Gesprächs bestimmt und durch Sequenzanalysen der Folgeäußerungen validiert. Formal zeigte sich, dass die Häufigkeit der Partikeln stark gesprächssortenabhängig ist und die segmentelle Basis stark variiert. So konnten lediglich die Formprototypen 2, 4 und 7 als auf der Partikel hm implementierte Intonationsmuster identifiziert werden, während die übrigen Prototypen eher auf Ein-Wort-Äußerungen zu beobachten waren (vgl. KEHREIN / RABANUS 2001: 34–38). Den höchsten Grad der Übereinstimmung zeigte dabei Formprototyp 7 (Reaktionsaufforderung). Durch die funktionalen Analysen konnten KEHREIN / RABANUS (2001: 37–40) ein Modell zur funktionalen Einteilung der erhobenen Daten aufstellen, dass zunächst die drei erwartbaren Grundfunktionsbereiche in je einer Ebene annimmt: Kommunikationsorganisation, inhaltliche Stellungnahme und Ausdruck der Sprecher*innenbefindlichkeit und Einstellung. Diese Ebenen werden dann in Teilebenen aufgeteilt. Ebene I (Kommunikationsorganisation) wird in die Teilebenen IA: Kommunikationssteuerung und IB: metakommunikative Stellungnahme aufgeteilt, wobei IA die Funktionsklassen „IA,1 Turnsicherung“ und „IA,2 Reaktionsaufforderung“ und IB die Funktionsklassen „IB,1 Quittieren“ und „IB,2 Verstehensproblem“ beinhaltet. Ebene II (inhaltliche Stellungnahme) wird nicht weiter unterteilt und beinhaltet die Funktionsklassen „II,1 inhaltliche Zustimmung“, „II,2 Unentschiedenheit“ und „II,3 inhaltliche Ablehnung“. Ebene III bezieht sich auf die Sprecher*innenbefindlichkeit, die entweder „III+ positiv“ oder „III- negativ“ sein kann. Abbildung 15 zeigt das hier beschriebene Ebenenmodell.
88
Prosodie
Ebene I: Kommunikationsorganisation Teilebene IA: Kommunikationssteuerung Funktion IA, 1: Rederechtssicherung/Turnsicherung Funktion IA, 2: Reaktionsaufforderung Teilebene IB: metakommunikative Stellungnahme Funktion IB, 1: Quittieren Funktion IB, 2: Verstehensproblem Ebene II: inhaltliche Stellungnahme Funktion II, 1: inhaltliche Zustimmung Funktion II, 2: Unentschiedenheit Funktion II, 3: inhaltliche Ablehnung Ebene III: Sprecherbefindlichkeit Funktion III+: positive Befindlichkeit Funktion III–: negative Befindlichkeit Abb. 15: Ebenenmodell nach KEHREIN / RABANUS (2001: 39) und KEHREIN (2002: 72), modifiziert
Die untersuchten Partikeln und die darauf realisierten Intonationsmuster lassen sich in progressiv und reaktiv wirkende Einheiten einteilen. Progressiv heißt in dem Fall, dass die Einheiten den nachfolgenden Kommunikationsverlauf direkt beeinflussen, während reaktive Einheiten auf Elemente des vorangegangenen Kommunikationsverlaufs (konkret: den Turn) bezogen sind (vgl. KEHREIN / RABANUS 2001: 40– 43).67 Einheiten auf der Teilebene IA wirken stets progressiv, während jene der Teilebene IB stets reaktiv ausgerichtet sind. Einheiten der Ebene II sind als inhaltliche Stellungnahmen als reaktiv zu kennzeichnen, wobei etwa bei IB,1 und II,1 eine Funktionskoppelung stattfinden kann und alle Ebenen somit nicht strikt voneinander getrennt sind. Einheiten, die die Sprecher*innenbefindlichkeit auf Ebene III ausdrücken, sind von der turnbezogenen Ebene getrennt zu beobachten und richten sich rein auf Sprecher*innen selbst (vgl. KEHREIN / RABANUS 2001: 40–47). Die soeben vorgestellten Ergebnisse und Einteilungsprinzipien bilden die Grundlage für die Analysekapitel der vorliegenden Arbeit, werden stellenweise so übernommen und aufgrund der neuen Daten teils modifiziert oder erweitert. Eine frühere Anwendung des Ebenenmodells auf Partikeln eines sprachübergreifenden Korpus findet sich in PISTOR (2017). Hierbei konnte für einige der in SCHMIDT (2001) postulierten Form-Funktionszuordnungen sprachfamilienübergreifende und somit potenziell universelle Gültigkeit gezeigt werden. Diese und weitere universelle Strukturen der Prosodie sind der Anstoß für die vorliegende Studie und deshalb Gegenstand der folgenden zwei, sodann Kapitel 2 schließenden Abschnitte. Zusammenfassend lässt sich zur weitschweifenden und vielfältigen Theoriebildung zur Phonologie der Prosodie festhalten, dass die prosodischen Einheiten der lexikalischen Ebene Wortakzent, Ton und Tonakzent sowie Quantität gut unter-
67 Alternative Termini zu reaktiv und progressiv finden sich in DEPPERMANN (2009: 26–49): retrospektiv und prospektiv.
Phonologie der Prosodie
89
sucht sind. Der Grund dafür ist ihre konkret bestimmbare und bestimmte linguistische Funktion: Die Einheiten leisten die Distinktion segmentell identischer Einheiten. Als weitaus schwieriger und komplexer erweist sich die Erforschung prosodischer Einheiten der postlexikalischen Äußerungsebene. In vielfältigen Ansätzen und Mischungen dieser Ansätze haben sich zur Modellierung international Ankerpunkte, initiale und finale Äußerungsgrenzen, Akzentsilben sowie Kombinationen lokaler Tonhöhenbewegungen durchsetzen können. Als problematisch erweist sich dabei der unzureichend geklärte Status der gewählten Beschreibungseinheiten als phonetische Werte oder phonologische Konstrukte sowie der Status ihrer perzeptiven Relevanz und der ihnen zugrundeliegenden relevanten prosodischen Merkmale. Aus den Modellen lassen sich allgemeine Funktionen prosodischer Einheiten der Äußerungsebene ableiten, die in den Bereichen Phrasierung, Disambiguierung, Redeorganisation, Emotionalität und Wertung, Hervorhebung und Fokussierung liegen. Konkrete Form-Funktionszuordnungen wie ein tiefes intonatorisches Äußerungsende, das eine Form von Abschluss signalisiert und ein hohes intonatorisches Äußerungsende, das eine Form von Fortsetzung oder Weiterweisung signalisiert, sind dabei die Ausnahme. Die Abgrenzung von Beschreibungseinheiten auf der Äußerungsebene stellt nach wie vor einen weiteren problematischen Punkt dar: Hier existieren viele Konzepte, von denen nur wenige empirisch überprüfbare oder konsistente Ansätze bieten. Die Silbe als segmentelles Korrelat und Domäne des lower level lässt sich dagegen relativ sicher, wenn auch intuitiv abgrenzen. Für silbenbasierte (ursprünglich: lokale) prosodische Einheiten der Intonation, für die hier der Terminus regulative Intonationsmuster gewählt wurde, liegen zudem konkrete, empirisch überprüfbare Funktionsbestimmungen vor (vgl. EHLICH 1979, HOFFMANN 1997, SCHMIDT 2001, KEHREIN / RABANUS 2001, KEHREIN 2002 und PISTOR 2017), was diese Einheiten zum idealen Forschungsgegenstand einer vergleichenden Studie macht. 2.3 UNIVERSALIEN DER PROSODIE Ziel der vorliegenden Studie ist es, Konstanz und Universalität bei prosodischen Strukturen der Intonation in Regionalsprachen des Deutschen nachzuweisen. Hierfür muss zunächst geklärt werden, für welche Strukturen und mit der Prosodie zusammenhängenden Funktionen bereits Universalität postuliert wurde. Die Grundlagenforschung zu sprachlichen Universalien geht vor allem auf GREENBERG (1966, 1974 und 1978) zurück, der den Begriff von Universalien als empirische Generalisierungen über die Gesetzmäßigkeiten menschlichen Verhaltens prägte (vgl. GREENBERG 1966: 9). Unterschieden wird bei PLANK / FILIMONOVA (2000) und HAASE (2001) zwischen absoluten Universalien, für die bisher keine Gegenbeispiele gefunden werden konnten, und statistischen Universalien, für die Gültigkeit bei einer hohen Anzahl von Sprecher*innen belegt werden konnte, für die es aber auch Gegenbeispiele gibt. Eine Schwierigkeit der Universalienforschung wie der Typologie besteht nach DAUSES (1997: 28) darin, Synchronie und Diachronie
90
Prosodie
gleichzeitig gerecht werden zu wollen. So wird sprachlichen Phänomenen, die synchron beobachtet wurden, oft (zu) schnell diachrone Gültigkeit zugeschrieben. Entgegenzutreten ist diesem auch der Dialektologie wohlbekannten Problem nur mit aufwendigen real-time-Analysen, bei denen dieselben Proband*innen mit denselben Methoden zum selben Phänomen mit mehreren Jahrzenten zeitlichen Abstands untersucht werden (vgl. LABOV 1994: 73–112 und SCHMIDT / HERRGEN 2011: 334– 335). Weniger aufwendige apparent-time-Analysen, etwa Untersuchungen zum selben Phänomen in verschiedenen Altersgruppen, können für einen vergleichsweise relativ kurzen Zeitraum zumindest Tendenzen aufzeigen, wodurch sich Prognosen des Wandels oder der Stabilität aufstellen lassen (vgl. SCHMIDT / HERRGEN 2011: 335). Diese Analysevariante wird auch in der vorliegenden Arbeit verwendet. Forschungen und Zusammenfassungen zur Universalität für die hier relevante lautliche Systemebene bieten neben GREENBERG selbst unter anderem BOLINGER (1986 und 1989), MADDIESON (1978), HYMAN (2006 und 2008), LADD (2008) und JUN (2005 und 2014). In diesem Kapitel werde ich nur über die für die Analysen relevanten Studien berichten. Im ersten Teil werde ich die grundlegenden Einheiten für die Analyse universeller regulativer Intonationsmuster referieren und im zweiten Teil über weitere universelle Strukturen im Zusammenhang mit Prosodie berichten, die für die Analysen relevant sind. 2.3.1 Prosodische Universalien bei Diskurspartikeln Geleitet von der Frage, ob die in SCHMIDT (2001) postulierten Formprototypen auch sprachübergreifend existieren, ist der Gegenstand der Studie von PISTOR (2017) die Überprüfung von prosodischen Einheiten auf Diskurspartikeln hinsichtlich ihrer sprachübergreifenden Existenz und ihre formale und funktionale Untersuchung als linguistische Kategorien. Die konkreten Forschungsfragen waren dabei, ob es auf der segmentellen Basis von Diskurspartikeln (vornehmlich der Klasse hm) prosodische Strukturen gibt, die zunächst formal sprachübergreifend existieren und so potenziell universell sind, wenn dies der Fall ist, wie viele sich finden lassen und ob es, wie in SCHMIDT (2001), häufig auftauchende phonetische Varianten der Formen gibt. Auf der phonologischen Seite sollte überprüft werden, welchen Funktionsklassen sich die Formen zuordnen lassen und ob die Form-Funktionszuordnungen letztlich auch universell sind (vgl. PISTOR 2017: 52). Die Untersuchung wurde in zwei Teilstudien (A/B) durchgeführt. Teilstudie A diente nach der Erhebung der Daten zunächst der Erstellung individuell-typologischer Inventare an Diskurspartikeln, die Sprecher*innen aus fünf typologisch nicht verwandten Sprachfamilien verwenden.68 Hierzu wurden je zwei Sprecher*innen
68 Die Proband*innen wurden im Vorfeld einige Wochen mit der Aufgabe betraut, sich selbst im Umgang mit anderen Muttersprachler*innen auf die Verwendung von Diskurspartikeln wie hm zu beobachten. Im Anschluss wurden Aufnahmen durchgeführt. Zur ausführlichen Beschreibung des Aufnahmesettings sowie der Durchführung vgl. PISTOR (2017: 56–59).
Universalien der Prosodie
91
aus vier verschiedenen Sprachfamilien zur Erhebung herangezogen. Die neu erhobenen Sprachen waren Mandarin-Chinesisch, Ghomálá‘, Hocharabisch und Koreanisch. Das mir zur Verfügung gestellte Korpus der Partikeln des Deutschen aus SCHMIDT (2001) diente als Vergleichsbasis (vgl. PISTOR 2017: 54–56). Die durch Sprachaufnahmen entstandenen individuellen Inventare an Diskurspartikeln wurden anschließend in einer Reihe von Perzeptionstests mit jeweils anderen Muttersprachler*innen bezüglich ihrer Existenz in ihrer eigenen Muttersprache überprüft. Zusätzlich wurde die Verbalisierungsaufgabe aus SCHMIDT (2001) übernommen, um die funktionalen Klassen der als existent gewerteten Items zu ermitteln. Die Formen der so dezimierten Inventare wurden dann hinsichtlich der prosodischen Merkmale Grundfrequenz, Intensität und zeitlicher Erstreckung gemessen und miteinander verglichen. Über die Übereinstimmung der phonetischen Form und den Verbalisierungsangaben aus den Perzeptionstests wurden dann funktionale Prototypen abgeleitet, im oben beschriebenen Ebenenmodell (KEHREIN / RABANUS 2001) eingeordnet und damit funktional klassifiziert und in Anlehnung an das bereits existente Modell (SCHMIDT 2001) benannt. Teilstudie B diente der Überprüfung jener ermittelten Funktionsklassen. Konkret sollte getestet werden, ob sich umgekehrt aus den Verbalisierungen aus Teilstudie A dieselben ihnen zugeordneten Formen reproduzieren lassen. Hierzu wurden die am häufigsten genannten Verbalisierungen in den jeweiligen Funktionsklassen zusammengetragen und auf 20 Spielkarten abgebildet, die an dem Gesellschaftsspiel „Tabu“ orientiert sind (vgl. PISTOR 2017: 62–63). Die Spielrunden von acht Gruppen mit je zwei Spieler*innen pro Runde, die allesamt Muttersprachler*innen des Deutschen waren, wurden im Anschluss aufgenommen. Die von den Spieler*innen über die Verbalisierungen auf den Karten reproduzierten Signale wurden anschließend alle bezüglich derselben Parameter wie in Teilstudie A gemessen und mit den Formen aus A sowie untereinander abgeglichen (vgl. PISTOR 2017: 64–65). Als Ergebnis der beiden Teilstudien lassen sich vier potenziell universelle Einheiten (Items 1–4) inklusive ihrer frequenten Formvarianten und einer funktionalen Variante festhalten, die es in der Form-Funktionszuordnung in diesem Korpus so nur im Deutschen gab (Item 5). Die Einheiten operieren in ihren Grundfunktionen in diskurspragmatischen (1–3), kognitiven (5) sowie emotional-wertenden (3–4) Bereichen. Die Einheiten werden in PISTOR (2017: 65–70) wie folgt beschrieben: Das universelle, lokal steigende Intonationsmuster des Formprototyps 1 beschreibt einen konvex oder geradlinig stark steigenden F0-Verlauf, eine durchschnittliche zeitliche Erstreckung von 0,23 sec. bei einem durchschnittlich hohen Tonhöhenregister. Über die in der Tabelle in der letzten Spalte ersichtlichen Verbalisierungen wurde diese Form diskret der Funktionsklasse Reaktionssignal zugeordnet. Angenommen wurde als Funktionsdifferenzierung für Sprecher*innen ein reaktiv wirkendes Verstehensproblem und für Hörer*innen eine progressiv wirkende Reaktionsaufforderung. Das bedeutet, der/die Hörer*in „wird aufgefordert, sich mit einem potenziell folgenden Turn zu der vom Sprecher angegebenen Kommunikationssituation zu
92
Prosodie
verhalten“ (PISTOR 2017: 69). Das aus den Messungen hervorgehende primär relevante prosodische Merkmal ist der Tonhöhenverlauf. Für das lokal gleichbleibende Intonationsmuster des Formprototyps 2 konnte ein relativ gleichbleibender, in der Variante kontinuierlich leicht sinkender F0-Verlauf bei einer im Vergleich zu Typ 1 erhöhten durchschnittlichen zeitlichen Erstreckung von 0,79 sec. ermittelt werden. Die Einheit mit einer diskreten Form-Funktionszuordnung dient der Kommunikationsorganisation, konkreter: dem für Sprecher*innen progressiven Turn vorbereiten und für Hörer*innen progressiven Turn halten. Die primär relevanten prosodischen Merkmale sind der Tonhöhenverlauf und die Dauer. Für lokal fallende Intonationsmuster wurden zwei verschiedene Funktionen ermittelt, für die sich auch formal Unterschiede feststellen ließen, die aber unter derselben Grundfunktionsklasse zusammengefasst wurden. Für den ersten Fall des Formprototyps 3 wurde formal ein geradlinig oder konkav stark fallender F0-Verlauf bei im Durchschnitt 0,20 sec. zeitlicher Erstreckung und einem sprecher*innenspezifisch niedrigen Tonhöhenregister gemessen. Die Form-Funktionszuordnung ist diskret und signalisiert als reines Sprecher*innensignal kommunikationsorganisatorisch reaktiv den Abschluss des vorangegangenen Turns. Es sind primär der Tonhöhenverlauf und das Tonhöhenregister, die diese Einheit innerhalb derselben angenommenen Grundfunktionsklasse von der ihr formal ähnelnden Einheit abgrenzen: Der zweite Fall des Formprototyps 3 beschreibt einen weniger stark fallenden F0-Verlauf bei einem sprecher*innenspezifisch durchschnittlichen bis hohen Tonhöhenregister. Diese Einheit wurde im Ebenenmodell der Ebene inhaltliche Stellungnahme zugeordnet und signalisiert sowohl für Sprecher*innen als auch für Hörer*innen reaktiv eine Kenntnisnahme des Vorgängerturns. Zusätzlich wurde in PISTOR (2017: 69) angenommen, dass die Wahl des Tonhöhenregisters eine kontinuierliche Form-Funktionszuordnung bewirkt: Der Kommunikationsgegenstand des Vorgängerturns wird bei einem sprecher*innenspezifisch höheren Tonhöhnregister als (auf der Valenzskala) neutral und einem sprecher*innenspezifisch niedrigeren Tonhöhenregister als negativ bewertet. Das Zusammenführen der beiden Einheiten unter derselben Grundfunktionsklasse wird im Analyseteil überprüft. Die konkrete Rolle des Tonhöhenregisters wurde in eigenen Perzeptionstests (PISTOR 2018) untersucht. Ich erläutere die Studie ausführlicher in Kapitel 4.2.3. Die letzte ermittelte potenziell universelle Einheit beschreibt im Formprototyp 4 einen komplexen fallend-steigend-fallenden F0-Verlauf bei einer im Vergleich relativ hohen zeitlichen Erstreckung von durchschnittlich 0,71 sec., bei der die Gipfelkontur und vor allem der finale F0-Absinken den Großteil der Zeit beanspruchen. In der Formvariante beschreibt der Grundfrequenzverlauf nur eine steigend-fallende Gipfelkontur. Bei der diskreten Form-Funktionszuordnung handelt es sich um eine emotionale prosodische Einheit, die reaktiv eine positive Bewertung zum Kommunikationsgegenstand signalisiert. Die Dauer und der Tonhöhenverlauf sind hier die relevanten prosodischen Merkmale.
Universalien der Prosodie
93
Eine in PISTOR (2017: 67) von dieser Grundfunktionsklasse getrennte Einheit wurde in dem Korpus nur für das Deutsche69 ermittelt und konnte daher bisher nicht universell belegt werden. Da der Analyseteil zeigen wird, dass diese Einheit in den untersuchten Regionalsprachen des Deutschen interregional und intergenerationell stabil auftaucht, lohnt eine Beschreibung an dieser Stelle. Formal zeigt sich für Formprototyp 5 ein ähnlich komplex fallend-steigend-fallendes Grundfrequenzmuster, dass sich, meist durch eine Aspiration unterbrochen in zwei perzeptiv relevante Teile gliedert. Der erste Teil zeigt dabei einen auf kurze Zeit stark fallenden oder in seltenen Fällen auch steigenden F0-Verlauf, während der zweite Teil die dem Formprototyp 4 ähnliche Gipfelkontur beschreibt, bei jedoch stärkerem Steigen und Fallen von F0 in kürzerer Zeit. Als inhaltliche Stellungnahme mit diskreter Form-Funktionszuordnung signalisieren Sprecher*innen reaktiv ihr kognitives Verständnis des zuvor kommunizierten Gegenstands, was Hörer*innen progressiv die Fortsetzung des Themas ermöglicht. Die Einheit wurde inhaltliches Erfassen genannt. Ihre relevanten prosodischen Merkmale sind der Tonhöhenverlauf, die Dauer und die wahrnehmbare Zweigliedrigkeit, was die Erstreckung über zwei Silben relevant setzt. Abbildung 16 zeigt die hier beschriebenen Ergebnisse in zusammengefasster Form.
69 Mit Ausnahme eines Sprechers des Arabischen.
94
Prosodie Prototyp.
U
Item
Idealisierter
Idealisierte
Bezeichnung/
Verbalisie-
Nr.
Formprototyp
Formvarianten
Funktionen
rung
1
N
Reaktionssignal
„Wie bitte /
Verstehensproblem
Was hast du
Reaktionsaufforderung
gesagt?“
I V
2
E
Turnhalten
„Lass mich
Turn beanspruchen
nachdenken /
Turn halten
überlegen...“
Quittieren
„So. / Fertig.“
R S E
3
Abschluss Kenntnisnahme
L
„Komm, hör auf!“
L 4
Positive Bewertung Positive Befindlichkeit
„Das ist/riecht aber lecker/gut!“
Nur DE
5
Inhaltliches Erfassen
„Aha, jetzt
Verständnis
verstehe ich!“
Fortsetzung
Abb. 16: Universelle prosodische Einheiten mit einer Ausnahme des Deutschen (PISTOR 2017: 68)
Unerwarteterweise konnten die Formprototypen 4 und 5 aus SCHMIDT (2001) mit den Funktionen Zustimmung und Ablehnung nicht als universell gekennzeichnet werden. Die genannten Funktionen existieren im von PISTOR (2017: 67) erhobenen Korpus zwar in allen Sprachfamilien, „allerdings sind die Formen maximal unterschiedlich.“ 2.3.2 Weitere universelle Strukturen und Funktionen der Prosodie Als generell universell wird die Funktion von Prosodie angenommen, den Sprachfluss hierarchisch in kleinere Einheiten zu strukturieren, die sozial-interaktive Kommunikation zu organisieren und Emotionen und Wertungen zu kommunizieren (vgl. etwa OHALA 1983, BOLINGER 1978, 1986 und 1989, GUSSENHOVEN 2004,
Universalien der Prosodie
95
CHEN 2005, JUN 2014, LADD 2014 und FÉRY 2017). Aus diesen Funktionen heraus konnten verschiedene formale Strukturen der Prosodie ermittelt werden, für die Universalität einerseits postuliert, andererseits bestritten wurde. Einen zusammenfassenden Überblick bietet LADD (2008: 80–81), der über folgende Strukturen und Funktionen als zumindest tendenziell universell berichtet, sie aber gleichermaßen kritisch hinterfragt: – – – –
Das generelle kontinuierliche Absinken der Grundfrequenz über eine Aussage (Deklination), das Assoziieren von niedriger oder fallender Grundfrequenz mit Abschlüssen (finality), das Assoziieren hoher oder steigender Grundfrequenz mit Fragen und Weiterweisungen (non-finality) sowie das Auftauchen lokaler Grundfrequenzbewegungen auf neuen oder generell informativ wichtigen Einheiten (Fokus oder Hervorhebung).
Wenn davon ausgegangen wird, dass es sich bei Deklination um ein unkontrolliertes phonetisches Merkmal handelt, scheint die Universalität aufgrund der allen Menschen hochgradig ähnlichen Anatomie von Lunge und Kehlkopf plausibel. Ich habe diesen Punkt bereits in Kapitel 2.1 diskutiert und gehe hier nicht weiter darauf ein. Ausgehend von Fragen und Weiterweisungen als universelle Form-Funktionszuordnungen steigender oder hoher Grundfrequenz (so auch in OHALA 1984 und BOLINGER 1978) scheint dieser Punkt diskutabel. Zunächst ist nicht klar, um welche prosodische Domäne oder welche Ausdehnung es sich hierbei handelt: Ist die Erstreckung nur (lokal) auf einzelne, möglicherweise phrasenfinale Silben beschränkt oder erstreckt sich die Erhöhung oder das Steigen (global) über die gesamte Äußerung? Handelt es sich um konstant hohe Grundfrequenz (Level) oder steigt sie an (Kontur)? Ist diese Form-Funktionszuordnung immer diskret oder kontinuierlich? CHEN (2007) zeigt, dass ein steigendes Intonationsmuster am Phrasenende bei Sprecher*innen des Britischen Englischen, Niederländischen und Deutschen stets diskret als weiterweisend interpretiert wird, wobei die phonetische Variation in der Implementierung der Grundfrequenzverläufe den Grad der Erwartbarkeit kontinuierlich abstuft.70 Das Hervorheben wichtiger Information durch die Prosodie gilt seit BOLINGER (1978) als universelle Funktion, wobei, wie in Kapitel 2.1 berichtet wurde, sprachlich-individuelle Präferenzen in der Produktion und Perzeption der prominenzkonstituierenden prosodischen Merkmale herrschen (vgl. auch JUN 2014 im nächsten Abschnitt). Im Folgenden werde ich in der Reihenfolge von allgemein bis spezifisch weitere universelle Strukturen und Funktionen in Verbindung mit Prosodie zeigen.
70 Weitere Diskussion zur Universalität dieses Phänomens in einem Vergleich der Frageintonation afrikanischer Sprachen findet sich in RIALLAND (2007).
96
Prosodie
Hierarchische Strukturierung und Phrasierung In einem umfassenden typologischen Ansatz fasst JUN (2005) in der Tradition der AM-Phonologie die durch ToBI-Notationen verschiedener Autor*innen beschriebenen Intonationssysteme 21 verschiedener Sprachen zusammen. Hierzu zählen unter anderem Deutsch und Englisch als im typologischen Sinne Intonationssprachen, Japanisch und Schwedisch als Tonakzentsprachen sowie Mandarin und Kantonesisch als Tonsprachen. Hierbei vergleicht JUN (2005) vor allem das tonale Inventar der untersuchten Sprachen, das zur Akzentuierung auf der lexikalischen und postlexikalischen Ebene eingesetzt wird und überprüft die Existenz prosodischer Domänen und deren Demarkation durch Grenztöne. Die Autorin moniert gleich zu Anfang des Kapitels Schwierigkeiten bei der Vergleichbarkeit von prosodischen Studien verschiedener Sprachen aufgrund unterschiedlicher angewendeter Ansätze und Modelle und der daraus resultierenden heterogenen Terminologie (vgl. JUN 2005: 430). Die Autorin bedient sich daher der ToBI-Notationen, der AM-Terminologie und bezüglich der prosodischen Domänenstruktur zunächst der gängigen Begriffe der generativen Phonologie (etwa LIBERMAN 1978, SELKIRK 1984 und NESPOR / VOGEL 2007), erweitert dann im Laufe des Kapitels aber die Liste der Termini stetig. Dies geschieht einerseits, um allen beobachteten Phänomenen gerecht werden zu können (so etwa „LPA“, JUN 2005: 443), andererseits werden aber auch bereits existente Begriffe, wie der der phonologischen Phrase, überschrieben: „[…] Accentual Phrase (AP, the same level of the Phonological Phrase in Selkirk’s hierarchy) […]“ (JUN 2005: 442). In den Ergebnissen des typologischen Vergleichs beschreibt JUN (2005: 446) neben einer klaren Separierung zwischen Tonsprachen, Tonakzentsprachen und Intonationssprachen sowie der erwartbaren Domänenpräferenz in den jeweiligen Sprachen auch eine Liste an Generalisierungen für die untersuchten prosodischen Phänomene und Domänen, die für alle dort aufgelisteten Sprachen gelten. Das zentrale Ergebnis der Aufstellung ist, dass Prosodie sprachübergreifend dazu dient, a) Äußerungsteile hierarchisch zu strukturieren und den Sprachfluss somit zu phrasieren und b) semantisch wichtige Informationen hervorzuheben.71 Eine weitere, hier relevante Beobachtung ist diejenige, dass alle untersuchten Sprachen mindestens eine prosodische Domäne aufweisen, die größer ist als ein prosodisches Wort, also auf der postlexikalischen Ebene operiert, nämlich eine phonologische Phrase, eine intermediäre Phrase oder eine Intonationsphrase (vgl. JUN 2005: 444–446). Der Definition einer Intonationsphrase folgend (vgl. PETERS 2014: 5) sind damit alle hier untersuchten Sprachen dazu ausgelegt, Intonationskonturen zu realisieren – unabhängig davon, ob prosodische Einheiten in der jeweiligen Sprache primär zu Distinktionszwecken auf der lexikalischen Ebene genutzt werden oder auf der postlexikalischen Ebene verschiedene kommunikative Funktionen erfüllen. Die Beleuchtung der Arten von Akzentuierung und prosodischer Domänen schließt in diesem typologischen Ansatz einen Vergleich konkreter Intonationskonturen zunächst aus.
71 Vgl. hierzu auch BOLINGER (1978) und LADD (2008).
Universalien der Prosodie
97
Diesem Desiderat wurde in der Fortführung dieses prosodisch-typologischen Ansatzes in JUN (2014) versucht nachzukommen. Hierzu wird der Begriff des Makrorhythmus (macro-rhythm) eingeführt, der als perzeptive Größe als Vergleichsgegenstand zu den bereits in JUN (2005) untersuchten Entitäten hinzutritt. JUN (2014: 524) definiert Makrorhythmus als „a rhythm perceived by changes in F0.“72 Die zu untersuchende Domäne wird dabei auf das phonologische Wort und Einheiten, die „slightly larger than a word“ (Accentual Phrase, s. o.) sind, eingegrenzt (JUN 2014: 522). Grund dafür ist die Annahme, dass sprachübergreifend innerhalb genau dieser Domänen intonatorische Variation zu finden ist, in größeren Domänen jedoch nicht: „The tonal rhythm of phrases larger than an AP (e.g. IP or ip) is not included because the IP or ip tonal rhythm tends to vary more within a language […] and vary less across languages […].“ (JUN 2014: 522). Quantitativ untersucht werden die Strukturen des Makrorhythmus durch Analysen der Intonationskonturen vorgelesener Deklarativsätze aus einer ähnlich großaufgestellten Liste verschiedener Sprachen (erneut mit Intonations- Tonakzent- und Tonsprachen) wie zuvor in JUN (2005). Prosodisch-typologische Unterschiede verschiedener Sprachen sind zusammenfassend nach JUN (2014: 523) in der Art und Weise der Akzentuierung sowie im Makrorhythmus zu suchen – beides vornehmlich auf der Wortebene. Gemein sind der Prosodie verschiedener Sprachen erneut die Funktionen, sprachliche Einheiten als zusammengehörig zu gruppieren und Sprache somit zu phrasieren sowie durch Akzentuierung bestimmte Elemente (etwa Worte) einer begrenzten Einheit als inhaltlich, semantisch oder pragmatisch relevant zu markieren. Inwiefern intonatorische Gestaltungen auf Domänen wie etwa der Intonationsphrase sprachübergreifend voneinander divergieren oder gleich sind, bleibt nach der typologischen Aufstellung vorerst spekulativ. Aus der Analyse der hier vorliegenden Daten wird allerdings hervorgehen, dass die intonatorische Gestaltung auf verschiedenen Domänen (Silbe, phonologisches Wort, Intonationsphrase) dann phonologisch gleich ist, wenn die Einheiten, die sie tragen, dieselben kommunikativen Aufgaben erfüllen. Konversationelle Strategien RABANUS (2001) untersucht konversationelle Strategien im Sprachvergleich Deutsch-Italienisch. Der Autor untersucht in einer der AM-Phonologie verpflichteten vergleichenden Studie im Deutschen und Italienischen Form-Funktionszuordnungen von Intonationskonturen auf der äußerungsglobalen Ebene (Intonationsphrasen). Im Fokus der Studie stehen durch Intonation als Ressource realisierte konversationelle Strategien von Gesprächsteilnehmer*innen der jeweiligen Sprachgemeinschaft, also Funktionen, die primär diskursorganisatorisch ausgelegt sind.
72 Dies entspricht im weiteren Sinne der oben genannten Definition von Intonation unter Ausschluss der Dauerwahrnehmung.
98
Prosodie
RABANUS (2001: 2 und 237) nennt die Ausgestaltung phonologischer Beschreibungselemente „intonatorische Verfahren“, die wiederum zur Signalisierung linguistischer Funktionen, in den Worten des Autors „Verhaltenskategorien“, dienen. Diese Funktionen finden sich primär in den interaktionalen Bereichen von Reparaturen und Turn-taking (Turn beanspruchen/halten) und sekundär in syntaktischen und diskurssemantischen Bereichen wieder (vgl. RABANUS 2001: 234–244). Im Sprachvergleich stellt RABANUS (2001: 234) dabei fest, dass „es in der Zuordnung von intonatorischen Verfahren zu Verhaltenskategorien in Äußerungspaaren zwischen Deutsch und Italienisch nur wenige Unterschiede gibt“ und, dass die auditiv wahrnehmbaren prosodischen Unterschiede der zwei Sprachen auf „Unterschieden in der metrischen, silbischen und segmentellen Struktur“ beruhen. Die zentralen Bereiche Turn-taking und Reparaturen wurden in weiteren Studien hinsichtlich ihrer sprachübergreifenden Existenz und Umsetzung untersucht. Turn-taking In ihrem einflussreichen Aufsatz zur Organisation des Turn-taking greifen SACKS / SCHEGLOFF / JEFFERSON (1974: 700) in einer Fußnote die Frage auf, ob die von ihnen beschriebenen Prinzipien sprach- und kulturübergreifende Gültigkeit beanspruchen, konnten sie aber aufgrund der bis dato fehlenden empirischen Basis nicht beantworten. STIVERS et al. (2009) nehmen sich in einer sprachübergreifend angelegten Studie dieser Frage an. Konkret beleuchten die Autor*innen die vierte Beobachtung aus SACKS / SCHEGLOFF / JEFFERSON (1974: 700), in der festgestellt wird, dass eine Tendenz dazu besteht, Turnübergänge und Sprecher*innenwechsel ohne Überlappungen aufrechtzuerhalten, dabei aber den zeitlichen Abstand zwischen den Turns zu minimieren. In einem multimodal (audiovisuell) aufgezeichneten Korpus von freien Gesprächen untersuchen STIVERS et al. (2009: 10588) zehn typologisch verschiedene Sprachen aus fünf Kontinenten. Als Struktur, die universell einen Sprecher*innenwechsel evoziert, wurden innerhalb der Sprachaufnahmen Entscheidungsfragesätze, die typischerweise mit ja, nein oder einem semantischen Äquivalent beantwortet werden, in den Fokus der Untersuchung gestellt (vgl. STIVERS et al. 2009: 10588). Gemessen wurde im Anschluss die verstrichene Zeit zwischen einem beendeten Turn (der Frage) und dem Beginn eines neuen Turns (der Antwort) in Millisekunden. Die Ergebnisse der Forscher*innengruppe bestätigen die Beobachtungen von SACKS / SCHEGLOFF / JEFFERSON (1974): Sprecher*innen sämtlicher untersuchter Sprachen, die Antworten als Folgeturns nach einem Sprecher*innenwechsel äußerten, tendierten weder dazu, sich mit Sprecher*innen des Vorgängerturns zu überlappen, noch dazu, einen zeitlich großen Abstand zwischen den Turns zuzulassen. Der Median des zeitlichen Abstands für alle Sprachen beträgt 100 ms. (vgl. STIVERS et al. 2009: 10588–10591). Welcher zeitliche Abstand dabei als saliente Verzögerung wahrgenommen wird, ist wiederum sprachabhängig individuell (vgl. STIVERS et al. 2009: 10590). Die Autor*innen schlussfolgern aus der Ergebnislage, dass a)
Universalien der Prosodie
99
Turn-taking universell existiert und dass es b) universelle Organisationskriterien gibt, sowohl Überlappungen als auch Verzögerungen zwischen Turns zu minimieren (vgl. STIVERS et al. (2009: 10591). Ob dies für sämtliche Fälle des Turn-takings gilt, bleibt zu überprüfen. Ein konkreter Fall wurde in einer weiteren sprachübergreifenden Studie untersucht, über die ich im Folgenden berichten werde. Reparaturen In der Zusammenführung einer am Max-Planck-Institut angesiedelten vergleichenden Studienreihe überprüfen DINGEMANSE et al. (2015) eine Hypothese, die universelle pragmatische Prinzipien bei Variation anderer Systemebenen von Sprache postuliert. Die Autor*innen finden dabei universelle Strukturen in der sozialen Interaktion des Turn-takings, konkret in dem Auftreten, der Sequenzialität und den genutzten Ressourcen konversationeller, fremd-initiierter Reparaturen (zum Terminus vgl. SACKS / SCHEGLOFF / JEFFERSON 1974 und 1977). In Korpusanalysen informeller freier Gespräche mit insgesamt 12 Sprachen aus 8 verschiedenen Sprachfamilien (davon interessanterweise eine nonverbale Zeichensprache, Argentine Sign Language) wurden Initiierung und Lösung der Reparaturanfrage sowie die gesamte Sequenz betrachtet. Das erste Ergebnis der Studie zeigt, dass fremd-initiierte Reparaturen zunächst in allen untersuchten Sprachen in einer relativ hohen Frequenz auftauchen (im Durchschnitt etwa alle 1,4 Minuten pro Aufnahme/Gespräch). Weiterhin universell waren im untersuchten Korpus die Zusammenhänge zwischen Sequenzstruktur und gewähltem Reparaturtypus des Initiators: Die Qualität der Störung im Problemturn begünstigt das Evozieren eines bestimmten Reparaturtyps, der wiederum eine bestimmte Strategie der Lösung des Problems im Folgeturn zu triggern scheint. DINGEMANSE et al. (2015: 5–7) identifizieren so drei fremd-initiierte Reparaturtypen mit ihren jeweiligen prototypischen Vorgängerund Nachfolgeturns, die der Auflistung entsprechend in ihrer Spezifizität steigen: 1. Eine offene Klasse (open request) von Reparaturäußerungen, die häufig nach kanalbezogenen Störungen im Problemturn geäußert werden und daher nicht genau explizieren können, auf welchen Aspekt des betroffenen Turns sich die Reparaturanfrage bezieht, weshalb dieser Typus von Reparatur häufig komplette Wiederholungen des Problemturns evoziert. Reparaturanfragen dieser Klasse werden meist mit Partikeln und Interjektionen sowie Prosodie als Ressourcen umgesetzt. Des Weiteren identifizieren die Autor*innen eine eingeschränkte Klasse an Reparaturtypen. Diese lässt sich unterteilen in 2. eine eingeschränkte, konkrete Anfrage (restricted request), deren Äußerungen, meist in Form von (Frage-)Partikeln und EinWort-Äußerungen in Verbindung mit Prosodie, auf inhaltliche oder kanalbezogene Störungen und dabei auf konkrete Teile des Problemturns referieren und denen Wiederholungen oder Klarstellungen folgen und 3. ein eingeschränkter, konkreter Vorschlag (restricted offer) in Form von Ein-Wort-Äußerungen oder Phrasen in Verbindung mit Prosodie, der ebenso auf inhaltliche oder kanalbezogene Störungen referieren kann und häufig eine Bestätigung oder Ablehnung des Vorschlags nach sich zieht.
100
Prosodie
Sämtliche Merkmale der hier aufgelisteten Reparatursequenzen sind in den von DINGEMANSE et al. (2015) untersuchten Daten als universell gekennzeichnet. Die Autor*innen sehen die Gründe für die Universalität dieser Strukturen in der basalen Fähigkeit zur Theory of Mind (in diesem konkreten Fall wohl auf Monitoring bezogen) und dem grundlegenden menschlichen Bedürfnis, in sozialer Interaktion zu kooperieren (vgl. DINGEMANSE et al. 2015: 9–11). Dies gilt auch für die Wahl einer der oben beschriebenen Reparaturtypen: Sprecher*innen tendieren dazu, diejenige Strategie zu wählen, die nach Möglichkeit am spezifischsten ist und somit dem Gegenüber den geringstmöglichen Aufwand für die Durchführung der Reparaturanfrage abverlangt: „People choose the most specific repair initiator possible […] to minimise collaborative effort […]“ (DINGEMANSE et al. 2015: 7). Wie gezeigt ist allen fremd-initiierten Reparaturtypen die Nutzung von Prosodie als Ressource gemein. Es wird jedoch nicht herausgestellt, wie genau die prosodische Strukturierung der segmentellen Ressourcen Interjektion, (Frage-)Partikel, Ein-Wort-Äußerung oder Phrase dabei aussieht. In einer Vorläuferstudie desselben Instituts gingen die Forscher*innengruppen (ENFIELD et al. 2013 und DINGEMANSE / TORREIRA / ENFIELD 2013) unter anderem dieser Fragestellung nach und fokussierten dabei die oben beschriebene offene Klasse fremd-initiierter Reparaturen durch Interjektionen und Partikeln in 21 Sprachen. Die Autor*innen konnten dabei zeigen, dass die intonatorische Gestaltung der Interjektionen und Fragepartikeln in den erhobenen Sprachen hochgradig ähnlich ist und alle untersuchten Einheiten (bis auf die zweier Sprachen) dieser Funktion ein steigendes Intonationsmuster tragen (vgl. ENFIELD et al. 2013: 343–363 und DINGEMANSE / TORREIRA / ENFIELD 2013: 3–5). In zwei Ausnahmefällen, Cha’palaa und Isländisch, stellten die Autor*innen jedoch fallende Intonationsmuster fest. Die Ergebnisse wurden mit der Korrelation zur Fragesatzintonation der beiden Sprachen erklärt, für die sich typischerweise eine final fallende Intonationskontur beschreiben lässt (vgl. ENFIELD et al. 2013: 362 und DINGEMANSE / TORREIRA / ENFIELD 2013: 3–5).73 Eine Gegenhypothese für die Erklärung bei gleicher Ergebnislage im Isländischen kommt von DEHÉ (2015). Die Autorin interpretiert die intonatorisch fallende Realisierung bei der bei fremd-initiierter Reparatur offener Klasse im Isländischen verwendeten Partikel ha und der Verbphrase hvað segirðu (‘Was sagst duʼ) als unmarkiert. Die lexikalische Semantik, die syntagmatische Position und die entsprechenden Segmentketten werden dabei für die Identifizierung der Funktion als völlig ausreichend in den Vordergrund gestellt. Eine fallende Intonationskontur (mit L%) sei demnach kein exklusiver Indikator für Fragehaltigkeit, sondern die im Isländischen unmarkierte Standardkontur für etwa Deklarative und (aber eben nicht nur) Interrogative (vgl. DEHÉ 2015: 205 und 213–215). In derselben Studie beobachtet DEHÉ (2015) auch das Auftreten fremd-initiierter Reparaturanfragen, die mit final steigender Intonation (H%) realisiert werden. Die Funktion einer solchen Abwei-
73 Vgl. in diesem Punkt speziell zu Cha’palaa FLOYD (2015: 473–474) und zum Isländischen GISLADOTTIR (2015: 314–315).
Universalien der Prosodie
101
chung von der Standardkontur interpretiert die Autorin als die Zugabe weiterer Bedeutungsaspekte oder Konnotationen wie etwa Freundlichkeit oder Ungeduld der Äußernden. DEHÉ fasst ihre Hypothese wie folgt zusammen: „L% is used in neutral utterances, H% may be associated with special connotations. Ha and Hvað segirðu in their function as other-initiated repair expressions, on the other hand, do not normally come with special connotations and are thus used with L% throughout.“ (DEHÉ 2015: 215, Kursivierung im Original). Eine ähnliche Interpretation lassen Beispiele einer Studie der Forscher*innengruppe selbst zu. In Korpusanalysen freier Gespräche isländischer Muttersprachler*innen zeigt GISLADOTTIR (2015), dass vor allem die oben beschriebenen segmentellen Ressourcen, die zur Umsetzung fremd-initiierter Reparaturanfragen der offenen Klasse genutzt werden (ha und hvað segirðu) in derselben Form in anderen sozial-interaktiv orientierten Funktionen eingesetzt werden können, um etwa Zweifel, Überraschung oder Uneinigkeit auszudrücken (vgl. GISLADOTTIR 2015: 321). So kommt es häufig vor, dass englisches what in sonst isländischem Dialog benutzt wird, um etwa Überraschung anzuzeigen – dann mit steigendem Intonationsmuster (vgl. GISLADOTTIR 2015: 323). Die Autorin distanziert sich dabei jedoch nie von Reparatur als grundlegender Funktion und sieht den Ausdruck von Überraschung, Uneinigkeit etc. als von Reparaturen abgeleitete Funktionen. DEHÉ (2015: 214) kritisiert wiederum zurecht, dass Hörer*innen nicht von etwas überrascht oder mit etwas uneinig sein können, was sie aufgrund einer Störung im Kanal oder auf der inhaltlichen Ebene nicht gehört oder nicht richtig verarbeitet haben, und deshalb überhaupt erst eine Reparatursequenz einleiten. Die Gegenhypothese aus DEHÉ (2015), die Produktionsdaten aus GISLADOTTIR (2015) und die aus den Verbalisierungen abgeleiteten Funktionsklassen zu steigenden regulativen Intonationsmustern aus SCHMIDT (2001) und PISTOR (2017) legen nahe, dass eine Lösung von der Funktionsspezifizierung auf fremd-initiierte Reparaturen in Richtung einer allgemeineren, die konkrete Funktion mit anderen überdachenden Funktionsklasse Licht ins Dunkel bringen können. Dieser Punkt wird in den Analysekapiteln, vor allem in 5.1.2.2, extensiv beleuchtet. Paralinguistische Phänomene Der letzte hier zu nennende Bereich, in dem universelle Formen und Funktionen postuliert werden, ist derjenige, für den in Kapitel 2.2.3.2 steuerbare und in der Regel nicht-steuerbare paralinguistische Phänomene beschrieben wurden. Dieser Bereich beinhaltet die bereits zu Anfang des Teilkapitels beschriebene und in der Literatur als universell akzeptierte generelle Funktion von Prosodie, Emotionen und Wertungen zu kommunizieren.
102
Prosodie
Besonders interessant scheinen diesbezüglich die Ausführungen GUSSENHOVENS (2004), der sowohl steuerbare als auch in der Regel nicht steuerbare paralinguistische und teils linguistische Phänomene sowie deren Interpretation auf physiologische Gegebenheiten der Sprachproduktion zurückführt.74 Formuliert wird diese These in drei biologischen Kodes. Diese Kodes sind nach GUSSENHOVEN (2004: 80) „form-meaning relations which are based on effects of physiological properties of the production process of the signal […].“ In Anlehnung an die Terminologie OHALAS (1983 und 1984) benennt GUSSENHOVEN (2004: 80–95) so die folgenden drei Kodes: den Frequency Code, den Effort Code und den Production Code. Diese drei Kodes liefern nach GUSSENHOVEN (2004: 79) Erklärungen für universell gültige Interpretationen von Grundfrequenzvariationen. Diese Interpretationen finden auf der affektiven, (hier paralinguistischen) und informationellen (hier linguistischen) Ebene statt. Der Frequency Code korreliert die Kehlkopf- und Stimmbändergröße und die dadurch physiologisch bedingten Unterschiede in der durchschnittlichen Grundfrequenz (etwa aber nicht nur zwischen Frauen und Männern) mit paralinguistischer wie linguistischer Information. Auf paralinguistischer Ebene gilt zunächst rein physiologisch universell: je größer der Kehlkopf und sein*e Träger*in, desto tiefer die Grundfrequenz (vgl. GUSSENHOVEN 2004: 81 und oben, Kapitel 2.2.3.2). Auf der affektiven, paralinguistischen Ebene der Interpretation werden hierbei höhere Frequenzen universell mit Weiblichkeit, Rezessivität, Freundlichkeit und Höflichkeit sowie Verletzbarkeit korreliert, während tieferen Frequenzen universell Männlichkeit, Dominanz, Zuversicht, aber auch Aggression und Bedrohung zugeschrieben werden (vgl. GUSSENHOVEN 2004: 81–82). Auf der informationellen, linguistischen Ebene werden höhere Frequenzen mit Unsicherheit und Fragen, tiefere Frequenzen mit Sicherheit und Aussagen korreliert (vgl. GUSSENHOVEN 2004: 82–83).75 Der Effort Code korreliert größere Anstrengung in der Sprachproduktionsphase durch höheren subglottalen Druck und größere Muskelaktivität mit einem höheren F0-Umfang und vice versa. Auf der affektiven Ebene wird ein höherer genutzter F0Umfang universell mit Enthusiasmus und mehr Überraschung, ein im Vergleich niedrigerer F0-Umfang universell mit Desinteresse, Langeweile und weniger Überraschung korreliert. Ersterer wird zudem als helfend und letzterer als weniger helfend wahrgenommen (vgl. GUSSENHOVEN 2004: 88–95). Auf der informationellen Ebene wird ein höherer genutzter F0-Umfang in Verbindung mit einem höheren Tonhöhenregister mit mehr Wichtigkeit oder Dringlichkeit der Information und umgekehrt interpretiert (vgl. GUSSENHOVEN 2004: 85). Das prosodische Hervorheben semantisch wichtiger Information, oder in der hier verwendeten Terminologie KEHREINS (2002) der Hervorhebungsakzent gilt, wie oben beschrieben, seit BOLINGER (1978) als universell. GUSSENHOVEN (2004: 86) nimmt außerdem die 74 Was in der Prosodie als linguistisch, paralinguistisch und nicht-linguistisch kategorisiert wird, differiert, wie in Kapitel 2.2.3.2 beschrieben, je nach Autor*in und so auch hier. 75 Sicherheit und Unsicherheit fügen Äußerungsanteilen bestimmte Bedeutungen zu und würden von mir daher als paralinguistisch betrachtet werden. Die Kontroverse um die universelle Interpretation steigender Grundfrequenzverläufe wurde zudem bereits in der Einleitung dieses Kapitel skizziert.
Universalien der Prosodie
103
Distinktion zwischen weitem und engem Fokus (der dem Hervorhebungsakzent entspricht) als linguistische Interpretation des Effort Code hinzu. Der letzte der hier vorzustellenden Kodes, der Production Code, korreliert auf Basis des begrenzten Lungenvolumens, des während der Phonation absinkenden subglottalen Drucks und dem damit einhergehenden Absinken von F0 einen hohen F0-Wert mit dem Beginn und einen niedrigen F0-Wert mit dem Ende einer Äußerung (vgl. GUSSENHOVEN 2004: 89).76 Letztlich wird mit diesem Kode das Konzept der in Kapitel 2.1 eingeführten und dort teils diskutierten Deklination als universelles Phänomen deklariert. Umgekehrt nimmt auch GUSSENHOVEN (2004: 95) auf linguistischer Ebene einen final steigenden Grundfrequenzverlauf wie LADD (2008: 80–81 und s. o.) als universellen Marker für Fortsetzungen oder non-finality an. GUSSENHOVEN (2004: 92–93) räumt ein, dass der Universalität der Kodes insofern etwas abgetragen wird, als verschiedene Sprachen sie in der Produktion unterschiedlich nutzten und auf der Perzeptionsseite unterschiedliche Präferenzen bestünden (vgl. auch Kapitel 2.1 und oben in diesem Kapitel). CHEN (2005) hat hingegen in einer Reihe von Perzeptionstests die Hypothesen der Kodes getestet und in sie hohem Maße bestätigt.
76 Diese Idee führte LIBERMAN (1967) zum Konzept der breath groups, die nach CRUTTENDEN (1997) in Kapitel 2.2.4.1 synonym zu Tone Groups der Britischen Schule genannt wurden.
3 MODERNE REGIONALSPRACHENFORSCHUNG Variation ist ein der Sprache natürliches, kulturelles und unabdingbares Phänomen. Sprecher*innen variieren, weil sie kognitiv dazu in der Lage sind und weil sie sich den jeweiligen kommunikativen Erfordernissen anpassen und es, um Kommunikationsbarrieren zu vermeiden, teilweise müssen. Variation ist auf allen Ebenen des Sprachsystems anzutreffen. Die Gründe dafür sind vielfältig. So kann sprachliche Variation historisch, regional, situativ, individuell oder sozial bedingt sein oder aus einem Komplex dieser Hintergründe beeinflusst werden. Als Ausgangspunkt hierfür ist zunächst festzuhalten, dass sich eine historische Sprache (wie Deutsch) aus einer Reihe von Subsystemen zusammensetzt. Eines davon ist das diatopische Subsystem, innerhalb dessen sich Variation im (Sprach-)Raum beobachten und untersuchen lässt (vgl. GIRNTH 2007: 187–189). Dies ist der Anspruch des Teils der Variationslinguistik, der als moderne Regionalsprachenforschung bezeichnet wird. Das Ziel dieser Arbeit ist ein horizontaler und vertikaler Vergleich regulativer Intonationsmuster in Form und Funktion im variativen Spektrum deutscher Regionalsprachen. Ich werde im ersten Teil des Kapitels daher Dialekteinteilungen als zentrale Ergebnisse der klassischen Dialektologie referieren und im zweiten Teil Struktur und Analysemethoden innerhalb regionalsprachlicher Spektren (KEHREIN 2012) als Untersuchungsgegenstand der modernen Regionalsprachenforschung im Rahmen der Sprachdynamiktheorie (SCHMIDT / HERRGEN 2011) erläutern. Schließen werde ich das Kapitel mit einem Überblick zu relevanten Projekten und Ergebnissen der regionalsprachlichen Prosodieforschung. 3.1 KLASSISCHE DIALEKTOLOGIE: DIALEKTEINTEILUNGEN Die moderne Regionalsprachenforschung bricht mit der im frühen 19. Jahrhundert von SCHMELLER begründeten und später vor allem von den sogenannten Junggrammatikern angewandten klassischen Dialektologie. In dieser entstanden hauptsächlich phonetisch-phonologisch und morphologisch ausgelegte Ortsgrammatiken, in denen monodimensional77 orientiert nur der „tiefste“, sogenannte (alte) Basisdialekt78 interessierte (vgl. SCHMIDT / HERRGEN 2011: 90–96, NIEBAUM / MACHA
77 Monodimensional meint in diesem Fall lediglich die Konzentration auf den Dialekt als Varietät. KNOOP (1982) teilt SCHMELLERS wissenschaftliche Beschäftigung mit dem Dialekt in vier Dimensionen ein (historisch, areal, systematisch und sozial), die aber allesamt auf den (Basis-) Dialekt fokussiert sind (vgl. GIRNTH 2019: 6). 78 Zum Begriff Basisdialekt vgl. BELLMANN (1983: 112) und NIEBAUM / MACHA (2014: 5). SCHMELLER hatte dennoch bereits ein Verständnis von regionalsprachlicher Variation „oberhalb“ des Basisdialekts (vgl. KEHREIN 2019: 122).
Klassische Dialektologie: Dialekteinteilungen
105
2014: 5–6 und GIRNTH 2019: 5–8). Aus ihr hervorgegangen sind zahlreiche dialektologische und später vor allem durch die Arbeit GEORG WENKERS am „Sprachatlas des Deutschen Reichs“ (1889–1923) geprägte dialektgeographische Arbeiten, die die Kleinlokalität der Grammatiken auflösten und so dialektologische Beschreibungen für größere Regionen lieferten (vgl. SCHMIDT / HERRGEN 2011: 97 und 151). WENKER selbst erkannte während seiner Arbeiten an diesem ersten Großraumatlas, dass dialektale Sprachräume nicht bereits in abgegrenzter Form vorliegen, sondern sie durch sprachwissenschaftliche, objektsprachliche Analysen erst abzugrenzen sind (vgl. NIEBAUM / MACHA 2014: 89 und GIRNTH 2019: 11). Vordefinierte Kriterien zu nutzen, um dialektale Sprachräume horizontal von anderen zu differenzieren und so den Gesamtsprachraum Deutsch dialektal zu gliedern, ist eines der erklärten Ziele der klassischen Dialektologie (vgl. LAMELI 2019: 185). Unter dieser Motivation sind vom sogenannten Epochenjahr der klassischen Dialektologie 1876 bis heute zahlreiche klein- bis großräumigen Dialektgliederungen oder -einteilungen entstanden. Wie die Einteilungen dabei ausfallen, ist von der sprachwissenschaftlichen Perspektive des Einteilenden abhängig. Genauer: von der Methode, dem sprachsystematischen Fokus und überhaupt der Prämisse, dass sich Dialekträume klar voneinander trennen lassen und nicht etwa fließende Übergänge vorliegen (vgl. NIEBAUM / MACHA 2014: 88–89 und LAMELI 2019: 185). In den heute vorliegenden und häufig genutzten Dialekteinteilungen wird methodologisch zwischen datenbewertenden und datenquantifizierenden Ansätzen unterschieden (vgl. LAMELI 2019: 193–198). In datenbewertenden Ansätzen werden ausgewählte Varianten bezüglich ihrer Typizität für den jeweils zu untersuchenden Sprachraum analysiert und entsprechend klassifiziert (vgl. LAMELI 2019: 193). Dies ist das klassische Vorgehen, das etwa bei SCHMELLER und WENKER angewendet wurde. In auf diesem Prinzip aufbauenden regionsübergreifenden, strukturalistischen Einteilungen werden ausgewählte Varianten wie zuvor identifiziert, anschließend aber in syntagmatische und paradigmatische Relationen zu anderen auf der jeweiligen Ebene des Sprachsystems (etwa Phonetik/Phonologie oder Morphologie) gesetzt (vgl. LAMELI 2019: 193). Eine der prominentesten dieser Art ist WIESINGERS strukturelle Einteilung der deutschen Dialekte (1983). WIESINGER (1983: 814) zeigt auf Basis der Analysen von Variationsphänomenen „ausgewählter phonologischer und morphologischer Teilstrukturen“, dass beide Formen der oben beschriebenen Einteilung nicht nur möglich, sondern auch nötig sind: Der Autor konstruiert aufgrund der Datenbasis sowohl eindeutig abgegrenzte Räume als auch Übergangsgebiete, in denen sich bestimmte Variationsphänomene des einen Raums mit denen anderer überschneiden.79 Als Datengrundlagen für die Einteilung wird, ganz im Sinne der klassischen Dialektologie, der Basisdialekt untersucht, wenngleich WIESINGER sich (vertikaler) Unterschiede selbst innerhalb der kleinlokalen Sprachgemeinschaften durchaus be-
79 Je größer die Schnittmenge der Merkmale in unterschiedlichen Räumen ist, desto schwieriger wird letztlich ihre klare Abgrenzung voneinander. Vgl. zu dieser Problematik NIEBAUM / MACHA (2014: 88–89) sowie LAMELI (2019: 188–190).
106
Moderne Regionalsprachenforschung
wusst ist (vgl. WIESINGER 1983: 812). WIESINGERS (1983: 814) Einteilung beschränkt sich auf die Identifizierung und Klassifizierung „der Dialektregionen und ihrer Dialektverbände.“ Der Autor verwendet dabei „die eingebürgerten stammeshistorisch, territorial oder geographisch motivierten Dialektbezeichnungen, in allerdings teilweise neu definierter Weise“ (WIESINGER 1983: 814).80 Wie viele andere Einteilungen (und wie oben bereits skizziert) basiert auch die Einteilung WIESINGERS auf der Untersuchung einer Auswahl sprachsystemischer Teilstrukturen. Diese sind, so LAMELI (2019: 192), in der Regel „die segmentell-phonologische und morphologische Ebene“, während etwa prosodische und syntaktische Phänomene möglicherweise auch aufgrund eines fehlenden historischen Bezugssystems81 selten oder nicht als Merkmale für Einteilungen herangezogen werden. In datenquantifizierenden Ansätzen werden ebenso ausgewählte Varianten genutzt, die dann aber nicht rein systemisch, sondern per Aggregation hinsichtlich ihrer sprachraumübergreifenden Ähnlichkeit überprüft werden (vgl. LAMELI 2019: 195). Dies kann durch statistische Verfahren wie einer Levenshtein-Distanzmessung phonetischer Abstände in übereinstimmenden Lexemen geschehen (vgl. NIEBAUM / MACHA 2014: 102).82 Zu Einteilungen, die aus datenquantifizierenden Ansätzen entstanden sind, zählen etwa HUMMEL (1993), NERBONNE / SIEDLE (2005) und LAMELI (2013). Letzterer verbindet qualitative mit quantitativen Untersuchungen und nimmt für die Einteilung für 439 Landkreise der Bundesrepublik eine auf statistischen Methoden basierende Analyse von insgesamt 66 Variablen aus den lautlichen Bereichen des Vokalismus und des Konsonantismus sowie des Formbereichs der Morphologie (vgl. LAMELI 2013: 31–41 und 2019: 196). Ermittelt werden dann Similaritäten, also sprachliche Ähnlichkeiten und Unterschiede in Frequenz und Realisierung der einzelnen Variablen zwischen den Landkreisen. Als Ergebnis hält LAMELI so auf Similarität beruhende dialektale Großräume fest, die sich je nach Hierarchisierungsstufe in zwei, fünf, sieben oder zwölf Räume aufteilen lassen (vgl. LAMELI 2013: 185–188). Besonders hervorzuheben sind aus den Ergebnissen die Beibehaltung klassischer großräumiger Differenzierungen wie etwa Niederdeutsch vs. Hochdeutsch sowie Mitteldeutsch vs. Oberdeutsch, andererseits aber auch die Auflösung der Differenzierung von West- und Ostnieder-
80 Aus diesem Grund mag es sprachwissenschaftlichen Laien oftmals befremdlich erscheinen, dass etwa die fränkischen Dialektverbände Mosel- und Niederfränkisch im westlichen Teil der Bundesrepublik liegen und nicht ausschließlich etwa nur in den nördlichen Regierungsbezirken des Bundeslandes Bayern, wo nach WIESINGER (1983: 842–846) der ostfränkische Sprachraum liegt. 81 So werden in segmentell-phonologischen Untersuchungen je nach Untersuchungsraum für den Vokalismus in der Regel das Mittelhochdeutsche oder Mittelniederdeutsche als idealisierte historische Bezugssysteme angesetzt, während für den Konsonantismus häufig Bezug zum Westgermanischen hergestellt wird (vgl. auch KEHREIN 2012: 85–86). 82 Abhängig sind die Methode und das letztlich anwendbare Verfahren von den zu analysierenden Daten und dem Korpus, dem sie entnommen werden. Vgl. hierzu LAMELI (2013: 45–54 und 2019: 195).
Klassische Dialektologie: Dialekteinteilungen
107
deutsch sowie die eigenständige Ausdifferenzierung des mittelfränkischen Sprachraums, hier nach SCHMIDT (2015) als (historisches) Westdeutsch bezeichnet (vgl. LAMELI 2013: 185–195 und 2019: 196–197). Abbildung 17 zeigt eine Dialekteinteilung auf Basis einer Zusammenführung der strukturalistischen Einteilungskarte der Binnengliederung WIESINGERS (1983) mit der aus dem Similaritätsmodell hervorgegangenen Großraumeinteilung LAMELIS (2013) für den über die politischen Grenzen der BRD hinausreichenden deutschen Sprachraum. Für die Karte wurden die vier Großräume Niederdeutsch, Mitteldeutsch, (historisches) Westdeutsch und Oberdeutsch angenommen. In der Ortsauswahl für die Analyse werde ich mich auf diese konduzierte Einteilungskarte beziehen, die letztendlich beide vorgestellten Herangehensweisen zur Dialekteinteilung verbindet.83
Abb. 17: Einteilung der deutschen Dialekte nach SCHMIDT, PHEIFF und PISTOR (SCHMIDT 2017: 105)
83 Liechtenstein, Ostbelgien, Südtirol, das nordfriesische Gebiet um die Ortschaft Bredstedt, die nordfriesischen Inseln, das Sprachgebiet des Saterfriesischen und des Dänischen sind auf der Karte nicht abgebildet (vgl. PHEIFF / PISTOR / WOLANSKA 2019: 105, Fußnote 15).
108
Moderne Regionalsprachenforschung
3.2 SPRACHDYNAMIK UND REGIONALSPRACHLICHE SPEKTREN Sprachliche Variation kann unter bestimmten Voraussetzungen in Sprachwandel resultieren. Bestimmte Phänomene zeigen jedoch auch über lange Zeiträume hinweg Stabilität. Sowohl Wandel als auch Konstanz, in den Worten von SCHMIDT / HERRGEN (2011) Modifizierung und Stabilisierung als Ergebnisse einer sprachinhärenten Dynamik sind die Fundamente der durch selbige Autoren dargelegten Sprachdynamiktheorie. Die hier verwendete variationslinguistische Terminologie erschließt sich größtenteils aus ebendieser Theorie und darauf aufbauenden Studien. Unter Sprachdynamik verstehen SCHMIDT / HERRGEN (2011: 20) „die Wissenschaft von den Einflüssen auf die sich ständig wandelnde komplexe Sprache und von den sich daraus ergebenden stabilisierenden und modifizierenden Prozessen.“ Der theoretische Ansatz integriert dabei Wandel und Variation, löst die SAUSSURE’sche Dichotomie von Synchronie und Diachronie auf und vereint die beiden Betrachtungsweisen unter dem Konzept der Synchronisierung (vgl. SCHMIDT / HERRGEN 2011: 20–28). Unter Synchronisierung verstehen SCHMIDT / HERRGEN (2011: 28) den „Abgleich von Kompetenzdifferenzen im Performanzakt.“ Dieser Abgleich wird von Sprecher*innen als unbewusste Optimierungsstrategie vollzogen und gilt, je nach Dauer, Intensität84 und Anzahl der Sprecher*innen in Performanzakten (sprachlich interaktive Kontaktsituationen zwischen Sprecher*innen) als potenzielle Ursache für Wandel und Konstanz, beziehungsweise Modifizierung und Stabilisierung sprachlicher Kompetenzen (vgl. SCHMIDT / HERRGEN 28–37). Motivierender Hintergrund für Sprecher*innen ist dabei das von GRICE (1975) formulierte Kooperationsprinzip, oder, wie es SCHMIDT / HERRGEN (2011: 29) simplifizieren, „der Wille, verstanden zu werden oder zumindest nicht missverstanden zu werden […].“ Mit dieser Theorie als grundlegende Basis für die moderne Regionalsprachenforschung interessiert nun neben der oben im Rahmen der klassischen Dialektologie vorgestellten horizontalen Heterogenität der Basisdialekte innerhalb der Sprachräume auch die vertikale Struktur und Dynamik des Gesamtspektrums zwischen dem untersten Pol des tiefsten Dialekts und dem normierten obersten Pol der Standardsprache (vgl. KEHREIN 2012: 17 und SCHMIDT et al. 2019: 29). Den konkreten Forschungsgegenstand der modernen Regionalsprachenforschung beschreiben SCHMIDT / HERRGEN (2011: 15) daher als „die linguistische Struktur und der Gebrauch des gesamten Varietäten- und Sprechlagenverbunds ‚unterhalb‘ der gesprochenen Standardsprache, seine Genese und seine anhand empirischer Daten verfolgbare und erklärbare Dynamik.“ Eine Regionalsprache versteht sich als ein „vernetztes Gesamt an Varietäten und Sprechlagen“ (SCHMIDT / HERRGEN 2011: 66). 84 Dauer und Intensität sind hier natürlich nicht als die oben vorgestellten prosodischen Merkmale aufzufassen. Dauer meint hier den anhaltenden Zeitraum, in dem eine sprachliche Interaktion vonstattengeht. Mit Intensität wird unter anderem auf die persönliche Beziehung der Interaktant*innen referiert, wobei sich etwa (Ehe-)Partner*innen und flüchtige Bekannte in der Intensität ihrer sprachlichen Interaktionen unterscheiden würden. SCHMIDT / HERRGEN (2011: 28– 37) differenzieren diesbezüglich und unter dem Aspekt der Sprecher*innengruppengröße zwischen Mikro-, Meso- und Makrosynchronisierung.
Sprachdynamik und regionalsprachliche Spektren
109
Eine solche Definition fordert wiederum die Darlegung der Begriffe Varietät und Sprechlage. Unter Varietät wird fortan ein relativ homogenes Subsystem eines Gesamtsprachsystems mit eigenständigen prosodisch-phonologischen, morphologischen, syntaktischen und lexikalischen Strukturen und Regeln verstanden (vgl. SCHMIDT / HERRGEN 2011: 51).85 Als Sprechlagen werden hingegen sich kontinuierlich ändernde aber unsystemische Verdichtungs- bzw. Übergangsbereiche innerhalb eines variativen Kontinuums oder Spektrums bezeichnet, für die jeweils differente soziale Konventionen der situationsabhängigen Sprachverwendung vorliegen (vgl. SCHMIDT / HERRGEN 2011: 52). Über die Vernetzung von Varietäten und Sprechlagen können nun durch objektsprachliche Analysen86 regionalsprachliche Spektren im Raum (KEHREIN 2012) modelliert werden. Ein regionalsprachliches Spektrum versteht sich als stets von der Standardsprache überdachte, dann aber regionsabhängig unterschiedlich gestaltete Verteilung der Varietäten und Sprechlagen in der vertikalen Variationsdimension (vgl. KEHREIN 2019: 121). Die Gesamtstruktur der Vertikale und ein darin enthaltenes modellhaftes Spektrum mit den bisher identifizierten Sprechlagen und Varietäten im deutschsprachigen Raum zeigt Abbildung 18.
85 Die Autoren unterscheiden zusätzlich zwischen Vollvarietäten, die dieser Definition in Gänze entsprechen, und sektoralen Varietäten (wie etwa Fachsprachen), die auf der Basis der Standardsprache primär lexikalische Differenzierungen und Erweiterungen darstellen (vgl. SCHMIDT / HERRGEN 2011: 51). 86 Zunehmend spielen auch subjektive Bewertungen regionalsprachlicher Merkmale sowie Sprachwissen und -einstellungen eine Rolle. Diese Aspekte können ihrerseits ein anderes Spektrum modellieren, was dann aber ein (hörer*innen)subjektives Konzept darstellt. Vgl. hierzu PURSCHKE (2011 und 2014), KEHREIN (2012: 32–33 und 2019: 123–124) und besonders KIESEWALTER (2019).
110
Moderne Regionalsprachenforschung
Abb. 18: Struktur der Vertikale in Anlehnung an KEHREIN (2019: 124)
Wie aus der Definition bereits hervorgeht, ist die linguistische Struktur der Spektren stark regionsabhängig. Allen gemein ist jedoch, dass sie wie die Gesamtsprache Deutsch von der Standardsprache als Varietät überdacht werden. Entstanden ist die Standardsprache aus der zu den historischen lantsprachen (den Vorgängern der Dialekte, etwa nach Ende der Völkerwanderung) im 16. Jahrhundert hinzugetretenen neuhochdeutschen Schriftsprache (vgl. KEHREIN 2015: 453).87 Die Varietät ist frei „von (kommunikativ) salienten Regionalismen“ (SCHMIDT / HERRGEN 2011: 62), hat eine literale Norm, drei nationale Oralisierungsnormen und die größte kommunikative Reichweite (vgl. SCHMIDT 2005, SCHMIDT / HERRGEN 2011: 60 und NIEBAUM / MACHA 2014: 6). Zu den unter anderem aufgrund der Anzahl remanenter regionaler Merkmale differenzierbaren Sprechlagen der Standardvarietät gehören der Kolloquialstandard und der Standard geschulter Sprecher*innen, etwa der von Nachrichtensprecher*innen des öffentlichen Rundfunks (vgl. hierzu ausführlich LAMELI 2004). Die nächste, im Spektrum unterhalb des Standards angesiedelte Varietät, ist der Regiolekt. Unter diesem von STEGER (1984) vorgeschlagenen Terminus wird der rein sprechsprachliche, mittlere Bereich des variativen Spektrums verstanden (vgl. KEHREIN 2012: 22). Er stellt einen relational großen, über die Zeit gewachsenen und nun elementaren Bestandteil moderner Regionalsprachen des Deutschen dar 87 Zur ausführlichen Darstellung der Genese der Standardsprache sowie der modernen Regionalsprachen vgl. unter anderem SCHMIDT (2005), SCHMIDT / HERRGEN (2011) und KEHREIN (2012 und 2015).
Sprachdynamik und regionalsprachliche Spektren
111
(vgl. KEHREIN 2015: 453). Der Regiolekt ist aus sprachhistorischer Perspektive das Resultat vielfältiger Ausgleichs-, Umwertungs- und Differenzierungsprozesse und ist als standardabweichende Varietät mit großregionaler Verbreitung einerseits von der Standardsprache und andererseits vom Dialekt abzugrenzen (vgl. SCHMIDT / HERRGEN 2011: 65–67, KEHREIN 2015: 456 und PHEIFF / PISTOR / WOLANSKA 2019: 104).88 Zu der Varietät Regiolekt können die Sprechlagen des unteren und mittleren Regiolekts (vgl. LENZ 2003) sowie der standardnächste Pol Regionalakzent gehören. Der Regionalakzent als nach KEHREIN (2015: 454) bezeichnete „ehemalige großlandschaftliche Oralisierungsnorm“ wird als gesprochenes Schriftdeutsch mit wenigen standardabweichenden Varianten verstanden und stellt in den meisten Fällen die standardnächste Sprechlage innerhalb des Regiolekts dar (vgl. KEHREIN 2015: 454). Den standardfernsten Pol eines regionalsprachlichen Spektrums stellt der Dialekt als Varietät dar. Dialekte werden innerhalb der Sprachdynamiktheorie nach SCHMIDT / HERRGEN (2011: 59) definiert als „die standardfernsten, lokal oder kleinregional verbreiteten (Voll-)Varietäten.“ Auch beim Dialekt handelt es sich, wie beim Regiolekt, um eine sprechsprachliche, also rein orale Varietät, die durch die sprachliche Primärsozialisation erworben wird und eine maximale Distanz zur Standardvarietät aufweist. Nach LENZ (2003) können innerhalb des Dialekts die Sprechlagen Basisdialekt und Regionaldialekt differenziert werden. Ermittelt werden die soeben vorgestellten Komponenten regionalsprachlicher Spektren durch variationslinguistische, objektsprachliche Analysen. Häufig verwendete Methoden und Analyseverfahren sind dabei qualitativer und quantitativer Natur. Zwei dieser Verfahren lauten Variablenanalyse und Dialektalitätsmessung. Variablenanalysen werden nach KEHREIN (2012: 84–86) in zwei Schritten durchgeführt. Der erste Schritt ist dabei das Ermitteln der regional relevanten Variablen. Variablen sind abstrakte linguistische Einheiten, die durch alternative Varianten einer Sprecher*innengemeinschaft ausgedrückt werden können. Für diese abstrakten Einheiten müssen oben bereits erwähnte Bezugssysteme festgelegt werden, die je nach zu untersuchender Varietät und Sprechlage verschieden sein können. Nun geht es darum, zu bestimmen, welche Varianten kontrastiv zueinander stehen und zusammen die entsprechende Variable bilden (vgl. KEHREIN 2012: 85). Beispielhaft seien die Lexeme und gegeben. In der Standardsprache wird in beiden Lexemen enthaltenes als steigender Diphthong [a͡ ̠ ʊ] realisiert. In hessischen Regionalsprachen kann dieser standardsprachliche Diphthong als standardabweichende, regionale Variante als langer Monophthong [a̠ː] realisiert werden (vgl. VORBERGER 2019: 116). Der betroffene Laut beider Lexeme geht dabei jeweils, das Mittelhochdeutsche (kurz mhd.) als Bezugssystem angesetzt, auf mhd. ou zurück. So sind [a͡ ̠ ʊ] und [a̠ː] kontrastierende Varianten der Variable mhd.
88 Konkret entstand der Regiolekt aus der mündlichen Umsetzung der neuhochdeutschen Schriftsprache, dem sogenannten landschaftlichen Hochdeutsch (vgl. hierzu ausführlich GANSWINDT 2017 und 2019).
112
Moderne Regionalsprachenforschung
ou.89 Im zweiten Schritt der Variablenanalyse, der Frequenzanalyse, geht es anschließend darum, „die relativen Anteile standardsprachlicher und standardabweichender, regionalsprachlicher Varianten in einem festgelegten Korpus zu ermitteln (KEHREIN 2012: 86). Die Dialektalitätsmessung, auch phonetische Abstands- oder D-Wertmessung, wird auch im Analyseteil dieser Arbeit verwendet. Die Messmethode ist ein von HERRGEN / SCHMIDT (1985 und 1989) im Rahmen der Arbeiten zum „Mittelrheinischen Sprachatlas“ (MRhSA) entwickeltes und von LAMELI (2004) erweitertes Verfahren, mit dem als grundlegendes Prinzip der mathematisch errechenbare Abstand zweier Sprachproben auf phonetischer Basis bestimmt werden kann. Konkret wird mit dem Verfahren ermittelt, „inwieweit arealsprachliche Varianten (vertikal) von der Standardsprache abweichen“ (NIEBAUM / MACHA 2014: 53, im Original stellenweise kursiv). Als standardsprachliche Oralisierungsnorm wird dabei die neueste Auflage des Aussprachedudens zugrunde gelegt. Die zu messende Sprachprobe wird in dem Verfahren feinphonetisch im IPA transkribiert und anschließend einzeln segmentell und pro Lexem mit den Einträgen des „Duden“ verglichen (vgl. LAMELI 2004: 65–66). Für die Unterschiede werden dabei Punkte vergeben. Dies geschieht qualitativ für Abweichungen im Bereich Artikulationsart und -ort, Phonation, Lippenrundung, Nasalität und Wortakzentposition sowie quantitativ für Dauerunterschiede (vgl. LAMELI 2004: 65). Abgesehen vom Wortakzent und der Dauer werden so in das Verfahren rein segmentalphonologische Phänomene einbezogen. Dialektale Merkmale der Syntax, Morphologie, Lexik und Intonation bleiben hier größtenteils außen vor. Da mehrere Merkmale gleichzeitig von der Norm abweichen können, wird nach LAMELI (2004: 65) für den Vokalismus und den Konsonantismus jeweils ein unterschiedlicher Maximalwert festgelegt, der in der Messung vergeben werden darf, und der auch gilt, „wenn ein Laut nicht repräsentiert bzw. zusätzlich artikuliert ist.“ Steht für ein regionalsprachliches Lexem kein standardsprachliches Pendant zur Verfügung, kann für entsprechendes Lexem auch keine Messung stattfinden. Nach LAMELI (2004: 67) werden bei der Punktevergabe im Bereich des Vokalismus Klassen und Stufen unterschieden. Klassen beziehen sich dabei auf die artikulatorische Zungenposition (vorne, mittig, hinten) und die Lippenrundung (gerundet, gespreizt), Stufen bezeichnen den Öffnungsgrad des Mundes bei der Artikulation (offen, halboffen, halbgeschlossen, geschlossen). Für Abweichungen pro Klasse und Stufe werden jeweils ein Punkt vergeben, Ausnahmen bilden die in IPA zentralisierten Vokale [ɪ, ʏ, ʊ] sowie überoffenes [æ], für die von ihrer standardkonformen Ausgangsposition bei Abweichung jeweils 0,5 Punkte vergeben werden
89 Das Verfahren erweist sich durch die fortwährend durchzuführende Überprüfung der sprachhistorischen Gegebenheiten als ein sehr aufwendiges, wenn auch reliables Bestimmungsverfahren (vgl. hierzu SCHMIDT et al. 2019: 32–33).
Sprachdynamik und regionalsprachliche Spektren
113
(vgl. LAMELI 2004: 69). Weitere Sonderbedingungen gelten für das standardsprachliche /a/-Phonem90, Diphthonge, Reduktionsvokale wie Schwa und Tiefschwa, Nasalität und Quantität (vgl. LAMELI 2004: 69–70). Abweichungen, die in der Transkription durch Diakritika markiert sind, erhalten einen halben Punkt. Der Maximalwert für die Abweichung zweier Vokale liegt bei drei Punkten. Nach dem IPA sind Konsonanten durch drei Etiketten definiert: Artikulationsart, Artikulationsort und Phonation. Diese Etiketten zählen auch in der Punktevergabe nach LAMELI (2004: 72) als Artikulationsdimensionen. Bei der Messung wird nun pro abweichender Dimension jeweils ein Punkt vergeben, tendenzielle, durch Diakritika angegebene Abweichungen erhalten (wie im Vokalismus) einen halben Punkt. Sonderregelungen gelten im Konsonantismus für den phonologischen Prozess der standarddeutschen Auslautverhärtung, Affrikaten, /r/-Allophone sowie /r/-Vokalisierungen (vgl. LAMELI 2004: 73–74). Der Maximalwert für die Abweichung zweier Konsonanten liegt bei zwei Punkten. Bei allen Punktevergaben dürfen phonetische Abweichungen, die etwa durch Koartikulation, auch in Zusammenhang mit Akzentuierung und Sprechgeschwindigkeit, und durch andere, standardkonforme phonologische Prozesse entstanden sind, entsprechend zwar als prinzipiell standardabweichend, nicht aber als regional motiviert gewertet werden (vgl. LAMELI 2004: 75–82). Ein fiktives Beispiel sei zur Veranschaulichung gegeben. Eine Sprecherin aus dem ostfränkischen Raum spricht das Lexem wie folgt aus: [d̥oxdɐ]. Die standardsprachliche Oralisierungsnorm gibt [tɔxtɐ] vor. In der Gegenüberstellung von [t] vs. [d̥] lässt sich durch das Diakritikum für Stimmlosigkeit nur eine tendenzielle Abweichung pro Dimension feststellen. Diese Abweichung erhält daher 0,5 Punkte. In der Gegenüberstellung des Vokals der ersten Silbe [ɔ] vs. [o] lässt sich eine Abweichung auf einer Stufe (geringerer Öffnungsgrad) pro Dimension attestieren. Diese Abweichung ist mit einem Punkt zu werten. Die zweite konsonantische Gegenüberstellung von [t] vs. [d] zeigt nun keine tendenzielle, sondern eine vollständige Abweichung pro Dimension (stimmlos vs. stimmhaft). Entsprechend wird diese Abweichung mit einem Punkt gewertet. Da sich in der weiteren Gegenüberstellung keine zusätzlichen Abweichungen ergeben, werden für das Lexem in dieser fiktiven Sprachprobe 2,5 Punkte vergeben. Die insgesamt pro Lexem vergebenen Punkte werden zum Schluss summiert und durch die Anzahl aller gemessenen Lexeme der Sprachprobe dividiert. Auf diese Weise lässt sich zumindest der segmental- phonologische Dialektalitätswert (kurz D-Wert) für eine Sprachprobe berechnen.
90 In den Transkriptionskonventionen des REDE-Projekts, die den Transkriptionen dieser Arbeit auch zugrunde gelegt wurden, wurde sich mangels eines eigenen Symbols auf [a̠] als Entsprechung für ein standarddeutsches /a/-Phonem geeinigt (vgl. auch KEHREIN 2012: 80, Fußnote 77).
114
Moderne Regionalsprachenforschung
3.3 PROJEKTE, ERKENNTNISSE UND DESIDERATE DER REGIONALSPRACHLICHEN PROSODIEFORSCHUNG91 Die Prosodie ist in einer Interessenshierarchie der Regionalsprachenforschung hintenangestellt. Dominierend ist die segmentalphonologische Ebene, gefolgt von der Lexik, der Morphologie und der Syntax. Gut erkennbar ist diese Hierarchisierung an der Kartierung variationslinguistischer Phänomene in regionalen Sprachatlanten, bei denen segmentalphonologische Phänomene stets die Priorität sind.92 Primär zur Prosodie gibt es in solchen Atlanten keine Bände, obwohl etwa im Rahmen der Arbeiten zum „Deutschen Sprachatlas“ zumindest die Intonation schon sehr früh Gegenstand von Interesse war und entsprechende Forschungslücken moniert wurden (vgl. PETERS 2006a: 7–9 und 2019: 667–668). Vor allem das oft thematisierte und sogenannte Singen der Dialekte, das zum Teil heute noch von Informanten des REDE-Projekts als besonderes Charakteristikum des eigenen Dialekts genannt wird, war bereits sehr früh Gegenstand ortsgrammatischer, aber auch generell phonetischer Darlegungen im mittleren und ausgehenden 19. Jahrhundert. Eine konkrete Beschreibung, welche akustischen oder auditiven Phänomene genau nun das Singen ausmachen, vermisst man jedoch stets (vgl. GILLES 2005: 1). So konstatiert BREMER (1893: 195): „Der Tonfall ist mundartlich ausserordentlich verschieden. Man erkennt jede Mundart sofort an ihrem singenden Charakter. Einen solchen hat jede Mundart, wenn man auch hier monotoner spricht als dort.“ Aus phonetischer Perspektive wird hierbei vor allem auf regionalspezifische Unterschiede im genutzten F0-Umfang hingewiesen, und zwar abgesehen vom singenden Charakter.93 Vor allem das Obersächsische und diverse oberdeutsche Dialekte werden als singend bezeichnet, andere, etwa einzelne schweizerdeutsche Dialekte werden hingegen auch als explizit nicht-singend bezeichnet.94 Dass die Perzeption der Prosodie eine Rolle bei der Verortung von Sprecher*innen spielt, bemerkt bereits RAUMER (1855: 118–119, im Original zum Teil gesperrt). Dieser stellt zunächst fest, dass „ein […] Ton der Sprache, der bekanntlich 91 Ich werde im ersten Abschnitt dieses Teilkapitels den Status der Prosodie in der klassischen Dialektologie beleuchten und im zweiten Abschnitt auf aktuellere Projekte und Erkenntnisse der regionalsprachenbezogenen Prosodieforschung eingehen. Dieser Einblick wird dabei ein zusammenfassender sein, der hauptsächlich den Großraum BRD betreffende, generelle Ergebnisse darstellt. Detailreichere Ergebnisse aus einzelorts- oder kleinraumbezogenen Studien werden in Kapitel 6 jeweils den Analysekapiteln der Untersuchungsorte vorangestellt. 92 Vgl. etwa die Bände 1–4 des „Mittelrheinischen Sprachatlas“ (MRhSA), Band 2 des „Südwestdeutschen Sprachatlas“ (SSA), die Bände 1–2 des „Sprachatlas von Oberbayern“ (SOB) und die Bände 2–4 des „Sprachatlas von Mittelfranken“ (SMF). Eine Auflistung aller in REDE integrierten Atlanten inklusive ihrer Aufteilung in Bände nach linguistischer Systemebene findet sich unter ; Stand: 15.11.2019. 93 Dies ist ein Unterschied, der sich in den Analysekapiteln zumindest interindividuell bestätigen lassen wird, dessen Aussagekräftigkeit zu regionalspezifischen Unterschieden aber zu dürftig erscheint. 94 Für eine aktuelle Übersicht zu frühen Monographien und Ortsgrammatiken, die das Singen von Dialekten thematisieren vgl. PETERS (2019: 667–670). Zum Begriff singen in Bezug auf regionalsprachliche Intonation selbst vgl. ZIMMERMANN (1998) und SIEBENHAAR (2012).
Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung
115
vom Laut genau zu unterscheiden ist“ existiert und expliziert des Weiteren, dass man anhand dieses Tons „z. B. einen Rheinpfälzer von einem Altbayern sehr leicht unterscheiden [würde, TP], wenn sie auch wirklich die Laute, welche allein wir durch unsere Buchstaben bezeichnen, vollkommen gleichmäßig aussprächen.“ Spätere Darstellungen verbinden die Perzeption von Intonation explizit mit dem Singen von Dialekten und führen diese Verbindung bereits recht früh als zuverlässigen Indikator für eine regionale Verortung von Sprecher*innen an. Dies gelte nach JESPERSEN (1926: 241) insbesondere dann, wenn Sprecher*innen der Standardvarietät auf Sprecher*innen einer Regionalsprache (besonders der Varietät Dialekt) treffen: „Jede Sprache und jeder Dialekt ‚singt‘ auf seine Weise, man hört aber nur die Sprechweise der andern als Singen. Besonders hört, wer eine Einheitssprache spricht, das Singen in den Dialekten. Die Verschiedenheiten beruhen wesentlich auf der Art und dem Umfang des Auf- und Abgleitens […] innerhalb der Silbe […].“ In diesem Zitat findet sich auch ein (wenngleich recht grober) Hinweis auf strukturelle Eigenschaften, die den auditiven Eindruck des Singens evozieren, nämlich spezifische Intonationsverläufe auf der prosodischen Domäne der Silbe. Über 80 Jahre später fasst SIEBENHAAR (2012: 274) zusammen, dass in standardnahen Sprechlagen unterschiedliche Präferenzen zur phonetischen Realisierung des F0Gipfels relativ zur Silbe (früh eher im nördlichen vs. spät eher im südlichen Sprachgebiet) auf akzentuierten Segmenten vorherrschen, die perzeptiv relevant für eine regionale Verortung von Sprecher*innen sind. Dass die linguistische Sozialisierung der Hörer*innen eine Rolle bei einer regionalen Zuordnung von Sprecher*innen spielt, zeigen PETERS et al. (2002: 132) in einem Perzeptionsexperiment mit Sprecher*innen aus dem Nordniederdeutschen, Berlinisch-Brandenburgischen und Niederalemannischen: „the linguistic background of listeners affects their performance in the identification task.“95 Des Weiteren gehen einige frühe Auffassungen von einer sogenannten Umlegung der Melodien aus, die den deutschen Sprachraum in den Norden und den Süden einteilt, wobei der eine Großraum im Vergleich zum anderen ein konträres Generalsystem der Intonation zeige (vgl. GILLES 2005: 25–26). Diese radikale Einteilung beruht auf SIEVERS (1901: 62–63) pauschaler These zur Umlegung der Melodien, die vom Prinzip an die zweite Lautverschiebung erinnert: […] wo bei der einen Gruppe von Lesern hohe Tonlage herrscht, wendet die andere Gruppe tiefe Tonlage an, wo die eine Gruppe die Tonhöhe steigen läßt, läßt die andere sie sinken und umgekehrt. […] Diese Umlegung der Melodien […] beruht nämlich einfach darauf, daß im Deutschen überhaupt zwei konträre Generalsysteme der Melodisierung einander gegenüberstehen, auch in der einfachen Alltagsrede. Diese Systeme wiederum sind landschaftlich geschieden. Wir kennen zwar die geographischen bzw. dialektologischen Grenzlinien der beiden Gebiete noch nicht genauer, im ganzen herrscht aber doch das eine Intonationssystem im Norden, das andere im Süden des deutschen Sprachgebietes, während das Mittelland in sich mehrfach gespalten ist.
95 Vgl. hierzu auch KIESEWALTER (2019), die auf der segmentalphonologischen Ebene zu einem ähnlichen Urteil kommt.
116
Moderne Regionalsprachenforschung
Diese Hypothese diskutieren später unter anderem VON ESSEN (1940) und später MARTENS (1952), der einen intonatorischen Vergleich zwischen den Stadtsprachen Hamburgs und Münchens anstellt. Eine abgeschwächte Version der These von SIEVERS bietet bereits vorher BREMER (1893), der besonders den Südwesten (Schwäbisch und die alemannischen Gebiete) als zum Rest different kennzeichnet: „Einen abweichenden Tonfall haben die schwäbisch-elsässisch-schweizerischen Mundarten. Hier hat die starkbetonte Silbe einen tieferen Ton als die neben- und schwachbetonte Silbe. Der abschwellenden Wortbetonung entspricht ein steigender Worttonfall“ (BREMER 1893: 195, Anmerkung).96 Frühe großräumig vergleichende Studien zur regionalsprachlichen Prosodie bieten daraufhin etwa WAIBLINGER (1925) zum „Tonfall deutscher Mundarten“ sowie ZWIRNER (1959) zur Quantität als Bereich prosodischer Einheiten. Weitere vergleichende Studien im Raum bieten später etwa SCHÄDLICH / ERAS (1970), die die Fragesatzintonation im Gebiet der ehemaligen DDR untersuchen. Während sich die prosodischen Forschungen zum der Osten der heutigen BRD zu jener Zeit auf einige wenige beschränken, wird vor allem dem in BREMERS These bereits mit einem Sonderstatus versehenen südwestlichen Raum mehr Aufmerksamkeit geschenkt. So identifiziert GUENTHERODT (1969, 1971 und besonders 1973) eine Isoglosse, die den Nordwesten vom Südosten der Pfalz (Rheinfränkisch), basierend auf final steigenden vs. final fallenden F0-Konturen bei Fragesätzen abgrenzt. Durch die Analyse von Dialektaufnahmen in über 60 Belegorten konnten dabei keine im Standarddeutschen üblichen Unterscheidungen von final steigenden vs. fallenden Intonationsverläufen in Abhängigkeit von verschiedenen Fragesatztypen belegt werden. PETERS (2006a) präsentiert eine Reanalyse dieser Daten und bestätigt den Verlauf einer solchen Isoglosse weitestgehend, wenngleich die Interpretation der formalen Ergebnisse unterschiedlich ausfällt (vgl. PETERS 2006a: 383–390). Eine weitere prosodische Isoglosse postulieren NÜBLING / SCHRAMBKE (2004). Diese Isoglosse beruht auf phonotaktischer Variation, die die Pfalz in silben- vs. akzentzählende Gebiete einteilt. Variation sehen die Autoren dabei besonders in der Bezugsdomäne für Isochronie, die gebietsabhängig entweder die Silbe oder der Fuß ist. So werden in NÜBLING / SCHRAMBKE (2004: 305) ein südalemannischer Raum (Hoch- und Höchstalemannisch) mit der Silbe als primäre Domäne durch eine glockenförmige Isoglosse vom nordalemannischen Raum (Mittel- und Niederalemannisch) mit dem Fuß als primäre Domäne getrennt. Modernere Zugänge zur regionalen Prosodie nutzen eine systematische Vorgehensweise, die meist zwischen Variation auf verschiedenen Ebenen, etwa phonetischer, phonologischer oder phonotaktischer Natur unterscheidet. Diese systematisierte Differenzierung geht in den meisten Ansätzen auf LADD (2008: 116) zurück, 96 In die hier verwendete Terminologie übertragen entspricht BREMERS Wortbetonung dem Wortakzent, also prosodischen Einheiten der lexikalischen Ebene. Abschwellend würde in diesem Fall eine akzentuierte Silbe, gefolgt von einer (oder mehreren) nicht- oder weniger akzentuierten Silbe(n) gleichkommen. Bremers Tonfall ist mit dem gleichzusetzen, was hier unter Intonation verstanden wird, also prosodische Einheiten der Äußerungsebene. Der Worttonfall ließe sich entsprechend als Wortakzent, simultan auftauchend oder eingebettet in äußerungsglobale Intonationsverläufe interpretieren.
Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung
117
der für Variation in der Intonation vier Kategorien differenziert: semantisch, systemisch, realisationell97 und phonotaktisch. Semantische Differenzen sind beispielsweise dann zu konstatieren, wenn Sprecher*in A formal dieselbe Intonationskontur wie Sprecher*in B in einer anderen linguistischen Funktion verwendet. Systemische Differenzen liegen vor, wenn etwa eine Sprecher*innengemeinschaft A unabhängig von semantischen Differenzen ein unterschiedliches Inventar an distinktiven Intonationskonturen aufweist als Sprecher*innengemeinschaft B. Realisationelle Unterschiede liegen dann vor, wenn Abweichungen in der phonetischen Implementierung von (phonologisch) gleichen Intonationskonturen zu beobachten sind und phonotaktische letztendlich wie in der segmentellen Phonologie dann, wenn bestimmte Verteilungen von Einheiten in Sprecher*innengemeinschaft A erlaubt sind, die es in Sprecher*innengemeinschaft B nicht sind, oder es Unterschiede in der Organisation des Bezugs der prosodischen Ebene zur segmentalen Textebene gibt (tune-to-text, vgl. Kapitel 2.2.4.2). Die in GUENTHERODT (1973) postulierte Isoglosse basiert dementsprechend auf systemischen Differenzen, während die Isoglosse in NÜBLING / SCHRAMBKE (2004) auf phonotaktischen Differenzen beruht. WERTH (2014) diskutiert auf Basis der Ergebnislage in NÜBLING / SCHRAMBKE (2004) in Bezug auf die Intonation im Alemannischen die phonotaktischen Auswirkungen von phonologischen Regeln, die auf diesen unterschiedlichen prosodischen Domänen greifen. Der Autor argumentiert dafür, dass Abweichungen in alemannischen Intonationsverläufen im Vergleich zur Standardvarietät auf denjenigen phonologischen Regeln beruhen, die auf der Domäne der Silbe zum Tragen kommen (vgl. WERTH 2014: 279).98 Generell wird die Intonation des Alemannischen, ganz im Sinne der oben dargelegten These BREMERS, in zahlreichen Studien zur Intonation des deutschen und schweizerischen alemannischen Raums als vom restlichen deutschen Sprachraum besonders abweichend gekennzeichnet (vgl. GILLES 2005, PETERS 2006a, LEEMANN 2012, WERTH 2014 und SIEBENHAAR 2015). Viele der modernen Studien, vor allem jene, die im Zuge des Projekts Untersuchungen zur Struktur und Funktion regionalspezifischer Intonationsverläufe (stellenweise auch: „Dialektintonation“) entstanden sind (PETERS et al. 2015), nutzen zur Beschreibung und Notation von Intonationsverläufen Tonsequenzmodelle, die zu großen Teilen auf den Annahmen der AM-Phonologie basieren und beschreiben Intonation primär auf der Domäne von Intonationsphrasen (vgl. Kapitel 2.2.4.2). Als übergeordnetes Ziel des Projekts formulieren PETERS et al. (2015: 54), „regionale Variation in den Intonationssystemen des Deutschen erstmals systematisch unter Bezug auf abstrakte Konturbegriffe und anhand authentischer, kontextuell eingebetteter Sprachdaten zu untersuchen.“ Dieser Zugang versteht sich als explizite Abkehr von ehemals syntaktisch dominierten Untersuchungen zur Intonation der Äußerungsebene und vereint multimethodische Ansätze quantitativer Messphonetik und qualitativer 97 Der hierfür in der Phonetik gängige Terminus wäre realisationsphonetisch. Um der Klassifikationsterminologie LADDS so nahe wie möglich bleiben zu können, entscheide ich mich hier und in den weiteren Kapiteln für realisationell. 98 Weitere aktuelle Forschung zu regionalsprachlichen phonotaktischen Differenzen beispielsweise in zwei Varietäten Wiens bieten KLINGLER / MOOSMÜLLER (2018).
118
Moderne Regionalsprachenforschung
linguistischer Funktionsklassifikationen, in der Regel durch konversationsanalytisches Vorgehen (vgl. PETERS et al. 2015: 54). Der Fokus der im Rahmen des Projekts entstandenen Studien wurde nach der oben vorgestellten Differenzklassifikation LADDS auf die Untersuchung systemischer, realisationeller und semantischer Unterschiede sowie der Perzeption der ermittelten Intonationsverläufe gelegt (vgl. PETERS et al. 2015: 54–55). Vergleiche und fokussierte Untersuchungen einzelner Regionen bieten unter anderem SELTING (2000a, 2000b, 2002a, 2002b und 2005) zu den Stadtsprachen Berlins, Hamburgs und Dresdens, KÜGLER (2004 und 2007) zum Schwäbischen und Obersächsischen, und GUSSENHOVEN / PETERS (2004) sowie BERGMANN (2008) zum Ripuarischen.99 Großregionale Vergleiche von Intonationsverläufen im Vorfeld determinierter Funktionen (Abschluss und Weiterweisung) sowie von phonologisch distinktiven Konturinventaren bieten die Habilitationsschriften von GILLES (2005) und PETERS (2006a), deren Vorgehen und Hauptergebnisse ich im Folgenden kurz schildern werde. Letztere Studie ist der systemischen Variation gewidmet. PETERS (2006a: 83) ermittelt zunächst ein Referenzsystem und bezeichnet dies als „Nördliches Standarddeutsch“, welches sich laut Autor „ursprünglich im nordwestdeutschen Sprachraum […] entwickelt hat, und die heute vorherrschende Standardvarietät in den überregionalen deutschen Medien darstellt.“ Auf der Basis des Intonationssystems des Nördlichen Standarddeutschen (kurz NSD) ermittelt PETERS anschließend systemische Unterschiede und Gemeinsamkeiten in Bezug auf nukleare und pränukleare Konturen, in Anlehnung an die in Kapitel 2.2.4.1 beschriebenen Nuclear Tones und den diesem vorausgehenden head, sowie Modifikationen des Nukleus selbst (vgl. PETERS 2006a: 150–151). Herangezogen werden dafür regionalsprachliche Gesprächsdaten aus sechs Städten: Hamburg, Berlin, Köln, Mannheim, Duisburg und Freiburg im Breisgau (vgl. PETERS 2006a: 1). Bezüglich des Vergleichs der nuklearen Konturen stellt PETERS (2006a: 453–457) fest, dass die Unterschiede zum Konturinventar NSD von Nord nach Süd zunehmen und so die Städte Köln, Mannheim und Freiburg die größte Variation zeigen. Eine eindeutige Divergenz zum NSD stellt PETERS (2006a: 456) dabei jedoch nur für Freiburg fest, dessen regionalsprachliches „intonatorisches System sich grundlegend von dem des NSD unterscheidet.“ Als Hauptgrund für diese Divergenz erklärt PETERS (2006a: 464), „dass die tonalen Einheiten dieser Konturen [des Freiburgischen, TP] nicht in den gleichen paradigmatischen Beziehungen stehen wie im NSD.“ Als Beispiel sei hier zu nennen, dass in den Positionen, in denen im Referenzsystem des NSD ein H*+L Verlauf als Tonhöhenakzent fungiert, im standardfernen Freiburgischen stets ein L*+H Verlauf zu finden ist (vgl. PETERS 2006a: 455–456). Als Fazit hält PETERS (2006a: 473–475) fest, dass sich die Intonation der Regionalsprachen bis auf die 99 Für einen vollständigen Überblick zu im Rahmen des Projekts entstandenen Studien vgl. PETERS et al. (2015). Weitere Studien außerhalb dieses Projektrahmens, die sich mit regionalsprachlicher Prosodie jenseits der Intonation befassen, sind etwa HAHN / SIEBENHAAR (2016) zur Sprechgeschwindigkeit im deutschen und schweizerdeutschen Raumvergleich sowie PETERS (2018) zu regional- und sozialspezifischen Unterschieden in der Stimmqualität im Nordniederdeutschen.
Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung
119
des Erhebungsorts Freiburg in nur geringem Maße von der des als Referenzsystems angesetzten NSD unterscheiden und sich diesbezüglich die oben dargelegte These SIEVERS zum Nord-Süd-Kontrast in den Intonationssystemen zum Teil, diejenige von BREMER, die den Südwesten als besonders abweichend kennzeichnet, aber in vollem Maße bestätigen lässt. In der zweiten hier vorzustellenden Studie von GILLES (2005) werden realisationelle Unterschiede gleicher linguistischer Funktionskomplexe untersucht. Abgesehen von den gleichen Untersuchungsorten wie in PETERS (2006a), die noch durch Dresden und München ergänzt werden, ist das Vorgehen in dieser Studie ein gänzlich anderes. GILLES (2005) definiert zunächst die konversationellen Funktionskomplexe Abschluss und Weiterweisung und untersucht anschließend die intonatorische Gestaltung innerhalb von Intonationsphrasen, für die diese Funktionen in den regionalsprachlichen Gesprächsdaten belegt werden konnten. Somit werden Teile der in Kapitel 2.2.4 beschriebenen Probleme der Zirkularität erfolgreich umgangen und gleichzeitig überregional vergleichbare, abstrakte linguistische Einheiten geschaffen.100 Zu den Funktionen erklärt GILLES (2005: 2): „Mit einer abschließenden Einheit kündigen SprecherInnen an, dass eine größere Gesprächseinheit […] zu Ende ist. Umgekehrt wird durch weiterweisende (‚progrediente‘) Einheiten angekündigt, dass die Sprecherin/der Sprecher weiterreden möchte.“101 Die Funktionskomplexe werden im Zuge der Methodendarlegungen durch syntaktische, pragmatische und konversationelle +/– Abgeschlossenheit weiter differenziert (vgl. GILLES 2005: 45–55). Der Autor identifiziert für die Realisierung der Funktionen zunächst vier grundlegende (erneut) nukleare Intonationskonturfamilien (fallend, steigend, fallend-steigend und steigend-fallend) und ermittelt anschließend realisationelle Abweichungen in der phonetischen Implementierung dieser Konturen im regionalen Vergleich (vgl. GILLES 2005: 143 und 339). Bezüglich der Funktionsklasse Abschluss kommt GILLES (2005: 351) zunächst zu dem Ergebnis, dass „abgesehen vom Freiburgischen in allen Varietäten die Fallkonturen“ dominieren. In Freiburg wird unter dieser Funktionsklasse hingegen eine steigend-fallende Kontur ermittelt. Für die Funktionsklasse Weiterweisung ermittelt der Autor ein weitaus heterogeneres Bild, bei dem die Inventare verschiedener Regionen sowohl steigende, fallendsteigende als auch steigend-fallende Konturen aufweisen (vgl. GILLES 2005: 352– 353).102 Lediglich die Untersuchungsorte Berlin und erneut Freiburg scheinen eine Ausnahme zu bilden, indem in diesen Orten nur jeweils eine steigende Kontur für alle Funktionen der Klasse Weiterweisung beobachtet wurde (vgl. GILLES 2005: 100 Da hier Intonationsphrasen untersucht werden, die durch die aus der Britischen Schule entlehnten Konzepte des Nukleus und nuclear tone abgegrenzt sind, kann hier nur von Teilen des Zirkularitätsproblems gesprochen werden, die umgangen wurden (vgl. hierzu oben, Kapitel 2.2.4). 101 Ob der Einschub aus der Terminologie VON ESSENS (1964, vgl. Kapitel 2.2.4.1) Absicht oder Zufall war, ist reine Spekulation. Nichtsdestoweniger wurde diese Funktion als eine der grundlegenden Funktionen der Intonation im Deutschen dort bereits proklamiert. GILLES (2005) geht auf VON ESSENS Darlegungen auf S. 19 ein. 102 Der Autor erklärt diese Heterogenität und die ortsabhängig auftretende Vielzahl an Konturen mit der funktionalen Ausdifferenzierung der Funktionsklasse Weiterweisung, die es bis dato noch zu untersuchen galt (vgl. GILLES 2005: 352).
120
Moderne Regionalsprachenforschung
352–353). Auch in diesem Fall würde die abgeschwächte These BREMERS greifen, die den Südwesten der BRD intonatorisch als vom restlichen Sprachgebiet besonders divergierend kennzeichnet und abgrenzt. Zusammenfassend lässt sich aus den vorgestellten Studien festhalten, dass Regionalsprachen abgesehen von denen des Alemannischen nur über geringfügig unterschiedliche systemische Konturinventare der Intonation verfügen oder in ihrer phonetischen Realisierung variieren.103 Aus oben in diesem Kapitel bereits erwähnten Perzeptionsstudien, die ebenso im Rahmen dieses Projekts durchgeführt wurden, wurde zudem geschlussfolgert, dass sich Sprecher*innen aufgrund ihrer Prosodie einem bestimmten Sprachraum zuordnen lassen und auditiv wahrnehmbare Merkmale der Prosodie somit besonders salient sind (vgl. PETERS et al. 2002).104 SCHMIDT et al. (2019: 33) kritisieren diesbezüglich, dass oft Differenzen zwischen subjektiv wahrgenommener Dialektalität und der durch objektsprachliche Analysen ermittelten Dialektalität bestehen, die darauf beruhen können, dass für ebendiese offensichtlich höchst salienten prosodischen Merkmale keine adäquaten Erfassungs- und Analysemethoden vorliegen. PETERS (2019: 669) betont währenddessen, dass regionalsprachliche intonatorische Merkmale von Sprecher*innen auch bei einer segmentalphonologischen Annäherung an die Standardvarietät erhalten bleiben und so stets zu einer Verortung beitragen können. Dies führt zur nächsten wichtigen Beobachtung: Prosodie gilt synchron wie diachron als äußerst stabil. GILLES (2005: 2) bemerkt dazu wie folgt: „Intonatorische Merkmale, und prosodische Merkmale im Allgemeinen, unterliegen kaum der bewussten Kontrolle und sind daher auch besonders resistent gegenüber dem Dialektabbau bzw. dem Dialektausgleich.“ Zudem gelten bestimmte prosodische Einheiten (besonders die Tonakzente im Großraum des historischen Westdeutschen) als dialektgeographisches Alleinstellungsmerkmal (vgl. unter anderem SCHMIDT 1986, WIESINGER 1983, WERTH 2011). Neben diesen Erkenntnissen sind die Gründe für das bereits in der Einleitung (vgl. Kapitel 1) monierte Defizit in der regionalsprachlichen Prosodieforschung vielfältig. Zum einen ist es die äußerst heterogene Terminologie, die die Vergleichbarkeit von Studien erschwert (was wird überhaupt untersucht?). Besonders scheinen die Bereiche Phonologie und Phonetik diesbezüglich nicht sauber voneinander abgegrenzt zu werden. Allen voran sind es aber die nicht oder nur unzureichend geklärten linguistischen Funktionen prosodischer Einheiten, was dann eine Reihe weiterer Probleme mit sich bringt, wie etwa die diskutierte Abgrenzbarkeit ohne Zirkularität oder die Vergleichbarkeit von Einheiten und Beschreibungsinstrumentarien über verschiedene Korpora hinweg. Ist die linguistische Funktion einer Einheit bekannt, lässt sich aus dieser eine abstrakte linguistische Einheit, eine Variable ableiten, deren konkrete, möglicherweise in der Sprachgemeinschaft unterschiedlichen Umsetzungen, also Varianten untersucht werden können. Vorbildlich konkret formulierte Variablen für die Intonation der Äußerungsebene auf der Domäne der 103 Ähnliche Beobachtungen gelten auch für die regionalsprachliche Prosodie im Schweizerdeutschen (vgl. etwa LEEMANN 2012 und SIEBENHAAR 2015). 104 Eine kritische Auseinandersetzung hiermit nimmt TESCHKE (2009) vor.
Projekte, Erkenntnisse und Desiderate der regionalsprachlichen Prosodieforschung
121
IP finden sich in GILLES (2005). Durch die Vorarbeiten aus SCHMIDT (2001), KEHREIN / RABANUS (2001), KEHREIN (2002) und PISTOR (2017) (vgl. Kapitel 2.2.4.4, 2.2.5.3 und 2.3.1) liegen nun auch konkrete Funktionsklassen vor, aus denen sich Variablen für die Untersuchung der Intonation auf den unteren bis mittleren Konstituenten der prosodischen Hierarchie ableiten lassen, für die hier der Terminus regulative Intonationsmuster gewählt wurde. Für solche Intonationsmuster, die anhand von Partikeln, Interjektionen und Ein-Wort-Äußerungen untersucht wurden und werden können, formuliert SCHMIDT (2001: 27) bereits vor fast zwanzig Jahren folgendes Desiderat, das bisher für die moderne Regionalsprachenforschung des Deutschen noch nicht erfüllt wurde: „Ein Durchbruch wäre erreicht, wenn es gelänge, den Grad der Übereinstimmung von Globalverläufen intonatorischer Parameter […] exakt zu quantifizieren und diese physikalisch-numerischen Abstände mit den Ergebnissen linguistischer Funktionsanalysen zu korrelieren.“ In einem aktuelleren Stand der Dinge zur regionalsprachlichen Prosodieforschung fordern SCHMIDT et al. (2019: 35) zudem einen „Neuanlauf“ und eine damit einhergehende „Basiserhebung“ für „einerseits wenige, sicher identifizierbare, vor allem aber funktionsidentische basale Sprachhandlungen im gesamten Sprachraum […]“, die im Anschluss an Perzeptionstests zur Ermittlung der perzeptiven Relevanz prosodischer Merkmale entsprechender Einheiten „auf Merkmalsdifferenzen hin“ analysiert werden müssen. Ich werde in den folgenden Kapiteln darstellen, wie die Erfüllung beider soeben vorgestellten Desiderate gelingen kann, wie mit modernen Methoden aus Messphonetik und Machine-Learning prosodische Einheiten exakt und objektiv gemessen und klassifiziert werden können und welche universellen, intergenerationell äußerst stabilen Strukturen die Intonation in Regionalsprachen des Deutschen dabei offenbart.
4. EIGENE EMPIRISCHE UNTERSUCHUNG Die regionalsprachliche Prosodieforschung bewegte sich in den letzten Jahrzehnten auf der lexikalischen Ebene mit der Tonakzentforschung auf den unteren und auf der Äußerungsebene mit dem Fokus auf Intonationsphrasen auf den oberen Konstituenten der in Kapitel 2.2.1 vorgestellten prosodischen Hierarchie. Prosodische Einheiten der Äußerungsebene, die sich auf den unteren bis mittleren Konstituenten dieser Domäne erstrecken, wurden nicht untersucht oder programmatisch ausgeklammert (vgl. etwa GILLES 2005: 43–44 und oben, Kapitel 2.2.5). Hierzu zählen auch diejenigen Einheiten, die in KEHREINS (2002) Terminologie lokale oder in der hier gewählten, an CHAFE (1994) angelehnten, Nomenklatur regulative Intonationsmuster genannt werden. Es ist Absicht, mit der vorliegenden Studie sowohl aus formaler als auch aus funktionaler Perspektive interregional und intergenerational Universalität und Konstanz der Einheiten dieser Ebene und Domänen nachzuweisen. Nicht Absicht ist es, diesbezüglich regional bedingte Variation explorativ zu untersuchen. Ich werde zeigen, dass es sich in den vier untersuchten Regionalsprachen formal und funktional um die gleichen basalen prosodischen Einheiten handelt, die in PISTOR (2017) durch Untersuchungen von Diskurspartikeln, Interjektionen und Ein-Wort-Äußerungen in den Sprachen Deutsch, Mandarin, Arabisch, Ghomálá’ und Koreanisch bereits als sprachübergreifend existent belegt wurden (vgl. Kapitel 2.3.1, zur Übersicht besonders Abbildung 16). 4.1 ZIELE, FORSCHUNGSFRAGEN UND HYPOTHESEN Der konkrete Gegenstand der Untersuchung ist demnach ein horizontaler und vertikaler Vergleich regulativer Intonationsmuster anhand von Diskurspartikeln, Interjektionen und Ein-Wort-Äußerungen in Form und Funktion im variativen Spektrum deutscher Regionalsprachen. Der Dialekt ist dabei nach GIBBON (1998: 79) im Vergleich zu den standardnäheren Varietäten und Sprechlagen des regionalsprachlichen Spektrums besonders interessant: „The prosodic systems of the regional standards do not differ fundamentally from those of the standard superstrate […].“ Das Hauptziel der vorliegenden Arbeit ist der formale und funktionale Nachweis von universellen prosodischen Strukturen in vier verschiedenen Regionalsprachen des Deutschen. Untersucht werden dazu Regionalsprachen aus den in Abbildung 17 dargestellten vier Großräumen Niederdeutsch, Mitteldeutsch, (historisches) Westdeutsch und Oberdeutsch. Dieses Hauptziel ist nach der in Kapitel 3.3 vorgestellten Kategorisierung LADDS (2008) systemischer Natur, da hier die Hypothese aufgestellt wird, dass sich mindestens vier phonologisch gleiche Form-Funktionskategorien in allen Intonationsinventaren der zu untersuchenden Regionalsprachen nach-
Ziele, Forschungsfragen und Hypothesen
123
weisen lassen. Intonatorische Inventarunterschiede durch paradigmatische Beziehungen werden etwa in PETERS (2006a) für das niederalemannische Freiburg postuliert. Wie oben in Kapitel 3.3 geschildert wurde, wird der niederalemannische Raum bezüglich der Intonation als zum Rest des deutschsprachigen Gebiets besonders divergierend gekennzeichnet. Eine ausführliche Analyse und der Nachweis universeller Strukturen scheint in diesem Dialektverband daher besonders lohnenswert. Begleitet wird das Hauptziel von Fragen, die mögliche realisationelle Unterschiede betreffen. Ob solche formalen Unterschiede in der Intonation beobachtbar sind, wenn für Sprecher*innen derselben Regionalsprache unterschiedliche segmentalphonologische Dialektalitätsniveaus ermittelt wurden, ist hierbei zu überprüfen. So beschreibt GILLES (2005: 356) in den noch zu erfüllenden Forschungsdesideraten, dass die vertikale Struktur und eventuelle Unterschiede in der Dialektkompetenz, die wiederum differente Realisierungen oder gar unterschiedliche Inventare von Intonationskonturen hervorrufen könnten, noch anzugehen sind: „[…] nicht thematisiert werden konnten eventuelle Unterschiede zwischen den SprecherInnen der gleichen Varietät. In dieser Hinsicht ist bei der derzeitigen Forschungslage noch nicht geklärt, wie die Dialektalitätsniveaus der segmentalphonologischen mit der intonatorischen Ebene korrelieren.“ Dass Unterschiede in segmentalphonologischen Dialektalitätsniveaus auch in Abhängigkeit von der untersuchten Generation (jung, mittel, alt) ermittelt werden können, zeigen KEHREIN (2012) und SCHMIDT (2017) für verschiedene Regionen.105 Da die segmentelle Basis der zu analysierenden Intonationsmuster in dieser Untersuchung hauptsächlich Diskurspartikeln, Interjektionen und Ein-Wort-Äußerungen sind und da besonders letztere eine eigene lexikalische Bedeutung und einen möglichen propositionalen Gehalt haben, muss die segmentelle Substanz ebenso Teil der Untersuchung sein. Hier gilt es zu überprüfen, wie die lexikalische mit der prosodischen Information interagiert, um letztendlich eine komplexe Äußerungsbedeutung zu konstituieren. Vor allem in der Partikelforschung der letzten 50 Jahre hat sich gezeigt, dass diese Äußerungsbedeutung oder Feinabstufungen derselben auch von syntagmatischen Relationen abhängig sein können.106 Konkret bedeutet das für die vorliegende Studie, dass untersucht werden muss, in welcher syntagmatischen Position welche Einheit aus Prosodie und Lexik ermittelt werden kann und
105 Genauso finden sich aber auch Gegenbeispiele, in denen die Generation kein entscheidender Faktor in der Ermittlung der Dialektkompetenz ist. So zeigt ROCHOLL (2015) für das obersächsische Dresden, dass in den untersuchten Generationen der jüngeren, mittleren und älteren Sprecher des REDE-Projekts der Basisdialekt abgebaut wurde und somit keine Dialektkompetenz besteht. VORBERGER (2019) zeigt für das zentralhessische Ulrichstein hingegen, dass in allen drei Generationen der noch vorhandene Dialekt aktiv beherrscht wird. 106 Vgl. Kapitel 2.2.5.1. Studien, die vor allem Partikeln (oder in alternativer Terminologie Diskursmarker, vgl. Kapitel 2.2.5.1) bezüglich ihrer lexikalischen Bedeutung und der, die sich aus der syntagmatischen Position ergibt, behandeln, finden sich unter anderem bei REHBEIN (1979), ABRAHAM (1991), AUER (1997), STUKENBROCK (2010), GÜNTHNER (2017), IMO (2017) und KÖNIG (2017).
124
Eigene empirische Untersuchung
welche Auswirkungen das auf die Funktion und letztendlich die Äußerungsbedeutung hat. Zusammenfassend lassen sich so folgende vier Fragen und Fragenkomplexe formulieren, von denen die vorliegende Arbeit geleitet wird: 1. Existieren die basalen Formen aus PISTOR (2017) mit ihren verbundenen Funktionen in Intonationssystemen verschiedener deutscher Regionalsprachen? 2. Gibt es systematisch intergenerationell und interindividuell realisationelle Unterschiede? Wenn ja, sind solche Unterschiede auf verschiedene Dialektalitätsniveaus zurückzuführen? 3. Auf welcher segmentellen Basis werden die Muster realisiert? 4. Wie gestaltet sich die syntagmatische Verteilung der Einheiten? Zu diesen vier Fragekomplexen lassen sich vier Hypothesen formulieren. Die den Fragenkomplex 1 betreffende erste Hypothese nimmt zunächst die Existenz universeller prosodischer Einheiten in den Regionalsprachen des Deutschen an, die aus denjenigen Funktionsbereichen stammen, die für die Prosodie im Allgemeinen anerkannt werden. Konkret lautet die Hypothese dann: Universelle prosodische Einheiten aus den Funktionsbereichen Kommunikationssteuerungen und Bewertungen sind basale sprachliche Ausprägungen soziokognitiver Fertigkeiten und dienen 1. der Erzeugung und Beibehaltung gemeinsamer Aufmerksamkeit und Aktivität (Kooperationsprinzip) und 2. dem Teilen soziodynamisch relevanter Informationen (vgl. GRICE 1975, TOMASELLO 2005, 2009, 2014 und FITCH / HUBER / BUGNYAR 2010). Dies beinhaltet im weiteren Sinne auch die Hypothese, dass Sprecher*innen von Regionalsprachen des Niederdeutschen, Mitteldeutschen, (historischen) Westdeutschen und Oberdeutschen dieselben prosodischen Einheiten zur Erfüllung der genannten Funktionen nutzen, wie Sprecher*innen des Mandarin, Arabischen, Ghomálá’ und Koreanischen. Die zweite Hypothese betrifft die zu erwartende Variation der Einheiten und somit den Fragenkomplex 2 und Frage 3. Sie lautet: Regionale Unterschiede und Präferenzen lassen sich in der segmentellen Substanz je nach Einheit feststellen, jedoch nicht in der Prosodie. Die dritte Hypothese zielt auf Frage 4 ab und lautet: Für alle Einheiten lassen sich bezüglich der syntagmatischen Position Präferenzen und Ausschlüsse feststellen. Das bedeutet auch, dass für diese Hypothese vorausgesetzt wird, dass nicht jede Einheit in jeder Position auftauchen kann, sondern solche strukturellen Aspekte systematisch beobachtbar sind. Die vierte und letzte Hypothese betrifft verschiedene Fragen und zielt auf die Zusammensetzung der komplexen Äußerungsbedeutung der zu untersuchenden Einheiten ab. Sie lautet: In der Konstitution der komplexen Äußerungsbedeutung der zu untersuchenden Einheiten ist eine Hierarchie der Signalisierungssysteme feststellbar, bei der die prosodische und hauptsächlich intonatorische Information primär zur Funktionszuweisung beiträgt, gefolgt von der syntagmatischen Position und erst dann der lexikalischen Information. Die sprachlichen Relationen, die in dieser Arbeit untersucht werden sind somit paradigmatisch und syntagmatisch. Um dem Anspruch einer phonetischen und phonologischen Beschreibung prosodischer Einheiten gerecht zu werden, müssen die
Anlage der Untersuchung: ein neuer methodischer Zugriff
125
in Kapitel 2 formulierten Grundfragen der Prosodieforschung beachtet und beantwortet werden: Zum korrekten Segmentieren und Klassifizieren muss klar sein, wo eine zu analysierende Einheit beginnt und wo sie endet, und besonders, welche linguistische Funktion sie erfüllt. Dazu muss klar sein, welche die für die Perzeption konstitutiven prosodischen Merkmale der Einheiten sind. Sind diese Fragen geklärt, kann über phonetische Merkmalsanalysen ermittelt werden, inwieweit diese Einheiten einander formal ähnlich oder unterschiedlich sind. Der hier verfolgte methodische Ansatz ist also ein funktionaler und formaler, qualitativer und quantitativer. 4.2 ANLAGE DER UNTERSUCHUNG: EIN NEUER METHODISCHER ZUGRIFF Für den quantitativen Zugriff wird in dieser Arbeit ein neues, automatisiertes Verfahren mittels Lernalgorithmus angewendet, der die klassischen Bereiche der Messund Klassifikationsphonetik mit solchen aus dem Machine-Learning verbindet. Diesen innovativen Bereich werde ich in Kapitel 4.2.4 erläutern. Zunächst müssen, wie bereits erwähnt, für den qualitativen Zugriff die Grundfragen in der Prosodieforschung bezüglich der zu untersuchenden Einheiten geklärt werden. Erst dann kann die Form untersucht werden. Für den Anspruch, exakte Korrelationen linguistischer Funktionen und phonetischer Formen mit einem Machine-Learning-Algorithmus herstellen zu können, bedarf es genau vordefinierter Einheiten und genügend Material, anhand dessen ein solcher Lernalgorithmus trainiert werden kann. Dies erfordert auf der funktionalen Seite die Herleitung abstrakter prosodischer Variablen beziehungsweise überprüfbarer, vordefinierter Einheiten durch Funktionsklassen. Eine solche Herleitung kann zunächst theoretisch-modellhaft und auf der Basis bereits analysierter Daten erfolgen. Die so definierten Funktionen der Einheiten gilt es dann in den Analysen der vorliegenden Daten mit den konversationsanalytischen Verfahren der Struktur- und Sequenzanalysen (vgl. Kapitel 2.2.4.3) zu überprüfen. Auf der formalen Seite erfordert dieser Zugriff die Überprüfung der perzeptiv relevanten prosodischen Merkmale und der anschließenden Bestimmung der prototypischen Form(en). Auf diese Schritte werde ich im Folgenden eingehen. 4.2.1 Vordefinierte funktionale Einheiten Die hier zu untersuchenden vordefinierten Einheiten sind die aus den Vorarbeiten von SCHMIDT (2001), KEHREIN / RABANUS (2001) und KEHREIN (2002) resultierenden Intonationsmuster, die in PISTOR (2017) als potenziell universell gekennzeichnet wurden. Zur Grundfrage der Abgrenzbarkeit bietet sich bei Einheiten dieser Art der in Kapitel 2.2.5.1 beschriebene Vorteil, dass regulative Intonationsmuster auf Partikeln, Interjektionen und Ein-Wort-Äußerungen in der Regel syntaktisch, pragmatisch wie äußerungssemantisch unintegriert sind und sich somit als potenziell eigenständige Sprechakte problemlos von anderen Einheiten des kontinuierlichen Redeflusses abgrenzen lassen. Die prosodische Form und die aus Perzeptionstests mit
126
Eigene empirische Untersuchung
Daten aus dem laborsprachlichen Korpus von potenziellen Universalien und experimentellen Methoden („Tabu“-Spiel) hervorgegangenen Funktionsklassen wurden oben in Kapitel 2.3.1 (und zusammenfassend in Abbildung 16) ausführlich beschrieben. Die übergeordneten vier Funktionsklassen lauten Reaktionssignal (REAKT), Turnhalten (TURN), Quittieren (QUIT) und positive Bewertung (POS). Jede Funktionsklasse beinhaltet weitere spezifizierte Subfunktionen, die sich aus vorangegangenen Studien ableiten lassen, in größeren Teilen aber erst aus den Analysen hervorgehen werden. Aus der nach den Analysen entstandenen neuen Datenlage wird sich im Vergleich zu den Funktionsklassen des Deutschen aus SCHMIDT (2001, Kapitel 2.2.5.3, Abbildung 14) und den potenziell universellen aus PISTOR (2017) auch eine neue Einteilung und Klassifikation ergeben. So wird sich zeigen, dass Items der Funktionsklasse Nummer 5 aus PISTOR (2017) „inhaltliches Erfassen“ in einer Neubewertung aufgrund der neuen Datenlage zu denen der Klasse POS gezählt werden können. 4.2.2 Kommunikations- und interaktionstheoretische Modellierung Um die genaue Funktionsweise der zu untersuchenden Einheiten in den freien Gesprächsdaten adäquat beschreiben zu können, wurden funktionsspezifische Schemata entwickelt, mit denen sich die Vorgänge modellieren lassen. Die kommunikations- und interaktionstheoretischen Überlegungen, die ich hier aufgreife und in die Funktionsschemata der zu untersuchenden Einheiten einfließen lasse, sind aus sozialwissenschaftlichen, anthropologischen, psychologischen und linguistischen Theorien und Forschungen entstanden. Die Hauptüberlegungen, die zu der Modellierung führen, sind das Kooperationsprinzip aus einer prosozialen Motivation heraus, das Schaffen eines common ground oder gemeinsamen Hintergrundwissens, der dynamische Wechsel von Informationseinheiten in verschiedene Aktivierungsstatus und die Fähigkeit zur Theory of Mind. Zudem werden sämtliche Einheiten in Anlehnung an das Ebenenmodell von KEHREIN / RABANUS (2001) als reaktiv oder progressiv wirkend etikettiert. Abgesehen vom letzten Punkt, der oben in Kapitel 2.2.5.3 erklärt wurde, werde ich die Stichpunkte im Folgenden kurz erläutern. Allen funktionalen Erklärungen und Motivationen in meinem Modell ist gemein, dass über ihnen stets das von GRICE (1975: 45) formulierte Kooperationsprinzip in Gesprächen steht. Gespräche sind durch mindestens zwei Teilnehmer*innen gekennzeichnet (vgl. Kapitel 2.2.4.3). Sie lassen sich des Weiteren aus GRICES Perspektive als kooperative Handlungen auffassen, bei denen die Interaktant*innen ihre (sprachlichen) Handlungen so ausrichten, dass sie zielerfüllend sind (vgl. PAFEL 2007: 216–217). Ein solches Ziel ist der Austausch soziodynamisch relevan-
Anlage der Untersuchung: ein neuer methodischer Zugriff
127
ter Informationen, was wiederum auf einer dem Menschen eigenen prosozialen Motivation fußt.107 Der Psychologe und Anthropologe TOMASELLO (2009: 83–84) spricht bei dieser Motivation in Anlehnung an SEARLE (1990) von geteilter Intentionalität: Die Interaktant*innen eines Gesprächs setzen die gemeinsame Intention voraus, sich kooperativ und zielgerichtet zu verhalten. Die Maxime, dass sich sprachliche Interaktionspartner*innen kooperativ zu verhalten haben, ermöglicht ihrerseits bereits eine pragmatische Schlussfolgerung für beide Interaktant*innen, nämlich, dass der jeweils andere sich auch kooperativ verhalten will (vgl. MEIBAUER 2006: 24). Zum Erreichen des kommunikativen Ziels, muss für eine gelungene Kooperation mit einer gemeinsamen Intention davon ausgegangen werden, dass beide Interaktionspartner*innen auf demselben Wissensstand in der kommunikativen Situation sind, damit gegenseitiges Verständnis gewährleistet ist. Hierfür ist im Kommunikationsverlauf das Schaffen einer geteilten Menge an für den weiteren Verlauf der Kommunikation notwendigem Hintergrundwissen nötig. CLARK (1996: 93) spricht in diesem Fall vom Schaffen von „common ground.“108 Es wird sich zeigen, dass besonders Einheiten der Funktionsklasse REAKT hierzu beitragen können. Beim Schaffen eines gemeinsamen Hintergrundwissens zum Erreichen eines wiederum gemeinsamen kommunikativen Ziels greifen CHAFES Konzepte von flow und activation states. Diese beschreiben den dynamischen Wechsel (flow) von Informationseinheiten in jeweils unterschiedliche Status der Aktivierung im menschlichen Bewusstsein (activation states) innerhalb der Kommunikation (vgl. CHAFE 1994: 29–30). Die Aktivierung bestimmter Informationen oder kommunikativ relevanter Ereignisse lässt sich nach CHAFE in drei Status einteilen: aktiv, semiaktiv und inaktiv (vgl. Kapitel 2.2.3.1). Die Abhängigkeit des Gelingens einer Kommunikationsintention, etwa des oben beschriebenen Austauschs soziodynamisch relevanter Information, beschreibt CHAFE (1994: 54) dabei in Abhängigkeit dieser Status, oder genauer, in Abhängigkeit der Annahmen von Sprecher*innen über den Aktivierungsstatus bestimmter Informationen im Bewusstsein von Hörer*innen: „Language is very much dependent on a speaker’s belief about activation states in other minds.“ Diese Annahmen, die demnach maßgeblich relevant für die weitere Strukturierung des Kommunikationsverlaufs sind, unterliegen verschiedenen Einflussfaktoren, etwa vorangegangene linguistische und nicht-linguistische Interaktion (soziokulturelle Gegebenheiten und Erfahrungen) der am Kommunikationsakt Beteiligten (vgl. CHAFE 1994: 54–55). Informationen werden im Kommunikationsakt in Informationseinheiten vermittelt. Informationseinheiten werden im folgenden Modell analog zur Klassifizierung von Intonationseinheiten nach CHAFE (1994) in substanzielle und regulative 107 Zur prosozialen Motivation vgl. besonders TOMASELLO (2005, 2009 und 2014). Zu Kommunikationsakten als geteilte kooperative Aktivitäten vgl. BRATMAN (1992). Ich werde diesen Punkt, der auch Teil einer der Hypothesen dieser Arbeit ist (s. o.), aus einer phylogenetischen Perspektive ausführlicher in Kapitel 7 erläutern und diskutieren. 108 Dieses Prinzip wird auch von anderen Forscher*innen beobachtet und anerkannt, stellenweise aber anders betitelt. So spricht etwa HOPPER (1979: 240) in diesem Fall von einer „foregrounding strategy“.
128
Eigene empirische Untersuchung
Informationseinheiten eingeteilt.109 Nach CHAFE (1994: 69–70) können drei Arten relevanter Information in den in Kapitel 2.2.4.4 beschriebenen substanziellen Intonationseinheiten kommuniziert werden: Ereignisse (kurzzeitig), Zustände (langzeitig) und Referenten (sprachlich oder außersprachlich). Die Gesamtinformation eines Turns oder längeren, mehrere Turns umfassenden Redebeitrags (in CHAFES Worten center of interest) ergibt sich aus der Segmentierung und anschließender Linearisierung in äußerungsgroße Einheiten. Diese sind einzelne substanzielle Informationseinheiten, die aus modernerer, psycholinguistischer Perspektive nach DIETRICH / GERWIEN (2017: 121) „in etwa einem Einzelsachverhalt entsprechen“ oder aus konversationsanalytischer Perspektive einer TCU nahekommen. CHAFE (1994: 108–110 und 140–159) formuliert diese Bedingung als one new idea constraint, der sprachübergreifend zu gelten scheint: „Kommuniziere nur eine neue Information pro Informationseinheit.“110 Ein solcher constraint erfordert kognitive Planung. Die hierfür notwendigen, vorgeschalteten psycholinguistischen Vorgänge lauten Makro- und Mikroplanung. Als Makroplanung wird in Anlehnung an BUTTERWORTH (1980) und LEVELT (1989) die Redestrukturierung als der tatsächlichen Artikulation vorgeschalteter Schritt in der Phase der Kommunikationsplanung in psycholinguistischer Terminologie bezeichnet. Die referenzielle Besetzung, also die mentale Auswahl derjenigen Teilinhalte (Ereignisse, Zustände und Referenten), die in der jeweiligen Informationseinheit als Einzelsachverhalt kommuniziert werden sollen, trägt die Bezeichnung Mikroplanung (vgl. BUTTERWORTH 1980, LEVELT 1989 und DIETRICH / GERWIEN 2017: 122). Als Ergebnis der Mikround Makroplanung entsteht die sogenannte präverbale Message, die das mentale Resultat verschiedener diskurs- und äußerungssemantischer Selektions- und Organisationsprozesse noch vor der tatsächlichen Artikulation darstellt (vgl. DIETRICH / GERWIEN 2017: 114–124). In der Planungsphase der präverbalen Message werden grammatische, lexikalische und semantische Aspekte sowie die Fokus-Hintergrund-Gliederung und die Agens-Patiens-Bestimmung vorbereitet. Letztere Punkte beinhalten die hierfür notwendige phonologische und prosodische (Silbenstruktur, metrische Verteilung und Intonationskontur) sowie syntaktische Enkodierung. Es wird davon ausgegangen, dass die präverbale Message unter all diesen Aspekten vor der Artikulation vollständig prozessiert (vorbereitet) ist und, dass dieser Vorgang nicht mehr als 350 ms in Anspruch nimmt (vgl. DIETRICH / GERWIEN 2017: 146). Sämtliche Planung inklusive der letztendlichen referenziellen Besetzung einer Informationseinheit auf der Sprecher*innenseite geschieht in der Makroplanung stets unter Berücksichtigung kommunikationssituativer Aspekte wie Stand und Rahmen des Diskurses (das sogenannte discourse setting, vgl. CLARK 1996: 8), so-
109 Ich spreche hier explizit von Informationseinheiten, in denen Inhalte vermittelt werden, und nicht wie CHAFE von Intonationseinheiten, um der Zirkularität entgegenwirkend zunächst völlig frei von prosodischen Merkmalen äußerungssemantische Einheiten in ihrer Funktion definieren zu können. Der Terminus Informationseinheit ist an HALLIDAY (1967b: 200–203) angelehnt. 110 DIETRICH / GERWIEN (2017: 160) sprechen in diesem Fall von limitierter kognitiver Aufmerksamkeit.
Anlage der Untersuchung: ein neuer methodischer Zugriff
129
ziale Konstellation der Interaktant*innen oder kommunikative Intention der Sprecher*innen.111 Die präverbale Message sowie die Annahmen über den Diskursstand sind in der anschließenden Artikulation einer Informationseinheit im aktiven Status des Sprecher*innenbewusstseins. Die kommunikative Absicht der Sprecher*innen ist es nach CHAFE (1994: 63) nun, am Ende einer substanziellen Intonationseinheit dieselbe Information ihres aktiven Status auch in den aktiven Status der Hörer*innen zu bringen: „At the completion of an intonation unit the speaker must intend that a reasonable facsimile of his or her focus of consciousness will have become active in one or more other minds.“ Absichern lassen sich das Gelingen dieser Absicht und die sprecher*innenseitigen Annahmen über den Diskursstand a posteriori über eigens dafür initiierte Sequenzen, die Feedbacksignale etwa in Form von Bestätigungen oder Ablehnungen involvieren können. Mindestens das Einhalten der aus dem Kooperationsprinzip hervorgehenden Quantitätsmaxime nach GRICE (1975) „sei so informativ, wie nötig“ fordert aber bereits a priori Annahmen über den kognitiven Status der Verarbeitung der Hörer*innen, die über das aus dem vorangegangenen Kommunikationsverlauf erschließbare discourse setting hinausgehen. Die Rede ist hierbei von nicht direkt beobachtbaren Annahmen, die in der Theory of Mind (kurz ToM) begründet sind. Theory of Mind ist ein in PREMACK / WOODRUFF (1978), WIMMER / PERNER (1983) und BARON-COHEN / LESLIE / FRITH (1985) geprägter Terminus. Eine ToM befähigt Individuen zur mentalen Repräsentation des kognitiven Status (denken, glauben, wissen, wollen etc.) Anderer, selbst, wenn dieser von dem eigenen abweicht.112 Annahmen über den kognitiven und in der sprachlichen Interaktion auch den dazugehörigen Diskursstand anderer zu bilden und dadurch deren zukünftiges (kommunikatives) Verhalten zu prognostizieren, ist dem Menschen nach PREMACK / WOODRUFF (1978: 525) nicht nur ein natürliches, sondern auch universelles Phänomen: „In assuming that other individuals want, think, believe, and the like, one infers states that are not directly observable and one uses theses states anticipatorily, to predict the behavior of others as well as one’s own. These inferences, which amount to a theory of mind, are, to our knowledge, universal in human adults.“ Aus diesen theoretischen Überlegungen lassen sich Funktionsschemata für die zu untersuchenden Einheiten modellieren, von denen ich hier eins anhand eines Beispiels aus den analysierten REDE-Daten (vgl. Kapitel 4.3) darstelle. Die beiden Sprecher der älteren Generation stammen aus dem nordniederdeutschen Oldenburg. Bei der analysierten Einheit (hier zunächst noch ohne phonetische Analyse der prosodischen Merkmale) handelt es sich um die Partikel wa als reduzierte Form der 111 Vgl. hierzu gängige Kommunikationsmodelle, die Aspekte der Situation einbeziehen, etwa HERRLITZ (1973), SCHULZ VON THUN (1981) oder GROSS (1998). 112 Alternativ wird hier auch von Repräsentation zweiter Ordnung gesprochen (vgl. etwa FITCH 2010). Repräsentationen erster Ordnung entsprächen dem eigenen Denken, Glauben etc. In WIMMER / PERNER (1983) wurde ein behavioraler Test entworfen, mit dem sich diese Fähigkeit überprüfen lässt. Die Theory of Mind spielt in zahlreichen Theorien zur Sprachevolution eine Rolle, von denen ich eine Auswahl in Kapitel 7.1 vorstelle. Aspekte einer Theory of Mind im Gebrauch von Partikeln werden des Weiteren in ABRAHAM (1991) beschrieben.
130
Eigene empirische Untersuchung
Fragepartikel was, die aufgrund einer Struktur- und Sequenzanalyse des im folgenden GAT2-Transkript gegebenen Kontexts als syntagmatisch isoliert und zu der Funktionsklasse REAKT gehörend klassifiziert wurde.113 Transkript 22: OLALT3 – Fohlen Part 1 (REAKT isoliert) 01 02 03 04
I1:
05 06 07 08
I1: I2: I1:
I2:
dann wÄr ick da so UngefÄhr hAlf hOch dudie wOllt sick wOhl Ob_e knIEn dO:l, (.) hEb ick mit_e LI:N drOp[hAUt ick dEnk] [die wOllt do nIch hIn;] (1.1) ´WA? dat pErd wollt dO nIch hIn; (.) NE:Y. (.) weil die FOHLEN woll;
Im Transkript sind die beiden Interaktanten durch I plus Nummer abgekürzt. Während I1 seine Erzählung über ein Pferd fortsetzt, wird er von I2 in Zeile 04 unterbrochen und es kommt zu einer Überschneidung bzw. simultanem Sprechen beider Interaktanten. Es folgt eine Pause von 1,1 Sekunden und anschließend in Zeile 05 die von I1 geäußerte Partikel wa, woraufhin I2 in Zeile 06 den Inhalt seines überschnittenen Gesprächsbeitrags (wenngleich nicht im selben Wortlaut) wiederholt. Abbildung 19 zeigt das modellierte Funktionsschema für diese Einheit in dieser Position.
Abb. 19: Funktionsschema für eine isoliert positionierte Einheit der Klasse REAKT
113 Auf eine ausführliche Analyse verzichte ich in diesem Beispiel und führe sie stattdessen im dafür vorgesehenen Analyseteil der Arbeit durch. Hier geht es zunächst nur um Struktur und Aufbau des Schemas.
Anlage der Untersuchung: ein neuer methodischer Zugriff
131
Im Schema ist horizontal in der Mitte der (im Sinne SAUSSURES) lineare zeitliche Verlauf der sprachlichen Interaktion abgebildet. Über- und unterhalb dieser Zeitlinie t befinden sich jeweils die Bereiche der an der Interaktion Beteiligten, die wie im GAT2-Transkript durch I1 und I2 abgekürzt werden. Innerhalb dieser Bereiche werden verschiedene Ebenen differenziert. Auf der Gesprächsebene werden substanzielle (S_IE) oder regulative (R_IE) Informationseinheiten verortet, die von den jeweiligen Interaktant*innen artikuliert und geäußert werden. Um zu verdeutlichen, ob es sich bei mehreren Einheiten im zeitlichen Verlauf um dieselbe oder verschiedene Einheiten handelt, werden diese nach dem Kürzel mit einer fortlaufenden Nummerierung versehen. Die Informationseinheiten auf der Gesprächsebene befinden sich zu diesem Zeitpunkt im aktiven Status des Sprechenden, was durch schwarze Farbe verdeutlicht wird (s. Legende unterhalb des Schemas). Die präverbale Message der Sprecher*innen und der durch die anschließende Artikulation vermittelte auditive Eindruck der Hörer*innen werden im Funktionsschema durch die Besetzung der primären Bewusstseinsebene repräsentiert.114 Bei gelungener Kommunikation ist diese Informationseinheit bei beiden Interaktant*innen im aktiven Status. In diesem Beispiel ist die durch den Sprecher I2 in Zeile 04 geäußerte S_IE1 nicht im aktiven, sondern im semiaktiven Status des Hörers I1. Verdeutlicht wird dies im Schema durch blassgraue Einfärbung (s. Legende). Grund hierfür ist das in diesem Fall kanalbezogene und daher auditive Nichtverstehen der S_IE1 seitens I1, für das als Grund die Überschneidung der beiden Gesprächsbeiträge in den Zeilen 03 und 04 gesehen werden kann. Wenn ein Gesamtinhalt oder center of interest oder aber einzelne Informationseinheiten verstanden werden wollen, können Interaktant*innen mit regulativen Informationseinheiten reaktiv auf eine vorangegangene substanzielle Informationseinheit verweisen, die für den Gesamtinhalt des center of interest oder für die Verarbeitung der nächsten Informationseinheit wichtig sein kann. Die Etikettierung der Wirkungsrichtung als reaktiv oder progressiv erfolgt im Schema durch die jeweiligen Pfeilrichtungen in Relation zur Zeitachse (s. Legende). Ein solches Verweisen geschieht im Beispiel, wenn I1 in Zeile 05 durch seine geäußerte R_IE reaktiv auf die S_IE1 von I2 sein Nichtverstehen kommuniziert und damit gleichzeitig progressiv eine Reaktion, genauer, eine Wiederholung oder Reparatur seitens I2 einfordert. Diese wird mit der Wiederholung derselben S_IE1 von I2 in Zeile 06 erfüllt. Die S_IE1 befindet sich nun auch, wie es CHAFE zur kommunikativen Absicht von Sprecher*innen erklärt, im aktiven Status des Hörers I1. Zu erkennen ist dies daran, dass I1 im weiteren Verlauf Bezug auf den Inhalt der S_IE1 nimmt und eine neue, aber noch zum selben center of interest gehörende S_IE beiträgt (Transkript Z. 07 und 08). Die letzte zu beschreibende, in diesem Beispiel nicht besetzte Ebene ist die sekundäre Bewusstseinsebene. Sie ermöglicht das Modellieren von ToM-Annahmen des Äußernden über den Diskurs- und Verarbeitungsstand des Hörenden sowie die Vermittlung neuer Inhalte vor dem Hintergrund bereits kommunizierter Inhalte, die mindestens der Sprechende für den weiteren 114 Der zeitliche Versatz von 350 ms von der präverbalen Message bis zur Artikulation und etwa 600 ms von der Rezeption des Sprechschalls bis zur kognitiven Verarbeitung bei Hörer*innen (vgl. DIETRICH / GERWIEN 2017) werden im Schema der Übersicht halber nicht dargestellt.
132
Eigene empirische Untersuchung
Kommunikationsverlauf für wichtig hält und glaubt, dass auch der Hörende sie für wichtig halten sollte. Sämtliche Funktionsschemata werden pro Einheit nach ihrer jeweiligen syntagmatischen Position erstellt. Naheliegend wäre hierfür eine Positionsbestimmung in alleiniger Abhängigkeit einer gesprächsanalytisch relevanten Einheit wie dem Turn oder der TCU. In Kapitel 2.2.4.3 habe ich erläutert, dass weder Turns noch TCUs in ihrer Ausdehnung definiert sind, teilweise miteinander zusammenfallen können und auch nicht garantiert ist, dass eine TCU in einer übergangsrelevanten Stelle (TRP) oder gar einem Sprecher*innenwechsel endet. Für diese Arbeit werden daher im Folgenden vier Positionen zusätzlich zu solchen sequenziellen Positionsbestimmungen aus äußerungssemantischen und pragmatischen Kriterien heraus definiert: initial, medial, final und isoliert. Eine initiale Position wurde ermittelt, wenn vor der Äußerung einer R_IE ein Sprecher*innenwechsel stattgefunden hat und mit der nachfolgenden S_IE desselben Sprechenden der R_IE mindestens ein neuer äußerungssemantischer Inhalt kommuniziert wird. Als medial positioniert wird eine R_IE dann klassifiziert, wenn vor der Äußerung kein Sprecher*innenwechsel stattgefunden hat. Die darauffolgende S_IE desselben Sprechenden enthält entweder wieder mindestens einen neuen Inhaltsgegenstand oder aber führt eine unvollständige S_IE fort. Final positionierte R_IE folgen auf eine äußerungssemantisch und pragmatisch abgeschlossene S_IE und können auch auf ein ganzes äußerungssemantisch und pragmatisch abgeschlossenes center of interest folgen. Nach der final positionierten R_IE erfolgt in jedem Fall ein Sprecher*innenwechsel. Die folgende Informationseinheit des dann neuen Sprechenden kann substanziell oder regulativ sein. Das Kriterium für bereits in Abbildung 19 schematisierte isoliert auftauchende R_IE ist das einzige, das rein durch die sequenzielle Abfolge bestimmt ist: isoliert klassifizierte R_IE eines Sprechenden treten zwischen zwei S_IE des anderen Sprechenden (oder anderer Sprecher*innen bei mehr als zwei Gesprächsteilnehmer*innen) auf. Das bedeutet, dass vor und nach der Einheit jeweils ein Sprecher*innenwechsel stattfindet. 4.2.3 Perzeptionstest: relevante prosodische Merkmale Nachdem die Abgrenzbarkeit und die funktionalen Klassifikationsmöglichkeiten der zu untersuchenden Einheiten im Vorfeld geklärt wurden, muss zuletzt noch ermittelt werden, welche die für die Perzeption der Einheiten relevanten prosodischen Merkmale sind. Abgesehen von der Hörer*innenrelevanz der Merkmale, aufgrund derer wahrgenommene Formen diskret oder kontinuierlich Funktionsklassen zugeordnet werden können, ist eine solche Klärung auch für die beabsichtigte automatisierte Messung essenziell. Diesen Gedanken paraphrasiert CHAFE (1994: 8) bereits in den Neunzigern, als die Möglichkeiten und Techniken des Machine-Learnings im Vergleich zu heute noch wesentlich unausgereifter waren: „[…] we cannot program machines to be like the mind without first learning what the mind is like.“ Für alle hier zu untersuchenden Einheiten wurde bereits der Tonhöhenverlauf als primär relevantes prosodisches Merkmal sowie für Einheiten der Klassen TURN und POS die Dauer als zusätzlich relevant ermittelt (vgl. SCHMIDT 2001: 25,
Anlage der Untersuchung: ein neuer methodischer Zugriff
133
KEHREIN 2002: 226 und PISTOR 2017: 69–70). Zusätzlich wurde in PISTOR (2017: 69) bereits die Hypothese aufgestellt, dass für Einheiten der Klasse QUIT das wahrnehmbare Tonhöhenregister eine Rolle spielt.115 Um die Einheiten auf die Relevanz der phonetischen Merkmale F0-Register, zeitliche Erstreckung und Intensität exakt überprüfen zu können, ist zusätzlich zu den Verbalisierungserhebungen der Formprototypen in SCHMIDT (2001) und PISTOR (2017) eine andere Methode vonnöten: Über die Manipulationsfunktionen in Praat (BOERSMA / WEENINK 2019) lassen sich der Grundfrequenzverlauf und die zeitliche Erstreckung physikalischer Sprachsignale digitalisieren und manipulieren. Über den Befehl „shift pitch frequencies“ lassen sich in Praat ganze Äußerungsabschnitte oder Teile davon in ihrem Tonhöhenregister relativ zum Originalsignal in verschiedenen Skalierungen (absolut in Hertz, logarithmisch in Hertz, in Halbtonschritten sowie auf der mel oder ERB-Skala) herauf- oder herabsetzen. Über den Befehl „add duration point“ können auf der zeitlichen Erstreckung des Originalsignals Punkte gesetzt werden, innerhalb derer sich die zeitliche Erstreckung in Millisekundenschritten erhöhen oder verringern lässt. Zur Manipulation der Intensität wurde die Freeware Audacity genutzt, mit der sich einzelne Abschnitte oder ganze Soundsamples über Regler in ihrer Intensität in ganzen Dezibelschritten verändern lassen. Auf diese Weise lassen sich die drei genannten prosodischen Merkmale auf resynthetisierten Stimuli einzeln oder in Kombination verändern. Hörer*innenurteile in Perzeptionstests können dann Aufschluss über Diskriminierbarkeit und Distinktivität der einzelnen Merkmale geben. Um die Relevanz der Merkmale bei der Funktionszuordnung zu überprüfen, wurden zwei Perzeptionstests mit resynthetisierten Stimuli durchgeführt. Die segmentelle Basis für sämtliche Intonationsmuster war der stimmhafte bilabiale Nasal [m], teils mit leichter vorausgehender Aspiration [hm], was phonetisch Diskurspartikeln der Klasse hm entspricht. Die Stimuli, die vor den Manipulationen als Formprototypen ausgewählt wurden, entstammen den Korpora, mit denen bereits in SCHMIDT (2001) und PISTOR (2017) Perzeptionstests mit Verbalisierungsaufgaben durchgeführt wurden und für die somit im Vorfeld bereits Form-Funktionszuordnungen vorlagen. Für die Funktionsklassen REAKT, TURN und POS wurden jeweils der Formprototyp und eine häufig auftauchende Formvariante in die Manipulationen einbezogen. Für die Funktionsklasse QUIT wurden jeweils die Formprototypen der Unterkategorien Abschluss und Kenntnisnahme verwendet.116 Die zusammengestellten Stimuli wurden dann bezüglich ihres individuellen F0-Registers jeweils um 6 Halbtöne (HT) herauf- und herabgesetzt. Die Intensität aller Stimuli wurde um jeweils 6 dB verstärkt oder verringert. Signale, die kategoriell kurz sind (REAKT und QUIT) wurden in ihrer zeitlichen Erstreckung jeweils um 35 ms gedehnt, während solche, die kategoriell lang sind (TURN und POS), um jeweils 35 ms gestaucht wurden. Tabelle 1 zeigt eine Übersicht über die durchgeführten Manipulationen. 115 Dies wurde in PISTOR (2018) bestätigt. Methode und Ergebnisse der hier beschriebenen Tests wurden in diesem Paper in Teilen bereits dargelegt. 116 Sämtliche Formen lassen sich in Kapitel 2.3.1 in Abbildung 16 nachvollziehen. Exakte phonetische Beschreibungen der Formen finden sich in PISTOR (2017: 65–70).
134
Eigene empirische Untersuchung
Item
F0-Register
zeitliche Erstreckung
Intensität
REAKT Prototyp REAKT Formvariante TURN Prototyp TURN Formvariante QUIT Abschluss QUIT Kenntnisnahme POS Prototyp POS Formvariante
+/– 6 HT +/– 6 HT +/– 6 HT +/– 6 HT +/– 6 HT +/– 6 HT +/– 6 HT +/– 6 HT
+ 35 ms + 35 ms – 35 ms – 35 ms + 35 ms + 35 ms – 35 ms – 35 ms
+/– 6 dB +/– 6 dB +/– 6 dB +/– 6 dB +/– 6 dB +/– 6 dB +/– 6 dB +/– 6 dB
Tab. 1: Übersicht der durchgeführten Manipulationen
Die oben beschriebenen Stimuli wurden im ersten Perzeptionstest in einem Testband 77 Hörer*innen vorgespielt. Anschließende Aufgabe war die Bewertung der Stimuli im Rahmen der in Kapitel 2.2.5.3 beschriebenen Verbalisierungsaufgabe aus SCHMIDT (2001). Die Proband*innen gaben hauptsächlich Deutsch als Muttersprache an, zwei Probandinnen gaben Koreanisch und eine Probandin Russisch als Muttersprache an. Der Altersdurchschnitt betrug 24 Jahre. Alle Angaben wurden schriftlich in Form von Fragebögen erhoben. Bei der Auswertung der Fragebögen wurden die Antworten der Proband*innen mit den Antworten aus den Erhebungen in PISTOR (2017) verglichen und bei nennenswerten Abweichungen notiert. Als nicht nennenswert wurden synonyme Angaben wie etwa „was“ zu „wie bitte“ oder Modifikationen wie „was – lauter/leiser“ oder „langes was“ gewertet. Letztere zeigen zwar die Diskriminierbarkeit der manipulierten Signale, sagen aber über die Rolle des manipulierten Merkmals bei der Funktionszuordnung nichts aus. Nicht nennenswerte Änderungen oder Stimuli, die als nicht existent gewertet wurden, werden im Folgenden durch einen Nullwert mit dem Symbol Ø gekennzeichnet. Tabelle 2 gibt eine Übersicht über die funktionalen Änderungen und die Manipulationen, die diese herbeigeführt haben. Item REAKT Prototyp REAKT Formvariante TURN Prototyp TURN Formvariante QUIT Abschluss QUIT Kenntnisnahme POS Prototyp POS Formvariante
F0-Register Ø Ø Ø Ø + 6 HT → Kenntnisn. – 6 HT → – Valenz Ø Ø
zeitliche Erstreckung Ø Ø Ø – 35 ms → QUIT + 35 ms → TURN + 35 ms → TURN – 35 ms → inhaltl. Erf. Ø
Intensität Ø Ø Ø Ø Ø Ø Ø Ø
Tab. 2: Übersicht der Ergebnisse des ersten Perzeptionstests
Ich beginne die Beschreibungen bei den Bewertungen der Manipulationen des Merkmals Intensität, denn hier wurde für sämtliche Stimuli ein Nullwert vergeben.
Anlage der Untersuchung: ein neuer methodischer Zugriff
135
Die Intensität als akustisch messbare physikalische Größe, die dazu beitragen kann, bestimmte Signale aufgrund ihrer phonetischen Beschaffenheit auseinanderzuhalten (vgl. BANDT / POMPE / STREUFERT / ZORN 2001), scheint perzeptiv hier keine distinktive Rolle zu spielen. Warum die Proband*innen nicht auf eine reine Erhöhung oder Verringerung der Intensität reagieren, lässt sich wie folgt erklären: In der Regel geht mit der Erhöhung der Intensität als sub- und transglottalem Druck auch eine von F0 einher und vice versa (vgl. Kapitel 2.1). Eine alleinige Veränderung der Intensität ist in der natürlichsprachlichen Artikulation daher so kaum zu beobachten. Zu beachten ist hierbei, dass die Stimuli einzeln und somit völlig kontextfrei präsentiert und bewertet wurden. Eine Erhöhung der Intensität in Relation zu anderen wahrgenommenen Einheiten desselben Gesprächs (das heißt mit Kontext) kann auf paralinguistischer, emotionaler Ebene durchaus die Form-Funktionszuordnung in kontinuierlicher Art und Weise beeinflussen (vgl. KEHREIN 2002: 322). Die Manipulation der zeitlichen Erstreckung erwirkte andere Ergebnisse. Bei der Erhöhung der zeitlichen Erstreckung um 35 ms in Formen der Klasse REAKT wurden durch die Proband*innen lediglich zweimal ein höherer Grad an Skepsis attestiert. In der Klasse POS bewirkt eine Verringerung der zeitlichen Erstreckung um 35 ms das Umschwenken der Funktionszuordnung von einer reinen positiven Bewertung zum inhaltlichen Erfassen (oft verbalisiert durch „jetzt habe ich es kapiert“). Aus dem Analyseteil wird hervorgehen, dass die beiden Funktionen zur selben Klasse gehören. Bei der Formvariante von TURN sowie bei beiden überprüften Formen der Klasse QUIT erwirkt das Erhöhen respektive Verringern der zeitlichen Erstreckung um 35 ms eine Zuordnung zur jeweils anderen Funktionsklasse. Interessant ist hierbei, dass dies nicht für den Formprototyp der Klasse TURN gilt, der einen relativ ebenen Grundfrequenzverlauf beschreibt. Gerade etwas mehr als die Hälfte der Proband*innen (41 von 77) bewerten das Item als in ihrer Muttersprache existent, verbalisieren es dann aber entweder nicht oder in fünf Fällen mit Verbalisierungen, die sich der Klasse TURN zuordnen lassen (etwa „Moment mal“ oder „ich will was sagen“). Erklären lässt sich diese Beobachtung dadurch, dass der ebene Grundfrequenzverlauf die prototypische Form und das primäre Merkmal der Einheit ist. Ist dieser Verlauf verändert (die Formvariante beschreibt ein leichtes, kontinuierliches Absinken des Grundfrequenzverlaufs), muss das sekundäre Merkmal der erhöhten Dauer vorhanden sein, um die Einheit diskret ihrer ursprünglichen Funktionskategorie zuordnen zu können. Dieser Punkt und auch das Umschwenken der Funktion beider Formen der Klasse QUIT, von denen die Form von Abschluss einen steileren Grundfrequenzabfall beschreibt als die von Kenntnisnahme, zeigen, dass die zeitliche Erstreckung in beiden Klassen die Form-Funktionszuordnungen diskret beeinflusst: Beide Signale werden trotz unterschiedlichem F0-Verlauf in der verlängerten Form der Klasse TURN zugeordnet. Die Kategorie QUIT scheint des Weiteren auch hinsichtlich des Tonhöhenregisters besonders limitiert und markiert zu sein. In der Funktion Abschluss konnte mit der Manipulation sowohl der zeitlichen Erstreckung als auch des Tonhöhenregisters bei einer Erhöhung von 6 HT ein Umschwenken der Funktionsklassen erwirkt werden. In der Funktion Kenntnisnahme scheint das Register dagegen eine kontinuierlich abstufende Rolle zu spielen (vgl. PISTOR 2018: 139). Zur Übersicht
136
Eigene empirische Untersuchung
wurden in Tabelle 3 die häufigsten Verbalisierungsangaben der Proband*innen zu den manipulierten Items der Klasse QUIT aus dem ersten Perzeptionstest im Vergleich zu denen des Prototyps aus PISTOR (2017) zusammengetragen.117 Form
Abschluss
Kenntnisnahme
Prototyp
„Okay/so, fertig“ „Naja/finde ich nicht so gut“
„Von mir aus/mir egal/na gut/vielleicht“
länger
„Lass mich überlegen/keine Ahnung“
„Ich bin mir nicht sicher/ich zögere/weiß nicht“
tiefer
„Das reicht jetzt/hör auf/fertig“
„Interessiert mich nicht/das ist blöd“
höher
„Ich weiß nicht/vielleicht/von mir aus“
„Von mir aus/mir egal/na gut“
Tab. 3: Übersicht der Verbalisierungsangaben zu den QUIT-Signalen im ersten Perzeptionstest (vgl. PISTOR 2018: 139)
Die Verbalisierungen in der zweiten Spalte der ersten Zeile zeigen, dass bei der Bewertung des unveränderten Formprototyps bereits eine ambige Zuordnung stattgefunden hat, die sich insofern zeigt, als Hörer*innen das Signal sowohl als Abschluss („so, fertig“ bei 56 % der Hörer*innen) als auch als Kenntnisnahme mit negativer Konnotation („finde ich nicht so gut“ bei 44 % der Hörer*innen) interpretieren (vgl. PISTOR 2018: 139). Der Prototyp der Funktion Kenntnisnahme beschreibt einen flacher abfallenden F0-Verlauf als der der Funktion Abschluss. Beim Formprototyp Kenntnisnahme lässt sich keine ambige Zuordnung beobachten. Da beide Formen in etwa die gleiche zeitliche Erstreckung aufweisen, liegt die Vermutung nahe, dass das Tonhöhenregister neben dem Tonhöhenverlauf als auditives Merkmal eine entscheidende Rolle spielt. Mit dem Herabsetzen des Tonhöhenregisters um 6 HT im Formprototyp der Funktion Kenntnisnahme lässt sich keine Änderung der Funktion evozieren, jedoch wird der neutralen Kenntnisnahme des Prototyps in kontinuierlicher Art und Weise eine negative Konnotation als Bedeutungsanteil hinzugefügt. Beim Anheben um 6 HT lassen sich keinerlei Veränderungen beobachten. Wird der Formprototyp der Funktion Abschluss um 6 HT abgesenkt, wird die Ambiguität der Funktionszuordnungen in den Verbalisierungen aufgelöst. Im tiefen Tonhöhenregister scheint eine eindeutigere Interpretation als Abschluss möglich. Wird dasselbe Signal hingegen um 6 HT angehoben, ordnen Hörer*innen die Form eindeutig in diskreter Art und Weise der Funktion Kenntnisnahme zu – die Funktionsklasse schwenkt um. Hörer*innen scheinen sich die Variation im Tonhöhenregister zunutze zu machen, um die Äußerungen mit der Funktion Kenntnisnahme auf der Valenzskala zwischen neutraler („von mir aus, „mir egal“ etc. bei 77 % der Angaben) und negativer („interessiert mich nicht“, „das ist blöd“ etc. bei 63 % der Angaben) Konnotation verschieben zu können. Dieser Befund deckt sich mit denen aus Studien zu 117 In der Tabelle entspricht „länger“ der Erhöhung der zeitlichen Erstreckung um 35 ms, „tiefer“ der Verringerung des Tonhöhenregisters um 6 HT und „höher“ der Erhöhung desselben um 6 HT.
Anlage der Untersuchung: ein neuer methodischer Zugriff
137
evaluativ wahrgenommenen Äußerungen, bei denen ein tieferes Tonhöhenregister neben anderen Faktoren stets mit einer negativen Konnotation einhergeht (vgl. SENDLMEIER / STEFFEN / BARTELS 2016, SENDLMEIER 2018 und Kapitel 2.2.3.2). Das Tonhöhenregister wirkt für Signale mit der Funktion Abschluss hingegen diskret auf die Zuweisung zur Klasse. Um vor allem die Diskretheit überprüfen zu können, wurde ein weiterer Perzeptionstest durchgeführt, in dem nur die in Tabelle 3 beschriebenen Items der Funktionsklasse QUIT auf ihre Hörer*innenbewertungen nur bei Veränderungen des Tonhöhenregisters überprüft wurden: Getestet werden sollten jeweils der unveränderte Formprototyp beider Funktionen sowie jeweils eine im Tonhöhenregister um 6 HT erhöhte und eine um 6 HT verringerte Formvariante. Hierzu wurden zwar auch Fragebögen verwendet, jedoch wurden keine Antworten in Freitextfeldern erfasst. In den Bögen standen bereits die Funktionsklassen Abschluss und Kenntnisnahme, repräsentiert durch ihre häufigsten Verbalisierungen, zur Auswahl und sollten angekreuzt werden. Die konkrete Aufgabenstellung lautete wie folgt: „Ordnen sie die Sprachbeispiele den folgenden Aussagen zu: A) weiß nicht/vielleicht/mir egal, B) so/fertig“. Dies wurde die Zuordnungsaufgabe genannt. An diesem Test nahmen 80 Proband*innen teil.118 Alle gaben Deutsch als Muttersprache an. Der Altersdurchschnitt betrug 23 Jahre (vgl. PISTOR 2018: 138). Abbildung 20 zeigt die Ergebnisse der Zuordnungsaufgabe als Balkendiagramm. Innerhalb der Balken sind die absoluten Werte abgebildet, auf der Skala lassen sich zudem die relativen Werte ablesen. Die Ergebnisse zeigen, dass für Formen der Funktion Kenntnisnahme kein diskretes Umschwenken der Form-Funktionszuordnung durch die Manipulation des Tonhöhenregisters evoziert werden konnte. Sowohl beim Herauf- als auch beim Herabsetzen des Registers ordnen die Proband*innen die gehörten Signale der Funktion Kenntnisnahme zu, wobei das um 6 HT verringerte Tonhöhenregister Unsicherheit bei der Zuordnung verursacht. Etwa 38 % der Proband*innen ordnen das Signal im niedrigen Tonhöhenregister der Funktion Abschluss zu. Für die Formen der Funktion Abschluss erwirkt das niedrige, um 6 HT herabgesetzte Tonhöhenregister wie im ersten Perzeptionstest eine sicherere Interpretation als Abschluss (bei etwa 75 % der Hörer*innen), während sich durch das Heraufsetzen des Registers um 6 HT derselbe Effekt wie im ersten Perzeptionstest beobachten lässt: Das Signal wird von 87 % der Hörer*innen der Funktion Kenntnisnahme zugeordnet.
118 Ausgewertet werden konnten jedoch nur 77 der insgesamt 80 Fragebögen, da 3 Proband*innen den Fragebogen unvollständig ausgefüllt haben.
138
Eigene empirische Untersuchung
Abb. 20: Relative und absolute Werte der Funktionszuordnungen der manipulierten QUIT-Signale (vgl. PISTOR 2018: 139–140)
Die Ergebnisse des Tests werden in PISTOR (2018: 140) wie folgt zusammengefasst: „[…] das wahrnehmbare Tonhöhenregister [wirkt] für deutsche Muttersprachler perzeptiv auf die Funktion lokal fallender Intonationsmuster der Klasse Abschluss diskret und auf diejenigen Muster der Klasse Kenntnisnahme kontinuierlich […].“ Aus den beiden Perzeptionstests und den Ergebnissen der vorangegangenen Studien lässt sich für die in diesem Teilkapitel gestellte Forschungsfrage Folgendes festhalten: Die relevanten prosodischen Merkmale der hier zu untersuchenden regulativen Intonationsmuster sind auf der akustischen Ebene der F0-Verlauf, die zeitliche Erstreckung und die F0-Bandbreite, in dem der F0-Verlauf realisiert wird. Die auditiven Korrelate dazu sind der Tonhöhenverlauf, die Dauer und das Tonhöhenregister. 4.2.4 Der VokalJäger 2.0: Prosody Enhanced Algorithmic Toolbox (VJ.PEAT) Nachdem das Segmentieren der Einheiten, ihre funktionale Klassifikation und die relevanten prosodischen Merkmale geklärt sind, lassen sich quantitative formale Messmethoden und Klassifikationsverfahren anwenden, die auf den erhobenen Messparametern beruhen. Der klassische (formale) methodische Zugriff in der Prosodieforschung, wie er in vielen der in Kapitel 2 beschriebenen Modelle und sich darauf beziehenden Studien angewendet wird, sieht Messphonetik, meist durch ein computergestütztes Analyseprogramm, und Modellierung der Ergebnisse als sukzessive Schritte des Verfahrens vor. Ähnlich wird auch in dieser Arbeit vorgegangen, nur ist der Anspruch im Vorfeld der Bearbeitungsschritte ein anderer. Dieser sieht zunächst die Entwicklung objektiver Messmethoden vor. Das beinhaltet sowohl eine optimale Einstellung der Messparameter im Analyseprogramm als auch ein artikulations- und perzeptionsorientiertes Glättungsverfahren. Im nächsten Schritt wird davon ausgegangen, dass nicht alle physikalisch vorhandenen akustischen Signale im Sprachschall zur perzeptiven Identifikation und Klassifika-
Anlage der Untersuchung: ein neuer methodischer Zugriff
139
tion bei Hörer*innen beitragen, und zwar unabhängig davon, ob sie in computergestützten Programmen sicht- und somit potenziell messbar sind. Eine solche Prämisse formulieren bereits ʼT HART / COLLIER / COHEN (1990: 25): „No matter how systematically a phenomenon may be found to occur through a visual inspection of F0 curves, if it cannot be heard, it cannot play a part in communication.“ Nach den durchgeführten Perzeptionsexperimenten sind auf der anderen Seite aber diejenigen Merkmale bekannt, die mindestens zur hörer*innenseitigen Identifikation und Klassifikation der prosodischen Einheiten essenziell sind. Der Anspruch ist demnach ein Reduzieren der Menge an akustischer Information auf die wesentlichen, perzeptiv relevanten Merkmale und erst dann das Modellieren dieser Merkmale. Letzteres erfolgt in dieser Arbeit über DCT-Koeffizienten (vgl. etwa HARRINGTON 2010 und Kapitel 4.2.4.1.2). Dieses Modellieren ermöglicht dann die Entwicklung reliabler Klassifikatoren unter der Anwendung von Machine-LearningTechniken, bei denen eine Klassifikation frequenter Muster binär anhand ihrer spezifischen phonetischen Merkmale vorgenommen wird (vgl. Kapitel 4.2.4.2). Um diesen Ansprüchen gerecht zu werden, wurde im Rahmen der vorliegenden Arbeit in Zusammenarbeit mit CARSTEN KEIL eine Toolbox entwickelt, die phonetische Messungen und Klassifikationen prosodischer Merkmale automatisiert und mit Hilfe von Techniken aus dem Machine-Learning ermöglicht.119 Die Toolbox trägt den Namen VJ.PEAT. In Gänze lautet die zusammengesetzte Abkürzung VokalJäger (VJ) 2.0: Prosody Enhanced Algorithmic Toolbox (PEAT). VJ.PEAT ist eine algorithmusbasierte Prozesskette zur automatisierten Messung und Klassifikation prosodischer Merkmale in Sprachsignalen mit Hilfe von Machine-LearningTechniken.120 Wie der Name bereits erahnen lässt, ist die Toolbox eine Erweiterung des von KEIL (2017: 35) entwickelten VokalJägers, der eine phonetisch-algorithmische Methode zur „hochgradig automatisierten phonetischen Auswertung digitaler Sprachdaten“ darstellt. KEIL (2017: 103, im Original teilweise hervorgehoben) beschreibt den VokalJäger technisch als „eine Sammlung von selbst entwickelten Algorithmen, die in den Programmier- bzw. Skriptsprachen Praat, Perl und R geschrieben wurden.“ Ziel des ursprünglichen VokalJägers war die quantitative Untersuchung von Vokalqualitäten, vornehmlich im regionalsprachlich geprägten Stadtraum Frankfurt am Main. Genauer diente die Methode der phonetischen Messung und Klassifikation der Formantwerte in den Verläufen von F1–F3. Eine Erweiterung des Algorithmus auf Werte des F0-Verlaufs lag entsprechend nahe. KEIL (2017: 16–19) differenziert die phonetischen Leistungen des ursprünglichen VokalJägers in Anlehnung an KOHLERS (1995a) Definition von Phonetik (vgl. Kapitel 2.1) in Messphonetik und Klassifikationsphonetik. Der erste Terminus entspricht in 119 Die gesamte IT-Seite der Zusammenarbeit, also das Programmieren und Implementieren des zusammen mit mir gestalteten und im Laufe dieser Zusammenarbeit immer wieder veränderten Algorithmus sowie die statistischen Berechnungen im Klassifikationsprozess, ist hierbei CARSTEN KEILS Arbeit, für die ich sehr dankbar bin. 120 Weitere Arbeiten zur automatisierten Messung, Modellierung und Darstellung von Teilbereichen der Prosodie bieten etwa DE LOOZE / RAUZY (2009) zu Fokus und Informationsstruktur, ROSENBERG (2010) im Tonsequenzmodell zu einer automatisierten ToBI-Annotation und YARRA / GHOSH (2018) zum Labeln von Intonationsverläufen im British English für L2-Lerner.
140
Eigene empirische Untersuchung
etwa der akustischen Phonetik, in der physikalische Größen in Analysen messbar gemacht werden. Der zweite Terminus entspricht in etwa der symbolphonetischen Betrachtung, in der Sprachlauten und -signalen bestimmte Eigenschaften oder Merkmale zugeschrieben werden. Die Leistungen der Toolbox VJ.PEAT, die gleichzeitig auch die teils sukzessive, teils simultan ablaufende Prozesskette konstituieren, sind im messphonetischen Bereich eine automatisierte Kalibrierung der Messparameter (Sweeping), ein artikulations- und perzeptionsorientiertes Glättungsverfahren (Smoothing) über die diskrete Cosinus Transformation, kurz DCT, und die Auswahl der prototypischen Form über einen Passfehler und einer individuell abgeleiteten Kostenheuristik (Best Fit). Darüber hinaus zielt VJ.PEAT im klassifikationsphonetischen Bereich in zu untersuchenden Sprachsignalen auf die merkmalsbasierte Klassifikation und Wiedererkennung prototypischer Muster ab. Mit einer solchen Binärklassifikation wird letztlich die Brücke zwischen Phonetik und Machine-Learning geschlagen. VJ.PEAT bedient sich, wie der ursprüngliche VokalJäger, in der Prozesskette zwei der Standardwerkzeuge der quantitativen und phonetischen Sprachanalyse, beziehungsweise wird die Toolbox in die Skriptumgebung der Programme implementiert: Zum einen Praat (BOERSMA / WEENINK 2019) für Operationen im messphonetischen Bereich und zum anderen die statistische Programmiersprache R (R Core Team 2019) im klassifikationsphonetischen Bereich. VJ.PEAT nutzt, so auch der VokalJäger in KEIL (2017: 103, im Original teilweise hervorgehoben) von Praat „allerdings nicht die übliche interaktive […] Benutzeroberfläche, sondern das eigenständige Programm praatcon.exe, welches vollautomatische Skriptprogrammierung erlaubt.“ Der messphonetische Algorithmus von VJ.PEAT operiert so auf dem Backend von Praat. In R werden zusätzlich bewährte mathematische Schätzermodelle als Klassifikationsverfahren gegenübergestellt und unter Hinzuziehung eines Koeffizienten zur Übereinstimmung nominaler Skalen angewendet. Sounddateien, die mit VJ.PEAT analysiert werden sollen, müssen als Monospuren im *.wav-Format vorliegen. Die in der Datei zu untersuchenden Intervalle müssen im Vorfeld in einer Praat-eigenen *.textGrid-Datei durch das Setzen von boundaries segmentiert und mit einem Label in Textform gefüllt werden (vgl. KEIL 2017: 103–104). Technisch nutzt VJ.PEAT wie der original VokalJäger eine Abtastrate (sampling rate) von 10 kHz. Als Berechnungsfenster (frames, s. u.): werden Gauß-Fenster angesetzt. Als Versatz oder Abdämpfungsrate werden, wie in Praat selbst, 2 ms genutzt (vgl. hierzu REETZ 2003: 42–74.) Ich werde nach einleitenden Gedanken zu den Beweggründen für die Entwicklung der Toolbox die soeben kurz skizzierten Vorgänge der Prozesskette in den folgenden Teilkapiteln ausführlicher erläutern. Da sich in KEIL (2017) eine vollständige technische und mathematische Beschreibung des Kernalgorithmus des VokalJägers findet, auf den die Erweiterung VJ.PEAT maßgeblich aufbaut, wird hier darauf verzichtet.
Anlage der Untersuchung: ein neuer methodischer Zugriff
141
4.2.4.1 Messphonetik121 Um über einen Algorithmus (etwa den in Praat implementierten) dargestellte Grundfrequenz- und Intensitätsverläufe adäquat untersuchen zu können, reicht es nicht aus, den Cursor an eine beliebige, durch den Zeitverlauf bestimmte Stelle im Signal zu setzen und die ermittelten Werte abzulesen. Diese Werte können nämlich je nach gewähltem Zeitausschnitt (Fenstergröße) und den durch die Nutzer*innen getroffenen Vorgaben zu etwa Ober- und Untergrenze (floor und ceiling) des jeweiligen Messwertumfangs variieren. Um valide Messungen zu erhalten, müssen Analysierende zumindest eine Kenntnis davon haben, wie der sicht- und messbare Verlauf einer bestimmten akustischen Größe durch den Algorithmus modelliert wird. Denn das ist das, was die meisten pitch-tracker leisten – eine computergenerierte Modellierung natürlicher, physikalischer Ereignisse. Computerimplementierte Algorithmen können nur Datensätze digitalisierter akustischer Ereignisse verarbeiten. Digitalisierte Modellierungen wellenförmiger Sprachsignale werden bei den meisten Algorithmen dabei dergestalt erstellt, dass in regelmäßigen Intervallen (frames) zu einem bestimmten Punkt im Zeitverlauf des Fensters ein Punkt gemessen und dessen Wert in Relation zu allen anderen Messpunkten im begrenzten Fenster ermittelt und so mit den anderen Punkten verbunden werden (vgl. BOERSMA 1993: 98–103, GUSSENHOVEN 2004: 3–5 und KEIL 2017: 36). Ein gängiges und für die Intonationsforschung häufig angewendetes mathematisches Verfahren, das auf diese Weise operiert und misst, wie sehr ein Signal mit sich selbst korreliert, wird als autocorrelation bezeichnet. Hierbei werden einzelne Messpunkte über multiple Ausschnittsberechnungen der Fenster (hier: Gauß-Fenster) determiniert und in diesem Fall deren F0-Messwerte durch die autocorrelation ermittelt. Es erfolgt eine zeitlich aneinandergereihte Folge von F0-Werten in diskreten Zeitabständen, die durch Interpolarisierung miteinander verbunden werden und entsprechend einen dynamischen F0-Verlauf abbilden können (vgl. auch LADEFOGED 1996: 148–151). Das Lesen und Interpretieren solcher computer- bzw. algorithmusgenerierter Darstellungen der akustischen Korrelate von Prosodie kann an einigen Punkten problematisch sein. Subjektivität der Messergebnisse ist eines der Probleme: Das manuelle Justieren von Messparametern zur Vermeidung von Messartefakten durch falsche Parametrisierung von etwa pitch range (die akustisch der vom Programm erlaubten und dargestellten F0-Bandbreite entspricht) im Praat-Algorithmus kann zur Folge haben, dass die Messergebnisse je nach Messendem und Sprechendem anders ausfallen (vgl. FÉRY 2017: 30–33). Darunter leidet die Vergleichbarkeit und Reliabilität der Messungen. So können etwa die Ziele des Untersuchenden eine Rolle bei der Parametereinstellung spielen: Werden prosodische Variationen im Frequenzbereich auf Silben- oder Morenebene untersucht, wird in der Regel eine geringere pitch range gewählt als bei der Untersuchung von globalen F0-Verläufen auf Phrasen- oder vollständiger Äußerungsebene. Werden in ein und demselben 121 Eine ältere Version von VJ.PEAT, die aber vor allem im messphonetischen Bereich dieselben Grundlagen wie die hier präsentierte verwendet, wurde bereits in PISTOR / KEIL (2018) beschrieben.
142
Eigene empirische Untersuchung
Datensatz nun verschiedene prosodische Phänomene untersucht, erzwingt dies ein manuelles Nachregulieren der Parametereinstellungen, und zwar in Abhängigkeit des gewählten Zeitausschnitts. Weitere Einflussfaktoren, die manuelles Nachjustieren nach sich ziehen können, sind die in Kapitel 2.2.3.2 beschriebenen, in der Regel nicht bewusst steuerbaren paralinguistischen prosodischen Merkmale von Sprecher*innen. Bei der Interpretation von Messergebnissen ist zudem zu beachten, dass mikroprosodische Abweichungen vielfältige Parameter beeinflussen können, es aber nicht zwingenderweise müssen. Intrinsische Vokallängen müssen bei der Analyse der zeitlichen Erstreckung auf lokaler Ebene einbezogen werden (FÉRY 2017: 31). Intrinsische F0-Werte vorderer oder hinterer, bzw. geschlossener oder geöffneter Vokale können bei der Analyse von Frequenzwerten auf lokaler Ebene ebenso eine Rolle spielen, wirken sich jedoch eher auf die Formantwerte von vornehmlich F1 und F2 und somit die Klangqualität aus und beeinflussen den Verlauf oder die Durchschnittswerte von F0 nur minimal und möglicherweise nicht hörer*innenrelevant. Denn wie oben und im Abschnitt zur Tonhöhe in Kapitel 2.1 bereits angedeutet wurde, trägt nicht jede mikroprosodische Abweichung zur Konstitution der perzeptiv relevanten prosodischen Struktur bei. Sogar das Gegenteil kann der Fall sein: Durch den Algorithmus in pitch-trackern dargestellte Unterbrechungen des F0-Verlaufs etwa teilentstimmter (desonorisierter) Konsonanten resultieren dann in entsprechendem Intervall konsequent mit Nullwerten für F0. Hier ist erneut hervorzuheben, dass die akustische und die auditive Seite der prosodischen Phonetik zwar eng miteinander verbunden sind, aber dennoch teilweise getrennter Betrachtungen und Schlussfolgerungen bedürfen. Es wird nun davon ausgegangen, dass das menschliche Gehör Sprachschall stets selektiv und kategoriell perzipiert, und zwar bedingt durch die Erwartungshaltung und vor allem durch das Phonemsystem der Hörer*innen (vgl. NEPPERT 1999: 288–292). Dieses Prinzip findet sich je nach Forschungstradition und Autor*in in der Sprachwissenschaft unter dem Terminus der abstraktiven Relevanz (BÜHLER 1999) oder der Signalredundanz (NEPPERT 1999) wieder. Bezüglich der Intonation perzipieren Hörer*innen mit Deutsch als Muttersprache präferiert ununterbrochene Konturen. Mögliche, etwa durch oben genannte Phänomene, auftretende Unterbrechungen werden dabei häufig ausgeblendet. So stellt etwa MIXDORFF (2012: 55) hierzu fest: „[…] the auditory system perceives intonation contours as smooth and uninterrupted, despite the non-vocalic pauses and micro-prosodic undulations that affect F0.“ Ein reines Kurvenlesen verfälscht also nicht nur die linguistische, sondern sogar die akustische Interpretation der zur Perzeption von Prosodie beitragenden Faktoren Grundfrequenz, Intensität und zeitlicher Erstreckung. Ein Algorithmus (oder ein*e Analytiker*in), der F0-Verläufe darstellt und anhand dessen Messungen am Sprachsignal vorgenommen werden können, muss mit oben beschriebenen Faktoren umgehen können. Die Parameter sollten adäquat aber nicht subjektiv eingestellt werden und die Darstellungen sollten ganzheitlich, also ununterbrochen bei bestimmten Bedingungen mikroprosodischer Variation und ohne Oktavensprünge (Messartefakte) abgebildet werden, um am ehesten eine Approximation dessen wi-
Anlage der Untersuchung: ein neuer methodischer Zugriff
143
derzuspiegeln, was das menschliche Gehör perzipiert. Dies erfordert in der digitalisierten Darstellung daher eine Glättung und ein Schließen eventuell auftretender Lücken über Interpolarisierung. Diese Schritte werden in VJ.PEAT im Sweeping und Smoothing angegangen. 4.2.4.1.1 Sweeping Im sogenannten Sweeping werden die für die zu untersuchende Sounddatei optimalen Parameterstellwerte für die Extraktion des Grundfrequenzverlaufs ermittelt.122 Diese werden im Praat-Frontend als pitch range regulär manuell über die Schaltfläche „pitch settings …“ eingestellt, und zwar als die in der durch die Autokorrelation berechnete Darstellung des erlaubten F0-Umfangs. Unter- und Obergrenze dieses Umfangs, fortan F0-floor und F0-ceiling, können so manuell festgelegt werden. Der Befehl in VJ.PEAT, der als Skript in Praat eingebunden werden kann, lautet nun: Führe eine wiederholte Messung desselben Intervalls unter jeweils verschiedenen Einstellungen der Parameter F0-floor und F0-ceiling durch. Die Anzahl der Wiederholungen ist dabei durch die Adäquatheit des Messergebnisses bestimmt. Was in dem Fall adäquat ist, wird in diesem Schritt wiederum primär durch die Glättung und Parametrisierung in der DCT festgelegt. Sekundär spielen auch die Werte des Passfehlers und der Kostenheuristik aus dem Best Fit eine Rolle (vgl. unten, Kapitel 4.2.4.1.2 und 4.2.4.1.3). Das Sweeping bietet so ein vollautomatisiertes Kalibrieren der Messparameter für Grundfrequenzmessungen in Praat, mit dem sich händisches und möglicherweise subjektives Nachjustieren vermeiden lässt. Zweck des Sweepings ist, dass der Algorithmus am Ende des Schrittes denjenigen Intonationsverlauf auswählt, den ein Mensch (durch die Perzeption im auditiven Eindruck) auch gewählt hätte. Abbildung 21 zeigt einen Ausschnitt des Sweeps eines steigenden regulativen Intonationsmusters, produziert von einer weiblichen Sprecherin des Ghomálá’ aus dem Universalienkorpus in PISTOR (2017).
122 Primär zur Wichtigkeit einer optimalen Einstellung dieser Settings vor einer Extraktion des Grundfrequenzverlaufs in Praat vgl. EVANINI / LAI / ZECHNER (2011).
144
Eigene empirische Untersuchung
Abb. 21: Sweepbeispiel eines steigenden regulativen Intonationsmusters (vgl. PISTOR / KEIL 2018: 568)
Auf der x-Achse der Abbildung ist die zeitliche Erstreckung (t) in Millisekunden abgebildet, auf der y-Achse die Grundfrequenzwerte (F0) in Hz. Die grau hinterlegten Zeilenköpfe zeigen die Stellwerte für das jeweils eingestellte Grundfrequenzminimum (F0-floor), die Spaltenköpfe diejenigen des -maximums (F0-ceiling). Zur Erinnerung sei hier erneut genannt, dass die durchschnittlichen Grundfrequenzwerte von Frauenstimmen sich regulär zwischen F0-Werten von etwa 180 und 400 Hz bewegen (vgl. Kapitel 2.1). Ein optimales Parametersetting mit einem erlaubten F0-Umfang von 50–700 Hz scheint daher für Praat-Nutzer*innen zunächst abwegig, evoziert im Programm aber, wie in der Abbildung im umrahmten Kasten rechts oben zu erkennen ist, diejenige Kurve, die keinerlei Oktavensprünge oder Unterbrechungen zeigt und daher auch von VJ.PEAT als das optimale Setting identifiziert wurde.123 4.2.4.1.2 Smoothing: die Diskrete Cosinus Transformation (DCT) Durch das hier angewendete Glättungsverfahren werden die Messungen zum einen dem oben beschriebenen Anspruch kontinuierlicher, glatter Intonationskonturen ohne Oktavensprünge und Lücken gerecht. Zum anderen wird über die Glättung mittels einer DCT dem Anspruch Rechnung getragen, nur die wesentlichen Merkmale des jeweiligen Signals zu parametrisieren und in die späteren Klassifikationen einzubeziehen. Dem hier angestrebten artikulations- und perzeptionsorientierten Glättungsverfahren gehen zwei Prämissen voraus. Die erste Prämisse kennzeichnet 123 Neben F0-floor und -ceiling gibt es in den pitch settings von Praat noch weitere Parameter, die für ein Sweeping in Frage kämen. Dort festlegbare Parameter sind etwa voicing threshold, silence threshold, und die Korrelationsmethoden autocorrelation vs. cross correlation. Da mit dem Sweeping von floor und ceiling bereits optimale Ergebnisse erzielt wurden, wurde hiervon abgesehen.
Anlage der Untersuchung: ein neuer methodischer Zugriff
145
den globalen Trend von Intonationsmustern auf Domänen des higher levels der prosodischen Hierarchie potenziell als (passives) physiologisches Resultat von abnehmendem subglottalem Druck (vgl. Kapitel 2.1). Die zweite Prämisse besagt, dass kurzzeitige Veränderungen des F0-Verlaufs von Intonationsmustern auf Domänen des lower levels aktiv durch Muskelaktivität des musculus cricothyroideus und des musculus vocalis kontrolliert werden (vgl. COLLIER 1975, ATKINSON 1978 und PÉTURSSON / NEPPERT 1990). Die zweite Prämisse ist hier von besonderem Interesse. In COLLIER (1975) konnte per Elektromyographie, einem Verfahren zur Messung elektrischer Muskelaktivität, gezeigt werden, dass die Aktivität oder Anspannung, beziehungsweise die Passivität oder Entspannung des musculus cricothyroideus maßgeblich für die Höhe der kurzzeitig produzierten Grundfrequenz der Stimme verantwortlich ist (vgl. auch LEEMANN 2012: 9). Gesunde physiologische Vorgänge wie Muskelkontraktionen oder die Respiration verlaufen stets glatt und kontinuierlich, kaum aber sprung- oder lückenhaft. Auf der Basis dieser physiologischen Grundannahme operiert nun das hier vorgestellte Glättungsverfahren der F0-Verläufe über die Diskrete124 Cosinus Transformation (kurz: DCT, vgl. hierzu unter anderem AHMED / NATARAJAN / RAO 1974 und HARRINGTON 2010, zur forschungszentrierten Anwendung vgl. TEUTENBERG / WATSON / RIDDLE 2008, HU / QIAN / SOONG 2012 und KEIL 2017). Ein über dieses Verfahren geglätteter F0-Verlauf kann laut KEIL (2017: 69) „nur Bogen- und Halbbogenformen annehmen […].“ Das Glättungsverfahren mittels einer DCT besteht also neben der Glättung selbst auch aus einer Annahme von Grundformen, die lücken- oder sprunghafte Formen ausschließt (vgl. KEIL 2017: 65–66). Durch solche Verfahren können Messartefakte durch etwa nicht relevante mikroprosodische Abweichungen reduziert bis eliminiert werden (vgl. GILLES 2005: 57–58). Ich werde im folgenden Abschnitt erläutern, wie ein solches Glättungsverfahren auf der technisch-mathematischen Ebene funktioniert. Bei der mathematischen Operation der DCT versucht man, eine komplizierte Funktion oder Datenreihe mit einer anderen, einfachen Funktion zusammenzuführen. In dem vorliegenden Fall ist es das konkrete Ziel, eine Folge von Grundfrequenzwerten F0[t] mit einer Folge von Cosinustermen zusammenzuführen. Eine alternative, phonetische Beschreibung der DCT fasst den Prozess als Dekomposition eines akustischen Signals in parametrisierte Cosinusterme, die, setzt man sie wieder zusammen, ein vollständiges, parametrisiertes Abbild des akustischen Originalsignals ergeben (vgl. HARRINGTON 2010: 304–305). Der Kurvenverlauf einer Cosinusfunktion ist 2π-periodisch und nimmt Werte von –1 bis 1 an. Der Verlauf beschreibt daher genau diejenigen Bogen- und Halbbogenformen, die zur Modellierung von Sprachsignalen herangezogen werden müssen.125 Die Folge der DCT wird bei der Parametrisierung aus Cosinustermen ansteigender Ordnung zusammengesetzt (vgl. TEUTENBERG / WATSON / RIDDLE 2008 und KEIL 2017: 61). Mathematisch wird 124 Diskret bedeutet hier messwertfolgend und im mathematischen Sinne eine Endlichkeit an Messwerten. 125 Der Verlauf einer Sinusfunktion ist auch periodisch, beginnt und endet aber bei dem Wert 0. Die Verläufe sind somit um gegeneinander phasenverschoben.
146
Eigene empirische Untersuchung
hierbei angestrebt, eine komplette Funktion nach einer Reihe von vollständigen Einzelfunktionen zu entwickeln. Im Grunde wird mit dieser Modellierung eine Dimensionsreduktion vorgenommen, bei der die Fülle an Informationen eines akustischen Signals auf eine begrenzte, in diesem Fall perzeptiv relevante Anzahl von Dimensionen reduziert wird. Diese wesentlichen Dimensionen werden nun über die DCT-Koeffizienten repräsentiert, mit denen eine Annäherung oder Approximation an die Originalkurve erreicht werden kann. Die DCT-Koeffizienten, in den Formeln 1–3 als G[k] dargestellt, sind sogenannte Gewichte oder Faktoren, die an den vollständigen Funktionen annotiert sind. Über die Parametrisierung der Originalkurve des akustischen Signals zu DCT-Koeffizienten wird, wie oben beschrieben, eine Reduzierung der Informationsfülle des Spektrums des akustischen Quellsignals zu einigen wenigen Werten erreicht. Die Anzahl der festgelegten Koeffizienten von 0 bis N –1 bestimmt dabei die Anzahl der resultierenden Werte und die Genauigkeit der DCT-Approximation zur Originalkurve (vgl. TEUTENBERG / WATSON / RIDDLE 2008 und HARRINGTON 2010: 305). Hierbei wird eine Separierung (und somit Klassifizierung) phonetischer Formen rein über die Differenzen der Werte der DCT-Koeffizienten angestrebt (s. Unterkapitel zur Klassifikation unten). Zeitgleich zur Parametrisierung der Originalkurve wird über die erlaubten und unerlaubten Formen der DCT auch eine Glättung des F0-Verlaufs erreicht. Die Koeffizienten G[k] entscheiden nun in der Transformation über Mittelwert, spezifische Formen des Verlaufs und Timing von Formspezifika wie Peaks und Valleys in Relation zur Silbe über ein Verschieben auf der x-Achse. In der ursprünglichen, auf die Formantbahnen abzielende Version des Algorithmus aus KEIL (2017) wurde eine DCT dritter Ordnung angewandt. Übertragen auf F0 heißt dritte Ordnung, dass hier zunächst drei Koeffizienten die Transformation der Originalkurve und damit die Modellierung der geglätteten Kurve des F0-Verlaufs beeinflussen. Der erste Koeffizient mit k = 1 einer DCT „ist eine Konstante und entspricht dem Mittelwert“ (KEIL 2017: 59). In diesem Fall gibt G[1] den F0-Mittelwert eines Signals in einem festgelegten, gemessenen Intervall in Hz an und lässt sich entsprechend als Korrelat des Tonhöhenregisters begreifen. Eine Approximation der Originalkurve durch eine DCT mit nur diesem ersten Koeffizienten entspräche also rein dem Mittelwert des gemessenen Intervalls (vgl. KEIL 2017: 60)126: =
1 =
(1)
126 Eine vollständige mathematische Herleitung des Consinusterms zu G[1] findet sich in KEIL (2017: 58–60). Der hier mit k = 1 bezeichnete erste Koeffizient wird an anderer Stelle, etwa bei HARRINGTON (2010: 304–305), mit k = 0 bezeichnet, was sich aus der oben angegebenen mathematischen Herleitung ergibt. Wiederum an andere Stelle wird dieser erste Koeffizient als obsolet bei der Transformation von F0-Verläufen betrachtet und entsprechend ausgelassen (vgl. TEUTENBERG / WATSON / RIDDLE 2008). Da der durch G[1] repräsentierte Mittelwert des Signals (letztlich das Tonhöhenregister) eine relevante Rolle für die Signale spielt, gilt dieser hier auch als relevant für die DCT.
Anlage der Untersuchung: ein neuer methodischer Zugriff
147
Mit dem Hinzuziehen eines zweiten Koeffizienten G[2] wird diese Approximation im mathematischen Sinne nach KEIL (2017: 60) „mit einem halben Kosinuszyklus überlagert“ (vgl. auch HARRINGTON 2010: 305). Der zweite Koeffizient mit k = 2 kann dadurch „eine Bewegung von einem Extrem (hier: Maximum) zum anderen (hier: Minimum) darstellen“ (KEIL 2017: 59). G[2] lässt sich entsprechend als Anstiegsparameter interpretieren, der mit negativem Vorzeichen des jeweiligen Wertes ein Ansteigen oder mit einem positiven Wert Abfallen des F0-Verlaufs modelliert. Der dritte Koeffizient mit k = 3 legt die Krümmung des Verlaufs fest und „kann zusätzlich noch die Rückkehr zum Ursprungsextrem abbilden“ (KEIL 2017: 59). Das Hinzuziehen eines dritten Koeffizienten G[3] „addiert einen vollen Kosinuszyklus“ (KEIL 2017: 60). Durch G[3] lässt sich so zum einen etwa festlegen, ob ein steigendes oder fallendes Intonationsmuster eine konvexe oder konkave Form beschreibt.127 Zum anderen lassen sich über G[3] Gipfel- und Talkonturen (Peaks und Valleys) modellieren: Bei negativem Vorzeichen modelliert die DCT eine Peak-Kontur, bei einem positiven Wert entsprechend eine Valley-Kontur. Je höher der Wert von G[3] ist, desto stärker zeigt sich in den Konturen dann das Absinken und Ansteigen bei einem Valley und umgekehrt bei einem Peak. Die Formel einer DCT dritter Ordnung lässt sich nach KEIL (2017: 60) wie folgt darstellen: =
+2
2
−
1 2
+2
3
2
−
1 2
(2)
Abbildung 22 zeigt beispielhaft in R, wie die Veränderung der einzelnen DCT-Koeffizienten in % einen fiktiven, modellierten F0-Verlauf beeinflussen. Vier verschiedene Tonhöhenregister, repräsentiert durch G[1], werden rechts neben der Abbildung in der Legende durch eine farbliche Kodierung aufgelöst. Der Zahlenwert gibt die durchschnittliche Grundfrequenz in Hz an. Die Zeilenköpfe zeigen die jeweilige Ausprägung von G[2], die Spaltenköpfe diejenigen von G[3].
127 Zu den Spezifika konvex oder konkav fallender bzw. steigender Intonationsmuster vgl. KAISER / BAUMANN (2013) und PISTOR (2017).
148
Eigene empirische Untersuchung
Abb. 22: Demonstration der Auswirkungen der DCT-Koeffizienten 1–3 auf einen modellierten F0Verlauf
In dieser Arbeit wurde eine DCT vierter Ordnung (DCT 4) angewendet. Das bedeutet, dass zu den 3 vorgestellten Koeffizienten ein weiterer mit k = 4 zur feineren Transformation der Originalkurven hinzugezogen wurde. Das Hinzunehmen von G[4] überlagert mathematisch die Transformation erneut mit einem halben Kosinuszyklus. Dies steuert zum einen das Auftreten eines weiteren Peaks oder Valleys (zusätzlich zu möglicherweise bereits vorhandenen) und ist zum anderen als Timing-Koeffizient aufzufassen. G[4] verschiebt die durch G[3] geformten Peaks und Valleys auf der x-Achse der gesamten zeitlichen Erstreckung des Signals, und zwar von der Mitte der zeitlichen Erstreckung aus. Der im Deutschen perzeptiven Relevanz des F0-Gipfels oder -Tals relativ zur Silbe (vgl. KOHLER 1991b) wird dabei Rechnung getragen. Des Weiteren trägt G[4] in Überblendung mit G[3] zu einer erhöhten Trennschärfe einfacher gleichbleibender, steigender oder fallender Muster zu anderen Prototypen von etwa komplexer, fallend-steigend-fallender Form (vgl. etwa die emotionale prosodische Einheit mit der Bezeichnung positive Bewertung in SCHMIDT 2001, KEHREIN 2002 und PISTOR 2017) bei. Formel 3 zeigt die mathematische Darstellung einer DCT vierter Ordnung. = +2
3
2
+2 −
1 2
2
− +2
4
1 2 3
−
1 2
(3)
Anlage der Untersuchung: ein neuer methodischer Zugriff
149
Die Güte der Approximation der DCT zur Originalkurve des Quellsignals wird in der Transformation in R durch einen Passfehler und eine daraus abgeleitete Kostenheuristik ermittelt. Dies geschieht im letzten sukzessiven Schritt der Messphonetik, dem Best Fit. 4.2.4.1.3 Best Fit Im Best Fit, der als Schritt erst auf der Grundlage von Sweeping und Smoothing ausgeführt werden kann, werden die besten Ergebnisse der Approximationen nach den ersten beiden Schritten ausgewählt. In VJ.PEAT geht es also konkret um das Auswählen gefälliger F0-Verläufe nach bestimmten Kriterien der Güte. Ein erstes Gütekriterium liegt bereits in den Grundlagen der DCT. Hier wurde bereits angenommen, dass sämtliche darzustellenden F0-Verläufe bogen- oder halbbogenförmig und nach bestimmten, einfachen Mustern modelliert werden können. Mit den hier gewählten Koeffizienten G[1]–[3] können diese einfachen Muster (geradlinig, steigend, fallend und mehrere oder alle in Kombination) und mit G[4] komplexere Muster hinreichend modelliert werden. Ziel ist es also, diejenigen Ausprägungen der Koeffizienten zu finden, die diejenige Approximation am besten widerspiegeln, die am ehesten den Messwerten des natürlichen Signals entsprechen und dem, was Hörer*innen am ehesten perzipieren. Zusätzlich kompensiert der Schritt des Best Fit ungewünschte Nebeneffekte der ersten beiden Schritte der Prozesskette. Gerade die DCT liefert selbst dann in der Berechnung gefällige Ergebnisse, wenn der durch die Transformation dargestellte F0-Verlauf nicht dem akustischen Signal entspricht (vgl. unten, Abbildung 23, rechter Kasten), und in einigen seltenen Fällen selbst dann, wenn die Darstellung gar keinem natürlich vorkommenden Signal entspräche. Ein solches Problem zeigt sich auch in Glättungsverfahren anderer Algorithmen, etwa in dem von Praat. Hier bedarf es dann wiederum manueller Korrektur, die es, wie oben dargestellt, ja zu vermeiden gilt. Neben den Grundannahmen der DCT müssen dementsprechend weitere Kriterien für das Auswählen gefälliger F0-Verläufe herangezogen werden. In dieser Arbeit sind das Werte einer Kostenfunktion und des darin enthaltenen sogenannten Passfehlers. Für die gesamte Kostenfunktion müssen drei Anfragen formuliert werden: 1) parametrisiere die Kurve über DCT Parameter, dann approximiere zu DCT4, 2) schließe innere Lücken via Interpolation und 3) wähle die Kurve mit den geringsten Werten des Passfehlers und der Kostenheuristik. Die Schritte 1) und 2) wurden soeben in 4.2.4.1.1 und 4.2.4.1.2 beschrieben. Die Berechnung des relativen Fehlers, die hier, wie im originalen VokalJäger als Passfehler E (Error) bezeichnet wird, misst die Differenz zwischen der Originalkurve des F0-Verlaufs im Ursprungssignal und der Erwartung der DCTGlättung, oder, nach KEIL (2017: 60), „die relative Abweichung einer einzelnen approximierten Bahn […] von der originalen Bahn […].“ Der Passfehler E wird dargestellt und logarithmiert in dB, wobei dB hier nur eine Pseudobezeichnung logarithmierter Werte darstellt und nicht auf den Schalldruck referiert. Die Formel eines einzelnen Passfehlers lässt sich nach KEIL (2017: 60) wie folgt darstellen:
150
Eigene empirische Untersuchung = 10
!"
#
%$#
&*+ |
–
)
|,
(4)
Aus diesem Passfehler E wird eine Kostenheuristik C abgeleitet. Diese Heuristik bestraft Messergebnisse von F0-Verläufen, die maßgeblich kleiner als das in Praat annotierte Intervall sind (über die Kernverlustrate Kernel Loss Rate KLR),128 bestraft F0-Verläufe mit signifikanten Lücken (über die Lückenrate Gaprate GR) und signifikanten Oktavensprüngen (über die Sprunggröße Jumpsize relativ zum Intervall JS), und verwirft Segmente komplett, die in ihrer messbaren zeitlichen Erstreckung entweder zu kurz (über die zeitliche Erstreckung Time T129 < 3 ms) oder zu stark fragmentiert sind (erneut über Gaprate GR). Abbildung 23 zeigt einen Auszug eines Sweeps mit der Wahl des Best Fit im mittleren, umrahmten Kasten. Die Spalten- und Zeilenköpfe zeigen erneut die Stellwerte von F0-floor und F0-ceiling im Sweep in Hz. Die äußeren Zahlenwerte der y-Achse zeigen die dargestellte F0Bandbreite. Die oberste Zeile innerhalb der Kästen zeigt die Werte der einzelnen Parameter der Kostenheuristik. Die Zeile darunter fasst die Werte des Passfehlers E und der Kostenheuristik C zusammen. Die unterste Zeile zeigt die Ausprägungen der einzelnen DCT-Koeffizienten in Prozent.
Abb. 23: Auszug eines Sweeps mit der Wahl des Best Fit (Mitte)
Um aus dem Algorithmus die angemessensten F0-Verläufe als Best Fit zu erhalten, muss festgelegt werden, was angemessen bedeutet. Eine derartige Qualitätssicherung wird zum einen durch die Kostenfunktion, bestehend aus Passfehler und Kostenheuristik, erreicht und kann zum anderen über Training des Algorithmus erreicht werden. Durch ein Training mit einer Vielzahl an Sprachdaten verschiedener Sprecher*innen und in verschiedenen kommunikativen Situationen können häufig auftretende Messwerte (repräsentiert durch die Ausprägung der DCT-Koeffizienten und der zeitlichen Erstreckung) bestimmter Intonationsmuster gesammelt und als akzeptabel gelabelt werden, während gleichzeitig statistische Ausreißer verworfen 128 Die Kern- oder Kernellänge ist die Länge Berechnungsbereichs der DCT. In diesem Fall ist die Kernlänge relativ einfach bestimmt durch den ersten und letzten messbaren Punkt des F0-Verlaufs (Onset und Offset), dessen Intervall im Vorfeld wiederum durch die Sweeping-Parameter bestimmt wird. 129 In Formel (4) ist T die Anzahl von Samples in einer Probe P.
Anlage der Untersuchung: ein neuer methodischer Zugriff
151
und Messartefakte vermieden werden können. Der Best Fit bildet demnach den Grat zwischen dem messphonetischen und maschinell lernenden klassifikationsphonetischen Teil von VJ.PEAT.
4.2.4.2 Klassifikationsphonetik Im klassifikationsphonetischen Teil von VJ.PEAT werden die statistisch robusten Ergebnisse der Messphonetik dazu genutzt, mit Hilfe von Machine-Learning Verfahren F0-Verläufe eines Sprachsignals als spezifische Intonationsmuster aufgrund ihrer phonetischen Merkmale zu klassifizieren. Die Merkmalsausprägungen von Intonationsmustern einer oder mehrerer bestimmter bekannter sprachlicher Samples (Korpora P1–P3, s. u.) dienen fortan als Referenzwerte für Klassifikationen in unbekannten Samples. Repräsentiert werden die Merkmale durch die Ausprägungen der DCT-Koeffizienten plus dem Wert der zeitlichen Erstreckung. In ähnlicher Manier operiert auch der original VokalJäger (KEIL 2017: 171), dessen Klassifikationsphonetik in speziell auf die Prosodie erweiterter Form übernommen wurde: „Die Ausprägung eines Merkmals in einer unbekannten Lautprobe wird aus der statistischen Ähnlichkeit mit bekannten Lautproben […], die eine bekannte Merkmalsausprägung aufweisen, ermittelt. Fortan werden also die Messwerte unbekannter Intonationsmuster mit den bekannten Referenzwerten abgeglichen, um die unbekannten Muster entsprechend der Referenzen zu separieren, gruppieren und damit zu klassifizieren. Ein solches Vorgehen erfordert Training, um dem Algorithmus ein maschinelles Lernen zu ermöglichen und so statistisch robuste Ergebnisse zu erhalten. Ich werde im ersten Abschnitt dieses Teilkapitels Machine-Learning als Terminus definieren und daraufhin die hier angewandte Methode der Binärklassifikation erläutern. Im zweiten Teil gehe ich auf das Training, die dort verwendeten Korpora, Herausforderungen und die ersten klassifikationsphonetischen Ergebnisse der vorgestellten Methode ein. 4.2.4.2.1 Machine-Learning und Binärklassifikation Übergeordnetes Ziel des maschinellen Lernens ist es, mit Hilfe von Mathematik und Statistik Struktur in eine Datenmenge zu bringen. Es handelt sich also im Prinzip um angewandte Statistik. Explizit von Machine-Learning spricht man nach GOODFELLOW / BENGIO / COURVILLE (2018: 108) dann, wenn ein computerimplementierter Algorithmus „aus Daten lernen kann.“ Ein Lerneffekt lässt sich dann feststellen, wenn die Leistung eines Algorithmus bei einer bestimmten Aufgabe mit einer steigenden Menge an Trainingsdaten zunimmt. MITCHELL (1997, hier zitiert nach GOODFELLOW / BENGIO / COURVILLE 2018: 108) beschreibt die Komponenten und Vorgänge eines maschinellen Lernprozesses wie folgt: „Für ein Computerprogramm lässt sich sagen, es lerne aus Erfahrung E hinsichtlich einer Klasse von Aufgaben T und einer Leistungsbewertung P, wenn seine Leistungsfähigkeit bezüglich der mit dem Maß P bewerteten Aufgaben aus T mit der Erfahrung E steigt.“ Das
152
Eigene empirische Untersuchung
Lernen selbst ist nicht Aufgabe des Algorithmus, sondern Mittel zum Zweck der Lösung einer bestimmten Aufgabe, in dem hier vorliegenden Fall einer diskreten Klassifikation sprachlicher Signale, oder konkreter: regulativer Intonationsmuster anhand ihrer spezifischen phonetischen Merkmale (vgl. GOODFELLOW / BENGIO / COURVILLE 2018: 108–109). Im Folgenden werde ich nach der obigen Definition die Aufgabe T und die Leistungsbewertung P in Vj.PEAT erläutern. Der Erfahrungswert E ergibt sich aus den Trainingssequenzen, die ich in 4.2.4.2.2 beschreiben werde. Die Aufgabe T von Vj.PEAT ist die Binärklassifikation von Intonationsmustern in freien Gesprächen. Hierzu werden Kategorien vorgegeben, denen die Intonationsmuster jeweils zugewiesen werden sollen. Die Kategorien sind die basalen und universellen Funktionsklassen REAKT, TURN, QUIT und POS aus PISTOR (2017), die oben in 4.2.1 bereits beschrieben wurden. Den funktional definierten Einheiten liegen nach einer Vielzahl von vorangegangenen Messungen (s. u., Kapitel 4.2.4.2.2) spezifische phonetische Merkmalswerte als sogenannte Prädiktorvariablen zugrunde (vgl. KEIL 2017: 192–194). So werden akustische Werte (oder Attribute) genannt, die in mathematischen Schätzermodellen zum Vorhersagen (prediction) des Vorliegens eines Merkmals über Wahrscheinlichkeiten genutzt werden. Diese Werte werden nach der Modellierung und Glättung durch die Ausprägungen der DCT-Koeffizienten repräsentiert und definieren dann die vorgegebenen funktionalen Kategorien aus einer formalen phonetischen Perspektive. Dies erlaubt es, unbekannte Muster aufgrund deren phonetischer Merkmalsausprägungen prädiktiv einer bestimmten Kategorie eindeutig zuzuordnen (True Positives) und einer anderen eindeutig nicht zuzuordnen (True Negatives). Die Merkmalsausprägungen werden hier (ähnlich der klassischen segmentalen Phonologie im Strukturalismus) in binärer Form dargestellt und sind diskret, also entweder vorhanden oder nicht vorhanden, weshalb hier von Binärklassifikation gesprochen wird (vgl. KEIL 2017: 176). Die phonetischen Merkmale, die es zu untersuchen gilt, sind für den F0-Verlauf [± steigend], [± fallend], [± Peak], [± Valley] und für die zeitliche Erstreckung [± lang] und [± kurz]. Jeder Kategorie wird ein eigener Binärklassifikator zugewiesen. Jeder Binärklassifikator wird dann darauf trainiert, genau einen F0-Verlaufstyp zu erkennen und alle anderen zu verwerfen (vgl. KEIL 2017: 206–207). Dies geschieht, indem er nur die wesentlichen Eigenschaften betrachtet, nämlich die DCTKoeffizienten und die zeitliche Erstreckung. Formal schätzen die Binärklassifikatoren nach KEIL (2017: 194) „die Wahrscheinlichkeitswerte der phonetischen Binärmerkmale.“ Hierzu wird in Vj.PEAT ähnlich wie im original VokalJäger je nach Klassifikator die Pseudowahrscheinlichkeit -. in einem mathematischen Schätzermodell errechnet. Es wird dabei in der von KEIL (2017: 170) entwickelten Vorgehensweise im Vorfeld davon ausgegangen, dass, „abhängig von einem messphonetischen Lautsignal, die diskreten klassifikationsphonetischen Elementarausprägun-
Anlage der Untersuchung: ein neuer methodischer Zugriff
153
gen eines Merkmals mit bestimmten Wahrscheinlichkeiten vorliegen, bzw. unterschiedlich wahrscheinlich sind.“ Mathematisch definiert ist die Pseudowahrscheinlichkeit -. in KEIL (2017: 454) dabei wie folgt:130 -. /01 =
2 ;. /01 ∑. 2 ;. /01
(5)
Diese Formel der Wahrscheinlichkeitsfunktion -. /01 nimmt in der Vorgehensweise des VokalJägers nach KEIL (2017: 176, Kursivierung im Original) „den Wert 1 an, falls, gegeben ein Satz messphonetischer Größen x, das Binärmerkmal i […] sicher vorliegt. Entsprechend ist das Ergebnis 0, falls das Binärmerkmal sicher nicht vorliegt.“ In der Übertragung bzw. der Erweiterung gilt Entsprechendes auch für Vj.PEAT. Die Aufgabe T lässt sich nun als statistisches Testen des Vorliegens bestimmter binärer Merkmale konkretisieren. Über dieses Vorliegen bzw. nicht-Vorliegen der binären Merkmale lassen sich die zu untersuchenden Intonationsmuster separieren, gruppieren und somit klassifizieren. Zusätzlich zu der Wahrscheinlichkeitsfunktion wurde in Vj.PEAT ein sogenanntes Ensemble (vgl. KEIL 2017: 171–176) in der Klassifikation verwendet. Das Ensemble lässt alle einzelnen, spezifisch charakterisierten Binärklassifikatoren pro gemessenem Item gegeneinander „antreten“. Ein Beispiel soll diesen Vorgang verdeutlichen: Sowohl der Binärklassifikator der Funktionsklasse QUIT als auch der der Funktionsklasse TURN kategorisieren einen F0-Verlauf jeweils als True Positive in die entsprechende Kategorie. Der QUIT-Klassifikator zeigt dabei aber eine höhere Wahrscheinlichkeit im Schätzermodell, etwa von 99 %, als der TURN-Klassifikator, mit einer errechneten Wahrscheinlichkeit etwa von 51 % (die anderen Klassifikatoren möglicherweise mit minimalen Werten oder 0 %). Lässt man nun beide Klassifikatoren in einem Ensemble gegeneinander antreten, fällt die Wahl des Ensembles auf den QUIT-Klassifikator, da 99 % > 51 %. Das Ensemble hat dann das Versagen des einen Klassifikators (in diesem Falle TURN) kompensiert.131 Für die Klassifikationen in Vj.PEAT werden in R verschiedene mathematische Schätzermodelle angewendet. Verwendet wurden jeweils die R-Pakete für eine MixtureDiscriminant-Analysis (MDA, vgl. LEISCH / HORNIK / RIPLEY 2013), eine SupportVector-Machine (SVM, vgl. KARATZOGLOU / SMOLA / HORNIK 2015) und einen Random-Forest-Klassifikator (RF, vgl. LIAW / WIENER 2014). Da diese auch im VokalJäger verwendet und entsprechend in KEIL (2017: 203–205) beschrieben werden, verzichte ich hier auf eine Erläuterung der Modelle. Die in obiger Definition besagte Leistungsbewertung P wird in Vj.PEAT durch Kappawerte nach COHEN (1960) ausgedrückt. Kappa nach COHEN (1960) ist für diese Zwecke ein Maß für Genauigkeit. Hintergrund ist hier, dass überprüft werden 130 Eine ausführliche mathematische Herleitung der Wahrscheinlichkeitsfunktion -. /01 aus Formel (5) findet sich in KEIL (2017: 453–454). Ich verzichte daher hier darauf. 131 Das Beispiel ist nicht etwa ein zufällig gewähltes, sondern illustriert ein bereits in den Trainingssequenzen häufig auftretendes Problem, dem mit dem Ensemble adäquat begegnet werden kann. Wie eine ambige Zuordnung vor allem der Einheiten aus QUIT und TURN dieser Art zustande kommen kann, erkläre ich im Zuge der Trainingssequenzen in Kapitel 4.2.4.2.2.
154
Eigene empirische Untersuchung
muss, ob der Algorithmus richtige (aus sprachwissenschaftlicher Perspektive plausible) Daten liefert oder ob diese nur zufällig richtig sind. Kappawerte k errechnen sich durch die nominale Erkennungsrate g minus die zufällige Richtigkeit e (vgl. KEIL 2017: 451–452): 5=
!– 6 1– 6
(6)
e kann Werte von 0–1 haben, abhängig von den Werten, die potenziell vorliegen können. Ein Beispiel hilft, dies zu verdeutlichen: Bei einem regulären Spielwürfel mit sechs Seiten kämen pro Wurf Werte von 1–6 zustande. Die abzuziehende Wahrscheinlichkeit des Zufalls e bei dem Wurf eines Spielwürfels die Zahl (den Wert) 1 zu würfeln wäre also 1/6 = 0,1666666. Kappa kann Werte von –1 bis 1 annehmen, wobei 1 der Optimalfall ist (vgl. KEIL 2017: 452). Kappawerte unter 0,4 sollten mit Skepsis betrachtet werden. Werte von 0,4 bis 0,6 sind annehmbar und ab 0,75 gut bis ausgezeichnet.132 Für den Erfahrungswert E werden bei Lernalgorithmen zwei grundsätzliche Zugänge unterschieden: unüberwachtes Lernen, was etwa bei Clusteranalysen zum Tragen kommt, und überwachtes Lernen, wie es im Falle einer Klassifikation von Daten angewendet wird (vgl. GOODFELLOW / BENGIO / COURVILLE 2018: 115). Vj.PEAT nutzt letzteres Verfahren. Bei dem hier angewendeten überwachten Lernen müssen Trainingsdaten vorhanden sein, die dazu genutzt werden, um den Algorithmus zu eichen und gegebenenfalls zu rekalibrieren bzw. die Parameter zu optimieren Die Trainingsdaten benötigen dafür Rohmaterial und Labels oder einen sogenannten Zielwert, der im vorliegenden Fall eine Funktionsklasse und die ihr entsprechenden Binärmerkmalsausprägungen ist. Das heißt, die Daten müssen im Vorfeld von Supervisors (in diesem Fall Sprachwissenschaftler*innen) schon mal klassifiziert worden sein, weswegen hier terminologisch von überwachtem Lernen gesprochen wird (vgl. GOODFELLOW / BENGIO / COURVILLE 2018: 115–117). 4.2.4.2.2 Trainingssequenzen Die vorklassifizierten Daten für das überwachte Lernen innerhalb der Trainingsund Optimierungssequenzen stammen aus drei Korpora, die sowohl evozierte laborsprachliche als auch spontansprachliche Daten enthalten. Gekennzeichnet werden die in Vj.PEAT analysierten Korpora fortan mit dem Kürzel P (probe). Für die Trainingssequenzen wurden P1, P2 und P3 verwendet. Die Daten aus P1 sind die laborsprachlichen Aufnahmen der fünf verschiedenen Sprachfamilien aus der Universalienstudie von PISTOR (2017), und zwar konkret diejenigen der Teilstudie A,
132 Diese Staffelung ist mehr Heuristik als Mathematik. Die einzige Sicherheit besteht darin, dass höhere Kappawerte besser sind als niedrige. Die absoluten Werte ergeben nur im direkten Vergleich Sinn.
Anlage der Untersuchung: ein neuer methodischer Zugriff
155
in der explizit einzelne regulative Intonationsmuster auf der Basis von Diskurspartikeln evoziert und aufgenommen wurden. P2 enthält die Daten aus derselben Studie, hier konkret diejenigen Aufnahmen der deutschen Muttersprachler*innen aus Teilstudie B. Beide Korpora wurden oben in Kapitel 2.3.1 bereits beschrieben. P3 enthält die kontextualisierten133 spontansprachlichen Daten des sogenannten „Lego-Korpus“ (vgl. KEHREIN 2002: 155–173): Unter einem Vorwand (die „optimale Gestaltung verbalsprachlicher Anleitungen“, KEHREIN 2002: 156) war die Aufgabenstellung für die Proband*innen das kooperative Lösen einer Aufgabe durch verbalsprachliche Interaktion. Konkretes Ziel jedes der Zweierteams war der gemeinsame Aufbau eines Lego-Technik-Bausatzes innerhalb eines zeitlich begrenzten Rahmens. Für die Aufnahmen erhielt eine*r der Proband*innen die Anleitung und das Gegenüber die Bauteile. Auf diese Weise sind fünf Gespräche von je 20–30 Minuten Dauer entstanden. Die Gesprächspartner*innen sind dabei visuell voneinander getrennt. Die sprachliche Interaktion und die Beteiligung beider Sprecher*innen ist demnach Pflicht. Zusätzlich gibt es durch die einzelnen, in der Bauanleitung dargelegten Arbeitsschritte nachvollziehbare Handlungssequenzen, für die jeweils ein konkretes Ziel und dadurch ein diskretes Ende determiniert ist (etwa Stein X auf Fläche Y zu platzieren). Die Daten eignen sich somit perfekt für die in den Kapiteln 2.2.4.3 und vor allem 4.2.2 dargelegten funktionalen Klassifikationen der zu untersuchenden regulativen Intonationsmuster in freien Gesprächen, und zwar nach den vorgestellten konversationsanalytischen und interaktionstheoretischen Kriterien. Ziel des Trainings für jeden Lernalgorithmus ist die sogenannte Generalisierung: das Zurechtkommen mit bisher unbekannten Daten außerhalb der Trainingsdatensätze (vgl. GOODFELLOW / BENGIO / COURVILLE 2018: 121). Das konkrete Ziel für Vj.PEAT ist hier die Wiedererkennung universeller Formen aus den laborsprachlichen Korpora P1 und P2 in den spontansprachlichen Daten von P3. Hierfür gilt zuerst, dass der Algorithmus auf die universellen Intonationsmuster aus P1 und P2 trainiert wird, damit diese dann in P3 nachgewiesen werden können. Nach dem Training ist es dann Ziel des Algorithmus in der Anwendung, wie es oben in 4.1 auch als Gesamtziel der vorliegenden Arbeit formuliert wurde, diese Intonationsmuster dann auch in den regionalsprachlichen Daten des REDE-Projekts nachzuweisen. Ein weiteres Ziel der Lernphasen ist nach dem Training auf den Zielwert somit das Umtrainieren des Algorithmus auf Spontansprache, also den Übergang eines auf P1 und P2 trainierten Labor-Klassifikators auf einen auf P3 trainierten Spontan-Klassifikator. Die das Training begleitenden und die Lern- und Optimierungssequenzen motivierenden Forschungsfragen sind dabei die folgenden: 1. Lassen sich die evozierten universellen Formen (REAKT, TURN, QUIT, POS) aus den laborsprachlichen Korpora P1/P2 auch in den spontansprachlichen Daten von P3 wiederfinden? 2.
133 Kontextualisiert bedeutet in dem Fall, dass die an dem Experiment Teilnehmenden mit einer bestimmten Aufgabe betraut waren. Das Korpus unterscheidet sich so von gänzlich freien Gesprächen, in denen keinerlei thematische Vorgaben gemacht werden.
156
Eigene empirische Untersuchung
Welche Koeffizienten bzw. welche Kombination von Koeffizienten ist für eine adäquate Modellierung und Klassifikation in freien Gesprächen die optimale? 3. Gibt es formale Unterschiede zwischen evozierten und spontansprachlichen Intonationsmustern? In der Kalibrierung und beim Umtrainieren des Algorithmus sind vor allem in Bezug auf die hier zuletzt vorgestellte Forschungsfrage diverse Herausforderungen zu meistern. Die zentrale Herausforderung ist durch die heterogenen Daten vor allem der Umgang mit formal-phonetischen Differenzen in der Messphonetik. Diese entstehen durch sprecher*innenbezogene, paralinguistische Phänomene (Alter, Geschlecht, Gesundheit und Sprechpathologie) sowie durch situationsbedingt Besonderheiten. Letztere sind etwa der Gesprächssituation, dem Gesprächsort oder der Anzahl der Teilnehmer*innen geschuldet. Diese Faktoren können sich allesamt auf die Soundqualität auswirken und stellen in automatisierten Messverfahren große akustische Herausforderungen dar. Der dritten Forschungsfrage innerhalb der Trainings- und Optimierungssequenzen ist demnach hinzuzufügen: Gibt es interindividuelle Unterschiede und kann der Algorithmus in der Klassifikation damit umgehen? Konkret umgesetzt wurden die Trainingssequenzen, indem in P1 und P2 zunächst die Intonationsmuster als Zielwerte bestimmt wurden, indem sie nach den messphonetischen Verfahren hinsichtlich der Ausprägung der DCT-Koeffizienten überprüft und auf dieser Basis in DCT4 modelliert wurden. Abbildung 24 zeigt im oberen Teil die Modellierung des geglätteten und zeitnormierten F0-Verlaufs nach Binärklassifikator mit der durchschnittlichen absoluten zeitlichen Erstreckung als Zahl im jeweiligen Kästchen. Die y-Achse zeigt erneut die Grundfrequenzwerte in Hz. Im unteren Teil der Abbildung sind die Mittelwerte der Ausprägungen der einzelnen DCT-Koeffizienten nach Binärklassifikator in Zeilen dargestellt, wobei das Symbol jeweils den Durchschnittswert und der Strich die gemessene Standardabweichung darstellt. Es lässt sich hieran erkennen, dass G[2], G[3] und T hier die ausschlaggebenden Koeffizienten (Prädiktorvariablen) sind, da sich etwa durch T die Intonationsmuster mit einer höheren zeitlichen Erstreckung von denen mit einer niedrigeren separieren lassen. Der Anstiegskoeffizient G[2] separiert sehr klar Formen der Klasse REAKT als einzig steigende von den übrigen Formen, während G[3] als Peak/Valley-Koeffizient Formen der Klasse POS als einzige Formen mit einer Gipfelkontur von den anderen separieren kann. T scheint weiterhin Formen der Klasse TURN und QUIT auseinanderhalten zu können, deren Ausprägungen der anderen Koeffizienten nicht sehr distinkt zu sein scheinen. Das Tonhöhenregister in G[1], hier in der Abbildung unten durch „F0“ repräsentiert und G[4] scheinen für die Separierung (und damit Klassifizierung) die am wenigsten wertvollen Informationen zu liefern.134
134 Welche Kombination von Koeffizienten die adäquatesten Ergebnisse liefert, ist ein im Training zu überprüfender Punkt. Es wird sich zeigen, dass diese Frage teilweise korpusabhängig beantwortet werden muss.
Anlage der Untersuchung: ein neuer methodischer Zugriff
157
Abb. 24: Modellierung der Formen der universellen Intonationsmuster (oben) und Mittelwerte der Ausprägung der DCT-Koeffizienten (unten) in P1 und P2 als Zielwert
Diese Modellierung aus den Trainings- und Testmengen von P1 und P2 mit den Koeffizienten G[1]–G[4] und T als Prädiktorvariablen gilt fortan als Referenz und Zielwert für weitere Messungen und Klassifikationen in den Trainingssequenzen. Im weiteren Vorgehen des Trainings wird nun ein Datensatz, in diesem Fall P2, für die einzelnen Binärklassifikatoren in eine Positivmenge und eine Negativmenge eingeteilt werden (vgl. KEIL 2017: 207). Die Positivmenge ist dabei etwa für den REAKT-Binärklassifikator die Teilmenge an Intonationsmustern, die in der Vorklassifikation aufgrund ihrer funktionalen und formalen Analyse entsprechend der Klasse REAKT zugeordnet (mit REAKT gelabelt) wurde. Die Negativmenge bilden dagegen all jene Intonationsmuster, die den übrigen oder keiner der vordefinierten Funktionsklassen zugeordnet wurden. Im ursprünglichen VokalJäger wird die Positivmenge durch Stützlaute und die Negativmenge durch Kontrastlaute definiert. Nach KEIL (2017: 206) lernt so jeder Binärklassifikator „aus der Trainingsmenge […], das Binärmerkmal korrekt zu schätzen: auf die Stützlaute des Binärmerkmals soll der Binärklassifikator positiv reagieren, auf die Kontrastlaute negativ.“ Das Bilden von Positivmenge und Negativmenge wurde hier im Training über ein Qualitätsranking der Intonationsmuster innerhalb des Korpus von P2 erreicht. P1 ist stets die Referenz und enthält die prototypischen Formen, die im Ranking mit der Qualität 0 (= Referenz) beziffert werden. Die Intonationsmuster für die Positivmenge einer Funktionsklasse werden mit den Qualitätsstufen 1–2 gerankt. Die Negativmenge ergibt sich aus den Formen aller Qualitätsstufen der anderen Funktionsklassen. Der Vorteil am Training mit Daten des Korpus P2 ist, dass dieses Qualitätsranking nicht willkürlich oder nach rein subjektivem Empfinden durchgeführt werden muss, sondern sich durch die Entstehung des Korpus selbst nachvollziehen und objektivieren lässt: Intonationsmuster, die über Karten, die in dem an „Tabu“ angelehnten Spiel nicht geschafft wurden, werden als schlechtere Kandidaten bewertet als diejenigen, bei denen eine Karte geschafft wurde. Geschafft und nicht
158
Eigene empirische Untersuchung
geschafft heißt in dem Fall, dass der äußerungssemantische Inhalt der Karte (= die verbalisierte Funktion des Intonationsmusters) von Hörer*innen rein durch das Perzipieren der von Sprecher*innen produzierten Partikel verstanden wurde (vgl. PISTOR 2017: 64–65). Intonationsmuster, die formal dem Prototypen oder einer Formvariante entsprechen, durch die eine Karte aber nicht unbedingt geschafft wurde, werden schlechter als jene mit formaler und funktionaler Übereinstimmung (= geschaffte Karte) bewertet, aber besser als jene, deren Form stark vom Prototypen abweicht und deren Karte nicht geschafft wurde. Am niedrigsten werden diejenigen produzierten Intonationsmuster gerankt, deren Form eine gänzlich andere, als die erwartete ist und bei denen die Karte im Spiel nicht geschafft wurde. Das formale Ranking zeigt sich zusammengefasst wie folgt: 1 = entspricht der Referenz, erwartbare, prototypische Form, Karte muss geschafft worden sein 2 = erwartbare, ggf. leicht abweichende Form (Formvarianten), Karte muss nicht geschafft worden sein 3 = abweichende Form, Perzeption Karte nicht geschafft 4 = stark abweichende bis komplett andere Form, Karte nicht geschafft Dieses Qualitätsranking ist somit innerhalb des Korpus sowohl formal durch die Produktionsdaten als auch funktional durch die Perzeptionsdaten der Spieler nachvollziehbar und bietet eine objektive Einteilung nach einem formalen Kriterienkatalog.
Abb. 25: Qualitätsranking der Intonationsmuster in P2 mit der Referenz aus P1
Abbildung 25 zeigt das Qualitätsranking der Formen mit den in DCT4 modellierten Intonationsverläufen nach den messphonetischen Verfahren in P1 und P2. Die Zeilenköpfe zeigen die zugeschriebene Qualität von der Referenz = 0 des Korpus P1
Anlage der Untersuchung: ein neuer methodischer Zugriff
159
in der ersten Zeile über die Qualitätsstufen 1–4 aus P2 in den darunterliegenden Zeilen. Die Spaltenköpfe zeigen das Kürzel der jeweiligen Binärklassifikatoren, die den Funktionsklassen REAKT, TURN, QUIT, POS entsprechen. Die zeitliche Erstreckung (x-Achse) wurde für die Formen in der Darstellung normalisiert. Mit der so eingeteilten und vorklassifizierten Datenmenge wurde im Anschluss die „Technik der wiederholten k-fachen Kreuzvalidierung“ (repeated cross validation, KEIL 2017: 207, vgl. auch KUHN / JOHNSON 2013: 69–70 und GOODFELLOW / BENGIO / COURVILLE 2018: 135) angewendet. Hierbei wird der Datensatz in Trainings- und Testset aufgeteilt. Das erste Set wird zum Lernen der prosodischen Merkmale der Intonationsmuster aus den jeweiligen Funktionsklassen genutzt, das andere zur Validierung und Bewertung des Lernerfolgs, also dem Fortschritt in der Generalisierung (vgl. GOODFELLOW / BENGIO / COURVILLE 2018: 134). Damit geht ein fortlaufendes Validieren der Ergebnisse und ein Anpassen der Parameter des Algorithmus einher. Dieser Vorgang von Test- und Trainingssequenzen in das Anpassen wird so lange wiederholt, bis optimale Ergebnisse erzielt werden. Der Klassifikator wird so trainiert. Die Mindestanzahl der Durchläufe im Training entspricht der Hälfte der des ursprünglichen VokalJägers und ist k = 5 (vgl. KEIL 2017: 207). Als mathematisches Schätzermodell wurde in allen Trainingssequenzen eine MDA angewendet (vgl. Kapitel 4.2.4.2.1).
Abb. 26: Güte der Binärklassifikation (Kappawerte) als Ergebnis der Kreuzvalidierungen in P1 und P2
Abbildung 26 zeigt die Güte der Klassifikationen als Ergebnis der wiederholten Kreuzvalidierungen in P1 und P2 mit dem MDA-Schätzermodell und der Koeffizientenkombination T123 als Prädiktorvariablen.135 Zu beachten ist hierbei, dass hier die theoretische Maximalleistung dargestellt wird, die sich dann ergibt, wenn Test- und Trainingsdaten dieselben sind, wie in diesem Fall P1 und P2 und jeweils 50 % der Daten zum Trainieren und die anderen 50 % zum Testen, und alle Koeffizienten als Prädiktorvariablen angenommen werden. Auf der x-Achse sind die Binärklassifikatoren eingetragen, auf der y-Achse die entsprechenden Kappawerte k. 135 Es handelt sich hier also um die in 4.2.4.2.1 beschriebene Leistungsbewertung P des Algorithmus in Kappawerten k. Dass die automatisierte Messung, Modellierung und das Klassifizieren mit Vj.PEAT in P1 und P2 funktioniert haben, geht bereits aus den Abbildungen 24 und 25 hervor.
160
Eigene empirische Untersuchung
Um den oben in 4.2.4.2.1 beschriebenen Kontrast zwischen wahren Erkennungswerten und jenen, bei denen die Zufallswerte nicht abgezogen wurden zu verdeutlichen, sind in dieser Abbildung die nominale Erkennungsrate in Kreissymbolen und die „wahre“ Erkennungsrate, also die um die zufällige Richtigkeit korrigierte Erkennungsrate Kappa, in Dreiecksymbolen dargestellt. Die abgehenden Striche symbolisieren die Standardabweichung der Kappawerte. Die Klassifikatoren zeigen mit einem Durchschnitt von k = 0,85 ein in der Gesamtbewertung sehr gutes Ergebnis. In der Einzelansicht fällt auf, dass der Klassifikator für Intonationsmuster der Klasse TURN mit k = 0,64 eine zwar (noch) gute, dennoch im Vergleich zu den anderen Klassifikatoren eine schlechtere Performance zeigt. Es wird sich in den weiteren Messungen zeigen, dass Muster dieser Klasse gerade in spontansprachlichem Material formal eine recht hohe Variabilität aufweisen können, und zwar sowohl in ihrem F0-Verlauf als auch in der zeitlichen Erstreckung. Diese beiden Faktoren sind die relevanten prosodischen Merkmale der prosodischen Einheiten dieser Klasse, weshalb eine Variation der Merkmale zu Streuungen (fehlerhaften Klassifikationen) führen kann. Die Gesamtperformance in der Binärklassifikation läuft dennoch stabil genug, um die Klassifikatoren von den laborsprachlichen Daten im Test auf die spontansprachlichen Daten von P3 (das Lego-Korpus) anzuwenden. Auch in P3 wurden die Daten im Vorfeld klassifiziert und mit den entsprechenden Labels versehen. So sind auch da Positiv- und Negativmengen entstanden, allerdings nur in den Qualitätsstufen 1–2, da hier das funktionale Kriterium nicht über die Perzeption sichergestellt werden kann. Stattdessen wurden der Klassifikation einfache Sequenz- und Strukturanalysen zugrunde gelegt. Analysiert, segmentiert, gemessen und klassifiziert wurden alle fünf Gespräche des Korpus, in denen sowohl weibliche als auch männliche Probanden, teils mit unterschiedlichen Gesprächsanteilen, sprechen. Die Sprecher*innen des Lego-Korpus P3, für die ich die Kürzel aus KEHREIN (2002) übernommen habe, waren zum Zeitpunkt der Aufnahme zwischen 23 und 28 Jahre alt, allesamt Studierende und stammen aus unterschiedlichen Regionen Deutschlands.136 Die Auflistung der Sprecher*innen zeigt sich nach Kürzel und biologischem Geschlecht wie folgt: GeKo (w/w), IsMi (w/m), KaNi (w/m), RaMa (w/w), ReRu (w/w). Das erste Ziel im Umtrainieren des Algorithmus von Labor- auf Spontansprache ist die Überprüfung der Parametrisierung im messphonetischen Teil. Konkret wird hier als erstes überprüft, ob und inwiefern sich die Ausprägungen der DCTKoeffizienten von denen des Zielwerts aus P1 und P2 unterscheiden und ob sich interindividuelle Variation beobachten lässt, die die Messungen signifikant beeinflussen könnten.
136 Es handelt sich um standardnahe, nicht explizit dialektale Gespräche, auch wenn objektsprachliche Analysen zur Regionalsprachlichkeit der Aufnahmen nicht durchgeführt wurden.
Anlage der Untersuchung: ein neuer methodischer Zugriff
161
Abb. 27: Mittelwerte individueller Ausprägungen der DCT-Koeffizienten nach Sprecher*innen und Mustern in P3
Abbildung 27 zeigt hierzu die Mittelwerte der Ausprägungen der einzelnen DCTKoeffizienten individuell nach Sprecher*innen in P3. Auf der y-Achse sind die Sprecher*innen gelistet. Die Spaltenköpfe zeigen die DCT-Koeffizienten nach der Nomenklatur in Abbildung 24. Die Zeilenköpfe zeigen das Kürzel der jeweiligen Binärklassifikatoren bzw. der Klassen der Intonationsmuster. Die individuellen Messergebnisse zeigen vor allem Unterschiede, die das F0-Register, die Steilheit der Gipfelkonturen bzw. den genutzten F0-Umfang und die zeitliche Erstreckung betreffen. Einen erwartbar deutlich tieferen Mittelwert des F0-Registers (G[1] ist hier erneut als „F0“ dargestellt) als im restlichen Durchschnitt zeigen die einzigen männlichen Sprecher IsMi1 und KaNi1137. KaNi2 zeigt in der Klasse REAKT ein im Vergleich zu den anderen Sprechern erhöhtes gemitteltes F0-Register. In der Ausprägung von G[2] lassen sich bei allen Sprecher*innen bei REAKT erwartungsgemäß konstant Werte im Negativbereich beobachten und bei QUIT ebenso erwartungsgemäß konstant Positivbereich. Die für die komplexeren Intonationsmuster der Klasse POS relevanten Koeffizienten G[3] und G[4] variieren in ihrer mittleren Ausprägung in der entsprechenden Klasse. Die G[3]-Werte im negativen Bereich bei ReRu2 und IsMi2 bedeuten einen wesentlich flacheren Grundfrequenzverlauf,
137 Bei KaNi1 fehlen die Ausprägungen der Koeffizienten bei POS, weil der Sprecher in der Aufnahme keines der entsprechenden Intonationsmuster realisierte.
162
Eigene empirische Untersuchung
also einen durch die Sprecherinnen geringer genutzten F0-Umfang als der prototypische in P1 und P2. Die gemittelten Ausprägungen von G[4] zeigen sich hier nur sehr gering. Eine Ausnahme ist bei ReRu2 beobachtbar. Es scheint sich hierbei jedoch mit einem einzelnen Item um einen statistischen Ausreißer zu handeln. Die gemittelte Ausprägung der zeitlichen Erstreckung T variiert in Einheiten der Klasse POS und besonders deutlich in denen der Klasse TURN. In letzterer Klasse lassen sich auch die höchsten Standardabweichungen beobachten. Diese Datenlage macht Einheiten der Klasse TURN weiterhin schwierig zu separieren: Die Ausprägungen des ersten Koeffizienten lassen bis auf die geschlechtlichen Unterschiede keine Systematik erkennen und die Ausprägungen von G[2]–G[4] liegen allesamt um den Wert null. Letzteres ist an sich unproblematisch, nur lassen sich ohne eine Systematik auch nur eines anderen Koeffizienten keine Aussagen zur Signifikanz treffen. Die nun aus den Einzelausprägungen hervorgehende und mit den Daten der Referenzkorpora zusammengeführten Verteilung der Prädiktorvariablen (Mittelwerte der Ausprägung der Koeffizienten) über die Trainingskorpora P1–P3 bei Qualität besser als 2 zeigt in gewohnter Form Abbildung 28.
Abb. 28: Zusammengeführte Mittelwerte der Ausprägungen der DCT-Koeffizienten in P1–P3 bei Qualität besser als 2
Im Vergleich mit den in Abbildung 24 dargestellten Ausprägungen in P1 ist hier deutlich zu erkennen, dass die Verteilung der im Klassifikationsprozess anzusetzenden Prädiktorvariablen sich trotz interindividueller Variation auch mit Hinzunahme von spontansprachlichem Material aus P3 statistisch nicht wesentlich verändert hat. Mit diesen Ausprägungen lassen sich die Intonationsmuster von P3 in einer Zusammenstellung der Sweeps im direkten Vergleich zu denen des Zielwerts P1 nach den Funktionsklassen klassifizieren und wie folgt darstellen:
Anlage der Untersuchung: ein neuer methodischer Zugriff
163
Abb. 29: Vergleich der analysierten Intonationsmuster in P1 und P3
Die Zahl über den zeitlich normierten und modellierten Intonationsverläufen in Abbildung 29 gibt erneut die durchschnittliche Segmentlänge, also die absolute zeitliche Erstreckung im Durchschnitt an. Ganz deutlich unterscheiden sich die beiden Korpora diesbezüglich voneinander: Im spontansprachlichen Material von P3 werden die längeren Muster der Klassen POS und TURN in der Regel wesentlich (fast um die Hälfte der zeitlichen Erstreckung) kürzer realisiert als im laborsprachlichen Material von P1, während die bereits kurzen Muster der Klassen REAKT und QUIT diesbezüglich in etwa gleichbleiben. Es ist zu beachten, dass die segmentelle Basis der Muster in P1 und P2 stets die lexikalisch leere Partikel hm war, während in P3 unterschiedliche Partikeln, Interjektionen und Ein-Wort-Äußerungen als segmentelle Basis in Betracht gezogen wurden, bei denen die lexikalische Bedeutung und/oder der propositionale Gehalt sich möglicherweise auch auf die Ausprägung der phonetischen Merkmale der prosodischen Einheiten auswirken kann, so etwa auf die gewählte zeitliche Erstreckung. Diesen Punkt werde ich in den Analysekapiteln der regionalsprachlichen Daten erneut aufgreifen und dort zumindest bei Einheiten der Klasse TURN eine Systematik nachweisen. Im zweiten Teil des ersten Ziels des Umtrainierens wird der Frage nachgegangen, welche DCT-Koeffizienten bzw. welche Kombinationen zur Modellierung der einzelnen Klassen von Intonationsmustern im neuen Material ausschlaggebend sind, das heißt, welche Koeffizienten sich hier als Prädiktorvariablen anbieten.
164
Eigene empirische Untersuchung
Hierzu zählt auch, ob eine DCT dritter oder vierter Ordnung die adäquateren Ergebnisse erzielt. Aus den obigen individuellen Messergebnissen und der Zusammenstellung der Variablenverteilung lässt sich bereits eine Tendenz ermitteln, die vermuten lässt, dass das Hinzunehmen von G[4] (und damit eine DCT vierter anstatt dritter Ordnung) nur unwesentlich zur Modellierung und Klassifikation beiträgt. Dieser Tendenz wurde im klassifikationsphonetischen Teil, konkret im Rahmen der Binärklassifikationen, nachgegangen und erneut durch Kappawerte validiert.
Abb. 30: Kappawerte verschiedener Koeffizientenkombinationen und DCT-Ordnungen nach Funktionsklasse über die Korpora P1–P3
Abbildung 30 zeigt die Kappawerte der Klassifikationen verschiedener Koeffizientenkombinationen als Prädiktorvariablen nach Funktionsklasse (Spaltenköpfe) und trainiertem Korpus (Zeilenköpfe), wobei erneut Test- und Trainingsdaten dieselben waren. Die x-Achse listet die Prädiktorvariablenliste der Klassifikatoren, darüber zu sehen sind die Kappawerte der Wiedererkennung, wobei Kreissymbole die DCT dritter Ordnung und Dreieckssymbole die DCT vierter Ordnung repräsentieren. Die schwarze Zahl unten links zeigt die durchschnittlichen Kappawerte pro Kästchen. Als Schätzermodell wurde erneut eine MDA angewendet. Deutlich zu erkennen ist, dass in P3 für Einheiten der Klassen TURN, QUIT und REAKT bereits die Kombination aus nur zeitlicher Erstreckung und Anstiegsparameter (T2) die höchsten Kappawerte erzielt. Für komplexere Muster der Klasse POS funktioniert eine Kombination aus allen 4 Parametern (T1234) am besten, während die beste Kombination für die anderen Muster hier die schlechtesten Werte erzielt. Das Hinzunehmen G[4]
Anlage der Untersuchung: ein neuer methodischer Zugriff
165
und damit eine DCT vierter Ordnung scheint demnach einen statistischen Vorteil im Vergleich zur DCT dritter Ordnung zu bringen. Als zweites Ziel des Trainings ist zu überprüfen, wie verlässlich die Binärklassifikatoren arbeiten, das heißt, wie die Gesamtleistungsbewertung durch Kappa nach dem Umtrainieren ausfällt. In Abbildung 31 sind dazu die Kappawerte der Klassifikatoren im Vergleich Test und Training der einzelnen Korpora abgebildet. Die Werte zeigen, wie gut die einzelnen Binärklassifikatoren (x-Achse) in der wiederholten Kreuzvalidierung und untereinander funktioniert haben. Kreissymbole repräsentieren erneut die DCT dritter Ordnung, Dreieckssymbole diejenige vierter Ordnung. Deutlich zu erkennen an den schwarzen Zahlen ist, dass die durchschnittlichen Kappawerte sinken, wenn Test- und Trainingsset nun verschieden sind. Die Klassifikatoren liefern aber dennoch reliable Ergebnisse: Der Gesamtabgleich zeigt einen sehr guten Durchschnittskappawert von k = 0,72.
Abb. 31: Güte der Binärklassifikation in P1–P3 in der Gesamtdarstellung
Trotz des guten Ergebnisses bleibt zu hinterfragen, warum der durchschnittliche Wert der Güte der Klassifikation über die drei Trainingskorpora hinweg gesunken ist. Der Hauptgrund hierfür sind die zum Teil leicht unterschiedlichen Ausprägungen der DCT-Koeffizienten, die nicht zuletzt durch den Unterschied von Labor- zu Spontansprache zustande kommen: Sprecher*innenbezogene Dispositionen und Präferenzen sowie die Wahl der segmentellen Basis für die Intonationsmuster in freien Gesprächen können die Merkmalsausprägung beeinflussen. Am deutlichsten zu erkennen ist dies im Rückgang der zeitlichen Erstreckung bei Intonationsmustern der Klassen POS und TURN, die gleichzeitig diejenigen Klassen darstellen, für die die zeitliche Erstreckung als eins der relevanten prosodischen Merkmale belegt
166
Eigene empirische Untersuchung
wurde. Muster der Klasse POS lassen sich auch ohne den Faktor T über die Koeffizienten G[3] und (wenngleich weniger) G[4] klassifizieren. Bei Mustern der Klasse TURN wird durch die Verringerung der Ausprägung von T eine rein phonetische Klassifikation enorm erschwert. Dies verdeutlicht auch Abbildung 32. Hier wird gezeigt, wie das Ensemble der vier Binärklassifikatoren (jeweils auf der yAchse) in der spontansprachlichen Binärklassifikation reagiert, wenn ein bestimmtes Intonationsmuster einer jeweiligen Klasse (jeweils das Kästchen) vorgelegt wird.
Abb. 32: Korrekte und fehlerhafte Einordnungen der Binärklassifikatoren
Grün zeigt das gewünschte positive Verhalten. Das bedeutet, das vorgelegte Intonationsmuster einer bestimmten Klasse wird vom erwarteten, dafür vorgesehenen Binärklassifikator zugehörig und damit als True Positive erkannt (rea erkennt Muster der Klasse REAKT als True Positives). Grau zeigt das gewünschte negative Verhalten. Das bedeutet, Intonationsmuster anderer Klassen werden vom selben Binärklassifikator als nicht zugehörig und damit als True Negative erkannt (etwa rea erkennt Muster der Klassen TURN, QUIT und POS als True Negatives). Rot zeigt hingegen unerwünschtes (negatives) Fehlverhalten: der Klassifikator streut. Das bedeutet, Intonationsmuster werden vom dafür nicht vorgesehenen Binärklassifikator als zugehörig erkannt (qui erkennt Muster der Klasse TURN und vice versa). Intonationsmuster der Funktionsklasse TURN werden in einigen Fällen aufgrund
167
Anlage der Untersuchung: ein neuer methodischer Zugriff
ihrer phonetischen Ausprägungen der Klasse QUIT zugeordnet. Umgekehrt gilt dasselbe. Dies geschieht genau dann, wenn Sprecher*innen die Formvariante des Prototyps (leichtes, kontinuierliches Absinken von F0) bei im Vergleich zum Formprototypen reduzierter zeitlicher Erstreckung produzieren. Die Intonationsmuster von TURN und QUIT sind dann maschinell wie auch auditiv rein aufgrund ihrer phonetischen Eigenschaften kaum differenzierbar. Dies zeigte bereits der Perzeptionstest oben in 4.2.3 (besonders Tabelle 2). Die Machine-Learning Klassifikatoren funktionieren entsprechend hier genau wie die Perzeption der Proband*innen, was auch bedeutet, dass sie dieselben „Fehler“ machen. Ein weiterer Grund für das leichte Absinken des Werts der Güte der Klassifikation ist die unterschiedliche Verteilung der verschiedenen Intonationsmuster je nach Korpus: Die Anzahl der Belege variiert nach Klassen und Korpus. So bieten etwa die 133 Belege für POS in P2 eine robustere Statistik für die entsprechenden Ausprägungen der Koeffizienten als die 30 identifizierten Belege in P3 oder die fünf Belege in P1. Tabelle 4 zeigt eine Übersicht aller Belege in den drei Trainingskorpora P1, P2 und P3. Korpus Funktionsklasse
P1
P2
P3
Σ
REAKT
8
108
108
224
TURN
6
81
153
240
QUIT
8
89
171
168
POS
5
133
30
168
Σ
27
411
462
900
Tab. 4: Übersicht der Beleganzahl nach Klassen und Korpus im Training
Mit insgesamt 900 formal und funktional analysierten Belegen ist das Training für Vj.PEAT mit einer robusten Statistik ausgestattet und somit abgeschlossen. Die zu Anfang des Kapitels formulierten, das Training begleitenden Forschungsfragen 2 und 3 nach den Koeffizientenkombinationen und -ausprägungen sowie nach den formalen phonetischen Differenzen wurden in den letzten Abschnitten beantwortet und diskutiert. Als Zwischenergebnis und zur Beantwortung der oben formulierten Forschungsfrage 1 bleibt folgendes festzuhalten: Die evozierten universellen Formen der Intonationsmuster der Klassen REAKT, TURN, QUIT, und POS aus den laborsprachlichen Korpora P1 und P2 lassen sich auch in den spontansprachlichen Daten von P3 wiederfinden. Die phonetischen Ausprägungen ihrer prosodischen Merkmale, repräsentiert über die DCT-Koeffizienten, stimmen in hohem Maße mit denen aus dem Referenzkorpus P1 überein. Geringe formale Unterschiede lassen sich in der zeitlichen Erstreckung, dem F0-Register und dem genutzten F0-Umfang beobachten. Des Weiteren ist eine unterschiedliche Verteilung der Belege je nach Korpus feststellbar. Das Hauptziel, das Wiedererkennen der universellen Muster aus P1 in P2 und P3 aufgrund ihrer phonetischen Ausprägungen ist mit einer durch
168
Eigene empirische Untersuchung
Kappa validierten Güte von im Durchschnitt k = 0,72 unter Anwendung einer MDA und einem variierenden Set der Prädiktorvariablen T1234 geglückt. Durch das Klassifikationsexperiment und dadurch, dass der auf P1 oder P2 trainierte Klassifikator die gesuchten Items in P3 mit einem Durchschnitt von k = 0,72 klassifiziert, lässt sich beweisen, dass sich die laborsprachlichen Intonationsmuster in spontan gesprochener Rede wiederfinden lassen. Als Faustregel gilt: Je mehr Daten im Training zur Verfügung stehen, desto robuster wird die Statistik und desto besser wird die Leistungsbewertung in der Klassifikation. Final ist noch festzuhalten, dass einzelne Klassifikatoren zwar streuen (d.h. „Fehler“ in der Klassifikation begehen), dies aber genau dann tun, wenn es menschliche Rezipient*innen auch tun würden. 4.3 ANWENDUNG AUF REGIONALSPRACHLICHE DATEN Das Hauptziel der vorliegenden Arbeit ist es, diejenigen universellen prosodischen Strukturen aus P1 (und übertragen auch aus P2), auf die der Algorithmus trainiert wurde, formal und funktional in vier verschiedenen Regionalsprachen des Deutschen nachzuweisen (vgl. Kapitel 4.1). Mit dem durch die Masse an Trainingseinheiten statistisch robusten und zuverlässigen Analyse- und Klassifikationstool VJ.PEAT, das primär für diese Zwecke entwickelt wurde, lässt sich die Aufgabe nun in einem quantitativen Ansatz angehen. Die regionalsprachlichen Daten, die in der vorliegenden Arbeit verwendet und analysiert wurden, stammen aus den im Rahmen des zweiten Teilziels durchgeführten Neuerhebungen des oben in Kapitel 1 skizzierten Langzeitforschungsprojekts „Regionalsprache.de“ (REDE). Im Rahmen des Projekts wurden Erhebungen an insgesamt 150 Orten der Bundesrepublik Deutschland durchgeführt. Aufgenommen wurden pro Ort männliche Sprecher aus drei Generationen in je fünf verschiedenen Erhebungssituationen, mit denen sich sowohl die System- als auch die Registerkompetenzen der Sprecher überprüfen lassen (vgl. SCHMIDT / HERRGEN 2011: 379–380 und GANSWINDT / KEHREIN / LAMELI 2015: 431–433). Die hier verwendeten und analysierten Daten entstammen der Aufnahmesituation „Freundesgespräch“ (kurz FG). Dieses stellt ein freies Gespräch ohne thematische Vorgaben und ohne die Anwesenheit eines Explorators dar. Ziel dieser Erhebungssituation ist es nach GANSWINDT / KEHREIN / LAMELI (2015: 432), bei einem informellen Gespräch mit einem oder mehreren selbstgewählten Gesprächspartner*innen „die möglichst ‚ungezwungene‘ Sprachverwendung des Informanten in vertrauter Umgebung mit einem heimischen Gesprächspartner“ zu erheben. Als Untersuchungsgebiete wurden alle vier großräumigen regionalsprachlichen Verbände des deutschen Sprachraums in der BRD ausgewählt, die aus der Einteilungskarte oben in Kapitel 3.1 (Abbildung 17) hervorgehen: Oberdeutsch, Mitteldeutsch, (historisches) Westdeutsch und Niederdeutsch. In der Binnengliederung dieser Großräume wurden folgende Sprachräume ausgewählt: Niederalemannisch im Oberdeutschen, Obersächsisch im Mitteldeutschen, Ripuarisch im (historischen)
Anwendung auf regionalsprachliche Daten
169
Westdeutschen und Nordniederdeutsch im Niederdeutschen. Mit den vier Sprachräumen lässt sich eine etwa gleichmäßige Verteilung der Untersuchungsräume im bundesdeutschen Gebiet aufstellen. Für die einzelnen Sprachräume der Binnengliederung wurde jeweils ein Ort als Repräsentant des Raumes gewählt. Die Ortsauswahl für die Räume zeigt sich wie folgt: Ohlsbach (Ortenaukreis, Kreisstadt Offenburg) im Niederalemannischen, Dresden im Obersächsischen, Bergisch-Gladbach im Ripuarischen und Oldenburg im Nordniederdeutschen. Zusätzlich zur gleichmäßigen geographischen Verteilung gilt als Auswahlkriterium der Untersuchungsorte die Nähe zu den Erhebungsorten und damit eine potenzielle Vergleichbarkeit damit den Ergebnissen der Analysen des Projekts „Untersuchungen zur Struktur und Funktion regionalspezifischer Intonationsverläufe“ (fortan kurz „Dialektintonation“, vgl. PETERS et al. 2015 und oben, Kapitel 3.3). Dresden entspricht hierbei dem Erhebungsort des Projekts. Der Vergleichsort für Ohlsbach ist Freiburg im Breisgau, für Bergisch-Gladbach Köln und für Oldenburg Hamburg. Alle hier untersuchten Orte und die Vergleichsorte des Projekts „Dialektintonation“ liegen somit in denselben, oben genannten vier Sprachräumen.138 Für zwei der Untersuchungsorte werden ausführlichere Analysen durchgeführt, die auch einen intergenerationellen Vergleich beinhalten. Hierdurch soll gewährleistet werden, dass mögliche Unterschiede der Intonation aufgrund unterschiedlicher segmentalphonologischer Dialektalitätsniveaus in Abhängigkeit von der untersuchten Generation (ALT, MITTEL, JUNG) überprüft werden können (vgl. Kapitel 4.1). Mit diesem Untersuchungsziel kommt für den ersten ausführlichen Untersuchungsort ein weiteres Auswahlkriterium hinzu: Auf segmentalphonologischer Ebene muss für den Ort ein möglichst breit gefächertes regionalsprachliches Spektrum im generationellen Vergleich ermittelt worden oder zumindest erwartbar sein. Im Westoberdeutschen, besonders im Alemannischen Raum sind breit gefächerte regionalsprachliche Spektren erwartbar. So ermittelt KEHREIN (2012: 107– 212) etwa für den Ort Waldshut-Tiengen im Hochalemannischen Raum einerseits Stabilität für den Dialekt, besonders in der alten Generation, andererseits intersituative und intergenerationelle Unterschiede in der Dialektkompetenz. Neben den damit zu erwartenden, breit gefächerten regionalsprachlichen Spektren im Alemannischen, rücken auch prosodische und intonatorische Besonderheiten diesen Raum in den Fokus. Wie dem Literaturreferat in Kapitel 3.3 und oben in Kapitel 4.1 bereits zu entnehmen ist, wird die Prosodie im Südwesten der BRD und besonders im alemannischen Raum spätestens seit BREMER (1893) als besonders different zum restlichen deutschen Sprachraum gekennzeichnet. Neben prosodisch motivierten Studien zum südwest- und schweizerdeutschen Raum (etwa NÜBLING / SCHRAMBKE 2004, LEEMANN 2012, WERTH 2014 und SIEBENHAAR 2015), heben GILLES (2005) 138 Es ist zu beachten, dass die Dialekteinteilungen maßgeblich auf segmentalphonologischen Merkmalen beruhen. Die auf dieser Basis eingezeichneten und damit die Räume definierenden Isoglossen müssen nicht zwangsläufig mit jenen übereinstimmen, die aufgrund der Analyse prosodischer Variation entstanden sind (etwa GÜNTHERODT 1973 und NÜBLING / SCHRAMBKE 2004) oder entstehen würden. Da zurzeit keine alternative Einteilung vorliegt, muss auf die auf hauptsächlich segmentalphonologischer Basis zurückgegriffen werden.
170
Eigene empirische Untersuchung
und PETERS (2006a) explizit das Alemannische und den Vergleichsort Freiburg diesbezüglich hervor: Die Intonation des Alemannischen (inklusive des Schweizerdeutschen) gilt […] generell als besonders auffällig und ohrenfällig vom übrigen deutschen Sprachgebiet abweichend. (GILLES 2005: 76) […] Sprecher aus Freiburg weisen ein intonatorisches System auf, das sich deutlich von den übrigen Systemen unterscheidet. (PETERS 2006a: 474)
GILLES (2005: 352) postuliert zudem, „[…] dass eine zentrale intonatorische Isoglosse den Südwesten […] vom übrigen Sprachgebiet abgrenzt.“ Ein Nachweis universeller prosodischer Einheiten der Intonation scheint daher in diesem Gebiet besonders lohnenswert. Die Wahl des ersten ausführlichen Analyseortes fällt somit auf Ohlsbach im Niederalemannischen. Der Ohlsbach-Datensatz trägt fortan das Kürzel P4. Diesem ersten eingehend zu untersuchenden Analyseort wird eine ausführliche Kontrastanalyse eines anderen Ortes gegenübergestellt. Die Wahl des Ortes für die ausführliche Kontrastanalyse fällt auf Dresden im Obersächsischen. GILLES (2005: 356) stellt nach seinen Analysen zu Abschluss und Weiterweisung im Rahmen des Dialektintonationsprojekts fest, dass der „größte intonatorische Kontrast zwischen dem Südwesten (Freiburg) und dem (Nord-)Osten (Berlin, Dresden) etabliert“ wird. Einen Kontrast zwischen Intonationssystemen südwestdeutscher Regionalsprachen (konkret: Schwäbisch) und vor allem dem Obersächsischen sowohl im Konturinventar (systemisch) als auch in der phonetischen Implementierung (realisationell) postuliert zudem auch KÜGLER (2007). Auch auf segmentalphonologischer Ebene bietet Dresden einen Kontrast zu Ohlsbach, indem die Strukturen regionalsprachlicher Spektren im Obersächsischen gänzlich andere darstellen, als im Alemannischen und etwa im oben beschriebenen Ort Waldshut-Tiengen. Dieser Kontrast zeigt sich auch in den für die analysierten Gespräche ermittelten, unterschiedlichen D-Werten von Ohlsbach und Dresden, bei denen der geringste ermittelte D-Wert in Ohlsbach (der des jungen Sprechers mit 1,5) immer noch den des höchsten ermittelten in Dresden (der des alten Sprechers mit 1,3) übersteigt (vgl. unten, Abbildung 33). Alle Dresdener Sprecher zeigen zudem eine standardnahe Sprechlage in der hier gewählten Erhebungssituation, während die Ohlsbacher Sprecher als standarddifferent zu charakterisieren sind. Die Kontrastanalyse bietet somit neben dem intergenerationellen Unterschied, der gleichzeitig ein Unterschied des Sprechertyps sein kann (s. u.), einen Einblick in die Konstanz bestimmter prosodischer Strukturen, die völlig unabhängig von der Nähe oder Distanz der erhobenen Varietät oder Sprechlage zur Standardvarietät zu sein scheint. Der Dresdener Datensatz erhält das Kürzel P5.
171
Anwendung auf regionalsprachliche Daten
Für die anderen beiden Orte, Bergisch-Gladbach und Oldenburg, wurden nur die Sprecher der alten Generation herangezogen, da deren Gespräche die größte phonetische Distanz zur Standardvarietät aufweisen. Die Idee dahinter ist, dass, wenn sich Unterschiede beobachten lassen sollten, dann in Varietäten und Sprechlagen, die möglichst weit von einer überdachenden Norm entfernt sind. Der Datensatz aus Bergisch-Gladbach wird mit dem Kürzel P6 versehen, der aus Oldenburg mit P7. Tabelle 5 bietet einen Überblick über alle für diese Arbeit mit VJ.PEAT analysierten Korpora. Datensigle
Titel
Sprache/Sprachregion
P1
Universalien
Deutsch, Chinesisch, Arabisch, Ghomálá’, Koreanisch
27
P2
HM-Reproduktion
Deutsch, verschiedene Regionen
411
P3
Lego
Deutsch, verschiedene Regionen
462
P4
Ohlsbach
Deutsch, Niederalemannisch
145
P5
Dresden
Deutsch, Obersächsisch
111
P6
Bergisch-Gladbach Deutsch, Ripuarisch
51
P7
Oldenburg
57
Deutsch, Nordniederdeutsch
Anzahl Belege
Tab. 5: Übersicht aller verwendeten Datensätze
Für die ausführlichen Analyseorte Ohlsbach (P4) und Dresden (P5) werden Sprecher aus allen drei erhobenen Generationen herangezogen. Diese teilen sich in den Erhebungen des REDE-Projekts auf in ALT (über 65 Jahre), MITTEL (etwa 45–55 Jahre) und JUNG (etwa 18–23 Jahre) und sind aus Gründen der Vergleichbarkeit ausschließlich Männer (vgl. GANSWINDT / KEHREIN / LAMELI 2015: 430–431).139 Allen Sprechern werden Kürzel zugeteilt, die auf den Kfz-Kennzeichen des jeweiligen Erhebungsortes, einer Bezeichnung der Generation und einer Zahl, die der Reihenfolge der Erhebung bei mehreren Gewährspersonen am Ort entspricht, beruhen.140 Die Auswahlkriterien für die Sprecher der alten Generation entsprechen den international anerkannten Kriterien der Dialektologie, die neben dem angegebenen Alter Ortsfestigkeit über meist zwei Generationen und eine manuelle (etwa landwirtschaftliche oder handwerkliche) Tätigkeit fordern (sogenannte NORMs, nonmobile, older, rural males, vgl. CHAMBERS / TRUDGILL 1998: 29 und SCHMIDT / HERRGEN 2011: 141). Die Sprecher der mittleren Generation sind allesamt ebenso ortsfeste Polizeibeamte, die auch in der Notrufannahme beschäftigt sind und somit eine kommunikationsorientierte Tätigkeit ausüben, während die Sprecher der jungen Generation zusätzlich zu dem Kriterium der Ortsfestigkeit nach ihrem höheren Bildungsgrad ausgewählt wurden und somit in der Regel Abiturienten sind (vgl. 139 Im Rahmen der Erhebungen des Partnerprojekts „Sprachvariation in Norddeutschland“ (SiN) (vgl. ELMENTALER et al. 2015) wurden komplementär nur weibliche Sprecherinnen herangezogen. 140 Die Sprecher der mittleren Generation bekommen kein Generationskürzel.
172
Eigene empirische Untersuchung
SCHMIDT / HERRGEN 2011: 378 und GANSWINDT / KEHREIN / LAMELI 2015: 431). Diese drei Sprechergruppen sind durch ihre Charakteristika so ausgewählt, dass sie von ALT nach JUNG dem sprachlich konservativeren, durchschnittlicheren und progressiveren Typ entsprechen (vgl. SCHMIDT / HERRGEN 2011: 377–379). Tabelle 6 gibt einen Überblick über die Sozialdaten der hier herangezogenen Sprecher des REDE-Projekts. Datensatz Erhebungsort
Sprecherkürzel
P4
Ohlsbach
OGALT
Alter z.Z. d. Aufnahme Beruf
P4
Ohlsbach
OG7
48
Polizist
P4
Ohlsbach
OGJUNG2
18
Schüler
P5
Dresden
DDALT
67
Rentner
P5
Dresden
DD4
39
Polizist
P5
Dresden
DDJUNG2
18
Schüler
P6
Bergisch-Gladbach
GLALT1
70
Installateur
P7
Oldenburg
OLALT3
72
Landwirt
70
Maurer
Tab. 6: Sozialdaten der Sprecher des REDE-Projekts
Durch die unterschiedlichen Regionen und die unterschiedlichen Sprechergenerationen sind auch unterschiedliche segmentalphonologische Dialektalitätsniveaus in den Freundesgesprächen erwartbar. 141 Für alle Freundesgespräche wurden im Vorfeld D-Wertmessungen (vgl. Kapitel 3.2) entweder im Rahmen des REDE-Projekts selbst oder in einzelnen, im Projektrahmen entstandenen Studien (LANWERMEYER 2011, KEHREIN 2012, ROCHOLL 2015 und SPANG in Vorb.) durchgeführt. Die Messungen für die mittlere und alte Generation in Ohlsbach (OG7 und OGJUNG2) wurden von mir selbst durchgeführt. In den Analysekapiteln greife ich die segmentalphonologische Dialektalität auf der Basis des D-Werts der jeweiligen Sprecher in den dialektologischen Einordnungen der einzelnen Untersuchungsorte erneut auf. Zur Gesamtübersicht verweise ich hier auf Abbildung 33, in der die Ergebnisse der D-Wertmessungen aller Sprecher der REDE-Daten zusammengetragen wurden.
141 Im Rahmen dieser Arbeit interessiert nur der phonetische Abstand der Sprachproben zur Standardvarietät. In welcher Varietät oder Sprechlage ein Freundesgespräch geführt wird, lässt sich nicht allein aufgrund des D-Wertes ermitteln. Hierfür ist zusätzlich eine in Kapitel 3.2 beschriebene Variablenanalyse nötig. Selbst mit der Methodenkombination aus D-Wertmessung und Variablenanalyse lässt sich die Dialektalität lediglich auf (segmental)phonologischer Basis ermitteln. Morphologische, syntaktische und abgesehen von Quantitätsunterschieden sämtliche prosodische dialektale Merkmale werden hierbei nicht erfasst, müssten es aber, um dem Begriff Dialekt gerecht zu werden und die Dialektalität einer Sprachprobe annähernd in Gänze erfassen zu können. Im REDE-Projekt werden die Bereiche Morphosyntax und Prosodie der Regionalsprachen zurzeit angegangen. Welche variationslinguistische Rolle semantische und pragmatische Aspekte spielen, ist noch unzureichend geklärt.
Anwendung auf regionalsprachliche Daten
173
Abb. 33: Übersicht über die D-Werte der Sprecher des REDE-Projekts in der Erhebungssituation Freundesgespräch
Auf den ersten Blick zu erkennen sind die intergenerationell unterschiedlichen DWerte in derselben Erhebungssituation in Ohlsbach und Dresden, wobei in Ohlsbach mit einer Gesamtdifferenz von 0,7 deutlich größere Unterschiede von der alten zur jungen Generation zu beobachten sind, als in Dresden mit einer Gesamtdifferenz von nur 0,2. KEHREIN (2012: 223) kommt durch ähnlich geringe Abstände in den anderen REDE-Erhebungssituationen im intergenerationellen Vergleich zu dem Schluss, dass „das regionalsprachliche Spektrum in Dresden lediglich aus einer Varietät besteht. Bei dieser handelt es sich um einen Regiolekt […].“ Da für Ohlsbach im Niederalemannischen noch keine Spektrumsanalyse vorliegt, greife ich erneut auf Waldshut-Tiengen im Hochalemannischen zurück, für das KEHREIN (2012: 191 und 193) kontrastiv feststellt, dass das regionalsprachliche Spektrum der Region „aus zwei Varietäten besteht: aus dem Dialekt und dem Regiolekt“142 und dass im Vergleich der System- und Registerkompetenzen der Sprecher eine „fast perfekte intergenerationelle Staffelung“ vorliegt. Ein ähnliches Bild zeigt sich in Ohlsbach, wobei die Differenz des D-Werts der mittleren und der jungen Generation in der Erhebungssituation Freundesgespräch mit 0,1 verschwindend gering ist. Dies liegt nicht zuletzt an dem generell höheren D-Wert des jungen Ohlsbacher Sprechers (1,5) im Freundesgespräch im Vergleich zum D-Wert des jungen Sprecher aus Waldshut-Tiengen (0,4, vgl. KEHREIN 2012: 161). Die Varietäten, die in den Analysekapiteln untersucht werden, können somit in Ohlsbach dem Dialekt und dem Regiolekt zugeordnet werden, während in dem Erhebungsort Dresden nur der Regiolekt zu erwarten ist. Für die anderen beiden Untersuchungsorte Oldenburg 142 Vgl. hierzu auch STRECK (2019: 207), der für das Alemannische im bundesdeutschen Raum „weitegehend ein diaglossisches Repertoire mit einem Kontinuum zwischen Dialekt und Standarddeutsch“ postuliert.
174
Eigene empirische Untersuchung
und Bergisch-Gladbach, für die nur Sprecher der älteren Generation analysiert wurden, konnten in den Freundesgesprächen mit D-Werten von 2,3 und 2,0 relativ große phonetische Abstände zur Standardvarietät ermittelt werden. Das Hinzunehmen der regionalsprachlichen Daten aus dem REDE-Projekt forderte eine neue Konstellation der Klassifikationsparameter in Vj.PEAT. Gründe hierfür sind zum einen der Umgang mit neuen akustischen Herausforderungen, etwa eine abschnittsweise creaky voice Stimmqualität bei OGALT und OLALT3, signalstörende Hintergrundgeräusche durch den Aufnahmeort bei OG7143, die Teilnehmer*innenzahl von vier Personen (zwei Männer, zwei Frauen) im selben Gespräch und dadurch häufig entstehende Überschneidungen von Redebeiträgen sowie unterschiedliche Abstände zu den dort zum Einsatz gekommenen Krawattenmikrofonen der Sprecher*innen. Zum anderen sind die Verteilungen der Intonationsmuster je nach Datensatz erneut sehr unterschiedlich. Teilweise ist die Beleganzahl spärlich. Analog zu den Trainingssequenzen wurde auch hier überprüft, welche DCT-Koeffizientenkombination als Prädiktorvariablen in Verbindung mit welchem Referenzkorpus, das Vj.PEAT als Zielwert ansetzt und welches mathematische Schätzermodell die adäquatesten Ergebnisse liefern. Die Ergebnisse der Überprüfung der Prädiktorvariablen wird in Abbildung 34 dargestellt. Die Abbildung zeigt in den Spaltenköpfen alle überprüften Korpora (P1–P7) und in den Zeilenköpfen die als Prädiktorvariablen überprüften DCT-Koeffizienten. Auf der x-Achse sind die Kürzel der jeweiligen Binärklassifikatoren bzw. der Klassen der Intonationsmuster gelistet. Die y-Achse zeigt die Werte der Ausprägungen der Koeffizienten. Die Boxplots in den Kästchen stellt die Ausprägung inklusive der Standardabweichung (vertikale Striche) und des Medians (horizontale Striche) dar.
143 Es scheint sich dabei um ein Café zu handeln, da Löffel- und Tassenklappern zu hören ist und die Proband*innen im Laufe des Gesprächs Getränke und Kuchen an den Tisch bekommen.
Anwendung auf regionalsprachliche Daten
175
Abb. 34: Mittelwerte der Ausprägungen der DCT-Koeffizienten in P1–P7
Erkennbar ist eine Abnahme der Deutlichkeit der Separierungsmuster durch die Ausprägungen der DCT-Koeffizienten in den Trainingskorpora P1–P3 gegenüber den REDE-Daten in P4–P7. In P6 und P7 sind diese Muster am wenigsten ausgeprägt, was der geringen Anzahl an Belegen geschuldet ist. Dennoch sind die Separierungsmuster analog zu den Trainingssequenzen erkennbar: T separiert die prototypisch langen Muster der Klassen TURN und POS von den prototypisch kurzen in REAKT und QUIT. G[2] separiert steigende (REAKT) von fallenden (QUIT) Intonationsmustern und G[3] separiert POS als komplexes Muster von den übrigen. G[1] scheint wie zuvor keine systematischen Schlüsse im Gesamtvergleich aller Korpora zuzulassen. Eine rekurrierende Musterhaftigkeit der Ausprägung von G[1] je nach Funktionsklasse (in der Lesart der x-Achse hoch > niedrig > hoch > niedrig jeweils im relativen Verhältnis zueinander) lässt sich in P2, P3 und P5 beobachten, in den anderen Datensätzen jedoch nicht. Die Ausprägungen von G[4] tragen als Prädiktorvariable in den REDE-Daten zwar statistisch zur marginal besseren Differenzierung der Intonationsmuster bei, zeigen aber keinerlei signifikante Ausprägung, wie es etwa bei G[2] und T der Fall ist (mit einer Ausnahme von POS in P5). G[4] kann somit für eine klarere Statistik als Beitrag gesehen werden. Die geringen Werte der Ausprägungen sind jedoch für eine eindeutige Klassifikation obsolet. Des Weiteren wurden für die verbleibenden Fragestellungen das optimale Referenzkorpus und das mathematische Schätzermodell mit Kappa als Leistungsbewertung überprüft. Als Schätzermodelle wurden MDA, RF und SVM (vgl. Kapitel 4.2.4.2.1) getestet. Hinsichtlich des Referenzkorpus zeigten sich auch hier wie im Training die besten Kappawerte, wenn Trainings- und Testset gleich waren (unter
176
Eigene empirische Untersuchung
einem RF bei Kappawerten von 1,0). Die stabilsten Werte, wenn Trainings- und Testdaten verschieden waren, zeigten die Klassifikationen regionaler Daten unter den spontansprachlichen Daten des Lego-Korpus (P3) als Referenz. Als die Prädiktorvariablen, mit der in der Klassifikation die höchsten Kappawerte erzielt werden können, haben sich die Kombinationen T1234 und T234 berechnen lassen können. Als optimales mathematisches Schätzermodell wurde ein Random-ForestKlassifikator (RF) als R-Paket verwendet. Abbildung 35 zeigt die durch Kappa bewertete Höchstleistung der Binärklassifikationen des Ensembles in den REDE-Daten. Die x-Achse listet hier den jeweils getesteten Datensatz zuerst, gefolgt vom Referenzkorpus („Train“), den angewendeten Prädiktorvariablen und dem mathematischen Schätzermodell. Die y-Achse zeigt die maximal erreichten Kappawerte.
Abb. 35: Höchstleistung der Binärklassifikationen des Ensembles in den REDE-Daten (P4–P7) mit P3 als Trainingsdatensatz, T1234 bzw. T234 als Prädiktorvariablen und RF als Schätzermodell
Durch die neue Konstellation der Klassifikationsparameter in VJ.PEAT konnte belegt werden, dass sich a) ein Klassifikator erstellen lässt, der die gesuchten Intonationsmuster aus P1 und P2 statistisch robust in P4–P7 nachweisen kann, wenn auf das spontansprachliche Korpus P3 trainiert wurde. Zudem zeigt sich für die Klassifikationen in REDE, dass sich mit P3 als Trainingsdatensatz den Koeffizientenkombinationen T1234 bzw. T234 als Prädiktorvariablen und RF als Schätzermodell optimale Werte erzielen lassen.144 Sämtliche weitere Daten aus Mess- und Klassifikationsphonetik von VJ.PEAT in den REDE-Daten wie die Ausprägungen der Koeffizienten nach Funktionsklassen und die Leistungsbewertung je nach untersuchtem Datensatz lege ich als Ergebnisse in den jeweiligen Analysekapiteln dar.
144 Die Kappawerte der anderen Kombinationen aus Prädiktorvariablen, Referenzkorpus und mathematischem Schätzermodell wurden hier nicht einzeln aufgeführt, sondern nur die optimalen Fälle als Ergebnis des neuen Klassifikationsexperiments. Die anderen Werte im direkten Vergleich sind in Anhang B in tabellarischer Form verfügbar.
5. ANALYSE: REGULATIVE INTONATIONSMUSTER IN REGIONALSPRACHEN DES DEUTSCHEN 5.1 AUSFÜHRLICHE ANALYSE – OBERDEUTSCH: OHLSBACH Für Ohlsbach im Niederalemannischen (Korpus P4) erfolgt eine ausführliche Modellanalyse, die dann als Basis für alle weiteren Untersuchungsorte gilt. Allen Analysen vorangestellt ist eine dialektologische Einordnung, die neben dialektgeographischen Aspekten weitere relevante Forschungsergebnisse zur regionalen Prosodie zusammenfasst, sollten diese nicht bereits in Kapitel 3.3 dargelegt worden sein. Die Analyse der Freundesgespräche aus Ohlsbach zeigt nach den phonetischen Befunden in VJ.PEAT sowie den strukturellen und segmentellen Befunden in der Übersicht die genauere Funktionszuordnung innerhalb der Klassen REAKT, TURN, QUIT und POS in Abhängigkeit ihrer ermittelten Position im Syntagma durch Gesprächsanalysen, die im GAT2-Format präsentiert werden. Am Ende des Kapitels erfolgt eine zusammenfassende Revision der funktionalen Variablen, da mit dem Erkenntnisgewinn stellenweise auch neue Form-Funktionszuordnungen vorgenommen werden müssen. Die überregionale Existenz und Gültigkeit dieser Form-Funktionszuordnungen gilt es danach in den anderen Orten nachzuweisen. 5.1.1 Dialektologische Einordnung Ohlsbach ist eine Gemeinde im Ortenaukreis im Westen Baden-Württembergs und liegt in unmittelbarer Nähe zur Kreisstadt Offenburg. Die ausgewählten Sprecher aus Ohlsbach erfüllen alle die in Kapitel 4.3 dargelegten Ortsfestigkeitskriterien für die Erhebungen des REDE-Projekts.
178
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Abb. 36: Lage der Orte Ohlsbach und Freiburg und Strukturgrenzen im Alemannischen nach WIESINGER (1983)
Aus sprachgeographischer Perspektive lässt sich Ohlsbach in der Hierarchisierung nach LAMELI (2013, vgl. auch Kapitel 3.1, Abbildung 17) zum (west)oberdeutschen Raum zählen. In kleinräumigerer Einteilung, in Abbildung 36 nach WIESINGER (1983), ist der Ort dem alemannischen und konkret dem niederalemannischen Sprachraum zuzuordnen. Diese Verortung basiert in der Regel, wie in Kapitel 3.1 dargelegt wurde, auf segmentalphonologischen und morphologischen Kriterien. Aus der Abbildung ist ersichtlich, dass anhand dieser Kriterien keinerlei kartierte Isoglossen den Erhebungsort Ohlsbach und den Vergleichsort Freiburg voneinander trennen – beide liegen im Kerngebiet des Niederalemannischen.145 Der alemannische Raum gilt in der Dialektologie vor allem in segmentalphonologischer und morphologischer Hinsicht als einer der am besten untersuchten Sprachräume des Deutschen (vgl. STRECK 2019: 206). Segmentalphonologische und morphologische Aspekte des Alemannischen sind nicht expliziter Untersuchungsgegenstand der vorliegenden Arbeit. Die segmentellen Basen der im Fokus 145 STRECK (2019: 213) postuliert hingegen ein sich bis an die westliche Staatsgrenze der BRD erstreckendes mittelalemannisches Übergangsgebiet zwischen Nieder- und Hochalemannisch und ordnet Freiburg in einer Karte ebendiesem Gebiet zu. Die dialektalen Unterschiede, die den Autor zu dieser Binnengliederung des Alemannischen führen, sind ausschließlich im vokalischen und konsonantischen und damit (abgesehen von Quantitätsunterschieden im Vokalismus) im segmentalphonologischen Bereich zu finden (vgl. STRECK 2019: 218–225).
Ausführliche Analyse – Oberdeutsch: Ohlsbach
179
stehenden Intonationsmuster werden im Zuge der Analysen erwähnt und unter semantisch-lexikalischen und pragmatischen Aspekten untersucht. Dialektologische Untersuchungen zur alemannischen segmentellen Phonologie, Morphologie und in Teilen zur Syntax bieten MITZKA (1977), WIESINGER (1983), STEGER / GABRIEL / SCHUPP (1989 ff.) im „Südwestdeutschen Sprachatlas“ sowie STRECK (2015). SPIEKERMANN (2008) untersucht Merkmale in standardnäheren Varietäten und Sprechlagen in Baden-Württemberg. Zur Binnengliederung des Alemannischen vgl. LÖFFLER (1986), GABRIEL (1997) und STRECK (2019). Eine Modellierung von regionalsprachlichen Spektren im mittelalemannischen Raum bietet BOHNERTKRAUS (2020). MÖLLER / ELSPASS (2019) bieten des Weiteren einen Beitrag zur Dynamik der arealen Lexik im Alemannischen. Prosodisch und vor allem intonatorisch wird das Alemannische, wie bereits mehrfach erwähnt, zwar als zum restlichen deutschen Sprachraum besonders different markiert, explizite Arbeiten zur Prosodie und besonders zur regionalen Intonation zum niederalemannischen Ohlsbach liegen meines Wissens jedoch nicht vor. Ich greife deshalb, wie einige Autoren vor mir, auf Studien zurück, die sich auf Untersuchungsorte aus dem weiteren alemannischen Raum stützen. Eine frühe Arbeit ist die von KETTERER (1930: 5–6) zur Intonation (in seinen Worten Satzmelodie) in Lenzkirch im Schwarzwald (nach WIESINGERS Binnengliederung zwar Alemannisch, aber Mittel- und nicht Niederalemannisch): Der Autor identifiziert „Unterschiede in der seelischen Haltung des Sprechenden, sowie ihre melodischen und lautlichen Wirkungen“, die sich aus drei Gruppen von Redearten ergeben: 1. eine „sachliche, überwiegend intellektuell bestimmte Rede“, 2. eine „energische, durch Affekt bestimmte Rede“ und 3. eine „sensitive, gefühlsbedingte Rede“. Typisch für die Intonation der ersten Redeart sind nach KETTERER (1930: 7) dabei „die relativ geringen Intervalle entsprechend der geringen seelischen Bewegtheit […], besonders aber das sofortige Abfallen derselben [der Tonbewegung, TP] hinter dem […] Träger des logisch-psychologischen Schwerpunkts.“ Der logischpsychologische Schwerpunkt entspricht dabei der akzentuierten Silbe einer Äußerungseinheit und korrespondiert als prosodische Einheit etwa mit dem Hervorhebungsakzent, bzw. im Rahmen des Tonsequenzmodells mit dem Nukleus. Funktional spricht KETTERER (1930: 6) bei dieser Redeart von einem Abschluss einer (meist deklarativen) Äußerung. Als charakteristisch hält KETTERER (1930: 7) für Äußerungen dieser Redeart entsprechend einen „abfallenden Schluß des Satzes“ fest. Von einer steigend-fallenden Abschlusskontur, wie sie in GILLES (2005) als für den Alemannischen Raum charakteristisch proklamiert wird, ist hier nicht die Rede. Die 2., affektbestimmte Redeart beschreibt KETTERER (1930: 8–9) erwartungsgemäß ähnlich der ersten. Der Unterschied bestehe lediglich in einer durch Emotionalität induzierten höheren Nutzung des F0-Umfangs. Dies lässt sich nicht als regional bedingt interpretieren, sondern findet sich auch in nicht regionalsprachlich ausgelegten Korpora (vgl. etwa KEHREIN 2002: 322 und SENDLMEIER 2018: 227–235). In der 3., gefühlsbedingten Redeart differenziert der Autor im Vergleich zur zweiten weitere Emotionsqualitäten (Erregungsniveau und Valenz, vgl. Kapitel 2.2.3.2) und deren Einfluss vor allem auf einen höheren oder niedrigeren genutzten F0-Umfang. KETTERER (1930: 13) führt unter diesem Teilkapitel auch Häsitationen,
180
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
die entweder emotional bedingt oder der kognitiven Verarbeitung des Sprechenden geschuldet sind und findet entsprechend „lange Quantität überall da, wo das Bedürfnis eines gefühlsmäßigen, epischen oder meditativen Verweilens besteht.“ Eine erhöhte zeitliche Erstreckung in Verbindung mit einem relativ flach gestalteten F0Verlauf auf bestimmten Segmenten ist demnach in solchen Äußerungen erwartbar, in denen eine Informationseinheit vorbereitet wird oder eine bereits angesetzte fortgeführt werden soll, wie es Einheiten der Klasse TURN leisten können. KRAEHENMANN (2003) zeigt in einer Untersuchung von Dialekten im Schweizer Kanton Thurgau (nach WIESINGER 1983 Übergangsgebiet Mittel- und Hochalemannisch), dass dort prosodische Einheiten der Quantität sowohl im vokalischen als auch im konsonantischen Bereich realisiert werden können und kennzeichnet den alemannischen Sprachraum somit abermals als prosodischen Ausnahmefall. PETERS (2006a) betont ebenso die in Kapitel 3.3 erläuterte intonatorische Sonderstellung des Südwestens, insbesondere des Alemannischen und untersucht im Rahmen des Dialektintonationsprojekts Sprecher*innen aus dem niederalemannischen Freiburg. Zur Intonation im Stadtgebiet Freiburg selbst existieren laut PETERS (2006a: 413) „nur indirekte Quellen“, weswegen der Autor auf Hinweise aus dem bundes- und vor allem schweizerdeutschen alemannischen Sprachraum zurückgreift. PETERS (2006a: 474) kommt dabei zu folgender Schlussfolgerung: „Phonologisch dürfte die Freiburger Intonation der Intonation des Berner Schweizerdeutschen […] sehr viel näher stehen als der Intonation des NSD.“ Erwartbar seien hier intonatorische Strukturen, die in etwa den in Kapitel 3.3 dargelegten Thesen BREMERS (1893) und SIEVERS (1901) zu einem konträren Intonationssystem des Alemannischen im Vergleich zum restlichen Sprachgebiet entsprechen. So würden nach PETERS (2006a: 413) etwa Dialekte des Alemannischen und Schwäbischen „anstelle eines fallenden Akzents (H*L) bei gewöhnlichen Aussagen einen tiefen oder steigenden Akzent (L*, L*H)“ aufweisen. Aus der konversationsanalytisch angelegten Studie von GILLES (2005, vgl. Kapitel 3.3) lassen sich überprüfbare Erwartungen bezüglich der hier zu untersuchenden Einheiten der Klassen REAKT, TURN und QUIT im Niederalemannischen sowie in den anderen zu untersuchenden Sprachräumen ableiten, da für jeden Untersuchungsort dieser Arbeit jeweils ein Vergleichsort desselben Sprachraums aus dem Dialektintonationsprojekt vorliegt. Für emotional-wertende Einheiten der Klasse POS finden sich leider keine vergleichbaren Funktionen. GILLES untersucht die Funktionskomplexe Abschluss, zu dem sich Einheiten der Klassen QUIT und REAKT zuordnen ließen, sowie Weiterweisung, zu der sich Einheiten der Klasse TURN zuordnen ließen (s. u.). Zu beachten ist hierbei, dass GILLES vollständige IPs als Untersuchungsdomäne wählt, die in der Regel längere Äußerungsabschnitte umfassen, als die ein- bis zweisilbigen Äußerungen, die hier den Untersuchungsschwerpunkt bilden. Konkreter Untersuchungsort ist wie bei PETERS (2006a) Freiburg. Für die vorliegende Untersuchung von besonderem Interesse sind die von GILLES ermittelten Funktionen des konversationellen Abschlusses, der sukzessiv reihenden Weiterweisung und der gleichordnend reihenden Weiterweisung.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
181
Für einen konversationellen Abschluss gelten nach GILLES (2005: 91–95) syntaktische Abgeschlossenheit und pragmatisch-textorganisatorische Abgeschlossenheit von Informationseinheiten oder ganzen center of interests als Kriterien. Zusätzlich werden das Erzeugen von TRPs und somit das zur-Disposition-Stellen des Rederechts bis hin zu tatsächlich erfolgten Sprecher*innenwechseln als eindeutige Abschlussmarker herangezogen. In der Projektion auf die vorliegende Untersuchung bedeutet das, dass für Erwartungen bezüglich der phonetischen Realisierung hier sowohl Einheiten der Klasse QUIT in der Funktion Abschluss, als auch Einheiten der Klasse REAKT als konkretes Reaktionssignal zur Signalisierung, dass das Rederecht abgegeben werden möchte, in Frage kommen. GILLES (2005: 162) ermittelt nun fallende Intonationsverläufe als die „wichtigste Kontur in der Abschlussfunktion […], die sich in allen Varietäten – außer dem Freiburgischen – häufig findet.“ Stattdessen realisieren Freiburger Sprecher*innen in GILLES (2005: 109–111 und 318) Studie konversationelle Abschlüsse durch eine steigend-fallende Kontur. Eine genaue Beschreibung dieser Kontur, die GILLES (2005: 326) als „das intonatorische Merkmal des Alemannischen“ deklariert,146 lautet wie folgt: […] eine im Abschlusskontext fungierende Kontur, bei der in der Nukleussilbe eine Anstiegsbewegung beginnt, die nach ungefähr zwei Silben ihr Maximum erreicht. Je nach Silbenzahl im Nukleus kann sich dann ein Hochplateau anschließen oder es beginnt die finale Fallbewegung, die bis in den tiefen Bereich verläuft und deren Endpunkt weitgehend dem Startpunkt der Nukleussilbe entspricht.
Dieser steigend-fallenden Kontur in der Funktion Abschluss stehen universell kurz fallende Intonationsmuster der Klasse QUIT in derselben Funktion gegenüber. Wird das Rederecht in einem TRP zur Disposition gestellt, sind zusätzlich noch universell kurz steigende Intonationsmuster der Klasse REAKT im Vergleich zu überprüfen, da sich diese so auch in Teilen als Abschluss, wie in GILLES definiert, interpretieren ließen. Für eine sukzessiv reihende Weiterweisung gilt syntaktische Unvollständigkeit als Kriterium einer eindeutigen Weiterweisung. Pragmatische Motivation, etwa die Unvollständigkeit eines Turns oder eines center of interests, gilt als Kriterium für eine potenzielle Weiterweisung (vgl. GILLES 2005: 113–133). Gleichordnend reihende Weiterweisungen sind solche, die in Listen oder Aufzählungen beobachtbar sind. Für beide Arten der Weiterweisung ermittelt GILLES (2005: 348) in Freiburg eine mit L*+H% notierte „Plateaukontur“, bei der die „Nukleussilbe durch einen Tiefton gebildet“ wird. Das Plateau kann sich nach dem Anstieg über mehrere Silben bis zum Ende der IP auf einem gleichbleibend hohen Level erstrecken. Formal durch das Plateau sowie funktional entsprechen die hier gelisteten Befunde in etwa denen, die in PISTOR (2017) universell für Einheiten der Klasse TURN ermittelt wurden. Eine Ähnlichkeit der prosodischen Einheiten ist hier also erwartbar.
146 Laut SIEBENHAAR (2012: 275) erklärt GILLES (2005) die steigend-fallende Abschlusskontur Freiburgs „etwas vorschnell“ als für das gesamte Alemannische gemeingültig, weist er sie doch zunächst lediglich für das Niederalemannische nach.
182
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
SIEBENHAAR (2012: 272–273) untersucht die Vorleseaussprache des Textes der Aesop-Fabel „Nordwind und Sonne“147 im Hinblick auf intonatorische Variation bei je vier Abiturienten an 160 Orten des deutschen DACH-Sprachraums, also neben der Bundesrepublik auch in der deutschsprachigen Schweiz und in Österreich. In der Auswertung ergaben sich in SIEBENHAAR (2012: 273) zwar im Gesamtvergleich „kaum deutliche Raumbilder“, es konnte dennoch eine „leicht erhöhte Variationsbreite im alemannischen Raum“ festgestellt werden. Das bedeutet, dass im Alemannischen auch in der standardorientierten Vorleseaussprache mit einem im Vergleich zum restlichen Sprachgebiet erhöht genutzten F0-Umfang zu rechnen ist. Es bleibt zu überprüfen, ob dies auch für die hier zu untersuchenden regulativen Intonationsmuster gilt. In einem späteren Beitrag hält SIEBENHAAR (2015: 195) als Resultat eines Forschungsprojekts zur Prosodie alemannischer Dialekte des schweizerdeutschen Raums fest, dass auditiv wahrgenommene prosodische Variation innerhalb der Dialektverbände in der Schweiz maßgeblich auf phonetischen, also realisationellen Differenzen beruht. Einen direkten Vergleich zu alemannischen Dialekten in Deutschland gibt es nicht. SIEBENHAAR (2015: 213–214) bezieht sich vor allem in der Beschreibung der Intonation in großen Teilen auf die Ergebnisse von LEEMANN (2012). Weitere Ergebnisse betreffen die Untersuchung der Sprechgeschwindigkeit, für die sich im Berndeutschen eine besonders geringe beobachten ließ, das Timing des F0-Gipfels auf akzentuierten Silben, bei im Berndeutschen der F0-Gipfel besonders spät relativ zur Silbe realisiert wird und die Phrasierung, besonders die Demarkation von Phrasengrenzen durch finale Dehnung. Diese ließ sich für Dialekte des Kantons Wallis kaum beobachten, ist aber im Berndeutschen besonders deutlich. Timing und Intonation werden in der Studie als in Teilen abhängig von der Wortklasse und dem im lexikalischen Eintrag festgeschriebenen Wortakzent beschrieben. Dies hebt erneut die Notwendigkeit einer simultanen Untersuchung der prosodischen in Verbindung mit der segmentellen Ebene, bzw. in dem Fall konkret der lexikalischen Ebene hervor. 5.1.2 Analyse 5.1.2.1 Übersicht 5.1.2.1.1 Phonetische Befunde Das Mess- und Klassifikationsexperiment im ersten untersuchten REDE-Datensatz P4 wurde in VJ.PEAT mit P3 als Trainingsdatensatz, den Koeffizientenkombinationen T1234 als Prädiktorvariablen und RF als Schätzermodell durchgeführt (vgl. Kapitel 4.3). Mit dem Experiment in diesem Setting konnte bewiesen werden, dass sich die gesuchten Intonationsmuster der vordefinierten Funktionsklassen REAKT, 147 Dieser standardisierte Vorlesetext ist auch eine der Erhebungssituationen des REDE-Projekts. Es liegen also sehrt gut vergleichbare Daten vor.
183
Ausführliche Analyse – Oberdeutsch: Ohlsbach
TURN, QUIT und POS mit ihren prototypischen Formen, wie sie in P1 und P2 analysiert wurden, bei allen untersuchten Sprechern und damit in allen Generationen in P4 nachweisen lassen. Der Kappawert des Ensembles (ENP) beträgt dabei k = 0,82 und weist den Klassifikationsprozess somit als statistisch robust aus (vgl. Abbildung 39). Im Folgenden lege ich die quantitativen Ergebnisse des Experiments dar, indem die Beleganzahlen, die sprecherbezogenen Ausprägungen der DCT-Koeffizienten und die dadurch modellierten Intonationsmuster sowie die einzelnen Kappawerte nach Form-Funktionsklassen beleuchtet werden. In P4 wurden insgesamt 145 messbare148 Belege aus drei Freundesgesprächen analysiert. Die Verteilungen der Muster sind dabei je nach Dynamik des Gesprächs unterschiedlich. Tabelle 7 gibt eine Übersicht über die Beleganzahlen in P4 nach Sprechern und Funktionsklassen. Sprecher Funktionsklasse
OGALT
OG7
OGJUNG2
Σ
REAKT
13
17
17
47
TURN
21
50
7
78
QUIT
3
6
3
12
POS
1
4
3
8
Σ
38
77
30
145
Tab. 7: Übersicht der Beleganzahlen nach Sprechern und Funktionsklassen in P4
Bei den unterschiedlichen Verteilungen spielen Faktoren wie Anzahl der am Gespräch Teilnehmenden, der Grad der kommunikativen Interaktion derselben sowie inhaltliche Aspekte der Gespräche eine Rolle. Ein gutes Beispiel für eine solche Dynamik ist das Freundesgespräch der mittleren Generation von OG7. Am Gespräch aktiv beteiligt sind drei Teilnehmende, zwei Männer und eine Frau. Aktiv beteiligt bedeutet, dass alle in ähnlichem Maße zum Gesprächsverlauf beitragen und nicht etwa ein Teilnehmender (etwa aus Gründen der Wissensdifferenzen gegenüber den anderen) monologisiert und damit den Großteil des Gesprächs dominiert, während die anderen lediglich Rezeptionssignale (Backchanneling) äußern. Eine gleichmäßigere Verteilung der Redeanteile bedeutet mehr sprachliche Interaktion, die darauf zurückzuführen sein kann, dass das Rederecht im Gespräch etwa durch Einheiten der Klasse REAKT in finaler Position, mit der dann konkreten Funktion Reaktionssignal, mehrfach aktiv zur Disposition gestellt wird. So zeigt OG7 neben OGJUNG2 eine relativ hohe Beleganzahl für Einheiten der Klasse REAKT. Auf der gegensätzlichen Seite kann der Kampf ums Rederecht darin beobachtet werden, wenn selbiges von einem Teilnehmenden nicht zur Disposition gestellt 148 Nicht messbar bedeutet hingegen, dass bestimmte Signale durch die Kriterien der in Kapitel 4.2.4.1.3 beschriebenen Kostenheuristik in VJ.PEAT verworfen wurden. Auf diese Weise kann es sein, dass auditiv mehr Belege innerhalb eines Gesprächs erkennbar sind, als sie technisch sauber messbar sind.
184
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
wird, oder es für sich selbst beansprucht werden soll. Dies geschieht häufig durch initial und medial positionierte Einheiten der Klasse TURN, für die bei OG7 die höchste Beleganzahl im gesamten Korpus P4 vorliegt. Oben genannte inhaltliche Aspekte sind nicht unbedingt als konkrete Aspekte des Informationsgehalts zu verstehen, können aber die thematische Entfaltung eines center of interests oder ganzen Gesprächs betreffen. So deuten etwa initial und medial positionierte Einheiten der Klasse QUIT auf den äußerungssemantischen und pragmatischen Abschluss einer substanziellen Informationseinheit hin, projizieren aber gleichzeitig das Nachfolgen eines weiteren inhaltlichen Aspekts, der zum gesamten center of interest und somit zu einer dynamischen thematischen Entfaltung beitragen kann. Im Gegensatz dazu kann die Beleganzahl für Einheiten der Klasse POS in einem Gespräch durchaus von inhaltlichen Aspekten wie denen des Informationsgehalts einer Äußerung abhängen. So dienen hauptsächlich isoliert auftretende Einheiten der Klasse POS der positiven Bewertung von Ereignissen, Zuständen, Referenten oder sogar Sprecher*innen und zwar in Abhängigkeit von der vermittelten Information. Ist diese etwa für den/die Rezipient*in neu und trägt zu einer kognitiven Veränderung im Erkenntnisprozess (change-of-state) bei, kann sie positiv bewertet werden. 149 Dieser Vorgang ist wiederum von den Wissensdifferenzen der Teilnehmenden und den dadurch gegebenenfalls resultierenden unterschiedlichen Gesprächsanteilen, der Dominanz einzelner Teilnehmender und der generellen Dynamik des Gesprächs abhängig. Im Freundesgespräch von OGALT dominiert dieser Sprecher mit seinem Anteil klar das Gespräch und zeigt dabei in dem thematischen Bereich Landwirtschaft einen höheren Wissensbestand als sein Gesprächspartner, der mit für OGALT nur wenigen neuen Informationen aufwarten kann. Dies macht das Auffinden nur eines einzelnen POS-Belegs nachvollziehbarer. Trotz der Differenzen in den funktionalen Feinheiten, die, wie ich zeigen werde, teilweise auf die syntagmatische Position der ermittelten Einheit zurückzuführen ist, ist das Konzept der vier übergeordneten Funktionsklassen REAKT, TURN, QUIT und POS auch formal stabil. Das lässt sich daran erkennen, dass die phonetischen Formen der Intonationsmuster derselben Funktionsklasse unabhängig von ihrer syntagmatischen Position nur deshalb von VJ.PEAT in die entsprechende Klasse eingeordnet werden, weil ihre spezifischen Ausprägungen der DCT-Koeffizienten dem Muster der jeweiligen Klasse entsprechen. Ein bestimmtes Muster wird dann als true positive einer vorgegebenen Funktionsklasse klassifiziert. Anders ausgedrückt: Die Formen der Intonationsmuster ein und derselben vorgegebenen Klasse sind unabhängig von ihrer syntagmatischen Position und der daraus teilweise resultierenden funktionalen Feindifferenzierung in ihren phonetischen prosodischen Merkmalen sehr ähnlich und weisen nur interindividuelle, aber keine systematischen Unterschiede auf. Nach der Differenzierung LADDS (2008) handelt es sich somit um realisationelle Unterschiede phonologisch gleicher Intonationskonturen (vgl. Kapitel 3.3). Ich gebe zunächst einen Überblick über die Mittelwerte der Ausprägungen der hier zum Tragen kommenden DCT-Koeffizienten T123, die in 149 Sämtliche hier angeführten Beispiele sind in Kapitel 5.1.2.2 und den anderen Einzelanalysen nachvollziehbar.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
185
diesem Experiment als Prädiktorvariablen genutzt wurden. Abbildung 37 zeigt diese Werte inklusive ihrer Standardabweichung (horizontale Striche von den einzelnen Symbolen aus) individuell nach Sprechern und Funktionsklassen.150 Phonetische Formen einzelner Muster werden zudem parallel zu ihren konversationsanalytischen und strukturellen Aspekten in den qualitativen Analysen in Kapitel 5.1.2.2 beleuchtet.
Abb. 37: Mittelwerte individueller Ausprägungen der DCT-Koeffizienten nach Sprechern und Funktionsklassen in P4
Die gestrichelte vertikale Linie jedes Kästchens repräsentiert zusätzlich zu den individuellen Werten jeweils den Mittelwert des entsprechenden Koeffizienten nach Muster von allen Sprechern aus P4. Im Vergleich dazu zeigt die durchgezogene vertikale Linie das Gleiche für das Referenzkorpus P3. Ich werde die Ausprägungen der einzelnen Koeffizienten nun nach Mustern durchgehen (von links nach rechts und von oben nach unten). Bei Intonationsmustern der Klasse POS variiert die zeitliche Erstreckung, repräsentiert durch T, interindividuell. OGJUNG2 realisiert die kürzesten Muster, OG7 liegt zwischen den Durchschnittswerten von P3 und P4 und das einzelne Muster von OGALT ist dasjenige mit der höchsten zeitlichen Erstreckung. Diese Verteilung ist aber nicht sprechersystematisch, wie die Ausprägung von T bei Mustern der anderen Klassen erkennen lässt. Was jedoch systematisch beobachtbar ist, ist ein genereller Rückgang der durchschnittlichen zeitlichen Erstreckung aller Muster von P3 zu P4. Die Ausprägungen von G[1] sind im Gesamtdurchschnitt geringer als bei P3, was dem Umstand geschuldet ist, dass in P3 größtenteils Frauenstimmen vorlagen, während in P4 nur männliche Informanten analysiert wurden. Auch G[2] 150 Aus Abbildung 34 in Kapitel 4.3 ist bereits ersichtlich, dass zwar alle DCT-Koeffizienten in die Klassifikation als Prädiktorvariablen einbezogen wurden, G[4] jedoch nur statistisch zur marginal besseren Differenzierung der Intonationsmuster beiträgt und keinerlei signifikante Ausprägungen zeigt. Auf die Darstellung dieses Koeffizienten wurde hier deshalb verzichtet. Sämtliche Mittelwerte der Ausprägung der DCT-Koeffizienten aller Sprecher der regionalsprachlichen Korpora P4–P7 inklusive ihrer Standardabweichung sind in tabellarischer Form in Anhang A einsehbar.
186
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
variiert interindividuell, der Durchschnittswert entspricht aber in etwa dem aus dem Referenzkorpus P3. Der entscheidende Koeffizient für die Klassifikation von Intonationsmustern der Klasse POS ist zudem der Peaks und Valleys repräsentierende Koeffizient G[3]: Hier lassen sich erhebliche interindividuelle Differenzen beobachten. Für Intonationsmuster der Klasse POS liegt allerdings auch die geringste Beleganzahl vor, bei OGALT sogar nur ein einziger Beleg. Die Belege von OG7 und OGALT in dieser Klasse differieren in der G[3]-Ausprägung erheblich voneinander und zeigen auch Differenzen in der T-Ausprägung. Insgesamt variieren bei POS interindividuell T, G[2] und G[3], also die zeitliche Erstreckung und der F0Verlauf in seiner Steilheit und genutztem Umfang. In Bezug auf regionalsprachliche Prosodie sind hier aber keine voreiligen, generalisierenden Schlüsse zu ziehen. Eine regional bedingte erhöhte Variationsbreite, also ein höherer genutzter F0-Umfang, wie es SIEBENHAAR (2012) in der Vorleseaussprache im Alemannischen beobachtet, lässt sich erst im Vergleich mit anderen Regionen zeigen, zumal sämtliche Muster in P4 einen gegenteiligen Trend und insgesamt einen geringer genutzten F0Umfang zeigen, als es etwa in P3 der Fall war. Dieser Trend wird sich auch für Intonationsmuster der anderen Klassen fortsetzen. Bei Intonationsmustern der Klasse QUIT lassen sich für T keine erwähnenswerten Unterschiede feststellen. Auch die Durchschnittswerte der Sprecher aus P4 liegen nahe an denjenigen aus P3, sind insgesamt allerdings, wie oben bereits erwähnt, ein wenig zurückgegangen. G[1] variiert bei Mustern der Klasse QUIT unter den Sprechern erheblich, während die Durchschnittswerte stabil bei denen aus P3 liegen. Diese Beobachtung muss in den qualitativen Analysen näher beleuchtet werden, da das wahrnehmbare Tonhöhenregister, repräsentiert durch G[1], bei Intonationsmustern der Klasse QUIT ein besonders relevantes Merkmal darstellt. In diesem Zusammenhang muss einzeln überprüft werden, um welche Art konkreter Funktion es sich handelt, da hier realisationelle Unterschiede auch semantische nach sich ziehen können. Das Perzeptionsexperiment in Kapitel 4.2.3 hat gezeigt, dass ein niedrigeres F0-Register (wie bei OGJUNG2) in Verbindung mit Abschluss oder Kenntnisnahme mit eher negativer Konnotation stehen kann, während ein höheres Register (wie bei OGALT) mit Kenntnisnahme mit neutraler Konnotation assoziiert wurde. Die Ausprägungen des Anstiegs- und Absinkparameters G[2] zeigen, dass die fallenden Intonationsmuster in P4 im Durchschnitt weniger steil fallen, als jene in P3. Die Durchschnittswerte bei OGALT entsprechen hingegen in etwa denen aus P3. Auch hier ist in der qualitativen Einzelanalyse zu überprüfen, ob es sich bei den Intonationsmustern der Klasse QUIT in der funktionalen Feinabstufung um Abschlüsse oder Kenntnisnahmen handelt und ob die Form-Funktionszuordnungen hier im gleichen Verhältnis stehen (Abschlüsse beschreiben einen steileren F0-Abfall als Kenntnisnahmen), wie in den Trainingskorpora und dem Perzeptionsexperiment. Für G[3] lassen sich weder interindividuell in P4, noch im Vergleich zu P3 Besonderheiten feststellen. Die Durchschnittswerte in P4 liegen knapp über denen aus P3, was auf eine leichte Tendenz zu eher geradlinig und früh fallenden Intonationsmustern in dieser Klasse hinweist. Die äußerst geringen Ausprägungen von G[3] als der Koeffizient, der Peaks und Valleys modelliert, zeigen
Ausführliche Analyse – Oberdeutsch: Ohlsbach
187
außerdem, dass sich im niederalemannischen Ohlsbach in regulativen Abschlusskonturen der Klasse QUIT keine steigend-fallenden Intonationskonturen finden lassen, die GILLES (2005) auf substanziellen IPs bei Abschlüssen als das intonatorische Charakteristikum des alemannischen Raums beschreibt. Domänenspezifische Unterschiede und der Kontrast substanziell vs. regulativ (GILLES untersucht nur substanzielle IPs) lassen die phonologisch-funktional ähnlichen prosodischen Einheiten hier formal unterschiedlich auftreten. Die in P4 gemessenen Intonationsmuster der Klasse REAKT zeigen interindividuell nur minimale Variation, dafür liegen die Durchschnittswerte aller Koeffizienten außer T in P4 anders als in P3. Für T zeigt sich hier der geringste Rückgang der durchschnittlichen zeitlichen Erstreckung im Gesamttrend aller Musterklassen. Die durchschnittliche Ausprägung von G[1] lässt erneut auf ein im Durchschnitt tieferes Register schließen, was auch hier wieder durch den Kontrast von Frauenund Männerstimmen vs. nur Männerstimmen bedingt ist. Die Ausprägungen von G[2] sind weniger stark als in P3 und zeigen im Durchschnitt daher weniger steil steigende Intonationsverläufe als in P3, was zu derselben Tendenz der anderen, bereits besprochenen Muster passt. Ähnliches indiziert auch der Durchschnittswert von G[3], der hier für alle Sprecher um null liegt, in P3 etwas darüber. Das lässt in Kombination mit G[2] erkennen, dass in P3 eher konvex und steil steigende Intonationsmuster der Klasse REAKT realisiert wurden, während sie in P4 eher einen geradlinigen und flacheren Verlauf beschreiben. Diese formalen Unterschiede, die im letzten Punkt dieselben wie die der Klasse QUIT sind, wurden bereits bei den Universalien in PISTOR (2017) beobachtet, wo diese beiden häufigen Formverläufe als phonetische Varianten voneinander kategorisiert wurden. Es handelt sich hierbei also erneut um realisationelle Unterschiede. Eine solche kontinuierliche Anstiegskontur in Weiterweisungsfunktionen ermittelt GILLES (2005: 262–264 und 346– 350) für Hamburg, Köln, Mannheim und München, nicht jedoch für Freiburg im Niederalemannischen, für das in allen funktionalen Differenzierungen der Weiterweisung ausschließlich die in Kapitel 5.1.1 beschriebene Plateaukontur ermittelt wurde. Auch für die in P4 gemessenen Intonationsmuster der Klasse TURN bleibt der Gesamttrend des Rückgangs der durchschnittlichen zeitlichen Erstreckung, repräsentiert durch T, beobachtbar. Zudem lassen sich unter den Sprechern unterschiedliche Ausprägungen ermitteln, die aber, wie oben bereits erwähnt, im Vergleich mit den anderen Musterklassen zunächst auf keine Systematik schließen lassen. Individuelle Unterschiede in der zeitlichen Erstreckung bei Intonationsmustern der Klasse TURN ließen sich bereits in den Trainingssequenzen in Kapitel 4.2.4.2.2 bei Sprecher*innen aus P3 belegen. Aus dem Perzeptionsexperiment geht allerdings hervor, dass die wahrnehmbare Dauer ein ausschlaggebendes perzeptives Merkmal dieser Klasse (und in VJ.PEAT wie auch bei Menschen ein relevantes Merkmal für eine Klassifikation) ist. Hier gilt es, erneut die in Kapitel 4.2.4.2.2 aufgestellte Hypothese aufzugreifen, nach der die Wahl der segmentellen Basis für die Intonationsmuster sich möglicherweise auch auf die Ausprägung ihrer phonetischen Merkmale auswirken kann, und zwar in diesem Fall konkret auf die zeitliche Erstreckung. Diesem Punkt ist in den qualitativen Analysen weiter nachzugehen. Die weiteren
188
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Koeffizienten in P4 zeigen bei TURN wenig bemerkenswerte Ausprägungen. Erneut zu konstatieren ist ein im Durchschnitt tieferes F0-Register in G[1]. Die Werte für G[2] und G[3] liegen, wie in P3, um null, wobei G[2] minimal über den Nullwert hinausgeht. Die Verläufe der Muster der Klasse TURN sind somit prototypisch und sind entweder relativ gleichbleibend oder zeigen ein leichtes Absinken von F0 über das gesamte Muster hinweg, das in der durchschnittlichen zeitlichen Erstreckung in diesem Korpus den höchsten Wert annimmt. Formal entsprechen Intonationsmuster dieser Klasse erwartungsgemäß in großen Teilen der in GILLES (2005) und oben beschriebenen Plateaukontur bei sukzessiv und gleichordnend reihenden Weiterweisungen. Lediglich der vorangehende Tiefton mit L* lässt sich hier nicht belegen, was allerdings erneut dem Fokus auf unterschiedliche prosodische Domänen, dem theoretischen Rahmen der Analysen und damit einhergehenden Segmentierungen der Einheiten geschuldet ist. Abbildung 38 fasst alle soeben beschriebenen Ausprägungen der Koeffizienten in der Remodellierung zusammen. Die Abbildung zeigt die gemessenen Intonationsmuster von P4 (unten) in einer Zusammenstellung der Sweeps im direkten Vergleich zu denen des Referenzkorpus P3 (oben) nach den Funktionsklassen. Die Zahl über den Verläufen zeigt die durchschnittliche zeitliche Erstreckung.
Abb. 38: Vergleich der analysierten Intonationsmuster in P3 (oben) und P4 (unten)
Grundsätzlich ist festzuhalten, dass sich die Intonationsmuster aus P3 in der erwarteten Form in P4 wiederfinden lassen. Wie bereits von P1 auf P3 in 4.2.4.2.2 ist von P3 auf P4 ein erneuter Rückgang der durchschnittlichen zeitlichen Erstreckung der Intonationsmuster aller Funktionsklassen zu konstatieren. Die Reduzierung der Durchschnittswerte um 8 ms in TURN ist dabei die höchste, mit Abstand gefolgt
Ausführliche Analyse – Oberdeutsch: Ohlsbach
189
allen anderen Funktionsklassen mit einer Reduzierung von lediglich 2 ms. Die Distinktion zwischen den längeren Mustern der Klassen POS und TURN und den kürzeren der Klassen QUIT und REAKT bleibt dennoch erhalten. Zusätzlich ist für alle Muster, außer denen der Klasse TURN, eine geringere Steilheit der Verläufe respektive ein geringerer genutzter F0-Umfang im Vergleich zu P3 festzuhalten. Die hier und die in P3 gemessenen Intonationsmuster sind, abgesehen von diesen geringfügigen phonetischen Unterschieden, die maßgeblich auf interindividueller und keiner systematisch erkennbaren regionalen Variation beruhen, und einem bemerkenswerten Rückgang der durchschnittlichen zeitlichen Erstreckung, phonologisch gleich. Die geringfügigen phonetischen Unterschiede scheinen korpus- und sprecher*innen-, aber nicht regionsbedingt zu sein. Die interindividuellen realisationellen Unterschiede sowie die ungleichmäßigen Beleganzahlen für die einzelnen Funktionsklassen schlagen sich auch in den Kappawerten und somit der Güte der Binärklassifikationen nieder. Abbildung 39 zeigt die Kappawerte der Binärklassifikationen in P4 mit P3 als Trainingsdatensatz, T1234 als Prädiktorvariablen und RF als Schätzermodell nach Funktionsklassen und dem Ensemble (vgl. Kapitel 4.2.4.2.1). Bei den Balkendiagrammen der einzelnen Funktionsklassen ist in der gestrichelten horizontalen Linie der Durchschnittskappawert abgebildet.
Abb. 39: Kappawerte der Binärklassifikationen in P4 mit P3 als Trainingsdatensatz, T1234 als Prädiktorvariablen und RF als Schätzermodell
Deutlich zu erkennen ist, dass sich mit der Binärklassifikation über das Ensemble erneut ein höherer Kappawert erzielen lässt, als wenn alle Binärklassifikatoren einzeln agieren und aus den Einzelwerten der Durchschnitt berechnet wird. Ebenso deutlich zu erkennen sind die Unterschiede der Güte der einzelnen Binärklassifika-
190
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
toren. Korrelierbar ist, dass diejenigen Funktionsklassen, die die höchste, oben beschriebene, interindividuelle Variation aufzeigen und die geringsten Beleganzahlen haben, auch in der Bewertung der Klassifikation am schlechtesten abschneiden: QUIT und POS zeigen hier die geringsten Kappawerte, die höchste interindividuelle Variation und die wenigsten Belege. Wenn bei geringer Beleganzahl die individuellen Ausprägungen der Koeffizienten unter den Sprechern variieren, wird eine Klassifikation erschwert. Für TURN wurden zwar die meisten Belege analysiert, aber auch hier variiert T unter den Sprechern. Im Vergleich dazu variieren die einzelnen Koeffizienten in REAKT nur minimal. Dies erhöht die phonetische Ähnlichkeit der einzelnen Intonationsmuster und macht deshalb auch die Klassifikation eindeutiger. Klassifikationen von Mustern der Klasse REAKT wurden in diesem Experiment entsprechend mit dem höchsten Kappawert von k = 0,92 vorgenommen. Wie oben bereits erwähnt, beträgt der Kappawert des Ensembles (ENP) k = 0,82 und weist den Klassifikationsprozess in P4 insgesamt aber als geglückt und statistisch robust aus. Die in Kapitel 4.1 formulierten Forschungsfragen 1 und 2 lassen sich für P4 nun wie folgt beantworten: 1. Die basalen Formen der potenziell universellen Intonationsmuster aus PISTOR (2017) existieren in ihren vorangenommenen Funktionsklassen so auch in dem mit einem Sonderstatus gekennzeichneten Intonationssystem des (Nieder-)Alemannischen. 2. Es lassen sich intergenerationell und interindividuell geringe realisationelle Unterschiede feststellen, die aber bislang keiner Systematik zugeordnet werden können und somit auch nicht auf die über den DWert ermittelten unterschiedlichen Dialektalitätsniveaus der Sprecher verschiedener Generationen in der Erhebungssituation Freundesgespräch zurückführbar sind. Im folgenden Teilkapitel gilt es nun, die Forschungsfragen 3 und 4 für Ohlsbach zu beantworten und der Hypothese nachzugehen, dass für die syntagmatischen Positionen der prosodischen Einheiten in den jeweiligen Funktionsklassen Präferenzen und Ausschlüsse bestehen. Weiterhin wird im Einzelnen geklärt, wie die ermittelte Position mit der lexikalischen und der prosodischen Information interagiert, um letztendlich die komplexe Äußerungsbedeutung der Einheit zu konstituieren. 5.1.2.1.2 Strukturelle und segmentelle Befunde Bevor ich in die Einzelanalysen der Intonationsmuster nach Funktionsklassen einsteige, zeige ich die strukturellen Befunde und gehe damit besonders auf die in Kapitel 4.1 formulierte Forschungsfrage 4 ein: Wie gestaltet sich die syntagmatische Verteilung der Einheiten? Für sämtliche analysierten Intonationsmuster in P4 und den nachfolgenden Sprachdaten aus REDE wurde ihre syntagmatische Position ermittelt, die entweder initial, medial, final oder isoliert sein kann. Die Kriterien zur syntagmatischen Positionsbestimmung ergeben sich aus denjenigen sequenziellen, äußerungssemantischen und pragmatischen Kriterien, die am Ende in Kapitel 4.2.2 dargelegt wurden. Abbildung 40 zeigt die absoluten Zahlen der Verteilung der analysierten Intonationsmuster nach Funktionsklassen in ihren
Ausführliche Analyse – Oberdeutsch: Ohlsbach
191
ermittelten syntagmatischen Positionen in P4. Von oben nach unten und von links nach rechts sind jeweils die Verteilungen für die einzelnen Sprecher (OGALT, OG7, OGJUNG2) und die sich daraus ergebende Gesamtverteilung (OG Gesamt) abgebildet.
Abb. 40: Verteilung der analysierten Intonationsmuster nach Funktionsklassen in ihren ermittelten syntagmatischen Positionen in P4 für die einzelnen Sprecher und in der Gesamtverteilung
192
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Eine der Hypothesen der vorliegenden Arbeit besagt, dass die Feindifferenzierung der Funktion einer prosodischen Einheit einer jeweiligen Form-Funktionsklasse in Teilen durch die syntagmatische Position bestimmt wird, in der sie ermittelt wird. Es wird sich zeigen, dass dies in Abhängigkeit der Form-Funktionsklasse nur auf einzelne und bei Einheiten der Klasse POS auf keine der angesetzten syntagmatischen Positionen zutrifft. Ich gebe zunächst die Verteilungen der einzelnen Einheiten an und prognostiziere dann die funktionale Feindifferenzierung, für die ich in den darauffolgenden Einzelanalysen Belege als Beispiele liefern werde. Für Einheiten der Klasse REAKT ist die dynamischste syntagmatische Verteilung von allen hier angesetzten Funktionsklassen festzustellen. Diese zeigt sich dergestalt, dass sich Intonationsmuster dieser Form-Funktionsklasse in allen syntagmatischen Positionen ermitteln ließen. In der Gesamtverteilung liegt die höchste Belegzahl in der medialen Position. Diese Beobachtung ist allerdings nicht systematisch auf die einzelnen Sprecher zurückführbar. So wurden zwar für OGALT in selbiger Position auch die meisten Belege ermittelt, für OG7 trifft dies aber auf die finale und für OGJUNG2 auf die isolierte Position zu. Gemein ist allen drei Sprechern, dass die initiale Position für Einheiten der Klasse REAKT die am wenigsten präferierte ist, da sich hier bei allen die geringste Anzahl an Belegen finden lässt. Aus den Einzelanalysen wird ersichtlich werden, dass dies jedoch auch keiner Systematik folgt. Zudem wird daraus hervorgehen, dass ein Schnitt und damit eine funktionale Differenzierung für diese Funktionsklasse nicht zwischen allen vier Positionen, sondern zwischen den durch gleiche Funktionen zusammengehörenden Positionen initial/medial und final/isoliert vorgenommen werden muss. Ich unterscheide dahingehend zwischen Reaktions- und Aktivierungssignalen. Reaktionssignale sind direkt eingeforderte und etwa durch erfolgte Sprecher*innenwechsel nachvollziehbare prosodische Einheiten der Klasse REAKT in finaler und isolierter Position. Aktivierungssignale sind nicht an der konversationellen Oberfläche ersichtliche, sondern erst durch Sequenz- und Strukturanalysen vor allem aus äußerungssemantischer, inhaltlicher Perspektive nachvollziehbare prosodische Einheiten dieser Klasse in initialer und medialer Position. Einheiten der Klasse REAKT steuern damit den direkten Kommunikationsverlauf entweder auf der (oberflächlich beobachtbaren) Gesprächsebene oder der mentalen (Gedächtnis-)Ebene. Ein ganz anderes Bild beschreibt die syntagmatische Verteilung von Einheiten der Klasse TURN. Hier liegen bei allen Sprechern klare Präferenzen und Ausschlüsse vor, die die Einheiten im gesamten Ohlsbacher Korpus P4 ausschließlich in initialer und medialer Position auftauchen lassen. Der in der Gesamtverteilung zu sehende Trend, dass sich in medialer Position die meisten Belege in dieser Klasse ermitteln lassen, trifft auf OGALT nicht zu, bei dem die meisten Belege in initialer Position zu finden sind. Die beiden anderen Sprecher zeigen eine untereinander ähnliche Verteilung, die den Gesamttrend bestimmt, zumal OG7 den Löwenanteil aller Belege dieser Klasse ausmacht, vor allem derjenigen in medialer Position. In Beispielen der Einzelanalysen werde ich zeigen, dass durch diese zwei Positionen auch die funktionale Feindifferenzierung bestimmt wird, die diskursorganisatorisch den Kampf um das Rederecht widerspiegeln. Hierbei unterscheide ich, wie zuvor in PISTOR (2017) und in Anlehnung an SCHMIDT (2001), KEHREIN / RABANUS
Ausführliche Analyse – Oberdeutsch: Ohlsbach
193
(2001) und KEHREIN (2002), zwischen das Rederecht beanspruchenden Signalen in initialer Position und das Rederecht haltenden Signalen in medialer Position. Einheiten der Klasse TURN sind diskursorganisatorischer Natur und steuern damit den direkt beobachtbaren Kommunikationsverlauf. Die syntagmatische Verteilung in der Klasse QUIT zeigt bei allen Sprechern in P4, dass die Einheiten initial, medial und isoliert auftreten können, niemals jedoch in finaler Position. Die in etwa gleich verteilten Beleganzahlen auf die einzelnen Positionen weisen auch hier auf keinerlei Systematik hin. Erwähnenswert ist, dass sich für OGJUNG2 kein Beleg in medialer Position ermitteln ließ. Wichtiger ist hier jedoch, dass eine grundlegende funktionale Differenzierung zwischen initial/medial auftauchenden Einheiten und jenen, die isoliert ermittelt wurden, vorgenommen werden muss. Initial und medial positionierte Einheiten der Klasse QUIT signalisieren die potenzielle informatorische Abgeschlossenheit einer Informationseinheit, aber auch die Ankündigung einer Fortsetzung. Einheiten dieser Klasse schließen somit nicht nur ab, sondern machen eine Fortsetzung des inhaltlichen Themas, etwa eines center of interests, im noch folgenden Diskurs derselben Sprechenden erwartbar, bzw. projizieren diese. Die Einheiten stellen also neben einem informatorischen Abschluss auch immer eine Fortsetzungsprojektion (vgl. KEHREIN 2002: 206 und 226) dar.151 Das lässt sich daran erkennen, dass Einheiten dieser Klasse und dieser Funktion nie in finaler Position auftreten. Diese Einheiten sind diskursorganisatorische Gliederungssignale und steuern erneut den direkt beobachtbaren Kommunikationsverlauf. Isoliert auftretende Einheiten der Klasse QUIT sind in diesem Korpus ausnahmslos Erkenntnisprozessmarker (vgl. IMO 2009) mit neutraler oder negativer Konnotation. Einheiten dieser Klasse und dieser Funktion sind emotionale prosodische Einheiten. Diese stellen, wie in Kapitel 2.2.3.2 dargelegt wurde, Bewertungen und Einstellungen gegenüber aktuellen Elementen der Umwelt dar. Konkret darstellen und somit bewertet werden können diese die Veränderung des kognitiven Stands, eine relevante Information, ein Ereignis oder Kommunikationspartner*innen. Die Analyse der Daten wird somit eine Neubewertung der vordefinierten universellen Funktionsklassen fordern, die in diesem Fall auch eine Neustrukturierung nach sich ziehen wird. Einheiten der Klasse POS zeigen sowohl positionell als auch in ihrer funktionalen Differenzierung ein im Vergleich zu den anderen Klassen sehr eigenständiges Bild. Der erste Punkt dieser Eigenständigkeit ist die klare Präferenz für bestimmte syntagmatische Positionen. Einheiten dieser Klasse tauchen nur initial und isoliert auf, wobei die initiale Position nur bei OGJUNG2 besetzt ist und sich die Einheiten für die anderen Sprecher ausschließlich in isolierter Position ermitteln ließen, wenngleich in relativ geringer Anzahl.152 Der zweite Punkt ist die Redundanz der syntagmatischen Position für die konkrete Funktion der Einheit, denn diese bleibt in 151 Der Unterschied zu KEHREIN (2002) ist dabei, dass diese Funktion erstens in KEHREINS Daten auf global steigenden Intonationsmustern gefunden wurde und zweitens hier derselbe Sprecher die Rede fortsetzt, während es bei KEHREIN stets zu einem Sprecher*innenwechsel kam. 152 Aus den Analysen der nachfolgenden Untersuchungsorte wird hervorgehen, dass sich der Trend zur Präferenz der Einheiten in isolierter Position bestätigen lässt und initiale Belege die Ausnahme bilden.
194
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
beiden Positionen exakt gleich. Einheiten der Klasse POS signalisieren eine positive Bewertung eines im Diskurs vorangegangenen, aktuellen Elements der Umwelt (dieselben wie bei QUIT in isolierter Position). Es handelt sich somit um eine emotionale prosodische Einheit. Die letzte der in Kapitel 4.1 formulierten Forschungsfragen, die es hier zu beantworten gilt, ist die, auf welcher segmentellen Basis die Intonationsmuster realisiert werden. In der folgenden Tabelle lässt sich nachvollziehen, auf welchen Partikeln, Interjektionen und Ein-Wort-Äußerungen als segmenteller Basis jeweils das analysierte Intonationsmuster in welcher syntagmatischen Position realisiert wurde. Die Ergebnisse werden nach Klasse, Sprecher und Position geordnet und als IPATranskriptionen wiedergegeben. Die Einträge in den einzelnen Zellen sind nicht als absolute Anzahlen zu verstehen und stimmen auch nicht mit den oben gegebenen Beleganzahlen überein, da Mehrfachnennungen nicht separat notiert wurden. So wurden etwa für bei OGJUNG2 zwei Belege für Einheiten der Klasse QUIT in isolierter Position ermittelt. Da beide Belege auf dem Vokal [ɐ̃] produziert wurden, enthält die entsprechende Zelle nur einen Eintrag.
195
Ausführliche Analyse – Oberdeutsch: Ohlsbach
syntagmatische Position Klasse
Sprecher initial
final
[nə̃], [nɛ] ,
[ʋ̞a͡ɛʃ], [ɦ̰ɛ], [nə],
[nɛ], [nə],
[ɡɛ̝l]
[ja̞ ]̠̃
[ɡɛ̝l]
OG7
[ja̠]
[hɛ], [ʋa͡ɛʃ], [ʔa̠x]
OGJUNG2
[hɜ]
OGALT
REAKT
medial
OGALT
[ɡɜ], [ɔdɞ], [nə]
isoliert
[ɦ̰ɛ], [nɛ]
[ja̠], [nɛt]
̆ [ʋa̠͡eɕ], [ʋa̠͡esd̥],
[ɵdʌ̙], [ʋa̠s],
[ja̠], [ʋa̠s],
[ʋa͡ɛʃ]
[ʋa͡ɛʃ]
[hɘ]
[ʔʊn],
[ʔœˑ], [ʔɛˑ], [ɑβɞ],
[œˑə],
[ʔɑβɞ], [ʔʊn]
[ʔa̠ˑbɐ],
-
-
-
-
-
-
[ʔɑβɞ]
TURN OG7
[ʔɛː], [ʔœː],
[ʔɛː], [ʔœˑm], [dɜː],
[ʔœˑm],
[hɛnˑ], [ʔœː], [ʔʊn],
[ʔa̠ːbɐ],
[dɪ ̆sha͡esd̥], [ʔoːdʌ]
[ʔʊn], [ʋa̠͡el]
[ʔɪmˑ],
[ɜmˑ], [ɛ̽ː], [ja̠ː],
[ʔa̠βɐ]
[ʔʊn]
OGALT
[z̥o̽]
[nʉ]
-
[a̰x]
OG7
[ɡɜnæ͡ɔ]
[so̽]
-
[ɡɜnæ͡ɞ]
OGJUNG2
[ja̠]
-
-
[ɐ̃] [ʔmɦm]
OGJUNG2
QUIT
OGALT
-
-
-
OG7
-
-
-
[ʔa̠ː], [o̽ː], POS
[ʃø̞ːn], [ʔa̠x̆ soː]
OGJUNG2
[ʔa̠x̆ so], [ʔa̠ː]
-
-
[ʔa̠s̆ oː]
Tab. 8: Segmentelle Basen aller analysierten Intonationsmuster in P4 nach Klasse, Sprecher und syntagmatischer Position
196
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
In allen Klassen und unterschiedlichen syntagmatischen Positionen finden sich lexikalisch und propositional „leere“ Diskurspartikeln der Klassen hm, hä, äh, ah, oh sowie die hier regional geprägte Variante gell. Zudem ließen sich auch die Antwortpartikel ja, die Negationspartikel nicht und die ursprüngliche Gradpartikel genau sowie die Konjunktion bzw. das Adverb so, die hier jedoch als diskurssteuernde und wertende Elemente (Diskurspartikel oder -marker) verwendet werden, ermitteln. Genau und so treten dabei ausschließlich in der Klasse QUIT auf, hier jedoch in verschiedenen syntagmatischen Positionen. Die letzten vier Äußerungen haben eine lexikalische Eigensemantik, die es in den Analysen zu berücksichtigen gilt. Das trifft genauso auf hier auftretende Ein-Wort-Äußerungen zu, wie etwa die Konjunktionen aber, oder, weil sowie das Adjektiv schön, die auch als solche verwendet werden und daher als Ein-Wort-Äußerungen interpretierbar sind. Aber und weil treten dabei nur in beiden besetzten Positionen der Klasse TURN auf. Oder ließ sich zudem in finaler Position der Klasse REAKT ermitteln. Schön tritt nur einmal in isolierter Position der Klasse POS auf. Eine lexikalische Bedeutung und ein propositionaler Gehalt lässt sich außerdem zuletzt für die regional typische Variante weisch konstatieren, bei der die Ein-Wort-Äußerung durch die für das Alemannische typische Koronalisierung sowie eine phonetische Reduktion bis Tilgung des konsonantischen Auslauts mit einer in der Regel einhergehenden Tilgung des gesamten Pronomens der floskelhaften Äußerung von weißt du entstand. Diese regional typische Variante findet sich nur in der Klasse REAKT und dort neben einem einzigen Beleg in finaler präferiert in medialer Position. So verwendet OGJUNG2 ausschließlich phonetische Varianten von weisch als segmentelle Basis für Intonationsmuster der Klasse REAKT in medialer Position. Sämtliche potenziellen Eigenbedeutungen der lexikalischen Semantik und des propositionalen Gehalts werden in den folgenden Einzelanalysen zusätzlich zur prosodischen Information beleuchtet und die Gewichtung der einzelnen Signalisierungssysteme gegebenenfalls diskutiert.
5.1.2.2 Einzelanalysen Die Präsentation der Ergebnisse aus den Einzelanalysen erfolgt beispielhaft und nach Form-Funktionsklassen geordnet. Hierbei wird in der Reihenfolge REAKT, TURN, QUIT, POS für alle besetzten syntagmatischen Positionen jeweils mindestens ein ausgewähltes Beispiel analysiert. Die Transkription der Beispiele erfolgt im GAT2-Format. Alle analysierten Einheiten des jeweiligen Beispiels sind durch Fettdruck hervorgehoben. Das bedeutet nicht, dass diese die einzigen analysierbaren Einheiten des jeweiligen Beispiels sind. In manchen Fällen wird daher mehrfach auf dasselbe Transkript referiert. Im Trans-kriptkopf ist jeweils vermerkt, welche Form-Funktionsklasse in welcher syntagmatischen Position im Beispiel behandelt wird. Alle am Gespräch Teilnehmenden werden mit einem I (Interaktant*in) abgekürzt und fortlaufend nummeriert, wobei I1 immer der ausgewählte REDE-Informant ist. Neben den Funktionsanalysen enthalten alle Beispiele phonetische Einzelformanalysen der jeweils untersuchten prosodischen Einheiten aus VJ.PEAT.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
197
5.1.2.2.1 REAKT Die vorangenommene linguistische Grundfunktion für Intonationsmuster dieser Klasse operiert auf der übergeordneten Ebene der Kommunikationsorganisation. Sie lautet Reaktionssignal und beinhaltet Reaktionsaufforderungen und die Kommunikation von Verstehensproblemen (vgl. SCHMIDT 2001: 25, KEHREIN 2002: 223–224, PISTOR 2017: 69, oben Kapitel 2.3.1 und Abbildung 16). Die Kommunikation von Verstehensproblemen als eine Form der Reaktionsaufforderung sowie unspezifiziertere Reaktionsaufforderungen, sich zu einem Kommunikationsgegenstand (ein Ereignis, ein Zustand oder ein Referent) zu verhalten, lassen sich mit den hier gewählten Methoden in allen Gesprächen des REDE-Datensatzes overt nur in isolierter und finaler syntagmatischer Position empirisch nachweisen. Da es sich hier um die vorangenommene, universelle Grundfunktion handelt, gebe ich zuerst Beispiele für diese beiden syntagmatischen Positionen und arbeite mich dann in den in Tabelle 8 aufgeführten Positionen von rechts nach links. Isoliert Transkript 08: OGJUNG2 – Party (REAKT isoliert) 01 02 03 04 05 06 07 08 09 10 11 12 13
I2: I1: I1: I2: I1: I2: I1: I1: I2: I1: I2: I1: I2:
die d_lIsa ((Nachname)). ^A:H. (.) hÖ=die war AU dabI, (.) sch_aber AU scho Älter; die=is so Alt wie ICH. jA- (.) die war aber lEtzsch=jahr nEt dabI. die war schon e PAAR jahr ne_mehr dabI; (--) okay, (.) (nA) die war dabI. (.) ´HÄ, die war dabI.
Transkript 08 zeigt einen Ausschnitt aus dem Freundesgespräch von OGJUNG2, das mit einem etwa gleichaltrigen Freund des Informanten stattfindet. Die beiden Gesprächsteilnehmer unterhalten sich im Rahmen dieses Ausschnitts über eine jährlich stattfindende Party, die sie regelmäßig besuchen, an der zwar I2, I1 aber dieses Jahr nicht teilgenommen hat. Im direkten Vorfeld des vorliegenden Ausschnitts fragt I1 I2 nach seiner Begleitung. Nach der Information über den Namen und einem Austausch über das Alter der Begleitung (Z. 01–07) fällt I1 in Z. 08 auf, dass die Begleitperson in seiner Erinnerung letztes Jahr nicht auf der Party war. In Z. 09 gibt I2 die zusätzliche Information, dass die Begleitperson schon einige Jahre nicht mehr auf der Party war, um dann in Z. 11 erneut darauf hinzuweisen, dass sie aber
198
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
dabei war, und zwar in diesem Jahr. Das wird aber nicht explizit geäußert und verursacht durch den inhaltlichen und narrativ zeitlichen Sprung (dabei vs. nicht dabei, die letzten Jahre vs. dieses Jahr) bei I1 ein Verstehensproblem, das nach einer Minimalpause in Z. 12 in einer regulativen Informationseinheit (R_IE) durch die Diskurspartikel hä mit einem steigenden Intonationsmuster kommuniziert wird (vgl. Abbildung 42). I2 wiederholt daraufhin bis auf die vorangestellte Partikel na die gesamte substanzielle Informationseinheit (S_IE), sogar mit der gleichen prosodischen Information (Äußerungsakzent auf der letzten Silbe von dabei und final fallendes Intonationsmuster). Der jeweils vor und nach der R_IE stattfindende Sprecherwechsel sowie die jeweils vorher und nachher auftretenden S_IE des anderen Sprechers klassifiziert die hier untersuchte Einheit nach den in Kapitel 4.2.2 vorgestellten Charakteristika als isoliert in seiner syntagmatischen Position. Abbildung 41 zeigt das modellierte Funktionsschema für die untersuchte Einheit in dieser Position.
Abb. 41: Funktionsschema für eine isoliert positionierte Einheit der Klasse REAKT
Die S_IE1 von I2 aus Z. 11 befindet sich nach dessen Äußerung durch das soeben beschriebene Verstehensproblem nicht im aktiven, sondern im semiaktiven Status des Hörers I1. Mit dem Äußern der R_IE in Z. 12 verweist I1 zunächst reaktiv auf die problematische S_IE1 von I2 (Z. 11) und fordert gleichermaßen progressiv eine Behebung des Kommunikationsproblems, die von I2 mit der fast exakten Wiederholung von R_IE1 konsequent erfüllt wird. Die substanzielle Informationseinheit befindet sich nun auch im aktiven Bewusstseinsstatus von I1. Es handelt sich in dieser Sequenz um einen klassischen Fall der in Kapitel 2.3.1 beschriebenen Reparaturen in der sozialen Interaktion der Kommunikation (vgl. SACKS / SCHEGLOFF / JEFFERSON 1974 und 1977) und zwar in der Terminologie von DINGEMANSE et al. (2015) konkret um eine fremd-initiierte Reparatur der offenen Klasse (open request), bei der, wie hier durch I1, nicht genau expliziert wird, auf welchen Aspekt der problematischen Informationseinheit sich die Reparaturanfrage bezieht. Deshalb wird auch hier durch die R_IE die Wiederholungen der kompletten S_IE evoziert.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
199
Wie in jenem Kapitel bereits beschrieben, werden nicht nur das Auftreten und der Ablauf solcher Sequenzen als potenziell universell gekennzeichnet, sondern auch die linguistischen Ressourcen, häufig Partikeln und Prosodie, die dabei zum Lösen des Problems herangezogen werden. Abbildung 42 zeigt zur Ressource Prosodie die phonetische Einzelanalyse des in VJ.PEAT aufgrund seiner phonetischen Merkmalsausprägungen, repräsentiert durch die DCT-Koeffizienten, als REAKT klassifizierten steigenden Intonationsmusters.
Abb. 42: Phonetische Einzelanalyse zu REAKT isoliert, Transkript 08, Z. 12
Die Abbildung zeigt das analysierte und klassifizierte Intonationsmuster als Ergebnis des Sweeps mit der Wahl des Best Fit. Im oberen Teil der Abbildung sind die Parameter der in Kapitel 4.2.4.1.3 beschriebenen und aus dem Passfehler E abgeleiteten Kostenheuristik C abgebildet (zur Erinnerung: T = Time, KLR = Kernel Loss Rate, JS = Jumpsize, GR = Gaprate). Die untere Zeile zeigt die Ausprägungen der DCT-Koeffizienten G[1]–[4]. Für Intonationsmuster der Klasse REAKT charakteristisch ist die hier zu sehende Negativausprägung von G[2] = –3, die den Anstieg von F0 über die zeitliche Erstreckung von 5 Millisekunden (T = 5) repräsentiert. Die zweite potenziell bedeutungstragende Komponente oder hier genutzte Ressource ist die segmentelle Basis, konkret: die lexikalisch und propositional leere Diskurspartikel hä. Die hier verwendete Partikel zählt nach NÜBLING (2009: 594– 595) zu den Gesprächspartikeln und hierin zu den Hörersignalen. In diesem konkreten Fall kann das Signal nach NÜBLING (2009: 595) „der Aufforderung dienen, fortzufahren.“ Weiterhin wird eine „[r]ückfragende, vergewissernde Funktion“ der Partikel attestiert, die in jedem Fall mit „steigendem Tonhöhenverlauf artikuliert werden“. HOFFMANN (1997: 367–368) zählt hä als Variante der Formklasse HM153 und bezieht sich in der funktionalen Beschreibung maßgeblich auf die von EHLICH (1979 und 1986 und Kapitel 2.2.5.2) formulierten Konzepte Konvergenz und Divergenz. In dem vorliegenden Fall, bei dem die Partikel von HOFFMANN (1997: 365–369) als Variante der Klasse HM mit Steigtonmuster, in der hier verwendeten 153 Wohlgemerkt wird die Klasse HM und so auch die Variante hä bei HOFFMANN (1997) zu den Interjektionen gezählt. Ich halte mich an die in Kapitel 2.2.5.1 beschriebenen Charakteristika von Interjektionen, die primär dem Ausdruck von Sprecherbefindlichkeiten dienen und klassifiziere durch das funktionale Kriterium hä als Diskurspartikel.
200
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Terminologie einem steigenden Intonationsmuster, klassifiziert wird, wird eine Divergenz ausgedrückt. Diese konkretisiert sich nach HOFFMANN (1997: 369) als „(a) mangelndes Verstehen oder (b) fehlendes Einverständnis mit dem Handeln des Sprechers.“ Deutlich wird in beiden Beschreibungen und so auch in der hier analysierten Sequenz, dass die linguistische Funktion, die durch die Einheit kommuniziert wird, maßgeblich (wenn nicht allein) von der Prosodie getragen wird. Ich fasse zusammen: Die hier untersuchte Einheit eines steigenden Intonationsmusters auf der Diskurspartikel hä in isolierter syntagmatischer Position wird von Sprecher*innen reaktiv geäußert und signalisiert ein Verstehensproblem. Das kann sowohl den Inhalt als auch den Kanal betreffen, in diesem Fall ist das Problem in der inhaltlichen Abfolge der Sequenz zu suchen. Gleichzeitig wirkt die Äußerung für Hörer*innen progressiv. Diese werden aufgefordert, sich mit etwa einer Wiederholung oder Spezifizierung der vorangegangenen substanziellen Informationseinheit zu verhalten, also zu reagieren – es handelt sich für Hörer*innen also um eine Reaktionssaufforderung (vgl. PISTOR 2017: 69). In der Klassifikation von Diskurspartikeln durch das Ebenenmodell aus KEHREIN / RABANUS (2001: 42–45) muss hier also eine Koppelung der Teilebenen IA und IB vorgenommen werden. Es handelt sich so bei dieser Einheit ganz klar um eine Reaktionsaufforderung aufgrund eines Verstehensproblems und entspricht damit der vorformulierten Grundfunktion der Klasse REAKT. In finaler Position lässt sich die Funktionsklasse halten, die konkrete Funktionsspezifizierung ist aber eine andere. Final Transkript 33: OGALT – Wohnort (REAKT final) 01 02 03 04 05 06 07
I2: I1: I3: I1: I2: I3:
jA hEsch vorher USwärts gwOhntin GENGEbAch halt NE, nEI in OFfebUrg; [in OFfebUrg] [(unverständlich)] jA, zEhn jOAhr;
Transkript 33 zeigt einen Ausschnitt des Freundesgesprächs von OGALT, an dem insgesamt drei Sprecher beteiligt sind. Häufig thematisiert werden Landwirtschaft und Strukturen im Ortenaukreis, der Wohngegend sämtlicher Gesprächsteilnehmer. Letzteres ist auch in dem hier ausgewählten Ausschnitt der Fall, in dem angesprochen wird, dass I3 vor seinem jetzigen Wohnort Ohlsbach woanders gelebt hat. Dies wird von I2 in Z. 01 durch auswärts thematisiert, wobei hier noch nicht konkretisiert wird, um welchen Ort es sich handelt. I1 scheint zu wissen, welcher der damalige Wohnort gewesen ist und wirft in Z. 02 in Gengenbach ein, gefolgt von der Modalpartikel halt und der untersuchten R_IE mit der Diskurspartikel ne. Daraufhin erfolgt in Z. 03 ein Sprecherwechsel, nach dem I3 klarstellt, dass sein damaliger
Ausführliche Analyse – Oberdeutsch: Ohlsbach
201
Wohnort nicht Gengenbach, sondern Offenburg war. I1 nimmt dann die Richtigstellung auf, indem er die für ihn neue Information wiederholt. I2 bestätigt die Information und I3 führt das Thema fort, indem er die Dauer des Wohnaufenthalts in Offenburg thematisiert. Bei der S_IE von I1 in Gengenbach halt (Z. 02) handelt es sich um eine äußerungssemantisch und pragmatisch abgeschlossene Gesprächseinheit. Mit der R_IE und darin enthaltenem ne stellt I1 danach das Rederecht zur Disposition. So erfolgt nach der R_IE von I1 auch ein Sprecherwechsel, was die Kriterien für eine finale syntagmatische Position erfüllt. Abbildung 43 zeigt wieder das Funktionsschema als Modell für die in diesem Beispiel untersuchte Einheit in finaler Position.
Abb. 43: Funktionsschema für eine final positionierte Einheit der Klasse REAKT
Auch in finaler Position einer Einheit der Klasse REAKT wird zunächst reaktiv auf eine vorangegangene S_IE verwiesen. Der Unterschied zur isolierten Position ist hierbei, dass hier die S_IE, auf die verwiesen wird, von dem/der selben Sprecher*in der darauffolgenden R_IE geäußert wird. Gleichermaßen wie in isolierter Position wirkt die Einheit progressiv auf Hörer*innen: Sie werden aufgefordert, sich mit einem potenziell folgenden Beitrag zu der von den Sprecher*innen angegebenen Kommunikationssituation zu verhalten, also in zunächst undefinierter Weise zu reagieren. Es handelt sich also um eine Reaktionsaufforderung. Im Beispiel wäre plausibel, dass I1 nach seiner Vermutung über den ehemaligen Wohnort von I3 eine Bestätigung dieser Vermutung einfordert. I3 verhält sich anschließend entsprechend zunächst der bloßen Aufforderung, auf die von I1 geäußerte S_IE1 zu reagieren. Dies geschieht in der Konkretisierung dann durch die S_IE2, die mit Offenburg einen neuen Referenten einführt, das gesamte center of interest (vormaliger Wohnort) als Kommunikationssituation aber fortführt. Die von CHAFE (1994) formulierte Absicht, die hier dann neue S_IE2 von I3 auch in den aktiven Status des Hörers I1 zu bringen, ist geglückt und durch die anschließende Wiederholung des neu eingeführten Referenten von I1 in Z. 04 direkt nachvollziehbar. Diese Absicht beruht
202
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
auf der GRICE’schen Kooperationsmaxime und hat eine soziale Intention: Die Gesprächsteilnehmer*innen wollen, dass alle dem eröffneten Thema als Teil der sozialen Interaktion folgen und es erfolgreich beenden können. Hierzu gehört auch das Absichern als evident markierter Information (Z. 02) und die Korrektur falscher Information (Z. 03).
Abb. 44: Phonetische Einzelanalyse zu REAKT final, Transkript 33, Z. 02
Abbildung 44 zeigt die phonetische Analyse der diese Funktion erfüllenden prosodischen Einheit. Auch bei dieser Einheit zeigt sich der für die Klasse REAKT typische steigende F0-Verlauf bei einer relativ kurzen zeitlichen Erstreckung von hier 6 Millisekunden. Im Vergleich zur isoliert positionierten REAKT-Einheit von OGJUNG2 (vgl. Abbildung 42) verläuft die Grundfrequenz in diesem Beispiel steiler (G[2] mit –8 niedriger als oben) und konvexer (G[3] zeigt mit 3 einen Wert, oben liegt dieser bei null) als in vorangegangenem Beispiel. Ob sich diese minimalen realisationellen Unterschiede als systematisch erweisen, bleibt in den anderen Orten zu überprüfen. Segmentell realisiert wird das steigende Intonationsmuster auf der Diskurspartikel ne. Vermutlich ist die Diskurspartikel ne als Ergebnis phonetischer Reduktionsprozesse der floskelhaften Äußerung nicht (wahr) zu sehen (vgl. AUER / GÜNTHNER 2005, NÜBLING 2009 und KÖNIG 2017). Ne zählt nach NÜBLING (2009: 595) zu den Gesprächspartikeln, darin zu den Sprechersignalen und hier wiederum zu Endsignalen, oder auch „Rückversicherungssignale, die beim Hörer eine Reaktion einfordern und die einen steigenden Tonhöhenverlauf tragen“ und potenziell das Rederecht zur Disposition stellen. Funktion, prosodische Gestaltung und syntagmatische Position scheinen damit bereits festzustehen. So kategorisieren auch AUER / GÜNTHNER (2005) ne als äußerungsfinalen Diskursmarker.154 Ein Blick auf die Besetzungen der syntagmatischen Positionen in Tabelle 8 zeigt jedoch ein anderes Bild: OGALT nutzt ne als segmentelle Basis für steigende Intonationsmuster der Klasse REAKT in allen hier angesetzten syntagmatischen Positionen. Selbst bei einer anderen Definition von final als der hier gewählten lässt sich diese Einschränkung nicht halten.
154 Zum Terminus Diskursmarker vgl. Kapitel 2.2.5.1.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
203
Im Fokus einer Studie von KÖNIG (2017) steht die syntagmatische Verteilung von ne in Relation zu einer Äußerung (äußerungsinitial, äußerungsfinal und selbstständig) sowie deren Funktionen, die nach KÖNIG (2017: 238) und auch hier je nach Position und dadurch resultierendem „Nutzungsmuster“ ermittelt werden muss. KÖNIG (2017) nutzt dabei hauptsächlich den Turn als relationale Einheit für die Positionsbestimmung und legt damit in Teilen andere Kriterien zugrunde, als es hier der Fall ist. Der Analyse der prosodischen Form wird in der Studie wenig Rechnung getragen.155 Vielmehr ist die segmentelle Basis in Form von nicht wahr, nicht, und hauptsächlich deren Ableitung ne innerhalb des konkreten Kommunikationskontexts Untersuchungsgegenstand. KÖNIG (2017) erfasst Partikeln der Klasse ne in Anlehnung an Klassifikationen des „Duden“ (2016) oder ZIFONUN et al. (1997) als question tags und diskutiert dabei deren Status als Diskursmarker. Question tags werden bei KÖNIG (2017: 234) definiert als „formelhaft verfestigte Ausdrücke, die auf eine Bezugsäußerung folgen und unter bestimmten Wissensbedingungen eine wissens- oder verstehensbezogene Reaktion des Adressaten relevant machen können.“ Damit umfassen question tags diejenigen Funktionen, die Diskurspartikeln in KEHREIN / RABANUS (2001: 42–45) auf den kommunikationsorganisierenden Teilebenen Reaktionssignal und Verstehensproblem (sowohl inhaltlicher als auch akustischer Art) zugeschrieben werden. Der Unterschied besteht in der Funktionsrichtung bzw. Etikettierung der Partikeln. Die Definition von KÖNIG setzt stets einen vorausgegangenen Kommunikationsgegenstand voraus. Das heißt, dass question tags in erster Linie reaktiv auf den Vorgängerturn bezogen sind. Dies trifft bei KEHREIN / RABANUS (2001) zwar auf Diskurspartikeln der funktionalen Subklasse Verstehensproblem zu, nicht aber auf solche, die als Reaktionssignale klassifiziert werden. Diskurspartikeln dieser Unterebene wirken in diesem Modell stets progressiv und beeinflussen direkt den weiteren zeitlichen Verlauf der Kommunikation (vgl. KEHREIN / RABANUS 2001: 40). Die Wirkungsweise der hier analysierten Einheit der Klasse REAKT zeigt sowohl im GAT2-Beispiel als auch im Funktionsschema eindeutig eine sowohl reaktive als auch progressive Etikettierung. Dies gilt für die hier identifizierte finale, als auch für die oben besprochene isolierte syntagmatische Position. Äußerungsfinal identifiziert KÖNIG (2017: 241–250) für ne verschiedene Funktionen: Bestätigungseinforderung, Verhandlung von Bewertungsrecht, Aposiopesemarker sowie Evidenz- und Gliederungsmarker. Diese Vielfalt ist teilweise dem Umstand geschuldet ist, dass sich für die dort identifizierte finale Position stellenweise die sequenziellen Abläufe für dieselbe Position unterscheiden (etwa Sprecher*innenwechsel vs. kein Sprecher*innenwechsel nach ne in finaler Position).156
155 Wenig bedeutet, dass in den in KÖNIG ebenso wie hier verwendeten GAT2-Transkripten prosodische Merkmale der Intonation vor allem am Ende einer Äußerungseinheit in der in den Transkriptionskonventionen vorgesehenen schematisierten Form vorgenommen werden. 156 Die finale Position dort entspricht also nicht immer der hier ermittelten. Für die ersten beiden Funktionen Bestätigungseinforderung und Verhandlung von Bewertungsrecht entsprechen die Positionen in KÖNIG den hier angesetzten. Die anderen beiden Funktionen beleuchte ich im nächsten Beispiel.
204
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Sowohl in der von KÖNIG (2017: 246) identifizierten Funktion Bestätigungseinforderung als auch in Verhandlung von Bewertungsrecht macht ne „eine Reaktion […] relevant“ und organisiert „den Diskurs insofern, als es eine konditionelle Relevanz etabliert und somit die Turnzuteilung zwischen den Interagierenden regelt.“ Dies entspricht also in beiden Fällen der diskursorganisatorischen Grundfunktion von REAKT als Reaktionsaufforderung, mit dem Unterschied der inhaltlichen Konkretisierung der eingeforderten Reaktion. In Transkript 33 gibt die in der vorangegangenen S_IE enthaltene Modalpartikel halt zusätzliche Indizien zur Bestätigung dieser Funktionsanalyse als Reaktionsaufforderung mit einem in diesem Fall konkretisierten Bestätigungswunsch: Nach NÜBLING (2009: 593) kann halt als häufig in Aussage- und Aufforderungssätzen auftauchende Modalpartikel „die Faktizität, die Unabänderlichkeit eines Sachverhalts bzw. dass er für plausibel gehalten wird“ betonen. I1 hält seine Vermutung in Gengenbach für plausibel und fordert eine Reaktion von I3, möglicherweise in Form einer Bestätigung dieser Plausibilität bzw. Faktizität, ein. Ich fasse zusammen: Die hier analysierte REAKT-Einheit aus nur minimal abweichender prosodischer Form des steigenden Intonationsmusters auf der Diskurspartikel ne in finaler syntagmatischer Position wird von Sprecher*innen reaktiv auf die eigene vorangegangene, bereits kommunizierte Informationseinheit bezogen geäußert. Bei Hörer*innen wird das Signal erneut als progressiv aufgenommen: Sie werden aufgefordert, sich mit einem potenziell folgenden Beitrag zu der von Sprecher*innen angegebenen Kommunikationssituation zu verhalten, also in zunächst undefinierter Weise zu reagieren. Es handelt sich bei der Einheit in finaler Position also um eine reaktiv und progressiv wirkende Reaktionsaufforderung. Diese beruht hier allerdings nicht auf einem eine Verstehens- oder allgemeinen Kommunikationsproblem und kann daher nicht mit der Funktionsspezifizierung von Reparaturen gleichgesetzt werden. Diese Beobachtung bringt zwei Erkenntnisse mit sich: Es lässt sich hier bereits zeigen, dass 1. die konkrete Funktionsspezifizierung in REAKT von der syntagmatischen Position abhängig ist und 2., dass beide spezifizierten Funktionen dennoch derselben überdachenden Funktionsklasse angehören. Für die nächsten, also medial und initial positionierten Einheiten der Klasse REAKT, die zwar dieselbe phonetische Form beschreiben, aber in der Regel keinen Sprecher*innenwechsel nach sich ziehen, ist die Grundfunktion als Reaktionssignal nicht direkt aus dem Gesprächshergang ersichtlich. Die kommenden Funktionsanalysen erfordern daher eine weitgreifendere Definition von ‘eine Reaktion einfordernʼ, die nicht einen Sprecher*innenwechsel oder eine auditiv wahrnehmbare, an der konversationellen Oberfläche beobachtbare Reaktion beinhaltet. Die Frage, die in dieser Hinsicht gestellt werden muss, betrifft die Ebene, auf die eine Aufforderung zu einer Handlung (was das Reaktionssignal im Kern ja darstellt) abzielt: Ist es die konversationelle Oberflächenstruktur, der offen(sichtlich) durch den Gesprächsverlauf oder physikalisch-phonetischen Messungen beobachtbaren Diskursorganisation, oder betrifft die Aufforderung eher die kognitive und daher dem in der Regel in prosodischen Untersuchungen verwendeten Analyseinstrumentarium verborgene, bewusstseinssteuernde Ebene der Interaktionspartner*innen?
Ausführliche Analyse – Oberdeutsch: Ohlsbach
205
Medial Transkript 01: OGALT – Kühe vs. Einwohner (REAKT medial und final) 01
I1:
02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17
I2: I1: I2: I1:
I2: I1:
ja jetzt überlEg dir_s mal hErmann wo Ich so in der schÜL war. (-) ´NE, un=un dort isch als noch der bO:t rum un hat USgschellt wenn irgendwO:- (.) a KUH- (.) NOTgschlachtet hÄtt misse wErn NE, °hh (-) un dOrt häm=mir in Ohlschbach VIER- (.) EINwohner um DRIzeh=vierzeh hUndert kAdrIzeHUNdert.= =jA,= =hm_hm, un:- (-) VIERhundertfUchzich- (-) gemEldete kIhe. (--) ´NE? hm_hm, Ußer s_EIne wo NIT gmEldet wAr so nE,
Transkript 01 zeigt einen weiteren Ausschnitt aus dem Freundesgespräch des alten Sprechers OGALT, in diesem Ausschnitt nur mit einem weiteren Gesprächsteilnehmer. Thematisch werden erneut Landwirtschaft und Strukturen im Ortenaukreis aufgegriffen, hier konkret das Verhältnis von gemeldeten Einwohnern gegenüber gemeldeten Kühen in Ohlsbach zur Schulzeit des REDE-Informanten I1. Das ist das thematische center of interest dieses Ausschnitts, das sich von Z. 01 bis Z. 14 erstreckt. Dass im weiteren Verlauf Informationen kommen, die I1 für das gesamte center of interest für wichtig hält, lässt sich hier bereits an der direkten Ansprache I2s erkennen, die mit jetzt überleg dir’s mal, Hermann sogar eine Aufforderung zur kognitiven Aufmerksamkeit enthält. Zu dem center of interest gehören drei Sachverhalte. Der erste betrifft die zeitliche Situierung zur Schulzeit von I1 als Einführung in Z. 01. Ein Indiz für die Abgegrenztheit dieses Einzelsachverhalts als eine Einheit ist das global fallende Intonationsmuster, das auf dieser Äußerung realisiert wird und hier in der Transkription durch einen Punkt am Ende der Äußerung markiert wird. KEHREIN (2002: 190) hat gezeigt, dass ein global fallendes Intonationsmuster als prosodische Einheit „redesyntaktische Basiseinheiten zugleich bildet und voneinander abgrenzt.“157 Auf den Sachverhalt folgt in Z. 02 nach einer kurzen Pause eine R_IE in Form von ne. Die 157 Die abschließende Funktion fallender Intonationsmuster identifiziert außerdem GILLES (2005) empirisch (vgl. Kapitel 5.1.1) und wurde bereits in früheren Arbeiten von verschiedenen Autoren in der Theorie unterschiedlicher Modelle der Prosodie postuliert (vgl. Kapitel 2.2.4).
206
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
mediale Position dieser R_IE wurde ermittelt, da weder im Vorfeld, noch nach der Einheit ein Sprecherwechsel stattfindet und in der darauffolgenden S_IE desselben Sprechers ein neuer äußerungssemantischer Inhalt kommuniziert wird. Dies geschieht im zweiten Sachverhalt. Dieser schildert in Z. 03–05 einen Boten, der zu der davor geschilderten Zeit im Ort herumgegangen ist und durch Ausschellen verkündet hat, wenn eine Kuh im Ort notgeschlachtet werden musste. Dem Sachverhalt folgt vor dem Einatmen von I1 und einer kurzen Pause in Z.06 erneut eine medial positionierte R_IE in Form von ne in Z. 05. Der dritte und letzte Sachverhalt des center of interests erstreckt sich von Z. 07 bis Z. 14 und stellt den eigentlichen Kern der Information dar: I1 schildert das Verhältnis von etwa dreizehn- bis vierzehnhundert Einwohnern in Ohlsbach gegenüber 450 gemeldeten Kühen. Die Kommunikation dieses Sachverhalts wird durch I2 in Z. 09 und 11 unterbrochen. Grund hierfür ist die Unsicherheit von I1 bezüglich der genauen Anzahl der Einwohner (dreizehn- oder vierzehnhundert), die sich in der selbstinitiierten Reparatursequenz in Z. 07 und 08 beobachten lässt. I2 scheint sich hier sicherer zu sein und korrigiert die Schätzung auf dreizehnhundert in Z. 09, was von I1 in Z. 10 und dann erneut von I2 selbst in Z. 11 bestätigt wird. Die Sprecherwechsel in den Zeilen 09 bis 11 sind durch mit = markiertes latching, also schnelle Anschlüsse untereinander, gekennzeichnet. Das lässt sich so interpretieren, dass sich die Interaktanten einig sind, die Reparatur akzeptiert wurde und der Einschub erstens als solcher gekennzeichnet wird und zweitens möglichst schnell beendet werden kann. In Z. 12 kehrt I1 dann zurück zum Sachverhalt und schließt diesen mit vierhundertfünfzig gemeldete Kühe ab. Erst hier lässt sich erneut ein abgrenzendes, global fallendes Intonationsmuster beobachten, das den auch äußerungspragmatisch abgeschlossenen Sachverhalt prosodisch abschließt, während dies vor dem Einschub in Z. 08 nicht der Fall ist, was erneut für eine bloße Unterbrechung des Redebeitrags von I1 spricht. Auf eine mittlere Pause folgt dann in Z. 15 eine R_IE, erneut in Form von ne, diesmal aber in finaler Position, da auf die Einheit ein Sprecherwechsel in Z. 16 folgt. Neben dem Sprecherwechsel als Kriterium für die finale Position sprechen außerdem der äußerungssemantische Abschluss der vorangegangen S_IE sowie des ganzen center of interests, das aus diesen drei Sachverhalten besteht. Weitere Hinweise, dass sich der Erzählverlauf hier thematisch entfaltet und es sich bei diesem Ausschnitt um ein center of interest, also einen thematischen Zusammenhang handelt, sind die Konnektoren in Form von und zu Beginn eines jeden neuen Sachverhalts in Z. 03 und 07. Dem eigentlich inhaltlich abgeschlossenen center of interest wird im weiteren Verlauf in Z. 17 weitere, die Sachlage modifizierende Information hinzugefügt, was sich bereits an der einleitenden Präposition außer erkennen lässt, die die neue S_IE (außer so eine die nicht gemeldet war) einleitet und die erneut durch eine R_IE in Form von ne beendet wird. Wie die beiden hier analysierten medial positionierten R_IE der Klasse REAKT in Z. 02 und 05 funktionieren, wird in Abbildung 45 durch das Funktionsschema modelliert. Die essentiellen Schlagworte, nach denen die Funktionsweise dieser Einheit in genau dieser Position hier modelliert wurde, sind das in Kapitel 4.2.2 dargelegte Schaffen von common ground nach CLARK, die GRICE’sche Kooperationsmaxime, die geteilte Intentionalität sich kooperativ und
Ausführliche Analyse – Oberdeutsch: Ohlsbach
207
zielgerichtet zu verhalten nach SEARLE und TOMASELLO, und die Annahmen der Theory of Mind (ToM).
Abb. 45: Funktionsschema für eine medial positionierte Einheit der Klasse REAKT
Hier dient die R_IE der Klasse REAKT nach Beendigung eines Informationsstrangs mit einem neuen Sachverhalt, den der/die Sprecher*in für den weiteren Verlauf der Kommunikation für wichtig hält, der Erzeugung oder Vergewisserung des Bestehens dieses gemeinsamen Kontexts (common ground), der für die nachfolgende Interaktion oder den nachfolgenden, den Kommunikationsgegenstand mit Informationen ergänzenden Turn, wichtig ist. Dies setzt voraus, dass der/die Sprecher*in im vorangegangenen Turn einen Informationsteil oder mehrere Informationsteile kommuniziert hat, die er/sie als besonders relevant einschätzt, und von denen er/sie glaubt, dass auch der/die Empfänger*in diese als besonders relevant einschätzt oder einzuschätzen hat, wenn diese*r dem weiteren Verlauf der Kommunikation folgen möchte. Dies impliziert eine weitere Voraussetzung: Der/die Sprecher*in vermutet (setzt voraus), dass der/die Empfänger*in dem weiteren Verlauf der Kommunikation dem Kooperationsprinzip nach GRICE entsprechend als kooperativer Interaktionspartner auch folgen möchte und dementsprechend geteilte Intentionalität herrscht. In CHAFES Terminologie versuchen Sprecher*innen hierbei ein bestimmtes Ereignis, einen Zustand oder einen Referenten aus S_IE1, den sie in den aktiven Status der Hörer*innen gebracht haben, in selbigem Zustand auch zu halten. Oder aber sie versuchen, den Inhalt der S_IE1, von dem Sprecher*innen durch ToM-Annahmen vermuten, er sei im semiaktiven Status der Hörer*innen (in der Abbildung grau markiert), erneut in den aktiven Status zu bringen. Vor dem Hintergrund der nun aktiven S_IE1 auf der sekundären Bewusstseinsebene von I2 kann dann die neue S_IE2 des Sprechers (in diesem Fall I1) auf der primären Bewusstseinsebene von I2 im aktiven Status verarbeitet werden, während die äußerungssemantisch zwar abgeschlossene, aber (mindestens in den Augen von I1) für den Gesamtinhalt genauso
208
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
wichtige S_IE1 „im Hinterkopf“ behalten werden kann. Die vorangegangene Information wird (re-)aktiviert, oder im aktiven Status gehalten. Was hierbei gleichzeitig passiert, ist, dass der Sprecher in diesem Fall das Rederecht optional zur Disposition stellt. Das käme für den Hörer I2 wiederum einer Reaktionsaufforderung gleich. Funktional stellt das hier geäußerte Intonationsmuster also die aktive, reaktiv und progressiv ausgerichtete Lenkung der Aufmerksamkeit des Empfängers/der Empfängerin auf den vorangegangenen Kommunikationsakt und auf die in diesem kommunizierte und für den Fortgang der Kommunikation relevante Information dar. Es handelt sich hierbei also ebenso um eine kommunikationsorganisatorisch ausgelegte prosodische Einheit. Die Kommunikationsorganisation, die mit dieser Einheit funktional ausgedrückt wird, findet jedoch auf der Ebene der Bewusstseins- bzw. Aufmerksamkeitssteuerung statt. Die Reaktion, die mit dieser Einheit eingefordert wird, ist entsprechend nicht an der konversationellen Oberfläche zu suchen, sondern zielt auf genau diese kognitive Verarbeitungsebene ab. Die in Abbildung 46 dargestellten Analysen in VJ.PEAT zeigen auch für die hier analysierten medialen Einheiten die formale Zugehörigkeit zur Klasse REAKT.
Abb. 46: Phonetische Einzelanalysen zu v.l.n.r zweimal REAKT medial und einmal final, Transkript 01, Z. 02, 05 und 15
Die Abbildung zeigt in den ersten zwei Kästchen die hier relevanten Einheiten in medialer und rechts daneben die Einheit in finaler Position aus Z. 15. Die erste Einheit beschreibt durch die Ausprägung von G[2] einen etwas flacheren Verlauf als die anderen Einheiten, während sich die restlichen Koeffizienten kaum unterscheiden. Es lässt sich damit beweisen, dass es sich formal um phonologisch gleiche Formen in syntagmatisch verschiedenen Positionen und dadurch funktionalen Feindifferenzierungen handelt. Zu ne als segmenteller Basis der Einheit in entsprechender syntagmatischer Position lassen sich zudem einige Forschungsergebnisse heranziehen, die meine Interpretation als (Re-)Aktivierungssignal bestärken. So findet sich in älteren Forschungen, die sich meist rein auf Partikeln wie ne als Segmentkette innerhalb von Gesprächseinheiten konzentrieren, die funktionale Zuschreibung als Rekurs auf die gemeinsame (Kommunikations-)Basis (vgl. LÜTTEN 1977: 268). Dies entspricht CLARKS (1996) Schaffen eines common ground, natürlich fast 20 Jahre vorher und daher in anderer Terminologie. LÜTTEN (1979: 32) scheint ihre Funktionszuweisungen auch aus Analysen von Modalpartikeln wie doch, eben und ja zu beziehen,
Ausführliche Analyse – Oberdeutsch: Ohlsbach
209
denen dort ebenso konsensus-konstitutiver Charakter zugeschrieben wird. Hier ist erneut der Rekurs auf die oben bereits genannte gemeinsame Kommunikationsbasis, also das Schaffen eines common ground, im Fokus der Funktionszuschreibung. In dem Versuch, diesen Rekurs herzustellen, ist es nach LÜTTEN (1979: 33) Absicht der Sprecher*innen „einen Sachverhalt als bekannt, generell gültig oder allgemein unumgänglich darzustellen, um, von dieser gemeinsamen Basis ausgehend, den Hörer in eine bestimmte Richtung zu lenken.“ In genau dieser Funktion der Lenkung der Hörer*innen (bzw. deren Aufmerksamkeit) sind die von LÜTTEN (1979: 33) analysierten Partikeln „an den Aussagesatz gebunden“, also an jeweils assertive Sprechakttypen. In assertiven Sprechakten teilen Sprecher*innen neue oder teils neue Informationen über Darstellungen, Berichte, Argumentationen oder Behauptungen mit den Hörer*innen/Adressat*innen. Oft wird hierbei ein komplexer Inhalt vermittelt. Dies fordert innerhalb des gesamten center of interersts oder Turns der Sprecher*innen eine Gliederung in mehrere, den Turn inhaltlich und kommunikationsorganisatorisch strukturierende Subeinheiten, etwa TCUs oder wie hier, Informationseinheiten. Enthalten diese Subeinheiten nach Einschätzung der Sprecher*innen kommunikativ oder inhaltlich relevante Teile, die für den weiteren Verlauf der Darstellung, des Berichts, der Argumentation oder Behauptung essentiell sind, muss an denjenigen Stellen, die eine solche Subeinheit abschließen oder eine neue eröffnen, sichergestellt werden, dass Hörer*innen den vermittelten (wichtigen) Inhalten bis dahin gefolgt sind und daher auch weiterhin folgen können. Das Herstellen einer gemeinsamen Kommunikationsbasis ist nach LÜTTEN (1979: 36) dabei notwendig „für den Fortgang der Argumentation bzw. des Handlungszusammenhangs, auf den die Argumentation vorbereitet.“ An anderer Stelle werden gleich positionierte Partikeln, denen konversationsanalytisch dieselbe Funktion zugeschrieben wurde, allerdings auch in Verbindung mit direktiven Sprechakten wie Fragen und Imperativen beobachtet (vgl. GÜNTHNER 2017: 114). Zu einer ähnlichen Interpretation kommt auch KÖNIG (2017) in der oben in diesem Kapitel bereits angeschnittenen Studie. Die Autorin interpretiert ne in medialer Position dort als Evidenzmarker und Gliederungssignale. Als Evidenzmarker verweist ne in diesen Fällen metapragmatisch auf geteiltes Vorwissen aus dem vorangegangenen Diskurs und markiert eine Aussage/Information als für beide Interaktant*innen evident und nicht weiter zu explizieren oder abzugleichen (hier mit einer Referenz auf HAGEMANN 2009: 153–162). Gliederungscharakter wird ne insofern zugeschrieben, als es „das für den Erzählverlauf wichtige Wissen aktiviert“, bevor mit der Kommunikation fortgefahren werden kann (KÖNIG 2017: 250). Das entspricht meinem Ansatz der Interpretation oder Verarbeitung neuer Inhalte vor dem Hintergrund bereits kommunizierter Inhalte, die, in den Augen der Sprecher*innen und durch deren ToM-Annahmen einer (Re-)Aktivierung bedürfen. Dies kann auch auf Fälle zutreffen, in denen die relevante Information zeitlich bereits einige Informationseinheiten zurückliegt (vgl. Transkript 09). In jedem Fall räumen Sprecher*innen Hörer*innen mit der Einheit und der potenziellen Disposition des Rederechts auch ein, einen neuen Inhalt vor dem Hintergrund des bereits kommunizierten neu zu bewerten. KÖNIG (2017: 247) spricht in diesem Fall von der Funktion als Aposiopesemarker: Hörer*innen werden dazu aufgefordert (= REAKT), Inhalte
210
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
„aus [ihrem, TP] Weltwissen zu ergänzen oder aus dem Interaktionswissen zu inferieren.“ Eine die grundlegende Funktionsanalyse stützende Konklusion findet sich ebenso bereits bei WEBER (1983: 306, im Original kursiv): „Es [= die Äußerung, TP] konstituiert durch seine Partnergerichtetheit die Verständigungsebene und dient zugleich der Organisation des Dialogverlaufs.“ An anderer Stelle spricht WEBER (1983: 308) bei ne und ähnlichen Signalen von „soziozentrischen Sequenzen“. Die prosoziale Funktion, die WEBER (1983: 310) solchen Partikeln zuschreibt, wird hier insofern besonders deutlich, als er das Fehlen von Partikeln innerhalb eines Gesprächs „als Indikator für egozentrisches Sprachverhalten“ bewertet. Dass die soeben geschilderte Funktionsweise nicht an die Diskurspartikel ne gebunden ist, sondern ebenso auf einer Ein-Wort-Äußerung als segmenteller Basis realisiert werden kann, zeigt ein zweites Beispiel zu medial positionierten Einheiten der Klasse REAKT. Transkript 09: OGJUNG2 – Anker (REAKT final und medial) 01 02 03 04 XX 05 06 XX 07 08 09 10 11 12 XX 13
I2: I1:
I2: I1: I2: I1: I2: I1: I2:
hEsch des mit dEne ANker gseh, jA, (.) war das dE:n_er ERNSCHT oder- (-) des hEn die ERNSCHThaft a dOppelter Anker ni; [°h ] [ah=ja,] wEIscht jetzt hEn se de ANkerweg z_schtEIl gmAcht wEIsch, (-) un denn nU=mol A:n; na s_hen nu=mol n_Andern (nUmhäng). (-) wEIsch es kInnt ja sIn dass se- °h (.)
[de (b)] (.) [z_schtEIl (gschnitten)] [oder ] sI:e sin lAng aber- (.) musch trOtzdem nur
Transkript 09 zeigt erneut einen Ausschnitt aus dem Freundesgespräch der jungen Generation mit OGJUNG2. Die beiden Gesprächsteilnehmer sind im Weinbau tätig. In diesem Ausschnitt sind Zubehör (Anker) und Befestigung, etwa von Netzen zum Trauben- und Rebschutz, das Thema. Nachdem I2 in Z. 01 das Thema Anker einleitet, da ihm eine ungewöhnliche Befestigung aufgefallen ist, konkretisiert I1 diesen Punkt in den Z. 02–04: Andere haben zwei anstatt (üblicherweise) nur einem Anker zur Befestigung angebracht. I1 expliziert den von ihm vermuteten Grund dafür in Z. 06 (jetzt haben sie den Ankerweg zu steil gemacht), gefolgt von einer final positionieren R_IE der Klasse REAKT auf der für den alemannischen Raum
Ausführliche Analyse – Oberdeutsch: Ohlsbach
211
charakteristischen segmentellen Basis weisch (vgl. Kapitel 5.1.2.1.2).158 Es folgt ein Sprecherwechsel, der die finale Position rechtfertigt, und nach dem I2 versucht, die Änderung mit und dann nochmal einen nachzuvollziehen. Warum ein weiterer Anker nötig war, scheint für I1 klar zu sein: In Z. 08 beginnt er seine Argumentation für den Grund mit einer Wiederholung des Umstands, dass ein weiterer Anker angehängt wurde und hebt dann in den Z. 09–11 (mit einer Unterbrechung durch I2 in Z. 10) erneut seine Vermutung hervor, dass der Grund hierfür ein zu steil geschnittener Ankerweg sei. Dieser Punkt wurde von I1 bereits im Vorfeld kommuniziert und gilt für ihn seitdem als bekannt und generell gültig. Die medial positionierte R_IE in Form von weisch in Z. 09 weist nun genau darauf hin, indem der Sprecher hier reaktiv auf die bereits kommunizierte, relevante Information in Z. 06 verweist. Diese relevante Information, die nicht unmittelbar vorangeht, sondern im Kommunikationsverlauf bereits zwei S_IE von I1 zurückliegt, bedarf hier von I1 einer Reaktivierung. Für die Interpretation, dass es sich seit dem Zeitpunkt der ersten Nennung um bekanntes und generell gültiges Diskurswissen handelt, sprechen zudem die in Z. 08 und 09 von I1 verwendeten Modalpartikeln na und ja, denen etwa LÜTTEN (1979, s. o.) genau diese Funktion zuschreibt. Das Funktionsschema für medial positionierte Einheiten der Klasse REAKT aus Abbildung 45 lässt sich hierauf genauso anwenden, wie im vorherigen Beispiel. Einziger Unterschied ist die unmittelbare vs. weiter zurückliegende relevante S_IE, auf die reaktiv Bezug genommen wird, bevor der Sprecher progressiv seine Argumentation fortführt. Abbildung 47 zeigt die phonetischen Einzelanalysen der final und medial positionierten REAKT-Einheiten auf der segmentellen Basis von weisch aus Z. 06 und 09.
Abb. 47: Phonetische Einzelanalysen zu REAKT final (links) und medial (rechts), Transkript 09, Z. 06, und 09
Hieraus wird, vor allem im Vergleich zu den vorangegangenen Analysen in Abbildung 46, ersichtlich, dass es sich erneut formal um phonologisch gleiche Formen in syntagmatisch verschiedenen Positionen und sogar auf verschiedenen segmentellen Basen (Diskurspartikel vs. Ein-Wort-Äußerung) handelt.
158 Die Äußerung taucht zu Beginn der S_IE in Z. 06 bereits auf, hier dann ohne die Tilgung des Auslauts. Diese Äußerung wurde aufgrund ihrer potenziell problematischen syntagmatischen Positionsbestimmung nicht in die Analysen einbezogen.
212
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
Ich fasse zusammen: Die hier analysierten, medial positionierten prosodischen Einheiten der Klasse REAKT differieren nur minimal phonetisch und phonologisch nicht von den anderen Einheiten derselben Klasse. Bei den Einheiten in dieser Position handelt es sich funktional um die reaktiv und progressiv ausgerichtete, erneute Aktivierung der Aufmerksamkeit des Empfängers auf den Kommunikationsakt und auf die in diesem bereits kommunizierten Informationen, die für den weiteren Verlauf der Kommunikation als relevant erachtet werden. Das erneute Aufgreifen bereits kommunizierter Information bewirkt dabei eine Verarbeitung oder Bewertung der darauffolgenden Information vor dem Hintergrund der alten, und zwar auf der primären und sekundären Bewusstseinsebene. Ich nenne diese Einheiten der bewusstseins- und gedächtnissteuernden und in diesem Sinne kommunikationsorganisierenden Ebene (Re-)Aktivierungssignale, die sowohl reaktiv als auch progressiv wirken. Die kommunikationsorganisatorische Ausrichtung der Einheiten, die reaktive und progressive Wirkweise und vor allem die Partnergerichtetheit, die eine Reaktion auf der Gesprächs- oder Bewusstseinsebene relevant machen, rechtfertigen die Zugehörigkeit dieser Einheiten zur Klasse REAKT und damit zur Grundfunktion Reaktionssignal. In einer dieser sehr ähnlichen Art und Weise operieren auch Einheiten dieser Klasse in der letzten hier zu analysierenden, initialen Position. Initial Transkript 34: OGALT – Renovieren (REAKT initial) 01 02 03 04 05 06 07 08 09 10
I1: I2: I3: I1: I2: I3:
un de drItte stOck- °h prAktisch da Isch ja gAnzes hOlz; das [sin alles hOlzbOhlen; ] [das is (unverständlich) ] [NE da kOmmt ] ja nur rIgips drUff; nE [da ] [jA=ja. ] [gut de] de wAr ja des EINzige wo jetzt au e stÜck ä:hbetonIErt wOrre Isch,
Transkript 34 zeigt einen Ausschnitt aus dem Freundesgespräch der älteren Generation, an dem erneut 3 Personen beteiligt sind. Thema dieses Ausschnitts ist die Renovierung eines alten Gebäudes und welche Materialien dabei zum Einsatz kommen. I1 eröffnet in den Z. 01–02 das center of interest dritter Stock des Gebäudes, in dem vorwiegend Holz verarbeitet ist. Nach einem Sprecherwechsel konkretisiert I2 in einer zum Teil überlappenden Sequenz mit I3 mit das sind alles Holzbohlen, dass der Boden dort aus entsprechendem Material besteht. I1 sieht sich bestätigt und eröffnet nach einem erneuten Sprecherwechsel die neue S_IE da kommt ja nur
Ausführliche Analyse – Oberdeutsch: Ohlsbach
213
Rigips drauf in Z. 05 mit einer initialen R_IE in Form von ne. Mit dem vorangegangenen Sprecherwechsel und der neuen äußerungssemantischen Information von I1 in seiner S_IE sind die Kriterien für eine initiale Positionsbestimmung erfüllt. I1 referiert mit seiner R_IE nun zunächst reaktiv auf die zuvor von I2 geäußerte S_IE das sind alles Holzbohlen und fügt dann progressiv dem kommunizierten Inhalt und vor diesem Hintergrund die weitere, neue und in seinen Augen relevante Information da kommt ja nur Rigips drauf hinzu. Diese inhaltliche Ergänzung zum zuvor kommunizierten Inhalt wird in der S_IE von I1 dabei erneut wie im Beispiel in Transkript 09 als bekanntes und generell gültiges Wissen markiert. Einen Hinweis hierauf liefert wie zuvor die Verwendung der Modalpartikel ja. Sowohl mit dem reaktiven Rückverweisen auf die alte, aber dennoch wichtige Information des anderen als auch die Kennzeichnung der neuen Information als bereits bekanntes oder generell gültiges und damit für alle Gesprächsteilnehmer*innen zugängliches Wissen fördert das Schaffen einer gemeinsamen, sozial und kooperativ ausgerichteten Kommunikationsbasis, dem common ground. Dies scheint als Motivation im Vergleich zur eigentlichen thematischen Entfaltung im Diskurs eher im Hintergrund zu stehen. So auch im nächsten Beispiel aus dem Freundesgespräch der mittleren Generation mit OG7. Transkript 05: OG7 – Nordrach und Straßburg (REAKT initial) 01 02 03 04 05 06
I1: I3: I1: I3:
die isch aber in: (.) in strO:ßburg gestORBE; in nOrdrach gebO:re,°hh °h `Ach ^SO:. =´JA,(.) [un in strOßburg ] ä:h äh gestOrbe. [JETZT hab ich_s kapIErt.]
Im Vorfeld dieses Ausschnitts berichtet I1 von seiner kürzlich betriebenen Ahnenforschung zu seiner Familie, bei der ihm bei einer der potenziell verwandten Personen der (wohl in einer Chronik) eingetragene Sterbeort Straßburg als ungewöhnlich auffiel, da er stets dachte, sämtliche Verwandtschaft käme aus der Ohlsbacher Umgebung. Im weiteren Verlauf seiner Recherche fand I1 dann den zu der Person im Internet eingetragenen Geburtsort Nordrach, eine Gemeinde unweit von Ohlsbach. Dies wird unmittelbar vor dem Transkript kommuniziert. An dem Gespräch sind insgesamt 3 Personen beteiligt, in diesem Ausschnitt sprechen davon nur I1 und seine Gesprächspartnerin I3. Den soeben von mir dargestellten Unterschied zwischen Geburts- und Sterbeort der Verwandten schildert I1 zusammenfassend in Z. 01–05. Die S_IE in Z. 01 die ist aber in in Straßburg gestorben lässt sich als eine äußerungssemantisch und pragmatisch abgeschlossene Informationseinheit klassifizieren, die zusätzlich mit einem global fallenden Intonationsmuster realisiert wird. Was dann in den Z. 02–05 folgt, ist eine Wiederholung der geteilten Gesamtinformation, da I1 diese Information 1. für wichtig hält, 2. erachtet, dass auch I3 sie für
214
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
wichtig zu halten hat, will sie dem weiteren Gespräch folgen, und 3. möglicherweise vermutet, dass I3 die gesamte Information noch nicht in Gänze aufgenommen, verarbeitet und kognitiv abgeschlossen hat. Diese Vermutung lässt sich mit den Äußerungen von I3 in Z. 03 und 06 unterstützen: In Z. 03 zeigt die Sprecherin zunächst eine Veränderung ihres kognitiven Verarbeitungsstands mittels der R_IE ach so an, die dann in Z. 06 sogar wörtlich mit jetzt hab ich’s kapiert paraphrasiert wird. Ich gehe auf diesen Punkt erneut in Kapitel 5.1.2.2.4 ein und zeige, dass hier auf der segmentellen Basis von ach so eine Einheit der Klasse POS realisiert wird. Die hier im Fokus stehende analysierte Einheit der Klasse REAKT in initialer Position wird unmittelbar nach I3s Anzeige der Veränderung ihres kognitiven Verarbeitungsstands von I1 in Z. 04 kommuniziert, was hier durch das latching ersichtlich wird. Was nun in der S_IE in Z. 05 nach dem REAKT-Einheit folgt ist für die Rezipientin I3 eigentlich bekannte Information. Und das wird auch schon vor der eigentlichen Kommunikation der Information bestätigt. In diesem Fall wird sogar doppelt reaktiviert und zwar durch das Reaktivierungssignal, der initial positionierten R_IE in Form von ja mit einem steigenden Intonationsmuster. Dieses referiert reaktiv zunächst auf die durch I3 angezeigte Veränderung ihres kognitiven Verarbeitungsstands und projiziert dann progressiv eine Fortsetzung der Kommunikation, in diesem Fall konkret die Wiederholung der in den Augen von I1 wichtigen Information selbst. Es handelt sich also nicht immer um eine sich unmittelbar entfaltende Argumentation, sondern, wie hier im letzten Fall, um die korrekte Vorbereitung dafür. Im Fokus steht daher erneut der Rekurs auf die gemeinsame, sozial ausgerichtete Kommunikationsbasis – das Schaffen von common ground.
Abb. 48: Funktionsschema für eine initial positionierte Einheit der Klasse REAKT
Abbildung 48 zeigt die Funktionsweise initial positionierter Einheiten der Klasse REAKT im Funktionsschema. In beiden hier in den Transkripten dargelegten Beispielfällen nimmt der Sprecher mit der R_IE reaktiv Bezug auf die vorangegangene Äußerung des anderen Sprechers oder der Sprecherin, um dann progressiv eine Fortsetzung seinerseits erwartbar zu machen. In dieser Fortsetzung kann mit einer
Ausführliche Analyse – Oberdeutsch: Ohlsbach
215
neue oder bereits geteilte Information kommuniziert werden. Im Schema dargestellt ist der Fall der neuen Information, was auf das Beispiel in Transkript 05 zutrifft. In Transkript 05 wird mit der R_IE nun reaktiv Bezug auf eine von der anderen Sprecherin geäußerte R_IE (anstelle einer sonst üblichen S_IE) genommen. Dies funktioniert in dem Fall aber nur, weil die R_IE von I3 indirekten Bezug auf eine oder mehrere S_IE, nämlich die von I1, nimmt. Dass mit der in dem konkreten Fall geäußerten R_IE von I3 ein inhaltlicher Bezug hergestellt wird, bei dem gleichzeitig eine Bewertung stattfindet, zeige ich, wie oben bereits gesagt, an späterer Stelle. Im Prinzip funktionieren initial positionierte Einheiten der Klasse REAKT wie diejenigen in medialer Position, mit dem Unterschied, dass mit Einheiten in initialer Position reaktiv stets auf die vorangegangene Äußerung des/der anderen Gesprächsteilnehmenden referiert wird, während in medialer Position stets auf die eigene vorangegangene Äußerung Bezug genommen wird. Die bereits geteilte Information wird dann erneut aufgegriffen und weiter expliziert oder modifiziert. Das erneute Aufgreifen bereits kommunizierter Information bewirkt dabei, wie in medialer Position, eine Bewertung der folgenden Information vor dem Hintergrund der alten, und zwar auf der primären und sekundären Bewusstseinsebene. S_IE
Abb. 49: Phonetische Einzelanalysen zu REAKT initial, Transkript 34, Z. 05 (links) und Transkript 05, Z. 04 (rechts)
Die in Abbildung 49 dargestellten phonetischen Einzelanalysen in VJ.PEAT zeigen für die beiden initialen Einheiten erneut die formale Zugehörigkeit zur Klasse REAKT. Deutlich zu erkennen ist hier ein im Vergleich sehr flacher Grundfrequenzverlauf der REAKT-Einheit aus Transkript 05, was aber auch dem Umstand geschuldet ist, dass die Äußerung einer Überschneidungssequenz mit zwei weiteren Sprechern entnommen wurde. Der negative Wert von G[2], der sich im Vergleich zur Einheit aus Transkript 34 nur um den Wert 1 unterscheidet, belegt jedoch, dass es sich hierbei, entgegen des visuellen Eindrucks, um ein steigendes Intonationsmuster handelt. Bis auf das Tonhöhenregister (G[1]), das auch dem Altersunterschied der Informanten OGALT und OG7 geschuldet ist, gibt es auch hier keine nennenswerten phonetischen Differenzen. Verschiedene Studien zur segmentellen Basis, Partikeln und Ein-Wort-Äußerungen in initialer Position bekräftigen die hier vorgeschlagene Interpretation. So spricht REHBEIN (1979: 60) anstelle von einer initialen syntagmatischen Position
216
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
von „Vorschaltungen“, die die Funktion erfüllen, „die Hörertätigkeit derart zu lenken, daß sie die Voraussetzungen für die Aufnahme der geplanten sprachlichen Handlung schafft. In vielen Fällen haben Vorschaltungen die Aufgabe, den Hörerfokus herzustellen, also Aufmerksamkeit bzw. Erwartungen des Hörers zu aktualisieren.“ REHBEIN listet unter den häufigsten Vorschaltungen allerdings hauptsächlich Verben, die, im Gegensatz zu bestimmten Partikeln, eine lexikalische Bedeutung sowie einen propositionalen Gehalt haben.159 Die Theorie zur funktionalen Klassifikation lässt sich nach den bisherigen Beobachtungen aber dennoch auf die hier untersuchten Einheiten übertragen, da diese gezeigt haben, dass die Äußerungsbedeutung maßgeblich und primär von der Prosodie und weniger von der segmentellen Basis mit einer möglichen lexikalischen Bedeutung getragen wird. In Anlehnung an DEPPERMANN / ELSTERMANN (2008) trägt ne in initialer Position die Funktion der Refokussierung einer Äußerung. Das bedeutet, dass thematisch reaktiv an eine Vorgängeräußerung angeknüpft wird, gleichzeitig aber progressiv eine Fortsetzung (Projektion, Weiterweisung) erwartbar gemacht wird (vgl. KÖNIG 2017: 252). Dies entspricht der reaktiven und progressiven Wirkungsweise, die im Funktionsschema soeben modelliert wurde. KÖNIG (2017) stellt weiterhin einige Bedingungen für das Auftreten von äußerungsinitialem ne auf: Die Einheiten treten stets nach syntaktisch vollständigen Äußerungen auf, sind prosodisch in die anknüpfende Äußerung (dann eher: Intonationsphrase) integriert und verbieten inhaltlich neue Ereignisse, Zustände oder Referenten in der anschließenden Informationseinheit. Letzteres trifft zwar auf das Beispiel in Transkript 05 zu, nicht aber auf das in Transkript 34: Der Sprecher kommuniziert zwar eine neue Information, stuft diese aber, wie gezeigt wurde, als bekanntes und generell gültiges Wissen ein. Was in der Fortsetzung nach ne aus diskurssemantischer Perspektive geschehen wird, ist nach KÖNIG (2017: 253) „eine Explikation, Detaillierung, Ergänzung oder Refokussierung des zuvor Gesagten, die durch den aktuellen Sprecher realisiert wird.“ Die Fortsetzung durch den aktuellen Sprecher konnte in meiner Analyse in genau dieser Art und Weise bestätigt werden. Eine Ergänzung kann, wie dargelegt, nun auch eine neue Information sein. Diese Funktionszuweisung koppelt initial auftretendes ne auf Ebene der Diskursorganisation mit einer diskurssemantischen Komponente.160 GÜNTHNER (2017: 109) spricht bei Analysen der von ihr klassifizierten Diskursmarker guck mal und weißt du von Aufmerksamkeitslenkungen auf bestimmte inhaltliche Elemente des noch folgenden Diskurses, die für das Verständnis etwa
159 Flektierte Verbformen in der Klasse REAKT waren hier nur in medialer und finaler Position in Form von weischt feststellbar (vgl. Tabelle 8). Verben im Imperativ ließen sich in initialer Position und mit dem für Einheiten der Klasse REAKT prototypischen steigenden Intonationsverlauf vor allem im nordniederdeutschen Oldenburg beobachten. Vgl. hierzu Kapitel 5.4.2.2 sowie GÜNTHNER (2017: 105–114). 160 Das sieht die Autorin anders. KÖNIG (2017: 254) beschreibt, dass äußerungsinitiales ne nun „nicht mehr auf der Diskursdimension der Turnkoordination“ operiere. Durch die der Funktionszuschreibung inhärente Fortsetzungsbedingung ist die Turnkoordination aber eingeschlossen: Es folgt stets ein Redebeitrag des aktuellen Sprechers oder der aktuellen Sprecherin.
Ausführliche Analyse – Oberdeutsch: Ohlsbach
217
einer längeren argumentativen Entfaltung essentiell sind. Dies entspricht in der Essenz erneut CLARKs Schaffen eines common ground, das in meinen Analysen immer im Vordergrund der Motivation für die Äußerung der Einheiten steht. Dies schließt, wie zuvor in KÖNIG (2017) und den obigen Beispielen, stets ein, dass nach der Äußerung eine Fortsetzung des Gesprächs durch den aktuellen Sprecher erwartbar gemacht wird. GÜNTHNER (2017: 119) konkretisiert diese Fortsetzung als Wissenstransfer. Die Darstellung deckt sich funktional mit den oben gezeigten Analysen in KÖNIG (2017) und in Teilen von LÜTTEN (1979) und meinen Funktionszuweisungen. Diese Funktion scheint jedoch nicht die einzige zu sein, da Sprecher nach GÜNTHNER (2017: 113) Äußerungen wie guck mal in initialer Position auch zu Rederechtssicherung einsetzen. Diese funktionale Zuweisung entspricht der Vorannahme der universellen Funktion von lokal gleichbleibenden Intonationsmustern auf Diskurspartikeln wie hm und äh sowie zum Teil mehrsilbigen Phrasen (wie guck mal oder das heißt) in initialer Position (Turn beanspruchen vgl. PISTOR 2017: 68–69). Eine prosodische Beschreibung bleibt in GÜNTHNER (2017) aus, träge hier aber zur klaren funktionalen Differenzierung bei, wie sich im nächsten Teilkapitel zeigen wird. Auch bei initial positionierten Einheiten der Klasse REAKT, die phonetisch erneut keinerlei nennenswerte Differenzen zu anderen Einheiten der Klasse zeigen, handelt es sich zusammenfassend also um bewusstseins- und gedächtnissteuernde (Re-)Aktivierungssignale. Die Einheiten bewirken die reaktiv und progressiv ausgerichtete Aktivierung der Aufmerksamkeit des Empfängers auf den Kommunikationsakt und auf in diesem bereits kommunizierte und für den weiteren Fortgang der Kommunikation relevante Informationen. Zusammenfassung Die hier analysierten Einheiten der Klasse REAKT dienen in ihrer Grundfunktion der unspezifizierten Reaktionseinforderung, betitelt durch Reaktionssignal. Die Wirkungsrichtung der Einheiten ist stets (und möglicherweise primär) reaktiv und (sekundär) progressiv. Weitere Funktionsdifferenzierungen der Grundfunktion ergeben sich durch die syntagmatische Position, in der die Einheit jeweils ermittelt wird. In isolierter und finaler Position dienen die Einheiten als Reaktionsaufforderungen. Diese umfassen, kanal- und inhaltsbezogene Verstehensprobleme und können somit Initiatoren für Reparatursequenzen konstituieren. Sie können des Weiteren Bestätigungseinforderungen sowie unspezifiziertere Reaktionseinforderungen darstellen, mit denen Sprecher*innen Rezipient*innen auffordern, sich zu der von den Sprecher*innen angegebenen Kommunikationssituation zu verhalten. Dies entspricht der Grundfunktion. In medialer und initialer Position konstituieren die Einheiten (Re-)Aktivierungssignale und dienen der Aktivierung der Aufmerksamkeit des Empfängers/der Empfängerin auf den Kommunikationsakt und auf in diesem bereits kommunizierte und für den weiteren Fortgang der Kommunikation relevante Informationen. Einheiten der Klasse REAKT steuern damit den direkten Kommuni-
218
Analyse: regulative Intonationsmuster in Regionalsprachen des Deutschen
kationsverlauf auf entweder der (an der konversationellen Oberfläche direkt beobachtbaren) Gesprächsebene oder der (nicht direkt beobachtbaren) kognitiven Bewusstseinsebene über ToM-Annahmen seitens des Äußernden. Im Vordergrund der Funktion der Einheiten steht das kooperative und interaktive Schaffen oder Beibehalten von common ground. Die Grundfunktion der unspezifizierten Reaktionseinforderung von Sprecher*innen ist somit durch eine primär sozial-interaktive Motivation überdacht. 5.1.2.2.2 TURN Auch die für Intonationsmuster der Klasse TURN vorangenommene linguistische Grundfunktion operiert auf der übergeordneten Ebene der Kommunikationsorganisation. Sie lautet Turnhalten und beinhaltet einerseits Turn beanspruchen, womit Sprecher*innen progressiv signalisieren, dass ein Gesprächsbeitrag ihrerseits bevorsteht und sie das Rederecht beanspruchen wollen und andererseits Turn halten, womit Sprecher*innen ebenso progressiv signalisieren, dass ihr Gesprächsbeitrag noch nicht beendet ist und sie das Rederecht beibehalten wollen (vgl. SCHMIDT 2001: 25, KEHREIN 2002: 220–223, PISTOR 2017: 69, oben, Kapitel 2.3.1 und Abbildung 16). Einheiten der Klasse TURN ließen sich in den REDE-Daten (und auch in den Trainingssequenzen) in initialer und medialer Position ermitteln. In diesen syntagmatischen Positionen ließ sich jeweils eine der vorangenommenen potenziell universellen Funktionen belegen. Die Analyse der Beispiele erfolgt entsprechend in dieser Reihenfolge. Initial Transkript 02: OGALT – Estrich (TURN initial) 01 02 XX 03 04 XX 05 XX 06 XX XX 07
I2:
I1: I2:
I1:
I2:
wenn de_s mi_m mi_m E:strich- (-) dass mer auf jEde fall (.) lieber frÜher schon mol mit trOcknungsgerÄte [nI:geht. ] []