140 101 3MB
German, English Pages 216 [218] Year 2014
BEIHEFTE
Thomas Krefeld / Elissa Pustka (Hg.)
Perzeptive Linguistik: Phonetik, Semantik, Varietäten
Germanistik
ZDL
Franz Steiner Verlag
zeitschrift für dialektologie und linguistik
beihefte
157
Thomas Krefeld / Elissa Pustka (Hg.) Perzeptive Linguistik: Phonetik, Semantik, Varietäten
zeitschrift für dialektologie und linguistik beihefte In Verbindung mit Michael Elmentaler und Jürg Fleischer herausgegeben von Jürgen Erich Schmidt
band 157
Thomas Krefeld / Elissa Pustka (Hg.)
Perzeptive Linguistik: Phonetik, Semantik, Varietäten Ein Beitrag zur Interaktion von Phonologie und Morphologie
Franz Steiner Verlag
Gedruckt mit freundlicher finanzieller Unterstützung der Fakultät 13 / Department II der LMU München
Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist unzulässig und strafbar. © Franz Steiner Verlag, Stuttgart 2014 Druck: Laupp & Göbel GmbH, Nehren Gedruckt auf säurefreiem, alterungsbeständigem Papier. Printed in Germany. ISBN 978-3-515-10314-5 (Print) ISBN 978-3-515-10791-4 (E-Book)
VORWORT Den Kern des vorliegenden Bandes bilden Beiträge des 16. LIPP-Symposiums „Perzeptive Linguistik: Phonetik – Semantik – Variation“. Es fand vom 24.− 25.11.2011 im schönen Ambiente der Schwabinger Seidlvilla statt. Für professionelle organisatorische Unterstützung danken wir Caroline Trautmann und Marco Runge. Die Veröffentlichung wäre nicht zustande gekommen ohne das Wohlwollen der Herausgeber dieser Reihe, ohne einen Zuschuss des Departments II der Fakultät für Sprach- und Literaturwissenschaften der LMU München und ohne die selbständige redaktionelle Arbeit von Alwine März – auch dafür sei herzlich gedankt. Schließlich sind wir allen Autoren verbunden, denn sie haben konstruktiv mitgemacht und hatten viel Geduld mit uns.
München, im März 2014 Elissa Pustka | Thomas Krefeld
INHALTSVERZEICHNIS
Vorwort ...................................................................................................................... 5 Einleitung ................................................................................................................... 9
I FORM Felicitas Kleber Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen .............................................................................. 19 Conceição Cunha Neutralisierung lexikalischer Unterschiede im europäischen und brasilianischen Portugiesisch: Interaktion von Sprachproduktion und Perzeption .............................................................................. 33 Christoph Purschke Wort und Totschlag – Zur sozio-symbolischen Bedeutung sprachlicher Divergenz .............................................................................................. 51 Noemi Piredda Perzeption des Italienischen in Sardinien: Stadt und Land im Vergleich .................. 65 Evelyn Glose / Elissa Pustka Kreolisch und Französisch auf Les Saintes (Guadeloupe): Repräsentationen − Produktionen − Perzeptionen ..................................................... 87
II INHALT Hans-Jörg Schmid Semantics and perception. A round-up of key areas of interest and a plea against the separation of linguistic meaning from encyclopedic knowledge .................................................................................................................. 117 Franziska Günther Do German and English speakers conceptualize perceived spatial scenes differently? The case of vorne rechts versus in the front right-hand corner ....................................................................................................... 133
Daniela Marzo Warum der Bauer Bauer heisst. Zur Bedeutung perzeptionsbasierter Datenerhebung für die Motivationsforschung ........................................................... 153 Liane Ströbel Grenzen und Spielräume der sprachlichen Kodierung räumlicher Wahrnehmung. Am Beispiel von Positionsangaben im Französischen im Vergleich zum Deutschen ..................................................................................... 169 Anke Grutschus Von warmen Klängen und dunklem Timbre: Synästhesien in der Musikbeschreibung .................................................................................................... 187 Thomas Krefeld Mit einem hellen Kinderlachen – echte multimodale Effekte und falsche Metaphern ............................................................................................... 203
EINLEITUNG WELT, WAHRNEHMUNG, SPRACHE: DIE PERZEPTIVE GRUNDLAGE DER LINGUISTIK Thomas Krefeld / Elissa Pustka
„Nihil est in intellectu quod non sit prius in sensu – Nichts ist im Verstand, was nicht zuvor in der Wahrnehmung wäre.“ (THOMAS VON AQUIN, nach ARISTOTELES, De anima III, 8)
Vor vier Jahren standen wir schon einmal vor der Aufgabe, einen Band in die Perzeptive Linguistik einzuleiten. Das Thema war damals enger gefasst, es ging um romanistische Varietätenlinguistik. Entsprechend entschieden wir uns für den programmatischen Titel „Für eine perzeptive Varietätenlinguistik“ (KREFELD / PUSTKA 2010). Unter diesem Motto plädierten wir dafür, die Varietätenlinguistik perzeptiv zu fundieren, also in der Wahrnehmung sprachlicher Variation durch die Sprecher selbst.1 Mit einem analogen Titel „Für eine Perzeptive Linguistik“ hätten wir an unser damaliges Plädoyer gerne angeknüpft und systematisch erweitert. Denn der vorliegende Band ist in der Tat allgemeiner und grundlegender konzipiert: Es geht nicht mehr nur um die Perzeption von Sprache, genau genommen: von sprachlichen Zeichen beim Sprechen, und die damit abgerufenen sprachlichen und nicht-sprachlichen kognitiven Repräsentationen bzw. Wissensbestände (z. B. regionale und soziale Herkunft des Sprechers). Vielmehr geht es nun um die Bedeutung der Perzeption für die Sprache, genauer: für ihre aus dem Sprachgebrauch emergierende Struktur.2 Ein Titel „Für eine Perzeptive Linguistik“ wäre durch die allgemeinere Konzeption des Bandes also durchaus gerechtfertigt gewesen. Doch er hätte auch falsche Hoffnungen geweckt. Denn eine perzeptive Linguistik kann es nicht geben, da es nicht einen Wahrnehmungssinn gibt. Es sind vielmehr je nach Zählung mindestens fünf − die über unterschiedliche Körperorgane funktionieren, in unter1
2
Absicht dieses Plädoyers für eine perzeptive Varietätenlinguistik war es, den in der Tradition von COSERIU (1988) und KOCH / OESTERREICHER (1990/2011) oft bemühten, aber wenig klaren Begriff der Varietät auf eine operationalisierbare Grundlage zu stellen (vgl. auch SINNER 2013). Dazu haben in den vergangenen Jahren eine ganze Reihe von Arbeiten in komplementärer Weise beigetragen: u. a. ANDERS (2010), POSTLEP (2010), PURSCHKE (2012), ANDERS / HUNDT / LASCH (2012), FALKERT (2013), PIREDDA (2013), SASSENBERG (2013) und BARBARIĆ (2014). Wir plädieren damit nicht für eine Laienlinguistik im Gegensatz zur Expertenlinguistik, sondern dafür, bei der Konstruktion der Repräsentationen im Gehirn, die alle Linguisten gleichermaßen interessieren, auch die Perzeption der Laien (= Sprecher/Hörer) neben ihrer Sprachproduktion zu berücksichtigen.
10
Thomas Krefeld / Elissa Pustka
schiedlichen Bereichen des Gehirns verarbeitet werden (und dabei interagieren3) und die zudem auf unterschiedliche Weise mit Emotionen und Kognition verknüpft sind (vgl. CARTER 2010: 97, 124). Für die Sprache spielen die Sinne in zweifacher Hinsicht eine grundlegende Rolle: Für die Wahrnehmung von Gesprochenem ist das Ohr zentral (für Geschriebenes das Auge, für den Ausnahmefall der Braille-Blindenschrift auch die Haut); für die Wahrnehmung von Referenten sind dagegen alle Sinne von Bedeutung, allen voran wohl der beim „Augentier“ Mensch besonders ausgeprägte Sehsinn (vgl. CARTER 2010: 94). Dies betrifft insbesondere die „Verbildlichung“ durch Metaphern − auch wenn hier nur eine fiktive Perzeption sprachlich suggeriert wird.4 Insofern möchten wir hier im Wesentlichen für zwei komplementäre Arbeitsbereiche der perzeptiven Linguistik plädieren, auf Basis der traditionellen Unterscheidung von Zeichenform und Zeicheninhalt bei SAUSSURE (1916): eine Linguistik (vor allem) des Ohrs für die Formseite der Sprache und eine Linguistik aller Sinne, aber vor allem des Auges für die Inhaltsseite. Perzeption stellt also gleich zwei Mal die Brücke zwischen der Welt außerhalb des Sprechers und der Sprache in seinem Gehirn dar: einmal zwischen (innerer) Zeichenform und (äußerer) Realisierung, einmal zwischen (innerem) Zeicheninhalt und (äußerem) Referenten. Dies lässt sich an dem auf RAIBLE (1983) basierenden Zeichenmodell von BLANK (2001: 9) gut zeigen. Hier wird nämlich auf der Seite der Form das „abstrakte“ (einzel-)sprachliche Wissen mit der „konkreten“ Lautung in Verbindung gebracht, auf der Seite des Inhalts das „abstrakte“ Wissen mit dem „konkreten“ Referenten.
3 4
Zur Interaktion der Sinneswahrnehmungen insbesondere mit Sprache (McGurk-Effekt, Synästhesien etc.) vgl. den Artikel von KREFELD in diesem Band. Doch nicht nur auf der Inhaltsseite, auch auf der Formseite bildet der Sprecher Umwelt ab und suggeriert sie damit dem Hörer. Dies ist der Fall bei Onomatopoetika und Lautsymbolik.
Einleitung
11
Abb. 1: Sprachzentriertes Zeichenmodell nach BLANK (2001: 9)5
In dieser ausschließlich „abstrakten“ Konzeption des Zeichens offenbart sich jedoch eine starke Vereinfachung. Denn es wird suggeriert, alles Kognitive sei „abstrakt“ und alles Nicht-Kognitive „konkret“ − wobei das „Abstrakte“ als der eigentliche Gegenstand linguistischer Forschung gilt: die langue im Strukturalismus bei SAUSSURE (1916) (im Gegensatz zur parole) und die competence in der generativen Grammatik bei CHOMSKY (1965) (im Gegensatz zur performance): [...] our goal is to discover the nature of the human language faculty, abstracting from the effects of experience […]. (CHOMSKY 1981: 55)
Allerdings stellen die technischen Fortschritte diese Gleichung von zwei Seiten in Frage: Die Korpuslinguistik zeigt, dass sprachliches Wissen nicht homogen ist (vgl. bereits WEINREICH / HERZOG / LABOV 1968), die Neurolinguistik, dass es mit Hilfe bildgebender Verfahren durchaus wahrnehmbar gemacht werden kann. So karikierte bereits der Soziolinguist ENCREVÉ (1988: 236) zu Recht die vermeintliche Abstraktion durch die Idealisierung zum einsprachigen, tauben und mit der Schrift nicht vertrauten Sprecher („unilingue, sourd et illettré“). Die kognitiven Semantiker LAKOFF / JOHNSON (1980) integrieren schließlich in einem ganz anderen Bereich die (perzeptive) Erfahrung: Metaphorische Orientierungen […] sind nicht willkürlich. Sie haben eine Grundlage in unserer physischen und kulturellen Erfahrung. (LAKOFF / JOHNSON 1980: 22)
Doch bei genauerem Hinsehen kommt auch die generative Grammatik an einer ganz zentralen Stelle ohne Perzeption nicht aus: bei der Setzung der einzelsprachlichen Parameter im Spracherwerb. Aus der performance der Erwachsenen kon5
Wir haben hier den Begriff „nicht-sprachlich“ an Stelle von „außersprachlich“ gesetzt. Denn wir beziehen das Begriffspaar „innen“ vs. „außen“ nicht wie in der Linguistik oft üblich auf die (abstrakte) Sprache, sondern auf den (konkreten) Sprecher (vgl. PUSTKA im Erscheinen).
12
Thomas Krefeld / Elissa Pustka
struiert das Kind seine competence – wobei es durch Reanalysen zum Parameterwechsel kommen kann (vgl. CHOMSKY 1981). Vieles spricht allerdings dafür, dass sich dieser Prozess nicht auf das Kindesalter begrenzt, sondern dass der „Sprecher-Hörer“ sein Leben lang lernt (vgl. PUSTKA 2007: 13, 18, 33) und daher vielleicht besser als „Hörer-Sprecher“ bezeichnet werden sollte: Die Perzeption geht der Produktion fast immer voraus. Für dieses Primat der Perzeption liefert übrigens gerade die Psycholinguistik zahlreiche Argumente. So beginnt bekanntermaßen der Spracherwerb mit dem Hören und Verstehen: Bereits fünf Monate vor der Geburt hört der menschliche Fötus, zwei Monate vor der Geburt kann er menschliche Laute von nicht-menschlichen unterscheiden und sogar einzelne Sprachen und Stimmen erkennen (an der Prosodie; vgl. KLANN-DELIUS 1999: 27, CARTER 2010: 91). Erste Wörter versteht das Kind ab sechs Monaten, zu sprechen beginnt es aber erst mit etwa einem Jahr: Wenn es sein erstes Wort spricht, versteht es schon fast 50 (vgl. DITTMANN 2002: 45)! Umgekehrt lässt sich auch bei Sprachentwicklungsstörungen in vielen Fällen eine gestörte Produktion auf eine gestörte Perzeption zurückführen. So kann beispielsweise Lispeln neben motorischen Ursachen (wie der Zahnstellung) auch sensorische Ursachen haben, etwa mangelnde Hörfähigkeit im Bereich der hohen Frequenzen (vgl. WIRTH 52000). Bei Aphasien wirkt sich ebenfalls v. a. die Perzeption auf die Produktion aus. Beispielsweise ist bei der Wernicke-Aphasie im Gehirn das Zentrum für das Sprachverständnis geschädigt; sprechen können die Patienten zwar noch, sogar viel und flüssig (da sie sich ihrer Störung nicht bewusst sind) – was sie sagen, ist jedoch vollkommen unverständlich (vgl. HERRMANN / FIEBACH 2004: 102). Allerdings geht es hier selbstverständlich nicht darum, Produktion, Kognition und Perzeption gegeneinander auszuspielen. Selbst wenn die Fähigkeiten zur Handlung (Motorik) und Wahrnehmung (Sensorik) im Gehirn an vollkommen verschiedenen Orten lokalisiert sind (vgl. CARTER 2010: 39), so wirken sie doch zusammen. Insbesondere für die sprachliche Perzeption6 (die nach der rein organischen „Sensorik“ auch das „kognitive Verstehen“ beinhaltet) ist sowohl Kognition als auch Produktion von Bedeutung. Die Kognition schaltet sich bei der Ergänzung der bottom up-Prozesse durch top down-Prozesse ein. So werden bei der Worterkennung nach der Theorie der Wortanfangskohorte zunächst ein oder zwei Phoneme wahrgenommen (bottom up), woraufhin das Gehirn Hypothesen über die möglichen Wörter (top down) bildet; dann ist oft das Ende des Wortes gar nicht mehr zur Identifikation nötig. Dt. Elef… ist beispielsweise bereits eindeutig als Elefant erkennbar (vgl. MÜLLER 2013: 37; bereits BÜHLER 21965: 275−290). Neben dem abgespeicherten Wissen spielen aber auch die Erfahrungen über die Produktion eine Rolle: Durch die Spiegelneuronen erleben wir gewissermaßen 6
Wahrnehmung bzw. Perzeption wird in der Linguistik oft metonymisch für Repräsentationen verwendet (vgl. SINNER 2013: 129). Es ist jedoch methodisch und theoretisch wichtig, hier klar zu unterscheiden. Perzeptionen implizieren im Übrigen stets Repräsentationen, während die Umkehrung nicht zutrifft.
13
Einleitung
Tätigkeiten mit, wenn wir sie nur sehen, davon hören oder sie uns vorstellen (vgl. CARTER 2010: 120−121). Dies gilt auch für das Hören gesprochener Sprache: Nach der „motor theory of speech perception“ (LIBERMAN et al. 1967) gleichen Hörer die wahrgenommenen akustischen Signale mit artikulatorischen Repräsentationen im Gehirn ab und decodieren sie auf diese Weise (vgl. SKIPPER et al. 2006 und D’AUSILIO et al. 2009). Perzeption ist aber nicht nur für die Form der Sprache von zentraler Bedeutung, sondern auch für ihren Inhalt. Die Beeinflussung des Lexikons durch die Sensorik ist evident im Fall der visuellen Wahrnehmung, speziell der Farben. Das Feld der Farbwörter ist nämlich physiologisch sowohl durch den für Menschen wahrnehmbaren Ausschnitt des Spektrums als auch durch die spezifische Funktionsweise der drei Typen von farbsensitiven Rezeptoren, die so genannten Zäpfchen konditioniert (vgl. GEGENFURTNER / KIPER 2003, GEGENFURTNER 2003: 47−48).7 Die unterscheidbaren Farbtöne sind jedoch keineswegs gleichzusetzen: Bereits BERLIN / KAY (1969) haben eine universelle Implikatur der basic colour terms aufgestellt, die sich über natürliche und kulturelle Faktoren erklären lässt. In ihrer ursprünglichen Version lautet die Implikatur wie folgt: LILA SCHWARZ
und WEISS
GRÜN
>
ROT
>
oder GELB
GELB
>
oder
ROSA
>
BLAU
>
BRAUN
GRÜN
>
ORANGE
oder GRAU
Abb. 2: Implikatur der Farbwörter nach BERLIN / KAY (1969)
Die Sprachen der Welt haben also zwischen zwei und elf Grundfarbwörter. Alle besitzen Wörter für SCHWARZ und WEISS. Wenn sie ein weiteres Farbwort haben, dann steht es für ROT; ein weiteres muss dann GRÜN oder GELB bezeichnen etc. Neuere Forschungen des „The World Color Survey“ haben hier noch einige Präzisierungen gebracht: So ist die grundlegende Zweiteilung eher als HELL vs. DUNKEL aufzufassen und die darauf folgende Kategorie eher als WARM mit Farben des Spektrums zwischen ROT und GELB. Zudem haben 30 der 120 im WALS aufgeführten Sprachen ein einziges Wort für BLAU und GRÜN (vgl. KAY et al. 2009, WALS). Diese Implikatur der Farbwörter in den Sprachen der Welt erklärt sich mit der Bedeutung der entsprechenden Farben in Natur und Kultur. Während HELL/DUNKEL für den grundlegenden Unterschied zwischen Tag und Nacht steht, ist 7
Einen ähnlichen Fall liefert die gustatorische Wahrnehmung. So bezeichnen Wörter wie dt. süß, bitter, sauer und salzig nicht nur chemische Eigenschaften der jeweiligen Nahrungsmittel, sondern sie ergeben sich aus der Tatsache, dass auf der Zunge spezifische Bereiche unterschieden werden können, deren Rezeptoren dominant entsprechende Empfindungen hervorbringen (und nicht auf ganz andere chemische Reize ansprechen).
14
Thomas Krefeld / Elissa Pustka
eine wichtige Signalfarbe, für Gefahren genauso wie für die Fortpflanzung; nicht zuletzt weist diese Farbe auf die Essbarkeit von leichter verdaulichen und weniger Stoffwechselenergie verbrauchenden reifen Früchten (vs. unreifen Früchten und Blättern) hin (vgl. DOMINY / LUCAS 2001). Für andere Farben spielen u. a. die Möglichkeiten des Färbens von Stoffen und kulturelle Assoziationen eine Rolle. Die perzeptive Hierarchie der Farbtöne (vgl. auch LORETO / MUKHERJEE / TRIA 2012), die hinter dieser sprachlichen Implikatur steht, ist in zweifacher Hinsicht bemerkenswert. In Bezug auf die besondere Prominenz von ROT markiert sie eine offensichtlich wichtige evolutionäre Entwicklung, denn unter den Säugetieren zeichnen sich nur die Primaten der alten Welt und der Mensch durch trichromatisches Sehen aus; alle anderen Säuger sind rot-grün-blind, da sie nur über zwei Typen von Zäpfchen verfügen. Sodann entspricht die herausgehobene Rolle von ROT, GRÜN, GELB und BLAU der neuronalen Verarbeitung von Farbinformationen, denn die Neuronen, die für diese Kardinalfarben empfindlich sind, treten auf einer früheren Verarbeitungsstufe auf als solche, „die am stärksten auf Zwischentöne, z. B. orange reagieren“ (GEGENFURTNER 2003: 48). Die unabhängig voneinander erarbeiteten Ergebnisse der Wahrnehmungspsychologie und der Linguistik passen also genau zusammen. Vollkommen unabhängig von dem nach wie vor mit Fragezeichen versehenen Wissensstand der Kognitiven Psychologie ist es für die Sprachwissenschaft unerlässlich, den komplexen Prozessen der Verarbeitung sensorischer Informationen bei der Modellierung des sprachlichen Zeichens Rechnung zu tragen; HÖREN und SEHEN spielen die zentrale Rolle, aber auch die anderen Sinnesmodalitäten sowie ihr Zusammenwirken dürfen nicht vernachlässigt werden. Den beiden konstitutiven Oppositionen des oben genannten Zeichenmodells („abstrakt“ vs. „konkret“ und „einzelsprachlich“ vs. „nicht-sprachlich“ in Abb. 3) ist in diesem Sinne eine dritte Opposition hinzuzufügen, die es erlaubt, explizit zwischen den zugrunde liegenden Stimuli („außen“) und ihrer multimodalen kognitiv-neuronalen Verarbeitung („innen“) zu unterscheiden. Es ist überdies festzuhalten, dass die Trennung zwischen „einzelsprachlich“ und „nicht-sprachlich“ im Bereich des Sensorischen nicht gilt, denn spezielle Bahnen für die Verarbeitung sprachlicher Stimuli gibt es nicht. Das Zeichenmodell von BLANK (2001: 9) kann daher folgendermaßen präzisiert werden: ROT
Einleitung
15
Abb. 3: Sprecherzentriertes Zeichenmodell
Weiterhin sind die Funktionen des (sprachlichen) Zeichens selbstverständlich im Zusammenhang der Kommunikationssituation zu sehen: Perzipiert werden nicht nur Signifikant und Referent, sondern andere relevante Aspekte, insbesondere der Kommunikationspartner. Die Kommunikation findet vor einem gemeinsamen Aufmerksamkeits- und Wahrnehmungshintergrund statt. Ganz in diesem Sinn präzisiert TOMASELLO (2010: 74) das allgemeine Konzept des „common ground“: Die Basis des gegenseitigen Verständnisses ist eben nicht nur in abstrakten gemeinsamen Wissensbeständen, sondern in den konkreten, aktuell gemeinsamen perzeptiven Erfahrungen, „in our immediate perceptual environment“ (TOMASELLO 2010: 78), zu fundieren. Diesen in gewisser Hinsicht primären Typ von „common ground“ bezeichnet er explizit als „joint attentional frame“ (TOMASELLO 2010: 74; vgl. 78−79).8 Daraus lässt sich dieses Modell zur Kontextualisierung entwickeln:
8
TOMASELLO bezieht sich dabei auf das Konzept der perceptual co-presence in CLARK (1996).
16
Thomas Krefeld / Elissa Pustka
Abb. 4: Zeichenverständnis vor dem Hintergrund der gemeinsamen Wahrnehmung von Sprecher und Hörer
Der skizzierte gemeinsame und insofern auch soziale Wahrnehmungshintergrund ist in mehrfacher Hinsicht bedeutsam für Onto- und Phylogenese der Sprache:9 Er begleitet unterstützend den Spracherwerb und führt gleichzeitig zum Aufbau zahlreicher embodiment-Verknüpfungen von Sprache, Sensorik und Motorik (vgl. PECHER / ZWAAN 2005, SHAPIRO 2011). Außerdem sichert er in spontaner mündlicher Kommunikation das Verständnis insofern er massiv zur Disambiguierung unklarer Referenz und uneindeutiger Illokution beiträgt; man denke an Blickrichtung, Mimik und Gestik des Sprechers, ohne die etwa die Pronominaldeixis gar nicht verstehbar ist. Schließlich liefern entsprechende Szenarien zahlreiche Erklärungen für Sprachwandelprozesse. Es reicht hier für den Bereich der Semantik an die Bezeichnung des akustischen und kognitiven VERSTEHENS zu erinnern, die in allen Modalitäten motiviert sein können: ein ARGUMENT ist offensichtlich (oder evident), so dass wir es erfassen oder kapieren (< lat. capere ‘greifen’), weil wir „den Braten vorher gerochen haben“. * Dieser einleitende Problemaufriss orientierte sich an der ebenso einfachen wie fundamentalen Tatsache, dass WAHRNEHMUNG den Bezug der SPRACHE zur WELT garantiert, denn sie ist die Voraussetzung für Verständnis von Form und Inhalt. Diesen beiden Grundfunktionen entspricht die Einteilung des vorliegenden Bandes. Im ersten, mit „Form“ überschriebenen Teil werden Beiträge zur Phonetik
9
Grundlegend dazu das Kapitel „Pointing and Pantomiming” in TOMASELLO (2008: 60−71).
Einleitung
17
und allgemein zur Salienz von Varianten und Varietäten zusammengefasst. Der zweite Teil ist dem „Inhalt“ und damit der Semantik gewidmet. BIBLIOGRAPHIE ANDERS, CHRISTINA ADA (2010): Wahrnehmungsdialektologie. Das Obersächsische im Alltagsverständnis von Laien. Berlin/New York: de Gruyter. ANDERS, CHRISTINA / MARKUS HUNDT / ALEXANDER LASCH (Hg.) (2012): Perceptual Dialectology. Neue Wege der Dialektologie. Berlin/New York: de Gruyter. BARBARIĆ, PHILIPP (2014): „Che storia che gavemo qua“ – Sprachgeschichte Dalmatiens als Sprechergeschichte (1797 bis heute). Unveröff. Dissertation, LMU München. BERLIN, BRENT / PAUL KAY (1969): Basic Color Terms. Their universality and evolution. Berkeley: University of California Press. BLANK, ANDREAS (2001): Einführung in die lexikalische Semantik für Romanisten. Tübingen: Niemeyer. BÜHLER, KARL (21965): Sprachtheorie. Die Darstellungsfunktion der menschlichen Sprache. Stuttgart: Gustav Fischer. CARTER, RITA (2010): Das Gehirn. München: Dorling Kindersley. CHOMSKY, NOAM (1965): Aspects of the Theory of Syntax. Cambridge: MIT Press. CHOMSKY, NOAM [1981] (71993): Lectures on Government and Binding. Berlin: de Gruyter. CLARK, HERBERT H. (1996): Uses of language. Cambridge: CUP. COSERIU, EUGENIO (1988): Einführung in die Allgemeine Sprachwissenschaft. Tübingen: Francke. D’AUSILIO, ALESSANDRO et al. (2009): The Motor Somatotopy of Speech Perception. In: Current Biology 19.5, 381–385. DITTMANN, JÜRGEN (2002): Der Spracherwerb des Kindes. München: Beck. DOMINY, NATHANIEL J. / PETER W. LUCAS (2001): Ecological importance of trichromatic vision to primates. In: Nature 410, 363−366. FALKERT, ANIKA (Hg.) (2013): La perception des accents du français hors de France. Mons: CIPA. GEGENFURTNER, KARL R. (2003): Gehirn und Wahrnehmung. Eine Einführung. Frankfurt am Main: Fischer. GEGENFURTNER, KARL R. / DANIEL C. KIPER (2003): Color Vision. In: Annual Reviews of Neuroscience 26, 181–206. URL: . GOODALE, MELVYN A. / A. DAVID MILNER (1992): Separate visual pathways to perception and action. In: TINS 15.1, 20−25. HERRMANN, CHRISTOPH / CHRISTIAN FIEBACH (2004): Gehirn & Sprache. Frankfurt am Main: Fischer. KAY, PAUL et al. (2009): The World Color Survey. Stanford: CSLI. KLANN-DELIUS, GISELA (1999): Spracherwerb. Stuttgart/Weimar: Metzler. KOCH, PETER / WULF OESTERREICHER [1990] (22011): Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Niemeyer. KREFELD, THOMAS / ELISSA PUSTKA (2010): Einleitung: Für eine perzeptive Varietätenlinguistik. In: KREFELD, THOMAS / ELISSA PUSTKA (Hg.): Perzeptive Varietätenlinguistik. Frankfurt am Main u. a.: Peter Lang, 9–28. LIBERMAN, ALVIN M. et al. (1967): Perception of the speech code. In: Psychological Review 74, 431−461. LORETO, VITTORIO / ANIMESH MUKHERJEE / FRANCESCA TRIA (2012): On the origin of the hierarchy of color names. In: PNAS 109.18, 6819−6824. MISHKIN, MORTIMER / LESLIE G. UNGERLEIDER / KATHLEEN A. MACKO (1983): Object vision and spatial vision: two cortical pathways. In: TINS 6, 414−417. MÜLLER, HORST (2013): Psycholinguistik – Neurolinguistik: Die Verarbeitung von Sprache im Gehirn. Paderborn: Fink.
18
Thomas Krefeld / Elissa Pustka
PECHER, DIANE / ROLF A. ZWAAN (2005): Grounding cognition. The role of perception and action in memory, language, and thinking. Cambridge: Cambridge University Press. PIREDDA, NOEMI (2013): I sardi e i loro italiani. Uno studio percettivo. Frankfurt am Main: Peter Lang. POSTLEP, SEBASTIAN (2010): Zwischen Huesca und Lérida. Perzeptive Profilierung eines diatopischen Kontinuums. Frankfurt am Main u. a.: Lang. PURSCHKE, CHRISTOPH (2012): Regionalsprache und Hörerurteil: Grundzüge einer perzeptiven Variationslinguistik. Stuttgart: Franz Steiner Verlag. PUSTKA, ELISSA (im Erscheinen): Expressivität – eine kognitive Theorie und ihre Anwendung auf die Versprachlichung von Quantität in der Romania. Berlin: Erich Schmidt Verlag. PUSTKA, ELISSA (2007): Phonologie et variétés en contact. Aveyronnais et Guadeloupéens à Paris. Tübingen: Narr. RAIBLE, WOLFGANG (1983a): Zur Einleitung. In: STIMM, HELMUT / WOLFGANG RAIBLE (Hg.): Zur Semantik des Französischen. Wiesbaden: Steiner, 1−24. SASSENBERG, STEFAN (2010): Sprechen wie die Ungarn: Sprachkontakt im Varietätenbewusstsein westrumänischer Sprecher. Dissertation, LMU München. URL: . SAUNDERS, BARBARA (2000): Revisiting basic color terms. In: Journal of the Royal Anthropological Institute 6, 81−99. SAUSSURE, FERDINAND DE [1916] (1995): Cours de Linguistique générale. Paris: Payot. SHAPIRO, LAWRENCE (2011): Embodied Cognition. New York: Routledge. SINNER, CARSTEN (2013): Varietätenlinguistik. Eine Einführung. Tübingen: Narr. SKIPPER, JEREMY I. et al. (2006): Hearing Lips and Seeing Voices: How Cortical Areas Supporting Speech Production Mediate Audiovisual Speech Perception. In: Cerebral Cortex 17.10, 2387−2399. STROOP, J. RIDLEY (1935): Studies of interference in serial verbal reactions. In: Journal of Experimental Psychology 18, 643−662. TOMASELLO, MICHAEL [2008] (2010): Origins of Human Communication. Cambridge (Mass.)/ London: MIT Press. WALS = DRYER, MATTHEW S. / MARTIN HASPELMATH (Hg.) (2011): The World Atlas of Language Structures Online. München: Max Planck Digital Library. URL: . WEINREICH, URIEL / MARVIN HERZOG / WILLIAM LABOV (1968): Empirical foundations for a theory of language change. In: LEHMANN,WINFRED / YAKOV MALKIEL (Hg.): Directions for Historical Linguistics. Austin: University of Texas Press, 97−188. WIRTH, GÜNTER (52000): Sprachstörungen, Sprechstörungen, kindliche Hörstörungen. Köln: DÄV.
PARTIELLE NEUTRALISIERUNG DES STIMMHAFTIGKEITSKONTRASTES IN ZWEI VARIETÄTEN DES DEUTSCHEN Felicitas Kleber
1. EINLEITUNG Das Deutsche weist einen phonologischen Kontrast zwischen stimmhaften und stimmlosen Plosiven auf, wie z. B. in dt. baden /baːdən/ vs. dt. (sie) baten /baːtən/ (von bitten). Akustisch zeigt sich diese Opposition insbesondere in der Aspirationsdauer und dem Vokal-zu-Konsonant-Dauerverhältnis (V:K-Ratio) und nur bedingt durch phonetische Stimmhaftigkeit (im Sinne von Stimmlippenschwingung). Auch für die Perzeption sind diese akustischen Merkmale1 nicht alle gleich wichtig: Während die Aspiration den größten Ausschlag gibt, spielt die phonetische Stimmhaftigkeit nur eine marginale Rolle (vgl. KOHLER 1979). Ist keine Aspiration vorhanden, tritt der V:K-Ratio an die Stelle des bedeutendsten Reizes – wie im Falle von nasal gelösten Plosiven (z. B. baden /baːdən/ [baːdⁿ]). LenisPlosive haben kürzere Verschlussdauern und eine dazu proportional gelängte Vokaldauer im Vergleich zu Fortis-Plosiven. Da der Kontrast eher durch Unterschiede in der Artikulationsstärke kodiert ist, wird diese phonologische Opposition adäquater durch die Begriffe fortis (starker Luftdruck wie in /p/) und lenis (sanfter Luftdruck wie in /b/) beschrieben (vgl. auch KOHLER 1984). Der Kontrast wird allerdings nur im Silbenonset und in intervokalischer Position realisiert. Silbenfinal2 wird er zu Gunsten der Fortis-Kategorie neutralisiert (Auslautverhärtung): Die Wörter Bad (mit einem zugrundeliegenden3 /d/) und bat (mit einem zugrundeliegenden /t/) werden an der Oberfläche homophon als [baːt] realisiert. Allerdings ist bis heute umstritten, ob es sich hierbei um eine vollständige oder partielle Neutralisierung handelt. In den meisten mitteldeutschen, aber auch einigen hochdeutschen Dialekten wird die Fortis/Lenis-Opposition auch im Silbenonset bzw. in intervokalischer Position neutralisiert – jedoch zugunsten der Lenis-Kategorie, daher auch die Bezeichnung Binnendeutsche Konsonantenschwächung (vgl. z. B. WIESINGER 1990). Beschreibungen beispielsweise des ost-
1 2 3
Der Begriff Merkmal bezieht sich hier nicht auf die in der Phonologie angenommenen distinktiven Merkmale (high level), sondern nur auf akustische Signaleigenschaften (low level). Vor Konsonanten wird der Kontrast auch morphemfinal neutralisiert (KOHLER 1995: 157). Phoneme werden in der generativen Phonologie als zugrundeliegend angenommen; sie entsprechen einer hypothetischen Basisrepräsentation, die mithilfe von distinktiven Merkmalen beschrieben werden können und durch phonologische Regeln in die (phonetische) Oberflächenform überführt werden.
20
Felicitas Kleber
mitteldeutschen Dialekts Obersächsisch zufolge werden die Wörter Paten, baten und baden allesamt als [b̥ aːdən] realisiert (vgl. z. B. BERGMANN 1990). In der hier vorgestellten Studie messen wir feine phonetische Unterschiede in der Produktion und Perzeption des akustischen Merkmals V:K-Ratio, um zu prüfen, inwiefern sich in der regionalen Varietät Sächsisch ein Lautwandel hin zu einem intervokalischen Fortis/Lenis-Kontrast vollzieht.
2. STAND DER FORSCHUNG Akustische Untersuchungen haben wiederholt gezeigt, dass insbesondere die präkonsonantische Vokaldauer signifikant länger vor zugrundeliegend stimmhaften als vor zugrundeliegend stimmlosen Plosiven ist. In dieser Hinsicht sind die zugrundeliegend stimmhaften Plosive in der Coda den stimmhaft realisierten Plosiven im Onset ähnlicher, auch wenn die Merkmale für stimmhafte Plosive abgeschwächt sind (vgl. PORT / O’DELL 1985). Diese Form der partiellen Neutralisierung wurde in mehreren Sprachen mit finaler Entstimmung nachgewiesen, z. B. Katalanisch (z. B. CHARLES-LUCE / DINNSEN 1987) oder Holländisch (z. B. ERNESTUS / BAAYEN 2006). Allerdings wurde dabei schon früh kritisiert, dass die Ergebnisse hyperartikulierter Laborsprache und Orthographieeinflüssen geschuldet seien (vgl. z. B. FOURAKIS / IVERSON 1984). Auch wenn die Orthographie und das artifizielle Setting eines Laborexperiments als Einflussfaktoren sicherlich nicht ausgeschlossen werden können (vgl. PORT / CRAWFORD 1989), so haben spätere Untersuchungen doch gezeigt, dass das Ergebnis sehr robust und nicht nur auf experimentelle Artefakte zurückzuführen ist (vgl. z. B. ERNESTUS / BAAYEN 2006).4 Im Gegensatz zur silbenfinalen Fortisierung (Verstärkung von Lenis-Plosiven) ist die intervokalische Lenisierung (also Abschwächung) von Fortis-Konsonanten ein in vielen Sprachen dokumentierter Lautwandelprozess. So wurde aus Lateinisch /p, t, k/ in intervokalischer Position im Portugiesischen /b, d, g/ (lat. vita > pt. vida), im Spanischen wurden die Lenis-Plosive noch weiter zu Approximanten abgeschwächt (span. vida [βiða]) und im Französischen wurden sie entweder zum Frikativ (lat. sapere > fr. savoir) oder ganz elidiert (lat. vita > fr. vie [vi]). Auch die Binnendeutsche Konsonantenschwächung ist das Resultat eines Lautwandels, der sich seit dem Spätalthochdeutschen (im oberdeutschen Sprachraum) bis ins Frühneuhochdeutsche (im ostmitteldeutschen Sprachraum) verbreitet hat (vgl. SCHMIDT 2000: 324). Interne Faktoren (vgl. LABOV 1994) wie synchrone Variabilität – die z. B. durch verschiedene Sprechtempi oder Sprechstile hervorgerufen wird – zählen zu den möglichen Gründen, weshalb aus einem phonologischen Prozess wie der Lenisierung ein Lautwandel entstehen kann5 (vgl. 4 5
Katalanisch weist z. B. eine unvollständige Neutralisierung auf, obwohl der Kontrast in dieser Sprache nicht orthographisch repräsentiert ist (vgl. CHARLES-LUCE 1993: 30). Ein aktuell ablaufender Lautwandel wird aber auch durch mehr synchrone Variation reflektiert.
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
21
z. B. KOHLER 1984, BECKMAN et al. 1992). Als Beispiel führt KOHLER (1984: 157) die spontansprachliche Realisierung von habe als [haːβə] an, die nicht nur bei einem schnelleren Sprechtempo, sondern auch bei Deakzentuierung auftreten kann. Eine ganze Reihe von Lautwandelbelegen in unbetonten Silben unterstützen die Hypothese einer prosodisch bedingten diachronen Lenisierung (vgl. BECKMAN et al. 1992). Synchrone Lenisierung ist jedoch vor allem für die Sprachproduktion belegt (vgl. LEHISTE 1970). Empirische Befunde zur Rolle der Perzeption insbesondere unter Berücksichtigung der Prosodie und dem Verhältnis von Produktion und Perzeption bei einem potentiellen Lautwandel sind hingegen selten, obwohl OHALA (1981) zufolge der Hörer die Quelle für Lautwandel ist, nämlich dann, wenn Hörer nicht mehr für Koartikulation kompensieren, d.h. wenn sie nicht mehr von der Oberflächenrealisierung auf die zugrundeliegende Repräsentation schließen, sondern diese dekontextualisieren und als neue Repräsentation reanalysieren. HARRINGTON / KLEBER / REUBOLD (2008) und KLEBER / HARRINGTON / REUBOLD (2012) fanden in den zur Zeit im Standardenglischen stattfindenden Lautwandelprozessen von hinteren zu vorderen /u/ bzw. /ʊ/-Realisierungen (z. B. soup /sup/ > [sʉp]) Belege für diese Hypothese. Ferner zeigten HARRINGTON et al. (2013), dass die Prosodie einen Einfluss auf die phonologische Kategorisierung hat. Auch externe oder soziale Faktoren (vgl. LABOV 2001) wie beispielsweise das Prestige eines Dialekts haben einen Einfluss auf die Lautentwicklung. Eine Reihe von Untersuchungen zu Dialektwandel bzw. -abbau (dialect levelling) im deutschen Sprachgebiet zeigten, dass Sprecher jüngerer Generationen weniger dialektale Merkmale aufweisen als ältere Sprecher desselben Dialekts (BARDEN / GROßKOPF 1998, LAMELI 2004, WAGENER 2002). TORGERSEN / KERSWILL (2004) zufolge können externe Faktoren auch Lautwandelprozesse begünstigen, die aufgrund interner Faktoren eigentlich in eine andere Richtung gehen müssten. Einen solchen phonetisch weniger vorhersagbaren Wandel von intervokalisch lenisierten zu fortisierten Plosiven bzw. hin zu einem zunehmenden Fortis/LenisKontrast haben HARRINGTON / KLEBER / REUBOLD (2012) in einer Apparent TimeStudie zum Ostfränkischen gezeigt: Ältere ostfränkische Sprecher neutralisieren den Fortis/Lenis-Kontrast sowohl in Produktion als auch in Perzeption sehr viel stärker als jüngere Sprecher, die den Kontrast zunehmend – wenn auch noch nicht vollständig – produzieren und perzipieren (die Plosive in leiten oder baten werden also zunehmend fortisiert). Die Autoren gehen davon aus, dass sich der Wandel unter dem Einfluss der Standardsprache vollzieht und damit eher extern motiviert wäre. Ziel der vorliegenden Untersuchung ist es, anhand einer Apparent-TimeAnalyse zu prüfen, ob auch für das Sächsische ein Lautwandel hinsichtlich der Neutralisierung des Fortis/Lenis-Kontrastes zu beobachten ist.6 In einem Produktions- und einem Perzeptionsexperiment vergleichen wir das akustische Merkmal V:K-Ratio jeweils in zwei Altersgruppen (apparent time) der beiden regionalen 6
In dieser Untersuchung wird das phonologische System auf der Ebene der regionalen Varietät angesetzt. Es sei aber darauf verwiesen, dass ein aktuell ablaufender Lautwandel in den sprecherindividuellen Systemen unterschiedlich ausgeprägt sein kann.
22
Felicitas Kleber
Varietäten Sächsisch und Bairisch. Da das Sächsische ein negativ bewerteter Dialekt ist (vgl. BARDEN / GROßKOPF 1998, BERGMANN 1990), kann vermutet werden, dass ein externer Faktor wie das Prestige der Standardsprache einen solchen Wandel zumindest in einer gebildeten Schicht stärker fördert. Um den Grad der Kontrast-Neutralisierung des kontinuierlichen Parameters V:K-Ratio zu bestimmen, wird neben der neutralisierenden regionalen Varietät Sächsisch noch die nicht-neutralisierende Varietät Bairisch als Kontrollgruppe berücksichtigt. Im Mittelbairischen korreliert die Vokalquantität mit darauffolgender Plosivstimmhaftigkeit in Form von Plosivdauer: Vor Lenis-Plosiven (kurze Dauer) kommen grundsätzlich nur Langvokale vor (z. B. bair. wega /veːga/), während vor FortisPlosiven (lange Dauer) nur Kurzvokale auftreten (z. B. bair. wecka /weka/, vgl. WIESINGER 1990). Der V:K-Ratio spielt im Bairischen daher eine besonders wichtige Rolle in der Kodierung des Fortis/Lenis-Kontrastes (vgl. BANNERT 1976). Zusätzlich soll im Perzeptionsexperiment speziell der Einfluss des internen Faktors AKZENTUIERUNG auf die Kontrastwahrnehmung untersucht werden. Unter Berücksichtigung der Ergebnisse der oben beschriebenen Studien werden die Hypothesen wie folgt formuliert: 1. Sächsische Sprecher neutralisieren den Fortis-Lenis-Kontrast unvollständig, wobei ältere sächsische Sprecher zu mehr Neutralisierung tendieren als jüngere sächsische Sprecher. 2. Sächsische Hörer perzipieren den Kontrast unvollständig im Vergleich zu bairischen Hörern, wobei wiederum ältere sächsische Hörer zu mehr perzeptiver Neutralisierung neigen als jüngere sächsische Hörer. 3. Der Kontrast wird deutlicher wahrgenommen, wenn das Zielwort in satzakzentuierter Position vorkommt.
3. SPRACHPRODUKTION Im Gegensatz zu vielen dialektologischen oder regionalsprachlichen Untersuchungen wurde gelesene Laborsprache untersucht, wodurch ein systematischerer Vergleich zweier Varietäten möglich ist, die sich auch hinsichtlich der soziolinguistischen Situation unterscheiden (vgl. z. B. BERGMANN 1990 für das Obersächsische und WIESINGER 1990 für das Mittelbairische).7 Das der Analyse zugrundeliegende Korpus (Aufnahmezeitraum: März 2008–November 2009) enthält insgesamt 46 gelesene Wörter, darunter 20 Minimalpaare. Mithilfe der SpeechRecorder Software wurden die Wörter den Sprechern einzeln, ohne Kontext, in randomisierter Reihenfolge in sehr kurzen Abständen (2000ms) auf einem Bildschirm optisch präsentiert und die Lektüre des Wortes aufgenommen. Die Versuchspersonen wurden gebeten, die Wörter so schnell wie möglich zu lesen. Diese Metho7
Der Nachteil gelesener Laborsprache besteht in der Künstlichkeit der Aufnahmesituation und der daraus folgenden Tendenz zur Hyperartikulation, d.h. einer besonders deutlichen Aussprache, auf Seiten des Sprechers.
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
23
de erlaubt auf der einen Seite eine sehr kontrollierte Aufnahme, bei der alle Sprecher die Zielwörter unter identischen Bedingungen produzieren, was eine feine phonetische Analyse ermöglicht; auf der anderen Seite gewährleistet die schnelle Abfolge der Wortpräsentation eine weniger kontrollierte Realisierung der Wörter, die Merkmale der regionalen Varietät aufweisen. Die Minimalpaare wurden von insgesamt 42 Sprechern gelesen: in der bairischen Gruppe waren acht ältere (51–86 Jahre, darunter drei Männer) und zwölf jüngere (20–29 Jahre; vier Männer), in der sächsischen Gruppe 13 ältere (49–81 Jahre; acht Männer) und neun jüngere (18–31 Jahre; drei Männer) Probanden. Alle Sprecher wuchsen in Dresden, München oder Altötting auf, leben heute noch in den Regionen und wiesen ein hohes Bildungsniveau in Form eines (abgeschlossenen) Hochschulstudiums auf. Für die Analyse wurden alle Minimalpaare mit intervokalischem Stimmhaftigkeitskontrast aus dem Korpus ausgewählt. Hierbei handelt es sich um die Minimalpaare Boden – boten und Ober – Oper. Die Aufnahmen eines jüngeren sächsischen Sprechers wurden in der Analyse unberücksichtigt gelassen, da der Datensatz aufgrund zu vieler Versprecher zu wenig Token enthielt. Versprecher oder mit Hesitationen realisierte Token anderer Versuchspersonen blieben bei der Analyse ebenfalls unberücksichtigt. Von den ursprünglich 1640 Token (4 Wörter x 10 Wiederholungen x 41 Sprecher) wurden damit insgesamt 1616 Token analysiert. Die Aufnahmen wurden mit dem Münchner Automatischen Segmentationssystem MAuS automatisch segmentiert; anschließend wurden die Segmentgrenzen in Praat geprüft und, wenn nötig, unter Berücksichtigung folgender Konventionen manuell korrigiert: Der Beginn des Vokals wurde auf den positiven Nulldurchgang der ersten Periode mit einem stabilen zweiten Formanten gesetzt; der Verschluss begann mit der letzten Periode des vorangehenden Vokals und endete mit der Verschlusslösung. Für jedes einzelne Token wurde dann in der Programmiersprache R die Dauer des betonten Vokals (V) sowie der Verschlussphase des intervokalischen Plosivs (K) extrahiert und der V:K-Ratio, d.h. der proportionale Vokalanteil an der Reimdauer (hier: V+K), berechnet. Daraufhin wurde für jeden einzelnen Sprecher der Neutralisierungsgrad ermittelt. Dieser entspricht der Differenz zwischen seinem durchschnittlichen V:K-Ratio der zugrundeliegenden Lenis- und dem seiner zugrundeliegenden Fortis-Plosive.8 Die Daten wurden mit General Linear Mixed Models in R statistisch geprüft. V:K-Ratio bzw. die V:K-Ratio-Differenz waren die abhängigen Variablen, zugrundeliegende STIMMHAFTIGKEIT (zwei Stufen: lenis vs. fortis), ALTER (zwei Stufen: jünger vs. älter) und REGION (zwei Stufen: sächsisch vs. bairisch) die unabhängigen Variablen; der Sprecher wurde als Zufallsfaktor eingegeben. In der Analyse mit V:K-Ratio als abhängige Variable wurde auch das Alter zunächst als Zufallsfaktor behandelt.9 Wie im linken Boxplot der Abb. 1 zu sehen 8 9
Der durchschnittliche V:K-Ratio entspricht dem Mittelwert über alle Wiederholungen pro Wort und Sprecher. Da in der Analyse in KLEBER (2011) die Realisierung bzw. die Elision des Schwas in der zweiten Silbe der Wörter boten und Boden keinen signifikanten Einfluss auf den V:K-Ratio
24
Felicitas Kleber
ist, unterscheiden sowohl Bayern als auch Sachsen den Fortis/Lenis-Kontrast mittels signifikant unterschiedlicher V:K-Ratios: Bayern realisieren zugrundeliegende Lenis-Plosive im Durchschnitt mit einem V:K-Ratio von 0,76 (σ = 0,07) und Sachsen mit einem V:K-Ratio von 0,73 (σ = 0,09), Fortis-Plosive hingegen werden von Bayern mit einem mittleren V:K-Ratio von 0,57 (σ = 0,07) und von Sachsen mit einem durchschnittlichen V:K-Ratio von 0,64 (σ = 0,08) produziert.10 Mit Ausnahme der sächsischen V:K-Ratios für Fortis-Plosive entsprechen diese Werte den von KOHLER (1977) für das Standardnorddeutsche gemessenen V:K-Ratios von über 0,7 für Lenis- und unter 0,6 für Fortis-Plosive. Der V:K-Ratio wurde signifikant durch die zugrundeliegende STIMMHAFTIGKEIT beeinflusst (χ2[1] = 1190,0, p < 0,001). Der Haupteffekt für REGION war nicht signifikant, d.h. sowohl Bayern als auch Sachsen neutralisierten den Kontrast in diesem Korpus nicht. Der signifikante Interaktionseffekt für STIMMHAFTIGKEIT x REGION (χ2[1] = 259,7, p < 0,001) zeigt aber an, dass die beiden Dialektgruppen den Kontrast unterschiedlich stark mittels des V:K-Ratios realisierten. Post-hoc Tukey-Tests ergaben, dass sich Bayern und Sachsen hinsichtlich der oben genannten durchschnittlichen V:KRatios für Lenis- und Fortis-Plosive signifikant unterschieden (Fortis: z = 6,3, p < 0,001, Lenis: z = -3,5, p < 0,01). 1.0 0.9
Fortis Lenis V:K-Ratio Differenz
0.8 V:K-Ratio
Älter Jünger
0.3
0.7 0.6 0.5 0.4
0.2
0.1
0.0
0.3 Bayern
Sachsen
Bayern
Sachsen
Abb. 1: V:K-Ratios für zugrundeliegende Fortis- (grau) und Lenis-Plosive (weiß) getrennt für Bayern und Sachsen (links) sowie die V:K-Ratio-Differenz zwischen zugrundeliegenden Fortisund Lenis-Plosiven für ältere (grau) und jüngere (weiß) Bayern und Sachsen (rechts).
Wie aus dem rechten Boxplot von Abb. 1 ersichtlich wird, war der Grad, mit dem der Kontrast aufrechterhalten wurde, signifikant kleiner für Sachsen im Vergleich zu Bayern (F[1,37] = 58,6, p < 0,001), d.h. Sachsen hielten den Kontrast nur unvollständig aufrecht. In der linken Graphik ist zu sehen, dass für die Sachsen nehatte, wurden die Wörter mit und ohne Schwa nicht getrennt analysiert (vgl. KLEBER 2011: 83–85). 10 Beide Sprechergruppen nutzen auch Aspiration zur Lenis/Fortis-Distinktion. Die auf und endenden Wörter verhielten sich aber hinsichtlich des V:K-Ratios ähnlich, so dass die Aspiration in dieser Analyse unberücksichtigt bleiben kann.
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
25
ben der Lenisierung der Fortis-Plosive auch eine Tendenz zur Fortisierung der Lenis-Plosive erkennbar ist – der Kontrast verringert sich also von beiden Seiten. Das Alter hatte in keiner der beiden Dialektgruppen einen signifikanten Einfluss auf die V:K-Ratio-Differenz und es gab auch keine signifikante Interaktion, d.h. der Grad der Kontrastaufrechterhaltung war für ältere und jüngere Sprecher beider Regionen gleich.11
4. SPRACHPERZEPTION Der Beitrag akustischer Merkmale zur perzeptiven Unterscheidbarkeit phonemischer Oppositionen wird häufig im Rahmen des Paradigmas der kategorialen Wahrnehmung untersucht (vgl. REPP 1984). Im Falle kategorialer Wahrnehmung unterteilen Hörer ein akustisches Kontinuum (z. B. von /p/ zu /b/), das sich in einem oder mehreren akustischen Merkmalen (z. B. in der Dauer der Aspiration und/oder des V:K-Ratios) unterscheidet und dessen Endpunkte eindeutigen phonologischen Kategorien zugeordnet werden können in klar voneinander abgrenzbare Kategorien, d.h. die Stimuli der ersten Hälfte des Kontinuums werden der einen Kategorie (hier z. B. /p/), die Stimuli der zweiten Kontinuumshälfte der anderen Kategorie (also /b/) zugeordnet. Die akustische Variation selbst wird nicht perzipiert, mit Ausnahme eines kleinen Bereichs im Kontinuum, in dem die Hörer einen Stimulus als ambig zwischen zwei Kategorien liegend wahrnehmen (also zwischen /p/ und /b/).12 Wird ein Kontrast in einer Varietät oder in einer Position neutralisiert, so sollten Hörer alle Stimuli eines Kontinuums entweder nur einer Kategorie zuordnen (also 100% Identifikation z. B. als /b/) oder aber zwischen den beiden Kategorien raten (50% Identifikation als /b/). Unvollständige Neutralisierung in der Perzeption kann ebenfalls mithilfe dieses Paradigmas untersucht werden: Diese zeichnet sich durch entlang des Kontinuums graduell steigende (oder abnehmende) Urteile von einer Kategorie hin zur anderen Kategorie aus, wobei aber keine (scharfen) Kategoriengrenzen auftreten (vgl. KLEBER / JOHN / HARRINGTON 2010, HARRINGTON et al. 2013) oder die ambigen Bereiche größer ausfallen. 11 Der Artikulationsort (labial vs. alveolar) hat einen signifikanten Einfluss auf den V:K-Ratio und die V:K-Ratio-Differenz. Der Unterschied kann artikulatorisch durch längere Verschlussphasen in labialen vs. alveolaren Plosiven begründet werden und wurde auch in anderen Untersuchungen gefunden (z. B. KOHLER 1977, vgl. auch die Diskussion in KLEBER 2011). 12 Das klassische Paradigma der kategorialen Wahrnehmung umfasst einen forced choiceIdentifikationstest und einen Diskriminationstest. Im Identifikationstest werden die Stimuli des Kontinuums in zufälliger Reihenfolge auditiv präsentiert und Hörer müssen entscheiden, welche von zwei (oder mehr) vorgegebenen Alternativen (z. B. Laute, Silben, etc.) sie wahrnehmen. Mithilfe des Diskriminationstests wird die Wahrnehmung feiner phonetischer Unterschiede geprüft. Um von kategorialer Wahrnehmung sprechen zu können, müssen neben der Untergliederung des Kontinuums in eindeutige Kategorien folgende Kriterien erfüllt werden: innerhalb einer Kategorie ist die Diskriminationsperformanz zwischen den Stimuli schlecht, über eine Kategoriengrenze hinweg hingegen gut; darüberhinaus muss die Diskriminationsperformanz aus der Identifikationsfunktion vorhergesagt werden können.
26
Felicitas Kleber
Für das Perzeptionsexperiment wurde ein Kontinuum zwischen den Wörtern leiden und leiten erstellt.13 Hierfür wurde eine natürlich sprachliche leidenRealisierung eines standardnahen Sprechers aus Niedersachsen (47 Jahre alt) ausgewählt. Dieser Originalstimulus mit einer Vokaldauer von 225 ms und einer 69 ms langen Plosivverschluss-Dauer ist der erste Stimulus des Kontinuums. Mithilfe der Manipulations-Funktion in Praat wurden ausgehend von Stimulus 1 sechs weitere Stimuli erstellt, indem – bei einer gleichbleibenden Reimdauer von 294 ms – sukzessive der Vokalanteil gekürzt und der Anteil der Plosivverschlussdauer im Gegenzug gelängt wurde (siehe Tab. 1). Die kürzeste Vokal- und längste Verschlussdauer des /t/-Endpunktes führte zu einem deutlichen /t/-Perzept. Die Schrittbreite zwischen den V:K-Ratios der einzelnen Stimuli entsprach 4,76 Prozentpunkten. Dauer [ms] V:K-Ratio Vokal Verschluss 1 225 69 0,77 2 211 83 0,72 3 197 97 0,67 4 183 111 0,62 5 169 125 0,57 6 155 139 0,53 7 141 153 0,48 Tab. 1: Vokal- und Plosivverschlussdauer [ms] sowie der V:K-Ratio für die sieben Stimuli des leiden-leiten-Kontinuums. Stimulus
Die Stimuli wurden in den Satz Maria hat [Stimulus] gesagt eingebettet, der von demselben Sprecher gesprochen wurde. Der Stimulus trägt dabei den einzigen (in Praat modellierten) Satzakzent (100 Hz bis zu Beginn des /l/, 140 Hz zum zeitlichen Mittelpunkt von /aɪ̯ /, 100 Hz zum Ende von /n/); die resultierende Grundfrequenzkontur war für alle Stimuli gleich. Im Folgenden verweisen wir auf diese Stimuli als „akzentuiert“. Kontrastiv dazu haben wir nicht akzentuierte Stimuli erzeugt, die auf den akzentuierten Stimuli basieren. Hierzu wurde der Grundfrequenz-Gipfel auf Maria verschoben, die Dauer der letzten zwei Silben in Maria um 60 ms gelängt sowie die Intensität auf Maria um 5 dB angehoben und die auf leiden um 5 dB abgesenkt. Da es sich bei dem manipulierten Reiz um einen Dauer-Parameter handelt, haben wir die Dauer der nicht akzentuierten Stimuli unverändert gelassen: Auch wenn Nicht-Akzentuierung in der gesprochenen Sprache im Vergleich zu Akzentuierung häufig mit Segmentkürzung einhergeht, so konnten wir diesen Parameter nicht modellieren, da die Hörerurteile gegenüber den Kontinua dann aufgrund unterschiedlicher V:K-Ratios nicht mehr vergleichbar gewesen wären. Aus diesem Grund verweisen wir nachfolgend im Text auf diese Stimuli als „deakzentuiert“. Alle Manipulationen wurden in Praat mithilfe der 13 Das leiden-leiten Kontinuum wurde gewählt (und nicht etwa Boden-boten), um einen Vergleich mit den Ergebnissen aus KOHLER (1979) zu ermöglichen.
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
27
Manipulations- sowie der Intensitäts-Funktion vorgenommen. In einem Pilottest mit standardnorddeutschen Sprechern wurden die Endpunkt-Stimuli und die Betonungsmuster auf eindeutige leiden/leiten- und „akzentuiert/deakzentuiert“-Perzepte geprüft. Die Probanden, die eigenen Angaben zufolge keine Hörstörungen aufwiesen, stammten wiederum aus Sachsen (Raum Dresden) und Bayern (Raum München) und aus beiden Altersgruppen: zehn jüngere (21–34 Jahre, vier Frauen) und sechs ältere (51–62 Jahre, vier Frauen) sächsische Hörer sowie zehn jüngere (25–29 Jahre, neun Frauen) und zehn ältere (48–54 Jahre, sechs Frauen) bairische Hörer nahmen an dem Perzeptionsexperiment teil.14 In einem Identifikationstest beurteilten die Versuchspersonen die Stimulussätze, die mit jeweils zehn Wiederholungen und in randomisierter Reihenfolge präsentiert wurden. Dabei mussten sie bei jedem präsentierten Stimulus entscheiden, ob sie leiden oder leiten wahrgenommen haben. prop. leiden −Urteile
1.0 0.8 0.6 0.4 0.2 0.0 1
prop. leiden −Urteile
Ältere Sachsen
ad
2
3
4
5
6
d
3
4
0.8 0.6 0.4 0.2 0.0 1
2
5
6
Stimulusnummer
Stimulusnummer
Jüngere Bayern
Jüngere Sachsen
ad
1.0 0.8 0.6 0.4 0.2 0.0 1
a
1.0
7
prop. leiden −Urteile
prop. leiden −Urteile
Ältere Bayern
2
3
4
5
6
Stimulusnummer
7
7
ad
1.0 0.8 0.6 0.4 0.2 0.0 1
2
3
4
5
6
7
Stimulusnummer
Abb. 2: Psychometrische Funktionen angepasst an die proportionalen leiden-Hörerurteile in akzentuiertem (schwarz) und deakzentuiertem (grau) Kontext getrennt für ältere (oben) und jüngere (unten) Bayern (links) und Sachsen (rechts) als Funktion des V:K-Ratios der sieben Stimuli. Die vertikalen Linien entsprechen den Umkipppunkten in der akzentuierten (a) und deakzentuierten (d) Bedingung. Stimulus 1 entspricht einem /d/ und Stimulus 7 einem /t/.
14 Einige der Versuchspersonen waren auch Sprecher in dem oben beschriebenen Korpus. Da nicht von allen Probanden Produktions- und Perzeptionsdaten vorliegen und die Token im Produktionsexperiment andere waren als im Perzeptionsexperiment, erlaubt die vorliegenden Studie keinen direkten Vergleich zwischen Produktions- und Perzeptionsperformanz der Probanden (vgl. aber hierzu HARRINGTON et al. 2012, 2013 und KLEBER et al. 2012).
28
Felicitas Kleber
Basierend auf den Hörerurteilen wurde in R je eine psychometrische Kurve pro Altersgruppe, Region und Kontinuum (akzentuiert und deakzentuiert) erstellt, indem logistische Regressionen an die proportionalen leiden-Urteile für jeden der sieben Stimuli angepasst wurden (vgl. HARRINGTON et al. 2013). Die V:K-Ratios, bei denen die leiden- oder leiten-Antworten bei 50% liegen, entsprechen den Umkipppunkten bzw. den Kategoriengrenzen zwischen /d/ und /t/. Umkipppunkte und Neigungsgrade der Kurven wurden als abhängige Variablen in zwei mehrfaktoriellen Varianzanalysen mit Messwiederholung auf mögliche Alters-, Regionenund Kontextunterschiede untersucht, wobei KONTINUUM (Innersubjektfaktor mit zwei Stufen: akzentuiert vs. deakzentuiert), ALTER (Zwischensubjektfaktor mit zwei Stufen: älter vs. jünger) und REGION (Zwischensubjektfaktor mit zwei Stufen: bairisch vs. sächsisch) die unabhängigen Variablen waren und Hörer der Zufallsfaktor. Alle Hörergruppen unterteilten das akustische Kontinuum – wie in Abb. 2 zu sehen – in zwei phonologische Kategorien: Die beiden Endpunkte wurden sowohl von bairischen als auch sächsischen Hörern durch die jeweils entsprechenden V:K-Ratios als /d/ und /t/ identifiziert. Die Kategoriengrenzen lagen für alle Hörergruppen in einem ähnlichen V:K-Ratio-Bereich von circa 0,69 bis 0,62, unterschieden sich aber in Abhängigkeit von der Akzentuierung. Alle vier Hörergruppen nahmen Stimuli in deakzentuierter Position häufiger als leiden wahr, weswegen die Kategoriengrenze in dieser Bedingung näher zum /t/-Endpunkt des Kontinuums verschoben ist (vgl. Abb. 2). Für ein eindeutiges /t/-Perzept musste das akustische Merkmal der V:K-Ratio kleiner sein, denn nur wenn der Vokal gegenüber dem Plosiv stark gekürzt war, wurde dies als deutlicher Hinweis auf die phonologische Stimmlosigkeit wahrgenommen. Der Einfluss des Faktors AKZENTUIERUNG auf die phonologische Kategorisierung in Form der Position des Umkipppunktes wurde durch den signifikanten Haupteffekt für AKZENTUIERUNG (F[1,32] = 55,4, p < 0,001) deutlich. Die Varianzanalyse mit der abhängigen Variable UMKIPPPUNKT ergab des Weiteren einen signifikanten Interaktionseffekt für REGION x ALTER (F[1,32] = 4,7, p < 0,05). Post-hoc Tukey-Tests zeigten, dass sich nur die Umkipppunkte der älteren Sachsen und älteren Bayern signifikant unterschieden. AKZENTUIERUNG hingegen beeinflusste in allen Hörergruppen die Klassifikation in Lenis- und Fortis-Plosive gleichermaßen – unabhängig von Alter und Region. Die Varianzanalyse mit NEIGUNG als abhängige Variable ergab signifikante Haupteffekte für die Faktoren REGION (F[1,32] = 33,8, p < 0,001) und AKZENTUIERUNG (F[1,32] = 27,2, p < 0,001) sowie einen signifikanten Interaktionseffekt für REGION x AKZENTUIERUNG (F[1,32] = 15,5, p < 0,001). Der Haupteffekt für REGION verweist auf die flacheren Neigungen der psychometrischen Kurven in Abb. 2 für sächsische Hörer im Vergleich zu bairischen Hörern. Sächsische Hörer ordneten demnach größere Bereiche der Kontinua (d.h. mehr Stimuli) nicht eindeutigen Kategorien zu (bzw. die Varianz innerhalb der sächsischen Hörerurteile ist größer), wohingegen die ambigen Gebiete der Kontinua (also die Bereiche der Umkipppunkte) für bairische Hörer kleiner ausfallen. Dies bedeutet, dass die Grenze zwischen /d/ und /t/ von sächsischen Hörern weniger scharf wahrgenommen wurde. Der Haupteffekt für AKZENTUIERUNG verweist auf den (meist) flache-
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
29
ren Kurvenverlauf in deakzentuierter Position; gleichzeitig zeigt die Interaktion zwischen REGION und AKZENTUIERUNG und anschließende post-hoc Tukey-Tests, dass nur ältere Bayern und Sachsen – wie aus Abb. 2 hervorgeht – deutliche Unterschiede hinsichtlich der Neigungsgrade sowohl in akzentuierter als auch in deakzentuierter Bedingung aufwiesen (akzentuiert: t = -8,7, p < 0,001; deakzentuiert: t = -4,9, p < 0,01), und dass sich die Neigungen der Kurvenverläufe in deakzentuierter versus akzentuierter Bedingung nur für die älteren, bairischen Sprecher unterschieden (t = -5,6, p < 0,05).
5. DISKUSSION Die Ergebnisse dieser Studie zeigen, dass Sprecher einer als neutralisierend geltenden Varietät, hier Sächsisch, den Fortis/Lenis-Kontrast sowohl in der Perzeption als auch in der Produktion aufrechterhalten – allerdings in abgeschwächter Ausprägung im Vergleich zu Sprechern einer nicht-neutralisierenden Varietät, hier Bairisch: In der Produktion zeigte sich dies durch kleinere V:K-Ratio-Differenzen, in der Perzeption durch flachere psychometrische Kurven. Darüber hinaus tendieren sächsische Sprecher mit einem mittleren V:K-Ratio von 0,64 für (akzentuierte) Fortis-Plosive stärker zur Lenisierung im Vergleich zu Bayern und auch in der Perzeption musste der V:K-Ratio deutlich unter 0,6 in beiden prosodischen Bedingungen liegen, um von sächsischen Hörern (im Gegensatz zu bairischen Hörern) als eindeutiges /t/ wahrgenommen zu werden, d.h. dieses akustische Merkmal für /t/ musste stärker ausgeprägt sein. Frühere Untersuchungen zum finalen Stimmhaftigkeitskontrast (z. B. PORT / O’DELL 1985) haben immer wieder feine Unterschiede zwischen unvollständig neutralisierten zugrundeliegend stimmhaften Plosiven und zugrundeliegend stimmlosen Plosiven gefunden, wobei aber finale /b/, /d/ und /ɡ/ in ihrer akustischen Ausprägung [p], [t], [k] ähnlicher waren als [b], [d], [ɡ] in intervokalischer Position; in der Perzeption wurden unvollständig neutralisierte finale LenisPlosive und Fortis-Plosive deutlich über Zufallsniveau auseinandergehalten aber die korrekte Kategorienidentifikation war mit 60% auch nicht besonders gut und wurde funktional als wenig relevant eingestuft. Die vorliegende Untersuchung hat gezeigt, dass /p/, /t/, /k/ in intervokalischer Position auch in einer Varietät, in der die Binnendeutsche Konsonantenschwächung operiert, ähnliche V:K-Ratios aufweisen wie Fortis-Plosive in nicht-neutralisierenden Varietäten und dass sächsische Hörer perzeptive Kategoriengrenzen haben. Tendenzen zu einer unvollständigen Neutralisierung in der Perzeption sind aber in der flacheren Neigung der Perzeptionskurven zu erkennen, die Anzeichen einer geringeren Trennschärfe sind. Da die hier untersuchten Sachsen durchaus zwischen zwei Kategorien unterschieden haben, ist hier die Bezeichnung unvollständige Kontrastaufrechterhaltung angebrachter als unvollständige Neutralisierung. Eine stärkere Kontrastneutralisierung in sächsischer Spontansprache soll an dieser Stelle nicht ausgeschlossen werden (vgl. HARRINGTON et al. 2012 zu Ostfränkisch), aber sächsische Sprecher (zumindest einer gebildeten Schicht) scheinen den Fortis/Lenis-Kontrast zu
30
Felicitas Kleber
kennen (sei es aus der Standardsprache, der Orthographie oder durch die unterschiedlichen Realisierungen in Onset- vs. Coda-Position) und nutzen die hierfür notwendigen akustischen Merkmale in abgeschwächter, aber vergleichbarer Form in einer formalen, lesesprachlichen Sprechsituation wie Sprecher, die den Kontrast aus ihrer regionalen Varietät kennen. Wie Ergebnisse zum Fremdspracherwerb nahelegen, können Hörer einen Kontrast nur dann perzipieren und produzieren, wenn diese Opposition auch in ihrer Muttersprache vorkommt – dann jedoch auch in ungewohnter Position (vgl. BROERSMA 2005). Altersgruppenzugehörigkeit hatte weder in der Perzeption noch Produktion einen Einfluss auf den Grad der Kontrastaufrechterhaltung, so dass ein aktuell ablaufender Lautwandel, wie er im Ostfränkischen anzunehmen ist (vgl. HARRINGTON et al. 2012), nicht deutlich erkennbar ist. Aber sowohl jüngere als auch ältere sächsische Probanden der beiden hier vorgestellten Experimente verhielten sich hinsichtlich der Nutzung des V:K-Ratios wie die jüngeren ostfränkischen Probanden in HARRINGTON et al. (2012).15 Aufgrund der vorliegenden Dialektbeschreibungen zum Sächsischen (z. B. BERGMANN 1990) müssen wir davon ausgehen, dass der Kontrast von Sprechern früherer Generationen vollständig neutralisiert wurde.16 Die Kodierung des Fortis/Lenis-Kontrastes durch signifikant unterschiedliche V:K-Ratio-Wertebereiche in Produktion und Perzeption deutet auf eine Kontrastzunahme und – verglichen mit den ostfränkischen Daten und den standardnorddeutschen Daten in KOHLER (1977) und (1979) – auf einen Lautwandel hin (in Form unvollständiger Kontrastierung). Dieser ist vermutlich durch externe Faktoren wie dem Prestige der Standardsprache und der negativen Bewertung des Dialekts bedingt. Der Einfluss des internen Faktors AKZENTUIERUNG auf die perzeptive Kategorienbildung zeigte sich an den verschobenen Kategoriengrenzen und an den graduelleren psychometrischen Kurvenverläufen (statistisch in Form flacherer Neigungen) für das Kontinuum in deakzentuierter Bedingung in allen Hörergruppen – auch der bairischen, in der der Kontrast aufrechterhalten wird. Dieses Ergebnis stärkt phonetische Erklärungsansätze, deren zufolge Fälle von Lautwandel, die aus phonologischen Prozessen wie Lenisierung hervorgehen, durch prosodische Prozesse hervorgerufen oder verbreitet werden (vgl. KOHLER 1984, BECKMAN et al. 1992): In deakzentuierter Bedingung werden akustische Merkmale häufig abgeschwächt (vgl. LEHISTE 1970, in unserem Falle Kürzung der Verschlussphase), obwohl sie hier eigentlich besonders deutlich ausgeprägt sein müssten (hier in Form einer gelängten Verschlussphase), um bei Hörern eine entsprechende Kategorisierung (hier Fortis) auszulösen (siehe v. a. die Kurven der älteren Sachsen). Die bairischen Probanden dienten in dieser Studie als Kontrollgruppe. Ein Vergleich mit den standardnorddeutschen Versuchspersonen in KOHLER (1977) 15 Aufgrund des ähnlichen Versuchsaufbaus sind die Ergebnisse mit denen in HARRINGTON et al. (2012) vergleichbar. 16 Die meisten Dialektbeschreibungen basieren auf ohrenphonetischen Analysen. Diese Methode unterscheidet sich von den hier vorgestellten experimentalphonetischen Analysen, was ein weiterer Grund für die abweichenden Beobachtungen sein kann.
Partielle Neutralisierung des Stimmhaftigkeitskontrastes in zwei Varietäten des Deutschen
31
und (1979) zeigt, dass sich bairische und standarddeutsche Sprecher in der Tat bezüglich des V:K-Ratios sehr ähnlich sind: Fortis-Plosive wurden mit einem durchschnittlichen V:K-Ratio unter 0,6 produziert und ab einem V:K-Ratio von ca. 0,62 wurde in der akzentuierten Bedingung ein eindeutiger Fortis-Plosiv wahrgenommen. Dass sich die Nutzung des V:K-Ratios auch für bairische (oder standarddeutsche) Sprecher ändern kann, zeigen zum einen der Einfluss der Prosodie auf die Kategorienbildung, als auch Ergebnisse in KLEBER (2011), die darauf hindeuten, dass jüngere bairische Sprecher in einem fortschreitenden Lautwandel die komplementären Quantitätsverhältnisse zugunsten einer freien Kombination von Vokal- und Konsonantenquantität aufgeben.
BIBLIOGRAPHIE BANNERT, ROBERT (1976): Mittelbairische Phonologie auf akustischer und perzeptorischer Grundlage. Dissertation. Universität Lund (Traveaux de l’institut de linguistique de Lund. 10). BARDEN, BIRGIT / BEATE GROßKOPF (1998): Sprachliche Akkommodation und soziale Integration: Sächsische Übersiedler und Übersiedlerinnen im rhein-/moselfränkischen und alemannischen Sprachraum. Tübingen: Niemeyer (Phonai. 43). BECKMAN, MARY / KENNETH DE JONG / SUN-AH JUN / SOOK-HYANG LEE (1992): The interaction of coarticulation and prosody in sound change. In: Language and Speech 35, 45–58. BERGMANN, GUNTER (1990): Upper Saxon. In: CHARLES RUSS (Hg.): The dialects of Modern German: A linguistic survey. London: Routledge, 290–312. BROERSMA, MIRJAM (2005): Perception of familiar contrasts in unfamiliar positions. In: Journal of the Acoustical Society of America 117, 3890–3901. CHARLES-LUCE, JAN / DANIEL DINNSEN (1987): A reanalysis of Catalan devoicing. In: Journal of Phonetics 15, 187–190. ERNESTUS, MIRJAM / HARALD BAAYEN (2006): The functionality of incomplete neutralization in Dutch: the case of past-tense formation. In: GOLDSTEIN, LOUIS / DOUGLAS WHALEN / CATHERINE BEST (Hg): Laboratory Phonology 8. Berlin: de Gruyter, 27–49. FOURAKIS, MARIOS / GREGORY IVERSON (1984): On the 'incomplete neutralization' of German final obstruents. In: Phonetica 4l, 140–149. HARRINGTON, JONATHAN / FELICITAS KLEBER / ULRICH REUBOLD (2008): Compensation for coarticulation, /u/-fronting, and sound change in Standard Southern British: an acoustic and perceptual study. In: Journal of the Acoustical Society of America 123, 2825–2835. HARRINGTON, JONATHAN / FELICITAS KLEBER / ULRICH REUBOLD (2012): The production and perception of coarticulation in two types of sound change in progress. In: FUCHS, SUSANNE / MELANIE WEIRICH / DANIEL PAPE / PASCAL PERRIER (Hg.): Speech Planning and Dynamics. Frankfurt: Peter Lang, 39–62. HARRINGTON, JONATHAN / FELICITAS KLEBER / ULRICH REUBOLD (2013): The effect of prosodic weakening on the production and perception of trans-consonantal vowel coarticulation in German. In: Journal of the Acoustical Society of America 134, 551−561. KLEBER, FELICITAS / JONATHAN HARRINGTON / ULRICH REUBOLD (2012): The relationship between the perception and production of coarticulation during a sound change in progress. In: Language and Speech 55(3), 383–405. KLEBER, FELICITAS / TINA JOHN / JONATHAN HARRINGTON (2010): The implications for speech perception of incomplete neutralization of final devoicing in German. Journal of Phonetics 38, 185–196. KLEBER, FELICITAS (2011): Incomplete neutralization and maintenance of phonological contrasts in varieties of Standard German. Dissertation, Ludwig-Maximilians-Universität München.
32
Felicitas Kleber
KOHLER, KLAUS (1977): The production of plosives. In: Arbeitsberichte des Instituts für Phonetik und digitale Sprachverarbeitung der Universität Kiel 8, 30–110. KOHLER, KLAUS (1979): Dimensions in the perception of fortis and lenis plosives. In: Phonetica 36, 332–343. KOHLER, KLAUS (1984): Explanation in phonology: the feature fortis/lenis. In: Phonetica 41, 150– 174. KOHLER, KLAUS (21995): Einführung in die Phonetik des Deutschen. Berlin: Erich Schmidt Verlag. LABOV, WILIAM (1994): Principles of Linguistic Change. Vol. 1: Internal Factors. Oxford: Basil Blackwell. LABOV, WILIAM (2001): Principles of Linguistic Change. Vol. 1I: Social Factors. Oxford: Basil Blackwell. LAMELI, ALFRED (2004): Hierarchies of dialectal features in a diachronic view – implicational scaling of real time data. In: Proc. 2nd Int. Conf. Language Variation in Europe, Uppsala, 253– 266. LEHISTE, ILSE (1970): Suprasegmentals. Cambridge: Mass.: MIT Press. OHALA, JOHN (1981): The listener as a source of sound change. In: MASEK, CARRIE S. / ROBERTA A. HENDRICK / MARY FRANCIS MILLER (Hg.): Papers from the Parasession on Language and Behavior. Chicago: Chicago Linguistic Society, 178–203. PORT, ROBERT / PENNY CRAWFORD (1989): Incomplete neutralization and pragmatics in German. Journal of Phonetics 17, 257–282. PORT, ROBERT / MICHAEL O’DELL (1985): Neutralization of syllable-final voicing in German. Journal of Phonetics 13, 455–471. REPP, BRUNO H. (1984): Categorical perception: issues, methods, findings. In: LASS, NORMAN J. (Hg.): Speech and Language: Advances in Basic Research and Practice. Vol. 10. New York: Academic Press, 243–335. SCHMIDT, WILHELM (82000): Geschichte der deutschen Sprache. Stuttgart: S. Hirzel. TORGERSEN, EIVIND / PAUL KERSWILL (2004): Internal and external motivation in phonetic change: dialect levelling outcomes for an English vowel shift. Journal of Sociolinguistics 8, 24–53. WAGENER, PETER (2002): German dialects in real time change. In: Journal of Germanic Linguistics 14, 271–285. WIESINGER, PETER (1990): The Central and Southern Bavarian Dialects in Bavaria and Austria. In: RUSS, CHARLES (Hg.): The dialects of Modern German. London: Routledge, 438–519.
NEUTRALISIERUNG LEXIKALISCHER UNTERSCHIEDE IM EUROPÄISCHEN UND BRASILIANISCHEN PORTUGIESISCH: INTERAKTION VON SPRACHPRODUKTION UND PERZEPTION Conceição Cunha
1. EINLEITUNG Die beiden großen nationalen Varietäten des Portugiesischen, das brasilianische Portugiesisch (BP) und das europäische Portugiesisch (EP), unterscheiden sich erheblich in ihrer Prosodie (vgl. ABAURRE / GALVES 1998; FROTA / VIGÁRIO 1999; u. a.). Zu einem der meistdiskutierten Unterschieden zählt der Sekundärakzent: Im EP ist er morphologisch und im BP prosodisch. So kommt er im EP ausschließlich in zusammengesetzten Wörtern aus zwei Lexemen vor und entspricht dem Primärakzent des Zweitlexems. Selbst wenn zwei aufeinanderfolgende Silben betont werden, wird der Sekundärakzent nicht verschoben, z. B. [fɐˌtaɫˈmẽt] ‘unglücklicherweise’ (vgl. MATEUS 1983; MATEUS / D’ANDRADE, 2000: 120−128). Im BP hingegen wechseln sich betonte und unbetonte Silben ab, sowohl bei Komposita (z. B. [ˌfatawˈmẽte]), als auch generell bei längeren Wörtern (z. B. [feˌlisiˈdade] im BP vs. [flisiˈdad] im EP ‘Glück’; vgl. ABAURRE / GALVES 1998; CARVALHO 1989). Dasselbe gilt auch für Wortfolgen auf Satzebene, selbst wenn dafür lexikalische Primärakzente verschoben werden müssen, wie beispielsweise in [ˌkafɛˈkẽte] im BP vs. [kaˌfɛˈkẽte] im EP ‘heißer Kaffee’ (vgl. hierzu die Betonungsmuster der einzelnen Wörter [kaˈfɛ] ‘Kaffe’ und [ˈkẽte] ‘heiß’; vgl. SANDALO et al. 2006). Ein weiterer Unterschied zwischen den Varietäten betrifft die Vokalschwächung und Elision in unbetonter Position im EP (vgl. MATEUS / MARTINS 1982; SILVA 1997; CUNHA 2011; u. a.), weshalb diese Varietät insgesamt einer akzentzählenden Sprache nahekommt, während sich BP eher als eine silben- oder wortzählende Sprache einordnen lässt (z. B. FROTA / VIGÁRIO 1999/2001). Solche prosodischen Unterschiede werden mit der Ausdifferenzierung des unbetonten Vokalsystems in Verbindung gebracht (vgl. FROTA / VIGÁRIO 1999/ 2001): Das BP ̶ genauso wie das mit dem Portugiesischen eng verwandte Spanisch ̶ hat die fünf unbetonten Vokale /i, u, e, o, a/ des Vulgärlateins bis heute fortgesetzt (vgl. JENSEN 1999: 46−47; WILLIAMS 1968: 28−29). Im EP hingegen wurden die unbetonten Vokale erhöht (z. B. [ˈkazɐ] vs. [kɐˈzitɐ]; vgl. MATEUS 1983), vermutlich um das 17. Jahrhundert herum (vgl. CASTRO 1991: 191). Dies führte zum Zusammenfall der mittleren und hohen Vokale und brachte somit folgendes Inventar im EP hervor: /i, ɨ, u, ɐ/ (vgl. MATEUS / D’ANDRADE 2000: 18).
34
Conceição Cunha
FROTA et al. (2008) konnten solche reduzierten und elidierten Vokale bereits um 1600 nachweisen, was sie allgemein mit einer Veränderung des Sprachrhythmus im EP erklären. Es bildeten sich linke jambische Prominenz im BP und rechte trochäische Füße im EP heraus. Die unterschiedliche Entwicklung des Sprachrhythmus‘ ist u. a. für den Stellungswechsel der Klitika von proklitisch zu enklitisch im EP verantwortlich (proklitisch im BP Eu me lavo vs. enklitisch im EP Eu lavo-me ‘ich wasche mich’), und wird als Grundstein für die prosodische Ausdifferenzierung beider Varietäten angesehen (vgl. FROTA et al. 2008: 203). Der Erklärungsansatz ist allerdings etwas zirkulär: Es ist vollkommen unklar, ob die Vokalerhöhung Folge der Rhythmusänderung war oder diese erst initiierte. Um die Zirkularität zwischen Elision und Sprachrhythmus zu vermeiden, verlagert die vorliegende Studie ihr Objekt an die Schnittstelle von Phonetik und Phonologie und untersucht Elision in der Perzeption der Sprache mit Bezug zur Produktion. Der Ausgangspunkt der Studie bildet die Feststellung von Homophonie bei bestimmten Wörtern im EP, die im BP als Minimalpaare erscheinen: Während im gegenwärtigen EP die Realisierung [ˈkɾeɾ] je nach Kontext sowohl ‘glauben’ als auch ‘wollen’ bedeutet, ist im BP das Minimalpaar [ˈkɾeɾ] crer ‘glauben’ vs. [keˈɾeɾ] querer ‘wollen’ vorhanden. Die Hauptfragen hierzu lauten, inwiefern Realisierungen von crer vs. querer und auch prece vs. perece ‘Gebet’ vs. ‘untergehen’ von einer EP- und einer BP-Sprecherin in der Perzeption verwechselt werden, und inwiefern die Perzeptionsurteile mit der Produktion übereinstimmen. Hierzu werden mit Bezug auf frühere Ergebnisse zusätzlich a) der Artikulationsort des ersten Konsonanten (velar vs. bilabial) variiert und b) beide Hörergruppen getrennt voneinander ausgewertet. Für die Produktion wird der Abstand zwischen beiden Konsonanten im realisierten lexikalischen Konsonantencluster (crer) im Vergleich zu den Konsonanten in der entsprechenden KVK-Sequenz (querer) ausgewertet. Falls der Vokal im EP vorhanden oder geschwächt ist, sollte der Abstand zwischen [k] und [ɾ] in querer größer sein als in crer (da der Vokal dazwischen liegt). Sollte der Abstand genau identisch bei beiden Realisierungen sein, bedeutet dies, dass der Vokal phonetisch nicht mehr realisiert wird. Als Vergleichsbasis dienen Realisierungen derselben Wörter aus dem BP, in denen die phonologische Opposition aufrecht erhalten ist, d.h. die Vokale also in z. B. querer und perece vorhanden sind. Somit können wir die soeben formulierte Vorhersage testen, dass Konsonanten in KVK-Sequenzen weiter auseinander realisiert werden, wenn ein Vokal dazwischen liegt. Die Verbindung zwischen Phonetik und Phonologie wird hier im theoretischen Rahmen der Artikulatorischen Phonologie (vgl. BROWMAN / GOLDSTEIN 1986, 1988f.) hergestellt. In diesem Bereich wird die phonologische Einheit dynamisch über die Bewegung des entsprechenden Organs (Artikulators) in Raum und Zeit definiert. So wird z. B. [k] als Einheit zwischen dem Beginn der Anhebungsbewegung des Zungenrückens über den Gaumen und zum Ende der Senkungsbewegung bis zur neutralen Position definiert. Diese Bewegung entspricht einem gewissen Intervall (Dauer des Segments). Der artikulatorische Verlauf wird zu einem Verlaufsmuster (pattern) abstrahiert, der die Grundlage der phonologischen
Neutralisierung lexikalischer Unterschiede
35
Repräsentation des Segments ist (vgl. u. a. BROWMAN / GOLDSTEIN 1986, 1988, 1992a; GAFOS 2002). Im folgenden knappen Forschungsüberblick (2.) wird auf die Vokalelision, das Auftreten komplexerer Cluster und epenthetischer Vokale eingegangen. Nach einer gebündelten Zusammenstellung der Arbeitshypothesen (3.) folgt die Vorstellung und Auswertung des Perzeptionsexperiments (4.) und die Analyse derselben Tokens aus der Sicht der Produktion (5.). Abschließend (6.) werden die wichtigeren Ergebnisse zusammengetragen und diskutiert.
2. FORSCHUNGSSTAND 2.1 Vokalelision Die Vokalelision im EP wurde erstmals von MARTINS (1975) beschrieben. In einer akustischen Studie ließ die Autorin 40 Sätze mit allen Phonemen des Portugiesischen von einem Sprecher aus Lissabon vorlesen. Daraus errechnete sie den Anteil der Elision, indem sie die Anzahl der tatsächlichen Realisierungen von den – ausgehend von der Graphie vermuteten – zugrunde liegenden Repräsentationen subtrahierte. Die Ergebnisse zeigten, dass von den 394 phonologischen Vokale 49 nicht realisiert wurden, was insgesamt einer Elisionsrate von 11% entspricht. Der am häufigsten elidierte Vokal war [u], an zweiter Stelle lag [ɨ]1, gefolgt von [a]. Die nasalen Vokale und die Halbvokale [j, w] wurden nicht elidiert. In einer weiteren Studie (vgl. MATEUS / MARTINS 1982: 177−179) entschieden die Teilnehmer einer Perzeptionsstudie bei 16 Minimalpaaren ̶ unter anderem prece vs. perece und crer vs. querer –, wie viele Silben sie bei jedem Stimulus wahrnahmen (2 vs. 3 Silben und 1 vs. 2 Silben). Die Ergebnisse zeigten, dass prece vs. perece unterschieden wurden, nicht jedoch crer vs. querer. Des Weiteren stand in einer Untersuchung die Analyse eines etwa 22 minütigen Konversationsausschnitts einer Sprecherin von der Azoreninsel Faial im Fokus. Im Korpus wurde jeweils die Anzahl der produzierten und der getilgten Vokale ermittelt. Dabei zeigte /ɨ/ den größten Anteil von Tilgungen sowohl in finaler als auch in nicht-finaler Position, gefolgt von /u/. Der Vokal /ɐ/ wurde hingegen in den meisten Fällen realisiert (vgl. SILVA 1997: 303). Auch zum Portugiesischen Portos liegen Daten zur Vokalelision vor: CUNHA (2011) analysierte Monologe zum Thema „letzter Urlaub“ von vier Sprecherinnen im Alter zwischen 27 und 30 Jahren aus Porto, ohne Migrationshintergrund und mit einem akademischen Abschluss. Es wurden 3,5 bis 4,5 Minuten jeder Teilnehmerin transkribiert (insgesamt 15 Minuten). Die Gesamtergebnisse zeigen einen klaren Unterschied zwischen den untersuchten Vokalen: Während [ɨ, u] in über 80% der phonologisch möglichen Positionen getilgt wurden, wiesen [i, ɐ, a, ε, ɔ] eine Tilgungsrate von
1
Leider wurde die Gesamtanzahl der einzelnen Vokale nicht angegeben, so dass ihr Tilgungsanteil nicht berechnet werden kann.
36
Conceição Cunha
unter 10% auf (vgl. CUNHA 2011: 147−148). Die Unterschiede innerhalb der Gruppen bleiben genauer zu untersuchen. 2.2 Entstehung weiterer und komplexerer Konsonantencluster im EP Die häufige Vokaltilgung führt zur Erhöhung der Anzahl der realisierten Konsonantencluster in der gesprochenen Sprache dieser Varietät ([feˌlisiˈdade] im BP vs. [flisiˈdad] im EP ‘Glück’; [feˈɾido] im BP vs. [ˈfɾido] im EP ‘verletzt’). Ein ähnlicher Prozess in der Diachronie führte zur Lexikalisierung einiger Konsonantencluster aus früheren KVK-Sequenzen. So wurden zum Beispiel die prätonischen Vokale ē, ĭ und ĕ des klassischen Lateins auf dem Weg in die romanischen Sprachen getilgt, sodass sich z. B. im modernen Portugiesisch folgende Formen entwickelt haben: KL bērillum > pt. brilho ‘Schein’, KL quĭritāre > pt. gritar ‘schreien’, KL sŭpĕrāre > pt. sobrar ‘erübrigen’. Diese Vokaltilgung musste früh stattgefunden haben, da die entstandenen Wörter dem Erbwortschatz2 angehören. Ein Beweis dafür ist, dass ihre Entwicklung parallel zu den klassisch lateinischen Clustern verlief, in denen mediale stimmlose Plosive stimmhaft wurden (apĕrīre > pt. abrir ‘öffnen’, KL lĕpŏre > pt. lebre ‘Hase’, parallel zu KL capra > pt. cabra ‘Ziege’, vgl. BOYD-BOWMAN 1980: 122−123; WILLIAMS 1968: 56−57, 224−233). 2.3 Epenthetischer Vokal Bei der Produktion von lexikalischen Konsonantenclustern kann sowohl im BP als auch im EP ein intermediärer Vokal auftreten ([kaˈptar] vs. [kapiˈtar] im BP bei BISOL 1999 oder [ˈplãtɐ] vs. [ˈpɨlãtɐ] im EP bei VELOSO 2007). Dieser wird entweder als vokalisches Element (vgl. SILVA 1996), als epenthetischer Vokal (vgl. BISOL 1999; COLLISCHONN 2003) oder als svarabhaktischer Vokal (vgl. NISHIDA 2009) bezeichnet. Dieser Vokal wurde sowohl in tautosilbischen Clustern (wie in [ˈpɨlãtɐ] SILVA 1996; NISHIDA 2009; VELOSO 2007), als auch in heterosilbischen Clustern beschrieben ([kapiˈtar]; vgl. BISOL 1999; VELOSO 2007; u. a.). In tautosilbischen Clustern zeigt der Vokal nach Plosiven die gleichen Formantenstrukturen wie der nachfolgende Vokal, ist allerdings nach Frikativen zentriert (vgl. NISHIDA 2009: 34−35, 47−48). Dieser Vokal kann im BP [i] oder [e] (vgl. 2
Um die Überlieferungsformen zu präzisieren, unterscheidet man in der historischen Übertragung zwischen Erbwörtern (popular words), die mündlich von einer Generation zur nächsten übertragen wurden und dabei einer Reihe von regulären phonologischen Prozessen unterlagen, und gehobenen, bildungssprachlichen Wörtern oder Latinismen (learned words oder Latinismen), die keine ununterbrochene Übertragung durchliefen, sondern aus dem Klassischen Latein importiert wurden, um lexikalische Lücken im technischen oder medizinischen Bereich zu füllen. Aufgrund dieser Übertragungslücke blieben die gehobenen Wörter in den meisten romanischen Sprachen sehr nah an der ursprünglichen Form des Klassischen Lateins und sind daher nicht bedeutsam für die Herausbildung der einzelnen Sprachsysteme (vgl. CASTRO 1991, JENSEN 1999: 46−47, WILLIAMS 1968: 28−29). Dies ist daran erkennbar, dass die gehobenen Wörter abweichende marginale Lösungen für die lautliche Entwicklung aufweisen, die wenig über das Sprachsystem aussagen.
Neutralisierung lexikalischer Unterschiede
37
BISOL1999), [i] oder [I] sein, was durch die hohe Position der Zungenspitze bei der Verschlusslösung eines apikalen Konsonanten begünstigt wird (vgl. BARBOSA / ALBANO 2004: 227). Im EP ist der epenthetische Vokal immer [ɨ] und tritt seltener als im BP auf (überwiegend bei älteren Sprechern aus ländlichen Gegenden und bei Kindern in der Erstspracherwerbsphase; vgl. FREITAS 1997; VELOSO 2007). In der portugiesischen Phonologie wird der epenthetische Vokal traditionell mit einer neuen phonologischen Silbe assoziiert (vgl. BISOL 1999; MATEUS / D’ANDRADE 2000; VELOSO 2007), so dass aus lexikalischen Clustern KVK-Sequenzen entstehen (z. B. im BP [kaˈptaɾ] > [kapiˈtaɾ]).
3. VORHERSAGEN FÜR DIE EXPERIMENTE Um zu testen, inwiefern Probanden mit EP und BP als Muttersprache solche Wortpaare auseinander halten können, müssten sie sich bei der Perzeptionsstudie bei jeder Realisierung für eine orthographische Variante (z. B. crer oder querer, prece oder perece) entscheiden. Da der Vokal im EP reduziert werden kann, wird vorhergesagt, dass Hörer die zugrundeliegenden Cluster in crer/prece und die KVK-Sequenzen in querer/perece deutlich besser bei den BP-Daten unterscheiden können, als bei den EP-Daten. MATEUS / MARTINS (1982: 177−179) zufolge erwarten wir, dass wie bereits Anfang der 1980er Jahre Hörer größere Schwierigkeiten haben, ein Wortpaar mit velaren Erstkonsonanten (crer – querer) zu unterscheiden als eines mit bilabialen Erstkonsonanten (prece – perece). Angesichts der in der Literatur beschriebenen varietätenspezifischen Unterschiede wird erwartet, dass EP-Teilnehmer öfter Token mit Elisionen verarbeiten und im mentalen Lexikon speichern (Exemplare in der Exemplar-Theorie; vgl. JOHNSON 1997; PIERREHUMBERT 2001) und daher deutlich feinere Unterschiede wahrnehmen können, als Hörer die solchen Elisionen nicht stark ausgesetzt sind. Wie eine Reihe von Arbeiten für das Englische zeigen (vgl. insbesondere BROWMAN / GOLDSTEIN 1992a, 1992b; MARIN / POUPLIER 2010), liegen Konsonanten bei lexikalischen Clustern näher aneinander, als bei den entsprechenden KVK-Sequenzen, weshalb dies auch für das Portugiesische erwartet wird. Aufgrund der häufigen Vokaltilgung im EP wird erwartet, dass die KVK-Sequenzen im EP enger koordiniert werden, als in BP. Zudem wird aufgrund des häufigeren Auftretens von epenthetischen Vokalen im BP erwartet, dass Konsonantencluster im BP weiter koordiniert werden als in EP. Daraus wäre in der Produktion eine interessante Verringerung der lexikalischen Unterschiede in beiden Varietäten absehbar.
38
Conceição Cunha
4. PERZEPTIONSEXPERIMENT 4.1 Methode 4.1.1 Akustische Stimuli Das Perzeptionsexperiment basiert auf nicht manipulierten sprachlichen Äußerungen. Es handelt sich um die in Tab. 1 aufgelisteten Wörter mit /kr/ und /pr/-Clustern und den entsprechenden Konsonant-Vokal-Konsonant (KVK)Sequenzen. Die Zielsilben befanden sich in wortinitialer Position, und die Primärbetonung fiel jeweils einmal auf die Silbe mit [ɾ], und einmal auf die Silbe rechts davon: Cluster
crer cridinho
‘glauben’ ‘gläubig’
prece precer
‘Gebet’ Logatom
KVK
querer queridinho
‘wollen’ ‘Liebling’
perece perecer
‘Meinung’ ‘untergehen’
Tab. 1: Liste der portugiesischen Zielwörter mit deutscher Übersetzung (Zielcluster bzw. -sequenzen kursiv) und den betonten Silben (unterstrichen)
Bei den Aufnahmen wurden die Zielwörter in folgende Trägersätze integriert (O Pedro leu __ bem, ‘Pedro las __ richtig’) und mit jeweils sechs Wiederholungen von zwei Sprecherinnen aus Porto in Portugal (25−26 Jahre alt) und einer Sprecherin aus São Paulo in Brasilien (24 Jahre alt) produziert. Bei der Sprecherauswahl wurde darauf geachtet, dass die Teilnehmerinnen eine universitäre Ausbildung im Heimatland machten, keinen Migrationshintergrund und regionale Mobilität aufwiesen sowie nicht länger als zehn Monate in Deutschland lebten. Die Sätze wurden in randomisierter Reihenfolge präsentiert und von einem Computerbildschirm abgelesen. Die Präsentation der Stimuli wurde manuell gesteuert, so dass misslungene Äußerungen (z. B. Versprecher und Zögerungen) wiederholt werden konnten. 4.1.2 Perzeptionsexperiment Für das Perzeptionsexperiment wurden die akustischen Stimuli aus der zweiten und fünften Wiederholung von zwei Probanden (einmal EP, einmal BP) mit MAUS (vgl. SCHIEL 2004) vorsegmentiert und anschließend in EMU (vgl. HARRINGTON 2010) manuell korrigiert. Die Zielwörter wurden geschnitten und zusätzlich wurden die Zielsilben zwischen dem vorangehenden Vokal-Offset und dem nächsten Vokal-Onset extrahiert. Eine Auflistung der exakten Stimuli folgt in Tab. 2:
Neutralisierung lexikalischer Unterschiede
/k/
/p/
Minimalpaare
crer cridinho querer queridinho
prece precer perece perecer
Ausgeschnittene Stimuli
/kr/ /ker/
/pr/ /per/
39
Tab. 2: Liste der Stimuli für das Perzeptionsexperiment
Die hier analysierten Stimuli waren Teil eines größeren Experiments (vgl. CUNHA 2012: 55−61). Für das Perzeptionsexperiment wurden die Stimuli in ein OnlineExperiment eingefügt, bei dem jeder Proband (Hörer) sich durch das Anklicken eines Lautsprechers einen Stimulus anhörte und jeden akustischen Stimulus einer von vier Antwortmöglichkeiten zuordnen sollte. Die vier Optionen waren wie folgt: (wobei C=/p, k/): - die orthographische Form des entsprechenden Clusters: oder , - der reduzierte Konsonant: , - die entsprechenden KVK-Folgen mit /e/ , - die entsprechenden KVK-Folgen mit /u/ , Bei den Minimalpaaren wurden die Wörter orthographisch in einem zusätzlichen Teil präsentiert. Die Antwortauswahl war hier binär, z. B. oder , ou . Es handelt sich also um ein forced-choice-Verfahren mit einer Identifikationsaufgabe, denn die Probanden waren verpflichtet, sich für eine der vier Optionen zu entscheiden. Die Stimuli wurden von 37 EP- (11m/26w) und 32 BP-Probanden (20m/12w) beurteilt. Alle Teilnehmer waren Studierende oder Mitarbeiter der UNICAMP in Brasilien oder der Universität Porto in Portugal (keine Phonetiker) im Alter zwischen 21 und 36 Jahren. Sie stammten aus den gleichen Städten wie die Sprecher, die die Stimuli produziert hatten, und haben beide Varietäten (ohne Hinweis darauf) beurteilt. Das Experiment fand mit Kopfhörern in einem ruhigen, geschlossenen Raum statt. Die Antworten wurden mit einem Generalized Linear Mixed Model (GLMM) in R ausgewertet. Ein GLMM ist eine Art Regression, bei der die Probandenantworten (abhängige Variable) aus den möglichst besten Kombinationen der getesteten Faktoren eingeschätzt werden. Dieses Verfahren ist von zentraler Bedeutung, um für eine konkrete Stichprobe die Parameter herauszufinden, die mit der größten Wahrscheinlichkeit (maximum likelihood) für ihr Zustandekommen zuständig sind (vgl. BAAYEN 2008: 263−321). Bei diesem Verfahren wurde ein GLMM mit maximal drei Prüffaktoren erst mit Interaktion und dann ohne Interaktion der einzelnen Faktoren durchgeführt. Beide GLMM-Analysen wurden mit einer Varianzanalyse verglichen, um festzustellen, welcher der GLMM-Tests (mit oder ohne Interaktion) die Ergebnisse besser modellierte, d.h. welcher der beiden Tests den niedrigen AIC-Wert lieferte. Im Falle einer Interaktion wurden zusätz-
40
Conceição Cunha
liche Tukey Post-Hoc-Tests mit den kombinierten Faktoren durchgeführt, um die einzelnen Interaktionen zwischen den Faktoren festzustellen.
4.2 Ergebnisse 4.2.1 Minimalpaare (Wörter) Aus den vier Antwortmöglichkeiten wurden nur die zwei ausgewertet, die relevant für die Fragestellung waren, d.h. Cluster vs. KVK-Sequenz mit /e/, z. B. crer und querer, oder und . Die unterschiedliche Anzahl der Antwortmöglichkeiten stellt nach BENDERS / ESCUDERO (2012) die lexikalische Auswahl in der gesprochenen Sprache besser dar. Die Antworten wurden quantifiziert, indem die Perzeptionsantworten mit den zugrundeliegenden Produktionsstimuli als „identisch“ eingestuft wurden (z. B. wenn bei dem intendierten Produktionstoken3 crer, die Antwort ausgewählt wurde) oder „nicht identisch“ (wenn z. B. bei querer aus der Produktion die Antwort ausgewählt wurde). Abb. 1 zeigt die zusammengefassten4 Ergebnisse. Wie aus Abb. 1 hervorgeht, fiel die Antwortverteilung für die EP-Produktionsstimuli rechts anders aus als die für die BP-Stimuli links und daher hatte die Sprechervarietät einen hochsignifikanten Einfluss auf die Antworten (χ2=510.5, p < 0.001). Es gab außerdem eine Interaktion zwischen Sprechervarietät und Type: Dies ist ersichtlich, indem für die von der BP-Sprecherin produzierten Stimuli KVK-Sequenzen öfter identifiziert werden konnten als Cluster, während für die EP-Stimuli rechts das Umgekehrte wahr ist: die Cluster (prece und crer) konnten relativ gut identifiziert werden, allerdings lag die Identifizierungsrate bei den KVK-Sequenzen (perece und querer) knapp unterhalb der Zufallsrate (50%).
3
4
Bei der Produktion lasen die zwei Sprecherinnen die Zielwörter im Trägersatz eingebettet. Das intendierte Produktionstoken, d.h. das Wort, das die Sprecherin produzieren wollte, wurde daher aus der gelesenen Vorlage ermittelt. Zu einer besseren Übersicht bei der Darstellung – und weil sie keinen Einfluss auf die Ergebnisse hatten – wurden beide Betonungsbedingungen zusammengefasst (d.h. entsprechend wurden die Antworten cridinho unter , queridinho unter , precer unter und perecer unter ausgewertet).
41
Neutralisierung lexikalischer Unterschiede
prece perece
Anteil ident. - nicht ident. (%)
1.0
0.8
0.6
0.4
0.2
krer kerer 0.0
krer kerer
0.8
prece perece
0.6
EP-Hörer
0.4
EP-Hörer
0.2
Anteil ident. - nicht ident. (%)
0.0
Anteil ident. - nicht ident. (%)
1.0 1.0
0.0
1.0
0.8
0.6
0.4
0.2
krer kerer 0.0
krer kerer
0.8
prece perece
0.6
prece perece
0.4
BP-Hörer
0.2
BP-Hörer
Anteil ident. - nicht ident. (%)
Abb. 1: Perzeptionsantworten (in %). Dunkelgrau dargestellt sind die „identischen“ und hellgrau die „nicht identischen“ Antworten. Die Antworten zu den BP-Token wurden links und die zu den EP-Token rechts dargestellt. Die Ergebnisse der BP-Hörer stehen oberhalb und unterhalb derjenigen der EP-Hörer, so dass oben links die Perzeptionsantworten der BP-Hörer zu den BP Stimuli und unten rechts die EP-Antworten zu den eigenen EP-Stimuli abgebildet wurden.
Bei den BP-Produktionstokens rechts war die Überzahl der Perzeptionsantworten „identisch“ mit den Produktionstokens. Dies bedeutet, dass Hörer Cluster und KVK-Sequenzen identifizieren konnten, solange sie von der BP-Sprecherin produziert wurden. Allerdings konnten Hörer die KVK-Sequenzen eindeutig besser identifizieren (fast zu 100%) als die Cluster (82%). Dieser Effekt wurde durch die statistische Analyse bestätigt, in der die durchgeführten Mixed Models einen Haupteffekt von lexikalischer Form (zweistufig: Cluster vs. KVK) ergaben (χ2=133.8, p