231 14 56MB
German Pages 240 Year 1988
Linguistische Arbeiten
211
Herausgegeben von Hans Altmann, Herbert E. Brekle, Hans Jürgen Heringer, Christian Rohrer, Heinz Vater und Otmar Werner
Richard Wiese
Silbische und lexikalische Phonologie Studien zum Chinesischen und Deutschen
Max Niemeyer Verlag Tübingen 1988
CIP-Titelaufnahme der Deutschen Bibliothek Wiese, Rkhani : Silbische und lexikalische Phonologic : Studien zum Chines, u. Dt. / Richard Wiese. - Tübingen : Niemeyer, 1988. (Linguistische Arbeiten ; 211) Zugl.: Düsseldorf, Univ., Habil.-Schr., 1987 NE: GT ISBN 3-484-30211-9
ISSN 0344-6727
Max Niemeyer Verlag Tübingen 1988 Alle Rechte vorbehalten. Ohne Genehmigung des Verlages ist es nicht gestattet, dieses Buch oder Teile daraus photomechanisch zu vervielfältigen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt.
Vorwort Dieses Buch diskutiert einige Grundfragen der gegenwärtigen Phonologic, nämlich die nach der Struktur und Funktion der Silbe und nach dem Status der lexikalischen phonologischen Regeln. Empirisch stützt es sich weitgehend, wenn auch nicht ausschließlich, auf das Deutsche und das Chinesische, jeweils in deren gegenwärtiger Form. Einige der hier vorgetragenen Ergebnisse sind bereits vorher, allerdings in anderer Form, publiziert worden. So finden sich erste Überlegungen zur Silbenstruktur des Deutschen in Wiese (l986d), eine Darstellung der Phonologic des Chinesischen in Wiese (l986a). Eine Analyse des Schwa im Deutschen erschien als Wiese (l986b), erste Überlegungen zur Klitisierung als Wiese (l987c). Neben vielen Hinzufügungen und Veränderungen (die hoffentlich Verbesserungen sind) in den Details der Analysen unterscheidet sich die hier vorgelegte Fassung von den früheren durch die konsequentere Berücksichtigung der Rolle des Lexikons und durch die zusammenhängende Darstellung der phonologischen Prinzipien. Die Arbeit ist die stark überarbeitete Neufassung meiner Habilitationsschrift, die die Philosophische Fakultät der Universität Düsseldorf im Juni 1987 angenommen hat. Die verschiedenen Versionen dieses Buches haben beträchtlich durch den Rat und die Vorschläge vieler Kollegen gewonnen, denen ich dafür herzlich danke. Meine Kollegen in Düsseldorf haben mehr Anteil an meiner phonologischen Arbeit genommen, als es sonst für Nicht-Spezialisten vielleicht üblich ist. Von ihnen hat Dieter Wunderlich die Arbeit von Anfang bis Ende begleitet. Sein Anteil besonders an der Konzeption der Arbeit kann gar nicht groß genug eingeschätzt werden. Als auswärtiger Gutachter hat auch Geert Booij, Amsterdam, mich zu manchen Verbesserungen der Arbeit veranlaßt. Heinz Giegerich, Edinburgh, hat mich, durch unsere zahlreichen Diskussionen und nicht zuletzt durch unseren Wettstreit in der Beschreibung von Schwa im Deutschen, in vielerlei Weise vorangebracht und angeregt. Heinz Vater und Karl-Heinz Ramers, beide Köln, haben mich ebenfalls durch ihre kritischen Anmerkungen und Fragen gezwungen, manches klarer auszudrücken, als es vorher der Fall war. Ewald Lang hat mir kurz vor dem Abschluß noch durch eine gute Idee weitergeholfen.
Düsseldorf, Mai 1988
Richard Wiese
Vll
Inhaltsverzeichnis Einleitung: Grundfragen der phonologischen Repräsentation und Ableitung 1. Fragestellungen und Ziele der Untersuchung 2. Modelle der phonologischen Repräsentation 2.1. Metrische Phonologic 2.2. Gitterphonologie 2.3. Formale Eigenschaften der Betonungsrepräsentationen 2.4. Die Hierarchie prosodischer Konstituenten 2.5. Autosegmentale Phonologic 3. Die Phonologie in der Grammatik: Lexikalische Phonologic 4. Technische Hinweise
l 2 5 5 9 14 17 19 21 23
Teil I: Zur Theorie der Silbe 1. Vorüberlegungen zur Silbenphonologie 1.1. Die Silbe als Verhaltenseinheit 1.2. Die Silbe als Einheit der Phonotaktik 1.3. Die Silbe als Regeldomäne 1.4. Die Silbe in der Prosodie
25 26 27 28 29 30
2. CV-Phonologie und die Silben des Chinesischen 2.1. Einleitung 2.2. Das System der Anlaut- und Auslautkonsonanten 2.3. Das Affrikatenproblem und die CV-Schicht 2.4. Vokale und silbische Konsonanten 2.4.1. Das Vokalsystem 2.4.2. Summende Vokale oder silbische Konsonanten? 2.4.3. Nichtsilbische Vokale 2.5. Silbenstrukturbedingungen 2.6. Wortfinales /K/ 2.7. Zusammenfassung
33 33 34 37 42 42 43 47 50 53 56
3. Die Silbenstruktur des Deutschen 3.1. Das Silbenschema 3.2. Das Affrikatenproblem im Deutschen 3.3. Vokalquantitäten und der Silbenkern 3.3.1. Diphthonge in anderen Sprachen 3.3.2. Der Silbenkern im Deutschen 3.3.3. Vokallänge und Wortakzent im Deutschen 3.3.3.1. Das Problem 3.3.3.2. Konsequenzen für die Silbenphonologie 3.3.3.3. Eine Alternative 3.3.4. Schwa-Silben
58 58 60 62 66 67 69 69 72 73 75
Vlll
3.3.5. Externe Argumente 3.4. Ambisilbische Konsonanten - Zwei Modelle 3.5. Ambisilbische Konsonanten und Auslautverhärtung 3.6. Assoziationsprinzipien und Silbifizierungsregeln 3.6.1. Segmente und Segmentpositionen 3.6.2. Die Position der Silbifizierung in der Ableitung 3.6.3. Silbifizierungsprinzipien 3.7. Silbenstrukturbedingungen und relative Sonorität 3.7.1. Die Sonoritätshierarchie 3.7.2. Silbenstrukturbedingungen 3.7.3. Negative Silbenstrukturbedingungen 3.8. Extrasilbische Segmente 3.8.1. Wortinitiale Cluster 3.8.2. Externe Evidenz aus der Schrift 3.8.3. Der wortinterne Appendix 3.8.4. Wortfinale Cluster 3.9. Silbenstruktur und Wortakzent
77 78 80 82 82 83 85 89 90 92 94 94 94 98 99 99 102
4. Alternative Silbenmodelle 4.1. Das metrische Modell 4.2. Das Konstituentenmodell 4.3. Das Morenmodell 4.4. Schlußbemerkungen
106 107 109 110 112
Teil II: Phonologische Repräsentationen und Prozesse im Lexikon 0. Übersicht 1. Ton im Chinesischen 1.1. Einleitung 1.2. Töne und Melodien 1.2.1. Das Problem des 3. Tons 1.2.2. Die Tonrepräsentation 1.2.2.1. Tonmerkmale 1.2.2.2. Exkurs über das Merkmalssystem von Yip 1.2.2.3. Die Tonschicht 1.2.2.4. Zusammenfassung 1.3. Tonregeln 1.4. Schlußbemerkungen
115 116 117 117 117 118 121 122 126 128 131 135 138
IX
2. Schwa und die Wortstruktur des Deutschen 2.1. Einleitung - Das Problem 2.2. Die Distribution von Schwa in monomorphemischen Wörtern 2.3. Schwa in komplexen Wörtern und der Aufbau des Lexikons 2.3.1. Die Flexion von Nomen und Adjektiven 2.3.2. Die Derivation und Flexion von Verben 2.3.3. "Schwa" als ein Morphem 2.4. Zusammenfassung 2.5. Schwa und die Akzentverhältnisse des Deutschen 2.6. Postlexikalische Schwa-Tilgung 2.7. Beobachtungen zur lexikalischen Variation 2.8. Schlußbemerkungen
140 140 143 149 152 155 159 164 165 168 172 173
3. Lexikalische und postlexikalische Regeln: Klitisierung im Deutschen und Tonsandhi im Chinesischen 3.1. Die postlexikalische Phonologic 3.2. Klitika im Deutschen 3.2.1. Einleitung: Stellung der Klitisierung in der Grammatik 3.2.2. Eine Typologie der Verschmelzungen 3.2.3. Bedeutungsrestriktionen der Verschmelzungen 3.2.4. Eine Tilgungsanalyse für Klitika 3.2.5. Die Regel in der Grammatik 3.2.6. Die Syntax der Verschmelzungen 3.2.7. Schlußfolgerungen 3.3. Tonsandhi im Chinesischen 3.3.1. Morphologie und Phonologic der Reduplikation 3.3.1.1. Einige Daten und Theorien zur Reduplikation 3.3.1.2. Morphem- und Wortreduplikation im Chinesischen 3.3.2. Die Domäne des Tonsandhi 3.4. Schlußfolgerungen
176 176 177 177 179 182 184 188 191 193 194 195 196 200 205 207
4. Schlußbemerkungen: Weiterentwicklungen in der Theoriebildung der Phonologic 4.1. Regeln und Repräsentationen 4.2. Die Modularität der Phonologic 4.3. Zur phonologischen Argumentation
210 210 213 215
Literaturverzeichnis
218
Anhang: Verwendete phonetische Notationen
228
Sachregister
230
Einleitung:
Grundfragen der phonologischen Repräsentation und Ableitung
1. Fragestellungen und Ziele der Untersuchung Die Phonologie hat etwa seit dem Ende der siebziger Jahre eine Renaissance erfahren, die zu neuen Einsichten, Forschungsprogrammen und gänzlich umgestalteten Sichtweisen über die phonologische Komponente in der Grammatik geführt hat. Es ist angemessen zu behaupten, daß in den zwanzig Jahren davor innerhalb der generativen Grammatik die Syntax im Zentrum der Theoriebildung und Aufmerksamkeit stand, wenn man als Marksteine der Entwicklung einerseits Chomsky (1957) für den Beginn der Syntax-Diskussion, andererseits Liberman & Prince (1977) und Goldsmith (1976) für die Phonologie ansieht. Die Annahmen über das syntaktische Wissen der Sprecher/Hörer wurden einer ständigen Revision unterzogen. Demgegenüber entwickelte sich die Diskussion um die phonologische Komponente in der Grammatik zunächst nicht so, daß entscheidende Fortschritte gegenüber dem Modell, das Chomsky & Halle in 'The Sound Pattern of English' (1968, im folgenden 'SPE') vorgelegt hatten, erkennbar wurden. Seitdem erschienen jedoch eine Reihe von Arbeiten, die diese Situation grundlegend verändert haben. Ein Durchbruch wurde besonders in der Behandlung der suprasegmentalen oder prosodischen Phänomene, also in der Analyse von Silben, Tönen, Akzenten und Intonationsmustern, erreicht. Besonders in diesen Bereichen hatte die SPE-Phonologie, wie auch der klassische Strukturalismus, wesentliche Probleme hinterlassen (siehe die Diskussion zum Status der Silbe in der Einleitung zu Teil I, auch Anderson (l985b: 313)). Zu den genannten Phänomenen sind aber inzwischen Studien vorgelegt worden, die in der Phonologie-Diskussion besonders in den achtziger Jahren große Beachtung gefunden haben. Besonders hervorhebenswert scheint mir auch die Tatsache zu sein, daß die neuen Theorien und Modelle zur prosodischen Phonologie nicht nur theoretische Vorzüge, sondern offenbar auch größere phonetische Beschreibungsangemessenheit besitzen. Die zweifellos existierende Kluft zwischen phonologischer und phonetischer Beschreibung kann also möglicherweise verkleinert werden. Ein zweites Problem, zu dem in einer direkten Nachfolge des SPE-Modells neue Vorschläge entwickelt wurden, ist die Stellung der Phonologie in der Grammatik. In diesem Zusammenhang stellen sich auch Fragen nach der Regelordnung, der zyklischen Anwendung von Regeln und nach dem Verhältnis von Morphologie und Phonologie. Daß bestimmte phonologische Regeln auf komplexe Weise mit der Wortbildung interagieren, ist lange bekannt und wird in der Theorie der generativen Phonologie mit dem Konzept des Zyklus zusammengebracht. Ebenso gilt aber auch, daß andere phonologische Regeln nichtzyklisch operieren, auf morphologisch komplexe wie einfache Wortformen angewandt werden und gänzlich anderen Beschränkungen unterliegen. Eine wesentliche Theorie, die aus diesen Beobachtungen und Entwicklungen entstanden ist, ist die der Lexikalischen Phonologie. Wie in Teil II besonders am Beispiel des Vokals Schwa und der klitischen Phänomene im Deutschen gezeigt, ermöglichen die Grundideen der Lexikalischen Phonologie
interessante Lösungen für klassische Probleme der phonologischen Beschreibung. Schließlich wird sich die strikte Unterscheidung von der Phonologie im Lexikon vs. der Phonologie außerhalb des Lexikons ebenfalls als unbedingt erforderlich für eine Reihe von phonologischen Problemen erweisen. Diese Arbeit reiht sich also in den Kontext der Diskussion um die Repräsentationen in der Phonologie und um die angemessene Form der Grammatik ein. Ich bin mir dabei der Tatsache bewußt, daß es große Bereiche der gegenwärtigen phonologischen Forschung gibt, die nur ungenügend berücksichtigt werden, so etwa die Arbeiten zur Natürlichen Phonologie, siehe etwa Dressler (1984) und Donegan & Stampe (1979). Alle im folgenden dargestellten Ideen sind als Fortentwicklungen der generativen Phonologie zu betrachten. Sie haben die Grundannahme gemeinsam, daß die Grammatiken natürlicher Sprachen eine phonologische Komponente enthalten, die ein relativ abstraktes System von Repräsentationen und Prozessen auf diesen Repräsentationen ist. Diese phonologische Komponente ist genauso als Teil der Sprachkompetenz anzusehen wie etwa die Syntax der Sprachen. Aufgabe der Sprachwissenschaftler ist es nach dieser Auffassung, möglichst restriktive Regelsysteme zur adäquaten Beschreibung der Teilkomponenten zu formulieren. Hinzugefügt werden kann noch, daß die oben erwähnten und in diesem Buch generativen Theorien zur Prosodie seit einigen Jahren ein ausgesprochen dynamisches und produktives Forschungsgebiet der Sprachwissenschaft darstellen. Weiterhin gibt es auch umfangreiche Phänomengebiete der prosodischen Phonologie, zu denen in dieser Arbeit wenig oder nichts ausgeführt wird, etwa zum Akzent oberhalb der Wortebene (Komposita und Phrasen) und zur Intonation. Innerhalb des gesteckten Rahmens hat diese Arbeit drei Hauptziele, die eng miteinander verbunden sind und folgendermaßen skizziert werden können: - Erstens geht es darum, die theoretische Diskussion über die Repräsentationen und Prozesse in der Phonologie weiterzuführen. Dabei wird das Ziel angestrebt, zu begründeten Entscheidungen über die für die prosodische Theorie notwendigen Kategorien und Konstrukte, besonders zur Silbenstruktur, zu kommen. Die vielfältigen vorgelegten Modelle sind, wie auch Leben (1982) anmerkt, zu reich und redundant. - Zweitens soll die Theorie der Lexikalischen Phonologie auf ihre Anwendbarkeit und Möglichkeiten hin überprüft werden. Es geht dabei insbesondere um die notwendigen Annahmen über das Lexikon und um die Unterschiede zwischen der Phonologie im Lexikon und der Phonologie außerhalb, der postlexikalischen Phonologie. - Drittens hat diese Arbeit auch ein konkreteres sprachbeschreibendes Ziel. Es soll eine Reihe von Phänomenen aus der Phonologie des Deutschen und des Chinesischen in einem zusammenhängenden Rahmen und auf begründbarer theoretischer Grundlage dargestellt werden. Im Mittelpunkt stehen vor allem prosodische Phänomene und Probleme wie Silbenstrukturen, Töne und Akzente.
Folgende grundlegende Thesen werden in den Kapiteln dieser Arbeit begründet und im Detail ausgearbeitet: - Die Silbe hat eine wichtige organisierende Funktion für die Lautsysteme natürlicher Sprache. - Die Auswahl der adäquaten phonologischen Repräsentation macht die Deskription einer Sprache sowohl empirisch gesehen besser wie auch theoretisch-evaluativ einfacher. - Bestimmte phonologische Regeln operieren im Lexikon. Es bestehen außerdem wichtige Unterschiede zwischen der Phonologic im Lexikon und der außerhalb des Lexikons. Zum Inhalt dieser Arbeit ist schließlich noch zu sagen, daß sie sich, von gelegentlichen Seitenbemerkungen abgesehen, auf zwei Sprachen, nämlich das Deutsche und das Chinesische, beschränkt. Dies geschieht einmal aus pragmatischen Gründen, die in den begrenzten Sprachkenntnissen des Autors zu suchen sind. Andererseits hat die phonologische Forschung der letzten Jahrzehnte aber auch zu der Einsicht geführt, daß eine tiefe Analyse einer einzigen Sprache mindestens ebenso reiche Ergebnisse liefern kann wie eine - notwendigerweise oberflächliche - Betrachtung vieler Sprachen. Diese Arbeit ist also der möglichst eingehenden Analyse einzelner Sprachen verpflichtet. Daß auch Chinesisch herangezogen wird, liegt darin begründet, daß diese Sprache Eigenschaften aufweist, die sich am Deutschen überhaupt nicht studieren lassen, insbesondere die distinktiven Merkmale der Tonhöhe. Umgekehrt ist das Deutsche eine Sprache mit einer relativ reichen Silbenstruktur und einer komplexen Morphologie, die wiederum eine reiche Interaktion von Wortbildungsregeln und phonologischen Regeln zur Folge hat. Vorauszuschicken ist vielleicht noch, daß eine Beschäftigung mit der Theorie der Silbe und mit der lexikalischen Phonologic nicht notwendigerweise eine vorgängige Definition dieser Begriffe erfordert. Die Konstellation, daß sprachwissenschaftliche Theoriebildung auf der Basis schlecht definierter Begriffe erfolgt, ist durchaus typisch und vielleicht der Normalfall. Seiler (1962: 375) charakterisiert die Situation in der Sprachwissenschaft folgendermaßen: "Es gehört zu unserer Ausgangssituation, daß wir einerseits wissen müßten, was unter einem Wort und was unter einer Silbe zu verstehen sei, daß es aber andererseits die Wissenschaft noch nicht zu einer allgemein anerkannten Definition Tür Wort und Silbe gebracht hat. Es ist die für den Linguisten normale Ausgangssituation. Was er vor sich hat, nämlich eine gegebene Sprache, ist nicht ein Gegenstand, den es zuerst zu definieren gälte, sondern es sind bestimmte sprachliche Tatbestände, die zu beschreiben und zu systematisieren sind. Die Beschreibung und Systematisierung dieser Tatbestände ist zugleich deren Definition." Diese Aussage scheint mir heute ebenso zutreffend und relevant zu sein wie vor 25 Jahren.
2. Modelle der phonologischen Repräsentation
2.1. Metrische Phänologie In der Theorie der Phonologic kann man zwischen dem derivationellen und dem repräsentationeilen Aspekt unterscheiden. Während unter der Frage nach der phonologischen Derivation Angaben etwa zu den Ebenen, Regelformaten, Regelordnungen und Zusammenhängen zwischen der Phonologic und anderen Komponenten der Grammatik gemacht werden, behandelt die Frage nach der Repräsentation in der Phonologie Probleme der Natur der phonologischen Formen. Eine der großen Entdeckungen zu Beginn der modernen Phonologie war, daß sich das sprachliche Signal als eine lineare Folge diskreter Elemente (der Phoneme) verstehen läßt. Dementsprechend ist die Repräsentation in der des SPE-Typs nichts weiter als eine lineare Sequenz von Merkmalsbündeln, die genau einem Segment entsprechen. Zwischen den Segmenten oder den Merkmalsbündeln gibt es nur die lineare Reihenfolgebeziehung. Die einzige Erweiterung besteht darin, daß Grenzsymbole zwischen die Segmente eingestreut sein können (siehe etwa '»' in Regel (5) unten). Der lineare Charakter der Repräsentation ändert sich dadurch aber nicht. Phonologische Modelle mit einer Repräsentation, die in (l) illustriert ist, sollen segmentale Modelle genannt werden. Das Segment (natürlich als Merkmalsbündel verstanden) kann hier weder zerlegt werden, indem sich Regeln auf subsegmentale Einheiten in der Lautsequenz beziehen, noch können suprasegmentale Einheiten direkt erfaßt werden. Gerade diese Zerlegungen bzw. Gruppierungen erweisen sich jedoch für viele Phänomene als erforderlich, wenn die existierenden Regularitäten adäquat erfaßt werden sollen. (D
"± M ± M2 ± M3
_±Mn_
"t M ~
"± M "
± M3
± M3
_ ~
n _
~
n
-
Es gibt eine Vielzahl von Standardbeispielen, die in der neueren Literatur herangezogen werden, um die Mangelhaftigkeit der segmentalen Repräsentation zu demonstrieren. Dazu gehören z.B. die Tonmelodien in afrikanischen Tonsprachen (siehe Goldsmith (1976), van der Hülst & Smith (1982)), die komplexen Segmente wie Affrikaten (siehe Teil I, 2.3 und 3.2 für eine ausführliche Diskussion) und die Akzentrelationen auf der Wortebene (etwa bei Liberman & Prince (1977) und van der Hülst (1984)). Im folgenden soll eine Variante der nichtlinearen Repräsentation, die sogenannte metrische Phonologie, an einem einfachen Beispiel aus dem Deutschen, nämlich dem Kompositaakzent, eingeführt und motiviert werden. Anschließend
wird dann die Gitternotation vorgestellt (in Abschnitt 2.2) und mit der metrischen Notation verglichen (in 2.3). In den abschließenden Abschnitten werden die prosodische Konstituentenstruktur und die autosegmentale Phonologie vorgestellt. Für die folgenden Überlegungen zum Kompositaakzent soll vorausgesetzt werden, daß ein Kompositum, wenigstens im unmarkierten Fall, eine lexikalische Einheit ist, die wiederum aus zwei lexikalischen Einheiten besteht, von denen die rechte den Kopf der Konstruktion darstellt (siehe Selkirk (l982b) für das Englische, Olsen (1986) und Wunderlich (l986a) für das Deutsche). Komposita lassen sich also als Einheiten mit der in (2) dargestellten Struktur auffassen. Wie auch die Beispiele in (3) zeigen, sind dabei als Köpfe mindestens Nomen (3a) und Adjektive (3b) (X° = N, A) möglich, als Argumente dagegen lexikalische Einheiten aller Kategorien. (2)
(3)
X°
A a. Leichtathlet, Diskussionsleiter, Spieluhr, Gegenteil b. tieftraurig, folgenschwer, diskutierfreudig, vorschnell
Diese Komposita demonstrieren neben den kategorialen Möglichkeiten auch eine einfache Akzentregel, die wir vorläufig folgendermaßen ausdrücken können: (4) In einem Kompositum liegt der Hauptakzent auf dem ersten Teil. Diese Regel sagt allerdings nichts darüber, wo im ersten Teil der Hauptakzent realisiert wird. Es läßt sich aber nun argumentieren, daß die Regel auch nichts dazu sagen sollte, da dies offensichtlich davon abhängt, wo der - gänzlich unabhängige - Hauptakzent des Einzelwortes plaziert ist. Die Betrachtung weiterer Beispiele wie Diskussionsleiterschulung oder Durchführbarkeitsverordnung verdeutlicht nämlich, daß die Regel für zweiteilige Komposita bei beliebiger Komplexität der Teile gilt. Ob das Wort im ersten Teil z.B. Anfangsbetonung trägt (wie Durchführbarkeit) oder Endbetonung (wie Diskussion] sollte die Regel nicht beeinflussen. Die formale Notation für die Regel (4) in einem segmentalen Rahmen, der ausschließlich die Repräsentation (l) heranzieht, führt zu Problemen. Der Hauptgrund liegt darin, daß keine Möglichkeit besteht, die in Regel (4) genannten Einheiten (l. Teil', '2. Teil') zu verwenden. Solche Einheiten oder Konstituenten stehen nicht zur Verfügung. Eine Kompositaregel, die in etwa den gleichen Sachverhalt wie Regel (4) beschreibt, muß im segmentalen Rahmen daher etwa folgendermaßen formuliert werden: (5) V -» [l stress] / [ «« X [ l stress ]
«« Z »« ]NAV
Es handelt sich hier um die 'Compound Stress Rule' aus SPE: 92. Eine verbale Paraphrase der formalen Notation wäre etwa die folgende: 'In einem N(omen), A(djektiv) oder V(erb) ignoriere die Kette 'Z', die das letzte Wort ausmacht. In der Kette davor suche das Segment mit dem Merkmal des Hauptakzents. (Die Ketten 'X' und enthalten selber keinen Hauptakzent.) Dem Segment mit dem Hauptakzent weise wiederum den Hauptakzent zu.'1 Im Vergleich zur 'Regel' (4) weist diese Regel mehrere Probleme auf, die bereits von Liberman & Prince (1977) genannt wurden. Letztlich ergeben sich die Probleme daraus, daß die Kompositaregel in der segmentalen Formulierung die hierarchischen Beziehungen mißachten muß. Daß der 1. Teil im zweiteiligen Kompositum gegenüber dem 2. Teil akzentuiert wird, und das unabhängig von der Komplexität des 1. Teils, läßt sich im SPE-Modell nicht direkt ausdrücken. Es müssen immer die akzenttragenden Segmente (meist die Vokale) gesucht werden. Daraus ergibt sich eine relativ komplexe und unintuitive Regel im Vergleich zu der hier vorzustellenden Theorie. Auf ein weiteres Problem der segmentalen Akzentregeln hat schon Bierwisch (1968) hingewiesen. Wenn solche Regeln auf mehrteilige Komposita (oder gar auf syntaktische Phrasen) angewendet werden, läßt sich nicht vermeiden, daß sehr tief gestaffelte Akzentwerte entstehen. Für das komplexe Nomen l\.\.Rotwein\punsch] trinken ergibt sich die Akzentstruktur in (6) (siehe Wurzel 1980). Zu den Notationskonventionen der SPE-Theorie gehört, daß aufsteigende Zahlen absteigende Akzentwerte denotieren. ' bezeichnet aber ein gänzlich unakzentuiertes Segment wie z.B. Schwa. Im folgenden verwende ich auch die traditionellen Akzentzeichen als abkürzende Notationen. "' bezeichnet dann den primären Akzent und "' den sekundären, und zwar immer auf eine bestimmte Domäne bezogen. 1 4 3 2 0 [[[Rotwein]punsch]trinker]
( 6 )
Komplexere Wörter mit einer entsprechend größeren Zahl von Akzentabstufungen sind leicht vorstellbar. Gerade diese hohe Zahl ergibt sich aber ausschließlich durch die Anforderungen der Regelanwendung und der Notation und nicht aufgrund empirischer Ergebnisse und theoretischer Erwägungen. Es ist auch zu bezweifeln, ob die Sprecher einer Sprache eine solche Zahl von Akzenten wirklich unterscheiden können. Die Lösung für dieses Problem, die in Bierwisch (1968) angedeutet und in Bierwisch (1966) ausgeführt wird, besteht darin, Akzentphrasen ('breath groups') zu bestimmen, die die Domäne für die Akzentregeln darstellen. Diese Lösung hilft l) Die Zuweisung eines 1-Akzentes bedeutet in der SPE-Theorie gleichzeitig die Herabstufung aller anderen Akzente in der gegebenen Domäne um einen Wert. Durch diese Konvention ist sichergestellt, daß es in jeder Domäne genau einen Hauptakzent gibt. Mit der oben wiedergegebenen Paraphrase der Regel (5) vergleiche auch die Regelformulierung von Wurzel (1980: 309): "In zusammengesetzten Substantiven, Adjektiven und Verben erhält der Vokal, der den 1-Akzent des ersten Einzelwortes trägt, den 1-Akzent des Kompositums."
8
aber wohl nur im Falle des Phrasenakzents, Überspezifikationen zu vermeiden. Komposita, selbst sehr komplexe, bilden immer eine einzige Akzentphrase. In der verbal formulierten Regel (4) wird ein anderer Lösungsweg angedeutet. Die Regel beschreibt eine bestimmte Relation zwischen zwei Einheiten einer hierarchischen Struktur. Wenn wir diese Regel in eine explizite formale Notation übertragen wollen, muß diese grundlegende Eigenschaft erhalten bleiben. Wir benötigen also erstens eine Relation zwischen einem starken und einem schwachen Element und zweitens Kategorien in einer hierarchischen phonologischen Struktur. Die sogenannte 'Metrische Phonologic' liefert uns genau diese beiden Elemente. Für die zweiteiligen Komposita läßt sich die Repräsentation (?) annehmen, die die Akzentrelation mittels eines metrischen Baumes direkt ausdrückt. Die Knoten der Akzentstruktur entsprechen hier den Kategorien der Wortstruktur (2). Dies muß aber nicht notwendigerweise der Fall sein. Metrische Bäume definieren also binäre und mit s/w-Relationen etikettierte prosodische Konstituenten. Die Knotennamen 's' und 'w' stehen für 'stark' und 'schwach' (strong/ weak). Weitere Etiketten wie 'Silbe' oder 'Wort' (siehe 2.4) sind möglich. Metrische Phonologic ist damit sowohl eine Theorie der Prominenzrelationen wie der prosodischen Konstituenten. Entscheidend ist, daß ein metrischer Baum immer nur lokale starkschwach-Relationen definiert. /\ s w
(7)
Spiel uhr Der Korrektheit halber seien auch noch die komplexeren Komposita aufgeführt, da dadurch deutlich wird, daß die Regel (4) nicht alle Fälle korrekt beschreibt (im Gegensatz zu (5)'.). Bei Komposita aus drei Teilen gibt es prinzipiell zwei Möglichkeiten der Strukturierung. Wörter wie [[[RotJCweinJJCtrinkerJJ besitzen einen verzweigenden ersten Teil; Wörter wie [[Stadt][[bauJ[amt]]J einen verzweigenden zweiten Teil. Die Akzentmuster für diese zwei Gruppen von Komposita sind systematisch verschieden, wenn auch mit relativ vielen Ausnahmen, die sich teilweise durch rhythmisch bedingte Akzentverschiebungen ergeben. Die Akzentstrukturen für die zwei Typen von Komposita sind im metrischen Modell in (8) dargestellt. In (8a) wird rot nur von s-Knoten dominiert; in (8b) ist es bau, also der erste Teil des Zweitglieds. (8) a.
/\
b. W
Rotweinpunsch
s /\ / \
Stadt b au amt
Wenn diese Darstellung im Prinzip richtig ist, muß die Kompositaregel die folgende Formulierung (9) erhalten. Hier zeigt sich noch deutlicher, daß der Bezug auf größere hierarchische Einheiten und deren Substrukturen für die korrekte Formulierung der Akzentregeln entscheidend ist. Regel (9) ist ein Prinzip für die Zuweisung der relationalen s/w-Etiketten an einen binären, hierarchischen Baum. Da jeder Knoten entweder 's' oder 'w' sein muß, ergeben sich alle anderen Fälle von selbst. Im Gegensatz zu (4) ist (9) für die dreiteiligen Komposita ebenso adäquat wie (5). (9) In einem Kompositum C ist in ^[ A B ] , zweigt.
genau dann stark, wenn B ver-
In dieser Regel wird der Wert 's' (=stark) der Einheit als ganzer zugewiesen. In der segmentalen Theorie ist eine solche Akzentzuweisung schon durch die Eigenschaften der Notation ausgeschlossen. Regel (5) besitzt weiterhin die unerwünschte Eigenschaft (siehe Liberman & Prince 1977), Variablen (X, Y, Z) zu enthalten, denen keine Konstituente, sondern nur eine arbiträre Kette von Segmenten entspricht, (in Rotweintrinker ist X = /r/, = /tvain/.) Solche Variablen sind in der metrischen Formulierung völlig überflüssig (siehe auch den Vergleich der Regeln (l)und (3) in Kapitel I, l). 2.2. Gitterphonologie Das Gitter ist ein Formalismus zur Wiedergabe von Rhythmus - in der Sprache wie in der Musik. Selkirk (l984b: ll) führt das Gitter folgendermaßen ein: "It is a two-dimensional object consisting of parallel horizontal levels on which there are points, marking periodicities." Die Musik verkörpert vermutlich reinere rhythmische Strukturen als die Sprache und liefert daher eindeutigere Fälle für eine Notation von rhythmischen Strukturen. Ein musikalisches Beispiel mag daher die Elemente des Gitterformalismus illustrieren. In einem 4/4-Takt gibt es vier Grundschläge. Jeder dieser Schläge wird durch einen Eintrag auf der untersten Ebene repräsentiert.: . Von diesen sind der erste und der dritte Schlag herausgehoben; sie tragen daher einen Eintrag auf der nächsten Gitterebene: . Da der erste Schlag der prominenteste ist, erhält er einen weiteren Eintrag, eine Markierung auf der (für die Domäne des Taktes) höchsten Gitterebene:
(10) X X X X
10
Nicht nur der 4/4-Takt, sondern auch Wörter wie Abenteuer oder Eisenbahnen haben z.B. die in (10) angegebene prosodische Struktur. Wie auch dieses Beispiel illustriert, tendiert Rhythmus zu einer Alternation von starken und schwachen Schlägen. (Der 4/4-Takt verkörpert in dieser Hinsicht ein idealtypisches Gitter.) Man kann nun spekulieren (siehe Selkirk 1984b: Kap. l), daß Alternanz eines der Grundprinzipien aller rhythmischen Tätigkeiten2 ist. Der Gitterformalismus selbst sagt dazu nichts aus; denn Gitter (ll) wäre ja ebenso wohlgeformt wie (10). (H)
X X X X X X X X X X X X
Die Beschreibung rhythmischer Strukturen durch das Gitter sei hier ebenfalls mittels der Komposita im Deutschen illustriert. In der Diskussion des Kompositaakzents im vorangehenden Abschnitt wurde hervorgehoben, daß die interne Akzentstruktur der beteiligten lexikalischen Einheiten durch die Einfügung in ein Kompositum nicht berührt wird. Gerade diese Tatsache rechtfertigt die einfache Akzentregel (9), die nicht in die beteiligten Wörter (A und B) hineinoperieren muß. Die gleiche 'Unberührtheit' der internen Akzentrelationen gilt prinzipiell auch für Phrasen; die wortinternen Akzentrelationen bleiben von der Einfügung des Wortes in eine Phrase unberührt. Ausnahmen von dieser Beobachtung sind jedoch recht zahlreich. Die Kompositaakzentregel ist zunächst nicht in der Lage, die folgenden Umkehrungen in den Akzentmustern zu beschreiben:
(12)
a. 1 2 sichtbar 1 2 Arbeiter 1 2 Marschall 1 2 Wissenschaft
1 3 2 unsichtbar 1 3 2 Gastarbeiter 1 3 2 Feldmarschall 1 3 2 Sprachwissenschaft
b. 2 l Paderborn 2 l linear 2 l blau-grün
2 3 l Paderborner Uni 2 3 l lineare Steigerung 2 3 l blau-grünes Hemd
Das Problem ist, daß sich die Akzentverhältnisse in diesen Wörtern auf bestimmte Weise verändern, wenn diese in Komposita (l2a) oder Phrasen (l2b) eingebettet werden. Nähere Betrachtung macht deutlich, daß es eine Art Akzentzusammenstoß geben würde, wenn die Akzentumkehrung in den Wörtern nicht stattfinden würde: 2) Zu den menschlichen Tätigkeitssystemen, die rhythmisch organisiert sind, gehören (mindestens) die Sprache, die Musik, das Gehen und das Tanzen. Interessant ist, daß es zu elementaren, alltäglichen Tätigkeiten wie Sprechen und Gehen verfeinerte und konventionalisierte Formen wie Rezitieren, Singen und Tanzen gibt. Die Anwendung des Gitters und des s/wBaums zur Beschreibung der rhythmischen und metrischen Strukturen in der Musik findet sich bei Lerdahl & Jackendoff (1983).
11
[unCsichtbar]], [[PaderbornerHUni]]. Die Akzentverlagerung geschieht immer so, daß sich der Hauptakzent, der im Kompositum oder in der Phrase der untergeordnete ist, vom Hauptakzent in der Gesamtdomäne wegbewegt, und zwar in den Komposita nach rechts und in den Phrasen nach links. Der verlagerte Akzent Fällt dann nicht auf die nächste Silbe, sondern auf die nächste betonte Silbe. Die Akzentverschiebung ist optional und hängt auch von der Intensität des Akzentzusammenstoßes ab, wie die folgenden Beispiele zeigen: 1 3 2 (13) a. Gastarbeiter
1 3 2 b. Hafenarbeiter oder
1 2 3 Hafenarbeiter
l 2 3 c. Flughafenarbeiter
Während in Gastarbeiter die Akzentverschiebung wohl obligatorisch ist, wird sie auf Hafenarbeiter vermutlich optional und auf Flughafenarbeiter gar nicht angewandt. Die Akzentverschiebung hängt also u.a. von der Zahl der Silben zwischen den starken Akzenten ab. Wenn diese Beobachtung stimmt, müßte es zwar Paderborner Uni, aber Paderborner Universität heißen. In letzterem Beispiel, einer Phrase und nicht einem Kompositum wie die vorangehenden Ausdrücke, geht die Akzentverschiebung im übrigen nach links, da der Hauptakzent der Domäne (Uni) rechts steht. Hier liegen offensichtlich Akzentverschiebungen in Richtung auf rhythmisch präferierte Muster vor. Der musikalisch vorgebildete Leser wird vielleicht auch bemerken, daß in der Musik die alternierenden Rhythmen ebenfalls die normalen sind. Dort folgen auf einen betonten Taktteil ein oder zwei unbetonte. Die oben dargestellten Verhältnisse scheinen den metrischen Strukturen in der Musik nicht unähnlich zu sein. Die in (12) aufgeführten Beispiele sind also keine echten Gegenbeispiele zu dem Prinzip, daß Akzent eine lokale Relation zwischen zwei Einheiten ist, sondern demonstrieren einen anderen und andersartigen Phänomenbereich, den der rhythmischen Strukturen. Im folgenden soll angenommen werden, daß es eine Komponente der Grammatik gibt, in der ausgehend von den regulären Akzentmustern unter bestimmten Umständen rhythmischere Akzentmuster erzeugt werden. 3 Des weiteren soll in diesem Abschnitt die oben eingeführte Gitternotation als eine anscheinend besonders für die Darstellung rhythmischer Strukturen geeignete Notation illustriert werden. Es sei jedoch nicht verschwiegen, daß die Auffassung, nach der sowohl metrische Bäume wie Gitter in der Phonologic einen Platz haben, in der gegenwärtigen Diskussion umstritten ist. Es gibt Vorschläge, die Akzentmuster ausschließlich mit3) Was als rhythmischer zu gelten hat. wird von Hayes (1984) und Hoeksema (1985) expliziert.
12
tels metrischer Gitter - ohne vermittelnde s/w-Bäume - zu beschreiben, etwa bei Prince (1983) und Selkirk (l984b). Die soeben vorgestellten Gitter werden also in der nicht-linearen Phonologic auf zwei divergierende Weisen motiviert. Einmal als Interpretationen der metrischen s/w-Bäume und einmal als zugrundeliegende Repräsentationen für Akzentphänomene. Nach einer weiteren Klasse von Modellen (Kiparsky (1979), Giegerich (1985, 1986) sind die metrischen Gitter überflüssig, da sich auch rhythmische Verschiebungen in den s/w-Bäumen ausdrücken lassen. Die hier vertretene Position entspricht der von Liberman & Prince (1977) und Hayes (1984). Sie impliziert, daß es grammatische Prinzipien des Akzents und allgemein-rhythmische Tendenzen des Verhaltens gibt. Beide Bereiche sind voneinander unabhängig und erfordern die ihnen angemessenen Notationen: "Trees represent stress; grids rhythmic structure." (Hayes 1984: 34). Da die Gitternotation selbst in den verschiedenen Modellen glücklicherweise nicht differiert, können die Ausführungen in diesem Abschnitt zum großen Teil als allgemeine Einführung betrachtet werden. Nach der hier akzeptierten Version der Akzenttheorie muß ein Regelsystem angegeben werden, das Gitter aus metrischen Bäumen erzeugt. Diese Regeln können in Anlehnung an Liberman & Prince (1977: 315-22) etwa so formuliert werden: (14) a. Jede Silbe erhält einen Eintrag (x) auf der untersten Gitterebene. b. Die stärkste Silbe jedes phonologischen Wortes erhält einen Eintrag auf der zweiten Ebene. c. Die stärkste Silbe jeder Konstituente, die mit s gekennzeichnet ist, erhält soviel zusätzliche Einträge, daß sie eine höhere Gitterspalte hat als die stärkste Silbe ihrer w-Schwester. Diese Gitterregeln werden durch die Beispiele in (15) illustriert. Über den Gitterspalten werden die Teilregeln genannt, die für die Einträge verantwortlich sind. (l5b) bedarf einer Erläuterung: Der metrische Baum ist so konstruiert, daß dem Satz nur eine Intonationsphrase zugeordnet ist. Außerdem mache ich die möglicherweise problematische Annahme, daß in den nur ein einziges phonologisches Wort bildet. (Die Kategorien 'Phonologisches Wort' und 'Intonationsphrase' werden in Abschnitt 2.4 erläutert.) Schließlich ist noch zu bemerken, daß die Regel (l4c) zunächst auf die Konstituente 'Park' angewandt wird und damit schon das geforderte s Prominenzmuster entsteht. Der erneuten Anwendung auf die größeren mit 's' versehen Konstituenten steht jedoch nichts im Wege. Es soll auch nicht ausgeschlossen werden, daß in (l5b) zusätzliche Einträge (etwa auf die Silbe Pe-) eingeführt werden.
13
(15) a.
b.
(x c ) (x c )
x
c x c x
x x b b x x A A a a a a xa Axa Bahnhofsapotheke I I I I I I s w s w s w
x
VS
x
x x x b b b b x x x x x x *a a a a a a a Peter rannte in den Park I I I I I
V V W S
V Auf der damit eingeführten Grundlage ist eine Behandlung der in (12) und (13) demonstrierten Akzentzusammenstöße möglich. Dazu betrachten wir das Kompositum Feldmarschall in (l6a) und die Phrase Paderborner Uni in (lob). Die nach den Regeln (14) konstruierten Gitter sind so geschaffen, daß die mit dem Stern markierten Einträge auf der nächsttieferen Ebene nicht durch einen Eintrag voneinander getrennt sind. Dies ist der erwähnte Akzentzusammenstoß, der zugunsten eines alternierenden Gitters beseitigt wird.
(16) a.
b.
*x *x
*x
X
X
X
X
Feldmarschall
X
X
X
X X
X X
Paderborner Uni
x x x x Feldmarschall
*x
X
x
x
Paderborner Uni
Für die Akzentverschiebung läßt sich die einfache Regel (l?) angeben, mit (l7a) für Komposita (Rechtsverschiebung) und (l7b) für Phrasen (Linksverschiebung). Sie findet sich in ähnlicher Form bei Prince (1983) und Selkirk (l984b). Allerdings sind für das hier geschilderte Problem auch andere Lösungen denkbar, wie Kiparsky (1979) und Hayes (1984) zeigen. Hier ging es vor allem darum, Eigenschaften der rhythmischen Komponente mittels der Gitternotation darzustellen.
14
(17) a. x Xj X X X
x
xt
X X X
b.
xtx X X X
x1 X X X
Bedingung: x t ist nicht mit dem Hauptakzent der Domäne assoziiert. 2.3. Formale Eigenschaften der Betonungsrepräsentationen Die Betonungsrepräsentation in SPE ist der Versuch, suprasegmentale Phonologic als segmentale Phonologie zu behandeln. Indem ein (allerdings n-wertiges) Merkmal [betont] verwendet wird, wird der Akzent mit anderen segmentalen Merkmalen gleichgesetzt. Die verschiedenen Varianten einer nichtlinearen Phonologie, die in den vorangehenden Abschnitten dargestellt wurden, lehnen gerade diese Hypothese als ungenügend ab. Es ist allerdings zu fragen, worin der wirkliche Unterschied zwischen den verschiedenen Betonungsrepräsentationen besteht, und welche Notation durch empirische oder theoretische Argumente bestätigt wird. Auf sehr grundsätzliche Weise ist dieses Problem von Hoeksema (1985) diskutiert worden. Hoeksema zeigt zunächst, daß die Gitternotation gegenüber der klassischen numerischen Notation nichts substantiell Neues liefert. Jedes Gitter und alternierende Gitter) sind zu numerischen Notationsformen äquivalent. Die Äquivalenz wird durch zwei nur scheinbare Unterschiede verwischt. Erstens gehen in der SPE-Notation die Zahlenwerte hoch, wenn der Akzent sinkt: [3 betont] ist ein geringerer Akzentwert als [2 betont]. In der Gitternotation ist es umgekehrt; der Akzentwert ist, wie die Beispiele oben zeigen, direkt proportional zur Zahl der Gittereinträge in einer Position. Dies ist jedoch ein rein notationelles Problem. Ein Konversionsalgorithmus kann die Verhältnisse leicht umkehren. Das zweite Problem ist etwas substantieller. In der SPE-Notation werden Akzentmerkmale als Merkmale für Segmente notiert, in der Gitternotation dagegen als mit Silben assoziierte Merkmale. Dies ist ein wichtiger Unterschied, der auch in der Diskussion zum Deutschen (Kapitel II, 2.) eine Rolle spielen wird. Das Problem der Zuordnung der Akzentwerte zu phonologischen Kategorien (etwa Silben oder Segmenten) ist jedoch von der zu wählenden Repräsentationsform unabhängig. Die SPE-Merkmale können natürlich auch, wenn gewünscht, mit Silben verknüpft werden. 4 Es bleibt somit die Frage, welche Gründe Für die Gitternotation gegenüber der numerischen Notation sprechen. Der Vergleich der numerischen Notation mit der Notation der metrischen Bäume führt zu interessanteren Ergebnissen. Die gängige Version der metrischen Bäume enthält zwei Aussagen, die direkt aus dem Formalismus folgen: Erstens 4) Hoeksema (1985: 84) nimmt an, daß die Zuordnung der Akzentmerkmale zu Segmenten oder Silben irrelevant ist, weil die Merkmale immer durch eine 'Sickerkonvention' von einer Silbe an ein (vokalisches) Segment weitergegeben werden können. Eine entscheidende Frage in Bezug auf Akzentregeln ist jedoch, auf welchen Einheiten die Regeln operieren. Es ist wohl gerechtfertigt anzunehmen, daß die Realisierung des Akzents auf bestimmten Segmenten ein Problem der phonetischen Realisierung ist.
15
definiert die Notation neben den Akzentmustern eine Konstituentenstruktur, was für die Gitter- und Zahlennotation nicht gilt. Zweitens folgt aus der Definition der metrischen Bäume unmittelbar, daß jeder Baum ein ausgezeichnetes terminales Element besitzt, nämlich denjenigen terminalen Knoten, der nur von s-Knoten dominiert wird. Etwas Überlegung macht klar, daß jeder wohlgeformte metrische Baum genau ein solches Element besitzen muß. Es ist zwar auch im Falle der metrischen Bäume möglich, einen Algorithmus (oder sogar mehrere) anzugeben, der eine Abbildung von Bäumen in eine numerische Notation vollzieht. Hoeksema demonstriert sogar, daß eine Eins-zu-Eins-Abbildung existiert. Aber der wichtigere Punkt ist, daß die numerische Notation die beiden im letzten Abschnitt angegebenen Eigenschaften zwar ausdrücken kann, dies aber nur durch zusätzliche Festlegungen wirklich tut. Die Frage nach der adäquaten Akzentrepräsentation kann daher so umformuliert werden: Gibt es Gründe, anzunehmen, daß die Akzentrelationen Konstituenten definieren, und daß es notwendigerweise ein ausgezeichnetes terminales Element gibt? Hoeksema (1985) neigt zu einer negativen Antwort auf diese beiden Fragen und sieht daher keinen Vorteil auf Seiten der nichtlinearen Modelle. Vielleicht ist die Sachlage jedoch etwas anders zu beurteilen. Zunächst einmal scheint es eine der fundamentalen Eigenschaften des Akzents zu sein, daß er 'gipfelbildend' oder 'kulminativ' im Sinne von Trubetzkoy (1939: 180ff.) ist. Wenn wir etwas Sicheres über den Wortakzent in Sprachen wie dem Deutschen sagen können, dann ist es, daß es genau eine hauptakzentuierte Silbe in einer Domäne gibt. Wenn dies eine universale Eigenschaft von Akzentsystemen ist, ist ein Formalismus, der diese Eigenschaft direkt zum Ausdruck bringt und gar keine anderen Akzentdarstellungen erlaubt, von großem theoretischen Interesse. Ähnliche Überlegungen lassen sich über die zweite differentielle Eigenschaft metrischer Bäume anstellen, nämlich daß sie besondere Konstituentenstrukturen definiert. Die Frage ist erstens, ob die Konstituentenstrukturen benötigt werden, und zweitens, ob die Akzentrelationen wirklich nur innerhalb der Konstituenten sinnvoll definiert sind. Betrachten wir dazu den folgenden Baum:
S l
a
/\W
WS I I
bc
l
d
Wie Hoeksema feststellt, ist im Baum (18) zwischen b und c keine Akzentrelation definiert, für die Paare a-b, c-d, ab-cd dagegen wohl. Eine Feststellung über die Akzentrelationen für das Paar b-c ist erst nach einer Übersetzung des metrischen Baumes in eine numerische (oder Gitter-) Notation möglich. Hoeksema sieht (wie Prince (1983)) darin ein Argument gegen die Baumrepräsentation. Es ist jedoch
16
sehr unklar, ob zwischen Elementen in verschiedenen Subkonstituenten (hier zwischen b und c) wirklich eine sinnvolle Akzentrelation besteht. Die Annahme einer solchen führt gerade zu den in 2.1 demonstrierten Überspezifikationen in der Akzentabstufung. Pauschal kann man sagen, daß in einem metrischen Baum sehr viel weniger Akzentabstufungen definiert sind als in einer Gitter- oder Zahlen-Notation. Es ist aber nicht so, daß dies ein Argument für die letzteren Modelle darstellt. Ganz im Gegenteil läßt sich daraus ein Argument für die restriktivere Baum-Theorie gewinnen. Zur Untersuchung der Frage, ob die Konstituentenstruktur für die Akzentrelationen erforderlich ist, betrachten wir monomorphematische, aber mehrsilbige Wörter wie Abenteuer oder Propaganda. Eine numerische Notation würde keine Aussage darüber machen, ob die jeweils zweite Silbe enger mit der ersten oder mit der dritten Silbe verbunden ist. Die Intuition scheint aber zu sagen, daß es eine deutliche Gruppierung derart gibt, daß die zwei ersten Silben (ebenso wie die zwei letzten) eine prosodische Einheit bilden. Genau diese Einheiten werden durch den s/w-Baum, der für Abenteuer zu (18) identisch ist, definiert. Allerdings wäre es zur Stützung dieses Arguments günstig, klare phonologische Evidenz für die Gruppierung zu besitzen. Solche Evidenz ist mir, wenigstens für das Deutsche, nicht bekannt. Man beachte, daß die behauptete Gruppierung in den genannten Beispielen nicht durch eine morphologische Struktur induziert werden kann. Fazit dieser Überlegungen ist, daß die metrische Theorie eine beachtenswerte Theorie der Akzentverhältnisse ist, gerade weil sie bestimmte Voraussagen über mögliche und unmögliche Akzentmuster macht. Solche Voraussagen, die auf den ersten Blick auch nicht unplausibel sind, machen die Gitter- und die Zahlen-Modelle nicht. Die letzteren zwei sind außerdem noch in allen wesentlichen Eigenschaften äquivalent. Es ist daher eher eine Geschmacksfrage, ob man die eine oder andere Notation verwendet. 3 Es ist natürlich zu fragen, ob die ganze Debatte um die adäquate Akzentrepräsentation von Liberman (1975) bis zu Selkirk (l984b) als vorläufig letzte Verteidigung der Gitternotation wirklich nur ein Scheingefecht war. Zwei Punkte sind hier der Fairneß halber anzumerken: Für Autoren wie Liberman (1975) und Liberman & Prince (1977) war die Ausarbeitung eines nichtlinearen Beschreibungsformalismus von entscheidender Bedeutung. Gitter, die im übrigen ja mit Silben als terminalen Elementen assoziiert waren, demonstrierten augenfällig die Ablösung vom linearen SPE-Modell. Für Selkirk (l984b) kommt hinzu, daß das Gitter neben der Darstellung der Akzentverhältnisse weitere Funktionen übernimmt. So werden in ihrem Modell durch nicht mit Silben assoziierte Gitterpositionen (die sogenannten 'silent demi-beats') die Phrasierungen geschaffen, die sonst der metrische s) Halle (1987) argumentiert für eine Baum-plus-Gitter-Lösung und behauptet außerdem die Überlegenheit der Gitternotation gegenüber der numerischen.
17
Baum erzeugt. Ob dies allerdings eine adäquate Vorstellung ist, kann ebenfalls bezweifelt werden (siehe Wiese 1986d). Das Prinzip, daß Akzent immer relational ist, ist auch in älteren Modellen des Akzents nicht unbekannt. Moulton (1947) z.B. gibt sechs unterschiedliche Betonungsmuster Für die Segmentkette / 9 ainflus/ an, nämlich ein Fluß vs. Einfluß und verschiedene "überlaute" kontrastive Betonungen. Selbst in dieser möglicherweise übermäßig differenzierten Analyse gilt, daß niemals zwei gleiche Akzentmarkierungen auf den beiden Silben liegen; ein Akzent ist bei Moulton immer stärker als der andere. Dadurch reduziert sich übrigens die Zahl potentieller Akzentmuster von vorneherein, was auch unter Lernbarkeitsgesichtspunkten wünschenswert ist. Die metrische Phonologie kodiert, wie gezeigt, die Relationalität des Akzents schon in der Notation. Sie ist daher, wenn man den relationalen Charakter des Akzents akzeptiert, eine erstrebenswerte Notation. 2.4. Die Hierarchie prosodischer Konstituenten In den metrischen Strukturen der obigen Abschnitte wurden die Silbe und das Wort als Konstituenten in hierarchischen Strukturen verwendet. Damit wurde bereits implizit festgelegt, daß neben den Strukturen der Wortbildung (siehe (2)) und der Syntax auch eine prosodische Konstituentenstruktur existiert. Die wichtigsten in der Literatur verwendeten Einheiten dieses Systems sollen hier vorgestellt werden, da im folgenden gelegentlich darauf zurückgegriffen wird. Eine argumentative Begründung dafür, daß diese Einheiten neben denen der morphologisch-syntaktischen Hierarchie zu postulieren sind, kann hier nicht geliefert werden. Für einzelne Einheiten, etwa für das 'Phonologische Wort' im Gegensatz zum morphologischen Wort, scheint die Evidenz auch unklar zu sein (siehe allerdings Booij (1985), der auch für das Deutsche Argumente liefert). Neben der Silbe, die im folgenden Hauptteil der Arbeit ausführlich diskutiert wird, werden vor allem der Fuß, das Phonologische Wort, die Phonologische Phrase, die Intonationsphrase und die Äußerung als Kandidaten für prosodische Konstituenten genannt. Evidenz für den Fuß liefern Selkirk (1980), Hayes (1982) und Hamans (1985); Tür das Phonologische Wort siehe Nespor (1985) und Booij (1985); für die Phonologische Phrase Selkirk (1980) und Nespor & Vogel (1982); für die Intonationsphrase Nespor & Vogel (1982) und Selkirk (l984b); für die Äußerung schließlich ebenfalls Nespor & Vogel (1982). Ich illustriere die genannten Möglichkeiten hier anhand eines Satzes, der die in (19) illustrierte prosodische Struktur haben mag. Ein Unterschied zwischen der syntaktischen und der prosodischen Strukturierung besteht allerdings darin, daß es für die prosodische Struktur eine Reihe von Optionen gibt. Hier wird davon ausgegangen, daß der Satz in zwei Intonationsphrasen gegliedert wird. Eine Zerlegung in eine einzige und in mehrere Intonationsphrasen wäre ebenfalls möglich.
18
Äußerung
(19)
IPh
PhPh PhW
/ /
PhW /\ F F
F
l 0X\0
0
Ö
Ö
\
% a o
PhW PhW F
F
a
a
PhW
/ /\\ fa
Ö
0
\ \ l. 1 ,, I I J. l Wer ändern eine Grube gräbt, fällt selbst hinein \ \
\
Die in der nicht-linearen Phonologic bereitgestellten hierarchischen Kategorien bilden ein sehr umfangreiches System. Im einzelnen ist unklar, ob alle aufgeführten Kategorien erforderlich sind. Einige Kategorien lassen sich entweder sehr schwer voneinander unterscheiden (so z.B. die Phonologische Phrase und die Intonationsphrase) oder als von den syntaktisch-morphologischen Kategorien distinkt nachweisen. Letzteres gilt z.B. für das Phonologische Wort und die Äußerung. Festzustehen scheint jedenfalls, daß nicht alle aufgeführten Kategorien in jeder Sprache Realität besitzen. Verschiedene Sprachen können unterschiedliche Teilmengen der Kategorien instantiieren. Empirische Evidenz für die Existenz der 'höheren' prosodischen Einheiten ist also unsicher und rar, aber doch vorhanden. Neben der hier aus der Literatur (allerdings nicht aus dem Deutschen) erwähnten phonologischen Evidenz gibt es auch externe Evidenz aus Sprecherurteilen über die Untergliederung von Sätzen. Es ist oft bemerkt worden, daß Sprecher auf die Aufforderung, eine Äußerung in ihre Teile zu zerlegen, in manchen Fällen von der syntaktischen Struktur abweichende Urteile fällen. So tendieren nicht linguistisch vorgebildete Sprecher des Deutschen dazu, Sätze wie Peter verspricht zu kommen oder ET wohnt in Düsseldorf nach dem Verb aufzuspalten, und nicht nach dem Subjekt, wie es die gängigen syntaktischen Analysen verlangen würden. Ausgehend von einem Grammatikmodell, das nur syntaktische, aber keine anderen Strukturen kennt, können wir dem Sprachbenutzer nur 'falsche' Intuitionen über seine Sprache unterstellen, die möglicherweise von Performanzfaktoren wie Länge der Konstruktionen erklärt werden. Unter Berücksichtigung prosodischer Strukturen erweisen sich die Sprecherurteile jedoch als völlig regelgeleitet. Die von den Sprachbenutzern angegebenen Phrasierungen entsprechen den phonologischen Phrasen, die sich durch die Regeln der Überfuhrung von syntaktischen in prosodische Strukturen ergeben. Außerdem können wir plausiblerweise annehmen, daß die pro-
19
sodischen Strukturen dem Sprachbenutzer eher introspektiv zugänglich sind als die syntaktischen; vielleicht, da sie dichter an der phonetischen Oberfläche liegen. Für die Phonologische Phrase (oder die Intonationsphrase) wird in Kapitel II, 3 Evidenz aus dem Chinesischen aufgeführt. Es erweist sich, daß eine solche Phrase, die nicht mit einer syntaktischen Konstituente identifiziert werden kann, die Domäne für eine Tonveränderungsregel darstellt. Die Überlegungen in Kapitel II, 2.3.1 zu prosodischen Bedingungen bei Plural-Nomen des Deutschen liefern in ähnlicher Weise Evidenz für die Kategorie des Fußes. 2.5. Autosegmentale Phonologic Die metrische Phonologic erweitert die phonologische Repräsentation um hierarchisch angeordnete, mit phonologischen Etiketten versehene Strukturen. Dies ist jedoch nicht die einzige Möglichkeit, die Beschränkungen der segmentalen Repräsentation zu überwinden. McCarthy (1979, 1981, 1982) entwickelt am Beispiel der semitischen Sprachen (Arabisch und Hebräisch) eine neue Theorie der morphologisch-phonologischen Repräsentationen. McCarthy zeigt, daß bestimmte CV-Folgen unabhängig von den Vokalen und Konsonanten, mit denen sie assoziiert sind, fungieren. Es gibt im Arabischen Muster von Konsonant- ('C') und Vokalpositionen ('V') (wie z.B. CVCCVC oder CVVCVC), die für sich bestimmte morphologische Kategorien konstituieren und mit konsonantischen Stämmen (etwa ktb 'schreiben') und vokalischen Morphemen (etwa tu* 'Perfektiv Passiv' oder a 'Perfektiv Aktiv') assoziiert werden. Für solche Phänomene ist eine 'verkettende Morphologie' prinzipiell inadäquat. Es ergibt wenig Sinn, die CV-Muster und die Vokalketten, die sich eindeutig wie Morpheme verhalten, als Affixe zum Stamm zu betrachten. Unter der Annahme, daß Morpheme auf verschiedenen Schichten angeordnet sein können und durch Assoziation miteinander in Beziehung gesetzt werden, ergeben sich Wortrepräsentationen wie in (20). (20) a.
b.
k t b
/
\
CVCCVC
(kattab)
k t b
·/ \
C VV CV C
(kuutib)
V Die phonologischen Informationen auf den verschiedenen Schichten in (20) werden durch die sogenannten Assoziationslinien miteinander verbunden. Die Prinzipien für Assoziationslinien sind ebenfalls Gegenstand ausgiebiger Diskussionen (z.B. Goldsmith 1976, Halle & Vergnaud 1980). Unumstritten ist nur, daß sich Assoziationslinien nicht kreuzen können. Mit Repräsentationen wie in (20) ist die Möglichkeit eröffnet, daß erstens jede Kette phonologischer Merkmale Morphemstatus besitzen kann, und daß zweitens
20
eine Vereinigung von Morphemen nicht nur durch Verkettung hergestellt werden kann. Wie in (20) illustriert, können verschiedene Morpheme auch durch Assoziation zwischen verschiedenen Schichten miteinander verknüpft werden. Diese Tatsache, die besonders in der Semitistik und Afrikanistik niemals völlig ignoriert werden konnte, hatte jedoch in den formalen Modellen der Morphologie bis zu den Analysen McCarthys kaum eine Rolle gespielt. Inzwischen hat die assoziative oder nicht-verkettende Morphologie auch in der Analyse von Reduplikationsprozessen (siehe etwa Steriade (1982) für das Altgriechische, Suzuki (1982) für das Gotische), Vokalharmonie (van der Hülst & Smith 1985, Goldsmith 1985), Geheimsprachen und Sprachspielen (McCarthy 1982b, 1985; Yip 1982) und anderen Phänomenen ihre Möglichkeiten demonstriert. Autosegmentale, assoziative Repräsentationen werden in dieser Arbeit bei der Analyse des Tons und der Reduplikation im Chinesischen eine Rolle spielen, in gewissem Umfang auch in der Silbenphonologie. In diesem Teil der Einleitung wurden die segmentale, die metrische (in ihren verschiedenen Varianten) und die autosegmentale Repräsentation nebeneinandergestellt, die gleichsam in Konkurrenz zueinander stehen. Die gleichzeitige Existenz dieser drei Repräsentationsmodelle verdreifacht aber die Ausdrucksfähigkeit der Theorie, was einer Schwächung ihrer Aussagekraft gleichzusetzen ist. Eine weitere unerwünschte Konsequenz dieser Situation ist, daß es eine beträchtliche Überlappung zwischen den drei Repräsentationen gibt, viele Phänomene also in mehreren Repräsentationen darstellbar sind. Aus diesen Gründen ist es jetzt nicht ausschließlich die Aufgabe der phonologischen Theorie, weitere Argumente für reiche und zahlreiche Repräsentationen zu finden, sondern auch, nach Beschränkungen zu suchen (siehe auch Leben (1982) und Anderson (1982)). Auch zu dieser Aufgabe soll die vorliegende Arbeit einen Beitrag leisten, insbesondere im Bereich der silbischen Phonologic.
21
3. Die Phonologic in der Grammatik: Lexikalische Phonologic Das vorangegangene Kapitel sollte einige Fragen der phonologischen Repräsentation verdeutlichen. Unter dem derivationellen Aspekt stellt sich insbesondere die Frage, welchen Platz die Phonologic in der Grammatik einnimmt. Betrachten wir unter diesem Gesichtspunkt die bisher eingeführten Regeln, so können wir festhalten, daß die Regeln für den Wort- und Kompositaakzent als Eingabe die Wörter einschließlich ihrer morphologischen Struktur benötigen. Komplexe Komposita wie Rotweinpunschtrinker demonstrieren außerdem, daß zumindest ein mögliches Modell darin besteht, die Regeln von innen nach außen auf immer komplexeren Strukturen operieren zu lassen. Andere Regeln, etwa diejenigen, die für den Aufbau von prosodischen Strukturen wie die in (19) verantwortlich sind, verwenden die syntaktische Struktur als Eingabe. Eine dritte Gruppe von Regeln schließlich, etwa die Zuweisung von Aspiration zu Konsonanten im Deutschen oder Englischen ist völlig unabhängig von jeglicher morphologischen oder syntaktischen Information. Solche Regeln haben aber eine Affinität zu Regeln der phonetischen Realisierung. Mit diesen Überlegungen sind Fragen der Verteilung der Phonologie über die gesamte Grammatik angesprochen. Unter der in der modernen Grammatikforschung gängigen Annahme,6 daß die Grammatik modular organisiert ist, also aus einer Menge interagierender Subsysteme besteht, muß auch der Platz der Phonologie in diesem System bestimmt werden. Aus der oben angesprochenen Dreiteilung der phonologischen Regeln folgt nun möglicherweise, daß die Phonologie gar kein einheitliches Modul in der Grammatik ist. Wenn verschiedene Regeln auf völlig unterschiedliche Informationen bezugnehmen, dann bilden sie auch verschiedene Teilsysteme in der Grammatik. Dies gilt insbesondere dann, wenn man die Syntax (für Phrasen und Sätze) und das Lexikon (für Wortbildungen aller Art) als zwei grundsätzliche Komponenten der Grammatik ansieht. Die spezielle Theorie, die in dieser Arbeit zu den angeschnittenen Fragen herangezogen werden soll, ist die Lexikalische Phonologie, wie sie von Kiparsky (1982, 1985) und anderen in der Weiterentwicklung der generativen Phonologie entwickelt wurde. Die Lexikalische Phonologie (die ebensogut 'Lexikalische Morphologie' heißen könnte) beinhaltet mehrere Hypothesen. Erstens postuliert sie interne Module des Lexikons, geordnete Blöcke der Anwendung von morphologischen und phonologischen Regeln. Dadurch entstehen komplexe Interaktionen zwischen morphologischen und phonologischen Regeln. Die Morphologie und die Phonologie sind nicht, wie etwa im Strukturalismus, voneinander getrennt. Zweitens geht sie davon aus, daß gerade diese lexikalischen Regeln bestimmten Beschränkungen und Prinzipien folgen, so denen der strikten Zyklizität und der Strukturbewahrung. (Unter letzterem ist zu verstehen, daß lexikalische Regeln nichts 6) Zu allgemeinen Überlegungen zur Modularität der Grammatik siehe Chomsky (1980) und den Überblick in Wiese (1982).
22
generieren können, was nicht auch zugrundeliegend (d. h. distinktiv) im Lexikon existiert, also etwa keine neuen Segmenttypen.) Innerhalb des durch die Lexikalische Phonologic gesetzten Rahmens stellen sich viele Fragen nach der Verteilung der phonologischen Regeln über die Grammatik. Die hier vorgenommenen sehr allgemeinen Bemerkungen zur Lexikalischen Phonologic werden in Kapitel II, 2 durch die Analyse von Schwa im Deutschen und in II, 3 durch eine Analyse der Klitika konkretisiert. Auch die Wortakzentregeln des Deutschen werden in diesen Kapiteln einer bestimmten Stelle im Lexikon zugewiesen. (Abschnitt II, 2.3 enthält die Darstellung der Lexikalischen Phonologie des Deutschen.) Der Bereich der Klitika ist für die Arbeit insofern von Bedeutung, als hier die "Arbeitsteilung" von Syntax, Wortbildung und Phonologie studiert werden kann. Im Gegensatz zu zahlreichen Studien aus der Tradition der klassischen wie der generativen Grammatik glaube ich zeigen zu können, daß Klitisierung (mindestens im Deutschen) erheblich einfacher und angemessener zu beschreiben ist, wenn sie als ein einfacher phonologischer Prozeß, und nicht als eine prosodische oder syntaktische Restrukturierung dargestellt wird. Überhaupt wird das Verhältnis zwischen (Satz- und Wort-) Syntax einerseits und der Phonologie andererseits immer wieder zu reflektieren sein, da die prosodischen Repräsentationen nach der hier vertretenen Konzeption an der Nahtstelle zwischen Syntax und Phonologie aufgebaut werden.
23
4. Technische Hinweise Phonologic ist eine der Wissenschaften von der Form der Sprache. Formale Notationen zur Beschreibung dieser Form werden in dieser Arbeit auf ein Minimum reduziert, sind aber aus Gründen der Klarheit und Präzision unvermeidlich. Daher folgen hier zur Vermeidung von Mißverständnissen einige Hinweise zur Notation. Um die Lesbarkeit zu verbessern, werden Beispielausdrücke häufig in orthographischer und nicht in phonetischer Transkription ausgeführt. In diesen Fällen wird im laufenden Text Kursivschrift zur Kennzeichnung verwendet. Phonetische Transkriptionen entsprechen den IPA-Konventionen. Zur Orientierung des Lesers über die verwendete Notation enthält der Anhang in (l) eine Tabelle mit den verwendeten phonetischen Transkriptionszeichen Tür die Konsonanten, Die Notation für die Vokale wird im Anhang unter (2) dargestellt. Aus Gründen, die in I, 3.3 erläutert werden, betrachte ich die Caü-Laute des Deutschen als ein Paar von Vokalen, die sich nicht in Position oder Gespanntheit, sondern nur durch die Länge voneinander unterscheiden. Schließlich gibt es in modernen phonologischen Arbeiten ein Problem mit der Klammernotation: Da nicht nur die phonemische und die phonetische Ebene unterschieden werden, sondern ein reicheres System von Ableitungen und Repräsentationen, ist die Verwendung von mindestens drei Notationsebenen angebracht. Mit vertikalen Strichen ('l ) werden zugrundeliegende lexikalische Repräsentationen gekennzeichnet. Schrägstriche ('/ /') denotieren dagegen intermediäre Formen in der Ableitung, während Oberflächenformen durch eckige Klammern ('[ ]') markiert werden. In Fällen, wo sich die Zuordnung nicht ohne weiteres entscheiden läßt, werden die Schrägstriche als die gängige Notation für die phonemische Ebene verwendet (wenn nicht einfach die orthographische Form gewählt wird). Gemischte Notationen (Lie[bJe - HeipJlich) werden ebenfalls verwendet. Der Einfachheit halber verwende ich außerdem, auch in orthographisch wiedergegebenen Wörtern, das Pluszeichen '+' zur Kennzeichnung von Morphemgrenzen und den Trennungsstrich '-' zur Kennzeichnung von Silbengrenzen. Das Wort silbisch kann also folgendermaßen transkribiert werden: [zil-b+I/] oder sil-b+isch; das Wort Nationalität als [na:-ts+jo:-n+a:-l+i:-tE:t]. Letzteres Beispiel mag dem Leser einen Eindruck von der Komplexität der Phonologie-Morphologie-Interaktion vermitteln. Wie die folgenden Kapitel deutlich machen, haben diese Notationsmittel aber keinen theoretischen Stellenwert in der hier vertretenen Theorie. Daß diese Notation an ihre Grenzen stößt, stellt man schon dann fest, wenn Silben- und Morphemgrenzen zusammenfallen. Die Symbole der Transkription können dann nicht mehr linear verkettet werden, wie es in Transkriptionen generell der Fall ist. Stattdessen muß etwas wie '±' notiert werden. Die Konventionen der Phonologic und Phonetik des Chinesischen werden unter (3) im Anhang dargestellt. Die jetzt allgemein übliche Pinyin-Umschrift wird dort einer detaillierteren phonetischen Umschrift, die in Kapitel I, 2 verwendet wird, gegenübergestellt.
Teil I
Zur Theorie der Silbe
26
1. Vorüberlegungen zur Silbenphonologie Ziel dieses Teils ist die Herausarbeitung einer Theorie der Silbe, die sowohl die silbenbezogenen Aspekte der Phonologie des Chinesischen und des Deutschen erfassen kann wie auch universale Aspekte der Silbe berücksichtigt. Es wird ein Silbenmodell entwickelt, das sich auf die CV-Phonologie von Clements & Keyser (1983) stützt. Abschließend (in Kapitel 4) werden auch alternative Modelle (insbesondere die von Kiparsky (1979), Selkirk (l982a), Harris (1983) und Hyman (1985)) diskutiert. Der generelle Unterschied des Modells von Clements & Keyser zu den letztgenannten liegt darin, daß in der CV-Phonologie versucht wird, mit einem Minimum an hierarchischer Struktur für die Silbe auszukommen. Diese Reduzierung des Beschreibungsapparates scheint mir als Reaktion auf die in der prosodischen Phonologie vorgenommenen Erweiterungen außerordentlich wichtig zu sein. Wie in der Einleitung ausgeführt, ist es eine dringende Aufgabe der gegenwärtigen Theoriebildung, zu entscheiden, welche der denkbaren nichtlinearen Strukturen wirklich erforderlich sind und als Teil der Sprachfähigkeit angenommen werden können und müssen.1 Bevor in diesem Teil der Arbeit detailliert auf die Silbenphonologie des Chinesischen und Deutschen eingegangen wird, soll kurz begründet werden, warum eine Phonologie der Silbe nicht nur sinnvoll, sondern geradezu ein Desiderat der allgemeinen und der einzelsprachlichen Phonologie ist. Diese Begründung ist um so mehr erforderlich, als die Silbe nicht immer ein selbstverständliches Element der phonologischen Beschreibung war. Während in der strukturalistischen Phonologie die zentrale Rolle der Silbe teilweise erkannt wurde (siehe insbesondere Pike & Pike 1947), entwickelten Chomsky & Halle (SPE) und damit verwandte Arbeiten eine Theorie der phonologischen Repräsentation, in der die Silbe keinen systematischen Platz besaß. In der phonologischen Repräsentation dieser Theorie gibt es, wie bereits in der Einleitung hervorgehoben, linear geordnete Folgen von Segmenten mit darin eingestreuten Grenzsymbolen. Als Grenzsymbole werden in SPE vor allem Morphemgrenzen verwendet. Die Silbengrenze hätte hier auch möglicherweise einen Platz gehabt, wird aber nicht systematisch herangezogen. Wie aus den in diesem Kapitel verwendeten Studien und Theorien hervorgeht, wurde dieser Mangel der Theorie nach einer Phase der Rezeption von SPE erkannt und korrigiert. Richtungweisend waren in dieser Hinsicht besonders die Arbeiten von Vennemann (1972), Hooper (1972) und Kahn (1976). Sie demonstrieren überzeugend, daß die Phonologie auf den Begriff der Silbe nicht verzichten kann. Damit ist allerdings noch nicht geklärt, wie der Begriff der Silbe theoretisch zu fassen ist. So verwenden Vennemann (1972) und Hooper (1972) die Silbengrenze (notiert als '$') zwischen den Segmenten, während Kahn (1976) einen hierarchisch angeordneten Silbenknoten vorsieht. l) Zur Kritik an der Reichhaltigkeit neuerer Silbenmodelle siehe auch Vennemann (1986).
27
Wichtiger als die historische Aufarbeitung der Positionen und Argumente ist an diesem Punkt die Rekapitulierung der Gründe, warum eine Phonologic der Silbe von zentraler Bedeutung ist. Hier sollen vier Gründe genannt werden, die gleichsam die Rechtfertigung Tür die folgende intensive Beschäftigung mit der Silbe liefern. Wie in der Einleitung ausgeführt, nehme ich dabei keine vorgängige Definition der Silbe an, sondern versuche, den vortheoretisch zweifellos vorhandenen Begriff der Silbe durch die theoretisch-empirische Analyse zu präzisieren. 1.1. Die Silbe als Verhaltenseinheit Eine Reihe von Beobachtungen spricht dafür, daß die Silbe eine, vielleicht sogar die elementare, Verhaltenseinheit in der Rede ist. So ist es etwa für den "naiven" Sprachbenutzer ohne weiteres möglich, eine Äußerung in Sprechsilben zu zerlegen. Wird aber von ihm verlangt, eine Zerlegung in Wörter, Morpheme oder Segmente vorzunehmen, ist dies erst mit beträchtlicher analytischer Kompetenz und aufwendigem Üben möglich. Die Schwierigkeiten im Schriftspracherwerb bestätigen diese Beobachtung sozusagen täglich. Eine Reihe von Untersuchungen, z. B. von Liberman, Shankweiler, Fisher & Carter (1974) und von Morais (1985) haben erwiesen, daß Analphabeten tatsächlich mit der Segmentierung eines Wortes in Phoneme größere Schwierigkeiten haben als mit der Segmentierung in Silben.2 Diese Ergebnisse sind nicht notwendigerweise so zu interpretieren, daß die Laute keine Existenz in der Sprachverarbeitung besitzen, sondern nur so, daß Silben eher als Phoneme Gegenstand der bewußten Manipulation sein können. Wie aber auch Morris & Cutler (1985) betonen, müssen die Einheiten der bewußten Manipulation nicht gleichzeitig die Einheiten der unbewußten Verarbeitung sein. Eine Beobachtung, die in die gleiche Richtung weist, obwohl sie nicht aus dem Erwerb von Sprache, sondern aus der Sprachperformanz stammt, ist die folgende: Es ist jedem Sprecher möglich, synchron mit der Produktion von Silben eine Bewegung auszuführen, etwa mit dem Finger auf den Tisch zu klopfen. Der Leser möge aber einmal versuchen, das gleiche mit Lauten oder Morphemen zu tun. Es wird ihm spontan gar nicht, ansonsten höchstens mit großem Trainingsaufwand gelingen. (Leichter ist die Synchronisation von zwei verschiedenen Verhaltensmodi wieder auf der Ebene der betonten Silben; das mag darin begründet sein, daß die Akzente einen ähnlichen Status haben wie die Silben. Sie sind ebenfalls prosodisch-rhythmische Einheiten.) Vielleicht mehr als jede andere Einheit, die je in der Sprachwissenschaft postuliert wurde, ist also die Silbe eine hervorragend in das Sprachverhalten integrierte Kategorie. Psycholinguistische Untersuchungen bestätigen diese Auffassung. Einzelne psycholinguistische Modelle der Worterkennung (siehe etwa Savin & 2) Die Tatsache, daß Silbenschriften historisch eher und zahlreicher entstanden sind als an Phonemen orientierte Alphabetschriften, mag als ein weiterer Beleg dafür gelten, daß Silben dem Sprachbewußtsein eher zugänglich sind als Segmente.
28
Bever (1970) und Mehler, Dotnmergues, Frauenfelder & Segui (1981)) gehen sogar so weit, anzunehmen, daß die Silben eines Wortes vor den Phonemen erkannt werden, und daß ein Zugriff auf das mentale Lexikon primär über die erkannte Zahl der Silben erfolgt, bevor einzelne Phoneme erkannt werden. 1.2. Die Silbe als Einheit der Phonotaktik Stammen die bisher genannten Motivationen für eine stärkere Berücksichtigung der Silbe aus Eigenschaften des Sprechverhaltens, so sind für eine phonologische Theorie auch inhärent phonologische Gründe heranzuziehen. In diesem Sinne ist das in Abschnitt 1.1 Vorgebrachte eher als externe Evidenz für die Existenz der Silbe zu betrachten. Streng phonologisch gesehen ist die Silbe aber dann als real zu betrachten, wenn bestimmte Regularitäten ohne die Annahme ihrer Existenz gar nicht oder nur auf unplausible Weise ausgedrückt werden können. Es gibt mindestens die folgenden drei Bereiche, in denen eindeutige Evidenz Tür die Existenz (und auch zentrale Funktion) der Silbe vorhanden ist. Der erste Bereich ist die Phonotaktik, also die Domäne der kombinatorischen Beschränkungen über den Segmenten, der zweite die Frage der Regeldomänen, also der Kontextangaben für phonologische Regeln, der dritte der Bereich der Suprasegmentalia, insbesondere des Akzents. Die Silbe ist die natürliche, nach einer stärkeren Hypothese sogar die einzige, Domäne für die Beschreibung phonotaktischer Muster (siehe auch Selkirk 1982a, Vincent 1986). Damit ist gemeint, daß Vorkommensbeschränkungen zwischen benachbarten Segmenten grundsätzlich innerhalb der Silbe auszudrücken sind. So läßt sich z.B. am Chinesischen zeigen, daß die Distribution der Segmente im Silbenanlaut fast völlig verschieden ist von der Distribution im Silbenauslaut (siehe 2.1). Für das Deutsche wiederum gilt, daß sich auf der Morphemebene phonotaktische Regularitäten schwer beschreiben lassen. Dies gilt wenigstens dann, wenn man Flexionsmorpheme wie Itl, Istl oder Inl und Stämme wie la:tml und lze:gll mitberücksichtigt. Erstere erfüllen als isolierte Segmente Morphemstrukturbedingungen trivialerweise; letztere benötigen zur möglichen Silbifizierung die Einfügung eines Schwa (siehe Kapitel II, 2), sodaß Wörter wie Atem oder Segel entstehen. Erst dann besteht die Möglichkeit, ihre Phonotaktik im gleichen Rahmen wie die anderer Wörter zu beschreiben - allerdings auf der Ebene der Silbe.3 Die folgenden Kapitel 2 und 3 haben auch das Ziel, universale wie einzelsprachliche phonotaktische Beschränkungen zu formulieren. Zur Frage, ob es auch andere Domänen, etwa auf der Ebene des Wortes, für phonotaktische Beschränkungen gibt, läßt sich anführen, daß zwar an Wortgrenzen gelegentlich Segmentkombinationen vorkommen, die im Wortinnern nicht gestattet sind (und umgekehrt). Allerdings möchte ich die Hypothese vorschlagen, daß sich diese nichtsilbischen phonotaktischen Regularitäten auf 3) Die hier angenommene Position ist also, da6 Morphemstrukturbedingungen, wie sie Wurzel (1970, 1981) für das Deutsche angegeben hat. Überflüssig oder unmöglich sind.
29
das Vorkommen extrasilbischer Segmente (siehe Abschnitt 3.8) reduzieren lassen. Abgesehen von diesen Segmenten ist die Silbe die einzige Domäne für phonotaktische Beschränkungen. 1.3. Die Silbe als Regeldomäne Die Silbe funktioniert zweifellos als Kategorie in Regeln und allgemeiner in phonologischen Prozessen. Gerade diese Einsicht hat zur Revision des SPE-Modells geführt (siehe zur Kritik am SPE-Modell in dieser Hinsicht Vennemann (1972) und Kahn (1976)). Als Beispiel aus dem Deutschen kann die Auslautverhärtung herangezogen werden. Es gibt eine klare Regularität im Deutschen, nach der die Obstruenten (/p, b, t, d, s, z, k, g, f, v/) am Silbenende nur in der stimmlosen Form realisiert werden können. Paare wie LieCbJe vs. HefpJlich lassen aber zunächst auch die Möglichkeit offen, daß nicht die Silbengrenze, sondern andere Bedingungen (etwa folgender Vokal vs. folgender Konsonant, Morphemgrenze) den relevanten Kontext bereitstellen. Die entscheidenden Wörter in diesem Zusammenhang sind diejenigen, die einen Obstruenten nicht unmittelbar vor dem Morphemende aufweisen. In diesen Fällen können Morphem- und Silbengrenze auf verschiedene Positionen fallen. Man betrachte also Wörter wie Segler, Handlung, regnet oder edles. Es scheint den Tatsachen am ehesten gerecht zu werden, wenn man davon ausgeht, daß (mindestens) zwei Aussprachevarianten Tür solche Wörter existieren, nämlich [ze:-glK] und Eze:k-lK], [hant-lurj] und [han-dlurj], Cre:k-ngt] und [re:-gnat], [e:t-las] und [e:-dlas].4 Wie die Transkriptionen zeigen, hängt die Anwendung oder Nichtanwendung der Auslautverhärtung von der Position der Silbengrenze ab. Warum hier zwei Silbifizierungen möglich sind, muß das Silbenmodell für das Deutsche klären. In jedem Fall demonstrieren diese Wörter, daß auch Obstruenten innerhalb eines Morphems 'auslautverhärtet' werden können. Daher ist es nicht nötig, anzunehmen, daß eine der Bedingungen für die Auslautverhärtung eine folgende Morphemgrenze ist, wie Kloeke (1982) postuliert. Stattdessen ist die Angabe über die Silbengrenze sowohl notwendig wie hinreichend zur Beschreibung der Regularität. (Die genaue Formulierung der Regel wird in (59) vorgenommen.)
4) Weitere Aspekte der Daten, so die Realisierung von Schwa bzw. des silbischen [K] oder die Möglichkeit ambisilbischer Konsonanten, werden hier vernachlässigt. Diese Daten werden in Kapitel 35 wieder aufgegriffen. Das Duden-Aussprachewörterbuch und das Große Wörterbuch der deutschen Aussprache (Krech ua. 1982) scnreiben übrigens die Variante mit stimmhartem Cluster (also [handluij]) vor.
30
1.4. Die Silbe in der Prosodie Die Silbe ist eine elementare Einheit für Repräsentationen und Prozesse höherer Ordnung, insbesondere für den Akzent. Daß die Akzentregeln auf den Silben operieren, wurde in der Einleitung bei der Diskussion des Kompositaakzents stillschweigend vorausgesetzt. Hier soll daher für diese Annahme ein Argument nachgeliefert werden. In (l) wird eine Akzentregel dargestellt, die, wie die Kompositaregel (5) in der Einleitung, im segmentalen Modell formuliert ist. Sie findet sich bei Halle (1973: 455) in Anlehnung an ähnliche Formulierungen in SPE und ist dafür verantwortlich, daß in einer großen Zahl englischer Wörter die drittletzte Silbe den Wortakzent trägt, wenn die vorletzte leicht ist, sonst die vorletzte oder die letzte.5 'W steht hier für den sogenannten 'weak cluster', eine Kombination aus einem kurzen Vokal und nur einem Konsonanten. (1) V ->
stress]/ _
C0
(W) (
c o ) ]J NAV
Entsprechend einer SPE-Konvention muß die längste Expansion der Kontextbedingung zuerst angewandt werden. Daraus ergeben sich vier mögliche Anwendungen der Regel, die in (2) an verschiedenen Wörtern illustriert werden. NAV
Wisconsin c.
_
Cn W ]NAV
edit d
-
— co ^NAV Berlin
5) Bei Halle (1973) hat die Regel eine andere, umfassendere Funktion als in SPE. Die Regelformulierungen sind aber identisch.
31
Allerdings enthält die Regel (l) nicht den oben verwendeten Begriff der Silbe, sondern verwendet stattdessen Segmente und Variablen über Segmentketten. Genaugenommen faßt die Regel nicht vier Unterfälle zusammen, sondern erheblich mehr, da auch C0 ('null oder mehr Konsonanten') eine Variable ist. Gerade diese verschiedenen Fälle müssen aber in der silbischen Formulierung der Regel gar nicht erwähnt werden. Eine solche Formulierung könnte, unter Vorwegnahme einiger Ergebnisse des folgenden Kapitels, folgendermaßen aussehen: Kern\ (3) Silbe -> Silbe / _( v | ) v( ] } ] NA>V
v ' [ r
Die Regel besagt, daß einer Silbe ein 's' (= stark) zugewiesen wird, wenn ein nicht-verzweigender Kern (siehe 3.3) und ein kurzer Vokal (d.h. ein nur mit einer V-Position assoziiertes Segment) folgen. Entscheidend ist, daß diese Regel auf alle unintuitiven Variablen, die außerdem keine Konstituenten sind, verzichten kann. Die Regel setzt allerdings voraus, daß phonologische Information auf verschiedenen Schichten oder Projektionen angeordnet ist. So werden etwa in (3) die Konsonantenpositionen und die damit verbundenen Merkmale ignoriert. Ein weiteres Problem der Regel (l) wird durch die silbische Formulierung in (3) vermieden. Wie bereits Chomsky & Halle beobachten, gibt es eine Reihe von Konsonantenclustern, die durch die Variable W nicht richtig erfaßt werden. So finden sich zwar Wisconsin, Massachusetts mit dem Akzent auf der vorletzten Silbe, da entweder zwei Konsonanten ([ns]) oder ein langer Vokal (tu:]) vorhanden sind. Damit kontrastieren America, Canada und Madison, wo nur ein kurzer Vokal plus einem folgenden Konsonanten (also der "schwache Cluster" W, siehe (2a)) in der vorletzten Silbe existiert. Es gibt aber Wörter mit Konsonantenclustern wie /pl, br, tr, kw/ (also mit einem an sich "starken Cluster"), die exzeptionellerweise den Akzent auf der drittletzten Silbe tragen: algebra, albatros. Im SPE-System können diese Cluster (/br/, /tr/) durch ein diakritisches Merkmal einfach unter die Variable W subsumiert werden. Diese Lösung muß aber erstens ein solches, nicht weiter begründbares Merkmal verwenden, zweitens verkennt sie die Regularität hinter den Fakten: Wörter mit /pl, tr, kw, br/ verhalten sich wie die Wörter mit dem sogenannten schwachen Cluster, da diese Konsonantenverbindungen einen Silbenanlaut bilden. Die Silbentrennung an der entscheidenden Stelle lautet für Wiscon-sin anders als für alge-bra. Die Generalisierung ist, daß vorletzte Silben nur akzentuiert werden können, wenn sie aus mehr als einem kurzen Vokal bestehen (also aus
32
Langvokal, Diphthong oder Kurzvokal plus Konsonant). 6 Diese Generalisierung ist im SPE-System nicht darstellbar. Statt dessen muß die scheinbar arbiträre Klasse W berücksichtigt werden. Es sei betont, daß Regel (3) keinesfalls als die adäquate Regel für den Wortakzent im Englischen angesehen werden soll. Die hier angestellten Betrachtungen sollen weniger ein adäquates Modell des Wortakzents liefern als vielmehr demonstrieren, daß ein solches Modell auf den Begriff der Silbe nicht verzichten sollte. Auch die Behandlung prosodischer Phänomene oberhalb der Silbenebene verlangt ein Modell der Silbe. Ein solches Modell soll in den folgenden Kapiteln entwickelt und schließlich mit alternativen Vorschlägen verglichen werden.
6) Wie Kahn (1976: 85ff.) betont, haben gerade die Akzentregeln des Englischen viele Ausnahmen. So sollte nach Regel (l)/(3) character auf der vorletzten Silbe betont werden, Mississippi und vanilla dagegen auf der vorvorletzten. Die Möglichkeit der Ausnahmen spricht jedoch nicht dagegen, daß hier Regeln vorliegen.
33
2. CV-Phonologie und die Silben des Chinesischen 2.1. Einleitung Ziel dieses Kapitels ist es, am Beispiel des Chinesischen erstens ein adäquates Silbenmodell zu entwickeln und dabei zweitens zu erkunden, welche der vorgeschlagenen Erweiterungen der phonologischen Struktur über die lineare Repräsentation hinaus wirklich erforderlich sind. Es wird eine kleine Menge von Kategorien aufgeführt, die autosegmental zu repräsentieren sind, vor allem die Silbe und die CVElemente. Für manche der weitergehenden Vorschläge aus der Literatur findet sich dagegen keine Evidenz in den chinesischen Daten. Wie auch in Leben (1982) und Clements & Keyser (1983) dargelegt, machen die Grammatiken natürlicher Sprachen offenbar nicht von allen denkbaren phonologischen Kategorien Gebrauch. Unter "Chinesisch" verstehe ich im folgenden das Standardchinesische, auch "Mandarinchinesisch" oder "putonghua" (allgemeine, normale Sprache) genannt. Es ist die normativ herausgehobene Variante der vielfältigen chinesischen Dialekte (oder besser Sprachen), die auf dem Dialekt von Peking beruht. Die wesentlichen Daten zur chinesischen Phonologic stammen aus der Grammatik von Chao (1968), einem Werk, das einen immensen Einfluß auf die weitere Diskussion ausgeübt hat. Außerdem stütze ich mich im folgenden auf Cheng (1973), einer dem SPE-Modell verpflichteten Arbeit, auf Zhong (1980) und Norman (1988), zwei beschreibenden Studien, und auf Yip (1980, 1982), die die autosegmentale Theorie auf die Beschreibung der Töne des Chinesischen anwandte (siehe Kapitel II, l). Das Chinesische ist, was die Silbenstruktur betrifft, eine der einfacheren (wenn auch nicht maximal einfachen) Sprachen. Bestimmte Grundkonzepte lassen sich daher an dieser Sprache besonders einfach illustrieren. Im Deutschen etwa sind die Verhältnisse verwickelter und erfordern einige zusätzliche Annahmen. Allerdings sind, wie in Kapitel 3 gezeigt wird, die Modifikationen für eine Sprache wie das Deutsche minimal. Diese Tatsache spricht für die Universalität der postulierten phonologischen Konzepte. Die Bedeutung der Silbe als phonologische Grundkategorie der chinesischen Sprache wird auch durch die Art der Übernahme von Lehnwörtern in das Chinesische klar: Übernommene Namen werden grundsätzlich in eine Form gebracht, die nur solche Silben zuläßt, die im Chinesischen bereits existieren: Aus Nixon wird (z. B.) Cni-kir-sui)], aus Schmidt [sz-mi-fir] und aus Strauß Csz-tr-lau-sz]. 1 Andere Formen der Entlehnung dieser Namen sind möglich; alle bestehen aber ausschließlich aus existierenden Silben des Chinesischen. Die Beschreibungen des phonologischen Systems des Chinesischen beruhen schon traditionell auf einer deutlich silbenbezogenen Unterscheidung: der zwischen dem Anlaut ('initial') und dem Auslaut ('final') der Silbe; siehe etwa Cheng (1966), Chao (1968: 18), Kaden (1979: 527) und Norman (1988) auch zu klassischen l) Ich verweise noch einmal auf (3) im Anhang, wo die hier verwendete Notation und die Pinyin-Umschrift nebeneinandergestellt werden.
34
Beschreibungen älterer Sprachstufen des Chinesischen. Wie in Abbildung (4) zu sehen ist, läßt sich diese gängige Unterscheidung in ein hierarchisches Modell der Silbe einbauen. Wenn man die nichtsilbischen Vokale (d.h. alle Di- und Triphthonge) einmal (bis zum Abschnitt 2.4.3) außerachtläßt, ergibt sich folgende Struktur der chinesischen Silbe: (4)
Anlaut
Auslaut
laue Konsonan(alle Ronsonan- (alle / f r ·, \ ten außer [ ]) Vokafe) ({[ ]}) Anlaut und Auslaut sind darin Konstituenten eines Silbenknotens (notiert als griech. ö). Die Differenzierung zwischen Anlaut und Auslaut ist durch die fast vollständig getrennten Segmentinventare begründet: Die Phonotaktik des Chinesischen ist kaum sinnvoll zu beschreiben, solange nicht die Positionen in der Silbe unterschieden werden können. Gleichzeitig werden in der Struktur (4) Quantitätsangaben für die Silbe vorgenommen; denn (4) spezifiziert, wie die Silben des Chinesischen aufgebaut sind. Anlaut und vokalischer Kern enthalten nur je ein Segment; nach dem Vokal kann nur noch Cn] oder [ ] folgen. Nur [n] kann sowohl prä- wie postvokalisch erscheinen, z.B. in dem Wort Cnanl 'schwierig'. Das Schema (4) verwende ich als Ausgangspunkt für die folgende Analyse in heuristischer Funktion. Nicht alle seine Bestandteile werden dabei als Elemente in das Modell übernommen werden. (4) ist eine reduzierte Form des traditionellen Silbenmodells für das Chinesische, das in (2l) dargestellt wird. 2.2. Das System der Anlaut- und Auslautkonsonanten Tabelle (5) illustriert das Anlautsystem des Chinesischen in IPA-Transkription. (Die in China und der linguistischen Literatur inzwischen übliche Pinyin-Umschrift ist zwar weitgehend eine phonologische Umschrift, verdeckt aber gerade einige Details, auf die es hier ankommt.) (5a) Führt die klassischen phonologischen Merkmale zur Klassifikation der Laute auf und stammt im wesentlichen von Chao (1968: 22). (5b) ist eine Reanalyse mit artikulatorischen Merkmalen, die mir die Natur der chinesischen Segmente besser zu erfassen scheinen.
35 (5) a.
Labiale Dentale Dentale Sibilanten Retro fl exe Präpalatale Gutturale
b.
Unaspirierte Aspirierte Nasale Frikative Stimmhafte Plosive Kontinuanten Plosive m f P Ph 1 th n t ts tsh s tsh tß h kh
ts tß k
p b t
8
r/z
e (K)
( )
d k g f s s . z 0 x K m n r | l
konsonant. gespannt kontinuierl. labial hoch koronal hinten
+ - + + - - -- -
+ - - - + + + - -
+ - + - - + - - + + ---+ + --
+ + + + - + + + +
+ + + +
+ + + -
+ + + +
- - - - + --+ - + --_-+ - - + - + + -+ -
Beide Tabellen erfordern einige Anmerkungen. Generell gilt, daß die Obstruenten des Chinesischen nicht in stimmhafte und stimmlose Konsonanten zerfallen. In (Sa) wird angenommen, daß die Konsonanten stattdessen in aspirierte und nichtaspirierte Phoneme aufgeteilt sind. Nur im Falle der Paare /s/ - /z/ und / / - /K/ findet sich auch eine Stimmhaftigkeitsopposition. Wegen des Verlustes an Friktion ist das stimmhafte Element in diesen Paaren von einem r-Laut nicht zu unterscheiden. Außerdem existiert ein relativ reiches System an Affrikaten, deren Klassifikation in (5a) ungenügend ist ([ts.], z.B., ist kein retroflexer Verschlußlaut). Da alle Affrikaten mit /t/ anlauten, zwei Segmentbündel zu ihrer Beschreibung erforderlich sind und die frikativen Gegenstücke zum zweiten Teil auch unabhängig existieren, wird in (5b) auf die gesonderte Aufzählung der Affrikaten verzichtet. Die adäquate Behandlung dieser Affrikaten ist Gegenstand des nächsten Abschnitts, 2.3. In den Tabellen sind / / und /K/ ebenfalls aufgeführt, obwohl sie nicht als Anlaut erscheinen können. Zur Phonetik und Phonologie des "gutturalen" /BY im Auslaut siehe Abschnitt 2.7. Beim silbeninitialen [r] - t z] verwende ich im folgenden die Notation [z.]. Für [K] und [r/z] ließe sich möglicherweise eine Sonorisierungsregel annehmen, deren Output wiederum stimmhaft wird. Tabelle (5b) ist auf phonologische Klassifizierung, nicht auf phonetische Spezifizierung hin ausgerichtet; daher sind nur soviele der SPE-Merkmale aufgerührt, wie zur Darstellung der distinktiven Oppositionen und der noch zu diskutierenden
36
phonologischen Prozesse erforderlich sind.2 Selbst das Merkmal [stimmhaft] ist nicht erforderlich, da sein Wert mit dem des Merkmals [sonorant] übereinstimmt und sich durch die folgende Redundanzregel ergibt: [a sonorant] ·* [a stimmhaft]. Anstelle des Merkmals [aspiriert] schlage ich in (5b) [gespannt] als distinktives Merkmal innerhalb der Obstruenten vor. Dies hat unter anderem den Vorteil, daß nicht eine Aspiration der Frikative und frikativen Teile in den Affrikaten ([s] vs. [sh]) angenommen werden muß. In der chinesischen Phonologie wird neben den aufgezählten Konsonanten auch ein "Nullanlaut" angenommen, da viele Silben auch ohne anlautenden Konsonanten erscheinen. Eine solche Null-Entität hat jedoch zu Recht eine zweifelhafte Existenz. Was, z.B., sollen die phonologischen Merkmale eines solchen Konsonanten sein? Mir scheint daher eine Interpretation angemessener zu sein, die den Anlaut in Abb. (4) als prosodische Konstituente versteht und diese als optional ausweist. Dadurch wird eine Lösung vermieden, die Nullanlaute, also Segmente ohne phonetischen Gehalt, postulieren muß (siehe zu dem Problem auch Kaden 1979). Die gleiche Optionalität besitzen im übrigen die Auslautkonsonanten, so daß als obligatorischer Bestandteil der Silbe der vokalische Kern anzusehen ist. Eine verbesserte Version des Schemas (4), die auch die klassifikatorischen Merkmale aus (5b) heranzieht, könnte daher so aussehen: (6)
(Anlaut) [+ konsonant.] [- konsonant.] f [% Consonant. + nasal - labial Die Merkmalsspezifizierungen definieren eindeutig, welche Klassen von Segmenten in den terminalen Knoten der Struktur vorkommen können. Man beachte allerdings, daß [labial] in (5b) redundant ist. Es wurde dort nur eingeführt, um eine einfache Darstellung der Klasse /n, / vs. /m/ zu erreichen. Falls man auf [labial] verzichten will, benötigt man in (6) eine Disjunktion wie {[+ hoch], [+ hinten]}. Da aber, wie in der Einleitung betont, eine adäquate Merkmalstheorie nicht Gegenstand dieser Arbeit ist, befasse ich mich mit Fragen dieser Art nicht weiter. 2) Ein weiteres Kriterium für die Wahl der Merkmale in (5b) ergibt sich aus dem Versuch, Merkmale zu wählen, die fiir Konsonanten wie auch für Vokale Geltung haben. In (25) wird diese Identität der Merkmale gewinnbringend herangezogen. Eine eingehendere Studie zur segmentalen Phonologie des Chinesischen und zu den adäquaten Merkmalsstrukturen findet sich in Wiese (i. Vorb.).
37
Es ist zu betonen, daß auch das Schema (6) in der weiteren Diskussion modifiziert und nur zu einem geringen Teil beibehalten wird. Im folgenden soll eine Reanalyse der vorgestellten Daten im theoretischen Rahmen der CV-Phonologie vorgenommen werden. Die CV-Phonologie hat zwei entscheidende und recht unterschiedliche Datenquellen zu ihrer Motivierung. Die erste Evidenz stammt aus McCarthys (1979, 1981, 1982) Arbeiten zur Morphologie und Phonologic des Arabischen, die bereits in der Einleitung, Kapitel 2.5, vorgestellt wurden. Eine andere Art von Evidenz für CV-Elemente als separate Kategorien der phonologischen Repräsentation stammt aus Studien zur Silbenstruktur, insbesondere von Steriade (1982) und Clements & Keyser (1983). Wie hier auch für das Chinesische gezeigt werden soll, ergeben sich viele Regularitäten der Silbenstruktur, wenn eine CV-Schicht postuliert wird. Im folgenden werden die Affrikaten (2.3), die silbischen Konsonanten (2.4) und die nichtsilbischen Vokale (2.5) analysiert und dabei Argumente für ein CV-Modell der Silbe im Chinesischen gewonnen. Auch C und V sind keine Atome der Repräsentation, sondern durch elementare Merkmale definierte Kategorien. C soll im hier zu entwickelnden Modell als das Merkmalsbündel (7a) interpretiert werden, V als (7b). Diese Auffassung der C- und V-Elemente ist nicht unumstritten. So verwendet McCarthy anstelle von [silbisch] das Merkmal [vokalisch]. Abschnitt 2.4 liefert aber Argumente für die Behandlung der Silbigkeit mittels der hier vorgenommenen Interpretation von V und C. Das Merkmal [segmental] wird in phonologischen Studien häufig nicht explizit verwendet. Streng genommen ist es aber auch in Modellen der klassischen Phonologic erforderlich, z.B. um Segmente ([+ segmental]) von Grenzsymbolen ([- segmental]) zu unterscheiden. Im hier vorgelegten Modell könnte z.B. die Kategorie der Silbe den Wert [- segmental] besitzen.3 Neben den Kategorien C und V findet später (siehe besonders Abschnitt 3.6) auch noch die Kategorie X (7c) Verwendung, für die das Merkmal [silbisch] nicht definiert ist.
(7)
a. C
[+- segmental~| silbisch J
**· ^:
* se8mental |_+ silbisch J
c.
:
+ segmental~]
2.3. Das Affrikatenproblem und die CV-Schicht Das Chinesische besitzt ein Affrikatensystem mit den in (8) dargestellten sechs verschiedenen Affrikaten, die sich weitgehend als Kombinationen aus Segmenten in (5b) ergeben. Diese Lautverbindungen sind typische Kandidaten für die klassische Frage, ob sie als ein Phonem (monophonemisch) oder als Verbindung zweier Phoneme (biphonemisch) zu werten sind. Soweit ich sehe, ist für die Affrikaten im Chinesischen niemals eine biphonemische Analyse vorgeschlagen worden. Der 3) Die Frage, ob phonologische Kategorien wie die Silbe oder etwa die Intonationsphrase als Bündel von Merkmalen zu sehen sind, ist meines Wissens noch nicht ernsthaft diskutiert worden. Wenn man diese Annahme nicht macht, kann man natürlich auch C und V als elementare, unanalysierbare Einheiten auffassen.
38
Grund liegt darin, daß in der Silbenstruktur die Affrikaten immer nur zu Einzelphonemen in Opposition stehen, da das Chinesische, wie oben gezeigt, keine Konsonantencluster im Anlaut erlaubt. Die Annahme biphone mis ehe r Affrikaten würde diese Generalisierung aufheben. (8) alveolar: retroflex: präpalatal:
gesp. ts ts tg
ungesp. dz OO d? dz
Es bleibt jedoch die Tatsache, daß die chinesischen Affrikaten erstens wie die in anderen Sprachen phonetisch aus zwei distinkten Lauten bestehen, und daß diese zwei Laute (der Verschlußlaut und der Frikativ) teilweise eine unabhängige Existenz als Phoneme der Sprache besitzen. Als weiteres Argument gegen eine simple monophonemische Analyse ist noch anzumerken, daß die Standardnotation für Affrikaten in der Phonologie inkonsistent oder ungenügend ist. Im Rahmen der Merkmalsnotation erfolgt die Spezifizierung für Affrikaten in verschiedenen unbefriedigenden Varianten. Eine Notation wie in (9a) mit sich widersprechenden und nicht linear geordneten Angaben ist inkonsistent. (9a) charakterisiert /ts/ ebensogut (oder schlecht) wie /st/. Zur Lösung dieses Problems werden in (9b) die Merkmale in eine lineare Ordnung gebracht. Dies sprengt aber den Rahmen der segmentalen Phonologie insofern, als für die Merkmalsnotation die Konvention gilt, daß die Merkmale in einem Merkmalsbündel eine nicht geordnete Menge bilden. Die dritte Möglichkeit schließlich, (9c), ist die Einführung eines besonderen Merkmals (z.B. [delayed release]) speziell für die Behandlung der Affrikaten. Diese Lösung wurde in SPE gewählt. Abgesehen davon, daß hier ein zusätzliches Merkmal erforderlich ist, das man auch gleich l> Affrikate] nennen könnte, ergeben sich Probleme dadurch, daß die Segmente in der Affrikate nicht streng homorganisch sind (siehe die Daten in (8) und unten). (9)
a.
+ dauernd"! - dauernd
b.
]
- dauernd, + dauernd
c
·
+ delayed release") - dauernd
Chao (1934) hat bereits darauf aufmerksam gemacht, daß es nicht generell eine Eins-zu-Eins-Beziehung zwischen Phonemen und phonetischen Lauten gibt. Einem Phonem kann eine Sequenz von Lauten entsprechen. Als Beispiele dafür erwähnt Chao Affrikaten wie [ ], aspirierte Verschlußlaute wie [p h ] und Diphthonge wie /au/, dem phonetisch eher [aoou] (nach Chao's Ansicht, in Wirklichkeit wohl ein Kontinuum) entspricht. Die CV-Phonologie als eine nichtlineare Theorie ermög-
39
licht für die Behandlung der Affrikaten eine einfachere und elegantere Lösung: Affrikaten nehmen die Position eines C-Elements ein, bestehen aber auf einer anderen Ebene aus zwei Merkmalsbündeln. (10) illustriert diese Lösung und gibt die formale Notation (zwei Merkmalsbündel mit einer C-Position assoziiert) dafür an.
(10)
C t
C s
d o
z
Diese Repräsentation ermöglicht es auch, entweder auf der CV-Schicht oder auf der Schicht der segmentalen Information auf die Affrikaten zuzugreifen. Der widersprüchlichen Evidenz für den mono- oder biphonemischen Status der Affrikaten wird dadurch Rechnung getragen. Eine Affrikate kann sich phonotaktisch gesehen wie ein monophonemisches Segment verhalten, andererseits ist z.B. in Assimilationsprozessen die Möglichkeit gegeben, daß die beiden Merkmalsbündel getrennt fungieren. Es sind auch keinerlei problematische Annahmen über die Merkmalsrepräsentation erforderlich. Aus dem Chinesischen läßt sich ein weiteres Argument gegen die Standardlösung, die auch in Tabelle (5a) eingegangen ist, gewinnen. Aus (5a) und aus (?) kann man entnehmen, daß /t/ mit drei verschiedenen Frikativen, nämlich /s/, /s/ und /p/ zu einer Affrikate verbunden werden kann. (Die übrigen drei Affrikaten ergeben sich durch den Kontrast in Aspiration oder (hier) Gespanntheit, wobei sich die Gespanntheit offenbar auf beide Segmente erstreckt. Diese Tatsache spricht möglicherweise dafür, auch die Gespanntheit autosegmental, d.h. auf einer eigenen Schicht, zu repräsentieren.) Da nun /s/, /s/ und /»/ offensichtlich durch unterschiedliche Artikulationsstellen zu charakterisieren sind, gibt es für die Beschreibung der Affrikaten als Ganzes nur zwei Möglichkeiten: Entweder liegen - je nach Ort des folgenden Frikativs - unterschiedliche /t/-Laute vor, oder die Affrikaten bestehen wenigstens in zwei der drei Fälle aus Segmenten, die hinsichtlich der Artikulationsstelle nicht identisch sind. Für die erste Alternative spricht wenig, da in der Literatur /t/ einzig als dentaler bzw. alveolarer Laut beschrieben wird. Es ist unwahrscheinlich, daß es daneben noch ein retroflexes und ein palatales /t/ gibt.4
4) FN 4 siehe nächste Seite.
40
Wenn also die zweite Alternative gilt, müssen die beiden Teile der Affrikaten separat in Merkmalen charakterisiert werden. Auf der segmentalen Ebene liegen also gerade im Chinesischen eindeutig zwei Laute vor. Daß diese Laute sich dennoch in der Phonotaktik wie ein Element verhalten, wird auf der CV-Ebene ausgedrückt. Die zwei Merkmalsbündel sind mit einer C-Position assoziiert, wie in (10) dargestellt. Die hier und in 3.2 für das Deutsche untersuchten Affrikaten sind nur eine Variante der sogenannten komplexen Segmente. Andere Beispiele dafür sind prä- und postnasalierte Verschlußlaute und kurze Diphthonge (siehe (40) und (4l) in Kapitel 3.3.1). Die Repräsentation komplexer Segmente (siehe auch Anderson (1976) und Ewen (1982)) scheint mir einer der klarsten Argumente für eine nichtlineare Repräsentation zu liefern. Verwenden wir die durch das Verhalten der Affrikaten in einem ersten Schritt gerechtfertigten C- und V-Elemente im Silbenschema (6), so ergibt sich eine Struktur wie (ll). C und V bilden Elemente ('Autosegmente', da sie sich selbst wie Segmente verhalten) auf einer eigenen phonologischen Schicht. Sie sind entweder mit einem einzelnen Segment assoziiert, oder, in markierten Fällen wie den Affrikaten, auch mit mehreren Segmenten. (H)
Anlaut
Auslaut
A
V C 4) Hier stellt sich dringend die Frage nach der adäquaten Merkmalsspezifikation der Affrikaten. Es wird allgemein angenommen, daß Affrikaten sich nur hinsichtlich der Artikulationsart unterscheiden, aber den gleichen Artikulationsort aufweisen. Diese Annahme führt zu einem Modell, wonach den Affrikaten eine Merkmalsspezifikation zuzuordnen ist. die die teilweise identischen Merkmale nur einmal auffuhrt (siehe etwa Steriade 1982). Wenn man davon ausgeht, daß sich /t/ und /s/ nur durch die Merkmale [- dauernd] vs. [· dauernd] voneinander unterscheiden, ergibt sich für /is/ die folgende Repräsentation, die eine weitere Variante des nichtlinearen Ansatzes illustriert: [- dauernd]
C· dauernd]
\/ C -
l
konson. koronal sonorant labial hinten
Die chinesischen Affrikaten demonstrieren m.E., daß dies zumindest eine vereinfachte Vorstellung ist, die noch modifiziert werden muß. Man vergleiche auch /ts/ und /tJY im Deutschen, siehe 3.2.
41
In Tabelle (5b) und im Silbenschema (6) sind die Laute mit dem Merkmal [± konsonantisch] versehen. Aufgrund der soeben vorgeschlagenen Analyse für die Affrikaten bietet es sich nun scheinbar an, diese Merkmalsangaben durch die Markierungen C und V zu ersetzen: C entspräche O konsonantisch], V [- konsonantisch]. C und V sollen aber einzig abstrakte Positionen für Segmente innerhalb der Silbe anbieten. Die Merkmale [konsonantisch] (ebenso [vokalisch]) sind dagegen Oberklassenmerkmale, mit denen möglicherweise die Segmente selbst spezifiziert sind. An dieser Stelle muß auf die Frage der Oberklassenmerkmale eingegangen werden. Jakobson & Halle (1956) haben bereits darauf hingewiesen, daß die Anoder Abwesenheit von Merkmalen wie [silbisch] zur Definition eines Segments nichts beiträgt; mit anderen Worten, ein /!/ ist ein /!/ unabhängig davon, ob es als [+ silbisch] oder [- silbisch] spezifiziert ist. Die phonetische Interpretation des Merkmals ist ebenfalls schwierig oder unmöglich. Mit dem Oberklassenmerkmal [konsonantisch] verhält es sich anders: Es ist artikulatorisch spezifizierbar, und zwar als Vorliegen einer Hemmung des Luftstroms im Artikulationsraum (siehe Ladefoged 1982: 252). Ob [konsonantisch] und [vokalisch] inhärente Merkmale im Sinne von Jakobson & Halle sind, ist dagegen nicht ganz klar. Gerade aufgrund ihrer Funktion als Oberklassenmerkmale dienen sie der Einteilung der Laute in größere Klassen, aber nicht der distinktiven Unterscheidung individueller Laute. Ich lasse daher offen, ob auch diese Oberklassenmerkmale überflüssig sind, wie Selkirk (l984a) vorschlägt. Unstrittiger ist jedenfalls die Eliminierung des Merkmals [silbisch] aus der segmentalen Repräsentation. In neueren phonologischen Theorien wie der CV-Phonologie wird der Silbigkeit ein anderer, vermutlich adäquaterer Stellenwert eingeräumt, und zwar in der CVPhonologie durch die Interpretation einer Position in der Silbe, nämlich V, als dem silbischen Element (siehe (?)). Zwei weitere Aspekte verdienen angesprochen zu werden, nämlich die nach den optionalen Konstituenten und die nach dem Status der subsilbischen Konstituenten Anlaut und Auslaut. Die einfache Generalisierung, die wir mit Hilfe des Schemas (ll) ausdrücken können, besteht darin, daß in der Silbe V obligatorisch und C optional ist. Alle anderen Angaben dazu auf einer höheren oder tieferen Ebene entfallen. Die CV-Schicht trägt damit schon drei Funktionen im Silbenmodell: - Sie gibt an, was in der Phonotaktik als eine Position zählt. - Sie markiert eine der Positionen als das silbische Segment (V). - Sie spezifiziert die obligatorischen und die optionalen Positionen in der Silbe. Zur Konstituente Anlaut ist hier anzumerken, daß sie erstens niemals verzweigt und zweitens konfigurationell definierbar ist.5 Der Anlaut ist einfach die C-Posi5) Der Begriff "konfigurationeil definierbar" ist hier durchaus identisch gebraucht zu seiner Verwendung in der Syntaxtheorie. Dort gibt es ebenfalls die Auffassung (etwa bei Chomsky 1965). daß bestimmte Kategorien durch Konstellationen der Phrasenstruktur abgeleitet werden können. So ist etwa "Subjekt" die NP, die unmittelbar von S abhängt.
42
tion vor dem tautosilbischen V. (Was der Auslaut ist, ergibt sich ebenfalls konfigurationell. Darauf komme ich in 2.5 zurück.) Jede Notwendigkeit, einen Anlaut als Konstituente der Silbe zu postulieren, ist damit, d.h. mit der Einführung des Silbenknotens und der CV-Schicht, beseitigt. Das Silbenschema (ll) kann daher vorläufig vereinfacht werden, indem die subsilbischen Konstituenten entfallen. Das Ergebnis ist (12).
(12)
c v c 2.4. Vokale und silbische Konsonanten 2.4.1. Das Vokalsystem Das System der chinesischen Vokalphoneme in seiner offensichtlich einfachsten Version wird in (13) dargestellt. Für die korrekte Beschreibung der existierenden Allophone ergeben sich jedoch einige Probleme, da auch die Datenbasis unsicher ist. Chao (1968), Cheng (1973), Kaden (1979) und Zhong (1980) präsentieren verschiedene Analysen, die sich vor allem in der Bewertung der vielfältigen mittelhohen Vokalvarianten (Ce, a, , o, o], hier als /E/ notiert) unterscheiden (siehe zu dem Problem der Vokalbeschreibung auch Edmondson 1984). Die Varianten ergeben sich durch die unterschiedlichen Werte für die Merkmale [hinten] und [labial], daneben vielleicht auch noch [gespannt]. In (l3b) werden redundante Merkmale nicht aufgeführt.
(13) a.
b.
i y E a u
hinten labial tief hoch
+
+ +
± ± -
0 + - + + - *
Die adäquate Beschreibung des Vokalsystems muß hier ausgespart bleiben. 6 (Ähnlich wie Tür den mittelhohen Vokal /E/ gibt es auch für/a/ eine Variation zwischen einer vorderen und einer hinteren Version, die ich hier ignoriere.) Eine bemerkenswerte distributionelle Beschränkung darf hier jedoch nicht vernachlässigt werden: Auf die Konsonanten [ts, ßz, ts., jjz, s, s. und ?] kann kein [il oder [y] folgen. Silben wie [tsi] oder [jy] sind also ausgeschlossen. Ich nehme hier, Clements & Keyser (1983) folgend, an, daß Beschränkungen solcher Art nicht in das Silbenschema integriert werden sollten, sondern unabhängig davon als negative Silben6) Die Analyse des Vokalsystems im Hinblick auf die erforderlichen Merkmale und Regeln ist Gegenstand von Wiese (i. Vorb.).
43
Strukturbedingungen zu beschreiben sind. Eine solche negative Silbenstrukturbedingung ist (14), wo ausgedrückt wird, daß die angegebene Kombination von Segmentklassen am linken Silbenrand unzulässig ist. Für ein weiteres Beispiel dieser Art siehe (25). Die in (14) beschriebene Beschränkung liefert im übrigen ein weiteres Argument Tür die Beschreibung der Affrikaten als zwei Merkmalsbündel. Die Affrikaten verhalten sich in Bezug auf den folgenden vorderen und hohen Vokal wie die Frikative, was sich einfach dadurch erklärt, daß Affrikaten (in ihrem zweiten Teil) und Frikative eine identische Merkmalsmatrix besitzen.
(14) *
- sonoranfl H 0ntm , J |_+* koronal
+ hochn uL* vornJ
2.4.2. Summende Vokale oder silbische Konsonanten? Große Bedeutung im hier behandelten Zusammenhang haben die silbischen Konsonanten. Anstelle der ausgeschlossenen Kombinationen mit hohen, vorderen Vokalen gibt es eine Reihe von Silben, die quasi an deren Stelle treten. Diese Silben werden in der Pinyin-Umschrift als zi, zhi, ri, usw. transkribiert, wohl in der Annahme, daß hier ein zugrundeliegendes /i/ (oder /y/?) vorliegt. (Bemerkenswerterweise ist das auch die Auffassung der klassischen generativen Phonologic zu diesem Problem, siehe unten. In der Pinyin-Umschrift findet sich also eine sehr abstrakte Analyse.) Es stellt sich nun die Frage, wie diese Silben phonetisch wie phonologisch zu beschreiben sind. Die traditionelle Phonologie wählte Tür den "Vokal" in den fraglichen Silben zwei spezielle Zeichen, nämlich ein ill und ein [7,]. Der Vorschlag stammt von Karlgren (1915), wobei das erste Zeichen den Laut nach dem alveolaren Konsonanten (Cs]) und das zweite den nach den retroflexen Konsonanten ([$.] und [z]) bezeichnet. Diese Notation beruht auf der Beobachtung, daß hier ein /i/-ähnlicher, silbischer Laut vorliegt, dessen Qualität auch vom vorangehenden Konsonanten abhängt. Phonetisch gesehen ist jedoch auch diese Transkription problematisch und irreführend. Tatsächlich ist der "Vokal" am besten als eine silbische Verlängerung des Konsonanten beschrieben. So schreibt Zhong (1980: 36) über das vermeintliche [].]: "This sound is produced by first pronouncing the consonant (...) and then, without moving the lips and tongue, letting the airstream flow out with the vocal cords vibrating." Schon Trubetzkoy (1939: 111, Fn. 4) bezeichnet diese Segmente als "summende"
44 Vokale; siehe auch Hockett (1950) und Chao (1968: 19).7 Die Ähnlichkeit zu einem /i/ ergibt sich daraus, daß die vorangehenden Konsonanten in der alveolaren Region gebildet werden, also an der Artikulationsstelle, die auch den /i/-Lauten entspricht. Tabelle (15) stellt der Klarheit halber die Pinyin-Umschrift, die traditionelle phonetische Notation und eine realistischere phonetische Transkription gegenüber. (15)
Pinyin zi ci si zhi chi
Trad. Notation ts] ts h l shl t§7, ishl
shl il
shi ri
Transkription dzz tsz sz dzz tsz
SZ z'z
Die in (15) dargestellten Verhältnisse stehen natürlich in dem Zusammenhang, daß nach alveolaren und retroflexen Frikativen, wie in (14) beschrieben, kein [i] oder [y] erscheinen kann. Die Frage ist, ob dies dazu berechtigt, einen "Phantomvokal" oder ein zugrundeliegendes /i/ oder /y/ zu postulieren, obwohl keine dieser beiden Kategorien jemals erscheinen. Einsicht in die Organisation der Silbe macht deutlich, daß zwar kein Vokal-Segment, aber doch ein Silbenkern (auch 'Nukleus' genannt) erforderlich ist. Diesen Regularitäten wird in der hier vertretenen Theorie dadurch Rechnung getragen, daß V als ein obligatorisches Element in der Silbe postuliert wird. Das V in der Silbe muß mit einem konkreten Segment assoziiert werden; wenn kein Vokal dafür zur Verfügung steht, wird durch die Assoziation mit dem Frikativ der quasi-vokalische Silbenkern geschaffen. Nach der hier vorgeschlagenen Analyse sieht die phonologische Repräsentation einer Silbe wie [tsz] aus wie in (16). Diese Analyse wird allerdings in II, (100) nach der Einführung der Kopie als phonologischer Mechanismus modifiziert.
(16) C
V
N/ t s 7) Angesichts dieser Einsichten ist es erstaunlich, daß Darstellungen der Phonologic des Chinesischen und alle mir bekannten Lehrbücher die Fakten so darstellen, als ob hier wirklich ein Vokal vorhanden sei. Den Grund dafür darf man wohl in der mangelhaften Einsicht in die Phonologie der Silbe sehen. Andererseits notiert bereits Finck (1910: 21ff.) mit Selbstverständlichkeit ein silbisches Cd.
45
Ein silbischer Konsonant wie [z] ist definiert als ein Segment mit dem Merkmal [+ konsonantisch], das mit einem V assoziiert ist. Im unmarkierten Fall sind ja konsonantische Segmente mit C assoziiert, nicht-konsonantische Segmente mit V. Wichtig ist, daß durch eine Lösung wie in (16) [silbisch] nicht zu einem Merkmal der Segmente werden muß. Die silbischen Segmente bleiben /s/, /s/ und /z/, die in Bezug auf die Silbigkeit nicht spezifiziert sind. Es sind die Silbenstruktur und insbesondere das obligatorische Vorkommen des V-Elementes, die den silbischen Konsonanten unter besonderen Bedingungen erzwingen. Das Chinesische wählt hier eine von mehreren denkbaren Lösungen; Konsonantentilgung oder Vokal-Einfügung (wie etwa beim Schwa im Deutschen, siehe Kapitel II, 2) wären andere Lösungen. Als ein weiteres Argument für die in (16) beschriebene Analyse sehe ich die bessere Übereinstimmung mit den phonetischen Fakten an. Man könnte gegen die Analyse einwenden, daß [z] und [z] hier nicht möglich sind, da obstruente Segmente nicht silbisch sein können. Tatsächlich wird die Eigenschaft, einen Silbenkern bilden zu können, in der Regel oder ausschließlich den Segmenten mit dem Merkmal [+ sonorant] zugesprochen. Dies war auch die Auffassung von Trubetzkoy (1939: 167), der daher die "summenden" Vokale des Chinesischen auf "eine kombinatorische Variante von i nach Sibilanten" zurückführte. Silbische Obstruenten sind jedoch nicht völlig ausgeschlossen, wie Bell (1978) in einem Überblick über silbische Konsonanten in den Sprachen der Welt zeigt. Das Chinesische erlaubt die Assoziation zwischen den angegebenen Konsonanten und V als einzelsprachliche Option im Gegensatz zu vielen anderen Sprachen, die solche Assoziationen gar nicht oder nur mit sonoreren Konsonanten kennen. Cheng (1973), dessen Arbeit über die Phonologie des Chinesischen auf die Prinzipien der SPE-Phonologie gestützt ist, postuliert für die Silben dieser Art ein /i/, also ein hohes, ungerundetes und hinteres Segment. Da aber, wie auch Cheng ausführt, die tatsächliche Aussprache hier immer ein [z] oder [z] zeigt, wird in diesem Vorschlag ein abstraktes Segment postuliert, das eine sehr beschränkte Distribution besitzt (nur nach [- sonorant, + koronal, + dauernd]), und das vor allem niemals an der Oberfläche erscheint. Gerade diese Art der Abstraktheit ist jedoch an der generativen Phonologie immer wieder bemängelt worden. Als weiteres Argument gegen Chengs Analyse ist anzuführen, daß es nur unter großen Schwierigkeiten möglich wäre, eine phonetische Regel zu formulieren, die das zugrundeliegende /t/ in die silbischen Konsonanten umwandelt. Cheng verzichtet wohlweislich auf die Formulierung einer solchen Regel. Nach dem Programm der generativen Phonologie wäre eine solche Regel jedoch unumgänglich, da prinzipiell eine phonetische Interpretation der abstrakten phonologischen Kategorien gefordert wird. Eine weitere Gruppe von Morphemen wurde bisher ebenfalls unterschlagen. Es gibt Silben mit der phonetischen Form [aK] oder [K], die Morpheme wie er35 'Sohn', er35 'aber', er21 'Sie' (Anrede)' er21 Ohr', er51 'zwei' realisieren. Die Su-
46
perskript-Zahlen bezeichnen hier die Töne der entsprechenden Morpheme. Mit der Notation und der Repräsentation der Töne beschäftigt sich Kapitel II, l.8 Der erste Anschein sagt, daß das gutturale /K/ auch als Auslaut an einen Vokal treten kann. Eine entsprechende Auffassung findet sich denn auch bei Chao (1968: 24) und Cheng (1973: 20-23). Letzterer postuliert einen möglichen Auslaut / /, der zu den 'regulären' Auslauten hinzutritt. Wie isoliert dieser Auslaut aber ist, zeigt sich in der aus Cheng (1973: 24) übernommenen Tabelle (17).9 (17)
i ai ei au ou an an 3 sr i ia ie iai iau iou in iarj irj u ua uo uai uei uan usn uarj f urj (U3rj
ü
üc
üan ün
Ü3rj
Insbesondere ist zu fragen, warum nur ein einziger Vokal vor /BY (bei Cheng /r/) möglich ist. */ir/, */ar/, etc. sind ja (zugrundeliegend!, siehe 2.7) sämtlich ausgeschlossen. Außerdem sind die /BY-Silben mit einem konsonantischen Anlaut ausgeschlossen, also etwa *[taK], *[laK], etc. Diese beiden Fakten bleiben gänzlich unerklärt. Eine Behandlung der Phonotaktik auf der Basis eines hierarchischen Silbenmodells ermöglicht nun eine andere Lösung für das Problem. Die Tatsache, daß das /BY nur mit einem einzigen Vokal kombiniert werden kann, und daß dieser Vokal eine deutliche r-Färbung besitzt, erklärt sich am einfachsten dadurch, daß in der Silbe zugrundeliegend nur das /K/ existiert. Aufgrund der obligatorischen Anwesenheit der V-Position muß /BY mit dieser assoziiert werden. Das ist auch von einem universalen und phonetischen Standpunkt aus unproblematisch, da /BY als der sonorste Konsonant am ehesten als ein silbisches Segment in Frage kommt (siehe dazu auch 3.7.1 für das Deutsche). Von einer Sprache, die /z/ und /z/ als silbische Konsonanten erlaubt, ist es geradezu zu erwarten, daß sie einen sonoreren Konsonanten wie /B/ als silbisch zuläßt. Die Behauptung hier ist also, daß Wörter wie er21 'zwei' eine zugrundeliegende Struktur der Form (l8) haben. Ein vokalisches Segment im engeren Sinne existiert nicht. Das silbische /B/ wird natürlich weitgehend vokalisiert, was die oben angegebenen Transkriptionen CaK] und [K] rechtfertigt, ohne daß diese die phonetische Realisierung perfekt beschreiben.10 8) Das hier herangezogene Neue Chinesisch-Deutsche Wörterbuch (1986) enthält Übrigens nur elf Morpheme mit dieser phonetischen Form, von denen einige offenbar sehr marginalen Status besitzen. 9) Cheng transkribiert auch das finale [Kl als /r/ unter der sicherlich bedenkenswerten Annahme, daß es nur ein einziges r-Phonem gibt, dessen Realisierung stellungsbedingt ist. Am Silbenanfang ist es retroflex. am Silbenende velar oder "guttural". 10) Die notorisch schwierige Frage der r-Transkription wird in II, 2.2 anhand des Deutschen noch einmal diskutiert.
47
(18)
V
I Zu klären bleibt dann noch, warum ein solches /K/ mit keinem anlautenden Segment in der Silbe verknüpft werden kann. Vermutlich sind dazu universale Bedingungen der Sonoritätshierarchie heranzuziehen, die erst in Kapitel 3.7.1 am Beispiel des Deutschen expliziert werden. Die dortigen Feststellungen vorwegnehmend, kann man vermuten, daß die Sonoritätsdifferenz zwischen /K/ und den übrigen Konsonanten zu gering ist, als daß sie in einer Silbe zusammen existieren dürften. Wenn diese Überlegung richtig ist, wird unmittelbar klar, daß eine Kombination von /K/ und einem beliebigen Anlautkonsonanten im Chinesischen ausgeschlossen ist. Der Vorteil dieser Erklärung liegt darin, daß keine spezielle Beschränkung (etwa eine Silbenstrukturbeschränkung) für /K/ postuliert werden muß. Andererseits sind die Sonoritätsbeschränkungen sowohl universal als auch auf das Chinesische bezogen zu wenig geklärt, als daß schon eine endgültige Lösung behauptet werden könnte. 2.4.3 Nichtsilbische Vokale Wurden im vergangenen Abschnitt silbische Konsonanten eingeführt und repräsentiert, so geht es in diesem Abschnitt um die konverse Relation zwischen der segmentalen und der CV-Schicht. Wie bereits erwähnt, enthält das Lautsystem des Chinesischen auch mehrgliedrige Vokale, nämlich Diphthonge und Triphthonge. In (19) sind die vorkommenden Diphthonge und Triphthonge des Chinesischen in Pinyin und einer genaueren IPA-Transkription aufgezählt (mit ' ' als Symbol für den nichtsilbischen Charakter eines Vokals).11 (19)
a. Diphthonge Pinyin IPA ai Cai]
ei ao ou ia ie ua
[ei] [au] [ou] [ja] He] f\ [ua]
uo üe
[uo]
b. Triphthonge Pinyin IPA iao üau] /%
iu uai ui
[iou] [uail f\
f\
11) Es herrscht Uneinigkeit darüber, ob die e-Laute in den Diphthongen als [e] oder [ ] zu werten sind. Dieses Problem wird hier vernachlässigt.
48
Das in (19) dargestellte reiche Diphthong/Triphthongsystem erlaubt eine Reihe von Beobachtungen. Erstens sind die nichtsilbischen Teile immer hohe Vokale, d.h. [i], [u] oder [y]. Die silbischen Teile sind dagegen immer nicht-hohe Vokale, d.h. [a], [e] oder [öl. [y] hat eine ziemlich beschränkte Distribution, kontrastiert aber immerhin mit QL Bemerkenswert ist schließlich noch, daß in den Vokalverbindungen nur Segmente auftreten, die auch als Einzelvokale vorkommen. Unter Berücksichtigung der mehrteiligen Vokale muß das Silbenschema (12) also erweitert werden. Die Frage, welche Position in der Silbe die nichtsilbischen Vokale aufnehmen, ist für den postnuklearen Vokal (etwa in [ai] oder tou]) leicht zu beantworten. Es besteht die generelle Beschränkung, daß nach dem Silbenkern immer nur maximal ein Segment folgen kann, sei es ein nasaler Konsonant oder ein Vokal. Dieser Regularität wird am einfachsten dadurch Rechnung getragen, daß die Koda (in unserem Modell einfach die silbenfinale C-Position) alternativ eines dieser beiden Segmente aufnimmt, siehe die Beispiele in (20). Damit ist klar, was einen silbischen Vokal von einem nicht-silbischen (Gleitlaut) unterscheidet. Der Gleitlaut hat die identische Beschreibung in Gestalt eines Merkmalsbündels, ist aber mit einer unterschiedlichen Position in der Silbe assoziiert, nämlich mit einer C-Position. Im übrigen spricht die Tatsache, daß als Gleitlaute nur Vokale auftreten, die auch silbisch vorkommen, ebenfalls dafür, keine speziellen Gleitlautphoneme anzusetzen. (20) a.
C CV C
(liao53 'Fesseln')
I M
l i a u
b. C C V C
(lJan53 'lieben')
l i a n
Der nichtsilbische Vokal vor dem Silbenkern, etwa in [pia] oder Cduo], wird traditionellerweise als Teil des Auslauts im Sinne von (4) bzw. (ll) gewertet (siehe Chao (1968) oder Cheng (1973)). Hier soll stattdessen dieser Vokal mit einer weiteren C-Position vor der V-Position repräsentiert werden, wie in (20) dargestellt. Die traditionelle Lösung bringt nämlich zwei Probleme mit sich. Erstens gibt es Vorkommensbeschränkungen zwischen den Anlautkonsonanten und folgenden nichtsilbischen Vokalen, die in (14) dargestellt wurden. Nach allgemeiner Meinung sind aber solche Interaktionen zwischen Segmenten gerade innerhalb von Konstituenten, nicht aber zwischen ihnen zu erwarten. Zweitens reimen sich in der chinesischen Versdichtung Silben wie Ckhuai] und h [p ai], [lia] und [maL Der pränukleare Vokal ist also für den Reim unerheblich. f\
12) Bedingt durch die Nicht-Silbigkeit sind die Gleitlaute in vielen Fällen abgesenkt. Nichtsilbisches /i/ mag einen ähnlichen Öffnungsgrad wie silbisches /e/ haben.
49
Der Reim im Chinesischen besteht also aus dem Nukleus-Vokal plus evtl. folgendem Segment. Das führte zu der Überlegung, daß auch der Reim eine Konstituente der Silbe bildet, da sie offenbar für die Sprecher des Chinesischen eine Realität besitzt. Ein sehr reiches Modell der Silbe (zu finden etwa bei Cheng (1966), Cheng (1973: ll), Kaden (1979) und Yip (1982: 646)) hat also die folgende Form:
(21) (Anlaut)
Auslaut
Medial
Reim
Nukleus
l
Endung
l
Damit wird aber jedem Segment der Silbe eine Konstituente zugeordnet, wodurch ein System der Repräsentation mit der einzigen Einschränkung entsteht, daß die Struktur rechtsverzweigend ist. Daß wenig Tür den Anlaut als Konstituente spricht, ist bereits in Abschnitt 2.3 demonstriert worden. Cheng (1966) gibt für die Silbenstruktur (2l) darüberhinaus Phrasenstrukturregeln an. Ein solches Regelsystem scheint aber zu mächtig für eine so "einfache" Struktur wie die der Silbe zu sein, da die Regeln nur eine einzige Struktur erzeugen - abgesehen vom Weglassen der optionalen Konstituenten. Für Autoren wie Chao und Cheng ist es jedoch zwingend, eine Auslautkonstituente, die die pränuklearen Vokale aufnimmt, zu postulieren, da die entscheidende Längenbeschränkung für die chinesische Silbe besagt, daß auf den Anlaut bis zu drei Segmente folgen können - unabhängig vom Vorhandensein des Anlauts. Das erste dieser Auslautsegmente ist ein nichtsilbischer Vokal (im aufgleitenden Diphthong oder im Triphthong, siehe die Liste in (19)). Der zweite Teil ist ein silbischer Vokal und der dritte ein nichtsilbischer Vokal oder ein Nasal, wie in (20) dargestellt. Die quantitativen Beschränkungen in der Silbe werden also in diesem Modell durch die Annahme einer Auslautkonstituente, die drei Segmente aufnehmen kann, ausgedrückt. Die weiteren Konstituenten im Auslaut sind ebenfalls erforderlich, da die Position des Silbenkerns im Auslaut ja nicht frei ist. In einem Modell, das die CV-Schicht einschließt, stellen sich die Verhältnisse allerdings anders dar. Nehmen wir das Schema (22) als Angabe für die maximale Erstreckung der Silbe im Chinesischen, so zeigt die weitere Überlegung, daß keine zusätzliche Information, insbesondere keine Auslautkonstituente, erforderlich ist. Der Grund liegt darin, daß erstens die CV-Elemente die Zahl der in der Silbe zur Verfügung stehenden Positionen angeben und zweitens durch die Markierung des dritten Elements (V) als das silbische alle übrigen quantitativen Beschränkungen ebenfalls ausgedrückt sind. Eine Kurzform für (22) ist die Angabe, daß die kanonische Silbenform (Clements & Keyser 1983) des Chinesischen C C V C ist.
50
(22)
VC
CC
In (23) werden einige Beispiele für maximale Silben, also solche, die der kanonischen Form entsprechen, angegeben. Man erinnere sich, daß alle kürzeren Silben sich dadurch ergeben, daß C als ein optionales Element betrachtet wird.
(23) a.
b.
c.
C VC
ii
e i
! , d z i e' n' f(jian)l
(dui)
l l l
t gu
2.5. Silbenstrukturbedingungen Nach gängiger Auffassung sind Konstituenten auch dadurch zu rechtfertigen, daß sie die Domäne für eine Regelanwendung oder eine Beschränkung darstellen. Wie oben erwähnt, ergibt sich auch hinsichtlich dieses Aspekts für ein Modell wie (2l) ein Problem. Es gibt phonotaktische Beschränkungen zwischen Anlautkonsonanten und Vokalen, die die postulierte Anlaut-Auslaut-Grenze überschreiten. Es gibt hier zwei Gruppen von Fakten. Erstens erlaubt eine bestimmte Gruppe von Anlautkonsonanten, wie in (14) dargestellt, kein folgendes /i/ oder /y/. Zweitens gilt, daß /tp/, /dz/ und /
]
[uei] + [K] 'hallo':
*[ueiKl f\
CueK]
Das /K/ hat schließlich noch eine strukturelle Vorkommensbedingung, die deutlich macht, daß es sich um ein Morphem (manchmal mit diminutiver Bedeutung) handelt, das an Wörter affigiert wird.14 Eine Silbe kann offenbar nur dann r-gefärbt werden, wenn sie sich am Wortende befindet. (Dies gilt natürlich auch für einsilbige Wörter.) Aufgrund dieser Fakten nehme ich an, daß /K7 am rechten Wortende als eine Art von Flexionssuffix an die Wörter angefügt wird, etwa nach Regel (30). Das Silbenschema wird durch das Suffix überhaupt nicht berührt. (Regel (30) hat die typischen Eigenschaften einer Flexionsregel, da die syntaktischen Eigenschaften des eingebetteten Wortes an den dominierenden Knoten weitergegeben werden. Das IKI-Suffix stellt also nicht den Kopf der Konstruktion dar. (Siehe Selkirk (I982b, Kap. 3.2) für diese Analyse der Flexion.)15 (30) Wort -» Wort IKI In Regel (30) ist 'Wort' eine im Lexikon vorhandene oder erzeugte Kategorie, also eine Einheit, die sowohl unabgeleitete Morpheme wie auch abgeleitete Wörter umfaßt. Die Frage ist nun, wie das Suffix in das Wort, das ja bereits eine wohlgeformte Silbe darstellt, integriert wird. Offensichtlich kann das Suffix keine eigene Silbe bilden. Dies gilt, obwohl es nach der Analyse in Abschnitt 2.4 Wörter gibt, die ebenfalls nur aus einem /K/ bestehen, das aber silbisch ist (siehe (18)). Der Kontrast zwischen diesen beiden R-Varianten mag darin bestehen, daß das Suffix-K im Gegensatz zum Wort mit einer C-Position assoziiert ist. Damit dann auch an der Oberfläche eine wohlgeformte Silbe entsteht, durchläuft eine wortfinale Silbe plus IKI etwa die folgende Ableitung, illustriert am Beispiel wei53 aus (29):
14) Die älteste mir bekannte Suffix-Analyse ftir /K/ findet sich bei Finck (1910: 20). 15) Es gibt meines Wissens keine theoretische Studie zur Morphologie des Chinesischen, auf die ich mich hier stützen könnte. Es existieren aber (einige wenige) weitere Suffixe, so etwa das Plural-Suffix men, die vermutlich ähnlich zu behandeln sind. Insofern gilt Regel (30) nicht nur für IKI und kann allgemeiner formuliert werden.
55
(31)
a.
Wort
b.
Wort
Das silbenfinale Segment Ei] wird also getilgt, wie die Daten in (29) zweifelsfrei zeigen. Dies geschieht dadurch, daß /K/ mit der finalen Segmentposition der Silbe reassoziiert und dadurch in die Silbe integriert wird. Nach einer generellen Konvention wird bei einer Reassoziation die bisherige Assoziation gelöscht. Leere CPositionen bleiben ebenfalls unrealisiert. Viele Einzelfragen zu diesem Prozeß müssen offenbleiben, da wenig an Ergebnissen zu dem Problem vorliegt. Die Lösung beruht auch auf der Voraussetzung, daß die Assoziation zwischen Segmenten und ihren CV-Positionen zugrundeliegend existiert, wie auch Clements & Keyser (1983) annehmen. Nur dadurch ist es möglich, zwischen den beiden R-Varianten (V und C) zu differenzieren. In Abschnitt 3.6 wird aber für das Deutsche ein an[K] [K] deres Modell vorgeschlagen. Danach sind die Segmente zugrundeliegend zwar mit Segmentpositionen assoziiert, die aber nicht zwischen V und C differenzieren. Wenn dieses Modell gewählt wird, muß für die Morpheme im Chinesischen, die nur aus /K/ bestehen, eine andere Analyse gefunden werden. Wegen des exzeptionellen Status des silbischen [K] kann man annehmen, daß V als markierte Struktur zugelassen ist. [K] Manchem mag die in (3l) vorgenommene Analyse zu weitgehend erscheinen. Es sei aber darauf hingewiesen, daß erstens jede angemessene Behandlung des finalen /K/ zusätzliche Regeln, Filter oder Wohlgeformtheitsbedingungen erfordert, und daß zweitens die Existenz von Tilgungen, die durch bestimmte Affixe ausgelöst werden, auch für andere Sprachen begründet werden kann - so für das Deutsche, wo das Suffix Itl bei Verben, die auf /d/ oder /t/ enden, Degemination, d.h. Tilgung unter Identität, auslösen kann: lla:dl + Itl -» /k:t/ (lädt), ltre:tl + Itl -» /trit/ (tritt), lgro:sl + Istl -» /groesta/ (größte). Diese Fakten werden in II, 2.3.2 wieder aufgegriffen. Die Komplexität der hier vorgeschlagenen Lösung ist eher geringer als in anderen Modellen. Was die Fakten angeht, deckt sich meine Analyse in etwa mit der von Cheng (1973: 25), der allerdings /ir/ als zugrundeliegende Repräsentation des r-Suffixes annimmt: "The syllable boundary and both the vowel and the tone of the suffix are deleted. The retroflex liquid becomes part of the suffixed syllable." In dieser Analyse sind drei Tilgungen und die Einfügung des /K/ in die vorangehende Silbe erforderlich. Daß der letzte Konsonant oder Gleitlaut in dieser Silbe ebenfalls getilgt werden muß, ist dabei noch nicht einmal berücksichtigt.
56
Die Beobachtungen zum -Affix bestätigen durch die Oberflächenbeschränkungen, die in (29) illustriert werden, die zentrale Rolle des Silbenschemas (22). Die darin festgelegten Quantitätsrestriktionen gelten auch im Falle des exzeptionellen Affixes. Die Silbenstrukturbedingungen, hier (26), sind dagegen eher überschreibbar. Für Silben wie [ueK] ist ein finales [K] zugelassen, obwohl (25) diese Möglichkeit nicht zuläßt. Möglicherweise ist hier zwischen Silbenstrukturbedingungen auf der zugrundeliegenden Ebene vs. denen an der Oberfläche zu differenzieren. 2.7. Zusammenfassung Ergebnis dieses Kapitels zur Silbe im Chinesischen ist vor allem ein Silbenmodell, das sich stark auf die CV-Schicht stützt. Es läßt sich festhalten, daß wir für die subsilbischen Konstituenten Anlaut und Auslaut keine Evidenz gefunden haben. Für die CV-Schicht sprechen dagegen eine Reihe von Argumenten, die aus dem Verhalten der Affrikaten, der silbischen Konsonanten, der nichtsilbischen Vokale, der Quantitätsrestriktionen und des wortfinalen IKI stammen. Besonders die Möglichkeit, silbenstrukturell anzugeben, ob ein Segment silbisch oder nichtsilbisch ist, ist ein genereller Vorteil des CV-Modells, dessen Vorzüge sich am Chinesischen deutlich erweisen. Die hier gelieferte Beschreibung kann übrigens auch mit den Phänomenen, die auf die Kategorie 'Reim' Bezug nehmen, in Einklang gebracht werden. Der Reim (als Kategorie der Poetik) ist nicht mit der Auslautkonstituente identisch, aber er kann direkt von der CV- Schicht abgelesen werden. Da der Reim mit V beginnt, besteht er aus der Kette V (C) und den mit diesen Positionen assoziierten Segmenten. Der in der Poesie verwendete Reim ist also ebenso wie die (weder in der Phonologie noch in der Poesie des Chinesischen verwendeten) Konstituenten Anlaut und Auslaut durch die CV-Schicht konfigurationell definiert. 16 Das vorgeschlagene Silbenmodell (22) ist insofern ziemlich restriktiv, als die Zahl der Verzweigungen, Knoten und Kategorien im Vergleich zu anderen Modellen recht gering ist. (Siehe (2l) für das Chinesische und ähnliche Vorschläge von Kiparsky (1979) und Selkirk (l982a) für das Englische, hier allerdings mit universalem Anspruch, die in 4.1 und 4.2 dargestellt werden.) Ein restriktiveres, sparsameres Modell ist aber vorzuziehen, solange es die Regularitäten der Sprache adäquat beschreiben kann und auch anderen theoretischen Erfordernissen entspricht. Ein besonderer Grund, warum gerade im Chinesischen wenig Evidenz für subsilbische Kategorien vorhanden ist, liegt vielleicht einfach darin, daß im Chinesischen weder Kern noch Koda (d.h. die V- und C-Elemente im Auslaut) kom16) Die Kategorie des Reims wird Übrigens in der Literatur unterschiedlich definiert. Während der Reim in Beschreibungen des Chinesischen mit dem silbischen Vokal beginnt, enthält er in Harris' Analyse des Spanischen (Harris 1983) auch den präsilbischen Gleitlaut (etwa in buei).
57
plex aufgebaut sind. Es gibt z.B. keinen distinktiven Quantitätsunterschied bei den Vokalen und auch keine Betonungsregeln, die auf Silbenquantität Bezug nehmen. Auch für die Silbenkoda gilt, daß die Längenbeschränkung nur dargestellt werden kann, wenn finaler Vokal und Nasal als Alternativen in der Silbenstruktur (siehe Silbenstrukturbedingung (25)) behandelt werden. Für Kategorien, die niemals verzweigen, hat der Sprecher/Hörer jedoch keine Evidenz. (Die Diskussion um alternative Modelle der Charakterisierung von Silben wird im Anschluß an die Darstellung des Deutschen in Kapitel 4 weitergeführt.) Die genaue Spezifizierung der CV-Schicht kann natürlich auch anders vorgenommen werden als hier vorgeschlagen. Es gibt keinen Grund a priori, warum die CV-Schicht nur aus genau den zwei Elementen C und V bestehen sollte. Jede Erweiterung ist allerdings, da sie die Komplexität der Grammatik vergrößert, sorgfältig zu begründen. An existierenden Vorschlägen zur Erweiterung der Kategorienmenge auf der CV-Schicht ist mir nur der Vorschlag von Yip (1980: 191, 1982: 643) bekannt, G als weiteres Element zu verwenden. G steht für "glide/ Gleitlaut" und ist als [- silbisch, - konsonantisch] definiert (vgl. (7) für die Definition von C und V). Yip weist dem Standardchinesischen dann folgendes Silbenschema zu: C G V C.17 Tatsächlich finden sich, wie wir gesehen haben, in der zweiten Position ausschließlich nichtsilbische Vokale, also Gleitlaute. Es ist aber nicht möglich, zu fordern, daß allen Gleitlauten dieser Art ein G auf der CVSchicht (hier besser: CGV-Schicht) entsprechen muß. Denn die wichtigste quantitative Beschränkung für die Zahl der Segmente pro Silbe besagt ja, daß nach V nur ein Segment folgen kann, und zwar ein nichtsilbischer Vokal oder ein Nasal. Konsequenterweise müßte Yip ihr Silbenschema also mit einer Disjunktion versehen: C G V {G/G. Da sie dies nicht tut, ist die Assoziation eines Vokals mit einer CPosition offenbar zugelassen. Wir können daher auf das G in der zweiten Position auch verzichten und die hier existierenden Beschränkungen in Form der aus unabhängigen Gründen erforderlichen Silbenstrukturbedingungen formulieren. Außerdem würde man sich mit einem G in der CV-Schicht der Möglichkeit einer einsichtsvollen Charakterisierung der Silbe berauben, da dann die zwei im vorangehenden Absatz genannten Silbenschemata (C G V C und C G V G) erforderlich sind. Gleichzeitig ist Nichtsilbigkeit dann mit einer gewissen Redundanz ausgedrückt: Erstens durch das G und zweitens durch ein vokalisch spezifiziertes Segment, das nicht mit V assoziiert ist. Aus diesen Überlegungen kann das Fazit gezogen werden, daß kein Grund vorliegt, die CV-Schicht anzureichern. C und V sind sowohl notwendig wie hinreichend, ob nur einzelsprachlich oder auch universell, muß hier offenbleiben. Die im folgenden vorgetragene Analyse des Deutschen spricht allerdings dafür, daß zumindest mehr als eine einzelsprachliche Eigenschaft vorliegt. 17) Ich sollte hinzufügen, daß Yip an späterer Stelle (1982: 647) dem Standardchinesischen das Silbenschema C C V C zuspricht. Der Status von G bleibt in ihrer Theorie also unklar.
58
3. Die Silbenstruktur des Deutschen Das soeben am Beispiel des Chinesischen entwickelte Modell soll in diesem Kapitel auf die deutsche Sprache übertragen werden. Es geht hier um die folgenden drei Ziele: Erstens soll für die in Kapitel 2 vorgeschlagenen Konstrukte weitere Evidenz aus dem Deutschen gefunden werden. Zweitens geht es darum, zu zeigen, daß eine silbenbezogene Phonologic in weitgehendem Ausmaß in der Lage ist, zentrale und teilweise klassische Probleme aus der Phonologic dieser Sprache zu lösen oder mindestens klarer zu formulieren. Drittens erfordern die komplexeren Silbenstrukturen des Deutschen gewisse (wenn auch minimale) Erweiterungen des bereits entwickelten Modells, insbesondere was die Quantitätsbeschränkungen in der Silbe und die extrasilbischen Segmente betrifft. Bestimmte Probleme lassen sich also erst am Deutschen illustrieren, nicht aber am Chinesischen. 3.1. Das Silbenschema Es ist eine heuristisch sinnvolle Strategie in der Sprachwissenschaft, eine Theorie zunächst auf der Betrachtung von zentralen Fällen (oder solchen, die man für zentral hält) aufzubauen und Ausnahmen erst einmal beiseitezulegen. Das Ziel einer solchen Strategie ist nicht, sich die Analyse zu erleichtern, indem man Fakten ignoriert, sondern die Begründung liegt in der Erfahrung, daß sich scheinbare Ausnahmen als Konsequenz anderer, völlig unabhängiger Prinzipien ergeben können. Betrachten wir, dieser Maxime folgend, die einsilbigen Wörter in (32) unter der Voraussetzung, daß die Cluster aus Vokal und postvokalischen Konsonanten maximal sind, die Silbenstruktur also erschöpfen. (32)
a. viel doof schön Stab
b. fein drauf neun Raub
c. Film darf gern gelb
Aus (32) können wir den Schluß ziehen, daß Wörter mit einem langen Vokal (32a) einen Konsonanten nach dem Vokal zulassen. Für Wörter mit einem Diphthong (32b) gilt das gleiche, während Wörter mit kurzem Vokal (32c) zwei Konsonanten erlauben. Wenn man diese Beobachtung generalisiert, behauptet man damit, daß z.B. die Cluster in (33) im Silbenauslaut nicht vorkommen. Eine weitere Schlußfolgerung ist, daß sich ein langer Vokal oder ein Diphthong wie ein kurzer Vokal plus folgendem Konsonant verhält. 1
(33)
*v k k
*v; Vj k k
*v k k k
1) In (33) stehen v und k als Variablen für vokalische und konsonantische Segmente; i und j müssen ungleich sein.
59
Zwei Gruppen von scheinbaren Ausnahmen werden dabei sträflich vernachlässigt: die Wörter mit einer Affrikate (siehe Dampf [dampf] oder Herz [heKts]) und viele der Wörter, die auf t, s oder st enden, wie Herbst, läuft, Films, usw. Beide Gruppen von Phänomenen werden hier zunächst beiseitegestellt, später aber gebührend berücksichtigt (in den Abschnitten 3.2 und 3.8.).2 Bevor hier, wie in (22) für das Chinesische, ein Silbenschema des Deutschen postuliert werden kann, betrachten wir kurz die möglichen Kombinationen von Anlautkonsonanten. Wieder unter Vernachlässigung einer Reihe von Lauten, nämlich von /// und /s/ im Wortanlaut und der Affrikaten, finden wir, daß maximal zwei Konsonanten am Silbenanfang vorkommen, wie in Tabelle (34) dargestellt. In der ersten Spalte der Tabelle sind die möglichen Anlautkonsonanten aufgerührt, während die erste Zeile die möglichen Zweitkonsonanten enthält. Die genaue Natur der Segmente steht dabei nicht zur Debatte. Die genauere Charakterisierung der Vorkommensbeschränkungen in der Tabelle ist Gegenstand von Kapitel 3.7. Die mit Klammern versehenen Kombinationen in (34) haben marginalen Status; siehe Psychologie, pneumatisch, Xaver, Gmünd, Wladimir und Wrack. Damit ist nicht impliziert, daß diese Cluster alle den gleichen Status besitzen.
(34) P
t k b d g f v ts Pf
1 + _ * + _ + + -
K s n (*)(+) _ _ + + (+) + + - _ _ + * - + + - l·) - +
v m - _ _ + - _ _ -(*) - -
-
-
-
-
-i
+
+
-
-
-
Unabhängig von weiteren Einschränkungen läßt sich festhalten, daß unter den getroffenen Voraussetzungen maximal zwei Konsonanten vor dem Vokal und zwei 2) Es gibt nur wenige Wörter, die eine zweifelsfreie Ausnahme für die Beschränkung darstellen. Erstens gibt es Familiennamen wie Raulf. Da Namen häufig generelle Beschränkungen durchbrechen können, liegt hier kein echtes Problem vor. Problematischer ist etwa feilsch oder jauchz in allen einsilbigen Formen (feilscht bzw. jauchzt), da hier auf den Diphthong zwei Konsonanten folgen, ohne daß auf diese eine der in diesem Kapitel angebotenen Erklärungen zutreffen. Allerdings wirken solche Wörter vielleicht auch schon abweichend auf den Sprecher des Deutschen. Sie existieren einfach, obwohl sie den Silbenregularitäten widersprechen.
60
Konsonanten danach möglich sind. Dieses Ergebnis läßt sich im Rahmen des CVModells der Silbe als (35) darstellen. (35) soll das, im folgenden zu rechtfertigende, Silbenschema des Deutschen sein. Wir können ihm entnehmen, daß es eine post vokal is ehe Position mehr enthält als Schema (22) für das Chinesische. Dies ist einer der Faktoren, der zur größeren Komplexität der Silbe im Deutschen beiträgt. Während das Chinesische die kanonische Silbenform CCVC hat, ist die kanonische Silbenform des Deutschen CCVCC.
C
C
V
C
C
Natürlich ist auch hier die CV-Schicht nur gerechtfertigt, wenn sie sich zur Beschreibung wesentlicher Regularitäten als notwendig erweist. Gerade die Quantitätsverhältnisse in den Silben des Deutschen können diese Rechtfertigung liefern. Im übrigen ist die Differenzierung zwischen C und V für die adäquate Darstellung der Quantitätsbeschränkungen unabdingbar. Es ist nämlich nicht so, daß die Silbe einfach bis zu fünf Positionen zur Verfügung stellt. Dann müßte eine Silbe auch dann akzeptabel sein, wenn das silbische Element an der zweiten oder vierten Stelle erscheint. Teil der Regularitäten für die Silbe im Deutschen ist jedoch, daß die Silbe zwei Positionen vor dem silbischen Segment und zwei danach enthalten kann. Diese offensichtliche Tatsache spricht gegen die Lösung, die Silbe einfach durch undifferenzierte Positionen zu charakterisieren, wie dies in Vorschlägen von Levin (1983) und Kaye (1982) vorgesehen ist. Diesen Autoren folgend erhält die Silbe die einfachere Form (36). 'X' ist einzig eine abstrakte Position, deren Silbigkeit nicht spezifiziert ist (siehe (7c)). Auf den Unterschied zwischen X vs. C/V als Segmentpositionen komme ich in 3.6 zurück.
X
X
X
X
X
3.2. Das Affrikatenproblem im Deutschen Für das Deutsche werden im Allgemeinen zwei Affrikaten angegeben, nämlich /ts/ und /pf/. 3 Affrikaten (also Verbindungen von Verschlußlaut und annähernd homorganischem Frikativ) stellen ein klassisches Problem für die Phonologic des Deutschen wie die vieler anderer Sprachen dar, weil sie mono- oder biphonemisch gewertet werden können. Es gibt nun aber scheinbar gültige Argumente für die 3) Ich vernachlässige zunächst die Frage, ob auch /t//, /ps/ und /ks/ Affrikaten sein könnten. Es ist auch nicht a priori ausgemacht, daß eine Lautkombination gleichermaßen im Silbenanlaut wie im -auslaut als Affrikate zu werten ist.
61
eine wie für die andere Lösung, weshalb auch beide Lösungen in der Literatur vertreten werden. Eine monophonemische Lösung vertreten z.B. Trubetzkoy (1939) und Wurzel (1970, 198l), eine biphonemische dagegen Morciniec (1958) und im Anschluß daran Meinhold & Stock (1980). Für eine kritische Darstellung der Argumente pro und contra, die fast immer in den von Trubetzkoy formulierten Regeln für die mono- oder biphonemische Wertung ihren Ausgangspunkt haben, vergleiche Luschützky (1985) und Griffen (1985: eh. 6). Insgesamt gilt, daß die Argumente Für die eine oder andere Wertung der Affrikaten zu widersprüchlichen und unklaren Ergebnissen führen (siehe etwa Wurzel 1981: 938ff.). Ein Argument für die sogenannte monophonemische Wertung ergibt sich z.B. aus den Tabellen (34) und (67). Wenn wir die Generalisierung, daß das Deutsche zwei Anlautkonsonanten und zwei Auslautkonsonanten erlaubt, aufrechthalten wollen, müssen wir annehmen, daß sich /ts/ und /pf/ wie ein Segment verhalten. Andernfalls gäbe es dreielementige Cluster im Anlaut wie in Pflock, zwei oder Pfropf, und zwar nur im Falle der Affrikaten. Analog wäre die Beschränkung auf zwei Konsonantenpositionen im Auslaut für die Affrikaten aufgehoben, siehe Falz, Herz oder Dampf. Nach Regel IV von Trubetzkoy (1939: 53) sind die Affrikaten des Deutschen daher monophonemisch zu werten. Ein ebenso gutes Argument ist jedoch das in 2.3 Für das Chinesische vorgetragene: Die Affrikaten stellen zweifellos zwei Merkmalsbündel dar. Es läßt sich zeigen, daß jeder Versuch, daraus ein einziges Merkmalsbündel zu konstruieren (siehe (9)), zu unbefriedigenden oder widersprüchlichen Ergebnissen Führt. Die Tatsache, daß die Affrikaten aus zwei Segmenten bestehen, war immer das Hauptargument Für die biphonemische Wertung. Die hier vorgeschlagene Lösung des Affrikatenproblems ist, kaum noch überraschend, die in (37). Die zwei Segmente sind mit einer C-Position assoziiert. Die Segmentschicht beschreibt ohne Probleme die artikulatorischen Eigenschaften, während die Tatsache, daß sich die zwei Segmente phonotaktisch wie ein Konsonant verhalten, ausschließlich auf der CV-Schicht abgebildet wird. Der widersprüchlichen Evidenz für den Status der Affrikaten ist damit Genüge getan. Wie im Chinesischen gilt, daß die in den Affrikaten vorkommenden Segmente auch unabhängige Existenz besitzen. Die Zahl der Segmente in der Sprache wird also nicht vermehrt. (37)
C
Af
p
C
t
s
Unter Lernbarkeitsgesichtspunkten kann man sich die Frage stellen, wie eigentlich der Lerner einer Sprache weiß, wann eine Lautverbindung eine Affrikate ist und wann nicht. Es ist jedoch so, daß daFür einiges an Evidenz vorhanden ist. Von den
62
oben angeführten Regularitäten abgesehen, kann man auch feststellen, daß Affrikaten Lautkomplexe sind, die grundsätzlich nicht in die phonotaktisch zugelassenenen Muster passen. Wie in 3.7.1 deutlich wird, erlauben die Sonoritätsbeschränkungen des Deutschen einen Cluster wie /is/ oder /pf/ zumindest im Auslaut nicht, und zwar, weil die Sonoritätshierarchie zwischen den Segmenten dies nicht zuläßt. Wenn also Kombinationen wie /pf/ und /ts/ vorkommen, muß es sich um exzeptionelle Strukturen handeln. Die Strukturen in (37) erfüllen diese Bedingung, wie in Abschnitt 3.7.1 gezeigt wird. Die Frage, ob auch [tj], [ps] und [ks] Affrikaten des Deutschen sind, läßt sich nicht eindeutig beantworten. Für den Affrikatenstatus spricht, daß sie ebenfalls einige grundlegende phonotaktische Beschränkungen verletzen. So wird in deutsch das Silbenschema (35) überschritten, wenn [t] und [J] zwei Positionen einnehmen. Andererseits bilden diese drei Lautsequenzen zumindest im Anlaut keine Cluster mit anderen Konsonanten, obwohl *[t/l] und ähnliches recht gut denkbar wäre, [ts] verbindet sich immerhin mit [v], siehe zwei. Für das [s] in finalem [ps] und [ks] steht außerdem eine andere Analyse zur Verfügung, nämlich die eines extrasilbischen Segments, wie sie in Abschnitt 3.8.4 entwickelt wird. Vorläufig will ich annehmen, daß zumindest [tj] eine markierte Affrikate des Deutschen ist. Ihre Markiertheit kommt auch dadurch zum Ausdruck, daß [t] und [/] nicht homorganisch gebildet sind. Diese Eigenschaft haben auch [ps] und [ks], [pf] und [ts], die zweifelsfreien Affrikaten, dagegen nicht. 3.3. Vokalquantitäten und der Silbenkern Der zweite Komplex von Argumenten für das vorgeschlagene Silbenmodell wird von den Quantitätsverhältnissen der Vokale geliefert. Die wichtigsten Fakten dazu wurden in (32) aufgeführt. Es gilt, daß lange Vokale zu Diphthongen äquivalent sind, und beide wiederum zu einem Kurzvokal plus einem folgenden Konsonanten. Diese Regularität, deren Bedeutung bereits Moulton (1956) betont hat, wird adäquat erklärt, wenn folgende Annahmen über die Assoziation von Vokalen mit der CV-Schicht gemacht werden: Ein kurzer Vokal ist ausschließlich mit V assoziiert; die beiden folgenden C-Positionen in der Silbe sind frei für die Konsonanten, siehe (38a). Ein Diphthong besteht aus einem silbischen und einem nicht-silbischen Teil. Nicht-silbisch zu sein, heißt einfach, mit einem C assoziiert zu sein, wie in (38b). Für einen Konsonanten ist dann nur noch eine C-Position frei, was ja auch den Tatsachen entspricht. Lange Vokale schließlich erscheinen in den gleichen Umgebungen wie Diphthonge, wir können sie daher ebenso behandeln. Hier (siehe (38c)) ist ein Segment mit zwei Positionen assoziiert. Rein strukturell liegt also im Vergleich zu den Affrikaten der umgekehrte Fall vor.
(38) a. V C C
l l l
a l s
b. VCC
l l l
a u s
c.
VCC
V I
ä s
63
Damit ist auch der Unterschied zwischen den langen und den kurzen Vokalen ausgedrückt. Die Länge (besser: die Quantität, siehe 3.3.3) von Vokalen ist jetzt auf der CV-Schicht dargestellt; es wäre also redundant, die vokalischen Segmente mit dem Merkmal [ lang] zu versehen. Neben dem Merkmal [silbisch] (siehe Abschnitt 2.4) haben wir damit ein zweites Merkmal aus der segmentalen Repräsentation entfernt und es als eine besondere silbenstrukturelle Konfiguration interpretiert. Das ist ein erwünschtes Ergebnis, denn auch die Vokallänge ist nicht so sehr ein inhärentes Merkmal wie andere. Ein /i/ ist eben ein /i/, unabhängig davon, ob es kurz oder lang, silbisch oder nichtsilbisch ist. Dagegen ist ein gerundetes /i/ kein /i/ mehr, sondern ein /v/. (Zu dem Problem der Gespanntheit siehe unten.) Die Behandlung der Vokallänge als ein segmentales Merkmal [± lang] sowohl in der strukturalistischen wie in der generativen Phonologic war im übrigen ein Rückschritt im Vergleich zu der Erkenntnis von Jakobson & Halle (1956: 34), daß Länge unter die prosodischen Merkmale einzureihen ist. Die Unterscheidung zwischen inhärenten und prosodischen Merkmalen bei diesen Autoren formuliert überhaupt ein Programm, das erst in den neueren nicht-linearen Theorien ausgeführt wird: "The distinctive features are divided into two classes: (l) prosodic and (2) inherent. A prosodic feature is displayed only by those phonemes which form the crest of the syllable, and it may be defined only with reference to the relief of the syllable or of the syllable chain; the inherent feature, however, is displayed by phonemes irrespective of their role in the relief of the syllable, and the definition of such a feature does not refer to the relief of the syllable or of the syllable chain." (Jakobson & Halle 1956: 33) Mit der Annahme, daß z.B. [a:] wie in (38c) zu analysieren ist, ist auch die Entscheidung gefallen, die Vokale zugrundeliegend als lang bzw. kurz zu klassifizieren. Eines der umstrittenen Probleme in der Phonologic des Deutschen ist die Frage, ob nicht anstelle der Länge die Gespanntheit als Grundlage der Vokalklassifikation zu verwenden ist. Letztere Lösung wird von Wurzel (1981) und Vennemann (1982) vorgezogen. Kloeke (1982) verwendet dagegen beide Merkmale. Allerdings ist auch für Kloeke [gespannt] das zugrundeliegende distinktive Merkmal. Gespannte Vokale und / / plus einem diakritischen Merkmal (+ L) werden dann gelängt. 4 Der hier gemachte Vorschlag beinhaltet, daß das Merkmal der Länge und nicht das der Gespanntheit als klassifizierendes Merkmal verwendet wird. Diese Lösung muß im folgenden gerechtfertigt werden. Für die Vokale des Deutschen gilt, daß Länge und Gespanntheit weitgehend miteinander korrelieren; lange Vokale sind gespannt, und gespannte Vokale sind lang. Probleme gibt es erstens beim Paar / :/ vs. /e:/ wie in Mädchen vs. Meter und säen vs. sehen. Dieses Problem wird gelegentlich dadurch gelöst, daß man (Moul4) Der Unterschied zwischen Betten und bäten entsteht also also auf der Basis von / / in ersterem und / / in letzterem Wort.
64
ton 1947 folgend) das lange / :/ zu einem Phantom erklärt, das, durch die Orthographie begünstigt, als hyperkorrekte Form vorkommt. Auch wenn dies für eine Reihe von Dialekten richtig ist, scheint es doch für das Standarddeutsche nicht zuzutreffen. Allerdings darf man Beispiele mit folgendem /K/ nicht zur Beurteilung heranziehen, da /K/ offensichtlich den vorangehenden Vokal in seiner Qualität beeinflußt und dadurch der Unterschied zwischen den Vokalen neutralisiert wird: Bären und Beeren, Mähre und Meere, Gewehr und Gewähr sind zumindest in meinem Dialekt identisch.5 Ausspracheunterschiede in solchen Wörtern (sofern möglich) sind tatsächlich Schriftaussprachen, in stählen vs. stehlen, legen vs. lägen und Gleichen vs. Mädchen dagegen nicht. Das ungespannte / / kann also sowohl lang wie kurz sein (Mädchen vs. Gretchen vs. Mett, stehlen vs. stählen vs. stellen). Zweitens ist ungeklärt, ob der Gespanntheitsunterschied sich auf den offenen Vokal /a/ bezieht. Während Kloeke (1982) davon ausgeht, daß sich /a/ wie die übrigen Vokale verhält (/a/ vs. / :/), sieht Wurzel (1981) die Verhältnisse gerade umgekehrt; das /a/ in Bahn oder fahl soll ungespannt sein, das in Bann oder Fall dagegen gespannt. Mit Vennemann (1982) nehme ich an, daß es für /a/ keinen Gespanntheitsunterschied gibt. Die widersprüchliche Behandlung in der Literatur spricht Für diese Hypothese. Völlig unnachvollziehbar ist mir der Kontrast von JapiaJn und JapfaJnologe, den Kloeke (1982: 10) aufführt. Die in der traditionellen deutschen Phonetik vertretene Auffassung, daß zwei verschiedene /a/-Qualitäten identifizierbar sind, wird auch von livonen (1987: 321ff.) kritisch diskutiert. Die entscheidende Frage ist aber, ob die Länge Gespanntheit impliziert oder die Gespanntheit Länge. Ein erstes Argument für die Verwendung der Länge als das zugrundeliegende Merkmal ergibt sich aus dem soeben erwähnten Verhalten von /a/. Wenn es richtig ist, daß Für die zwei /a/-Phoneme kein Gespanntheitsunterschied auszumachen ist, kann der distinktive Unterschied zwischen den genannten Wörtern nur in der Länge liegen. Bahn und Bann sind ja Minimalpaare. 6 Ein zweites Argument ergibt sich aus dem phonotaktischen Verhalten der langen bzw. gespannten Vokale. Wie oben und in (38) dargestellt, verhalten sich diese Vokale wie Diphthonge und Kurzvokal-Konsonant-Sequenzen. Wenn nun diese Vokale nicht als lang, sondern als gespannt klassifiziert werden, ist völlig unerklärbar, warum diese sehr grundlegende phonotaktische Beschränkung existiert. Unter der Annahme, daß es sich zugrundeliegend um lange Vokale handelt, deren Länge außerdem autosegmental repräsentiert wird, ist die phonotaktische Beschränkung dagegen unmittelbar erklärt.
5) Man kann diese Beeinflussung des Vokals durch /K/ mit einer Regel wie die des "r-Lowering" in SPE beschreiben. 6) Zu dem gleichen Ergebnis hinsichtlich Länge und Gespanntheit im deutschen Vokalsystem kommt auch Ternes (1987: 90). Ternes nimmt ebenfalls an, daß /a/ und /a:/ im Standarddeutschen nur durch die Länge unterschieden sind.
65
Die Korrelation zwischen Länge und Gespanntheit im deutschen Vokalsystem kann durch die folgenden Strukturbedingungen mit dem Status von Redundanzregeln ausgedrückt werden. Die Gespanntheit ist ein vorhersagbares Merkmal, das durch (39) eingeführt wird. Diese Regeln spielen, wie in 3.3.2 deutlich wird, auch in bestimmten Alternationen eine Rolle. Die Wörter mit langem [ :], die zweifellos einen marginalen Status haben und daher in manchen Varianten gar nicht vorkommen, sind als explizite Ausnahmen zu (39) markiert. Das Merkmal [gespannt] ist damit eines, das nicht distinktiv ist, sondern durch eine Redundanzregel eingeführt wird. Der Kontrast zwischen / / und / :/ wird durch die Ausnahmemarkierung zu dieser Redundanzregel hergestellt.
(39)
a. V
V
C
L+ gesp. J
b. V
!
|_- 8esp. J
Die Lösung, lange Vokale als Sequenzen zweier Segmentpositionen zu analysieren, hat einen Vorläufer in Gestalt der Geminatenrepräsentation für lange Vokale. Hier wird anstelle eines Merkmals wie [± lang] eine Sequenz /w/ für Länge verwendet. 7 Moulton (1956) begründet sie anhand des Deutschen ebenfalls damit, daß lange Vokale im wesentlichen die gleiche Distribution wie die Diphthonge haben. Der entscheidende Unterschied der hier vorgeschlagenen Analyse im Vergleich zur "klassischen" ist, daß letztere von Segmentsequenzen ausgehen muß. Ein Wort wie See ist für Moulton also phonemisch als /zee/ zu repräsentieren und nicht, wie hier, durch die nicht-lineare Struktur (40).
(40)
C V C
l eV
z
Wir können für die autosegmentale Lösung und gegen die 'Geminations-Lösung' ein weiteres empirisches und ein innertheoretisches Argument aufführen. Wie Kloeke (1982: 7) bemerkt, führt die sequentielle Analyse zu Problemen bei der Formulierung der Umlautregularität. Umlautung möchte man immer als die Merkmalsveränderung eines Segmentes betrachten, wie insbesondere der Diphthong /au/ zeigt. Umgelautetes /au/ ist Coy], wo nur das letzte Segment umgelautet wird. (Das [o] ergibt sich wohl durch eine Rundungsassimilation, siehe Kloeke (1982) und Lenerz (1985).) Wenn lange Vokale aber als /aa/, /uu/, usw. betrachtet werden, muß in diesen Fällen Umlautung zwei Segmente betreffen, denn 7) Kenstowicz & Kisseberth (1979: 377 .) argumentieren, daß beide Längenrepräsentationen (als Geminate und als i± lang] vorkommen können. Die Argumente flir die Merkmalsnotation entfallen vielleicht, wenn Länge, wie hier, nichtlinear dargestellt wird.
66
aus /uu/ wird ja /yy/ und nicht /uy/. Die hier vorgeschlagene Lösung vermeidet dieses Problem, da die Umlautung als eine Merkmalsveränderung auf die Segmentschicht zugreift. Ob die Segmente mit einer oder mit zwei Positionen assoziiert sind, ist für die Umlautung irrelevant. Es gibt schließlich noch ein formales Argument gegen die Geminationslösung, das allerdings nur innerhalb des vorgeschlagenen Modells gültig ist: Daß lange Vokale nicht als, z.B., /aa/ repräsentiert werden können, folgt direkt aus dem "Prinzip der Obligatorischen Kontur", das in (28) Tür das Chinesische eingeführt wurde und Sequenzen identischer Segmente verbietet. Das Fazit aus den Überlegungen zu den langen Vokalen ist vielleicht, daß diese sich einerseits wie einfache Segmente verhalten, z.B. in bezug auf die Umlautregularität. 8 Andererseits zeigen sie Eigenschaften zweier Segmente, insbesondere in der Phonotaktik. Genau diese Ambiguität wird durch die in (38) vorgeschlagene Repräsentation zum Ausdruck gebracht. 3.3.1 Diphthonge in anderen Sprachen Die vorgeschlagene Analyse für Diphthonge weist diesen wie den langen Vokalen zwei Positionen auf der CV-Schicht zu. Dies ist die Folge der phonotaktischen Muster und Beschränkungen im Deutschen und nicht eine universell gültige Situation. Für die Diphthonge im Chicano-Spanischen zeigen Clements & Keyser (1983: Kap. 3.7), daß diese wie einfache Vokale zu analysieren sind. Im Gegensatz zum Deutschen nehmen sie den Platz eines kurzen Vokals ein. Es ergeben sich dann Repräsentationen wie in (4l).
(41)
C V CV buen o
Bemerkenswerter sind die Verhältnisse im Isländischen, das Diphthonge aufweist, die sich wie lange Vokale, und andere, die sich wie kurze Vokale verhalten (siehe z.B. Lass 1984: 112). Insbesondere können den kurzen Vokalen oder Diphthongen zwei Konsonanten folgen und den langen Vokalen oder entsprechenden Diphthongen nur einer. (Das Silbenschema scheint also identisch zu dem des Deutschen zu sein!) Diese Regularität ergibt sich auf natürliche Weise, wenn wir annehmen, daß die Segmente nach den folgenden Schemata einer VCC-Sequenz im Silbenauslaut zugeordnet werden.
(42)
a. V C C
M I
v k k
b. V C C
V I v
k
c. V C C
A l l v v
i jk k
d. V C C
l l l
v v
j j k
8) Eine entsprechende nichtlineare Regel für den Umlaut im Deutschen wird in Wiese (I987b) formuliert.
67
Innerhalb dieser Lösung für die Diphthonge sind weder sequentiell angeordnete Merkmale (etwa [- hoch], [+ hoch]) noch komplexe Längenmerkmale erforderlich. Alle Quantität s angäbe n werden durch die Art der Assoziation mit der CVSchicht vorgenommen.9 3.3.2. Der Silbenkern im Deutschen Die ungespannten Vokale des Deutschen sind nach (39) nur mit V assoziiert. Diese Vokale haben aber noch die weitere Eigenschaft, daß sie nicht ohne einen Schlußkonsonanten in der gleichen Silbe vorkommen. Es gibt keine Silben der Art (43a).10 Ich will aus Gründen, die in Abschnitt 3.9.2 erläutert werden, annehmen, daß diese Beschränkung nicht nur für wortfinale Silben gilt, sondern für alle Silben. Diese Annahme ist zwar in der Literatur umstritten (Sind der zweite und der dritte Vokal in Risiko lang oder kurz?), scheint mir aber letztlich richtig zu sein. Weitere Argumente für diese Position werden in Abschnitt 3.3.3 diskutiert. (43) a.
*o
c
b.
v
Kern
v c
Es gilt danach für das Deutsche eine Regularität, daß die auf V folgende C-Position ebenso obligatorisch ist wie die V-Position selbst. Diese Beobachtung läßt sich dadurch berücksichtigen, daß diese beiden Positionen den Kern oder Nukleus der Silbe (43b) bilden. Der Kern ist der einzige obligatorische Bestandteil der Silbe im Deutschen, während in anderen Sprachen, die keine Quantitätsbeschränkungen dieser Art kennen, nur die V-Position obligatorisch ist (siehe die Analyse des Chinesischen im vorangehenden Kapitel). Auf die zwei Positionen im Kern kann natürlich auch ein einziges (vokalisches) Segment bezogen werden. Genau dann liegt der in (38c) und (40) illustrierte lange Vokal vor. Daß Silben im Deutschen ohne Ausnahme die Struktur (43b) als Minimum enthalten, zeigt sich auch durch die folgende, sehr häufig anzutreffende Alternation: Ein langer gespannter Vokal kann in der Umgangssprache als kurzer ungespannter Vokal realisiert werden, wie die Beispiele in (44) illustrieren. In diesen Fällen muß der folgende Konsonant aber in den Auslaut der ersten Silbe übernommen werden, d.h., er wird ambisilbisch, falls nur ein einziger Konsonant zur Verfügung steht. Eine auf gekürzten Vokal endende Silbe ist ausgeschlossen. (Ambisilbische Konsonanten werden hier mit dem Silbentrennungsstrich über dem Konsonant notiert. Das erste und das vierte Beispiel in (44) enthalten zwei Beispiele der Vokalkürzung. Außerdem wird deutlich, daß die Vokalkürzung typischerweise, wenn auch 9) Unklar ist mir im übrigen, wie in den kurzen Diphthongen die Silbigkeit zu repräsentieren ist. Vielleicht sind in diesem Fall beide Segmente gleichermaßen silbisch. 10) Die gleiche Beobachtung wurde von Fudge (1969) flir das Englische gemacht.
68
nicht ausschließlich, auf lange Vokale in nicht-nativen Wörtern angewandt wird, und zwar bevorzugt dann, wenn der Vokal nicht den Wortakzent trägt.) Die Tatsache, daß gespannte Vokale bei Kürzung zu ungespannten werden, illustriert noch einmal die Geltung des in (39) beschriebenen notwendigen Zusammenhangs zwischen Länge und Gespanntheit. Hier steht jedoch das Argument im Mittelpunkt, daß die Resilbifizierung (folgender Konsonant wechselt vom Silbenanlaut in den Auslaut) dadurch erklärbar ist, daß keine auf kurzen Vokal endende Silbe zugelassen ist. (44) Afrika: [a:-fri:-ka:] vs. Caf-nka:] Metall: [me:-tal] vs. [metal] zumal: [tsu:-ma:l] vs. Ctsuiha:!] Philosophie: [fi:-lo:-zo:-fi:] vs. [filo:-zo?i:] Kalender: [ka:-lEn-dE] vs. CkaFsn-dK] Kuli: [ku:-li:] VS. [kUÜ:] Eine sich anbietende und von McCarthy (198l) für die langen Vokale im Arabischen gewählte Alternative zur Behandlung der langen Vokale in der Form V C besteht darin, auch die Kette V V auf der CV-Schicht zuzulassen. Eine Variante davon wird auch von Steriade (1982: 164ff.) vorgeschlagen: Im attischen Griechisch gibt es lange gespannte Vokale, die - aus ganz unabhängigen Gründen - als VC-Sequenzen zu analysieren sind, und lange ungespannte Vokale, die nach ihrem Vorschlag mit V V assoziiert sind, siehe (45). Gespanntheit kann sich in diesem Modell als Konsequenz der unterschiedlichen Assoziierung ergeben.
(45) a.
V
C
V
b. V
V
V
Der Nachteil für die Analyse des Deutschen ist offensichtlich der, daß die Parallele zwischen langen Vokalen, Diphthongen und Kurzvokal-Konsonant-Sequenzen teilweise aufgegeben wird. Allerdings wäre es möglich, diese Parallele dadurch zu retten, daß man die auf V folgende Position hinsichtlich des Merkmals [silbisch] gar nicht spezifiziert. Es entstünde als ein Kern der Form 'V X'. Diese minimal spezifizierte Position auf der CV-Schicht kann Segmente jeder Art aufnehmen, was ja gerade eine besondere Eigenschaft dieser silbenstrukturellen Position ist. Aus zwei Gründen bleibe ich dennoch bei der in (43b) vorgeschlagenen Lösung. Erstens kann die Nichtsilbigkeit der Gleitlaute in Diphthongen damit ausgedrückt werden. Zweitens bietet die Analyse der Silbe mit einer V-Position und (prinzipiell) beliebig vielen C-Positionen die Möglichkeit, V als den Kopf der Silbe aufzufassen. Alle anderen Positionen sind dann Komplemente zu diesem Kopf. Diese Sichtweise, auf die ich im Schlußkapitel zurückkomme, hat sich in anderen Bereichen, und
69
zwar sowohl in der phonologischen Komponente wie in der Syntax und Wortbildung, als fruchtbar erwiesen. Sie sollte daher auch für die Silbe überlegt werden. Aus Gründen, die im folgenden Abschnitt näher erläutert werden, ist der Kern keine Subkonstituente der Silbe, sondern einfach eine vom Silbenknoten unabhängige Kategorie, die mit V und folgendem C assoziiert ist. Man hat sich das ganze Silbenmodell dreidimensional vorzustellen, und zwar mit der CV- Schicht als einer zentralen Achse. Eine Reihe weiterer autosegmental organisierter Merkmale wie etwa Töne können ebenfalls mit der CV-Schicht assoziiert sein, siehe (46). Das vorgestellte Silbenmodell gehört also eher zur Klasse der autosegmentalen Modelle als in die der metrisch-hierarchischen.
C C V C C
r\j
3.3.3. Vokallänge und Wortakzent im Deutschen In Übereinstimmung mit gängigen Ansichten über die Laute der deutschen Sprache wurde im vorangehenden Abschnitt angenommen, daß im Deutschen zwei Vokalklassen vorhanden sind: die langen gespannten (/i:/, /e:/ usw.) und die kurzen, ungespannten Vokale (/ /, / / usw.).11 In einigen gründlichen Analysen zur Phonologic des Deutschen hat sich aber die Ansicht durchgesetzt, daß das Deutsche drei Klassen von Vokalen besitzt. Diese Analyse findet sich z.B. bei Wurzel (1981: 7.3.2.2.), Kloeke (1982: 1.2) und Giegerich (1985: 2.2.2.). Die Gründe dafür und die Probleme mit dieser Auffassung werden im folgenden diskutiert. 3.3.3.1. Das Problem Man betrachte dazu die Wörter Medizin und Philosophie. Nach Auffassung der genannten Autoren ist in Wörtern wie diesen nur der jeweils letzte Vokal lang, alle anderen Vokale sind, obwohl gespannt, kurz. Sie sind also folgendermaßen zu transkribieren: tmeditsi:n], [filosofi:]. (Zu den Aussprachevarianten solcher Wörter mit ungespannten Vokalen siehe (44).) Dieses Kapitel untersucht die Berechtigung der Annahme, daß eine Klasse von zugrundeliegenden Vokalen mit der Merkmalskombination [- lang, + gespannt] existiert. Ich werde zu zeigen versuchen, daß eine Analyse ohne eine solche Annahme möglich und vorzuziehen ist. Falls die strittigen Vokale doch existieren, gilt die Kernbeschränkung (43b) für das Deutsche nicht. Ebenfalls muß dann neben der Länge die Gespanntheit als distinktives Merkmal angenommen werden.
1l) Daneben existiert noch das exzeptionelle /£·./.
70
Einige relevante Daten zu dem Problem werden in Tabelle (47) dargestellt. (Echte Minimalpaare sind hier schwer zu finden. Die Argumentation wird dadurch vermutlich nicht beeinträchtigt, da die Verhältnisse zwischen Silben auf die Vokallänge keinen Einfluß haben.) Die kritischen Vokale sind diejenigen in Spalte 2, die nicht den Wortakzent tragen. Aus der Tabelle wird auch klar, daß die Distribution der kurzen gespannten Vokale beschränkt ist: Sie können nur dann erscheinen, wenn die Silbe nicht betont ist und es sich um ein nicht-natives Wort handelt. Von der letzteren Beschränkung gibt es allerdings relativ viele Ausnahmen wie in zumal, darum, vielleicht. Auch bei den Wörtern mit Kurzvokal II gibt es die in (44) dargestellte Vokalkürzung mit den entsprechenden Konsequenzen für die Silbenstruktur. Der folgende Konsonant wird ambisilbisch. Neben Cme-tal] existiert also [imtalL (47) Kurzvokale I [- gespannt] Tenne Mette locker Kultus Banken Muster dich Syntax
Kurzvokale II [+ gespannt]
Langvokale [+ gespannt]
Tenor Metall Biologie kulinarisch Banause Museum direkt Synagoge
Tenor Metrik Biologe Kuli Bake Musen Diener Syrien
Zur Begründung dieser Analyse gibt es phonetische und auch phonologische Argumente. Erstens läßt sich tatsächlich zeigen, daß die Vokale in Spalte 2 von Tabelle (47) um einiges kürzer sind als die in Spalte 3 (siehe Angaben von Meinhold & Stock 1980: 90). Eigene instrumentell-phonetische, allerdings nur stichprobenartige Untersuchungen unterstützen diese Behauptung. Zweitens, und das ist in diesem Zusammenhang wichtiger, hat die dreifache Unterteilung der Vokale eine wichtige Funktion für die Formulierung der Akzentregeln. Es gibt Gründe, anzunehmen, daß es im Deutschen (wie auch im Englischen oder im Lateinischen) eine Regel für die Zuweisung des Wortakzentes gibt, die von rechts nach links das Wort auf eine schwere Silbe absucht und der letzten schweren Silbe den Wortakzent zuweist. Wenn unter den letzten drei Silben keine schwere ist, erhält die jeweils letzte Silbe (von rechts gesehen) den Wortakzent. Bei Giegerich (1985: 31, siehe auch Wurzel 1981: 918) ist diese Regel wie in (48) formuliert. Die Regel ist ähnlich, aber nicht identisch zur Regel (3) in Abschnitt 1.4.
71
(48)
s
Silbe -> Silbe /
((leichte Silbe) leichte Silbe) ] \yort
Die Regel ist hier so formuliert, daß die letzte schwere Silbe (falls es keine gibt, die letzte gefundene) ein s (siehe zu dieser Notation die Einleitung) erhält. Andere Prinzipien sorgen dafür, daß dieses s nur von weiteren s-Knoten dominiert wird, d.h. den Wortakzent repräsentiert. Die Regel ist nach der Klammerkonvention von SPE zu interpretieren. Danach wird die maximale Expansion der Kontextbedingung zuerst angewandt. Wenn dies nicht möglich ist, da unter den letzten beiden Silben eine schwere ist, wird der innere als optional gekennzeichnete Klammerausdruck weggelassen und dann wiederum die Anwendung der Regel versucht. Scheitert auch dies, muß die letzte Silbe eine schwere sein, die dann den Wortakzent erhält. Unklar ist im übrigen, ob diese Regel für den gesamten Wortschatz des Deutschen gilt (wie Giegerich annimmt) oder nur für den nicht-nativen Teil (wie Wurzel postuliert). Ich gehe davon aus, daß (48) letztlich keine der Wortakzentregeln des Deutschen ist. Stattdessen gibt es möglicherweise eine Wortakzentregel, die die erste und eine, die die letzte Silbe im Wort akzentuiert, siehe die Überlegungen in Abschnitt 3.9. Diese Regeln interagieren mit anderen Mechanismen der Grammatik. Eine Anzahl Wörter des Deutschen endet in einem gespannten Vokal. Wie (49) zeigt, gibt es darunter endbetonte Wörter wie die in (49a) und Wörter mit dem Akzent auf der zweitletzten Silbe, siehe (49b). Zusätzlich zu den in (49) aufgeführten Paaren gibt es lexikalische Dubletten wie Kanu vs. Kanu oder Frikassee vs. Frikassee, die sich nur durch den Akzent (und die Vokallänge?) unterscheiden. Wie Kaffee vs. Cafe zeigt, ist es in diesen Fällen möglich, daß sich zwei Lexeme entwickeln.
(49)
a. Etui Büro Tabu Cafe
b. Gummi Konto Akku Kaffee
Betrachten wir nun eines der Wörter, die sich ausschließlich durch die Position des Akzents unterscheiden. Wenn wir annehmen, daß Kanu auf der letzten Silbe betont wird, da diese Silbe lang ist, Kanu aber auf der ersten Silbe, da die letzte kurz (und damit leicht) ist, stellen solche Wörter für die obengenannte Akzentregel (48) kein Problem dar. Die Vokalklassifikation aus (47) wird also durch die Möglichkeit einer generalisierten Akzentregel begründet. Um dies noch einmal an einem Beispiel zu verdeutlichen: In Büro ist der finale Vokal als lang markiert, so daß sich nach Regel (47) die Endbetonung ergibt. In
72
Kino dagegen soll das /o/ kurz sein, so daß nur der Wortzakzent auf der ersten Silbe übrig bleibt (siehe auch Wurzel (1980: 313), wo diese Analyse am Beispiel von Partie vs. Party durchgeführt wird.). 3.3.3.2. Konsequenzen für die Silbenphonologie Es ist offensichtlich, warum die Kurzvokale II aus Tabelle (47) dem bisher entwikkelten Modell widersprechen. Erstens fügen sich diese Vokale nicht in die für das Deutsche angenommenen Beschränkungen der Assoziation von Vokalen, wonach lange Vokale als gespannte, kurze als ungespannte Laute realisiert werden. Dieses Prinzip hat zwar eine Ausnahme in Form der möglichen Assoziation von / / mit zwei Positionen, dennoch sollte es nicht ohne zwingenden Grund aufgegeben werden. Wichtiger sind jedoch die folgenden Probleme. Nach der hier entwickelten Theorie bestehen zugrundeliegende lexikalische Repräsentationen aus Ketten von Segmenten, die mit X-Positionen assoziiert sind. Diese werden in der phonologischen Komponente des Lexikons silbifiziert, u.a., damit Akzentregeln wie (48) wirksam werden können. Nun erweist sich jedoch, daß die "Länge" von Vokalen außerordentlich variabel ist. So besitzt national Endbetonung, da der Suffix-Vokal lang ist. Der gleiche Vokal soll in Nationalität kurz sein, da die entsprechende Silbe keinen Wortakzent trägt. (Daß diese Alternation nichts mit dem Suffix-Status von +al zu tun hat, zeigt das Paar Skandal - skandalös.) Das bedeutet entweder, daß /a/ hier zugrundeliegend lang ist, aber nur unter Betonung auch so erscheint, oder daß die Akzentzuweisung der Silbifizierung vorausgeht, damit die Festlegung des Quantitätswertes möglich ist. Letztere Lösung ist ausgeschlossen, da Akzentregeln in jedem Fall auf den Silben operieren; zur ersteren ist zu bemerken, daß unter diesen Umständen kaum noch ein Zusammenhang zwischen zugrundeliegender Länge der Vokale und ihrer Oberflächenform existiert. Denn lange Vokale erscheinen immer dann kurz, wenn sie keinen Wortakzent tragen, und kurze (gespannte) Vokale werden lang, wenn sie den Wortakzent erhalten. Dieser enge Zusammenhang von Länge und Akzent wird von den genannten Autoren durchaus bemerkt. Man vertritt jedoch die Auffassung, daß eine Differenzierung von zugrundeliegenden langen und kurzen gespannten Vokalen erforderlich ist, um die Wortakzentregel formulieren zu können. Es ist sicher eine aus theoretischen Gründen nicht wünschenswerte Konsequenz dieser Analyse, daß sowohl Längungsregeln wie Kürzungsregeln erforderlich sind. In chemisch muß das /e/ unter Wortakzent gelängt werden, während beide /a/'s in Nationalität und auch die nebenbetonten Vokale in vielleicht, sowohl, etc. gekürzt werden müssen. Ein drittes Problem besteht darin, daß die Kern-Bedingung (43b), die für alle Silben eine Struktur V C vorsieht, für Silben auf kurzen, gespannten Vokal nicht gelten würde. Diese Silben müssen ja nicht auf einen Konsonanten enden; die Silbifizierung ist (standardsprachlich) [me-di-tsi:n].
73
Als ein letztes Fallbeispiel (und Argument gegen die Analyse aus Tabelle (47)) sei das häufig genannte Wortpaar übersetzen - übersetzen herangezogen. Für Lass (1976: 48f) und Giegerich (1985: 55) ist /y/ im ersten Wort lang ([y:]), im zweiten aber kurz ([y]). Hier erweist sich endgültig, daß mit dieser Charakterisierung eine vielleicht phonetisch korrekte Beschreibung geliefert wird, die aber von den lexikalischen Repräsentationen der Wörter völlig unabhängig ist. Zunächst ist festzuhalten, daß über ein selbständiges Lexem ist. Es besitzt auch ein eigenes Akzentmuster (stark - schwach), das in den komplexen Ausdrücken erhalten bleibt. Zweitens sind beide Varianten des Wortes wohl so zu analysieren, daß der morphologische Wortstatus erhalten bleibt. So kann man das trennbare Verb übersetzen als restrukturierten Verbkomplex betrachten wie in (50a), die nichttrennbare Variante überse'tzen dagegen als ein Kompositum der Form (50b); siehe Wunderlich (1983). In beiden Analysen gibt es keinen Grund, über einen Wortakzent abzusprechen. (50)
a. b.
yj[ p [über] y0[setzen]] (übersetzen) YQ [ p [über] yQ [setzen]] (übersetzen)
Wenn man dennoch an der Beobachtung festhalten will, daß /y/ in übersetzen kürzer ist als in übersetzen, ergibt sich zwingend die Notwendigkeit, mehr als zwei Längenunterschiede anzunehmen. Das /y/ in der zweiten Variante ist zwar lang aufgrund des Wortakzentes in über, aber kurz im Vergleich zum ersten /y/, das einen zusätzlichen Akzent (vielleicht einen Phrasenakzent) trägt. Anders gesagt, gibt es in offenen Silben so viele Längenunterschiede für Vokale, wie es Akzentabstufungen gibt. Wenn man die Idee, die gespannten Vokale des Deutschen nach ihrer Länge zu klassifizieren, konsequent weiterführt, würden sich die Vokale des Deutschen vervielfachen. Damit wird dieser Vorschlag ad absurdum geführt. Gerade wenn man das phonetische Faktum der unterschiedlichen Länge ernst nimmt, muß man auf die Zuordnung zu zwei phonologischen Längenwerten verzichten. 3.3.3.3. Eine Alternative Soweit ich sehe, besteht ein wirkliches phonologisches Argument für die Differenzierung zwischen Langvokalen und den Kurzvokalen II nur in ihrer Funktion für die Akzentregeln. So schreibt Wurzel (1981: 917): "... tatsächlich ist die Betonung der nicht-nativen Wörter auf der Basis der Vokallänge und der sonstigen Silbenstruktur unter Voraussetzung bestimmter morphologischer Gegebenheiten voll prädiktabel." Die hier erwähnten morphologischen Regularitäten beziehen sich darauf, daß einige nicht-native Suffixe (+on, +um, +us, etc.) immer unbetont bleiben, obwohl sie als schwere Silben (Vokal plus Konsonant) zu analysieren sind.
74
Der Zusammenhang zwischen Silbenschwere und Akzentzuweisung ist jedoch auch außerhalb dieser Fälle nicht so eindeutig. Die Wörter in (51 a) werden nicht auf der letzten Silbe betont, obwohl eine betonbare Silbe vorliegt, wie (51b) zeigt.12
(51) a. Fazit Japan Motor Konsul Amok Ballast Fakir Leopard Turban Pinguin
b. Graphit Dekan Motor Modul Barock Damast Papier apart urban Hermelin
Angesichts dieser Daten liegt es nun nahe, die oben erwähnten Paare wie Kanu Kanu, Kaffee - Cafe, Gummi - Etui ebenfalls hier einzuordnen und - zunächst einmal - zu bestreiten, daß die Silbenschwere (und damit die Länge des Vokals) für den Akzentunterschied verantwortlich ist. Im folgenden wird diese Lösung weiterverfolgt. Für die Akzentregeln kann die unterschiedliche Länge der Vokale dann nicht mehr herangezogen werden. In 3.9 wird skizziert, daß eine plausible Formulierung der Akzentregeln dennoch möglich ist. Die einzig adäquate Behandlung des Längenproblems für gespannte Vokale besteht nach der hier vorzuschlagenden Analyse darin, zwischen Quantität in der Silbe und Länge auf der phonetischen Oberfläche sorgfältig zu unterscheiden. Zu Beginn des Kapitels 3.3 wurde festgestellt, daß alle Silben mit langem Vokal einen Konsonanten weniger im Silbenauslaut erlauben. Diese sehr klare phonotaktische Beschränkung für Silben des Deutschen unterscheidet genau zwei Quantitätswerte im Bereich der Vokale. Diese Quantitätsunterschiede haben natürlich eine Auswirkung auf die phonetische Länge (wie in Bahn - Bann, Mus - muß), aber weitere Faktoren sind gleichfalls beteiligt. Wesentliche weitere Einflußgrößen auf die Vokallänge sind die Akzentwerte und die Zahl der Segmente pro Silbe. Auch die Position des Vokals im Wort ist relevant; es ist gut bekannt, daß wortfinale Vokale unter sonst gleichen Bedingungen länger sind als andere. Daß es mehr als zwei Akzent- und damit auch Längenwerte gibt, zeigt für sich genommen schon, daß hier ein anderes Phänomen vorliegt als die Quantitätsdistinktion, die nur zwei Stufen unterscheiden kann. Wenn hier die Existenz kurzer, gespannter Vokale bestritten wird, soll also nicht die phonetische Realität 12) Manche der Wörter in (5l) haben zwei Akzentmuster (Billast und Ballast), was aber die Argumentation nur bekräftigt.
75
solcher Vokale geleugnet werden. Es geht nur darum, zugrundeliegende Repräsentationen mit solchen Vokalen und damit Silben, die auf Kurzvokal enden, aus dem Modell zu eliminieren. Quantitätswerte werden im vorliegenden Modell durch die Assoziationen zwischen Segmenten und Positionen repräsentiert. Die Festlegung der Längenwerte muß im Gegensatz dazu wohl als ein Problem der phonetischen Realisierung angesehen werden. Phonetische Realisierung ist, im hier vorausgesetzten Grammatikmodell, die Abbildung phonologischer Repräsentationen in phonetische Parameter, die artikulatorischer oder akustischer Natur sein können. Ein Modell der phonetischen Realisierung zu liefern, ist nicht Ziel dieser Arbeit; daher will ich mich auf einige Hinweise dazu beschränken. Eine (oder mehrere?) der Realisierungsregeln des Deutschen hat offenbar die Vokalquantität, den Akzentwert und die Segmentzahl pro Silbe als Eingabe und berechnet auf dieser Grundlage einen - immer noch abstrakten - Längenwert für den Vokal. Er ist notwendigerweise abstrakt und nicht etwa eine metrische Angabe, da er auch an der aktuellen Sprechgeschwindigkeit relativiert werden muß. Daß diese Regel ein "low level"-Realisierungsphänomen ist, zeigt sich auch daran, daß sie n-äre Werte als Eingabe und Ausgabe hat. In dieser Hinsicht ist sie vermutlich weniger abstrakt als die Repräsentationen und Prozesse auf der phonologischen Ebene, die weitgehend oder ausschließlich mit binären Werten arbeiten. Man beachte, daß eine solche Regel die Funktion übernimmt, die in den Systemen von Wurzel oder Kloeke die Längungs- und die Kürzungsregel für Vokale besitzt. Das hier vorgeschlagene Modell ist also in dieser Hinsicht nicht komplexer als die Alternativen. Es ist insofern weniger komplex, als für die Vokale die traditionelle Zweiteilung angenommen wird. Wie ich oben zu zeigen versucht habe, führt die Erweiterung auf drei (oder gar mehr) Klassen zu empirischen und konzeptuellen Problemen und ist daher abzulehnen. Diese Schlußfolgerung entspricht wohl auch weitgehend den Intuitionen naiver Sprecher des Deutschen. 3.3.4. Schwa-Silben Aus dem im vorangehenden Abschnitt Ausgeführten folgt, daß alle Silben des Deutschen schwere Silben sind, da sie (mindestens) die Kette V C enthalten. Dies gilt jedoch scheinbar nicht Tür Silben mit Schwa als Vokal, wie in andere [andsKal. Für diese Silben sind die Verhältnisse gerade umgekehrt. Erstens können sie sehr wohl auf einen kurzen Vokal enden - so z.B. alle Wörter mit +e als Flexionsendung wie Mitt+e, schön+e, lauf+e; zweitens sind Schwa-Silben nach übereinstimmender Auffassung in der Literatur unakzentuiert. Wir möchten sie daher gerne als leichte Silben einstufen, und das, obwohl auch in Schwa-Silben postvokalische Konsonanten auftreten können, etwa in segeln oder laufend. Schwa und die entsprechenden Silben besitzen noch weitere Besonderheiten. In Kapitel II, 2 wird daher eine Analyse von Schwa als einem Epenthese-Vokal postuliert. Ein Ergebnis dieser Analyse ist, daß einem wort-finalen Schwa eine X-Posi-
76
tion zugrundeliegt, vor die ein V eingefügt wird. Unter dieser Annahme ergibt sich auch für die Schwa-Silben eine Minimalstruktur der Silbe in der Form V C. Wenn also auch Schwa-Silben der in (43b) formulierten Kern-Bedingung entsprechen, wird diese zwar ausnahmslos gültig, es muß aber erklärt werden, wie sich die "Leichtigkeit" der Silbe ergibt. Da nach dem soeben (und in II, 2.3.3) Gesagten auch Schwa-Silben einen Kern besitzen, der immer verzweigt, müssen andere Gründe dafür verantwortlich sein. Es wird sich zeigen, daß Akzentuierungsregeln grundsätzlich dann operieren, wenn Schwa-Silben noch gar nicht gebildet sind. Eine alternative Analyse besteht darin, Schwa-Silben eine spezielle Silbenstruktur zuzuschreiben. So schlägt van der Hülst (1984: 108) für das Holländische vor, Silben mit einem vollen Vokal einen verzweigenden Kern wie in (52a) zuzuweisen, Schwa-Silben dagegen einen einfachen (52b). (52) a. Kern
x x
b. Kern
ii
[3] Diese Analyse ist möglich und damit zu begründen, daß sie die Unfähigkeit von Schwa-Silben erklärt, einen Akzent zu tragen. (Sie ist allerdings nicht in der Lage, den exzeptionellen, nicht-lexikalischen Akzent (siehe II, 2.5) zu erklären.) Dennoch zeigt die von mir hier entwickelte Analyse, daß ein zusätzlicher Silbentyp für die Schwa-Silben nicht erforderlich ist. Eine Lösung mit nur einem einzigen Kern ist - mutatis mutandis - natürlich einer Lösung mit zwei verschiedenen Kernen und damit Silbentypen vorzuziehen. Schließlich kann an diesem Punkt eine Begründung für die Ansiedlung des Kerns auf einer eigenen Schicht (siehe (46)) gegeben werden. In der Tat sind nach Schwa ebenso zwei Konsonanten im Silbenauslaut möglich wie nach einem anderen kurzen Vokal (also einem verzweigenden Kern): angeln - Köln, anders - Vers. Daher wäre auch eine Behandlung des Silbenkerns möglich, in der dieser eine Subkonstituente der Silbe ist. Für eine dieser Alternativen sind mir keine empirischen Argumente bekannt. Für die oben eingeführte Behandlung des Kerns als einer unabhängigen Projektion spricht einzig die formale Einfachheit der autosegmentalen Lösung. Wenn der Kern eine Subkonstituente der Silbe wäre, müßte ein Silbenknoten sowohl CV-Positionen als auch den Kern dominieren. Damit entsteht eine Struktur, die nach der Regel (53) zu beschreiben wäre. Es scheint offensichtlich, daß eine solche 'gemischte' Struktur nicht sehr attraktiv ist. Grundprinzip der nichtlinearen Phonologic ist, daß auf einer bestimmten Schicht nur Informationen eines einzigen Typs (also eine Kategorie oder ein Merkmal) vorhanden sind. (53) 0 -* C C Kern C
77
3.3.5. Externe Argumente Die bisher vorgebrachten Argumente für die Behandlung der Vokallänge waren intern-phonologische, die sich auf Muster und Regularitäten im phonologischen System des Deutschen beziehen. Die CV-Analyse der Vokallänge kann aber auch durch externe Argumente gestützt werden. Ein Argument stammt aus solchen Versprechern, die die Vokallänge betreffen. Wie Stemberger (1984) zeigt, sagt die CVAnalyse voraus, daß vokalische Segmente und ihre Quantität unabhängig voneinander gestört werden können. In einer Analyse der langen Vokale als Geminate (z.B. /H/) oder als Segment mit dem Merkmal [+ lang] sollte die Kohäsion zwischen Vokal und Länge größer sein. Tatsächlich findet Stemberger in Meringers Corpus von Versprechern (Meringer & Mayer 1895) eine Mehrzahl von Vokalumordnungen, bei denen der Vokal seine ursprüngliche Länge verliert, so z.B. in (54):13 (54)
a. Mulkkuh (Melkkuh) b. zukünftig (zukünftig)
Das antizipierte /u/ in (54a) ist in der ersten Position kurz, obwohl es in der zweiten Position (der Quelle der Antizipation) lang ist. Gleiches gilt für die Vertauschung in (54b). Die Länge des antizipierten oder vertauschten Vokals ergibt sich also aus der Silbenstruktur der neuen Position, nicht aus den ursprünglichen Längen. Die suprasegmentale Analyse sagt ebenfalls voraus, daß die Länge für sich genommen gestört sein kann. Tatsächlich finden sich Versprecher wie die folgenden, bei denen ein kurzer Vokal zu einem langen wird (55a) oder ein langer zu einem kurzen (55b): (55)
a. schl[e:]cht überlegt b. Stich und HLüb (Hieb)
Die Gültigkeit von Stembergers Argumentation - deren empirisches Zutreffen er auch an schwedischen und englischen Versprechern demonstriert - hängt allerdings von der Frage ab, ob Versprecher einzelne Merkmale betreffen können. Dies ist von Shattuck-Hufnagel & Klatt (1979) verneint worden; und nur auf der Grundlage der Hypothese, daß Versprecher, die einzelne Merkmale manipulieren, nicht (oder kaum) vorkommen, ist Stembergers Argumentation zwingend. Zur Illustration sind in (56) die Versprecher (54a) und (55a) mit der relevanten phonologischen Struktur dargestellt. In (56a) kann das antizipierte /u/ nur mit V assoziiert werden und ist deshalb kurz (und ungespannt). In (56b) wird nur die Länge, d.h. der VC-Kern, antizipiert.
13) Die intendierten Formen stehen hier in Klammern hinter den tatsächlich realisierten.
78
(56) a.
b.
V VC mslk + ku V VC Jllgt ybaK + legt
V VC mulk + ku
~*
VC VC / ybaK + legt
Allerdings verändert sich hier, wie in allen anderen Beispielen, auch die Vokalqualität. Während man für (56b) die Veränderung in der Qualität ( wird zu [e]) ebensogut als Auslöser für die Veränderung in der Quantität ansehen könnte, ist diese Analyse im Falle (56a) kaum möglich. Das antizipierte /u/ erscheint als [u]. Wenn wir diese Qualität nicht als Konsequenz der Kürze ansehen wollen, muß folgende Analyse vorgenommen werden: Die Merkmale des Segments [u] werden in melk antizipiert - bis auf das Merkmal [+ gespannt]. Die Merkmale des Segments [ ] werden getilgt - bis auf das Merkmal [- gespannt]. Diese Analyse ist nicht nur komplexer; sie macht auch die unplausible Annahme, daß bei der Manipulation ganzer Segmente einzelne Merkmale exzeptionell herausgegriffen werden können. Demgegenüber nehme ich an, daß in (56a) das Segment als ganzes antizipiert wird und durch die Wohlgeformtheitsbedingung (39b) einen passenden Wert für seine Quantität erhält. In (56b) führt die antizipierte Länge ebenfalls zu einem geänderten Gespanntheitswert für das betroffene Segment. Da die Gespanntheit sich in diesen Versprechern offenbar als Konsequenz der Länge ergibt, liefern die Daten nicht nur eine Bestätigung für die autosegmentale Analyse der Länge sondern auch für die oben verteidigte Auffassung, daß die Länge das distinktive Merkmal im deutschen Vokalsystem ist. Wie immer im Falle externer Argumente gilt allerdings, daß das Argument nur im Zusammenhang mit interner, phonologischer Evidenz überzeugend ist. (Ein externes Argument zu einem anderen Punkt, nämlich zur Extrasilbizität, wird in 3.8.2 aus dem Schriftsystem des Deutschen gewonnen.) 3.4. Ambisilbische Konsonanten - Zwei Modelle Die Betrachtung der kurzen, ungespannten Vokale führt zu der Frage nach den ambisilbischen Konsonanten. Eben in Silben mit ungespanntem Vokal finden wir ja Konsonanten, die zwei Silben anzugehören scheinen. Man betrachte Mitte, backen, Deppen, Wasser, Falle, usw. Ich gehe davon aus, daß die Fakten nur unzureichend und arbiträr beschrieben sind, wenn man den intervokalischen Konsonanten der ersten oder der zweiten Silbe zuordnet, wie es etwa in Transkriptionen [fa-la] oder [fal-a] zum Ausdruck kommt. Die richtige Konsequenz aus dieser Situation scheint mir zu sein, den ambigen Status solcher Konsonanten zu akzeptieren und anzunehmen, daß hier zwar ein einziges Segment existiert, das aber mit zwei verschiedenen Silben assoziiert, also 'ambisilbisch' ist. Diese Analyse wird in (57) anhand des Wortes Mitte illustriert. In dem durch die CV-Phonologie gesetzten
79
Rahmen gibt es allerdings zwei Varianten dieser Lösung: Das ambisilbische Segment kann entweder mit zwei C-Positionen (57a) oder auf dem Umweg über eine C-Position mit zwei Silbenknoten repräsentiert werden (57b). Eine lineare Silbentheorie, die Silbengrenzen zwischen Segmenten postiert, hat im übrigen prinzipielle Schwierigkeiten mit einer Behandlung ambisilbischer Konsonanten. (57) a.
Wort
b.
/
Wort
/
C V C C V
C V C V
m
m i
l
Vt
3
t a
Unter der Lösung (57a) bleiben alle bisher postulierten Eigenschaften der Silbe erhalten. Es muß nur erlaubt sein, daß ein Segment mit zwei Positionen auf der CVSchicht assoziiert ist, ein Eingeständnis, das schon für ganz andere Fälle, nämlich die langen Vokale, eingeräumt wurde. In gewisser Weise gibt es also unabhängige Evidenz für die in (57a) vorgenommene Analyse der ambisilbischen Konsonanten. Es sei auch darauf hingewiesen, daß das Prinzip der Obligatorischen Kontur (28) keine Lösung gestattet, die mit einem Doppelkonsonant (/U/) operiert. Die in (57b) gewählte Analyse ist im übrigen die von Clements & Keyser (1983) vorgeschlagene, während die in (57a) von Borowsky, Ito & Mester (1984) verteidigt wird. Die Lösung, zwei C-Positionen mit einem Segment zu assoziieren, mag dennoch problematisch erscheinen, da sie suggeriert, daß es im Deutschen einen Kontrast zwischen langen (d.h. doppelt assoziierten) und kurzen Konsonanten gibt. Dafür existiert jedoch (im Gegensatz etwa zum Italienischen, siehe fato vs. fatto) keinerlei Evidenz. Prüfen wir daher die in (57b) ausgedrückte Alternative. Hier wird die Überlappung zwischen den zwei Silben auf die Ebene der C-Positionen verlagert. Mit anderen Worten, die Ambisilbigkeit des Segments ist indirekt, nicht-lokal repräsentiert, da am Segment und seinen Assoziationen nicht abzulesen ist, daß es ambisilbisch ist. Neben dieser rein formalen, möglicherweise negativ zu bewertenden Konsequenz aus der Lösung (57b) scheint auch ein empirisches Argument für die lokale Repräsentation der Ambisilbigkeit zu gelten. Aus einer Reihe von Studien (siehe z.B. Schein & Steriade(l986)) ist bekannt, daß echte Geminaten wie die im Italienischen einer besonderen Beschränkung unterliegen: Wenn ein Geminatensegment einer phonologischen Regel unterworfen wird, ist diese nur dann anwendbar, falls die Kontextbedingung der Regel auf beide Assoziationen zutrifft. Andernfalls ist die Anwendung der Regel blockiert. Diese Beschränkung gilt aber, wie im folgenden Abschnitt am Beispiel des Deutschen gezeigt wird, auch für ambisilbische Konsonanten, die man nicht als kontrastive Geminaten analysieren kann. Da sich ambisilbische Konsonanten wie die echten Geminaten verhalten, ist es an-
80
gebracht, diese Tatsache dadurch zu erklären, daß sie identisch repräsentiert werden. (Im übrigen scheint zu gelten, daß echte Geminaten, etwa im Finnischen oder im Italienischen, immer ambisilbisch sind. Auch von daher besteht phonologisch kein Unterschied zwischen Geminaten und ambisilbischen Konsonanten. Der eventuelle Unterschied im Timing-Verhalten muß hier als Ergebnis einer phonetischen Regel beschrieben werden.) 3.5. Ambisilbische Konsonanten und Auslautverhärtung Dieser Abschnitt beschäftigt sich mit der - silbenbasierten - Regel der Auslautverhärtung und den ambisilbischen Konsonanten. Ein scheinbares Problem für die unten vorgeschlagene Regel der Auslautverhärtung ergibt sich noch aus der (kleinen) Gruppe von Wörtern wie Ebbe, Roggen, Tabak, Kladde, addieren, bibbern, Schmuggel, usw. In diesen Wörtern folgt auf einen kurzen, ungespannten Vokal ein stimmhafter Verschlußlaut. Daher muß (da eine Silbe ja nicht auf einen kurzen Vokal endet) der Konsonant auch zur jeweils ersten Silbe gehören. Die Analyse für diese Wörter muß also ebenfalls einen ambisilbischen Konsonanten postulieren, siehe (58b) für das Wort Ebbe im Vergleich zu Ebbstrom. (58) a.
Wort
v c cv V
b 3
p
b.
Wort Wort l o
'
Wort l o
'^
y Y b
, JtKo:m
In Ebbe sollte das /b/ in silbenfinaler Position jedoch der Auslautverhärtung unterliegen - was es in Wörtern wie Ebbstrom (58b) auch tut. In diesem Wort existiert allerdings eine interne Wortgrenze, die mit der Silbengrenze zusammenfällt. Nun ist zwar die Auslautverhärtung eine ausschließlich silbenbezogene Regel, wie ich mit Vennemann (1978, 1982) und gegen Kloeke (1982) annehme, die Anwendungsbedingung für die Regel muß jedoch wegen der Wörter mit stimmhaftem intervokalischen Konsonanten neu untersucht werden. Die Auslautverhärtungsregel im Deutschen kann wie in (59) formuliert werden. Sie besagt, daß ein Obstruent (also /b/, /d/, /g/, /v/, /z/) in der Position vor dem Silbenende stimmlos wird. Diese besondere (im Vergleich zu anderen Formulierungen maximal einfache) Version der Regel wird im folgenden begründet. (59)
[+ obstruent] -» [- stimmhaft]/
L
81
Der scheinbare Widerspruch zwischen der phonologischen Repräsentation bei Wörtern wie eggen und Kladde (die Auslautverhärtung erlauben sollte, da der Konsonant am Silbenende steht) und der Nichtanwendung der Regel löst sich auf, wenn angenommen wird, daß die oben erwähnte Anwendungsbedingung Für Geminaten auch hier Gültigkeit hat. Der Obstruent in den genannten Wörtern steht zwar am Silbenende, mit der Assoziation nach rechts jedoch auch am Silbenanfang. Das widersprüchliche Zutreffen der Kontextbedingung in Regel (59) verhindert die Anwendung der Regel. Die allgemeine Beschränkung für Geminaten sorgt erstens dafür, daß die Regel (59) in der allgemeinen und einfachen Form bewahrt werden kann. Zweitens ist die Gültigkeit der Geminatenbeschränkung ein Argument für die "Geminaten"-Repräsentation der ambisilbischen Konsonanten. Daß die hier behandelten Wörter überwiegend niederdeutschen (teilweise aber auch niederländischen und englischen) Ursprungs sind, ist kein Gegenargument gegen die vorgeschlagenene Analyse, die voraussetzt, daß ein Wort wie Bagger auslautverhärtet werden sollte. Fremd- und Lehnwörter wie Job, Smog, Jeans und Snob unterliegen, soweit sie nicht als englische Wörter realisiert werden, regulär der Auslautverhärtung. Es wäre schwer zu erklären, warum Wörter wie Ebbe und Bagger als Ausnahmen zur Auslautverhärtung markiert sind, andere Lehnwörter aber nicht. Hinzu kommt noch, daß die Auslautverhärtung bei bestimmten Ableitungen dieser Wörter stattfindet. Man vergleiche eggt, Ebbstrom (58b), Schmuggler (60d) und ebbt. Ebbe und Egge sind also wahrscheinlich nicht als lexikalische Ausnahmen markiert. In Kapitel II, 2.6 wird darüberhinaus argumentiert, daß eine Regel wie die der Auslautverhärtung als postlexikalische Regel gar keine lexikalisch festgelegten Ausnahmen kennen sollte. Andere für die Formulierung der Auslautverhärtungsregel relevante Beispiele sind Wörter wie Ordner, Schmuggler, regnen und edles. Ich gehe, wie bereits in 1.3 diskutiert, davon aus, daß es für diese Wörter unterschiedliche Realisierungen gibt, die vor allem von der Verteilung der intervokalischen Konsonanten auf die Silben abhängen. Weiter nehme ich (im Gegensatz zum Aussprache-Duden) an, daß Realisierungen wie SchmuLkJler, OrftJner und reCkJnet auch in der Standardsprache möglich sind. Mögliche Varianten Für Segler und Schmuggler sind die in (60) dargestellten. Die Auslautverhärtung in der Formulierung (59) kann nur angewandt werden, wenn der entsprechende Konsonant nicht ambisilbisch ist und am Silbenende steht, also in (60b) und (60d). (60) a.
Wort
b.
Wort
c.
Wort
d.
Wort
\
c v cc c v l V l l l z e g l K
cvcccv l V gl ll Kl z e k
c'c c c v c'c v"c c v l l l V J l JMm UI gNl KI J m U g l K k
82
Eine andere Gruppe von Exemplaren der Auslautverhärtung wird durch Regel (59) scheinbar nicht abgedeckt, nämlich der auslautverhärtete Obstruent in Herbst, magst, Passivs, usw. Diese Wörter sind jedoch keine echten Gegenbeispiele, wie sich in 3.8 herausstellen wird. Dort werden /t/, /s/ und /st/ als Appendices analysiert, die genaugenommen gar nicht zur Silbe gehören. Wenn diese Analyse richtig ist, kann für die Auslautverhärtung die einfache Formulierung (59), die ganz auf Disjunktionen (siehe dagegen z.B. Wurzel (1981) und Kloeke (1982)) verzichten kann, beibehalten werden. Eine Regelformulierung, wie sie von Vennemann (1978, 1982) vorgeschlagen wurde ("Obstruenten sind in der Silbenkoda stimmlos"), ist ebenfalls nicht erforderlich. Das heißt auch, daß sich aus der Auslautverhärtung keine Evidenz für eine phonologische Kategorie der Koda ergibt. 3.6. Assoziationsprinzipien und Silbifizierungsregeln Wesentlicher Teil einer CV-Phonologie sind auch die Prinzipien, nach denen C und V mit den übrigen Elementen, d.h. mit den Segmenten einerseits und dem Silbenknoten andererseits, assoziiert werden. Diese beiden "Richtungen" der Assoziation müssen getrennt untersucht werden, da sie nach unterschiedlichen Prinzipien funktionieren. 3.6.1. Segmente und Segmentpositionen Untersuchen wir zunächst die Assoziation zwischen den Segmenten und den Cbzw. V-Positionen. Generell ist die Assoziation zwischen den Schichten hier einszu-eins; es gibt aber eine Reihe von Abweichungen. So sind komplexe Segmente wie die Affrikaten mit einer einzigen C-Position verbunden (siehe (37)) und umgekehrt manche Vokale (eben die langen) mit zwei Positionen. Besonders die Affrikaten demonstrieren, daß die Assoziation zugrundeliegend existieren muß. Wenn gesagt wird, daß es im Deutschen bestimmte Affrikaten gibt, heißt das ja genau, daß (mindestens) /pf/ und /ts/ ebenso als elementare Einheiten des Lautinventars aufgezählt werden müssen wie alle anderen zugrundeliegenden Segmente. Wenn die Segmente zugrundeliegend mit den Segmentpositionen C oder V assoziiert sind, ist damit allerdings auch die Silbigkeit der Segmente festgelegt. Die Frage ist, ob dies möglicherweise eine unerwünschte Konsequenz aus dem Vorschlag, Assoziationen zwischen C und V einerseits und den Segmenten andererseits als zugrundeliegende Festlegungen zu sehen, ist. Bestimmte Segmente können ja gerade silbisch oder nicht-silbisch sein, wie oben demonstriert wurde. An diesem Punkt ist der Vorschlag von Kaye (1982) und Levin (1983) zu diskutieren, ob nicht anstelle von C und V hinsichtlich der Silbigkeit unspezifizierte Positionen, (X) hinreichend sind. Nach diesem Vorschlag wäre die phonologische Information zu einem zugrundeliegenden Lexem wie Zeit nicht wie in (61 a), sondern wie in (61b) anzusetzen.
83
(6l) a.
C V C C
t s
l l l a i t
b. X X X X
l l l
t s a I t
Das oben vertretene Gegenargument ist, daß durch die zweite Lösung die Silbenstruktur, die ein silbisches Segment in einer bestimmten Position fordert, nicht adäquat repräsentiert wird. Andererseits wird die Silbenstruktur, wie im folgenden gezeigt, durch eine Silbifizierungsregel zugewiesen, existiert also nicht zugrundeliegend. Wahrscheinlich lautet die Antwort im Streit zwischen der CV- und der X-Phonologie also, daß zugrundeliegende Einträge nur ein X (also ein Merkmal [+ segmental]) benötigen, daß das Silbenschema aber die volleren C- und V-Einträge aufweist. Fazit dieser Überlegungen ist, daß die Assoziation zwischen den Segmenten und ihren Positionen auf der X-Schicht zugrundeliegend existiert, d.h. nicht abgeleitet wird. Wie die Assoziationen zwischen diesen Segmenten plus Positionen mit der Silbenstruktur Zustandekommen, ist Gegenstand der folgenden Überlegungen. 3.6.2. Die Position der Silbifizierung in der Ableitung Die Tatsache, daß Segmente in der Wortbildung ihre Zugehörigkeit zu Silben sehr leicht ändern (man vgl. Hut mit Hü-te, groß mit grö-ßer und die Beispiele weiter unten), macht deutlich, daß diese Assoziation von anderer Art ist als die oben diskutierte. Silbifizierung, die Zuweisung von Segmenten zu Silben, ist ein echter Prozeß in der phonologischen Komponente der Grammatik, dessen genaue Einordnung in die Subkomponenten in Kapitel II, 2 und 3 wieder aufgegriffen wird. Hier geht es aber darum, nach welchem Modell sich die Segment-Silbe-Zuordnung beschreiben läßt.14 Eine der Grundideen der generativen Phonologie, die hier im Gegensatz zu manchen anderen Annahmen nicht aufgegeben wird, ist, daß sprachliche Repräsentationen eine Ableitung durchlaufen, ihre oberflächliche Form nicht notwendigerweise mit der zugrundeliegenden identisch ist. Besonders dann, wenn sprachliche Ausdrücke Alternationen zeigen, wie in Grais] vs. GräCzJer, lassen sich Regeln (hier die Regel der Auslautverhärtung) formulieren, die auf manche der zugrundeliegenden Formen anzuwenden sind und dadurch die Alternation beschreiben. Beispiele für Ableitungen sind in dieser Arbeit bereits mehrfach geliefert worden. Eine Silbentheorie muß unter der Voraussetzung, daß es in der Phonologie wie in der Syntax Ableitungen gibt, auch die Frage beantworten, an welchem Platz in der Gesamtorganisation der Phonologie die genannten Silbenprinzipien angesiedelt sind. Die erste Möglichkeit wäre, daß Silbenstrukturen schon zugrundeliegend existieren. Die Silbenprinzipien würden dann keine Ableitung, sondern nur Wohlgeformtheitsbeschränkungen über existierenden Strukturen beschreiben. Sie hätten 14) Für eine ähnliche Auffassung wie die hier vertretene siehe auch Mohanan (1985).
84
den Status von Redundanzregeln. Diese Variante der Plazierung der Silbifizierung wird von Clements & Keyser (1983: 27) gewählt: "It is our view that words are fully syllabified at the level of lexical representation; that is, syllable trees are not built up in the course of phonological derivations but are already present, fully formed, in the lexical representations that constitute the input to the phonological component." Gegen diese Position sprechen zwei Argumente, die sich aus dem Deutschen gewinnen lassen. Es scheint zumindest im Deutschen nicht der Fall zu sein, daß Lexeme selbst schon den Silbenstrukturbedingungen genügen müssen. Erstens gibt es Stämme, wie la:tml, lze:gll oder loKdnl, die keine wohlgeformte Silbifizierung ermöglichen. (Daß Wörtern wie Atem tatsächlich die eben aufgeführten Stämme zuzuordnen sind, wird in II, 2 ausgiebig begründet.) Zweitens sind ja auch die Affixe als Lexeme, d.h. als lexikalische Einträge, anzusehen. Mindestens unter den Flexionsaffixen gibt es jedoch Formen wie t und s, für die keine mögliche Silbifizierung existiert. Wie in der Einleitung gezeigt, gibt es darüber hinaus etwa im Arabischen völlig konsonantische Wurzeln wie ktb oder gl, für die gerade bei der einfachen Silbenstruktur des Arabischen keine Silbenstruktur angegeben werden kann. Die Position von Clements & Keyser kann zweitens nicht erklären, warum unterschiedliche Silbifizierungen für identische Segmentketten praktisch nicht vorkommen. Wenn sie vorkommen, wie etwa in na-ti-o-nal vs. na-tio-nal, sind sie nicht distinktiv. Vennemann (1982: 266) erwähnt zwar Beispiele wie obren ([o:bKnl) vs. erobern ([o:bKn]), die sich nur durch die Position des Silbenkerns unterscheiden. In Kapitel II, 2.3 wird aber gezeigt, daß sich dieser Kontrast durch unterschiedliche Anwendungen der Schwa-Epenthese-Regel in verschiedenen morphologischen Kontexten (Adjektiv vs. Verb) und der anschließenden Reassoziation für sonorante Konsonanten ergibt. Im allgemeinen ist die Silbifizierung, gegeben eine Segmentkette und die Wortstruktur, prädiktabel. Das zweite wesentliche Argument für die Silbifizierung als regelgeleiteter phonologischer Prozeß ist damit die Tatsache, daß die Silbenstruktur auf der Basis der segmentalen Information hochgradig vorhersagbar ist. Da die Silbenstruktur einerseits keine lexikalischdistinktive Information liefert und andererseits universellen und einzelsprachlichen Restriktionen folgt, können wir Regeln zu ihrem Aufbau angeben. Prüfen wir die gleichsam entgegengesetzte Annahme, nämlich daß die Silbenstruktur erst auf der Oberfläche, also am Ende der Ableitung einer Lautkette zugewiesen wird. Dagegen spricht deutlich, daß eine Reihe von phonologischen Regeln auf die Silbenstruktur Bezug nehmen, etwa die Auslautverhärtung (59), die Akzentregeln und die Schwa-Epenthese. Für alle diese Regeln muß also die Silbenstruktur als Eingabe bereitstehen. In Abschnitt 3.9 wird demonstriert, daß Akzent zu Weisung eine der ersten Prozesse beim Ausgang aus der morphologischen Komponente ist. Daraus folgt, daß auch Silbifizierung eine sehr "frühe" Regel in der phonologischen Ableitung ist; denn die Akzentregeln operieren, wie in der Einleitung, 1.4 gezeigt, auf Silben als elementaren Einheiten.
85
Die genaueren Zusammenhänge können erst geklärt werden, wenn das Verhältnis von Morphologie und Phonologic (hier im Rahmen des Modells der Lexikalischen Phonologic) geklärt sind. Für den gegebenen Zusammenhang ist nur festzuhalten, daß die Silbenstruktur erstens in der phonologischen Ableitung zu einem frühen Zeitpunkt zugewiesen wird, und daß sie zweitens nicht unvergänglich ist. Im Falle weiterer Wortbildungsprozesse wird die einmal erstellte Struktur einer Resilbifizierung unterzogen, wobei sich die erste Zuweisung von Segmenten zu Silben möglicherweise völlig (und mehrmals) verändern kann. Das folgende Beispiel demonstriert dies. (62a) gibt die grobe Morphemstruktur von Nationalität an, (612) die jeweilige Silbifizierung bei unterschiedlicher morphologischer Komplexität. (62)
a. nat+ion+al+ität b. na-tion na-tio-nal na-tio-na-li-tät
Solche Beispiele sprechen dafür, daß Wortbildungsprodukte resilbifiziert werden. Jede morphologische (wie auch jede strukturverändernde phonologische) Operation führt also zu einer erneuten Silbifizierung. Hier liegt einer der entscheidenden Zusammenhänge zwischen den Überlegungen zur Silbenstruktur im vorliegenden Teil der Arbeit und den Studien zur Phonologic im Lexikon in Teil II. Diese Sichtweise impliziert auch, daß Silbifizierung obligatorisch ist: Ein Wort kann nur mit seiner Silbenstruktur versehen das Lexikon verlassen. Die psycholinguistische Beobachtung, daß wir Wörter nicht ohne die Silbenstruktur und manchmal auch nur die Silbenstruktur (das 'tip-of-the-tongue'-Phänomen, siehe Brown & McNeill 1966) abrufen, wird dadurch erklärt oder zumindest erklärbar. Auch von den Silbenstrukturbedingungen nehme ich an, daß sie immer wirksam sind, wenn ihre Anwendungsbedingungen erfüllt sind. Bei jeder Resilbifizierung wird also erneut die Erfüllung der Silbenstrukturbedingungen geprüft. Die Wortbildungsmorpheme sind in der Regel wohl so aufgebaut, daß gar keine "unmöglichen" Silben entstehen können. Es gibt allerdings Ausnahmen zu diesem "Prinzip", wie etwa in reit+t (realisiert als [Kaitat]). Genau an diesem Punkt setzt die Funktion von Schwa im Deutschen ein, die in II, 2 ausführlich diskutiert wird. 3.6.3. Silbifizierungsprinzipien In dem besser untersuchten Bereich der Assoziation von Tönen hat man im wesentlichen drei Modelle für Assoziationsprinzipien angenommen. Entweder werden die Elemente auf jeweils zwei Schichten von links nach rechts miteinander assoziiert, bis möglicherweise das letzte Element einer Schicht mehrere Elemente der anderen Schicht aufnimmt:
86 (63)
a b e d
a b e d
·» I I
ABCDE
ABCDE
Alternativ ist möglich, daß die Assoziation in umgekehrter Richtung von rechts nach links verläuft. Für die Silbe ist ein drittes Modell angemessener. Danach werden zunächst ausgezeichnete Elemente der zwei Schichten miteinander assoziiert und dann die übrigen. Nun ist das ausgezeichnete Element im Silbenschema ganz offensichtlich das silbische Element, also V. V muß mit einem Segment, das auf beiden Seiten weniger sonore Segmente aufweist, assoziiert werden.13 Dies wird in der Regel ein Vokal sein, braucht es aber nicht, wie die silbischen Konsonanten des Chinesischen und des Deutschen gezeigt haben. Damit ist gesichert, daß jeder Silbe ein silbisches Segment zugeordnet ist. Die Verteilung der übrigen Segmente auf die C-Elemente im Silbenschema ergibt sich dann vor allem nach dem Prinzip der Onset maximization'. Das bedeutet, daß ein C-Element, wenn möglich, im Anlaut einer rechten Silbe und nicht im Auslaut einer linken Silbe zu finden ist. (Ein Wort wie Manfred wird als /man-fre:t/ silbifiziert, nicht aber als /manf-re:t/, obwohl auch in letzterem Fall zwei mögliche Silben entstehen.) Insgesamt kann die Assoziation nach den folgenden geordneten Prinzipien erfolgen: (64)
a. Assoziiere V mit einem lokalen Sonoritätsmaximum. b. Assoziiere von V aus nach links, soweit es möglich ist. c. Assoziiere von V aus nach rechts, soweit es möglich ist.
Damit kann die Silbifizierung für das Wort Kino in den in (65) illustrierten Schritten beschrieben werden. (Ein ungelöstes Detail der Analyse ist, warum die erste der zwei mit den Vokalen verbundenen Positionen zu V gemacht wird und nicht die zweite. Die Kern-Bedingung (43b) stellt jedenfalls sicher, daß nur die gewählte Silbifizierung wohlgeformt ist.) (65) a . X X X X X X k
Vi
n
vo -»
d. C V C C V C
]k V V -» i n o
b. X V X X V X k e.
i o
n
vo ·»
c. C V X C V X k
i
n
vo *
o
A\ A\ CVCCVC l Vi nl oV
k
15) Die Idee, lokale Sonoritätsmaxima zur Formulierung der Assoziationsprinzipien heranzuziehen, stammt in dieser Version von van der Hülst (1984: 67): "A segment p is a sonority peak if neither the preceding segment (if present) nor the following segment (if present) is higher in sonority."
87
Die Ordnung zwischen der Anwendung des zweiten und dritten Prinzips (64b und c) ist hinreichend dafür, daß CV-Silben gegenüber VC-Silben bevorzugt gebildet werden. Die Zuordnung von intervokalischen Konsonanten zur "linken" oder "rechten" Silbe ist eines der wesentlichen Teilprobleme bei der Ermittlung von Silbifizierungsregeln. (in Sprachen wie dem Chinesischen, in denen die Domäne der Silbifizierung von vornherein auf ein einsilbiges Morphem beschränkt ist (siehe II, 1.2.2.4), tritt es allerdings nicht auf.) Die hier vorgeschlagene Lösung geht auf die von Kahn (1976) zurück. Danach ergibt sich die Maximierung der Anlautcluster zuungunsten der Auslautcluster einfach dadurch, daß die Anlautkonsonanten als erste mit der Silbe assoziiert werden, also nach dem sogenannten Onset first'-Prinzip. Nur der nicht assoziierbare Rest geht in den Auslaut der vorangehenden Silbe. Andere Lösungen sind denkbar und wurden vorgeschlagen. So postuliert Lowenstamm (198l) einfach eine Maximalitätsbedingung als Wohlgeformtheitsbeschränkung für die Silbe. Dagegen erreichen Cairns & Feinstein (1982) die Anlautmaximierung durch eine Markiertheitsbewertung, die z.B. eine Silbifizierung des Typs V-CV einer des Typs VC-V vorzieht. Da in allen diesen Lösungen zusätzliche Prinzipien und Mechanismen herangezogen werden, die - soweit ich sehe - ausschließlich der Anlaut max imie rung dienen, ziehe ich die oben dargestellte Lösung vor, die einzig auf der Anordnung der Assoziationsprinzipien beruht. Es ist allerdings zu unterscheiden zwischen Sprachen, die maximale Cluster am Silbenanfang präferieren, und solchen, die postvokalische Konsonanten gar nicht zulassen. So erlaubt etwa Hawaiianisch nur Silben der Form CV und V. Es ist die Existenz solcher Sprachen und die offenbare Nicht-Existenz der spiegelbildlichen Silben, die für eine Lösung, in der universale Muster der Form C V oder ähnliches (siehe Kapitel 4) postuliert werden, sprechen soll. Man beachte jedoch, daß die Assoziationsprinzipien (64) diese Fakten ebenfalls voraussagen können, und zwar auf zwei denkbare Weisen. Erstens könnte in den Sprachen wie dem Hawaiianischen die Assoziation nach rechts (64c) einfach fehlen. Die drei Assoziationsprinzipien wären dann nicht nur in der Reihenfolge ihrer Anwendung, sondern auch in ihrer Universalität geordnet: (64c) impliziert das Vorkommen von (64b), dieses Prinzip wiederum (64a). Dessen Universalität stellt sicher, daß jede Silbe einen Silbenkern enthält, die Silbe sozusagen mit dem Kern identifiziert werden kann. Zweitens könnten Morphemstrukturbedingungen in solchen Sprachen solche Konsonantencluster ausschließen, die eine Assoziation nach rechts jemals möglich machen. Dieser Komplex von Fragen erfordert weitere Überlegungen, die hier nicht verfolgt werden können. So weist Sommer (1970) auf einige australische Dialekte hin, die seiner Meinung nach VC(C)(C)-Silben, aber keine CV-Silben aufweisen. Ein mit Parametern arbeitender Ansatz wie der hier entwickelte kann solche Fälle eher behandeln als einer, der universale Silbenschemata postuliert, wonach Silben etwa aus Ansatz und Reim bestehen müssen. In jedem Fall sollte deutlich
88
geworden sein, daß das Vorherrschen von CV- vs. VC-Silben im Deutschen wie in anderen Sprachen allein noch nicht für die reicheren Silbenstrukturen spricht. Die Präferenz von CV-Silben mag auch für das optionale Einfügen eines Glottisverschlußlautes vor silbenanlautenden Vokalen im Deutschen (['a:-man], Lte:?a:-tK] für Amen und Theater) verantwortlich sein. Die in (64) und (65) dargestellte Assoziation ist der wesentliche Teil der Silbifizierung. Sie läuft, wie in II, 2 weiter begründet wird, im Lexikon ab. Die Domäne der Silbifizierung im Deutschen ist weitgehend das Wort. Daraus erklärt sich, daß über Morpheme, die an einen Stamm treten, hinweg silbifiziert werden kann, in Komposita die Wortgrenzen aber zugleich Silbengrenzen sind. Man betrachte etwa einäugig , wo ein und äugig zwei Silbifizierungsdomänen bilden. Sowohl bei Berücksichtigung des gesamten Kompositums wie auch der drei einzelnen Morpheme käme man zu anderen (und zwar inkorrekten) Silbifizierungen, nämlich zu *ei-näugig\)zvf. zu *ein-äug-ig. Daß das Wort (im großen und ganzen) die Domäne für die Silbifizierung ist, folgt automatisch aus der Tatsache, daß Silbifizierung auf den Worteinheiten des Lexikons stattfindet. Es braucht daher nicht explizit ausgedrückt werden. (Die wesentlichen Ausnahmen zu dem Prinzip, daß das Wort die Silbifizierungsdomäne darstellt, bilden die Klitika wie in zum oder gehste. Diese werden in Kapitel II, 3.2 behandelt.) Das soeben Gesagte gilt übrigens keineswegs für alle Sprachen: Im Französischen wird sehr frei über die Wortgrenze hinweg silbifiziert, während im Chinesischen, wie in Kapitel 2 gezeigt, fast eine Eins-zu-Eins-Beziehung zwischen Silbe und Morphem besteht. Die Domäne der Assoziationsprinzipien scheint also ein Parameter zu sein, der in einzelnen Sprachen unterschiedlich festgelegt werden kann. Alternativ kann man annehmen, daß nicht alle Sprachen alle prosodischen Kategorien (etwa das phonologische Wort, siehe Einleitung, 2.4) instantiieren. Wenn eine Kategorie fehlt, wie das Wort im Französischen, bildet die nächsthöhere Kategorie die Domäne. Die im vorangehenden Abschnitt diskutierte Konstellation von Fakten berechtigt zu der Annahme, daß die Silbenstruktur im Zuge der phonologischen Ableitung aufgebaut wird, denn es erscheint unwahrscheinlich, daß sie schon zugrundeliegend vorhanden ist. Wie in diesem Abschnitt ausgeführt, werden die zugrundeliegenden X-Positionen in bezug auf die Silbigkeit bewertet (dadurch werden sie zu CV-Positionen) und in Silben eingeteilt. Allerdings wurde in 2.7 für das Chinesische eine alternative Annahme vertreten: Danach sind V- und C-Positionen bereits zugrundeliegend vorhanden und potentiell distinktiv (siehe (7a) und (7b)). Da also auch für diesen Vorschlag Argumente existieren, will ich die zwei Varianten (zugrundeliegende CV-Positionen vs. zugrundeliegende X-Positionen) nebeneinander stehen lassen. Sie sind beide mit dem generellen Modell der CV-Phonologie vereinbar. Für die noch weitergehende Annahme von Clements & Keyser, wonach die gesamte Silbenstruktur Teil der lexikalischen Repräsentation ist, spricht jedoch wenig.
89
In diesem Kapitel wird postuliert, daß die Grundstruktur der Silbe im Deutschen mit dem Silbenschema (35) und der Nukleus-Regel (43b) festgelegt ist. Die Silben ergeben sich durch die Assoziationsprinzipien (64). Mit nur wenigen Veränderungen ist dies im übrigen wohl das universale Muster der Silbe. Die einzelsprachlichen Erweiterungen Für das Deutsche betreffen die Festlegung der maximalen Zahl der C-Elemente in der Silbe durch das Schema (35) und die Festlegung auf einen sich verzweigenden Kern durch (43b). Die Aufzählung der zulässigen CV-Muster in (66) verdeutlicht noch einmal alle bisher behandelten Fälle.
(66)
ö
ö
ö
VC
VCC
CVC
CVCC
i n
a u s
m i t
CC V C
1 1 1 1 k1 1n vi du
CCVCC
v
g K a f
In (mindestens) zweifacher Hinsicht ist dieses Modell allerdings noch nicht hinreichend. Erstens sind natürlich nicht alle Segmentsequenzen der Form C C V C C wohlgeformte Silben des Deutschen. Dafür werden im folgenden Abschnitt Sonoritätsbeschränkungen und Silbenstrukturbedingungen diskutiert. Zweitens gibt es auch Silben, die akzeptabel sind, die aber nicht in das Grundmuster hineinpassen. Zur Behandlung dieser Silben wird in 3.8 der Begriff des Appendix eingeführt und präzisiert. 3.7. Silbenstrukturbedingungen und relative Sonorität In Tabelle (34) wird deutlich, daß nur bestimmte Konsonanten an erster Stelle im Anlautkonsonantencluster stehen können und nur bestimmte andere Konsonanten die zweite Position besetzen. Vergleichbares, wenn auch nicht Identisches, gilt Für die Cluster im Auslaut, wie (67) zeigt. Die Kombinationen mit Fragezeichen sind vielleicht aufgrund von Assimilationsprozessen ausgeschlossen. Andere Kombinationen, wie etwa /sp/, sind ausgesprochen selten, werden aber doch akzeptiert, siehe Lisp und .Rasp.16
16) Die genaue Natur der beteiligten Segmente steht hier nicht zur Debatte. Auch die Affrikaten habe ich in Tabelle (67) ignoriert.
90
(67)
K l m n f s f c p t k 1
m n s f 9 S
_ _ -
_ _ _ - - - - - _ _ _ - - - - - -
+
+ _ -
+
+
?
+
+
?
+ + + ? + ? - - ( + ) + + _ _ _ _ + + - - - - + - - - + ( + )
Die Theorie, die hier zur Beschreibung der in (34) und (67) dargestellten Fakten entwickelt werden soll, sieht ein dreistufiges Modell zur Beschreibung der zugelassenen Kombinationen vor. Erstens gilt eine universale Sonoritätsbeschränkung, aus der, zweitens, Einzelsprachen eine Auswahl durch positive Silbenstrukturbedingungen treffen. Drittens müssen aus den dadurch eingeführten Clustern noch einige durch negative Silbenstrukturbedingungen ausgefiltert werden.17 Daß zwischen universalen Kombinationsbeschränkungen und deren einzelsprachlichen Erweiterungen unterschieden werden sollte, ist bereits von Trubetzkoy (1939: 220) vorgeschlagen worden: "In jeder Sprache sind die Phonemkombinationen speziellen Gesetzen unterworfen. Es fragt sich aber, ob nicht wenigstens ein Teil dieser Gesetze für alle Sprachen gilt." Trubetzkoy hält allerdings das Wort oder das Morphem für die Einheit, auf der solche Beschränkungen zu formulieren sind und erwägt auch nicht die Möglichkeit, eine Sonoritätshierarchie zur Formulierung der Gesetze heranzuziehen, obwohl entsprechende Überlegungen bereits von Saussure (1916/1967: 50-57) und Jespersen (1906) angestellt wurden. 3.7.1. Die Sonoritätshierarchie Es ist häufig beobachtet worden (siehe für das Deutsche z.B. Vennemann (1982: 284f.), ansonsten u.a. Kiparsky (1979) und Selkirk (l984a)), daß die Kombinationsbeschränkungen von Lauten in einer Silbe weitgehend durch eine Sonoritätshierarchie festgelegt sind. Wir können annehmen, auch wenn dies umstritten ist, daß die Laute eine unterschiedliche Sonorität (soviel wie inhärente Schallfülle) besitzen. Die Sonorität ist einerseits eine akustisch-phonetische Eigenschaft, andererseits aber auch ein phonologisch außerordentlich bedeutsames Merkmal, da die wesentlichen Beschränkungen der Phonotaktik durch die Sonoritätshierarchie gesteuert werden. 17) Letztere Unterscheidung findet sich unter den Begriffen colligational vs. collocational bereits bei Fudge (1969).
91
Die Segmente in einer Silbe müssen offenbar so angeordnet sein, daß der Gipfel der Sonorität in der Silbe auf dem silbischen Segment liegt (das im vorangehenden Abschnitt erwähnte Sonoritätsmaximum), und daß die Sonorität zu beiden Silbenrändern monoton abnimmt. Dies ist die oben angesprochene wesentliche Beschränkung Für die Phonotaktik in der Silbe. Sie wird in der Literatur gelegentlich als 'Sonority Sequencing Generalization' angesprochen (siehe besonders Selkirk (l984a)). Innerhalb dieser universellen Beschränkung können die Einzelsprachen spezifischere Festlegungen vornehmen, die sich vor allem auf den Sonoritätsabstand zwischen benachbarten Segmenten erstreckt. Die Segmente bzw. Segmentklassen können auf einer Sonoritätshierarchie (bei Vennemann (1982: 283) Skala der "konsonantischen Stärke") angeordnet werden. Der maximal offene Vokal /a/ hat den größten Sonoritätswert, die stimmlosen Verschlußlaute /p, t, k/ haben den geringsten Sonoritätswert. Für das Deutsche mag die folgende Skala gelten: (68)
l 1 1 1 1 1 1—-> Plosive Frikative Nasale /!/ /K/ Hohe Vokale Vokale
Es sei nicht verschwiegen, daß diese Skala einzig auf Beobachtungen zur Phonotaktik in der Silbe beruht und nicht auf phonetischen Messungen. Dies ist ein methodisches Problem, da die Sonoritätshierarchie wesentliche phonotaktische Beschränkungen erklären soll. In der Phonetik herrscht Uneinigkeit darüber, ob Sonorität eine meßbare Eigenschaft ist. So behaupten Ohala & Kawasaki (1984: 122), daß keine der Sonoritätsskalen auf Messungen beruht, sondern immer nur die Beobachtung über phonotaktische Beschränkungen mit einem neuen Terminus belegt (siehe auch Vennemann (1982)). Demgegenüber gibt Ladefoged (1982: 221f.) relativ präzise Sonoritätswerte für eine Reihe von Lauten an, ohne allerdings zu sagen, wie die Werte gewonnen wurden. Ich gehe davon aus, daß Sonorität eine phonetisch reale Eigenschaft ist, die vielleicht schwieriger operationalisierbar und damit meßbar ist als andere phonetische Parameter. Dafür spricht auch, daß die Sonoritätsskalen im Sprachvergleich hochgradig ähnlich sind. Außerdem läßt sich die Sonoritätsskala sowohl weiter ausdifferenzieren als auch gröber fassen. Eine weitere Differenzierung könnte etwa bei den Plosiven und Frikativen zwischen den stimmlosen und den stimmhaften Segmenten unterscheiden; beliebige benachbarte Klassen können andererseits auch zusammengefaßt werden. Die Formulierung in (68) geht von den phonotaktischen Fakten des Deutschen aus, bei denen, wie die Cluster in (34) und (67) zeigen, nicht zwischen stimmhaften und stimmlosen Obstruenten differenziert wird. Für andere Sprachen ergeben sich andere Festlegungen auf der Sonoritätsskala. Für das Chinesische etwa könnte die Skala die Form in (69) besitzen. Es werden sehr viel weniger Positionen auf der Sonoritätsskala unterschieden.
92
(69)
I Konsonanten
1 1 > Hohe Vokale Vokale
Es ist übrigens nicht der Fall, daß sich die Sonoritätsbeschränkungen des Deutschen völlig auf phonetisch-artikulatorische Bedingungen der Aussprechbarkeit reduzieren lassen. Es gibt sogenannte Interjektionen wie brr, pst, oder seh, die von Sprechern des Deutschen ohne Schwierigkeiten produziert werden können. Diese Lautkombinationen genügen aber nicht den ermittelten Sonoritätsregularitäten für das Deutsche (sie enthalten z.B. als Silbenkern einen Obstruenten). Es ist vielleicht nicht uninteressant, daß solche Interjektionen nicht nur phonologisch, sondern auch syntaktisch-morphologisch nicht in das System der Sprache integriert sind (siehe Ehlich (1986)). Daß sie existieren, zeigt aber, daß die Sonoritätsbeschränkungen eine phonologische Ausprägung einer phonetischen Regularität sind. Unklar ist schließlich noch, welche Funktionen von den Sonoritätsbeschränkungen übernommen werden können. Steriade (1982: 80ff.) geht soweit zu vermuten, daß die Quantitätsbeschränkungen Für Silben nicht durch Positionsangaben in einem Silbenschema (wie (22) und (35)) ausgedrückt werden müssen, da sie sich auf unabhängigem Wege ergeben. Kookkurrenzangaben, die die Sonoritätsverhältnisse zwischen den Segmenten in der Silbe ausdrücken, beschreiben, gleichsam en passant, wieviele Konsonanten maximal möglich sind: "The simplest statement of the syllabic possibilities of these languages turns out to be a condition on the relative sonority of pairs of adjacent consonants, a purely local constraint to which any C C sequence in both the onset and coda is subject." (Steriade (1982: 82)). Es läßt sich aber an den Auslautclustern des Deutschen zeigen, daß die Sonoritätsrestriktionen für die Längenbeschränkungen allein nicht hinreichend sind. Man betrachte die Auslautcluster in Kerl, Helm und Hemd. Ohne explizite Festlegung einer maximalen Zahl von C-Positionen im Auslaut sollte auch ein Wort wie *Keilmd und auch schon *Kerlm grammatisch sein, da jede Sequenz von zwei Konsonanten ein möglicher Auslaut des Deutschen ist: /Kl/, /Im/, /mt/. Da diese Cluster nicht wohlgeformt sind, bleibt nur der Schluß, daß eine Angabe über die Zahl der möglichen Positionen in der Silbe, hier das Silbenschema (35), unverzichtbar ist. 3.7.2. Silbenstrukturbedingungen Im Rahmen der vorgeschlagenen Sonoritätshierarchie soll nun durch positive Silbenstrukturbedingungen spezifiziert werden, welche Segmentkombinationen im Deutschen zugelassen sind. Weiter wird es sich als nötig erweisen, einige davon durch negative Silbenstrukturbedingungen auszufiltern. In den Anlautclustern des Deutschen (siehe (34)) sind die Kombinationen mit /!/ und /K/ erheblich systematischer vertreten als die mit den übrigen Konso-
93
nanten. Die wichtigste positive Silbenstrukturbedingung scheint daher die in (70) zu sein. Sie besagt, daß der zweite Konsonant in einer Silbe ein nicht-nasaler Sonorant sein muß, wenn die erste Position (aufgrund der Sonoritätshierarchie durch einen Obstruenten) besetzt ist. Diese Silbenstrukturbedingung erklärt das Vorkommen der Konsonantencluster mit /!/ und /K7, sie erklärt jedoch nicht, warum einige davon nicht erlaubt sind (*/tl/, */dl/)), und auch nicht, warum einige mit /v/, /s/ oder /n/ erlaubt sind, wie in Psychologie, zwei oder vor allem Knie und Gnade. Letztere werden ja durch die Sonoritätshierarchie (68) ausdrücklich zugelassen. (70)
+ sonorant] J
: - nasal
Der stimmhafte Frikativ /v/ ist deshalb problematisch, weil er als einziger Laut sowohl als Erst- wie als Zweitglied in Anlautclustern vorkommt: Wrack, Quatsch.ls Dazu paßt aber, daß in der Literatur Zweifel darüber bestehen, ob /v/ unter die Obstruenten oder die Sonoranten einzuordnen ist. Möglicherweise hat /v/ die Eigenschaft, sich in beide Gruppen einordnen zu lassen. So gilt im Russischen, daß /v/ wie ein Obstruent am Wortende stimmlos wird, aber - wie ein Sonorant keine Stimmhaftigkeitsassimilation zum vorangehenden Obstruenten auslösen kann (siehe Jakobson (1956, 1978), Kiparsky (1985: 104)). Aus dem Sonderstatus hinsichtlich des Merkmals [sonorant] ergibt sich die in Tabelle (34) ersichtliche besondere Verteilung dieses Segments, /v/ ist kein Problem Tür die Analyse, falls sich weitere Gründe für den ambigen Status hinsichtlich des Merkmals [sonorant] finden lassen. Im Falle der Anlautcluster /ps/ und /ks/ nehme ich an, daß es sich um eine, allerdings markierte, Affrikate handelt. 19 Für die Kombinationen mit /n/ schließlich ist die allgemeinere Beobachtung heranzuziehen, daß die einzelsprachlichen Silbenstrukturbedingungen im Gegensatz zu der universellen Sonoritätsbeschränkung und auch den anderen Silbenaufbauprinzipien (Silbenschema) leichter zu durchbrechen sind. Von ihnen gibt es Ausnahmen, was für die übrigen hier entwikkelten Prinzipien nicht in gleichem Maße gilt. Gerade eine Differenz hinsichtlich einer solchen fundamentalen Eigenschaft berechtigt aber dazu, zwischen den Regularitäten zu unterscheiden. Wegen der Durchbrechbarkeit der Silbenstrukturbedingungen will ich gar nicht versuchen, alle Fälle zu erfassen. Die Grenzen zwischen akzeptierten und nicht18) In schneller Rede kann /v/ als Zweitglied stimmlos werden: [Jfats] Schwatz oder tkfSK] quer. Dies betrachte ich als eine Assimilation auf der phonetischen Ebene. 19) Die Markiertheit besteht vielleicht gerade darin, daß die segmentalen Merkmale der beiden Teile der Affrikate nicht identisch sind (siehe auch Abschnitt 3.2).
94
gestatteten Clustern sind im übrigen auch fließend. So wurde in (34) der Cluster /vl/ im Anlaut ausgeschlossen. Andererseits akzeptieren Sprecher des Deutschen ohne weiteres Namen wie Wladimir. Hier geraten wir in den verschwommenen Randbereich der Silbenstrukturbedingungen. Es ist aber zu betonen, daß es auch eindeutig ausgeschlossene Kombinationen gibt, z.B. den soeben betrachteten Cluster, aber mit geänderter Reihenfolge: */lv/. Dieser Cluster widerspricht nicht nur der Silbenstrukturbedingung, sondern auch der Sonoritätshierarchie. 3.7.3. Negative Silbenstrukturbedingungen Eine generelle negative Silbenstrukturbedingung ist vielleicht die, daß - aus den zugelassenen Kombinationen - diejenigen mit homorganischen Konsonanten im Anlaut nicht akzeptabel sind. In (7l) wird eine entsprechende Silbenstrukturbedingung formuliert. Sie schließt insbesondere /tl/ und /dl/ aus, die nach den bisher formulierten Prinzipien möglich sein sollten. Sie erklärt ebenfalls, warum, wenn man /kn/ und /gn/ als akzeptabel beschrieben hat, */tn/ und */dn/ dennoch ausfallen. Auch alle erlaubten Kombinationen mit Nasalen als Zweitglied sind ja nicht homorganisch: /kn/, /gn/, (marginal auch /pn/ und /gm/). (Da für den rLaut im Deutschen eine velare Version (/K/) angenommen wird, ist das freie Auftreten der Cluster mit /K/ gut erklärt.)
(71)
c
c
[a Ort] [a Ort]
Bemerkenswerterweise sind die Verhältnisse im Silbenauslaut gerade umgekehrt. Hier sind homorganische Kombinationen präferiert (siehe (67)) und werden durch Assimilationsregeln herbeigeführt: /fynf/ ->· [fymf], /bank/ -*· [bar)kL 3.8. Extrasilbische Segmente 3.8.1. Wortinitiale Cluster Trotz Verletzung aller bisher aufgeführten Prinzipien sind //p/, //t/ und /sk/ erlaubte Silbenansätze, siehe Wörter wie Spiel, spotten, Stein, stoßen, Skat, Skelett. Manche betont standard- oder fachsprachlichen Wörter erlauben auch /st/ und /sp/ wie in Stil, Status, Spezies. In vielen dieser Wörter besteht Variation zwischen Sprechern und Registern: Heißt es [slieiAos/ropoder iS^tethoskop, is~\tringent oder [fltringent? Von diesen Wörtern, die man als nicht-assimilierte Fremdwörter betrachten kann, einmal abgesehen, gilt, daß vor /t/ und /p/ ein /// und vor /k/ ein /s/ möglich ist. (Auf die davon abweichenden Fremdwörter komme ich unten wieder zurück.) Im Gegensatz zur gängigen Auffassung in der Literatur gehe ich davon aus, daß der Cluster /sk/ ganz regulär in diese Reihe gehört und wie //p/ und /J"t/ be-
95
trachtet werden muß. Seine relative Seltenheit ist auf einen Lautwandel zurückzuführen, der /sk/ zu /S/ verändert hat; siehe skola > Schule, mensk > Mensch. Im Gegensatz etwa zu Wurzel (1970) und Bierwisch (1972) nehme ich aber an, daß diese Regel für die Synchronie keine Bedeutung mehr hat. Das zeigt sich unter anderem darin, daß Wörter, die historisch nach Auftreten dieses Lautwandels in die deutsche Sprache eingedrungen sind, keiner Veränderung unterworfen werden und auch nicht notwendigerweise als Fremdwörter empfunden werden. Die Zahl der entsprechenden Wörter ist auch nicht so klein, wie manchmal suggeriert wird, siehe z.B. Skat, Skalpell, Sklave, Skelett, Skorpion, skandieren, Skala, skeptisch. Der Rechtschreib-Duden z.B. enthält etwa 70 Einträge solcher Wörter. Diese Cluster stehen außerhalb der bisher erarbeiteten Prinzipien, weil dadurch erstens die Zahl der maximalen Segmente im Anlaut überschritten werden (Sprache, Straße, Sklave) und zweitens die entstehenden Cluster nicht der Sonoritätshierarchie folgen, /s/ und /// sind sonorer als die ihnen folgenden Verschlußlaute. Schon Sievers (1901) spricht daher in diesem Zusammenhang von "Nebensilben"; siehe auch Vennemann (1982). Die Standardauffassung zu diesen Clustern (z.B. Wurzel 1981) ist, zumindest das /// (oder /s/, Wurzel (1970)) als erstes Element in einem dreiteiligen Konsonantencluster zu behandeln, mit der Festlegung, daß das erste C eben mit /// assoziiert sein muß, wie in (72) dargestellt.
(72)
C C C V [.
Diese Auffassung stößt jedoch auf zwei Probleme, ein prinzipielles und ein empirisches. Erstens ist damit nicht geklärt, inwieweit die allgemeinen Prinzipien der maximalen Positionen im Anlaut und der Sonoritätshierarchie hier einfach aufgehoben sind. Zweitens ist die in (72) gelieferte Beschreibung nicht vollständig richtig. Bei näherem Hinsehen erweist sich nämlich, daß die soeben geschilderten Verhältnisse für /// nur für Silben am Wortanfang, nicht aber im Wortinnern gelten. Im Wortinnern gibt es keine Silben mit einem Anlautcluster wie in (72). (Stattdessen gibt es hier vielleicht ein /s/, siehe 3.8.3.) Diese Fakten, nämlich die unterschiedliche Distribution der Segmente in bezug auf bestimmte Positionen im Wort und die völlige Nichtberücksichtigung der universalen und einzelsprachlichen Silbenregularitäten, sprechen dafür, /// und /s/ als extrasilbische Konsonanten aufzufassen. Diese Analyse geht auf einen Vorschlag von Halle & Vergnaud (1980) zurück und wird auch, wenn auch nicht im Rahmen des CV-Modells, von Vennemann (1982), Booij (1983) und van der Hülst (1984) vertreten. Solche extrasilbischen Konsonanten sollen im folgenden als 'Appendix' bezeichnet werden. Die Repräsentationen für die Wörter Stein und Skat sind nach diesem Vorschlag die in (73) dargestellten. Ein Segment als extrasilbisch aufzufassen, be-
96
deutet, ihm einen Platz außerhalb der Silbe zuzuweisen. So verletzen /// und /s/ am Wortanfang nicht die Silbenprinzipien, weil diese Segmente gar nicht in die Silbe integriert sind. Es ist daher auch nicht nötig, die entsprechenden Cluster als Ausnahmen von den allgemeinen Silbenprinzipien zu betrachten. Den extrasilbischen Charakter dieser Segmente ernstzunehmen bedeutet auch, daß sie für das Merkmal [silbisch] nicht definiert sind, also X-Positionen belegen. (73) a.
/
Wort
b.
/\ °
/\ / °
X/CWc
MI
j t a
Wort
M
i n
v£
ff
sk
Konzeptuell besteht das Phänomen der Appendices aus zwei Teilen. Erstens muß einfach postuliert werden, daß und wo ein Appendix auftreten kann. Zweitens muß festgelegt werden, welches konkrete Segment in den verschiedenen Positionen möglich ist. Diese Zweiteilung ist auch dadurch gerechtfertigt, daß es offenbar für den ersten Teil, also die Distribution der Appendices, generelle Prinzipien zu geben scheint, die von der artikulatorischen Spezifikation der extrasilbischen Segmente unabhängig sind (und es auch sein sollten). Generell gilt nämlich für extrasilbische Elemente, daß sie nur an den Rändern ihrer Domäne, hier also der Silbe, auftreten können, und daß für eine Position immer nur ein extrasilbisches Element möglich ist. Diese beiden Beschränkungen wiederholen sich für Einheiten auf der nächsten prosodischen Ebene, die der extrametrischen Segmente. Wie in Abschnitt 3.9 ausgeführt wird, gibt es Segmente, die für Akzentregeln "nicht zählen". Die hier genannten Beschränkungen werden dort wieder aufgenommen. Wenn diese Behauptung über einen einzigen möglichen extrasilbischen Konsonanten als eine universale Festlegung richtig ist, liegt folgende 'Regel' nahe: (74) Vor einer Silbe kann ein X angefügt werden. Daß ein solcher Appendix im Deutschen auch am Ende einer Silbe möglich ist, wird unten begründet. Die ähnlichen Phänomene in einer Vielzahl anderer Sprachen (engl. stone, griech. ftano, lat. Scipio) lassen vermuten, daß hier tatsächlich ein universaler Parameter vorliegt. Sprachen, in denen dieser Parameter nicht 'gesetzt' wird, erlauben keinen Appendix. Beispiele dafür liefern die romanischen Sprachen. Der wortinitiale Cluster /sk/, der u.a. im Lateinischen möglich war (schola = /skola/), kann in den romanischen Sprachen nicht als solcher realisiert werden. Die hier gefundene Lösung ist ein epenthetisches /e/, siehe span, escuela, frz. ecole. Wenn diese Sichtweise richtig ist, könnte man die Sprachen nach einem
97
neuen Kriterium typologisch einteilen, nämlich nach der Instantiierung des Appendix-Parameters, und zwar getrennt für die Position vor und nach der Silbe. Deutsch gehört in die Gruppe der Sprachen, die beide Appendices erlauben. Nicht universal ist die konkrete Belegung der extrasilbischen Positionen mit Segmenten, wie auch der Vergleich der soeben erwähnten Sprachen zeigt. Für das Deutsche gibt es daher neben der universalen Regel (74) noch die folgende einzelsprachliche Festlegung: C C C . . l l . l (75) Extrasilbisches X am Wortanfang wird vor /t/ und /p/ mit /JY, vor /k/ mit /s/ assoziiert. Das extrasilbische Segment kann nur vor /p/, /t/ und /k/ auftreten. /JY und /s/ sind vor /b/, /d/, /g/, /s/, /z/, /f/, / / und /j/ nicht möglich, während /JY vor /!/, /BY, /m/, /n/, und /v/ Teil eines regulären zweiteiligen Cluster bildet (siehe (34)). Was die nichtregulären Cluster betrifft, so sind (74) und (75) völlig hinreichend, um die wortinitialen Fälle zu beschreiben. Außerdem macht diese Analyse maximalen Gebrauch von universalen Beschränkungen. Unter Berücksichtigung der Tatsache, daß [sf] in Wörtern wie Sphäre und Sphinx möglich ist, könnte man zu der weitergehenden Generalisierung gelangen, daß /JY oder /s/ immer dann möglich sind, wenn die Cluster nicht durch Inkompatibilität in Stimmhaftigkeit (/b/, /d/, /g/) oder Artikulationsort (/s/, /c/) oder beidem (/z/, /j/) ausgeschlossen sind. Bemerkenswerterweise sind die anlautenden Appendices (Vennemanns "Präpendices") ausgeschlossen, wenn der Verschlußlaut Teil einer Affrikate ist: *[J"ts], *[ fpf], *[sks], etc. Auf den ersten Blick widerlegt dies Regel (75) und auch die Generalisierung von Clements & Keyser (1983: 46f.), daß ein Appendix (bei Clements & Keyser /s/ im Englischen) an alle anlautenden wohlgeformten Cluster mit /p/, /t/ und /k/ treten kann. Auch das Englische erlaubt [twig], aber nicht [stwig]. Genauere Betrachtung der Regel (75) löst aber den Widerspruch auf. Fragt man, ob ein Segment wie £ die Bedingung für das extrasilbische /JY erfüllt, t s wird man nur eine widersprüchliche Antwort geben können. Die Bedingung wird durch [t] erfüllt, durch Es] aber nicht. Offenbar gilt in diesen Situationen das bereits in Abschnitt 3.4 und 3.5 diskutierte generelle Prinzip, das eine Regel bei Mehrfachassoziation des Segments blockiert. Wie die ambisilbische Repräsentation von /g/ in Bagger die Auslautverhärtung blockiert, so verbietet auch die Mehrfachassoziation der silbeninitialen C-Position in zwei einen Appendix. Hinzuzufügen ist noch, daß in Fremdwörtern die Bedingung (75) für anlautendes /s/ weiter gefaßt ist. /s/ ist hier auch vor anderen Segmenten als vor /k/ möglich: Smog, Slip, Snob, etc. Wörter wie Stil, Spezies und Szene gehören (in einer bestimmten Aussprachevariante) wohl auch in diese Gruppe. Man beachte, daß dadurch nur die Kontextbedingung in Regel (75) betroffen wird. Das grundlegende
98
Prinzip (74), das einen Appendix vor einer Silbe zuläßt, wird dadurch nicht betroffen, ebensowenig wie die Festlegung, daß /s/ als mit dem Appendix- C assoziiertes Segment möglich ist. (Daß das wortinitiale /s/ in bezug auf die Silbe irregulär ist, zeigt sich auch daran, daß stimmloses [s] ansonsten wortinitial ausgeschlossen ist. Eine Analyse, die das /s/ in Skat nicht extrasilbisch auffaßt, hat mit dieser Tatsache sicherlich Probleme.) 3.8.2. Externe Evidenz aus der Schrift Die Analyse von /s/ oder /// vor /p/, /t/ und /k/ als Appendix wird auf interessante Weise durch das Schriftsystem des Deutschen bestätigt. 20 Der Laut [/] wird nämlich genau dann als geschrieben, wenn das zugrundeliegende Phonem ein Appendix ist; andernfalls erscheint es als . Man vergleiche Stein, spitz und Skat mit schwer, schmal, Schlange, Schreck, Schal und schnell. Das [s] im Appendix (Skat, Sklave) wird natürlich auch als geschrieben. Aufgrund dieser Verhältnisse läßt sich schließen, daß die Graphem-Phonem-Korrespondenz-Regel, die die Schreibung von [/] steuert, auf die Extrasilbizität des Lautes Bezug nimmt. Die Regel könnte etwa folgendermaßen formuliert werden: X
(76)
sonst, J
Ein mit X assoziiertes (also extrasilbisches) /JV wird als geschrieben, ein anderes als . Diese Regel unterscheidet sich von Bierwischs Vorschlag, die ///-Schreibung zu erfassen, erstens dadurch, daß sie nicht davon ausgeht, daß /// auf ein zugrundeliegendes /sk/ zurückzuführen ist (Bierwisch 1972). Diese letztere Analyse, die von Wurzel (1970) vorgeschlagen wird, rekonstruiert in unzulässiger Weise den sprachgeschichtlichen Ablauf als Teil der synchro nischen Regeln und hat andere, oben dargestellte Probleme. So kann sie die Wörter mit anlautendem [sk] nicht direkt erfassen; diese müssen als Ausnahmen markiert werden. Wie oben dargelegt, sind solche Wörter jedoch recht gut in das gegenwärtige System des Deutschen integriert. Der zweite Unterschied zur bisherigen Analyse besteht darin, daß auf die Kategorie der Silbe Bezug genommen wird. Genau dadurch wird es möglich, die Fakten unter Einschluß der Wörter wie Skat richtig zu beschreiben. Die Schriftregularitäten, erfaßt durch die Regel (76), liefern also externe Evidenz für den Appendix.
20) Weitere Überlegungen zum Verhältnis von Laut und Schrift im Rahmen des hier angenommenen Modells finden sich in Wiese (I987a). Die dort formulierte Regel fUr die Schreibung von /// beruht auf einer etwas anderen Analyse der Extrasilbigkeit und hat den Nachteil, daß sie als den sonst-Fall annehmen muß.
99
3.8.3. Der wortinterne Appendix Betrachten wir nun Wörter wie Husten, erste, extra, Fenster oder auch denkste. Hier erweist es sich als ungewöhnlich schwierig, das wortinterne /s/ einer der beiden Silben zuzuweisen. Die Intuitionen variieren sowohl von Wort zu Wort als auch von Sprecher zu Sprecher. Die Silbifizierung Fen-ster scheint ebenso gut wie Fens-ter oder die Variante mit einem ambisilbischen /s/. Da außerdem dieses /s/ in manchen der Kontexte die Sonoritätsbeschränkungen verletzt (so etwa in extra: [ekstra] mit einem vorangehenden und einem folgenden Plosiv), kann der Schluß gezogen werden, daß auch hier Extrasilbizität vorliegt. Gerade weil das /s/ extrasilbisch ist, haben Sprecher des Deutschen keine klaren Intuitionen darüber, zu welcher Silbe es gehört. Im Wortinnern existiert vielleicht /s/ als weiterer extrasilbischer Konsonant. Wörter wie yCbe yCsi/e/cAe/j]] sind übrigens keine Gegenbeispiele zu der soeben getroffenen Feststellung, da sie morphologisch komplex sind. streichen ist ebenfalls eine lexikalische Einheit mit Wortstatus. Die Fakten über das wortinterne /s/ rechtfertigen jedenfalls die Regel (77), die zu (75) hinzutritt. (77) Extrasilbisches, wortinternes X wird mit /s/ assoziiert. Unklar ist, ob es Beschränkungen Tür die folgenden Segmente gibt wie im Falle des wortinitialen Appendix. Die oben angeführten Beispiele enthalten alle /t/ als folgenden Konsonanten. 3.8.4. Wortfmale Cluster Damit haben wir auch einen (wenn auch von den Fakten her weniger geklärten) extrasilbischen, wortinternen Konsonanten erfaßt. Eine wichtigere Funktion erfüllen jedoch die wortfinalen Appendices. Wie vor einer Silbe /// und /s/, sollen nach einer Silbe /t/, /s/ und /st/ als Appendices (hier: "Suppendices") analysiert werden. Die Gründe für diese Analyse liegen, wie bereits oben ausgeführt, zunächst in der daraus resultierenden Einfachheit für die Silbenstruktur. Als "Ausnahmen" zum Silbenschema (35), das maximal zwei Auslautkonsonanten zuläßt, und zu der Sonoritätshierarchie, die eine monoton sinkende Sonorität zum Silbenende hin fordert, erscheinen ja genau die Segmente /t/ (siehe Akt, wirft, legt), /s/ (siehe Wegs, rechts, Schranks) und /st/ (Herbst, legst, beschränkst). Wie die Beispiele weiterhin zeigen, ist es unerheblich, ob die genannten Segmente ein Morphem realisieren oder nicht. In Akt, Obst und Herbst liegt ja vermutlich kein Suffix vor. Um die wortfinalen Appendices in das Modell zu integrieren, ist zunächst erforderlich, daß wie für die Position vor der Silbe auch postsilbisch ein AppendixKnoten geschaffen wird. Die (ebenfalls als universaler Parameter aufzufassende) Regel (78) fügt die erforderliche X-Position ein. Die Fakten scheinen dafür zu sprechen, daß dieser Appendix nur wortfinal auftritt. Andererseits ist Tür die wortinternen Appendices unklar und schwer entscheidbar, ob sie zur vorangehenden oder zur folgenden Silbe zu zählen sind.
100
(78) Nach einer Silbe kann ein X angefügt werden. Wie bei den übrigen Appendices ist ebenfalls die Segmentbelegung für diese Position zu spezifizieren. Hier taucht nun das Problem auf, daß auch die Segmentkette /s t/ möglich ist. Nach allem bisher Gesagten wäre es aber keine wünschenswerte Lösung, zwei extrasilbische X-Positionen dafür bereitzustellen. Die bisherigen Überlegungen (und weitere im Zusammenhang mit der Schwa-Distribution, siehe Abschnitt II, 2.3.2) legen vielmehr nahe, die Kette /s t/ mit dem einen AppendixX zu assoziieren. Diese Repräsentation, dargestellt in (80), ist zwar ungewöhnlich, kann aber gerechtfertigt werden. Erstens ist sie in bezug auf die Segmentspezifikation einfach der spiegelbildliche Fall zu der Affrikate /ts/, für die Viele-zu-EinsAssoziation gut begründet ist (siehe 3.2). Zweitens sprechen die bisherigen Studien zu extrasilbischen Segmenten deutlich dafür, nur jeweils eine extrasilbische Position zuzulassen. Drittens ergibt sich aus dem Verhalten von Schwa im Deutschen ein weiteres Argument dafür, daß der Cluster /s t/ in der Phonologic des Deutschen tatsächlich als eine Einheit fungiert. Wie in Kapitel II, 2 demonstriert wird, fügt eine Schwa-Einfügungsregel Schwa genau eine Position vor dem Wortende ein. Diese Regel behandelt den Cluster /s t/ offenbar als Einheit, denn Schwa wird niemals zwischen /s/ und /t/ eingefügt. Aufgrund dieser Sachlage spricht nichts dagegen, folgende Regel anzunehmen, die die Segmente für den wortfinalen Appendix expliziert. (79) Ein wortfinaler Appendix kann mit /t/, /s/ oder /s t/ assoziiert werden. Beschränkungen über die Natur des vorangehenden Konsonanten gibt es offenbar nicht. Ein wortfinaler Appendix kann nach jedem Silbenauslaut auftreten. Zur Illustration der hier vorgeschlagenen Analyse gebe ich noch die prosodische Struktur des Wortes streichst an, das einen wortinitialen und einen wortfinalen Appendix enthält: Wort
Es kann hier gefragt werden, wann ein Segment als ein Appendix zu betrachten ist. So ist z.B. in gut für das /t/ eine Appendix-Analyse möglich. Die zwei denkbaren Repräsentationen für gut sind in (8l) dargestellt. Es wird deutlich, daß die Repräsentation in (81a) die einfachere ist, in dem Sinne, daß die Repräsentation nicht
101 auf das Konzept des Appendix zurückgreifen muß. (Der Appendix ist zwar als universaler Parameter vorhanden; er ist aber nicht universal instantiiert.) Das Beispiel demonstriert damit die Rolle von Einfachheitskriterien in der Grammatik, die seit SPE immer wieder diskutiert worden sind. Es scheint sinnvoll, anzunehmen, daß immer dann, wenn die Prinzipien und Regeln der Grammatik mehrere Analysen zulassen, die einfachste Lösung gewählt wird. (Auf die Frage nach den Einfachheitskriterien, also danach, wie denn in prosodischen Strukturen die Einfachheit berechnet wird, kann ich in diesem Zusammenhang nicht eingehen; siehe dazu etwa Dogil (1984).) (8l)
a.
Wort
b.
Wort
a
cv cc l g
\/ u
l t
Es sei nicht verschwiegen, daß das Niederländische ein Problem für die Behauptung, daß immer nur ein Appendix möglich ist, liefert. Van der Hülst (1984: 99) behauptet, daß auch ein Appendix /tst/ möglich ist, etwa im Wort beroemdst Tjerühmtest'. Für diese Dreierkombination ebenfalls eine einzige Segmentposition vorzuschlagen, ist wohl eine zu weitgehende Lösung. Allerdings ist für Booij (1984) dieser Appendix im Niederländischen nicht möglich. Ein ähnliches Problem entsteht für das Deutsche, falls man Wörter wie (des) Herbsts und (des) Obsts als akzeptabel einstuft, wie Halle & Vergnaud (1980) es tun.21 In diesem Fall wäre ein Appendix /sts/ möglich, der die Beschränkung des Appendix auf eine einzige Position überschreitet. Die Lösung von van der Hülst besteht darin, den Appendix als eine eigene Kategorie einzuführen. Der Appendix im oben aufgeführten Wort hat danach die folgende Form:
(82)
A
t
/K s
t
Es scheint mir aber wenig für eine Kategorie ' zu sprechen, da ein Appendix nichts anderes als das Vorkommen eines Konsonanten in einer besonderen Konfiguration (eben extrasilbisch) ist. 2l) Eine Recherche in der maschinenlesbaren Datenbank des Instituts Tür deutsche Sprache, Mannheim, hat (in 15 Mill. Wörtern geschriebener Sprache) ergeben, daß filr Herbstes 11 Belege vorkommen, für Herbsts dagegen keiner. Allerdings existieren weder Belege für Obstes noch für Obsts.
102
Die Appendix-Analyse mag zunächst wie ein Trick erscheinen, der die Funktion hat, die vorher gewählte Silbenanalyse zu retten. Es gibt jedoch, wie gezeigt, weitere Argumente, die zumindest nahelegen, daß damit der richtige Weg beschritten wird. Im übrigen ist gerade unter der Modularitäts-Hypothese (siehe Schluß, Abschnitt 2) damit zu rechnen, daß es eine Reihe solcher, sehr einfacher Prinzipien gibt. Die Komplexität an der (phonologisch-phonetischen) Oberfläche ergibt sich dann nicht so sehr durch komplizierte Regeln, sondern durch die Interaktion verschiedenartiger einfacher Prinzipien. Im Deutschen (wie in anderen Sprachen) gehört dazu eben auch das Prinzip, daß extrasilbische Konsonanten möglich sind.22 3.9. Silbenstruktur und Wortakzent In Abschnitt 3.3 wurde die Auffassung verteidigt, daß alle Silben des Deutschen einschließlich der Schwa-Silben - einen verzweigenden Kern als Minimalstruktur besitzen. Eine Konsequenz daraus ist, daß keine Silbe, auch nicht in Wörtern wie Psy-cho-lo-gie, auf einen kurzen Vokal endet. Die vorgeschlagene Analyse ist jedoch nur akzeptabel, wenn das Problem des Wortakzents auf andere Weise als über die Markierung der gespannten Vokale als [± lang] gelöst werden kann. Eine solche Lösung, die sich aufgrund der Arbeiten von Hayes (1982) und Selkirk (l984a) anbietet, soll im folgenden skizziert werden. Es ist nicht Ziel dieses Abschnitts, eine Theorie des Wortakzents im Deutschen zu entwickeln. Es geht vielmehr um die bescheideneren Ziele, den bereits postulierten Zusammenhang von Silbenquantität und Akzent auszuformulieren und zu zeigen, daß generelle Akzentregeln auch dann postuliert werden können, wenn auf die Markierung langer vs. kurzer gespannter Vokale verzichtet wird. Ein Zusammenhang zwischen Quantität der Silbe und Wortakzent besteht im Deutschen nach der hier vertretenen Auffassung nur insofern, als alle Silben außer denen mit Schwa oder silbischem Konsonanten ein Mindestmaß an Akzent tragen und darüber prinzipiell jede Akzenthöhe aufweisen können. Es ist z.B. nicht so, daß eine Silbe mit mehreren silbenfinalen Konsonanten betonter ist als eine mit nur einem Auslautkonsonanten. Für die umgekehrte Vorstellung, nämlich daß eine Silbe eine je nach Akzentwert unterschiedliche segmentale oder silbische Struktur hat, spricht nichts. Ich greife damit das Begriffspaar betonungsfähig vs. betonungsunfähig von Trubetzkoy (1939: 226) wieder auf. Trubetzkoy geht allerdings (wie später Wurzel (1970) und Giegerich (1985: 107)), davon aus, daß Affixe wie +isch, +lich, +ig ebenso betonungsunfähig sind wie Schwa-Silben. Giegerich notiert daher hinderlich vs. kinderlos. Wurzel nimmt an, daß das /i/ in den genannten Affixen ebenso durch eine Epentheseregel eingeführt wird wie Schwa (bzw. das Schwa zugrundeliegende 22) Daß die Separierung der Appendices von der eigentlichen Silbe auch phonetisch begrlindbar ist, zeigen Fujimura & Lovins (1978) an verschiedenen Realisierungsphänomenen des Englischen. Ihre Begriffe 'core' und 'affixes' sind allerdings mit den hier verwendeten nicht völlig deckungsgleich.
103
/e/), und zwar in unbetonten Silben. Diese Beurteilung scheint nicht den Fakten zu entsprechen. Daß Schwa-Silben weniger akzentuiert sind als Silben mit den genannten Affixen, zeigt sich, wenn ein Schwa an die Affixe angehängt wird. Es ergeben sich (unter Vernachlässigung der silbischen und segmentalen Einzelheiten) s/wBeziehungen wie in (83). In diesen Wörtern tragen die jeweils vorletzten Silben deutlich stärkeren Akzent als die umgebenden Schwa-Silben. Es gibt also Grund zu der Annahme, daß tatsächlich nur Schwa-Silben gänzlich unakzentuiert sind. (83)
a.
Wort
A
S
W
s w s w l l j I male rische
b.
Wort S
W
s w s w I I I I hinderli ehe
Zunächst zeigen die Daten in (5l), daß für Wörter, die auf Konsonanten enden, ein Weg gefunden werden muß, wie die Anfangs- oder Endbetonung markiert werden kann. Die Silbenstruktur kann ja für den Akzentunterschied in Konsul vs. Modul nicht verantwortlich sein. Eine einheitliche Behandlung der vokalfinalen Wörter in (49) und der konsonantfinalen in (51) ist also angebracht. Es scheint ein Faktum über ein Wort wie Gummi ebenso wie Konsul zu sein, daß die finale Silbe nicht akzentuiert wird. Da Wörter, wie aus der Lexikologie gut bekannt ist, häufig individuelle Information als Teil des lexikalischen Eintrags enthalten, so können wir dieses Faktum auch als genau das ausdrücken, was es ist: Ein Ignorieren bestimmter Segmente oder Silben in bestimmten Wörtern. 23 Solche Silben werden in der Literatur als "extrametrisch" bezeichnet: "A syllable is called extrametrical if it is ignored by the stress rules; that is, treated as if it were not there." (Hayes (1982: 227)). Die Theorie der Extrametrikalität ist in der neueren Prosodieforschung besonders von Hayes (1982) und Selkirk (l984b) entwickelt worden. Von van der Hülst (1984) wurde sie auch auf das Akzentsystem des Niederländischen angewandt. Extrametrikalität ist durchaus mit der Extrasilbigkeit verwandt, die in Abschnitt 3.8 herausgearbeitet wurde (siehe dazu auch Abschnitt 2 im Schlußkapitel). Wenn die zweite Silbe in Gummi aufgrund von Extrametrikalität unakzentuiert ist, ist für die Wortakzentregel (48) nur die erste sichtbar. Daraus ergibt sich sofort das adäquate Akzentmuster für dieses Wort. Extrametrikalität ist also ein diakritisches Merkmal, das an Segmente vergeben werden kann.2* Wir können es folgendermaßen notieren: Gumm(i)em. In einer expliziteren Darstellung wird man 23) Hayes und Selkirk nehmen an. daß Segmente oder Silben als extrametrisch markiert werden können. Da in meinem Modell Silben nicht in dem zugrundeliegenden lexikalischen Eintrag existieren, ist die Zuweisung des Merkmals [extrametrisch] nur an Segmente möglich. 24) Ich vernachlässige die Frage, ob das Segment oder die CV-Positionen extrasilbisch sind.
104
wohl annehmen, daß das Merkmal [+ extrametrisch] einer Konstituente (z.B. einem Segment) zugewiesen wird. Wie Hayes demonstriert, ist nicht nur die idiosynkratische Markierung einer Einheit als extrametrisch möglich, sondern es gibt auch Argumente für Regeln der Extrametrikalität. So kann für Verben und Adjektive des Englischen angenommen werden (Hayes (1982: 238)), daß der finale Konsonant extrasilbisch ist, etwa entsprechend der folgenden Regel: (84)
C -» [+extrametrisch]/
Die Regel macht den finalen Konsonanten in astonish unsichtbar, in obey dagegen nicht, da dieses Wort nicht auf einen Konsonanten endet. In atone ist das finale /n/ extrametrisch, aber der lange Vokal erlaubt dennoch, daß die letzte Silbe betont wird, (im Gegensatz zum Deutschen gibt es im Englischen einen Kontrast zwischen schweren (akzentuierbaren) und leichten (nicht-akzentuierbaren) Silben.) Die Extrametrikalitäts-Lösung für einige Probleme des Wortakzents ist nur eine der denkbaren und tatsächlich vertretenen Ansätze. Sie scheint mir jedoch zwei Vorteile zu besitzen: Erstens erlaubt Extrametrikalität eine einheitliche Behandlung der Wörter mit finalem Vokal und mit finalem Konsonant. Es sei daran erinnert, daß eine andere Lösung darin besteht, den finalen Vokal in Konto als kurz, in Büro dagegen als lang zu markieren. Diese Lösung ist für Paare wie Konsul vs. Modul nicht geeignet, es muß also ein anderes Mittel gefunden werden. Das Mittel könnte darin bestehen, den finalen Vokal in Konto als extrametrisch zu markieren und dem Wort den zugrundeliegenden Eintrag lkont(o:) em l zu geben. Zweitens ist Extrametrikalität geeignet, die prinzipiellen und die lexikalischidiosynkratischen Elemente in der Wortbetonung auseinanderzuhalten und optimal zu verwenden. Die für große Teile des Wortschatzes gültigen Wortbetonungsregeln (etwa (48)) interagieren mit lexikalischen Markierungen, woraus sich die zunächst verwirrende Vielfalt der Betonungsmuster im Deutschen ergibt. Die Extrametrikalitätsregel für das Englische (84) besitzt einen anderen Status als die hier für das Deutsche vorgeschlagenen Markierungen. Im Deutschen gibt es, soweit ich sehe, nur eine derartige generelle Extrametrikalitätsregel. In (50) ist kein Wort mit finalem /a/ aufgeführt, was sich bei weiterer Suche tatsächlich als Regularität erweist. Der Vokal /a/ ist am Wortende immer extrametrisch: (85)
/a/ -» C+ extrametrisch] /
]
Wort
(Rein technisch ist die Regel wohl anders zu formulieren: Gemeint ist, daß ein Nukleus über wortfinalem /a/ für Akzentregeln nicht zählt.) Eine andere Extrametrikalitätsfestlegung gilt offenbar für das Suffix or wie in Doktor, Professor, Kondensator und Direktor. In diesen Wörtern ist /oK/ im Gegensatz zu anderen nicht-nativen Suffixen (Habilit+and, Dekan+at) unakzentuiert. Für die Pluralform (Doktoren, etc.) gilt aber, daß das gleiche Suffix den
105
Wortakzent trägt. Nehmen wir aber an, daß loKI im Lexikon extrametrisch markiert ist, folgt diese Verteilung sofort. Das Extrametrikalitätsmerkmal ist nämlich nicht mehr sichtbar, wenn das Suffix nicht am Wortende steht.25 Wie in Abschnitt 3.8 ausgeführt, können bestimmte Segmente gleichsam außerhalb der Silbe stehen - ein Phänomen, das Extrasilbizität genannt wird. Extrasilbizität in diesem Sinne ist zu unterscheiden von Extrametrikalität. Die Gemeinsamkeit besteht darin, daß in beiden Fällen eine prosodische Einheit in einer höheren Domäne nicht "zählt". Aber Extrasilbizität gilt nur in bezug auf Silbenstrukturbedingungen, während Extrametrikalität für Akzentregeln relevant ist. Daraus folgt, daß extrametrische Segmente keineswegs extrasilbisch sind; die beiden Eigenschaften können nur zufällig zusammenfallen. An den beiden genannten Regeln, (84) für das Englische und (85) für das Deutsche, sind zwei weitere Eigenschaften extrametrischer Konstituenten zu demonstrieren. Erstens können nur die in einer Domäne äußeren Konstituenten extrametrisch sein. Eine extrametrische Markierung wortinterner Segmente wird durch die Theorie ausgeschlossen und scheint auch nicht vorzukommen. Daß Extrametrikalität in den genannten Beispielen wirklich nur wortfinal gilt, zeigen auch Akzentalternationen wie in Afrika vs. Afrikaner, Doktor vs. Doktoren. Die Extrametrikalitätsmarkierungen auf /a/ und /oK/ sind nur am Wortende sichtbar. Wortintern sind die entsprechenden Silben akzentuiert, was übrigens auch gegen die zugrundeliegende Kürze dieser Vokale spricht. Die obigen Ausführungen beantworten nicht alle Fragen zur Extrametrikalität im Deutschen. Diese Fragen sind auch nur im Zusammenhang mit einer umfassenden Akzenttheorie zu klären, die hier nicht entwickelt werden kann. Es soll nur plausibel gemacht werden, daß Mechanismen wie die der Extrametrikalität benötigt werden, um bestimmte Akzentphänomene im Deutschen erfassen zu können. Eben diese Mechanismen machen dann auch die dreifache Unterteilung der Vokale (siehe (47)) überflüssig. In einem Akzentmodell für das Deutsche wird zu fragen sein, ob bei der Verwendung der Extrametrikalität noch eine Notwendigkeit für Akzentregeln der Art (48) besteht. Vielleicht ist folgendes einfacheres Modell hinreichend: In Wörtern des Deutschen kann entweder die erste oder die letzte betonbare Silbe den Wortakzent erhalten. (Betonbar sind dabei alle nicht-extrametrischen Silben.) Wörter des Typs Pinguin, Ka/Jfee (siehe (51a)) unterliegen einer Regel, die Anfangsakzent zuweist; Wörter des Typs Hermelin oder Cafe" (51b) einer Regel, die Endakzent zuweist. Die Zuordnung zu einer der beiden Regeln wird durch lexikalische Festlegung geleistet. Wesentliche Komplikationen in diesem System ergeben sich vor allem durch die Interaktion von Wortbildung und Akzentzuweisung. In II, 2.5 werden diese Zusammenhänge weiter verfolgt. 25) Eine Reihe von Wörtern auf or zeigen zwei Akzentmuster: Motor, Pastor. Ich nehme an, daß die Endbetonung erscheint, wenn /OK/ nicht als Suffix analysiert wird. Man vergleiche Major mit fixer Endbetonung.
106
4. Alternative Silbenmodelle Die in diesem Teil vorgeschlagenen Elemente einer Silbentheorie umfassen drei Typen von Prinzipien: formale Prinzipien, die die Geometrie der phonologischen Repräsentation betreffen, substantielle Prinzipien für die Natur der Segmente in den Silbenpositionen und Prinzipien zur Erstellung der Silben auf der Grundlage der genannten anderen Prinzipien. In der bisherigen Diskussion der Argumente für ein Silbenmodell habe ich weitgehend unterschlagen, daß für die Geometrie der Silbenstruktur eine Reihe von alternativen Theorien in der Literatur vorgeschlagen und diskutiert wird. Soweit ich sehe, werden in der gegenwärtigen Diskussion neben dem hier favorisierten CV-Modell besonders drei Typen alternativer Modelle vorgeschlagen. Im Unterschied zu dem CV-Modell besitzen sie eine reichere hierarchische Struktur und mehr subsilbische Kategorien. Ziel dieses Teils der Arbeit war auch, zu demonstrieren, daß solche Modelle wie die unten dargestellten nicht erforderlich sind. Das Schema (86a) ist als universales Schema sowohl notwendig wie hinreichend. Die in der gegenwärtigen Diskussion relevanten Silbenmodelle lassen sich in die in (86) dargestellten vier Typen einteilen, von denen das erste nicht mehr vorgestellt zu werden braucht. (86) a.
CV-Modell:
ö
A\
... c v c ... b. Metrisches Modell:
ö w
s
w
w W
c. Konstituentenmodell: Ansatz
Reim Kern Koda
107
d. Morenmodell: More
More
Die vier in (86) dargestellten Typen sind der Übersichtlichkeit halber so aufgeteilt. Es gibt von jedem Typ Varianten und, was die Darstellung noch schwieriger macht, Mischformen zwischen den reinen Typen (So nimmt Mohanan (1985) an, daß sowohl Segmentpositionen (C und V) wie höhere Konstituenten (Ansatz und Reim) erforderlich sind.) Dennoch denke ich, in den vier Typen die wesentlichen Ideen gegenwärtiger Silbenmodelle dargestellt zu haben. Die Alternativen zum CV-Modell, das metrische Modell, das Konstituenten- und das Morenmodell, werden im folgenden diskutiert. 4.1. Das metrische Modell (86b) ist ein nach dem Muster der metrischen Akzenttheorie erstelltes Silbenmodell. Es wurde ursprünglich von Kiparsky (1979) vorgeschlagen und findet sich auch bei Giegerich (1985, 1986) für das Deutsche. Kiparsky greift die in der Akzenttheorie von Liberman & Prince (1977) verwendeten s/w-Relationen (siehe Einleitung, 2.1) auf und stellt fest, daß sie mit geringfügigen Änderungen in der phonetischen Interpretation auch für die Beschreibung der Silbe nutzbar gemacht werden können. So wie eine mit 's' markierte Silbe stärker betont ist als eine mit 'w' markierte, ist ein mit 's' markierter Teil der Silbe sonorer als ein mit 'w' markierter. Die zweite Hypothese in diesem Silbenmodell ist, daß die Silbe ebenso wie die Akzentrepräsentation eine binär verzweigende Struktur besitzt. Daraus ergibt sich das Silbenschema (86b). Es besteht minimal aus dem Silbenknoten, der sich in eine starke und eine schwache Tochter verzweigt. Jeder linke oder rechte w-Knoten kann weiter verzweigen, sodaß beliebig komplexe Silben darstellbar sind. Ein zweiter Bestandteil des Modells ist, daß die terminalen Knoten des s/ w-Baums so mit Segmenten verknüpft werden müssen, daß die Sonoritätsverhältnisse mit den s/w-Relationen in Einklang stehen. Zweifellos ist es eine attraktive Hypothese, einen einheitlichen Beschreibungsformalismus für die intersilbischen wie die intrasilbischen Relationen zu postulieren. Dennoch gibt es einige Argumente gegen die Adäquatheit dieses Modells. Die s/w-Phonologie postuliert ein 'template' w s, das erstens die Dominanz von CV-Silben vs. VC-Silben erklären soll und zweitens dafür sorgt, daß intervokalische Konsonanten in den Silbenansatz der zweiten Silbe gehen und nicht in den Auslaut der ersten Silbe. Diese Theorie benötigt aber daneben noch ein Prinzip der Ansatzmaximierung (siehe 3.6), da das oben erwähnte template nur einzelne Konsonanten aufnehmen kann, nicht aber Konsonantencluster. Mit dem template allein wäre die Silbifizierung *Al-geb-ra ebenso gut wie Al-ge-bra. Durch das
108
template und das Prinzip der Ansatzmaximierung gibt es also eine beträchtliche Redundanz im System, da beide ähnliche (wenn auch nicht identische) Beschränkungen ausdrücken. Die Sonoritätsbedingungen für den Silbenaufbau werden im s/w-Modell durch die Etiketten s und w ausgedrückt. Damit lassen sich die tatsächlichen Beschränkungen aber nur zum Teil beschreiben. Es gibt auch keinerlei Möglichkeit, die zweifellos existierenden sprachspezifischen Besonderheiten in den Sonoritätsbeschränkungen auszudrücken. Das s/w-Schema für die Silbe ist seiner Natur nach nur universell zu verstehen. Schwierigkeiten hat das Modell auch, falls es tatsächlich Sprachen gibt, die VC-Silben, aber keine CV-Silben, besitzen (siehe oben 3.6). Ein drittes Argument gegen das s/w-Modell ergibt sich aus der Darstellung der Wörter da, Damm und Dampf in (87). Wie (87a) vs. (87b) zeigt, wird auch hier eine Äquivalenz von langem Vokal und der Sequenz Kurzvokal plus Konsonant angenommen. Folgt jedoch mehr als ein Konsonant auf den Vokal wie in (87c), ergibt sich eine gänzlich verschiedene Konstituentenstruktur. Das /m/ wird in (87b) von w dominiert und bildet einen Schwesterknoten zum Vokal. In (87c) wird es von s dominiert und bildet eine Konstituente mit dem finalen Konsonanten. Wie auch Clements & Keyser (1983: 8) betonen, gibt es für diese unterschiedliche Gruppierung kein Argument. Es handelt sich einfach um eine Konsequenz aus dem Silbenschema (86b).
(87) a.
b. W
S
/\
S
d
W
a
c. W
S
/\
S
W
d. a
ml
W
S
S
W
d. al m pf,
Giegerich (1985, 1986) modifiziert das s/w-Modell insofern, als (für das Deutsche) angenommen wird, daß das maximale template die in (88) illustrierte Form besitzt. Alle nicht mit dem template verknüpften Segmente sind dann extrasilbisch, in Herbst also /p s t/. Damit wird der Kern und ein Anlautkonsonant der Silbe erfaßt, alles andere wird als außerhalb der Silbe stehend begriffen.
(88)
/\ h
l
W
l Kp s t
109
In diesem reduzierten s/w-Modell der Silbe geht aber die oben vorgenommene Generalisierung verloren, daß alle Segmente in der Silbe der Sonoritätsbeschränkung genügen, die extrasilbischen dagegen nicht. In Giegerichs erweiterter Liste der extrasilbischen Segmente folgt das erste (/p/ in Herbst) immer den Sonoritätsbedingungen, die folgenden aber nicht. Extrasilbizität wird dadurch zu einem kaum noch beschränkten Konstrukt, da auch die in Kapitel 3.8 verteidigte Annahme, daß immer nur ein Element extrasilbisch sein kann, nicht gilt. 4.2. Das Konstituentenmodell Das Konstituentenmodell entsteht aus dem s/w-Modell, wenn die Knoten in letzterem mit anderen Etiketten als 's' und 'w' versehen werden. Probleme des Konstituentenmodells wurden bereits in Kapitel 2 anhand des Chinesischen diskutiert. Aus den Sonoritätsbeschränkungen läßt sich ein weiteres Argument gegen die Silbenmodelle mit reicher hierarchischer Strukturierung gewinnen. Es wird in der Diskussion um hierarchische phonologische Strukturen immer wieder darauf hingewiesen, daß eine Konstituente vor allem dadurch zu rechtfertigen ist, daß sie als Domäne für Regeln oder Beschränkungen dient. So sind phonotaktische Beschränkungen (in welcher Formulierung auch immer) innerhalb einer subsilbischen Konstituente zu erwarten, zwischen solchen Konstituenten sind sie dagegen zumindest unwahrscheinlich. Wie stellen sich unter dieser Perspektive die Sonoritätsbeschränkungen in Silben dar? Die grundlegende Beobachtung zu der Sonoritätsabfolge in Silben besagt, daß die Sonoritätswerte in der Silbe vom ersten Segment bis zum silbischen Vokal zunehmen und von diesen Segment bis zum letzten Segment wieder abnehmen. Dies ist die in 3.7.1 diskutierte 'Sonority Sequencing Generalization'. Entscheidend dafür ist aber, daß sie für jedes Paar von adjazenten Elementen in der Silbe gilt. Es gibt keinen Grund zu der Annahme, daß sie etwa nur in der Anlautkonstituente und in der Auslaut- oder Reimkonstituente existiert. Ganz im Gegenteil gilt die Sonoritätsbeschränkung auch über die angeblichen Konstituentengrenzen hinweg. Die Sonoritätsverhältnisse sprechen also eher gegen eine reichere Strukturierung der Silbe. Das hier entwickelte Ergebnis deckt sich in etwa mit dem Fazit von van der Hülst & Smith (l985a: 43f.): "Summarizing we may conclude that whereas the nucleus is a firmly established internal constituent of the syllable, the constituents onset and coda may be defined negatively as what is left over after the nucleus has been established. The evidence for the adoption of a rhyme constituent is questionable." Ein weiteres Problem des Konstituentenmodells besteht darin, daß völlig ungeklärt ist, wie das Modell eingeschänkt werden kann. (89) zeigt, daß eine Vielzahl von Konstituenten über der CV-Kette für Sprachen wie das Deutsche definiert werden können. Weitere Konstituenten sind denkbar und auch vorgeschlagen worden.
110
(89) Ansatz /\
Reim Kej4\Ra/nd X\l V
c c v c c
v iörper
T
Aus dieser Reichhaltigkeit und Unbeschränktheit schließt Vennemann (1986: 54), daß die formalen Modelle der Silbe generell wenig Plausibilität besitzen. Unter einem restriktiveren Ansatz wie dem hier vorgetragenen entfällt wohl dieses Argument gegen die Modelle. Anhand der Kategorien in (89) sei noch einmal darauf hingewiesen, daß sie sämtlich durch die CV-Kette und den Silbenknoten konfigurationeil dargestellt werden können, falls sich dies als notwendig erweist. Nach der hier vorgetragenen Hypothese ergibt sich diese Notwendigkeit nur in manchen Sprachen für die Kategorie des Kerns, die außerdem (siehe (45)) auf einer eigenen Schicht darzustellen ist, also keine wirkliche Subkonstituente der Silbe bildet. 4.3. Das Morenmodell Der Begriff der More ist ein traditioneller Terminus, der besonders auf Sprachen angewandt wird, die eine Unterscheidung zwischen 'leichten' und 'schweren' Silben erfordern, wie etwa das (Klassische) Griechisch, Latein und Japanisch. Im Griechischen enthält eine schwere Silbe für den Akzent gleichsam zwei Einheiten (d.h. zwei Moren) und eine leichte Silbe nur eine (siehe Jakobson 1937). Im Japanischen ist die elementare Einheit für den Tonhöhenakzent ebenfalls die More und nicht die Silbe, wie u.a. McCawley (1978) zeigt. Moren sind also 'Gewichtseinheiten', von denen Silben eine unterschiedliche Anzahl (vermutlich ein bis drei) enthalten können. Diese Idee ist von Hyman (1985) zu einem systematischen Modell ausgebaut worden. Hyman geht davon aus, daß die Gewichtseinheiten einer Silbe unmittelbare Konstituenten der Silbe sein sollten, sodaß sich die Schwere einer Silbe unmittelbar daraus ergibt, ob sie verzweigt oder nicht. Keines der anderen existierenden Modelle erfüllt aber diese Anforderung, da sich dort die Schwere einer Silbe aus verzweigenden Reimen, verzweigenden Nuklei oder einer Kette 'V C' ergibt. Also postuliert Hyman, daß die Silbe aus einer Anzahl von Moren (hier 'm', bei Hyman 'x') bestehen sollte, wie in (90) dargestellt. (90a) beschreibt die leichte Silbe, (90b) die schwere Silbe mit zwei Moren und (90c) die 'Superschwere' Silbe, einen Typ, der etwa von Hayes (1982) für das Arabische und van der Hülst (1984) für das Niederländische postuliert wird. Alle Entscheidungen über das Silbengewicht und die tontragenden Einheiten sollen sich auf die Morenschicht beziehen.
Ill
(90) a.
b.
ö
m t
c.
ö
m m
a
/Va
t
ö
/l\ /V I t a p
m m m
In Hymans Modell fungieren die Moren auch als zugrundeliegende Segmentpositionen, d.h. sie haben die Rolle der X-, C- und V-Positionen im hier vertretenen Modell. Komplexe Moren wie die jeweils ersten in (90) entstehen durch eine Regel, die Onset-creation rule' (Hyman 1985: 15). Aus ^ m wird also die komplexe More (90a), was die Tatsache erklären soll, daß die prävokalischen Konsonanten für die Gewichtung in einer Silbe generell irrelevant sind. Allerdings bleibt auf der Basis dieser Regel unklar, was mit mehreren prävokalischen Konsonanten geschieht. Dem Wort Strumpf muß die Struktur (91a) zugrundeliegen, da für einen Affrikatenstatus von /J"tK/ keine Evidenz vorliegt. Die Anwendung der (universalen!) Onset-creation rule' kann jedoch nur (91b) erzeugen, eine Struktur, für die erstens keine Evidenz existiert, und die zweitens prävokalische Gewichtseinheiten zurückläßt.
(91)
a. m m m m m m } t K u mpf b. m m m m m m
11
.
K u mp f
Solche Fälle werden in Hymans Morenmodell durch weitere Regeln behandelt, die weitere Segmente in Randstellung in die zentral liegenden Moren reassoziieren: "Additional rules will be needed to create complex onsets or margins in languages which allow consonant sequences within the same weight unit." (Hyman 1985: 18). Sofern dadurch Strukturen wie r m £ entstehen sollten, muß betont werden, daß dann der Unterschied zwischen Affrikaten und Consonantenclustern im Silbenanlaut und -auslaut völlig verwischt wird. Man beachte, daß die Moren in diesem Modell C- und V-Positionen überflüssig machen sollen. Tatsächlich gibt Hyman dt. Herbsts als Beispiel mit g·0^ und s m s als komplexen Moren im Auslaut an (S. 52), ebenso j ™u als eine komplexe More im Anlaut von Französisch trouv'e (S. 6l). Genaugenommen setzen die Moren in Hymans Version voraus, daß sich Affrikaten von anderen Konsonantenclustern nur zugrundeliegend unterscheiden, nicht aber nach Anwendung von phonologischen Regeln. Ein weiteres Argument gegen Hymans Vorschlag ergibt sich aus dem Verhältnis von Silben (Kapitel 2) und Tönen (II, l) im Chinesischen. Nach Hymans Modell müßten die Silben des Chinesischen ein oder zwei Moren enthalten, je nachdem, ob sie in V oder V C enden. Es gibt aber keinerlei Evidenz für eine unterschied-
112
liehe Gewichtung der beiden Silbentypen. Außerdem sollte die Zahl der Töne pro Silbe von der Morenzahl abhängig sein. Dies ist jedoch ebenfalls nicht der Fall. Für jede Silbe sind genau zwei Tonmerkmale möglich (siehe II, 1.2.2). Gerade nach der Darstellung des 'weight unit'-Modells von Hyman ist aber festzuhalten, daß beide hier untersuchten Sprachen, Chinesisch und Deutsch, nicht quantitätssensitiv sind. Während im Chinesischen alle Silben, von V bis zu CCVC, in Bezug auf Akzentzuweisung und Ton gleich bewertet werden, existiert im Deutschen zusätzlich die oben diskutierte Kernbedingung (43b), die für jede Silbe V C als Minimalstruktur fordert. Hymans zentrales Problem sind aber Quantitätsdistinktionen in Silben, die Konsequenzen für den Ton (etwa im Litauischen oder Gokana) oder den Akzent (Latein, Englisch) haben. Unter Berücksichtigung solcher Sprachen mag sich eine andere Bewertung des Morenmodells ergeben. Wie in dieser Arbeit Für die subsilbische Kategorie des Kerns angenommen, so mag auch die Kategorie der More eine Kategorie sein, die in Sprachen optional vorhanden ist. Vermutlich ersetzt sie jedoch die CV-Positionen nicht, sondern tritt zu diesen hinzu. (Eine Morensprache wie Japanisch besitzt neben den Moren Affrikaten; siehe Vance 1987: 23ff.) 4.4. Schlußbemerkungen Die Phonologic der Silbe ist, wie auch der Vergleich einiger Silbenmodelle in diesem Kapitel gezeigt hat, ein Feld aktiver phonologischer Forschung. Schon daher ist nicht anzunehmen, daß die Ergebnisse dieser Silbenstudie als das letzte Wort dazu gelten können. Im Vergleich zu den anderen Modellen der Silbengeometrie schneidet aber das hier gewählte CV-Modell nicht schlecht ab. Dennoch sehe ich zwei wesentliche Desiderate in der Silbenphonologie. Erstens habe ich wenig zur phonetischen Realisierung der phonologischen Silbe gesagt. Gerade weil aber die nichtlineare Phonologic phonetisch realistischer ist als ihre Vorgänger, sollte auch geklärt werden, wie die zugegebenermaßen abstrakten phonologischen Repräsentationen in phonetische Parameter zu übersetzen sind. Insbesondere wäre hier zu klären, ob die CV-Einheiten tatsächlich 'timing'-Einheiten in der phonetischen Realisierung sind. Die Verifizierung dieser gelegentlich geäußerten Auffassung würde viel Für ein vertieftes Verständnis der PhonologiePhonetik-Abbildung beitragen. In jedem Fall ermöglicht die CV-Phonologie präzise, testbare Hypothesen. So könnte die Frage untersucht werden, ob sich eine Struktur der Form (92a) in der phonetischen Realisierung, besonders im 'timing', von (92b) unterscheidet.
(92)
a.
b.
C y
C
l
C y
113
Ein zweites Problem der vorgestellten Silbenphonologie ist, daß die Beschreibung der Segmente noch ungenügend ist. Auch wenn durch die richtige Verwendung der CV-Schicht einige Probleme wie das der Affrikaten und der Silbigkeit gelöst werden können, so läßt die Segmentspezifizierung noch Fragen offen. Besonders im Bereich der Silbenstrukturbedingungen interagieren aber die strukturellen Prinzipien des Silbenaufbaus und die Segmentspezifizierungen, wie in 2.6 für das Chinesische und in 3.7 für das Deutsche gezeigt. Eine bessere Theorie der segmentalen Merkmale würde also auch bessere Formulierungen der Sonoritätsbeschränkung und der übrigen Silbenstrukturbedingungen zur Folge haben. Zwei Ansätze in der gegenwärtigen Forschung scheinen mir erfolgversprechend, um auch zu diesem Problem fundiertere Aussagen machen zu können. Erstens gibt es Überlegungen, auch die segmentalen Merkmale in einer komplexeren Struktur darzustellen, als es das klassische ungeordnete Merkmalsbündel ist (siehe z.B. Clements (1985), Goldsmith (1985) und Kaye, Lowenstamm und Vergnaud (1985) für verschiedene Konzeptionen, Wiese (l987b) zu einer Anwendung auf den Umlaut im Deutschen). Zweitens gilt offensichtlich, daß bestimmte Merkmale und Merkmalskombinationen gegenüber anderen ausgezeichnet (markiert) sind. Um Klarheit z.B. in die Vokalmerkmale und -alternationen des Chinesischen zu bekommen, ist daher wahrscheinlich vor allem eine Theorie der Merkmale heranzuziehen, möglicherweise in Form des Modells der Unterspezifikation (Kiparsky (1985)) und unter Berücksichtigung einwertiger Merkmale (siehe z.B. Schane (1984), Kaye, Lowenstamm & Vergnaud (1985)).
Teil II:
Phonologische Repräsentationen und Prozesse im Lexikon
116
0. Übersicht Wie in dieser Arbeit bereits mehrfach erwähnt, geht zumindest eine der gegenwärtigen phonologischen Theorien davon aus, daß das Lexikon einer der Orte' für die Anwendung phonologischer Prozesse ist. Die wesentlichen Eigenschaften der Phonologic im Lexikon zu klären, ist eine entscheidende Aufgabe der Phonologic. Die bisherigen Ergebnisse deuten darauf hin, daß es tatsächlich fundamentale Unterschiede zwischen der Phonologic im Lexikon und der Phonologic außerhalb des Lexikons gibt. (Ebenso interessant sind allerdings die Fälle, in denen eine phonologische Regel sowohl im Lexikon wie außerhalb davon Anwendung findet.) Etwas vereinfacht ausgedrückt, kann man sagen, daß die Theorien in der direkten Nachfolge des SPE-Modells (jetzt vor allem in Gestalt der Lexikalischen Phonologic1) sich auf die Phonologie im Lexikon konzentrieren, andere Theorien, insbesondere die Varianten der Natürlichen Phonologie in den Arbeiten von Hooper (1976), Donegan & Stampe (1979), Wurzel (1982), Dressler (1984) postlexikalische phonologische Prozesse untersuchen. Die unterschiedlichen Annahmen und Ergebnisse in der Theoriebildung sind vielleicht zum Teil einfach auf diese Konzentration auf verschiedene Domänen in der Phonologie zurückzuführen. Der folgende Teil dieses Buches soll einen Beitrag zur Phonologie im Lexikon liefern. An zwei Beispielen, der Tonrepräsentation im Chinesischen und der Schwa-Epenthese im Deutschen soll zunächst demonstriert werden, welche Phänomene im Lexikon zu finden sind und was für Prinzipien für die Lexikalische Phonologie gelten. Das erste Beispiel wird dabei vor allem eine, allerdings restriktive, autosegmentale Repräsentation erforderlich machen. Schwa im Deutschen ermöglicht es in Kapitel 2, die spezifischen Annahmen der Lexikalischen Phonologie einer Überprüfung zu unterziehen. Zur weiteren Klärung des Verhältnisses von lexikalischer und postlexikalischer Phonologie werden im abschließenden Kapitel 3 zwei prosodische Phänomene untersucht, nämlich Klitisierung von Artikeln und Personalpronomen im Deutschen und eine Tonsandhiregel im Chinesischen. Für die Artikelklitisierung im Deutschen wird sich erweisen, daß sie sowohl als Folge einer lexikalischen wie einer postlexikalischen Regel auftreten kann - allerdings mit unterschiedlichen Konsequenzen. Der Vergleich zwischen der Klitisierung im Deutschen und dem Tonsandhi im Chinesischen ist auch insofern bemerkenswert, als sich dadurch zwei verschiedene postlexikalische Subkomponenten rechtfertigen lassen. Weiterhin wird demonstriert, daß ein scheinbar einheitliches grammatisches Phänomen, nämlich die Reduplikation im Chinesischen, sowohl innerhalb wie außerhalb des Lexikons anzusiedeln ist. Aus dieser Positionierung in der Grammatik ergeben sich eine Reihe von phonologischen, morphologischen und semantischen Konsequenzen. l) Die Theorie schreibe ich als "Lexikalische Phonologie", den Gegenstandsbereich als "lexikalische Phonologie".
117
1. Ton im Chinesischen 1.1. Einleitung Das phonologische System des heutigen Standardchinesischen unterscheidet sich typologisch von Sprachen wie dem Deutschen vor allem dadurch, daß es Töne aufweist. Unter einem Ton versteht man einen Tonhöhenverlauf, der lexikalisch distinktiv ist - im Gegensatz also zur Intonation, deren Domäne größere Einheiten sind. Schon wegen dieser auf das Lexikon bezogenenen Eigenschaften sind Töne in dem hier angesprochenen Zusammenhang von Bedeutung. Wie im Einleitungskapitel bereits ausgeführt, hat sich in der Phonologic für die Beschreibung von Tönen eine Repräsentationsform durchgesetzt, die autosegmental genannt wird. Autosegmentale Repräsentationen enthalten mehrere Schichten, auf die verschiedene Aspekte der phonologischen Information verteilt werden können, und zwar jeweils in segmentaler Weise, also in Form linear angeordneter, diskreter Elemente. In Teil I wurde bereits die Silbe des Chinesischen - unter Verwendung der CV-Schicht - charakterisiert. Mit der Fragestellung, welche der denkbaren phonologischen Kategorien im Lautsystem des Chinesischen Verwendung finden, wird in diesem Kapitel das Tonsystem des Standardchinesischen untersucht. Kapitel 1.2 rekonstruiert das System der lexikalischen Tonmerkmale, Kapitel 1.3 stellt die relevanten Tonregeln auf der Basis der vorher entwickelten Tonrepräsentation dar. Die Einfachheit der gefundenen Regeln wird sich als ein weiteres Argument für die vorgeschlagene Tonrepräsentation erweisen. Probleme der Phonologic des Chinesischen werden auch in Kapitel 3.3 wieder aufgegriffen, in dem es um die Domäne einer der Tonregeln und um die Interaktion von Tonphonologie und Wortbildung anhand der Reduplikation geht. 1.2. Töne und Melodien Im Standardchinesischen trägt jede Silbe, lexikalisch gesehen, genau einen von insgesamt vier Tönen. Von diesem Prinzip gibt es zwei, unten zu besprechende, Ausnahmen. Erstens haben einige Wörter, vor allem grammatische Funktionswörter, keinen "eigenen" Ton, und zweitens können unbetonte Silben ihren Ton verlieren. Da natürlich auch im Chinesischen jede Silbe in irgendeiner Tonhöhe realisiert wird, kann dies nur als eine phonologische Beschreibung zu verstehen sein. Weiter unten wird auch die Frage behandelt, was denn eigentlich passiert, wenn eine Silbe ihren Ton - phonologisch aber nicht phonetisch gesehen - verliert. Daß es vier distinktive Töne im Chinesischen gibt, zeigen die Daten in Tabelle (l). Eine beliebige Kette, etwa /ma/, kann einen der vier Töne tragen und bildet dann ebenso ein anderes Wort, als wenn ein weiteres Phonem angefügt worden wäre. Die Töne müssen also, wie die Segmente, für jedes Wort im Lexikon spezifiert werden. Bei den oben erwähnten Funktionswörtern fehlt diese lexikalische Information. Von diesen wenigen Wörtern abgesehen erfüllt Chinesisch aber das
118
Kriterium Tür die Definition einer Tonsprache, nach der durch Töne lexikalische Einheiten voneinander unterschieden werden. (D
TonPiny in- Tonbuch- Relative Bedeutung nummer Notation staben Tonhöhe 1 mä 55 Mutter ma 2 35 Hanf v ma 214 3 Pferd ma 4 51 schimpfen \J
Die Charakterisierung der Töne in Tabelle (l) stammt von Chao (1930, 1968) und ist praktisch in der gesamten sinologischen Literatur mit den in (l) verzeichneten Notationen unverändert übernommen worden. Chao ging von der (akzeptablen, siehe Anderson 1978) Annahme aus, daß eine Fünferskala zur Beschreibung der phonologischen Tonmuster ausreichend ist. Die vier Töne des Chinesischen spezifizierte Chao dann wie in (l) festgehalten. Die Vertikale in den Tonbuchstaben gibt dabei eine Fünferskala über den normalen Stimmumfang an, und die Linie links davon zeigt den Tonverlauf über die Zeit. Da Anfangs- und Endpunkt (und beim 3. Ton der Wendepunkt) für die Festlegung der Töne ausreichend sind, ist eine weitere Beschreibung als Folge von zwei bzw. drei Punkten auf der Fünferskala möglich. Meßtheoretisch gesehen ist die Skala natürlich eine Ordinalskala, da keine Angaben über die absolute Tonhöhe (etwa über männliche und weibliche Stimmlagen) und über den Grad des Anstiegs oder Falls gemacht werden. Die diakritischen Zeichen der Pinyinumschrift deuten ebenfalls den Verlauf der Töne graphisch an. Im folgenden verwende ich die den Tonbuchstaben äquivalente Ziffernnotation zur Beschreibung, wenn nicht einfach die Nummer des Tons genannt wird. 1.2.1. Das Problem des dritten Tons Das klare Bild des Tonsystems wird vor allem dadurch getrübt, daß der 3. Ton (214) selten in der aufgeführten Form erscheint. Es gibt eine Reihe von Tonsandhiregeln, deren wichtigste folgendermaßen formuliert wird (Chao 1968: 27, Li & Thompson 1981: 8):2 (2) Ein 3. Ton wird ein tiefer Ton mit der Kontur Ton außer einem 3. Ton folgt.
(2l), wenn ihm ein weiterer
Aber auch wenn dem 3. Ton ein weiterer 3. Ton folgt, gibt es Tonveränderungen. Die Regel (3) zur ersten Beschreibung dieser Veränderungen wird in dieser Arbeit eine wichtige Rolle spielen. 2) Die folgenden Regeln werden allgemein 'Sandhiregeln' genannt, da sie sich durch das Zusammenstoßen (Sanskrit: san'dhi) von Morphemen ergeben. Flir einen Überblick Über Sandhi-Phänomene und deren Analyse siehe Andersen (1986).
119
(3) Bei 2 aufeinanderfolgenden 3. Tönen wird der erste ein 2. Ton. Eine weitere Regel, die allerdings auf Allegro-Stile eingeschränkt ist, lautet (Chao 1968: 27f., Cheng 1973: 44): (4) Ein 2. wird zum 1. Ton, wenn ein 1. oder 2. Ton vorangeht und ein voller Ton (d.h. kein abgeschwächter) folgt. Diese Regeln werden unten weiter analysiert und uminterpretiert. Hier sind sie zunächst interessant, weil sie die Eigenschaften der zugrundeliegenden Töne selbst verdeutlichen. Die folgenden Beispiele illustrieren die drei Regeln.3 (5) ma2u chess Pferd Wagen
-» ma21 ehe55
gan214 gui214 verfol- Dämonen gen wo214 ye214 you214 ich auch haben
-» gan35
'Kutsche' (Regel (2)) gui214
'Dämonen verfolgen' (Regel (3))
-» wo21 ye21 you214 ·* wo33 ye35 you214 -» wo35 yess you214
(Regel (2), (2)) (Regel (3), (3)) (Regel (4)) 'ich habe auch'
Aus den Regeln (2) und (3) wird ersichtlich, daß der 3. Ton nur dann in der als zugrundeliegend angenommenen Form 214 erscheint, wenn er am Phrasenende steht. (Was dabei als Phrasenende gilt, hängt u.a. vom Sprechstil ab; siehe Cheng (1973) und Kapitel 3.3 zur Beschreibung der Phrasen). Das isolierte Auftreten eines Wortes, die Zitierform, ist ein Spezialfall davon. Dieses Verhalten des 3. Tones, seine relative Seltenheit (siehe auch Norman (1988: 147)) und die Tatsache, daß schon seine Beschreibung komplexer ist als die der anderen Töne, berechtigen zu der Überlegung, ob die von Chao und anderen gewählte Beschreibung der Töne, insbesondere die des 3. Tons, die angemessene ist. Greift man noch einmal die Beobachtung auf, daß der 3. Ton mit dem Tonmuster 214 nur am Phrasenende vorkommt, so kann man die Beobachtung anknüpfen, daß phonologische Entitäten häufig am Phrasenende eine besondere Form haben. So gibt es im Englischen und im Deutschen eine Längung der letzten Silbe ("phrase final lengthening" (Selkirk 1984b)), im Französischen einen Akzent auf der letzten Silbe einer Phrase und ähnliches in vielen anderen Sprachen. Im Chinesischen selbst ist die phrasenfinale Silbe ebenfalls markiert. Es gibt eine Regel für den 3) In diesem Kapitel verzichte ich im Gegensatz zu Kapitel I, 2 auf die komplizierte IPATranskription der Beispiele und verwende stattdessen (abgesehen von der Tonnotation) die einfachere und gebräuchliche Pinyin-Umschrift (siehe Anhang (3)).
120
Allegro-Stil, nach der alle Töne in einer Phrase nicht-distinkt werden können - bis auf den phrasenfinalen Ton. Alle diese Überlegungen zusammengenommen laufen darauf hinaus, nicht den von Chao und anderen postulierten Ton 214 als zugrundeliegenden 3. Ton anzusehen, sondern von dem von Chao (1968: 27) als "halben dritten Ton" bezeichneten Ton 21, der bereits in Regel (2) auftritt, auszugehen. Chao gibt dafür ^J als Tonbuchstaben an. Der Ton ist also im wesentlichen ein tiefer Ton, der seinen Zielpunkt nach einer Einschwingungsphase erreicht. Es sei noch einmal betont, daß diese Variante des 3. Tons immer dann verwendet wird, wenn noch ein Ton (außer dem 3.) folgt. Sprachvergleichende Beobachtungen lassen die Analyse dieses Tons als tiefen Ton plausibel erscheinen: Maddieson (1978) weist darauf hin, daß extrem tiefe oder hohe Töne in vielen Sprachen durch eine Gleitbewegung aus dem zentralen Bereich eingeleitet werden, also die Form 21 oder 45 besitzen. Daß dieser Ton mit dem "vollen" Ton 214 starke phonetische Ähnlichkeit besitzt, zeigt schließlich noch Chao's (1968: 26) musikalische Notation für den 3. Ton: (6)
XL / W
ZT
h
_
1.,—
-
•-f> f>
1
\
1
I
*
>
?
8 va
Die Elemente auf den Tonstufen 2 und 4 sind hier nur kurze Vor- bzw. Nachschläge zu der langen Hauptnote auf der Tonstufe 1. (Chao ist in diesen Urteilen durchaus als Autorität anzusehen, da er auch als Komponist hervorgetreten ist; siehe Wang (1983).) Die phonetischen Parameter, die für die Wahrnehmung eines 3. Tones relevant sind, wurden von Gärding, Kratochvil, Svantesson & Zhang (1985) untersucht. Sie manipulierten den Grundfrequenzverlauf des Wortes mai51 'verkaufen' in mehrfacher Weise und stellten dann in einem Perzeptionstest fest, unter welchen Manipulationen dieses Wort als mai21 'kaufen', also mit einem 3. anstelle des 4. Tons, wahrgenommen wird. Das Ergebnis bestätigt die oben vorgeschlagene Analyse des 3. Tons weitgehend. Die Autoren stellen zunächst fest, daß eine Absenkung des Grundfrequenzverlaufs erforderlich ist, um einen 3. Ton wahrzunehmen. Weiterhin ergibt sich, daß nur der Tonverlauf auf dem vokalischen Teil, hier also /ai/, relevant ist. Die schematische Zusammenfassung der Daten ist in (7) dargestellt (aus Gärding, Kratochvil, Svantesson & Zhang (1985: 65)). Hier muß berücksichtigt werden, daß nur der Teil rechts vom vertikalen Strich von Bedeutung ist. Der Fall ist im 3. Ton zwar ausgeprägter als die phonologische Analyse nahelegt; der entscheidende Unterschied zwischen Ton 3 und 4 ist aber der tiefe, ebene Teil im Frequenzverlauf des 3. Tons.
121 (7)
Wurden bisher empirische Gründe dafür angegeben, warum die gängige Beschreibung des 3. Tones als ein fallend-steigender Ton problematisch ist, so sollen jetzt stärker theoretische und formale Gesichtspunkte in den Blick kommen, die darauf hinauslaufen, die chinesischen Töne als einfaches System hoher und tiefer Töne zu analysieren. Bevor diese Analyse entwickelt wird, soll noch gezeigt werden, daß es tatsächlich sinnvoll ist, die Töne als relativ abstrakte Entitäten zu behandeln. Es wurde bereits erwähnt, daß eine Tonsandhiregel den 3. in einen 2. Ton überführt, wenn ein weiterer 3. Ton folgt (Regel (3)). Nun zeigt sich aber, daß diese Regel auch dann greift, wenn der den Wechsel auslösende 3. Ton gar nicht realisiert ist, wie in der durch Reduplikation gebildeten Form (8d). (8) a. zou·2l 21
b. zou -zou c. zou -zou d. zou35-zou •»C
21 Oi
'gehen' redupliziert, 'ein bißchen gehen' Tonsandhi (3) To nab s chw ächung
Die Tonsandhiregel (3) muß angewandt werden, bevor die zweite Silbe ihren Ton (aufgrund ihres Akzentverlustes) verliert. Die Tonsandhiregel berücksichtigt also zugrundeliegende Töne, unabhängig davon, ob diese realisiert werden. Als weiteres Ergebnis dieses Abschnitts ergibt sich, daß der 3. Ton ein tiefer Ton mit der Kontur 21 ist. In phrasenfinaler Stellung erscheint er mit der Kontur 214. Man beachte, daß der 3. Ton dadurch den übrigen Tönen formal ähnlicher wird. Zu seiner Beschreibung ist keine Angabe über einen Wendepunkt mehr erforderlich. 1.2.2. Die Tonrepräsentation In der bis hierhin verwendeten informellen Notation wurde offengelassen, welchen Einheiten die Töne zuzuordnen und was die Tonmerkmale sind. Die zweite Frage stellt sich dann, wenn man die Voraussetzung akzeptiert, daß auch Töne prinzipiell durch distinktive Merkmale zu beschreiben sind. Dann kann eine Notation wie "55" oder "35" nicht hinreichend sein, weil ungeklärt bleibt, was eigentlich distinktiv ist. In der Literatur ist besonders diskutiert worden, ob Register- oder Konturmerkmale (oder beides) das geeignete Mittel zur Beschreibung der Töne darstellen (siehe den Überblick über Merkmalssysteme für die Töne des Chinesischen bei Anderson (1978) und Yip (1980)). So können wir den Unterschied zwischen 55 und 35 mittels des Merkmals [steigend] oder mittels des Merkmals [hoch] ausdrücken. Der Ton 35 wäre unter Verwendung des Merkmals [hoch] als
122
die Sequenz [- hoch][+ hoch] zu analysieren. Bei Verwendung des Merkmals [steigend] ergibt sich für den Ton 55 [-steigend], für den Ton 35 [+steigend]. Die in Kapitel I, 2 eingeführte Repräsentation für die Silbe im Chinesischen eröffnet mindestens vier Antwortmöglichkeiten auf die Frage, welchen Einheiten die Töne zuzuordnen sind. Die Tonmerkmale können der Silbe als Ganzes, den Elementen der CV-Schicht oder den Segmenten zugewiesen werden. Eine weitere Alternative besteht darin, den Tönen eine eigene Schicht zu geben. Dann muß allerdings die Frage beantwortet werden, mit welchen Elementen die Töne auf dieser Tonschicht assoziiert werden sollen. In (9) werden die verschiedenen Möglichkeiten illustriert; T steht dabei als Abkürzung für ein geeignetes Tonmerkmal, ebenso wie C und V Abkürzungen für einzelne Merkmale oder Merkmalsbündel sind. (9)
b
••[ ] -m
c.
konsonantisch
d. T T
l l
9
9
T
In (9a-c) wird T in verschiedene Merkmalsstrukturen integriert. In (9d) dagegen sind die Tonmerkmale autonom, d.h. sie bilden eine eigene Schicht in der phonologischen Repräsentation. Die folgende Diskussion soll die zwei aufgeworfenen Fragen dahingehend beantworten, daß die Töne des Chinesischen erstens Kombinationen des Registermerkmals [hoch] und zweitens auf einer eigenen Schicht darzustellen sind. (9d) illustriert diese autosegmentale Lösung. Es bleibt hier offen, womit die Töne zu assoziieren sind (siehe dazu Abschnitt 1.2.2.4). 1.2.2.1. Tonmerkmale Als Tonmerkmale bieten sich, wie erwähnt, Registermerkmale (vor allem [hoch] oder [tief]) und Konturmerkmale (d.h. [steigend], [fallend] und Kombinationen von diesen) an. Die vier Töne des Chinesischen lassen sich - noch ohne Beachtung jeglicher phonologischer Evidenz - auch mit beiden Merkmalstypen analysieren, wie in (10) durchgeführt. Es wird dabei angenommen, daß der dritte Ton die in 1.2.1 ermittelte Form 21 hat, und daß der erste Teil davon nur ein artikulatorisch bedingter Einschwingvorgang auf die tiefe Ebene ist (siehe Chao's Darstellung in (6)). Tabelle (10) bedarf noch einiger Erläuterungen. Die Registermerkmale müssen in eine lineare Ordnung gebracht werden, um die Konturen darstellen zu können. Der Wert [- hoch] bedeutet dabei nicht immer das Gleiche, was aber in einer phonologischen Klassifizierung, in der es auf die Darstellung der Oppositionen in einem System ankommt, nicht erforderlich ist. Dies gilt insbesondere für lexikalische Repräsentationen. Die Darstellung ausschließlich mit Konturmerkmalen ist nicht möglich, da dann die ebenen Töne l und 3 ununterscheidbar sind. Ton 4 wird als ein hoher Ton angesehen, da er immer dann mit der Kontur 53 (und nicht etwa
123
3l) erscheint, wenn noch ein Ton folgt (Yip 1980: 183). Die Analyse in der Spalte 'Konturmerkmale' geht im wesentlichen auf Wang (1967) zurück, der allerdings noch weitere Registermerkmale verwendet.
(10)
Tonnr. Kontur 1 55
Registermerkmale + hoch, + hoch
2
35
- hoch, + hoch
3
21
- hoch, - hoch
4
51
+ hoch, - hoch
Konturmerkmale - steigend - fallend + hoch + steigend - fallend + hoch + +
steigend fallend hoch steigend fallend hoch
Aus dem Vergleich der Register- und Konturmerkmale wird zunächst deutlich, daß die Verwendung von Registermerkmalen zwingend ist, nicht aber die Verwendung von Konturmerkmalen. Konturen lassen sich phonologisch immer als Sequenz von Ebenen ('Register' genannt) darstellen; unterschiedliche Register sind jedoch nicht als verschiedene Konturen darstellbar - solange man die Prämisse akzeptiert, daß phonologische Merkmale auch phonetischen Gehalt haben müssen. Die Konturmerkmale müssen also gerechtfertigt oder aus der Darstellung der Töne entfernt werden. Aus dem Standardchinesischen selbst (d.h. nicht aus universellen Erwägungen) lassen sich die folgenden Argumente für die Lösung mit Registermerkmalen gewinnen: Das erste Argument bezieht sich auf die Merkmalsökonomie. In der Spalte 'Konturmerkmale' in (10) werden zwar zwei zusätzliche Merkmale benötigt; dies wird jedoch scheinbar dadurch aufgewogen, daß bei der ausschließlichen Verwendung von Registermerkmalen eine lineare Ordnung von Merkmalen erforderlich ist. Diese Anordnung von Merkmalen erweist sich jedoch als unumgänglich für jedes Merkmalssystem, wenn man die Variante des 3. Tons mit der Form 214 wieder heranzieht. Der Anstieg von l nach 4 muß mit dem Merkmal [+ steigend] charakterisiert werden. Dieser Anstieg folgt aber auf die ebene tiefe (oder auch fallende) Phase des Tones. Da also auf die sequentielle Anordnung der Tonmerkmale in keinem Fall verzichtet werden kann, bleibt als Fazit, daß Konturmerkmale in der Darstellung der vier Töne redundant sind. Unter dem Gesichtspunkt der Ökonomie in der Grammatik sollte man auf sie verzichten.
124
Nun sind Einfachheit und Redundanzfreiheit nicht die primären Kriterien für die Bewertung einer Grammatik. Sie können nur dann greifen, wenn sonstige Bewertungskriterien zur Adäquatheit einer Grammatik nicht mehr angewendet werden können. Für ein erstes substantielles Argument greife ich die Regel (4) noch einmal auf: (4) Ein 2. wird zum 1. Ton, wenn ein 1. oder 2. Ton vorangeht und ein voller Ton (d.h. kein abgeschwächter) folgt. Die zweite Bedingung für die Regelanwendung vernachlässige ich hier, da sie mit der Interaktion von Ton und Akzent zu tun hat und in diesem Zusammenhang nicht relevant ist. Zur ersten Bedingung ist zu fragen, warum nur die Töne l und 2 die Regelanwendung auslösen. In der Registertonrepräsentation wird der Zusammenhang unmittelbar klar: Diese beiden Töne enden auf das Merkmal [+ hoch]. Da der von der Regel betroffene 2. Ton ebenfalls auf [+ hoch] endet, wird deutlich, daß die Regel eine einfache Assimilation beschreibt: Ein tiefer Ton wird zwischen zwei hohen Tönen ebenfalls hoch, (ll) liefert diese Regel in einer formalen Notation. Aus Gründen der Übersichtlichkeit verwende ich hier wie im folgenden 'T für das Merkmal [- hoch] und ' für [+ hoch].
(11)
T H> H / H
H
V Die Assoziationslinien in der Kontextangabe von (ll) machen deutlich, daß die zwei Töne zu einem Morphem gehören müssen. (Hier nehme ich ein Ergebnis von Abschnitt 1.2.2.4 vorweg.) Daß es sich bei der Regel (4)/(ll) tatsächlich um einen Prozeß der Assimilation handelt, ergibt sich auch daraus, daß die Regel auf Allegro-Stile beschränkt ist. In diesen Redestilen werden Tonunterschiede generell mit zunehmender Redegeschwindigkeit abgebaut. Entscheidend ist hier aber, daß nur die Registertonrepräsentation, die den direkten Zugriff auf Anfangs- und Endpunkte von Tonkonturen erlaubt, den Assimilationscharakter abbilden kann. Daß gerade Tonassimilationen Argumente für Registertonsysteme liefern, ist nicht neu. Maddieson vergleicht zahlreiche Tonsprachen und berichtet folgendes negative Ergebnis zu den Assimilationsregeln : "In no case has a rule been found in which a contour tone is copied through an assimilatory process. For example, a rising tone never induces a similar rising tone on a following syllable. The assimilatory changes that result from contour tones concern only portions of the contour such as the beginning or end points." (Maddieson 1978: 35l). Wenn aber, wie oben in der Regel (ll), von Assimilationen nur aufeinanderfolgende Registertöne betroffen werden, ist das Fehlen kopierter Konturtöne geradezu zwingend, Maddiesons Beobachtung wird also durch eine Tontheorie, die auf Kon-
125
turtöne als phonologische Elementareinheiten verzichtet, erklärt (siehe dazu auch Anderson (1978: 159)). Ein weiteres Argument für die Behandlung der Töne als Folgen von Registertönen ergibt sich aus dem Verhalten der sogenannten tonlosen oder neutralen Morpheme. Wie in Kapitel 1.2.2.4 weiter ausgeführt, erhalten einige grammatische Morpheme, die keinen eigenen Ton besitzen, ihren Ton von ihrem linken Nachbarn. Die Beschreibung der phonetischen Fakten ist Tür diese Fälle etwas unklar (siehe Cheng (1973: 54ff.)), was sicherlich damit zusammenhängt, daß in unakzentuierten Silben solche Eigenschaften wie der Ton nur ansatzweise und nicht sehr präzise artikuliert werden. Die geläufigste Darstellung, die in (12) illustriert wird, stammt (wiederum) von Chao (1968: 36), wird aber von ihm selber folgendermaßen kommentiert: "For practical purposes, it is sufficient to remember the neutral tone as being high after a 1/2 3rd Tone and (relatively) low after the other tones." In den Beispielen in (12) folgt einem tontragenden Morphem jeweils das Nominalisierungsmorphem de, von dem wir annehmen können, daß es keinen eigenen Ton trägt, da der Ton völlig vom Ton des vorangehenden Morphems abhängt. (12) a. Ton 1: ta 55 de2 er/sie NOM b. Ton 2: huang35 de3 gelb NOM c. Ton 3: ni21 de4 du NOM d. Ton 4: da 51 de1 groß NOM
('sein/ihr') ('das/der Gelbe') ('dein') ('das/der Große')
Es spricht nach diesen Daten einiges dafür, den neutralen Ton nach den Tönen l, 2 und 4 als [- hoch] anzusetzen, nach dem 3. Ton dagegen als O hoch]. Es gibt offensichtlich keine einheitliche Regel, die für alle vier Fälle den Tonwert der Morpheme im neutralen Ton festlegen kann. Bei den Tönen l und 2 liegt offenbar Tonpolarität vor. In Tonsystemen ist das Phänomen der Polarität relativ häufig anzutreffen (siehe Maddieson 1978: 358f.). Polare Regeln weisen tonlosen Morphemen einen Tonwert zu, der zu dem Ton des vorangehenden (seltener des folgenden) Morphems in Opposition steht. Die Töne l und 2 haben den hohen Endpunkt gemeinsam; entsprechend wird der folgende Ton [- hoch], erhält also den einzig möglichen polaren Wert, (in einem Konturtonsystem wäre diese Gemeinsamkeit der Töne l und 2 nicht darstellbar. Dies ist hier allerdings kein starkes Argument, denn wir finden bei den vier Tönen nur wenig Klassenbildung. Die Töne 3 und 4 enden z.B. im hier postulierten System auf [- hoch], weisen aber unterschiedliche neutrale Töne zu.) Ton 4 weist offenbar den tiefen Ton an seinem Ende auch dem folgenden Morphem zu.
126
Ton 3 ist in unserem Zusammenhang der interessanteste. Die Kontur 214 wird ja auch auf Morphemen im Ton 3 realisiert, wenn sie am Phrasenende stehen (siehe 1.2.1 und unten (29)). Die Kontur muß also sowohl für einsilbige wie zweisilbige Segmentfolgen beschrieben werden. Es wäre aber nur mit beträchtlichem zusätzlichen Aufwand möglich, das Konturmerkmal O steigend] auf eine Silbe wie auch auf zwei Silben zu verteilen. Im letzteren Fall müßte ja die erste Hälfte des Anstiegs auf die erste Silbe und die zweite Hälfte auf die zweite Silbe bezogen werden. Wie unten zu zeigen sein wird, ist eine solche Zuordnung von Tönen zu segmentalem Material für eine Tonsequenz der Art [- hoch] [+ hoch] kein Problem. Alle greifbaren Argumente sprechen dafür, die Töne des Standardchinesischen als Folgen von einfachen Registertönen zu analysieren. Daß dieses Fazit auch mit Überlegungen zu universalen Tonmerkmalen kompatibel ist, macht es umso eher akzeptabel. 1.2.2.2. Exkurs über das Merkmalssystem von Yip Das hier vorgeschlagene Merkmalssystem für die Töne des Chinesischen verwendet nur ein einziges binäres Tonmerkmal, nämlich [± hoch]. Es unterscheidet sich dadurch von der Analyse bei Yip (1980), die ein zweites Merkmal heranzieht, nämlich [± oben], (ihr Terminus ist 'upper'.) Damit wird ein Registermerkmal bezeichnet, das den Tonhöhenbereich der Stimme in zwei Hälften zerlegt. Das Besondere an ihrem Vorschlag ist, daß das Tonmerkmal [hoch] die durch das Merkmal [oben] bezeichneten Register weiter unterteilt. Dadurch sind vier Tonhöhen auf der phonologischen Ebene repräsentierbar, siehe (13) und Yip (1980: 24). Das Register- und das Tonmerkmal sind nach autosegmentalen Prinzipien miteinander und mit den Segmenten verknüpft.
(13)
Register + oben - oben
Ton + hoch - hoch + hoch - hoch
Yip gibt im wesentlichen vier Argumente für dieses Tonsystem, die ich im folgenden aufführe, bevor ich wieder auf das Standardchinesische zurückkomme. 1.) Es sieht so aus, als ob maximal vier Tonstufen hinreichend und notwendig sind, um die Tonsysteme einer Vielzahl von Sprachen der Welt, vielleicht aller Sprachen, zu beschreiben. Die Evidenz für eine fünfte Tonebene (siehe besonders Maddieson (1978) und Anderson (1978)) hält Yip für nicht stark genug, um ein weiteres Merkmal zu begründen. 2.) Das in (13) dargestellte System erlaubt Konturtöne dadurch, daß mehrere Töne (in Yips Sinne) mit einem Register verknüpft werden, wie etwa in (14).
127
(14) a.
[+ oben]
/\ [+ hoch] [- hoch]
b.
[- oben]
/\
[- hoch] O hoch]
Nun erweist es sich, daß die Vielzahl der Konturtöne, die in anderen vorgeschlagenen Tonmodellen möglich sind, in den Sprachen der Welt nicht vorkommen. In Yips System sind dagegen nur zwei Konturtöne jeder Richtung (also fallend oder steigend) darstellbar. Sie ergeben sich, wenn man in (14) die entgegengesetzten Registerwerte noch hinzunimmt. Da nicht mehr als zwei Konturtöne jeder Richtung benötigt werden und das System ebenso viele Konturtöne zuläßt, hat das Merkmalssystem genau die Beschränkung, die natürlichen Sprachen inhärent ist. 3.) Das dritte Argument bezieht sich auf sprachgeschichtliche Tonveränderungen im Chinesischen. Das Chinesische besaß ursprünglich eine Stimmhaftigkeitsunterscheidung für Anfangskonsonanten, die jetzt nicht mehr existiert (siehe (5) in I, 2.2). Diese wurde zu einer Tonunterscheidung insofern, als ein stimmhafter Konsonant zu einem tiefen Ton ([- oben]) und ein stimmloser Konsonant zu einem hohen Ton (O oben]) führte. Yip identifiziert den Lautwandel also mit der Einführung des Registermerkmals [oben]. 4.) Schließlich macht das Merkmalssystem Voraussagen über natürliche Klassen von Tönen, die in verschiedenen Sprachen wiederzufinden sind. So bildet [+ oben, + hoch] zusammen mit [- oben, + hoch] eine natürliche Klasse, obwohl sie phonetisch diskontinuierlich ist. Das Tonsystem mit einem Merkmal für das Register und einem für den Ton hält Yip also aus universellen Gründen für notwendig und hinreichend. Die Anwendung auf das Standardchinesische in Yip (1980: Kap. 5) ergibt dann das Tonsystem in (15). (15) Ton l (55):
[+ oben] /\ [+ hoch] [+ hoch]
Ton 2 (35):
O oben] /\ [- hoch] O hoch]
Ton 3 (2l):
C- oben] /\ [- hoch] [- hoch]
Ton 4 (5l):
l> oben] /\ O hoch] [- hoch]
Man beachte, daß das Registermerkmal in dieser Darstellung nicht distinktiv ist. Die vier Töne sind schon durch die Tonmerkmale allein voneinander unterschieden. Diese Tonmerkmale sind identisch mit denen aus Tabelle (10). Wenn die Distinktivität der Töne durch das Merkmal [hoch] allein gesichert ist, können die Argumente für die Verwendung des Registermerkmals [oben] in der Tonrepräsentation des Chinesischen nur aus der Beteiligung des Registermerkmals an synchronen phonologischen Prozessen stammen. Wie in dieser Arbeit aus der Darstellung
128
der Tonregeln (1.2.3) zu entnehmen ist, zeigt sich auch hier keine Evidenz für das Merkmal [oben]. Zweitens erhöht die Verwendung zweier Merkmale auch die phonetische Präzision nicht. Der Merkmalskomplex [+ oben, - hoch] kann z. B. für den Bereich von l bis 3 auf der Tonskala stehen. Überhaupt unklar ist, welchen Bereich auf dieser Skala der (nicht vorkommende) Merkmalskomplex [- oben, + hoch] abzudecken hätte. Die oben aufgeführten Argumente von Yip beziehen sich durchweg nicht auf das Standardchinesische selbst. Aus den Verhältnissen in anderen Sprachen oder älteren Sprachzuständen kann der Lerner aber keine Schlußfolgerungen ableiten. Selbst wenn ein Merkmal wie [oben] aus Erwägungen zu Tonuniversalien postuliert werden könnte, muß es der Sprecher einer Sprache (hier des Standardchinesischen) aus den Daten seiner eigenen sprachlichen Umgebung ableiten oder aktivieren können. Das scheint hier aber nicht der Fall zu sein. Wir sind damit zu dem durchaus erwünschten Ergebnis gekommen, ein Merkmal aus der phonologischen Repräsentation tilgen zu können. Auch die hier gewählte grundsätzliche Perspektive, wonach lexikalische Einträge die minimale distinktive Information enthalten sollten, wird durch dieses Ergebnis gestützt. Es ist nicht Aufgabe der Tonmerkmale, den phonetischen Tonwert genau festzulegen. 1.2.2.3. Die Tonschicht In Kapitel I, l dieser Arbeit wurde ein Modell der Phonologie des Chinesischen entworfen, nach dem die phonologische Information auf drei miteinander assoziierte Schichten verteilt ist, nämlich auf die Segmentschicht, die CV-Schicht und die Silbenschicht. Es stellt sich nun die Frage, ob die im vorangehenden Abschnitt postulierten Tonmerkmale einer dieser Schichten zuzuordnen sind (wie in (9a-c) dargestellt), oder ob die Tonmerkmale eine eigene autosegmentale Schicht bilden, wie in (9d) illustriert. Die klassischen Argumente für die Ausfaktorisierung eines Teils der phonologischen Information auf einer eigenen Schicht (siehe besonders Goldsmith (1976)) stützen sich auf die relative Unabhängigkeit eines Aspektes von dem Rest der Information und auf den suprasegmentalen Charakter mancher Phänomene. So läßt sich auch für das Chinesische zeigen, daß es die folgenden Erscheinungen gibt, die ich anschließend näher erläutere: - Töne ohne Segmente bzw. Silben, - Segmente ohne Töne, - Tonausbreitung über mehrere Silben. Diese drei Erscheinungen sprechen deutlich für eine autosegmentale Behandlung des Tons im Chinesischen, wie sie von Yip (1980) vorgeschlagen wurde. 1.) Töne ohne Segmente: Wenn Töne als segmentale Merkmale auftreten, ist kaum zu erwarten, daß alle anderen segmentalen Merkmale verschwinden können und nur der Ton übrig bleibt. Aus der Analyse anderer, insbesondere afrikanischer,
129
Tonsprachen sind aber Morpheme bekannt, die einzig aus einem Ton bestehen (siehe z.B. Goldsmith (1976)). Auch das Standardchinesische besitzt mindestens ein solches Morphem. Unter den verschiedenen Formen der Reduplikation (siehe auch 1.2.2.4) ist eine, die mit einer Bedeutungsintensivierung (Chao: "vivid reduplication") verbunden ist (Chao 1968: 205f., Yip 1980: 40f.). Sie betrifft Adjektive und ist dadurch markiert, daß der zweite, reduplizierte Teil immer den Ton l '55' trägt. (Je nach Dialekt kann auch noch das Suffix IKI (siehe I, 2.7) hinzutreten.) Beispiele sind in (16) zu finden. Auch bei zweisilbigen Adjektiven ist diese Reduplikation (wenn auch nicht so häufig) möglich. (16) a. hong 35 -hong ss 'wirklich rot' rot hao 21 -hao ss 'wirklich gut' gut b. kuai si -huo 35 -*· kuai sl -kuai sl -huo 3S -huo ss vergnügt
'glücklich und zufrieden'
Aus (l6b) wird ersichtlich, daß der hohe Ton, den wir als das Morphem 'Intensivierung' betrachten können, nur am Wortende auftreten kann. In dieser Form der Reduplikation wird eine Silbe ohne die Töne redupliziert. Daraufhin kann der hohe Ton mit dieser tonlosen Silbe assoziiert werden, entsprechend dem Beispiel in (17). Man beachte, daß die Tonsandhiregel (3), die den tiefen Ton bei folgendem gleichen Ton verändert, hier nicht angewandt wird. Diese Tatsache liefert das Hauptargument dafür, daß in dieser Reduplikation der Ton nicht kopiert wird.
(17)
T
T
T
T
T
T
X V\ nao * hao hao -» V hao
xH
Auf die Reduplikation und die sich daraus ergebenden Schlüsse komme ich in Kapitel 3.3 zurück. An dieser Stelle ist vor allem relevant, daß ein Morphem auch aus dem Ton ohne jeglichem segmentalen Material bestehen kann. Umgekehrt gibt es auch ein Morphem, nämlich das in Teil I, Kapitel 2.6 untersuchte Suffix IKI wie eine Reihe anderer grammatischer Morpheme, die nur aus segmentalem Material bestehen. Es handelt sich in letzteren Fällen aber nicht um beliebige Merkmalscluster, sondern um voll spezifizierte Segmente. Töne und Segmente erweisen sich also in einer Weise als unabhängig voneinander, wie man es von Merkmalen in einem Segmentbündel generell nicht erwartet. (Es sei denn, diese Merkmale partizipieren ebenfalls an suprasegmentalen Prozessen wie Vokalharmonie. Dann sind diese Merkmale, etwa Rundung, auch autosegmental zu repräsentieren, siehe z.B. Halle & Vergnaud (1981 ) und van der Hülst & Smith (l985b).)
130
2.) Segmente ohne Töne: Aufgrund der Unabhängigkeit von Silben und Tönen gibt es auch Silben, die zwar Morpheme bilden, aber keinen eigenen Ton besitzen. Es handelt sich hier insbesondere um die bereits erwähnten grammatischen Morpheme wie das Diminutiv-Suffix IRI, die Aspektsuffixe, die Fragepartikel und die Nominalisierungspartikel. Ihr Ton wird, wie in 1.2.2.1 gezeigt, durch den Ton des vorangehenden Morphems determiniert. Neben diesen Morphemen, für die es völlig sinnlos erscheint, einen eigenen Ton anzugeben, gibt es den häufigen Fall, daß ein Morphem seinen Ton verliert, wenn es in einem zusammengesetzten Wort an zweiter (genauer gesagt, an nicht-erster) Stelle steht, wie die Wörter in (18). Aus dem Auftreten der Morpheme in anderen Kontexten läßt sich entnehmen, daß sie einen lexikalisch zugewiesenen Ton besitzen, den sie aber in Zusammenhängen wie den hier aufgeführten verlieren. Ihr Ton wird dann nach den gleichen Regeln bestimmt wie der Ton der tonlosen grammatischen Morpheme (siehe (12)). (18) a. fu51 qinss -s· tu51 qin 'Vater' hua33 qiao35 ·» hua35 qiao 'Auslandschinese' ke21 yi 21 -> ke33 yi 'können' b. da21 ta ss -> da21 ta 'ihn schlagen' gei21 wo21 -*· gei35 wo 'mir geben' Die Beispiele in (l8b) zeigen, daß nicht nur Komposita, sondern auch bestimmte Phrasen diese Tontilgung aufweisen. Wie Yip zeigt, ist der auslösende Faktor die Betonung. Unbetonte Silben tragen keinen eigenen Ton. Darüberhinaus zeigen die jeweils letzten Beispiele in (l8a) und (l8b), daß die Tonsandhiregel (3) auch dann angewandt wird, wenn der die Regel auslösende Ton nicht realisiert wird (siehe auch (8)). Segmentale Modelle der Repräsentation eröffnen in der Regel nicht die Möglichkeit, ein Merkmal aus dem Segment zu tilgen. So ergibt es keinen Sinn, in einem Vokal das Merkmal [vorn] zu tilgen. Daß die Töne relativ leicht getilgt werden können oder im Falle der grammatischen Morpheme gar nicht erst vorhanden sind, ist ein starker Hinweis darauf, daß sie einen separaten Aspekt der phonologischen Information bilden, eben die Tonschicht. Auf dieser Schicht verhalten sich die Töne wie Segmente (d.h. sie bilden eine diskrete und geordnete Folge), daher die Bezeichnung 'autosegmental'. 3.) Tonausbreitung ('spreading'): Wir haben festgestellt, daß tonlose Morpheme ihren Ton vom linken Nachbarn erhalten. Dies ist aber auch dann möglich, wenn nicht ein einzelnes Morphem, sondern eine ganze Kette tonloser Morpheme erscheint, wie in den Beispielen (19). Die lexikalische Einheit song51 "vererbt" ihr letztes Tonmerkmal an die folgende Kette tonloser Morpheme. Der hohe Ton in
131
(I9b) wird nach Regel (29), siehe unten, eingefügt, da mai21 einen Ton 3 am Phrasenende trägt.
(19) a.
H
T
,
song shang qu le 'heraufgeschickt werden' schicken oben gehen PERF T
T
H
b. mai zhao le ma 'mit Erfolg gekauft haben (Frage)" kaufen Ziel PERF FRAGE Alle folgenden Silben ohne eigenen Ton zeigen diesen eingefügten hohen Ton oder den letzten Ton des vorangehenden Morphems. Diese Tatsache stellt ein weiteres Argument für die autosegmentale Repräsentation dar, da in einer segmentalen Repräsentation der Ton in einem komplizierten iterativen Prozeß auf die folgenden Silben kopiert werden müßte. Die autosegmentale Repräsentation drückt dagegen die Tatsache, daß sich ein Ton auf mehrere (im Prinzip beliebig viele) Silben erstrecken kann, direkt aus. 1.2.2.4. Zusammenfassung An mehreren Phänomenen läßt sich also demonstrieren, daß auch im Chinesischen einiges für eine autosegmentale Repräsentation der Töne spricht. Ein weiteres, wenn auch technisches und innertheoretisches, Argument für die autosegmentale Repräsentation läßt sich auch daraus gewinnen, daß die Töne als Sequenzen von zwei Tonmerkmalen dargestellt werden müssen, wie in Abschnitt 1.2.2.1 ermittelt wurde. Da jede Silbe einen beliebigen Ton haben kann und Silben auch aus einem einzelnen Segment bestehen können, lassen sich die Töne im strikt segmentalen Modell nur dadurch repräsentieren, daß man für die Töne eine sequentielle Darstellung innerhalb des Segments wählt. Eine Repräsentation wie in (20) sprengt die Merkmalsnotation insofern, als man im Allgemeinen annimmt, daß die Merkmale in einem Merkmalsbündel ungeordnet sind. Dieses Problem ist zu dem der Darstellung der Affrikaten und anderen komplexen Segmenten (siehe Teil I, 2.3 und 3.2) analog. Die autosegmentale Lösung besteht in beiden Fällen darin, Viele-zuEins-Beziehungen zwischen verschiedenen Schichten zuzulassen.
(20)
+ vorn - rund + hoch, - hoch
132
Um das Modell der Tonphonologie vollständig zu machen, ist auch die Frage zu klären, womit die Tonmerkmale assoziiert werden. Die in (l?) und (19) gewählten Darstellungen sind in diesem Punkte zu wenig explizit; denn als Alternativen bieten sich (mindestens) das Vokal-Segment, die V-Position, der Silbenknoten und der Morphemknoten an. Es sei hier angenommen, daß auch das Morphem als hierarchischer Knoten (hier in Analogie zu o für die Silbe notiert als ' ') und nicht mit Grenzsymbolen darzustellen ist. McCarthy (l982b) gibt Argumente für Repräsentationen wie die in (2l). Aus solchen Morphemen setzen sich Wörter wie die in der Einleitung, (20), dargestellten zusammen.
(21)
u
\
A k t b
C V
C V C
Da sich besonders für die semitischen Sprachen solche multilinearen Strukturen als notwendig erweisen, schlägt McCarthy (1981: 376) folgende Definition des Morphems vor: (22) Ein Morphem ist eine geordnete Kette von l * n Merkmalsmatrizen, die autosegmental mit einem Knoten assoziiert sind. Vergleichen wir diese Definition, die die Beispiele aus (2l) korrekt beschreibt, mit der Struktur der Morpheme im Chinesischen, stellen wir jedoch fest, daß sie nicht hinreichend ist. Zu einer Spezifikation der Lautseite eines Morphems gehört im Chinesischen nicht nur die Aufzählung seiner Segmente, sondern auch die Toninformation. Wie in 1.2.2.3 gezeigt, kann ein Morphem auch nur aus dem Ton bestehen. Da in diesem Fall der Morphemknoten direkt mit dem Tonmerkmal verknüpft werden muß, will ich annehmen, daß dies allgemein gilt. Für eine indirekte Assoziation zwischen Ton und Morphem auf dem Umweg über den Silbenknoten oder ein V gibt es keine Evidenz. Der Silbenknoten ist zugrundeliegend nicht vorhanden, sondern wird erst durch Silbifizierungsregeln eingeführt. Ein phonologisch vollständig spezifiziertes Morphem im Chinesischen sieht dann im zugrundeliegenden lexikalischen Eintrag so aus wie hao21 in (23). Syntaktische und semantische Angaben kommen natürlich noch hinzu.
(23)
C V C l l l a u
133
Die Morphemstruktur (23) enthält eine unerwünschte Ambiguität. Zu sagen, daß ein Morphem (u.a.) einen Ton als phonologische Information besitzt (in autosegmentaler Notation: mit dem Ton assoziiert ist) ist etwas anderes, als zu sagen, daß eine Silbe aus der Kette 'C V ...' besteht. Ersteres ist eine morphologische, letzteres eine phonologische Behauptung. Die Ambiguität in der Verwendung des Begriffs Assoziationslinie, die auf McCarthys Arbeiten (siehe auch Einleitung, 2.5) zurückgeht, sollte man in einer entwickelteren morphologischen Theorie wohl dadurch vermeiden, daß man von Assoziation nur im phonologischen Sinne spricht. Mit der ersteren Redeweise (illustriert in (23)) ist eigentlich nur gemeint, daß ein Morphem aus einem n-Tupel von verschiedenartigen Informationen besteht. Die Merkmalsmatrizen des Morphems können also zumindest im Chinesischen nicht auf eine unilineare Kette beschränkt werden. Ein Morphem kann mehrere Ketten von phonologischen Informationen enthalten, was in Tonsprachen die Regel sein muß. Wenn in einer Morphemstruktur wie (23) die segmentale oder die tonale Schicht fehlt, liegt eines der oben besprochenen partiellen Morpheme vor, die nur aus segmentaler oder tonaler Information bestehen. Die Lexikonrepräsentation in (23) ist zu unterscheiden von der phonologischen Repräsentation, die daraus insbesondere durch Silbifizierung entsteht. Der wichtigste Unterschied zwischen diesen Strukturen besteht vielleicht einfach darin, daß der Silbenknoten in die Struktur eingefugt wird. 4 Für das Beispiel hao21 ergibt sich dann die Repräsentation (24). Hier sind die Assoziationslinien unterhalb der Silbe phonologisch zu interpretieren.
(24)
T T \/
I
I a
I u
(23) und (24) sagen nichts darüber, auf welchen Segmenten der Ton schließlich realisiert wird. Die Realisierung des Tons folgt eigenen phonetischen Prinzipien, wobei wohl das wichtigste ist, daß der Ton auf allen sonoren (d.h. auch stimmhaften) Segmenten erscheinen kann. (Primär wird er offenbar auf dem Vokal und den ihm folgenden Segmenten realisiert; siehe Abb (?).) Auch von den Realisie4) Wie im Deutschen (siehe I, 3.63) mag auch im Chinesischen die Silbifizierung großenteils darin bestehen, daß X-Positionen zu C- und V-Positionen werden. Dieser Aspekt wird hier vernachlässigt. Da es im Chinesischen zumindest lexikalisch keine Resilbifizierung gibt, wirken Resilbifizierungsregeln hier nur als Redundanzregeln im Lexikon.
134
rungsfakten her ergeben sich also keine Argumente, den Ton segmental zu repräsentieren oder mit Segmenten oder CV-Positionen zu assoziieren.3 Das bisher Gesagte ermöglicht es schließlich, ein Schema aufzustellen, aus dem sich die vier Töne des Standardchinesischen ergeben. Die vier Möglichkeiten, die in Schema (25) zusammengefaßt sind, werden im Standardchinesischen alle realisiert. (25) gilt allerdings nur zugrundeliegend, da im Zusammenhang mit den Tonregeln Abweichungen (z.B. die Form 214) entstehen können. (25) drückt auch aus, daß eine tontragende Einheit im Chinesischen genau zwei Tonmerkmale trägt.
(25)
Dieses Ergebnis reiht das Chinesische, typologisch gesehen, sehr viel direkter in die Klasse der afrikanischen Tonsprachen ein, die immer schon als Registertonsprachen (häufig mit je einem Hoch- und einem Tiefton) analysiert wurden. Zur Frage, was der reale Unterschied zwischen Register- und Konturtonsprachen ist, läßt sich noch einmal die Universalientheorie von Maddieson (1978) heranziehen. Er faßt seine Beobachtungen in das folgende implikative Universal (1978: 345): (26) Wenn eine Sprache Konturtöne hat, hat sie auch Registertöne. Wenn man Konturtöne als Sequenzen von autosegmental organisierten Registertönen ansieht, erklärt sich das Universal (26) daraus, daß manche Sprachen nur eine Eins-zu-Eins-Assoziation zwischen einsilbigen Morphemen und Tönen erlauben. Diese Sprachen besitzen dann das, was man gemeinhin als Registerton bezeichnet. Andere Sprachen (wie auch das Chinesische) gestatten dagegen auch Eins-zuViele-Assoziationen zwischen Morphemen und Tönen, siehe (23) und (25). Dadurch entstehen dann auf der Oberfläche Konturtöne. Maddiesons Universal kann nach dieser Theorie durch die Assoziationsprinzipien erklärt werden. Eine autosegmentale Tontheorie macht den durch das Universal (26) ausgeschlossenen Fall (eine Sprache mit ausschließlich Konturtönen) unmöglich, da in diesem Fall nur die mehrfache Assoziation zwischen Tönen und Morphemen definiert wäre. Eine andere Schlußfolgerung aus (25) ist, daß im Chinesischen die Zahl der Tonmerkmale unabhängig von der Zahl der Positionen, Segmente oder strukturellen Einheiten in der Silbe ist. Es gibt, soweit ich sehe, keine Argumente dafür, daß einer Silbe wie /a/ mehr als eine einzige V-Position zuzuordnen ist. Die Silbe 5) Ich nehme an. daß die phonetischen Prinzipien der Tonrealisierung auch die genauere Festlegung der Tonwerte vornehmen.
135
kann aber dennoch zwei Tonmerkmale tragen. 6 Diese Unabhängigkeit existiert in anderen Sprachen nicht. So besitzt das Litauische eine Beschränkung der Art, daß eine Silbe nur dann zwei Tonmerkmale tragen kann, wenn sie einen langen Vokal oder einen kurzen Vokal plus Sonoranten enthält. In diesem Zusammenhang ist auch zu fragen, warum und ob eine Tonsequenz wie H H oder T T nicht durch das Prinzip der Obligatorischen Kontur (siehe Teil I, (28)) verboten wird, und welche Evidenz überhaupt dafür existiert, daß in diesen Fällen zwei Tonmerkmale vorhanden sind. Wie McCarthy (1986) feststellt, ist die Gültigkeit des Prinzips der Obligatorischen Kontur aber überhaupt für Tonschichten sehr viel fragwürdiger als für Segmentschichten. Bereits Goldsmith (1976) ermittelt, daß für manche Tonsysteme angenommen werden muß, daß identische Tonmerkmale benachbart sein können. Daß im Chinesischen tatsächlich Sequenzen identischer Töne angenommen werden sollten, wird im folgenden Abschnitt nach der Darstellung der Tonregeln begründet. Die Beobachtung, daß Silben und Morpheme im Chinesischen fast immer in einer Eins-zu-Eins-Beziehung stehen, ist Grundlage für die Einstufung des Chinesischen als einer isolierenden Sprache. Wir können diese Tatsache dadurch ausdrücken, daß das folgende Schema als eine Redundanzregel im Lexikon angenommen wird: (27)
Das Schema (27) stellt zusammen mit dem Silbenschema (22) aus Abschnitt I, 2.5 sicher, daß alle Morpheme wohlgeformte Silben bilden (von wenigen, lexikalisch als Ausnahmen spezifizierten Fällen abgesehen). Die im Silbenschema und in (27) ausgedrückte Information wäre also in der Morphemstruktur (23) redundant. Nicht redundant ist dagegen die segmentale und die tonale Information, also die Angabe über eine Segmentsequenz wie /xau/ und eine Tonsequenz wie [- hoch] [- hoch]. 1.3. Tonregeln Nach der Ermittlung der vier zugrundeliegenden Töne können jetzt auch die Regeln zur Beschreibung der Tonalternationen neu gefaßt werden. Es wird sich zeigen, daß alle Regeln im hier angenommenen Beschreibungsrahmen leicht formulierbar sind. Die Tonanalyse kann also durch angemessen einfache und Generalisierungen erlaubende Regelformulierungen gestützt werden. Der Ton 3 hat neben der zugrundeliegenden Form 21 (TT) zwei Varianten, nämlich die Form 214 (TTH), wenn in der Phrase kein Ton mehr folgt, und die 6) Zu Tragen ist, ob die Unabhängigkeit von Ton- und Silbenkomplexität mit der Möglichkeit zusammenhängt, daß alle Silben unabhängig von ihrer Komplexität akzentuiert sein können. Dieses Problem wurde bereits bei der Darstellung des Morenmodells (I. 4.3) diskutiert.
136 Form 35 ( ), wenn ein weiterer 3. Ton folgt (siehe Regel (3)). Diese Regel kann jetzt als (28) umformuliert werden. (28)
T^H/T
T
T
V V Diese Formulierung macht sichtbar, was in (3) verdunkelt wird, nämlich daß der Tonwechsel offenbar die Funktion hat, eine zu lange Kette tiefer Töne zu vermeiden. Eine weitere Bedingung für Regel (28) besteht darin, daß die beiden betroffenen Morpheme in derselben Domäne liegen. Wie diese Domäne zu definieren ist, wird in Kapitel 3.3 untersucht. Regel (28) überführt den 3. Ton in einen, der vom 2. Ton (T H) ununterscheidbar ist. Diese Beschreibung in Form vollständiger Neutralisierung ist offensichtlich korrekt. Die Variante 214 des 3. Tons findet sich auch dann, wenn in der Phrase noch ein tonloses Morphem folgt. In diesem Fall trägt dieses Morphem den Tonwert 4 (bzw. H), wie in (I9b) illustriert. Da die Analyse in Abschnitt 1.2.1 dazu geführt hat, nicht die Form 214, sondern die Form 21 als zugrundeliegend anzunehmen, kann der Teil, der als '4' (gelegentlich auch als '5') gekennzeichnet wird, nur durch eine zusätzliche Regel eingeführt werden. Diese Regel, wiedergegeben in (29), muß nur auf die Tonschicht Bezug nehmen; ob segmentales Material folgt wie in (30a) oder nicht wie in (30b), ist irrelevant. Die Bedingung des Phrasenendes (in (29) durch die eckige Klammer notiert) wird hier nicht weiter untersucht. Es könnte allerdings die Hypothese verfolgt werden, daß hier die gleichen Phrasen relevant sind, die auch die Domänen für die Anwendung der Regel (28) bilden. Regel (29) ersetzt im hier vorgeschlagenen Modell die Regel (2). (29)
0 -»H/T
(30) a.
T
T_] p h r a i e
T
T
T H
V V hao de 3 -* hao de ] gut NOM
b.
T
T
V hao ] gut
y^
T ->·
T
H
hao ]
Eine phonetische Beobachtung stützt im übrigen die hier vorgenommene Analyse: Die Beschreibungen stimmen darin überein (siehe Cheng (1973: 42)), daß der Ton
137
mit der Form 214 phonetisch der längste ist. Der zusätzlich hohe Ton findet also auch in der Länge seinen phonetischen Niederschlag. Die Regeln (28) und (29) ermöglichen auch die Rechtfertigung einer bis hierher in Übereinstimmung mit der Tradition stillschweigend akzeptierten Annahme: Alle lexikalischen Töne sind durch zwei Tonmerkmale zu beschreiben. Das Tonsystem für die ebenen Töne könnte als T und H anstelle von T T und H H beschrieben werden. Regel (28) verändert aber das zweite Tonmerkmal in der Sequenz T T, wodurch ein steigender Ton entsteht. Ebenso verlangt diese Regel nicht nur ein folgendes T (das würde auch für den 2. Ton (T H) gelten), sondern einen über den gesamten Verlauf tiefen Ton, eben T T. Ähnliches gilt für Regel (29). Der hohe Ton wird nicht einfach nach T eingefügt, sondern nur nach T T. Falls man auf die Sequenz verzichtet, muß die Regelformulierung die unerwünschte negative Bedingung enthalten, daß vor dem T kein Ton stehen kann, der zur gleichen Silbe wie dieser gehört. Die Regel (4) schließlich ist bereits oben als Regel (ll) präzisiert worden. Nachdem jetzt festgelegt worden ist, daß die Tonmerkmale autosegmental mit Morphemen verknüpft sind, ist aber noch eine alternative Formulierung der Regel möglich. Da (ll) (hier wiederholt) eine Assimilationsregel ist, die ein Tonmerkmal an den Wert des vorangehenden Tonmerkmals angleicht, kann die Regel auch als Reassoziation beschrieben werden. Wie z.B. Steriade (1982) postuliert, sind Assimilationen vielleicht grundsätzlich als Reassoziationen und nicht als Merkmalsveränderung zu beschreiben. In (3l) wird eine solche Regelformulierung vorgeschlagen. Die gestrichelte Linie stellt die durch die Regel eingeführte Assoziation dar; die alte Assoziation wird getilgt.
(11)
T -*
/
_
V
(31)
Im Gegensatz zu (ll)/(3l) ist Regel (28) eine Dissimilation. Man beachte, daß eine Dissimilation nicht als Reassoziation beschrieben werden kann. Hier ist die Einführung eines geänderten Merkmals in die Repräsentation unausweichlich. Es scheint, daß der tiefe Ton im Chinesischen ein markierter Ton ist, da alle besprochenen Regeln ((ll) (=(3l)), (28), (29)) aus einem tiefen Ton einen hohen machen oder einen Ton einfügen. Auch diese Generalisierung wäre ohne die Verwendung des Registertonsystems [± hoch] nicht darstellbar. Die Daten in (12) widersprechen dieser Interpretation auf den ersten Blick, da die tonlosen Silben nach Ton l, 2 und 4 das Merkmal T erhalten. Vielleicht ist die korrekte Interpretation, daß betonte Silben im unmarkierten Fall H sind, unbetonte dagegen T.
138
Diese Markiertheitskonvention würde sowohl den markierten Status des 3. Tons (der häufig durch Tonregeln geändert wird) wie auch die Tonverteilung auf unakzentuierten Silben weitgehend erklären. Daß der hohe Ton in betonten Silben den unmarkierten Fall darstellt, zeigt sich auch daran, daß an sich tonlose Morpheme (le, ba) mit dem Ton l (H H) versehen werden, wenn sie isoliert (und damit betont) ausgesprochen werden (siehe Norman (1988: 148)). Damit sind die wichtigsten in der Literatur genannten Tonalternationsregeln im vorgeschlagenen Rahmen dargestellt. Die Einfachheit der Regeln und die gewonnenen Einsichten bestätigen die Analyse. Neben den dargestellten generell anwendbaren Sandhiregeln gibt es noch morphophonemisches, d.h. auf bestimmte Morpheme eingeschränktes, Tonsandhi, daß hier nicht behandelt wird.. Es betrifft die Morpheme bu 'nicht' und yi 'eins', optional auch qi 'sieben' und ba 'acht', siehe Cheng (1973: 45) und Chao (1968: 45(0). In keinem Fall entsteht dabei ein Ton, der von einem der vier vorgestellten abweicht. Diese Tatsache ist ein weiterer Beleg dafür, daß das Tonsystem des Chinesischen genau die in (25) aufgeführten Möglichkeiten umfaßt. 1.4. Schlußbemerkungen Ziel dieses Kapitels war, am Beispiel des Chinesischen einerseits die Notwendigkeit autosegmentaler Schichten zu demonstrieren, andererseits zu erkunden, welche der vielen Konzepte aus dem reichhaltigen Arsenal der nichtlinearen Phonologie unabdingbar sind und welche nicht. So zeigt Kapitel I, 2 die Notwendigkeit einer CV-Schicht in der Beschreibung des Chinesischen, aber keine Evidenz für subsilbische Konstituenten wie Ansatz, Reim oder Koda.7 In diesem Kapitel wurde das Tonsystem mit einem einzigen binären Tonmerkmal beschrieben, das aber eine separate Schicht in der zugrundeliegenden lexikalischen Repräsentation verlangt. Die hier gefundenen Tonrepräsentationen und -regeln werden im Kapitel 3.3 über Tonsandhi und die Reduplikation weitgehend bestätigt. Für die adäquate Behandlung der Reduplikation sind erstens einige universell vorhandene Reduplikationsschemata zu instantiieren, zweitens muß Reduplikation als lexikalische Regel, aber auch außerhalb des Lexikons angenommen werden. In zweifacher Richtung muß die hier entwickelte Phonologie des Chinesischen ergänzt werden (abgesehen davon, daß auch die Analysen selbst sicherlich verbesserungsfähig sind): Erstens habe ich Fragen des Akzents, der prosodischen Gliederung und der Intonation völlig ausgeklammert. Akzent und Intonation interagieren aber offensichtlich mit der Tonphonologie, z.B. durch die Bedingung, daß nur akzentuierte Silben ihren lexikalischen Ton tragen. Von höheren prosodischen Kon7) Yip (1982) rindet durch die Analyse von chinesischen Geheimsprachen ebenfalls, daß eine Beschreibung mit Begriffen wie Anlaut und Auslaut unhaltbar oder komplizierter ist als die mit der CV-Schicht operierende. Die (im wesentlichen reduplizierenden) Geheimsprachen bestätigen also das Fazit von Kapitel I. 2.
139
stituenten handelt das Kapitel 3, wo gezeigt wird, daß sich die Kontexte für die Tonregeln wohl nur durch die Berücksichtigung höherer prosodischer Konstituenten bestimmen lassen (siehe auch Selkirk (l984b) und Kaisse (1985)). Zweitens ist auch für das Chinesische ein Modell der Grammatik auszuarbeiten, in dem die aufgeführten Regeln einen Platz bekommen. Fragen der Regelordnung und der Interaktion der Phonologic mit der Morphologie etwa sind oben kaum diskutiert worden. Wie ein solches Grammatik- und insbesondere Lexikonmodell prinzipiell aussehen könnte, wird im nächsten Kapitel anhand des Deutschen besprochen. Hier sei nur darauf verwiesen, daß die behandelten Tonregeln offenbar nicht in das Lexikon gehören, da sie in vielen Fällen erst anwendbar sind, wenn Wörter in einer Phrase zusammenkommen. (Dies gilt sogar für die sogenannten morphophonemischen Tonregeln, die am Ende des vorangehenden Abschnitts erwähnt wurden.) Die Regeln müssen also nach der lexikalischen Einsetzung angewandt werden; sie sind, in einem noch zu explizierenden Sinne, postlexikalisch. Der Ton im Chinesischen hat aber lexikalische und postlexikalische Eigenschaften: Töne und Silben werden auf der Basis von Morphemen miteinander assoziiert, was im Lexikon geschieht. Zu sagen, daß eine Sprache eine 'Tonsprache' ist, bedeutet eben, daß Töne schon im Lexikon zugewiesen werden. Im übrigen existieren aber formal identische Tonmerkmale auch in Nicht-Tonsprachen; sie bilden dann entweder die abstrakte Repräsentation für die Intonationskontur (siehe Wunderlich 1988) oder sind, in den sogenannten Tonhöhenakzentsprachen, die Realisierungsmerkmale für Akzentstrukturen.
140
2. Schwa und die Wortstruktur des Deutschen 2.1. Einleitung - Das Problem Innerhalb des deutschen Vokalsystems nimmt der Vokal Schwa (notiert als [3]) eine Sonderstellung ein. Diese Tatsache muß von jeder Phonologic des Deutschen erklärt werden, und zwar möglichst so, daß sich die besonderen Eigenschaften von Schwa aus allgemeinen Prinzipien ergeben. Dieses Kapitel ist ein erneuter Versuch zu einer Theorie des Schwa im Deutschen. Die erste distinktive Eigenschaft von Schwa ist seine Unbetonbarkeit. Silben mit Schwa sind nicht nur unbetont, sondern sind generell nicht betonbar - von exzeptioneller Betonung wie in beladen, nicht ontladen (siehe 2.5) einmal abgesehen. Alle anderen Silben (siehe dazu Kapitel I, 3.9) haben demgegenüber ein gewisses Ausmaß an Betonung und können auch die Hauptbetonung in einem Wort tragen. Zweitens zeigt schon eine oberflächliche Beobachtung, daß Schwa ein sehr flüchtiger Vokal ist. So findet sich ein Schwa in Atem vor dem /m/, in atmen dagegen nach diesem Segment. Ähnliche Alternationen gibt es bei anderen Vokalen nicht. Schwa interagiert in vielen Wörtern mit deren Derivation und Flexion. Der Zusammenhang von Wortstruktur und Schwa wird den Hauptteil der Analyse dieses Kapitels ausmachen. Schließlich ist Schwa in vielen Kontexten ein optionaler Vokal. Genauer gesagt, gibt es immer dann zwei Aussprachevarianten, wenn Schwa von einem sonoranten Konsonanten (also /m, n, K, l/) gefolgt wird. In entsprechenden Wörtern finden wir entweder Schwa oder einen silbischen Konsonanten, siehe die phonetischen Formen [a:tam] und [a:tm] für Atem. Die deutsche Orthographie zeigt in allen solchen Fällen ein , aber die Aussprache ohne einen Vokal, sondern mit silbischem Nasal ist auch im Standarddeutschen akzeptiert. (So sagen Fernsehsprecher durchweg: [im tsvaitn dovtJ~n fsKnze:n].) Eine Theorie des Schwa muß für diese drei wichtigen Eigenschaften innerhalb der Phonologic des Deutschen eine Erklärung bieten. Die Analyse, die hier entwickelt werden soll, begründet drei Behauptungen. Die erste ist, daß Schwa in allen seinen Kontexten und Erscheinungsformen ein im Lexikon zugewiesener Epenthesevokal ist; die zweite, daß das Auftreten von Schwa weitgehend von silbischen Wohlgeformtheitsbedingungen und von seiner Interaktion mit der Morphologie bestimmt ist; die dritte, daß nicht alle Morpheme des Deutschen phonologisch durch eine Kette konkreter Segmente spezifiziert sind. Schwa ist, trotz seines wenig auffälligen Auftretens, keineswegs ein zu vernachlässigendes Randphänomen der Phonologie des Deutschen. Vielmehr spiegeln sich in diesem unscheinbaren Laut eine große Zahl der Phänomene, die überhaupt am Lautsystem des Deutschen zu studieren sind. Schwa dient in diesem Kapitel gleichsam als ein Mikroskop, das einen recht tiefen Zugang in die Phonologie und Morphologie der Sprache ermöglicht.
141
Die Analyse von Schwa ist ein klassisches Problem der Phonologic des Deutschen. Dementsprechend liegen auch Vorschläge innerhalb aller in der Geschichte der Phonologic formulierten Grundpositionen vor (siehe insbesondere Giegerich (1985: Kap. 2.3.3) für eine kritische Diskussion). Für die strukturalistische Phonologic lag das Problem weitgehend darin, dem Schwa einen Phonemstatus zuzubilligen oder nicht (so etwa Moulton (1947, 1962) und Ungeheuer (1969)). Einerseits schien Schwa die unbetonte Variante eines Phonems zu sein, auch wenn nicht ganz klar war, welches Phonem dies war. Andererseits schien es Fälle zu geben, in denen Schwa nicht voraussagbar war, so etwa in der Position am Wortende (siehe Katze oder singe). Innerhalb der Tradition der generativen Phonologic analysierten Wurzel (1970) und ähnlich auch Kloeke (1982) Schwa mittels einer Batterie von Epenthese- und Tilgungsregeln. Dadurch wurde es zwar möglich, auch die morphologischen Auftretensbedingungen von Schwa zu berücksichtigen, was für die strukturalistische Analyse schon aus metatheoretischen Positionen heraus unmöglich war, aber die Regelsysteme wurden so komplex, daß sie allein deshalb wenig plausibel sind. Darüber hinaus ergibt sich in diesen Analysen die unerwünschte Konsequenz, daß ein Laut zunächst eingefügt und dann wieder getilgt wird, ohne daß er in der Ableitung irgendeine erkennbare Rolle spielt. Wurzels Analyse wurde von Issatschenko (1974) mit der Begründung verworfen, daß sie eine grundlegende Unterscheidung nicht berücksichtige, die zwischen schwa mobile und schwa constans. Ersteres ist der Laut in Atem vs. Atmung, der alterniert, in bestimmten Kontexten also nicht auftritt. Schwa constans ist dagegen immer präsent und kann nicht getilgt werden. Es findet sich insbesondere in der Adjektiv-Flexion, z.B. in schnelles, nicht aber *schnells. Diesen zwei Formen des Schwa entsprechen in Issatschenkos Erklärung der Fakten zwei verschiedene Morphophoneme, von denen das eine immer als Schwa realisiert wird (schwa constans) und das andere nach bestimmten Regeln getilgt werden kann (schwa mobile). Der entscheidende Einwand gegen Issatschenkos Lösung besteht darin, daß es keine systematische Beziehung zwischen schwa mobile und schwa constans gibt. Es ist eigentlich ein Zufall, daß beide Morphophoneme als Schwa realisiert werden. Abgesehen von diesem Problem ist auch das Morphophonem in der in dieser Arbeit akzeptierten Theorie keine begründbare Kategorie. Zugrundeliegende Einheiten sind Segmente oder wenigstens phonologische Merkmale, die auch realisierbar sind. Allerdings gehören auch abstraktere Kategorien wie Segmentpositionen zu den möglichen zugrundeliegenden Entitäten. Eine weitere mögliche Analyse, die von Strauss (1982) vertreten wird, besteht darin, zugrundeliegend Schwa (oder einen anderen Vokal) in allen denkbaren Auftretenspositionen anzusetzen und dann durch eine Tilgungsregel viele dieser Exemplare zu beseitigen. In den Abschnitten 2.2 und 2.3.3 wird argumentiert, daß eine solche Lösung nicht adäquat ist.
142
Es gibt schließlich in der neueren Literatur den Vorschlag, alle Vorkommensweisen von Schwa als Ergebnis einer Epenthese zu betrachten. Insbesondere Giegerich (1985, 1987) entwickelt eine Epentheselösung innerhalb einer metrischen Silbenphonologie des Deutschen (siehe zur Diskussion des Silbenmodells Kapitel I, 4.1). Der Unterschied zu Giegerichs Modell ergibt sich teilweise aus den unterschiedlichen Annahmen über die Silbenstruktur. Giegerichs Version der SchwaEpenthese wird in Abschnitt 2.8 mit der hier vorgelegten verglichen. Eine ähnliche Analyse liegt von Rennison (1980) vor. Rennison argumentiert, daß im Deutschen (genauer gesagt, in der österreichischen Umgangssprache) eine diachrone Veränderung stattgefunden hat, und zwar derart, daß "the earlier processes of vowel reduction and deletion have been reinterpreted by speakers as a single rule of shwa-epenthesis" (Rennison 1980: 33). Unterschiede zwischen Rennisons Analyse des Österreichischen und der hier entwickelten Analyse des Standarddeutschen ergeben sich vor allem daraus, daß in ersterem Dialekt Schwa nur in einer Untermenge der Kontexte auftritt. Offenbar erlaubt das österreichische Schwa nur dann, wenn /r/, /!/, oder /n/ folgen. Wortfinales Schwa kommt z.B. nicht vor. Für meine Schwa-Studie sind zwei theoretische Rahmen von Bedeutung. Wenn, wie oben behauptet, Schwa teilweise aus den Silbifizierungsbedingungen des Deutschen zu erklären ist, muß als erstes eine adäquate Silbentheorie herangezogen werden. Hier wird zu diesem Zweck natürlich die in I, 3 für das Deutsche entwickelte Variante der CV-Phonologie von Steriade (1982) und Clements & Keyser (1983) verwendet. Die folgende Analyse stützt sich auf die dort entwickelten Konstrukte und auf die Ergebnisse von Teil I dieser Arbeit. Es wird sich zeigen, daß insbesondere die Segmentpositionen X bzw. C/V und die Sonoritätshierarchie wichtige Elemente einer Schwa-Analyse sind. Zweitens wird in diesem Kapitel die Theorie der Lexikalischen Phonologic herangezogen, die von Kiparsky (1982) und anderen entwickelt wurde. In Kapitel 2.3 wird demonstriert, daß der enge Zusammenhang zwischen der Wortstruktur und der Schwa-Epenthese eine besondere Version eines Lexikonmodells, wie es im Rahmen der Lexikalischen Phonologic formulierbar ist, erfordert. Ein weiterer Unterschied zu anderen Behandlungen von Schwa, insbesondere zu der generativen Analyse von Wurzel (1970), sollte hervorgehoben werden. Die hier vorgelegte Analyse stützt sich, so weit wie irgend möglich, auf eine Menge von Prinzipien, die auch unabhängig von der Existenz des Schwa gelten. Eine solche Behandlung ist, in Übereinstimmung mit neueren Tendenzen in der Phonologic, einer Analyse vorzuziehen, die das gleiche Phänomen mit einer Regelmenge beschreibt, die ausschließlich dem Zweck dient, das in Frage stehende Phänomen zu behandeln. Insofern dient die hier vorliegende Analyse auch dazu, die Hypothese von der Modularität der Grammatik aufzuzeigen, plausibel zu machen und weiterzuent wickel n.
143
2.2. Die Distribution von Schwa in monomorphemischen Wörtern In diesem Abschnitt wird zunächst die Distribution von Schwa in monomorphemischen Wörtern untersucht. Daraus ergibt sich eine recht einfache Epentheseregel. Bei der Analyse komplexer Wörter in Abschnitt 2.3 wird sich dann zeigen, daß die Epentheseregel auch Tür diese Wörter hinreichend ist, wenn eine bestimmte Verteilung der Regel über das Lexikon zugelassen wird. In monomorphemischen Wörtern, d.h. solchen, die nur aus einem Stamm bestehen, findet sich Schwa (fast) ausschließlich vor dem wortfinalen Konsonanten, wie (32a) mit einer repräsentativen Auswahl von Wörtern demonstriert. Außerdem gibt es aber komplexe Wörter mit dem gleichen Stamm, in denen Schwa nicht erscheint, siehe (32b). Daher dürfen wir annehmen, daß die zugrundeliegende Form der Stämme die in (32c) ist.
(32)
a. Atem b. Atmung c. lartml Segler lze:gll Segel trocken Trockner ItKoknl dunkel dunkle Idunkll niedrig nieder lni:dKl Himmel himmlisch Ihlmll
Den Stämmen in (32c) ist gemeinsam, daß ein sonorantes Segment auf ein weniger sonores (meist einen Obstruenten) folgt. (Zu der Sonoritätsskala im Deutschen siehe I, 3.7.1.) Aufgrund der Sonoritätshierarchie ist es unmöglich, diese Stämme in einer einzigen Silbe zu realisieren. Einige der Stämme überschreiten außerdem die maximale Anzahl der postvokalen Konsonanten, wie sie durch das Silbenschema (35) in Teil I festgelegt ist. Es wird also deutlich, daß Schwa in diesen Wörtern auftritt, weil die finale Segmentposition andernfalls nicht silbifiziert werden kann. Man beachte, daß in den Beispielen unter (32b) der letzte Konsonant des Stamms mit dem Suffix silbifiziert wird. In diesen Wörtern ist also eine SchwaEinfügung aus silbischen Gründen überflüssig. Die in Abschnitt I, 3.6 dargestellte Silbifizierung würde für alle Stämme in (32a) den letzten Konsonanten als unassoziierbar zurücklassen. Auch extrasilbisch ist der Konsonant nicht unterzubringen. Betrachten wir nun eine Tilgungsanalyse, wie sie vor allem von Strauss (1982) vorgelegt wird. Die zugrundeliegende Formen für die Wörter in (32) müssen in etwa die aus (32a) sein, abgesehen von der Vokalqualität. Aber in monomorphemischen Wörtern tritt Schwa nur dann auf, wenn die Segmentkette sonst nicht silbifizierbar ist. Diese entscheidende Bedingung wird aber von einer Tilgungsanalyse notwendigerweise übersehen; diese kann nicht vorhersagen, unter welchen Umständen Schwa erscheint. Diese Schwäche der Tilgungsanalyse ist umso stärker zu bewerten, als die Faktoren sehr generell wirksame, aus unabhängigen Gründen erforderliche Silbenstrukturbedingungen sind. Diese Menge von Fakten begünstigt also eine Epenthese-Lösung gegenüber einer Tilgungs-Lösung.
144 Wie bereits erwähnt, wird Schwa vor dem letzten Konsonanten des Stammes eingefügt. In (fast) allen mono morphemische n Wörtern scheint diese Einfügung hinreichend für eine wohlgeformte Silbifizierung zu sein. Es gibt (im Deutschen!) keine Stämme wie etwa Itkpl, die weitere Vokale benötigen würden. Nehmen wir daher an, daß Schwa auf die Position vor dem wortfinalen Konsonanten beschränkt ist. Dann ergibt sich die Epentheseregel (33). In Übereinstimmung mit dem Silbenmodell aus Kapitel I fügt sie eine V-Position in die Kette der Segmentpositionen ein, und zwar direkt vor der letzten, unassoziierten Position in einer Domäne, die wir mit dem Wort identifizieren können. Die Regel ist von Giegerichs (1985: 72, 1987: 459) Analysen beeinflußt, geht aber darüber hinaus, da keine Annahmen über die Spezifikation der Konsonanten gemacht werden. Eine ähnliche Epentheseregel findet sich auch bei Clements & Keyser (1983: 123ff.) für die Indianersprache Klamath.1 (33)
a.
0 ·* V / _ x l w o r t
b.
Ein leeres V wird mit Schwa assoziiert.
Durch die in Kapitel I, 2.2 vorgenommene Differenzierung zwischen X ([+ segmental]) und C/V ([+ segmental, ± silbisch]) ist es möglich, in der Regel (33a) eine unassoziierte Segment-Position, nämlich X, direkt als Kontextbedingung einzuführen. Dies ist erstens genau die relevante Bedingung. Zweitens wird eine zusätzliche Notation wie etwa "C"' (für eine nicht-assoziierte C-Position, siehe Clements & Keyser) überflüssig. Drittens ist die Finalität in der Beschreibung von Schwa-Epenthese ("wenn die Segmentkette sonst nicht silbifiziert werden kann") nicht Teil des formalen Systems. Die Schwa-Epenthese ist hier in zwei Teilregeln formuliert. Natürlich ist es ebensogut möglich, die zwei Teile in einer Regel zu vereinigen, aber es gibt Evidenz, daß die in (33) gewählte Formulierung adäquater ist. Wie Hooper (1976: Kap. 13) beobachtet, gibt es zwei Gruppen von Vokal-Epentheseregeln. In der ersten Gruppe wird ein Vokal aus dem Wort kopiert, in der zweiten wird Schwa (für Hooper der 'minimal vowel') eingefügt. (33b) scheint also eine Option zu sein, die von der Universalgrammatik bereitgestellt wird. Die andere Option, die Kopie eines Vokals, wird im Deutschen niemals gewählt; es gibt keine Alternationen /a:tm/ 1) Ein nicht gelöstes Problem dieser Analyse liegt darin, daß unerklärt bleibt, warum der finale Konsonant immer ein Sonorant ist. Mit anderen Worten, es gibt keine Stämme der Art la:tfl, die durch Schwa-Epenthese zu /a:taf/ werden. Möglicherweise liegt der Grund einfach in dem historischen Faktum, daft nur in Wörtern mit finalem Sonoranten die Vokale reduziert wurden. Man vergleiche Wörter wie Atlas, Manfred, usw., die auf einen Obstruenten enden. Hier sind die Voll-Vokale erhalten geblieben. Daher brauchte auch keine Reanalyse zu Epenthese-Schwa stattzufinden. Die alternative Analyse von Giegerich (1987) beruht z. T. darauf, daß dieses Faktum nicht als zufällig angesehen wird.
145 vs. /a:ta(:)m/, /himl/ vs. /hlmil/. 2 Daher ziehe ich die in (33) formulierte Lösung einer einheitlichen Regel vor; unten wird weitere Evidenz dafür angeführt. Zur Illustration der Lösung gebe ich in (34) die Derivation der Silbenstruktur von Atem an. (34)
a.
X X X X a t m
zugrundeliegend
b.
V C C X a t m
Silbifizierung (partiell)
c.
V C C V X l m
Schwa-Epenthese (33a)
d.
V C C V X a t 3 m
Schwa-Epenthese (33b)
v i i i
e.
ö
0
Silbifizierung
V C C V C V I I I a t 9 m Wie (34) verdeutlicht, muß die Regel (33) sozusagen Hand in Hand mit der Silbifizierung operieren. Genaugenommen besteht die Schwa-Epenthese ja in der Einfügung eines neuen Silbenkerns, ist also ein Teil der Silbifizierung. Schwa-Epenthese und Silbifizierung müssen also in den gleichen Komponenten der Grammatik zu finden sein. Silbifizierung und Schwa-Epenthese sind auch hinsichtlich einer weiteren Eigenschaft sehr ähnlich, wenn nicht sogar identisch. Wie in Teil I, 3.6.2 gezeigt, operiert die Silbifizierung zyklisch im Lexikon, insofern als sie mit der Wortbildung interagiert. Für Silbifizierung gilt aber nicht die Bedingung der strikten Zyklizität, die in der generativen Phonologic viel diskutiert wurde. Eine Regel operiert dann strikt zyklisch, wenn sie ausschließlich auf Wörter angewandt wird, die morphologische Prozesse durchlaufen haben, siehe Kean (1974), Mascaro (1976) und Kiparsky (1982, 1985) für verschiedene Formulierungen dieser Bedingung. Welche Formulierung für die strikte Zyklizität auch immer gewählt wird, für die Silbifizierung gilt jedenfalls, daß sie nicht strikt zyklisch operiert. Schon intuitiv gesehen kann sie es auch gar nicht, denn simple, nicht abgeleitete Wörter besitzen natürlich ebenso eine Silbenstruktur wie die morphologisch komplexen 2) Zahlreiche Kenstowicz & dingungen für offensichtlich,
andere Sprachen machen von dieser Möglichkeit Gebrauch. So analysieren Pyle (1973) die Vokalkopie-Regel im Kolami, einer Dravida-Sprache. Die Bedie Vokalkopie in Alternationen wie melp vs. melep, katk vs. katak sind wie bei der Schwa-Epenthese. in Anforderungen der Silbenstruktur zu finden.
146 Wörter. Es ist nun offensichtlich so, daß sich die in (33) eingeführte Schwa-Epenthese hinsichtlich der Zyklizität wie die Silbifizierung verhält. Schwa-Epenthese ist zyklisch, wie im Rest des Kapitels zu zeigen sein wird. Sie folgt aber sicherlich nicht der Bedingung der strikten Zyklizität, da sie sich, wie oben gezeigt, auch auf monomorphemische Wörter erstreckt. Diese Gemeinsamkeit zwischen Silbifizierung und Epenthese ist vermutlich nicht zufällig. Wie Kiparsky (1982) überlegt, existiert hier ein fundamentaler Unterschied zwischen Regeln, die Merkmale verändern, und solchen, die Strukturen aufbauen. Zu letzteren gehören Silbifizierung, Schwa-Epenthese und Akzentzuweisung. Sie alle errichten prosodische Strukturen, lassen die segmentalen Merkmale aber unberührt. Auch für die Akzentzuweisung im Deutschen gilt übrigens, daß sie zyklisch, aber nicht strikt zyklisch ist. Daß die Schwa-Epenthese nicht der Bedingung der strikten Zyklizität entspricht, ist unter der Voraussetzung, daß die genannte Zweiteilung innerhalb der phonologischen Regeln im Lexikon real ist, also eine erwünschte Eigenschaft. Es gibt einige Wörter, die der vorgeschlagenen Lösung scheinbar entgegenstehen. So findet sich in Abend, Tugend, Dutzend und Hundert Schwa nicht in der angegebenen Position vor dem Wortende. Das Wort Abenteuer ist noch abweichender, da Schwa in der drittletzten Silbe erscheint. Für Abend und ähnliche Wörter, die alle auf /d/ oder /t/ enden, könnte eine Lösung darin bestehen, daß der finale Konsonant rein formal gesehen ein Affix ist, ähnlich wie das /d/ in Jagd, oder Brand (vgl. jagen bzw. brennen). Abend wäre dann ein morphologisch komplexes Wort wie die Wörter, die im folgenden Kapitel untersucht werden. Eine alternative Analyse besteht darin, diese Wörter mit einer unassoziierten V-Position in der zweiten Silbe zu repräsentieren: (35)
Wort Ö
vvc c v c c
J
a b
l
n d
Dieses V wird dann automatisch durch die Regel (33b) mit Schwa assoziiert. Man beachte, daß diese Regel ohne lineare Beschränkungen formuliert ist. Sie kann also überall in einer Segmentkette Anwendung finden. Diese Lösung ist auch auf das ansonsten sehr abweichende Wort Abenteuer anwendbar.3 Man beachte aber, daß in (35) außer acht geblieben ist, wie die Silbifizierung für Abend zustandegekommen ist. Da zugrundeliegende Einträge nach den Ergebnissen aus 3.6.3 nur mit X3) Ebenso problematisch für die Beschreibung von Schwa mittels der Regel (33) sind genau und genug, bei denen wohl nicht ein Präfix ge· angenommen werden kann. (Zu den Präfixen siehe 23.3.)
147
Positionen markiert sind, und da sich für eine leere Position kein Sonoritätswert bestimmen läßt, ist die Silbenstruktur über bend nicht wirklich ableitbar. Eine dritte Lösung, die sich an die in diesem Buch vorgetragenen Elemente der Silbentheorie direkt anschließt, ist daher am plausibelsten: Die Schwa-Epenthese ist in ihrer vorliegenden Form nicht auf Abend, Hundert etc. korrekt anwendbar, da zwei Konsonanten final vorkommen. Dieses Problem löst sich aber auf, wenn d bzw. t in solchen Wörtern als extrasilbisch analysiert werden. Zu dieser Analyse kann ein Sprecher des Deutschen schnell gelangen, da erstens gerade d und t extrasilbisch sein können, zweitens alle weiteren Bedingungen für extrasilbische Elemente (ein Segment, nur am Wortende) erfüllt sind, drittens d und t sich auch in Wörtern wie Jagd, Jugend und Brand als abtrennbare Bestandteile ohne Bedeutung erweisen und viertens eine Silbiflzierung für /a:bnd/ nicht ohne weiteres möglich ist. Der zugrundeliegende Eintrag für Abend und die phonologische Ableitung des Wortes ist dann wie in (36) zu sehen.
(36)
a.
X\y X X X (X)»Ytra /t/, die in Fällen wie lädt gleichfalls zu finden ist. Dieser Phänomenbereich verdient eine weitere Untersuchung. 6) Wenn sich bei näherer Untersuchung herausstellt, daß Tür die hier behandelte Bedingung tatsächlich die Kategorie Fuß erforderlich ist. gibt es auch aus dem Deutschen Evidenz für diese umstrittene prosodische Einheit (siehe Einleitung. 2.4).
158
Die Verben mit der Endung Istl für die 2. P. Sg. (gleiches gilt für das SuperlativSuffix Istl bei Adjektiven: zarteste, weißeste, etc.)7 müssen noch weiter untersucht werden; denn sie scheinen auf den ersten Blick Gegenbeispiele für die vorgeschlagene Analyse darzustellen, da Schwa zwei und nicht einen Konsonanten von der Wortgrenze entfernt erscheint. Es gibt jedoch Gründe anzunehmen, daß das Morphem Istl als eine Einheit betrachtet werden sollte, bei der zwei Segmente mit einer Segmentposition assoziiert sind, wie in (46) dargestellt.
(46)
X
Abgesehen davon, daß diese Repräsentation ein Problem für die Schwa-Epenthese löst, gibt es weitere Evidenz, daß dies die richtige Lösung ist. In I, 3.8 wurde argumentiert, daß im Deutschen genau eine C-Position extrasilbisch sein kann. Diese Generalisierung ist nur dann gültig, wenn wir die Segmentkette /st/ als eine Position zählen. Anderenfalls besäße ein Wort wie denkst zwei extrasilbische Elemente. Sowohl aus empirischen wie auch theoretischen Gründen ist es vorzuziehen, daß dies nicht der Fall ist. Diese Argumentation wird hier insofern unterstützt, als auch für die Schwa-Epenthese /st/ ganz offensichtlich als eine Einheit fungiert. Im nächsten Abschnitt wird ein weiteres Argument dafür angeführt, daß /st/ ein komplexes Segment darstellt, allerdings wiederum ein theorieinternes. 8 Es kann gezeigt werden, daß die Repräsentation von /st/ als einem komplexen Segment (analog zur Struktur der Affrikate /ts/) tatsächlich hinreichend ist, um ungrammatische Typen der Schwa-Epenthese zu verhindern. Keine Epentheseregel kann eine Struktur wie die in (47) produzieren, obwohl ein Wort wie *reitset anstelle von reitest oder *lautsete anstelle von lauteste auf der Oberfläche akzeptabel wäre.
(47)
C
* y
*
V C 3y
Daß ein komplexes Segment nicht durch Epenthese aufgespalten werden kann, folgt aus der Beschränkung, daß sich Assoziationslinien nicht kreuzen dürfen (zuerst formuliert von Goldsmith (1976)). Dieses Verbot schließt die rechte Seite von (47) aus. Steriade (1982: Kap. l) argumentiert in analoger Weise für Geminaten, also 7) Ich vernachlässige es, die Anwendungsbedingungen für Schwa-Epenthese in diesen Fällen zu untersuchen. Das ist erforderlich, da Fälle wie größte vs. weißeste, kränkste vs. krankeste existieren. Siehe Abschnitt 2.6 zu einigen Bemerkungen Über lexikalische Variation. 8) Kager & Zonneveld (1985) erwägen die Möglichkeit, daß auch im Niederländischen /st/ und /ts/ als eine Position zählen.
159
einfache Segmente, die mit zwei Positionen assoziiert sind. Daß /st/ niemals "aufgebrochen" wird, folgt also aus einer generellen Beschränkung für nichtlineare Repräsentationen und braucht nicht eigens festgehalten zu werden. Die auf Nasal endenden Verbstämme (a/m, ordn etc.) und alle flektierten Adjektive (Formen wie dunklen, übles) illustrieren, daß Schwa-Epenthese nicht notwendigerweise immer dann stattfindet, wenn ein Stamm (auf Ebene l oder 2) nicht silbifiziert werden kann. Diese Wörter zeigen, daß Schwa-Epenthese für sie erst dann definiert ist, wenn das Suffix angefügt wird. Wörter können also offenbar eine lexikalische Ebene mit einer partiellen Silbifizierung verlassen. Schließlich ist an Wörtern wie reitest, rettet und redet noch zu demonstrieren, daß die Kontextbedingung in der Schwa-Epentheseregel völlig ohne Bezug auf die Silbenstruktur zu formulieren ist. Die Elemente /st/ oder /t/ sind ja, wie in I, 3.8.4 gezeigt, extrasilbisch, was für viele andere Segmente nicht gilt. Andererseits sind die Ketten /Kalt/ oder /Ke:d/ maximal gefüllte Silben, die Kette / / dagegen nicht. Schwa-Epenthese findet, wie die hier aufgeführten Wörter zeigen, auch in letzterem Fall statt. Es wäre also unangebracht, 'höhere' Kategorien als das in der Regelformulierung (33) aufgeführte X in die Kontextbeschreibung aufzunehmen. 2.3.3. "Schwa" als ein Morphem In einer seiner Erscheinungsformen tritt Schwa am Wortende auf, wobei es eine Reihe grammatischer Funktionen realisiert. So kann es für eine Klasse von Nomen den Plural markieren (Witz - Witz+e), es bildet Nomen, Adjektive und Verben von entsprechenden Stämmen (Katz+e, leis+e, Schieb+e+tür), und es ist ein Teil des Flexionssystems der Verben (ich leb+e vs. er leb^-t-, er leb+t vs. er leb+e). In Wurzels (1970) Überblick über die Flexionsendungen des Deutschen erweist sich Schwa als die Endung mit der größten funktionalen Belastung. Offensichtlich ist Schwa in diesen Fällen nicht aufgrund phonologischer Faktoren vorhersagbar. Es ist vielmehr die phonetische Form eines grammatischen Morphems, vergleichbar mit /t/, /st/ oder /n/. Nehmen wir einmal an, daß auch dieses Schwa wie alle anderen bisher untersuchten Typen das Ergebnis von Epenthese ist. Damit die Epentheseregel (33) anwendbar ist, ist eine wortfinale X-Position erforderlich. Dieses Position steht zur Verfügung, wenn ein solches X als das zugrundeliegende Morphem postuliert wird. Die zugrundeliegende Form von lebe wäre dann lle:b+XI. Diese Repräsentation ist hinreichend für die Schwa-Epenthese. Da das X-Suffix mit keinem Segment assoziiert ist und es im Deutschen auch keine Epentheseregel für Konsonanten gibt, kann es nicht an der Oberfläche erscheinen. Nur das eingefügte Schwa markiert die Präsenz des Morphems.
160
(48)
llerbl /le:b + / /le:baX/ [le:ba]
Stamm Affigierung Schwa-Epenthese Oberflächenform
Dieser Vorschlag mag zunächst als völlig willkürlich erscheinen, als eine 'ad hoc'-Lösung, die einzig dazu dient, die Schwa-Epenthese zu verallgemeinern. Es gibt aber zwei mögliche Argumente, die darauf hinweisen, daß damit vielleicht die richtige Lösung vorliegt. 9 Zunächst existiert eine (wenn auch nicht sehr bedeutende) Generalisierung, die nur innerhalb der Analyse von "Schwa" als einer X-Position ausgedrückt werden kann. Es ist ein Faktum des Deutschen, daß alle Flexionsendungen im nominalen oder verbalen Bereich aus Konsonanten der Menge /t, s, n, m, r, d, s t/ besteht abgesehen von Schwa. Wenn aber Schwa nur der Oberflächenrefiex einer zugrundeliegenden X-Position ist, gilt diese Generalisierung ausnahmslos. Die Menge der Flexionsendungen ist dann die in (49) dargestellte. (Wiederum verhält sich hier /st/ parallel zu den übrigen Endungen, die aus einem einzigen Segment bestehen, was die im vorangehenden Abschnitt angenommene Analyse bestätigt.) (49)
X X
X X X 1 X 1 X X
n
s ss t r
I
I
t
I
/
' m' d\'
In (48) ist Idl übrigens das Flexionssuffix des Präsens-Partizips: gehend aus geh+n +d, sitzend aus sitz+n+d. Idl muß im vorliegenden Modell ein Flexionssuffix auf der Ebene 3 sein, da es auf das ebenfalls aus der Flexion stammende Suffix Inl folgt. Es kann auch kein einheitliches Suffix Indl geben, da dann die Bedingung für die Schwa-Epenthese nicht erfüllt ist. Soweit ich sehe, spricht nichts Für die Annahme, daß Indl ein einheitliches Suffix ist, auch wenn Toman (1986) diese Annahme macht. Nicht so klar ist allerdings, ob es gerechtfertigt ist, Idl zu den Flexionssuffixen zu zählen (siehe Toman (1986) und Wunderlich (l987b) zu verschiedenen Beschreibungen der Partizipialkonstruktionen). 10 Innerhalb dieser Analyse ist es außerdem geradezu zu erwarten, daß "Schwa" als ein Flexionsmorphem mehr verschiedene Funktionen auf sich vereinigt als alle anderen Morpheme dieser Art. Das unasso9) Eine alternative Analyse ist von Dieter Wunderlich vorgeschlagen worden. Danach könnte dem wortfinalen Schwa eine leere V-Position zugrundeliegen. Um ihm seine Oberflächengestalt zu geben, ist dann nur noch der zweite Teil der Epentheseregel, also (33b) erforderlich. Diese Lösung ist in der Tat einfacher und bietet zusätzliche Evidenz für die Formulierung der Schwa-Epentheseregel als zwei unabhängige Teilregeln, aber aufgrund der zwei Argumente, die in diesem Abschnitt vorgebracht werden, möchte ich die Analyse als X-Position aufrechterhalten. 10) In der Morphologie des Englischen wird die Parallelform, das partizipbildende lingl, ebenfalls als Flexionsendung betrachtet (siehe Selkirk 1982b). Die Frage, ob das Suffix nach dem Infinitivsuffix angeordnet ist, entfällt für das Englische, da es kein solches Suffix gibt.
161
ziierte X ist eine einfachere Struktur als ein assoziiertes X. Es ist daher nicht erstaunlich, daß es als eine Art minimales Morphem des Deutschen fungiert. Ein zweites Argument für die Analyse von wort-finalem Schwa als einer X-Position kann aus dem Verhalten dieses Schwa unter Akzent gewonnen werden. Die zu Anfang dieses Kapitels und in Abschnitt I, 3.3.1 aufgestellte Behauptung, daß Schwa-Silben unbetont sind, ist nämlich insofern zu modifizieren, als auch diese Silben aus Gründen des Kontrasts oder besonderer Emphase akzentuierbar sind. (Aus den gleichen Gründen kann auch jedes normale, unmarkierte Akzentmuster verändert werden.) Wenn nun ein wort-finales Schwa akzentuiert wird, erscheint es als ein langes [e:L Das zweite Beispiel in (50) zeigt, daß Schwa nicht mit [e:] alterniert, wenn noch ein Konsonant in der Silbe folgt. (50)
a. [b6: unt intla:dan] b. [aine: ainsn]
(be- und entladen) (eine, nicht einen)
Die Bedingung des verzweigenden Silbenkerns (siehe I, (43b)) und die Analyse von wort-finalem Schwa als einer einfachen X-Position einmal vorausgesetzt, folgen diese Fakten unmittelbar. In eino erfordert die Zuweisung eines nicht-lexikalischen Akzents auf die letzte Silbe einen verzweigenden Kern mit den Positionen V und C. Aber genau diese Positionen werden einerseits durch die X-Position der Flexionsendung oder des Morphems selber (etwa in IbXl) und andererseits durch die V-Position aufgrund der Epenthese bereitgestellt. Es muß nur noch vokalisches Material mit den Positionen assoziiert werden. (Eine völlig befriedigende Erklärung für die Wahl von [e:] bzw. [ ] als Qualität der Vokale kann ich allerdings nicht anbieten. Aus der Bedingung, daß ungespannte Vokale kurz sein müssen, folgt nur, daß Schwa im Falle von eine nicht auftreten kann. Die Gründe für die Wahl der e-Laute liegen möglicherweise darin, daß die Vokalmarkierungen für [3] und die e-Laute maximal ähnlich sind. Der Übergang vom völlig unmarkierten Schwa zu [e:] bzw. [ ] ist dann der einfachste denkbare.) Das Verhältnis von Akzentregeln und Schwa-Silben ist auch Gegenstand von Abschnitt 2.5. Spätestens an diesem Punkt muß etwas zu den Präfixen be* und ge+, die ja auch Schwa enthalten, gesagt werden. Ich nehme an, daß sie zugrundeliegend als IbXl und IgXI repräsentiert sind, obwohl es dafür wenig unabhängige Evidenz gibt. Es erscheint mir aber möglich zu sein, Wörter mit diesen Präfixen morphologisch so zu konstruieren, daß die Schwa-Epenthese auf die Präfixe anwendbar ist, etwa in [[Z>e][Jto/mne;j]] oder [Igcllfallen]]. Das Problem wird in Kapitel 3 in Zusammenhang mit den klitischen Formen des Deutschen wieder aufgegriffen. Es zeigt sich nämlich, daß die Reduktion voller Formen (etwa ahd. £>/.· zu nhd. blsl) für die vorgeschlagene Repräsentation von be und ge einige Evidenz liefert. Ein anderes Argument dafür, daß die Präfixe be und ge nicht einfach ein zugrundeliegendes Schwa enthalten, ergibt sich vielleicht daraus, daß dieses Schwa niemals wegfallen kann.
162
Die Präfixe bilden ja immer eine eigene Silbe, auch wenn ein Vokal folgt. Wörter wie geahnt oder beantworten sind niemals als *[ga:nt] oder *[bantvoKtan] zu realisieren. Mit anderen Worten, über die linke Stammgrenze hinweg wird nicht silbifiziert. Die Präfixe bilden immer eine eigene Domäne für die Silbifizierung. Dabei findet dann - ganz regulär - die Schwa-Epenthese statt. Schließlich erklärt die vorgeschlagene Analyse unmittelbar, warum Schwa der einzige kurze (ungespannte) Vokal ist, der am Wortende erscheinen kann. Weil Schwa nur als Reflex auf die leere X-Position erscheint, ist gesichert, daß die Kern-Bedingung erfüllt ist, was sonst für kurze silbenfinale Vokale nicht gilt. Unter einer anderen Behandlung von Schwa müßte die Aussage, daß kurze Vokale keine Silbe beenden können, immer mit der Ausnahmeklausel versehen werden, daß dies nicht für Schwa gilt. Was die hier vorgenommene Analyse neuartig und vielleicht verdächtig macht, ist, daß ein Morphem (bzw. die Klasse der Morpheme, die als wortfinales Schwa an der Oberfläche erscheinen) nicht als eine Kette von Segmenten realisiert wird. Es ist aber kaum übertrieben, wenn man feststellt, daß es zumindest in der gesamten indoeuropäischen Sprachwissenschaft eine fest verankerte Tradition gibt, die phonetische Form eines Morphems als eine Segmentkette "auszubuchstabieren".11 Aber die Vorstellung, daß Morpheme in den verschiedensten phonologischen Repräsentationen auftreten können, hat sich durch das Studium entfernterer Sprachen seit einiger Zeit verbreitet. So ist es in Grammatiken afrikanischer Tonsprachen üblich, auf ein (grammatisches) Morphem zu verweisen, das ausschließlich aus einem Tonmerkmal besteht. Gleiches gilt, wie in 1.2.2.3 festgestellt, für das Chinesische, wo ein Ton [+ hoch] das Morphem 'Intensität' realisiert. Einschlägiger für den hier vorliegenden Fall sind McCarthys Analysen zu den semitischen Sprachen. McCarthy (1979, 198l) schlägt vor, wie in der Einleitung, 2.5 gezeigt, daß diese Sprachen Morpheme besitzen, deren phonetische Form aus Ketten von CVElementen besteht. So demonstriert er etwa, daß das Standardarabische ein Präfix mit der Form 1C VI hat. Die semitischen Sprachen besitzen damit eine nicht-verkettende Morphologie, denn ein solches Morphem muß mit Segmenten (die möglicherweise andere Morpheme realisieren) assoziiert werden, um an der Oberfläche zu erscheinen. Die Behauptung über das wortfinale Schwa in diesem Kapitel ist analoger Art. Es gibt wenigstens dieses eine Morphem im Deutschen, das zwar an der Oberfläche als ein Affix in der Form eines Segments erscheint, aber zugrundeliegend eine (ein-elementige) Kette von X-Elementen aufweist. Die konsequente Verfolgung einer Epenthese-Analyse von Schwa hat zu diesem Schritt gedrängt, der aber von einer globaleren Perspektive her nicht völlig unplausibel erscheint. Bestätigung dafür in Form anderer solcher Morpheme wäre sicher wünschenswert. Typologisch interessant ist auch, daß Deutsch nach gängiger Auffassung zu den Sprachen mit 11) Die Alphabetschriften für diese Sprachen verstärken vielleicht diese Denkweise.
163
teilweise verkettender Morphologie gehört.12 Die hier vorgenommene Analyse von Schwa schränkt die Klassifizierung ein, denn in bezug auf das wortfinale Schwa zeigt Deutsch, wenn auch in minimaler Weise, die Eigenschaften einer nicht-verkettenden Morphologie. Vielleicht gilt aber auch für die typologische Einordnung von verkettender vs. nicht-verkettender Morphologie, daß damit weniger Sprachen oder Sprachgruppen klassifiziert werden als vielmehr Typen von morphologischen Prozessen (siehe Anderson (l985b) zu diesem Punkt). Das naheliegendste mir bekannte Beispiel für eine ähnliche Erscheinung ist das wortfinale 7 im Englischen. Eine Reihe von Autoren von Chomsky & Halle (1968) bis zu Kiparsky (1982) haben gezeigt, daß y in den Endungen +ory und +ary (hortatory, binary ) und in Wörtern wie galaxy und industry vermutlich auf einen zugrundeliegenden Konsonanten zurückgeht. Die Evidenz dafür liegt im Verhalten der entsprechenden Wörter bezüglich der Wortakzentregeln des Englischen. Man beachte, daß alle oben zitierten Wörter Anfangsakzent besitzen. Dies ist in bezug auf vergleichbare Wörter eine Irregularität, die dadurch erklärt werden kann, daß erstens der finale Vokal [i] auf einen Konsonanten zurückgeht und daß zweitens eine Regel der Art /y/ -» [i]/ l Wort exist i e rt. Eine Beschreibung in der CVPhonologie könnte die Regel vermutlich noch vereinfachen, da dann nur eine Formulierung wie in (5l) nötig wäre. Regel (5l) ist ausnahmslos anzuwenden, das exzeptionelle Verhalten dieser Wörter liegt in der markierten Struktur C Bei Wörtern wie happy oder city besteht keine Notwendigkeit, solch einen zugrundeliegenden Gleitlaut anzusetzen. Die Parallele zum wortfinalen Schwa besteht darin, daß auch im Falle des englischen y ein zugrundeliegender Konsonant als Vokal an der Oberfläche erscheint. (51) C - » V /
3 Woft
Eine Tilgungsanalyse für das wort-finale Schwa wie die von Strauss (1982), Lodge (1985) und anderen scheint auf den ersten Blick durch einige historische Fakten unterstützt zu werden. Es ist im Großen und Ganzen so, daß Schwa in der Sprachgeschichte des Neuhochdeutschen in vielen Kontexten zunehmend verschwindet. So weisen etwa viele Dialekte und Umgangssprachen das wort-finale Schwa nicht mehr auf, obwohl es im Standarddeutschen obligatorisch ist: habe > hab, Katze > Katz, Städte > Stadt, etc. Aber eine diachronische Tendenz zum Verschwinden von Schwa bedeutet nicht notwendigerweise die Existenz einer synchronischen Tilgungsregel. Es ist ebenso plausibel, anzunehmen, daß in der Synchronie 12) Natürlich gibt es im Deutschen auch sonst nicht-verkettende morphologische Prozesse, etwa Umlaut. Ablaut und die oben dargestellten Konversionsregeln A -* N und V -* N. Das besondere am wortfinalen Schwa ist. daß es als verkettendes Affix auftritt, aber nur den Reflex einer abstrakteren phonologischen Kategorie darstellt.
164
die entsprechenden Morpheme (bestehend aus einer X-Position, wenn die Analyse in diesem Abschnitt richtig ist, sonst aus Schwa oder irgendeinem Vokal) in einer abnehmenden Zahl von Kontexten und Wörtern affigiert werden und daß ein leeres X nur optional die Schwa-Epenthese auslöst. So können wir etwa annehmen, daß ältere Stadien des Neuhochdeutschen und das heutige Standarddeutsch eine morphologische Regel wie (52) besitzen. Sie versorgt (zusammen mit der Schwa-Epentheseregel (33)) Verben der 1. PS. Sg. mit dem finalen Schwa. Einige Dialekte, wie Österreichisch, besitzen diese Regel dagegen nicht. (52)
Affigiere X im Kontext [ Verb _
] [+
präsenSi + lp SgJ
Vom wort-fmalen Schwa in Wörtern wie Stunde, Mode, böse nimmt Strauss sein Hauptargument dafür, die Schwa-Distribution mittels Tilgungsregeln zu beschreiben. Wir können, nach Strauss (1982: 3.2.2), zwar voraussagen, wann Schwa getilgt wird, nicht aber, in welchen Wörtern Schwa zugegen ist. Daher nimmt er ein zugrundeliegendes Schwa (bzw. ein /e/) an, das durch eine Tilgungsregel entfernt wird. Die Anwendungsbedingung für die Tilgungsregel ist, daß ein Segment im gleichen Wort folgt. Dadurch ergibt sich stündlich aus Stunde, Bosheit aus böse, modisch aus Mode. Man beachte, daß für Strauss die Flexionsendungen ebenfalls ein zugrundeliegendes Schwa enthalten; böser wird aus böse+er abgeleitet. Die Tilgung des wort-fmalen Schwa ist jedoch nicht so vorhersagbar wie Strauss annimmt. So sollte das Kompositum böswillig nach Strauss' Modell *bösewillig sein. Es scheint, daß es eine teilweise arbiträre Klasse von Wörtern gibt, die nach Regeln ähnlich wie die in (52) ein wort-finales Schwa affigieren, um aus Stämmen Wörter (Nomen und Adjektive) zu bilden. Bei den Verben liegen die Verhältnisse etwas anders. In der Verbflexion ist -e Teil eines Paradigmas: (ich) leb+e, (du) leb+st, (er) leb+t, etc., deren mögliche Suffixe in (49) aufgezählt werden. Zumindest für die Dialekte, die (ich) laufe lauf, (ich) glaube - glaub kennen, ist anzunehmen, daß die Schwa-Epenthese im Kontext 'Verb! X] [+ Präsens, + IP. Sg.]'> a ^ so nach Anwendung von Regel (52), optional ist. Wenn die Schwa-Epenthese nicht angewandt wird, bleibt die leere Position phonetisch unrealisiert (siehe zu parallelen Fällen auch Abschnitt 3.2). 2.4. Zusammenfassung Wir sind jetzt in der Lage, die Ergebnisse zu den drei Schwa-Epentheseregeln zusammenfassen. Es gibt nur eine solche Regel, wie in (33) formuliert, aber sie besetzt mehrere Plätze in der Lexikalischen Phonologic des Deutschen. Genauer gesagt, erscheint sie auf allen lexikalischen Ebenen, wie in (38) illustriert. Die Untersuchung der verschiedenen Untergruppen im vorangehenden Abschnitt hat ergeben, daß wir spezifizieren können, unter welchen Umständen Schwa-Epenthese in jedem der Fälle anzuwenden ist. Nur die auf Liquid endenden Verbstämme
165
lösen Schwa-Epenthese auf der Ebene l aus; Nomen und auf Nasal endende Adjektive unterliegen der Epenthese vor der Flexion, also auf Ebene 2; und für Adjektive und auf Nasal endende Verben erfolgt die Epenthese nach der Flexion auf Ebene 3. Man beachte, daß die Regelanwendung kategoriale Information (Verb, Nomen, etc.) benötigt. Damit liefert die Schwa-Epenthese ein (weiteres) Argument gegen die Wortgrenzen-Theorie aus SPE, wo postuliert wurde, daß Wortgrenzen-Symbole hinreichend sind, um die Eingabestrukturen für phonologische Regeln zu spezifizieren. In diesem Modell sind dann Wörter wie Dunkels und dunkles nicht zu unterscheiden, da die Repräsentation, auf die die phonologischen Regeln zugreifen, in beiden Fällen ««dunkles»» (oder etwas Vergleichbares) ist. Unter den Suffixen zeigt IKI die Besonderheit, daß es die Schwa-Epenthese obligatorisch auslöst. Daher erhalten wir Seh+er, nicht *Seh+r (trotz sehr), roh* er und nicht *roh+r, obwohl auch Rohr existiert.13 Wie diese Beispiele zeigen, scheint es irrelevant zu sein, welches der Morpheme mit der Gestalt /K/ vorliegt. Schwa-Epenthese greift in jedem Fall, unabhängig vom Suffix und von der Form des Stamms. Da das Komparativsuffix zur Ebene 3 gehört (reguläre Flexion) und das Nominalisierungssuffix zur Ebene 2, können wir annehmen, daß die Bedingung "IKI als Suffix macht Schwa-Epenthese obligatorisch" für beide Ebenen gilt. Die auf den lexikalischen Ebenen geltenden Kontexte Für die Schwa-Epenthese sind in (53) der Übersichtlichkeit halber noch einmal zusammengefaßt. (Die eckigen Klammern haben hier zwei verschiedene, aber eindeutige Bedeutungen.) (53)
Ebene 1 2 3
Wortstrukturen Verb [ - Cli quid]] Noment i • Adji ... [nasal]], IKI Verb[ ··· [ n Adj[ ]· IKI
2.5. Schwa und die Akzentverhältnisse des Deutschen Auf den bisher erarbeiteten Grundlagen können wir zunächst die Akzentuierungsmöglichkeiten Für Silben mit Schwa als Vokal weiter klären. Mehrmals wurde festgehalten, daß Schwa nicht akzentuiert ist. Es ist also als erstes zu fragen, wie das vorgelegte Modell diese Tatsache erklärt. Zweitens gibt es aber auch die in (49) dargestellte exzeptionelle Akzentuierung von Schwa-Silben. Auch diese Möglichkeit muß also im Modell vorgesehen sein. In (39) wurde die Wortakzentregel als eine phonologische Regel der Ebene l aufgefaßt. Die Begründung daFür liegt im Verhalten des Wortakzents zu den Affixen der Klasse I vs. Klasse II. Wie Giegerich (1985) demonstriert, operiert der Wortakzent vor der Affigierung der Klasse II, aber nach der Affigierung der Klas13) Phonetisch sehe ich den Unterschied als [Ko:K] Rohr vs. [ Silbigkeit des r-Lauts.
] roher, also nur in der
166
se I. Der Wortakzent kann niemals auf Affixen der Klasse II liegen, sehr wohl dagegen auf solchen der Klasse I. Letztere müssen also präsent sein, wenn der Wortakzent zugewiesen wird. (39) trägt dieser Tatsache Rechnung. Die Stellung der Wortakzentregel im Vergleich zur Schwa-Epenthese beantwortet also eine der zu Beginn angesprochenen Fragen in bezug auf die speziellen Eigenschaften von Schwa. Da Schwa zum Zeitpunkt der Anwendung der Wortakzentregel in keinem Fall vorhanden ist, kann Schwa auch nicht akzentuiert sein. Schwa ist in diesem sehr realen Sinne unbetont. Es muß dafür weder mit einem speziellen Merkmal, etwa [- betont], versehen noch durch eine Regel deakzentuiert werden. (Ein technisches Problem besteht allerdings darin, daß sichergestellt werden muß, daß die Akzentregeln vor der Schwa-Epenthese auf Ebene l operieren müssen.) Da die Unakzentuiertheit von Schwa-Silben sehr direkt aus dem in (39) dargestellten Modell der Lexikalischen Phonologic des Deutschen folgt, ist es auch nicht erforderlich, Schwa-Silben eine besondere Silbenstruktur zuzuweisen. In I, 3.3 wurde behauptet, daß tatsächlich alle Silben des Deutschen einen komplexen Kern besitzen. Andererseits gibt es eine Art von exzeptioneller Schwa-Betonung, die bereits in (50) dargestellt wurde. In (54) werden weitere Beispiele angegeben. Es zeigt sich hier, daß aus Gründen der Emphase, der Fokussierung auf die sprachliche Form selbst und zur Vermeidung von Mißverständnissen jedes sprachliche Element akzentuiert werden kann. Phonetisch wird ein solcher Akzent wohl als Hervorhebung einer Silbe, nicht aber eines einzelnen Segments erscheinen. (54)
eine, nicht einen be- und 6ntladen Heißt es "dem Mann" oder "dem Ich sagte "leben", nicht "lebten".
"?
Wie bereits in 2.3.3 beobachtet, wird ein akzentuiertes Schwa als langes Ce.·] realisiert, wenn es am Silbenende steht, sonst, d.h. in geschlossenen Silben, als [ ]. Das hier zu behandelnde Problem ist jedoch, wie ein akzentuiertes Schwa im Rahmen des aufgestellten Modells möglich ist. Da der Wortakzent prinzipiell diesen Silben keinen Akzent zuweisen kann, ist zu fragen, woher der Akzent kommt. Der Ansatz zu einer Lösung für diese Frage liegt in der Beobachtung, daß die in (54) illustrierten Akzente nicht mit lexikalischen Eigenschaften der Wörter in Verbindung stehen. Die Silben sind akzentuiert, weil "übergeordnete" Gesichtspunkte, die sich aus der Semantik oder Pragmatik des Satzes herleiten, den Akzent verlangen. Es ist also die Schlußfolgerung möglich, daß der exzeptionelle Schwa-Akzent nicht-lexikalisch ist. Das Lexikonmodell wird durch die Möglichkeit, Schwa in markierten Fällen zu akzentuieren, nicht in Frage gestellt. Es ist vielmehr so, daß der durch Fokusmerkmale vergebene Satzakzent die vom Lexikon bereitgestellten Wortakzente überschreiben kann.
167
Es würde den Rahmen dieser Arbeit sprengen, wenn hier eine Theorie des Satzakzents entwickelt würde. Ich gehe davon aus, daß Satzakzente sich vor allem durch die Zuweisung von Fokusmerkmalen an Konstituenten eines Satzes ergeben (siehe zu derartigen Konzeptionen Culicover & Rochemont (1983), Selkirk (l984b), von Stechow & Uhmann (1985) und Wunderlich (1988)). Unabhängig von den Einzelheiten einer solchen Theorie gilt jedenfalls, daß Satzakzente neben den Wortakzenten existieren. Daher erweitert es die Theorie nicht, wenn wir annehmen, daß akzentuiertes Schwa in jedem Fall auf die Wirkung eines vom Fokus herrührenden Satzakzentes zurückzuführen ist. Wenn eine Schwa-Silbe fokussiert wird, greift der Fokus in die Wortstruktur hinein, was im Normalfall nicht geschieht. (Ein Satzakzent wird auf derjenigen Silbe eines Wortes realisiert, die den Wortakzent erhalten hat.) Dies macht das Besondere, die Markiertheit der Sätze in (54) aus. Das in (38) und (39) skizzierte Lexikon des Deutschen ist natürlich nur eine (wenn auch bedeutende) Komponente einer Grammatik dieser Sprache. Im Zusammenhang mit dem nicht-lexikalischen Akzent stellt sich die Frage nach der Einbettung des Lexikons in die übrigen Komponenten. Das in diesem Kapitel entwickelte Lexikon ist offenbar von nicht-lexikalischer Information unabhängig; es ist in diesem Sinne autonom. Andererseits muß sichergestellt sein, daß auch nicht-lexikalische (d.h. syntaktische und satzphonologische) Information in der Äußerung repräsentiert werden kann. In (55) wird ein entsprechendes Modell der Grammatik vorgestellt. Es illustriert erstens, wie die im Lexikon erstellten Wortstrukturen mit den syntaktischen Strukturen zusammengebracht werden. Zweitens zeigt es, daß sowohl die semantische als auch die phonetische Interpretation von diesen durch Lexikoneinträge angereicherten Satzstrukturen ausgeht. Daß es neben der lexikalischen auch eine postlexikalische Phonologic gibt, ist Gegenstand des folgenden Abschnitts und des darauf folgenden Kapitels 3. Festzuhalten ist, daß ein akzentuiertes Schwa durch ein Zusammenwirken verschiedener, unabhängig motivierter Prinzipien zu erklären ist. Erstens gilt, daß Schwa-Silben im Lexikon nicht betont werden können. Zweitens kann ein Fokus auch an Schwa-Silben vergeben werden, wie in den Beispielen in (54) geschehen. Dieser Fokus "entsteht" in der syntaktischen Komponente von (55) und findet seinen phonetischen Niederschlag in der postlexikalischen Phonologie. Die akzentuierten Silben sind in den aufgeführten Beispielen auch semantisch gesehen fokussiert. (55) läßt auch dies zu, da die semantische Interpretation ansetzt, wenn die Fokusmerkmale und auch die Wörter präsent sind.
168
(55)
LEXIKON Morphologie Phonologie
SYNTAX
Lexikalische Einsetzung
Semantische Interpretation
Postlexikalische Phonologie
Phonetische Realisierung
Diese Analyse zeigt den Wert einer genauen Unterscheidung zwischen lexikalischen und postlexikalischen Prozessen, die im folgenden eine große Rolle spielen wird. Wenn angenommen würde, daß Akzentzuweisung ein einheitlicher Prozeß wäre, blieben die akzentuierten Schwa-Silben nicht erklärbare Ausnahmen von der durchaus sinnvollen Behauptung, daß Schwa-Silben nicht akzentuiert sind. 2.6. Postlexikalische Schwa-Tilgung Wie in Abschnitt l festgestellt, gibt es in vielen Fällen zwei alternative Aussprachen für die hier untersuchten Wörter. Schwa ist bei folgendem Sonorant optional und steht in freier Variation (abgesehen von dialektalen und stilistischen Beschränkungen) zu einer Aussprache mit einem silbischen Sonorant. (56) gibt weitere Beispiele dafür. Mit Höhle & Vater (1978: 170) nehme ich an, daß die Varianten mit silbischem Konsonanten nicht als Allegro-Formen zu betrachten sind. AllegroFormen wären Cza-. ] oder [ : ] für sagen bzw. wegen, nicht aber [za:gn] bzw. [ve:gnL Die im folgenden entwickelte Lösung hat gegenüber der von Höhle & Vater vorgeschlagenen den Vorteil, daß sie zur Ableitung der silbischen Konsonanten auf globale Ableitungsbeschränkungen verzichten kann. Da ein silbischer Sonorant genau dann möglich ist, wenn auch die Aussprache mit Schwa existiert, ist es gerechtfertigt, die beiden Varianten durch eine Regel wie (57) aufeinander zu beziehen. Die Regel erlaubt, daß ein Sonorant mit der vorangehenden V-Position assoziiert wird, wenn der Silbenkern lexikalisch mit Schwa
169
gefüllt war. Nach einer allgemein gültigen Konvention wird die vorher bestehende Assoziation (mit Schwa) gelöscht, wenn eine solche Reassoziation erfolgt. 14
(56)
a. [ze:g3l]/[ze:gl], CtKoksnVCtKokn], [a:t3ms]/[a:tms] b. ?[baU3K]/[baUK], ?[toY3K]/[toYK], ?[ze:3K]/[ze:K] 1
1
1
(57) V
1
C
1
a [+ son.]
-$>
V
C
[+ son.]
Es besteht hier wohl ein Unterschied zwischen einem finalen /K/ und den anderen Sonoranten, insofern als /K/ obligatorisch ein Silbenkern wird (d.h. die V-Position einnimmt). Die jeweils ersten Varianten in (56b) sind phonetisch problematisch. Dies gilt jedenfalls für norddeutsche Varianten des Standard- und Umgangsdeutschen, für die dies gilt, wenn man sich nicht in einem hyperkorrekten Sprechmodus wie etwa Diktieren befindet. Daß der /K/-Laut obligatorisch silbisch wird, wird auch von Vennemann (1982: 266f.) angenommen. Im Gegensatz zu Vennemanns Beschreibung ermöglicht die hier vertretene Theorie auch eine prinzipielle Erklärung für die Position des silbischen Segments in lockren dokKn] vs. lockern [lokKnL Die Orthographie zeigt die unterschiedlichen Positionen von Schwa in den beiden Wörtern, die, wie Vennemann beobachtet, ausschließlich in der Position des silbischen Segments differieren können. Die Anwendung von Regel (57) auf die lexikalisch generierten Formen /lokK+n/ (Adjektiv) und /lokaK+n/ (Verb) ergibt den Kontrast auf der phonetischen Oberfläche. Daß die silbischen Konsonanten an das Vorkommen von Schwa gebunden sind, zeigen auch die folgenden Phänomene: Für die Pluralform Herren sind ChsKan], [ ] und [hsKnl möglich, für die Singularform Herrn oder für monomorphemisches Kern dagegen nur [ ] bzw. [keKnL Ein silbischer Konsonant ist also nur dann möglich, wenn - durch die Schwa-Epenthese bedingt - auch [3] erscheinen kann. Analoges gilt für eine Reihe von Verbformen; siehe auch Höhle & Vater (1978: 177): "Immer (und nur) wenn das [3] vor dem Sonanten ausfällt, kann er silbisch werden." Wenn hier die Regel (57) postuliert wird, macht das die Behauptung, daß Schwa im Deutschen im Grunde ein Epenthese-Phänomen ist, nicht ungültig. Es kann gezeigt werden, daß die Schwa-Tilgung (wenn man es so nennen will, siehe aber auch die Fußnote!) in (57) ein von der Schwa-Epenthese gänzlich verschiedenes 14) Zu prüfen ist die auch von Giegerich (1987) vertretene Alternative, daß der zweite Teil der Epentheseregel, also die Zuweisung von Schwa an die leere V-Position. erst postlexikalisch wirksam wird. Dann ständen diese Regel und die Regel (57) (etwas umformuliert) als Alternativen nebeneinander. Ich habe diese neue Version hier nicht gewählt, da sie voraussetzt, daß als Ergebnis der lexikalischen Phonologie leere Segmentpositionen erscheinen.
170
Phänomen ist. Kurz gesagt, ist die Schwa-Tilgung im Gegensatz zur lexikalischen Epenthese eine postlexikalische Regel. Man beachte zunächst, daß Regel (57) keinerlei Bezug auf morphologische Information nehmen muß. Sie ist nicht nur unabhängig von Morphemklassen oder Wortgrenzen, es gibt offenbar auch keine lexikalischen Ausnahmen. Anstelle solcher Faktoren wirken stilistische und soziolinguistische Bedingungen. Außerdem hat die Regel, wie andere postlexikalische Regeln, im Bewußtsein der Sprecher des Deutschen einen sehr niedrigen Status. Die Orthographie reflektiert diese Tatsache ebenfalls: Während die Präsenz von Schwa immer durch das Graphem markiert wird, wird seine Tilgung niemals angezeigt. Wegen des in (56) dargestellten Unterschieds zwischen /K/ und den übrigen Sonoranten ist (57) obligatorisch für /K/ und sonst optional. Damit hat die Sonorantenvokalisierungsregel alle Eigenschaften, die als Diagnostikum für postlexikalische Regeln gelten: Sie ist optional, von Sprechregistern und Tempo abhängig, von der Wortbildung unabhängig, wird nicht in der Schrift kodiert und ist weitgehend unbewußt und automatisiert. Es gibt natürlich andere postlexikalische Regeln neben Regel (57), die z.T. auch mit dieser interagieren. Zu diesen Regeln gehört z.B. die Nasalassimilation, die Nasale an den vorangehenden Konsonanten hinsichtlich der Artikulationsstelle anpaßt. 15 Diese Regel muß der Sonorantenvokalisierung (57) folgen, wie die folgende Ableitung von wegen zeigt, denn eine Nasalassimilation über Schwa hinweg ist unmöglich: *[ve:gai)]. (58)
lve:gnl Eve:gan] [ve.-gn] [ve:grj]
Schwa-Epenthese (33) Silbischer Sonorant (56) Nasalassimilation
Postlexikalische Regeln dieser Art sind besonders im Rahmen der "Natürlichen Phonologic" studiert worden (siehe zu Schwa-Einfügungs- und Tilgungsregeln etwa Wodak-Leodolter & Dressler (1978) und Dressler & Wodak (1982)). Eine weitere postlexikalische Regel, die mit der Schwa-Epenthese (!) und der Regel (57) interagieren kann, wird in Kapitel 3.2 vorgestellt. An diesem Punkt ist es sinnvoll, festzuhalten, daß das anhand der Schwa-Epenthese entwickelte Modell des Lexikons drei wesentliche Repräsentationsebenen enthält. Die Morpheme sind in zugrundeliegenden Merkmalsmatrizen repräsentiert (und zwar weitgehend oder völlig redundanzfrei, siehe Kiparsky 1985). Die nach dem Durchlaufen des Lexikons entstandenen Wörter existieren als lexikalische Repräsentationen, und nach dem Durchlaufen der übrigen, postlexikalischen, Pro15) Eine andere, davon zu unterscheidende Nasalassimilation paßt die Nasale an den folgenden Konsonanten an. wie in Unglück Cunglykl Siehe zu den Assimilationsregeln besonders Lenerz (1985).
171
zesse entstehen phonetische Repräsentationen. In (59) werden diese drei prinzipiellen Repräsentationen (im Gegensatz zu den zwei des SPE-Modells!) zusammenfassend dargestellt (nach Mohanan 1986: ll). (59)
• · · · zugrundeliegende ^iIgl
MUKrncMc LEXIKON
[Morphologie l| [Morphologie II|
Repr.
0 0
Phonologische
[Morphologie IIl|
Regeln ^
WORTER
lexikalische Repr.
Postlexikalische Phonologie
REDE
phonetische Repr. (C D
Die Neuartigkeit gegenüber anderen Theorien der Phonologie läßt sich jetzt so verdeutlichen: Der klassische Strukturalismus (besonders amerikanischer Prägung) unterschied nicht zwischen zugrundeliegenden und den hier lexikalisch genannten Repräsentationsebenen, sondern sah nur eine phonemische und eine allophonische Ebene.16 Die generative Phonologie des SPE-Typs kennt dagegen keine distinkte Ebene des Ausgangs aus dem Lexikon, sondern nur eine Ableitung aus der zugrundeliegenden Repräsentation in phonetische Formen über viele Zwischenschritte. Es ist wissenschaftsgeschichtlich interessant, daß die Lexikalische Phonologie die Intuitionen, die hinter dem klassischen Phonembegriff stehen, durch die Einführung der lexikalischen Repräsentationsebene wieder zu ihrem Recht kommen läßt (siehe Mohanan (1986) für eine ausführliche Diskussion).
16) Erstere hat eine nahe Verwandtschart zu der lexikalischen Repräsentation, letztere zu der phonetischen.
172
2.7. Beobachtungen zur lexikalischen Variation In einer beachtlichen Zahl von Beispielen gibt es eine andere Art der Variation im Auftreten von Schwa im Wort. In (60) werden Beispiele dafür angegeben. (Eine andere Klasse von Wörtern vernachlässige ich hier, nämlich die der Form Tags vs. Tages, Manns vs. Mannes.) In diesen Beispielen existiert ebenfalls dialektale Variation. Die generelle Tendenz scheint dabei zu sein, daß im Süddeutschen Konsonantencluster bevorzugt werden, während im Norddeutschen und dem Standarddeutschen eher Schwa auftritt. (60)
a. andere bessere offenes heitere segele
b. andre bessre offnes heitre segle
Wenn die hier vorgenommene Schwa-Analyse gültig ist, gibt es nur einen akzeptablen Weg zur Behandlung dieser Fälle. Wir werden sagen müssen, daß in manchen Wörtern Schwa-Epenthese nicht stattfindet, obwohl die Bedingungen für ihre Anwendung erfüllt sind. Andere denkbare Auswege, wie etwa eine nachträgliche Tilgung oder eine morphophonemische Alternanz in Form zweier alternativer Lexikoneinträge sind demgegenüber weniger attraktiv, da sie neue, bisher nicht benötigte Mechanismen in das Regelsystem einführen und den theoretischen Rahmen beträchtlich erweitern. Man erinnere sich, daß bisher alle Formen von Schwa als Ergebnis einer Epentheseregel analysiert wurden. Da aber Schwa-Epenthese im Lexikon stattfindet, sollte es nicht überraschend sein, daß es auch Ausnahmen für die Regel geben kann. Lexikalische Einträge können so markiert sein, daß sie einer lexikalischen Regel nicht unterliegen. 17 Von postlexikalischen Regeln wird dagegen angenommen, daß sie entweder automatisch und ausnahmslos angewendet werden, wenn die Bedingungen ihrer Anwendung erfüllt sind. Dies gilt z.B. für die Auslautverhärtungsregel (formuliert in I, (59)). Die andere Gruppe der postlexikalischen Regeln läßt stilistische oder soziolinguistisch bedingte Variation zu oder ist schlicht optional. Die Regel für die silbischen Sonoranten (57) scheint von diesem Typ zu sein. In beiden Regeltypen gibt es aber keine lexikalisch bestimmten Ausnahmen. Eine nähere Betrachtung der Beispiele in (60) zeigt einige Regularitäten. In allen Fällen bilden die Wörter ohne Schwa wohlgeformte Silben. Wenn die SchwaEpenthese stattfindet, schafft sie eine zusätzliche Silbe, die zwar auf ihrer Ableitungsebene erforderlich ist, nicht aber für das Wort in seiner letztlichen Form. 17) Wie in 2.3.2 ausgeführt, gibt es die Möglichkeit der Markierung von Ausnahmen besonders auf den ersten Ebenen des Lexikons. Die Daten in (60) bestätigen das; denn alle Beispiele von Variation beziehen sich auf Schwa-Epenthese auf den Ebenen l und 2.
173
Mit anderen Worten, landKl kann zwar nicht ohne weiteres silbifiziert werden, /andK+3/ aber sehr wohl. Wenn wir die Komplexität der jeweiligen Varianten in (60) abwägen, ergibt sich für (60a), daß die Wörter eine zusätzliche Silbe enthalten, während es in (60b) Konsonantencluster gibt, die zu der Komplexität der phonologischen Repräsentationen beitragen. Daß die Segmentkomplexität in der Silbe tatsächlich eine Rolle spielt, zeigen solche Paare wie Segler vs. Förderer. Das erste besitzt einen stammfinalen Konsonanten weniger als das zweite: Izergll vs. IfoeKdKI. Aber auch hier gilt, daß ein Cluster von drei Konsonanten Schwa-Epenthese nicht obligatorisch macht. Gerade das illustriert das Paar andre - andere. In diesen Fällen mögen die Worthäufigkeit und die Tatsache, daß der Stamm auf /K/ endet, eine Rolle spielen. Offensichtlich führen verschiedene Sprechmodi zu unterschiedlichen Bewertungen dieser Komplexitäten: Die schriftsprachlichen Versionen des Standarddeutschen bevorzugen die dreisilbigen vor den zweisilbigen Versionen; die gesprochene Sprache wie auch die Versdichtung mit ihrer Vorliebe für zweisilbige Versfüße präferieren deutlich die zweisilbigen Wörter. Dies ergibt sich aus dem Status zweisilbiger Füße. Ein solcher Fuß, dargestellt in (45), ist im Vergleich zu anderen Füßen (mehr- oder einsilbigen) unmarkiert. Dieses Muster ist in verschiedenen Typen der Versdichtung konventionalisiert worden. Es ist daher nicht überraschend, daß die poetische Sprache, trotz ihrer Verwendung eines hohen Sprachregisters und des geschriebenen Sprachmodus, sich in dieser Hinsicht von anderen, prosa-ähnlichen, Varianten des geschriebenen Deutsch unterscheidet. 2.8. Schlußbemerkungen Das Schwa im Deutschen, besonders im modernen Standarddeutschen, ist, unter jeglicher Analyse, ein komplexes Phänomen. Es ist auch nicht Aufgabe der linguistischen Analyse, diese Komplexitäten hinwegzudiskutieren. Aber es ist sehr wohl eine Analyse vorzuziehen, die so weit wie möglich universale und sprachspezifische Prinzipien des Lautsystems heranzieht. Ich hoffe gezeigt zu haben, daß eine konzeptuell durchaus einfache Epentheseregel, nämlich (33), für die Beschreibung der Schwa-Distribution hinreichend ist, wenn man andere Regeln, Beschränkungen und Prinzipien, die für das Deutsche aus ganz unabhängigen Gründen postuliert werden können, heranzieht. So ist etwa das in (38)/(39) dargestellte Modell des Lexikons zunächst nicht durch die Schwa-Fakten begründet, sondern in erster Linie durch Regularitäten in der Morphologie. Giegerich (1987) sieht im Kontrast zu der hier vorgeschlagenen Behandlung zwei Epenthese-Regeln für Schwa. Ein "prosodisches Schwa" wird stammintern vor Sonoranten eingefügt; ein "Flexions-Schwa" erscheint in Flexionsendungen. Nur das letztgenannte folgt morphologischen Bedingungen. Die Unterschiede zwischen den beiden Vorschlägen ergeben sich erstens aus unterschiedlichen Annahmen über die Silbifizierung und die Silbenstruktur. Während Giegerich ein s/w-Modell der Silbe
174
voraussetzt und annimmt, daß auch Stämme silbifizierbar sein müssen, wurde hier - in Teil I - eine andere Konzeption entwickelt. Zweitens ordnet Giegerich die gesamte Flexion (und das Flexions-Schwa) der Ebene 3 des Lexikons zu. Die morphologische Evidenz spricht demgegenüber nach den obigen Überlegungen eher für die Zuordnung eines Teils der Flexion zur Ebene 1. Ein Einwand von Giegerich gegen die hier vorgenommene Schwa-Analyse (bzw. gegen ihren Vorläufer in Wiese (1986)) besteht darin, daß die Schwa-Epenthese nur scheinbar in einer einzigen einfachen Regel beschrieben wird. Durch die zahlreichen morphologischen und phonologischen Bedingungen (obligatorisch für AdjektivEndungen, stammintern bei Nomen, etc.) werden daraus in Wirklichkeit mehrere Regeln. Wenn aber die - phonologisch identische - Regel in verschiedenen, durch die Wortbildung festgelegten Klassen Anwendung findet, scheint es mir adäquater zu sein, das Lexikon so zu konstruieren, daß es diese Information enthalten kann, als eine Reihe weitgehend identischer Regeln zu formulieren. In beiden Analyse-Ansätzen zeigt sich, daß die adäquate Behandlung der SchwaDistribution vor allem ein entwickeltes Lexikonmodell nach Art der Lexikalischen Phonologie erfordert. Weitere Forschung in diesem Bereich ist sicherlich nötig und wird zeigen, ob die spezifischen Vorschläge dieses Kapitels haltbar sind. Darüberhinaus demonstriert Schwa im Deutschen, daß die in der Lexikalischen Phonologie konstruierte Interaktion phonologischer und morphologischer Regeln weiter gehen kann als im allgemeinen angenommen. In markierten Fällen kann eine Regel den ganzen Bereich der Ebenen im Lexikon als Domäne besitzen. In bezug auf die Weiterentwicklung der Theorie der Lexikalischen Phonologie ist das Hauptergebnis dieses Kapitels, daß solche Ausbreitungen von Regeln über mehrere Ebenen möglich sind, wie es bereits von Mohanan (1986) vertreten wurde. Schwa im Deutschen scheint andernfalls schwer beschreibbar zu sein. Einige Bemerkungen zum Vokal Schwa in benachbarten Sprachen sind hier ebenfalls angemessen. Es wäre vermutlich ganz unangebracht, aus den Ergebnissen dieses Kapitels zu schließen, daß Schwa in verwandten Sprachen, etwa dem Niederländischen oder dem Englischen, ebenso oder ähnlich zu analysieren ist. Ganz im Gegenteil scheint es so zu sein, daß ein auf der Oberfläche vergleichbares Segment, nämlich Schwa, das Ergebnis gänzlich verschiedener Prozesse sein kann. Schwa im Englischen folgt z.B. ganz anderen Beschränkungen als Schwa im Deutschen und ist vermutlich das Ergebnis einer Deakzentuierungsregel (siehe etwa SPE oder Selkirk 1984b). Die Deakzentuierung ist dafür verantwortlich, daß sich in Wörtern wie about oder America ein initiales Schwa findet. Andererseits gibt es keinen Grund, in Wörtern wie little Qitl] oder sudden [sAdn] ein zugrundeliegendes Schwa zu postulieren. In einer dritten Gruppe von englischen Wörtern, nämlich in theater - theatric, meter - metric, hunger - hungry wird man dagegen wohl eine Schwa-Epenthese annehmen. Yip (1987) argumentiert außerdem, daß auch /i/ in Suffixen wie -ic, -id und -ish durch eine Epenthese-Regel (auf Ebene l des Lexi-
175
kons) zu beschreiben ist. Der Unterschied zwischen dem Deutschen und dem Englischen liegt aber auch in der Qualität des epenthetischen Vokals. Tatsächlich scheint für das Englisch /i/ der Default-Vokal zu sein, während es für das Deutsche (in betonten Silben) /e/ ist. Man vergleiche etwa die Buchstabennamen B, C, D, die deutsch als [be:, tse:, de:], englisch aber als Q>i:, si:, di:] ausgesprochen werden. Es ist denkbar, daß die historischen Vokalreduktionsprozesse, die den germanischen Sprachen gemeinsam sind, synchron auf verschiedene Weise reanalysiert wurden, wobei Eigenschaften der Einzelsprachen und universale Möglichkeiten zusammenwirkten. Die Variation im Bereich der reduzierten Vokale ist von daher nicht überraschend. Darüberhinaus läßt sich konstatieren, daß der Prozeß der Reanalyse in der Gegenwart weitergeht, wenigstens innerhalb der Dialekte des Deutschen. Hier liegt sicherlich eines der potentiell aufschlußreichsten Forschungsgebiete für die Soziolinguistik und eine gegenwartsbezogene historische Linguistik des Deutschen. Das Problem der Epenthese ist in einem ähnlichen Zusammenhang von Piggott & Singh (1985) analysiert worden. Die Autoren postulieren: "The occurrence of epenthetic vowels and consonants can be attributed to certain properties of syllable structure and some universal principles of syllabification interacting with (phonotactic) constraints, some of which are universal, others language-specific." (Piggott & Singh 1985: 415). Die hier vorgenommene Analyse ist generell gesehen mit der Position von Piggott & Singh vereinbar; im Einzelnen gibt es aber auch Unterschiede. Erstens gehen Piggott & Singh so weit, daß sie Epentheseregeln für gänzlich überflüssig halten. Dagegen spricht, daß das epenthetische Schwa im Deutschen an genau einer, durch den Regelkontext festgelegten Stelle erscheint, nämlich vor der letzten segmentalen Position im Wort. Andere Schwa-Epenthesen, etwa *Atme anstelle von Atem, wären aber möglich. Wichtiger ist noch das Argument, daß die Schwa-Epenthese nicht immer dann angewandt wird, wenn keine Silbifizierung möglich ist. Wie oben gezeigt wurde, ist es in vielen Fällen für die Analyse entscheidend, daß die Epenthese gleichsam aufgespart wird. Anderenfalls entstände *Atemung und nicht Atmung. Hier wird auch der zweite Unterschied zu den Überlegungen von Piggott & Singh deutlich: Diese berücksichtigen nur die Interaktion der Epenthese mit den Prinzipien der Silbifizierung, nicht aber mit denen der Wortbildung.
176
3. Lexikalische und postlexikalische Regeln: Klitisierung im Deutschen und Tonsandhi im Chinesischen 3.1. Die Postlexikalische Phonologic Der Begriff der Phonologie im Lexikon läßt sich auch dadurch weiter präzisieren, daß das Verhältnis von lexikalischen und postlexikalischen phonologischen Regeln untersucht wird. Dabei wird der Versuch unternommen, zwei verschiedene prosodische Phänomene adäquat zu charakterisieren, nämlich Klitisierung im Deutschen und Tonsandhi im Chinesischen. Wie in den vergangenen Kapiteln geht es also sowohl um ein theoretisches wie ein empirisch-sprachbeschreibendes Ziel. Die theoretische Zielrichtung besteht in einem tieferen Verständnis der verschiedenen Regeltypen, die in neueren Arbeiten der Phonologie postuliert worden sind. Gleichzeitig soll gezeigt werden, daß zwei prosodische Phänomene in einem modularen und hochgradig restriktiven Grammatikmodell auf einfache Weise beschrieben werden können. Das vorausgesetzte Grammatikmodell ist das in (6l) skizzierte. Es ist expliziter als das in (55) ausgeführte und enthält das in (39) dargestellte Lexikon des Deutschen. Das Lexikon ist hier aber in ein komplexeres System von Modulen eingebettet, deren Eigenschaften im folgenden zu klären sind. Das Grammatikmodell ist modular, da Subkomponenten der Grammatik mit distinkten Eigenschaften existieren und darüberhinaus der Informationsfluß zwischen den Modulen eingeschränkt ist. Nicht jede logisch mögliche Interaktion, so zumindest die Arbeitshypothese, kommt auch tatsächlich vor. Die semantische Komponente in (6l), z.B., kann nur von der lexikalischen, nicht aber von der postlexikalischen Phonologie beeinflußt werden. Die Lösungen für die beiden hier untersuchten Beispiele sind ein Beitrag zu einer verstärkten Modularisierung der Grammatik, weil sowohl für die Klitisierung im Deutschen wie für das Tonsandhi im Chinesischen sehr einfache Regeln vorgeschlagen werden. Diese interagieren - im durch das Modell (6l) gesteckten Rahmen - mit anderen lexikalischen, syntaktischen und prosodischen Prinzipien zur Ableitung der zunächst verwirrend komplexen Oberfläche nfo r men. Die beiden untersuchten Phänomene bieten schließlich auch die Möglichkeit, die hier eingeführte und bisher nicht motivierte Unterscheidung zwischen Postlexikalischer Phonologie l und Postlexikalischer Phonologie 2 zu begründen. Die Annahme ist, daß Regeln in der ersten postlexikalischen phonologischen Komponente Zugang zu syntaktischer Information haben können, in der zweiten postlexikalischen Komponente dagegen nicht. Gegeben das Modell (6l), ist dies eine sehr natürliche Annahme, da die Postlexikalische Phonologie unmittelbar nach der Einsetzung der lexikalischen Einheiten in die syntaktischen Rahmen situiert ist. Wir dürfen ebenfalls annehmen, daß die Postlexikalische Phonologie insgesamt die Aufgabe hat, syntaktisch-morphologische Strukturen in prosodische umzuwandeln (siehe Einleitung, 2.5). Dabei geht die syntaktische Information sozusagen verloren und ist Tür die Postlexikalische Phonologie 2 nicht mehr verfügbar. Hier können Regeln statt-
177
(61)
Ebene 2
Morphologie Derivation Kl. I irreg. Flexion Derivation Kl. II Komposition
Ebene 3
reg. Flexion
LEXIKON Ebene 1
SYNTAX
2 t Z
Phonologie Wortakzent Schwa-Epenthese 1 Kompositaakzent Schwa-Epenthese 2 Schwa-Epenthese 3
\, Lexikalische Einsetzung
Semantische Interpretation
Postlexikalische Phonologie l P o s t l e x i k a l i s c h e Phonologie 2
Phonetische Realisierung dessen auf prosodische Strukturen Bezug nehmen. Die genaue Charakterisierung der postlexikalischen Phonologie ist in der einschlägigen Literatur umstritten. Für leicht abweichende Modelle siehe Kiparsky (1982) undKiparsky (1985). Die hier vorgeschlagene Lösung ist an den Vorschlag in Kaisse (1985) angelehnt. 3.2. Klitika im Deutschen 3.2.1. Einleitung: Stellung der Klitisierung in der Grammatik Unter dem Begriff "Klitikum" faßt man eine Reihe von Erscheinungen zusammen, bei denen Wörter reduziert werden und/oder sich an ihre Nachbarn anlehnen.1 Einige unanalysierte Beispiele aus verschiedenen Sprachen werden in (62) angegeben. In diesen Beispielen ist dem Pfeil keine besondere Bedeutung beizumessen; es ist nicht notwendigerweise impliziert, daß eine Ableitungsbeziehung von links nach rechts existiert.
1) Der Begriff des Klitikums und der Klitisierung stammt aus der traditionellen Grammatikforschung (siehe etwa Wackernagel (1892)); die moderne Klitikaforschung ist stark durch Zwicky (1977) angeregt worden.
178
(62) Deutsch:
Hast du sie gesehen? -*· Hastese gesehen? in dem Garten -> im Garten Englisch: I want to go ·* I wanna go you will ·» you'll Französ.: Le professeur te parle. vs. Le professeur parle toi. 'Der Lehrer spricht mit dir.' Latein: ne que -» neque -> nee 'und nicht' Neugriech.: ta ·» tä'xo 'Ich habe sie'
Manche dieser Fälle, etwa die wanna-Kontraktion, sind sehr ausführlich untersucht und diskutiert worden, andere fast gar nicht. Das Verhalten von Klitika und ähnlichen "kleinen Wörtern" ist für die Grammatiktheorie interessant, weil sich dadurch Fragen nach der Abgrenzung von Grammatikkomponenten (etwa Syntax, Phonologic, Lexikon) klären lassen. Es ist nicht von vornherein klar, ob eine bestimmte Klitisierung ein phono logische r, ein syntaktischer oder gar ein wortbildender Prozeß ist. Auf keinen Fall kann auch davon ausgegangen werden, daß die Klitika eine einheitliche Klasse bilden. Insofern hat der Begriff "Klitikum" in diesem Kapitel auch keinen wohldefinierten Status. Möglicherweise ist er nichts anderes als ein bequemer Sammelbegriff für eine Phänomengruppe, die erst richtig verstanden und analysiert werden muß. Das folgende Kapitel soll dazu am Beispiel der sehr wenig untersuchten Klitika im Deutschen einen Beitrag leisten. Aufschlußreich ist in diesem Zusammenhang die Studie von Zwicky & Pullum (1983) zu n't im Englischen. Die Existenz von Varianten wie He should not leave. vs. He shouldn't leave, die keinen Bedeutungsunterschied aufweisen und in denen eine transparente Formbeziehung zwischen not und n't existiert, kann zu dem Schluß fuhren, daß n't eine reduzierte Form von not ist, also eine rein phonologische Klitisierung vorliegt. Bei näherer Analyse erweist sich diese, implizit allgemein vertretene Auffassung als falsch oder zumindest problematisch. Zwicky & Pullum stellen sechs Kriterien vor, hinsichtlich derer sich Klitika von Affixen unterscheiden sollten. So haben Affixe die typische Eigenschaft, nur an Wörter bestimmter Wortklassen zu treten, Klitika dagegen nicht (zumindest nicht typischerweise). Für n't gilt nun, daß es sehr wählerisch in bezug auf den 'host' ist, es tritt nämlich nur an Auxiliare. Hinsichtlich aller aufgestellten Kriterien verhält sich n't als Affix und nicht als Klitikum. Das Ergebnis ist, daß das Englische ein spezielles, bei Auxiliaren vorkommendes Negationsaffix +u'f besitzt. Es ist zwar historisch, nicht aber synchron auf das Negationswort not zu beziehen. Es gibt keinen Grund, eine Klitisierungsregel anzusetzen, die not zu n't reduziert und an das vorangehende Wort klitisiert. Eben die Existenz einer Klitisierungsregel soll im folgenden auch für das Deutsche bestritten werden.
179
3.2.2. Eine Typologie der "Verschmelzungen" In vielen Standardgrammatiken des Deutschen wird ein Phänomen behandelt, daß als "Verschmelzung" von Artikel und Präposition bezeichnet wird. Zunächst kann darunter die Gruppe der in (63) dargestellten Alternationen verstanden werden. Es handelt sich dabei um die im Duden (1980: 20) aufgeführte Liste.
(63) an auf bei durch für hinter in über um unter von vor zu
Msk/Ntr (dem) am
Ntr (das) ans aufs
Fern (der) Ms k (den)
beim
hinterm im überm unterm vom2 vorm zum
durchs fürs hinters ins übers ums unters
hintern übern untern
vors zur
Diese Liste ist (für das geschriebene Standarddeutsch!) als eine Maximalliste anzusehen. Der Vergleich zu anderen Grammatiken zeigt, daß nicht alle in (63) aufgerührten Formen akzeptiert werden. Daß hier eine gewisse Unsicherheit im Sprachgebrauch besteht, zeigt sich daran, daß andere Grammatiken nicht alle genannten oder auch andere Formen zulassen. Insbesondere die Verschmelzungen mit dem Artikel den sind wahrscheinlich normativ problematisch. Andererseits ist die Liste (63) auch im Hinblick auf die tatsächlich zu beobachtenden Formen keineswegs vollständig (siehe besonders Schaub 1979). Insofern ist zu fragen, ob mit den Daten in (63) eine einsichtsvolle Charakterisierung der Verschmelzungen im Deutschen möglich ist.
2) Der Rechtschreib-Duden enthält vom nicht, dafür aber vorn als Verschmelzung von vor den . Da vorn in der Standardsprache wohl nicht akzeptabel ist, vom aber sehr wohl, gehe ich davon aus. daß es sich hier schlicht um einen Druckfehler handelt, obwohl die Auflagen von 1973 und 1986 die in (63) aufgeführte Liste von Verschmelzungen ebenfalls enthalten. Hier liegt ein bemerkenswertes Beispiel dafür vor. wie ein Grammatik-Bestseller von Auflage zu Auflage in der Präsentation überarbeitet wird, inhaltliche Fehler aber weitertradiert werden. Dafür, daß wirklich nur ein Druckfehler vorliegt, sprechen zwei Argumente: Erstens habe ich keinen Sprecher ausfindig machen können, der die Intuitionen der Duden-Redaktion teilt; zweitens enthält das Wörterverzeichnis aller untersuchten Auflagen des Dudens natürlich vom (allerdings auch vorn als umgangssprachlicher Version von vor den).
180
Wie Haberland (1985) beobachtet, gibt es eine Art Minimalliste der Verschmelzungen, die die Wörter am, im, zum, zur enthält. Ich möchte noch beim und vom hinzufügen und die entsprechende Menge von Verschmelzungen (64) als erste Gruppe der hier zu untersuchenden Daten anführen. Die Besonderheit dieser Gruppe im Vergleich zu den folgenden besteht darin, daß die Präposition hier nicht immer intakt bleibt (siehe im, vom und zum mit getilgtem /n/ oder gekürztem /u/).
(64)
an dem - am in dem - im bei dem - beim von dem - vom zu dem - zum zu der - zur
Diese Verschmelzungsformen gelten in allen normativen Beschreibungen als grammatisch. Darüberhinaus sind sie auch in Umgangssprachen zu finden. Generell gilt, daß mit zunehmender "Umgangssprachlichkeit" und zunehmendem Sprechtempo eine größere Zahl von Verschmelzungen zulässig ist. Die Minimalliste in (64) ist also maximal, was die Vorkommensmöglichkeiten über verschiedene Register- und Stilformen betrifft. Die nächste Gruppe von Verschmelzungen, für die die Zulässigkeit in der obersten Stilebene nicht mehr so klar ist, besteht meiner Ansicht nach aus der Gruppe der Verschmelzungen mit /s/ als Alternative zu dem Artikel das. Hier erscheinen alle Präpositionen, die überhaupt den Akkusativ regieren und dementsprechend vom Artikel das gefolgt werden können. (65) ans, aufs, durchs, fürs, gegens, hinters, ins, übers, ums, unters, vors Die Zahlenangaben in der Untersuchung von Hartmann (i960: 163f.) über das Vorkommen der Verschmelzungen mit /s/ in der Standardsprache sind widersprüchlich, etwa im Vergleich der Auswertung des "Freiburger Korpus" und von Artikeln in der Wochenzeitung "DIE ZEIT'. Im ersteren Korpus, das die gesprochene deutsche Standardsprache repräsentieren soll, findet Hartmann ein relativ häufiges Vorkommen von aufs und ins und behandelt diese Formen daher als Bestandteile der Standardsprache. Andererseits findet Hartmann bei Durchsicht der ZEIT Belege für aufs, durchs, fürs, ins und ums. Auch die Duden-Grammatik zeigt Unsicherheit in bezug darauf, ob Wörter wie aufs und ins zur Hochsprache zu zählen sind oder nicht. Ich behandle die Gruppe (65) vorläufig als homogen. Möglicherweise gibt es Unterschiede, da einige Wörter mit größerer Häufigkeit in festen Wendungen auftreten als andere, man vergleiche etwa ins mit gegens. Die Zahl der Silben (einsilbige vs. zweisilbige) mag auch eine Rolle spielen (siehe auch die Beschränkungen für die Verschmelzungen in (70)).
181
Die nächste, in den Vorkommenskontexten weiter eingeschränkte Gruppe ist vielleicht die in (66) dargestellte. Es handelt sich um die Verschmelzungen mit /m/ und /n/, zu deren Bildung keine zusätzliche Silbe erforderlich ist (sofern nicht schon in (64) enthalten). Man beachte, daß eine zusätzliche Silbe in den Verschmelzungen mit /s/ niemals erforderlich ist. Die Erklärung dafür liegt natürlich im Appendix-Status von /s/ (siehe Teil I, 3.8.4). In den Verschmelzungen in (66) kann der Nasal /m/ oder /n/ angefügt werden, weil die Sonoritätsbeschränkungen des Deutschen einen Silbenauslaut /K/ plus Nasal erlauben (siehe I, 3.7.1). (66) außerm, äußern, hinterm, hintern, überm, übern, unterm, untern, vorm, vorn Für eine weitere Gruppe gilt die soeben genannte Beschränkung, daß keine zusätzliche Silbe gefordert wird, nicht. Hier bildet die reduzierte Form des Artikels eine weitere Silbe, die als Silbenkern Schwa oder den silbischen Konsonanten enthält. Aus wiederum nicht ganz klaren Gründen scheinen die Formen in (67) akzeptabler zu sein als die in (68). In (68a) spielt offenbar die Gemination von /n/ oder der finale Vokal eine Rolle, in (68b) und (68c) die Tatsache, daß die klitische Form des Artikels die oder der auf Schwa reduziert ist. (67) aufm, aus'm, durch'n, mit'm, vor'n (68) a. b. c.
in'n, an'n, zu'n, bei'n an'e, in'e, aufe, mit'e, durch'e an'r, in'r, auf r, mit'r
Schließlich gibt es auch noch Verschmelzungsformen, die, zumindest in meinem Dialekt, nur marginal akzeptabel wie (69) oder ausgesprochen abweichend erscheinen (70 ).3 (69) ? bei'e, vor'e, bei'r, vor'r (70) * zwischen'e, über'e, hinter'r Die Marginalität der Verschmelzungen in (69) beruht offenbar auf der Natur des finalen Konsonanten in der Präposition, die Unzulässigkeit der Formen in (70) auf der Tatsache, daß die Präpositionen zweisilbig sind, einem Faktor, der sich schon 3) Damit soll nicht behauptet werden, daß solche Formen nicht vorkommen; wie besonders Schaub (1979) gezeigt hat, kommen sie vor. Ich versuche hier eine kompentenzorientierte Beschreibung auch für Phänomene der gesprochenen Umgangssprache. Auch im Falle der Verschmelzungen ist zu unterscheiden zwischen Reduktionen, die bei jedem Sprechtempo stattrinden können, und solchen, die ausgesprochene Schnellsprechphänomene sind.
182
oben in (65) als relevant erwies. Man kann den Schluß ziehen, daß die Verschmelzungen im Deutschen maximal zweisilbig sind. Dadurch werden alle Verschmelzungen bei zweisilbigen Präpositionen ausgeschlossen, zu deren Bildung der Artikel eine eigene Silbe erfordert. Dies erlaubt übers und über'm, aber nicht *über'e und * über 'r. Damit sind die wesentlichen Daten zu den Verschmelzungen von Präposition und Artikel dargestellt. Es sei aber betont, daß viele Einzelheiten weiterer Klärung bedürfen. Eine endgültige Darstellung allein der Fakten ist schwierig, da diese Phänomene erstens bisher nur wenig systematisch untersucht worden sind und zweitens teilweise in den Bereich der gesprochenen Sprache außerhalb des akzeptierten Standards gehören. Die Intuitionen sind hier (aus Gründen, die in 3.4 noch diskutiert werden) nicht immer völlig klar. Selbstverständlich gibt es auch Dialektvariation, die hier nicht ausreichend berücksichtigt wird. Der Vergleich der Minimalliste in (64) und der jetzt ermittelten Maximalliste ((64) bis (70)) ist insofern bemerkenswert, als sich darin trotz aller Variation klare Tendenzen zeigen. Die Gruppen von Verschmelzungen von (64) bis (70) sind auf einer Skala der Akzeptabilität angeordnet. Diese Akzeptabilitätsabstufung korreliert aber sowohl mit klaren phonologischen Unterschieden, die sich zum Teil auf generelle Prinzipien der Phonologic des Deutschen beziehen, als auch mit Unterschieden im semantischen Potential, die im folgenden Abschnitt diskutiert werden. Erwähnt sei auch, daß es neben den phonologischen Unterschieden auch morphosyntaktische Kriterien für die Differenzierung zwischen der Maximal- und der Minimalliste gibt. Die Maximalliste operiert mit fünf Artikelformen (dem, den, das, der und die), also mit allen Artikelformen im Dativ und Akkusativ, die Minimalliste nur mit zwei davon, dem maskulinen und neutralen Artikel dem und dem femininen Artikel der. Im übrigen sind die informelleren Verschmelzungen teilweise ambig, da auch die unbestimmten Artikelformen reduziert und verschmolzen auftreten können. Der Satz Jakob geht in'e Bäckerei hat also zwei Lesarten (mit bestimmtem Artikel die und mit unbestimmtem Artikel eine), die aber in der Regel vom Kontext disambiguiert werden. 3.2.3. Bedeutungsrestriktionen der Verschmelzungen In der Literatur sind die Verschmelzungen vor allem unter der Fragestellung behandelt worden, wie die Bedeutungsbeschränkungen behandelt werden müssen. Diese Frage steht nicht im Zentrum der Untersuchung hier, es muß aber zumindest geprüft werden, ob die Tatsache, daß solche Bedeutungsunterschiede bestehen, mit dem zu entwickelnden Modell vereinbar ist. Das wichtigste zu berücksichtigende Faktum ist, daß die Verschmelzungen in (64) unter bestimmten semantischen Bedingungen obligatorisch und unter anderen Bedingungen unzulässig sind. Die folgenden Sätze illustrieren diesen Sachverhalt.
183
(71) a. Arbeitet Peter? - Nein, er geht noch {zurAzu der} Schule. Peter war so krank, daß er üns/*in das} Krankenhaus mußte. b. Er wurde {in das/*ins) Krankenhaus eingeliefert, aus dem er gerade entlassen worden war. Er ging {zu dem/*zum} Arzt, dem er vertraute. Etwas vergröbert läßt sich sagen, daß die Vollform des Artikels nicht verwendet werden kann, wenn die Nominalphrase nicht-referentiell interpretiert wird. Umgekehrt kann die Verschmelzung nicht gebraucht werden, wenn die Nominalphrase referentiell interpretiert wird, wie die Sätze in (71b) verdeutlichen (für eine eingehende formale Behandlung dieses semantischen Unterschieds siehe Heim (1982) und Löbner (1985)).* Ein entscheidendes Faktum ist nun, daß die soeben skizzierte Bedeutungsbeschränkung ausschließlich für die Verschmelzungen in Gruppe (64) und - vielleicht - für die in (65) gilt. Mit anderen Worten, wenn eine substandardsprachliche Verschmelzung wie durch'n oder in'e vorkommt, ist sowohl (72a) wie (72b) möglich. Der in (71b) illustrierte Kontrast bleibt dagegen erhalten, da Verschmelzungen generell unzulässig sind, wenn der Artikel betont ist. (72) a. Peter läuft nicht gerne durch'n Regen. Peter ist gesund. Er kann in'e Schule gehen. b. Peter läuft nicht gerne durch den Regen. Peter ist gesund. Er kann in die Schule gehen. Grammatiken des Deutschen machen im allgemeinen vage und widersprüchliche Angaben darüber, ob Verschmelzungen wie ins, übers, etc. in der Standardsprache akzeptabel sind. Diese Unklarheit korreliert genau mit der Antwort auf die Frage, ob die Vollform auch nicht-referentiell gebraucht werden kann. Wenn man eine Verschmelzung auf /s/ als akzeptabel ansieht, ist dies nicht möglich, andernfalls dagegen wohl. Nach der Darstellung einiger grundlegender Daten zu den Klitika im Deutschen stellen sich zahlreiche Fragen. Dazu gehören die folgenden: - Wie beschreiben wir die Beziehung zwischen einer vollen und einer reduzierten Form? - Haben wir es bei den Klitika mit einem phonologischen, einem morphologischen oder einem syntaktischen Phänomen zu tun? 4) Die semantischen Unterschiede können durch die Bemerkungen in diesem Abschnitt nicht adäquat erfaßt werden. FUr den vorliegenden Zusammenhang ist nur wichtig, daß es einen semantischen Unterschied gibt.
184
- Was ist die Besonderheit der Formen in (64) (und vielleicht in (65))? Warum sind sie akzeptabel und mit einer sonst nicht vorhandenen semantischen Differenzierung versehen? - Warum sind die Klitika grundsätzlich unakzentuiert und werden mit ihren linken Nachbarn silbifiziert? - Besitzen die Verschmelzungen eine eigene Syntax? Die folgende Diskussion soll diese und ähnliche Fragen wenigstens teilweise beantworten. Das Ergebnis der Analyse wird sein, daß es eine einfache Tilgungsregel in der Phonologic des Deutschen gibt, die die reduzierten Formen aus den vollen erzeugt. Alle übrigen Eigenschaften der Klitika ergeben sich aus der Interaktion dieser Tilgungsregel mit anderen, unabhängig motivierten Regeln und Prinzipien der deutschen Phonologic. Insbesondere kann die Tilgungsregel im Lexikon oder postlexikalisch operieren, was zu unterschiedlichen Konsequenzen führt. Im Zuge der Diskussion werden auch weitere Daten zur Stützung der Argumente herangezogen. 3.2.4. Eine Tilgungsanalyse für Klitika Wenn man die Beziehung zwischen den vollen und den reduzierten Formen der Artikel in Verschmelzungen untersucht, läßt sich feststellen, daß der Anfangskonsonant der vollen Formen bei den reduzierten nicht vorhanden ist, und daß darüberhinaus der Vokal der vollen Form entweder fehlt oder durch Schwa ersetzt wird. Der Endkonsonant (falls vorhanden) ist dagegen niemals von der Reduktion betroffen, siehe /m/ aus dem oder /s/ aus das. Die Tatsache, daß die phonologische Gestalt der reduzierten Formen vollständig vorhersagbar ist, berechtigt dazu, die beiden Varianten durch phonologische Regeln aufeinander zu beziehen, (im Folgenden wird diese Behauptung auch für vokal-finale Wörter wie die ( > [a]) verteidigt.) Das Fehlen der nicht-finalen Segmente kann durch die Anwendung einer Tilgungsregel erklärt werden, die in (73) aufgeführt wird. Aus noch zu klärenden Gründen ist es erforderlich, die mit den Segmenten verbundenen Positionen zu tilgen. Die Regel operiert auf allen Segmentpositionen außer der letzten, wobei das Wort wohl die Regeldomäne darstellt. Unten wird gleichfalls gezeigt, daß die Personalpronomen dieser Regel (mit einer kleinen Abwandlung) ebenfalls unterliegen. (73)
X -» 0 /
X
(Anwendungsbereich: Artikel)
Die Tatsache, daß die wortfinale Position von der Tilgung ausgenommen bleibt, führt dazu, daß immer ein Minimum einer CV-Struktur erhalten bleibt; ein Wort kann nicht restlos getilgt werden. Die folgenden Ableitungen demonstrieren die Anwendung der Tilgungsregel. Es gibt auch Dialekte, in denen nur eine Vokaltilgung angewendet wird, so etwa, wenn aus [de:m] [dam] oder [das] [das] entsteht. In
185
diesen Fällen wird möglicherweise nur die X-Position, die mit einem Vokal assoziiert ist, getilgt. Schwa-Epenthese schafft dann den Vokal [aLs (74)
XXXX l V I d e m
XXX I I I das
zugrundeliegend
X I d e m
X I das
X-Tilgung (73)
Zu klären ist nun, was das Schicksal der Segmente ist, nachdem die Segmentpositionen getilgt worden sind, und wie das in manchen Formen erscheinende Schwa erklärt werden kann, so in den soeben genannten Wörtern, aber auch in ine oder aufm (realisiert als [aufam] oder [aufm). Glücklicherweise bedeutet das Vorkommen von Schwa kein Argument gegen die vorgeschlagene Tilgungsanalyse, da die im vorangegangenen Kapitel 2 entwickelte Epenthese-Regel (33) auch in den reduzierten Formen genau dann ein Schwa einfügt, wenn die Bedingungen der Regel erfüllt sind. Die Ableitungen in (75) verdeutlichen dies. Hier wird auch die bisher vernachlässigte Tilgung der Segmente mitberücksichtigt. Die Tilgungsregel kann die Segmentpositionen tilgen, nicht aber die Segmente. Wenn wir aber auch hier annehmen, daß ein unassoziiertes Segment durch eine aus der Phonologie anderer Sprachen bekannte generelle Konvention, die der 'stray erasure', getilgt wird bzw. unrealisiert bleibt, ergibt sich daraus unmittelbar die Möglichkeit, daß in den klitischen Formen nur das wortfinale X übrigbleibt, das wie in den in Kapitel 2 analysierten Fällen den passenden Kontext Tür die Schwa-Epenthese liefert. Stray erasure (siehe z.B. Steriade (1982: 89)) besagt in etwa: 'Tilge Elemente, die nicht mit höheren Ebenen der Struktur verbunden sind.' (Weil wort-final keine kurzen Vokale möglich sind, wird auch das /i/ getilgt.) (75)
XXX l V d i
XXX I I I a in
X
X
I
I
d i X
VX l 3
XXXX l V l d e m
zugrundeliegend
X
l
ai n
dem
X l n
X l m
VX l l a n
V X l l am
X-Tilgung (73)
'stray erasure'
Schwa-Epenthese (33)
5) Höhle & Vater (1978) schlagen für die reduzierten Pronomen und Artikel eine Vokalreduktionsregel vor; daneben benötigen sie auch eine Schwa-Tilgungsregel. Die Konsonantentilgung ist damit noch nicht erfaßt.
186
Es gibt im Deutschen eine zweite Gruppe von Wörtern mit in der gesprochenen Sprache weitgehend akzeptablen klitischen Formen, nämlich die Personalpronomen. Sätze wie Wenn de se siehst, ... oder Ich hab'n gesehen sind möglich und häufig. In (76) werden die vollen und die reduzierten Formen der Personalpronomen dargeboten - wieder mit dem einschränkenden Hinweis auf Dialektunterschiede. Sicherlich gibt es auch weitergehende Reduktionen, besonders in der schnellen Rede, dem Allegro-Stil. Formen wie [ ] für ich sind durchaus zu finden (siehe Kohler 1977: 224). Ich gehe aber davon aus, daß solche Tilgungen und sonstigen Veränderungen auf einer anderen Ebene, der der phonetischen Realisierung oder Implementation, zu behandeln sind. Man beachte, daß die klitischen Formen in (76) die Silbenstrukturen des Deutschen intakt lassen. Weitergehende phonetische Reduktionen tun dies nicht.6 Weniger akzeptable Reduktionsformen sind in der Tabelle mit Klammern markiert. Sie hat m'r geholfen ist zumindest in meinem Dialekt weniger akzeptabel als etwa Das haben w'r gesehen.
(76)
Singular voll reduziert IP ich mir (mK) mich 2P du da dir (dK) dich 3P er K sie Z3 es s, 35 ihm (m) ihn n ihr (k) sie Z3
voll wir uns uns ihr euch euch
Plural reduziert vK
sie
1
K
Z3
ihnen sie
Z3
Auch für die reduzierten Personalpronomen gilt, daß, soweit ich sehe, kein Bedeutungs- oder Verwendungsunterschied zu den vollen Formen existiert. Nicht alle Personalpronomen sind gleichermaßen reduzierbar. Zumindest für einige norddeutsche Umgangssprachen scheint zu gelten, daß Formen mit finalem Obstruenten keine reduzierte Version besitzen. Ebenso sind zweisilbige Pronomen (meiner, ihnen, etc.) nicht zu reduzieren (abgesehen von der Allegro-Rede). Neben diesen zwei phonologischen Bedingungen existiert eine morphologische: Phonologisch reduzierbare Personalpronomen werden im Nominativ und Akkusativ, nicht aber im Dativ reduziert. Die Formen im Dativ sind genau die eingeklammerten in Tabelle (76). 6) Zum allgemeinen Problem der Abgrenzung phonologischer von phonetischen Prozessen siehe Mohanan (1986).
187
Das entscheidende Argument dafür, daß sich die reduzierten Formen in (76) durch eine Regel und nicht durch Allomorphie ergeben, sehe ich darin, daß die erforderliche Regel die Tilgungsregel (73) ist, die durch eine einfache Bedingung ergänzt wird: Konsonanten am Wortanfang bleiben bei den Personalpronomen erhalten. So wird die zu [a], sie aber zu [zaL Durch die Anwendung der Regel (77) zusammen mit der Schwa-Epentheseregel (33) ergeben sich, wie in (78) demonstriert, genau die existierenden reduzierten Formen.7 Dabei wird vorausgesetzt, daß Personalpronomen NPs (N der maximalen Projektion) bilden, Artikel aber nicht. Die Bedingung in (77) verhindert damit die Tilgung des wortfinalen Konsonanten in sie und wir, aber nicht in die und das. (77)
X -*· 0 / — X
(Anwendungsbereich: Artikel, Personalpronomen)
Bed.: Keine Tilgung von X im Kontext [jsjmax] t — [+ kons.] (78)
XXX l V z i
XXXX l l v i K
XXX V ' i n
X X l V z i
X X l l v i K
X l i n
X I z
X I v
CVC I I z3
X
X I K
X I n
C VC l \l v K
VC \l n
lexikalische Einträge
(sie, wir, ihn)
X-Tilgung (77)
stray erasure Schwa-Epenthese (33) Sonorantenvokalisierung (57) Silbifizierung (se, w'r, 'n)
Für die Ableitung der reduzierten Personalpronomen ist also weder eine neue Regel noch sonst ein zusätzlicher Mechanismus erforderlich. Diese Tatsache nehme ich als Bestätigung sowohl für das vorher entwickelte System wie auch für die in (78) vorgeschlagene Ableitung der reduzierten Personalpronomen. Zu klären bleibt einzig, wie erreicht werden kann, daß manche Personalpronomen leichter reduzierbar sind als andere mit ähnlicher Form. Im Moment habe ich dafür keine Erklärung. Die Analyse wird erschwert durch die unklare Faktenlage. Der Unterschied in der Reduzierbarkeit von wir, dir, ihr und mir ist graduell und nicht sehr deutlich. Die Tilgungsregel liefert also zusammen mit anderen Regeln der Grammatik, insbesondere der Schwa-Epentheseregel, genau die tatsächlich erscheinenden Formen. Eine alternative Behandlung besteht darin, im Lexikon für die in Frage kom7) Das Schicksal der unassoziiert bleibenden X-Positionen wird im Folgenden Abschnitt diskutiert.
188 menden Wörter Allomorphe anzusetzen. Der Artikel das hätte also zwei zugrundeliegende Einträge, etwa Idasl und Isl. Diese Allomorph-Lösung ist von Kaisse (1983, 1985) für das Englische und von Berendsen (1986) für das Niederländische vorgeschlagen worden. Mindestens für das Deutsche zeigt sich aber, daß eine prinzipiellere Relation zwischen den vollen und den reduzierten Formen vorliegt. Einige der gegenteiligen Argumente von Kaisse und Berendsen verlieren ihre Wirkung, wenn man berücksichtigt, daß die Regeln lexikalische Regeln sein können. So ist es für lexikalische Regeln nicht ungewöhnlich, daß idiosynkratisch festgelegte Ausnahmen existieren. 8 Das prinzipielle Argument Für die hier vorgeschlagenene Behandlung liegt, um es noch einmal zu betonen, in der Vorhersagbarkeit der reduzierten Formen. Die Tilgungsregel soll genau diese Regularität beschreiben. 3.2.5. Die Regel in der Grammatik Wie für die Schwa-Epentheseregel (33) ist zu klären, welcher Platz in der Grammatik der Tilgungsregel zuzuordnen ist. Einige der oben angeführten Fakten benötigen zu ihrer Erklärung gerade diese Information. Wie in 3.2.3 gezeigt, gibt es zwei Gruppen von klitischen Artikeln. Die Mitglieder der ersten Gruppe, der in (64) und vielleicht der in (65), unterliegen semantischen Restriktionen; Mitglieder der zweiten Gruppe dagegen nicht. Diese Zweiteilung wird innerhalb des Grammatikmodells (6l) auf einfache und natürliche Weise dadurch erklärt, daß die erste Art der Reduktion vor der semantischen Interpretation stattfindet, die zweite aber nach der Verzweigung in die semantische und phonologische Interpretation. Die Tilgungsregel kann, genauer gesagt, sowohl im Lexikon als auch als Teil der postlexikalischen Phonologie operieren. Im Lexikon ist die Regel nur für eine spezifizierte ziemlich kleine Gruppe von Wörtern definiert, nämlich die in (64) und (65) - eben alle, für die eine semantische Restriktion auszumachen ist und die auch im geschriebenen Standarddeutsch als akzeptabel gelten. Dieser Vorschlag setzt voraus, daß auch das Lexikon Phrasen enthalten kann. Dies ist aber auch für andere Fälle erforderlich, so etwa für die angemessene Behandlung idiomatischer Ausdrücke. Bemerkenswerterweise enthalten solche Ausdrücke oft Verschmelzungen, siehe im Sinn haben oder zum Beispiel, wo *in dem Sinn haben oder *zu dem Beispiel ganz ausgeschlossen sind. Die Menge der lexikalisch produzierten Klitika erweitert sich, sodaß sie wenigstens für einige Sprecher auch Fälle wie ins enthält. Hier liegt sicherlich ein aktueller Sprachwandel im Gegenwartsdeutschen vor. Der Wandel bedeutet weder eine neue oder eine geänderte Regel, noch neue Elemente im Inventar, sondern einfach die zunehmende lexikalische Anwendung einer vorhandenen Regel. Im übrigen ist 8) Auf klitische Formen im Englischen und Niederländischen kann ich hier nicht eingehen. Auch wenn die Möglichkeit besteht, daß auch diese Formen (etwa will vs. '//, ik vs. ak 'ich') durch Regeln aufeinander bezogen werden können, so muß man mit dieser Schlußfolgerung doch vorsichtig sein. Wie in Kapitel 2 gezeigt, beruht Schwa im Deutschen auf ganz anderen Prinzipien als Schwa in anderen germanischen Sprachen.
189
auch die Tilgung des finalen /n/ in an und in kein Problem für die vorgelegte Beschreibung. Wie bereits mehrmals festgestellt, gilt im Lexikon des Deutschen offenbar das Prinzip der Obligatorischen Kontur, das identische, benachbarte Segmente verbietet. Wenn nun angenommen wird, daß zwei Nasale ebenfalls als identisch für dieses Prinzip zählen, ergibt sich die Tilgung unmittelbar daraus. Die Ableitung von am erfolgt danach in den Schritten an dem -*· anm -» am. Außerhalb des Lexikons existiert eine andere allgemeinere Instantiierung der Tilgungsregel. Sie erzeugen die übrigen oben aufgeführten Klitika, wobei keine lexikalischen Beschränkungen, sondern nur phonologische (Zweisilbigkeit) und syntaktische (siehe 3.2.5) existieren. Allerdings sind die Tilgungen immer noch auf die Artikel und (bestimmte) Personalpronomen beschränkt. Diese Tatsache ermöglicht es, eine Aussage über die Zuordnung der Regeln zur Postlexikalischen Phonologie l oder 2 im Sinne des Modells (6l) zu machen. Die Regeln benötigen offensichtlich Information über den kategorialen Status der lexikalischen Einheiten. Gerade diese Information bleibt aber erhalten, wenn lexikalische Einheiten in syntaktische Strukturen eingesetzt werden. Die Regeln sind also 'labelled bracketing-domain rules' im Sinne von Selkirk (1982). Alternativ kann man sagen, daß bestimmte phonologische Regeln auf die Strukturen angewandt werden, die durch lexikalische Einsetzung in syntaktische Rahmen entstehen. Genau diese Regeln haben Zugriff auf syntaktische Information und die kategoriale Information über Wortarten wie Präpositionen, Artikel oder Pronomen. Wie im folgenden Abschnitt gezeigt wird, existieren für die Klitisierung auch Restriktionen über die 'Nähe' der beteiligten Elemente, die möglicherweise in syntaktischen Konfigurationen zu beschreiben sind. Dies bestätigt die Zuordnung der Regeln zu dieser Subkomponente der Grammatik. Zwei weitere generelle Eigenschaften der Klitika sind in diesem Zusammenhang zu klären. Erstens werden Klitika zusammen mit ihrem linken Nachbarn silbifiziert. Während sonst im Deutschen Wortgrenzen auch Grenzen der Silbifizierung sind, wird über Klitikagrenzen hinweg silbifiziert. Eben daher gibt es Formen, die keine eigene Silben bilden (ins, übern) und Verschmelzungen wie [au-faK] (aurer), [duK-Qs] (durch'e), bei denen der finale Konsonant der Präposition obligatorisch den Anlaut der zweiten Silbe bildet. Eine zweite charakteristische Eigenschaft der Klitika ist ihre Unakzentuiertheit selbst dann, wenn sie eine eigene Silbe bilden. Diese beiden Eigenschaften werden gelegentlich (siehe auch Wiese 1987c) durch eine besondere Klitisierungsregel beschrieben, die die Klitika an ihren Nachbarn adjungieren und dabei auch Akzentstruktur tilgen. Hier soll dagegen die Möglichkeit untersucht werden, daß eine spezielle Klitisierungsregel nicht erforderlich ist, weder in der syntaktischen noch in der prosodischen Komponente. Die soeben genannten Eigenschaften der deutschen Klitika ergeben sich durch die Interaktion der Tilgungsregel mit unabhängig motivierten generellen Eigenschaften der deutschen Grammatik.
190
Wie in den Ableitungen (75) und (78) gezeigt, werden in den klitischen Formen die X-Positionen getilgt. Die direkte Folge davon ist aber, daß die mit diesen XPositionen assoziierten Silben nicht mehr wohlgeformt sind. Da wir darüberhinaus angenommen haben, daß immer dann resilbifiziert wird, wenn relevante Operationen stattfinden (etwa Affigierung oder Schwa-Epenthese) ist auch plausibel, daß die X-Tilgung eine Tilgung des Silbenknotens und der übrigen prosodischen Struktur einschließlich des Wortknotens zur Folge hat. Damit ist auch die zugewiesene Akzentinformation verloren gegangen. Genau unter diesen Umständen, wenn ein Wort keine prosodische Struktur mehr besitzt, wird nun offenbar der 'Rest' zusammen mit dem linken Nachbarn resilbifiziert und als schwacher Knoten in dessen Akzent Struktur eingebaut. (79) zeigt dies für ine als Verschmelzung von in die.
(79)
V j i
C l n
XX l 3
\
V C C V C l V l i n a
In der Tradition von SPE ist es üblich, den Zusammenhang von Schwa und Unbetontheit durch eine Reduktionsregel auszudrücken, die etwa folgendermaßen aussehen kann (siehe SPE, Wurzel 1970):
(80)
- Akzent - gespannt + vokalisch
[a]
Diese Regel stößt jedoch auf folgende Probleme. Erstens gibt es in den neueren Akzenttheorien, wie in der Einleitung ausgeführt, kein segmentales Merkmal wie [± Akzent]. Akzent ist ein suprasegmentales Phänomen, das nicht auf der gleichen Ebene mit inhärent-segmentalen Merkmalen zu behandeln ist. Darüberhinaus gilt mindestens für das Deutsche, daß alle Vokale oder Silben ein Minimum an Akzent tragen - abgesehen von den Schwa-Silben. Angesichts dieser Regularität ist es empirisch nicht adäquat, bestimmte Vokale als unakzentuiert zu betrachten und sie erst dann zu Schwa zu reduzieren. Schließlich gibt es eine wichtige einschränkende Hypothese zur Formulierung von Akzentregeln, der die Reduktionsregel (80) ebenfalls widerspricht. Die Hypothese besagt, daß Akzentregeln nur Akzentstrukturen aufbauen, nicht aber Akzente tilgen oder ein Merkmal [- Akzent] vergeben können. (Man beachte, daß die bisher vorgestellten Akzentregeln dieser Beschränkung folgen.) Regel (80) setzt aber voraus, daß ein Segment als unakzentuiert markiert worden ist.
191
Wenn diese Hypothese über den strukturaufbauenden Charakter von Akzentregeln stimmt, folgt daraus einiges über den Charakter klitischer, unbetonter Formen. Sie können nicht durch Akzentreduktion entstanden sein. Stattdessen ergibt sich ihre Unbetontheit aus der Konstellation, die durch die in diesem Kapitel motivierten Tilgungsregel geschaffen wird: Sowohl die Segmente wie die höhere prosodische Struktur gehen verloren und lösen eine Resilbifizierung aus. 3.2.6. Die Syntax der Verschmelzungen Eine weitere offene Frage ist, welche syntaktische Struktur die Präpositionalphrasen mit den lexikalisch erzeugten Verschmelzungen besitzen. 9 Die Standardstruktur für PPen besteht ja aus der Präposition (als Kopf) und einer vollständigen NP. Im Falle der Verschmelzungen ist diese Regel nun anscheinend außer Kraft gesetzt, da erstens der Kopf Teile des Artikels der NP enthält und zweitens die Ergänzung, also die NP, nicht vollständig ist. Sie ist, in der Terminologie der X'-Syntax, keine maximale Projektion eines Nomens. Präpositionalphrasen der Form *zum dem Krankenhaus sind ja ausgeschlossen. Allerdings wäre es keine optimale Lösung, wenn die syntaktische Struktur der Phrasen mit Verschmelzungen von der Syntax der 'normalen' PPen gänzlich unabhängig konstruiert würde, denn die Distribution der beiden Typen ist, abgesehen von den Bedeutungsbeschränkungen, völlig identisch. Das Problem ist also, wie die PPen mit Verschmelzungen einerseits soweit wie möglich mit den gleichen Regeln wie die übrigen PPen dargestellt werden können, andererseits ihre syntaktische Besonderheit erfaßt werden kann. Die Lösung erfordert wohl die folgenden Elemente: Erstens gilt, daß der Ausdruck, der auf eine Verschmelzung folgt (also die NP ohne Artikel), in der X'-Theorie eine Konstituente bildet. Unter der Annahme, daß die NP auf der obersten Ebene nach der Regel N3 -» Art N2 zu beschreiben ist, ist die 'Rest-NF von der Kategorie N2. Zweitens trägt die Verschmelzung gewisse syntaktische Merkmale, die sonst dem Artikel zugeordnet sind. Die Verschmelzung zum braucht z.B. ein Merkmal, das für den folgenden Ausdruck (N 2 ) die schwache Dativform des Maskulinums oder Neutrums im Singular fordert. Auf eine explizite Angabe der Merkmale verzichte ich hier. Nach dem Gesagten gilt Tür die Syntax der Verschmelzungen, daß sie nur in minimaler, allerdings markierter Weise von der allgemeinen Regel für PPen (81a) abweichen muß. (81b) ist insofern eine markierte Regel, als die Präpositionen aus der Klasse als Komplement keine maximale Projektion im Sinne der X'-Theorie zu sich nehmen.
9) Da die nicht-lexikalischen Klitika nach der lexikalischen Einsetzung in die Syntax entstehen, nehme ich an. daft für diese keine besondere Syntax erforderlich ist. Andernfalls gilt aber für sie alles, was Über lexikalische Klitika gesagt wurde.
192
(81)
a. PP -» P N3 b. PP -»
2
= {am, zum, zur, vom, beim, im)
Das syntaktische Problem, das sich aus der Existenz der Verschmelzungen ergibt, ist also lösbar, wenn auch nur durch eine leicht variierte Regel für die PPen. Unter dem syntaktischen Aspekt ist vielleicht auch zu erwähnen, daß sowohl die klitischen Artikel wie die Personalpronomen eine eingeschränkte Distribution besitzen. Die klitischen Artikel wurden in diesem Kapitel nicht zufällig im Kontext von Präpositionen studiert. In anderen Kontexten sind sie weniger akzeptabel oder gänzlich ausgeschlossen, wie die Daten in (82) zeigen. Ich verzichte auf die Beschreibung der dahinterstehenden Regularitäten. Insbesondere ist unklar, ob hier syntaktische oder prosodische Strukturen relevant sind. (82)
aufm Berg, in'e Schule, durch'n Wald *Hat'e Polizei ihn geschnappt? Er hat'n Wagen zu Schrott gefahren. Hat er'n Wagen geklaut? ?Hat das Mädchen'n Wagen geklaut. ?Er hat'm Franz geholfen. 'n Wagen habe ich nicht gesehen.
Die Daten in (83) zu den reduzierten Personalpronomen zeigen, daß es auch für diese Formen Kontextbeschränkungen gibt, die aber keineswegs zu den obigen identisch sind. Auch hier steht eine begründete Analyse der Fakten noch aus.10 Die Kontextanalyse wird auch klären müssen, ob eine syntaktische und/oder eine prosodische Beschreibung der Bedingungen für reduzierte Formen erforderlich ist. Wenn zumindest einige Reduktionen in bestimmten prosodischen Kontexten erfolgt, ist es möglich, die Anwendung der hier vorgeschlagenen Tilgungsregel (77) von prosodischen Regeln wie dem "Defooting" (Wiese 1987c) abhängig zu machen. (83) Hat das Mädchen {es/*'s> gesehen? Hat die Frau {es/*'s} gesehen? Das Mädchen hat {es/'s} gesehen. Das Mädchen hat {sie/se} gesehen. Hat das Mädchen {sie/?se> gesehen? Hat er {ihn/'n} gesehen? Hat Peter {ihn/*'n} gesehen? Peter hat {ihn/'n} gesehen. 10) Mit dem Problem der Kontexte für Klitisierung im Deutschen beschäftigt sich Prinz (1987), der mich auf die Daten in (82) und (83) aufmerksam gemacht hat.
193
3.2.7. Schlußfolgerungen Die reduzierten Formen der Artikel und Personalpronomen sind hier immer wieder als "Klitika" bezeichnet worden, der Prozeß ihrer Reduzierung und Anlehnung als "Klitisierung". Die vorgenommene Analyse sollte aber verdeutlichen, daß es zumindest für diese Daten aus dem Deutschen keinen Grund gibt, eine genuine Klitisierung als Prozeß in der Grammatik zu postulieren. Das, was man als "Klitikum" und "Klitisierung" bezeichnen kann, ist nicht das Produkt einer Klitisierungsregel sondern das sichtbare Ergebnis der Interaktion einer Tilgungsregel mit generellen und spezifischen Prinzipien in der Grammatik. Die Tilgungsregel läßt sich auch dadurch rechtfertigen, daß sie sich auf allen Hauptebenen der phonetischen Form der Sprache nachweisen läßt. Phonetische Beobachtungen zeigen immer wieder (siehe etwa Kohler 1977: Kap. 6.3.2), daß in der gesprochenen Sprache viele Segmente nur ansatzweise oder gar nicht realisiert werden. Solche Realisierungseigenarten können offenbar phonologisiert werden, indem sie zu regulären phonologischen Regeln der Sprache "aufsteigen", die auch Alternationen beschreiben. Dies würde im Falle der Tilgungsregel (77) auch erklären, daß gerade die auf der Phrasenebene unakzentuierten Artikel und Personalpronomen der Regel unterliegen. In einem weiteren Schritt können solche phonologischen Regeln lexikalisiert werden. Im Falle der Tilgungsregel ist auch dies mit den oben ausgeführten Konsequenzen geschehen. Die Tatsache, daß wir einen Zusammenhang zwischen subphonologischen Realisierungsphänomenen und den scheinbar idiosynkratischen Verschmelzungen im, am, etc. herstellen können, verleiht der Analyse weitere Plausibilität. Eine weitere Konsequenz aus der Analyse betrifft die Schwa-Epentheseregel (33). Während sie in Kapitel 2 immer lexikalisch angewandt wurde, besteht kein Zweifel daran, daß sie im Falle der Klitika postlexikalisch operiert. Der Anwendungsbereich der Regel ist also noch weiter als in Kapitel 2 angenommen. Mögliche Folgerungen daraus werden im Schlußkapitel 4 diskutiert. Zum Verhältnis von Schwa-Epenthese und Tilgungsregel ist schließlich anzumerken, daß sie formal gesehen eine große Nähe besitzen. Beide Regeln operieren auf der X-Schicht, und zwar in ähnlichen Kontexten. Falls die Epentheseregel noch derart verändert würde, daß sie nicht V, sondern X einfügt, wären die beiden Regel geradezu komplementär. Es ließe sich auch die Hypothese aufstellen, daß Tilgungs- und Einfügungsregeln grundsätzlich auf der X- bzw. C/V-Schicht operieren müssen.
194
3.3. Tonsandhi im Chinesischen Das Standardchinesische besitzt, wie in den Kapiteln 1.2.1 und 1.3 ausgeführt, eine Tonsandhiregel, die den 3. Ton in einen 2. Ton überführt, wenn noch ein weiterer 3. Ton folgt. Die Regel ist aus oben ausführlich diskutierten Gründen vermutlich wie in (84) zu beschreiben.
(84) T -»· H / T
V
TT
V
Eine in Kapitel l offengebliebene Frage war, was die Anwendungsdomäne für diese Regel ist. Wie unten in (103) gezeigt wird, gilt die Regel nämlich nicht für beliebige Folgen von 3. Tönen. In diesem Kapitel wird diese Frage beantwortet, vor allem dadurch, daß der Platz der Regel in der Grammatik bestimmt wird und die Interaktion der Regel mit dem morphologischen Prozeß der Reduplikation diskutiert wird. Die hier diskutierte Tonsandhiregel ist wie die "Klitisierung" im Deutschen ein prosodisches Phänomen, da es sich um einen segmentübergreifenden Prozeß handelt. Im Falle des Tonsandhi gilt dies sogar in zweifacher Weise: Erstens handelt es sich um eine Tonveränderung. Töne sind aber, wie in Kapitel l ausführlich demonstriert, von den Segmenten getrennt auf einer eigenen Schicht repräsentiert. Zweitens gilt für die Tonsandhiregel eine Domäne der Anwendung, die in prosodischen Begriffen zu explizieren ist. Regeln wie (84) werden allgemein als Regeln des "externen Sandhi" bezeichnet, weil sie zwischen Wörtern angewandt werden. In (85) sind einige Beispiele für die Anwendungsmöglichkeiten der Tonsandhiregel aufgeführt. Diese Beispiele demonstrieren als erstes, daß die Regel nicht (oder nicht ausschließlich) eine lexikalische Regel sein kann. Abgesehen von Komposita wie lao21 hu21 'Tiger' sind alle anderen Kontexte der Anwendung derart, daß syntaktische Grenzen überschritten werden. Da die entscheidende Bedingung für die Regel ist, daß zwei benachbarte Wörter anwesend sind, kann sie erst angewandt werden, nachdem die Wörter in den syntaktischen Rahmen eingesetzt worden sind (siehe die lexikalische Einsetzung im Modell (6l)). (85)
gan21 gui21 ->· gan35 gui21 lao21 hu21 -» lao33 hu21 ni21 hao21 -* ni3S hao21
'Dämonen verfolgen' 'Tiger' '(Geht es) dir gut?'11
ll) Im letzten Beispiel wlirde hao mit dem Tonmuster 214 realisiert werden, da das Wort am Phrasenende steht und dann nach dem 3. Ton ein hoher Ton eingefügt wird (siehe Regel (29)).
195
Die zu beantwortende Frage ist also, ob in der Regel (84) explizit angegeben werden muß, daß die Regel nur zwischen Wörtern anzuwenden ist. Im Rest dieses Kapitels wird argumentiert, daß im Kontextteil der Regel keinerlei zusätzliche Angabe erforderlich ist. Es sind dann allerdings zwei Probleme zu lösen. Das erste betrifft die Beziehung der Sandhiregel zu den reduplikativen Konstruktionen des Chinesischen, das zweite die Charakterisierung der syntaktischen oder prosodischen Beschränkungen der Regel. 3.3.1. Morphologie und Phonologic der Reduplikation In Abschnitt 1.2.1 wurde gezeigt, daß die Tonsandhiregel (84) auf reduplizierte Wörter anzuwenden ist. Cheng (1973: 45ff.) betrachtet nun die Daten in (86) und schließt, daß sich (86c) dadurch erklärt, daß erstens die Tonsandhiregel nur zwischen, nicht aber innerhalb von Wörtern anzuwenden ist, und daß zweitens zwar in (86a) und (86b), nicht aber in (86c) eine interne Wortgrenze vorliegt. (86)
a. zou21-zou21 -»· zou3s-zou 'Spazierengehen' b. xiao21 jie21 ·* xiao35 jie 'junge Dame' c. jie21-jie21 -» jie21-jie 'ältere Schwester'
Die Tonsandhiregel (84) erhält daher bei Cheng die Formulierung (87). Sie besagt, daß der erste von zwei 3. Tönen ('21') nur vor einer Wortgrenze ('*') ein 2. Ton ('35') wird. Cheng (1973: 46) nimmt außerdem an, daß in ji^-jie21 keine Wortgrenze vorhanden ist, in zo^-zou21 dagegen wohl. Wie (86a) und (86c) außerdem zeigen, tragen die reduplizierten Elemente den gleichen Ton wie das Ausgangswort. Dieser Ton wird allerdings nicht realisiert, entsprechend der Regel, daß unbetonte Silben keinen eigenen Ton tragen.
(87) 3 -» 2 /
«3
Das hier zu lösende Problem ist also, zu erklären, warum sich Wörter wie jie21-jie21 in bezug auf das Tonsandhi nicht ebenso verhalten wie xiao21 jie21, obwohl doch, wie zou21-zou21 zeigt, die Tonsandhiregel auf reduplizierte Wörter angewandt werden kann. In Anlehnung an eine Analyse von Yip (1980, 1982) und an neuere Theorien der Wortbildung soll hier ein anderer Vorschlag zur Behandlung der reduplizierten Formen entwickelt werden. Dieser Vorschlag hat die erstrebenswerte Konsequenz, daß die Regelformulierung (87) nicht erforderlich ist, die einfachere Regel (84) mit ausschließlich phonologischen Kategorien also erhalten bleibt. Wortgrenzenangaben oder ähnliche morphosyntaktische Informationen erweisen sich als überflüssig. Gleichzeitig wird eine präzise, auch unabhängig zu motivierende Charakterisierung der Reduplikation im Chinesischen geliefert.
196
3.3.1.1. Einige Daten und Theorien zur Reduplikation Chinesisch ist das klassische Beispiel einer isolierenden Sprache.12 Für den Phonologen folgt daraus vor allem, daß die Sprache wenig Gelegenheiten bietet, Alternationen zu studieren. Morpheme erscheinen, von wenigen Ausnahmen abgesehen, in der zugrundeliegenden Form. (Wenn das Deutsche keine Suffixe besäße, hätten wir wohl kaum Evidenz dafür, daß die zugrundeliegende Form von Tag nicht /tak/, sondern /tag/ ist. Mit anderen Worten, es könnte keine Regel der Auslautverhärtung (siehe Teil I, (59)) geben.) Morphologische Prozesse sind im Chinesischen jedoch - entgegen eines weitverbreiteten Vorurteils - sehr wohl zu finden. Von der ausgesprochen komplexen Kompositabildung einmal abgesehen (siehe Li & Thompson 1981: Kap. 3.2), werden zusammengesetzte Wörter im Chinesischen vor allem durch Reduplikation gebildet. (86) bietet dafür erste Beispiele; weitere folgen hier. Wie Li & Thompson (1981: Kap. 3.1.1) ausführen, ist Reduplikation in fünf Klassen von Wörtern zu finden. Im folgenden werden diese fünf Klassen beschrieben, wobei die ungefähre Bedeutung in Klammern angegeben wird. Das jeweils letzte Beispiel illustriert das Verhalten des 3. Tons. 1.) Volitionale Verben (Delimitativer Aspekt): (88) xiess-xie jiaoss-jiao tao21 lun si -tao 21 lun51 zhao3S-zhao
'ein 'ein 'ein 'ein
wenig ausruhen' wenig unterrichten' wenig diskutieren' wenig suchen' (von zhao21)
Zweisilbige Verben erlauben Reduplikation in sehr viel beschränkterem Ausmaß als die einsilbigen. Für die Reduplikation der einsilbigen Verben gibt es eine Variante: Verb-^/'-Verb. In diesem Fall bleibt der Ton des ersten Verbs erhalten, z.B. zhao21 -yi-zhao21. 2.) Adjektive (Intensivierung): (89)
hong 3S -hong man 35 -man gan ss -gan-jing sl -jing 51 hao21-hao
'wirklich rot' 'wirklich langsam 'sehr sauber' 'wirklich gut'
Diese Gruppe wurde bereits in Abschnitt 1.2.2.3 besprochen. Dort wurde (in (16)) der reduplizierte Teil mit einem hohen Ton versehen. Offenbar gibt es in dieser Beziehung jedoch unterschiedliche Dialekte (wie Chao (1968) andeutet). Bei Li & 12) Diese Einstufung geht aufBopp und Humboldt zurück. Chinesisch gilt seitdem als der Prototyp einer isolierenden Sprache.
197
Thompson fehlt dieser hohe Ton jedenfalls. Wie bei den Verben reduplizieren einsilbige Adjektive eher als zweisilbige. 3.) Zähleinheitswörter (Qualifikation): (90) bang si -bang rou51 gesl-ge ren35 zhong3S-zhong gou21
'jedes Pfund Fleisch' jeder Mensch' 'jede Art Hund'
Nomina benötigen im Chinesischen im allgemeinen ein Zähleinheitswort (auch Nomenklassifikator genannt). Diese haben nicht unbedingt eine unabhängige lexikalische Bedeutung, obwohl bang51 'Pfund' und zhong21 (3. Ton!) 'Art' bedeuten. Die Zähleinheitswörter sind produktiv reduplizierbar, bis auf die zweisilbigen. 4.) Nomen (Verwandtschaftsbezeichnungen, Diminutiv): (91)
ba sl -ba mei sl -mei ge ss -ge Iao21-lao jie21-jie
'Vater' 'jüngere Schwester' 'älterer Bruder' 'Großmutter mütterlicherseits' 'ältere Schwester'
Die in diesen Verwandtschaftsbezeichnungen vorkommenden Morpheme sind gebunden, d.h. sie kommen in der Regel nur in der reduplizierten Form vor. Es gibt allerdings andere zweisilbige Wörter, die weiter entfernte Verwandte bezeichnen und aus diesen Morphemen zusammengesetzt sind, wie jie21^ 'Mann der älteren Schwester'. Die reduplizierten Verwandtschaftsbezeichnungen werden als Anreden gebraucht und entsprechen dabei auch der Regel, daß Rufnamen im Chinesischen generell zweisilbig sind. Wörter aus der Babysprache wie gou21-gou 'Hündchen' gehören wohl ebenfalls in diese Gruppe. 5.) Verschiedenes: (92)
chang 35 -chang pian ss -pian ding ss -dang-ding ss -dang
Oft' 'stur' 'Glocken läuten'
Li & Thompson fuhren noch eine Gruppe verschiedenartiger reduplizierter Wörter auf, die sich ebenfalls dadurch auszeichnen, daß die nicht-reduplizierten Morpheme nicht allein vorkommen. Einige dieser Ausdrücke sind onomatopoetisch (siehe (92)). Die anderen gehören offenbar hauptsächlich in die Gruppe 2. Es ist unklar, ob die Tatsache, daß die nicht-reduplizierte Form nicht allein vorkommt, schon
198
die Aufstellung einer eigenen Gruppe rechtfertigt, da dies für die Wörter in Gruppe 4. auch gilt. (Wörterbücher enthalten übrigens die nicht-reduplizierten Ausdrücke als eigene Einträge.) Vor der Analyse der soeben aufgeführten Daten sollen einige Ergebnisse der Reduplikationsforschung vorgetragen werden. Gestützt auf die bisher erarbeiteten theoretischen Begriffe und die Analysen von McCarthy (1981), Marantz (1982) und Yip (1982) lassen sich die folgenden universalen Typen der Reduplikation unterscheiden. Die Aufzählung ist nicht exhaustiv und differenziert nach den verschiedenen reduplizierten Kategorien. 1.) Phonologische Reduplikation Wie McCarthy (1981) zeigt, ergibt sich eine Form der Reduplikation durch die CV-Muster und die normalen Assoziationsprinzipien immer dann, wenn einem Segment mehrere C- oder V-Elemente entsprechen. So wird im hebräischen Wort galal 'rollen (intr.)' sowohl l wie auch a durch Ausbreitung auf mehrere Positionen redupliziert, wie in (93) unter Verwendung der autosegmentalen Morphologie (siehe Einleitung, 2.5) dargestellt. Die in 1.2.3 besprochene Tonausbreitung kann in diesem Sinne auch als Reduplikation angesehen werden, wenngleich dies nicht das übliche Verständnis ist.
(93)
g
l
C V C V C
Diese Reduplikation, die man "phonologisch" nennen kann, da sie sich auf die phonologische Struktur von Morphemen bezieht, ist zu unterscheiden von der Reduplikation ganzer Ketten oder Knoten aus morphologischen Gründen. Solche Reduplikationen sind als Prozesse in der morphologischen Komponente vieler Sprachen zu finden, wenn auch nicht so häufig in den indoeuropäischen Sprachen. 2.) Morphemreduplikation Diese Form der Reduplikation kann wiederum, McCarthy (1981) folgend, am Biblischen Hebräisch illustriert werden. Bestimmte Wurzelmorpheme, z.B. gl aus (93) können redupliziert auftreten. Gleichzeitig wird-die Ableitungskategorie durch ein bestimmtes prosodisches Muster, hier C V C C V C , charakterisiert. Dann ergibt sich (McCarthy 1981: 408) für ein Wort wie gilgel 'rollen (tr.)' die Struktur (94). Reduplikation erfordert hier einzig die Abbildung eines Wurzelmorphems auf zwei Wurzelmorphempositionen auf einer separaten Schicht.
199
(94)
CVC
CVC
[Stamm] [Stamm]
V
[Stamm]
g Morphemreduplikation ist aber offenbar nicht auf bestimmte Typen (Stamm, Wort oder Affix) beschränkt. So nennt Moravcsik (1978) viele Beispiele für Sprachen, die ganze Wörter reduplizieren. Aus der Tatsache, daß auch andere Elemente der prosodischen Struktur redupliziert werden können, schließt McCarthy, daß jede wortinterne Kategorie (etwa auch Silben oder Füße) redupliziert werden kann. Die Theorie enthält die Beschränkung, daß nur Ketten, die irgendeine Konstituente bilden, redupliziert werden können. Dies ergibt sich daraus, daß nur prosodische oder morphologische Konstituenten Einheiten auf den morphologischen und phonologischen Schichten sein können und in einer Eins-zu-Viele-Beziehung auf eine zweite Schicht abgebildet werden können. 3.) Reduplikation der CV-Kette Wie jedoch Marantz (1982) zeigt, gibt es auch Reduplikationsprozesse, bei denen Ketten von CV-Elementen redupliziert werden ohne Rücksicht darauf, ob diese Ketten Konstituenten irgendwelcher Art bilden, siehe die Beispiele aus dem Agta in (95). (95)
a. takki 'Bein' b. ulu 'Kopf
taktakki 'Beine' ululu 'Köpfe'
Man beachte, daß das Pluralsuffix in (95b) nicht einmal eine Silbe bildet. Die Pluralformen entstehen in der Analyse von Marantz (1982: 445) etwa nach der Ableitung, die in (96) wiedergegeben ist. (96)
a. t a k k i
l l l l l
cvccv b.
ulu
vcv
takki l l l l l
Kopie
ulu
Koie
cvc + cvccv . rr.
1§ · ^ cvc+vcv
takki takki l l l l l l l l
cvc + cvccv ulu ulu I I l l l CVC +VCV
Der entscheidende Vorteil dieser Lösung liegt darin, daß Reduplikation als simple Affigierung einer CV-Kette verstanden werden kann; ebenso wie das wortfinale Schwa im Deutschen durch Affigierung von X (siehe 2.3.3) zustandekommt. Kompli-
200
zierte und unbeschränkte transformationelle Regeln sind nicht erforderlich. Die Segment-Melodie wird insgesamt auf die reduplizierte CV-Kette kopiert, wobei eine unterschiedliche Anzahl der Segmente einen Anker in Form eines passenden CV-Elementes findet. Nur diese 'verankerten' Segmente erscheinen auf der Oberfläche. Für die überwiegende Zahl der Reduplikationsfälle gilt zwar, daß prosodische oder morphologische Konstituenten redupliziert werden, aber dennoch sind auch andere Formen möglich, wie die Daten in (95) zeigen. Möglicherweise liegt hier eine markierte Form der Reduplikation vor. 3.3.1.2. Morphem- und Wortreduplikation im Chinesischen Kehren wir nach dem Exkurs in die Reduplikationstheorie zu den Fakten im Chinesischen zurück. Beim Vergleich der Gruppen l und 2 aus Abschnitt 3.3.1.1 fallen zwei Unterschiede auf, die ein Modell der Reduplikation erklären muß. Erstens erlauben die Verben in Gruppe l die Anwendung der Tonsandhiregel (siehe zhao35zhao aus zhao21), und zweitens werden zweisilbige Wörter in Gruppe l als Ganzes redupliziert und in Gruppe 2 silbenweise. In den Gruppen 3 und 4 gibt es keine zweisilbigen Ausdrücke, die redupliziert werden können. Die wenigen zweisilbigen Zähleinheitswörter lassen sich nach Li & Thompson (1981: 35) nicht reduplizieren, und die Verwandtschaftsbezeichnungen sind in der zweisilbigen Form bereits redupliziert. Außerdem sind Namen, wie gesagt, generell zweisilbig. Hinsichtlich der Tonsandhiregel verhält sich die Gruppe 3 wie die Gruppe l, während die Gruppe 4 der Gruppe 2 entspricht. Wir können also von zwei Typen der Reduplikation im Chinesischen sprechen. Typ I umfaßt die Verben und die Zähleinheitswörter, erlaubt Tonsandhi des 3. Tons und redupliziert zweisilbige Wörter (wenn sie überhaupt redupliziert werden können) als Ganzes. Typ II betrifft Adjektive und bestimmte Nomen, erlaubt kein Tonsandhi und redupliziert nur einzelne Silben. Reduplikation vom Typ I ist produktiver als die des Typs II. Die Tonsandhiregel verlangt zwei aufeinanderfolgende 3. Töne. Diese sind zwar in den reduplizierten Wörtern an der Oberfläche gar nicht vorhanden, aber die Anwendung von (84) in Wörtern wie zhao35-zhao erlaubt den Schluß, daß der zweite Teil einen 3. Ton trägt, der wegen der Unbetontheit der Silbe nicht an der Oberfläche erscheint. Die Typ I-Reduplikation muß also die zu reduplizierende Einheit mit ihren Tonmerkmalen erfassen. Zweitens darf diese Regel nicht auf einzelne Morpheme beschränkt sein, denn die zweisilbigen Wörter können aus zwei Morphemen bestehen. Das in (88) aufgeführte Wort tao21lunsl 'diskutieren' besteht z.B. aus zwei in vielen anderen Kombinationen auftretenden Morphemen. Diese Eigenschaften der Typ I-Reduplikation lassen sich dadurch adäquat darstellen, daß sie als eine Wortreduplikation analysiert wird. Die Reduplikation auf der Wortebene ist - analog zu den oben dargestellten Fällen der Morphemredu-
201
plikation im Hebräischen - die Abbildung eines Wortes (also einer Konstituente vom Typ X°) auf zwei Wortpositionen. Die dabei entstehende Struktur ist identisch zu der in der Komposition (siehe Einleitung (2)), so daß wir diesen Teil der Reduplikation einfach als Komposition betrachten können. Die beiden neuen Wortknoten erhalten dann eine phonetische Form durch die Kopie des gesamten mit X° verbundenen phonetischen Materials - hier also der segmentalen und der tonalen Information. Weiter ist nichts zu sagen, zweisilbige Wörter werden genauso behandelt wie einsilbige. Der Prozeß hat keinen Zugriff auf die interne Wortstruktur. (97) zeigt die Ableitung eines reduplizierten Wortes vom Typ I, wobei irrelevante Details der Morphemstruktur fortgelassen wurden.
(97)
X° l l Zha 21
°
Kompos. ->
X° /\ „ X° X° .
zhao21
Kopie -£
X° ff^~~ » „ X X° . . 6
zhao21
Tonsandhi -*·. , zhao 3S zhao Tonredukt.
T
zhao21
Diese Reduplikation ist an der Nahtstelle, dem 'interface', von Morphologie und Syntax angesiedelt. X°-Elemente treten als terminale Knoten in der Satzsyntax auf, gleichzeitig sind sie Elemente der Morphologie oder Wortsyntax, die im Lexikon enthalten sind oder erzeugt werden. Die X°-Ebene wird in (97) von der bereits eingeführten Morphem-Ebene getrennt. Diese Unterscheidung läßt sich durch eine Reihe weiterer Beobachtungen rechtfertigen. Erstens tritt das Suffix IKI (siehe Teil I, 2.7) nicht an Morpheme, sondern nur an Wörter. Wenn die Wort-Morphem-Unterscheidung im Chinesischen aufgehoben wäre, müßte unerklärt bleiben, unter welchen Bedingungen dieses Suffix auftreten kann.13 Zweitens gilt als generelle Beschränkung für die Morpheme, daß sie genau eine Silbe bilden, siehe I, (27). Für Wörter gilt dies aber keineswegs. Sie tendieren eher zur Zweisilbigkeit, obwohl auch Wörter mit mehr als zwei Silben auftauchen. Zweisilbige Wörter sind aber gegenüber einsilbigen und mehrsilbigen präferiert (siehe auch Richter 1973), was manchmal sogar die Hauptmotivation für eine Reduplikation zu sein scheint. Möglicherweise kann man daher so etwas wie ein generelles Schema der Art (98) für Wörter annehmen. Das Schema (27) stellt dann sicher, daß die Wörter zweisilbig erscheinen.
13) Hier tritt ein technisches Problem auf. So wie (97) formuliert ist. könnte das Suffix IKI auch an den ersten Bestandteil des Wortes (der ja auch ein Wort ist) treten. Ich nehme an, daß dies dadurch ausgeschlossen ist, daß im Lexikon des Chinesischen Komposition vor der Suffigierung angeordnet ist. Danach besitzt auch das Lexikon im Chinesischen mindestens zwei Ebenen!
202
(98)
X°
Ein weiteres Argument für (97) als Beschreibung der Typ I-Reduplikation liefert schließlich die Tatsache, daß diese reduplizierten Ausdrücke manchmal durch eine Partikel voneinander getrennt werden können, wie unter (88) erwähnt. Es ergibt aber wenig Sinn, anzunehmen, daß Morpheme in einem Wort durch ein weiteres Wort getrennt werden können. Für Wörter ist dies schon eher denkbar. Allerdings sind an dieser Stelle Alternativen zur gewählten Lösung zu diskutieren. Trennbarkeit ist nämlich in erster Linie eine Eigenschaft von syntaktischen Konstituenten. Eine Konstituente wie [ ° X°] ist aber eher ein komplexes Wort, also ein Produkt des Lexikons. Wegen der Trennbarkeit der reduplizierten Verben ist daher auch eine Analyse der Form [ ° X°] möglich, die die Typ I-Reduplikation vollends in den Bereich der Syntax verweisen würde. Zu berücksichtigen ist aber, daß die reduplizierten Wörter formal gesehen DoppelkopfKomposita sind. Sie sind nach der Auffassung von Wunderlich (1986) in eine Reihe weiterer Konstruktionen wie die in (99) zu stellen. (99)
zhen ss -qie sl wirk- sicher lieh
'echt'
kuai33 - man31 schnell langsam
'Geschwindigkeit'
gousl-mai21 kaufen kaufen
'kaufen'
Wie in reduplizierten Wörtern läßt sich auch hier kein Kopf der Konstruktion ausmachen. Da solche Doppelkopf-Komposita zwar universell zugelassen, aber gegenüber der generellen Wortbildungsregel markiert sind (Wunderlich 1986), verhalten sie sich möglicherweise auch gegenüber der Trennbarkeit anders als "normale" Komposita. Ich will daher vorerst die in (97) vorgenommene Analyse beibehalten, da diese mit dem universalen Muster der Konstituentenreduplikation kompatibel ist. Denkbar ist natürlich auch, daß Ausdrücke wie zhao-yi-zhao und zhao-le-zhao einer anderen Kategorie angehören als zhao-zhao. Ein Ebenen-Modell für das Lexikon des Chinesischen ist hier (oder anderswo) nicht entwickelt worden. Wenn ein solches Modell angenommen würde, ließe sich die Typ I-Reduplikation wohl auf der letzten lexikalischen Ebene ansiedeln; siehe auch FN 13.
203
Rekapitulieren wir die Eigenschaften der Typ II-Reduplikation. Sie betrifft Adjektive und bestimmte Nomen, insbesondere Verwandtschaftsbezeichnungen. Bei Wörtern im 3. Ton wird die Tonsandhiregel (84) nicht angewandt, was nahelegt, daß die Regel nicht auf der Ebene des Lexikons existiert, auf der die Reduplikation zu finden ist. Zweisilbige Wörter schließlich sind entweder nicht reduplizierbar oder werden Silbe für Silbe redupliziert. Dabei gibt es - in völlig unvorhersehbarer Verteilung - drei Möglichkeiten, wie in (lOO) demonstriert. (100)
beng55 beng55 cui31 pu21 pu tong55 tong 55 leng21 bing55 bing55
'knusprig' 'normal' 'eiskalt'
Ein Adjektiv der Form XY kann also als XXY, XXYY oder als XYY redupliziert werden, niemals aber als XYXY - also als Reduplikation des ganzen Wortes (siehe Yip 1980: 42). Schließlich gilt noch, daß die Typ II-Reduplikation mehr idiosynkratische Eigenschaften aufweist als die vom Typ I. Während Typ I-Wörter produktiv reduplizierbar sind (soweit sie einsilbig sind), gibt es im Typ II idiosynkratische Beschränkungen. So ist hao21 'gut' reduplizierbar, huai21 'schlecht' dagegen nicht. Diese Eigenschaften werden geradezu notwendige Eigenschaften dieser Reduplikation, wenn die folgende Analyse vorgenommen wird: Typ II-Reduplikation operiert im Lexikon auf einer früheren Ebene als die Typ I-Reduplikation, und zwar auf der Ebene, auf der aus Morphemen Wörter gebildet werden. Die Reduplikation kann daher in die Wortstrukturen hineinoperieren und redupliziert Morpheme in einer lexikalisch festgelegten Wortklasse und (für die zweisilbigen Wörter) in einer individuell spezifizierten Form. Die Reduplikation ist auch hier formal eine Komposition, die dem Schema (98) entspricht. Die Morpheme sind nach den in Kapitel I, 2 erläuterten Prinzipien mit Silbenknoten verknüpft. Die reduplizierten Silben erhalten ihr phonetisches Material (die Segmente und u.U. die Töne) durch die universale Konvention des Kopierens (siehe auch (97)). Diese Reduplikation wird in (lOl) mit dem Wort man35 illustriert. Es bleibt in diesem Modell unklar, wie in Zweisilbern die Töne des reduplizierten Teils Zustandekommen. Dieses Problem kann schon deshalb nicht gelöst werden, weil die Fakten unklar sind. Die Angaben von Li & Thompson (l98l) und Yip (1980) differieren gerade in diesem Punkt. Ich gehe davon aus, daß die Töne entweder (aufgrund einer Akzentreduktion) zu neutralen Tönen werden oder zu dem Ton der "Quelle" zumindest phonologisch identisch sind.14 14) Die Darstellung in (10l) macht besonders deutlich, daft die hier verwendeten nichtlinearen Repräsentationen räumlich gesehen dreidimensionaler Natur sind. Die Tonmerkmale gehören auf eine völlig andere Ebene als die Wortstrukturen über .
Die Töne werden nach dieser Analyse mitkopiert, aber nicht notwendigerweise (wegen der Akzentreduktion) realisiert. Da eine Morphemstruktur wie (23) angenommen wird, nach der die Morpheme und nicht die Silben mit Tönen assoziiert sind, erfaßt der Kopiere-Prozeß alle mit dem -Knoten assoziierten phonologischen Merkmale (ob segmental oder tonal) gleichermaßen. Die Tonsandhiregel (84) hat keine Anwendungsmöglichkeiten, weil sie auf der (frühen) Ebene, auf der die Morphemreduplikation zu finden ist, nicht definiert ist. Typ -Reduplikation hat also ebenfalls die Eigenschaften, die nach McCarthy und Marantz für universale Reduplikationsprozesse gelten. Einzelsprachlich ist nur festzulegen, daß Tür bestimmte Wörter und Wortklassen die Stämme im Lexikon reduplizierbar sind.15 Diese Festlegung ist von der gleichen Art wie die über die lexikalisierten Wortbildungen aus zwei verschiedenen Morphemen. Ausgangspunkt dieses Kapitels war das unterschiedliche Tonverhalten der reduplizierten Wörter und die nicht befriedigende Tonregel Chengs in der Formulierung (87). Das autosegmentale Modell der Reduplikation ermöglicht es, die zwei Formen der Reduplikation so darzustellen, daß nur Elemente in die Theorie eingeführt werden, die auch aus anderen, unabhängigen Gründen benötigt werden. Die Wortgrenze in der Tonsandhiregel ist nicht erforderlich; es wird lediglich die Anweisung im Lexikon benötigt, daß zwei verschiedene Konstituenten, der Stamm und das Wort, Reduplikation zulassen. Betrachten wir nach dieser Analyse der Reduplikation noch einmal die "vokallosen" Wörter wie [sz] oder Ctszl, die in Kapitel I, 2.4 diskutiert wurden. Die dort in (16) dargestellte Analyse ist unvollständig, da nicht erklärt wurde, wie das silbische Segment an seinen Platz gekommen ist. Die in diesem Kapitel vorgestellte Analyse eröffnet nun die Möglichkeit, auch in diesem Fall eine Reduplikation, genauer gesagt, eine Kopie des segmentalen Materials, anzunehmen. V hat, da /i/ in dem Kontext nicht vorkommen kann, kein Vokalsegment zur Verfügung. So wie sich die reduplizierten Kategorien oder CV-Ketten eine segmentale Melodie "aus15) In früheren Versionen dieser Analyse wurde die Typ II-Reduplikation von mir als Silbenreduplikation angesehen. Diese Lösung kann jedoch die Reduplikation nicht unter die allgemeinen Wortbildungsregeln des Chinesischen subsumieren und führt auch bei der Behandlung der Töne zu Problemen. Im übrigen gilt nach Marantz (1982), daß Silbenreduplikation sehr selten ist.
205 leihen", erhält auch V ein Segment durch Kopie des benachbarten Materials. Diese Analyse löst auch ein in Kapitel I, 2 übergangenes Problem, nämlich daß der Frikativ im Silbenanlaut stimmlos ist, während der silbische Frikativ stimmhaft sein muß. Wir können dieses Problem technisch nun so lösen, daß V mit dem Merkmal [+ stimmhaft] präassoziiert ist. Diese Festlegung hat Vorrang vor dem vom Frikativ mitgebrachten Wert [- stimmhaft] und überschreibt diesen gleichsam; siehe McCarthy 1981 und Marantz 1982 Für ähnliche Fälle in anderen Sprachen. Allerdings sind weitere Beispiele dieser Art zu studieren, bevor hier Genaueres gesagt werden kann. Anstelle von (16) soll jedenfalls eine Ableitung vorgeschlagen werden, die in (102) anhand des Wortes [tsz] ci illustriert wird.
o
(102)
/\ C V
t s
o Kopie -^
/\ C V
t s z
Ein weiterer Unterschied im Verhalten der CV-Schicht vs. der Segmente läßt sich an diesem Punkt festhalten. CV-Positionen haben eine derart zentrale Funktion in der Phonologic verschiedener Sprachen, daß die Grammatiken Mechanismen bereitstellen, um leere Positionen mit Material zu versehen. Dazu gehören die Schwa-Epenthese (33b) im Deutschen, die leere V-Positionen "auffüllt", und der Kopier-Mechanismus im Chinesischen und anderen Sprachen. Umgekehrt werden nicht-assoziierte Segmente einfach ignoriert, siehe die Rolle des stray erasure in Abschnitt 3.2.3. 3.3.2. Die Domäne des Tonsandhi Das zweite oben genannte Problem in bezug auf die Tonsandhiregel ist deren Anwendungsdomäne. Es gibt eine aktuelle Diskussion in der Literatur über dieses Problem. Theoretischer Hintergrund der Diskussion ist die Frage nach der adäquaten Beschreibung der postlexikalischen Regeln und der Möglichkeit, eine prosodische Struktur neben der syntaktischen als Beschreibungsebene heranzuziehen. Cheng (1973) und Kaisse (1985) behaupten die Notwendigkeit einer syntaktischen Charakterisierung der Domäne, während Selkirk (1984b) für eine Beschreibung in Begriffen der Gitterkonfiguration, also als eine bestimmte prosodische Einheit, argumentiert. Die Sandhiregel (84) erfordert ganz offensichtlich ein bestimmtes Maß an 'Kohäsion' zwischen den zwei beteiligten 3. Tönen. Das Problem ist eben, wie diese Kohäsion zu beschreiben ist. Die grundlegenden Daten zu diesem Problem sind von Cheng (1973: 48) vorgestellt worden. Aus nicht ganz klaren Gründen betrachten sowohl Selkirk (l984b: 328) als auch Kaisse (1985: 172) nicht den ganzen Bereich der Daten. Es mag, wie Kaisse andeutet, eine fragwürdige Akzeptabilität
206
einiger Varianten des folgenden Satzes geben, aber wahrscheinlicher ist, daß die Fakten so sind, wie sie von Cheng präsentiert werden.16 Der in (103) präsentierte Satz besteht aus lauter Wörtern im 3. Ton. In den Varianten (l03a-d) wird der Satz in unterschiedlicher Weise in Phrasen zerlegt. Der sich jeweils ändernde Ton ist in den verschiedenen Varianten angegeben. Dabei wird angenommen, daß die durch die Klammern markierten Phrasen vorhanden sind. (103) a. b. c. d.
Lao21 [ 35 [ 35 C 35 [ 35
Li21 mai21 hao21 ][ ][ 35 35 ][ 35 ][ 35 35 35 35 35
jiu21 ] ] ] ]
'Alter Li kauft guten Wein'
Wie die Regel (84) voraussagt, kann der jeweils letzte Ton in einer Phrase niemals wechseln. Im übrigen wird jeder nicht-phrasenfinale tiefe Ton zu einem steigenden. Insgesamt steigt mit fallender Zahl der Phrasen pro Satz die Sprechgeschwindigkeit; (l03a) wird also in einem sehr langsamen Tempo, (l03b, c) in einem mittleren und (l03d) in einem schnellen Tempo realisiert. Dieses letztere Faktum können wir als einen ersten Hinweis darauf nehmen, daß es sich hier um ein der Prosodie zugehöriges Phänomen handelt. Die syntaktische Struktur eines Satzes ist, nach allen in der Sprachwissenschaft gängigen Annahmen, von dem Sprechtempo unabhängig. Für die Prosodie gilt diese Unabhängigkeit möglicherweise nicht. Prosodische Gliederung und Sprechtempo können sehr wohl miteinander korrelieren. Die Variante (l03b) ist die entscheidende für die Frage nach der syntaktischen oder prosodischen Formulierung der Beschränkungen. 17 Das Tonsandhi auf dem Nomen Li vor dem Verb zeigt an, daß die Domänenzerlegung so sein muß wie in (103) angegeben. Aber die Phrasierung entspricht nicht der syntaktischen Konstituentenstruktur, während in allen anderen Varianten die Domänenzerlegung zur syntaktischen Struktur isomorph ist. In der Version (l03d) besteht der ganze Satz aus einer einzigen Phrase. Man beachte, daß diese Version, nach der Beschreibung von Cheng, mit einer höheren Sprechgeschwindigkeit geäußert wird. Dann können sich alle Töne außer dem letz16) In dieser Auffassung hat mich Jiang Hailin als Informant bekräftigt, der die Urteile von Cheng bestätigt. 17) Gerade dieser Satz wird von Selkirk und Kaisse nicht herangezogen. Diskussionen mit meinem Informanten haben mich aber Überzeugt, daß er zwar pragmatisch gesehen markiert, unter den geeigneten Kontextbedingungen aber akzeptabel ist. Fairerweise sollte hinzugefügt werden, daß Kaisse eine Reihe von Sätzen diskutiert, die ich hier nicht herangezogen habe. Dies sind insbesondere Sätze mit einem satzeinleitenden Komplementierer. Der prosodische Status solcher Elemente ist ungeklärt.
207
ten verändern, wie es von Regel (84) vorausgesagt wird. Neben der Frage nach den Domänen sind die Daten in (103) auch von Bedeutung für den Modus der Regelanwendung. Offenbar muß die Tonsandhiregel in einer Domäne simultan oder von links nach rechts (iterativ) angewendet werden. Falls die Regel zyklisch von innen nach außen operieren würde, wäre es nicht möglich, z.B. den Ton auf mai21 in (I03c) zu verändern, da die Bedingung für die Regelanwendung durch die vorherige Veränderung des folgenden Tones zerstört würde. Dieser Modus der Regelanwendung kontrastiert also mit der zyklischen Regelanwendung, die wir für das Lexikon konstatiert haben. In diesem Abschnitt wurden zwei Argumente für eine Zuweisung der Tonsandhiregel (84) zu der prosodischen Komponente aufgeführt. Erstens korreliert die Regel mit der Sprechgeschwindigkeit, und zweitens gibt es Anwendungsdomänen für die Regel, die nicht den syntaktischen Phrasen entsprechen. Die relevanten Einheiten sind hier möglicherweise die phonologischen Phrasen, die in der Einleitung in (19) vorgestellt wurden.18 Diese phonologischen Phrasen werden auf der Basis der syntaktischen Struktur konstruiert, und zwar nach Regeln, die etwa von Nespor & Vogel (1982), Culicover & Rochemont (1983) und Selkirk (l984b) beschrieben worden sind. Eine mögliche Vorstellung ist, daß der Übergang von der Postlexikalischen Phonologic l zu der Postlexikalischen Phonologic 2 gerade in der Überführung der syntaktischen in prosodische Strukturen besteht. Ein weiteres Argument für die Zuweisung der Tonsandhiregel zur Postlexikalischen Phonologic 2 besteht darin, daß sie vollkommen blind ist gegenüber syntaktisch-kategorialer Information; d.h. sie ist gleichermaßen anwendbar zwischen Wörtern aller Kategorien. Man vergleiche diese Situation mit den Bedingungen Tür die Klitisierung im Deutschen, wo sehr deutliche kategoriale Beschränkungen für das Klitikum und dessen Nachbarn existieren. Es läßt sich also der Schluß ziehen, daß die Postlexikalische Phonologic 2 gerade dadurch definiert ist, daß sie Repräsentationen besitzt, die keine syntaktisch-morphologischen, sondern prosodischphonologischen Informationen enthalten. 3.4. Schlußfolgerungen In diesem Kapitel wurden zwei phonologische Phänomene zusammenhängender Rede analysiert. Sowohl die Klitisierung im Deutschen wie das Tonsandhi im Chinesischen beinhalten eine Formveränderung eines Wortes in einem passenden Kontext. Genauere Analyse zeigt jedoch, daß die beiden Phänomene unterschiedlichen Bedingungen unterliegen. Die Klitisierung im Deutschen kann lexikalisch oder postlexikalisch stattfinden; auch postlexikalisch unterliegt sie syntaktisch-morphologischen Beschränkungen. Das untersuchte Tonsandhi findet sich nur postlexikalisch und unterliegt ausschließlich prosodisch-phonologischen Bedingungen, da nur die 18) Es liegen allerdings keine Argumente dafür vor, ob es sich nicht eher um die Intonationsphrasen handelt.
208
Information über die vorhandenen Töne und die Grenzen der phonologischen Phrasen erforderlich ist. Da diese Verteilung Für viele andere Phänomene in vielen Sprachen ebenfalls zu finden ist, rechtfertigt sie die Annahme zweier postlexikalischer phonologischer Komponenten, wie in (6l) geschehen. Außerdem sind die beiden vorgeschlagenen Analysen Beiträge zu einer verstärkten Modularität in der Grammatik. Es war ein der konkreten Sprachbeschreibung übergeordnetes Ziel der Analysen, unmotivierte Interaktionen zwischen Komponenten wie der Syntax, der Phonologic und dem Lexikon auszuschalten. So wird für das Deutsche keine syntaktische oder morphologische Klitisierungsregel angenommen, die ein im Grunde phonologisches Phänomen, das der Klitisierung, erklären muß. Prinzipiell sind Analysen niedrig zu bewerten, in denen ein syntaktischer Mechanismus ohne eine syntaktische Motivation eingeführt werden muß. In ähnlicher Weise muß die Tonsandhiregel in der Grammatik des Chinesischen trotz der komplexen Interaktion mit der Reduplikation keinen Bezug auf syntaktische oder lexikalische Grenzen nehmen. Völlig unabhängige Prinzipien führen zu einer Konstellation, in der die Sandhiregel in der prosodischen Komponente frei angewandt werden kann. Die Ausführungen zur Phonologic der Silbe in Teil I habe ich mit Sprachverhaltensbeobachtungen zur Silbe begonnen; die Darstellung der lexikalischen vs. postlexikalischen Phonologic will ich daher mit Überlegungen zu solchen Verhaltenskorrelaten beenden. Es ist gelegentlich in der Literatur vermerkt worden (siehe etwa Mohanan (1986) und Kaisse & Shaw (1985)), daß lexikalische Regeln einen gänzlich anderen Status im Bewußtsein der Sprachbenutzer haben als postlexikalische. An drei Beispielen soll diese Behauptung belegt werden. Erstens gilt, daß Sprecher einer Sprache sich der Anwendung lexikalischer Regeln stärker bewußt sind. So ist es leicht, einen Sprecher des Deutschen davon zu überzeugen, daß in Atem oder Segen ein Vokal (Schwa) vorliegt. Viel schwieriger ist es aber, ihm oder ihr zu verdeutlichen, daß der finale Konsonant in diesen Wörtern auch ohne Vokal, also silbisch, vorkommen kann, obwohl dies in der gesprochenen Umgangssprache der Normalfall sein wird. Dieser Unterschied deckt sich aber exakt mit der Zuweisung der entsprechenden Regeln zur lexikalischen bzw. postlexikalischen Komponente. Eine zweite Auswirkung im Sprachverhalten betrifft das Verhältnis von Regeln und Normen. Generell scheint zu gelten, daß lexikalische Regeln in allen normativen Standards gleichermaßen gelten. Dagegen können manche postlexikalischen Regeln als dem Substandard zugehörig normativ ausgeschlossen werden. Dies gilt etwa für die postlexikalischen Klitika des Deutschen. Die silbischen Konsonanten sind nur deshalb nicht gleichermaßen sanktioniert, weil sie, wie oben ausgeführt, kaum im Bewußtsein der Sprecher liegen.
209
Ein dritter offensichtlicher Unterschied liegt in der Behandlung der phonologischen Prozesse in der Schrift. Es ist offensichtlich der Fall, daß die Ergebnisse lexikalischer Regeln in der Orthographie des Deutschen markiert werden, siehe etwa den Umlaut, Formen wie im, zum, etc. oder das Graphem für den Schwa. (immer wenn Schwa möglich ist, steht , auch dann wenn es nicht realisiert wird.) Die Ergebnisse postlexikalischer Regeln werden dagegen praktisch nie in der Orthographie enkodiert. Dies gilt u.a. für die Auslautverhärtung, die Zuweisung von Aspiration zu Plosiven, die Silbifizierung der Sonoranten und insofern auch für die postlexikalischen Klitika, als diese nur mit speziellen Konventionen (den Apostroph in Formen wie aufe) verschriftet werden können. Das gleiche Muster findet sich im Chinesischen wieder: Sogar die relativ phonetisch orientierte und von Sprachwissenschaftlern geschaffene Pinyin-Umschrift notiert zwar die lexikalischen Töne, im allgemeinen nicht aber die postlexikalischen Tonveränderungen, die durch die Tonsandhiregeln erfaßt werden. Hier schließen sich zahlreiche mögliche Folgerungen an, z.B. über den Zusammenhang von Laut und Schrift (ausführlicher behandelt in Wiese (l987a)) oder über die Untersuchung von Sprachnormen. Ich schließe dieses Kapitel aber einzig mit der Feststellung, daß einige Daten aus dem Sprachgebrauch und den Alltagstheorien zur Sprache durchaus externe Evidenz für die Realität der wichtigsten hier getroffenen Unterscheidung liefern können.
210
4. Schlußbemerkungen: Weiterentwicklungen in der Theoriebildung der Phonologic 4.1. Regeln und Repräsentationen Die Phonologic kann man als ein System von Regeln und Repräsentationen betrachten, wobei diese Objekte in eine besondere Wechselwirkung treten. Viele Theorien konzentrieren sich auf den einen oder anderen Bereich, manchmal bis zur Leugnung des jeweils anderen Objektbereiches, so in denjenigen Varianten des Strukturalismus, die die Existenz von Regeln bestreiten. Umgekehrt kann man sagen, daß in SPE die Bedeutung der Regeln deshalb so groß war, weil eine relativ arme Repräsentation angenommen wurde. Unabhängig von solchen Festlegungen gilt grundsätzlich, daß geänderte Annahmen über die phonologische Repräsentation Konsequenzen für die Regelformulierungen und die erforderlichen Regeltypen haben. Im Idealfall soll die Repräsentation so beschaffen sein, daß sich Regeln ergeben, die maximal einfach sind und nur Eigenschaften besitzen, die sich in der Analyse motivieren lassen. Die Ersetzung der segmentalen Repräsentation durch ein relativ komplexes System nichtlinearer Strukturen führt auch zu der Frage nach dem Status des Phonems in einer solchen Theorie. Wenn etwa, wie mir eindeutig erwiesen scheint, ein langer Vokal als ein einzelnes Merkmalsbündel, das aber mit zwei Positionen auf einer separaten Schicht assoziiert ist, repräsentiert werden soll (siehe I, 3.3 und (la)), stellt sich die Frage, was das Phonem ist: das segmentale Merkmalsbündel, die C- und V-Positionen oder die gesamte Konstellation. Analoges gilt für komplexe Segmente wie die Affrikaten (ib).
(l) a.
V C
V a
b.
C t s
Es ist aufschlußreich, an diesem Punkt auf Trubetzkoys klassische Grundlegung der Phonologie zurückzukommen. Im Kontext der Gewinnung des Phonembegriffs erklärt Trubetzkoy (1939: 34), daß es keinen Sinn ergebe, einen langen Vokal in eine Folge zeitlich kürzerer Einheiten zu zerlegen. Die Einführung des Phonems geschieht im unmittelbar folgenden Satz: "Phonologische Einheiten, die sich vom Standpunkt der betreffenden Sprache nicht in noch kürzere aufeinanderfolgende Einheiten zerlegen lassen, nennen wir Phoneme." Lange Segmente einerseits und komplexe Segmente wie Affrikaten andererseits sind immer schon die Problemfälle der Phonemtheorien gewesen. Der Strukturalismus in der Phonologie sowohl in seiner nordamerikanischen als auch in seiner europäischen Ausprägung war wesentlich eine Phonemtheorie. Das phonologische System einer Sprache wurde vor allem als eine Menge in Opposition zueinander stehender Phoneme angesehen. Die Phonologie wurde gerade dadurch
211
eine Wissenschaft, daß die Phoneme als die Invarianten im vielfältigen und unüberschaubaren Lautstrom auf methodisch kontrollierte Weise herausgearbeitet werden konnten. In der weiteren Entwicklung der phonologischen Wissenschaft ist nun dieser Phonembegriff in zweifacher Weise aufgebrochen worden. Die erste Attacke stammt aus der generativen Phonologic, z.B. in SPE und vorher bei Halle (1959) und Chomsky & Halle (1966). Hier wurde demonstriert, daß wesentliche Generalisierungen auf der Basis des strukturalistischen Phonembegriffs nicht ausdrückbar sind. So muß der finale Obstruent in Rad wie in Rat auf das Phonem /t/ zurückgeführt werden. Eine Analyse, die hier die zugrundeliegenden Ketten IKardl vs. IKa:tl plus einer Auslautverhärtungsregel annehmen kann, ist erst in der generativen Phonologic möglich. Die strukturalistische Phonemanalyse kann allenfalls feststellen, daß stimmhafte Phoneme im Auslaut nicht vorkommen. Dieses Beispiel zeigt ebenfalls, daß die zugrundeliegenden Segmente in der generativen Analyse (manchmal 'systematische Phoneme' genannt) nicht mit den Phonemen der Phonemanalyse identisch sein müssen. Die in den nichtlinearen Theorien vorgenommenen Erweiterungen der phonologischen Repräsentation, von denen einige in dieser Arbeit vorgestellt und verwendet wurden, liefern nun eine weitere Aufweichung des Phonembegriffs. Es muß nicht nur zwischen zugrundeliegenden, intermediären und oberflächlichen Phonemen differenziert werden, es gibt außerdem verschiedene Schichten, auf die die Information, die klassischerweise einem Phonem zugeordnet wird, verteilt ist. Die Phonologic ist damit weit mehr als eine Disziplin, die Phoneme und deren Allophone ermittelt. Sie ist vielmehr auch eine Wissenschaft sehr spezieller Strukturen, eben der phonologischen Repräsentationen, in denen sich eine Anzahl von Kategorien auf Substrukturen (etwa Schichten) anordnet und nach Prinzipien der Assoziation miteinander verknüpft. Die in dieser Arbeit dazu gemachten Vorschläge sind sicherlich nur geringe Weiterentwicklungen auf dem in der nichtlinearen Phonologic eingeschlagenen Weg. Fragen der Regeln und Repräsentationen betreffen auch die Organisation der phonologischen Komponente. Eines der sehr aktiven Forschungsgebiete der gegenwärtigen Phonologic ist die Lexikalische Phonologic, von der hier eine spezifische Variante anhand des Deutschen entwickelt und begründet wurde. Subkomponenten in einem solchen Modell sind sowohl durch spezielle Eigenschaften der Regeln wie durch spezifische Repräsentationen definiert. Auch hier gilt aber, daß zahlreiche Modifizierungen denkbar und wohl auch angemessen sind. Eine soll gleich vorgestellt werden. Die Analyse von Schwa und Klitisierungsphänomenen im Deutschen hat in beiden Fällen ergeben, daß bestimmte phonologische Regeln über mehrere Ebenen und Komponenten verteilt operieren können. Die Schwa-Epentheseregel wird, wenn auch für unterschiedliche Klassen von Lexemen, in den Lexikonebenen l bis 3 angewandt und außerdem, wie in 3.2 gezeigt, auch postlexikalisch. Die Tilgungsregel
212
für die klitischen Formen des Deutschen wird offenbar in der letzten lexikalischen Ebene und postlexikalisch angewandt. Damit ist aber die strenge Zuordnung von phonologischen Regeln zu Ebenen bzw. Phonologiekomponenten in Frage gestellt. Es scheint, anders als in den Modellen (39) und (6l) angenommen, der Normalfall zu sein, daß Regeln eine größere Anwendungsdomäne besitzen als eine einzige Ebene. Nimmt man noch die Beobachtung hinzu, daß die Ebenen im Lexikon grundsätzlich durch morphologische und nicht durch phonologische Regularitäten definiert sind, sollte konsequenterweise das Modell der Lexikalischen Phonologie in der folgenden Weise konzipiert werden: - Das Lexikon enthält morphologisch definierte und durch morphologische Regularitäten und Kategorien begründete Ebenen. Je nach morphologischer Komplexität der Sprache sind dies unterschiedlich viele. - Eine einzige phonologische Komponente enthält phonologische Regeln, für die die Ebenenzuordnung festgelegt sein kann. Nach Anwendung einer Wortbildungsregel wird die phonologische Komponente auf Regeln abgefragt, die erstens für die betreffende Ebene im Lexikon markiert sind, und auf die zweitens die vorliegende Strukturbeschreibung zutrifft. Vermutlich müssen nicht alle Regeln für die Ebene ihrer Anwendung markiert werden. Vielleicht ist die Markierung nur für das Lexikon erforderlich. - Auch die postlexikalische Phonologie hat Zugang zu dieser Komponente, die die phonologischen Regeln enthält. Damit ergibt sich ein leicht verändertes Grammatikmodell, das in (2) skizziert wird (siehe auch Pulleyblank (1986: 6)). Der Unterschied zu den in Kapitel II, 2 und 3 vorgestellten Modellen besteht darin, daß jetzt die Phonologie wieder ein eigenes Modul in der Grammatik ist, eines, auf das andere Module in kontrollierter Art und Weise zugreifen können. Außerdem habe ich in (2) eine Komponente hinzugefügt, die aus den syntaktischlexikalischen Strukturen prosodische erzeugt. Die Notwendigkeit dieser Konzeption ergibt sich durch Phänomene wie das Tonsandhi im Chinesischen. Es muß eine Komponente geben, die die erforderlichen phonologischen Phrasen generiert, und zwar vermutlich auf der Basis syntaktischer Strukturen.
213
Lexeme
(2)
LEXIKON
I Morphologie l
Regel l (Ebene i) Regel 2 (Ebene i, j)
SYNTAX l Morphologie n l
Regel n Lexikalische Einsetzung
PHONOLOGIE
Postlexikalische Phonologic l Semantische Interpretation
Prosodische Strukturen Postlexikalische Phonologic 2 Phonetische Realisierung
4.2. Die Modularität der Phonologic In diesem abschließenden Teil sollen die Untersuchungsergebnisse unter einem anderen Gesichtspunkt gewürdigt werden, dem der Modularität in der Phonologic. Ein Problem, das in diesem Zusammenhang zu nennen ist, ist das der Beschreibung der Klitika. Klitische Phänomene stellen häufig ein Problem für die Grammatiktheorie dar; denn Klitika zeigen sowohl Eigenschaften selbständiger Wörter wie Eigenschaften abhängiger Wortbestandteile (Affixe). Ein Klitikum wie de Tür du mag dies verdeutlichen. Einerseits möchten wir den Ausdruck aus Gründen der Syntax (Distribution) wie der Semantik als eigenständiges Wort auffassen. Andererseits kann de nicht alleine vorkommen und bildet eine phonologische Einheit mit seinem Nachbarn. Die Existenz des Begriffes "Klitikum" verdankt sich der Tatsache, daß sich die entsprechenden Phänomene gegen die eindeutige Einordnung in die gängigen Klassifikationen der Grammatiktheorie (Wörter, Stämme, Affixe, Phrasen) sperren (siehe zu diesem Problem auch Zwicky (1977) und Anderson (l985a)). Die hier unternommene Analyse der deutschen Klitika ist ein Beitrag zur deutlicheren Modularität der Grammatik, weil sie den Versuch darstellt, in der Grammatik ohne die Kategorie des Klitikums, die keine eindeutige Zuordnung zu den Grammatikkomponenten zuläßt, auszukommen. Wir können zwar bestimmte
214
Oberflächenphänomene als Klitika bezeichnen, die verschiedenen Komponenten der Grammatik kommen jedoch gänzlich ohne diese Kategorie aus. Wenn sich diese Analyse als annähernd richtig erweist, ist damit ein wichtiger Schritt zu dem angestrebten Ziel, die Modularisierung der Grammatik bzw. ihres phonologischen Teils weiterzuentwickeln, getan. Die Vorteile dieses Konzepts und die Wirkung der in den vorangegangenen Kapiteln entwickelten Prinzipien seien daher noch einmal an einem Beispiel verdeutlicht. Für das Deutsche gilt, daß zwar Wörter mit [j] plus folgendem Vokal existieren (ja, jeder, Junge, Johann, Jüngling), die Kombination [jiü im Anlaut aber ausgeschlossen ist. Nun ist es natürlich möglich, diese Tatsache einfach durch einen Filter zu erfassen, der eben diese Kombination verbietet: (3) *
l·'
Eine anders geartete Lösung, die jeden Bezug auf dieses sehr spezielle Faktum vermeidet, ist in dem hier gewählten Rahmen aber ebenfalls möglich. Nehmen wir an, daß [j] wie die übrigen Gleitlaute ein vokalisches Segment ist, das aber mit einer C-Position assoziiert ist. Soweit ich sehe, spricht nichts gegen diese Annahme. Sie würde auch den ambigen Status von [j] zwischen Konsonanten und Vokalen erklären. Es ist zwar richtig, daß ein prävokalisches [j] nicht identisch ist mit einem postvokalischen, aber es ist nicht unplausibel, diesen Unterschied auf eine unterschiedliche phonetische Realisierungsregel, die eben auf die Position des Segmentes in der Silbe Bezug nimmt, zurückzuführen. Dialekte des Deutschen, die [ji] zulassen (Berlinerisch Gisela, gib) besitzen vielleicht ein /j/ als Frikativ, also mit einer anderen segmentalen Spezifizierung.1 Unter dieser Voraussetzung wird die Kombination [ji] im Silbenanlaut unmittelbar durch das in Teil I, (28) eingeführte Prinzip der Obligatorischen Kontur ausgeschlossen. Nach diesem Prinzip ist es ja unmöglich, daß auf der Segmentschicht zwei identische Segmente, in diesem Fall /i/, unmittelbar nebeneinander stehen. Für den Ausschluß von [ji] wirken im vorliegenden Modell zwei Prinzipien zusammen: Erstens erlaubt die CV-Phonologie die Repräsentation von /j/ als einem mit C assoziiertem Segment /i/. Zweitens gilt das Prinzip der Obligatorischen Kontur. Beide Elemente zusammengenommen führen sofort zum Ausschluß der fraglichen Lautkombination. (Daß der "Konsonant" /j/ einen besonderen Status in der Phonotaktik besitzt, sieht man auch daran, daß er zumindest zugrundeliegend in keinem Anlautcluster auftritt.) l) Die Kombination [ji] kann nicht durch die Sonoritätsbeschränkungen ausgeschlossen werden, da Cju] und Cjy] möglich sind, wo der gleiche Sonoritätsabsland vorliegt. Erwähnt sei auch, daß mindestens das Wort jiddisch eine Ausnahme zu der Beschränkung ist. Möglicherweise ist /j/ hier ein echter Konsonant, ein Frikativ.
215
Eine modulare Sprachtheorie muß vor allem die Module benennen können, ihre internen Eigenschaften beschreiben und angeben, welche Interaktion zwischen den Modulen möglich ist. Es ist auch nicht von vornherein klar, daß die klassischen Abgrenzungen in der Grammatik uns die wesentlichen Module liefern. Ein Beispiel für letztere Behauptung liefern die extrasilbischen Segmente und die extrametrischen Silben oder Segmente. Wie sich den Abschnitten I, 3.8 und 3.9 entnehmen läßt, gelten grundlegende Beschränkungen für Extrasilbizität ebenso wie für Extrametrikalität. Daraus läßt sich der Schluß ziehen, daß hier eine gemeinsame Menge von Prinzipien vorliegt, die wir Extraprosodie nennen können. Die Prinzipien, die möglicherweise zu diesem Modul gehören, werden von Kiparsky (1985: 118) folgendermaßen beschrieben: (4) "a. Only single units (syllables, segments) may be designated as extraprosodic. b. An element may be marked as extraprosodic inherently in a lexical entry or by a rule in the phonology. c. Such marking is only permitted in peripheral positions. An element automatically loses its extraprosodic status when it ceases to be peripheral, as for example by affixation. d. An element automatically loses its extraprosodic status at the end of the lexicon, (it may, however, be marked again as extraprosodic postlexically if the rule applies there and if it is peripheral in its phrasal domain.)" Die extraprosodischen Markierungen, die oben zum Deutschen vorgeschlagen wurden, erfüllen die von Kiparsky beschriebenen Bedingungen, vielleicht mit Ausnahme der Bedingung (4d). Es ist nicht klar, ob für die Silbenstruktur des Deutschen postlexikalisch andere Bedingungen gelten als lexikalisch, d.h. ob postlexikalisch keine extrasilbischen Segmente vorliegen. Der in diesem Zusammenhang wichtige Punkt ist jedoch, daß die Phonologic als eine Menge von abstrakten Modulen gesehen werden kann, die einen ähnlichen Status haben wie die in der 'Rektions-Bindungs-Theorie' (Chomsky 198l) vorgeschlagenen. Wie es in der Syntax Prinzipien der Phrasenstruktur, der Rektion, der Bindung und der Kontrolle geben mag, so können wir in der Phonologic Prinzipien der prosodischen Struktur und Kategorien, der Assoziation, der Merkmalsmarkiertheit und der Extraprosodizität entdecken. 4.3. Zur phonologischen Argumentation In dieser Arbeit wurde versucht, alle eingeführten Konstrukte durch phonologische (gelegentlich auch externe) Argumente zu begründen. Es ist allerdings spätestens hier anzumerken, daß die Argumentation kaum einmal so angelegt ist, daß eine Frage als abschließend geklärt gelten kann. Dieser den Leser vielleicht unbefriedigt lassende Zustand ist insbesondere darauf zurückzuführen, daß die Gültigkeit aller
216
Argumente auf gewissen Vorannahmen beruht. Nur wenn die Prämissen akzeptiert werden, hat die Argumentation überhaupt Bestand. Gelegentlich mag die Argumentation dem Leser sogar zirkulär erscheinen, da verschiedene Behauptungen einander stützen sollen, was im strengen Sinne natürlich nicht möglich ist. Diese Sachlage ist nun für empirisch-theoretische Wissenschaften nicht ungewöhnlich, sondern vielleicht sogar der Regelfall. Wissenschaftliche Theorien sind komplexe deduktive Systeme, in denen die Gültigkeit einer Aussage von der Gültigkeit vieler anderer Aussagen abhängt. Eine weitere generelle Lehre aus den vorgetragenen Studien ist, daß auch lange und relativ intensiv analysierte Sprachen wie das Deutsche noch neue und überraschende Einsichten ermöglichen. So sehe ich es als ein überraschendes Ergebnis an, daß es im Deutschen keine Unterscheidung zwischen schweren und leichten Silben gibt. Schwa-Silben, die als besonders eindeutige Fälle Für leichte Silben angesehen wurden, haben nach der Analyse in II, 2 ebenso einen verzweigenden Kern (V C) wie alle anderen Silben. Die lexikalische Unbetontheit der SchwaSilben ergibt sich nicht aus ihrer strukturellen Leichtigkeit, sondern daraus, daß die Wortakzentregeln vor der Schwa-Epenthese operieren. Zu betonen ist, daß diese Analyse nicht als bewiesen gelten kann. Sie ist aber, gegeben einige theoretische Annahmen über die Organisation der Phonologic, möglich, mit den Daten kompatibel und, wie ich versucht habe zu zeigen, in mancher Hinsicht den Alternativen vorzuziehen. Falls sie sich also als gerechtfertigt erweist, ergibt sich ein in Teilen völlig verändertes Bild vom phono logischen System des Deutschen. Gleichzeitig deuten sich zumindest Hypothesen über die universale Organisation der phonologischen Komponente an. Wenn es möglich ist, in gut bekannten Sprachen aufgrund eines geänderten theoretischen Rahmens zu völlig neuen empirischen Ergebnissen zu kommen, wird dies erst recht in der Vielzahl von Sprachen der Fall sein, für die vielleicht nur eine einzige Beschreibung vorliegt. Es müssen also Konsequenzen für die Behandlung der Daten vor allem aus nicht gründlich studierten Sprachen gezogen werden. Es ist in der Phonologic (wie vermutlich in vielen Wissenschaften) üblich, Standarddaten als Beleg zu zitieren, ohne die Berechtigung dieser Behauptungen ernsthaft zu prüfen. Diese Praxis ist mehr als notwendig mit Fehlerquellen behaftet. Der Wert solcher empirischer Behauptungen ist prinzipiell gering; in vielen Fällen ist eine Situation denkbar, in der eine geänderte Analyse der Sprache zu dem entgegengesetzten Ergebnis führt. Ein zweites Beispiel Für die Revision gängiger Ansichten kann das Chinesische liefern. Nach den Standardbeschreibungen der Töne würde das Chinesische sicherlich als eine Sprache mit Konturtönen eingestuft werden, entsprechend der gängigen typologischen Unterscheidung zwischen Register- und Konturtonsprachen (siehe z.B. Bell (1978)). Die Überlegungen in Teil II, l dieser Arbeit haben jedoch zu dem (in diesem Fall ziemlich eindeutigen) Ergebnis geführt, daß das Chinesische ein
217
einfaches System von Registertönen besitzt. Auch hier hat eine veränderte Sichtweise in der Phonologic der Töne zu einer veränderten Deskription eines gut bekannten Objektbereichs geführt. Es sind solche Ergebnisse, die vermuten lassen, daß die Phonologic noch lange nicht an die Grenzen ihrer Erkenntnis- und Entwicklungsmöglichkeiten gekommen ist.
218
Literaturverzeichnis Andersen, Henning (ed.) (1986) Sandhi-Phenomena in the Languages of Europe. Berlin: de Gruyter. Anderson, Stephen R. (1976) Nasal consonants and the internal structure of segments. Language 52, 326-344. Anderson, Stephen R. (1978) Tone Features. In: Victoria A. Fromkin (ed.) Tone: A Linguistic Survey. New York: Academic Press, 133-175. Anderson, Stephen R, (1982) Differences in rule type and their structural basis. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part II). Dordrecht: Foris. 1-25. Anderson, Stephen R. (l985a) Inflectional morphology. In: Timothy Shopen (ed.) Language Typology and Syntactic Description. Vol. Ill· Grammatical Categories and the Lexicon. Cambridge et al. Cambridge University Press, 150-201. Anderson, Stephen R. (I985b) Phonology in the Twentieth Century. Theories of Rules and Theories of Representation. Chicago: University of Chicago Press. Aronoff, Mark (1976) Word Formation in Generative Grammar. Cambridge, Mass: MIT Press. Battistella, Edwin (1987) On segment-structure conditions. Linguistics 25, 383-394. Bell, Alan (1978) Syllabic Consonants. In: Joseph H. Greenberg (ed.) Universals of Human Language. Vol. 2: Phonology. Stanford, Cah Stanford University Press, 153-201. Berendsen, Egon (1986) The Phonology of Cliticization. Dordrecht: Foris. Bierwisch, Manfred (1966) Regeln für die Intonation deutscher Sätze. Studia Grammatica VII, 99-201. Bierwisch, Manfred (1968) Two critical problems in accent rules. Journal of Linguistics 4, 173-178. Bierwisch, Manfred (1972) Schriftstruktur und Phonologic. In: Probleme und Ergebnisse der Psychologie 43, 21-44. Nachgedruckt zß. in: Kiefer, Ferenc (Hrsg.) Phonologic und generative Grammatik. Bd. 1. Frankfurt: Athenaion (1975), 11-51. Booij. Geert E. (1983) Principles and parameters in prosodic phonology. Linguistics 21. 249-280. Booij, Geert E. (1984) Syllabestructuur en verkleinwoordsvorming in het Nederlands. GLOT 72. Booij, Geert E. (1985) Coordination reduction in complex words: A case for prosodic phonology. In: Harry van der Hülst et Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris, 143-160. Booij, Geert E. & Jerzy Rubach (1984) Morphological and prosodic domains in Lexical Phonology. Phonology Yearbook 1, 1-27. Borowsky, Toni, Junko Ito & Armin Mester (1984) The formal representation of ambisyllabicity: Evidence from Danish. Proceedings of the New England Linguistic Society 14, 34-48. Brown, Roger & David McNeill (1966) The "tip of the tongue" phenomenon. Journal of Verbal learning and Verbal Behavior 5, 325-337. Cairns, Charles E. & Mark H. Feinstein (1982) Markedness and the theory of syllable structure. Linguistic Inquiry 13, 193-225.
219
Chao, Yuen Ren (1930) A System of Tone Letters. Le Maitre Phonetique 45. 24-27. Chao, Yuen Ren (1934) The Non-uniqueness of Phonemic Solutions of Phonetic Systems. Bulletin of the Institute of History and Philology, Academia Sinica, IV, 363-97. (Zitiert nach: Martin Joos (ed.) (1957) Readings in Linguistics I. Chicago: University of Chicago Press.) Chao, Yuen Ren (1968) A Grammar of Spoken Chinese. Berkeley: University of California Press. Cheng, Chin-Chuan (1973) A Synchronic Phonology of Mandarin Chinese. The Hague, Paris: Mouton. Cheng, Robert L. (1966) Mandarin phonological structure. Journal of Linguistics 2, 135-162. Chomsky, Noam A. (1957) Syntactic Structures. The Hague. Paris: Mouton. Chomsky, Noam A. (1965) Aspects of the Theory of Syntax. Cambridge (Mass.): MIT-Press. Chomsky, Noam A. (1980) Rules and Representations. New York: Columbia University Press. Chomsky, Noam A. (1981) Lectures on Government and Binding. Dordrecht: Foris. Chomsky, Noam A. & Morris Halle (1966) Some controversial questions in phonological theory. Journal of Linguistics 1, 97-138. Chomsky. Noam A & Morris Halle (1968) The Sound Pattern of English. New York: Harper & Row. Clements. George N. (1985) The geometry of phonological features. Phonology Yearbook 2, 225-252. Clements. George N. & Samuel J. Keyser (1983) CV-Phonology. A Generative Theory of the Syllable. Cambridge, Mass; MIT Press. Culicover, Peter & Michael S. Rochemont (1983) Stress and focus in English. Language 59, 123-165. Dogil, Gregorz (1984) The evaluation measure in prosodic phonology. Linguistics 22, 281-311. Donegan, Patricia J. & David Stampe (1979) The study of Natural Phonology. In: Daniel A. Dinnsen (ed.) Current approaches to phonological theory. Bloomington, Indj Indiana University Press, 126-173. Dressier, Wolfgang U. (1984) Explaining Natural Phonology. Phonology Yearbook 1. 29-51. Dressier, Wolfgang U. & Ruth Wodak (1982) Sociophonological methods in the study of sociolinguistic variation in Viennese German. Language in Society 11, 339-370. Duden (1980) Rechtschreibung der deutschen Sprache Wien, Zürich: Bibliographisches Institut.
und der Fremdwörter. Mannheim,
Edmondson, Jerry A (1984) Chin-Chuan Cheng's Backness Rule of Mandarin Phonology and the Markedness Values of Features. Papiere zur Linguistik 31. 3-13. Ehlich. Konrad (1986) Interjektionen. Tübingen: Niemeyer. Ewen. Colin (1982) The internal structure of complex segments. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part II). Dordrecht: Foris, 27-67. Finck, Nikolaus (1910) Die Haupttypen des Sprachbaues. Stuttgart: Teubner. Fudge, Eric (1969) Syllables. Journal of Linguistics 5, 253-287. Fujimura, Osamu & Lovins, Julie (1978) Syllables as concatenative phonetic units. In: Alan Bell & Joan B. Hooper (eds.) Syllables and Segments. Amsterdam et aL North Holland, 107-120.
220 Carding. Eva, Paul Kratochvil, Jan-Olof Svantesson & Jialu Zhang (1985) Tone 4 and Tone 3 discrimination in Modern Standard Chinese. Lund University, Department of Linguistics: Working Papers 28, 53-67. Giegerich. Heinz J. (1985) Metrical Phonology and Phonological Structure. German and English. Cambridge: Cambridge University Press. Giegerich, dency and Giegerich, richte 112,
Heinz J. (1986) Relating to metrical structure. In: Jacques Durand (ed.) DepenNon-Linear Phonology. London et ah Croom Helm, 223-256. Heinz J. (1987) Zur Schwa-Epenthese im Standarddeutschen. Linguistische Be449-469.
Goldsmith, John (1976) Autosegmental Phonology. MIT-Dissertation. Bloomington, Indj Indiana University Linguistics Club. Goldsmith. John (1985) Vowel Harmony in Khalkha Mongolian, Yaka, Finnish and Hungarian. Phonology Yearbook 2, 253-275. Griffen, Toby D. (1985) Aspects of Dynamic Phonology. Amsterdam: Benjamins. Haberland, Hartmut (1985) Zum Problem der Verschmelzung von Präposition und bestimmtem Artikel im Deutschen. Osnabrücker Beiträge zur Sprachtheorie 30, 82-106. Halle. Morris (1959) The Sound Pattern of Russian. The Hague: Mouton. Halle, Morris (1973) Stress rules in English: A new version. Linguistic Inquiry 4, 451-464. Halle. Morris (1987) Grids and trees in metrical phonology. In: Wolfgang U. Dressler, Hans C. Luschutzky. Oscar E. Pfeiffer & John Rennison (eds.) Phonologica 1984. Cambridge: Cambridge University Press. 79-93. Halle. Morris & Ken Mohanan (1985) Segmental Phonology of Modern English. Linguistic Inquiry 16, 57-116. Halle, Morris & Jean-Roger Vergnaud (1980) Three dimensional phonology. Journal of Linguistic Research 1, 83-105. Halle, Morris & Jean-Roger Vergnaud (1981) Harmony Processes. In: Wolfgang Klein & Willem Levelt (eds.) Crossing the Boundaries in Linguistics. Studies Presented to Manfred Bierwisch. Dordrecht: Reidel, 1-22. Hamans, Camiel (1985) Umlaut in a Dutch dialect. In: Harry van der Hülst & Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris. 381-396. Harris. James W. (1983) Syllable Structure and Stress in Spanish: A Nonlinear Analysis. Cambridge, Mass.: MIT Press. Hartmann, Dietrich (1980) Über Verschmelzungen von Präposition und bestimmtem Artikel. Zeitschrift für Dialektologie und Linguistik 47, 160-183. Hayes, Bruce (1982) Extrametricality and English stress. Linguistic Inquiry 13. 227-276. Hayes, Bruce (1984) The phonology of rhythm in English. Linguistic Inquiry 15, 33-74. Heim. Irene (1982) The Semantics of Definite and Indefinite Konstanz, zugl. Dissertation University of Mass. Amherst.
Noun Phrases. Universität
Hockett, Charles (1950) Peiping Morphophonemics. Language 26, 63-85. Höhle, Tilman (1982) Über Komposition und Derivation: zur Konstituentenstruktur von Wortbildungsprodukten im Deutschen. Zeitschrift für Sprachwissenschaft l, 76-112.
221
Höhle, Tilman & Heinz Vater (1978) Derivational constraints und die silbischen Konsonanten im Deutschen. In: Studia linguistics alexandro vasilii filio Issatschenko a collegis amicisque oblata. Lisse: Peter de Ridder. 169-186. Hoeksema. Jack (1985) Formal Properties of Stress Representations. In: Harry van der Hülst & Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris. 83-99. Hooper, Joan B. (1972) The syllable in phonological theory. Language 48, 525-540. Hooper. Joan B. (1976) An Introduction to Natural Generative Phonology. New York. San Francisco, London: Academic Press. Hulst, Harry van der (1984) Syllable Structure and Stress in Dutch. Dordrecht: Foris. Hulst, Harry van der & Norval Smith (1982) Autosegmental and metrical phonology. In: Harry van der Hulst & Norval Smith (eds.) The Structure of Phonological Representations (Part I). Dordrecht: Foris, 1-45. Hulst. Harry van der & Norval Smith (I985a) The framework of Nonlinear Generative Phonology. In: Harry van der Hulst & Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris, 3-55. Hulst, Harry van der 4 Norval Smith (I985b) Vowel features and umlaut in Djingili. Nyangumarda and Warlpiri. Phonology Yearbook 2. 277-303. Hyman, Larry (1985) A Theory of Phonological Weight. Dordrecht: Foris. livonen, Aanti K. (1987) Monophthonge des gehobenen Wienerdeutsch. Folia Linguistics 21. 293-336. Issatschenko. Alexander (1974) Das "schwa mobile" und "schwa constans" im Deutschen. In: Ulrich Engel & Paul Grebe (Hrsg.) Sprachsystem und Sprachgebrauch. Festschrift für Hugo Moser zum 65. Geburtstag. Düsseldorf: Schwann. 142-171. Jakobson, Roman (1937) On ancient Greek prosody. Zitiert nach: Romam Jakobson (1971) Selected Writings I. Phonological Studies. The Hague, Paris: Mouton. 262-272. Jakobson, Roman (1956) Die Verteilung der stimmhaften und stimmlosen Geräuschlaute im Russischen. In: Roman Jakobson (1971) Selected Writings I. Phonological Studies. The Hague. Paris: Mouton, 328-401. Jakobson, Roman (1978) Mutual assimilation of Russian voiced and voiceless consonants. Studia Linguistica 32. 107-110. Jakobson, Roman & Morris Halle (1956) Fundamentals of Language. The Hague. Paris: Mouton. Jespersen, Otto (1904) Lehrbuch der Phonetik. Leipzig: Teubner. Kaden, Klaus (1979) Kurzer Abriß der segmentalen Phonologic des heutigen Chinesisch. Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 32. 525-536. Kager. Ren & Wim Zonneveld (1985) Schwa. Syllables and Extrametricality in Dutch. Ms.. Rijksuniversiteit Utrecht. Kahn, Daniel (1976) Syllable-based Generalizations in English Phonology. MIT-Disserlation. Bloomington. Ind.: Indiana University Linguistics Club. Kaisse. Ellen M. (1983) The syntax of auxiliary reduction in English. Language 59. 93-122. Kaisse. Ellen M. (1985) Connected Speech. The Interaction of Syntax and Phonology. Orlando. Fl. et al. Academic Press.
222 Kaisse, Ellen M. & Patricia A. Shaw (1985) On the theory of Lexical Phonology. Phonology Yearbook 2, 1-30. Karlgren, Bernard (1915) Etudes sur la Phonologic Chinoise. Leyden and Stockholm. 1915-26. Kaye, Jonathan (1982) Harmony processes in Vata. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part II). Dordrecht: Foris, 385-452. Kaye, Jonathan, Jean Lowenstamm & Jean-Roger Vergnaud (1985) The internal structure of phonological elements: a theory of charm and government. Phonology Yearbook 2, 305-328. Kean, Mary-Louise (1974) The strict cycle in phonology. Linguistic Inquiry 5, 179-203. Kenstowicz, Michael & Charles Pyle (1973) On the phonological integrity of geminate clusters. Issues in Phonological Theory 142. 27-43. Kenstowicz, Michael & Charles Kisseberth (1979) Generative Phonology: Description and Theory. New York: Academic Press. Kiparsky, Paul (1979) Metrical structure assignment is cyclic. Linguistic Inquiry 10, 421-442. Kiparsky, Paul (1982) From cyclic phonology to lexical phonology. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part I). Dordrecht: Foris, 131-175. Kiparsky, Paul (1985) Some consequences 83-138.
of Lexical Phonology. Phonology
Yearbook 2,
Kiparsky, Paul (1986) Levels of Representation and the Organisation of Phonology. Vortrag Max-Planck-Institut für Psycholinguistik Nijmegen, Juli 1986. Kloeke. W.U.S. van Lessen (1982) Deutsche Phonologic und Morphologie: Merkmale und Markiertheit. Tübingen: Niemeyer. Kloeke, W.US, van Lessen (1985) Enklitische Formen und Flexion im Bairischen und im Hochdeutschen. In: Wilfried Kürschner und Rüdiger Vogt (Hrsg.) Grammatik. Semantik. Textlinguistik. Tübingen: Niemeyer, 73-80. Kohler, Klaus J. (1977) Einführung in die Phonetik des Deutschen. Berlin: E. Schmidt. Krech, Eva-Maria u. a. (1982) Großes Wörterbuch der deutschen Aussprache. Leipzig: VEB Bibliographisches Institut. Ladefoged, Peter (1982) A Course in Phonetics. New York u.a.: Harcourt Brace Jovanovich. Lass, Roger (1976) English Phonology and Phonological Theory. Synchronic and Diachronie Studies. Cambridge: Cambridge University Press. Lass, Roger (1984) Phonology. An Introduction to Basic Concepts. Cambridge: Cambridge University Press. Leben, William (1973) Suprasegmental Phonology. Doctoral dissertation. MIT. (New York: Garland Publishing 1980). Leben, William (1982) Metrical or autosegmental. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part I). Dordrecht: Foris, 177-190. Lenerz, Jürgen (1985) Phonologische Aspekte der Assimilation im Deutschen. Zeitschrift Sprachwissenschaft 4, 5-36. Lerdahl, Fred & Ray Jackendoff (1983) A Generative Theory of Mass; MIT Press.
für
Tonal Music. Cambridge,
Levin, Juliette (1983) Reduplication and prosodic structure. Paper at GLOW-Conference.
223 Li, Charles N. & Sandra A. Thompson (1981) Mandarin Chinese. A Functional Grammar. Berkeley. Los Angeles, London: University of California Press.
Reference
Liberman. Ignatius Y., D. P. Shankweiler, F. W. Fisher & B. Carter (1974) Reading and the awareness of linguistic segments. Journal of Experimental Child Psychology 18, 201-212. Liberman, Mark (1975) The Intonational System of English. MIT-Dissertation. Bloomington, Indj Indiana University Linguistics Club. Liberman, Mark & Alan Prince (1977) On stress and linguistic rhythm. Linguistic Inquiry 8. 249-336. Löbner, Sebastian (1985) Definites. Journal of Semantics 4, 279-326. Lodge, Ken (1985) An autosegmental account of German umlaut. Ms, University of East Anglia. Lowenstamm, Jean (1981) On the maximal cluster approach to syllable structure. Linguistic Inquiry 12, 575-604. Luschützky, Hans C. (1985) Zur Phonologic der Affrikaten. beit, Universität Wien.
Unveröffentlichte Magister-Ar-
Maddieson. Ian (1978) Universals of Tone. In: Joseph H. Greenberg (ed.) Universals of Human Language. Vol. 2: Phonology. Stanford, Cah Stanford University Press, 335-365. Marantz, Alec (1982) Re Reduplication. Linguistic Inquiry 13, 435-482. Mascaro, J. (1976) Catalan Phonology and the Phonological Cycle. MIT-Dissertation. Bloomington, Ind.: Indiana University Linguistics Club. McCarthy, John (1979) Formal Problems in Semitic Phonology and Morphology. MIT-Dissertation. Bloomington, Ind: Indiana University Linguistics Club. McCarthy, John (1981) A prosodic theory of nonconcatenative morphology. Linguistic Inquiry 12, 373-418. McCarthy. John (I982b) Prosodic Templates. Morphemic Templates, and Morphemic Tiers. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part I). Dordrecht: Foris, 191-223. McCarthy, John (1985) Speech disguise and phonological representation. In: Harry van der Hülst & Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris, 305-312. McCarthy, John (1986) OCP effects: Gemination and antigemination. Linguistic Inquiry 17. 207-263. McCawley. James (1978) What is a tone language. In: Victoria A. Fromkin (ed.) Tone: A Linguistic Survey. New York: Academic Press. 113-131. Mehler, Jacques, Jean Y. Dommergues. Uli Frauenfelder & Juan Segui (1981) The syllable's role in speech segmentation. Journal of Verbal Learning and Verbal Behavior 20, 298-305. Meinhold, Gottfried & Eberhard Stock (1980) Phonologic der deutschen Gegenwartssprache. Leipzig: VEB Bibliographisches Institut. Meringer, Rudolf & Karl Mayer (1895) Versprechen guistische Studie. Stuttgart: Göschen.
und Verlesen. Eine Psychologisch-Lin-
Mohanan, Ken P. (1985) Syllable structure and lexical strata in English. Phonology Yearbook 2, 139-155. Mohanan, Karavannur P. (1986) The Theory of Lexical Phonology. Dordrecht, Reidel.
224 Morals. Jose (1985) Literacy and awareness of the units of speech: Implications for research on the units of perception. Linguistics 23. 707-721. Moravcsik. Edith A. (1978) Reduplicative Constructions. In: Joseph H. Greenberg (ed.) Unirersals of Human Language. Vol. 3: Word Structure. Stanford, Cah Stanford University Press. 297-334. Morciniec. Norbert (1958) Zur phonologischen Wertung der deutschen Affrikaten und Diphthonge. Zeitschrift fUr Phonetik 11. 49-66. Moulton. William G. (1947) Juncture in modern standard German. Language 23. 212-226. Moulton. William G. (1956) Syllabic nuclei and final consonant clusters in German. In: Morris Halle. Horace G. Lunt & Hugh McLean (eds.) For Roman Jakobson. The Hague: Mouton. 372-381. Moulton. William G. (1962) The Sounds of English and German. Chicago: University of Chicago Press. Nespor. Marina (1985) The phonological word in Italian. In: Harry van der Hülst & Norval Smith (eds.) Advances in Nonlinear Phonology. Dordrecht: Foris. 193-204. Nespor. Marina & Irene Vogel (1982) Prosodic Domains of External Sandhi. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part I). Dordrecht: Foris, 225-255. Das neue Chinesisch-Deutsche Wörterbuch. (1986) Düsseldorf: MING FAN Kulturladen. Norman, Jerry (1988) Chinese. Cambridge: Cambridge University Press. Norris, Dennis & Anne Cutler (1985) Juncture detection. Linguistics 23. 689-705. Ohala, John J. & Haruko Kawasaki (1984) Prosodic Phonology and Phonetics. Phonology Yearbook 1. 113-127. Olsen, Susan (1986) Wortbildung im Deutschen. Eine Einführung struktur. Stuttgart: Kröner.
in die Theorie der Wort-
Piggott. Glyne L. & Rajendra Singh (1985) The Phonology of Epenthetic Segments. Canadian Journal of Linguistics 30, 415- 451. Pike. Kenneth L. & Eunice V. Pike (1947) Immediate constituents of Mazateco syllables. International Journal of American Linguistics 13. 78-91. Prince, Alan (1983) Relating to the grid. Linguistic Inquiry 14, 19-100. Prinz, Michael (1987) Prosodische und syntaktische Bedingungen für Klitisierung. Unveröffentlichte Magister-Arbeit, Universität Dusseldorf. Pulleyblank. Douglas (1986) Tone in Lexical Phonology. Dordrecht et aL Reidel. Rennison. John (1980) What is shwa in Austrian German? The case for epenthesis. and its consequences. Wiener Linguistische Gazette 24, 33-42. Richter, G. (1973) Einige Aspekte der Beziehungen zwischen Grammatik und Silbigkeit im modernen Chinesisch. Zeitschrift für Phonetik. Sprachwissenschaft und Kommunikationsforschung 26. 700-703. Saussure, Ferdinand de (1916/1967) Grundfragen der Allgemeinen Sprachwissenschaft. de Gruyter.
Berlin:
Savin, HB. & Thomas G. Bever (1970) The non-perceptual reality of the phoneme. Journal of Verbal Learning and Verbal Behavior 9. 295-302.
225 Schaub. Sybille (1979) Verschmelzungsformen von Präpositionen und Formen des bestimmten Artikels im Deutschen. In: Vater. Heinz (Hrsg.) Phonologische Probleme des Deutschen. Tübingen: Narr, 63-104. Schein, Barry & Donca Steriade (1986) On Geminates. Linguistic Inquiry 17, 691-744. Seiler, Hansjakob (1962) Laut und Sinn: Zur Struktur der deutschen Einsilbler. In: Studia gratulatoria dedicated to Albert Willem de Croot. Amsterdam, 375-387. Selkirk, Elisabeth O. (1980) The role of prosodic categories in English word stress. Linguistic Inquiry 11, 263-605. Selkirk. Elisabeth O. (I982a) The syllable. In: Harry van der Hülst & Norval Smith (eds.) The Structure of Phonological Representations (Part II). Dordrecht: Foris, 337-383. Selkirk, Elisabeth O. (I982b) The Syntax of Words. Cambridge, Mass; MIT-Press. Selkirk, Elisabeth O. (l984a) On the major class features and syllable theory. In: Mark Aronoff & Richard T. Oehrle (eds.) Language Sound Structure. Cambridge, Mass.· MIT-Press, 107-136. Selkirk. Elisabeth O. (I984b) Phonology and Syntax. The Relation between Sound and Structure. Cambridge. Mass.: MIT Press. Shattuck-Hufnagel. Sheri & Dennis Klatt (1979) The limited use of distinctive features and markedness in speech production: Evidence form speech error data. Journal of Verbal Learning and Verbal Behavior 18, 41-55. Siegel, Dorothy (1974) Topics in English Morphology. Cambridge. Mass; MIT-Dissertation. Sievers, Eduard (190l) Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. Leipzig: Breitkopf & Härtet. Sommer, Bruce (1970) An Australian language without CV syllables. International Journal of American Linguistics 36, 57-58. Stechow, Arnim von & Susanne Uhmann (1985) Some remarks on Focus Projection. Ms., Universität Konstanz. Stemberger. Joseph P. (1984) Length as a suprasegmental: Evidence from speech errors. Language 60. 895-913. Steriade. Donca (1982) Greek Prosodies and the Nature of Syllabification. MIT-dissertation. Strauss, Steven L. (1982) Lexicalisl Phonology of English and German. Dordrecht: Foris. Suzuki, Seiichi (1982) A metrical approach to Gothic reduplication. Linguistics 20, 587-609. Ternes. Elmar (1987) Einführung in die Phonologic. Darmstadt: Wiss. Buchgesellschaft. Toman. Jindrich (1986) A (word-) syntax for participles. Linguistische Berichte 105, 367-408. Trubetzkoy, Nikolaj S. (1939) Grundzüge der Phonologic. Prag: TCLP 7. (Zitiert nach: 6. Auflage 1977, Göttingen: Vandenhoeck & Ruprecht). Ungeheuer, Günther (1969) Das Phonemsystem der deutschen Standardsprache. In: Helmut de Boor, Hugo Moser & Christian Winkler (Hrsg.) Siebs. Deutsche Hochlautung. Berlin: de Gruyter, 27-42. Vance, Timothy J. (1987) An Introduction to Japanese Phonology. Albany: State University of New York Press. Vennemann, Theo (1972) On the theory of syllabic phonology. Linguistische Berichte 18. 1-18. Vennemann. Theo (1978) Universal syllabic phonology. Theoretical Linguistics 5. 175-215. Vennemann, Theo (1982) Zur Silbenstruktur der deutschen Standardsprache. In: Theo Vennemann (Hrsg.) Silben. Segmente. Akzente. Tübingen: Niemeyer. 261-305.
226 Vennemann, Theo (1986) Neuere Entwicklungen in der Phänologie. Berlin et aL Mouton de Gruyter. Vincent. Nigel (1986) Constituency and syllable structure. In: Jacques Durand (ed.) Dependency and Non-Linear Phonology. London et al.· Croom Helm, 305-318. Wackernagel, Jakob (1892) Über ein Gesetz der indogermanischen Wortstellung. Indogermanische Forschungen, 333-436. Wang, William S-Y. (1967) The Phonological Features of Tone. International Journal of American Linguistics 33, 93-105. Wang. William S-Y. (1983) Yuen Ren Chao. Language 59, 605-607. Wiese, Richard (1982) Modularity in cognitive theories of language. Linguistische Berichte 80. 18-31. Wiese, Richard (l986a) Nichtlineare Phonologic - Eine Fallstudie des Chinesischen. Linguistische Berichte 102. 93-135. Wiese, Richard (I986b) Schwa and the structure of words in German. Linguistics 24, 695-724. Wiese. Richard (I986c) Syntax und Phonologie - Ein Uberblicksartikel anhand von: Elisabeth Selkirk: 'Phonology and Syntax. The Relation between Sound and Structure'. Linguistische Berichte 103. 252-276. Wiese, Richard (I986d) Zur Theorie der Silbe. Studium Linguistik 20, 1-15. Wiese, Richard (l987a) Laut, Schrift und das Lexikon. Deutsche Sprache 15, 18-35. Wiese, Richard (I987b) Phonologie und Morphologie des Umlauts im Deutschen. für Sprachwissenschaft 6, 227-248.
Zeitschrift
Wiese, Richard (I987c) Prosodic conditions on clitics. Irt: Wolfgang U. Dressler, Hans C. Luschützky, Oscar E. Pfeiffer & John Rennison (eds.) Phonologies 1984. Cambridge: Cambridge University Press, 331-338. Wiese, Richard (i. Vorb.) CV-phonology. underspecification and the description syllables. Ms, Universität Düsseldorf.
of Chinese
Wodak-Leodolter, Ruth & Wolfgang U. Dressler (1978) Phonological variation in colloquial Viennese. Michigan Germanic Studies 4, 30-66. Wunderlich. Dieter (1983) GlUck im UnglUck. Zeitschrift für Literaturwissenschaft und Linguistik 50, 157-172. Wunderlich, Dieter (1986) Probleme der Wortstruktur. Zeitschrift für Sprachwissenschaft 209-252.
5.
Wunderlich, Dieter (I987a) An investigation of lexical composition. The case of German heverbs. Linguistics 25, 283-331. Wunderlich. Dieter (I987b) Partizipien im Deutschen. Linguistische Berichte 111, 345-366. Wunderlich, Dieter (1988) Der Ton macht die Melodie - Zur Phonologie der Intonation des Deutschen. In: Hans Altmann (Hrsg.) Intonationsforschungen. Tübingen: Niemeyer, 1-40. Wurzel, Wolfgang U. (1970) Studien zur Deutschen Lautstruktur. Berlin: Akademie-Verlag. Studia grammatica VIII. Wurzel, Wolfgang U. (1980) Der deutsche Wortakzent: Fakten - Regeln - Prinzipien. Ein Beitrag zu einer naturlichen Akzenttheorie. Zeitschrift für Germanistik 3. 299-318. Wurzel. Wolfgang U. (1981) Phonologie: Segmentale Struktur. In: K.E. Heidolph u.a.: Grundzüge einer deutschen Grammatik. Berlin: Akademie-Verlag. 898-990.
227 Wurzel, Wolfgang U. (1982) Problems in Morphophonology. In: Wolfgang U. Dressler, Oscar E, Pfeiffer & John Rennison (eds.) Phonologica 1980. Innsbruck: Institut fUr Sprachwissenschaft der Universität. 413-434. Yip, Moira J. W. (1980) The Tonal Phonology of Chinese. MIT-Dissertation. Bloomington, Ind. Indiana University Linguistics Club. Yip, Moira J. W. (1982) Reduplication and C-V Skeleta in Chinese Secret Languages. Linguistic Inquiry 13, 637-661. Yip, Moira J. W. (1987) English vowel epenthesis. Natural Language and Linguistic Theory 5, 463-484. Zhong. Qin (1980) On Chinese Phonetics. Beijing: The Commercial Press. Zwicky. Arnold M. (1977) On Clitics. In: Wolfgang U. Dressler & Oscar E. Pfeiffer (eds.) Phonologica 1976. Innsbruck: Institut für Sprachwissenschaft der Universität. 29-39. Zwicky, Arnold M. (1985) How to describe inflection. In: Proceedings of the Berkeley Linguistics Society. Berkeley: Berkeley Linguistics Society, 372-386. Zwicky, Arnold M. & Geoffrey age 59, 502-513.
Pullum (1983) Cliticization vs. inflection: English n't. Langu-
228
Anhang (l) Tabelle der Konsonantzeichen f r das Deutsche in der IPA-Transkription LabioPalato- „ , , , ,. , Bilabial dental Alveolar alveolar Palatal Velar Uvular Glottal 9 Plosiv qG td Pb kg Frikativ f V sz / ςj χγ Nasal m n η Appro 1 Κ h ximant Diakritika: Stimmlosigkeit: o (b) Aspiration: h (p h ) (2)
L nge: : (a:) Silbigkeit: , (n)
Klassifikation der deutschen Vokale
hoch
vorn gesp. ungesp. i/y I/Y
mittel e/rf tief
ε/ce
zentral hinten ungesp. ungesp. gesp. U u 3
0
o
a
(3) a. Notation der chinesischen Konsonanten in IPA- und Pinyin-Transkription alveolar retro flex pr palatal velar-guttural labial IPA Pinyin IPA Pinyin IPA Pinyin IPA Pinyin IPA Pinyin g d b b o od § t t k k P P s s S sh f f e x χ h dz z dz zh d? 00 oo J ts c t$ ch tp q n n m m η ng 1 1 K r z r
229
b. Notationskonventionen T r chinesische Auslaute IPA:
a ai au an
an γ ei ou an
an
i ia iai iau ϊεη iarj ίε
u ua uai
y
uan uan uo uei
yen
ye
iou i(a)n u(a)n yan i(a)n uor)
Weitere Auslaute: K, z,ι zΓ ι
Pinyin:
1
a ai au an ang e ei ou en eng er, ι, ι
ia iai iao ian iang ie iu in ing
u ua uai
u
uan uang uo uei
uan
un ong
n
e
230
Sachregister Affrikate 37ff., 40, 60ff. Agta 199 Akzentverschiebung lOff. Allegro-Stil 52, 119, 168, 181, Allomorph 187f. Ambisilbische Konsonanten 67f„ 78ff., 89 Appendix (s. extrasilbisches Segment) Arabisch 19. 84 Assoziation 19f„ 55, 85ff., 122. 158 Auslautverhärtung 29, 80 . CV-Phonologie 37ff„ 41. 50, 56f„ 60ff., 79, 83, 162. 203. 208 Diphthong 47ff., 58, 66 Englisch 148, 150, 163, 174f., 178, 188 Epentheseregel 141ff.. 153ff., 170ff., 185 externe Evidenz 27. 77f., 98 Extrametrikalität 103 , 215 extrasilbisches Segment 94-102. 108. 147 Flexion 54. 75. ISOff., 160. 174 Fuß 17f.. 154, 157, 173 Gespanntheit 63ff., 68, 78 Gitternotation 9ff. Griechisch 68 Hebräisch 198 . Isländisch 66 Italienisch 79 Japanisch HOff. Klitikum 177-193, 213 . Kompositaakzent 6ff., 152 Komposition 6. 151f„ 201ff. Konsonantencluster 58f., 89f., 93-102, 173 Lexikalische Ebenen ISOff., 211f. Lexikalische Phonologie 21. 149-152, 164ff., 171, 174. 188. 212 Lexikon 116. 149, 171, 176f., 188f, 201 Merkmalsbündel 5, 35ff, 42f, 51 Merkmalstheorie 35f., 38, 42. 63, 113 Metrische Phonologie 8ff„ 71, 103, 107ff. Modularität 21, 142, 176, 208, 213ff. More 11 Of f. Morphologie (s. Wortbildung) Niederländisch 76, 174. 188 Nukleus (s. Silbenkern) Oberklassenmerkmal 37, 41 Phonembegriff 5. 37, 61, 210f. Phonologische Phrase 17 , 119, 207
Phonotaktik 28, 51, 59, 214 Postlexikalische Phonologie 168ff, 176-193, 207, 213 Prinzip der Obligatorischen Kontur 53, 79, 157. 189. 214 Prosodische Konstituenten 15, 17ff., 110. 199, 205f. r-Laut 35, 45f, 53ff., 148f„ 169 Reduplikation 119, 195-205 referentieller Gebrauch 182 . Reim 48f, 56, 87, 109f. Repräsentation 3, 14, 20, 122, 131ff, 210ff. Rhythmus 9, 11, 27 Russisch 93 s/w-Relation 8ff, 103, 108ff. Schrift 98, 209 Schwa 75f., 138-175 segmentales Modell (s. SPE) Silbengewicht 102f. Silbenkern 67ff., 72, 76. 84 Silbenschema 34. 36, 40, 42, 49f., 58ff„ 69 Silbenstrukturbedingung 43, 50ff., 89ff, 94 Silbifizierung 83ff., 88, 145, 187, 190 silbischer Konsonant 43ff., 140. 168ff., 204f. Sonorität 47f., 90ff. 109. 148, 181, 214 Spanisch 56, 66 SPE 2. 5, 14, 26, 38, 171. 211 Sprachperformanz 18, 27, 77f. stray erasure 185, 187 Syntax 2, 17ff. 69, 167 , 176ff„ 183ff.. 201 ff.. 215 Theoriebildung 4. 171, 215ff. Tilgungsregel 55, 143. 163 . 169f.. 184-188 Tonmerkmal 122ff. Tonrepräsentation 121ff. Tonsandhi 118ff., 135ff., 194f., 205ff. Triphthong 47ff. Verschmelzung 179-184. 190 Vokallänge 58, 62ff.. 65. 69-78 Wortakzent 30ff., 70ff, 102ff, 152. 165. 190 Wortbildung 6, 19 . 53f. 73. 140, 149-164, 178. 202 X-Position 37, 82f, 86, 96ff., 133, 144, 159f.. 184f. Zyklizität 145f.