Typen sprachrhythmischer Konturbildung [Reprint 2013 ed.] 9783110949506, 9783484304758

Two research traditions dominate the phonological description of rhythm. One is the typology of syllabic and accentual l

186 81 8MB

German Pages 258 [260] Year 2003

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
0 Einleitung
1 Konzeptionen von Sprachrhythmus
1.1 Aus der Vorgeschichte der Rhythmusphonologie
1.2 Rhythmizität als Isochrome
1.3 Rhythmizität als Prominenzalternanz
1.4 Zusammenfassung
2 Kritik reduktiver Konzeptionen von Sprachrhythmus
2.1 Rhythmizität vs. rhythmische Konturbildung
2.2 Kritik des silbenzählenden Typs
2.3 Kritik der allein akzentbasierten Rhythmusphonologie
2.4 Zusammenfassung
3 Eine neue Typologie rhythmischer Konturbildung
3.1 Rhythmizität als nachgeordnete Qualität
3.2 Prosodische Kontrastivität
3.3 Prosodische Kontraste und Konturbildungsmöglichkeiten
3.4 Zusammenfassung
4 Externe Evidenz für die neue Typologie
4.1 Phonetik und Sprachtechnologie
4.2 Spracherwerb und Sprachverlust
4.3 Poetologische Metrik
5 Zusammenfassung und Ausblick
Literatur
Register
Recommend Papers

Typen sprachrhythmischer Konturbildung [Reprint 2013 ed.]
 9783110949506, 9783484304758

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Linguistische Arbeiten

475

Herausgegeben von Hans Altmann, Peter Blumenthal, Hans Jürgen Heringer, Ingo Plag, Beatrice Primus und Richard Wiese

Andreas Dufter

Typen sprachrhythmischer Konturbildung

Max Niemeyer Verlag Tübingen 2003

Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. ISBN 3-484-30475-8

ISSN 0344-6727

© Max Niemeyer Verlag GmbH, Tübingen 2003 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Druck und Einband: Digital PS Druck AG, Birkach

Vorwort

Die vorliegende Arbeit stellt die leicht überarbeitete und gekürzte Fassung meiner InauguralDissertation dar, die im Wintersemester 2001/2002 von der Fakultät für Sprach- und Literaturwissenschaften der Ludwig-Maximilians-Universität München angenommen wurde. Mein besonderer Dank gilt zunächst meinem Doktorvater Prof. Theo Vennemann, Ph. D., der mich nicht nur für die Linguistik und insbesondere die Phonologie zu begeistern verstand, sondern diese Arbeit während ihrer gesamten Entstehungszeit wohlwollend und konstruktiv begleitete. Auch die Lehrveranstaltungen und Diskussionen mit den Vertretern der Münchner Theoretischen Linguistik, unter ihnen Prof. Dr. Thomas Becker (jetzt Rostock), Prof. Dr. Beatrice Primus (jetzt Köln), Dr. David Restle sowie Prof. Dr. Dietmar Zaefferer, haben meine Herangehensweise an die (Laut-)Sprache wesentlich geprägt. Zu Dank verpflichtet bin ich ferner dem Graduiertenkolleg "Sprache, Information, Logik", vor allem seinen Sprechern Prof. Dr. Franz Guenthner sowie Prof. Dr. Godehard Link, wo ich von April 1997 bis September 1998 als Promotionsstipendiat und danach als assoziiertes Mitglied an einem spannenden Brückenschlag zwischen linguistischen und formalen Fächern teilhaben durfte. Insbesondere hat mich der Arbeitsplatz am Centrum für Informations- und Sprachverarbeitung jene Ruhe und Konzentration finden lassen, die für das Schreiben einer Doktorarbeit unabdingbar sind. Ein weiterer herzlicher Dank gilt schließlich Prof. Dr. Wulf Oesterreicher und Prof. Dr. Thomas Krefeld, die nicht nur als Zweit- und Drittgutachter fungierten, sondern mir vor allem den Weg von der theoretischen zur romanistischen Linguistik ebneten und damit neue inhaltliche wie berufliche Perspektiven eröffneten. Danken möchte ich darüber hinaus den überaus angenehmen und diskussionsfreudigen Kollegen am Münchner Institut für Romanische Philologie - stellvertretend seien Dr. Uli Reich (jetzt Köln) und Dr. Elisabeth Stark genannt. Auch außerhalb Münchens habe ich auf Tagungen und Sommerschulen viele wertvolle Hinweise erhalten, etwa von Prof. Dr. Peter Auer (Freiburg) und von Prof. Dr. Anne Cutler (MPI Nijmegen). Schließlich bedanke ich mich bei den Herausgebern der Linguistischen Arbeiten, insbesondere bei Prof. Dr. Ingo Plag, für die Aufnahme in die Reihe, bei Michael Niedermair und Walter Schmidt für Hilfe, als ich mit meinem am Ende war, und nicht zuletzt beim Max Niemeyer Verlag, hier besonders bei Carmen Luna und Birgitta ZellerEbert, für die freundliche und geduldige Begleitung auf dem Weg zu diesem Buch. Gewidmet ist es meinen Eltern und allen Freunden.

Inhaltsverzeichnis

0

Einleitung

1

Konzeptionen von Sprachrhythmus 1.1 Aus der Vorgeschichte der Rhythmusphonologie 1.2 Rhythmizität als Isochrome 1.2.1 Typologie der Isochroniedomänen 1.2.1.1 Fußisochronie als Tendenz? 1.2.1.2 Silbenisochronie als Tendenz? 1.2.1.3 Morenisochronie als Tendenz? 1.2.2 Isochronisierung als Produktionspräferenz 1.2.3 Isochronisierung als Perzeptionspräferenz 1.2.4 Isochronisierung als Interaktionspräferenz 1.2.5 Isochronietypen als phonologische Konstellationen 1.2.6 Isochronietypen und grammatische Korrelate 1.2.7 Von Isochroniedomänen zu phonologischen Hauptkategorien 1.2.8 Tipologie der Fußisochronisierungsverfahren 1.3 Rhythmizität als Prominenzalternanz 1.3.1 Zur Begründung der Metrischen Phonologie 1.3.2 Metrische Phonologie als simultane Wort- und Satzphonologie 1.3.3 Metrische Phonologie als parametrisierte Wortphonologie 1.3.4 Zur Restriktion der Fußtypen 1.3.5 Optimalitätstheoretische Metrische Phonologie 1.4 Zusammenfassung

2

Kritik reduktiver Konzeptionen von Sprachrhythmus 2.1 Rhythmizität vs. rhythmische Konturbildung 2.2 Kritik des silbenzählenden Typs 2.2.1 Silbenisochronie als rhythmische Präferenz? 2.2.2 Silbenisochronie, Silbenstrukturen und Quantität 2.2.3 Isosyllabizität als Rhythmizität? 2.2.4 Anmerkungen zur Forschungsgeschichte 2.3 Kritik der allein akzentbasierten Rhythmusphonologie 2.3.1 Akzente und Prominenzkonturen 2.3.2 Prominenz und Betonung 2.3.2.1 Typologien der Betonungsverfahren 2.3.2.2 Typologien der Prominenzdominanz 2.3.3 Betonung, Zeitstruktur und Verfußung 2.3.4 Zur Angemessenheit einer universellen Fußphonologie 2.3.4.1 Unäre Füße und unverfußte Silben 2.3.4.2 Ternäre Strukturen 2.3.4.3 Unbeschränkte Akzentsysteme

1 3 3 10 10 13 20 28 31 37 40 42 49 52 55 58 58 64 68 71 74 77 81 81 86 86 88 89 91 92 92 98 99 100 103 108 109 110 112

vili 2.3.5 Anmerkungen zur Forschungsgeschichte 2.4 Zusammenfassung

113 114

3 Eine neue Typologie rhythmischer Konturbildung 3.1 Rhythmizität als nachgeordnete Qualität 3.2 Prosodische Kontrastivität 3.2.1 Kontrastivität der silbischen Gliederung 3.2.2 Kontrastivität der melodischen Kontur 3.2.2.1 Satzphonologische melodische Kontraste: Intonation 3.2.2.2 Wortphonologische melodische Kontraste: Ton 3.2.3 Kontrastivität der Prominenzkontur 3.2.3.1 Prominenzkontraste in der Wortphonologie 3.2.3.2 Prominenzkontraste in der Satzphonologie 3.2.4 Kontrastivität der Zeitstruktur 3.2.4.1 Zeitstrukturelle Kontraste in der Wortphonologie 3.2.4.2 Zeitstrukturelle Kontraste in der Satzphonologie 3.2.5 Grenzen der prosodischen Kontrastivität 3.3 Prosodische Kontraste und Konturbildungsmöglichkeiten 3.3.1 Morenbasierter Rhythmus 3.3.1.1 Japanisch 3.3.1.2 Ausblick auf Finnisch und Westgrönländisch 3.3.2 Phrasenbasierter Rhythmus 3.3.2.1 Französisch 3.3.2.2 Ausblick auf das Koreanische 3.3.3 Prominenzbasierter Rhythmus 3.3.3.1 Englisch und Deutsch 3.3.3.2 Ausblick auf das Russische 3.3.4 Rhythmische Konturen ohne Kontraste: alternierender Rhythmus 3.3.4.1 Italienisch 3.3.4.2 Ausblick auf das Spanische 3.4 Zusammenfassung

115 115 116 116 118 118 119 121 121 122 123 123 124 126 129 132 133 135 137 137 146 148 149 154 156 156 162 164

4 Externe Evidenz für die neue Typologie 4.1 Phonetik und Sprachtechnologie 4.1.1 Akustische Rhythmusforschung und Sprachsynthese 4.1.2 Untersuchungen zur Sprachunterscheidung 4.1.3 Untersuchungen zur Produktion 4.1.4 Untersuchungen zur Perzeption 4.2 Spracherwerb und Sprachverlust 4.2.1 Erstspracherwerb 4.2.1.1 Frühkindliche Perzeption rhythmischer Konturen 4.2. Í .2 Theorien des Phonologieerwerbs 4.2.1.3 Rhythmische Konturbildung in früher Sprachproduktion 4.2.2 Zweitspracherwerb 4.2.3 Sprachliche Defizite 4.3 Poetologische Metrik 4.3.1 Zum Verhältnis von Metrik und Phonologie

167 167 167 169 171 174 177 177 177 182 184 188 191 193 193

ix 4.3.2 4.3.3 4.3.4 4.3.5 5

Zur Unterscheidung von Metrum und Rhythmus Metrische Typologien Silbenzählung in der Metrik Metrische Zäsuren und phrasenbasierter Rhythmus

Zusammenfassung und Ausblick

196 197 202 206 209

Literatur

211

Register

245

0

Einleitung

Wer aber mit einem Satz wie »Unter Rhythmus verstehen wir... « anfinge, wäre verstohlenerweise zu dem Ergebnis gekommen, dem er sich besser, oder doch lieber, unter den Augen des Lesers nähert. (Hanno Helbling, Rhythmus: ein Versuch) Die Intuition, wonach Lautsprache rhythmische Qualität aufweist, zieht sich durch die gesamte Geschichte der abendländischen Sprachreflexion und der modernen Sprachwissenschaft. Auch in der Phonologie der letzten Jahrzehnte hat sich das Erkenntnisinteresse von der Beschreibung und Inventarisierung der Sprachlaute auf die Untersuchung der suprasegmentalen Organisation der Sprachlautfolgen ausgeweitet. Neben der Silbenprosodie und den melodischen Strukturen auf Wort- und Satzebene sind hierbei auch Akzent und Rhythmus mehr und mehr zu zentralen Gegenständen der Forschung geworden. Immer häufiger beziehen dabei phonologische Beschreibungen des Sprachrhythmus auch Ergebnisse der experimentellen Phonetik und Psycholinguistik sowie der poetologischen Metrik mit ein. Die vorliegende Monographie entwirft, ausgehend von einer kritischen Sichtung wichtiger Arbeiten zum Thema, eine neue phonologische Typologie rhythmischer Konturbildung und stützt diese durch Befunde aus anderen Disziplinen. Sie untergliedert sich in fünf Kapitel: In den vier Abschnitten des ersten Kapitels sollen nach einer Übersicht über die Vorgeschichte der Rhythmusphonologie die zwei für die Phonologie grundlegenden Konzeptionen von Rhythmizität vorgestellt werden. Innerhalb der ersten, aus der Phonetik hervorgegangenen Forschungstradition wird Rhythmizität als Abfolge von Gleichem verstanden, und diese Gleichheit temporal als Isochronie interpretiert. Jede Sprache weist nach dieser Auffassung eine prosodische Größe auf, hinsichtlich derer Isochronie angestrebt wird, Sprachen unterscheiden sich jedoch in ihrer Wahl der prosodischen Konstituentenkategorie für diese zeitliche Angleichung. Innerhalb der Linguistik etabliert die Isochronieforschung neue Ansätze einer phonologischen oder sogar holistischen, auch die Morphologie und Syntax mitberücksichtigenden Sprachtypologie. Die Metrische Phonologie als die zweite Forschungsrichtung, welche die rhythmische Grundlage der prosodischen Organisation von Lautsprache untersucht, begreift Rhythmizität demgegenüber als Abfolge von Verschiedenem und faßt diese Verschiedenheit akzentuell. Sprachen bevorzugen nach dieser Theorie eine regelmäßige Alternanz von akzentuell prominenteren und weniger prominenten Einheiten und unterscheiden sich allein in der Organisation dieser Alternanz. Das zweite Kapitel setzt sich kritisch mit einigen zentralen, teilweise jedoch implizit bleibenden Annahmen dieser Ansätze auseinander. Hierbei wird zunächst auf eine in beiden Traditionen verbreitete Polysemie des Sprachrhythmusbegriffs hingewiesen, der sowohl zur Bezeichnung jeder Art von wahrnehmbarer rhythmischer Kontur als auch eines nur theoretisch erschließbaren Organisationsprinzips der Lautsprache gebraucht wird. Anschließend wenden wir uns wieder den Forschungen zur Isochronie zu und konzentrieren uns hierbei auf den silbenisochronisierenden Sprachtyp. Dabei zeigen wir für verschiedene phonologische Bestimmungsversuche, daß diese häufig inkonsistent sind, ja in einigen Ansätzen sogar keineswegs rhythmische Qualität beschreiben, sondern im Gegenteil ihre Abwesenheit. Die isochroniebasierte Rhythmusphonologie erscheint somit als zu wenig restriktiv. Umgekehrt erlauben,

2 wie im dritten Abschnitt dieses Kapitels dargelegt wird, die Metrische Phonologie und andere Ansätze, welche rhythmische Konturen allein Uber die Akzentprosodie beschreiben wollen und dabei von der Zeitdimension der Lautsprache abstrahieren, nicht für alle Sprachen eine angemessene Beschreibung ihrer prosodischen Organisation. Der im dritten Kapitel vorgeschlagene Neuansatz beruht zunächst auf der Einsicht, daß phonologische Kodierungserfordernisse grundsätzlich Vorrang vor eurhythmischen Präferenzen haben. Zu fragen ist also nicht, welche phonologischen Distinktionen in Sprachen eines bestimmten rhythmischen Typs möglich sind, sondern vielmehr umgekehrt, wie der Aufbau rhythmischer Konturen unter den sprach(typ)spezifischen Distinktivitätsanforderungen erfolgen kann. Beide rhythmisch relevanten Dimensionen der Prosodie, nämlich Zeit und Prominenz, können dabei zur Kodierungsleistung beitragen, jedoch nicht beide zugleich in einer Sprache; außerdem behindern sich, anders als in der Prominenzkontur, bei der distinktiven Nutzung der Zeitdimension morpholexikalische und syntaktische Kodierungserfordernisse wechselseitig. Hieraus ergeben sich vier mögliche Typen rhythmischer Konturbildung: 1. Eine starke wortphonologische Nutzung der Zeitdimension führt zu einem morenbasierten Rhythmus, wie etwa im Japanischen, Westgrönländischen oder Finnischen, in Sprachen ganz unterschiedlicher morphosyntaktischer Sprachtypen also. 2. Der zweite Typ, der sich durch eine syntaktisch kodierungsrelevante Zeitstrukur auszeichnet und als phrasenbasiert bezeichnet wird, findet sich im Französischen und, weniger eindeutig, im Koreanischen. 3. Bei prominenzbasiertem Rhythmus bestimmt hingegen die außerphonologische Festlegung von Wort- und Satzakzenten über die zeitliche Gestaltung, wobei, wie im Vergleich des Englischen und Deutschen mit dem Russischen veranschaulicht wird, in unterschiedlichem Maße syntaktische, informationsstrukturelle und morpholexikalische Kodierungsleistungen erbracht werden. 4. Schließlich können Sprachen auch weitgehend oder sogar ganz auf eine die Satzprosodie prägende distinktive Nutzung von Zeit und Prominenz verzichten und sich somit weit stärker nach rhythmischen Qualitäten ausrichten. Aufgrund ihrer phonologischen Eigenschaften kommen Italienisch und Spanisch diesem alternierenden Typ nahe. Empirische Rechtfertigung für den Primat der prosodischen Kontrastivität und das vorgeschlagene Inventar rhythmischer Typen bringt das vierte Kapitel bei. Im ersten Abschnitt soll aufgezeigt werden, daß die neue phonologische Auffassung sprachrhythmischer Organisationsweisen auch durch rezente Befunde aus der Experimentalphonetik und Sprachtechnologie unterstützt wird. Der zweite Abschnitt bietet eine Zusammenstellung psycholinguistischer Evidenz und vergleicht die phonologische Theoriebildung mit Ergebnissen zur Rolle des Rhythmus im Erst- und Zweitspracherwerb sowie bei Sprach- und Sprechdefiziten. Auch hierbei wird sich erweisen, daß der Raum der prosodischen Möglichkeiten, den die Metrische Phonologie eröffnet, zu eng ist, wohingegen sich der in der Isochronieforschung angesetzte silbenisochronisierende Sprachtyp nirgendwo belegt findet. Das Verhältnis der rhythmischen Organisation von Sprachen und den Formen ihrer metrischen Bindung in der Dichtung wird im dritten Abschnitt diskutiert. In diesem Teil soll nach einer knappen Charakterisierung der Relation von Rhythmus und Metrum dafür argumentiert werden, daß die metrischen Typologien der vergleichenden Literaturwissenschaft auch für die Rhythmusphonologie wichtige Aufschlüsse liefern können. Das fiinfte Kapitel bietet zum Abschluß eine Zusammenfassung der Arbeit und weist darauf hin, daß eine Theorie rhythmischen Sprachwandels bis heute nicht vorliegt.

1

Konzeptionen von Sprachrhythmus

1.1 Aus der Vorgeschichte der Rhythmusphonologie Der philosophische Diskurs Uber den Rhythmus setzt bereits in der Antike ein. So ist nach Piaton Rhythmus zu bestimmen als Ordnung der Bewegung (ή της κινήσεως τάξις, Nomoi 2.665a) und die Fähigkeit, Rhythmus wahrzunehmen, ausschließlich dem Menschen eigen. Aristoteles hebt den Nutzen eines solchen Erlebens von Ordnung in der Erziehung hervor (vgl. Politik 8 , 5 , bes. 1340a 8ff.) und faßt auch Sprache als eine Substanz auf, die Rhythmus aufweisen kann, j a muß, wenn sie nicht αηδές καί ¿«γνωστόν, unangenehm und unverständlich, sein soll. Somit muß Prosarede zwar nicht metrisch gebunden sein, jedoch ebenfalls rhythmische Qualität besitzen. Diese begreift Aristoteles, in Anlehnung an Pythagoras, ebenso wie die Metren in der Dichtung als Zahlenverhältnis: [... ] ó δέ τοϋ σχήματος τής λέξεως αριθμός ρυΌμός έστιν, οδ καί τά μέτρα τρήματα. (Aristoteles, Rhetorik III 8.3) Das Zahlsystem für die Beschaffenheit der sprachlichen Ausdrücke ist der Rhythmus, wovon die einzelnen Metra Abschnitte sind. (Übersetzung Franz G. Sieveke) Aristoteles' Schüler Aristoxenes von Tarent interpretiert diese numerische Bestimmung temporal: Rhythmus in Sprache wie Musik entsteht nicht einfach aus einer bestimmten Anzahl von Einheiten, sondern nimmt wesentlich auf die Dauer der Einheiten Bezug: Άκόλου-θον δέ έστι τοις είρημένοις και αύτφ τω φαινομένω τό λέγειν, τον ρυ·θμόν γίνεσ·θαι, δταν ή των χρόνων διαίρεσις τάξιν τινά λάβη αφωρισμένην [... ] (Aristoxenes von Tarent, Grundzüge der Rhythmik) Uebereinstimmend aber mit dem Gesagten und mit der thatsächlichen Erfahrung läßt sich sagen, daß der Rhythmus dann entstehe, wenn die Abgliederung der Zeittheile eine selbstbestimmte Anordnung enthalte. (Übersetzung Heinrich Feußner) In Rom erörtert Quintilian eingehend das Wesen von Sprachrhythmus im Vers (bezeichnet als metrum) und in der Prosa (hiervon terminologisch abgehoben als numerus). Dabei ordnet er die Lehre vom metrum der ars poetica, die Lehre vom numerus hingegen der ars rhetorica zu (vgl. Institutio Oratoria IX 4, 52-57). Auch Quintilian betrachtet numerus als Eigenschaft, die jeder lautsprachlichen Äußerung zukommt, wobei er eine für die Sprachreflexion und Metriktheorie folgenreiche Begründung gibt: Et in omni quidem corpore totoque, ut ita dixerim, tractu numerus insertus est: neque enim loqui possum nisi e syllabis brevibus ac longis, ex quibus pedes fìunt. (Quintilian, Institutio oratoria 9.4 61) Nun ist der Rhythmus ja in dem ganzen Körper der Rede und, ich möchte sagen, in dem ganzen Zug, der die Rede durchdringt, enthalten; denn ich kann ja nicht sprechen außer mit kurzen und langen Silben, aus denen die Füße gebildet werden. (Übersetzung Helmut Rahn)

4 Wir halten hier fest, daß sich nach Quintilian Sprachrhythmus aus der durationalen Verschiedenheit der Silben als der rhythmischen Grundeinheiten sowie ihrer Gruppierung in größere Muster, den Füßen, ergibt. Im Mittelalter steht die Reflexion über die Lautsprache ganz im Zeichen orthoepischer Bemühungen um das Latein. Die tiefgreifende rhythmische Umstrukturierung, die sich im Spätlateinischen durch den Verlust der Quantität (vgl. 3.2.4.1) vollzog, führte dazu, daß die prosodische und metrische Theorie der Römer - selbst weitgehend am Griechischen orientiert - zur Beschreibung des zeitgenössischen Lateins nicht mehr tragfahig war. Die Lehre von der messenden Bewertung der Silben als lang oder kurz bildet zwar die prosodische Grundlage der klassisch-lateinischen Metrik, gerät in der mittellateinischen Dichtung, sofern sie beibehalten wird, jedoch zu einer bloßen Konvention. Da die sprachliche Grundlage dieser Unterscheidungen für die lateinischsprachigen Kreise des Mittelalters nicht mehr erfahrbar ist, schleichen sich auch in die Abhandlungen zu Prosodie und Metrik immer mehr Fehler ein: So wird beispielsweise seit dem 9. Jh. zunehmend Vokaldauer mit Silbendauer verwechselt und bei langen Silben fälschlich auf Länge des Vokals geschlossen (vgl. Thurot 1883, 86). Doch in den - nicht eben zahlreichen - Ansätzen zu einer prosodischen Phonologie avant la lettre tritt anstelle der temporalen Dimension des Sprachrhythmus verstärkt ein neuer rhythmusstiftender Aspekt, nämlich die Abfolge der Akzente. So inventarisiert die mittelalterliche cursus-Lehre Akzentmuster für Satzschlüsse als kanonisierte Gestalten und bildet einen Hauptort der zeitgenössischen Befassung mit natürlichem und stilisiertem Sprachrhythmus. Außerhalb dieser bereits an der Schwelle zur poetologischen Metrik stehenden Forschung ist jedoch über die Auffassungen des Rhythmus vor der Neuzeit wenig bekannt; Zollna (1995, 16) konstatiert: "Insgesamt erscheint das Mittelalter auch hinsichtlich seiner Rhythmusvorstellungen sprichwörtlich 'dunkel' und verlangt nach weiterer Forschung." Immerhin bietet jedoch gerade die auffällige prosodische Differenz zwischen dem mittelalterlichen Latein (sowie den romanischen Idiomen) und der klassischen, im Laufe der Jahrhunderte mehrfach restituierten Norm die Chance, ein erweitertes Verständnis für das Wesen von Sprachrhythmus zu gewinnen. So betrachtet Giovanni Balbi aus Genua in seinem um 1280 entstandenen und überaus einflußreichen Catholicon sowohl Zeitdauern als auch Akzente als rhythmisch relevant und definiert die Lehre von der Prosodie als "tractatus de cuiuslibet sillabe tempore vel accentu" (zitiert nach Thurot 1883, 391, Fn. 1). Zu Beginn der Neuzeit stehen mit der Erfindung und Verbreitung des Buchdrucks und dem dadurch mitbedingten Bemühen um die Ausbildung überregionaler Standardvarietäten weniger deskriptive als praktische normative Ziele im Mittelpunkt der Sprachreflexion. Sofern sie überhaupt einen Gegenstand sui generis bildet, wird die Lautsprache vor allem in ihrem Verhältnis zur Schriftsprache thematisiert. Viele der frühen Grammatiker beschränken sich auf die Inventarisierung und artikulatorische Beschreibung einzelner Sprachlaute; weitergehende Fragen zu ihrer prosodischen Organisation bleiben ausgespart oder gehen unter dem Druck der humanistischen Antikenrezeption von gleichen rhythmischen Verhältnissen wie in den klassischen Sprachen aus. Wir können hier nur exemplarisch einige frühe Sprachbeschreibungen herausgreifen: Während sich in Frankreich Jacques Dubois in der 1531 in lateinischer Sprache erschienenen In linguam Gallicam Isagcoge, der ersten in Frankreich publizierten Grammatik des Französischen, noch ganz auf den Lautwandel und die Relation von Schreibung und Lautung beschränkt, zeigt Louis Meigret, "le père de la grammaire française" (Hausmann 1980, vii), in

5 seinem Tretté de la Grammçre françoçze von 1550 bereits ein Verständnis der Rolle der Silbe für die Phonotaktik. In seinem Kapitel zur Satzprosodie sucht er jedoch nach einer Systematik für die Einteilung der französischen Silben in lange und kurze, ohne nach der sprachlichen Grundlage für diese Klassifikation zu fragen. 1 Wie wir in 3.3.2.1 noch sehen werden, findet sich in der Renaissance-Zeit eine angemessenere Behandlung rhythmischer Besonderheiten des Französischen am ehesten in Lehrwerken für den Unterricht von Ausländern. Die 1660 anonym publizierte Grammaire générale et raisonnée von Antoine Arnauld und Claude Lancelot enthält zwar kurze Abschnitte zur Rolle der Silbe und des Wortakzents, jedoch keine Hinweise auf satzrhythmische Strukturen. In der großen, zwischen 1751 und 1780 von Jean Lerond d'Alembert und Denis Diderot herausgegebenen Encyclopédie finden sich getrennte Einträge zu Rhythmus in Poesie und Prosa, wobei letzterer wie folgt beginnt: RHYTHME (Prose) c'est comme dans la poésie la mesure et le mouvement ; l'un et l'autre se trouvent dans la prose, ainsi que dans la poésie. En prose, la mesure n'est pas que la longueur ou la briéveté des phrases, & leur partage en plus ou moins de membres, & le mouvement résulte de la quantité de syllabes dont sont composés les mots. (Dictionnaire raisonné des sciences, des arts et des métiers, Bd. 14,267, signiert D.J.) Hier fällt zunächst auf, daß Sprachrhythmus auf zwei Eigenschaften zurückgeführt wird, nämlich zum einen auf die Dauer der Sätze und Satzglieder - auch dies ein Novum, ältere temporale Explikationen von Sprachrhythmus nehmen auf Silben- oder Segmentdauern Bezug - , zum anderen auf die Anzahl der Silben eines Wortes. 2 Insgesamt wirkt die Beschreibung jedoch eher wie eine bloße Übertragung von Wissensbeständen aus der antiken und französischen Metrik auf die ungebundene Sprache. Das metrische Zählen von Zeiteinheiten oder Silben in der Verszeile gerät, wohl in Ermangelung anderer Beschreibungsrahmen, zum Konstitutivum von Sprachrhythmus überhaupt. Hierbei wird weder deutlich, wie die beiden Beschreibungsebenen für Sprachrhythmus miteinander in Zusammenhang stehen, noch gar, ob und gegebenenfalls wie sich Sprachen in ihrer rhythmischen Konturbildung unterscheiden können. Differenzierter behandelt Nicolas Beauzée in seiner Grammaire générale von 1767 Aspekte der sprachrhythmischen Gestaltung. In seinem Kapitel zur Wortprosodie formuliert er die folgende Definition: [... ] la Prosodie des mots est l'art de prononcer chaque syllabe de chaque mot avec l'accent tonique & le degré de quantité qui lui conviennent, ou à cause du mécanisme de la parole ou en vertu de l'usage de la langue que l'on parle. (Beauzée 1767, Bd. 1, 165) Wie schon bei Giovanni Balbi, so ergibt sich auch für Beauzée die prosodische Gestalt aus der akzentuellen und zeitlichen Strukturierung der Silbenfolge. Über Balbi hinausgehend findet sich jedoch auch eine Angabe zweier Einflußgrößen, des mécanisme de la parole sowie des usage de la langue que l'on parle, eines universellen sowie eines einzelsprachlichen Prinzips. Silbenprominenz und Silbendauer können also, so ist man versucht zu paraphrasieren, einer 1

2

Hausmann (1980, 197) führt diese beinahe komisch anmutende Suche nach Längen und Kürzen auf Meigrets Nähe zu den Verfechtern der vers mesurés zurUck, die im Französischen der Renaissance quantitierende Versmaße einführen wollten; ihre Geschichte ist die Geschichte ihres Scheiterns. Daß fr. quantité hier gerade nicht Quantität in einem metrischen oder modernen linguistischen Sinne meint, wird im Verlaufe des Artikels deutlich: So heißt es später "[... ] du nombre, c'est-à-dire, de la quantité des syllabes [... ]".

6 universellen eurhythmischen oder einzelsprachlichen, lexikalischen Determination unterliegen - die Modernität dieses Ansatzes wird sich in den folgenden Kapiteln noch zeigen. Auch in Deutschland konzentrieren sich die frühen volkssprachlichen Grammatiker weitgehend auf segmentalphonetische und orthographische Fragen. So mag zwar bereits bei Valentin Ickelsamer, der um 1530 als erster eine schulpädagogisch orientierte Grammatik des Deutschen verfaßt, die ausdrücklich auch den Namen Grammatik im Titel trägt, ein Bewußtsein für silbenprosodische Kontraste anklingen (vgl. die Interpretation bei Restle 1998,12f.), das Kapitel zur "Ordnung vnd taylung der rede vnnd ihres synnes" behandelt jedoch ausschließlich Fragen der Interpunktion. Auch die Ausfiihrliche Arbeit von der Teutschen HaubtSprache von Justus Georg Schottelius umfaßt zwar eine ausführliche poetologische Metrik, trifft jedoch wenig Aussagen Uber den Rhythmus ungebundener Sprache; der Hinweis auf die Unterschiedlichkeit der Silbendauern im Deutschen (Schottelius [1663], 802) führt auf keine höhere prosodische Ebene. Von Akzenten ist nirgendwo die Rede. Hingegen hatte bereits 1624 Martin Opitz den Dichtern des Barockzeitalters den Weg zu einer Versifikation aufgezeigt, die dem rhythmischen Wandel zum Neuhochdeutschen hin Rechnung trägt und nicht mehr auf der Zeitstruktur, sondern auf der Akzentprosodie gründet. Johann Christoph Gottsched [1748] ( 5 1762) versucht, die antike temporale Konzeption von deskriptiver Prosodie und poetologischer Metrik mit einer Lehre von der "Tonmessung" zu verbinden. Daß der 'Ton" bei Gottsched (auch) ein phonologisches Konzept von Akzent meint, zeigt sich darin, daß er eine Voraussetzung für Silbenlänge im Deutschen bildet (vgl. S. 590), gleichzeitig aber jedes Substantiv, Adjektiv und Verb im Deutschen mindestens eine lange Silbe aufweist (vgl. S. 593). In dem Versuch einer deutschen Prosodie von Karl Philipp Moritz (1786, 246) werden ebenfalls zwei Aspekte unterschieden, nämlich Silbenlänge und "prosodischer Werth". Auch das 1782 veröffentlichte Umständliche Lehrgebäude von Johann Christoph Adelung warnt ausdrücklich davor, Zeit- und Akzentstruktur (letztere wird als 'Tonlehre" bezeichnet) in der Sprachbeschreibung zu vermischen. Mit der eindeutschenden Bezeichnung "Ton" für Akzent ist bei ihm jedoch zugleich eine Identifizierung des Akzents mit einer bestimmten phonetischen Manifestation vollzogen. Eine solche Einengung des Akzentbegriffes ist aber, wie in 2.3.2.1 noch zu zeigen sein wird, nicht ohne Probleme. Hier erscheint mir der neutrale Terminus "prosodischer Wert" bei Moritz glücklicher gewählt. Über Gottsched, Moritz und Adelung hinaus führen die Einsichten von Friedrich Klopstock (1774), da er nicht nur zeitbezogene und akzentuelle Aspekte diskutiert, sondern auch ihre Interaktion. Bemerkenswert ist seine Einsicht, daß diese in verschiedenen Sprachen unterschiedlich geregelt sein kann. So vergleicht er die Bestimmung der Wortakzentlage ("Tonstellung") im Altgriechischen und Deutschen: (Tonstellung): [... ] Da ihre Wirkung bey uns Bestimmung der Zweyzeitigkeit ist; so muß man sie mit dem Accente der Griechen [... ] nicht vergleichen. Denn ob ich ánthmopos oder anthróopu bezeichne, so behalten an und throo eben dieselbe Quantität. Ich führe dies nur an, um der so oft von Deutschen, und mich deucht allein von Deutschen, gemachten Beschuldigung zu begegnen, daß unser Tonmaaß Accentquantität waere. Ich gebe aber gerne zu, daß mancher Deutsche mehr Griechisch, als Deutsch wisse; aber ich kann nicht zugeben, daß man viel Griechisch wisse, wenn man sich nicht erinnert, daß bey den Griechen der Accent die Quantität nicht allein nicht bestimmte, sondern daß jener so gar nach dieser verändert wurde. (Klopstock 1774, 356f.)

7 Noch umfassender ist die typologische Anlage für verschiedene rhythmische Strukturbildungen bei Wilhelm von Humboldt. In einem nach 1820 entstandenen Aufsatz (vgl. zum wissenschaftshistorischen Kontext Hurch 2000) schreibt er: Die Betonung einer Silbe kann ihre intellectuelle, ihr Zeitmass ihre aesthetische, ihr eigenthümlicher Laut ihre materielle Natur genannt werden. [... ] Die Verschiedenheit der Behandlung nun, welche die Betonung in einer gegebenen Sprache erfährt, wird vorzüglich aus der verschiedenen Gleichstellung, oder Unterordnung dieser drei Naturen entstehen [... ] (Humboldt [nach 1820] 1968, 325) Humboldt unterscheidet also die den Silben jeweils zugeordneten Sprachlautfolgen von ihrem Prominenzgrad und ihrer Dauer und betrachtet die Art und Weise des Ineinandergreifens der segmentalen, temporalen und akzentrhythmischen Ebene als sprachspezifìsch. Doch bereits der vor allem als Übersetzer Homers bekannt gewordene Johann Heinrich Voss (1802) postuliert in seiner Zeitmessung der deutschen Sprache wieder gleiche prosodische Verhältnisse für die klassischen Sprachen und für das Deutsche. Ferner polemisiert er gegen die Auffassung, im Deutschen seien die Zeitdauern der Akzentstruktur nachgeordnet (vgl. besonders Voss 1802,11). Richtungsweisend in der wissenschaftlichen Befassung mit der temporalen Dimension der Sprache wurde Großbritannien, und hier zunächst das Werk von Sir Joshua Steele, den man sogar "the first English prosodist of modern times" (Couper-Kuhlen 1993, 6) genannt hat. In seinem opus magnum, der Prosodia rationalis von 1775, findet sich bereits die These, daß rhythmische Qualität auch in nicht metrisch gebundener Rede sich durch approximative Gleichheit in der Dauer fester prosodischer Größen ergibt (vgl. Steele 2 1779,117). Im Englischen beziehen sich nach Steele diese Isochronietendenzen auf die Abstände zwischen den akzentuierten Silben. Rhythmus in der Sprache beruht nach ihm und den seine Ideen weiterführenden musical prosodists des 19. Jhs. (vgl. als Überblick Sumera 1981) auf einer solchen Periodizität, die teilweise auf physiologische oder auch mentale 'Taktgeber" zurückgeführt wird. Hierbei entwickelt sich Rhythmus in der Sprache bei einigen Autoren wieder, wie schon bei Quintilian, von einer Qualität, die einer Äußerung zukommen kann oder auch nicht, zu einem apriorisch zugeschriebenen Merkmal. Wo Rhythmus aber Teil der Definition von Lautsprache wird, verschwimmt auch die Definition von Rhythmus selbst, so etwa bei James Chapman ( 1821 ) in seiner Original rhythmical grammar of the English language, der Sprachrhythmus als rhythmischen Zeittakt auffaßt, dessen Präsenz einfach vorausgesetzt wird (vgl. bes. S. 100). Rhythmizität der Sprache ist hier nicht mehr Beschreibungsgegenstand, sondern ein sprachtheoretisches Axiom. Die britische Tradition einer an der Musikwissenschaft angelehnten, weitgehend auf das Englische beschränkten und vorwiegend intuitiv betriebenen Sprachrhythmusforschung findet ihren letzten großen Vertreter in William Thomson. In seinem Hauptwerk The rhythm of speech von 1923 wendet er sich gegen eine Reduktion von Lautsprache auf ein bloßes Nacheinander von Einheiten, deren zeitliche Erstreckung nicht mehr in die Untersuchung eingeht. Taktschläge, physiologisch als respiratorische Impulse verstanden, bilden auch bei ihm die Grundlage für die rhythmische Strukturbildung in der Sprache. Die hinreichende Gleichheit der Taktzeiten liefert den Rahmen für eine Einteilung der Silbendauern in arithmetische Proportionen, so wie auch in der Musik Notendauern in einfachen rationalen Zahlenverhältnissen zueinander stehen. Nicht nur durationale Gleichheit, sondern auch proportionierte durationale Verschiedenheit begründet also den Rhythmus in der Sprache nach Auffassung von Thomson. So findet sich unter seinen gesetzesartig formulierten Thesen auch eine "law of quantity-ratios":

8 The law of quantity-ratios: Each syllable bears to an adjacent syllable or small group containing it a very simple ratio of duration, or is itself one of a small group bearing a very simple ratio to an adjacent syllable or small group containing it; so that, although some syllables are not in mensural gear with others, it is possible to assign to each of them or to any combination of them a rational number expressing its quantity. (Thomson 1923, 189) Schon in diesen knappen Ausführungen zu Thomsons Sprachrhythmustheorie wird erkennbar, daß der hohe Anspruch, mit dem er seine Überzeugungen in Form von Gesetzen formuliert, in bemerkenswertem Gegensatz zu seiner allein auf Introspektion beruhenden Vorgehensweise steht. Thomsons eng an der Musik orientierte Rhythmuslehre erscheint insgesamt für die Linguistik eher als Sackgasse. In der neu entstehenden wissenschaftlichen Phonetik des 19. Jhs. hingegen widmet man sich von Anfang an auch einer Charakterisierung prosodischer Unterschiede zwischen den Sprachen. Sogar das Ineinandergreifen verschiedener prosodischer Dimensionen wird bereits thematisiert: So hebt Eduard Sievers in seinen Grundzügen der Phonetik von 1881 hervor, daß ein phonetisch stark markierter Akzent sich auch zeitlich auswirkt (vgl. S. 192). Eine stärkere Verschiedenheit betonter und unbetonter Silben geht nämlich mit einer stärkeren Anisochronie der Silbendauern einher - ein Zusammenhang, der auch in der neueren, unter 1.2 nachgezeichneten Isochronieforschung immer wieder konstatiert wurde. Franz Saran, ein Schüler von Sievers, widmet in seinem Werk Deutsche Verslehre aus dem Jahre 1907 ein längeres Kapitel auch dem Sprachrhythmus ungebundener Rede. Seine Monographie zeichnet sich durch genaue Argumentation aus, allerdings auch durch eine manchmal eigenwillige Terminologie. So bezeichnet er Akzent als "Schwere", wohingegen seine Verwendung von "Akzent" auch Aspekte der Prosodie umfaßt, die nach modernem Verständnis nicht oder zumindest nicht unmittelbar als akzentuell erscheinen. Wie Beauzée, Klopstock und Humboldt begreift auch Saran die Bildung rhythmischer Konturen als Interaktion von Zeit- und Prominenzstruktur und bestimmt Sprachrhythmus (Sarans "Akzent") wie folgt: Akzent ist demnach die Gliederung der Rede. Seine Bestandteile (die Merkmale des Begriffs) sind: 1. eine gewisse 'absolute' und relative Schwereverschiedenheit der Sprachelemente (Silben, manchmal wohl auch Laute), 2. eine gewisse 'absolute' und relative Dauerverschiedenheit derselben, 3. eine gewisse Zusammenfassung derselben. (Saran 1907, 23) Rhythmus gründet sich nach Saran also in jedem Falle auf der Verschiedenheit der rhythmischen Grundelemente, wobei diese Verschiedenheit in der Zeit oder Betonung oder auch in beiden zugleich bestehen kann. Der Phonetiker Raymond H. Stetson erklärt in seiner motor theory die periodischen Bewegungen des menschlichen Sprechapparates zur Grundlage sprachlicher Rhythmisierung und erhebt "voluntary changes of vividness of sensory material" (Stetson 1905, 340) zum Kriterium für die rhythmische Qualität von Wahrnehmungseindrücken; im Falle der Lautsprache also wohl eher die Akzentprosodie. Dagegen schränkt sein Kollege Daniel Jones zumindest für das Englische Rhythmizität wieder auf die Zeitdimension ein (vgl. Jones [1914] 8 1956,237). In der strukturalistischen Sprachwissenschaft hat bereits Ferdinand de Saussure zu einer Verbannung des Rhythmus aus der phonologischen Forschung beigetragen:

9 Le signifiant, étant de nature auditive, se déroule dans le temps seul et a les caractères qu'il emprunte au temps : a) il représente une étendue, et b) cette étendue est mesurable dans une seule dimension : c'est une ligne. (Saussure [1916] 1986, 103) Die lineare und somit eindimensionale Konzeption des signifiant phonique bei Saussure hat in der Linguistik zu einer jahrzehntelangen weitgehenden Abstinenz in der Erforschung sprachrhythmischer Verhältnisse geführt. Rhythmisch relevante Eigenschaften wie Akzent und Quantität wurden in erkenntnisverhindernder Form als segmentale Merkmale gefaßt und ihre gänzlich andere suprasegmentale Organisation verkannt. Auch Leonard Bloomfield (1933) stellt zwar rhythmische Unterschiede zwischen den Sprachen fest, befindet sie jedoch einer eingehenderen linguistischen Untersuchung nicht für wert: [... ] it is beyond our power to analyze the general acoustic effect of a language. We can explain certain superficial effects: the "pattering" run of Italian (to English ears) is due to the syllabledivision [... ] (Bloomfield 1933, 127) Dieses Desinteresse an einzelsprachlicher und sprachvergleichender Rhythmusforschung in der Linguistik gipfelt in dem Versuch von Noam Chomsky und Morris Halle, in The sound pattern of English (1968), einem Werk, welches Maßstäbe setzte für die frühe generative Phonologie, phonologische Sprachbeschreibung vollständig auf die Ebene der Segmente und Merkmale zu reduzieren; noch nicht einmal ein Konzept der Silbenprosodie findet sich in diesem Buch. Bis in die Gegenwart scheint Sprachrhythmus - anders als Intonation - nicht zu den etablierten Grundthemen der Linguistik zu gehören (vgl. Auer/Couper-Kuhlen 1995, 79). Diesem Nullpunkt der prosodischen Theoriebildung des 20. Jhs. steht außerhalb der akademischen Linguistik vor allem in Deutschland ein erstaunlich breites Interesse für Fragen des Rhythmus gegenüber: Schon um 1900 erscheint der Begriff, mitbedingt durch die lebensphilosophische Richtung, geradezu als "das große Zauberwort" (Günther 3 1979,52). Rhythmische Qualität wird, häufig apriorisch, allen menschlichen Aktivitäten, also selbstverständlich auch dem Sprechen, zugeschrieben (vgl. als sprachtheoretisches Manifest der deutschen Rhythmusbewegung Klages 1934 und zum Umgang mit rhythmischer Sprachgestaltung im Nationalsozialismus Soboth 1996). Daß sich die Verwendung dieses so schillernden und seit der griechischen Antike vielfältig konnotierten Begriffs auch im modernen Wissenschaftsbetrieb sogar erkenntnisverhindernd auswirken kann, betont Schlieben-Lange (1995,10): "Sehr deutlich wird auch, daß der "Rhythmus"-Begriff ganzheitliche und interdisziplinäre Versprechungen transportiert, die ihn ideologieanfällig machen." Dies mag mit ein Grund dafür sein, daß manche der Untersuchungen zu sprachlicher Rhythmisierung zweieinhalbtausend Jahre nach Piaton sich wieder auf sehr neutrale, schon in der griechischen Antike formulierte Ansätze zurückziehen - man vergleiche etwa die Erläuterung, die Jost Trier 1949 anbietet: Rhythmus ist die Ordnung im Verlauf gegliederter Gestalten, die darauf angelegt ist, durch regelmäßige Wiederkehr wesentlicher Züge ein Einschwingungsstreben zu erwecken und zu befriedigen. (Trier 1949, 136) Die Ordnung - Piatons τάξις - rhythmischer Phänomene ermöglicht eine angenehmere Wahrnehmung - auch hierauf hatte bereits Aristoteles hingewiesen. Welche "wesentlichen Züge" in der Lautsprache aber diese rhythmusstiftende Rekurrenz begründen, wird nicht diskutiert. In der neueren vergleichenden Forschung hat sich die Perspektive immer häufiger zu einer universellen Sprachrhythmustheorie mit typologischen Implikationen erweitert. Hier haben sich zwei Forschungstraditionen etabliert, die jeweils einen der beiden schon von Aristoxenes

10 benannten Aspekte der Zeitteilung (χρόνων διαίρεσις) und Zeitordnung (τάξις) rhythmischer Schallereignisse hervorheben, den jeweils anderen Aspekt jedoch weitgehend oder sogar vollständig ausblenden. Wir werden im nächsten Abschnitt auf die erste Richtung eingehen, welche Rhythmizität als die Abfolge von Gleichem auffaßt, diese Gleichheit als Gleichheit der Teilungen der Zeit konkretisiert, und Isochrome der prosodischen Einheiten gleicher Kategorie in einer Äußerung als rhythmisch notwendig und hinreichend erklärt.

1.2

Rhythmizität als Isochrome

Die Geschichte phonetischer und phonologischer Untersuchungen zu Isochronietendenzen in den Sprachen ist vor allem in den Forschungsberichten von Auer/Uhmann (1988), mit einer stärkeren eigenen Pointierung bei Bertinetto (1988), aus phonetischer Perspektive bei Eriksson (1991,5-69) und speziell für das Englische von Couper-Kuhlen (1993, Kap. 1) aufgearbeitet. In diesem Abschnitt zeichnen wir die wesentlichen Etappen und Probleme der phonetischen und phonologischen Forschung zur Isochrome nach und gliedern die Ansätze nach den postulierten Domänen für Isochronie und dem Ort der Suche nach Isochrome und ihren Begleiterscheinungen.

1.2.1 Typologie der Isochroniedomänen Der Gedanke, daß Isochronie einer rhythmischen Bezugsgröße für die Lautsprache eine rhythmusstiftende Ordnung in der Zeit bildet, findet sich, wie wir gesehen haben, für das Englische in Bezug auf akzentuell definierte Einheiten schon bei Steele [1775]. Daß in anderen Sprachen die Domäne der Isochronie auch durch ein anderes phonetisches Ereignis festgelegt werden könnte, klingt jedoch erst in einer Bemerkung bei Classe (1939) an: [... ] rhythm, generally speaking, is known to be due to the recurrence at more or less regular intervals of one given phenomenon. (In English this phenomenon is generally stress). (Classe 1939, 50) Als Begründer der isochroniebasierten Sprachtypologie gilt allgemein Kenneth L. Pike. In seinem Werk The intonation of American English von 1945, das vorwiegend fremdsprachendidaktisch ausgerichtet ist, charakterisiert er die rhythmischen Konturen des Englischen vorsichtig wie folgt: The timing of rhythm units produces a rhythmic succession which is an extremely important characteristic of English phonological structure. The units tend to follow one another in such a way that the lapse of time between the beginning of their prominent syllables is somewhat uniform. (Pike [1945] 1967, 34) Im Englischen ist also nach Pike eine Angleichung der Abstände zwischen rhythmisch prominenten Silben zu beobachten. Die Relation zwischen Prominenz als wahrnehmbarer Hervorhebung einer Silbe in der Rede und den grammatisch und lexikalisch spezifizierten möglichen Hervorhebungssilben (Satz- und Wortakzente) wird bei Pike nicht eindeutig geklärt.

11 In allen Beispielen des mit "Related to Pause and Rhythm" überschriebenen Kapitels seines Buchs fallen Prominenzen auf Worthauptakzente; längere, mit einem zusätzlichen Nebenakzent versehbare Wortformen fehlen in den Beispielsätzen. Immerhin wird klar, daß nicht auf jede (mehrsilbige) Wortform, die einen Wortakzent besitzt, eine Prominenz fallen muß. Pike geht jedoch über Steele und Classe hinaus, indem er neben diesem von ihm als stress-timing bezeichneten Typus des Englischen noch syllable-timing als eine weitere Form lautsprachlicher Isochronie stellt: Many non-English languages (Spanish, for instance) tend to use a rhythm which is more closely related to the syllable than the regular stress-timed type of English; in this case, it is the syllables, instead of the stresses, which tend to come at more-or-less evenly recurrent intervals [... ] (Pike [1945] 1967, 35) Da im allgemeinen die Zahl der Silben zwischen zwei Betonungen variabel ist, kann eine Sprache nicht sowohl Silbenisochronie als auch Akzentisochronie optimieren. Die Wahl der Isochroniedomäne stellt somit einen sprachtypologischen Parameter dar. Während Pike lediglich unterschiedliche Tendenzen der zeitlichen Strukturierung impressionistisch beschreibt, formuliert der Brite David Abercrombie, der als Begründer der Phonetik als eigener akademischer Disziplin gelten darf (vgl. Ladefoged 1997), in seinem Lehrbuch Elements of General Phonetics die Unterscheidung der beiden Sprachrhythmen als strenge Dichotomie. Nach Abercrombie ist, wie aus der nachfolgend zitierten Passage, einem locus classicus der Isochronieforschung, hervorgeht, jede Sprache der Welt entweder silbenoder akzentisochronisierend - Tertium non datur. Auch rhythmische Variation innerhalb eines sprachlichen Diasystems ist nicht vorgesehen: There are two basically different ways in which chest-pulses and stress-pulses can be combined, and these give rise to two main kinds of speech-rhythm. As far as is known, every language in the world is spoken with one kind of rhythm or with the other. In the one kind, known as syllable-timed rhythm, the periodic recurrence of movement is supplied by the syllable-producing process: the chest pulses, and hence the syllables, recur at equal intervals of time - they are isochronous. French, Telugu, Yoruba illustrate this mode of co-ordinating the two pulse systems: they are syllable-timed languages. In the other kind, known as stress-timed rhythm, the periodic recurrence is supplied by the stress-producing process: the stress-pulses, and hence the stressed syllables, are isochronous. English, Russian, Arabic illustrate this other mode: they are stress-timed languages. (Abercrombie 1967, 96f.) Wenn auch der zugrundegelegte, von Stetson (1905) formulierte Zusammenhang von pulmonischer Aktivität, Silbifìzierung und Akzentuierung bereits zur Entstehungszeit des Textes widerlegt war (vgl. Draper/Ladefoged/Whitteridge 1959), kommt Abercrombie das Verdienst zu, mit seiner These den Anstoß zu einer langen Reihe von sprachvergleichenden Forschungen gegeben zu haben. Wenn wir, mit Abercrombie (1964), die Silbenfolge von einer Akzentsilbe bis unmittelbar vor die nächste in loser Anlehnung an die antike Metrik als Fuß bezeichnen (vgl. zur Geschichte des Begriffs Allen 1973, 122ff.), können wir Abercrombies These als Bipartition der Sprachen der Welt in silben- und fußisochronisierende reformulieren. In

12 deutschen Arbeiten finden sich hierfür häufig die ebenfalls aus der Metrik übernommenen Termini Silben- und Akzentzählung. 3 Nun ist leider eine solche Identität der zeitlichen Erstreckung der Grundeinheiten im physikalischen Signal keineswegs nachweisbar: Schon Crystal/Quirk (1964) weisen darauf hin, daß Sprecher des britischen Englischen nicht in jedem Falle Äußerungen mit isochronen Fußdauern produzieren, ja in manchen Situationen vielleicht sogar bewußt anisochron sprechen. Immerhin, so räumen die Autoren ein, scheinen Anglophone in der Perzeption von Äußerungen zumindest eine ungefähre Fußisochronie zu erwarten (vgl. S. 47). Isochronie besteht also, so ist man versucht zu paraphrasieren, als eine Art phonetischer Maxime. Was in der Diskussion der Implikaturentheorie von Grice deutlich geworden ist, gilt ebensogut für die Interpretation der Ausdrucksseite sprachlicher Zeichen: Auch hier wird die Gültigkeit einer Maxime nicht dadurch falsifiziert, daß nicht selten gegen sie verstoßen wird, solange gezeigt werden kann, daß auch bei Nichtbefolgung der Maxime der Hörer die Äußerung relativ zu ihr wahrnimmt und versteht (vgl. zum Status der Maximen in der Griceschen Theorie Levinson 1983, 102). Die Dichotomie von Abercrombie wird hierdurch jedoch noch nicht in Frage gestellt: Wenn sich ein Sprecher einer akzentzählenden Sprache rhythmisch verhält, dann fußisochronisierend; entsprechendes gilt für Silbenisochronie. Allerdings vermutet Mitchell (1969) in seiner Rezension von Abercrombie (1967), daß approximativ isochrones Sprechen nur in wenigen Situationen, etwa bei Gedichtrezitationen, häufiger zu beobachten sei. Darüber hinaus schränkt er aber auch die Trennschärfe des Isochronieparameters für die Sprachklassifikation ein: Keine Sprache ist nach Meinung des Rezensenten ausschließlich silben- oder fußisochronisierend, sondern weist allenfalls eine größere Häufigkeit silben- oder fußisochronisierender Äußerungen auf. Ferner erwägt Mitchell auch, neben den beiden von Abercrombie als rhythmusstiftend angesehenen Determinationsweisen der Zeitstruktur noch weitere anzusetzen: [... ] Egyptian Arabic differs from predominantly syllable-timed Moroccan varieties of the language, for example, and may perhaps be classified as of a third type, neither stress- nor syllable-timed, for which the label quantitative might be appropriate. (Mitchell 1969, 156; Hervorhebung im Original)

Schließlich ist auch auf intuitiv faßbare rhythmische Variation innerhalb des britischen Englischen, etwa zwischen Londoner und Yorkshire-Varietäten (vgl. Mitchell 1969, 156) sowie zwischen Liverpooler und RP-accent (vgl. Knowles 1974, 145) hingewiesen worden. Außerdem können die verschiedenen Regionalstandards in ihrem Isochronietyp in charakteristischer Weise voneinander abweichen: So hat man sowohl für das Englische in Indien (MacCarthy 1978, 43; Bansal 1990) als auch für das in Singapur (Deterding 2001) und in Neuseeland (Warren 1998) eine schwächere Ausprägung der Akzentzählung behauptet. Bansal (1990,227) referiert Arbeiten, die einige Varietäten des indischen Englisch als weder akzentnoch silbenisochronisierend ansehen. Neben diatopischer Variation der rhythmischen Gestalt hat man auch diastratische und diaphasische Faktoren angeführt, die innerhalb einer Einzelsprache die temporale Strukturierung von Äußerungen systematisch beeinflussen: Lee et al. (1994) behaupten für das Koreanische gar einen Zusammenhang zwischen dem Alter der Sprecher und der Rhythmisierungsweise: 3

Hiervon strikt zu unterscheiden ist die Begriff der Silbenzählung bei Trubetzkoy ( 3 1962, 174f.), wo er nicht im Gegensatz zu Akzent-, sondern zu Morenzählung steht und die abstraktere phonologische Eigenschaft von Sprachen bezeichnet, keine distinktiven Segmentdauerunterschiede aufzuweisen.

13 Während jüngere Koreaner silbenisochronisierend sprechen, regularisieren Sprecher aus der Generation ihrer Eltern die Akzentabstände. Leider gehen die Autoren nicht auf die Frage ein, inwieweit es sich hierbei um rhythmischen Sprachwandel handeln könnte. Nach Poedjosoedarmo ( 1996) ist das Malaiische der Mitglieder des Königshauses von Brunei sowie hoher Regierungsbeamter silbenisochronisierend, die Standardsprache, etwa von Nachrichtensprechem, hingegen fußisochronisierend. Andere Autoren dagegen betonen zwar ebenfalls die innerhalb einer Sprache vorfindbaren beträchtlichen Unterschiede im rhythmischen Duktus, bestreiten jedoch ausdrücklich, daß diese mit soziolinguistischen Parametern korrelieren (vgl. Cowley 1994,369 zum Italienischen). Unmittelbar auf die Überprüfung der sprachtypologischen Validität der Isochroniethese zielt die Untersuchung von Roach (1982): Für die drei bei Abercrombie als Beispiele von Silbenisochronie angeführten Sprachen Französisch, Telugu und Yoruba und die drei als fußisochron klassifizierten Sprachen Englisch, Russisch und Arabisch mißt er jeweils die Silbenund Fußdauern von Vorlesedaten. Seine Ergebnisse können noch nicht einmal eine Tendenz zur Silben- beziehungsweise Fußisochronie erweisen: Wie unter ( 1) zu ersehen, sind in beiden Sprachgruppen die Unterschiede der Silbendauern etwa gleich, während, was noch schlimmer für Abercrombies Standpunkt ist, die als akzentzählend eingestuften Sprachen sogar größere Abweichungen der durchschnittlichen Fußdauern aufweisen als die silbenzählenden, vgl. (2): (1) Standardabweichungen der Silbendauer in Millisekunden (Roach 1982, 74) Französisch Telugu Yoruba

75,5 66 81

Englisch Russisch Arabisch

86 77 76

(2) Standardabweichungen der Dauer eines Fußes in Millisekunden (Roach 1982, 77) Französisch Telugu Yoruba

617 870 726

Englisch Russisch Arabisch

1267 917 874

Abercrombies Theorie, so scheint es, ist in allen Kernaussagen hinfällig: Silben- und Fußisochronie scheinen nicht die einzigen Organisationsformen der Zeitstruktur von Lautsprache zu bilden, auch die von Abercrombie vorgenommene Zuordnung einiger Sprachen zum silbenoder akzentzählenden Typ kann phonetisch nicht bestätigt werden, und, schlimmer noch, selbst innerhalb einer Sprache und möglicherweise sogar innerhalb einer sprachlichen Varietät kann keineswegs immer eine dominante Rhythmisierungsform ausgemacht werden. Die folgenden Unterabschnitte sind der Frage gewidmet, inwieweit sich wenigstens in bestimmten Äußerungsdaten eine Isochronisierungstendenz nachweisen läßt.

1.2.1.1 Fußisochronie als Tendenz? Neuen Auftrieb gewinnt die Untersuchung zeitlicher Verhältnisse in der Lautsprache nach 1967 zunächst in Großbritannien: So überprüft Uldall (1971) die Isochroniehypothese ihres Lehrers Abercrombie, indem sie ihn eine Aufzeichnung eines kurzen, von ihm selbst vorgelesenen Textes nach Füßen segmentieren läßt und die Dauern der Fußeinheiten mißt. Obwohl diese zwischen 26 und 87 es streuten, interpretiert Uldall die Verteilung der Dauern doch als Indiz für eine Isochronietendenz, da etwa die Hälfte der Füße in dem kleinen Intervall zwi-

14 sehen 40 und 50 es liegt. Zu zeigen bliebe allerdings, daß diese Konzentration der Dauern im Mittelfeld stärker ausfällt als nach der statistischen Normalverteilung zu erwarten wäre (vgl. auch die Kritik bei Eriksson 1991, 25). Uldall (1978) weist darauf hin, daß in einigen der längeren Füße größere syntaktische Einschnitte liegen, so daß die Dauerzunahme, auch durch kurze Sprechpausen, zur Demarkation dient. Ähnlich argumentiert auch Lehiste (1973), die allerdings nur bewußte Desambiguierungsversuche der Sprecher durch zeitliche Markierungen von Phrasengrenzen untersucht. Anisochronie, so könnte man diese Hinweise vereinfachend wiedergeben, kommt zwar vor, ist jedoch zumindest in einigen Fällen semiotisch funktional. Diese Lokalisierung der Dauerabweichungen läßt meiner Ansicht nach sogar noch einen stärkeren Schluß zu: Nicht obwohl, sondern gerade weil der Hörer isochronisierendes Sprechen erwartet, kann pausierende Anisochronie als Signalisierungsressource fungieren. Erst die Existenz einer - pragmatischen oder phonetischen - Maxime erlaubt ihre Ausbeutung im Sinne von Grice. Sumera (1975, 35) betrachtet die tendenziell isochrone Abfolge der Füße im Englischen als "primary rhythm", sucht jedoch daneben - in der Tradition der musical pmsodists des 18. Jhs. - auch nach einer rhythmusstiftenden Proportionalität der Silbendauern. Sie nimmt an, daß in der Musik wie in der Sprache die rhythmischen Grundeinheiten entweder in geraden oder ungeraden Takten erscheinen. Innerhalb eines zweisilbigen Fußes mit geradem Takt sind nun beide Silben gleich lang, ebenso wie innerhalb eines dreisilbigen Fußes mit ungeradem Takt. Allerdings finden sich im Englischen auch zweisilbige Füße mit ungeradem Takt, hierbei tendieren die Dauern von akzentuierter erster und unakzentuierter zweiter Silbe zum Verhältnis 2 : 1 . Naheliegend erscheint angesichts dieser Uber Pike hinausgehenden Behauptung die Frage, wann nun ein Fuß mit zwei Silben diese isochronisiert und wann sich eine 2:1-Proportion einstellt. Hier hält sich die Autorin jedoch bedeckt; immerhin weist sie auf die Möglichkeit alternativer Gestaltungen hin. Die Tatsache, daß Füße mit geradem und ungeradem Takt innerhalb einer Äußerung miteinander abwechseln können, führt sie zu folgendem Schluß: [... ] if we want to assume or maintain that a foot in duple time can occur amidst those in triple time, or that they are interspersed, we would have to abandon the concept of isochrony. (Sumera 1975, 36) Die Aufgabe der Isochroniebehauptung betrifft jedoch in diesem Fall nur die zeitliche Erstreckung der Taktnenner, nicht jedoch der Füße als der Takte selbst, und nur für letztere haben Pike und Abercrombie im Falle des Englischen eine Aussage getroffen. Ohne auf die taktbasierten Rhythmustheorien zum Englischen weiter eingehen zu können, halten wir fest, daß die Ausgestaltung eines sprachlichen Taktes der Frage der Existenz isochroner Takte nachgeordnet ist, auch wenn beide Themen in der Literatur häufig gleichzeitig abgehandelt werden. Eine weitere notwendige Präzisierung der Isochroniehypothese unternimmt Rees (1975). Isochron erscheint eine taktierende Folge von Prominenzen nämlich nur bei konstantem Tempo. Da aber die Sprechgeschwindigkeit innerhalb größerer Äußerungsbeiträge im allgemeinen variiert, kann die Überprüfung der Isochroniehypothese nur innerhalb von Abschnitten erfolgen, für die eine stabile Sprechtaktfrequenz anzunehmen ist. Rees (1975) bestimmt für das Englische die tone group, welche in etwa der Intonationsphrase bei Nespor/Vogel (1986) entspricht, als Domäne der Isochronisierungstendenzen im Sprechen. Auch zur Wahrnehmung von Isochronie durch den Hörer müssen nach Donovan/Darwin (1979) nur innerhalb solcher intonatorisch definierter Einheiten die Fußdauern hinreichend konstant sein. Lehiste

15 (1977,256) weist auf die Universalität dieser Relativierung hin und kritisiert, daß in vielen experimentalphonetischen Überprüfungen der Isochroniethesen, welche diese zu widerlegen meinten, ohne Rücksicht auf die Domänengrenzen gemessen wurde. Diese fehlende Differenzierung von globaler und lokaler Determination in der zeitlichen Strukturierung von Äußerungen schränkt aber natürlich die Aussagekraft solcher Untersuchungen erheblich ein. Ferner greift Lehiste (1977) auf eine ältere Studie zur Akzentuierung im Englischen zurück und interpretiert die dort erhobenen Vorlesedaten von acht Sprechern auf neue Weise: Zwar ist Fußisochronie auch innerhalb von Intonationsphrasen akustisch nicht nachweisbar, allerdings zeigt sich, daß bei einer Aufeinanderfolge von drei oder mehr Silben, die keinen Wortakzent tragen, systematisch Nebenakzente vergeben werden, so daß die hierdurch entstehenden kleineren Füße nicht nur in ihrer Silbenzahl, sondern auch in der Dauer einander angeglichen werden. Um Fußisochronie als phonetische Tendenz zu zeigen, genügt es also nicht, die Zeitdauern einer gegebenen Folge von beobachteten Füßen zu messen; auch die Verfußung einer Äußerung bildet, zumindest im Englischen, häufig das Ergebnis einer Auswahl aus mehreren Akzentuierungsmöglichkeiten und somit selbst schon einen Teil der rhythmischen Gestaltung. Daß Nebenakzente in manchen Analysen einfach vergessen und somit Wortakzentisochronie und Fußisochronie verwechselt werden, zeigt die folgende Aussage zur Akzentzählung im Englischen: "Isochrony predicts that big words are spoken more rapidly than little words" (Nakatani/O'Connor/Aston 1981, 103). Dies trifft natürlich nur in dem Falle zu, wo die beiden zu vergleichenden Wortformen nur eine Betonung auf der Wortakzentsilbe und keine weiteren Prominenzen aufweisen. Für "große Wörter" sind jedoch im Englischen Nebenakzente geradezu unvermeidlich. Die behauptete Proportionalität von Artikulationsrate und Wortlänge folgt also nicht aus der Voraussetzung. So ist nach Zheng (1996), der in Testsätzen von Sprechern des amerikanischen Englischen Fuß- und Wortdauern unabhängig untersuchte, eine Isochronisierungstendenz nur auf der Ebene der Füße, nicht jedoch auf Wortebene nachweisbar. Ein weiteres Indiz für eine Isochronisierungstendenz bereits in der Verfußung sucht Cutler (1980) beizubringen. Es zeigt sich nämlich nach ihrer Analyse von Versprechern im Englischen eine signifikante Asymmetrie: So finden sich weit häufiger Fehlleistungen, die die Fußstruktur regularisieren, als anisochronisierende. Auch hierzu ist allerdings kritisch anzumerken, daß dieser Befund auch ohne Rekurs auf Isochronie als Vereinfachung prosodischer Strukturen zu erklären ist. Somit harmonieren die Daten zwar mit der These Abercrombies, liefern jedoch keinen Nachweis (vgl. auch die Kritik bei Eriksson 1991,51). Im Lichte der älteren wie der methodisch vorsichtigeren neueren Untersuchungen ergibt sich jedoch für das Englische, daß im akustischen Signal noch nicht einmal bei Vorleseaussprache, die allgemein als stärker isochronisierend gilt (vgl. Guattella 1999), die These von der Fußisochronie im Englischen aufrechterhalten werden kann. Immerhin ist Lehistes Beobachtung von der isochroniefördernden Prominenzverteilung bestätigt worden, und zumindest eine Tendenz zur durationalen Angleichung von Füßen mit unterschiedlicher Silbenzahl mag aus Meßdaten wie unter (3) hervorgehen: (3) Mittlere Silbendauer in Abhängigkeit von der Fußgröße (Faure/Hirst/Chafcouloff 1980, 74) Länge des Fußes in Silben: 1 2 3 4 5 7 Silbendauer in s: 0,22 0,18 0,17 0,16 0,15 0,14 Anzahl der Vorkommnisse: 6 48 37 14 7 2

16 Auch Faure/Hirst/Chafcouloff (1980) erkennen in dieser Nichtproportionalität von Silbenzahlen und Fußdauern einen isochronisierenden Komprimierungseffekt 4 und ziehen aus ihren Befunden den Schluß, daß nicht durationale, sondern akzentuelle Eigenschaften konstitutiv für den Rhythmus im Englischen seien. Da die Unterschiede in den Fußdauern zu groß sind, um noch die Annahme einer Isochronietendenz zu rechtfertigen, gründet sich Rhythmizität im Englischen nach Meinung der Autoren nicht auf Isochronie der Füße, sondern lediglich auf einer gewissen Regelmäßigkeit in der Abwechslung prominenter und nichtprominenter Silben. Die unter (3) angeführte Häufigkeitsverteilung können wir in der Tat als Indiz dafür werten, daß im Englischen eine gewisse Egalisierung der Silbenzahlen im Fuß angestrebt wird. Gerade dadurch wird aber auch eine temporale Angleichung der Fußdauern unterstützt. Die These der Autoren ist somit keineswegs mit der Isochroniehypothese unverträglich, wie diese behaupten, sondern nur eine Abschwächung von ihr. Nakatani/O'Connor/Aston (1981) führen eine ähnliche Untersuchung mit Sprechern des amerikanischen Englischen durch. Allerdings verwenden sie hierbei keine englischen Testeinheiten, sondern Folgen der Nonsenssilbe ma, um den Einfluß der Segmentebene auf die Silben- und Fußdauern zu minimieren; Versuchspersonen hatten also etwa den Satz The maMA MA made many ideas seem strange zu äußern (zu betonende Silben sind in Kapitälchen gesetzt). Auch unter solchen isochroniefördemden Bedingungen ergab sich jedoch keinerlei Tendenz zur Isochronisierung der Füße, vielmehr stieg die Fußdauer proportional zur Anzahl der Silben im Fuß. Anstatt jedoch ihre Daten als Evidenz zumindest für die Möglichkeit zur Silbenzählung bei Sprechern des amerikanischen Englisch zu werten, schließen auch diese Autoren in einer überraschenden Wendung, daß nicht die Dauer, sondern das akzentuelle Profil der Füße entscheidend für den rhythmischen Wahrnehmungseindruck sei. Bertinetto (1988,62) kommentiert die Konklusion dieser Arbeit mit den Worten: "It is difficult to imagine that this conclusion is anything other than an attempt at exorcizing an unforeseen result." Auch Crystal/House (1990) finden für das britische Englisch in Leseaussprache kaum Fußisochronisierungstendenzen, sondern vielmehr eine fast lineare Zunahme der Silbendauer bei zunehmender Segmentanzahl und ebenso eine fast proportional mit der Silbenzahl ansteigende Fußdauer. Auch hier sind die Komprimierungseffekte bei größeren Füßen so schwach, daß Zweifel hinsichtlich ihrer Signifikanz berechtigt erscheinen. Bolinger (1981) nimmt umgekehrt die Segmentebene zum Ausgangspunkt für eine neue Bestimmung von Isochroniedomänen im Englischen. Nach seiner von Cruttenden (1997,22) als full-vowel-timing bezeichneten Theorie eröffnet jede Silbe mit nichtreduziertem Nukleusvokal eine eigene zu isochronisierende Einheit, unabhängig davon, ob ihr akzentuelle Prominenz zukommt oder nicht. Folgt auf eine Vollsilbe eine reduzierte, so wird der nicht-reduzierte Nukleusvokal gekürzt, weitere nachfolgende reduzierte Silben haben jedoch keinen Einfluß mehr auf die Dauer der vorausgehenden Silben. Diese alternative Zeitstrukturtheorie macht die Annahme von Verfußung als rhythmischer Grundlage somit überflüssig (vgl. hierzu kritisch Fox 2000, 89). Bildet Akzentzählung im Englischen also mehr ein phonetisches Klischee der Fremdsprachendidaktik (vgl. Bolinger 1981,35) als eine nachweisbare Tendenz?

4

Die Aussagekraft ihrer Ergebnisse wird allerdings durch eine Reihe methodischer Unzulänglichkeiten gemindert: So stammen alle Daten von nur zwei Versuchspersonen, die eine Liste von Testsätzen vorlesen mußten. Unberücksichtigt bleiben außerdem die Position der Silben innerhalb der Testsätze sowie die Variation der Sprechgeschwindigkeit.

17 Um solcher Skepsis zu begegnen, führen Williams/Hiller (1994) eine Reihe statistischer Überprüfungen zu Silben- und Fußdauern im Englischen durch. Insbesondere vergleichen sie Kompressionseffekte auf Fußebene mit Daueregalisierungen von solchen Silbenfolgen, welche nicht durch Akzente, sondern durch andere Eigenschaften definiert werden, wie etwa der Nicht-Reduziertheit oder der Gespanntheit des Nukleusvokals in der ersten Silbe. Hierbei zeigt sich, daß tatsächlich ein zwar geringer, jedoch signifikanter Unterschied in den Dauervariationen besteht: In Füßen als durch Betonungen definierten Einheiten sind Kompressionseffekte nachweisbar, in den zum Vergleich herangezogenen anderen Abschnitten der Silbenfolge hingegen nicht. Dieses Ergebnis liefert somit im nachhinein die notwendige differentialdiagnostische Bestätigung für eine gewisse Ausgezeichnetheit der Fußprosodie gegenüber anderen Zusammenfassungen von Silben. Die Tendenz zur Fußisochronisierung im Englischen mag zwar zu schwach sein, um auch nur approximativ gleiche Fußdauern zu garantieren, in dieser schwachen Form ist sie jedoch nachweisbar. Auch für andere germanische Sprachen hat man Akzentzählung behauptet und die Zeitstruktur von Äußerungen phonetisch untersucht. Für das Deutsche zeigen die Ergebnisse, daß zwar Fußisochronie weder akustisch noch perzeptiv vorliegt, hingegen "die Tendenz zur Isochrome eindeutig existiert", wie Kohler (1982,102) resümierend feststellt. Seine akustischen Messungen belegen nämlich, daß auch Sprecher des Deutschen größere Füße zeitlich komprimieren, was zumindest in der Versuchsreihe, in der existierende sprachliche Ausdrücke des Deutschen zu sprechen waren, reduktive phonetische Prozesse nach sich zieht. Bei Folgen von Nonsenssilben fehlen solche Reduktionsprozesse hingegen weitgehend, und es ergibt sich stattdessen der Eindruck einer Änderung des Sprechtempos. Anders als in den bisher zitierten Arbeiten zur Akzentzählung versteht Kohler aber Fußisochronie nicht als anzustrebendes artikulatorisches Ziel im Deutschen, sondern betrachtet gerade die zwischen Silbenund Akzentisochronisierung intermediäre zeitliche Organisation als konstitutiv: Die Grenzen, zwischen denen die rhythmische Strukturierung im Deutschen angesiedelt ist, sind damit abgesteckt: sie liegt zwischen der völligen Kompression und der proportionalen Expansion. (Kohler 1982, 93) Hier ist ein Schritt vollzogen, der sich auch in manchen Arbeiten zum Englischen schon angedeutet hatte: Abercrombies Klassifikation wird nicht als Dichotomie, sondern skalar aufgefaßt; Silben- und Akzentzählung sind nicht länger komplementäre Gegensätze, sondern gegensätzliche Extremformen der zeitlichen Strukturierung. Es geht nicht mehr darum, eine Einzelsprache insgesamt oder auch nur in einigen ihrer Varietäten einem der beiden Abercrombieschen Typen zuzuordnen, vielmehr ist zu bestimmen, in welchem Grade jeweils silben- oder akzentzählende Organisation vorliegt. Allerdings bedeutet das vollständige Fehlen von fußisochronisierenden Kompressionseffekten in einer Sprache noch keineswegs, daß diese sich silbenisochronisierend organisiert. Eine "proportionale Expansion" der Äußerungsdauer in Abhängigkeit von der Silbenanzahl kann auch auf die Struktur der Silben Rücksicht nehmen und somit Silbenisochronie gerade nicht approximieren. Allerdings können Pompino-Marschall et al. (1987) für das Deutsche nur geringe Kompressionseffekte nachweisen, die zudem eher als wort- denn als fußbezogene Ausgleichstendenzen zu wirken scheinen. Nooteboom (1991) nimmt diese und ähnliche Befunde zum Anlaß, Isochronisierung als artikulatorisches Ziel und die Rolle der akzentuell definierten Fußeinheit als Sprechtakt insgesamt zu bestreiten. Nicht Füße, so Nooteboom (1991,231), sondern die Worteinheiten sind

18 für die zeitliche Strukturierung von Lautsprache zentral. Kohler (1991) hält dem entgegen, daß Wort und Fuß als prosodische Organisationseinheiten sich nicht wechselseitig ausschließen müssen, sondern koexistieren können, und zwar in verschiedenen Sprechsituationen mit unterschiedlicher Gewichtung: Words are certainly important units for the temporal organisation of speech, but stress groups are as well, and the two interact. In verse, the rhythmic principle dominates, in continuous, connected, spontaneous speech, the word (content) aspect gets more prevalent, but the rhythmic principle never disappears. (Kohler 1991,260) Aus dem Vorhandensein wortbezogener temporaler Ausgleichsprozesse darf also noch nicht auf die Irrelevanz der Fußeinheit für die zeitliche Strukturierung von Äußerungen geschlossen werden. Insgesamt ist die Forschungsliteratur zur zeitlichen Organisation und zu Isochronisierungstendenzen im Deutschen wesentlich weniger umfangreich als zum Englischen. Nicht selten werden einfach gleiche rhythmische Verhältnisse angenommen (vgl. ζ. B. Wiese 1996, 65), und Fragen etwa nach diatopischen Unterschieden der zeitlichen Strukturierung gar nicht erst gestellt. Ausnahmen bilden Moosmüller (1988), die für den Wiener Dialekt stärker silbenzählenden Charakter bemerkt, der auch dem häufigen Eindruck eines langsameren Sprechtempos zugrundeliegen könnte, sowie Benguerel (1999). In seinen Messungen vergleicht er Hamburger und Basler Aussprachen des Deutschen und stuft letztere als weniger stark fußisochronisierend ein. Zu nennen ist schließlich noch Ronneberger-Sibold (im Druck, 253), die für mittel- und nordbairische Dialekte "undisputable syllabic isochrony" behauptet - allerdings ohne sich auf phonetische Daten zu stützen. Für das Niederländische erweisen die Dauermessungen von den Os (1988) keine Tendenz zur Fußisochronie bei vorgelesenen Zeitungstexten. Nichtsdestotrotz wertet er die Sprache ebenfalls als stress-timed (S. 95). Hier deutet sich bereits ein semantischer Wandel bei den Termini von Pike an: Offensichtlich wird hier nicht mehr eine temporale Eigenart bezeichnet, sondern lediglich ein vages typologisches Etikett für Sprachen gebraucht, deren rhythmische Struktur Ähnlichkeiten zum Englischen zeigt. Innerhalb der nordgermanischen Sprachen liegen die meisten Untersuchungen zu Isochronietendenzen für das Schwedische vor. So zeigt Strangert (1985) mit Vorlesedaten von fünf Sprechern aus Stockholm, daß bei aller Varianz zwischen den Sprechern doch durchgängig die Silbendauern in längeren Füßen im Mittel reduziert werden. Dreisilbige Füße weisen gegenüber zweisilbigen kürzere Akzentsilben auf, bei Füßen von vier und mehr Silben Umfang werden dagegen die einzelnen Silben nicht noch stärker gekürzt, sondern weitere Silben mit sekundären Prominenzen versehen (phonetisch durch Längung des Vokals markiert). Beide Befunde können somit, wie schon bei Lehiste (1977) vorgeschlagen, als Indiz für die Teleologie isochroner Füße gewertet werden. Auch Bruce (1987) weist darauf hin, daß einsilbige Füße im Schwedischen stark gelängt werden und alternierend weitere Betonungen im Satz hinzukommen, wobei, wie wir in (4) ersehen können, die gleiche Silbe je nach Äußerungskontext mit oder ohne rhythmische Nebenprominenz erscheinen kann (Hauptakzente sind durch "', sekundäre Betonungen durch ',' markiert.): (4) Fußisochronisierende Nebenakzentvergabe im Schwedischen (Bruce 1987, 26) de(t) ,va(r) bal-'la-.der me(d) 'da -ner -,na de(t) ,va(r) bal-'la-der ,me(d) da-'mon -er de(t) ,va(r) bal-'la-.der me(d) ,le -mon-'nad

19 Eriksson (1991) schließlich hebt als Hauptindiz für Akzentzählung im Schwedischen nicht die Isochronietendenz der Füße, sondern die markante Anisochronie zwischen betonten und unbetonten Silben hervor. Wiederum ist dem jedoch entgegenzuhalten, daß Fußisochronie kein komplementärer oder kontradiktorischer Gegenbegriff zu Silbenisochronie ist - es sei denn, man setzt Komplementarität, wie Abercrombie, als sprachtypologische Tatsache voraus - und somit aus der Anisochronie auf einer prosodischen Gliederungsebene noch nicht auf Isochronisierung auf der anderen geschlossen werden darf. Für den Rhythmus des Norwegischen sieht es bereits Broch (1935) als charakteristisch an, daß Füße in ihrer Silbenzahl einander angeglichen werden. Dabei scheint Zweisilbigkeit schon im Lexikon und in der Derivations- und Flexionsmorphologie, aber auch in reduktiven Prozessen der Realisationsphonologie die bevorzugte Größe zu bilden (S. 93). Diese phonologische Uniformierungstendenz der Füße steht aber nach Broch ihrerseits im Dienste der Isochronisierung: Emerging on the surface of our living speech as a pronounced tendency to arrange the sound-material into disyllabic figures, the basic norm may be defined as a tendency to produce stress-waves of a certain size, i. e. length-units, or in musical terms measures, able to embrace according to the circumstances a somewhat varying number of syllables. (Broch 1935, 104; Hervorhebungen im Original) Die durationale Motivation für die Fußbildung zeigt sich dabei nach Broch auch an der regelhaft auftretenden Längung einsilbiger Füße und an Kürzungsprozessen bei temaren. Außerhalb der Germania ist Fußisochronisierung vor allem f ü r slavische Sprachen diskutiert worden. So bietet das Russische, eines der drei Beispiele für Akzentzählung bei Abercrombie (1967), zumindest in "kolloquialen" Sprechstilen nach Mills ( 1 9 8 8 , 5 7 ) viel stärker als das Englische den Eindruck der Akzentisochronie. Zwar findet sich diese perzeptive Einschätzung nicht durch ihre akustischen Meßdaten bestätigt, jedoch bleibt die Autorin bei ihrer Charakterisierung und führt die fußisochronisierende Wahrnehmung auf eine von ihr als "interstress symmetry" (Mills 1988,63) bezeichnete Angleichung der Fußstrukturen zurück. Deren Wirken bleibt aber leider unklar. Dabei abstrahiert Mills gänzlich von der Zeitdimension, da ihrer Meinung nach vor allem die hohe Prägnanz der akzentuellen Prominenzkontur die fußbasierte Wahrnehmung unterstützt. Auch das Polnische ist nach Richter ( 1987) akzentzählend, selbst wenn nach den Meßergebnissen der Autorin die Tendenzen zur Fußisochronisierung weniger stark ausgeprägt sind als im Englischen. Ungewöhnlich für Akzentzählung erscheint jedoch, daß native Sprecher in einem Perzeptionsexperiment bei einer vorgegebenen Äußerung sich in ihrer Bewertung der Silben als betont oder unbetont stark unterscheiden (vgl. Steffen-Batóg 1987). Die Einordnung des Bulgarischen schließlich diskutiert Dimitrova (1997), verweist auf frühere Klassifikationen, die die Sprache sowohl als silben- wie auch als akzentzählend ansahen, und schließt sich auch aus phonologischer Sicht, mit Kriterien, auf die in 1.2.5 noch einzugehen sein wird, dieser Einschätzung an. Auch in dieser Arbeit jedoch erscheint der Bezug zur temporalen Motivation der beiden Typen allenfalls noch indirekt. Die von Abercrombie (1967) vorgenommene Einstufung des Arabischen als akzentisochron findet sich auch in neueren sprachvergleichenden phonetischen Untersuchungen wieder (vgl. Benguerel 1999, Tajima/Zawaydeh/Kitahara 1999). Ansonsten wird für nichtindogermanische Sprachen nur selten Fußisochronie als phonetische Tendenz konstatiert (vgl. immerhin H u n g 1996 für das Mandarin-Chinesische). Dies dürfte jedoch kaum den Schluß erlauben, Akzentzählung als auf die Indogermania beschränkte Rhythmisierung zu betrachten, sondern reflektiert wohl eher eine gewisse Einseitigkeit in der phonetischen Forschung.

20 1.2.1.2

Silbenisochronie als Tendenz?

In der experimentellen Phonetik sind vor allem romanische Sprachen als Kandidaten für silbenisochronisierenden Rhythmus untersucht worden. So spricht schon Gili Gaya (1940) für das Spanische auf der Grundlage seiner Silbendauermessungen bei Vorleseaussprache von einem approximativen isosillabismo, und auch Pike [1945] nennt die Sprache als Beispiel für Silbenzählung. Akustisch konnte jedoch eine solche zeitliche Organisation nicht nachgewiesen werden. Bereits Delattre (1966) hebt hervor, daß Struktur und Position der Silbe im Spanischen großen Einfluß auf ihre Länge haben. Immerhin zeigen seine Messungen, daß die Varianz der Silbendauern im Durchschnitt deutlich geringer als im Englischen ausfällt (vgl. auch den Vergleich bei Oller 1979 von kubanischem Spanisch und amerikanischem Englisch). Allerdings kommen Nachfolgeuntersuchungen zu teilweise anderen Ergebnissen: Nach Delattre nehmen Silben der Struktur CVC im Spanischen im Mittel nur 23 % mehr Zeit in Anspruch als CV-Silben, wohingegen Hoequist (1983) eine durchschnittliche Erhöhung um 66 % feststellt. Doch nicht nur die verschiedene segmentale Komplexität der Silben, sondern auch Prominenzunterschiede scheinen Silbenisochronie geradezu systematisch zu verhindern. So sind betonte Silben im Schnitt um 50% länger als unbetonte (vgl. Pointon 1980 zum europäischen und Clegg/Fails 1987, 73 zu verschiedenen Ausprägungen des amerikanischen Spanischen). Dennoch deuten die Meßdaten von Almeida (1994,11) zumindest auf eine Tendenz zur Isochrome bei aufeinanderfolgenden unbetonten Silben hin. Während also einerseits die These von der Silbenisochronie im Spanischen zu einer Isochronisierungstendenz bestimmter Teile der Silbenfolge abgeschwächt worden ist, haben andere Autoren die Rolle der Silbe als zeitlicher Organisationseinheit grundsätzlich bestritten. So rechtfertigen nach Pointon (1980; 1995) die Dauermessungen von Gili Gaya für das Spanische nämlich weder eine Zuordnung zum silben- noch zum akzentzählenden Typ. Dagegen zeigt sich seiner Auffassung nach, daß die Zeitdauer einer Äußerung weitgehend proportional mit ihrer Segmentanzahl ansteigt. Konsequenterweise charakterisiert Pointon (1980) die Sprache als segment-timed. Dabei bleibt offen, ob Segmentzählung nur eine Idiosynkrasie des Spanischen oder einen eigenen rhythmischen Sprachtypus neben Akzent- und Silbenzählung darstellt. Pointon unterscheidet in seiner statistischen Auswertung betonte von unbetonten Silben, phrasenfinale von anderen sowie offene von geschlossenen. Allein im häufigsten Fall offener unbetonter Silben im Inneren einer Phrase reichen dabei die Silbendauern von 0,07 bis 0,32 Sekunden. Aussagekräftiger als die minimalen und maximalen Werte erschiene mir jedoch eine (bei Pointon fehlende) Berechnung der Standardabweichungen; schließlich prägen weniger die Extremfälle die rhythmische Kontur als der Normalfall. Des weiteren ist nicht klar, inwieweit die Tendenz zur proportionalen Erhöhung der Silbendauern in Abhängigkeit von der Zahl ihrer Segmente, die Pointon seinem Konzept der segmentzählenden Sprache zugrundelegt, universell oder zumindest auch in akzentzählenden Sprachen anzutreffen ist. Die Daten von Roach (1982) unter (1) legen diesen Schluß jedenfalls nahe, und auch im Schwedischen findet Eriksson (1991,204) eine fast perfekte Korrelation von Fußdauern und der Segmentanzahl im Fuß. Um Segmentzählung als eigenen rhythmischen Sprachtyp einzuführen, bliebe also zu zeigen, daß in Sprachen eines solchen Typs eine übereinzelsprachliche, vielleicht sogar universelle Tendenz zur Proportionalität von Segmentanzahl und Dauer sprachlicher Einheiten sich signifikant strenger manifestiert als in anderen. Manrique/Signorini (1983) stimmen in ihrer Ablehnung der Klassifikation des Spanischen als silbenzählend mit Pointon überein, können jedoch in den Vorlesedaten von vier argenti-

21 nischen Versuchspersonen auch keine Tendenz zur Segmentzählung nachweisen. Vielmehr legen ihre Messungen von Silben- und Fußdauern eine Einordnung zum akzentzählenden Sprachtyp nahe. Die intuitiv vorhandenen Unterschiede zum Sprachrhythmus des Englischen führen sie vor allem auf die Häufigkeit einfacher Silbenstrukturen - der Anteil der CV-Silben in ihren Daten beträgt 59 % - sowie die fehlende Vokalreduktion zurück. Bereits hier zeichnet sich also eine Phonologisierung der Pikeschen Unterscheidung ab, deren weitere Ausarbeitung wir in 1.2.5 nachzeichnen werden. Auch wenn sich das Spanische somit in wesentlichen phonologischen Aspekten der Prosodie vom Englischen abhebt, wirken nach Toledo (1988) phonetisch ähnliche Tendenzen in der zeitlichen Organisation der Äußerungen. Dabei scheint er diese akzentzählenden Tendenzen als Charakteristikum des rioplatensischen Spanisch aufzufassen (vgl. Toledo 1988, 83). Kimura (1999) zeigt jedoch, daß auch bei Sprechern des Kastilischen ähnliche fußisochronisierende Anpassungen der Silbendauern auftreten. Unklar ist hingegen, inwieweit das Spanische auch in seiner Sprachstruktur akzentzählende Tendenzen unterstützt. In einer idealtypisch akzentzählenden Sprache ist nämlich zu erwarten, daß schon die akzentuellen Vorgaben die Fußisochronie unterstützen. Betonungen sollten also in regelmäßiger Abfolge vergeben werden, denn je geringer die Variation der Silbenzahlen im Fuß ausfällt, desto einfacher erscheint ceteris paribus die Approximation der Fußisochronie. Inwieweit nun Tendenzen, die eine Alternanz von betonten und unbetonten Silben unterstützen, auch in der Phonologie des Spanischen wirken, ist umstritten (vgl. zur Diskussion Almeida 1994,11). Schon bei Toledo (1988) angedeutet und deutlicher formuliert bei Almeida (1999) findet sich eine weitere isochroniebasierte Charakterisierung des spanischen Sprachrhythmus, derzufolge nicht die Füße, die unter Bezug auf alle Worthaupt- und -nebenakzente bestimmt wird, die Grundlage der isochronen zeitlichen Organisation bilden, sondern die sogenannten Akzentgruppen (sp. grupos de acento), die - soweit dies aus den wenigen Beispielen der Autoren hervorgeht - auf einer echten Teilmenge dieser Akzente beruht. Toledo scheint diese prosodische Einheit mit den phonologischen Phrasen identifizieren zu wollen, die, wie wir noch sehen werden, auch für das Französische als Isochroniedomäne vorgeschlagen worden sind. Diese Konstituente wird jedoch bei ihm nirgendwo definiert; Almeida (1999) bestimmt sie lediglich in einer Fußnote als Kombination einer lexikalischen Wortform mit Funktionswörtern und gibt als Beispiel sp. Juan salió temprano para la playa mit den vier Akzentgruppen Juan, salió, temprano und para la playa. Ein vergleichbarer französischer Satz wie Jean est parti de bonne heure à la plage hätte in normalem Sprechtempo hingegen wahrscheinlich nur zwei realisierte Akzente (auf heure und plage). Zumindest in ihrer Relation zu syntaktischen Einheiten unterscheiden sich also die phonologischen Phrasen des Französischen und des Spanischen. Auch können - anders als bei akzentuell definierten Einheiten im Französischen - Betonungen in den rhythmischen Gruppen des Spanischen offensichtlich auch in der Mitte ihrer Einheit stehen. Almeida (1999, 56f.) findet keinerlei Evidenz für eine fußisochronisierende Daueranpassung akzentuierter Silben im Spanischen, und auch die Korrelation von Silbenzahl und Dauer der Akzentgruppe verläuft in seinen Messungen fast linear. Allerdings ist die Standardabweichung der Dauer von Einheiten gleicher Silbenzahl bei den Akzentgruppen geringer als bei Füßen, was Almeida zufolge eine gewisse Bedeutung der Akzentgruppe als Domäne der zeitlichen Regulierung erkennen läßt. Insgesamt ergeben seine Meßdaten zum kanarischen Spanisch jedoch ein uneinheitliches Bild: Silbenisochronie der unakzentuierten Silben, Ten-

22 denzen zur Angleichung der Silbenzahlen im Fuß wie in akzentzählenden Sprachen, und Isochronisierungstendenzen auf einer Ebene oberhalb des Fußes, der akzentuellen Gruppe. Anstatt also, wie oftmals suggeriert, in besonders deutlicher Weise einen rhythmischen Sprachtyp zu instantiieren, scheint das Spanische somit in allen untersuchten regionalen Ausprägungen ganz unterschiedlichen Tendenzen der zeitlichen Strukturierung zu unterliegen, soweit man die vorliegenden Untersuchungen überhaupt als aussagekräftig betrachten darf. 5 Einem Vergleich der Zeitorganisation im Spanischen und Katalanischen sind die beiden Untersuchungen von Carrió i Font/Rios Mestre (1991) und Recasens (1991) gewidmet. Während nach der ersten Studie die beiden iberoromanischen Sprachen in gleicher Weise silbenisochronisierend sind und nur in Details der phonetischen Strategien variieren, weist Recasens auf phonologische Unterschiede hin, die das Katalanische stärker akzentzählend erscheinen lassen, wie etwa das Vorkommen komplexerer Silbenstrukturen. Besonderes Interesse hat die rhythmische Variation innerhalb des Portugiesischen gefunden: In seiner europäischen Ausprägung wird es nämlich häufig als akzentzählende Ausnahme innerhalb der traditionell als silbenzählend eingestuften Romania angeführt (vgl. Frota/Vigário 1999, 2 und die dort angeführten Referenzen). Major (1981, 350) wertet die Sprachform als intermediär zwischen Silben- und Akzentzählung, postuliert jedoch Akzentzählung für das brasilianische Portugiesisch, besonders in informellen Sprechstilen, da sich mit zunehmender Silbenzahl im Fuß und im Wort die mittleren Silbendauern verkürzen und auch reduktive Prozesse die Silbenzahlen in längeren Füßen verringern und somit die Isochronisierung der Akzentabstände unterstützen. Barbosa (2000) weist in seiner Kritik an Major dagegen auf realisationsphonologische Prozesse hin, die gerade in Richtung auf Silbenisochronie zu wirken scheinen: Längere wortinterne Konsonantenfolgen etwa werden im brasilianischen Portugiesisch häufig epenthetisch durch einen default-7^òkal [ι] aufgelöst, was die Zahl unbetonter Silben und dadurch die mittlere Variation der Silbenanzahl im Fuß erhöht (und somit, zumindest nach der Argumentation von Major, die Chance approximativer Fußisochronie verringert), wie anhand von pt. psicologia, bras. [pisikolo3ÌB] oder pt. optar, bras, [opitax] zu ersehen ist. Phonetisch wird der Wortakzent im brasilianischen Portugiesischen durch eine Kombination aus Ton-, Intensitäts- und Dauererhöhung stark markiert. Auch phonologisch spielt er eine große Rolle: So sind nach Major (1985, 262ff.) im Nukleus von Wortakzentsilben mehr Kontraste zugelassen als vor und nach dem Wortakzent. Auch tendieren Monophthonge in Akzentsilben zur Diphthongierung, Diphthonge in unakzentuierter Position jedoch zur Monophthongierung und Hebung. Akzentsilben werden also phonologisch gestärkt, andere Silben hingegen unterliegen reduktiven Prozessen. Diese Ungleichgewichtigkeit der Silben ist das zentrale Argument für Akzentzählung bei Major (1985). Allerdings gründet er seine phonetischen Aussagen auf den Daten von nur drei Sprechern, die zudem im réitérant speech- Verfahren mit Sätzen des Typs pt. Repita a palavra LALALA de novo gewonnen wurden. Ferner finden sich nach Barbosa (2000) im brasilianischen Portugiesischen gerade bei häufigen Wörtern Monophthongierungen auch unter Akzent, pt. louco etwa wird in Brasilien zu [loku], pt. madeira zu [madère]. 5

So beruhen die Messungen von Gili Gaya (1940), ausgewertet bei Pointon (1980), sowie die von Manrique/Signorini (1983), Clegg/Fails (1987) und Toledo (1988) auf Vorlesedaten, z.T. von metrisch gebundenen Texten oder Wortlisten (Clegg/Fails 1987), und lassen somit nur bedingt Schlüsse auf die temporale Organisation spontansprachlicher Äußerungen zu.

23 Abaurre/Galves (1998) weisen daraufhin, daß Nebenakzente vor dem Wortakzent in längeren Wortformen im europäischen Portugiesischen auf die Erstsilbe beschränkt zu sein scheinen, im brasilianischen Portugiesisch hingegen auf jede zweite Silbe vor der Hauptakzentsilbe fallen: Pt. comparativa erhält also in Europa das Prominenzmuster [,σσσ'σσ], in Amerika dagegen [σ,σσ'σσ], pt. aplicaçâo in europäischer Aussprache entsprechend [,σσσ'σσ], in brasilianischer [σ σσ'σσ]. Diese strikte Akzentalternanz, die zumindest die Silbenzahl wortinterner Füße vor dem Hauptakzent auf zwei festlegt, begünstigt in der Tat Fußisochronie im brasilianischen Portugiesisch im Unterschied zu den europäischen Ausprägungen und spricht somit eher für Major als für Barbosa. Problematisch ist allerdings die Relevanz solcher Befunde, in denen typischerweise einzelne Wörtformen isoliert mit satzförmiger Prosodie geäußert werden, für Aussagen zum Rhythmus der Spontansprache. Aufschlüsse hierüber erteilen Frota/Vigário ( 1999), die akzentrhythmische Unterschiede zwischen Lissaboner und brasilianischem Portugiesisch untersuchen und dabei feststellen, daß in der gleichen Menge geäußerter Sätze bei europäischer Leseaussprache von Sprechern der gleichen Sprachform nur etwa halb so viele Betonungen gehört wurden als im Parallel versuch mit brasilianischen Lesern und Hörern. Interessanterweise jedoch hören nach Frota/Vigário (1999) Brasilianer mehr Betonungen in den Äußerungen der Portugiesen als diese selbst, so wie umgekehrt Portugiesen in den Äußerungen der amerikanischen Lusophonen weniger Betonungen wahrnehmen als die Brasilianer. Prominenzkonturen werden also nicht nur von den Sprechern unterschiedlich gesetzt, sondern auch von den Hörern verschieden perzipiert. Wir werden in 3.3.3 noch genauer auf die unterschiedlichen Prominenzhäufigkeiten zurückkommen und betrachten unter (5) exemplarisch einen Satz, der als eine einzige Intonationseinheit geäußert wurde: (5) Prominenzkonturen im europäischen und brasilianischen Portugiesisch (Frota/Vigário 1999) (a) eur. pt. (b) bras. pt.

O 'organizador apresentou a 'catalogadora O 'orga'nizador a'presentou a 'cata logadora

Es ist leicht zu ersehen, daß die Silbenzahlen der Füße ( 2 , 4 , 4 , 2 , 4 in (5b) gegenüber 10 und 6 in (5a)) in beiden Sprachformen stärker variieren, als dies für Fußisochronisierung wünschenswert wäre. Für die Erfassung der Unterschiede zwischen den beiden Ausprägungen mithilfe des hier diskutierten Parameters "Akzent- vs. Silbenzählung" erlaubt somit, wie ich meine, die unterschiedliche Verfußung noch keine eindeutige Aussage. Auch für das Italienische ist Silbenisochronisierung behauptet worden. Trotz aller diatopischen und Sprecher- wie sprechsituationsabhängigen Variation spricht Bertinetto (1977, 70) von einem "assetto caratteristico" rhythmisch relevanter Eigenschaften, welche zumindest in einer abgeschwächten Version der Isochronietypologie die Zuordnung der Sprache zum silbenzählenden Typ rechtfertigen. In einem Vorleseexperiment mißt Bertinetto Silben- und Fußdauern von 21 kurzen satzwertigen Äußerungen bei zwei Sprechern des Standarditalienischen. Hierbei ergeben sich auch innerhalb einzelner Äußerungen massive Unterschiede in den Fußdauern. Immerhin aber findet man zumindest für nicht äußerungsperiphereFüße eine schwache Tendenz zur Proportionalität von Fußdauer und Silbenzahl: (6) Fußdauer und Silbenzahl medialer Füße im Italienischen (Bertinetto 1977, 86) Anzahl der Silben Mittlere Fußdauer in ms

1 2 136 348

3 406

4 646

24 Inwieweit dieser Befund als Anhaltspunkt für Silbenisochronisierung gewertet werden darf, erscheint allerdings fraglich. Wichtiger als die akustischen Dauern sind für die silbenisochronisierende Wahrnehmung nach Bertinetto jedoch eine Reihe von phonetischen und phonologischen Faktoren, die sich zeitlich auswirken: So sollte eine ideale silbenzählende Sprache keine Reduktionsvokale aufweisen, da Silben mit reduzierten Nuklei systematisch kürzer als andere sind. Auch sollten bei einer Erhöhung des Sprechtempos in silbenisochronisierenden Sprachen alle Silben in gleichem Maße gekürzt werden, wohingegen nach Bertinettos Ansicht für akzentzählende Sprachen die Dauerreduktionen hauptsächlich die unbetonten Silben betreffen. Ein solcher ungleicher Einfluß des Sprechtempos auf die Silbendauern steht sicherlich einer Silbenisochronisierung entgegen; inwieweit er allerdings umgekehrt Fußisochronisierung unterstützt, bleibt unklar. Schließlich wird schon an dieser Stelle - und auch bei einigen weiteren von Bertinetto (1977) aufgeführten Kriterien für Silben- bzw. Fußisochronie - deutlich, daß die beiden rhythmischen Typen keineswegs mehr allein über die Zeitstruktur ihrer Äußerungen definiert werden, sondern vielmehr über ihre Prominenzkonturen: Bertinetto - und viele andere Autoren nach ihm - betrachtet weniger die Gleichheit der Prominenzabstände als Definiens des akzentzählenden Sprachtyps, sondern vielmehr die Verschiedenheit von betonten und unbetonten Silben. Diese manifestiert sich zwar auch durational (als Anisochronie betonter und unbetonter Silben), aber eben nicht nur. Um angesichts der zahlreichen Neuinterpretationen der Pikeschen Typen die unterschiedlichen Konzeptionen auch begrifflich unterscheiden zu können, reservieren wir im folgenden die Bezeichnung Isochronie und die hiervon abgeleiteten Bildungen für temporale Gleichheit hinsichtlich eines phonetischen oder phonologischen Bewertungsmaßstabs. Bei Konzeptionen, in denen zusätzliche Faktoren aufgeführt werden, die die Isochronie von Fuß oder Silbe systematisch unterstützen, sprechen wir allgemeiner von Akzent- und Silbenzählung. Isoprominenz schließlich bezeichne die hiervon prinzipiell unabhängige Eigenschaft von Sprachen, die Verschiedenheit betonter und unbetonter Silben zu minimieren. Das gemeinsame Auftreten von Silbenisochronie und Isoprominenz der Silben in einer Sprache bezeichnen wir als Isosyllabizität. Unter (7) finden sich diese terminologischen Festlegungen noch einmal zusammengefaßt: (7) Terminologie der Sprachrhythmustypologie

Relata der Gleichheit- oder Ähnlichkeitsrelation Gleichheit Gleichheit Gleichheit Gleichheit

in der Zeit in der Zeit und typische Korrelate in der Prominenz in Zeit und Prominenz

Silben

Füße

Silbenisochronie Silbenzählung Isoprominenz Isosyllabizität

Fußisochronie Akzentzählung -

In den Analysen Bertinettos von 1977 und 1981 wird also zunächst die Idee der Silbenisochronisierung um typische isochroniefördernde Korrelate zu einem bereits teilweise phonologischen Konzept von Silbenzählung erweitert. Interessanterweise tritt in der Interpretation der Dauermessungen jedoch die Zeit schließlich ganz in den Hintergrund zugunsten der Prominenz (vgl. Bertinetto 1981,190). Maratta (1985) schließlich mißt nicht Silben-, sondern Vokaldauern und untersucht, ob und inwieweit diese im Mittel mit wachsender Fuß- oder Wortlänge verkürzt werden. Sie findet kaum Anhaltspunkte für entsprechende Isochronisierungstendenzen und spricht sich für eine phonologische Neukonzeption der Typen Abercrombies aus. Die Frage nach Silbenisochronisierung im Standarditalienischen wird von ihr noch nicht einmal gestellt. Einige Ergebnisse

25 ihrer Untersuchung, etwa die besonders starke Kürzung von Vokalen in der Silbe unmittelbar nach dem Wortakzent, deuten jedoch eher auf signifikante Unterschiede zwischen betonten und unbetonten sowie auch innerhalb der unbetonten Silben hin. Vayra/Fowler/Avesani (1987) zeigen, daß Anglophone mit zunehmender Länge eines Fußes diesen konsequent komprimieren, wobei auch der Nukleusvokal der Akzentsilbe gekürzt wird, wohingegen die drei Sprecher des Standarditalienischen in ihrer Studie keine einheitliche Tendenz in der Artikulationsdauer des Vokals erkennen lassen. Füße ungleicher Länge werden also im Italienischen weniger stark isochronisiert als im Englischen. Über eine Tendenz zur Isochronisierung der Silbe hingegen erlaubt dieses Ergebnis keine Aussage. Die Untersuchung von den Os (1988) schließlich erweist für den toskanischen Standard weder eine Tendenz zu Silben- noch zu Akzentzählung. Vielmehr scheinen die Dauern der prosodischen Einheiten proportional mit der Segmentanzahl zuzunehmen. Immerhin zeigt sich auch bei seinem Vergleich des Italienischen mit dem Niederländischen, daß, wie schon bei Delattres Studie zum Französischen und Englischen, unbetonte Silben in der romanischen stärker als in der germanischen Sprache isochron sind, da sie häufiger die Struktur CV und somit auch die gleiche Anzahl an Sprachlauten aufweisen und auch die Silben anderer Gestalt im Mittel weniger vom CV-Ideal abweichen. Nur wenig Beachtung haben in der Literatur diatopische Unterschiede der zeitlichen Strukturierung im Italienischen gefunden. Zwar behauptet Di Luzio (1988) für Dialekte der Abruzzen stärker akzentzählenden Charakter, führt als Argument hierfür jedoch wiederum vor allem die Verschiedenheit der Silben in Abhängigkeit von der Prominenzstruktur an. Aus einer stärkeren Ungleichheit der Silben in Zeit oder Prominenz bereits auf Fußisochronie zu schließen, scheint jedoch, wie wir bereits vermerkt haben, nur unter der Prämisse eines Tertium non datur à la Abercrombie statthaft. Trumper/Romito/Maddalon (1991, 348) sprechen von einem rhythmischen Kontinuum in Italien, wobei nach ihren Messungen apulische Dialekte der Akzentzählung am nächsten kommen, toskanische und venetische hingegen der Silbenzählung. Noch stärker umstritten als für die bisher besprochenen romanischen Sprachen ist die Frage der temporalen Organisation im Französischen: So galt die Sprache manchen geradezu als Musterbeispiel für Silbenisochronie. Noch Wenk/Wioland (1982,193) halten fest: "[... ] French appears to remain the unchallenged example of a "syllable-timed" language." Diese traditionelle Auffassung findet sich etwa bei Faure/Rossi (1968) experimentell untermauert, deren Messungen allerdings auf vorgelesener, in Alexandrinern verfaßter Dichtung beruhen. Wie schon für das Italienische, so ist auch für das Französische außerdem auf eine angeblich recht geringe Salienz der Betonungen hingewiesen worden, welche ebenfalls die Uniformität der Silbenfolge und somit den silbenzählenden Charakter des Französischen unterstütze. Sogar die extreme Position, das Französische sei eine "langue sans accent", kann eine illustre Reihe von Vertretern vorweisen (vgl. die Angaben bei Di Cristo 1999,157 und zur Diskussion 2.3.1). Da sich eine Sprache mit isoprominenter Silbenfolge naturgemäß nicht akzentzählend organisieren kann, bleibt in der Abercrombieschen Dichotomie nur die Silbenzählung als Alternative. Dieses rhythmustypologische Prokrustesbett hat, wie auch Fletcher (1991, 195) vermerkt, gerade für das Französische lange Zeit eine unvoreingenommene Beschreibung verhindert. Stark ausgeprägt ist allerdings die Tendenz zur Längung von Silben am Ende prosodischer Phrasen (vgl. u. a. Smith 1976 und Crompton 1980). Diese Erscheinung, deren Status in 3.2.4.2 noch genauer zu erörtern sein wird, gilt jedoch vielen als universell und spricht so-

26 mit nach Auffassung einiger Autoren, zuletzt Lacheret-Dujour/Beaugendre (1999,39), noch keineswegs gegen eine Zuordnung des Französischen zum silbenzählenden Typ: Im Französischen werden ihrer Ansicht nach die Silben isochronisierend produziert, soweit sie nicht der als typologisch irrelevant angesehenen gegenläufigen Tendenz zu einer finalen Dauererhöhung unterliegen. Jedoch findet sich, etwa in den Untersuchungen von Delattre (1966), auch eine solche eingeschränkte Isochronisierungsthese nicht bestätigt. Darüber hinaus bleibt Delattres Feststellung verwunderlich, daß sich diese angeblich universelle Tendenz gerade im Französischen sehr viel stärker manifestiert als im Englischen, Deutschen und Spanischen. Grammont ( 3 1946) und Wenk/Wioland (1982) vermuten dagegen, daß der Rhythmus des Französischen gerade nicht auf isosyllabischen Tendenzen, sondern im Gegenteil auf der Alternanz prominenter und weniger prominenter Silben beruhe. Anders als in typischen akzentzählenden Sprachen finden wir jedoch nur eine einzige Prominenz pro Phrase. Die - nicht immer einfach zu interpretierenden - Ausführungen von Wenk/Wioland (1982) legen nun aber den Schluß nahe, daß im Französischen diese Prominenzen isochronisiert werden. So ergibt eine Messung der Phrasendauern des unter (8) notierten Satzes, der in einen informellen Kontext eingebettet ist und von zwölf Probanden vorgelesen wurde, folgende Mittelwerte: (8) Evidenz für Phrasenisochronisierung im Französischen (Wenk/Wioland 1982,194) Il a sollicité ma collaboration car Pierre aime toujours l'art Phrase A ( 12 Silben) Phrase Β (6 Silben) Abschnitte A+Pause+B A Pause Β Dauer in Sekunden 3,41 1,62 0,030 0,148 Die beiden Phrasen sind also fast perfekt isochron, vor allem dann, wenn man, wie Wenk/Wioland vorschlagen, die Sprechpause im Beispielsatz unter (8) zu Β rechnet. Allerdings geben die Autoren keine weiteren Meßdaten anderer Äußerungen, sondern verweisen lediglich auf eine Tendenz des Französischen, die Silbenzahlen der phonologischen Phrasen einander anzugleichen (Wenk/Wioland 1982,213). Auch behaupten sie unter Hinweis auf postulierte Beschränkungen des Kurzzeitgedächtnisses, daß Phrasen mit mehr als sechs Silben vermieden werden, was besonders angesichts der von ihnen selbst beobachteten Gliederung unter (8) erstaunt. Nicht diese prosodische Besonderheit konstituiert nach Wenk/Wioland (1982) jedoch den Rhythmus des Französischen, sondern vielmehr die Lage der Prominenz am Ende ihrer Domäne. Diese Organisation bezeichnen sie als trailer-timed und stellen sie dem durch das Englische illustrierten Typus des leader-timing mit angeblich domäneninitialer Prominenz gegenüber. Wir werden auf die von ihnen vorgeschlagenen Korrelate von trailerund leader-timing in 2.3.3 zurückkommen und vermerken einstweilen nur, daß die Autoren zwar nacheinander auf die Betonung durch Längung, auf die phrasale Prominenzdomäne und auf die finale Position innerhalb der Domäne hinweisen, nicht jedoch auf mögliche Zusammenhänge zwischen diesen Tatsachen. Neben theoretischen Unklarheiten erscheint auch die Tragweite der Behauptungen von Wenk/Wioland in eigenartigem Kontrast zu ihrer minimalen Datengrundlage (vgl. auch Bertinetto 1988,65). Eine Überprüfung der zeitlichen Organisation phonologischer Phrasen in einem Korpus von Radiointerviews unternimmt Fletcher (1991). Ihre Ergebnisse sprechen gegen die Annahme, daß das Französische stärker silbenisochronisierend als etwa das Englische sei. Auch Fletcher findet ausgeprägte phrasenfinale Längungstendenzen. Allerdings ergeben ihre Messungen keinen signifikanten Unterschied zwischen prominenzbedingter Dauerzunahme am Ende und innerhalb einer Intonationsphrase wie bei Crompton (1980). Vielmehr scheint

27 neben individuellen Unterschieden der zeitlichen Strukturierung auch die Qualität des Vokals eine wichtige Rolle zu spielen. Die Anisochronie von nichtprominenten und prominenten Silben bleibt jedoch für alle Sprecher und bei allen Silbennuklei deutlich. Auch Fant/Kruckenberg/Nord (1991) finden keine signifikanten Unterschiede der Silben- und Fußdauern in englischen, schwedischen und französischen Vorlesedaten und vermuten ebenfalls phonologische Eigenschaften, die ihrer Meinung nach dem Französischen silbenzählenden Charakter verleihen. Nach Vaissière (1991a,b) schließlich herrscht im Französischen silbenisochronisierendes Sprechen in Lento-Aussprache vor, ein Angleichen der prosodischen Phrasen in der Rezitation von Dichtung und eine isochrone Organisation größerer Einheiten, die sie als breath groups bezeichnet, in flüssigen Sprechstilen. Einer solchen Ansetzung unterschiedlicher Tendenzen für verschiedene Sprechstile widerspricht jedoch Astésano ( 1999). Sie trennt in ihren Messungen konsequent Vorlese-, Nachrichten- und Spontanaussprache aus Radiointerviews. Über die verschiedenen Sprechstile hinweg erweist sich dabei die prosodische Phrase als die Einheit mit den geringsten Dauerschwankungen. Während also einige neuere Analysen Rhythmizität im Französischen über zeitliche Angleichungen auf höheren prosodischen Ebenen erfassen wollen, betrachten LacheretDujour/Beaugendre (1999) gerade die Isochronie der nichtprominenten Silben im Verbund mit der markanten Anisochronie prominenter Silben als rhythmusstiftend. Hierbei liefern die unbetonten eine "durée de référence", die eine Akzentsilbe deutlich überschreiten muß, wenn sie prominent realisiert werden soll (vgl. auch 3.2.4.2). Die Anisochronie bestimmter Silben ist also nach dieser Auffassung nicht etwa eine phonetisch unvermeidliche Beeinträchtigung der rhythmischen Qualität, sondern im Gegenteil für das Französische rhythmusstiftend; diesen Gedanken werden wir in 3.3.2 weiter entfalten. Abschließend sei noch kurz auf einige Sprachen außerhalb der Romania hingewiesen, für die ebenfalls eine Tendenz zur Isochronisierung der Silbe behauptet worden ist. So hat man innerhalb der Indogermania auch für das Neugriechische (vgl. Botinis/Fourakis/Prinou 1999, 2478) und das Hindi (vgl. O'Connor 1973,239) Silbenzählung vermutet, allerdings entweder auf rein impressionistischer Grundlage oder aufgrund von sprachstrukturellen und nicht oder nur mittelbar dauerbezogenen Daten. Hurch (1988) postuliert schließlich auch für das Baskische Silbenzählung unter Einbeziehung phonetischer Daten sowie phonologischer Überlegungen. Meiner Ansicht nach sollte aber die Zuordnung aufgrund der problematischen Interpretation der Meßergebnisse sowie der ausgeprägten diatopischen Variation in dieser Sprache durch weitere Untersuchungen gestützt werden. Von den uralischen Sprachen wird etwa das Ungarische dem silbenzählenden Typ zugeordnet (vgl. Siptär/Törkenczy 2000,13, die allerdings keine Begründung hierfür geben). In Afrika ist das Haussa (vgl. Miller/Tench 1982, 79) zu nennen sowie das schon von Abercrombie aufgeführte Yoruba, für das allerdings, wie in (1) zu ersehen, die Ergebnisse von Roach (1982) keine solche Tendenz erweisen konnten. Daneben finden sich entsprechende Zuordnungen für dravidische Sprachen Indiens wie das Tamilische (vgl. O'Connor 1973,253) und das Telugu (vgl. Abercrombie 1967, 97); die experimentelle Studie zum Tamilischen von Balasubramanian (1980) hat jedoch eine entsprechende Isochronisierungstendenz nicht bestätigen können. Schließlich ist auch für das Indonesische Silbenisochronisierung angenommen (Browne 1977, 444) und wieder bestritten (Miller 1984,82) worden, ebenso wie für das Mandarin-Chinesische (vgl. zur Diskussion Cao 2000). Für indigene Sprachen des amerikanischen Doppelkontinents sowie Australiens und der pazifischen Inselwelt schließlich liegen meines Wissens keine experimentalphonetischen Untersuchungen zu Isochronietendenzen vor. Gelegentliche Zuordnungen von Spra-

28 chen zum silbenzählenden Typ, wie etwa bei Merlan (1982) für die australische Sprache Mangarayi, werden nicht durch Meßdaten abgestützt.

1.2.1.3

Morenisochronie als Tendenz?

In der typologisch ausgerichteten Isochronieforschung hat schließlich das Japanische eine große Rolle gespielt (vgl. den Forschungsbericht von Warner/Arai 2001a). Dabei scheint die Sprache in den Ohren mancher westlicher Phonetiker wenig rhythmisch zu klingen. Smith ( 1976) etwa bestreitet für sie jegliche prosodische Organisation der Zeitstruktur: No super-ordinate organization of durations is apparent: there does not seem to be any kind of foot or group or phrase which governs timing. (Smith 1976, 105)

Bereits bei Bloch (1950) findet sich dagegen die Auffassung, japanische Äußerungen seien auf der Grundlage einer subsyllabischen Einheit isochronisierend organisiert, die in der japanischen Tradition als onsetsu, in der westlichen Japanologie hingegen mit dem schon antiken Terminus More bezeichnet wird. 6 Dieser Begriff, schon von der Indogermanistik des 19. Jhs. und von Trubetzkoy verwendet, hat vor allem in der nichtlinearen Phonologie neue Beliebtheit erlangt und wird in verschiedenen Traditionen mit unterschiedlicher Intension und oft auch Extension gebraucht (vgl. Auer 1991). Vielen scheint allerdings die phonetischphonologische Auffassung als Zeiteinheit grundlegend (vgl. besonders Hockett 1974,79). Im Japanischen gelten alle Silben entweder als ein- oder als zweimorig, je nachdem, ob ihr Reim minimal ist, also nur einen Kurzvokal enthält, oder nicht. Wie auch andere rhythmisch relevante Unterscheidungen der Silben nach ihrem prosodischen Gewicht ignoriert somit auch die Morenzählung den Silbenonset und liefert nur eine binäre Klassifikation. Allerdings findet sich im Japanischen weit weniger silbenstrukturelle Komplexität als etwa im Deutschen: mit Ausnahme einiger weniger markierter Reimtypen, die weitgehend auf morphologische Grenzen beschränkt sind, umfassen alle zweimorigen Silben entweder einen Langvokal oder aber einen Kurzvokal und dazu genau einen Sprachlaut in der Koda. Auch die Besetzung der Koda unterliegt strengen Restriktionen: Erlaubt sind allein Gleitlaute, Nasalkonsonanten und die Erstbestandteile obstruentischer Geminaten. Unter (9) sind die unmarkierten Silbenstrukturen des Japanischen vollständig aufgelistet: (9) Silbenstrukturen und Morenbewertung im Japanischen (Beckman 1982b, 113; Poser 1990,78f.) Silbenstruktur (C)V (C)V: (C)VG (C)VN (QVCV-.C, Morenzahl 1 2 2 2 2

Da phonetisch lange Vokale auch phonologisch zu Kurzvokalen gleicher Qualität in Opposition stehen und sich phonotaktisch wie zwei Laute verhalten, erscheint es zulässig, einen langen Vokal V: phonologisch als Folge zweier identischer Segmente VV aufzufassen. Somit zeigt sich, daß die unter (9) notierte Morenbewertung genau die Anzahl der Segmente im Silbenreim widerspiegelt. Da aber im Japanischen ein- und zweimorige Silben nebeneinander auftreten, ist Morenisochronie systematisch von Silbenisochronie verschieden und stellt somit einen eigenen dritten Typ dar. 6

Bloch selbst spricht noch nicht von Moren; aus seinen Ausführungen geht jedoch eindeutig hervor, daß er die onsetsu-Kategorie meint, vgl. Warner/Arai (2001a, 2).

29 Wie schon bei den anderen beiden Isochronietypen, so werden auch für Morenisochronie häufig typische, diese Zeitorganisation unterstützende phonetische und phonologische Korrelate aufgeführt. Auch hier wollen wir bei einem rhythmologischen Konzept, das neben unmittelbar temporalen auch andere zeitstrukturrelevante Aspekte mitumfaßt, allgemeiner von Morenzählung sprechen. Dabei sind wir uns der Tatsache bewußt, daß die More auch zur phonologischen Beschreibung von Sprachen herangezogen wird, welche diese Größe nicht oder zumindest nicht unmittelbar in ihrer zeitlichen Organisation heranziehen (vgl. kritisch dazu Ternes 2 1999,122). Während jedoch die erste größere experimentelle Überprüfung der Morendauern im Japanischen durch Han (1962) zumindest eine Tendenz zur Isochronisierung zu belegen versucht, findet Beckman (1982b) in ihren Laut- und Morendauermessungen keinerlei Anhaltspunkte: So ist beispielsweise kaum eine nennenswerte temporale Kompensation in CV-Silben nachweisbar, deren Vokal desonorisiert und damit gekürzt wird, wie dies zumindest im Standardjapanischen bei hohen Vokalen häufig geschieht. Auch zeigen sich kaum isochronisierende Daueranpassungen des Konsonanten in einer CV-More in Abhängigkeit von der intrinsischen Vokallänge, sogar bei einem Konsonanten wie [m] nicht, dessen Lautdauer artikulatorisch leicht modifiziert werden kann. Andere von Han genannte Ausgleichstendenzen führt Beckman entweder auf Meßfehler oder auf universale phonetische Tendenzen zurück. Ihrer Auffassung nach resultiert der Staccato-Eindruck, welchen das Japanische auf Anglophone macht, vor allem aus der im allgemeinen höheren Silbenrate und geringeren Silbendauervariation in japanischen Äußerungen im Vergleich zu englischen, da Silben im Japanischen, wie wir gesehen haben, im Mittel weniger komplex und somit kürzer sind. Beckman (1982b) betrachtet insgesamt die More kritisch als "perceptual unit having no phonetic basis" - was allerdings ebensogut für die Silbeneinheit gelten könnte. Ihr stärker phonologisch ausgerichteter Vorschlag läuft darauf hinaus, die intuitiv vorhandene rhythmische Differenz zwischen dem Japanischen und Englischen allein Uber die Silbenprosodie zu erfassen. Als Nachteil ihres Ansatzes erscheint, daß er keine Abgrenzung von Moren- und Silbenzählung erlaubt, da beide sich durch eine geringere durchschnittliche Komplexität der Silben im Verhältnis zur Akzentzählung auszeichnen. Die Frage, inwieweit sich eine traditionell als silbenzählend eingestufte Sprache wie das Spanische in seiner zeitlichen Strukturierung vom Japanischen unterscheidet, untersucht Hoequist (1983). Hierzu bettet er in beiden Sprachen Wortformen in geeignete Trägersätze ein und vergleicht die Silbendauern der Wörter in Abhängigkeit von ihrer jeweiligen Struktur und rhythmischen Prominenz. In einer idealtypischen silbenzählenden Sprache sollten CVC- und CVV-Silben sich in ihrer zeitlichen Erstreckung nicht von CV- oder CV-Silben unterscheiden, bei Morenzählung hingegen gerade die doppelte Zeit in Anspruch nehmen. Die Ergebnisse von Hoequist zeigen jedoch, daß auch im Spanischen die CVC-Silben durchschnittlich um 66 % länger als CV-Silben sind. Dagegen beträgt im Japanischen die Relation der Dauern nicht 2 : 1 , sondern im Mittel nur 1,8:1. Die durationalen Unterschiede sind also in beiden Sprachen ähnlich. Allerdings zeigt sich auch, daß sich im Spanischen die Position einer Silbe innerhalb der Äußerung sowie ihr Prominenzgrad wesentlich stärker auf die Silbendauern auswirken als im Japanischen. Insgesamt sprechen die Ergebnisse von Hoequist ein weiteres Mal gegen eine silbenbezogene Isochronietendenz für das Spanische, jedoch für eine Unterscheidung zweier Organisationsformen im Sprachrhythmus, wie auch Hoequist selbst hervorhebt (vgl. S. 28). Eine Isochronie einzelner Moren oder größerer Einheiten glei-

30 cher Morenzahl kann jedoch auch Hoequist für das Japanische nicht bestätigen. So sind etwa in seiner Studie CVC-Silben signifikant länger als solche der Struktur CVV (vgl. S. 24). In einer einflußreichen Publikation weisen Port/Dalby/O'Dell (1987) zunächst auf einige Annahmen hin, die in der Diskussion der Isochroniehypothese für das Japanische häufig getroffen werden, nämlich die Exhaustivität der Morenzählung (Extraprosodizität ist nicht vorgesehen) sowie die strikte Koinzidenz von Moren- und Wortgrenzen (Sandhi-Phänomene wie etwa die Resilbifizierungen im Französischen sind nicht erlaubt). Somit können Moren nicht nur als durationale Maßeinheiten, sondern auch als "prosodische Kleinstkategorien" (Auer 1991, 9) in einer Hierarchie prosodischer Konstituenten aufgefaßt werden. Dabei ist Morenzählung keineswegs nur ein Konstrukt der phonetischen und phonologischen Theorie: Wie schon Beckman (1982b, 134) festhält, sind Japaner intuitiv in der Lage, die Moren eines Wortes korrekt zu bestimmen. Auch eine Vielzahl psycholinguistischer Befunde spricht, wie wir im 4. Kapitel noch genauer sehen werden, für die kognitive Realität der Moreneinheiten. Dennoch können, vor allem aufgrund artikulatorischer Beschränkungen, die einzelnen Moren nicht in gleicher Zeit produziert werden, und möglicherweise wird noch nicht einmal innerhalb des artikulatorisch Möglichen Morenisochronisierung optimiert. Port/Dalby/O'Dell tragen nun diesen gegensätzlichen Befunden mit einer neuen Hypothese Rechnung: Ihrer Auffassung nach beruht die Zeitstruktur japanischer Äußerungen nicht auf der Isochronie der einzelnen Moren, sondern auf temporalen Ausgleichsprozessen auf höherer Ebene, vor allem auf der des Wortes (vgl. zur Diskussion Warner/Arai 2001a, 8ff.). Daher haben bei konstantem Sprechtempo Wörter gleicher Morenzahl im Japanischen ähnliche Dauern, vgl. (10): (10) Morenzahl und Wortdauer im Japanischen (Port/Dalby/O'Dell 1987, 1575f.) Morenzahl Wortform Dauer in ms

1 ra 133

2 raku 240

3 rakuda 382

4 rakudaga 501

5 rakudagasi 629

Wortform Dauer in ms

si 140

sita 253

sitaku 364

sitakusu 492

sitakusuru 587

Sprecher des Japanischen können, allein schon aufgrund intrinsischer und kointrinsischer Lautdauervariationen, zwar nicht alle Moreneinheiten isochron produzieren, wohl aber versuchen sie, Wortformen gleicher Morenzahl als ganze so zu sprechen, daß sie als gleich lang empfunden werden. Port/Dalby/O'Dell sind mit ihrer neuen Explikation von Morenzählung in der Lage zu erklären, weshalb etwa segmental bedingte höhere Dauern einzelner Moren häufig nicht eine Dauerzunahme anderer benachbarter Moren zur Folge haben, sondern gerade im Gegenteil kompensatorische Reduktionen.7 In der phonetischen Forschung zum Japanischen sind seither etliche weitere Anhaltspunkte für solche die Morenzählung fördernde mikroprosodische Regularitäten nachgewiesen worden: So zeigt etwa Sato (1993), daß im Japanischen viel stärker als im Koreanischen und Englischen die phonetische Dauer von Nasalkonsonanten in der Silbenkoda von der Länge des Onsetsprachlautes der nächsten Silbe abhängt, so daß insgesamt die Wortlänge in Abhängigkeit von der Morenzahl normalisiert wird. Auch werden nach Sato im Japanischen Nasalkonsonanten im Silbenonset, die keine

7

Allerdings scheint nach Warner/Arai (2001b) diese morenbasierte Wortdauer in Spontansprache weit weniger genau zu erfolgen als etwa in Leseaussprache, die den meisten phonetischen Messungen zugrundeliegt.

31 More beitragen, wesentlich kürzer realisiert als in der Koda, wo sie eine eigene More konstituieren - auch dies eine weitere Manifestation der morenbasierten Zeitorganisation. Angesichts solcher Daten erstaunt die Zurückhaltung, mit der Phonetiker wie Phonologen der Ansetzung eines morenzählenden Sprachtyps begegnen. Als Grund für ein solches Zaudern wird manchmal angeführt, außer im Japanischen sei morenbasierte Isochronisierung in keiner anderen Sprache zu finden oder zumindest nicht nachweisbar (vgl. Auer 1991, 10) beziehungsweise nicht nachgewiesen (vgl. die vorsichtigere Einschätzung bei Fox 2000,87). Die konzessive Relationierung im folgenden Zitat erscheint dennoch merkwürdig: The perceived rhythm of Japanese [... ] is said to be a mora-based rhythm [...], though very few other languages have been claimed to show such a rhythm. (Laver 1994, 529) Selbst wenn tatsächlich nur das Japanische eine solche Zeitorganisation aufweisen sollte, so berechtigt doch die phonetische (wie auch die phonologische und psycholinguistische) Indizienlage viel eher zur Ansetzung eines Isochronietyps als im Falle der Silben- und Akzentzählung. Als morenbasiert ist in der Experimentalphonetik jedoch auch die Zeitorganisation im westafrikanischen Yoruba, einer der drei Abercrombieschen Beispielsprachen für Silbenisochronie, im Westgrönländischen und Finnischen (vgl. zu beiden Sprachen Nagano-Madsen 1992), sowie in den Bantusprachen Ganda und Nyambo (vgl. zu diesen beiden Sprachen Hubbard 1995) beschrieben worden. Phonologische und externe Evidenz, auf die wir in 4.3 noch zu sprechen kommen, deutet ferner auf eine morenbasierte Rhythmisierung in weiteren geographisch und genealogisch so distanten Sprachen wie dem amerikanischen Shipibo (vgl. Lauriault 1948), dem Somali, dem Tamilischen und der pazifischen Sprache Ponapeanisch hin. Fast scheint es, als sei die Seltenheit phonetischer Hinweise auf Morenzählung nicht durch die Sprachen der Welt selbst bedingt, sondern vielmehr eine Konsequenz der einseitigen Bevorzugung germanischer und romanischer Sprachen durch die Forschungstradition.

1.2.2

Isochronisierung als Produktionspräferenz

Wie wir gesehen haben, erweisen sich die Meßergebnisse vor allem für die 'klassischen' Isochronietypen von Silben- und Akzentzählung als problematisch: Silbendauern in als silbenzählend eingestuften Sprachen unterscheiden sich häufig sogar innerhalb einer Äußerungseinheit um ein Vielfaches, und auch die Fußdauern in akzentzählenden Sprachen können beträchtlich variieren. Auch Scott/Isard/Boysson-Bardies (1985) kommen in ihrer vergleichenden phonetischen Untersuchung zum Englischen, Französischen und Japanischen zu dem Schluß, daß die drei Sprachen nicht nur keinerlei Tendenz zu Akzent-, Silben- oder Morenisochronie aufweisen, sondern sich noch nicht einmal in den untersuchten Einflußgrößen auf Silben- und Fußdauern unterscheiden. Ein solcher Befund stellt nun in der Tat selbst die Möglichkeit einer wohlwollenden Umdefinition der Abercrombieschen Typen in Frage. Angesichts dieser Daten ist das Festhalten an der Isochronie sogar als "intellectually irresponsible" und "schizophrenic" bezeichnet worden (vgl. Cauldwell 1996). Gründet die Isochronieforschung also, wie Murphy (1997) formuliert, lediglich auf einem "Mythos" sprachlicher Rhythmizität und sprachrhythmischer Verschiedenheit, oder, schlimmer noch, begründet und perpetuiert sie diesen gar? Zur angemessenen Beurteilung der Hypothese, daß die Isochronisierung prosodischer Einheiten als phonetische Tendenz Einfluß auf die zeitliche Strukturierung von Äußerungen

32 nimmt, ist es zunächst erforderlich, die Domäne, innerhalb derer Isochrome im Sprechen angestrebt werden kann, zu bestimmen. Bereits im letzten Abschnitt haben wir dabei auf die Voraussetzung eines (relativ) konstanten Sprechtempos und die verbreitete Tendenz zur Verlangsamung der Artikulation am Ende größerer prosodischer Einheiten hingewiesen. Femer werden nicht nur in der Musik, sondern auch in der Lautsprache Einheiten vor der ersten Prominenz als Auftakte, also häufig schneller als die nachfolgenden Füße produziert (vgl. Cruttenden 1997,21). Neben diesen prosodischen Einflußfaktoren auf die Zeitstruktur spielt aber auch die Identität der Segmente eine Rolle: So ist seit langem bekannt (vgl. Lehiste 1970, 18f.), daß einige Laute zu ihrer Artikulation mehr Zeit erfordern als andere, hohe Vokale beispielsweise mehr als tiefe, da hier die Zunge eine größere kontrollierte Bewegung ausführen muß. Auch sind labiale Konsonanten intrinsisch länger als mit der Zunge artikulierte und stimmlose Plosive länger als stimmlose Frikative (vgl. Laver 1994,434f.). Die Dauer eines Lautes kann daneben auch durch andere Laute in seiner Umgebung mitbedingt sein. Sowohl bei intrinsischen wie bei kontextabhängigen kointrinsischen Einflüssen finden sich neben universellen Tendenzen auch sprachspezifische, die auf vielfältige und längst nicht umfassend geklärte Weise mit einzelsprachlichen phonologischen Eigenschaften in Zusammenhang stehen können. Daß nach einer Anrechnung solcher durch die Sprachlautfolge bedingter Abweichungen eine Isochronisierungstendenz nachweisbar ist, versucht Fowler (1979) fUr das Englische zu zeigen: In Experimenten mit réitérant speech, nämlich mit Wiederholungen künstlicher, aber im Englischen phonologisch möglicher Silben, weist sie nach, daß Folgen gleicher Silben und Füße äußerungsmedial isochron produziert werden und Folgen verschiedener Silben zwar voneinander abweichen, jedoch gerade so, wie es nach den intrinsisch und kointrinsisch bedingten Segmentdauern zu erwarten ist. Als Nachteil dieser Vorgehensweise erscheint mir allerdings, daß aufgrund der artifiziellen Sprachdaten Isochronisierung hier nur als eine Tendenz zu einer konstanten Lautproduktionsrate nachgewiesen wird, jedoch hieraus kaum Aussagen über die dem Englischen eigene zeitliche Organisation von Äußerungen gewonnen werden können. Tuller/Fowler ( 1980) gehen in ihrer Folgeuntersuchung noch einen Schritt weiter und verbinden in einem neuen Experiment, wieder mit englischen Versuchspersonen und réitérant .ypeec/i-Aufgaben, akustische und elektromyographische Untersuchungen. Dabei waren in vorgegebenen Äußerungen alle Silben möglichst isochron und gleich betont zu produzieren. Interessanterweise ergab sich, daß zwar die akustischen Dauern verschiedener Silben auch bei dieser Vorgabe immer noch erheblich divergierten, die neuronale Initiierung der Artikulationsbewegungen jedoch weit stärker isochron als das akustische Signal erfolgte. Hieraus schließen die Autoren: [... ] when asked to produce isochronous monosyllabic utterances, talkers comply by producing isochronous articulatory gestures. Due, at least in part, to differences in the times after articulatory onset that different consonants have acoustic consequences other than silence, the acoustic product of isochronous gestures may depart substantially from isochrony. (Tuller/Fowler 1980, 281) Dieses neue Ergebnis zeigt, daß Sprecher des Englischen bei geeigneten experimentellen Vorgaben Silbenisochronie zumindest motorisch approximieren können. Noch weniger als das erste erlaubt es jedoch Schlüsse auf Charakteristika der rhythmischen Struktur englischer Spontansprache. Insbesondere ist nämlich für die elizitierte Silbenfolge, die gleichsam metronomisch zu sprechen war, eine prosodische Integration der einzelnen Silben in größere

33 Einheiten kaum zu erwarten. Die Silben bilden in der Tat, wie in obigem Zitat formuliert, jeweils für sich "monosyllabic utterances". Somit bleibt die Übertragbarkeit der Ergebnisse auf zusammenhängende Äußerungen zu zeigen. Wenn wir einsilbige Füße zulassen, dann ließen sich die obigen Daten genausogut als Beleg dafür werten, daß Anglophone Fußisochronie zumindest artikulatorisch approximieren können. Auch Stone (1981) versucht, die Rhythmizität des Englischen nicht nur als akustisches, sondern als kinematisches Phänomen nachzuweisen. Sie untersucht hierfür Kieferbewegungen beim Sprechen und stellt fest, daß die Größe der Auslenkungen sich in drei Stärkeklassen einteilen läßt, die mit dem Prominenzstatus der Silbe (haupt-, neben- und unbetont) korrelieren. Diese dreifache Differenzierung des Bewegungsumfangs bleibt auch bei AllegroAussprache und beim Flüstern erhalten. Demgegenüber kann Stone in ihrer Untersuchung keinerlei approximative Periodizität der Kieferartikulation erkennen. Ihre Untersuchung unterstreicht also die ausgeprägte Anisoprominenz der Silben im Englischen, jedoch nicht die These von der Isochronisierung der Prominenzabstände. In zwei Untersuchungen zu Laut- und Silbendauern im Deutschen zeigen Grover/Terken ( 1994) jedoch, daß die Standardabweichungen der Dauern verschiedener Vorkommnisse der Silbe [si] geringer sind als die der beiden Einzellaute [s] und [i], was für eine isochronisierende Rolle der Silbe spricht: Offenbar kontrollieren die Sprecher die einzelnen Lautdauern weniger präzise als die Länge der Silben. Umgekehrt ergibt sich für akzentuell definierte Einheiten nur eine geringe Bedeutung als Kompensationsdomäne, da eine Kompression der exemplarisch untersuchten Reduktionssilbe [ga] bei zunehmender Silbenzahl im Fuß in ihren Daten nicht nachweisbar ist. Zu klären bliebe allerdings, inwieweit die Wahl einer Silbe mit einem intrinsisch sehr kurzen und daher kaum noch weiter kürzbaren Reduktionsvokal im zweiten Versuch nicht das negative Ergebnis mitbegründet. Die regulative Funktion des Fußes als durationaler Kompensationsdomäne scheint aber nicht nur in als akzentzählend geltenden Sprachen eine Rolle zu spielen, sondern zeigt sich nach Strangert (1987, 151) auch im Spanischen. Immerhin bleiben interessante Unterschiede in den Details der Ausgleichsstrategien: Mit zunehmender Zahl nachfolgender unbetonter Silben wird nämlich im Englischen am stärksten gerade die prominente Silbe antizipatorisch gekürzt (vgl. Fowler 1981), ebenso wie im Schwedischen, wohingegen sich im Italienischen kein signifikanter Zusammenhang zwischen der Dauer einer Akzentsilbe und der Anzahl nachfolgender unbetonter Silben ergibt (vgl. Marotta 1985, Kap. 2). Auch andere intersyllabische phonetische Prozesse scheinen im Englischen und Italienischen unterschiedlich geregelt: So übt der Vokal einer prominenten Silbe im Englischen, wie Fowler (1983) zeigen kann, viel stärkere Koartikulationseinflüsse auf nicht prominente Vokale in seiner Umgebung aus als umgekehrt, und hierbei wiederum deutlich mehr auf vorausgehende Silbennuklei als auf nachfolgende. Qualitative und quantitative Ausgleichsphänomene haben also weitgehend komplementäre Domänen (Koartikulation vor dem Akzent, Dauerkompensation nach dem Akzent). Solche betonungsbasierten Regularitäten der phonetischen Interaktion in der Silbenfolge finden sich jedoch nicht im Italienischen, wo sich die Sprecher artikulatorisch viel uneinheitlicher verhalten (vgl. Vayra/Avesani/Fowler 1987). Rakerd/Sennett/Fowler (1987) zeigen für das Englische außerdem, daß kompensatorische Kürzungen prominenter Silben in längeren Füßen sogar über größere syntaktische Einschnitte hinweg erfolgen, und zwar unabhängig von allen isochronieverschlechternden Grenzmarkierungen durch phrasenfinale Längung. Laver (1994, 532) bezeichnet angesichts dieser Ergebnisse für das Englische den Fuß als "integral unit of rhythmic performance".

34 Auch sprechen diese Befunde gegen den Versuch von Eriksson (1991), die Dichotomie silben- und fußisochronisierender Sprachen in einem linearen Modell für Zeitdauern neu zu interpretieren: [... ] languages seem to fall into two fairly distinct groups using a linear model. Interstress intervals in all languages seem to increase by around 100 ms per added syllable, but the constant terms in the linear equation, assumed to reflect the added duration in stressed syllables, differ between languages. For those languages conventionally called 'syllable-timed' the constant term was found to be approximately 100 ms and for the stress-timed languages around 200 ms [... ] the difference between the languages called 'syllable-timed' and those called 'stress-timed' lies not so much in the way interval durations grow as a function of the number of syllables, but more in the relative prominence of stressed syllables, assumed to be reflected in the increase in their durations compared to unstressed ones. (Eriksson 1991, 200)

Besonders die Annahme einer linearen Dauerzunahme im Fuß mit zunehmender Zahl unbetonter Silben erscheint im Lichte der oben vorgestellten Ergebnisse problematisch. Auch die zum Teil beträchtliche Anisochronie der Silben in sogenannten silbenzählenden Sprachen, die sich in 1.2.1.2 immer wieder gezeigt hat, spricht gegen das Modell von Eriksson. Schließlich sind aufgrund der fußisochronisierenden Akzentsilbenkürzung im Englischen bei gleichem Sprechtempo nicht selten prominente Silben sogar kürzer als im Italienischen oder Französischen, gerade im Widerspruch zu den Aussagen Erikssons. Während die zuletzt vorgestellten Arbeiten den zeitlichen Einfluß höherer prosodischer Gliederungsebenen auf niedrigere und auf die Dauer von Einzellauten untersuchen, arbeitet eine andere Forschungsrichtung umgekehrt gerade die Abhängigkeit auch der prosodischen Zeitstruktur von der Segmentfolge heraus. Als Argument gegen einen kognitiven Zeittakt, der eine Isochronisierung prosodischer Einheiten beim Sprechen begründen könnte, wird häufig angeführt, daß sich bei einer Erhöhung des Sprechtempos die Dauer von Vokalen stärker als die von Konsonanten vemngert. Wollte man dieser Tatsache in einem Modell prosodischer Zeitkontrolle Rechnung tragen, so argumentiert etwa Bertinetto (1988,73), müßte man konsequenterweise zwei unabhängige Taktgeber für die beiden Sprachlautklassen einführen. Eine solche Zweitaktigkeit erscheint aber nach Bertinetto "absurd". Überraschenderweise werden nun auch solche differentiellen temporalen Abhängigkeiten als Argumente für die Zuordnung von Sprachen zu den Abercrombieschen Isochronietypen verwendet: So stellen auch Botinis/Fourakis/Prinou (1999) in ihren Messungen griechischer Äußerungen eine stärkere Dauermodifikation bei Vokalen als bei Konsonanten fest. Dieser Befund spricht, wie die Autoren richtig bemerken, gegen eine Charakterisierung des Griechischen als segment-timed. Gänzlich unklar bleibt hingegen, mit welchem Recht sie aus diesem Negativresultat auf Silbenzählung schließen. Plausibler erscheint der Vorschlag von Fletcher (1987), die unterschiedlich starke Veränderbarkeit der Vokaldauern für die phonetische Rhythmustypologie heranzuziehen. Nach ihren Ergebnissen werden nämlich Nuklei nichtprominenter Silben im Französischen bei höherem Sprechtempo weniger stark gekürzt als im Englischen. Laut Bertinetto (1988,77) ist es gerade die generell höhere Flexibilität der Zeitdauern, die akzentzählende Sprachen gegenüber silbenzählenden auszeichnet. Welche Strukturebenen allerdings relevant sind, und ob in verschiedenen Sprachen verschiedene Ebenen Bedeutung haben können, bleibt auch in dem kritischen Forschungsbericht von Bertinetto offen. Zudem scheint mir diese Neubewertung der Abercrombieschen Dichotomie zumindest die Auffassung nahezulegen, daß, wenn

35 silbenzählende Sprachen insgesamt weniger Kompression erlauben, sie auch ein weniger hohes maximales Sprechtempo zulassen als akzentzählende. Daß dem keineswegs so ist, zeigen uns etwa Sprecher des Italienischen besonders eindrucksvoll. Nicht ein Mehr oder Weniger an durationaler Flexibilität insgesamt scheint als klassifìkatorisches Kriterium geeignet, sondern eine unterschiedliche Abstimmung der Dauern von Segmenten, Silben und größeren prosodischen Einheiten. Innerhalb der neueren phonetisch fundierten Ansätze einer Sprachklassifikation, die auf solchen Unterschieden in der temporalen Organisation des Sprechens beruhen, stellt der Ansatz von Smith (1995) einen besonders eigenständigen Vorschlag dar. Er beruht auf der phonetisch orientierten Artikulatorischen Phonologie, die in ihrer Beschreibung nicht von einer Reihe phonologischer Merkmale ausgeht, die bestimmten Aspekten des Lautbildungsprozesses zugeordnet werden, sondern von Bewegungstypen der aktiv beteiligten Artikulationsorgane. Diese als Gesten bezeichneten motorischen Schemata sind hierbei intra- wie intersegmental aufeinander abzustimmen. Eben diese Koordination kann jedoch in verschiedenen Sprachen unterschiedlich erfolgen. Smith unterscheidet einen Sprachtyp, wo vokalische Gesten mit den jeweils adjazenten koordiniert werden und somit außerhalb von Polyphthongen und Hiaten die Abstimmung mit Konsonanten erfolgt (combined vowel-and-consonant-timing), von einem zweiten Typ, bei dem eine solche temporale Abgleichung nur zwischen den vokalischen Gesten stattfindet (vowel-to-vowel timing). Zwischen diesen beiden Synchronisationsformen und den Isochronietypen vermutet sie nun einen direkten Zusammenhang: These two models reflect, at the very least, different logical possibilities for coordinating consonant and vowel events. It is hypothesized here that both do occur, but that they are found in languages with different prosodie structures, with the vowel-to-vowel-model of organization underlying languages whose rhythm has been described as being based on vowels ("stress-" or "syllable-timed"), and the combined vowel-and-consonant-model underlying languages that have been described as "moratimed". (Smith 1995, 208) In einer markanten Abweichung von der Tradition faßt Smith (1995) also silben- und akzentzählende Sprachen zu einem einzigen rhythmischen Typ zusammen und stellt diesem die morenzählenden Sprachen gegenüber, in denen die zeitliche Abstimmung jeweils zwischen adjazenten Sprachlauten erfolgt. Als Beispiel einer silben- oder akzentzählenden Sprache wird das Italienische, als Beispiel einer morenzählenden Sprache das Japanische angeführt. Beide Sprachen weisen in ihrem phonologischen System Geminaten auf, und Smith versucht, anhand der durationalen Folgen eines konsonantischen Quantitätskontrastes die unterschiedlichen Koordinationsstrategien nachzuweisen: Jeweils drei native Sprecher des Japanischen und des Italienischen mußten eine Reihe von (konstruierten) Wortformen, eingebettet in geeignete Trägersätze, sprechen, wobei Paare von Kunstwörtern sich jeweils nur durch intervokalische einfache oder geminierte Konsonanz unterschieden. Während nun beispielsweise in den japanischen Äußerungen matti signifikant länger ausgesprochen wurde als mati (was mit der Erhöhung der phonologischen Dauer um eine More in Einklang steht), standen in den italienischen Äußerungen geringfügigen Längungen der Konsonanten kompensatorische Kürzungen der Vokale gegenüber. Der Vorschlag von Smith (1995) eröffnet insgesamt einen interessanten neuen Weg der Anbindung rhythmischer Unterschiede zwischen Sprachen an beobachtbare Unterschiede im Sprechbewegungsablauf. Allerdings wird meines Erachtens nicht deutlich, inwieweit die teilweise stark verkomplizierende gestural basierte phonologische Beschreibung bekannten pro-

36 sodischen Unterschieden in höherem Maße gerecht werden kann: Daß die Vokaldauern im Italienischen in Abhängigkeit vom segmentalen Kontext, also kointrinsisch, so stark variieren, wird ermöglicht durch das Fehlen einer vokalischen Quantitätsopposition. Im Japanischen sind hingegen Lautdauern sowohl bei Konsonanten als auch bei Vokalen distinktiv und intersegmentalen Dauerabgleichungen damit durch die Phonologie Grenzen gesetzt. Doch nicht nur bottom-up-Konzepte, die von der Segmentebene auf die prosodischen Zeitstrukturen schließen, finden sich in der neueren artikulatorischen Phonetik und Phonologie, sondern weiterhin auch top-down-Modelle, in denen die Prosodie ungeachtet der Details der Segmentdauerregelung als Taktgeber fungiert: Zwar versuchen Barbosa/Madureira (1999), wie auch Smith (1995), Sprachrhythmus allein über die temporale Koordination der Artikulationsbewegungen zu erfassen. Jedoch setzen sie hierfür zusätzlich gleich drei abstrakte Taktgeber an. Jeweils eines dieser kognitiven Metronome dient dabei der zeitlichen Abstimmung der Vokalgesten sowie der Wort- und Phrasenakzente. Während die Vokal- und Phrasenakzenttakte in allen Sprachen die Zeitstruktur von Äußerungen festlegen, fehlt nach Barbosa/Madureira der Wortakzenttakt etwa im Französischen, wo Wortakzentsilben nur selektiv prominent realisiert werden. Segmentdauern folgen in diesem Modell epiphänomenal aus der Interaktion der suprasegmentalen Zeitvorgaben und unterschiedliche rhythmische Typen von Sprachen allein aus dem Vorhandensein oder Fehlen eines Wortakzenttaktes. Die Art der Interaktion zwischen den Komponenten des kognitiven Systems ist dabei jedoch invariabel. Insbesondere kann also Sprachen nicht Rechnung getragen werden, in denen - grundsätzlich oder nur in ausgezeichneten Fällen - Segmentdauern über die prosodische Zeitstruktur bestimmen und nicht umgekehrt. Einige Befunde aus Quantitätssprachen scheinen sich jedoch nur so interpretieren zu lassen, wie wir in 1.2.1.3 schon erkennen konnten und in 3.3.1 noch genauer sehen werden. Auch wirkt die von Barbosa/Madureira unternommene Rückbindung an die Tradition der Isochronieforschung vergleichsweise trivial: The perceptual sensation of syllable-timed or stress-timed languages would be explained by concentrating the attention either on the vowelflowclock or on the stressed-vowel clock (if it exists). French listeners would use thefirstkind of clock to judge the V-to-V continuum and English listeners would use the second one to make expectancies about the lexical stressflow.(Barbosa/Madureira 1999, 300) Eine Sprache ohne Wortakzentprosodie kann natürlich auch in der Rhythmisierung nicht auf Wortakzente Bezug nehmen. Eine Sprache mit prominenten Wortakzenten darf diese zwar als rhythmische Grundlage nehmen, muß dies jedoch nicht (vgl. auch O'Connor 1973,239). Die in der Tat interessante Frage, in welchem Umfang eine Sprache mit Wortakzenten diese berücksichtigt, wird durch das vorgestellte Modell, soweit ich sehe, einer Beantwortung nicht näher gebracht. Fassen wir die in diesem Unterabschnitt vorgestellten Ergebnisse zusammen: Isochronisierung beim Sprechen darf nur innerhalb kleinerer Abschnitte untersucht werden, für die von einem konstanten Sprechtempo ausgegangen werden kann. Auch stehen prosodische Angleichungstendenzen in Konkurrenz zu segmentalen Faktoren, welche die Dauer der prosodischen Einheiten beeinflussen. Eine Reihe von Untersuchungen zum Englischen hat gezeigt, daß die Isochronie akzentuell definierter Einheiten zumindest stärker ist als nach der Nullhypothese allein segmental bestimmter Dauern zu erwarten. Auch scheinen die hierfür erforderlichen Kompensationsprozesse im Gegensatz zu silbenzählenden Sprachen intersubjektiv viel einheitlicher und präziser geregelt. Während prosodiebasierte Modelle der Sprachpro-

37 duktion bisher keinen überzeugenden Zusammenhang zu den postulierten Isochronisierungstypen herstellen konnten, scheint der Ansatz von Smith (1995), der von der Segmentartikulation ausgeht, interessanterweise eine Dichotomie "Morenzählung vs. Nichtmorenzählung" nahezulegen. Innerhalb der zweiten Klasse sprechen die experimentellen Ergebnisse zwar für Ausgleichstendenzen auf Fußebene in akzentzählenden Sprachen, nicht hingegen für analoge silbenisochronisierende Prozesse in silbenzählenden.

1.2.3

Isochronisierung als Perzeptionspräferenz

Den zuletzt vorgestellten Ansätzen, Isochronie, wenn schon nicht als approximierte Qualität des Signals, so doch immerhin als eine Art artikulatorischer Maxime aufzufassen, stehen Arbeiten gegenüber, die Rhythmizität als auditive Eigenschaft und somit die Perzeption als ausschlaggebend werten. Wie stark eine isochronisierende Strategie auch immer das Sprechen prägen mag, entscheidend ist, so befinden nicht wenige neuere Untersuchungen, ob sich eine solche zeitliche Organisation auch im Höreindruck niederschlägt. Zur Überprüfung dieser Frage sind in einer Reihe von Experimenten Versuchspersonen gebeten worden, ihre rhythmische Wahrnehmung von Äußerungen durch Mitklopfen zu markieren (vgl. Allen 1972, Lehiste 1973; 1977, Donovan/Darwin 1979 und Fox/Lehiste 1987 zum Englischen sowie zum Deutschen Janker 1995). Nach Auskunft aller Studien sind die mit der Hand produzierten Takte stärker isochron, als dies nach der sprachlichen Vorgabe zu erwarten gewesen wäre. Bereits bei Classe (1939) findet sich außerdem der Befund, daß verschieden lange sprachliche Stimuli stärker isochronisierend wahrgenommen werden als nichtsprachliche. Donovan/Darwin (1979) stellen darüber hinaus fest, daß bei künstlich manipulierter Lautsprache diese perzeptuelle Isochronisierung abnimmt. Allerdings ist die statistische Signifikanz der Ergebnisse von Donovan/Darwin bezweifelt worden (vgl. Eriksson 1991, 59). Grundsätzlich steht diese experimentelle Vorgehensweise unter dem Vorbehalt, daß die Versuchspersonen sich einfach deswegen rhythmischer verhalten als nach der Vorgabe des Sprachsignals zu erwarten, weil sie keine getreue Widergabe der komplizierteren zeitstrukturellen Verhältnisse leisten können und ihr Klopfverhalten somit nach nur mittelbar durch die Sprachwahrnehmung bedingten, vielmehr allgemeinen kognitiv oder motorisch präferierten rhythmischen Takten organisieren. Auch scheint in manchen Sprachen eine solche Umsetzung perzipierter sprachrhythmischer Konturen in motorische Aktionen überhaupt nur wenig intersubjektiv einheitliche Ergebnisse zu zeigen: So kann Savithri (1995) in einem Mitklopfexperiment zum Kannada, einer dravidischen Sprache Indiens, überhaupt keine signifikante Korrelation von potentiellen tonalen und dynamischen Betonungseigenschaften und denjenigen Silben ausmachen, die von den Sprechern häufiger mit einem Schlag versehen werden. Zudem erklären sich 7 von 22 muttersprachlichen Versuchspersonen als unfähig, überhaupt Rhythmizität in den gebotenen Sprachproben zu erkennen. Auch die restlichen Teilnehmer unterscheiden sich stark in den Zeitpunkten ihrer Taktschläge, wobei allenfalls schwache Korrelationen zu potentiell prominenzstiftenden Eigenschaften des akustischen Signals erkennbar sind. Immerhin erscheint für akzentzählende Sprachen wie das Englische plausibel, daß im Falle einer prominenzisochronisierenden Wahrnehmung koartikulatorische und kompensatorische Tendenzen zur Koproduktion innerhalb prosodischer Domänen auch die Vorstrukturierung des Höreindrucks und die Ausbildung einer rhythmischen Erwartungshaltung unterstützen.

38 Insbesondere lassen die in dieser Sprache üblichen vokalischen Koartikulationen in unbetonten Silben in Abhängigkeit von der nächsten prominenten Silbe Vorhersagen über die Qualität ihres Nukleus zu, was besonders vorteilhaft erscheint angesichts der Tatsache, daß Akzentsilben dazu tendieren, mehr segmentale Kontraste zuzulassen als unakzentuierte. Umgekehrt erlauben antizipatorische Kürzungen prominenter Silben im Englischen bereits online Schlüsse Uber die Länge des jeweiligen Fußes (vgl. Martin 1986, der betont, daß Hörer dieses prädiktive Potential auch tatsächlich nutzen). Hören wird also zumindest in einer Sprache, welche stabil solche phonetischen Regularitäten zeigt, immer auch erleichtert durch ein Sich-Einhören in die prosodische Gliederung durch den Sprecher, wofür Abercrombie ( 1967) den schönen Begriff der phonetic empathy geprägt hat. Allerdings kritisiert Roach (1982) an der Idee, daß die rhythmische Wahrnehmung von Lautsprache ein gewisses Maß an Gewöhnung erfordere, sie könne weder bestätigt noch widerlegt werden: Denn falls ein Hörer bei einem Sprecher keinerlei Rhythmizität wahrnimmt, so kann dies in der Sichtweise Abercrombies immer auch an seiner mangelnden Empathiefahigkeit liegen. Diesem Einwand ist entgegenzuhalten, daß erwachsene, sprachlich unauffällige Sprecher zumindest für ihre Muttersprache eo ipso auch als kompetente Hörer gelten dürfen und somit durchaus in der Lage sind, Äußerungen hinsichtlich ihrer rhythmischen Qualität ohne eigene phonetische Ausbildung zu beurteilen. Die Wahrnehmung der rhythmischen Konturen fremder Sprachen hingegen, insbesondere solcher, über die ein Sprecher keinerlei Kenntnisse hat, unterliegt jedoch, wie wir in 4.1.2 noch sehen werden, eigenen perzeptiven Regularitäten. Selbst wenn aber die Abhängigkeit der artikulatorischen Organisation von den Betonungen für die Perzeption vorteilhaft sein sollte und englische Äußerungen stärker isochronisierend wahrgenommen werden als nicht-sprachliche Stimuli mit einer Prominenzkontur, so bleibt zu klären, inwieweit diese kognitive Sympathie für isochrone Füße im Englischen auch in spontansprachlichen Äußerungen ausreicht, um tatsächlich den Eindruck gleicher Dauern hervorzurufen. Lehiste (1977, 256) führt für die perzeptive Realität der Fußisochronie an, daß in ihrer Auswertung eines Experiments viele Schwankungen der Prominenzabstände unterhalb der Wahrnehmungsschwelle von etwa einem Zehntel der Fußlänge liegen. Allerdings basiert auch dieser Befund wiederum auf Vorlesedaten. Umgekehrt fragen Vatikiotis-Bateson/Kelso (1993) nach regelhaften perzeptiv hinreichend großen Anisochronien der Silbenfolge und vergleichen hierbei das Englische mit dem Französischen und Japanischen. Es zeigt sich, daß im Japanischen die Dauerunterschiede zwischen ein- und zweimorigen Silben mit etwa 35 bis 40 ms zuverlässig oberhalb der Wahrnehmungsschwelle liegen, hingegen die Unterschiede zwischen verschiedenen einmorigen Silben mit etwa 15 bis 20 ms nicht perzipiert werden können. Während also hörbare Anisochronien der Silben im Japanischen mit unterschiedlicher Morenzahl einhergehen, korrelieren sie im Englischen und Französischen in hohem Maße mit der Unterscheidung prominenter und nichtprominenter Silben. Noch in einem weiteren Punkt hat die Einsicht, daß nicht der akustische Befund, sondern die Wahrnehmung durch den Hörer ausschlaggebend für die Isochroniehypothese ist, der phonetischen Diskussion neuen Auftrieb gegeben: Nicht nur die Perzeption der Dauer prosodischer Einheiten steht nämlich in einem komplizierten, teils psychoakustisch, teils sprachspezifisch determinierten nichtisomorphen Verhältnis zu den physikalischen Meßdaten, auch die Bestimmung der Grenzen von prosodischen Einheiten durch den Hörer kann auf komplexe Weise von denen im Spektrogramm differieren. So zeigen Morton/Marcus/Frankish (1976), daß eine Nicht-Deckungsgleichheit von akustisch plausiblen und perzeptuellen Sil-

39 bengrenzen eher die Regel als die Ausnahme bildet: Nicht der Einsatzpunkt von Sprachschall im Silbenonset wird nämlich als Silbenbeginn wahrgenommen, vielmehr liegt der "psychologische Silbeneinsatz" meist etwas später und hängt wesentlich von den Segmentdauern des Silbenkörpers ab. Bei akustisch längerem Silbenonset verlagert sich dabei der perzeptuelle Silbeneinsatz zunehmend nach hinten, ebenso wie bei längeren Silbenreimen. Allerdings ist der Einfluß der Reimdauern weit geringer als der des Onsets. Die genaue Bestimmung dieses Einsatzpunktes, der in der Literatur mit dem englischen Terminus P(erceptual) center bezeichnet wird, braucht uns hier nicht weiter zu beschäftigen (vgl. hierzu ausführlich Pompino-Marschall 1990 und Janker 1995). Immerhin vermag die Korrektur der akustischen Dauervergleiche durch die P-center-Theorie zu erklären, weshalb bestimmte objektiv anisochrone Silbenfolgen in Experimenten intersubjektiv einheitlich als isochron gehört werden. Couper-Kuhlen ( 1993) vermutet nun in ihrer Monographie zum Sprachrhythmus des Englischen, daß die vorliegenden akustischen Daten, welche die postulierte Fußisochronie insgesamt nicht bestätigen konnten, bei einer Neuinterpretation im Lichte der P-center-Theorie doch als Evidenz für isochrone Perzeption gelten dürfen. Dieser Ansicht widerspricht Fowler (1994,68): Da nämlich mit steigender Anzahl unakzentuierter Silben im Fuß die Akzentsilbe im Englischen immer stärker gekürzt wird, kann, falls die Zunahme der Silbenzahl im Fuß überhaupt einen Einfluß auf das P-center der Akzentsilbe hat, dieses nur nach vorne verlagert werden. Somit wird die perzipierte Dauer des größeren Fußes noch weiter erhöht anstatt verringert. Zwar ist für eine Evaluation perzeptiver Isochroniequalitäten die P-ceM/er-Korrektur zu berücksichtigen, insgesamt scheint sie beim gegenwärtigen Erkenntnisstand aber die Hypothese von einer isochroniefördernden Perzeption der Lautsprache nicht zu unterstützen. Schlüssig wirken hingegen die Versuche Couper-Kuhlens, einige Charakteristika fußbildender Rhythmisierung als Gestaltphänomene im Sinne der Psychologie zu erklären (vgl. zur Ausarbeitung einer Gestaltphonologie Krefeld 1999). Das für die Wahrnehmung von Gestalten konstitutive Prinzip der Übersummativität, wonach das Ganze mehr als die Summe seiner Teile bildet, wir bei einem Quadrat etwa nicht bloß vier Linien erkennen, gilt nämlich ganz entsprechend auch für rhythmische Strukturen: Insbesondere macht die postulierte Gestaltqualität der Fußbildung verständlich, daß nicht nur in der poetologischen Metrik, sondern auch für Alltagsdiskurse "pausierte Takte" anzusetzen sind, wo nach einer isochronisierten Prominenzfolge eine erwartbare Prominenz erst nach einem ganzzahligen Vielfachen der Zeit produziert wird, ohne daß dadurch der Hörer sofort "aus dem Takt gerät". Festzuhalten bleibt abschließend, daß die Korrektur der zunächst vorwiegend akustisch geführten Isochroniedebatte durch die perzeptive Phonetik zu berechtigten Zweifeln an der Brauchbarkeit der Datenerhebung mancher älterer Studien geführt hat: Meist fehlt eine Berücksichtigung der menschlichen Diskriminationsfähigkeit, die bei Dauerunterschieden viel weniger ausgeprägt ist als etwa in der Wahrnehmung von Tonhöhen. Auch die naive Identifikation von akustisch plausiblem und psychoakustischem Silbenbeginn mag manche der Analysen in ihrer Aussagekraft einschränken. Ob diese Kritikpunkte jedoch als "Rettungsversuche für die Isóchronie-Hypothese" (Auer/Uhmann 1988, 237) die insgesamt negative Indizienlage in ein deutlich helleres Licht rücken, darf bezweifelt werden. Am ehesten scheint für das akzentzählende Englische eine perzeptive Benevolenz gegenüber imperfekter, aber sprecherseitig angestrebter Fußisochronie wahrscheinlich. Innerhalb der Silbenprosodie legen demgegenüber die beobachteten Dauerunterschiede eher eine binäre Klassifikation der Silben in einmorige und zweimorige beziehungsweise prominente und nichtprominente nahe.

40 1.2.4

Isochronisiemng als Interaktionspräferenz

Ein weiterer Einwand, der gegen die phonetische Tradition der Isochronieforschung vorgebracht worden ist, hat in der Untersuchung der sprachrhythmischen Gestaltung zu einem grundlegenden methodischen Wandel geführt: Schließlich können, so argumentieren Kritiker der bisher vorgestellten Studien, nicht Laboruntersuchungen, in denen Probanden Testsätze oder gar réitérant speec/i-Kunstsprache vorlesen, Aufschluß über rhythmische Strukturen in lautsprachlicher Kommunikation geben - Sprechen ist wesentlich auf einen Gesprächspartner ausgerichtet und in seinem natürlichen Ort zu untersuchen. Wenn aber bereits zwanzig Minuten nach der Geburt interaktionale Synchronisierungsprozesse nachweisbar sind (vgl. Condon 1986), so sollte auch für Gespräche die Nullhypothese sein, daß eine zeitliche Abstimmung nicht nur innerhalb einzelner Gesprächsbeiträge erfolgt, sondern gerade auch beim Sprecherwechsel. Couper-Kuhlen (1993) versucht in ihrer Untersuchung informeller Unterhaltungen in britischen Radiosendungen zu zeigen, daß Sprecherwechsel typischerweise "rhythmisch integriert" erfolgen, das heißt einen am Ende des ersten Beitrages hinreichend deutlich markierten Prominenztakt weiterführen. Cauldwell (1996) bemängelt an dieser Analyse, daß die von ihr in einem zweiminütigen Ausschnitt angesetzten 47 Isochroniedomänen bei insgesamt nur 23 Redebeiträgen gerade gegen die Existenz persistenter Takte sprechen würden. Diese Kritik beruht jedoch meines Erachtens auf einer Unterschätzung der Variabilität des Sprechtempos, die in spontanen Gesprächen weit höher liegen dürfte als etwa bei Leseaussprache und nur verhältnismäßig kleine rhythmische Domänen eröffnet. Nicht genauer erörtert wird allerdings, inwieweit in der Segmentierung der Gesprächsabschnitte nach ihrer Isochrome, die ausschließlich impressionistisch vorgenommen wurde, zwischen den zwei Analysatoren, die beide als "trained native speakers" (Couper-Kuhlen 1993, 42) bezeichnet werden, Einigkeit erzielt wurde. In einigen Zweifelsfällen mußte jedoch offenbar eine weitere Person als Schiedsrichter hinzugezogen werden. Eine intersubjektiv einheitliche Beurteilung der Rhythmizität erscheint aber nicht nur für die Validität der Analyse von Couper-Kuhlen unabdingbar, sondern auch für den behaupteten Nutzwert der Rhythmisierung als Kontextualisierungshinweis. In einer weiteren Monographie präsentieren Auer/Couper-Kuhlen/Müller (1999) eine eindrucksvolle Menge von Untersuchungsergebnissen, in denen nicht nur eine interaktionale Präferenz für rhythmisch integrierte Übergänge in normalen Gesprächssituationen gezeigt werden konnte, sondern auch die Semiotisierung rhythmischer Nichtintegration zur Kennzeichnung etwa von 'hot news'. Besonders interessant in unserem Zusammenhang sind Unterschiede, die sich beispielsweise in Gesprächsbeendigungen am Telephon zwischen Deutschen und Italienern zeigen: [... ] isochronous rhythm is merely an option in Italian phone closings, whereas it is regularly employed in German, the absence of rhythm prompting certain inferences about the development of interaction. [... ] the isochronous stretches of talk in the Italian closings occur in very short rhythmic intervals only. (Auer/Couper-Kuhlen/MUller 1999, 150) Dabei ist Isochrome in obigem Zitat als Fußisochronie zu präzisieren, wie überhaupt auch für das Italienische Silbenisochronisierung als mögliche rhythmusstiftende Tendenz von den Autoren überhaupt nicht mehr berücksichtigt wird (vgl. bereits Müller 1996, ebenfalls zum Italienischen). Interessant und meines Wissens unbeantwortet erscheint die Frage nach der

41 temporalen Integration von Gesprächsbeiträgen in morenzählenden Sprachen. Kakita (1994) kann, allerdings nur für elizitierte Sequenzen zweier Äußerungen von verschiedenen Sprechern des Japanischen, immerhin zeigen, daß die Folgeäußerung in ihrer Zeitstruktur an die vorhergehende "assimiliert" wird, so daß vermutlich auch ein Morentakt beim Sprecherwechsel aufrechterhalten werden kann. Allerdings bilden Telephongespräche gerade keine prototypische/ace-/o-/ace-Redesituation. Nicht auszuschließen ist dabei meiner Ansicht nach, daß der rhythmischen Gestaltung unter solchen Kommunikationsbedingungen, in denen Gestik und Mimik als gesprächsbegleitende Ressourcen entfallen, eine höhere Rolle zukommt als in der unmittelbaren Begegnung, und somit auch diese Ergebnisse einen höheren Grad an Isochronisierungsleistung suggerieren, als im Normalfall erforderlich ist. So kann Bull (1997) in seiner Untersuchung englischer Dialoge unter anderem zeigen, daß bei Blickkontakt der Gesprächspartner die Pausen im Sprecherwechsel signifikant länger werden. Darüber hinaus ist zu einer umfassenden Beschreibung der gesprächsorganisierenden Funktion rhythmischer Strukturbildung auch der Einfluß kognitiver oder sprachlicher Rhythmisierung auf die nicht an der Artikulation beteiligte Motorik zu untersuchen. Erste Untersuchungen ergeben, daß, obwohl sprachbegleitende nichtpropositionale Gesten von den Gesprächspartnern nicht bewußt ausgeführt oder wahrgenommen werden, sie doch für die zeitliche Abstimmung in der sprachlichen Interaktion eine Rolle spielen und in rhythmischen Mustern organisiert sind. Diese spiegeln zwar die rhythmische Struktur der Äußerungen nicht direkt wider, sind jedoch relativ zu ihr koordiniert (vgl. McClave 1994 zum Englischen). Unbeschadet der viel versprechenden Perspektiven solcher Untersuchungen scheint mir jedoch die in dem folgenden Zitat vorgebrachte Position, derzufolge der interaktionale Ansatz gänzlich an die Stelle anderer phonetischer und phonologischer, vor allem auch sprachvergleichender Rhythmusforschung treten sollte, über das Ziel hinauszuschießen: Prosodie wird als Ressource für die Interaktion verwendet. Wenn Prosodie hingegen als Mittel der Organisation und Unterscheidung grammatischer Systeme analysiert wird, dann wird die Tatsache verkannt, daß die Sprache primär als Verständigungsmittel relevant ist. (Setting 1995, 366) Die hier angedeutete Forderung, prosodische Eigenschaften allein als diskursiv zu werten und aus der Beschreibung historischer Einzelsprachen herauszunehmen, mündet meiner Ansicht nach in eine Reduktion der Prosodie auf parasprachliche Funktionen und übersieht die Kontrastivität der suprasegmentalen, tonalen wie rhythmischen Strukturdimensionen. Zwar machen die Sprachen, wie wir in 3.2 noch genauer darstellen werden, in unterschiedlichem Maße und auf verschiedene Weise Gebrauch von den beiden rhythmisch relevanten Dimensionen der Zeit und Prominenz; soweit jedoch Aspekte der rhythmischen Gestalt phonologisch distinktiv und somit kodierungsrelevant sind, scheint die Semantizität der Lautsprache über konkurrierende eurhythmische wie parasprachlich-semiotische Einflußgrößen zu dominieren. Prosodie bildet dabei weniger ein "Mittel der Unterscheidung grammatischer Systeme", sondern trägt gerade durch ihre wort- wie satzphonologische Leistung wesentlich dazu bei, Lautsprache nach dem Prinzip der double articulation zu einem effizienten Verständigungsmittel zu machen. Erst eine solche Einbeziehung sprachstruktureller Faktoren kann auch die beobachteten Unterschiede der prosodischen Diskursorganisation verständlich machen, wie sie Auer/Couper-Kuhlen/Müller exemplarisch im Vergleich des Italienischen und Deutschen aufzeigen. Aus dem Universale der Alterität (vgl. Oesterreicher 1979,167f.) ist die Tatsache rhythmischer Sprachverschiedenheit nicht erklärbar.

42 1.2.5

Isochronietypen als phonologische Konstellationen

Der Ansatz, Isochronie nicht als phonetisches Ziel, sondern als Organisationsprinzip des phonologischen Systems einer Sprache zu untersuchen, findet sich für die Fußisochronie im Englischen bereits bei Halliday (1967,12) angedeutet. Ladefoged [1975] ( 3 1993) formuliert den Gedanken aus und macht auch auf den Konflikt von Fußisochronie als phonologischem Ziel mit anderen Faktoren aufmerksam, die sich ebenfalls auf die zeitliche Strukturierung von Äußerungen auswirken und die Isochroniepräferenz gleichsam 'maskieren' können: [... ] it is as if there were a conspiracy in English to maintain a regular rhythm. However, this conspiracy is not strong enough to completely override the irregularities caused by variations in the number and type of unstressed syllables. (Ladefoged [1975] 31993, 119) Andere Autoren (vgl. Coetsem/Hendricks/McCormick 1981,298 und Dauer 1987,448) leiten schon aufgrund der Tatsache, daß sich sowohl der Silben- als auch der Prominenzbegriff einer allgemeinen phonetischen Definition zu verweigern scheinen, entweder die Unhaltbarkeit der Isochronietypologie oder aber die Notwendigkeit einer phonologischen Neukonzeption ab. Wegweisend hierbei ist die sprachvergleichende Untersuchung von Dauer (1983) geworden: Obwohl sie zwischen Sprechern des Englischen und Thailändischen einerseits sowie des Spanischen andererseits keine statistisch aussagekräftigen Unterschiede in der Angleichung der Fußdauern finden kann, verwirft sie die Intuition vom unterschiedlichen rhythmischen Charakter dieser Sprachen keineswegs, sondern sucht nach möglichen Ursachen, die sich nicht unmittelbar in den Zeitmessungen niederschlagen: [... ] the rhythmic differences we feel to exist between languages such as English and Spanish are more a result of phonological, phonetic, lexical, and syntactic facts about that language than any attempt on the part of the speaker to equalize interstress or intersyllable intervals. (Dauer 1983, 55) Im folgenden geht sie allerdings nicht näher auf mögliche grammatische oder lexikologische Korrelate ein, sondern beschränkt sich darauf, die Relevanz einiger segmentaler wie suprasegmentaler phonologischer Faktoren für die rhythmische Gestalt einer Sprache zu motivieren. So unterscheiden sich die beiden rhythmischen Typen in der Häufigkeit komplexerer Silbenstrukturen sowohl auf der Ebene der Silbeninventare als auch der ihrer Vorkommenshäufigkeiten im Diskurs. Anders als etwa im Spanischen lassen akzentzählende Sprachen wie das Englische komplexe, stark vom Ideal der CV-Silbe abweichende Strukturen zu. Ferner stehen in der Untersuchung von Dauer (1983) 44 % offene Silben im englischen Korpus 70 % in den spanischen Äußerungen gegenüber. Auch unterscheiden sich im Englischen akzentuierte Silben stärker von unakzentuierten als im Spanischen, wo in beiden Fällen das CV-Schema am häufigsten ist. Sprachen, deren Silben sich in ihrer Sprachlautanzahl weniger stark unterscheiden, bieten ceteris paribus bessere phonologische Voraussetzungen für Silbenisochronie. Da aber nach den universellen Silbenpräferenzgesetzen (vgl. hierzu ausführlich Vennemann 1988) in einer Sprache mit komplexen Silbenstrukturen immer auch einfachere vorkommen, ist in akzentzählenden Sprachen eine größere Varianz der Silbengrößen zu erwarten und somit ihre Isochronisierung erschwert. Zu den silbenprosodischen Unterschieden treten segmentale hinzu: Insbesondere in der Besetzung der Nukleusposition unterscheiden sich in akzentzählenden Sprachen akzentuierte Silben stärker von unakzentuierten, wo Vokale zur Schließung oder Zentralisierung tendieren, was phonologisch einer Reduktion (nämlich der Vokalqualität oder, in impressionistischer

43

Begrifflichkeit, der Vokalfarbe) gleichkommt. Hierdurch verringert sich in akzentzählenden Sprachen häufig das Distinktionspotential in unakzentuierter Position. Geschlossene oder reduzierte Vokale machen eine Silbe kurz und erhöhen somit die Dauerschwankungen zwischen akzentuierten und unakzentuierten Silben in akzentzählenden Sprachen. Umgekehrt bestehen in silbenzählenden Sprachen hier wenig Unterschiede: Dauer (1983) bemerkt, daß im Spanischen, wenn überhaupt, eher im Konsonantismus Reduktionsphänomene zu beobachten sind und führt hierfür die Aussprache [pe'kao] für sp. pescado /pes'kaöo/ an. Allerdings finden sich ähnliche Reduktionen intervokalischer Konsonanten auch in akzentzählenden Sprachen nicht selten (vgl. zum amerikanischen und schottischen Englisch Ladefoged 3 1993,168 und zu deutschen Dialekten Auer 1998). Schließlich weist Dauer (1983) auf die unterschiedliche Ausgeprägtheit der Prominenzkontur in den beiden Sprachtypen hin: Während akzentzählende Sprachen in jedem Falle einen Wortakzent aufweisen sollten, der sich akustisch typischerweise komplex durch eine variable Bündelung von tonalen, durationalen sowie dynamischen Markierungen manifestiert, beschränkt sich nach Dauer in silbenzählenden Sprachen die Betonung entweder auf tonale Korrelate oder erfolgt auf einer satzphonologischen Ebene oberhalb des Wortes. Außerdem ist ihrer Ansicht zufolge für akzentzählende Sprachen Distinktivität der Wortakzentposition der Normalfall. Phonetisch bewirkt der stärkere Wortakzent akzentzählender Sprachen eine größere Längung prominenter Silben und steht somit wiederum im Gegensatz zur silbenisochronisierenden Teleologie. Unter (11) finden sich die phonologischen Isochroniefaktoren von Dauer (1983) noch einmal zusammengefaßt: (11) Phonologische Korrelate von Silben- und Akzentzählung nach Dauer (1983) silbenzählend

akzentzählend

1.

einfachere Silbenstrukturen

komplexere Silbenstrukturen

2.

keine Unterschiede im Vokalismus zwischen akzentuierter und unakzentuierter Position

Vokalschließungen und -Zentralisierungen in unakzentuierter Position

3.

phonetisch und phonologisch schwacher oder fehlender Wortakzent

phonetisch und phonologisch wichtiger Wortakzent

Insgesamt zeigt sich, daß die unterschiedlichen materialen Vorgaben der lexikalischen und grammatischen Einheiten der Sprachen für die Isochroniediskussion keinen zu eliminierenden Störfaktor bilden, wie dies noch Nakatani/O'Connor/Aston (1981) anzunehmen schienen, die für ihre phonetischen Untersuchungen bewußt Nonsenssilben verwendeten. Das Verdienst von Dauer (1983) besteht darin, die Denkrichtung umzukehren und den Einfluß der Sprachstruktur auf die zeitliche Strukturierung systematisch zu untersuchen anstatt auszublenden. Auffällig ist, daß alle Faktoren unter (11) auf die Isochronie der Silben Bezug nehmen, Aussagen zur Isochronie akzentuell definierter Intervalle jedoch fehlen - gerade komplementär zu dem in 1.3 noch vorzustellenden Ansatz der Metrischen Phonologie. Umso mehr verwundert, daß Dauer (1983) die Teleologie der Silbenisochronisierung selbst zu bezweifeln scheint: The concept of syllable-timing was originally developed by English speakers to describe a kind of rhythm that is opposite to that of English, that is, it has been defined primarily negatively. (Dauer 1983, 60; Hervorhebung im Original)

44 In konsequenter Fortführung ihres Ansatzes verzichtet Dauer (1987) ganz auf die Formulierung eines silbenzählenden Typs und schlägt vor, alle Sprachen in einer prosodischen Klassifikation lediglich nach dem Grad ihrer Ähnlichkeit zu prototypisch akzentzählenden Sprachen einzuteilen. Um den Grad der Akzentbasiertheit der rhythmischen Konturen einer Sprache zu bewerten, formuliert sie acht Kriterien, von denen allerdings nur drei unmittelbar auf Segment- und Silbendauern bezogen sind. So sollten in einer typischen akzentzählenden Sprache akzentuierte Silben länger sein als unakzentuierte. Auch sollten unter Akzent komplexere Silbenstrukturen zugelassen und nicht durch silbenstrukturverbessernde Prozesse vereinfacht werden. Ferner ist nach Dauer für eine akzentbasierte Sprache zu erwarten, daß in ihr Quantitätsdistinktionen, wenn Uberhaupt, nur unter Akzent erlaubt sind. Als weiteres unmittelbar rhythmisch relevant erscheinendes Korrelat nennt sie den Wortakzent, der in akzentbasierten Sprachen zu außerphonologischer Festlegung tendiere und somit distinktive Funktion übernehmen könne. Von den anderen vier Merkmalen prototypisch akzentbasierter Sprachen betreffen je zwei die melodische Struktur sowie die Segmentebene: In einer typischen akzentbasierten Sprache bilden Akzentsilben Wendepunkte von Intonationskonturen. Ferner kommen in einer akzentbasierten Sprache tonale Kontraste, wenn überhaupt, dann nur in Akzentsilben vor. Auch hinsichtlich der Segmentinventare und Allophonien nennt Dauer Unterschiede zwischen Akzentsilben und anderen: So sollten unter Akzent mehr Vokalqualitäten in Opposition zueinander stehen als in unakzentuierten Silben, Konsonanten unter Akzent präziser artikuliert werden und akzentabhängige Allophonien im Konsonantismus auftreten. Unter (12) stellen wir die Kriterien von Dauer (1987) im Überblick dar: (12) Prototyp einer akzentzählenden Sprache nach Dauer (1987)

1. 2. 3. 4. 5. 6. 7. 8.

Silbendauer Silbenstruktur Quantität Töne Intonation Vokale Konsonanten Wortakzent

länger bei Akzentsilben komplexe Silbenstrukturen erlaubt nur in Akzentsilben nur in Akzentsilben Akzentsilben Wendepunkte der Intonationskonturen unterschiedliche Inventare in Abhängigkeit vom Akzent Allophonie in Abhängigkeit vom Akzent 'freier' Akzent

Während sich bei Dauer (1987) allerdings zumindest die ersten drei Kriterien unter (12) auf die Isochronieteleologie beziehen lassen, abstrahieren andere Phonetiker in ihrer phonologischen Neuinterpretation des akzentzählenden Sprachtyps gänzlich von der Ausgangsintuition: Insgesamt ist also die temporale Klassifikation von Abercrombie zunächst um nicht zeitstrukturbezogene Begleiterscheinungen angereichert worden, die schließlich in neueren Konzeptionen der beiden Klassen als einzige aufrechterhalten werden (vgl. auch Fant/Kruckenberg/Nord 1991, 363, die ebenfalls Anisoprominenz der Silbenfolge zum entscheidenden Kriterium für Akzentzählung erklären). Während also Dauer in der zuerst vorgestellten Arbeit von 1983 als phonologische Korrelate von Akzentzählung hauptsächlich die höhere Komplexität der Silbenstrukturen anführt, betrachtet sie in der Publikation von 1987 die stärkere Anisoprominenz als ausschlaggebend. Unklar ist allerdings, inwieweit diese beiden Aspekte der prosodischen Gestalt in den Sprachen der Welt kovariieren. Daß sie nicht streng aneinander gekoppelt sind, zeigt beispielsweise das Griechische, das nach Arvaniti (1994, 240) nur wenig silbenstrukturelle Kom-

45 plexität erlaubt (so haben etwa im Diskurs durchschnittlich 69 % aller Silben die optimale CV-Struktur) und auch eine verhältnismäßig geringe Variation der phonetischen Silbendauern aufweist. Dieser 'silbenzählenden Silbenprosodie' steht aber eine ausgeprägte Anisoprominenz betonter und unbetonter Silben gegenüber, die eher für Akzentzählung spricht (vgl. Arvaniti 1994,240). Wenden wir uns nun einem weiteren Vorschlag zu, der phonetische und phonologische Faktoren kombiniert: Wie schon Dauer (1987), so beschränkt sich auch Bertinetto (1988) auf eine Explikation von Akzentzählung, die wir unter (13) zusammenfassen: (13) Phonetische und phonologische Korrelate akzentzählender Sprachen (Bertinetto 1988, 77f.) 1. 2. 3. 4. 5.

mehr silbeninteme Dauerkompensation mehr kompensatorische Kürzungen auf Fuß- und Wortebene mehr Vokalreduktion in unakzentuierten Silben mehr Toleranz für Kürzungen unakzentuierter Silben starke Unterschiede zwischen akzentuierter und unakzentuierter Position in der Ausnutzung prosodischer Merkmale 6. weniger Sensitivität für unakzentuierte Silben

Die angeführten Korrelate erscheinen unmittelbar auf die Teleologie der Fußisochronisierung beziehbar. Allenfalls die silbeninternen Ausgleichsprozesse könnten ebensogut der Silbenzählung zugeordnet werden. Am Ende ihres Forschungsberichtes zur Isochronietypologie sprechen sich auch Auer/Uhmann (1988) gegen eine phonetische und für eine phonologische Charakterisierbarkeit sprachrhythmischer Typen aus. Anders als Dauer behalten sie aber einen silbenzählenden Typ bei. Auf morenzählende Rhythmisierung gehen sie hingegen, wohl aufgrund des vermuteten Ausnahmecharakters, nur in Fußnoten ein. In der Einstufung einer Sprache auf dem Kontinuum von silben- zu akzentzählender Phonologie sind auch bei Auer/Uhmann segmentale wie suprasegmentale Aspekte zu berücksichtigen, wie unter (14) ersichtlich: (14) Silben- und akzentzählende Phonologie (nach Auer/Uhmann 1988, 253)

"silbenzählend" 1. überwiegend CV-Silbenstruktur 2. keine Unterschiede in der Struktur betonter und unbetonter Silben 3. konstante, gut definierte Silbengrenzen, Geminaten

4. Vokalsystem stabil, Vokalharmonie möglich 5. Vokalausfall zur Optimierung der Silbenstruktur 6. Akzent wenig grammatisch distinktiv, Wortakzent fehlt teils 7. Finalakzent

"akzentzählend" auch komplexe Silbenstrukturen schwere vs. leichte Silben = betonte vs. unbetonte Silben tempoabhängig variable, schlecht definierte Silbengrenzen (Ambisyllabizität), Schwächung ambisyllabischer Konsonanten und Geminatenreduktion Vokalsystem im Nebenakzent reduziert, keine Vokalharmonie möglich Vokalausfall aus akzentuellen Gründen Akzent grammatisch distinktiv, komplexe Akzentregeln, Euphonieregeln Initial akzent

Während wir die ersten beiden Kriterien bereits bei Dauer (1983) vorgefunden haben, kommt als ein neues phonologisches Korrelat des silbenzählenden Typs im 3. Punkt unter (14) die Eindeutigkeit der Silbengrenze hinzu. Bereits an diesem Punkt wird deutlich, daß Au-

46 er/Uhmann (1988,244ff.) neben der durationalen Motivation ihrer phonologischen Konstellationen auch die gestaltphonologische Prägnanz der rhythmusstiftenden Grundeinheit berücksichtigen: Tempounabhängige Silbifìzierungen und das Fehlen ambisyllabischer Segmente wirken sich ja nicht unbedingt silbenisochronisierend aus, ebensowenig wie umgekehrt variable und mehrfache Zuordnungen von Sprachlauten zu Silben die Fußdauem anzugleichen erlauben. Hingegen fördert eine eindeutige silbische Gliederung der Segmentfolge die perzeptive Prägnanz der Silbenprosodie, was als notwendige, wenn auch nicht hinreichende Voraussetzung für Silbenzählung plausibel erscheint. Umgekehrt mag eine uneindeutige segmentale Besetzung der Silben zwar typisch für Akzentzählung sein; daß sie aber die Isochrome oder Prägnanz der Fußebene unterstützt, bliebe zu zeigen - zumindest müßte man die Verwischung der Silbengrenzen explizit auf fußinterne Silbenkontakte einschränken. Eine Differenzierung möglicher Silbenstrukturen und Nukleusbesetzungen in Abhängigkeit vom Akzent verstärkt hingegen Anisoprominenz und somit die Salienz akzentuell definierter Einheiten. Festzuhalten bleibt jedoch, daß die Optimierung von Silbenprosodie und Prominenzkontur kein Nullsummenspiel darstellt. Eine Verbesserung auf einer der beiden prosodischen Ebenen impliziert nicht mit Notwendigkeit eine Verschlechterung auf der jeweils anderen. Die ebenfalls in 3. postulierten Korrelationen zwischen rhythmischem Sprachtyp und Konsonantismus begründen Auer/Uhmann ( 1988) wie folgt: Man kann vermuten, daß die Tendenz akzentzählender Sprachen, die Silbengrenzen zu verwischen, segmentale Prozesse wie "flapping" oder Frikativierung unterstutzt. Die umgekehrte Tendenz der silbenzählenden Sprachen, die Silbengrenzen intakt zu lassen, begünstigt hingegen die Erhaltung der Geminaten. Die Vereinfachung von Konsonantengeminaten in den akzentzählenden, nicht aber in den silbenzählenden Sprachen kann deshalb als ein weiteres Merkmal gelten, das die beiden Rhythmustypen phonologisch unterscheidet. (Auer/Uhmann 1988, 249)

Unklar erscheint mir der Zusammenhang zwischen Resilbifizierung und Ambisyllabizität sowie den erwähnten Lenisierungen, die sich weder auf die Silben- noch auf die Prominenzstruktur auswirken. Auch steht die Argumentation im Gegensatz zu der Bemerkung bei Dauer ( 1983), wonach reduktive Prozesse im Konsonantismus eher bei silbenzählenden Sprachen auftreten. Ebenso uneindeutig bleibt die rhythmische Relevanz von Geminaten: Immerhin erzwingt Konsonantendopplung eine Abweichung von der idealen CV.CV-Silbenprosodie (zu CVC.CV, VCC. oder .CCV) und steht somit der Silbenisochronie und vermutlich (zumindest im heterosyllabischen Normalfall) auch der Prägnanz der Silben entgegen. Ob Geminaten in silbenzählenden Sprachen tatsächlich häufiger sind als in akzentzählenden, bliebe empirisch zu klären. Daß konsonantische Quantität Silbenzählung unterstützt, scheint mir hingegen kontraintuitiv. Auch in der Diskussion der Vokalharmonie begegnet bei Auer/Uhmann (1988, 246) eine ähnliche Vermengung diagnostischer Symptome mit isochronie- und prägnanzfördernden rhythmischen Einflußgrößen: Da im Nebenakzent Vollvokale zur Verfügung stehen, ist in silbenzählenden Sprachen Vokalharmonie möglich. Sie wird häufig ausgenutzt, um eine Funktion zu Ubernehmen, die in den akzentzählenden Sprachen teils vom Akzent erfüllt wird: nämlich die Grenzen des Wortes zu markieren. (Auer/Uhmann 1988, 246)

Da silbenzählende Sprachen keine Reduktionsvokale aufweisen, ist Vokalharmonie möglich; sie unterstützt jedoch, wie Auer/Uhmann in obigem Zitat selbst hervorheben, gerade nicht

47 die Prägnanz der Silbenprosodie, sondern der morphologischen Worteinheiten. Somit stellt Vokalharmonie für die Segmentation der Lautsprache durch den Hörer in der Tat einen Vorteil dar, fördert jedoch keineswegs silbenzählende Rhythmisierung. Das 5., prozessual formulierte Kriterium unter ( 1 4 ) erlaubt mehrere Lesarten, j e nachdem, ob der Prozess der Vokaltilgung diachron, synchron im Rahmen einer derivationellen (Morpho-)Phonologie oder synchron als realisationsphonologische Option aufgefaßt wird. Auer/Uhmann (1988, 246f.) beschränken sich in ihrer knappen Exempliñzierung auf die zweite Interpretation. Beide Korrelate lassen sich in naheliegender Weise aus der Teleologie der Silben- bzw. Akzentzählung ableiten. Hingewiesen sei wieder darauf, daß die Teleologien nicht antagonistisch operieren: eine Vokaltilgung etwa im Hiat kann auch Silben- wie Prominenzstrukturen simultan regularisieren: S o vermeidet beispielsweise die Elision eines [e] in fr. il récrit gegenüber der Alternative il réécrit sowohl einen leeren Silbenonset als auch die Aufeinanderfolge dreier unakzentuierter Silben. Während schon Dauer auf die unter 6. formulierte geringere phonologische Relevanz des Wörtakzents bei Silbenzählung aufmerksam macht, ist uns der postulierte Zusammenhang von rhythmischem Typ und Position des Akzents im letzten Kriterium unter (14) nur bei Wenk/Wioland ( 1 9 8 2 ) begegnet. Nach Auer/Uhmann ( 1 9 8 8 , 2 4 9 ) besteht "zumindest eine schwache Korrelation" zwischen Silbenzählung und einer vom Wörtende her bestimmten Akzentposition einerseits sowie zwischen Akzentzählung und einer vom Wortanfang ausgehenden Akzentuierung andererseits. Wir werden der Frage nach dem Einfluß der Akzentlage auf den Rhythmus in 2.3.3 einen eigenen Abschnitt widmen und beschränken uns hier wieder auf die Feststellung, daß, selbst wenn eine solche Korrelation sich statistisch nachweisen ließe, noch zu klären bliebe, inwieweit die Akzentposition ursächlich die rhythmische Strukturierung beeinflußt. Auer ( 1 9 9 3 ) schließlich modifiziert und ergänzt seine Ausarbeitung idealtypischer rhythmischer Konstellationen, wie unter (15) zu ersehen: (15) Silben- und wortrhythmisierende Phonologie nach Auer (1993, 14)

syllable-rhythm

word-rhythm

2.

keine akzentabhängigen Reduktionen Quantität bei C und V aller Silben möglich

3. 4. 5.

Töne möglich wenig Assimilationsregeln einfache Silbenstruktur

Reduktion nichtakzentuierter Silben keine Quantitätsdistinktionen in unakzentuierten Silben keine Töne häufig Assimilationen und Dissimilationen komplexe Silbenstrukturen, z. T. nicht-optimaler Sonoritätsverlauf Gelenkbildung, Silbengrenzen z. T. variabel wortbezogene phonologische Prozesse

1.

6. 7.

Silbengrenzen eindeutig keine wortbezogenen phonologischen Prozesse 8. exteme = interne Sandhiphänomene 9. Vokalharmonie möglich 10. phonetisch schwach markierter oder fehlender Wortakzent 11. Wortakzent, falls vorhanden, fest, ohne grammatische Funktionen 12. keine zentralen (reduzierten) Vokalphonome

externe Φ interne Sandhiphänomene keine Vokalharmonie starker phonetischer Wortakzent Regeln der Akzentzuweisung komplex, evtl. grammatikalische Funktionen zentrale Vokale als Phoneme möglich

48 Eine "Detemporalisierung" deutet sich dabei bereits in den Bezeichnungen syllable rhythm und word rhythm (anstatt der im Englischen etablierten Termini syllable-timing und stresstiming) an. Auch die Ersetzung der Fuß- durch die Worteinheit weist darauf hin, daß den Nebenakzenten auch in nicht silbenzählenden Sprachen keine rhythmusstiftende Bedeutung mehr zuerkannt wird. Im Vergleich mit der unter (14) wiedergegebenen Menge konstitutiver phonologischer Eigenschaften fallt zunächst auf, daß keine Aussage zur Akzentposition mehr getroffen wird. Neu hinzugekommen ist die Zuordnung tonaler und quantitativer Vokaloppositionen zum Silbenrhythmus (Kriterien 2 und 3), sowie einer stärkeren und positionsabhängigen Interaktion der Segmente bei Wortrhythmus (Kriterien 4 , 7 und 8). Ein Bezug zur ursprünglichen Isochronisierungsteleologie ist dabei nicht in jedem Falle klar; eine phonologische Opposition kurzer und langer Vokale steht einer Silbenisochronisierung sogar entgegen. Nicht mehr Dauer bildet den Ausgangspunkt der Faktorenbündelungen, sondern die Gestaltqualität der phonologischen Einheit. Unter dieser Perspektivierung scheint der unter (15) zusammengefaßte Vorschlag plausibel.8 Auer (1993) überprüft seine beiden deduktiv entwickelten Idealtypen, indem er für eine areal wie genealogisch möglichst heterogene und ausgewogene Stichprobe von 34 Sprachen im Rahmen der verfügbaren Dokumentation untersucht, ob und inwieweit die Faktoren unter (15) signifikant kovariieren. Insgesamt bestätigen dabei die Befunde seine Ausgangshypothesen, lediglich die postulierte zentrale Rolle des Wortakzents für Wortrhythmus ist empirisch nicht nachweisbar. Wir beschließen unsere Sichtung verschiedener Konzeptionen rhythmischer Sprachtypen mit dem Vorschlag von Laver (1994, 527ff.), der, wie schon Auer (1993), ausdrücklich die Implikationen von stress- und syllable-timing vermeidet und neutraler von syllable-based rhythm und prominence-based rhythm spricht. Die jeweiligen Charakteristika sind unter (16) zusammengestellt: (16) Silben- und wortbasierte Phonologie nach Laver (1994, 528f.)

syllable-based nur CV-Silben nur kleines C-Inventar mit ähnlicher Sonorität, nur kleines V-Inventar mit ähnlicher Sonorität, gleicher phonetischer Dauer und gleicher phonologischer Länge 3. gleiche Silbenzahl bei allen Wortformen 4. keine Kontrastivität des Wortakzents 5. keine Vokalredaktion

word-based zahlreiche Silbenstrukturen viele C- und V-Segmente mit stark unterschiedlicher Sonorität, phonetischer Dauer und phonologischen Längenkontrasten starke Variation der Silbenzahl von Wortformen 'freier' Wortakzent Vokalreduktion in unakzentuierten Silben

Neu für uns ist, daß Laver die Wahl der prosodischen Grundkategorien mit der Größe der Segmentinventare korreliert. Gerade im Gegensatz zu Auer gelten unter (16) dabei Quantitätsoppositionen als Merkmal wortbasierter Prosodie. Überraschend erscheint außerdem das 3. Kriterium: Schließlich unterstützt die behauptete Angleichung der Silbenanzahl in im vollen Wortsinne - silbenzählenden Sprachen umgekehrt gerade die Isochronisierung der Allenfalls könnte man meines Erachtens erwägen, das Bestimmungsmerkmal "keine Töne" für Wortrhythmus abzuschwächen zu "keine Töne in unakzentuierten Silben", da solche Tonneutralisierungen in metrisch schwacher Position ebenfalls die Worteinheit stärken und daher als Indiz für Akzentzählung gewertet werden, vgl. Hung (1996) zum Mandarin-Chinesischen.

49 Wortlänge, während ihre starke Variabilität die Vergleichbarkeit und kognitive Prägnanz der Worteinheiten verringert. Insgesamt zeigt sich in (15) wie in (16), daß sich nicht alle rhythmisch relevanten prosodischen Eigenschaften widerspruchsfrei in eine binäre Klassifikation einfügen. Naheliegend erscheint insbesondere eine Erweiterung um einen dritten, morenbasierten Typus für Quantitätssprachen. Auch die fehlende Berücksichtigung des Beitrags von Nebenakzenten zur Prominenzkontur und somit der Fußprosodie ist, wie wir noch ausführen werden, zwar für einige Sprachen plausibel, jedoch universalphonologisch zu restriktiv. Bevor wir uns im übernächsten Unterabschnitt mit einer weiteren Abstraktion der Isochronietypologie befassen, gehen wir zunächst auf Ansätze ein, die neben phonologischen auch grammatische Struktureigenschaften in einen rhythmustypologischen Zusammenhang zu stellen versuchen.

1.2.6

Isochronietypen und grammatische Korrelate

Daß die Menge von Einheiten und strukturbildenden Regularitäten, die ein Sprachsystem umfaßt, nicht allein historisch kontingente Konstellationen bilden, sondern auch aufeinander bezogen sind, kann als Grundeinsicht und Ausgangspunkt der modernen, insbesondere strukturalistischen und nachstrukturalistischen Linguistik gelten. Bei einem typologischen Blick auf die Sprachverschiedenheit versucht man dabei, Uberzufällig häufige (oder auch seltene) Kookkurrenzen sprachlicher Struktureigenschaften nachzuweisen und zu erklären. Während jedoch alle von uns bisher betrachteten Ansätze dabei ausschließlich Aspekte der Lautsprache thematisierten, die als einem gemeinsamen Ziel der rhythmischen Qualität dienlich aufgefaßt werden, versuchen manche Autoren, auch zwischen phonischen und grammatischen Eigenschaften Zusammenhänge herzustellen (vgl. den Überblick bei Plank 1998). Solche holistischen Ansätze erscheinen dabei besonders interessant, da sie zahlreichere und stärkere Vorhersagen Uber präferierte Typen des Sprachbaus machen. Allerdings geht aus ihnen häufig nicht hervor, inwieweit grammatische Strukturen durch rhythmische Präferenzen mitgeprägt sein oder umgekehrt Kodierungserfordernisse die rhythmische Konturierung beeinflussen sollen. Bereits vor einer Anbindung an die Isochronietypologie ist wiederholt ein Zusammenhang zwischen der Position des Akzents innerhalb seiner Domäne und morphologischen und syntaktischen Serialisierungsregularitäten aufgestellt worden. So bringt schon Bally [1932] Finalakzent wie im Französischen mit der Abfolge "déterminé vor déterminant" in Verbindung, und Initialakzent, den er für das Deutsche auf allen historischen Stufen ansetzt, entsprechend mit Prädetermination. In einer nicht scharf zwischen formalen und semantischen Determinationsbegriffen unterscheidenden Argumentation leitet er hieraus morphologische und syntaktische Eigenschaften aus akzentrhythmischen ab. Der umgekehrte Weg einer Vorhersage rhythmischer Typen aus grammatischen Eigenschaften findet sich bei Lehmann (1973,62; 1978) angedeutet, der präspezifizierende Linearisierung in der Syntax und suffixal-agglutinierende Morphologie mit morenbasiertem Rhythmus, Präfigierung, Flexion und Postspezifikation hingegen mit silbenbasiertem in Verbindung bringt - und Akzentzählung bemerkenswerterweise ganz unberücksichtigt läßt. Donegan/Stampe (1983) sind dagegen der Ansicht, daß akzentprosodische und grammatische Abfolgeeigenschaften notwendig Hand in Hand gehen. Außerdem kennt ihrer Meinung nach die Rhythmuskomponente der Satzphonologie nur zwei mögliche Organisations-

50 formen, nämlich Wort- beziehungsweise Silbenisochronie. Bereits in der phonologieinternen Argumentation erscheint ihr Ansatz dabei originell: So begründen sie einen Zusammenhang zwischen Rhythmustyp und Wortakzentposition wie folgt: Languages can be classified rhythmically according to whether they use, as their unit of isochronous speech, the word [... ] or the syllable [...]. In mapping these units onto time, only the material in the "ihyme" of the word or syllable - from the accented syllable to the end of the word, from the nucleus to the end of the syllable - is rhythmically relevant. [... ] Word-rhythms are dominant. [... ] However, there are two conditions for word-rhythms: First, that there is hiatus at word-boundaries; languages which allow liaison fail this condition, and are therefore syllable-timed [... ] Second, that the rhymes of most words are short enough to be spoken in two beats [... ] most falling-accent languages fail this condition [...], and therefore they are syllable-timed. [... ] Thus, there is a link between falling accent and syllable rhythm, vs. rising accent and word rhythm. (Donegan/Stampe 1983, 344f.) Eine Sprache mit initialem Wortakzent ist also nach Donegan/Stampe notwendig silbenzählend, eine Sprache mit Finalakzent - sofern sie kein externes Sandhi kennt - akzentzählend, gerade im Gegensatz zu Auer/Uhmann (1988). Weitere, etwa lexikalisch determinierte Wortakzentsysteme werden noch nicht einmal in Betracht gezogen. Festzuhalten bleibt wieder das Übergehen der Nebenakzente und die damit einhergehende Verwechslung von Wort- und Fußprosodie. Darüber hinaus bringen Donegan/Stampe (1983) die Position akzentueller Prominenz innerhalb der prosodischen Domäne mit der Linearisierung syntaktischer Einheiten in Verbindung: Ihrer Auffassung nach korreliert phraseninitialer Akzent mit Präspezifikation (OV), finaler mit der umgekehrten Abfolge "Kopf vor Spezifikator", da Spezifikatoren einen höheren semantischen Beitrag als ihre Köpfe liefern und semantisch wichtiges Material bevorzugt prominent realisiert wird. Da ferner die Position des Wortakzents im Grenzfall der Einwortphrase phrasenakzentfähig sein muß, Uberträgt sich die Korrelation auch in die Wortphonologie - und damit nach der oben referierten Ansicht weiter in die Satzrhythmusphonologie - und bedingt ihrerseits Zusammenhänge mit der Affixposition, Klitisierungsrichtung und sogar dem Synthetizitätsgrad. Insgesamt halten jedoch die zahlreichen vorgeschlagenen Korrelationen, die auf der Grundlage von nur zwei Sprachen - Sora und Khmer - gewonnen wurden einer eingehenderen Prüfung nicht stand (vgl. Auer 1993,15ff.). Auch Gil (1986) versucht, sprachrhythmische Eigenschaften mit morphologischen und syntaktischen Serialisierungspräferenzen in Verbindung zu bringen. Dabei geht er in seiner Argumentation von Befunden zu hebräischer Dichtung und Vokalmusik aus und entwickelt eine Dichotomie jambischer und trochäischer Anordnung. Während sich nämlich nach Gil in jambischen Texten die syntaktische wie semantische Komplexität am rechten Rand der Halbverse und Verszeilen konzentriert, lassen sich in trochäischen gerade spiegelbildliche Verhältnisse feststellen. Bemerkenswert erscheint nun, daß Gil diese binäre Klassifikation metrisch gebundener Texte ohne weitere Rechtfertigung auch zur typologischen Einteilung von Sprachen Ubernimmt. Diese Sorglosigkeit ist bereits von Auer (1993,25) kritisiert worden, so daß wir uns darauf beschränken, den weiteren Gang der Argumentation zu überprüfen: Angenommen, die Sprachen der Welt ließen sich tatsächlich ausnahmslos entweder als jambisch oder trochäisch mit konsequent rechts- beziehungsweise linksprominenten akzentuell definierten Einheiten bestimmen, was folgt hieraus Uber weitere Aspekte ihres Baus? Gil scheint nun - unter Hinweis auf seine Analysen hebräischer Texte - davon auszugehen, daß jambische Sprachen für gleiche Inhalte typischerweise Ausdrücke höherer Silbenzahl aufweisen als trochäische. Da aber die Verständigung in jambischen Sprachen nicht langsamer verläuft, muß

51 die Silbenrate in ihnen höher sein als in trochäischen. Höheres Sprechtempo bringt aber nun reduktive Prozesse mit sich, die ihrerseits charakteristisch für Akzentzählung sind. Da in trochäischen Sprachen somit die gleiche Kodierungsleistung in einer geringeren Zahl von Silben zu erbringen ist als in jambischen, gleichzeitig diese aber im allgemeinen langsamer gesprochen werden, tendieren trochäische, silbenzählende Sprachen nach Meinung von Gil dazu, komplexere Silbenstrukturen aufzuweisen. Damit steht Gil im Gegensatz zu allen bisher vorgestellten Ansätzen, die ausnahmslos eine geringere Toleranz silbenstruktureller Komplexität für Silbenzählung fordern. Innerhalb der Phonologie stellt Gil noch weitere Korrelationen zu Segmentinventaren und -vorkommenshäufigkeiten sowie tonalen Eigenschaften auf, deren deduktive Herleitung jedoch in keinem Falle überzeugt. Aufgrund ihrer kompakteren Kodierung werden trochäische Sprachen darüber hinaus dem synthetischen Pol einer morphologischen Sprachtypologie zugeordnet, jambische dagegen dem agglutinierenden - der isolierende Sprachtyp wird ganz ignoriert. Auch syntaktische Serialisierungspräferenzen versucht Gil unmittelbar durch die Prominenzposition zu motivieren. Allerdings scheint er syntaktische Köpfe als prominenzattrahierend zu werten, da er jambischen Sprachen Prä-, trochäischen hingegen Postspezifikation zuschreibt - gerade entgegengesetzt zu Donegan/Stampe. Obwohl er alle seine Korrelationen in der von ihm untersuchten Stichprobe von 170 Sprachen zumindest als statistische Tendenz bestätigt findet, müssen bereits die Prämissen seines Ansatzes - die Identifikation von metrischen und sprachlichen Eigenschaften sowie das höhere Sprechtempo in jambischen Sprachen - als spekulativ gelten und diskreditieren meiner Auffassung nach eher die Suche nach außerphonologischen Korrelaten rhythmischer Sprachtypen, als sie voranzutreiben. Schweiger ( 1990) zeigt darüber hinaus, daß die Auswertung von Gil (1986) auch statistisch nicht reliabel ist. In Gil ( 1987) ist die typologische Dichotomie bereits aufgegeben und an ihre Stelle eine universelle Präferenz für jambische Rhythmisierung getreten. Während also Gil (1986) wie schon Donegan/Stampe ( 1986) von der Position akzentueller Prominenz innerhalb ihrer Domäne ausgehen und hieraus sowohl den Isochronisierungstyp wie auch grammatische Serialisierungseigenschaften ableiten - letzteres hatte auch schon Bally [1932] unternommen - , schließt Lehmann (1973; 1978) umgekehrt von der Abfolge morphologischer und syntaktischer Einheiten direkt auf Moren- oder Silbenzählung - ohne allerdings diese Korrelation zu begründen. Nach Lehmann bestimmt dabei das grammatische System den Sprachrhythmus, Gil setzt gerade die umgekehrte Determinationsrichtung an, Donegan/Stampe legen sich nicht fest. Alle vorgestellten Ansätze sind methodisch problematisch und in ihren Aussagen teilweise einander widersprechend. Eine solide Verbindung von phonologischer mit morphologischer und syntaktischer Typologie steht also, wie auch Plank (1998, 223f.) betont, immer noch aus. Ein solcher holistischer Ansatz hätte meines Erachtens zuallererst zwischen verschiedenen Domänen akzentueller Prominenz zu differenzieren, denn keineswegs geht beispielsweise jambischer Fußakzent notwendig mit finalem Wortakzent und dieser mit rechtsperipheren Phrasenakzenten einher. Auch darf, wie ich meine, die theoretische Prämisse bezweifelt werden, wonach einer binären Klassifikation der Abfolge von Sprachzeichen ebenfalls dichotomische Verhältnisse in der Rhythmustypologie entsprechen und diese eineindeutig aufeinander beziehbar sein müssen. Daß ferner ähnlich wie bei Lehmann und im Gegensatz zu Gil meiner Ansicht nach aus semiotischen Erfordernissen auf rhythmische Eigenschaften zu schließen ist und nicht umgekehrt, wird in 3.2 noch ausführlicher darzulegen sein.

52 1.2.7

Von Isochroniedomänen zu phonologischen Hauptkategorien

Wie in den holistischen Ansätzen, die wir im letzten Unterabschnitt vorgestellt haben, so hat auch in der phonologieinternen Diskussion um rhythmisch basierte Sprachtypen der Wortakzent zunehmende Aufmerksamkeit gefunden: Bereits bei Trubetzkoy [1939] ( 3 1962,186) findet sich die Bemerkung, daß seine Hauptfunktion "gipfelbildend" sei, er also die Etablierung eindeutiger rhythmischer Prominenzmaxima innerhalb eines phonologischen Wortes leiste. Somit sind aber natürlich auch Sprachen vorstellbar, die keinen kulminativen Wortakzent haben, nämlich zum einen solche, bei denen alle Silben in etwa die gleiche rhythmische Prominenz aufweisen und daher eine akzentuelle Kontur schwer auszumachen ist, zum anderen aber auch Sprachen, in denen zumindest bei einem Teil ihrer Wortformen kein oder aber mehr als ein Hauptakzent auf der Silbenfolge liegt. Das Fehlen eines solchen eindeutigen Prominenzgipfels hat jedoch nicht in jedem Falle eine Abwertung der phonologischen Bedeutung der Wörteinheit zur Folge: So finden sich in der Stichprobe von Auer (1993) drei Sprachen (die Khoisansprachen !Χόδ und Nama sowie das tibeto-burmanische Tamang), die wortbezogen Töne zuweisen und auch in phonotaktischen Beschränkungen auf die Wörteinheit Bezug nehmen, jedoch keine Wörtakzente im Sinne Trubetzkoys vergeben. Im Lichte dieser Befunde scheint es nach Auer (1993; 1994; 2001) angemessener, in einem Inventar prosodischer Sprachtypen nicht mehr den Wörtakzent, sondern allgemeiner die Wichtigkeit der Kategorie des phonologischen Wortes als Kriterium für einen von ihm Wortsprache genannten Typ zu machen. Je größer die Rolle des - einzelsprachlich unter Bezug auf das morphologische Wort zu definierenden - phonologischen Wortes in einer Sprache ist, desto näher ist diese Sprache im Kontinuum von Wörtzu Silbensprachen am Prototyp der Wörtsprache anzusiedeln. Umgekehrt nähert sich eine Sprache umso mehr dem Prototyp der Silbensprache an, je strenger sich in ihr die Silbenprosodie nach den universellen Präferenzen für Einzelsilben und Silbenfolgen ausrichtet. Der Frage, ob noch weitere prosodische Konstituenten die phonologische Hauptkategorie einer Sprache bilden können, widmet Auer (1994, 61) nur eine Fußnote, wo er auf die Möglichkeit von Morensprachen hinweist, die Existenz von Sprachen mit Fuß oder phonologischer Phrase als Hauptkategorie hingegen bezweifelt (vgl. aber zur Bedeutung dieser beiden Konstituentenkategorien Nespor/Vogel 1986,90-103 und 174-184). Auer (1994,60) räumt auch die Möglichkeit ein, daß in einer Sprache keine phonologische Hauptkategorie auszumachen ist, und erläutert, wie man auf der Achse von Wort- zu Silbensprachen zur Einordnung einer Sprache gelangt: Um festzustellen, welche der prosodischen Ebenen für eine Sprache die Hauptkategorie stellt, ist zu fragen, um welche prosodische Kategorie sich die prosodischen Regelmäßigkeiten der Sprache verdichten. (Auer 1994, 60) Nach Auer (2001) ist in Silbensprachen die Akzentvergabe typischerweise nicht auf Wort-, sondern auf Phrasenebene geregelt. Kleinhenz (1996) argumentiert außerdem dafür, daß im Französischen und Italienischen, Sprachen, die bei Auer als Silbensprachen eingestuft werden, die phonologische Phrase als Regeldomäne auch anderweitig im phonologischen System eine Rolle spielt, und listet eine Reihe phrasenbezogener phonologischer SandhiRegularitäten auf. So darf etwa in den Varietäten des Italienischen, in denen radoppiamento sintattico auftritt, ein wortinitialer Konsonant nur nach einem akzentuierten vokalisch auslautenden Wort innerhalb der gleichen phonologischen Phrase gelängt werden. Hingegen

53 scheinen phonologische Phrasen in Wortsprachen allenfalls für euphonologische 'Umakzentuierungsregeln' rhythmisch von Belang zu sein. Kleinhenz (1996, 582) behauptet, daß die relevante Phrasendomäne mit der syntaktischen Phrase isomorph sei und daher gerade keine phonologische Konstituentenkategorie etabliere. Im Gegensatz zu Auer bezweifelt Kleinhenz jedoch die fehlende Bedeutung der silbischen Struktur als phonologischem Organisationsprinzip in Wortsprachen. So ist etwa nach Vennemann (1994, 40) die Auslautverhärtung im Standarddeutschen nur unter Bezug auf silbenphonologische Konzepte formulierbar. Da nach ihrer Auffassung die Wichtigkeit der phonologischen Phrase im Sprachsystem stärker innerhalb der Sprachen der Welt differiert als die Qualität der Silbenprosodie, schlägt sie vor, als sprachtypologischen Gegenpol zu Wortsprachen oder wortbezogenen Sprachen einen neuen Typus phrasenbezogener Sprachen zu stellen. Die phonologischen Eigenschaften ihrer beiden Typen sind unter (17) aufgeführt: (17) Phrasenbezogene vs. wortbezogene Sprachen (Kleinhenz 1996)

phrasenbezogen 1. eher Tonsprache 2. keine reduzierten Vokale 3. Liaison 4. phonologisches Wort = morphosyntaktisches Wort 5. phonologische Phrase Φ syntaktische Phrase

wortbezogen eher keine Tonsprache unbetonte Vokale werden reduziert keine Liaison phonologisches Wort φ morphosyntaktisches Wort wenn phonologische Phrase, dann = syntaktische Phrase

Offen bleibt hierbei, inwieweit die Definition phrasenbezogener Sprachen bei Kleinhenz wenn nicht intensionsgleich, so doch koextensional mit Auers Silbensprachen ist. In der Illustration des phrasenbezogenen Typs greift Kleinhenz auf vor allem auf das Französische, Italienische und Spanische zurück. Bis auf das 5. Kriterium in (17) finden sich ferner alle Charakterisierungen auch als typische Eigenschaften silbenzählender Sprachen. Reich (2002) nimmt ebenfalls Unterschiede in der Wichtigkeit prosodischer Kategorien zwischen den Sprachen zum Ausgangspunkt für die Ansetzung zweier Idealtypen. Wie Auer (1994) erkennt er nur die Silbe und das phonologische Wort als mögliche prosodische Grundeinheiten und schlägt wieder eine Skala von idealtypisch silben- zu idealtypisch wortbezogen vor. Zur Definition der beiden Grenzfälle beschränkt er sich auf die drei unter (18) aufgeführten Kriterien: (18) Phonologische Korrelate von Silben- und Wortrhythmus nach Reich (2002, 188)

Silbenrhythmus 1. rhythmische Akzentuierung durch Verfußung 2. keine reduzierten Vokale 3. internes = externes Sandhi

Wortrhythmus Akzentuierung auf markierter Silbe (von Verfußung weitgehend unabhängig) starke Vokalreduktionen internes Φ externes Sandhi

Während wir der rhythmischen Relevanz von Vokalreduktionen in der phonologischen Isochronietypologie bereits mehrfach begegnet sind (vgl. (11), (12), (14), (15) und (17)), kommt in (18) als neues Korrelat von Silbenrhythmus die Existenz einer prägnanten Verfußung und somit - in hinreichend langen Wortformen - von Nebenakzenten hinzu. In einer prototypisch wortrhythmisierenden Sprache erfolgt nach Reich akzentuelle Hervorhebung jedoch vorrangig durch Wortakzentsilben. Offen bleibt, inwieweit Nebenakzente hier überhaupt anzusetzen

54 sind.9 Auch auf die Frage, ob jede Wortakzentsilbe auch tatsächlich prominent realisiert werden muß, wird nicht eigens eingegangen. Reich (2002, 189) argumentiert, mit Bezug auf die von Krefeld (1999) vorgeschlagene Übernahme gestaltpsychologischer Konzepte in die Phonologie, daß die beiden in (18) formulierten Konstellationen idealtypisch jeweils die Wahrnehmung der Silben- beziehungsweise Wortfolge ermöglichen. Reichs Idealtypen bilden also weniger Hauptkategorien der phonologischen Beschreibung eines Sprachsystems durch Linguisten wie bei Auer (1994), sondern eher perzeptive Hauptkategorien in der Segmentation lautsprachlicher Äußerungen durch den Hörer. Einschränkend hierzu ist allerdings zu sagen, daß die Perzeption verschiedener, vor allem auch nicht-muttersprachlicher Mitglieder einer Sprachgemeinschaft differieren kann. So bezeichnet Auer (2000) bei einem Vergleich der deutschen Prosodie mit der des Italienischen das Deutsche als "wortbezogen", das Italienische als "silbenbezogen". Kaneko (2000) hingegen hebt, in einer Kontrastierung des Deutschen und Japanischen, gerade die "silbische Prosodie" des Deutschen im Gegensatz zur "Morenstruktur" des Japanischen hervor. Sowohl im Ansatz von Auer als auch in den Modifikationen durch Kleinhenz und Reich wird aus der Sprachklassifikation nach Isochroniedomänen eine allgemeinere phonologische Einteilung nach der Rolle der prosodischen Kategorien im Sprachsystem. Diese Hierarchie von Konstituenten ist in der Prosodischen Phonologie von Nespor/Vogel (1986) ausgearbeitet worden und umfaßt im ursprünglichen Ansatz die sieben Ebenen Silbe, Fuß, phonologisches Wort, klitische Gruppe, phonologische Phrase, Intonationsphrase sowie phonologische Äußerung. In der universalistischen Version der Prosodischen Phonologie weisen alle Sprachen alle prosodischen Einheitenkategorien auf, wobei im Unterschied zur Syntax prosodische Konstituenten nicht andere gleicher Kategorie dominieren können. Ebensowenig darf eine Ebene der Hierarchie übersprungen werden. Somit gehören alle unmittelbaren Konstituenten einer (suprasyllabischen) prosodischen Kategorie der Stufe η notwendigerweise zur Stufe η — 1. Dieses Postulat wird mit Selkirk (1984) als strict layering bezeichnet. Gerade die Nicht-Isomorphie von prosodischer und grammatischer Strukturbildung kann dabei als eine zentrale Erkenntnis der Prosodischen Phonologie gelten. Allerdings zwingt die Annahme, in jeder Sprache alle Ebenen vorzusehen, in vielen Fällen zur Ansetzung prosodischer Einheiten, für die es keinerlei unabhängige Anhaltspunkte gibt. Nespor/Vogel (1986, 11) stellen in diesem Zusammenhang ausdrücklich universalgrammatische Eleganz Uber die Anerkennung phonologischer Sprachverschiedenheit. Wie Auer (1994) und Kleinhenz (1996) aber zu Recht betonen, spielen die unter (18) aufgeführten Ebenen der prosodischen Strukturierung in verschiedenen Sprachen unterschiedliche Rollen. Insbesondere kann eine Ebene in einer Sprache auch ganz ohne Belang sein. Beispielsweise lassen sich in Sprachen wie dem europäischen Portugiesischen keine theorieexternen Argumente für phonologische Phrasen finden. Noch häufiger wird die universelle Begründbarkeit einer intermediären prosodischen Kategorie zwischen phonologischem Wort und phonologischer Phrase in Zweifel gezogen (vgl. Hall 1999, 9 und die dortigen Literaturangaben). Auch der Status der Füße sollte, wie wir in 2.3 noch sehen werden, in einer auf Beschreibungsökonomie bedachten Theoriebil-

9

Übrigens steht diese Auffassung im Gegensatz zu der von Dauer (1983) geforderten größeren Häufigkeit von Nebenakzenten in akzentzählenden Sprachen, vgl. (11). Auch den Os (1988, 19) konstatiert in seinem Vergleich niederländischer und italienischer Prominenzkonturen, daß im Niederländischen der Anteil als betont gehörter Silben höher ist als im silbenzählenden Italienischen.

55 dung einzelsprachlich festgestellt und nicht apriorisch in die Sprachbeschreibung eingebracht werden. Umgekehrt ist das Fehlen einer prosodischen Einheit unterhalb der Silbenebene von verschiedenen Autoren, etwa Auer (1991), kritisiert worden. Zumindest in einer neueren Verwendung des Konzepts wie bei Hayes (1995) bilden Moren solche Konstituenten zwischen segmentaler und silbischer Struktur. Auer (1994) spricht sich ferner, wie schon vor ihm Inkelas (1990), dafür aus, einen sprachspezifischen, jedoch in jedem Falle unter Rekurs auf die morphologische Struktur der Wortformen zu definierenden Begriff eines prosodischen Stammes zwischen Silben- und Wortprosodie vorzusehen, da sich eine solche Domäne für die Formulierung wortphonologischerRegularitäten als notwendig erweist. Neben dieser Unsicherheit darüber, welche Kategorien somit Uberhaupt zur Verfügung stehen, erscheint als weiterer Nachteil der betrachteten typologischen Ansätze, daß die rhythmische Ausgangsintuition in den Hintergrund gerät. Nicht jede phonologische Regularität, die nur unter Bezug auf die Silbe, das phonologische Wort oder die phonologische Phrase formuliert werden kann, bewirkt eine Angleichung der betreffenden Konstituenten. Raffelsiefen (1999) plädiert sogar für eine ausdrückliche Differenzierung eines phonologischen Wortes als Regeldomäne (etwa von Assimilationsprozessen) und eines prosodischen Wortes als Kategorie der satzrhythmischen Organisation im Englischen. Auch bleibt verwunderlich, daß Füße, die mindestens seit Steele als eine der rhythmusstiftenden Isochroniedomänen gelten, als mögliche phonologische Hauptkategorie noch nicht einmal in Betracht gezogen werden, und dies, obwohl in zahlreichen Regeln und Beschränkungen auf diese Einheit Bezug genommen wird. Wenn also in einer Silben-, Wort- oder Phrasensprache keine Isochronietendenzen auf der jeweiligen Ebene mitverstanden werden dürfen, unterstützt die Auszeichnung einer prosodischen Konstituentenebene wenigstens die kognitive Salienz dieser Einheiten? Tritt etwa die silbische Struktur in einer Silbensprache deutlich hervor, die Folge der phonologischen Wörter deutlich in einer Wortsprache? Falls dies der Fall wäre, sollten insbesondere die Grenzen der jeweiligen Hauptkategorie eindeutig bestimmbar sein. In der Tat werden Ambisyllabizität und tempoabhängige Variabilität der Silbifizierung in der rhythmusbezogenen Klassifikation von Auer (1993) unter (15) als Charakteristikum wortrhythmisierender Sprachen gewertet. Weniger klar hingegen wirkt die Erhöhung der Prägnanz der Wortebene in Wortsprachen. Nicht selten scheint es nämlich, als ob in der Literatur aus dem Auftreten bestimmter phonologischer Regeln und Prozesse innerhalb bestimmter prosodischer Bereiche oberhalb der Silbe die Folgerung gezogen wird, diese Domänen bildeten prosodische Konstituenten, und mit der so motivierten Konstituenz der Geltungsbereich der Regel "erklärt" wird. Für die - von Raffelsiefen (1999) bestrittene Identität der wortphonologischen Regel- und Rhythmusdomänen und die prägnanzfördernde Teleologie wortbezogener phonologischer Regeln und Beschränkungen steht meiner Ansicht nach ein überzeugender Nachweis noch aus.

1.2.8

Typologie der Fußisochronisierungsverfahren

Immer wieder sind in der Isochronieforschung bereits an der Teleologie der Silbenisochronie Zweifel aufgekommen. Auch die in 1.2.4 vorgestellten Untersuchungen zur zeitlichen Struktur von Gesprächen haben bei der Auswertung italienischer Daten keine Hinweise auf eine Angleichung der Silbendauern weder innerhalb einer Äußerung noch gar zwischen verschiedenen Redebeiträgen ergeben. Gerade weil der Rhythmizität wie auch ihrer Abwesenheit in

56 Gesprächen sprachbegleitende indexikalische Qualität zukommt und insbesondere das SichEinstellen oder Ausbleiben rhythmisch integrierter Sprecherwechsel kommunikativ interpretierbar ist, erscheint die Dauer der einzelnen Silben aufgrund der schlechten perzeptiven Unterscheidungsmöglichkeit nach Auer/Couper-Kuhlen/Müller (1999) kaum als ein geeigneter Indikator interaktionaler Harmonie: Differences in syllable duration would surely often remain below the threshold of perception. It is highly unlikely therefore that interactionally relevant rhythm will be based on the recurrence of syllables of equal duration. (Auer/Couper-Kuhlen/Müller 1999, 123) Für das Deutsche und Englische, jedoch auch für das traditionell als silbenisochronisierend eingestufte Italienische erkennen die Autoren die Isochrome der Füße, genauer der durch eine realisierte Prominenz demarkierten Füße in Äußerungen, als rhythmusstiftende Qualität. Italienisch unterscheidet sich jedoch nach Auer/Couper-Kuhlen/Müller (1999) von den anderen beiden untersuchten Sprachen durch die Art, wie in ihr Fußisochronie approximiert werden kann: Anders als etwa im britischen Englisch entsprechen durationale Komprimierungen unakzentuierter Silben in längeren Füßen nicht den italienischen Aussprachegewohnheiten. Die fehlende Kürzungstendenz von Silben in solchen längeren Isochronieeinheiten erlaubt jedoch, wie die Autoren zurecht hervorheben, noch nicht den Schluß darauf, daß das Italienische keine Fußisochronie als Präferenz vorsehe (und erst recht nicht den weiteren Schluß, daß es sich somit silbenzählend verhalten müsse). Solche Kürzungen bilden nämlich nur eine von mehreren möglichen Strategien zur Erzielung von Fußisochronie. Auer/CouperKuhlen/Müller (1999,121) nennen des weiteren die Reduktion der Silbenzahl in großen Füßen durch Deletionen, die Anpassung von Pausendauern sowie die selektive Realisierung phonologisch möglicher Prominenz mit dem Ziel gleicher Fußdauern. Fußisochronie kann also sowohl durch Optimierungen der Zeit- wie auch der Prominenzstruktur approximiert werden; Sprachen unterscheiden sich jedoch darin, welche Strategien sie hierbei in welchem Umfang zulassen. Silbenzählende Sprachen scheinen hierbei stärker in die Prominenzkontur einzugreifen, wohingegen in akzentzählenden Sprachen in höherem Maße die Zeitstruktur manipulierbar ist - innerhalb der relativ festen Vorgaben der Prominenzkontur. Eine Sprache wie das Italienische, welche mehr Akzentuierungsmöglichkeiten und somit eine stärkere Angleichung der Silbenanzahl in den Füßen, hingegen weniger durationale Anpassungen erlaubt als das Deutsche oder Englische, bezeichnen Auer/Couper-Kuhlen/Müller (1999) als isometrisch: [... ] given the comparatively uniform structure of Italian syllables, and given the [... ] finding that the number of syllables per foot varies less in Italian than, for example, in English, we hypothesize that rhythmic intervals may be kept (approximately) constant in Italian by keeping the number of syllables within an interval relatively constant. We call this type of isochronous rhythmization isometric (Auer/Couper-Kuhlen/Mtiller 1999, 122; Hervorhebungen im Original) Der Terminus isometrisch entstammt, wie viele Begriffe in der Rhythmusphonologie, der poetologischen Metrik, wo Verstexte so genannt werden, die in jeder Zeile das gleiche metrische Schema instantiieren (vgl. Brogan 1993c). Während aber die Konstanz eines metrischen Schemas keineswegs gleiche Silbenzahlen der Zeilen zur Folge haben muß - man denke nur an die durch vier Hebungen und Stabreim definierte altgermanische Dichtung mit ihrer charakteristischen Füllungsfreiheit-, wird genau diese Qualität für die Zuordnung einer Sprache zum isometrischen Sprachtyp ausschlaggebend. Ein neues rhythmusphonologisches Konzept

57 mit einem in der Linguistik neuen Terminus zu bezeichnen, erscheint sinnvoll, die Auswahl des Begriffs isometrisch hingegen weniger naheliegend. Die knappen sprachvergleichenden Ausführungen in Auer/Couper-Kuhlen/Müller (1999, 116-123) zu Strategien der Rhythmisierung bleiben auf das Italienische und Englische beschränkt; ob die isometrisierenden Sprachen genau die Menge der traditionell als silbenzählend eingestuften umfassen, bleibt unklar. Auch die naheliegende Frage, ob nicht auch andere Kombinationen aus den vier angeführten fußisochronisierenden Strategien (Kürzungen, Silbenausfall, Anpassung von Pausendauern und Prominenzrealisierungen) als die italienische oder englische Lösung möglich und in den Sprachen der Welt anzutreffen sind, wird von Auer/Couper-Kuhlen/Müller ( 1999) nicht behandelt. Zudem erscheint der Katalog von Möglichkeiten nicht vollständig: Neben Kürzungen der Silbendauern kommen auch rhythmisch motivierte Längungen durchaus vor (vgl. Strangert 1985,52ff.). Bemerkenswert ist schließlich der Gegensatz zu Dauer (1983,58), nach deren Auffassung wenig variable Silbenzahlen in den Füßen einer Sprache gerade akzentzählenden Charakter verleihen. Die theoretische Prämisse, daß Prominenzalternanz in allen Sprachen der Welt rhythmisches Ziel und durational interpretierbar als Prominenzisochronie sei, führt auf die Frage zurück, wie das Angebot prominenzfähiger Silben durch die Sprache vorgegeben wird: Weist jede Wortform oder zumindest jede nicht den Funktions wörtern zuordenbare genau eine oder sogar mindestens eine solche mögliche Prominenzstelle auf oder erlaubt eine Sprache Betonung nur auf manchen Wörtern? Prominenzisochronie kann also nicht nur durch unterschiedliche Strategien approximiert werden, sondern auch akzentuell bestimmte Einheiten verschiedener phonologischer Hierarchieebenen umfassen: Auch aus den italienischen Beispielen von Auer/Couper-Kuhlen/Müller (1999) wird deutlich, daß es sich um eine höhere Einheit handelt als die, welche Nespor/Vogel (1986) als Fuß bezeichnen. Somit führt die Einteilung nach den Verfahren der Isochronisierung wieder auf die alte Frage nach ihren Domänen zurück. Neben diesen theoretischen Defiziten und Einwänden müssen jedoch auch experimentalphonetische Studien genannt werden, welche die vermutete Isometrikalität bei fehlender Fußisochronisierung in Frage stellen (vgl. zum Italienischen Farnetani/Kori 1990). So kommt Arvaniti (1994) für das traditionell als silbenzählend eingestufte Griechische zu dem Schluß, daß auch hier wie im Italienischen gerade die größere Variation der Silbenanzahl pro akzentuell definierter Einheit die Sprache von akzentzählenden wie dem Englischen unterscheidet. Gerade im Gegensatz zu Auer/Couper-Kuhlen/Müller (1999) fiele also das Englische in die Klasse isometrischer Sprachen, das Italienische jedoch nicht. Schließlich vermißt man bei Auer/Couper-Kuhlen/Müller (1999) einen Hinweis auf Sprachen mit Vokalquantität. Für sie ist zu vermuten, daß weniger Anpassungen zur Isochronisierung einer akzentuell definierten Domäne erlaubt sein sollten. Ob hieraus jedoch bereits auf Isometrikalität zu schließen ist, darf bezweifelt werden. Zu klären bleibt nämlich, ob nicht neben prominenzbasierter Rhythmisierung auch andere rhythmusstiftende Verfahren in den Sprachen der Welt anzutreffen sind. Wir werden im 3. Kapitel hierauf noch genauer eingehen und halten einstweilen fest, daß der hier vorgestellte Ansatz zwar einen interessanten neuen Blick auf die klassische Dichotomie von Silben- und Akzentzählung eröffnet, jedoch in der theoretischen Begründung und insbesondere in der Datenbasis weiterer Ausarbeitung bedarf. Im nächsten Abschnitt wenden wir uns der zweiten großen Forschungsrichtung in der neueren Rhythmusphonologie zu, die nicht die zeitliche Organisation von Äußerungen, sondern die Abfolge der Prominenzen als konstitutiv für Rhythmizität betrachtet.

58 1.3

Rhythmizität als Prominenzalternanz

Gegenstand dieses Abschnittes bildet die Metrische Phonologie, die als Reaktion auf die allein auf der linearen Segmentabfolge verharrenden älteren generativen Theorie entstand, wie sie in dem Werk The Sound Pattern of English von Chomsky/Halle (1968) ihre wohl folgenreichste Ausprägung angenommen hat. In dem völlig aprosodischen Ansatz dieses Buchs wird phonologische Information allein über Segmente, Merkmale und Grenzsignale kodiert und sogar die Relevanz der Silbe, beispielsweise zur Beschreibung phonotaktischer Regularitäten, ignoriert. Dies zwingt dazu, auch Akzent in gleicher Weise wie Artikulationsstellen oder vokalische Öffnungsgrade als Merkmal eines Einzellautes zu fassen, wobei Chomsky/Halle allerdings in diesem Falle mehrere, ja sogar unbeschränkt viele Ausprägungen vorsehen, die sie in Anlehnung an die Tradition des amerikanischen Strukturalismus (vgl. die vier 'Akzentphoneme' bei Trager/Bloch 1941) als [1 STRESS], [2 STRESS] usw. notieren (vgl. zur Kritik Vennemann 1986,20ff.). Die Forschung der folgenden Jahre restituierte jedoch nicht nur schnell und eindrucksvoll die Silbe als phonologische Domäne und Organisationseinheit (vgl. besonders Fudge 1969 und Vennemann 1972), sondern entwickelte neue partielle prosodische Theorien und Repräsentationen, welche die eindeutige Zuordnung von Merkmalen zu einem und nur einem Segment zugunsten sogenannter Autosegmente aufgeben. Diese können definiert werden als "Bereich, den ein Merkmal insgesamt überspannt" (Eisenberg 1998/1999, Bd. 1, 105). Die Richtung der Autosegmentalen Phonologie, eingeführt von Goldsmith [1976], erlaubt somit eine getrennte Repräsentation verschiedener Aspekte phonologischer Gestalten auf separaten Spezifikationsachsen (englisch tiers) und durch andere formale Objekte. Insbesondere wird durch sie die Voraussetzung geschaffen, die immanente Nichtlokalität - eben Suprasegmentalität - melodischer und rhythmischer Strukturen angemessen zu repräsentieren. In der Behandlung rhythmischer Konturen kann dabei nicht nur die Silbe als Trägerin von Akzent oder Prominenz spezifiziert werden, sondern insbesondere auch die syntagmatische Aufeinanderbezogenheit der Silben innerhalb einer rhythmischen Kontur, die das Thema der Metrischen Phonologie bildet. In diesem Abschnitt können lediglich einige Hauptetappen und -Varianten der Theoriebildung vorgestellt und in ihrem deskriptiven und explanativen Anspruch überprüft werden. 10 Dabei wollen wir fünf Phasen unterscheiden, denen jeweils ein eigener Unterabschnitt gewidmet ist.

1.3.1

Zur Begründung der Metrischen Phonologie

Die Grundlage zu einer neuen Theorie von Akzent und Rhythmus legen Liberman/Prince (1977). Aufbauend auf eigenen Vorarbeiten entwerfen sie für das Englische einen wort- und einen satzphonologischen Beschreibungsrahmen. Die prosodische Basis bildet die Silbenfolge, auf der sich akzentuelle Verhältnisse durch Baumgraphen darstellen lassen. Die Bäume 10

Ausführlicher über die Metrische Phonologie informieren Goldsmith (1990, Kap. 4), Kenstowicz (1994, Kap. 10) und - im Rahmen der neuen theoretischen Konzeption und ihrer Repräsentation in der Optimalitätstheorie - Kager (1999, Kap. 4). Eine profunde Darstellung des wortphonologischen Teils der Theorie bietet Hülst (1999, besonders 21-75).

59 verzweigen dabei grundsätzlich binär, wobei in jedem Paar von Schwesterknoten ein Knoten als "stark" (s[trong]), der andere als "schwach" (w[eak\) etikettiert ist. Daneben führen die Autoren zur Repräsentation der Prominenzkontur noch eine andere Darstellungsweise ein, die im Unterschied zu den metrischen Bäumen keine Konstituenzinformation mehr enthält: Da sich nämlich im Englischen die relativen akzentprosodischen Stärkeunterschiede auf Wortebene nicht in jedem Falle in der Satzphonologie wiederfinden, betrachten sie für letztere eine gesonderte Darstellung als erforderlich: In den sogenannten metrischen Gittern (englisch grids) entspricht dem Prominenzgrad einer Silbe die Anzahl linear übereinander und ohne Unterbrechung angeordneter Markierungen. Unter (19) sind die Prominenzkonturen dreier englischer Ausdrücke zur Veranschaulichung als Gitter dargestellt: (19) Zur Darstellung von Prominenz in metrischen Gittem χ χ X XX X X χ χ xxxx x x x x x (a) John left (b) execution (c) Montana cowboy Nach Liberman/Prince (1977,314) erlauben nun diese Gitterdarstellungen eine zugleich präzise wie allgemeine Explikation der Konzepte von Prominenzadjazenz, -alternation und -Zusammenstoß (stress clash). Nicht nur zwei unmittelbar nebeneinander liegende Silben sind nämlich adjazent in der Prominenzkontur, sondern all jene Paare prominenter Silben in einem Ausdruck, zwischen denen keine Silbe mit gleichem oder höherem Prominenzgrad eintritt. Formaler: In einem Ausdruck mit silbenprosodischer Basis σ\...ση heißen zwei Silben σ, und Oj, 1 < i < j < η, metrisch adjazent im metrischen Gitter genau dann, wenn es darin eine Ebene gibt, auf der keine Silbe a¡, i < l < j, eine Markierung trägt. Zwei Silben sind metrisch alternierend genau dann, wenn sie auf einer Ebene k + 1 im metrischen Gitter adjazent sind, nicht jedoch auf der unmittelbar darunter liegenden Ebene k. Umgekehrt sind zwei Silben metrisch zusammenstoßend bei simultaner Adjazenz auf zwei Ebenen k und k+ 1. Zu beachten ist, daß bei Liberman/Prince (1977) Alternation kein streng binäres Muster in der Markierungsfolge des Gitters erzwingt: Zwar dürfen isoprominente Silben nicht zu dicht aufeinanderfolgen, eine in der späteren Literatur unter der englischen Bezeichnung lapse bekannt gewordene unmittelbare Aufeinanderfolge von Silben ohne Prominenz gilt jedoch in diesem Ansatz nicht als alternationsverhindernd. (20) zeigt an dem in diesem Zusammenhang am häufigsten zitierten Beispiel von engl, thirteen men mit einer Prominenz auf der ersten Silbe von thirteen, wie in der Gitterdarstellung diese im Englischen nicht selten beobachteten Nichtdeckungen von Wortakzentstelle und rhythmischer Prominenz derivational als Folge einer alternationsfördernden Regel (der sogenannten Rhythm Rule) im metrischen Gitter dargestellt werden kann: (20) Akzentzusammenstoß χ X X XX χ —• thirteen men

im metrischen Gitter und seine Auflösung durch die Rhythm Rule χ χ χ χ χ χ thirteen men

Da die Prominenzkontur einer Äußerung somit eigenständig ohne Bezug auf die sprachliche Füllung repräsentiert wird, scheint sie Liberman/Prince ( 1977,249) mit metrischen Schemata der Dichtung vergleichbar, womit sie auch die Bezeichnung ihrer Theorie motivieren. In

60 konsequenter Fortführung dieser Metaphorik bezeichnen sie, wie schon Abercrombie (1964), die durch eine Prominenz demarkierten Silbenfolgen als Füße (vgl. zur Kritik dieser Parallelisierung phonologischer und poetologischer Strukuren Giegerich 1985,2 und Küper 1988, 223ff.). Eine explizite Anbindung an die Zeitstruktur unterbleibt, jedoch legen die Ausführungen bei Liberman/Prince (1977,333) nahe, daß ihrer Auffassung nach die temporale Gestaltung von Äußerungen im Englischen eher aus der Prominenzkontur resultiert als umgekehrt. Inwieweit die Gittertheorie satzrhythmischer Konturen jedoch auf die Zeitdimension verweist, erscheint bereits in der phonologischen Diskussion wenige Jahre nach Erscheinen des Artikels umstritten: Während etwa Cutler/Ladd (1983a, 145) wie schon Liberman/Prince (1977,250) das Repräsentationsformat ausdrücklich als formale Präzisierung der akzentzählenden Teleologie interpretieren, kritisiert Buxton (1983,119), daß die temporale Motivation dieser Darstellung immer mehr in den Hintergrund getreten sei und stattdessen nur noch zu algorithmischen Beschreibungen von Prominenzverhältnissen diene. Wie wir in 1.3.3 noch sehen werden, ist der wortphonologische Teil von Liberman/Prince (1977) rasch zu einer universellen Theorie von Wortakzentsystemen ausgebaut worden. Dagegen hat man die Notwendigkeit einer eigenständigen Repräsentation für sententiale rhythmische Konturen bestritten. Allgemein ist die Trias von Baum, Gitter und Akzentmerkmal bei Liberman/Prince (1977) bald als unelegant empfunden und auf verschiedene Weise reduziert worden: Während Prince (1983) und Selkirk (1984) nurmehr Gitterdarstellungen verwenden, verzichtet umgekehrt Giegerich (1985) auf die Gitter zugunsten der Bäume. Halle/Vergnaud (1987) versuchen dagegen, einen Teil der Konstituenzinformation, die in einer Baumdarstellung enthalten ist, durch geklammerte Gitter (englisch bracketed grids) zu bewahren, und heben im Gegensatz zu Prince die Wichtigkeit der Fußkonstituente hervor, die beispielsweise die Richtung von phrasal determinierten 'Umakzentuierungen' vorherzusagen erlaube. Hayes (1984) plädiert jedoch für eine Beibehaltung sowohl von Baum- als auch Gitterdarstellungen, allerdings mit klar unterschiedenen Anwendungsbereichen: Während die Konstituenzinformation im metrischen Baum eine vollständigere Beschreibung der Wortprosodie erlaubt, ist seiner Auffassung nach eine eigene Repräsentation rhythmischer Konturen im Gitter zur unmittelbaren Erfassung von solchen eurhythmischen Tendenzen erforderlich, die allein unter Rekurs auf die Anzahl der Silben zwischen zwei Prominenzen gleicher phonologischer Stärke formulierbar sind. Allerdings übt Hayes Kritik am Konzept des Akzentzusammenstoßes bei Liberman/Prince, da es zum einen einige tatsächlich im Englischen naheliegende Prominenzgestaltungen nicht erfassen kann, weil sie aus den wortprosodischen Spezifikationen alleine nicht erschließbar sind, zum anderen jedoch alternationsfördemde 'Umakzentuierungen' vorhersagt, die intuitiv nicht naheliegen: So scheint die Rhythm Rule zwar für engl, analytic thought naheliegend, nicht jedoch für analytical thought, obwohl beide Ausdrücke eine c/asft-Konfiguration aufweisen. Anders als Liberman/Prince (1977) versucht Hayes (1984) nicht, satzphonologische Optimierungen der Prominenzalternation dadurch zu erfassen, daß er eine Kontureigenschaft als rhythmisch mangelhaft kennzeichnet und zusätzlich Regeln auf metrischen Gittern zur Wiederherstellung des Alternanzideals angibt. Vielmehr spezifiziert er genau, welche Prominenzkonturen rhythmisch präferiert sind, und gibt Regeln zu ihrer Verbesserung an, die er als rules of eurhythmy oder rules of rhythmic adjustment bezeichnet. Dabei spricht Hayes (1984,55) sich ausdrücklich für eine unabhängige Formulierung von Qualitäten der Prominenzkontur und meliorativen rhythmischen Prozessen aus, da nach seiner Auffassung unterschiedliche satzphonologische Derivationen auf die gleiche Teleologie zurückgehen können.

61 Nach Hayes ist auf niedrigeren Ebenen mit Ausnahme der Grundlinie im metrischen Gitter binäre Alternation präferiert: So sollte auf einer Ebene η jede zweite Silbe prominenter als ihre Vorgänger- und Nachfolgersilbe sein und eine Markierung im Gitter erhalten. Auf der nächsthöheren Ebene η + 1 sollte außerdem wiederum jede zweite Markierung von η als relativ prominent markiert werden. Diese Reihe η + 1 , auf der idealerweise jede vierte Spalte ein "x" erhält, bezeichnet Hayes als Skandierungsebene (level of scansion). Interessanterweise setzt sich nun diese binäre Auswahl aber auf höheren Ebenen nicht mehr fort; insbesondere gilt für die zweithöchste Ebene im Gitter, daß sie im eurhythmischen Idealfall genau zwei möglichst weit auseinanderliegende Markierungen enthält. Unter (21) finden sich die drei Prinzipien von Hayes (1984) zusammengefaßt: (21) Eurhythmische Prinzipien nach Hayes (1984,46-52) Disyllabic Rule Quadrisyllable Rule Phrasal Rule

Auf der Ebene direkt unterhalb der Skandierung sollten alle Skandierungsdomänen in zwei gleiche Hälften geteilt sein. Gitter mit einer Ebene, deren Markierungen im Abstand von vier Silben aufeinanderfolgen, sind rhythmisch präferiert. Ein Gitter ist rhythmisch präferiert genau dann, wenn auf der zweithöchsten Ebene genau zwei Markierungen liegen, die soweit als möglich voneinander entfernt liegen.

Dabei deutet Hayes die beiden ersten Regeln unter (21) durchaus temporal als Isochronisierungspräferenzen, welche allerdings simultan auf zwei Ebenen akzentueller Prominenz operieren: "[... ] rhythm involves a whole set of isochronous intervals enacted in a simultaneous hierarchy" (Hayes 1984,48). In diesem Zusammenhang charakterisiert er das eurhythmische Ideal des Englischen als schnellen 4/4-Takt. Als readjustment rules zur Optimierung rhythmischer Konturen im Rahmen der wortprosodischen Spielräume führt Hayes neben einer Version der Rhythm Rule auch eine Regel der Beat Addition ein, nach der in einem metrischen Gitter zusätzliche Markierungen auf die Spalten aufgesetzt werden können, solange dabei die relativen Prominenzunterschiede gewahrt bleiben. Hingegen dürfen durchaus neue Prominenzunterschiede zwischen den Silben hinzukommen. Hayes zeigt, etwa anhand des unter (22) dargestellten Beispiels, daß diese Lizenz rhythmische Konturierungsmöglichkeiten im Englischen zumindest mitbestimmen kann: (22) Beat Addition als eurhythmisierende Regel (Hayes 1984, 60)

X X X Peter's

X X three

χ χ red

χ χ χ shirts

X χ —> χ χ χ Peter's

χ χ χ three

χ χ red

χ X χ χ χ shirts

Abweichungen von dieser zweistufigen binär-quatemären Alternanz können dabei auf wortphonologische Beschränkungen zurückgehen, für die Hayes ja nach wie vor eine eigene Repräsentation durch rhythmische Bäume zur Kodierung von Prominenzfähigkeit und Fußkonstituenz für erforderlich hält, oder auch auf informationsstrukturelle Anforderungen der Fokusmarkierung sowie auf eine Tendenz zur Demarkation syntaktischer Einheiten. Bereits damit darf Hayes (1984) als ein Meilenstein in der neueren Befassung mit akzent-

62 rhythmischen Verhältnissen im Englischen gelten, da er die wegweisenden Ideen von Liberman/Prince (1977) weiterentwickelt und die satzphonologische Einrichtung von Prominenzkonturen nicht allein negativ als Reparatur und Rettung der mehrstufigen Alternanz im Rahmen der Betonbarkeitsmöglichkeiten begreift, sondern explizit eine eurhythmische Teleologie angibt. Dabei werden sowohl die Disyllabic Rule wie auch die Quadrisyllable Rule durch Verweis auf ihre phonetische Isochronisierungsleistung motiviert. Erst in einem Anhang erwägt Hayes jedoch mögliche weitere Konsequenzen einer solchen temporalen Organisation des Sprechens, da ja die Regelung der Abstände zwischen Prominenzen nicht nur über die Anzahl intervenierender Silben erfolgen kann. Dabei weist er auf einen schon von Bolinger (1962) beigebrachten Befund hin, derzufolge im Englischen in nominalen Ausdrücken der Struktur 'Adjektiv ι and Adjektiv2 Nomen' eindeutig diejenige Reihenfolge der Adjektivformen bevorzugt wird, die eine isochronere Abfolge der Prominenzen ermöglicht. Solche Serialisierungspräferenzen finden sich bei Adjektiven verschiedener Silbenanzahl und Wortprosodie; beispielsweise scheint die Reihenfolge mad and senseless slaughter im Vergleich zu senseless and mad slaughter bevorzugt. Entscheidend für eine Einbeziehung der Zeitdimension ist nun, daß auch bei Paaren von einsilbigen, teilweise erfundenen Adjektiven und einsilbigem Bezugssubstantiv sich signifikante Asymmetrien in der Anordnungshäufigkeit ergeben. Phonetisch kürzere, auf stimmlosen Plosiv endende Formen werden nämlich konsequent vorangestellt: so gewinnt plap and plam house nach Bolinger gegenüber plam and plap house. Da jedoch weder metrische Bäume noch Gitter solche temporalen Unterschiede zu notieren erlauben und die beiden obigen Ausdrücke sich folglich im Rahmen der Metrischen Phonologie nicht unterscheiden lassen, können die linguistisch zu beschreibenden Folgen dieser phonetischen Maxime nicht alleine in den bisherigen Darstellungsformaten erfaßt werden, welche nur Silbenza/i/en, aber eben nicht Silbendauern spezifizieren. Hayes gesteht zwar diese Begrenzung einer metrischen Behandlung rhythmischer Konturen ein, allerdings in einer Uberraschenden argumentativen Wendung: [... ] the hypothesis that the spacing requirements of eurhythmy are phonetic is an attractive one on several grounds. [... ] One interesting aspect of a purely temporal principle of eurhythmy would be its independence from linguistic units. (Hayes 1984, 73) Offenbar versucht Hayes, gerade aufgrund der Fundierung eurhythmischer Präferenzen in der Zeitdimension sie als Gegenstand einer linguistischen, insbesondere phonologischen Beschreibung in Frage zu stellen. Im Gegensatz zu metrischen Bäumen - deren Nutzen Hayes zunächst auf die Wortphonologie beschränkt, um sie im folgenden doch wieder auch größeren phrasalen Ausdrücken zuzuordnen - haben Gitter ja gerade die Aufgabe, rhythmische Konturen zu repräsentieren, die aber seiner Ansicht nach keine phonologischen Tatsachen darstellen: " [ . . . ] grids are not strictly speaking a linguistic representation at all, but instead represent metrical structure" (Hayes 1984,65). An anderer Stelle (S. 69) spricht er im Zusammenhang von Bäumen und Gittern außerdem von "separate cognitive domains" und versucht hierdurch ein weiteres Mal, seine Entscheidung für eine Beibehaltung beider Formate zu rechtfertigen. Diese Verbannung des Rhythmus aus der Phonologie steht nicht nur im Widerspruch zum Titel des Aufsatzes von Hayes ('The phonology of rhythm in English"), sondern auch zu seinem eigenen Argument für die Ansetzung einer Gitterrepräsentation: Nur diese, nicht jedoch metrische Bäume, können nämlich Hayes zufolge auch metrische Schemata der Dichtung unmittelbar erfassen. Bei allem Dissens innerhalb der poetologischen Metrik kann jedoch als gesichert gelten, daß die Versifikation nicht direkt auf phonetische Eigenschaften,

63 sondern auf solche der phonologischen Gestalt Bezug nimmt (vgl. Brogan 1981, xix und die Angaben in 4.3.1). Es scheint ferner, daß auch der Hinweis von Hayes (1984, 59) auf die mögliche Sprachunabhängigkeit eurhythmischer Regeln ihnen implizit phonologischen Rang absprechen will. Hierbei beruft er sich allerdings nur auf zwei Sprachen neben dem Englischen, nämlich Deutsch und Polnisch, so daß die angenommene Universalität wohl kaum mehr als bloße Spekulation darstellt. Daß es jedoch zu einfach ist, universelle Tendenzen in der Lautsprache als nur phonetisch und auf einzelne Sprachen beschränkte Tendenzen als phonologisch zu werten, scheint auch angesichts der schwierigen, vielleicht zu großen Teilen akademischen Frage der Grenzziehung zwischen Phonetik und Phonologie unbestreitbar. Insbesondere finden sich neben phonetischen auch phonologische Universalien. Darüber hinaus weist Hayes (1984, 68) selbst auf Unterschiede in den Beschränkungen für eurhythmische Optimierungsprozesse zwischen dem Englischen, Deutschen und Polnischen hin, was zwar innerhalb seines Vorgehens umgekehrt die Neuinterpretation der Beat Addition-Regel als Transformation auf phonologischen Bäumen unterstützen soll, meiner Ansicht aber gerade für eine einzelsprachliche Satzrhy thmusphonologie spricht. Anders als im Englischen kann nämlich im Deutschen, wie bereits Kiparsky (1966) hervorhebt, eine Anwendung der Rhythm Rule Prominenz auch nach hinten verlagern. So darf die Hauptprominenz des Infinitivs anziehen im Syntagma den Rock anziehen auf die zweite Silbe fallen, wohingegen in engl, to get president eine vergleichbare amphibrachyische Kontur bei president ausgeschlossen ist. Kritisch zur Rhythmustheorie von Hayes ist ferner anzumerken, daß sie eine hohe, prinzipiell unbeschränkte Diskriminationsfähigkeit für Rhythmizitätsabstufungen und Prominenzgrade voraussetzt. Ob etwa ternäre Prominenzalternanzen wie in seventeen fishermen oder Bob went to Manchester wirklich weniger eurhythmisch sind als entsprechende binäre Konturierungen bei thirteen women oder Bob loves London, bliebe zu zeigen. Auch betrachtet Hayes beispielsweise die Prominenzkontur unter (23a) als korrekt, die alternative Rhythmisierung unter (23b) jedoch dezidiert als ausgeschlossen: (23) Zur Subtilität der Bewertungen bei Hayes (1984, 61)

X X

Χ x

x

XXX (a)

overdone

x

X X

x

χ χ χ

X x

Χ

Χ

steak

blues

XXX (b)

overdone

x

x

x

χ

X

steak

blues

Hier scheint die Grenze der phonologischen Urteilsfähigkeit erreicht, und auch in den ermittelten systematischen Prominenzabstufungen von Sprechern des Englischen (vgl. Beckman/Edwards 1994) und entsprechend den Konturwahrnehmungen anglophoner Hörer (vgl. Terken/Hermes 2000) zeigen sich höchstens vier Prominenzgrade: Auf der untersten Stufe stehen Reduktionssilben, Vollsilben ohne und mit akzentrhythmischer Prominenz bilden die zweite und dritte Ebene, die ihrerseits nur durch den sich vorwiegend tonal manifestierenden Fokusakzent dominiert wird. In der teilweisen Leugnung einer phonologischen Rhythmuskomponente sowie den übergenauen Aussagen zu Prominenzkonturen bei einer gleichzeitig zu ungenauen Erfassung der Zeitdimension liegen meiner Ansicht nach somit die Schwachpunkte von Hayes (1984).

64 1.3.2

Metrische Phonologie als simultane Wort- und Satzphonologie

Immer noch einen der zentralen Bezugspunkte in der Entwicklung einer von der Akzentlehre unabhängigen Rhythmusphonologie bildet die Monographie von Selkirk (1984). Anders als Hayes betrachtet sie die rhythmische Kontur einer Äußerung ausdrücklich als Gegenstand einer linguistischen Theorie, welche die phonologische Interpretation syntaktischer Strukturverhältnisse und ihre mögliche phonologieinterne Reorganisation zum Thema hat. In einer weiteren Abweichung von Liberman/Prince (1977) und Hayes (1984) beschränkt sie sich ausschließlich auf metrische Gitter zur Darstellung wort- und satzphonologischer Verhältnisse, da sie die prinzipielle Unterscheidung von Morphologie und Syntax ablehnt. Die interne Struktur von Wortformen kann, ja muß nach der Theorie der Wortsyntax, zu deren Ausarbeitung Selkirk (1982) selbst wesentlich beigetragen hat, ebenso wie die Verhältnisse im Satz beschrieben werden. Der Versuch, morphologische Strukturen im Rahmen einer ausschließlich syntagmatischen Theorie mit syntaktischen Phrasenstrukturen und Merkmalsvererbung zu analysieren, darf mittlerweile als gescheitert gelten (vgl. zur Kritik etwa Becker 1990/1991). Selbst wenn aber Parallelen im Aufbau von Wortformen und syntaktischen Einheiten vorliegen sollten, rechtfertigt dies meines Erachtens nicht die Annahme gleicher phonologischer Organisationsprinzipien. Selkirk wendet sich jedoch ausdrücklich gegen eine Unterscheidung von Wort- und Satzphonologie: Words and sentences can be generated by the same sorts of rules and can be phonologically interpreted by the same general principles of the syntax-phonology mapping. (Selkirk 1984, 415) Sprachliche Ausdrücke jeglicher Größe unterliegen somit einem einheitlichen eurhythmischen Prinzip, das Selkirk als Beschränkung für metrische Gitter in mehreren Fassungen diskutiert, deren letzte unter (24) wiedergegeben ist: (24) Principle of Rhythmic Alternation (Selkirk 1984, 52) (a) Auf jede starke Position auf einer metrischen Ebene sollte mindestens eine schwache Position auf der gleichen Ebene folgen. (b) Jeder schwachen Position auf einer metrischen Ebene darf höchstens eine schwache Position auf der gleichen Ebene vorausgehen. Dabei macht Selkirk keine Angabe, auf welchen Ebenen (24) gelten soll. Auch findet sich keine explizite Definition von Stärke für Positionen (oder Silben), sondern nur für Markierungen. So ist eine Markierung stark genau dann, wenn oberhalb von ihr in der Spalte noch eine weitere Markierung liegt (S. 1 l ) . n Überdies scheint auf der obersten Ebene außer in Äußerungen mit mehrfachen Fokusakzenten typischerweise nur eine Markierung eines sententialen Prominenzmaximums vorhanden zu sein, was bei mehr als viersilbigen Äußerungen mit Notwendigkeit zu einem Verstoß gegen (24) führt, 1 2 intuitiv jedoch die rhythmische Qualität nicht beeinträchtigt. (24a) impliziert aber außerdem, wie Selkirk (1984, 51) selbst vermerkt, ein Verbot starker Silben am Äußerungsende, wofür man eine Begründung bei ihr allerdings vergeblich sucht. Gerade für 11

12

Als wenig intuitives Korollar ergibt sich dabei, daß gerade diejenigen Markierungen, die als oberste in ihrer Spalte den Prominenzgrad einer Position definieren, grundsätzlich schwach sind. In viersilbigen Äußerungen mit nur einer auf der jeweiligen Ebene starken Silbe harmoniert die Abfolge "wwsw" als einzige mit beiden Bestimmungen von (24).

65 das Englische scheint mir aber eine solche Forderung wenig motiviert, und auch in der dichterischen Tradition finden sich keineswegs trochäisch-daktylische Schlüsse bevorzugt - im Gegenteil: in den metrischen Schemata des jambischen Tetrameters und Pentameters, die die englische Dichtung von Chaucer bis ins 20. Jh. hinein eindeutig dominieren (vgl. Brogan 1981,339), erhält die letzte Silbe sogar regelmäßig eine Prominenz. Oberhalb der zweiten Stufe jedoch ist, um die Intuition der generalisierten metrischen Alternation von Liberman/Prince (1977) zu erfassen, zu einer präzisen Definition der Rekurs auf die unmittelbar darunter liegende Ebene erforderlich: Faßt man nämlich für eine beliebige Ebene k > 2 und Spaltenposition ι "schwach" als Fehlen einer Markierung an der Koordinate (i,k) auf, so verstößt jeder Prominenzabstand von mehr als zwei Silben gegen (24b). Relevant sind aber natürlich nur die Spalten, die auf der Ebene k — 1 eine Markierung tragen. Unter dieser Präzisierung kennzeichnet (24a) genau den unter (20a) bereits dargestellten metrischen Akzentzusammenstoß als dispräferiert. Neu ist die negative Bewertung von Markierungen auf Ebene k, die mehr als zwei Markierungen von k — 1 'überspringen', die sogenannte /a/we-Konfiguration. Während also bei Selkirk ternäre Abfolgen isoprominenter Silben noch nicht als rhythmisch schlecht gelten, findet sich in späteren Reformulierungen der /a/we-Beschränkung (vgl. Elenbaas/Kager 1999) diese zu einem generellen Verbot nichtbinärer Alternanz erweitert. Plausibler erscheint Selkirks Principle of Rhythmic Alternation dagegen auf der zweiten Ebene, von ihr als beat level bezeichnet. Nun liegt es nahe, die Forderung, jede zweite oder dritte Silbe metrisch stark zu gewichten, als Präferenz für binäre oder ternäre Verfußung zu interpretieren. Selkirk wendet sich jedoch ausdrücklich gegen die Ansetzung einer Fußkonstituenz, da diese ihrer Ansicht nach in der Akzent- und Rhythmuslehre nicht notwendig ist, und sich in anderen Bereichen der phonologischen Organisation Regularitäten, die auf die Fußeinheit Bezug nehmen, meist unter Rekurs auf Akzentverhältnisse formulieren lassen: [... ] there is relatively little evidence that the foot itself serves as a domain for phonological rules. Most alleged foot-sensitive rules can be easily and with no loss of generalization recast as rules sensitive to the stressed-stressless distinction. (Selkirk 1984, 31)

Offen bleibt meines Erachtens dabei aber, inwieweit der Gegensatz "stressed vs. stressless" als ein Betonbarkeits- oder Betontheitskontrast zu verstehen ist. Hier zeigt sich meiner Ansicht nach bereits die Schwierigkeit einer simultanen Behandlung von wortphonologischer Akzentlehre und Satzrhythmus.13 Ferner nimmt auch Selkirk, ähnlich wie Hayes, eine kognitive, nicht auf die Lautsprache beschränkte Begründbarkeit ihres Alternanzprinzips an (vgl. zur Diskussion 4.2.1.1). In ihrer Ablehnung konstituenzbasierter sprachrhythmischer Theorien argumentiert Selkirk (1984,27ff.) auch gegen die Annahme phonologischer Wörter und Phrasen im Englischen, wohingegen sie die Intonationsphrase für die oberen Ebenen des metrischen Gitters als wichtig erachtet. In der von ihr selbst kurz als pitch-accent-first-Theorie (S. 144) bezeichneten Vorrangigkeit der Fokus-Hintergrund-Gliederung zeigt sich auch, daß die satzrhythmische Gestalt nicht ausschließlich im Rahmen der akzentuellen Vorgaben von unten nach oben in optimal alternierender Weise aufgebaut wird, sondern auch die syntaktisch und in-

13

Dagegen werden sowohl bei Liberman/Prince (1977) als auch bei Hayes (1984) Silben in beiden Hinsichten prosodisch spezifiziert.

66 formationsstrukturell festgelegte Position des Satzakzents gewissermassen von oben her den Gitteraufbau mitdirigiert. Ob jedoch die Ausweitung der Alternanzidee auf Ebenen oberhalb des beat levels beziehungsweise der Skandierungsebene bei Hayes plausibel ist, scheint mir nicht klar. Ist etwa in engl. Peter gave the big red book to Mary bei einer skandierenden Lesart in fünf Trochäen tatsächlich die Zuweisung höherer Prominenzgrade an die beiden Eigennamen rhythmisch schlecht, wie es die /apse-Dispräferenz von Selkirk vorhersagt? Oder sollte sie im Gegenteil sogar ein eurhythmisches Optimum bilden, wie nach der Phrasal Rule von Hayes (1984) zu schließen? Hier ist introspektiv eine Entscheidung kaum mehr möglich und in Abhängigkeit vom Gesprächskontext, der anzusetzenden Informationsstruktur und auch vom Sprechtempo sehr viel mehr Variation in der realisationsphonologischen Gestaltung erwartbar als bei kürzeren, beispielsweise Einwortäußerungen. Auch fUr die Satzphonologie mag das Penthouse Principle von Ross (1973) gelten, der in Bezug auf die syntaktische Strukturbildung mehr kombinatorische und positioneile Freiheit auf der obersten syntaktischen Ebene erkennt als etwa in subordinierten Sätzen. Die Entscheidung Selkirks, das Alternanzprinzip für unbeschränkt viele Ebenen oberhalb der ersten alternierenden zu postulieren, scheint also eher einem Bedürfnis nach theoretischer Allgemeinheit und somit Eleganz entsprungen denn intersubjektiv tatsächlich verifizierbar zu sein. Ambivalent wirkt die Position Selkirks in der Frage einer möglichen temporalen Fundierung ihrer Altemanztheorie: Zwar weist sie ausdrücklich auf die isochronisierende Leistung ihrer beiden Präferenzen hin, erachtet aber andererseits die Rekurrenz bestimmter Prominenzkonturmuster unabhängig von den jeweiligen Silbendauern als abstrakte auditive Gestalten für mindestens ebenso wichtig: [... ] isochrony should in no way be considered as the sine qua non of a truly rhythmic system. The notion of pattern, as consisting of a regular recurrence of motifs defined in strong-weak terms, may be just as important as isochrony in establishing the rhythmic character of speech. (Selkirk 1984,40; Hervorhebung im Original) Dennoch besteht eine ihrer zentralen theoretischen Innovationen und Erweiterungen der Gitterdarstellung gerade in der Einführung der bereits von Abercrombie postulierten silent beats als Spalten mit einer Markierung, der keine phonische Substanz entspricht, sondern nur eine temporale Extension. Dabei können bei tieferen syntaktischen Einschnitten auch mehrere Spalten eingefügt werden, wie im Vergleich von (25a) mit (25b) deutlich wird. Mit dieser Repräsentation auch von Sprechpausen versucht Selkirk, ein formales Pendant zu Junktursymbolen linearer generativer Theorien zu entwickeln und gleichzeitig die syntaktische Mitbedingtheit und rhythmische Relevanz solcher Zeitintervalle zu erfassen. Dabei geht sie allerdings soweit, längeren Pausen im Gitter sogar eine interne rhythmische Struktur zuzuordnen, wie unter (25c) zu sehen: (25) Die Repräsentation von Pausen im metrischen Gitter nach Selkirk (1984,184 und 321) X X χ X X X X χ χ XX X XX X X X X X χ χ (x) X χ χ (x)xx X Χ Χ XXX X X (a) Marcel Proust (b) Marcel left (c) U Mass's library

67 Auch stellt sich Selkirk zumindest kurz der Frage nach der rhythmischen Eigenart der als silbenzählend eingestuften Sprachen. Ihrer Auffassung nach bezeichnet Silbenzählung eine Identität der ersten beiden Ebenen im metrischen Gitter. Im Unterschied zu akzentzählenden Sprachen findet sich etwa im Italienischen nach Selkirk (1984,41) gerade keine Alternation auf der Ebene der Takte (beats). Allerdings illustriert Selkirk ihre These lediglich mit zwei kleineren Beispielen, die wir unter (26) wiedergeben: (26) Silbenzählung im metrischen Gitter nach Selkirk (1984,41 und 51)

(a)

Χ Χ

XXX XXX

il

popolo

χ χ χ xxxxx xxxxx (b)

generativa

Hier fällt zunächst das Fehlen jeglicher Prominenzkontur in (26a) auf. Allgemein scheint also die Errichtung metrischer Struktur im Gitter nicht einfach rekursiv zu erfolgen, wie Selkirk unter Berufung auf zyklische wortphonologische Theorien es nahelegt, sondern einer nicht durch die phonische Substanz motivierten Doppelung der Ebenen zu gehorchen. Offenbar ist eine Hierarchieebene, nämlich die zweite, als für die zeitliche Strukturierung entscheidend gegenüber den anderen ausgezeichnet, so daß die Idee der Silbenisochronie durch die konstanten, nämlich minimalen, Abstände der Markierungen festgehalten wird. Auch wenn wir aber von den unter 1.2.1.2 bereits angeführten durchweg problematischen Meßergebnissen zu dieser postulierten Rhythmisierungsart absehen, bleibt doch erstaunlich, daß bei einem universellen Alternationsprinzip das Italienische grundsätzlich - wegen der stipulierten fehlenden Alternation durch die maximale Besetzung der zweiten Ebene - weniger Eurhythmie aufweisen sollte als das Englische (vgl. auch Nespor 1990a, 166f., die identische Repräsentationen für italienische und englische Prominenzkonturen fordert). Auch ist nicht klar, wie eine morenbasierte Sprache wie das Japanische, für die nicht rekurrente silbenprosodische Muster, sondern gerade die Zeitstruktur unabhängig von der silbenprosodischen Basis als Grundlage der rhythmischen Organisation dient, im Gitterformat angemessen in dieser prosodischen Eigenart dargestellt werden kann.14 Selkirks notationeller Kunstgriff zeigt in meinen Augen vielmehr, daß eine separate - eben autosegmentale - Repräsentation von Zeitstrukturen zumindest in einem universalphonologischen Rahmen unverzichtbar ist (vgl. auch Couper-Kuhlen 1993, 85ff.). Daneben scheint auch Selkirks Versuch, wortphonologische Akzentspezifikationen und satzphonologische Konturierungsmöglichkeiten in einheitlicher Weise zu erfassen, der unterschiedlichen Abstraktheit von Akzent- und Rhythmuslehre nicht gerecht zu werden, wie wir am Beispiel ihrer siressed-jfrett/ess-Unterscheidung angedeutet haben. Eben diese Behandlung akzentueller Phänomene als rhythmisch gewinnt jedoch in den folgenden Jahren stark an Bedeutung, wie wir in den nächsten beiden Unterabschnitten sehen.

14

Kager (1993b, 299) schlägt vor, jeder More auf der untersten Markierungsebene eine eigene Spalte zuzuweisen. Nachteilig mag jedoch erscheinen, daß dann wiederum die silbische Gliederung aus dem Gitter nicht unmittelbar hervorgeht. Diese aber ist für die Gliederung in phonologische Phrasen wichtig, welche ihrerseits der phrasalen Zuweisung tonaler Prominenz im Japanischen zugrundeliegt.

68 1.3.3

Metrische Phonologie als parametrisierte Wortphonologie

Neben der auf das Englische und wenige andere Sprachen begrenzten Rhythmuslehre bilden die Akzentverhältnisse im Wort das zweite Hauptthema der Metrischen Phonologie. Wortakzent scheint zwar keine universelle, jedoch nach Hyman (1977, 37) zumindest sehr häufige prosodische Kategorie in den Sprachen der Welt zu bilden. In der europäischen phonologischen Tradition seit Jakobson [1931] und Trubetzkoy [1939] gilt dabei Kulminativität als defìnitorisch: Eine Sprache ist eine Akzentsprache genau dann, wenn sie - in allen oder zumindest innerhalb von Wortformen, die lexikalische Information kodieren - eine Silbe als globales Prominenzmaximum in einer isolierten Darbietung dieser Wortform auszeichnet. Jakobson und Trubetzkoy weisen außerdem darauf hin, daß mindestens in den Sprachen, in welchen die Position des Wortakzents 'fest', das heißt phonologisch determiniert ist, sich eine Tendenz zur Demarkativität zeigt, Akzente also zu einer Plazierung nahe am Anfang oder Ende der Wortform tendieren. In einer grundlegenden typologischen Studie findet Hyman (1977) in seiner 444 Sprachen umfassenden Stichprobe, die er im Rahmen der verfügbaren Daten genealogisch wie areal möglichst ausgewogen zusammenstellt, 306 Sprachen, in denen eine einheitliche Akzentlage dominiert. Interessanterweise zeigt sich dabei, daß zwar Erst- und Letztsilbenakzent in etwa gleich verbreitet sind (mit 114 beziehungsweise 97 Vertretern in der Stichprobe), Zweitsilben- jedoch weit seltener als Paenultimaakzentuierung auftritt (mit 12 beziehungsweise 97 Beispielen). Bei Akzentregeln, nach denen die dritte Silbe vom Anfang oder Ende einer Wortform aus dominiert, findet Hyman nur noch finale, das heißt vom Ende her bestimmte, Akzentuierung in 6 Sprachen mit Antepaenultimaakzent (vgl. aber Hualde 1998, der für die Azkoita-Varietät des Baskischen regelhaften Akzent auf der dritten Silbe behauptet). Auch Gordon (2002,494ff.) bestätigt in seiner Auswahl von 187 Sprachen mit vorhersagbarer fester Akzentlage die von Hyman festgestellten Verteilungen. Die Position des Wortakzentes steht auch im Zentrum der universalphonologischen Arbeit von Hayes [1981] (1985). Dabei geht er davon aus, daß diese, wenn nicht in allen, so doch in der überwiegenden Mehrzahl der Sprachen nach einfachen phonologischen Präferenzen bestimmt ist, wie aus dem folgenden Zitat hervorgeht: [... ] the theory is intended to capture the notion of a natural stress rule, rather than a possible one. I have little doubt that there are a fair number of stress systems that cannot be described strictly within the limits of the theory [... ] What I am claiming ist that such systems will not be especially numerous, and that there will be no systematic class of counterexamples to the theory [... ] (Hayes 1985, 40; Hervorhebung im Original) Hierzu betrachtet er eine fußbasierte Beschreibung zumindest für die Klasse 'natürlicher Wortakzentsysteme' als beste Lösung. Dabei sind Füße im unmarkierten Fall binär (vgl. zur Diskussion 2.3.4.2) und somit entweder trochäisch - mit der metrisch starken Position links - oder jambisch strukturiert. Da Hayes ferner annimmt, daß eine Sprache entweder nur linksoder nur rechtsprominente Füße aufweist, bildet die Wahl der metrisch starken Seite bereits einen ersten Parameter. Nach dem Prinzip der Maximal Tree Construction (vgl. Hayes 1985, 9) wird in jeder Wortform der größte mit den einzelsprachlich festgelegten Strukturanforderungen noch verträgliche Baum errichtet. Allerdings erlaubt die Theorie auch nicht verfußte - in poetologischer Lehnterminologie 'extrametrische' - Silben, wenn auch nur als Grenzfall. Je nachdem, ob mit der Verfußung am linken oder am rechten Wortrand begonnen wird,

69 können sich bei Formen mit ungerader Silbenzahl wiederum verschiedene Verfußungen und somit Akzentprofile ergeben. Da der Wortakzent immer zu einer wortperipheren Position tendiert, ergibt sich als dritter binärer Parameter Initial- oder Finalakzentuierung - wiederum unter der Prämisse, daß in einer Sprache alle Wörter entweder Initial- oder Finalakzent haben. Darüber hinaus nehmen einige Sprachen, die sogenannten Gewichtssprachen, in ihrer Akzentvergabe auch auf die Struktur der Silben Bezug. Typischerweise, wenn nicht sogar in allen Fällen, erfolgen solche Gewichtsunterscheidungen der Silben binär (vgl. Newman 1973 und Restle/Vennemann 2001, 1322ff.). Unter (27) stellen wir die bisher entwickelten Parameter noch einmal zusammen: (27) Parameter einer universellen metrischen Akzenttheorie (Hayes 1985) 1. ± Gewichtsunterscheidung 2. Fußstruktur (a) links- oder rechtsköpfig (b) Verfußung von links nach rechts oder von rechts nach links 3. Wortstruktur links- oder rechtsköpfig Der Raum an Akzentuierungsmöglichkeiten, den die Parameter unter (27) eröffnen, erfaßt dabei Sprachen mit festem Hauptakzent auf der ersten, zweiten, vorletzten oder letzten Silbe mehrsilbiger Formen. Darüber hinaus sagt er die Existenz von Sprachen vorher, in denen etwa in Formen mit einer geraden Anzahl von Silben die Paenultima, in Formen mit einer ungeraden Anzahl von Silben jedoch die Ultima akzentuiert ist, sowie daneben natürlich auch eine spiegelbildliche Kookurrenz von auf der ersten und auf der zweiten Silbe akzentuierten Formen. Hülst (1996) nennt solche prosodischen Regularitäten Zählsysteme (count systems) und weist darauf hin, daß sie weit seltener attestiert sind als feste Akzentsysteme. Seiner Ansicht nach sollte die Alternanz zwischen den beiden Akzentpositionen in einigen dieser Sprachen besser als Folge einer Silbengewichtsunterscheidung analysiert werden. Der von Hyman festgestellten Asymmetrie zwischen initialer und finaler Akzentuierung kann im Modell von Hayes in naheliegender Weise durch die Beschränkung von Extrametrikalität auf das Wortende Rechnung getragen werden, da in diesem Fall zwar Antepaenultimaakzent (mit extrametrischer Ultima und trochäischer Verfußung) ableitbar ist, nicht jedoch fester Postpostinitialakzent. Nach Hayes (1985,7 If.) scheint es jedoch notwendig, etwa für die nordamerikanische Sprache Winnebago auch extrametrische Erstsilben anzunehmen, wobei der an dieser Stelle deutlich werdende universalphonologische Anspruch in markantem Gegensatz zu seiner pauschalen Qualifizierung morpholexikalischer Akzentsysteme als 'nicht natürlich' steht - immerhin kommen diese in der Stichprobe von Hyman (1977) in etwa einem Viertel aller Sprachen vor. Insgesamt scheint die Frage, ob Extrametrikalität auch am Wortanfang erlaubt sein soll, nicht geklärt. 15 Überhaupt wird das Konzept der Extrametrikalität im Rahmen der Akzentlehre nicht unabhängig motiviert, wie auch Goldsmith (1990, 203) moniert. Noch einige weitere Eigenheiten dieser algorithmisch formulierbaren Akzentzuweisung verdienen Erwähnung: So wird zuerst die Silbenfolge einer Wortform möglichst exhaustiv verfußt, wobei jede starke Fußposition als Nebenakzentsilbe gilt. Diese Verfußung ist im 15

Hogg/McCully (1987, 109) etwa lassen die Frage offen, Hülst (1999, 34) spricht sich für die Zulassung initialer Extrametrikalität aus, wohingegen Kager (1999, 165f.) im Rahmen der Optimalitätstheorie eine ausdrücklich auf das Wortende bezogene Beschränkung formuliert, bei deren Verletzung die Ultima extrametrisch werden kann.

70 Modell von Hayes derivational als linearer Durchgang durch die silbenprosodische Basis konzipiert. Erst nach der Festlegung der Nebenakzente wird, je nach parametrischer Vorgabe der jeweiligen Sprache, der erste oder letzte als Worthauptakzent ausgezeichnet. Dieser fußbasierten Phonologie liegen eine Reihe von Prämissen zugrunde, die wir in 2.3.1 und 2.3.4 noch zu diskutieren haben: So wird ebenso wie für die Lage des Hauptakzents auch eine für eine Wortform eindeutige Position aller Nebenakzente vorausgesetzt und die Frage nach möglichen satzphonologischen Einflüssen gar nicht erst gestellt. Die Distribution der Akzente in einer Wortform gilt dabei wie sententiale Prominenzkonturen als rhythmisch determiniert, wobei die binäre Verfußung eine optimale Alternanz gewährleistet. Sprachen unterscheiden sich nach der Theorie von Hayes lediglich in den Details der Regelung der Alternanzen. Die Metrische Phonologie betont also, hierin dem Generativen Paradigma in der Linguistik verhaftet, die Universalität sprachlicher Strukturen und versucht, alle Unterschiede zwischen den Sprachen als Verschiedenheit einiger weniger Parameterwerte zu erfassen. Akzentverhältnisse, die nicht in diesem Rahmen beschrieben werden können, also insbesondere nicht phonologisch, sondern morphologisch oder lexikalisch determinierte und zumindest potentiell auch distinktive Positionen, bilden nach Hayes keine natural stress rules. In einer Reihe von Arbeiten weist Hülst (1984; 1996; 1999) jedoch daraufhin, daß auch in Sprachen, in denen für alle oder auch nur einen Teil der Wortformen eine solche morpholexikalische Akzentuierung anzusetzen ist, nicht beliebige Silben als Träger des Wortakzents auftreten. In einer Theorie, die solche nicht phonologisch vorhersagbaren Akzente einfach in einem Vollformenlexikon 'diakritisch' (Hülst 1999,53) markiert, erscheint diese Beschränkung jedoch nicht verständlich. Offenbar gelten die Demarkativitätspräferenz und somit eine 'Natürlichkeitstheorie' für Akzentpositionen selbst dann noch, wenn die Lage des Wortakzents nicht phonologisch eindeutig bestimmt ist. Da jedoch Hayes (1985) in seinem Modell für Sprachen mit natural stress rules nur phonologische Bestimmungen betrachtet, kann er der Tatsache, daß Demarkativität sich nicht nur in Akzentregeln, sondern auch in Beschränkungen möglicher Akzentlagen niederschlagen kann, nicht gerecht werden. Hülst spricht sich demgegenüber für eine primary accent first-Theorie aus, in der die Plazierung des Worthauptakzents in einem algorithmischen Modell unabhängig von und vor der Verfußung und somit Nebenakzentvergabe erfolgt. Diese Entkoppelung der beiden prosodischen Phänomene trägt dabei nach Hülst (1999,72) unter anderem der Tatsache Rechnung, daß in einigen Sprachen Worthauptakzente, nicht jedoch Nebenakzente, in Abhängigkeit von einer Silbengewichtsunterscheidung zugewiesen werden. Haupt- und Nebenakzente unterscheiden sich aber noch in anderer Hinsicht: So sind letztere in Simplizia niemals lexikalisch festgelegt, dafür aber teilweise optional und in ihrer Lage variabel. Hülst (1999,75) interpretiert nun diese Verschiedenheit als Folge unterschiedlicher phonologischer Teilsysteme: Während Hauptakzente im Rahmen der Wortphonologie festgelegt werden, sind Nebenakzente 'postlexikalisch' und somit durch die Gestalt der Äußerung geregelt. Der Anspruch von Hayes (1985), die ganze Akzenttheorie einheitlich als rhythmisch basierte Wortphonologie zu entwickeln, wird von Hülst, der lediglich die Nebenakzentvergabe als Folge rhythmischer Präferenzen wertet, zurückgenommen: Having thus separated the assignment of primary accent from the assignment of non-primary accent, the latter can be seen as resulting from a fairly simple word level or post-lexical "rhythm box". [... ] The content of the rhythm box cannot be universally fixed because there are differences between languages. Rhythmic footing, for instance, can be weight-sensitive or weight-insensitive, binary or ternary; perhaps rhythmic footing is overwhelmingly trochaic [... ] (Hulst 1999, 75)

71 Halle/Vergnaud (1987) übernehmen in ihrem Ansatz einer universellen Akzentphonologie für die Asymmetrie zwischen starken und schwachen Füßen das Kopf-Spezifikator-Konzept der Syntax und fordern, daß aus den Prominenzverhältnissen die Position solcher prosodischer Köpfe eindeutig bestimmbar sein muß. Diese Forderung ist in ihrer unter (28) angeführten Recoverability Condition festgehalten: (28) Recoverability Condition (Halle/Vergnaud 1987, 10) Unter einer festgelegten Rektionsrichtung der Kopfkonstituenten in einem Sprachsystem muß die Lage metrischer Konstituentengrenzen eindeutig aus der Lage der Köpfe und umgekehrt die Lage der metrischen Köpfe eindeutig aus der Lage der Konstituentengrenzen hervorgehen. In ihrem Ansatz folgt außerdem, daß in Wortformen mit ungerader Silbenzahl die letzte betrachtete Silbe einen einsilbigen sogenannten degenerierten Fuß bilden und nach (28) auch Nebenakzent erhalten muß. In Zählsystemen sagt die Theorie von Halle/Vergnaud (1987) für solche Formen jedoch Akzentzusammenstoß voraus, und tatsächlich gibt es Idiome wie den Odawa-Dialekt der Algonquinsprache Ojibwa, wo sich in diesen Wortformen regelmäßig adjazente Betonungen finden. Aus diesem und einer Reihe weiterer Befunde, vor allem auch aus Akzentverlagerungen nach Modifikationen der silbenprosodischen Basis, schließen Halle/Vergnaud auf die Wichtigkeit einer Fußkonstituente auch in einer gitterbasierten metrischen Theorie. Meiner Auffassung nach zeigt sich in dieser Verabsolutierung der Fußkonstituenz jedoch, daß die rhythmische Motivation, mit der Hayes in den Fußbegriff eine universelle Akzenttheorie eingebaut hat, von Halle/Vergnaud (1987) gerade in ihr Gegenteil verkehrt und zur Erklärung auch arhythmischer Konturen herangezogen wird. Entsprechend gelten die durch die Füße geleisteten prosodischen Grenzziehungen wie auch die Prominenzunterschiede zwischen den Silben in einem Fuß nicht mehr als Folge rhythmischer Präferenzen, sondern unter Berufung auf (28) als ihre Ursache. Dabei wirkt die Recoverability Condition selbst lediglich stipuliert, und auch die Übertragbarkeit des Kopfbegriffes aus der Syntax wird schon für die Morphologie bezweifelt und kann in der Phonologie, will sie nicht als Bezeichnung jeglicher dominanter Elemente innerhalb einer größeren Einheit trivialisiert werden, allenfalls auf Analogien zu Rektions-, Kongruenz- und Dependenzkonzepten der Grammatik aufbauen (vgl. jedoch zu einer gegenteiligen Position Dresher/Hulst 1998). Der Versuch von Halle/Vergnaud (1987), eine sowohl akzentuelle wie rhythmische Verhältnisse spezifizierende Fußprosodie durch allgemeine grammatische Strukturprinzipien zu begründen, kann also insgesamt nicht überzeugen. Daß sogar die interne Struktur von Füßen als rhythmisch bedingt aufgefaßt wird, soll Gegenstand des nächsten Unterabschnitts sein.

1.3.4 Zur Restriktion der Fußtypen In seiner eindrucksvollen Monographie von 1995 präsentiert Hayes eine universalphonologische Theorie der Distribution von Akzenten (stresses), deren rhythmische Fundierung er bereits auf der ersten Seite als zentrale These anfuhrt. Dabei beweist in den Sprachen, die Akzent als einen phonologischen Organisationsrahmen (Hayes 1995, 8) kennen, nach Ansicht von Hayes gerade das Fehlen invarianter phonetischer Korrelate die rhythmische Grundlage des Akzents:

72 If the equation of stress and rhythmic structure is valid, then we automatically account for why there is no invariant physical realization for stress. The reason is that rhythm in general is not tied to any particular physical realization; one can detect and recognize the same rhythm irrespective of whether it is realized by (for example) drumbeats, musical notes, or speech. (Hayes 1995, 8f.) Aus der Tatsache, daß gleiche rhythmische Muster durch Schallereignisse unterschiedlicher akustischer Qualität gebildet werden können, folgt jedoch meines Erachtens noch nicht, daß der Spielraum der Betonungsverfahren eine rhythmische Distribution der betonten Silben erzwingt. Naheliegender erscheint mir die umgekehrte Hypothese, daß nämlich allein schon die Unterschiedlichkeit der phonetischen Interpretation von akzentuellen Prominenzen unterschiedliche rhythmische Konturbildungsmöglichkeiten zur Folge haben sollte. Hayes betont demgegenüber jedoch die Gemeinsamkeiten im prosodischen Bau von Akzentsprachen. Insbesondere postuliert er für sie grundsätzlich eine Fußkonstituente, grenzt jedoch eine kleinere Gruppe von Sprachen mit sogenannten unbeschränkten Füßen {unbounded feet) aus, die Füße beliebiger Silbenzahl bilden können. Wir werden auf diesen Fußtyp in 2.3.4.3 zurückkommen und konzentrieren uns im folgenden auf Akzentsysteme mit beschränkten Füßen, in denen nach Hayes (1995, 33) rhythmische Einflüsse am stärksten die Prosodie mitbestimmen, allerdings in sprachspezifischer Weise. Hayes versucht nun, sowohl die Fußkonstituenz als auch die Optimierung der Alternanz in einer gemeinsamen Darstellung zu erfassen und wählt dabei, wie schon Halle/Vergnaud (1987), geklammerte metrische Gitter. Im Unterschied zu seiner früheren Ansicht betrachtet Hayes (1995, 38) nunmehr die im Gitter repräsentierten Prominenzkonturen dezidiert als phonologische Objekte, was er allerdings mit der Einzelsprachlichkeit einiger in ihnen geltender Euphonieregeln zu begründen versucht - dabei allerdings vergißt, daß auch phonetische Eigenschaften sprachspezifisch sein können. Innerhalb der Fußtypen mit beschränkter Silbenzahl zeigt sich laut Hayes, daß nicht alle der in seinem parametrisierten Ansatz vorhergesagten Kombinationen von Fußtyp, Verfußungsrichtung und Gewichtsbasiertheit in den Sprachen der Welt gleich häufig vorkommen. Insbesondere ergeben sich drei auffällige Asymmetrien: Erstens finden sich kaum jambisch verfußende Sprachen ohne eine metrisch relevante Silbengewichtsdistinktion. Auch zeigt sich, daß bei jambischer Verfußung schwere Silben in metrisch schwacher Position nicht zugelassen sind. Schließlich gilt für einige trochäische Akzentsysteme, daß bei einer Verfußung von links nach rechts eine leichte Silbe (im folgenden als 'L' in Anlehnung an engl, light notiert) unmittelbar nach einer schweren (kurz Ή ' für engl, heavy) trotz des hierdurch entstehenden Zusammenstoßes akzentuiert wird. Hayes (1995) versucht nun diesen Befunden dadurch Rechnung zu tragen, daß er anstelle der Kreuzklassifikation von Parameterwerten nur noch eine echte Teilmenge der resultierenden Fußtypen als Grundelemente seiner Akzenttheorie vorsieht. So findet sich unter (29) lediglich ein gewichtsbasierter jambischer Typ, dessen Positionen auf ungleiche Weise spezifiziert sind: Während sowohl leichte als auch schwere Silben den Kopf des Fußes bilden können, darf in die schwache Position nur eine leichte Silbe eintreten. Dagegen gibt es neben dem sogenannten syllabischen Trochäus, der zwei beliebige Silben zu einem Fuß kombiniert, einen gewichtsbasierten moraischen, der zwei leichte oder auch eine schwere Silbe als Fuß erlaubt, in beiden Fällen also genau zwei Moren umfaßt, und somit auch einer leichten Silbe unmittelbar nach einer schweren einen Akzent zuweisen kann:

73 (29) Universelles Inventar beschränkter Füße nach Hayes (1995) (a)

Syllabischer (= nicht gewichtsbasierter) Trochäus:

(b)

Moraischer Trochäus:

(c)

Ungleicher (engl, uneven) Jambus:

X (σ X (μ (L

o)

, sonst

σ

, sonst L μ) χ χ , sonst σ) (Η)

Dieses Inventar führt Hayes ( 1 9 9 5 ) außerdem auf allgemeine kognitive Gruppierungspräferenzen zurück, worauf wir in 2.3.3 kritisch eingehen werden. Auffällig ist, daß Hayes auch innerhalb der Sprachen mit Gewichtsunterscheidung keineswegs spiegelbildliche Fußgestalten ansetzt. D a ß sich jedoch auch jambische Akzentsysteme finden, die Zweimorigkeit zum entscheidenden Kriterium erheben, zeigt bereits Kager (1991). Kager ( 1 9 9 3 a ) stellt das Fußinventar wieder als Kreuzklassifikation zweier Parameter dar, wobei die Binarität der Verfußung als Universale aufgefaßt wird. Sprachen wählen nach Kager als ihre Fußgröße entweder zwei Silben oder zwei Moren und setzen die metrisch starke Position entweder auf die linke oder die rechte Einheit. Somit gelangt Kager (1993a, 3 8 7 ) zum symmetrischen Inventar unter (30): (30) Universelles Inventar beschränkter Füße nach Kager (1993a, 387) moraisch trochäisch

, (μ

, μ)



* μ)

x

jambisch

syllabisch * (σ { σ

. σ) Χσ)

Umgekehrt ist auch für trochäische Füße eine Erweiterung des restriktiven Inventars von Hayes vorgeschlagen worden: S o könnte für sie auch eine Ungleichgewichtigkeit starker und schwacher Positionen gefordert werden. Kenstowicz (1994) etwa macht für das Lateinische und den Bani-Hassan-Dialekt des Arabischen solche gewichtssensitiven Trochäen wahrscheinlich. Dabei ist von den vier Kombinationen von leichten Silben und schweren, nämlich HH, HL, L L und LH, die letzte universell auszuschließen, da hier die prosodische Stärkerelation durch die Gewichtsasymmetrie gerade konterkariert wird. Dagegen bildet ein HL-Fuß das Optimum einer Koppelung von Silbenstärke und -schwere. Dresher/Hulst (1998, 3 2 5 ) fordern nun, das Inventar von Hayes ( 1 9 9 5 ) unter (30) um gewichtsbasierte Trochäen zu erweitern, und unterscheiden nach der Behandlung von L L und HH-Folgen vier Unterfalle verschieden 'strenger' nicht-moraischer gewichtsbasierter trochäischer Verfußung. Dabei kennzeichnet unter (31) das Symbol '-y/' einen im jeweiligen trochäischen System erlaubten Fußtyp, der Stern ' * ' dagegen eine nicht fußfähige Silbenfolge: (31) Typen gewichtssensitiver Trochäen (Dresher/Hulst 1998, 325) HL (a) (b) (c) (d)

ν y/ y/

LL

HH

LH

V V

*

*

y

*

*

*



*

*

Hierbei verletzt der Typ (31c) sogar die ansonsten häufig formulierte Beschränkung (vgl. Ewen/Hulst 2 0 0 1 , 224), derzufolge in gewichtsbasierten Systemen schwere Silben nicht

74 die schwache Fußposition einnehmen dürfen. Auch ternäre Füße werden von einigen Autoren im Rahmen der Metrischen Fußphonologie wieder zugelasen. Dresher/Lahiri (1991) etwa postulieren für das ältere Germanische, das schweren wie leichten ersten Silben einer Wortform den Hauptakzent zuweist, einen moraischen Daktylus, bei dem eine wortinitiale LH-Silbenfolge durch Auflösung - ein weiteres der poetologischen Metrik entnommenes Konzept - der zweiten Silbe zu einer erlaubten [[LL]L]-Konfiguration wird. Halle/Vergnaud (1987) setzen für die bolivianische Sprache Cayuvaya gar einen amphibrachyschen Fußtyp an und erlauben somit selbst starke Silben im Inneren eines Fußes, was umso mehr erstaunt, als noch Halle (1987,81) kategorisch formuliert: "Heads of metrical constituents are always located at one end or the other, never in the middle." Festzuhalten bleibt, daß außer einer Minimalitätsbeschränkung, die in nicht gewichtsbasierten Sprachen einzelne und in gewichtsbasierten einzelne leichte Silben als Füße verbietet (vgl. Ewen/Hulst 2001,225) sowie einem Ausschluß gegenläufiger Stärke- und Schwereverhältnisse nurmehr wenige Restriktionen in der Literatur einmütig akzeptiert werden. In dem Bestreben, Wortakzentverhältnisse, Prominenzkonturen auf Wortebene sowie Domänen phonologischer Regeln (insbesondere fUr Längungen und Kürzungen) simultan als Manifestation einer auf Wortebene verbindlichen Fußkonstituente zu beschreiben, zeigt sich deutlich das Dilemma zwischen dem gewünschten minimalen Inventar und der Plausibilität der angesetzten Gruppierungsmöglichkeiten. Sogar die These von der metrischen Kohärenz, der Ubiquität nur eines Fußtyps innerhalb einer Sprache also, ist in den letzten Jahren in Frage gestellt worden. So werden beispielsweise in der australischen Sprache Yidiny Paenultimavokale gelängt, aber nur in Wortformen mit ungerader Silbenzahl, was nach Kenstowicz (1994,589f.) ein Indiz dafür ist, daß hier die Quantität Uber jambische oder trochäische Rhythmisierung eines Wortes bestimmt.

1.3.5

Optimalitätstheoretische Metrische Phonologie

Wie nur selten zuvor hat unter den Linguisten und insbesondere den Phonologen die Optimalitätstheorie, auch unter der Kurzbezeichnung OT bekannt, innerhalb weniger Jahre seit ihrer Begründung durch ein bereits seit 1993 in Umlauf befindliches Manuskript von Prince/Smolensky rapide an Einfluß gewonnen. Insbesondere verhilft sie der alten Idee zu neuem Ansehen, bereits in der Beschreibung sprachlicher Strukturen auch Elemente einer Bewertung ihrer semiotischen Eignung einfließen zu lassen. Zulässige sprachliche Einheiten gelten dabei als bestmögliche - und genau in diesem Sinne 'optimale' - Kompromisse zwischen verschiedenen, potentiell konfligierenden Qualitätsmerkmalen, welche die Optimalitätstheorie negativ in Form von Beschränkungen (constraints) für mögliche sprachliche Einheiten formuliert. Gedankengut aus der generativen Linguistik lebt auch innerhalb von OT in der Unterscheidung einer Tiefen- und einer Oberflächenebene (kurz input beziehungsweise output) weiter, wobei aus einem 'zügrundeliegenden' Lexikoneintrag durch eine triviale Funktion gen unbeschränkt viele Kandidaten für die Bewertung erzeugt werden. Diese Evaluationsprozedur wird im Grammatikmodell wiederum in einem eigenen Algorithmus eval lokalisiert. Ebenso wie im Falle von gen ist dabei unklar, ob für diese Komponente des theoretischen Apparats ein vergleichbarer ontologischer Status wie für Module generativer Theorien beansprucht wird.

75 Alle Kandidaten werden nun einer einheitlichen Bewertung unterzogen, die auf der Grundlage einer sprachspezifischen Hierarchisierung der als universell postulierten Menge con verletzbarer Beschränkungen erfolgt. Eine optimale Form weist dabei möglichst wenige Verstöße gegen möglichst wenige Beschränkungen auf, die innerhalb der sprachspezifischen Gewichtung außerdem möglichst niedrige Rangplätze einnehmen. Dabei gelten zumindest in orthodoxen Darstellungen der Optimalitätstheorie alle Beschränkungen als total geordnet, so daß sich für jede Menge von Kandidaten eindeutig eine einzige sprachliche Form als optimal bestimmen läßt. Grundsätzlich gliedern sich zumindest in der Phonologie und Morphophonologie, wo die Optimalitätstheorie zuerst entwickelt wurde, alle Strukturanforderungen in zwei große Klassen, nämlich Treue- und Markiertheitsbeschränkungen (faithfulness und markedness constraints). Während Treue eine größtmögliche Ähnlichkeit zwischen der zugrundeliegenden Form und dem optimalen Kandidaten meint,16 formulieren Markiertheitsbeschränkungen unter anderem euphonologische Präferenzen, allerdings gewissermaßen in der formalen Zwangsjacke eines unären Parameters (vgl. Ewen/Hulst 2001, 244). Mehrwertige graduelle Abstufungen zwischen verschiedenen Ausprägungen auf einer Evaluationsmetrik können nämlich nicht oder zumindest nicht in naheliegender Weise formuliert werden. Daß etwa ein stimmloser Plosiv im Silbenonset nach den Präferenzgesetzen für Silbenstruktur besser als ein stimmhafter, dieser jedoch wiederum als Onset gegenüber einem Frikativ bevorzugt ist, scheint allein durch eine Qualifikation Uber Verletzungen einer Beschränkung nicht erfaßbar. Immerhin sagt dieser Ansatz vorher, daß bestimmte Formen unter jeden beliebigen Hierarchisierung von con nicht als optimal hervorgehen und somit nach Kager (1999,26) inhärent suboptimal und daher in keiner Spache möglich sind. Ob diese im Theorieformat eingebaute Restriktivität jedoch bereits die Menge des universalgrammatisch Möglichen spezifiziert, oder ob die auch von den Optimalitätstheoretikern hypostasierte Universalgrammatik die Menge zusätzlicher Hierarchisierungen weiter einschränkt, scheint auch unter den Hauptvertretern der OT umstritten (vgl. Kager 1999, 4 vs. Tesar/Smolensky 1998, 235). Im Rahmen der phonologischen Befassung mit Rhythmus ist im Rahmen von OT sehr schnell eine Umarbeitung von Einsichten und Ansichten der Metrischen Phonologie in eine Menge eurhythmischer Markiertheitsbeschränkungen unternommen worden. Kager (1999,161ff.) nennt die unter (32) aufgeführten Qualitäten als Elemente des universellen Inventars con (wir behalten die in OT gängige Praxis bei und beziehen uns auf einzelne Beschränkungen mittels in Kapitälchen gesetzter Kurzbezeichnungen):

16

In neueren Versionen von OT werden zunehmend auch Treuebeschränkungen zwischen verschiedenen Kandidaten als Mitgliedern eines Paradigmas angesetzt. Vgl. zur Diskussion Kager (1999, 413ff.).

76 (32) Beschränkungen für Füße in der Optimalitätstheorie (Kager 1999, 161ff.) Füße sind zweimorig oder zweisilbig. (a) F T - B I N Silben sind/werden verfußt. (b) PARSE-SYL Jeder Fuß beginnt am linken Ende seines prosodischen Wortes. (c) A L L - F T - L E F T Schwere Silben sind akzentuiert. (d) W S P Akzentuierte Silben sind nicht adjazent. (e) * C L A S H NONFINALITY Der prosodische Kopf steht nicht am Ende eines prosodischen Ω Wortes. Der Kopffuß ist der erste in seinem prosodischen Wort. (g) LEFTMOST Der Kopffuß ist der letzte in seinem prosodischen Wort. (h) RIGHTMOST Das prosodische Wort beginnt mit einem Fuß. (i) A L I G N - W D - L E F T ALIGN-WD-RIGHT Das prosodische Wort endet mit einem Fuß. 0) Wir erkennen unter (32a) die bereits von Prince (1980; 1990) formulierte Forderung der binären Analysierbarkeit von Füßen, in (32b) die Forderung nach Exhaustivität der Verfußung, und in (32d) und (32e) Präferenzen für die Kopplung von metrischer Stärke und syllabischer Schwere sowie Akzentalternanz. Hingegen hält (32c) eine Struktureigenschaft als Markiertheitsbeschränkung fest, die in Wortformen mit mehreren Füßen Uberhaupt nicht erfüllt werden kann und lediglich durch Qualifikation der Verstöße ceteris paribus metrische Strukturzuweisungen mit unverfußten Silben im Wortinneren ausschließen soll. Die Optimalitätstheorie verbietet nirgendwo die Formulierung einer solchen Beschränkung, da eine Theorie von con erst im Ansatz existiert (vgl. aber Brandäo de Carvalho 2002). Der sprachtheoretische Status einer solchen Beschränkung wirkt in meinen Augen allerdings fragwürdig: A L L - F T - L E F T bildet weniger ein eurhythmisches Qualitätsmerkmal, sondern eine Hilfskonstruktion, um unerwünschte Strukturanalysen auszusondern. Für die Ausarbeitung einer akzentrhythmischen Präferenztheorie scheinen solche Stipulationen jedoch eher kontraproduktiv. Auch ist kaum phonologieintern begründbar, weshalb (32f) die Extrametrikalität von Ultimae nicht als universalphonologische Option, sondern als universell unmarkierten Normalfall ansetzt. Gewiß ist eine Spezikationsmöglichkeit etwa für jambische Verfußung mit festem Paenultimaakzent vonnöten, die im Rahmen der Metrischen Phonologie Uber das Extrametrikalitätskonzept erfaßt wird. Der Theorierahmen von OT, der innerhalb der Outputformen selbst nur Markiertheitsbeschränkungen erlaubt, zwingt jedoch zu einer Kodierung dieser Option als Markiertheitsaussage, auch wenn, wie im Falle der Wortakzentlage, kaum zu entscheiden ist, ob etwa Ultima- im Vergleich zu Paenultimaakzentuierung unmarkiert ist oder nicht. Hier erweist sich die in OT angelegte Möglichkeit der Bewertung sprachlicher Strukturen als Evaluationszwang und somit die Verabsolutierung des Markiertheitskonzeptes eher als erkenntnisverhindernd denn explanativ. Auch die beiden Paare antagonistischer Beschränkungen (32g,h) und (32i,j) wirken in diesem Lichte kontraintuitiv, da die Menge von Markiertheitseigenschaften nicht zugleich universell und inkonsistent sein darf: es gibt eben auch gleich gute Alternativen in der sprachlichen und insbesondere akzentrhythmischen Organisation von Sprachen. Insgesamt bleiben die bisherigen Ansätze einer wortbezogenen simultanen Akzent- und Rhythmuslehre in OT somit ein nur teilweise gelungener Versuch einer Faktorisierung eurhythmischer Qualitäten im Verbund mit empirisch beobachteten und lediglich stipulierten Präferenzen für die Lage des Wortakzents. Nicht selten wirkt dabei in den im Rahmen von OT formulierten Arbeiten mehr der Darstellungsrahmen innovativ als der inhaltliche Beitrag. So steht die Optimalitätstheorie nach Hülst (1999,77) insbesondere in der Frage nach dem

77 universalphonologischen Raum von Verfußungsmöglichkeiten noch in ihren Anfängen oder läßt Verfußung als Epiphänomen allgemeinerer prosodischer Präferenzen erscheinen (vgl. etwa Graf/Ussishkin 2003). Zu einer Rhythmuslehre auf sententialer Ebene liegen im Rahmen von OT bisher nur wenige Arbeiten vor. Selkirk (2000) diskutiert vor allem die Relation zwischen morphosyntaktischer und prosodischer Gliederung von Äußerungen und formuliert dabei eine Reihe von Präferenzen für eine Deckung (engl, alignment) grammatischer und satzphonologischer Grenzen. Daneben betrachtet sie auch die Existenz eines eindeutigen globalen Prominenzmaximums innerhalb einer prosodischen Domäne als semiotische Qualität und setzt dafür eine Klasse sogenannter WRAP-Beschränkungen an. Diese Generalisierung der Demarkativität und Kulminativität von Trubetzkoy auf verschiedene Hierarchieebenen der prosodischen Gliederung geht mit einer Zurücknahme der behaupteten Eurhythmie-Anforderungen einher. Immerhin zeigt der Ansatz von Selkirk (2000) die Leistungsfähigkeit von OT zur Beschreibung des Ineinanderwirkens syntaktischer Kodierungserfordernisse und eurhy thmischer Ausgleichstendenzen, und auch McMahon (2003) räumt in ihrer Grundsatzkritik an allein conííra/w/-basierten Sprachbeschreibungen ein, daß dieses Theorieformat für die Prosodie weit geeigneter erscheint als etwa für die Segmentphonologie.

1.4

Zusammenfassung

In unserer Durchsicht der Konzepte von Isochronie und der Untersuchungen zur Zeitstruktur der Lautsprache hat sich gezeigt, daß aus einer einfachen Intuition, die im Falle der Fußisochronie mindestens bis ins 18. Jh. zurückreicht, phonetische und phonologische Diskussionsbeiträge im Wechsel zu unterschiedlichen Präzisierungen und Modifikationen des Konzeptes beigetragen haben. Pike [1945] betrachtet neben einer taktierenden Folge von Betonungen Silbenisochronie als eine weitere rhythmische Qualität, bei Abercrombie (1967) werden diese beiden Formen der Zeitorganisation zu einem binären Parameter der Sprachklassifikation. Trotz aller methodischen Einwände gegen viele der frühen phonetischen Überprüfungen dieser These darf jedoch als gesichert gelten, daß im allgemeinen, selbst unter isochroniefördernden Sprechbedingungen, akustisch keine approximative Gleichheit von Silben- oder Fußdauern in Äußerungen vorliegt. Ob sie jedoch vom Sprecher angestrebt, vom Hörer erwartet und im Gespräch vielleicht sogar über einzelne Beiträge hinweg bevorzugt wird, ob also in einer 'reanthropologisierten Phonetik' Isochronie als Präferenz der lautsprachlichen Kommunikation zumindest im Sinne einer Maxime die temporale Organisation mitbestimmt, ist beim gegenwärtigen Stand der Forschung noch nicht mit Sicherheit zu sagen. Zumindest für fußisochronisierende Sprachen erscheint eine solche Neubewertung jedoch aussichtsreich. Demgegenüber wirken die Befunde für als silbenisochronisierend eingestufte Sprachen, vor allem die romanischen, besonders schlecht, so daß bereits innerhalb der Phonetik verschiedene alternative Explikationsversuche ihres rhythmischen Gepräges vorgeschlagen worden sind: Behauptet wurde unter anderem, daß etwa im Spanischen oder MandarinChinesischen Äußerungsdauern proportional zur Anzahl der Segmente seien (segmenttiming). Andere betrachten auch romanische Sprachen als fußisochronisierend und erkennen allenfalls einen Unterschied im Grad der erzielten rhythmischen Qualität oder aber in

78 der Strategie der Isochronisierung. Diese Umbewertung trivialisiert jedoch die intuitiv bestehende und, wie wir im 4. Kapitel noch sehen werden, vielfach belegbare grundsätzliche Andersartigkeit ihrer rhythmischen Organisation. Nur selten wird das phonologische Wort als zu isochronisierende Einheit diskutiert (vgl. aber Zhang 1996 zum Englischen und Gordon 1997 zum Estnischen). Dagegen hat man insbesondere für das Französische und Spanische auch Isochroniedomänen oberhalb der Worteinheiten angesetzt. Umgekehrt gilt auch eine subsyllabische prosodische Größe, die More, als mögliche Grundlage der sprachrhythmischen Gestaltung, wobei sich allerdings die meisten Untersuchungen auf das Japanische beschränken. Während Phonetiker wie Phonologen fast ausnahmslos germanische Sprachen und - mit geringerer Deutlichkeit - auch das Russische als prominenzisochronisierend und das Japanische als morenbasiert betrachten, gilt für die Isochroniedebatte zu anderen Sprachen, insbesondere den romanischen, beinahe: Quot homines, tot sententiae. Die Einsicht, daß eine phonetische Isochronietendenz durch Struktureigenschaften einer Sprache wesentlich unterstützt oder sogar begründet werden kann, bildet den Ausgangspunkt für eine ganze Reihe phonologischer Neukonzeptionen der Rhythmisierungsstrategien - mit erstaunlichem Optimismus hinsichtlich der Ausgangsidee von Abercrombie. Auch Bertinetto (1988,59) konstatiert verwundert: "Perhaps no other phenomenon of phonology is so widely accepted, with so little supporting evidence." Autoren wie Dauer (1987) und Bertinetto (1988) allerdings geben angesichts der fehlenden phonetischen Nachweisbarkeit Silbenzählung als sprachtypologische Kategorie ganz auf und schlagen vor, rhythmische Unterschiede von Sprachen allein Uber ihren Abstand vom akzentzählenden Idealtyp zu erfassen. Jedoch bleibt die akzentuell definierte Isochroniedomäne manchmal ohne genauere Bestimmung, und auch die angebotenen Präzisierungen erscheinen nicht deckungsgleich. Insbesondere ist die rhythmische Relevanz von Nebenprominenzen unklar und umstritten: Während etwa Abercrombie (1964) und Halliday (1967; 1985) eine satzphonologisch durch initiale Prominenz definierte Fußeinheit als Isochroniedomäne ansehen, legen die Ausführungen bei Donegan/Stampe (1983), Gil (1986), Auer/Uhmann (1988) oder Laver (1994) eher eine wortphonologische Festlegung nahe, wobei offenbar angenommen wird, daß Wortakzentsilben in jedem Falle prominent realisiert werden. Eine dritte Gruppe, vertreten durch Auer (1993; 1994), Kleinhenz (1996) und Reich (2002), scheint schließlich eine zwar phonologisch, aber nicht notwendigerweise akzentuell definierte Worteinheit der silben- oder phrasenbezogenen Rhythmisierung gegenüberzustellen. In der Bestimmung der rhythmischen Idealtypen gehen dabei in unterschiedlichem Ausmaß segmentale wie suprasegmentale phonologische Merkmale, seltener auch morphophonologische und sogar grammatische Eigenschaften ein. Innerhalb der Prosodie werden neben Charakterisierungen der Zeit- und Prominenzstruktur am häufigsten Aussagen zu Silbenstrukturen und Silbifizierungen, seltener auch zu tonalen Phänomenen getroffen. Nicht in jedem Falle wird in der deduktiven phonologischen Argumentation jedoch deutlich, inwieweit ein postuliertes Korrelat die Isochronisierung oder zumindest die perzeptive Prägnanz einer prosodischen Einheit ursächlich unterstützt oder aber lediglich eine häufige oder gar bloß zulässige Begleiterscheinung darstellt. Auch in unserem Überblick über die Metrische Phonologie hat sich gezeigt, daß in der auf Liberarían [1975] und Liberman/Prince (1977) zurückgehenden hierarchischen Konzeption prosodischer Strukturen verschiedene Ansätze jeweils unterschiedliche Aspekte der rhythmischen Konturbildung herausgearbeitet haben. Ebenso wie in der Isochronieforschung dient dabei eine Intuition hinreichend gleicher Prominenzintervalle in englischen Äußerungen als

79 Motivation, neben wortphonologischen Spezifikationen von Akzentverhältnissen auch eine gesonderte Beschreibung der Prominenzgebung von Äußerungen vorzusehen. Dabei zeigt sich, daß im Rahmen der wortphonologischen Betonbarkeitsvorgaben die Satzphonologie des Englischen in der Prominenzgebung eine Auswahl aus dem akzentuellen Angebot trifft und auch andere Silben als die den Wortakzent tragende in bestimmten Kontexten in einer Wortform Prominenzmaxima bilden können. Die realisationsphonologische Prominenzgebung auf der Äußerungsebene ist also nicht auf die wortphonologische Akzentlehre reduzierbar. Konsequent erscheint somit die von Liberman/Prince (1977) wie Hayes (1984) geforderte separate Darstellung von Akzent- und Prominenzverhältnissen. Liberman/Prince (1977), Hayes (1984) und Selkirk (1984) verallgemeinern nun den Isochroniegedanken und reduzieren ihn zugleich: Alle Autoren unterscheiden nämlich eine prinzipiell unbeschränkte Menge von Prominenzgraden und fordern eine isochronisierende Abfolge auf mehreren Ebenen, wobei die Intervalle auf höheren Ebenen der Prominenzkonturen im Gitter immer länger werden (lediglich Hayes 1984 schränkt seine Alternanzprinzipien ausdrücklich auf untere Stufen ein). Inwieweit aber beispielsweise eine Rekurrenz einer starken Betonung im Abstand von jeweils 16 Silben Uberhaupt noch perzipierbar ist, wird dabei offenbar nicht hinterfragt. Gleichzeitig bemessen die Autoren diese als isochron motivierte regelmäßige Alternanz jedoch allein Uber Silbenzahlen und lassen die jeweiligen Silbendauern dabei außer acht. Zwar finden sich in einzelnen Arbeiten (vgl. etwa Prince 1983 oder Selkirk 1984) Versuche, durch Zuweisung zweier Gitterspalten an schwere oder innerhalb einer größeren prosodischen Konstituente finale Silben die oft erhebliche Ungleichheit der Dauer einzelner Silben partiell zu erfassen. Insgesamt jedoch erstaunt die dezisionistische Konzeption rhythmischer Qualität als Alternanz angesichts der Abstraktheit der Darstellungsformate. Da seit Selkirk (1980) häufig verschiedene Ebenen des metrischen Gitters mit den in der Prosodischen Phonologie angesetzten Konstituentenkategorien identifiziert werden, und insbesondere Füße, phonologische Wörter und Phrasen auch als Domäne anderer phonologischer Regularitäten gelten, ist versucht worden, diese Größen in die Darstellung der Prominenzkontur zu integrieren. Halle/Vergnaud (1987), Halle/Idsardi (1995) und Hayes (1987; 1995) setzen hierzu metrische Gitter mit Klammerungen an. In den beiden zuerst genannten Arbeiten wird fUr diese Konstituenzinformation außerdem gefordert, daß sie aus den Prominenzkonturen in eindeutiger Weise ersichtlich sein soll. Welchen kommunikativen Nutzen dieses Prinzip der Recoverability für solche nicht semiotisch, sondern allein prosodisch definierte Gruppen jedoch haben soll, bleibt unklar. Dessen ungeachtet ist insbesondere die Beschreibung möglicher Fußtypen immer mehr zu einer zentralen Fragestellung geworden. Dabei ist die Eigendynamik sententialer rhythmischer Konturierung zunehmend aus dem Blick geraten und Akzent- und Rhythmuslehre simultan im Rahmen der Wortphonologie betrieben worden. Rhythmizität wird in diesem Ansatz lediglich als Anforderung an Füße aufgefaßt, eine bestimmte innerhalb einer Sprache einheitliche Größe aufzuweisen. Hayes (1987; 1995) postuliert außerdem Beschränkungen in der Kombination von Prominenzlagen und den Besetzungen der verschiedenen Positionen im Fuß, an denen in verschiedenen Varianten auch in optimalitätstheoretischen Darstellungen noch festgehalten wird. Immer häufiger wird außerdem seit Prince (1980) für die Füße Zweisilbigkeit oder Zweimorigkeit als Strukturanforderung oder zumindest Präferenz angesetzt. Ferner werden rhythmische Konturen in diesen Ansätzen typischerweise 'von unten nach oben' aufgebaut. Die Wort- und Phrasenakzentpositionen erscheinen somit als Folge, nicht als Bedingungsfaktor der Verfußung. Beides ist jedoch auch innerhalb der Metrischen Pho-

80 nologie kritisiert worden: So hat Hülst (1984 u.ö.) überzeugend für eine primary accent first-Theoúe argumentiert, in denen die Bestimmung der Wortakzentlage der Lokalisierung von Nebenprominenzen vorausgeht. Selkirk (1984) formuliert ebenso plausibel eine pitchaccent-first-Theorie, die den Vorrang syntaktischer oder informationsstrukturell begründeter Prominenzen betont. Die naheliegende Schlußfolgerung, die Verfußung nicht mehr als wortphonologische Grundtatsache einer Sprache zu werten, wird jedoch in der Metrischen Phonologie, soweit ich sehe, nicht gezogen. Auch die Strategie von Hayes (1985), fußbasierte prosodische Organisation unter dem Gütesiegel 'natural' zum sprachrhythmischen Normalfall zu erheben, erscheint ad hoc. Die wenigen Versuche, jenseits von Fußinventaren und Alternanzanforderungen Sprachen mit deutlich 'nichtenglischem' rhythmischen Gepräge in ihrer Eigenart gerecht zu werden, wirken insgesamt wenig elaboriert. Eine universalphonologisch angemessene Darstellung rhythmischer Konturbildungsmöglichkeiten kann auf die Zeitdimension nicht verzichten. Obwohl also Isochrome und Prominenzalternanz als rhythmische Ideale keineswegs unvereinbar sind und in fußisochronisierenden Sprachen wie dem Englischen sogar zusammenfallen, entscheiden sich in der vergleichenden, insbesondere typologischen Forschung die meisten für die Betrachtung nur einer der beiden Teleologien: Universalphonologische Arbeiten verabsolutieren im allgemeinen entweder die Dauern verschiedener prosodischer Einheiten oder aber die Prominenzabfolge auf einer atemporal konzipierten silbenprosodischen Basis als den rhythmischen Parameter (vgl. zum Nebeneinander der Traditionen und dem fehlenden Dialog Cutler/Ladd 1983b, 8f. und noch Guaitella 1999,509f.). Dabei bilden Gleichheit in der Zeit und (geordnete) Verschiedenheit in der Prominenz keineswegs die einzigen Kandidaten für musterbildende Ordnung im antiken Sinne: Zwar erscheint aufgrund der inhärenten Relationalität von Prominenz eine Gleichheit aller Silben in dieser Hinsicht geradezu selbstwidersprüchlich; die vierte der Kombinationsmöglichkeiten, nämlich (geordnete) Verschiedenheit in der Zeit darf jedoch nicht apriorisch ausgeschlossen werden. Warum sollte eine Sprache ihre rhythmische Kontur nicht vorrangig durch eine musterbildende Regularisierung der Abfolge kurzer und langer Silben erreichen? Eine solche rhythmusstiftende Funktion einer anisochronen Silbenprosodie ist jedoch kaum je thematisiert worden. Die in 1.1 zitierten Bemerkungen bei Quintilian finden zwar vereinzelte Fortsetzungen im Mittelalter, in der Antikenrezeption des Humanismus, bei den musical prosodists in England und in Arbeiten von Bolinger, werden aber in sprachvergleichender Perspektive als mögliche dritte Teleologie neben Isochronie und Prominenzalternanz, soweit ich sehe, kaum in Erwägung gezogen. Unter (33) findet sich die angesprochene Kreuzklassifikation noch einmal zusammengefaßt: (33) Übersicht Uber sprachrhythmische Teleologien Gleichheit Verschiedenheit

in der Zeit Isochronieforschung Quintilian, Bolinger

in der Prominenz (contradictio in adiecto) Metrische Phonologie

Im nächsten Kapitel soll nun sowohl die Beschränkung auf Isochronie wie auch auf Prominenzalternanz als Grundlage einer universellen Rhythmusphonologie in Frage gestellt werden, bevor wir im dritten Kapitel eine neue Typologie vorschlagen, in der sowohl die Zeitdimension wie die Prominenzkontur über die Rhythmisierung bestimmen können.

2

Kritik reduktiver Konzeptionen von Sprachrhythmus

2.1

Rhythmizität vs. rhythmische Konturbildung

Auf die ebenso häufig gestellte wie nicht oder nur unzureichend präzisierte Frage "Ist Lautsprache rhythmisch?" finden sich bis in die Gegenwart außerhalb des wissenschaftlichen Diskurses uneingeschränkt bejahende Antworten: Wir reden jedoch immer, wenn wir reden, rhythmisch. Wir reden in unregelmäßigen Rhythmen. (Kurz 1999, 12)

Anstatt also die erste Behauptung zu begründen, wird in dem obigen Zitat einfach die Definition erweitert: Rhythmus ist nach Kurz offensichtlich nicht mehr nur wie bei Piaton eine Ordnung in der Zeit, nicht nur eine sogar numerisch beschreibbare Regelmäßigkeit wie bei Aristoteles, sondern gleichzeitig auch das Fehlen von Ordnung und Regelmaß. Hierdurch wird Rhythmus zu einer Eigenschaft, die sowohl regelmäßige als auch andere zeitliche Abläufe aufweisen sollen, das Wort somit durch die in Autohyponymie- oder gar in Gegensinnrelation zueinander stehenden Lesarten polysem und als Terminus unbrauchbar. Auch außerhalb der Linguistik sind solche Extensionserweiterungen kritisiert worden: Helbling (1999,30) etwa moniert in seinem Essay: "Wir können den Rhythmus-Begriff nicht das eine Mal weit und dann wieder eng fassen." Nicht nur innerhalb der Künste, sondern auch in den ästhetischen Wissenschaften gilt der Rhythmusbegriff als "arg strapaziert und in metaphorischer Redeweise oft nur sehr vage" (Küper 1988, 9), und bereits 1927 fordert der russische Philologe Brik, dieser Proliferation der Gebrauchsweisen eine bewußte Selbstbeschränkung entgegenzusetzen: Das Wort "Rhythmus" ist so häufig im metaphorischen, bildlichen Sinn verwendet worden, daß man es erst von den künstlerischen Ablagerungen, die sich an ihm festgesetzt haben, befreien muß, ehe man es als Terminus verwenden kann. (Brik [1927] 1972, 163)

Noch Gumbrecht (1988, 714f.) beklagt, daß in der Literaturwissenschaft Rhythmus "zu einem beliebigen (und mithin wertlosen) Lösungsangebot" geworden sei. Ganz ähnlich stellt Seidel (1998, 257) mit Bezug auf die Gebrauchsweisen des Rhythmusbegriffs in der Musik resignierend fest: "Das Wort sagt vieles und doch fast nichts mehr". Doch auch in der Linguistik tendieren selbst Autoren, die Sprache nicht apriorisch als rhythmisch qualifizieren, eher dazu, dem Terminus eine neue Intension zu unterlegen, als zuzugeben, daß zumindest nicht jede lautsprachliche Äußerung in gleichem Maße Rhythmus aufweisen könnte: Wenn es etwas wie Rhythmus in der Sprache gibt, und Sprache nur als Rede verwirklicht wird, so muß der Sprechrhythmus die Charakteristika der Rede teilen, er muß wie sie vielfältig, unvorhersehbar, individuell sein, also Eigenschaften aufweisen, die mit dem traditionellen Verständnis des Rhythmus als Takt, Gleichmaß und gleichmäßig gegliederter Bewegung nur schwer in Einklang zu bringen sind. (Lösener 1999, 15)

82 Anstatt sich also der Frage nach der Existenz und Nachweisbarkeit rhythmischer Qualitäten unter einer vorgegebenen Definition von Rhythmus zu stellen, zieht es Lösener vor, das "traditionelle Verständnis" von Rhythmus selbst in Frage zu stellen. Dabei beruft er sich auf das zwischen Philosophie und Philologie vermittelnde Werk von Henri Meschonnic, der Sprachrhythmus wie folgt bestimmt: Je définis le rythme dans le langage comme l'organisation des marques par lesquelles les signifiants, linguistiques et extralinguistiques (dans le cas de la communication orale surtout) produisent une sémantique spécifique, distincte du sens lexical, et que j'appelle la signifiance : c'est-à-dire les valeurs, propres à un discours et à un seul. Ces marques peuvent se situer à tous les "niveaux" du langage : accentuelles, prosodiques, lexicales, syntaxiques. Elles constituent ensemble une paradigmatique et une syntagmatique qui neutralisent précisément la notion de niveau. (Meschonnic 1982, 216f.) Meschonnic zufolge findet sich Rhythmus zwar vorwiegend, aber eben nicht nur in der Lautsprache, da er in jeder Äußerung syntaktische, prosodische und pragmatische Aspekte miteinander in Verbindung bringe. Eine Variabilität der rhythmischen Konturierung gleicher Äußerungstypen ist dabei offenbar nicht vorgesehen. Rhythmus wird zu einer Texteigenschaft und damit unabhängig von der medialen Realisierung. Während jedoch die Untersuchung der rhythmischen Organisation gebärdensprachlicher Äußerungen meiner Ansicht nach ein naheliegendes und vielversprechendes Forschungsgebiet darstellt (vgl. Allen/Wilbur/Schick 1991 zu Prominenzkonturen in der American Sign Language), ist für die schriftsprachliche Kommunikation nach dem Ort rhythmischer Strukturbildung zu fragen: Die durch das graphische Medium bewirkte Entzeitlichung der Zeichengestalt erlaubt zur Bezeichnung visueller Regularitäten allenfalls metaphorische Gebrauchsweisen, die wir aber unter Berufung auf Brik gerade vermeiden wollen. Auch bei einer Einschränkung rhythmischer Phänomene auf in der Zeit ablaufende können immer noch die Prozesse des Lesens und Schreibens auf motorische Regularitäten der Hand- oder Augenbewegungen hin geprüft werden. Im Unterschied zur Lautsprache sind sie jedoch gerade nicht auf eine Perzeption und Rezeption durch einen Kommunikationspartner ausgelegt. Primär und in unserer Arbeit alleiniger Gegenstand bleibt die temporale Ordnung in der Lautsprache. Auch in anderen Arbeiten wird die Zuschreibung von Rhythmus an die gesprochene Sprache nicht hinterfragt, wobei in manchen Fällen bestimmte positive Konnotationen des Begriffs eine Rolle spielen mögen (vgl. auch die Hinweise in 1.1). Wenn Lautsprache aber apriorisch als rhythmisch bezeichnet wird, so erscheint erst recht undeutlich, was die Sprache denn zu einer rhythmischen Substanz macht. Unabdingbar ist eine Unterscheidung, wie sie bereits Aristoxenus von Tarent vornimmt, zwischen ρυθμός als kontingenter Eigenschaft und dem ρυθμιζόμενον, dem "rhythmusfahigen Stoff" (Heinrich Feußner), dem diese Eigenschaft zugeschrieben werden kann. Unklar und umstritten im interdisziplinären Diskurs über rhythmische Strukturen in Ereignisfolgen bleibt darüber hinaus, in welchem Ausmaß sie anthropologisch als universelle Präferenz gedeutet werden dürfen und welche Aspekte eventuell kulturell überformt oder tradiert sind. Gerade in den Humanwissenschaften wird häufig bereits in der Definition von Rhythmus auf die menschliche Kognition Bezug genommen und mit der Bewertung einer Verhaltensweise als rhythmisch auch schon ein explanativer Anspruch verknüpft (vgl. die Liste der Definitionen bei Elliott 1986,7ff.). Insbesondere für die Perzeption findet sich die These, rhythmische Erlebbarkeit sei nicht nur vorteilhaft, sondern geradezu erwartbar. Auer/Uhmann (1988) etwa fragen rhetorisch:

83 Warum sollte natürliche Sprache nicht rhythmisiert sein, wo doch die menschliche Wahrnehmung im nichtsprachlichen Bereich sogar physikalisch völlig gleichmäßige Signale wie das Tropfen eines Wasserhahns oder das Ticken einer Uhr in rhythmische Gruppen zusammenfaßt? (Auer/Uhmann 1988, 215; Hervorhebung im Original)

Dieser rhythmische Optimismus darf aber nicht darüber hinwegtäuschen, daß die angeführte auditive Organisation der Tropf- und Tickereignisse gerade umgekehrt zeigt, daß rhythmusstiftende Ordnungen im Signal gar nicht notwendig sind - im Gegenteil: Warum sollte natürliche Sprache rhythmisiert sein, wo doch die menschliche Wahrnehmung im nichtsprachlichen Bereich sogar physikalisch völlig gleichmäßige Signale in rhythmische Gruppen zusammenfaßt? Neben dem Hören wird auch das Sprechen immer wieder als notwendig rhythmisch aufgefaßt und spekuliert, daß allgemeine Präferenzen der menschlichen Motorik auch in der Sprachproduktion der rhythmischen Gestaltung 'zugrundeliegen' und sie somit 'erklären'. Im Extremfall werden dabei sogar sublaryngale Bewegungsabläufe und die Phonation unter Ausblendung der komplexen Prozesse im Ansatzrohr allein schon aufgrund ihres periodischen Charakters als Argument für die Rhythmizität des produzierten akustischen Signals gewertet (vgl. Stetson 1905, der noch Abercrombie 1967 beeinflußt, und Keller 1998). So sind die Versuche, den - präsupponierten - Rhythmus der Lautsprache mit allgemeinen motorischen (vgl. Cummins/Port 1996) oder musikalischen Rhythmuskonzepten in Verbindung zu bringen, Legion. Beinahe ebenso häufig hat man jedoch auch davor gewarnt, sprachliche und andere rhythmische Phänomene vorschnell zu parallelisieren: The use of rhythmic ingredients is very different in speech than in non-speech rhythms; analogies with musical or natural rhythms are occasionally useful, but should not be imposed on speech. When the term 'rhythm' is used for the temporal organization of speech, it is used in a very specialized and restricted sense. (Knowles 1974, 146)

Immerhin gelten für die rhythmische Erlebbarkeit einer Signalfolge enge Beschränkungen hinsichtlich ihrer möglichen Dauern und Frequenzen (vgl. hierzu Terhardt 1998,416ff.). So können etwa nur solche periodischen Untereignisse auditiver Eindrücke als gestalthaft und somit potentiell rhythmisch erlebt werden, die in Zeitabständen über 100 ms aufeinanderfolgen; ansonsten nimmt der Hörer allenfalls einen Triller wahr. Umgekehrt kann auch bei einer zu langsamen Wiederholungsrate keine rhythmische Integration mehr stattfinden; nach Auer/Couper-Kuhlen (1995,88) bilden nur Ereignisfolgen von bis zu einer Sekunde Abstand "gut erkennbare rhythmische Intervalle". Wahrscheinlich ist die Frage, ob und in welchem Umfang rhythmische Qualität in der Lautsprache Spezifika aufweist, nicht ohne Rekurs auf die innerhalb der Phonetik und Kognitionspsychologie heftig umstrittene Diskussion, inwieweit Lautsprache anders als andere akustische Signale perzipiert wird, zu beantworten (vgl. die durch Liberman et al. 1996 entfachte Debatte). Im Rahmen der hier zu entwickelnden phonologischen Theorie des Sprachrhythmus scheint es vertretbar, ja sogar ratsam, in diesem Streit keine Stellung zu beziehen und Rhythmizität unabhängig von außerlinguistischen Rhythmusbegriffen, allerdings durchaus auf sie beziehbar, als euphonische Qualität phonologischer Gestalten zu definieren. Dabei muß ihr Vorhandensein und Ausmaß für jede lautsprachliche Äußerung individuell bestimmt werden. Diejenigen Aspekte einer Äußerung, welche die für die Rhythmizitätsbewertung relevanten Aspekte der phonologischen Gestalt darstellen, bezeichnen wir im Unterschied hier-

84 zu als ihre rhythmische Kontur. Auch den Os (1988) und Cauldwell (2000) treffen ähnliche terminologische Differenzierungen zwischen Konturen und Kontureigenschaften: [... ] it seems preferable to use the notion 'temporal structure' when we talk about durational aspects of speech, and to reserve the term 'speech rhythm' for the repetition of events (be they syllables, stressed syllables, etc.) at a constant repetition rate, (den Os 1988, S) [... ] I shall use the terms rhythm and rhythms to refer generally to patterns of language events in speech (of whatever kind): this phrase will be neutral in relation to timing. I shall use the terms rhythmical and rhythmicality to refer to cases of perceived isochronic patterns. (Cauldwell 2000, 12; Hervorhebungen im Original) Im Unterschied zu diesen beiden Autoren wollen wir uns jedoch nicht allein auf durationale Merkmale beschränken, sondern sehen ausdrücklich die Möglichkeit vor, auch eine akzentuell definierte Dimension prosodischer Prominenz parallel zur Zeitstruktur zu beschreiben und zu bewerten. Eine solche zweidimensionale Repräsentation der rhythmischen Kontur erlaubt auch, daß Rhythmizität auf unterschiedliche Weise Zustandekommen kann. Wie im nächsten Kapitel noch zu zeigen sein wird, liefert erst diese separate Repräsentation von temporalen und akzentuellen Verhältnissen die Voraussetzung, Variation nicht nur im Ausmaß, sondern auch in der Art der Rhythmizität zu erfassen, wie sie innerhalb und zwischen historischen Einzelsprachen und sogar innerhalb von Varietäten einer Sprache immer wieder konstatiert wird: While there is a sense in which all speech is rhythmical, there are other senses in which rhythms vary between languages, between varieties of a language, between individuals, and between different passages of the same utterance. (Cowley 1994, 355f.) Mit dieser Unterscheidung können wir die oben zitierten scheinbar widersprüchlichen Aussagen zum Sprachrhythmus widerspruchsfrei wie folgt reformulieren: Jede lautsprachliche Äußerung weist eine rhythmische Kontur auf. Rhythmische Konturen unterscheiden sich jedoch in ihrer Rhythmizität. Ein "unregelmäßiger Rhythmus" ist eine rhythmische Kontur geringerer Rhythmizität. Zudem erübrigt sich bei Ansetzung eines solchen nicht binären euphonischen Prädikats die Forderung von Cauldwell (1996), gerade noch rhythmische und bereits nicht mehr als rhythmisch einzustufende Ereignisabfolgen schärfer voneinander abzugrenzen. Auch verlangen wir bei der Bewertung der Rhythmizität von Äußerungsgestalten keinesfalls, daß für alle Sprachen der Welt ein einziger Maßstab gelten sollte. Während im Rahmen der Metrischen Phonologie eine Evaluierung der Alternanzqualität einer Äußerung aufgrund der kategorialen Natur der in einem Gitter repräsentierten Prominenzkontur verhältnismäßig einfach erscheint, ist in der phonologischen Isochroniediskussion nicht leicht zu sehen, auf welcher Ebene eine Bestimmung des Isochronisierungsgrades einer Äußerung sinnvollerweise zu erfolgen hat (vgl. aber zu einer phonetischen Bewertungsprozedur für den Grad der Fußisochronisierung Jassem/Hill/Witten 1984). Auer/Couper-Kuhlen (1995) vertreten eine ähnliche Position und schlagen vor, Rhythmizität über eine Reihe gestaltphonologischer Präferenzen zu bewerten: Wenn wir von Rhythmus als wahrgenommenen Gestalten reden, so meinen wir damit auch (und zwar in Abweichung von der traditionellen phonetischen Forschung à la Abercrombie zum Thema Isochronie [... ]), daß "bessere" und "schlechtere" Rhythmisierungen möglich sind (je nach Prägnanz der entstehenden rhythmischen Gestalt). Es wird also nicht nur zwischen rhythmischen und

85 nicht-rhythmischen Strukturen unterschieden, sondern auch zwischen Graden von Rhythmizität. Zu diesem Zweck sind Präferenz-Prinzipien nötig, die die Prägnanz rhythmischer Gestalten bestimmen helfen. (Auer/Couper-Kuhlen 1995, 88) Allerdings bleiben ihre im folgenden formulierten Prinzipien lediglich auf einen möglichen Typ, nämlich den der Fußisochronisierung, bezogen. Wieder scheint die Prämisse zu sein, daß ein einziger Maßstab zur Rhythmizitätsbestimmung für alle Sprachen anzuwenden sein sollte. Nicht nur die zeitliche Strukturierung von Äußerungen, sondern auch die melodische und dynamische Gestaltung sind jedoch nicht vollständig phonologisch spezifiziert, sondern innerhalb gewisser Grenzen dem Sprecher überlassen. Ist es angesichts dieses Realisationsspielraums überhaupt sinnvoll, neben der skalaren phonetischen Beschreibung von sprachlichen Schallereignissen auch eine abstraktere phonologische Repräsentation rhythmischer Eigenschaften anzusetzen? Hier verweisen wir auf Aussagen zur Melodiestruktur von Äußerungen, wo ebenfalls nach der Berechtigung für eine phonologische Beschreibung des Tonhöhenverlaufs zusätzlich zu einer auditiven gefragt wurde. Interessanterweise scheinen aber sprachbegleitende, indexikalische Funktionalisierungen der Prosodie die phonologische Kodierung noch nicht einmal in Tonsprachen zu beeinträchtigen (vgl. Ladd 1996,35). Auch für die rhythmische Gestalt von Äußerungen setzen wir eine phonologische Repräsentation an, die als Bezugsrahmen für mögliche artikulatorische und auditive Interpretationen dient. Insbesondere werden hierdurch sprachsystematisch vorgegebene, phonologische Aspekte von sprachbegleitenden, parasprachlichen unterschieden, gerade im Gegensatz zur Rhythmustheorie von Meschonnic, in dessen Konzept der signifiance eben diese Trennung von semantischer, typischerweise symbolischer Kodierungsleistung einerseits sowie ikonischen und indexikalischen phonischen Qualitäten andererseits aufgehoben wird. Daß etwa prosodische Eigenschaften auch Anzeichen für "Globalkategorien" (Tillmann/Mansell 1980,37) wie Geschlecht und Alter des Sprechers bilden, ist durchaus für die sprachliche Kommunikation von Belang, nicht jedoch für eine Linguistik, die gerade nicht primär die Beschreibung textueller und idiolektaler Besonderheiten leisten will. Somit fallen bei Meschonnic phonologisches Interpretandum und phonetische Interpretation, Sprachstruktur und Sprechvorgang zusammen und verhindern die Entwicklung einer - insbesondere auch übereinzelsprachlichen - phonologischen Rhythmustheorie. Wenn also die Unterscheidung von Phonologischem und Parasprachlichem auch in der rhythmischen Konturbildung möglich und sinnvoll sein sollte, gibt es dann ein Diagnostikum, um phonologische Aspekte aus den anderen herauszufiltern? Auch hier hilft uns die Intonationsphonologie weiter: Im Gegensatz zur graduellen Natur parasprachlicher Aspekte der Prosodie sind phonologische Unterscheidungen kategorial, weisen also nur wenige semantisch zu differenzierende Ausprägungen auf (vgl. Ladd 1996,36). Zu klären bleibt nun noch das Verhältnis der Qualitäten von Lautgestalt und semantopragmatischem Gehalt. Hierbei muß die Nullhypothese sein, daß euphonische und inhaltliche Qualität voneinander unabhängig sind. Zwar können rhythmisch relevante prosodische Eigenschaften zur Kodierung herangezogen werden, jedoch - zumindest außerhalb einer poetischen Diskurstradition - nicht selbst schon als konventionalisierte symbolische Zeichen fungieren. Diese Unabhängigkeit hat einige Forscher dazu verführt, nicht das Fehlen einer Korrelation zwischen Gestalt- und Gehaltqualität, sondern eine bestehende negative Korrelation zu postulieren. So schreibt Hurch (1996, 75): " [ . . . ] morpho(phono)logical accentuation is not simply ignoring prosody but it is, in its ideal form, a negation of prosody [... ]". Vorsichti-

86 ger scheint dagegen die Annahme, daß etwa morpholexikalisch determinierte Prominenz die rhythmische Organisation einer Sprache nicht 'negiert', sondern sie in einer zu präzisierenden Weise erst mitbegründet. Auch das neuerwachte Forschungsinteresse an der Interaktion von suprasegmentaler Phonologie und Morphologie (vgl. die von McCarthy/Prince 1990 begründete Richtung der Prosodischen Morphologie) hat bisher zahlreiche Beispiele für eine Ausrichtung der morphologischen Strukturbildung nach den Vorgaben der Prosodie geliefert und läßt die von Hurch suggerierte Aprosodie außerphonologischer Spezifikationen fragwürdig erscheinen. In diesem Abschnitt haben wir zunächst Rhythmizität als eine in unterschiedlichem Umfang in Äußerungen vorhandene euphonische Qualität von rhythmischen Konturen als der Menge rhythmisch relevanter Aspekte ihrer Prosodie unterschieden. Rhythmizität wird im folgenden als kognitive Prägnanz von Aspekten der rhythmischen Kontur verstanden. Eine solche Gestaltauffassung ist dezidiert phonologisch und bildet somit eine kategoriale Abstraktion aus den temporalen und potentiell betonungsrelevanten prosodischen Eigenschaften. Als solche thematisiert sie den Beitrag der rhythmischen Gestalten zur Kodierung von Satzgehalten, nicht jedoch weitere parasprachliche semiotische Qualitäten. Euphonische und andere, insbesondere semanto-pragmatische Präferenzen sind dabei voneinander unabhängig zu bestimmen. Daß die Theorie der Rhythmizität in der Isochronietradition zu weit, die der Metrischen Phonologie hingegen universalphonologisch zu eng ist, wird in den nächsten beiden Abschnitten zu zeigen sein.

2.2

2.2.1

Kritik des silbenzählenden Typs

Silbenisochronie als rhythmische Präferenz?

In Phonetik und Phonologie fungieren Sprachen, denen eine rhythmusstiftende Tendenz zu einer Angleichung der Silben zugesprochen wird, unter einer Reihe von Bezeichnungen, die, wie im Falle des deutschen silbenzählend, zum Teil terminologische Anleihen aus der Metrik darstellen. Hier bezeichnet der Begriff Systeme, in denen eine durch das metrische Schema festgelegte Anzahl der (metrisch relevanten) Silben in einer Verszeile als notwendige - und oftmals auch bereits als hinreichende - Bedingung für Metrizität gilt (vgl. 4.3). Es erscheint somit naheliegend, daß Silbenzählung als phonetische und phonologische Eigenschaft eines Sprachsystems mit der Präponderanz silbenzählender metrischer Schemata in der Dichtung dieser Sprache in Verbindung gebracht wurde. Bertinetto (1988) versucht sogar, die phonetische Dichotomie Abercrombies durch Verweis auf die attestierten metrischen Typen zu belegen: Even if it found no other support, the fundamental justification of this dichotomy might rest on the opposition of the two main systems of versification, respectively based on 'stress-counting' and 'syllable-counting*. (Bertinetto 1988, 60) Allerdings muß er zugeben, daß neben akzent- und silbenzählenden Schemata noch weitere, etwa quantitierende und tonale, in den poetischen Traditionen der Welt vorkommen. Der

87 Hinweis auf die komparative Metrik spricht also nicht für, sondern gegen eine sprachtypologische Dichotomie. Nicht nur die Dichtung erscheint aber als Evidenz für einen silbenzählenden Sprachtyp wenig geeignet, sondern auch die Phonetik: Selbst bei einer Berücksichtigung auditiver Diskriminationsschwellen und weiterer isochroniefördernder psychoakustischer Faktoren bleiben nämlich die Meßergebnisse selbst für eine schwache phonetische Isochronisierungsthese problematisch (vgl. Eriksson 1991, 30; Auer 2001, 1392). Hinzu kommt, daß noch nicht einmal das Ausmaß und die Art der Nichtisochronie der Silben in sogenannten silbenzählenden Sprachen vergleichbar ist. Während beispielsweise im Italienischen die größten systematischen Abweichungen durch Vokallängungen unter dem Wortakzent entstehen (vgl. Farnetani/Kori 1990, 62), scheint im Französischen die Position der Silbe innerhalb der Äußerungseinheit am wichtigsten (vgl. 3.3.2.1). In dem Versuch, ein temporales phonetisches Konzept von Silbenzählung zu retten, haben manche Autoren Silbenisochronie implizit als Fußanisochronie neubestimmt (vgl. Brakel 1985, 15), wobei letztere jedoch, wie bereits in 1.2.1.2 vermerkt, logisch keineswegs Silbenisochronie impliziert. Daß auch statistisch variable Prominenzabstände nicht mit einer Angleichung der Silben einhergehen, betont Abaurre (1996,49) für das brasilianische Portugiesisch. Daneben ist, wie in 1.2.2 erwähnt, auch aus einer fehlenden Proportionalität von Segmentanzahl und Silbendauer auf Silbenzählung geschlossen worden. Auch hier zeigt sich, daß Silbenzählung in der Literatur eher negativ als Abwesenheit anderer als rhythmusstiftend aufgefaßter Eigenschaften denn als rhythmische Qualität sui generis begegnet. Schließlich spricht Ladefoged ( 3 1993,95) ausgerechnet in Bezug auf das Englische ebenfalls von einer "general tendency [... ] to equalize the lengths of syllables that differ in the number of segments they contain". Silbendauern sind also offenbar auch bei Akzentzählung nicht proportional zur Zahl ihrer Basissprachlaute. Überhaupt erscheint die Silbenprosodie als prosodische Basis für die rhythmische Gestaltung universell: Sprechen ist in der Tat eine körperliche Tätigkeit, die in ihren Ablaufbedingungen der Wohlartikuliertheit genügen muß, die im wesentlichen durch die rhythmisch strukturierte Abfolge von vokalischen Öffnungs- und konsonantischen Verschließungsbewegungen zustandekommt. (Tillmann/GUnther 1986, 195) Nach Abaurre (1996, 51 und 57) verhalten sich Kinder und Erwachsene im Gespräch mit Kindern sowie in Lento-Stilen, besonders im didaktischen Diskurs, in allen Sprachen stärker silbenisochronisierend. Hier ordnet sich auch die in 1.2.1 angeführte Beobachtung von Poedjosoedarmo (1996,38) ein, derzufolge das Malaiische der Mitglieder des Königshauses von Brunei sowie hoher Regierungsbeamter silbenisochronisierend, das Standardmalaiische, etwa von Nachrichtensprechern, hingegen fußisochronisierend sei. Man darf vermuten, daß diese Variation weniger an verschiedene Soziolekte des Malaiischen gebunden ist als vielmehr an charakteristische Unterschiede im Sprechtempo. Auch Duanmu (1994,19) spricht sich in seiner sprachvergleichenden Studie für die Möglichkeit eines Nebeneinanders silben- und fußisochronisierender Äußerungen in einer Sprache aus, und bereits bei Pike, dem 'Entdecker' des syllable-timing, begegnet dieses nicht nur als Sprachtyp, sondern auch als Sprechstil: English also has a rhythmic type which depends to a considerable extent upon the number of its syllables, rather than the presence of a strong stress, for some of its characteristics of timing; in English, however, the type is used only rarely. In these particular rhythm units each unstressed syllable is likely to be sharp cut, with a measured beat on each one; this recurrent syllable prominence, even though the stressed syllables may be extra strong and extra long, gives a "pattering" effect. The type

88 may be called a syllable-timed rhythm unit (in phonemic contrast to the stress-timed type). (Pike 1945 [1967], 35; Hervorhebung im Original)

2.2.2

Silbenisochronie, Silbenstrukturen und Quantität

In der phonologischen Isochronietypologie wurde, wie in 1.2.5 ausgeführt, für Silbenzählung eine im Vergleich zur Akzentzählung niedrigere mittlere Komplexität der Silben sowohl auf type- wie auch auf token-Ebene als Korrelat angeführt und diese mit der silbenisochronisierenden geringeren Varianz der Segmentzahlen der Silben motiviert. Dieser Zusammenhang von Silbenisochronie und Silbeneuphonologie wirkt so einleuchtend, daß er sogar dann postuliert wurde, wenn sprachvergleichende Dauermessungen keineswegs eine geringere Varianz der Silbendauern in vorgeblich silbenzählenden Sprachen erweisen konnten. Daß die als akzentzählend eingestuften Sprachen in ihrer Silbenprosodie tatsächlich insgesamt mehr Komplexität aufweisen, mag als deskriptive Feststellung zwar korrekt sein - entscheidend ist jedoch für eine Definition rhythmischer Idealtypen nicht die Häufigkeit einer sprachstrukturellen Eigenschaft in den Sprachen, welche sich diesem Typ mehr oder minder stark annähern, sondern eine Begründung dafür, weshalb ein postuliertes Korrelat eines Idealtyps seine Teleologie unterstützt. An diesem Punkte jedoch bricht die dichotomisierende Konzeption der Beziehung von Silben- und Isochroniephonologie zusammen: Niedrige silbenstrukturelle Komplexität unterstützt nämlich nicht nur Silben-, sondern auch Fußisochronisierung. Lehiste (1986) etwa argumentiert unter Berufung auf phonetische Untersuchungen von Kohler zur Komprimierbarkeit längerer Füße im Deutschen wie folgt: [... ] there is an absolute limit to the compression that can be applied to the syllables of which the metric feet consist, and that the articulatory complexity of the syllables is involved in this process: A syllable like [ba] is more compressible than a syllable like [platS], so that at fast rates of speaking metric feet consisting of syllables like [ba] are more likely to remain isochronous than metric feet containing syllables with greater articulatory complexity. (Lehiste 1986, 290) Die postulierten silbenprosodischen Korrelate der Silbenzählung gelten also in gleicher Weise auch für Akzentzählung und liefern damit gerade kein typologisches Kriterium. Kontraintuitiv vom Standpunkt einer jeden Explikation von Silbenzählung, welche die Zeitdimension zumindest noch mitberücksichtigen will, erscheint dagegen die folgende Vermutung: Sprachen, deren Prosodik von einer Silbengewichtsdistinktion gekennzeichnet ist, scheinen eine Untergruppe der silbenzählenden Sprachen darzustellen [... ] (Kaltenbacher 1998,192) Gewichtsunterscheidungen konfligieren aber gerade mit dem Ideal der Silbenuniformität und sollten deshalb in einer idealtypisch silbenzählenden Sprache vermieden werden. Besonders deutlich erweist sich die Unangemessenheit einer jeden Dichotomie im Geiste Abercrombies dabei in der Schwierigkeit, den Einfluß distinktiver Quantität auf das Isochronisierungsverhalten zu beurteilen. So sind sowohl phonologische Segmentdauerunterschiede mit Silbenzählung in Verbindung gebracht worden (vgl. Auer 1993 und Laver 1994), als auch umgekehrt ihr Fehlen (vgl. Arvaniti 1994, 240). Zumindest dann, wenn wir phonologisch lange Sprachlaute als bisegmental werten, gehen Quantitätsdistinktionen aber notwendig mit silbenstruktureller Komplexität einher: durch Langvokal besetzte Nuklei zwingen ebenso wie Geminaten, gleich ob hetero- oder tautosyllabisch, zu einer Abweichung von der idealen

89 CV-Alternanz. Daher konfligiert Quantität sowohl mit der silben- als auch der fußisochronisierenden Teleologie und ist somit für diese Sprachklassifikation ebenfalls ohne Belang. Eng mit der Problematik verknüpft ist auch die unklare Abgrenzung von Silben- und Morenzählung. Hierbei finden sich in der Phonetik sogar offensichtlich falsche Behauptungen, wie etwa "morae are syllables, although defined in a way which is a bit different from the way syllables are defined in languages like English" (Eriksson 1991,30). Doch auch wenn morenbasierte Rhythmisierung im Rahmen der Phonologie als eigene Organisationsform anerkannt wurde, ist sie manchmal als Unterfall von Silbenzählung aufgefaßt worden (vgl. Kubozono 1995,297 und Coetsem 1996,120). Erst Hoequist (1983) untersucht Moren-, Silben- und Akzentzählung explizit als eine Trias rhythmischer Sprachtypen. Obwohl jedoch die in 1.2.1.3 vorgestellten phonetischen Befunde eindeutig eine zeitorganisierende Funktion der Moren erweisen, spricht aus der phonologischen Literatur immer wieder Skepsis gegenüber dieser Erweiterung der Abercrombieschen Dichotomie; Bertinetto (1988,69) etwa faßt Morenzählung allein negativ als besonders stark ausgeprägte Anisochronie der Füße. Dieses typologische Zaudern steht in einem eigenartigen Kontrast zu der Hartnäckigkeit, mit welcher vielfach am silbenzählenden Sprachtyp festgehalten wird. Daß die phonologischen Rettungsversuche den Untergang der Silbenzählung jedoch eher beschleunigen als verhindern, wird sich im nächsten Unterabschnitt erweisen.

2.2.3

Isosyllabizität als Rhythmizität?

Wie in 1.2 dargelegt, sind in den Neuinterpretationen der typologischen Intuition von Pike [1945] immer mehr Korrelate für Silben- und Akzentzählung postuliert worden, die nur noch mittelbar oder überhaupt nicht mehr auf die ursprüngliche temporale Teleologie zu beziehen sind. So ergibt sich in der am meisten Merkmale umfassenden Charakterisierung von Isochronietypen bei Auer (1993), daß sich von seinen jeweils zwölf phonologischen Eigenschaften gerade noch drei unmittelbar zeitlich auswirken, wie in der unter (34) dargestellten Einteilung der Kriterien aus (15) zu ersehen ist: (34) Versuch einer Differenzierung von Auer (1993) 1. 2.

3.

Zeitstruktur: ± Quantität (2.), ± Komplexität der Silbenstrukturen (5., 6.) Prominenzstruktur: (a) ± Prominenz des Wortakzents (10., 11.) (b) ± Prominenzminderung bei Akzentlosigkeit (1., 12.) Prägnanz der rhythmischen Grundeinheit: ± Töne, ± Prozesse auf Wort- oder Silbenebene (3., 4., 7., 8., 9.)

Für eine Menge phonologischer Eigenschaften, die zusammen einen rhythmischen Idealtyp definieren, ist aber sinnvollerweise zu fordern, daß sie alle in der rhythmischen Teleologie von Bedeutung sind und simultan optimiert werden können. Daß ausgerechnet die typologische Relevanz der beiden sich zeitlich auswirkenden Korrelate Quantität und geringe Silbenkomplexität fraglich ist und diese beiden Aspekte zudem unmittelbar in Konflikt stehen, haben wir bereits gesehen. Nunmehr sollen die restlichen Korrelate diskutiert werden. Beginnen wir mit der Prägnanz der prosodischen Gliederungsebenen: Plausibel wirkt die Salienz der Silben in Tonsprachen, zumindest in solchen, wo überall tonale Distinktionen

90 möglich sind. Ob hingegen jede phonologische Regularität, die nur unter Bezug auf die Silbe formulierbar ist, eo ipso auch die Salienz der Silbenprosodie erhöht, erscheint weniger klar. Sinnvoll erscheint es, die prägnanzbezogenen Kriterien unter (34) dahingehend abzuschwächen, daß nur derjenige Teil von silbenbezogenen Regularitäten als Indiz für Silbenzählung zu werten ist, welcher Silbenstrukturen einander angleicht oder Silbengrenzen klarer hervortreten läßt. Neuere phonologische Explikationen der Grundlagen von Silbenzählung thematisieren in zunehmendem Maße auch die Prominenzstruktur der Sprache, wie in (34) angedeutet, und charakterisieren die (geäußerten) Folgen von Silben in silbenzählenden Sprachen nicht nur in der Zeit, sondern auch in der Prominenz als ausgeglichen: In letzter Konsequenz beschreibt diese umfassende Charakterisierung von Silbenzählung also eine Folge gleich langer und gleich prominenter Silben als rhythmisches Ideal; zur Silbenisochronie tritt das Verbot von Prominenzalternation. Diese Konjunktion der beiden Eigenschaften haben wir in (7) als Isosyllabizität bezeichnet. Tatsächlich bezeichnet sie nach unserem Verständnis jedoch keineswegs eine optimale rhythmische Konturbildung, sondern im Gegenteil ihre vollständige Abwesenheit. Bereits in der Bestimmung des Rhythmus als τάξις bei Piaton und Aristoxenes deutet sich nämlich an, daß Rhythmizität durch eine - wie auch immer geartete - systematische Abwechslung prosodischer Grundeinheiten entsteht. Auch in den Linguistik und Poetologie übergreifenden Erläuterungen bei Brogan (1993e, 1067) wird Rhythmizität gerade auf "any sequence of events or objects perceptible as a distinct pattern" (Hervorhebung A. D.) beschränkt. Schon August Wilhelm Schlegel spricht sich in der nachfolgend zitierten Passage ausdrücklich dagegen aus, monotone akustische Ereignisfolgen als rhythmisch zu bezeichnen: [... ] denke Dir eine Reihe von gleich lange dauernden, oder in gleichen Zeiträumen aufeinanderfolgenden Schallen; zum Beispiel den Schlag des Pulses, das Ticken einer Uhr, das Läuten einer Glocke. Du siehst, alles dies kann uns durchaus keine andere Vorstellung als die von Schnelle und Langsamkeit geben und hat nicht die entfernteste Beziehung auf den Charakter verschiedener Vorstellungen. Sobald hingegen Rhythmus entsteht, das heißt sobald Abwechslung in die Dauer der einzelnen Eindrücke gebracht und Längen mit Kurzen gemischt werden, so kann eine solche Tonfolge auch ohne Hilfe der Modulation schon einigen Einfluß auf unser Gemüt haben [... ] (Schlegel [1795] 1962a, 161; Hervorhebung A. D.) Anders als bei den von Schlegel genannten Schallquellen ist in lautsprachlichen Äußerungen jedoch nicht nur die Dauer, sondern auch die Prominenz der rhythmischen Grundeinheiten variierbar. Eine isochrone Silbenfolge kann durchaus Rhythmizität aufweisen, muß diese aber durch eine Konturierung der Prominenzkontur erzielen. Eine Äußerung jedoch, in der alle Silben gleich lang und gleich prominent wären, hätte keinerlei rhythmische Kontur mehr und wäre somit in rhythmischer Hinsicht tickenden Uhren und tropfenden Wasserhähnen an die Seite zu stellen. Daß auch eine solche vollständige Abwesenheit von Rhythmizität durch eine gewisse kognitive Anstrengung in einer willkürlichen Gruppenbildung überwunden werden kann, spricht, wie im letzten Unterabschnitt bereits ausgeführt, noch keineswegs für rhythmische Qualität im Signal - schließlich kann ein tropfender Wasserhahn gerade aufgrund seiner rhythmischen Amorphie auch zur Qual werden. Mindestens in einer der beiden rhythmisch relevanten Dimensionen von Zeit und Prominenz muß somit eine rhythmische Konturbildung die Grundeinheiten, im Falle der Lautspra-

91 che also die Silben, unterscheiden, was Meyer (1956) in seiner Besprechung der gestalthaften Musikwahrnehmung klar erkennt: For just as a series of beats which are equal both in accent and duration will not give rise to an impression of rhythm (except in so far as the mind imposes its own arbitrary differentiation upon the stimuli) so, too, the smaller rhythmic groups will not give rise to larger patterns unless differentiation of accent or duration is present. (Meyer 1956, 111) Die bereits mit Dauer (1983) einsetzende Anreicherung der phonologischen Bestimmungsmerkmale von Silbenzählung um prominenzegalisierende setzt also die ursprüngliche rhythmologische Motivation der Typologie außer Kraft, anstatt sie zu unterstützen.

2.2.4

Anmerkungen zur Forschungsgeschichte

Die Ansetzung unterschiedlicher Isochroniepräferenzen für die Sprachtypologie ist ein Kind der angloamerikanischen Phonetik und Linguistik. Pike [1945] will in seinem vorwiegend für spanische Studierende des Englischen geschriebenen Werk der intuitiv bestehenden rhythmischen Verschiedenheit zwischen den beiden Sprachen durch die Ansetzung einer silbenisochronisierenden Rechnung tragen. Daß er in diesem Zusammenhang von "non-English languages" (Pike [1945] 1967, 34) spricht, zeigt meines Erachtens deutlich, daß Silbenisochronie bei ihm eigentlich nur einen Negativbefund darstellt (vgl. auch Eek/Help 1987,224). Auch in der Forschung nach Pike fallt auf, daß sie in den ersten Jahrzehnten fast ausschließlich von Phonetikern mit englischer oder einer anderen germanischen Muttersprache betrieben wurde: It may not entirely be a coincidence that the rational study of timing in languages is a significant (although not a large) part of the study of phonetics in Britain and America, in Holland, Scandinavia, and Germany, and in Russia. All of these are places where stress-timed languages are spoken [... ] Those areas of the Continent where syllable-timing is usual have not on the whole paid much attention to timing. Perhaps they have less to explain. (Smith 1976, 108) Naheliegender als die im Zitat formulierte Konklusion scheint mir jedoch die gegenteilige Folgerung, daß nicht-fußisochronisierende Rhythmisierungen in ihrer Eigenart schlechter verstanden werden und nicht weniger, sondern mehr an explanativer Theoriebildung noch zu leisten bleibt. Roach ( 1982,78) fordert sogar ausdrücklich eine Berücksichtigung der Intuitionen von Sprechern 'silbenzählender' Sprachen, um die Isochronieforschung voranzubringen. Wie wir gesehen haben, lehnen jedoch die meisten Phonetiker und Linguisten in der Romania für ihre Muttersprachen eine Charakterisierung als silbenzählend ab. Silbenisochronisierung bildet, wie wir gesehen haben, eine auch in akzentzählenden Sprachen vorhandene phonostilistische Option und ist somit als Eigenschaft eines Sprachfyps fragwürdig. Die inkonsistenten und teilweise im Verbund rhythmische Konturbildung sogar verhindernden Listen phonologischer Faktoren, die eine solche Präferenz unterstützen sollten, sind jedoch schon innerhalb der Phonologie problematisch - kurz: Ein silbenzählender Sprachtyp ist nicht nur phonetisch, sondern auch phonologisch eine Fiktion. Warum hieraus jedoch nicht auf eine Universalität der akzentzählenden Rhythmisierung geschlossen werden sollte, wird im folgenden Abschnitt begründet.

92 2.3

2.3.1

Kritik der allein akzentbasierten Rhythmusphonologie

Akzente und Prominenzkonturen

Da gerade in der Rhythmusforschung bereits so grundlegende Begriffe wie Akzent, Betonung und Prominenz im Deutschen in der phonetischen, phonologischen und poetologischen Literatur unterschiedlich, manchmal inkonsistent und häufig ohne eine Definition gebraucht werden, scheint eine terminologische Festlegung für das Verständnis der nachfolgenden Ausführungen unumgänglich. 1 Wir unterscheiden im folgenden erstens eine phonologische Ebene sprachlichen Wissens um Regularitäten der Gestalt von Wörtern und größeren selbständig äußerbaren Einheiten, zweitens ein realisationsphonologisches Wissen über in einer Sprachgemeinschaft usuelle Aussprachen (vgl. die Ebene der Norm bei Coseriu 1970) und drittens beobachtbare Äußerungen als phonetische Ereignisse. Akzent, Prominenz und Betonung sind Eigenschaften, die Silben als ganzen zukommen. Eine Silbe trägt Akzent, wenn sie innerhalb einer in der prosodischen Hierarchie höherrangigen phonologischen Domäne in einer nicht-kontrastiven Aussprache ein Prominenzmaximum bilden kann. Eine Silbe trägt innerhalb einer größeren phonologischen Domäne Prominenz, wenn sie in einer in dieser Sprache usuellen prosodischen Konturierung dieser Domäne betont ist. 2 Dabei fassen wir Prominenz, wie schon Trubetzkoy (1935, 24) seinen Begriff der Hervorhebung, rein phonologisch. Betonung bezeichnet die teilweise sprachspezifisch konventionalisierten Strategien der phonetischen Auszeichnung prominenter Silben. Unter (35) fassen wir unsere terminologischen Festlegungen zusammen: (35) Drei Ebenen der Sprachbeschreibung in der Akzentprosodie Sprachsystem wortphonologisches und morpholexikalisches Wissen Norm satzrealisationsphonologisches Wissen Rede phonetische Interpretation

Akzent Prominenz Betonung

Allerdings unterscheidet sich die Festlegung der Akzentposition zwischen verschiedenen Domänen wie dem Fuß, dem phonologischen Wort sowie höherer prosodischer Einheiten: Als Ausgangspunkt für die Akzent- und häufig auch Rhythmusphonologie schlechthin gelten Wortakzente. Dabei umfaßt das phonologische Wissen um den Wortakzent zwei ganz verschiedene Aspekte: erstens das Wissen darüber, ob ein Wort (genauer: eines seiner Elemente aus dem Wortformenparadigma) überhaupt nicht-emphatisch und nicht-kontrastiv Prominenz tragen kann, und, wenn dies der Fall ist, zweitens die Festlegung der Silbe, die im Normalfall prominent realisiert wird, wenn das Wort eine Prominenz erhält. Im Unterschied zu Prominenzen sind Wortakzente somit nicht ausschließlich relational definiert: Zwar kann eine Äußerung, die nur eine einzige Silbe umfaßt, keine Prominenzkontur aufweisen, doch ist es möglich, daß auch eine einsilbige Wortform Akzent trägt, da sie in einer mehrsilbigen Äußerung innerhalb ihrer phonologischen Phrase oder einer sententialen Einheit zu einem globalen

1

2

Vgl. zu einer Klärung der verschiedenen Verwendungsweisen der englischen Termini accent, stress, pitch und prominence Cutler/Ladd (1983a) und Fox (2000, 114-120). Vgl. zu einer ähnlichen Differenzierung wortphonologischer Positionsspezifikationen (stresses) und beobachtbaren Aspekten der Äußerungsgestalt (accents) Jassem/Gibbon (1980), die in ihrer zweiten Kategorie allerdings phonetische und phonologische Beschreibung nicht ausreichend trennen.

93 Prominenzmaximum werden kann. Ferner wird für Wortakzente meist Kulminativität gefordert, das heißt in jeder Wortform gibt es höchstens einen Wortakzent. Wortakzente sind also globale Prominenzmaxima innerhalb ihrer Domäne. Umstritten scheint jedoch in der Phonetik wie Phonologie die Frage, ob diese Konzeption des Zusammenhangs zwischen morpholexikalischer prosodischer Spezifikation und Satzphonologie für alle Sprachen der Welt in gleicher Weise zutrifft. Einige Autoren (vgl. Jongenburger 1996,2; Auer 2001,1395) betrachten die Existenz eines Wortakzents in einer Sprache als klassifikatorischen Parameter. Jedoch findet auch die Gegenthese, derzufolge alle Sprachen Wortakzent aufweisen, in älterer wie neuerer Zeit ihre Anhänger; schon Bernhardt [1805] scheint ihn geradezu als phonologische Notwendigkeit zu werten: Alle Sprachen müssen in ihren einzelnen Wörtern einen Accent haben, weil sonst schlechterdings nicht die einzelnen Silben ihrer Wörter zusammenhängen könnten. (Bernhardt [1805] 1990, 392) Auch Hülst (1999,95) spricht sich in seinem Überblick über wortprosodische Systeme in den Sprachen der Welt für die Universalität des Wortakzents aus und fügt hinzu, daß akzentuelle Struktur sich nicht notwendigerweise phonetisch auswirken müsse. Um jedoch nach unserer Definition eine Silbe als Trägerin des Wortakzents zu bestimmen, muß ihr in mindestens einem nicht-kontrastiven Äußerungsvorkommnis Prominenz zukommen und somit auch Betonung. Zwar kann sich diese Realisierung, wie wir im nächsten Unterabschnitt noch sehen werden, in verschiedenen Sprachen und sogar innerhalb einer Sprache phonetisch sehr unterschiedlich manifestieren. Daß sie sich manifestiert, ist jedoch nach unserem Verständnis unumgänglich. Wie könnte sonst ein Kind oder ein Schüler im Fremdsprachenunterricht das Wissen um die richtige Akzentuierung erwerben? Was berechtigt nun zu der Aussage, eine Sprache 'habe keinen Wortakzent'? Nach unserer obigen Definition dürfte eine solche Sprache in keiner ihrer Wortformen ein globales Prominenzmaximum erlauben oder aber keine Silbe als mögliches Prominenzmaximum phonologisch festlegen. Ob es Sprachen gibt, die tatsächlich Isoprominenz aller Silben approximieren und somit keine Prominenzkontur aufweisen, scheint mir fraglich. Hingegen behauptet bereits Polivanov (1936) eine prinzipielle Unbestimmtheit der Betonungslage in einer uralischen Sprache, dem Mordwinischen: Ein beliebiges Wort kann hier auf einer beliebigen Silbe eine Betonung erhalten, kann mannigfaltige Betonungen tragen, oder ohne Hervorhebung irgendeiner Silbe ausgesprochen werden. (Polivanov 1936, 77) Folglich fehlt dieser Sprache jegliche wortprosodische Spezifikation einer Akzentstelle und somit auch Wortakzent schlechthin. Anders liegen dagegen die Verhältnisse im Französischen, die, wie in 1.2.1.2 bereits erwähnt, ebenfalls als "langue sans accent" aufgefaßt wurde: Zwar ist die Zuweisung einer Prominenz auf eine Wortform in einer Äußerung, wie wir in 3.3.2 noch sehen werden, eher die Ausnahme als die Regel; wenn jedoch eine mehrsilbige Wortform eine Prominenz erhält, so ist eindeutig festgelegt, welche Silbe betont wird (nämlich die Ultima). Diese Tatsache genügt bereits, um nach dem hier entwickelten Akzentbegriff das Französische als Sprache mit Wortakzent zu bezeichnen. Wie ist nun die Relation der Akzente und der Prominenzkonturen zu beschreiben? Nach unseren bisherigen Ausführungen umfaßt die Akzentlehre das Wissen, ob und gegebenenfalls auf welcher Silbe eine Form eines Wortes Prominenz erhalten kann (vgl. Lehiste 1970,150;

94 Vennemann 1986,60; 1994, 16). Lieb (1999) widmet der Definition und dem ontologischen Status des Wortakzents einen eigenen Aufsatz und bestimmt: Hauptakzent (primärer Wortakzent) ist die Fähigkeit einer Silbe eines Wortes, einen syntaktischen Akzent zu erhalten, wenn das Wort ohne Emphase innerhalb eines Satzes erscheint, wobei gilt: Es gibt bei dieser Akzentsetzung eine durch das Akzentvorkommen bedingte Satzbedeutung, die nichtkontrastiv ist. (Lieb 1999, 227) Auch bei Lieb bilden also Wortakzentsilben potentielle Prominenzmaxima. Seine Explikation schließt ferner ausdrücklich emphatisch und kontrastiv motivierte Betonungsmöglichkeiten aus. Auch aus phonetischer Sicht sprechen sich Krahmer/Swerts (2001) dafür aus, Kontrastakzente als intonatorisches Phänomen und nicht als sententiales Prominenzmaximum zu werten. Metasprachliche Betonungen sind für die Wortakzentlehre ebenfalls ohne Belang, da sie sich gerade dadurch auszeichnen, jede beliebige Silbe in einer Äußerung prominent machen zu können, sogar reduzierte. Gerade in dieser spezifischen Differenzqualität liegt ihre semiotische Eignung begründet. Coetsem (1996) nimmt die Potentialität des Wortakzents sogar zum Anlaß für eine neue Begriffsbildung: [... ] the accentual unit may coincide with a polysyllabic word (e.g .father, but it may also encompass more than what is subsumed under the notion of word in a language like English; vgl. of the father [...]. It seems therefore preferable to use the term lexical accent instead of word accent. (Coetsem 1996, 30; Hervorhebungen im Original) Dieser terminologische Wechsel verschleiert jedoch die satzphonologische Bedingtheit der Prominenzverteilung, die gerade nicht allein als Folge lexikalischer prosodischer Spezifikation erklärt werden kann. Auch wird die Realität von Wortakzenten nicht dadurch in Frage gestellt, daß klitische Formen sich dem phonologischen Wort anschließen können. Wie aber trifft die Satzphonologie bei Äußerungen ohne emphatische, kontrastive oder metasprachliche Betonungen die Auswahl der prominent zu realisierenden Akzentsilben? Bereits Saran (1907) hat hier auf Unterschiede zwischen den Sprachen hingewiesen: Deshalb unterscheide man auch streng den Akzent des isolierten Wortes ('Wortakzent') und den Akzent der zusammenhängenden Rede ('Satzakzent'). Im Deutschen wird der erstere im letzteren fast völlig erhalten: im Griechischen und im Französischen tritt er sehr zurück, ja geht verloren. Der 'Satzakzent' ist im Leben allein vorhanden: auf ihn kommt es an. Der Wortakzent ist erst durch künstliche Isolierung der Worte zu ermitteln. Man unterscheide auch 'Wortakzent' und 'Akzent eines Wortes im lebendigen Satz'. (Saran 1907, 101) Nach Saran werden also Wortakzentsilben im Deutschen wesentlich häufiger prominent realisiert als etwa im Französischen. Wichtig ist, daß die Termini Wort- und Satzakzent bei Saran wie auch bei Vennemann anders gebraucht werden als in einer Tradition, die allein Fokusakzente als Satzakzente, im Englischen auch als nuclear stresses oder sentence accents bezeichnet, als Wortakzente hingegen alle übrigen Prominenzen (vgl. etwa Bolinger 1958 und Gussenhoven 1984). Wir veranschaulichen diese Unterschiede an einem Satzbeispiel, in dem mit Maria die fokussierte Konstituente bilde, zusammen mit einer Gitterdarstellung der Prominenzkontur unter (36):

95 (36) Zu unterschiedlichen Terminologien für Prominenzkonturen 3. χ 2. χ χ χ χ 1.

Χ

XX

XX

Χ

XX

Χ

XXX

XXX

Ins

alte

Kino

ist

Peter

mit

Maria

gefahren.

Die Folge der Markierungen auf der ersten Stufe repräsentiert die silbenprosodische Basis. Silben, die eine Markierung auf der zweiten Stufe erhalten, werden in dieser realisationsphonologischen Gestalt des Satzes prominent realisiert. Die Markierung auf der dritten Stufe gibt die Lage des Fokusakzents an. Nicht jede Wortakzentsilbe wird prominent realisiert (insbesondere nicht die erste Silbe von alte), umgekehrt liegt aber jede Prominenz in (36) auf einer Wortakzentsilbe. Die Anfänge einer solchen die Informationsstruktur mitberücksichtigenden Unterscheidung verschiedener Determinanten für prominente Realisierung reichen ebenfalls bis mindestens zu Humboldts Unterscheidung von Rede- und Wortbetonung zurück: Die Sprachbetonung [... ] kann zur Absicht haben, den durch ein Wort, oder eine Silbe bezeichneten Begriff verhältnismässig vor anderen, zur Erzeugung eines Ganzen der Rede herauszuheben, und dann heißt sie die Redebetonung, oder mehrere, für sich gar nicht, oder nicht vollständig bedeutsame Silben zur Erzeugung eines Wortes zu verbinden, und dann heißt sie die Wortbetonung. (Humboldt nach 1820, 316) Die phonetische Forschung der letzten Jahrzehnte hat jedoch erwiesen, daß sich solche Redebetonungen oder Fokusakzente, also die Markierungen auf der obersten Gitterzeile unter (36), in der phonetischen Realisierung systematisch von anderen nicht fokusanzeigenden Prominenzen unterscheiden: So werden im Englischen, Deutschen und Niederländischen, aber auch in romanischen Sprachen, nach Selkirk (1995, 552f.) und Sluijter (1995, 153ff.) Fokusakzente - auch bei metasprachlicher Fokussierung - vorwiegend tonal interpretiert und spielen somit für die Intonationskontur, kaum jedoch für die Prominenzkontur eine Rolle. Auch wirken sie sich auf die Zeitstruktur in weit geringerem Maße aus als prominent realisierte Wortakzente, jedoch innerhalb einer größeren Einheit als der prominenten Silbe. Turk/Savush (1997) betrachten dabei den Fuß, Eefting (1991) und Sluijter (1995) sogar die gesamte Worteinheit als Domäne der Längung. In Sprachen wie dem Japanischen oder Koreanischen hingegen, welche Prominenzen vor allem über die tonale Konturierung realisieren, werden Fokuskonstituenten nach Venditti/Jun/Beckman ( 1996) durch andere phonetische Markierungen prosodischer Phrasengrenzen (einem sogenannten "dephrasing") gekennzeichnet. Auch viele der älteren phonetischen Untersuchungen zur Realisation des Wortakzents sind wegen der fehlenden Unterscheidung von Fokusakzenten und rhythmischen Prominenzen wenig aussagekräftig (vgl. die Kritik bei Slujter 1995,3). Allerdings unterscheiden sich nach Vallduvi/Engdahl (1996) Sprachen darin, inwieweit die Position des Fokusakzents in der Äußerung variabel ist und somit bei einer konstanten Abfolge der Satzglieder verschiedene Fokussierungen möglich sind: Weit stärker als das Englische ist etwa das Katalanische hinsichtlich der möglichen Positionen für Fokusakzente beschränkt und muß durch Umstellung der Satzglieder oder auch verschiedene Formen der Herausstellung, Spalt- oder Sperrsatzbildung die zu fokussierende Konstituente 'unter den Fokusakzent bringen'. Umgekehrt finden sich nach Cruttenden (1997,144) in Sprachen wie dem Spanischen und Französischen häufiger als im Englischen und Deutschen auch auf informationsstrukturell weniger wichtigen Äußerungsteilen Prominenzen; Cruttenden spricht von re-accenting. Diese geringere Flexibilität der Prominenzvergabe in solchen Sprachen resul-

96 tiert ihm zufolge aus ihrer geringeren Toleranz für Abweichungen zwischen intonatorischer und syntaktischer Phrasierung. Nach Alter (1996, 608ff.) unterscheidet sich die phonologische Manifestation der Fokus-Hintergrund-Gliederung ferner auch in der Markierung der fokussierten Phraseneinheit, wo etwa das Russische stärker als das Deutsche und Französische durch Assimilationen innerhalb der Fokuskonstituente und Grenzsignale an ihren Rändern bei konstanter Linearisierung verschieden große syntaktische Einheiten informationsstrukturell herausheben kann. Fokussierung ist somit keineswegs eine universelle prosodische Geste, sondern Teil der einzelsprachlichen Komponente der Satzphonologie (vgl. auch Ladd 1996, 167), allerdings, soweit dies aus den relativ wenigen sprachvergleichenden Untersuchungen hervorgeht, nicht innerhalb der rhythmisch relevanten Zeit- und Prominenzkontur. Eine Repräsentation des Fokusakzentes in einem metrischen Gitter wie unter (36) zwingt also phonetisch wie phonologisch völlig verschiedene Akzenttypen unter eine einheitliche Repräsentation. Sinnvoller und fUr die rhythmusphonologische Beschreibung ausreichend erscheint eine Beschränkung auf die durch die ersten beiden Ebenen mitgeteilte Abfolge der Prominenzen. Allenfalls kann ein Fokussierungstest zur Bestimmung der Wortakzentposition dienen (vgl. Jongenburger 1996, lf.). Noch weit stärker aber als in der Erläuterung der Beziehung zwischen Fokusakzent, Wortakzenten und Prominenzkontur hat die Nichtunterscheidung von Wort- und Satzphonologie in großen Teilen der Forschung bei den Nebenakzenten zu Verwirrungen und Widersprüchen geführt. Unterschiede zwischen Worthaupt- und Nebenakzenten finden sich, wie in 1.3.3 ausgeführt, bereits in der Bestimmung ihrer Position, wo letztere in Simplizia offenbar nie lexikalisch festgelegt werden können. Immerhin treten bei manchen komplexen Wortformen Persistenzphänomene auf, wo eine Wortakzentsilbe eines Stammes, der als Derivationsbasis oder Kompositionsglied fungiert, im Wortbildungsprodukt eine bevorzugte Nebenakzentposition bildet. Eine fundamentale und nur wenig reflektierte Prämisse der Metrischen Phonologie besteht nun darin, die Position von Worthaupt- und -nebenakzenten als durch ein und dieselbe Komponente geregelt zu betrachten. Da aber die Lage des Wortakzents in jedem Falle durch die Wortphonologie zu erfassen ist, müssen im Rahmen dieser Theorie auch Nebenakzente auf der Wortebene eindeutig zu verorten sein. Ob nun in einem algorithmischen Modell die Wortakzentposition vor den Nebenakzenten zugewiesen werden soll oder umgekehrt, ist umstritten: Während Hülst (1984, 178ff.) die Abfolge der Nebenakzente als Epiphänomen der Lage des Hauptakzents ansieht, spricht sich Hayes (1995,117) dafür aus, zumindest für einige Sprachen mit phonologisch bestimmtem Wortakzent dessen Lage als ausgezeichnete Nebenakzentposition zu analysieren. Kaum in Frage gestellt wird dagegen die gemeinsame Behandlung von Nebenakzenten und Verfußung im Rahmen der Wortphonologie: So widmet Hayes (1995) in seinem opus magnum bezeichenderweise acht Kapitel der lexikalischen Ebene und geht nur in einem kurzen letzten auf satzphonologische Strukturierungen ein, die er zudem weitgehend als bloße Mechanismen zur Beseitigung adjazenter Akzente - und dies impliziert in seinem Ansatz immer auch schon Prominenzen - beschreibt. Grundlegend ist ihm zufolge die Verfußung der einzelnen Worteinheiten (S. 367). Allerdings muß auch Hayes zugeben, daß nach einem möglichen satzphonologischen Einfluß auf die Lage der Nebenakzente von vielen Forschern erst gar nicht gefragt wurde: The set of languages with phrasal foot construction may well be larger than previously suspected, since studies of alternating stress typically use only single words as data. (Hayes 1995, 367)

97 Bereits Trubetzkoy [1939] ( 3 1962,203, Fn. 1) weist jedoch darauf hin, daß eine isoliert produzierte Wortform "als ein selbständiger Satz betrachtet werden muß". Noch deutlicher kritisiert Vennemann (1986) die Verwechslung von Wort- und Satzphonologie im Rahmen der Metrischen Phonologie: Nach meinem Verständnis rührt die Behandlung von Nebenakzenten in unzusammengesetzten Wörtern daher, daß man diese - als kleinste geäußerte Einheiten - phonologisch wie Sätze, also satzphonologisch behandelt hat. Mir scheint, daß die dann in der Tat feststellbaren sekundären und tertiären Hervorhebungen Uberhaupt nichts mit Akzent, nämlich noch nicht einmal etwas mit Satzakzent zu tun haben, sondern eine Manifestation des einzelsprachlichen Satzrhythmus sind. Da der Satzrhythmus aber, im Gegensatz zum Satzakzent und in vielen Sprachen zum primären Wortakzent, automatisch - nicht linguistisch kontrastiv - ist, konnte man für die Nebenakzente der Wörter Regeln aufstellen. Diese Regeln waren, so gesehen, Satzrhythmusregeln für Einwortsätze und keine Akzentregeln. (Vennemann 1986, 58) Für das Deutsche liegen mit Noel (2001) bereits erste Ergebnisse von Perzeptionsexperimenten vor, welche die satzphonologische Bedingtheit der Nebenakzentlagen in längeren Simplizia erweisen. In der statistischen Auswertung der Daten wird darüber hinaus deutlich, daß auch segmentale und silbenstrukturelle Faktoren Einfluß auf die präferierte Position von Nebenakzenten nehmen, allerdings in anderer Weise als bei der Auswahl möglicher Wortakzentsilben in Simplizia des Deutschen. Im Unterschied zu den von Vennemann (1990; 1991b) formulierten Beschränkungen der Lage des Wortakzents zeigt sich nach Noel für sekundäre Prominenzen auch ein Einfluß der Qualität des Nukleusvokals. Silben mit hohen Vokalen tragen im Deutschen deutlich seltener Nebenakzent als andere. Somit scheinen also Silbengewichtsunterscheidungen nicht in jedem Falle in der Wort- und Satzphonologie auf die gleiche Weise getroffen zu werden, was ebenfalls eine gemeinsame Behandlung von Haupt- und Nebenakzentpositionen fragwürdig erscheinen läßt. Die Metrische Phonologie hingegen will Haupt- und Nebenakzente gerade so, nämlich einheitlich auf der lexikalischen Ebene, bestimmen. Sententiale sprachliche Einheiten werden dabei meist nicht eigens diskutiert oder aber als bloße Konkatenation von - eventuell durch Akzentsandhi eingepaßten - Einzelwortprosodien aufgefaßt. Zudem wird auch der phonetisch wie phonologisch prinzipiell andersartig positionierte - Fokusakzent in die Gitterdarstellung mit eingetragen. Es fehlt also eine Unterscheidung paradigmatischer und syntagmatischer Aspekte in der Rhythmusphonologie: Während Akzente paradigmatisch, als Wortakzente auf der lexikalischen und als Fokusakzent auf der sententialen Ebene, festgelegt sind,3 ergeben sich die beobachtbaren Prominenzkonturen von Äußerungen syntagmatisch in der Satzphonologie durch eine Auswahl prominent realisierter Wortakzente, die vor allem bei längeren Wortformen um weitere Prominenzen, eben die 'Nebenakzente', ergänzt werden können. Konsequenterweise definiert Lieb (1999): Nebenakzent (sekundärer Wortakzent) ist die Fähigkeit einer Wortsilbe, die keinen Hauptakzent hat, asemantisch hervorgehoben zu werden, wenn das Wort innerhalb eines Satzes erscheint. (Lieb 1999, 237) Die Beschränkung auf asemantische, somit wohl euphonologisch motivierte Prominenzgebung greift dabei die bereits erwähnte Beobachtung von der fehlenden Distinktivität von Ne3

Somit ist wegen der satzrhythmischen Festlegung strenggenommen bereits der Terminus Nebenakzent irreführend und sollte durch Nebenprominenz ersetzt werden.

98 benprominenzen auf. Neben der mangelnden Differenzierung von Akzent und Prominenz erscheint aber auch die Motivation unterschiedlicher prosodischer Gliederungen durch verschiedene Betonungsverfahren als weiteres Problem der Metrischen Phonologie in ihrer wohl bekanntesten Version von Hayes (1995), wie wir im nächsten Unterabschnitt sehen werden.

2.3.2

Prominenz und Betonung

Innerhalb der prosodischen Dimensionen der Zeit, Melodie und Intensität manifestiert sich die Prominenzkontur notwendigerweise "parasitär" (vgl. Hayes 1995,7 und Hülst 1999,77). Die zeitliche Gestaltung ist nämlich häufig und die tonale sogar universell anderen phonologischen Festlegungen unterworfen. Zum anderen aber erscheint Intensität als das am wenigsten zuverlässig perzipierbare Korrelat, weil die wahrgenommene Lautheit viel stärker als andere prosodische Parameter von der Gesprächsumgebung abhängt (vgl. Sluijter 1995, 7 und die dort aufgeführten Referenzen). Betonungen beeinflussen also die Zeitstruktur oder die melodische Kontur von Äußerungen oder auch beide zugleich. Ebenso wie in der Musik darüber hinaus die Rolle der Klangfarbe für die Hervorhebung einzelner Töne diskutiert wird (vgl. Caplin 1978), führen neuere phonetische Arbeiten auch spektrale Charakteristika der Nukleussprachlaute prominenter Silben als mögliche weitere Korrelate auf (vgl. Beckman et al. 1995 und Campbell 1995 zum Englischen, Sluijter 1995 zum Englischen und Niederländischen, Fant/Kruckenberg 1995 zum Schwedischen und Claßen et al. 1998 zum Deutschen). Solche Verschiebungen der Energieverteilung in höhere Frequenzbereiche sind dabei kaum Störeinflüssen der Umgebung unterworfen. Insgesamt stehen also für die Betonung mindestens die akustischen Möglichkeiten zur Verfügung, die unter (37) zusammen mit ihren in Klammern vermerkten auditiven Korrelaten aufgeführt sind: (37) Optionen für Betonung 1. 2. 3. 4.

Zunahme an physikalischer Dauer (perzipierter Dauer) Erhöhung oder Verminderung der Grundftequenz (Tonhöhe) Zunahme an Intensität (Lautheit) Veränderung spektraler Charakteristika (der Klangqualität)

Anders als in der Musik hingegen, wo die Lehre vom "Akzent des Anfangs" schon von Theoretikern des 19.Jhs. vertreten wurde, nach der "das erste Unterereignis [ . . . ] akzentuiert in Bezug auf die folgenden Ereignisse" ist (Caplin 1978,21), wird eine höhere perzeptive Salienz einer Silbe allein aufgrund einer bestimmten Position, also unabhängig von weiteren prosodischen Markierungen, für die Lautsprache kaum je diskutiert. Allenfalls bei Classe (1939) klingt die Möglichkeit einer solchen prinzipiellen Unabhängigkeit von Prominenzwahmehmung und phonetischer Auszeichnung an: Stress is essentially a psychological phenomenon normally accompanied by modifications of the physical characteristics of speech which serve to situate it. (Classe 1939,45)

Betonung erscheint hier mehr als nützliches denn als notwendiges Korrelat von Prominenz. Inwieweit aber Prominenzen auch in einer gestalthaften Perzeption ohne prägnante prosodische Hinweise okkasionell vom Hörer 'eingefügt' werden können, ist in der phonetischen

99 Forschung kaum untersucht worden.4 Hier lautet die Prämisse vielmehr, in der Formulierung von Beckman/Edwards (1990,154): "Stresses are prosodie events after all." Der Großteil der ohren- wie meßphonetischen Forschung versucht dabei, die relative Wichtigkeit der verschiedenen prosodischen Parameter zu bestimmen. Dabei hat man in verschiedenen Phasen der Forschung jeweils andere prosodische Dimensionen als zentral gewertet (vgl. Di Cristo 1999, 147). Die von Di Cristo behauptete erneute Hervorhebung der Rolle von Intensität scheint allerdings, wie sich bei einer Durchsicht der von ihm zitierten Literatur zeigt, zum Teil auf einer Verwechslung mit der bereits angesprochenen, nur selektiv höhere Frequenzbereiche verstärkenden Klangqualitätsänderung betonter Vokale in einigen Sprachen zu beruhen. Berechtigt ist dagegen seine Kritik an der mangelnden Berücksichtigung prosodischer Sprach verschiedenheit in weiten Teilen der jüngeren Forschung, zumal Unterschiede in den Betonungsverfahren schon seit alter Zeit vermerkt wurden - man vergleiche etwa die diesbezüglichen Bemerkungen römischer Grammatiker zum attischen Griechisch. Nach Laver (1994, 512) läßt sich jedoch zumindest eine bevorzugte Strategie ausmachen, nämlich die Kombination tonaler, durationaler und dynamischer Mittel, unter Ausschluß der Stimmqualität. Ungeachtet einiger im letzten Unterabschnitt angesprochener Arbeiten zur Realisierung von Fokusakzent wird jedoch in der Literatur immer noch zu selten innerhalb einer Sprache zwischen unterschiedlich, etwa (eu)phonologisch, morpholexikalisch oder semanto-pragmatisch determinierten Prominenzen unterschieden und kaum je untersucht, inwieweit diese durch unterschiedliche Betonungsweisen differenziert werden. Gerade für Kontrastakzente scheint eine besondere phonetische Strategie sogar semiotisch vorteilhaft (vgl. Küper 1988,172, Fn. 72). Neben der Suche nach einem in den Sprachen der Welt dominanten Betonungsverfahren hat sich die vergleichende phonetische Forschung aber auch typologischen Einteilungen zugewandt, die wir im folgenden kurz vorstellen werden.

2.3.2.1

Typologien der Betonungsverfahren

Auf eine lange Tradition zurückblicken kann eine dichotomische Einteilung der Sprachen in solche mit dynamischem Akzent, auch als Druck- oder Stärkeakzent bezeichnet, und solche mit musikalischem. Während für die erste Klasse eine Kombination aus melodischer, durationaler und dynamischer Markierung angesetzt und dabei manchmal letztere als primär angesehen wird, erfolgen Betonungen in Sprachen mit musikalischem Akzent ausschließlich tonal. Andere mögliche Selektionen aus dem phonetischen Angebot unter (37) werden in diesem Zusammenhang oft noch nicht einmal erwogen (vgl. zu dieser Einteilung, die schon von Saran 1907 kritisiert wurde, ausführlicher Fox 2000, 115ff.). Bereits das Französische, das Prominenz sehr prägnant durational, kaum jedoch tonal oder durch Intensität realisiert (vgl. Vaissière 1983, 65), zeigt jedoch, daß die beiden Betonungstypen der Vielfalt der sprachlichen Verfahren nicht gerecht werden. Problematischer noch erscheinen ferner die gerade auch in der älteren historischen Phonologie getroffenen Annahmen über Korrelationen zwischen den Betonungstypen und segmentalem wie silbenprosodischem Wandel. Nicht selten wurde 4

Das Konzept des silent stress von Abercrombie (1971) trägt bei ihm wie auch bei Couper-Kuhlen (1993) weniger einer solchen möglichen Prominenzillusion Rechnung, sondern vielmehr dem kognitiven Fortbestehen eines Isochronietaktes auch über Sprechpausen und sogar über den einzelnen Redebeitrag hinweg.

100 in der Literatur von reduktiven Prozessen in unakzentuierten Silben auf 'starken' dynamischen Akzent als Ursache geschlossen und hierdurch der Laut- und Silbenwandel 'erklärt', wie exemplarisch im folgenden Zitat zum Voraltfranzösischen zu ersehen: On comprend facilement qu'un accent très fort portant sur une syllabe intérieure du mot, un mot paroxyton ou bien proparoxyton, par exemple, affaiblisse tellement les voyelles des syllabes atones suivantes qu'elles se réduisent à zéro [... ] (Palermo 1971, 43) Falls die postulierte Stärke der Betonung allein durch ihre phonologischen Folgen definiert ist, ist die Argumentation zirkulär; falls Stärke aber eine sowohl melodische als auch tonale wie dynamische Markierung von Prominenz meint, schlichtweg falsch, wie wir am Beispiel des Finnischen, Ungarischen oder auch Tschechischen erkennen können, die alle einen phonetisch stark ausgeprägten Initialakzent aufweisen, jedoch auch in den nachfolgenden Silben keine Anzeichen von Vokalreduktionen zeigen (vgl. Sihler 1995, 234). Allerdings deuten nach Sihler vergleichende Untersuchungen zur synchronen und historischen Phonologie darauf hin, daß Sprachen mit allein tonaler Betonung in der Tat weniger stark zwischen Akzentsilben und anderen differenzieren. Auch Beckman (1986) unterscheidet in ihrer wegweisenden Neuanalyse der Betonungstypologie Sprachen, die außer tonalen keine weiteren prosodischen Eigenschaften zur Prominenzrealisierung heranziehen, den sogenannten non-stress accent languages, von allen anderen, eben den Sprachen mit stress accent. Die zweite Klasse zeichnet sich dabei nach Beckman gegenüber der ersten dadurch aus, daß sich in ihr Betonung auch in der supralaryngalen Artikulation manifestiert: Bei einer prominenten Silbe führt der Unterkiefer größere und schnellere Artikulationsbewegungen aus, was Beckman/Edwards/Fletcher (1992) als Strategie zur Erhöhung der SchallfUlle deuten. Neuere artikulatographische Studien zeigen jedoch, daß die größere Unterkieferauslenkung unter Prominenz vor allem für tiefe Vokale gilt, bei mittleren und hohen Vokalen jedoch stärker die Zungenbewegung in Abhängkeit von der Prominenz der Silbe variiert. Vokalische Gesten werden unter Akzent extremer artikuliert; De Jong (1995) spricht in diesem Zusammenhang von einer "localized hyperarticulation". Harrington/Fletcher/Beckman (2000) zeigen schließlich, daß verschiedene Sprecher verschiedene artikulatorische Strategien der Hyperartikulation mit akustisch ähnlichem Ergebnis anwenden können. Dies deutet meines Erachtens daraufhin, daß sich eine einheitliche Charakterisierung der Betonungsverfahren eher auditiv als artikulatorisch gewinnen läßt.

2.3.2.2

Typologien der Prominenzdominanz

Ausgehend von der Dichotomie Beckmans im Rahmen der Phonetik unternimmt Coetsem (1996) den Versuch, einen neuen Ansatzpunkt auch für eine prosodisch basierte phonologische Sprachklassifikation zu gewinnen. Hierbei bestimmt er zwei Prototypen, die er dominanten Akzent (D-accent) und nicht-dominanten Akzent (ND-accent) nennt. Im Unterschied zu Beckman betrachtet Coetsem den Dominanzparameter dabei ausdrücklich als graduell und phonologisch. Überraschenderweise finden sich aber in seiner merkmalbasierten Definition der beiden Typen dann doch zwei phonetische Korrelate, wie unter (38) zu ersehen ist:

101 (38) Dominanter (D) vs. nichtdominanter (ND) Akzent (Coetsem 1996, 43) D-accent stärker ausgeprägte "Silbenhierarchie" mehr Interdependenz der Silben Energiekonzentration auf prominenter Silbe stärkere Heranziehung nicht-tonaler Eigenschaften zur Prominenzrealisierung

ND-accent weniger ausgeprägte "Silbenhierarchie" mehr Autonomie der Silben gleichmäßige Energieverteilung Uber alle Silben keine Heranziehung nicht-tonaler Eigenschaften zur Prominenzrealisierung

Außer den beiden zuletzt aufgeführten phonetischen Korrelaten in (38) erkennen wir also den von uns mit den Termini "Anisoprominenz vs. Isoprominenz" bezeichneten Parameter wieder. Entscheidend für eine phonologische Theoriebildung ist nun nach Coetsem, daß nur bei einer stark ausgeprägten Prominenzkontur prominente Silben einen phonologisch relevanten Einfluß auf nicht-prominente in ihrer Umgebung ausüben. Hiergegen spricht allerdings die Tatsache, daß Vokalharmonie typischerweise gerade in von ihm als ND-akzentuiert bezeichneten Sprachen wie dem Finnischen auftritt, 5 eine Asymmetrie, die Coetsem wie folgt zu begründen versucht: "Vowel harmony [... ] is prominence-independent and will most naturally occur in ND type languages [... ]" (Coetsem 1996, 116). Wenn aber tatsächlich die Prominenzkonturen einer Sprache ohne Belang für Vokalharmonie wären, dann sollte meiner Ansicht die Nullhypothese sein, daß Vokalharmonie in beiden Sprachtypen gleich häufig erscheint. Das wiederholt konstatierte Einhergehen von Vokalharmonie mit geringerer Anisoprominenz stellt jedoch das zweite Korrelat unter (38) direkt in Frage. Auch die Begründung des Zusammenhangs von Akzentdominanz und Vokalreduktion bei Coetsem kann nicht überzeugen. Zwar ist er sich der Problematik der simultanen Rekonstruktion eines Betonungsverfahrens und segmentaler Konsequenzen für eine ältere Sprachstufe bewußt, läßt jedoch trotzdem eine diachronische Motivation für synchronisch postulierte Zusammenhänge gelten: [... ] the difference in the treatment of reduction has served as a diachronic diagnostic to the difference in accent type. The motivation for the association of 'stress' prominence with reduction and 'pitch' prominence with no reduction could be considered circular, but prominence is a question of degree and its association with reduction and no reduction constitutes a complementarity or proportion [... ] (Coetsem 1996, 36) Die Sprachgeschichte zeigt uns, so könnte man diese nicht ganz klare Argumentation vielleicht paraphrasieren, daß dominante Akzente phonologisch relevante Reduktionen zur Folge haben. Allerdings hebt Coetsem an anderer Stelle auch hervor, daß reduktive Prozesse in der Realisationsphonologie aller Sprachen zu beobachten sind und unterscheidet akzentbezogene (iaccent-related) Reduktionsprozesse, die auf D-Akzent-Sprachen beschränkt sind, und effizienzbezogene (efficiency-related). Die Disjunktheit dieser beiden Klassen wird dabei zwar nicht explizit behauptet, aber doch präsupponiert oder zumindest nahegelegt. Intuitiv und auch aus der Sicht der Natürlichen Phonologie (vgl. Donegan/Stampe 1979) erscheint allerdings jede nicht verständnisbehindernde Reduktion als eine Verringerung des artikulatorischen Aufwands bei gleichem kommunikativen Ertrag die Sprechereffizienz zu erhöhen.

5

Nach Ruhlen (1976b, 160) findet sich Vokalharmonie am häufigsten in uralischen und altaischen Sprachen, seltener in afrikanischen und nur in weniger als 5 % aller von ihm untersuchten amerikanischen und australischen Sprachen.

102 Nach Coetsem (1996, 73) schlagen sich nun vorwiegend die akzentbezogenen Reduktionen in phonologischem Wandel nieder. Allerdings fehlt ein unabhängiges Kriterium zur Entscheidung der Frage, ob eine realisationsphonologische Reduktion als akzent- oder effizienzbezogen einzustufen ist (vgl. hierzu auch Dufter 2000). Auch haben wir bereits darauf hingewiesen, daß phonetisch starke, in mehreren prosodischen Dimensionen simultan realisierte Prominenz keineswegs reduktiven Lautwandel nach sich ziehen muß. Somit erlaubt die Theorie weder in der historischen noch in der synchronen Phonologie irgendwelche Schlüsse aus Reduktionsphänomenen auf den 'phonologischen Betonungstyp'. Andererseits ist unklar, wie eben dieser Dominanzgrad des Akzents ohne Rekurs auf seine segmentalen Effekte in unakzentuierten Silben bestimmt werden sollte, zumal auch eine komplementäre phonologische Theorie der Stärkung von Akzentsilben von Coetsem nicht geleistet wird.6 Bereits an dieser Stelle zeigt sich, daß die von Coetsem als phonologisch aufgefaßte Einteilung der Sprachen nach der Dominanz prominenter Silben nicht ohne ein phonetisches Konzept von Betonungsstärke auskommt. Noch fragwürdiger wird sein typologischer Ansatz dadurch, daß er an einer Stelle (S. 40) die Kookkurrenz von D-Akzent und Reduktion beziehungsweise ND-Akzent und dem Fehlen von Reduktion als "necessary correlations" (Hervorhebung im Original) bezeichnet, an anderer Stelle (S. 50) jedoch einräumt, daß eine Sprache mit D-Akzent gelegentlich doch ND-Akzente, und umgekehrt eine Sprache mit ND-Akzent in markierten Einzelfällen auch dominante Akzente mit reduktiven Auswirkungen auf benachbarte Silben aufweisen könne. Welche Rolle spielt nun der Dominanzparameter für die Rhythmisierung in einer Sprache? Coetsem (1996) lagert diese Frage bezeichnenderweise in einen Anhang aus und betont unter Berufung auf die Metrische Phonologie, daß die Distribution von Prominenz (accent distribution) für die rhythmische Kontur wichtiger sei als die Betonungsverfahren (accent nature). Unter der Bezeichung accent fungieren bei ihm also sowohl abstrakte wortphonologische Spezifikationen betonbarer Silben wie auch satzrealisationsphonologische, die die Menge der in der Äußerung zu betonenden Silben festlegen. Mit dieser Nichtunterscheidung von Akzent (in unserem Sinne) und Prominenz wiederholt Coetsem folglich den Kardinalfehler weiter Teile der Metrischen Phonologie. Überhaupt spielen nach Coetsem (1996, 25) Akzente nur in Sprachen mit D-Akzent eine Rolle in der Rhythmisierung. Diesen unterschiedlichen Status der Prominenzkontur in der rhythmischen Konturbildung deutlicher herausgearbeitet zu haben, bildet meiner Ansicht nach das Hauptverdienst der Monographie. Insgesamt zeigt sich aber, daß der Versuch, eine prosodische Sprachklassifikation allein über den Parameter der Anisoprominenz zu etablieren und hierfür phonetische Betonungslehre und Akzentphonologie in einem einzigen Parameter zu bündeln, inkonsistente und zirkuläre Argumentationen nahelegt, kaum phonologische Vorhersagekraft besitzt und somit als sprachtypologischer Ausgangspunkt unattraktiv erscheint. Auch der Rekurs auf Betonungs verfahren zur Erklärung phonologischer Verfußungspräferenzen wirft, wie wir im folgenden Unterabschnitt sehen werden, mehr Probleme auf, als er zu lösen vermag.

6

Solche segmentalen Stärkungen in Akzentsilben stellt etwa Di Luzio (1988, 334) in einer abruzzesischen Varietät des Italienischen fest, und erklärt die segmentalen Besonderheiten als Folge der besonderen rhythmischen Struktur, die ein "foregrounding" prominenter Silben unterstützen.

103 2.3.3 Betonung, Zeitstruktur und Verfußung Bereits in der beginnenden experimentellen Psychologie des ausgehenden 19.Jhs. ist eine Präferenz behauptet worden, die verschiedene rhythmische Gliederungen mit unterschiedlichen Betonungen in Verbindung bringt: In a series of auditory impressions, any regularly recurrent impression which is different from the rest, subordinates the other impressions to it in such a way that they fall together in groups. If the recurrent difference is one of intensity, the strongest impression comes first in the group and the weaker ones after. If the recurrent difference is one of duration, the longest impression comes last. (Bolton 1894, 232)

Diese Asymmetrie in der Perzeption, ausführlicher und mit Einbeziehung tonaler Prominenz untersucht von Woodrow (1909), wird von Hayes (1995, 80), der auf sie mit der Bezeichnung lambicfTrochaic Law Bezug nimmt, nicht unbedingt als psychoakustische, aber doch als universelle kognitive Disposition aufgefaßt und im Rahmen der Metrischen Phonologie zur Erklärung einer Asymmetrie der Verfußungsstrategien herangezogen: Während nämlich in der Klasse der Sprachen mit linksprominenten Füßen sich sowohl Sprachen mit als auch solche ohne verfußungsrelevante Gewichtsunterscheidungen finden, scheinen Sprachen mit jambischer Verfußung grundsätzlich gewichtsbasiert zu sein. Hayes (1995) gründet nun sein Fußinventar wie folgt auf dem Ergebnis von Bolton und Woodrow: Following the Iambic/Trochaic Law, we would expect the trochaic feet to consist of units roughly equal in duration. There are two ways such feet could be "designed". First, the equal units could be syllables, considered without regard to their length. In this case we motivate the syllabic trochee [... ] Second, we can take the equal units to be moras [... ] A foot with inherent durational contrast can be constructed by concatenating a light syllable with a heavy one. This is the maximal (and, I claim, canonical) form of the iamb. (Hayes 1995, 81f.)

Interessanterweise werden also die beiden trochäischen Fußtypen nicht etwa durch Rekurs auf Intensitätserhöhung als Betonungsaspekt oder ein phonologisches Konzept von Anisoprominenz motiviert, sondern allein über die Zeitstruktur. Nicht die Prominenzabstufung, sondern die Isochronie der rhythmischen Einheiten sucht Hayes also phonologisch festzuschreiben. Umgekehrt ist in seiner Definition des Jambus nirgendwo Isoprominenz gefordert. Jede Sprache mit linksprominenten Füßen ist somit nach Hayes entweder silben- oder morenisochronisierend, je nachdem, ob sie syllabische oder moraische Trochäen ausbildet. Daß sich jedoch die Silbendauern in einer Sprache wie dem Deutschen, die nach Hayes (1995, 200) in syllabischen Trochäen verfußt, außerordentlich stark unterscheiden können, ja überhaupt nach unserer Diskussion in 2.2 Silbenisochronie als typologische Option höchst fragwürdig erscheint, verträgt sich schlecht mit der temporalen Motivation im obigen Zitat. Demgegenüber hat es in der Metrischen Phonologie nicht an Versuchen gefehlt, auch segmentale und quantitative phonologische Prozesse und Regeln durch die Teleologie einer Optimierung symmetrischer trochäischer oder asymmetrischer jambischer Füße zu erklären. Hayes (1995, 82ff.) weist dabei vor allem auf phonologische Längungsprozesse der Akzentsilbe in jambischen Sprachen hin. Zwar sind solche Längungen auch bei trochäischer Verfußung attestiert, besitzen dort nach Aussage von Hayes jedoch keinen phonologischen Status.

104 Auch vermutet Hayes, unter Rekurs auf die Anisochronieschwelle für Jambenrhythmus, daß eine geringe zusätzliche durationale Prominenzmarkierung die trochäische Gruppierung eher unterstützt als behindert. Außerdem bleiben akzentbedingte Längungen in trochäischen Sprachen häufig auf den Hauptakzent beschränkt, was Hayes ebenfalls als Indiz ihrer geringeren, bloß phonetischen Bedeutung wertet. Unter der Prämisse seines Iambic/TrochaicGesetzes wirken diese zeitstrukturellen Effekte also insgesamt plausibel. Schließlich zeigt bereits Brown (1911) in einer frühen experimentellen Studie zur relativen Wichtigkeit von Zeit- und Prominenzstruktur, daß Intensitätsabstufungen bei trochäischdaktylischer Skandierung eines englischen Kinderverses von Anglophonen weniger systematisch durchgeführt werden als temporale Distinktionen bei einer geforderten jambischen Darbietung einer Folge von ία-Silben. Selbst wenn seine Untersuchung methodisch zu einigen Zweifeln Anlaß geben mag, scheint sie zunächst doch für Hayes zu sprechen. Einschränkend ist jedoch anzumerken, daß die Konzentration auf ausschließlich durationale oder durch Intensität realisierte Prominenz bei Bolton und Brown kaum den in den Sprachen der Welt anzutreffenden Betonungsverfahren entspricht; insbesondere geht Intensitätszunahme in der Betonung wohl immer mit weiteren prosodischen Markierungen einher. Welche Gruppierungspräferenz jedoch bei solchen mehrfach markierten stress- Akzenten im Sinne von Beckman (1986) gewinnt, scheint innerhalb der Kognitionspsychologie und perzeptiven Phonetik nicht umfassend geklärt. Im Gegensatz zu Woodrow (1909) behauptet Bell (1977) für tonale Akzente eine perzeptive Gruppenbildung mit initialer Prominenz und schränkt die jambische Präferenz bei durationaler Betonung insofern ein, als sie erst bei einem Dauerunterschied von mehr als 50 % greife und bei schwächerer durationaler Markierung ebenfalls Gruppen mit initialer Prominenz gebildet würden. Nach einem weiteren Ergebnis von Vos (1977) werden auch Folgen von Stimuli, in denen genau jedes dritte Signal allein durch Längung hervorgehoben ist, nach analogen Präferenzen intersubjektiv konsistent phrasiert. Schließlich wird die Frage, ob eine Sprache in ihrem wortphonologischen System immer nur eine einzige Gruppierungsmöglichkeit für alle Äußerungen festschreibt oder aber die rhythmische Gliederung auch eine satzphonologische Eigenschaft der jeweiligen Äußerung sein könnte, innerhalb der Theorie von Hayes, soweit ich sehe, nicht diskutiert. In der Poetologie hat jedoch bereits Stewart (1925) erörtert, inwieweit im Englischen Verszeilen eindeutig als jambisch oder trochäisch bestimmt werden können. Dabei vergleicht er auch die Grenzen metrischer Füße mit denen sprachlicher Einheiten und kommt zu dem Schluß: Except in very brief passages idiomatic English cannot be written either entirely as falling or entirely as rising rhythm. The former could be attained only by dispensing with articles, conjunctions, and most prepositions. The latter would banish nearly all disyllabic words. (Stewart 1925, 69) Die von Hayes postulierte kognitive Grundlegung seines restriktiven Fußinventars und seine dezisionistische Verfußungslehre erscheinen somit vor dem Hintergrund der zurückhaltenden neueren Beurteilungen wenig beweiskräftig. Brogan (1993e, 1067) weist auf die Konventionalität der Gruppierungspräferenz auch in anderen semiotischen Systemen hin. So wird die initiale Prominenz in musikalischen Takten erst seit dem Aufkommen der Taktstriche in der abendländischen Musik des 15. Jhs. allmählich auch zu einem Gliederungsprinzip des Hörers. Für die Lautsprache stellt Cruttenden (1997) fest: While [... ] rhythm-units are described as left-headed (i. e. they begin with a stressed syllable) in English and other Germanic languages, they are usually described asright-headed(i. e. they end with a stressed syllable) in French and other Romance languages; although this seems intuitively

105 correct, the phonetic correlates of such a division among languages remain obscure. (Cruttenden 1997, 23) Kusumoto/Moreton (1997) behaupten sogar, daß nicht eine universelle Gruppierungsregel die dominante sprachrhythmische Gliederung bestimmt, sondern umgekehrt der rhythmische Duktus der Muttersprache auch bei nichtsprachlichen akustischen Ereignisfolgen in einer entsprechenden Präferenz für trochäische oder jambische Einteilung weiterwirkt. Somit betrachten sie den Befund von Bolton und Woodrow eher als Explanandum denn als Explanans für die Phonologie. Bereits Wundt ([1900] 3 1912, 408f.) weist in seinem der Sprache gewidmeten Band der Völkerpsychologie außerdem darauf hin, daß muttersprachliche Phrasierungstendenzen sogar in der Wahrnehmung fremder Sprachen weiterwirken können - auch dies ein Hinweis darauf, daß links- oder rechtsprominente Gliederungen weniger durch die phonische Sprachsubstanz vorgegeben als vielmehr durch den Hörer durchgeführt werden. Anders als Hayes versucht Prince (1990), die Häufigkeit der verschiedenen Fußtypen in den Sprachen im Rahmen einer prosodischen Markiertheitstheorie zu erklären: So muß nach dem Weight-to-Stress-Prìnzìp eine schwere Silbe Prominenz auf sich ziehen, wohingegen Folgen von Silben gleichen Gewichts nach dem Trochaic Default linksprominent verfußt werden. Der von Hayes (1985) postulierten Asymmetrie zwischen links- und rechtsprominenten Füßen sucht Prince ohne Rekurs auf die Kognition durch ein - stipuliertes - Prinzip der Grouping Harmony Rechnung zu tragen, aus dem insbesondere folgt, daß in jambischen Füßen für metrisch starke Positionen ein Mehr an Gewicht, in trochäischen dagegen Gleichgewichtigkeit im Verhältnis zur schwachen Position präferiert ist. Zusammen mit einer Minimalitätsbedingung Binarity, nach der Füße zwei Moren oder zwei Silben umfassen sollten, ergeben sich aus dieser unter (39) zusammengefaßten Prinzipienmenge die in (40) wiedergegebenen Skalen für die Eignung von Silben und Silbenfolgen als Jambus oder Trochäus ('* >- / ist dabei zu lesen als ist präferiert gegenüber y\ Ή ' wieder als 'schwere Silbe', 'L' als 'leichte Silbe'): (39) Universale Präferenzprinzipien für Verfußung (Prince 1990, 363) Weight-to-Stress Grouping Harmony Trochaic Binarity

Wenn eine Silbe schwer ist, muß sie prominent sein. HL V {LL, Η} V HL >- L In einer rhythmischen Gruppe aus zwei metrisch gleichen Elementen ist metrische Stärke des ersten präferiert. Binär analysierbare Füße sind präferiert.

(40) Präferenzprinzipien für trochäische und jambische Füße (Prince 1990, 363) Jambus: Trochäus:

LH {LL, H}

>>-

{LL, H} HL

^ X

L L

Auch ist der Grenzfall einer einmorigen Fußkonstituente nach Prince zwar dispräferiert, aber immerhin nicht verboten, wohingegen bei Hayes (1995) solche leichten Silben als unverfußt und somit extraprosodisch gelten. Unklar ist die Position von Prince in der Frage, ob dreisilbige Füße erlaubt sein sollten: Einerseits verbietet sie nämlich sein Binarity-Prinzip, andererseits weist er in einer Fußnote (S. 389, Fn. 3) ausdrücklich auf die Häufigkeit ternärer Domänen in der Haupt- und Nebenakzentvergabe hin. Ebenso wird nicht deutlich, inwieweit in einer Sprache auch jambische und trochäische Füße zugleich vorkommen dürfen: Obwohl Prince (1990, 362) ausdrücklich eine Uniformitätsbedingung ansetzt, nach der in einer Sprache entweder jambische oder trochäische Fuß-

106 bildung erfolgt, auch wenn in einzelnen Äußerungen die gegenteilige Phrasierung nach den Präferenzprinzipien unter (39) als besser einzustufen wäre, räumt er - wiederum in einer Fußnote (S. 390, Fn. 11) - ein, daß in Sprachen wie dem Yidiny die Festlegung auf eine Organisationsform auch lokal auf der Ebene der einzelnen Wortformen erfolgen könne. Kager (1993a, 384, Fn. 4) weist dennoch daraufhin, daß im Rahmen des Ansatzes von Prince ein Nebeneinander links- und rechtsprominenter Füße in der gleichen Sprache beschreibbar und sogar phonologisch plausibel ist. Ein weiterer Unterschied zwischen Hayes (1985; 1995) und Prince (1990) besteht darin, daß der erste Autor für Silben und Silbenfolgen lediglich angibt, ob sie überhaupt einen Fuß bilden können, der zweite hingegen, wie gut sie sich als Instantiierungen eines bestimmten Fußtyps eignen. Prince erlaubt also eine optimale Verfußung von Fall zu Fall, bei Hayes jedoch ist, wie in 1.3.3 ausgeführt, allein entscheidend, daß die metrischen Parameter der Sprache beachtet werden. Sein Versuch, in einem einzigen Konzept von Fußprosodie sowohl Akzentlagen, rhythmische Konturen - implizit eingeschränkt auf den Grenzfall von Einwortäußerungen - und zudem phonologische Domänen zu erfassen, kann in keinem Falle allen Besonderheiten von Phonotaktik, Akzent und Rhythmus gerecht werden. Prince (1990,357) deutet ebenfalls eine solche Kritik an in der Bemerkung " [ . . . ] the effects of weight cannot be reduced to foot structure without damaging the theory of foot structure" (Hervorhebung im Original). Auch Kager (1993a,b) sucht eine fragwürdige kognitive Herleitung der Fußtypen zu vermeiden und führt unter Berufung auf Prince (1983) Asymmetrien zwischen links- und rechtsprominenten Füßen auf Sonoritätskonturen der Silbenprosodie zurück. Dabei versteht er Moren als Konstituenten, die die Segmente des Silbenreims dominieren. In zweimorigen geschlossenen Silben ist die erste More dem Silbennukleus, die zweite der Koda zugeordnet, und somit die erste More sonorer als die zweite. Auch bei offenen Silben mit Diphthong ergibt sich aus dem Überwiegen fallender gegenüber steigender Diphthonge in den Sprachen ein Sonoritätsgipfel auf der ersten More. Schließlich nimmt Kager auch für offene Silben mit langem Monophthong an, daß ihr erster Bestandteil sonorer als der zweite sei. Mit Ausnahme der seltenen schweren Silben mit steigendem Diphthong liegt also in jedem Falle das Sonoritätsmaximum am Anfang einer schweren Silbe. Da jedoch die beiden Moren einer schweren Silbe nach dem Prinzip der Syllable Integrity (vgl. Kager 1993a, 388) nicht auf zwei verschiedene suprasyllabische Einheiten verteilt werden dürfen, folgt für zweisilbige Füße mit einer schweren und gleichzeitig metrisch starken Silbe bei Trochäen ein Sonoritätsmaximum am linken Rande, bei Jamben hingegen auf der mittleren More. Diese Verhältnisse sind unter (41) illustriert (die sonorste More ist dabei durch das Subskript 'max' ausgezeichnet): (41) Asymmetrie der Sonoritätskontur zwischen HL-Trochäen und LH-Jamben (Kager 1993a, 389) HL-Trochäus:

(ßnaxß • μ)

LH-Jambus:

(μ . jUmax/O

Entscheidend ist nun, daß Kager Prominenz als direkte Folge von Sonorität auffaßt. Daher sinkt typischerweise die Prominenz innerhalb einer gelängten Silbe aufgrund des typischen Sonoritätsabfalls zum Silbenende hin. Somit bildet innerhalb des trochäischen Fußes die Adjazenz zweier Moren, die in dieser Domäne nicht maximal sonor sind, eine lapseKonñguration, wie in 1.3 eingeführt. Unmittelbar aufeinanderfolgende metrisch schwache Einheiten sind nämlich nach Kager nicht nur auf der Silben-, sondern auch auf der Morenebene rhythmisch schlecht.

107 Wir müssen uns hier auf wenige kritische Hinweise zu dieser Neubestimmung des Verhältnisses von Fußkonstituenz und rhythmischer Kontur beschränken: Kagers Analyse macht in hohem Maße Gebrauch von der More als prosodischer Größe. Zwar ist in der Literatur die Auffassung verbreitet, daß Morenkonzepte nicht nur für phonologische Theorien der Zeitstruktur, sondern auch bei gewichtsbasierter phonologischer Determination von Akzentpositionen fruchtbar gemacht werden können; inwieweit einzelne Moren, die keiner Silbe entsprechen, jedoch (außerhalb von Sprachen mit Konturtönen) selbst Prominenz tragen können, bliebe zu zeigen. Kager versucht, durch Moren sowohl akzent- und prominenzrelevante Silbengewichte als auch phonologische Aspekte der Zeitstruktur zu erfassen. Ob sich eine solche simultane Behandlung der beiden rhythmischen Dimensionen konsistent durchführen läßt, ist aber bezweifelt worden (vgl. Auer 1991,29). Silbenschwere geht zwar häufig mit Länge einher, eine Identifikation der beiden Dimensionen kann jedoch zu Aporien führen, wie sich in generativen Ansätzen zur Beschreibung der deutschen und niederländischen Wortprosodie gezeigt hat (vgl. hierzu Féry 1997 und Vennemann/Restle 2001,1323f.). Das Hauptproblem dieses Ansatzes liegt meines Erachtens aber in dem postulierten funktionalen Zusammenhang zwischen Sonorität und Prominenz: Zwar führt Hülst (1999, 14) Sonorität als mögliche gewichtsrelevante Eigenschaft und somit Faktor der Akzentlage auf, nennt aber in diesem Zusammenhang nur ein einziges Beispiel, nämlich das Mordwinische ausgerechnet eine Sprache also, für die, wie in 2.3.1 vermerkt, die Existenz von Akzent im Sinne der Wortphonologie überhaupt bestritten wurde. Falls die Sonorität der Sprachlaute im Silbenreim jedoch tatsächlich universell ihre rhythmische Prominenz mitbestimmen würde, wären meiner Ansicht nach weit mehr sonoritätsbezogene und insbesondere auch auf die Vokalqualität Bezug nehmende Akzentregularitäten in den Sprachen zu vermuten. Insgesamt scheint also die unmittelbare Bezugnahme auf die segmentale Identität in Silbengewichtssystemen die Ausnahme zu bilden und als solche die Regel von der Silbensfratarbezogenheit der Gewichtsdistinktion eher zu bestätigen. 7 Hayes (1987; 1995), Prince (1990) und Kager (1993a,b) versuchen also im Rahmen der Metrischen Phonologie auf verschiedene Weise einen Zusammenhang zwischen Prominenzkonturen und Fußkonstituenz zu begründen: Während Hayes unter Berufung auf einen Befund der frühen Experimentalpsychologieeine Asymmetrie zwischen links- und rechtsprominenten Füßen auf allgemeinere Prinzipien der Kognition zurückführen will, schlagen Prince und Kager vor, im Rahmen einer prosodischen Markiertheitstheorie eine Präferenzskala für die beiden Gruppierungsalternativen anzubieten. Dabei stipuliert Prince eine prinzipielle Ungleichheit der präferierten Fußgestalten in phonologischen Prinzipien, Kager hingegen will diese durch eine Übertragung von Sonoritäts- und Prominenzbewertungen auf die Morenebene ableiten. Dabei thematisiert er anders als Hayes und Prince auch einen Unterschied zwischen wort- und satzphonologischen Konzepten des Fußes. Gemeinsam ist den drei Ansätzen, daß sie die Bestimmung erlaubter oder bevorzugter Fußtypen vor allem zur Erklärung bestimmter durationaler Effekte wie etwa Längungen prominenter Silben in jambischen Füßen nutzen, weniger zur Bestimmung des Fußes als einer Domäne für andere phonologische Regeln und Prozesse. Die Zeitorganisation steht also nur in einem indirekten, durch die Füße vermittelten, Zusammenhang mit den Akzenten beziehungsweise Prominenzkonturen. Inwie-

7

Vgl. Restle/Vennemann (2001, 1322): "Das klassische Konzept des Silbengewichts fußt auf der Beobachtung, daß bestimmte Typen von Silben aufgrund ihrer strukturellen Eigenschaften den Akzent auf sich ziehen [... ]" (Hervorhebung A. D.).

108

weit eine solche grundsätzlich fußbasierte Rhythmusphonologie angemessen erscheint, wird im nächsten Abschnitt zu besprechen sein.

2.3.4 Zur Angemessenheit einer universellen Fußphonologie Der Erfolg der von Liberman/Prince (1977) vorgeschlagenen Übertragung der Fußkonstituente in die phonologische Beschreibung hat sehr schnell dazu geführt, Füße als die entscheidenden, Akzent, Prominenzkontur und Zeitstruktur verbindenden rhythmischen Grundeinheiten zu betrachten. Hülst (1999) rechtfertigt die konzeptuelle Anleihe aus der Metrik und die damit verbundene Parallelisierung von Strukturanalysen wie folgt: There is a suggestive resemblance between the metrical organization of verse lines and the accentual patterns of words. If we focus on the edges of lines, we may note that because of the bounded nature of trochaic and iambic feet (i. e., their limitation to two syllables), the right- or left-most salient syllable will be peripheral or near-peripheral. [... ] This is reminiscent of the (near-)peripheral character of primary accent. In this respect, lines of verse are like words [... ] (Hulst 1999, 25)

Bei dieser Begründung fällt zunächst auf, daß Verszeilen nur im Ausnahmefall eine einzige Worteinheit umfassen, im prototypischen Fall dagegen sententialen Charakter haben, somit als konventionalisierte Stilisierungen der satzprosodischen Gestalten einzustufen sind und nicht immer direkt auf wortphonologische Akzentlagen zurückverweisen. Auch spiegelt sich die in der Phonologie behauptete Markiertheit des Jambus gegenüber dem Trochäus in den poetischen Traditionen der Welt keineswegs wider. Die auf Aristoteles zurückreichende These von der Natürlichkeit des Jambus (vgl. Aristoteles, Rhetorik 3.8.1408b.30-35) wird in der vielleicht umfassendsten komparativen Darstellung der Metrik (Preminger/Brogan (Hgg.) 1993) bestätigt: Brogan (1993b, 548) klassifiziert ihn als "the chief type of meter in most Classical] and modern prosody, and perhaps in the world". Schließlich gelten in der poetologischen Metrik, wie in 4.3 noch auszuführen sein wird, fußbasierte metrische Schemata keineswegs als universell. Warum die Richtungen der Metrischen wie auch der Prosodischen Phonologie nicht auch hier die 'Suggestivität' der Dichtung als Evidenz für die Phonologie ernst nehmen, sondern vielmehr apriorisch für alle Sprachen eine Fußeinheit ansetzen, bleibt verwunderlich. So spricht Poser (1990) auch für das morenzählende Japanische von Füßen. Neben einigen morphologischen Argumenten für eine solche zweimorige Konstituente führt er lediglich ein prosodisches Indiz an: In Determinativkomposita mit 'längerem', das heißt mehr als zwei Moren umfassenden Determinatum an zweiter Stelle, tragen die letzten beiden Moren in keinem Fall Akzent. Poser analysiert sie daher als extrametrisch. Warum hieraus auf Fußkonstituenz geschlossen werden kann, ja muß, begründet er wie folgt: One of the clearest generalizations about invisibility is that it is exactly one constituent that can be invisible. Given this, we must conclude that the two morae ignored by the accent placement rule constitute a single constituent, i. e. a bimoraic foot. (Poser 1990, 99)

Die Grundeinheit der Metrischen Phonologie wird also hier gerade nicht aufgrund rhythmisch relevanter Teile der Wortform etabliert, sondern gewissermaßen aus dem 'metrischen Off' und dient nur dazu, die letzten beiden Moren als nicht prominenzfähig zu markieren. Auch

109 die Hinweise von Kubozono (1991), wonach die Morenzahl eine Rolle für die akzentuelle und intonatorische Phrasierung spielt, sprechen noch nicht für eine Morenzählung in Füßen. Ebenso fragwürdig erscheint das Konzept des Fußes jedoch in Sprachen, die in der Isochronietradition als silbenzählend gelten. Nach Selkirk (1984, 41) wird in ihnen jede Silbe mit einem eigenen metrischen Taktschlag beziehungsweise einer Markierung auf der zweiten Ebene des metrischen Gitters versehen. Im Rahmen der poetologischen Metrik gelten einsilbige Füße den meisten dabei allerdings als "contradiction in terms" (Brogan 1993a, 419). Daneben verstößt eine solche Proliferation prosodischer Kategorisierungen offensichtlich auch gegen das Prinzip der Beschreibungsökonomie. Umgekehrt ist gerade das Fehlen einer Fußprosodie als typisch für Silbenzählung aufgefaßt worden (vgl. Hoequist 1983,20).

2.3.4.1 Unäre Füße und unverfußte Silben In einer vorsichtigeren phonologieinternen Begründung der Fußkonstituenz findet sich als Ausgangshypothese etwa bei Ewen/Hulst (2001, 202), daß aus dem Vorhandensein einer Prominenz auf eine ihr untergeordnete Domäne zu schließen sei. Dann jedoch erscheint die Ansetzung einsilbiger Füße, wie sie in der Metrischen Phonologie häufig begegnet, unnötig, da eine koextensionale prosodische Domäne, nämlich die Silbe, bereits unabhängig motiviert ist. Einige neuere Versionen verbieten nun solche unären Füße. Eine unerwünschte Konsequenz hierbei, auf die Hülst (1999,44) aufmerksam macht, ist jedoch, daß bei einer iterativen Verfußung von rechts nach links mit syllabischen Trochäen und paenultimalem Wortakzent in Wortformen mit ungerader Silbenzahl die erste Silbe unverfußt bleibt, wie unter (42a) veranschaulicht. Gerade in Sprachen mit Paenultimaakzent scheinen jedoch Nebenprominenzen auf der ersten Silbe des Wortes häufig vorzukommen, und zwar unabhängig von der Silbenzahl des Wortes, so daß sich eine Prominenzkontur wie unter (42b) ergeben kann: (42) Unverfußte Initialsilben bei trochäischer Prominenzkontur χ (a) X X (b) χ σ (σ σ) (σ σ) σ (σ σ)

χ χ (σ

σ)

Will man diese Tendenz nicht wie Hayes (1995, 99f.) als nur phonetischen, rhythmusphonologisch irrelevanten Effekt einer demarkativen Stärkung des Wortanfangs abtun, so bleibt nur die Ansetzung einer prominenztragenden unverfußten Silbe wie in (42b). Für den ebenfalls attestierten umgekehrten Fall, wo die erste Fußprominenz den Wortakzent trägt und die Ultima Nebenprominenz erhält, ist darüber hinaus vorgeschlagen worden, nach der Ultima eine phonetisch nicht realisierte, mit einer terminologischen Anleihe aus der Poetologie als 'katalektisch' bezeichnete virtuelle Silbe anzusetzen, die zusammen mit der Ultima einen weiteren syllabischen Trochäus bildet. Aufgrund der rhythmus- und insbesondere auch zeitstrukturbezogenen Motivation der Fußtypen wäre aber dann konsequenterweise eine in ihrer Länge der Ultima phonologisch vergleichbare Pause nach der Wortform zu erwarten. An dieser Stelle zeigt sich meines Erachtens deutlich, daß nicht immer phonetische Plausibilität und phonologisch attraktive Restriktivität des Fußinventars zugleich maximiert werden können. Hayes (1995) erlaubt jedoch ausnahmsweise unäre Füße, nämlich genau dann, wenn diese den Wortakzent tragen. Eine solche différentielle Analyse scheint mir aber problematisch für akzentuelle Dubletten, in denen zwei Silben als Träger einer Wortprominenz möglich sind

110 (vgl. Ulreich 1995 zum Deutschen) und eher die Satzphonologie über die Prominenzabstufung bestimmt. So kann in dem deutschen Satz Er ritt auf einem Dromedar davon das Substantiv entweder auf der ersten oder auf der letzten Silbe eine stärkere Prominenz erhalten, wie unter (43a,b) zu sehen, - vielleicht aber auch, zumindest in einer Leseaussprache, zwei gleichrangige Prominenzen auf der ersten und der letzten Silbe, wie unter (43c) dargestellt: (43) Variabilität der Prominenzkontur einer Wortform im Deutschen X X X X X (a) (b) χ (Dro me) dar (Dro me) (dar) X X X X X (c) X X X χ X XXX XX Er ritt auf einem Dromedar davon Da nach Hayes (1995) Wortformen des Deutschen in syllabischen Trochäen von links nach rechts verfußt werden und einsilbige Füße ohne Hauptakzent verboten sind, bleibt, wie unter (43a,b) notiert, bei Initialakzentuierung der Wortform die Ultima unverfußt. Dagegen bildet sie bei Finalakzentuierung einen eigenen Fuß (der unter (43c) verzeichnete Fall einer nur partiellen Prominenzhierarchie der drei Silben wird durch die Theorie explizit ausgeschlossen). Wieder einmal zeigt sich, daß die dezisionistische Wortrhythmuslehre der Metrischen Phonologie satzphonologische Kontextabhängigkeit und Variabilität der Prominenzkonturen nicht angemessen erfaßt. Auch bei ternären rhythmischen Strukturen wirkt insbesondere die Theorie von Hayes (1995) selbst für Sprachen, in denen eine Fußeinheit plausibel erscheint, zu restriktiv, wie wir im nächsten Unterabschnitt sehen werden.

2.3.4.2

Ternäre Strukturen

Innerhalb der Metrischen Phonologie finden sich zwei Hauptrichtungen in der Analyse ternärer, also daktylischer oder anapästischer Prominenzmuster. Während sie vor allem in älteren Arbeiten neben binären zugelassen werden (vgl. Liberman/Prince 1977, Halle/Vergnaud 1987, Dresher/Lahiri 1991, Haraguchi 1991 und Burzio 1994), versuchen Hayes (1995), Hammond (1996) und Elenbaas/Kager (1999), dreigliedrige Strukturen als Folge einer nicht vollständig durchgeführten zweigliedrigen Verfußung zu analysieren. So ist etwa für die bolivianische Sprache Cayuvaya nach Hayes (1995, 309ff.) nicht daktylische Verfußung wie unter (44a), sondern trochäische anzusetzen, die in dem postulierten Modus des weak local parsing jeweils durch genau eine unverfußte Einzelsilbe unterbrochen wird, wie unter (44b) dargestellt: (44) Analysen von Ternarität /

\

^

...



/«ν

^

σ

σ)



σ

σ)

...

Χ (σ σ)

σ

X (σ

σ)

Unmittelbar ersichtlich ist, daß bei dieser systematisch unvollständigen metrischen Fußbildung nicht nur Einheiten an den Grenzen höherer prosodischer Einheiten extraprosodisch sind, sondern auch Silben im Wortinneren. Hayes rettet sein restriktives Fußinventar von (29) also nur um den Preis einer ansonsten nicht motivierten Preisgabe der Generalisierung, der-

Ill

zufolge Extraprosodizität auf die Ränder phonologischer Domänen beschränkt ist (vgl. Hülst 1999,35). Im Rahmen einer optimalitätstheoretischen Faktorisierung postulieren auch Kager (1994) und Elenbaas/Kager (1999) eine ähnliche Nachrangigkeit ternärer Strukturen. Während Kager (1994) jedoch noch eine eigene Beschränkung *FTFT stipuliert, die adjazente Füße verbietet und somit bei binären Füßen mindestens ternäre Alternanz fordert, geben Elenbaas/Kager (1999, 274) zu, daß diese Beschränkung nicht unabhängig zu motivieren ist. In ihrem neuen allein gitterbasierten Ansatz formulieren sie dagegen das Prinzip (24b) von Selkirk (1984) leicht um in eine Beschränkung *LAPSE, die adjazente metrisch schwache Silben ausschließt. In einer Form, die *LAPSE nicht verletzt, muß nämlich jede metrisch schwache Position entweder zu einer starken oder zu einer Wortgrenze adjazent sein. Diese Beschränkung kann maximal ternäre Alternation erfassen, bei strikter Ternarität sind zusätzliche Alinierungsbestimmungen erforderlich, die etwa bei einer vom Wortende ausgehenden Verfußung eine Präferenz für möglichst frühe Füße und somit Prominenzen festschreiben. Ternäre Strukturen im metrischen Gitter ergeben sich also in ihrem Ansatz epiphänomenal durch eine Hierarchisierung unabhängig motivierter Präferenzen. Die Befürworter einer restriktiven binaristischen Theorie, gleich ob unter Rekurs auf Füße oder allein konturbezogen formuliert, führen zur Begründung zum einen an, daß Regularitäten der Sprachstruktur keine numerischen Spezifikationen beinhalten. Während jedoch binäre Muster allein über Adjazenz- oder Alternanzbedingungen spezifiziert werden können, müßte für dreisilbige rhythmische Gestalten eine solche Zahlenangabe hinzukommen: [... ] if ternary feet are admitted, then metrical parsing would violate the otherwise well-established generalization that linguistic rules do not count beyond two, in turn raising the question why counting to four or five is never found. (Counting to two can be construed as adjacency to a designated element and thus there is really no counting as such). (Kenstowicz 1994, 597)

Dieses Argument ist meiner Ansicht nach jedoch nicht stichhaltig. Bei einer Stärkung der *CLASH-Beschränkung wie unter (45a) und der zusätzlichen Minimalitätsbedingung MIN in (45b) statt einer Binaritätsforderung ergibt sich nämlich genau eine solche ternäre Abfolge der Prominenzen. Liegt nur eine unbetonte Silbe zwischen zwei betonten, so wird gegen *CLASH verstoßen, liegen drei oder mehr dazwischen, ist MIN verletzt: (45) Ternarität ohne numerische Spezifikation (a) *CLASHstark: Jede Silbe muß mindestens eine schwache neben sich haben. (b) MIN: Ftlße sind so klein wie möglich.

Neben diesem theoretischen und auch theoretisch zu entkräftenden Argument wird außerdem auf die Seltenheit ternär verfußender Sprachen hingewiesen (vgl. Hayes 1995,307). Auch die Behauptung, daß phonologische Regularitäten in Sprachen wie dem Finnischen auf eine binäre rhythmische Konturierung hinwirken und Ternarität nur bei einem Konflikt mit anderen Strukturanforderungen resultiere, findet sich zur Stützung rein binaristischer Analysen (vgl. Hammond 1995, 336). Zudem wird bereits in der frühen Experimentalpsychologie die Seltenheit spontaner ternärer Untergliederungen rhythmisch amorpher Signalfolgen betont. Allerdings vermerkt Hurch (1996, 88), daß in der etwa gleichzeitig entstandenen Musiktheorie von Riemann die ungeraden Takte als einfachste rhythmische Grundmuster aufgefaßt werden. Auch in der poetologischen Metrik sind nach Fabb (1997, 95) ternäre Versfüße keineswegs selten, was die Gegner ternärer metrischer Füße in der Metrischen Phonologie jedoch erstaun-

112 licherweise nicht berücksichtigen. Insgesamt können die Befunde aus Psychologie, Musikund Literaturwissenschaft eine Marginalität ternärer Rhythmen nicht belegen. Inwieweit binäre rhythmische Strukturen jedoch in der Lautsprache gegenüber ternären universell bevorzugt sind, bliebe zu zeigen. Selbst wenn wir aber eine solche Markiertheitsasymmetrie annehmen wollen, erscheint es wenig statthaft, daktylische und anapästische Strukturen als Epiphänomen einer unvollständigen binären Verfußung zu analysieren. Schließlich kann es nicht die Aufgabe einer linguistischen Theoriebildung sein, die im Rahmen einer Markiertheits- oder Präferenztheorie sprachliche Strukturen auch bewertet, markierte Strukturen als unmarkierte neu zu analysieren. Vielmehr schafft erst eine angemessene Beschreibung der strukturellen Besonderheiten die Grundlage dafür, ihre möglicherweise geringere semiotische Eignung zu erklären. Ob jedoch über alle Sprachen hinweg tatsächlich Trochäen und Jamben die kanonischen Formen und Daktylen und Anapäste Sonderfälle darstellen, darf meiner Ansicht nach bezweifelt werden. Bafìle (1999) weist etwa für das Italienische daraufhin, daß sich die behauptete ausschließlich trochäische Fußbildung nicht empirisch belegen läßt. Da in dieser Sprache, wie in 3.3.4.1 noch auszuführen sein wird, bei leichter Paenultima in längeren Wortformen sowohl diese als auch die Antepaenultima den Wortakzent tragen kann, muß in einer Theorie ohne Daktylen bei Akzent auf der drittletzten Silbe die letzte im Lexikon als extrametrisch stipuliert werden. Proparoxytone Aussprachen finden sich aber sogar bei rezenten Lehnintegrationen wie it. crème caramel ['kreg karamel], so daß eine Angabe im Lexikon wenig intuitiv ist, da sie Paenultimaakzent als analogisch ausgreifenden Normalfall und alle anderen Akzentlagen als Ausnahme erscheinen läßt. Daktylische Strukturen finden sich außerdem nach Bafìle (1999,208) auch vor dem Hauptakzent, wie etwa bei einer isolierten Aussprache von it. aperitivo und temperatura, wo jeweils auch die erste Silbe eine Nebenprominenz tragen darf. Somit kann ein deterministischer 'schwach verfußender' Algorithmus wie bei Hayes dem Nebeneinander binärer und ternärer Prominenzmuster nicht gerecht werden. Schließlich ist nach Bafìle (1999) in Wörtern mit Akzent auf der drittletzten Silbe phonologisch nicht zu begründen, daß diese mit der Paenultima, jedoch nicht mit der Ultima eine Einheit bildet, wie nach binaristischen Analysen anzunehmen wäre.

2.3.4.3

Unbeschränkte Akzentsysteme

Während also in der neueren Metrischen Phonologie ternäre Fußbildung immer häufiger ausgeschlossen wird, versuchen die gleichen Ansätze, auch für Sprachen ohne alternierende Prominenz eine Fußkonstituente zu begründen. Hayes (1995,296ff.) führt mehr als zwanzig solcher Sprachen an, unter ihnen Sanskrit, Russisch, Litauisch, das klassische Arabisch und eine Reihe kleinerer Sprachen aus allen Erdteilen mit Ausnahme Afrikas, und hebt hervor, daß in diesen Sprachen der Wortakzent immer in Abhängigkeit von einer Silbengewichtsunterscheidung vergeben wird. Dabei finden sich bei Wortformen, die mindestens eine solche schwere Silbe enthalten, nur zwei Akzentregeln in diesen Sprachen: Entweder die erste oder die letzte schwere Silbe muß den Wortakzent tragen. Auch in Wortformen, die ausschließlich aus leichten Silben bestehen, bieten sich universalphonologisch nur zwei Optionen: In diesem Fall liegt der Akzent entweder auf der ersten oder auf der letzten Silbe. Insgesamt ergeben sich somit in solchen Sprachen vier Typen von Akzentregeln. Hayes (1995, 298) und Hülst (1999, 50) unterscheiden in naheliegender Weise same edge- von opposite edge-Systemen,

113 je nachdem, ob die Akzentposition einheitlich von der linken oder rechten Wortgrenze aus ermittelt werden kann oder nicht. Während jedoch Hayes auch in solchen Sprachen eine Fußkonstituente ansetzt und von unbounded feet spricht, betrachtet Hülst sie gerade aufgrund ihrer Besonderheit als nicht fußbasiert in der Akzentvergabe. Auffällig ist, daß keines dieser unbeschränkten Systeme Extraprosodizität in den Akzentregeln erlaubt und wohl auch keine rhythmisch alternierenden Nebenprominenzen auftreten. In allen traditionellen Konzeptionen der Fußeinheit, gleich ob in der Poetologie oder Linguistik, gelten Füße jedoch gerade als silbenprosodisch spezifizierbare rhythmische Grundgestalten. Eine Fußkonstituente, die hinsichtlich der Zahl ihrer Silben keinerlei Festlegung trifft, muß in diesem Verständnis als contradictio in adiecto erscheinen. Besonders inkonsequent erscheint das Konzept unbeschränkter Füße bei Hayes jedoch angesichts seines Verbots von Daktylen und Anapästen, denn gerade wenn man Binarität als besten Fall ansetzt, sollten unbeschränkte Füße noch viel schlechter sein als temäre.

2.3.5

Anmerkungen zur Forschungsgeschichte

Die Entwicklung der Metrischen Phonologie nach Liberman/Prince (1977) zeichnet sich durch zwei Bestrebungen aus: Erstens wird das Inventar der in den Sprachen der Welt vorfindbaren Füße eingeschränkt. Im Ausgleich zu dieser Selbstbeschränkung wird von dem theoretischen Instrument der Extraprosodizität ein zunehmend großzügigerer Gebrauch gemacht. Die Exhaustivität der prosodischen Strukturbildung gerät dabei immer mehr zu einem schönen Grenzfall und gleichzeitig der Stellenwert unverfußter Silben für die rhythmische Kontur zu einer offenen Frage. Auch ermöglicht es erst die Stipulation einer Silbe als extrametrisch in einigen Fällen, bestimmte Phänomene als durch die jambische oder trochäische Verfußung bedingt zu 'erklären': "[...] extrametricality can conveniently help analyzing a superficial trochaic pattern as iambic [... ]" (Hulst 1999,39). Gerade durch solche analytische Manöver büßt die Metrische Phonologie meiner Meinung nach jedoch erheblich an Erklärungskraft ein. Zweitens verfahren die meisten Metrischen Phonologen - mit der bemerkenswerten Ausnahme von Selkirk - in ihrer Analyse dezisionistisch und wortbasiert: Wortakzentspezifikationen und rhythmische Konturen werden nicht unterschieden, Nebenprominenzen als Nebenakzente in einem einheitlichen Algorithmus zusammen mit den Wortakzenten geregelt. Auch gilt in einer Wortform immer nur eine akzentrhythmische Gestaltung als kanonisch und kann allenfalls 'postlexikalisch' durch Regeln zur Vermeidung adjazenter Prominenzen verändert werden. Das Dilemma, das sich aus dieser wortphonologischen Eindeutigkeit der Fußbildung und der allein fußbasierten Akzentzuweisung ergibt, haben wir im Zusammenhang mit unären Füßen an der Wortgrenze illustriert. Bemerkenswert ist außerdem, daß sich die Argumentation in der Metrischen Phonologie meist ganz auf Introspektion beziehungsweise den Angaben deskriptiver Grammatiken abstutzt. Neuere phonetische Untersuchungen werden nur ausnahmsweise herangezogen. Erst recht verwundert bei Hayes (1995), daß er in der zentralen Frage möglicher Fußtypen entscheidend auf die Experimentalpsychologie vom Anfang des 20. Jhs. aufbaut. Genau bei der Frage der Datengewinnung setzt auch die Kritik von Auer/Uhmann (1995) an:

114 Obwohl die theoretischen und deskriptiven Fortschritte der Metrischen Phonologie im Vergleich zu früheren, strukturalistischen Versuchen der Berücksichtigung prosodischer Phrasierung evident und nicht gering zu bewerten sind [...], beruht sie doch ausschließlich auf der Diskussion sog. wohlgeformter rhythmischer Strukturen, die allein durch die Kompetenz des Sprechers-Hörers (oder besser: der Autorin-Leserin) kontrolliert werden. Im Gegensatz zu manchen Bereichen der Syntax oder Morphologie steht unsere Intuition aber gerade im Falle des Rhythmus auf wackeligen Filßen. Es läßt sich vermuten, daß die Möglichkeiten des metasprachlichen Zugriffs auf sprachliches Wissen, wie es die Methodologie der "generativen" Grammatik mit der Arbeit an erfundenen Beispielsätzen erfordert, ihrerseits schriftsprachlich geprägt ist und deshalb gerade in jenen Bereichen der Sprache, die typischerweise dieser Schriftlichkeit entzogen sind (wie der Prosodie), an ihre Grenzen stoßen. (Auer/Couper-Kuhlen 1995, 81)

2.4

Zusammenfassung

Ziel der Ausführungen dieses Kapitels war es, auf Ungenauigkeiten, Inkonsistenzen und implizite Annahmen hinzuweisen, die sich durch die Vorgeschichte und Geschichte der Rhythmusphonologie ziehen. Hierbei haben wir uns gegen drei Erscheinungsweisen eines sprachrhythmischen Reduktionismus gewandt: Zum einen ist die Trivialisierung von Rhythmizität in Analysen zu kritisieren, die nicht zwischen der Rhythmusfähigkeit der Lautsprache als phonologischer Prämisse und der rhythmischen Kontur einer Äußerung als einem Gegenstand der Sprachbeschreibung unterscheiden. Zweitens führt, wie in 2.2 ausgeführt, die Reduktion von Rhythmizität auf die Zeitstruktur für den silbenisochronisierenden Sprachtyp zu einem Dilemma: Wird Silbenzählung allein zeitlich als Isochrome bestimmt, so scheint dieses Kriterium für die Sprachtypologie unbrauchbar. Fordert man für Silbenzählung stattdessen Isoprominenz, begibt man sich um eine rhythmische Begründbarkeit eines solchen Typs. Wer schließlich für einen Sprachtyp Isosyllabizität, also Silbenisochronie und -isoprominenz zugleich als Präferenz ansetzt, kann nicht mehr erklären, wie in diesem Falle rhythmische Konturbildung überhaupt erfolgen kann. Drittens erscheint, wie wir in 2.3 dargelegt haben, auch die Beschränkung der Rhythmusphonologie auf den Akzent, wie sie die Metrische Phonologie vornimmt, unangemessen reduktiv. Implizit wird dabei nämlich eine detemporalisierte Akzentzählung als universell dominierendes eurhythmisches Prinzip angesetzt. Wer aber Rhythmizität als bloße Abwechslung prominenterer und weniger prominenter Silben versteht, kann nicht erklären, warum beispielsweise in manchen Sprachen ihre Abfolge wesentlich genauer geregelt ist als in anderen. Auch die parallel entwickelte universelle Fußphonologie krankt an konzeptuellen wie empirischen Schwächen. Zudem können die als universell angesehenen Fußinventare in ihren Vorhersagen zur Zeitstruktur nicht überzeugen. Zeitliche Verhältnisse folgen eben nicht bloß epiphänomenal aus der Akzentprosodie, sondern können - in einem für jede Sprache gesondert zu bestimmenden Ausmaß - auch ihrerseits Einfluß auf die rhythmische Konturbildung nehmen. Die im 18. Jh. bei Beauzée eröffnete und im 19. Jh. von Humboldt weitergedachte Konzeption einer sprachrhythmischen Einteilung der Sprachen, die keine der beiden Dimensionen verabsolutiert, soll im nächsten Kapitel die Grundlage eines neuen typologischen Rahmens bilden.

3

Eine neue Typologie rhythmischer Konturbildung

3.1

Rhythmizität als nachgeordnete Qualität

Nach der Kritik der Forschungsrichtungen, die entweder Zeit oder Prominenz als universelle Grundlage der sprachrhythmischen Organisation betrachten, wollen wir nun nach einem Beschreibungsrahmen suchen, der uns eine angemessene Repräsentation der sprachrhythmischen Verschiedenheit erlaubt. Dabei reihen wir uns ein in eine lange, mindestens auf die Markiertheitstheorie der Prager Schule zurückreichende Tradition, die sprachliche Strukturen nicht nur beschreibt, sondern auch hinsichtlich ihrer semiotischen Eignung bewertet. Im prototypischen Fall des Gesprächs bemißt sich die Qualität eines Beitrags nach den unabhängig voneinander zu evaluierenden Qualitäten von wahrnehmbaren Zeichengestalten und erschließbaren Zeicheninhalten. Somit greifen wir die vielleicht am deutlichsten von Karl Bühler (1934) formulierte Annahme auf, daß Sprache - zumindest außerhalb poetischer Kommunikation, wo der euphonischen Qualität der Lautsprache höheres Gewicht zukommt, vorrangig ein Werkzeug des Menschen und Mittel zum Zweck ist. Wir gebrauchen Sprache, um in ihr zu verschiedenen illokutionären Zwecken sprachliche Handlungen zu vollziehen. Diese pragmatische Eignung beruht aber unabdingbar auf ihrer Zeichenhaftigkeit und somit Semantizität — in Anna Wierzbickas Worten: "Meaning is, what language is all about [... ]" (Wierzbicka 1991,77). Zeichengestalten stehen im Dienste der Kodierung von Inhalten und Kodierungserfordernisse somit über einer allein gestaltbezogenen, euphonischen Qualität. Euphonische Optimierung kann demnach nur innerhalb eines Spielraums erfolgen, der die Verständlichkeit des Gesprächsbeitrags nicht gefährdet. In der Optimalitätstheorie findet sich bei Golston/Riad (2000, 102) eine ähnliche Einsicht für nicht-poetische Sprach Verwendung als Hierarchie "Syntax » Prosodie" formuliert. Da jedoch nicht alle Kodierungsleistung syntaktischer Natur ist, und die phonische Qualität auch segmentale Aspekte umfassen kann, erscheint es uns erforderlich, diesen sprachtheoretischen Ausgangspunkt zu verallgemeinern: So bilden, wie in (46a) festgehalten, neben der Qualität der wahrnehmbaren Gestalt, im Falle der Lautsprache also der Euphonie, semantische Gehalte sowie ihre sprachspezifische Kodierung jeweils eigenständige Bewertungsdimensionen für selbständige sprachliche Ausdrücke. Aus dem Primat der Symbolisierungsleistung ergibt sich für diese Bewertungen die partielle Hierarchisierung unter (46b) und für Eigenschaften der phonischen Substanz insbesondere (46c): (46) Semiotische Qualitäten der Lautsprache und ihre Rangordnung (a) Aspekte der Qualität eines Gesprächsbeitrags 1. Qualität der wahrnehmbaren Gestalt (Euphonie) 2. Qualität des erschließbaren Gehalts 3. Qualität der Kodierung des Gehalts durch die Gestalt (b) Primat der Semantizität von Sprache: G E H A L T , K O D I E R U N G » (c) Korollar aus (b): K O N T R A S T I V I T Ä T » E U R H Y T H M I E

EUPHONIE

116 Somit ist auch die rhythmische Qualität der Sprache Kodierungserfordernissen untergeordnet und kann in Äußerungen nur soweit optimiert werden, als dies die Kontrastleistungen der Prosodie nicht gefährdet. Sprachen unterscheiden sich nun aber darin, welche prosodischen Dimensionen sie in welchem Umfang zur Kodierung heranziehen. Im nächsten Abschnitt dieses Kapitels wollen wir uns daher zunächst einen Überblick Uber die Dimensionen der Prosodie und ihren möglichen Beitrag zur Kodierung verschaffen. Dabei gehen wir erst auf silbenprosodische und melodische Kontraste ein und im Anschluß daran ausführlicher auf die beiden rhythmisch relevanten Dimensionen der Zeit und Prominenzkontur.

3.2

Prosodische Kontrastivität

Vorwiegend phonetisch ausgerichtete Gesamtbetrachtungen der Prosodie orientieren sich im allgemeinen, wie schon bei der Besprechung der Betonungsverfahren in 2.3.2 erwähnt, an den drei zentralen akustischen Parametern des Sprachsignals, nämlich Dauer, Grundfrequenz und Intensität, und stellen diesen jeweils eine auditive Dimension an die Seite. Diese phonetischen Größen können jedoch phonologischen Strukturdimensionen nicht eineindeutig zugeordnet werden. Zunächst scheint nämlich Intensitätsmodifikation alleine als Betonungsverfahren ungeeignet, Prominenz manifestiert sich somit immer auch tonal oder durational. Zum anderen jedoch kann, wie wir im nächsten Unterabschnitt noch sehen werden, auch die silbische Grundgliederung der Sprachlautfolge bereits kontrastiv eingesetzt werden. Somit ist für die phonologische Analyse von den vier Ebenen der prosodischen Struktur unter (47) auszugehen: (47) Dimensionen prosodischer Kontraste 1. silbische Grundgliederung 2. melodische Kontur 3. Prominenzkontur 4. Zeitstruktur Auf ihre jeweilige Kodierungsleistung soll in den folgenden vier Unterabschnitten der Reihe nach eingegangen werden.

3.2.1

Kontrastivität der silbischen Gliederung

Obwohl ihre universelle Definition notorisch schwierig scheint, sind Silben nach Ladefoged ( 3 1993,297) doch als "necessary units" in allen Sprachen anzunehmen. In phonetischer Hinsicht spielt die silbische Prosodie dabei nach Tillmann/Mansell (1980, 115) als vermittelnde Gliederungsebene zwischen sublaryngalen und laryngalen Bewegungsabläufen beim Sprechen sowie der supralaryngalen Artikulation der Sprachlaute eine wichtige Rolle. Selbst wenn die Silbe nicht in allen Sprachen als Domäne phonologischer Regularitäten in Erscheinung treten mag (vgl. die Diskussion bei Blevins 1995,207ff.), so ist ihre Bedeutung als einzelsprachliche phonologische Größe meiner Ansicht nach bereits dadurch gesichert, daß sie als "die kleinste sprachliche Einheit, über die wir Grammatikalitätsurteile abgeben können"

117 (Eisenberg 1998/1999, Bd. 1,99), gelten darf. Somit betrachten wir mit Blevins (1995,210) die Existenz einer silbischen Gliederung als phonologisches Universale. Ob und inwieweit diese dabei auf die Abfolge von Öffnungs- und Schließungsvorgängen in der Artikulation (vgl. Restle 1998) oder aber auf die periodische Zu- und Abnahme der perzipierten Sonorität (vgl. die Hinweise bei Restle/Vennemann 2001, 131 Iff.) bezogen werden sollte, kann und muß hier nicht erörtert werden. In jedem Fall ist die Anzahl der Silben in einer Segmentfolge gleich der ihrer Nuklei, derjenigen Sprachlaute also, die zumindest im präferierten Fall lokale Maxima des Öffnungsgrades beziehungsweise der Sonorität umfassen. In verschiedenen Sprachen und sogar innerhalb einer Sprache können jedoch identische Sprachlautfolgen mit unterschiedlich vielen Nuklei assoziiert werden. Auch ist bei komplexen und somit nach Vennemann (1994, 37) immer polyphthongischen Nuklei ein Element als Gipfel identifizierbar. Allerdings ist durch eine vorgegebene Folge von Nukleussprachlauten die Lage des Gipfels nicht eindeutig bestimmt. Die Zuordnung der Sprachlaute auf Nukleus- und Gipfelpositionen erfolgt also nicht in allen Sprachen epiphänomenal und ist somit möglicherweise kontrastiv. Nicht nur Zahl und Ort der Silbengipfel, sondern auch die Lage der Silbengrenzen unterliegt jedoch universalphonologischen Präferenzen, die in Vennemann (1988,40ff.) gesetzhaft formuliert sind. Schon die Tatsache aber, daß für diese Grenzziehungen eine Evaluation vorgenommen werden kann, deutet daraufhin, daß nicht in jedem Falle die realisierte Gliederung silbenphonologisch 'optimal' ist. Somit darf ein weiteres Mal aus dem nicht-automatischen Charakter der Silbifizierung auf einen möglichen Kodierungsbeitrag der Position von Silbengrenzen geschlossen werden. Insgesamt sind in einer universalphonologischen Theorie prosodischer Kontrastivität Silbenzahl, Silbengrenzen und Nukleuspositionen zu berücksichtigen (vgl. Vennemann 1986,25).' Schon Sievers und Jespersen schlagen für Sprachen wie das Deutsche und Englische des weiteren vor, auch die Eindeutigkeit der Zuordnung von Sprachlauten zu Silben einzuschränken: Intervokalische Konsonanten wie in deutsch Ratte werden nämlich intuitiv als ambisy 11abisch, also zu beiden Silben zugehörig empfunden, wogegen in Rate der zweite Konsonant im Einklang mit der universellen Präferenz für die V.CV-Silbifizierung ausschließlich der zweiten Silbe zugerechnet wird. Bei einer versuchsweisen analogen Tautosyllabierung des Plosivs in Ratte hingegen zeigt sich, daß die ersten beiden Sprachlaute alleine im Deutschen keine wohlgeformte Silbe bilden. Ambisyllabizität kann als besondere Strategie einiger Sprachen gelten, welche es erlaubt, sowohl der universellen Präferenz für bedeckte Silben zu gehorchen als auch der häufigen Forderung, den Reim einer Akzentsilbe durch mehr als nur einen kurzen Vokal zu besetzen. Ein solches unterschiedliches 'Abschneiden' des Nukleus durch den nachfolgenden Konsonanten, wie es in Ratte im Gegensatz zu Rate intuitiv vorliegt, wird in der Theorie des Silbenschnitts als prosodischer Kontrast sui generis erklärt (vgl. hierzu ausführlich Restle 1998). Die Konzepte des Silbenschnitts und der Ambisyllabizität erlauben außerdem, die Generalisierung der Akzentphonologie aufrechtzuerhalten, daß sich schwere Silben durch ein sprachspezifisch zu präzisierendes 'Mehr' an phonischer Substanz auszeichnen (vgl.Rubach 1999,289ff.). Allerdings ist die Ansetzung ambisyllabischer Sprachlaute in der phonologischen Literatur nicht unumstritten und in einigen generativen Ansätzen als Resyllabierung reinterpretiert worden (vgl. Restle/Vennemann 2001,1329). Jensen (2000,191) kritisiert, daß bei der parallelen Ansetzung einer Segment-, Zeit- und Silbenfolge einzelne 1

Inwieweit solche Kontraste jedoch grundsätzlich oder typischerweise auf morphologische Fugen oder syntaktische Grenzen beschränkt sind, bleibt für jede Sprache eigens zu überprüfen.

118 Segmente sowohl zu zwei Zeit- als auch zu zwei Silbeneinheiten zugeordnet werden können, eine Sprache also ambisyllabische einfache Konsonanten und heterosyllabische Geminaten kontrastieren könnte, was in den Sprachen der Welt nicht vorzukommen scheint. 2 Sinnvoller erscheint es jedoch, diese nicht-maximale Ausnutzung prosodischer Kontraste als Beschränkung menschlicher Diskriminationsfähigkeitzu erklären anstatt lediglich als Folge stipulierter phonologischer Repräsentationen. Eine minimalistische phonologische Theorie wie bei Jensen, die etwa finn. Matti und deutsch Matte in ihrer silbenprosodischen Gliederung nicht zu unterscheiden erlaubt, verhindert meiner Ansicht nach mehr Einsichten als sie vermittelt. Selbst wenn nämlich kein Sprachsystem ambisyllabische und geminierte Sprachlaute zugleich aufweisen sollte, so wird doch der geringe Zugewinn an Beschreibungsökomonie, den eine einheitliche Darstellung der beiden prosodisch definierten Konstellationen mit sich bringt, um einen hohen Preis erkauft: Die jeweiligen Spezifika beider Oppositionstypen, etwa temporale Stabilitätsphänomene in Quantitätssprachen oder das Fehlen offener Akzentsilben mit phonetisch kurzem Vokal in Silbenschnittsprachen, können aus einer solchen Repräsentation nicht mehr in naheliegender Weise abgeleitet werden. In der nichtlinearen Phonologie wird daher üblicherweise eine eigene phonologische Achse zur Darstellung der silbischen Gliederung eingeführt, die zwar durch Assoziationslinien auf die Segmentachse bezogen, aber eben nicht auf sie reduzierbar ist. Daß sich insbesondere in einer Repräsentation der Silbenfolge durch Crescendo- und Decrescendo-Energiekonturen alle potentiell kontrastiven Eigenschaften der silbischen Gliederung repräsentieren lassen, zeigt Vennemann (1994). Festzuhalten ist: Die silbische Gliederung kann in mehrfacher Weise kontrastive Leistung erbringen und scheint vor allem in Silbenschnittsprachen in der Opposition ambisyllabischer und tautosyllabischer intervokalischer Konsonanten eine große Rolle zu spielen. Wie häufig silbenprosodische Kontraste jedoch in den Sprachen der Welt sind, scheint beim gegenwärtigen Stand der Forschung nicht ausreichend geklärt.

3.2.2 3.2.2.1

Kontrastivität der melodischen Kontur Satzphonologische melodische Kontraste: Intonation

Die satzphonologische Nutzung des Tonhöhenverlaufs nennen wir Intonation, sie gilt als universell (vgl. Ladd 1996 und Fitzpatrick 2000). Während noch Bolinger (1978) die Ausgrenzbarkeit von zumindest teilweise symbolischen phonologischen Intonationskonturen bezweifelt, argumentiert Ladd (1996,33ff.) überzeugend für eine prinzipielle Distinktion ikonischindexikalischer Anzeichenfunktionen und symbolischer Kodierungsaspekte. Daß die Abgrenzung dabei im Einzelfall schwierig sein kann und universelle Tendenzen die einzelsprachlich konventionalisierten Muster mitprägen, spricht hier meiner Ansicht nach genausowenig wie in anderen Teilbereichen der lautsprachlichen Organisation gegen die Ansetzung einer intomüonsphonologischen Komponente (vgl. hierzu auch Fox 2000, 269ff.). Nach Fitzpatrick (2000, 90) umfaßt diese mindestens eine Lehre von den Intonationskonturen sowie der intonatorischen Phrasierung und Prominenzgebung. Ladd (1996,2) fordert für intonatorische 2

Vgl. jedoch Murray (2000), der zumindest für eine Übergangsform des Friihmittelenglischen aufgrund graphematischer Evidenzen einen solchen dreifachen Kontrast V.CV : VÇV : VC.CV in Betracht zieht.

119 Phänomene außerdem, daß sie der Kodierung sententialer Bedeutungsaspekte dienen, so daß im allgemeinen nur ein Teil der Prominenzen einer Äußerung in der Analyse ihrer intonatorischen Struktur zu berücksichtigen ist. Auch sind nach Fox (2000,290) melodische Konturen im Gegensatz zu rhythmischen vorrangig auf höherer Ebene an der phonologischen Gestaltung beteiligt. Immerhin jedoch dienen melodische und rhythmische Konturen zumindest teilweise gleichen satzphonologischen Zielen. Daß also die intonatorische Gliederung mit der rhythmischen Konturierung interagieren kann, steht außer Frage; zu klären bleibt vielmehr, ob rhythmische und melodische Aspekte überhaupt prinzipiell unterschieden werden sollten. Wir schließen uns in diesem Punkte der Position von Classe an, derzufolge die partielle Unabhängigkeit von Intonation und Rhythmus und insbesondere die mögliche intonatorische Variation bei gleicher perzipierter rhythmischer Kontur als Argument für eine getrennte Konzeptualisierung und Repräsentation bereits ausreicht (vgl. ähnlich Pike [1945] 1967,30; Nooteboom 1997,653): [... ] I am unable to agree that the melody of speech is an integral part of its rhythm, for it is separable. No one would deny that both factors are intimately connected, but it does not follow that they are one and the same thing, or even different aspects of the same thing. It is perfectly possible to write different tunes to the same rhythmic scheme [...]. Rhythm is the backbone of melody, the framework on which it hangs. It follows that, whereas one might not perhaps be justified in studying melody quite apart from rhythm, the reverse is not true. (Classe 1939, 3)

Somit können, ja müssen intonatorische und rhythmische Konturen eigenständig repräsentiert werden, um ihrer relativen perzeptiven und satzphonologischen Autonomie Rechnung zu tragen (vgl. auch Romani/Calabrese 1996). Insbesondere erlaubt uns die relative Autonomie von melodischer und rhythmischer Struktur, erstere in unserer zu erstellenden Typologie des Ineinandergreifens rhythmisch relevanter Prosodien auszublenden.

3.2.2.2

Wortphonologische melodische Kontraste: Ton

Im Unterschied zu Intonationskonturen sind tonale Distinktionen auf die Wortphonologie beschränkt. Die 'klassische', nachfolgend zitierte Definition einer Tonsprache stammt von Pike (1948) und wird auch in neueren Arbeiten, wie bei Hyman (2001), in abgeschwächter Form - unter Berücksichtigung von Sprachen mit morpholexikalisch oder phonologisch eingeschränkter Kontrastivität - beibehalten: A tone language may be defined as a language having lexically significant, contrastive, but relative pitch on each syllable. (Pike 1948, 3) A language with tone is one in which an indication of pitch enters into the lexical realization of at least some morphemes. (Hyman 2001, 1368)

Die Angaben über die Häufigkeit solcher Oppositionen schwanken: Während in der Stichprobe von Maddieson (1984,20) unter 56 Sprachen tonale Kontraste nur in 14 zu finden sind, zählt nach Hyman (2001, 1367) etwa die Hälfte und nach Yip (2002, 1) sogar 60 bis 70% aller Sprachen zu den Tonsprachen. Auffällig ist hierbei die areale Distribution: Tonsysteme finden sich am häufigsten und mit den meisten Kontrasten in Mittelamerika, im subsaharischen Teil Afrikas und in Ostasien.

120 Dabei ergibt sich nach Hyman eine wortphonologisch basierte Kreuzklassifikation der Sprachen, da weder Akzent noch Ton, nur Akzent oder nur Ton oder auch beide prosodischen Eigenschaften zugleich möglich sind. Innerhalb der letzten Gruppe wird mindestens seit Hulst/Smith (1988) weiter nach der Einflußrichtung unterschieden: So kann aufgrund tonaler Kookkurrenzbeschränkungen eine Silbe im Wort als Prominenzmaximum die kulminative Akzentfunktion erfüllen oder auch umgekehrt die Präsenz tonaler Kontraste durch die Akzentspezifikation eingeschränkt sein: Beispielsweise besteht in denjenigen nordgermanischen Idiomen, die einen binären tonalen Kontrast aufweisen, dieser nur in der Wortakzentsilbe. Auch eine teilweise oder vollständige Neutralisation tonaler Oppositionen in unakzentuierter Position findet sich etwa in mexikanischen Sprachen. Tonale Kontrastmöglichkeiten können somit ebenso von der Akzentspezifikation einer Wortform abhängen wie umgekehrt Prominenzen von der tonalen Kontur. Nach Fox (2000,260) spiegeln sich solche Unterschiede bei einer getrennten Darstellung melodischer Konturen und akzentueller Prominenz in einem unterschiedlichen Aufbau der Verbindungslinien zwischen den beiden prosodischen Autosegmenten wider. Ob jedoch eine Kulminativitätseigenschaft in einer Tonsprache wie dem Somali, das in einer Wortform höchstens einen besonders salienten Hochton erlaubt, bereits berechtigt, diesen als Manifestation des Wortakzents zu betrachten, bleibt meiner Ansicht nach fraglich. Nicht jede Einzigkeitsbeschränkung in der Wortphonologie ist notwendigerweise akzentprosodisch (vgl. zur Diskussion Hülst 1999, 79ff.). Im Normalfall scheinen vielmehr tonale Kontraste - im Gegensatz zur intonatorischen Struktur - die uns interessierenden beiden prosodischen Dimensionen der Zeit und Prominenz kaum zu beeinflussen.3 Hyman (2001,1378) faßt diese Einsicht in dem lapidaren Satz 'Tones affect tones" zusammen und zeigt, wie tonale Regularitäten weitgehend abgekoppelt von segmentalen und anderen prosodischen bestehen. In seinem unter (48) wiedergegebenen Entwurf zweier Prototypen von Akzent- und Tonsprachen zeigt sich meines Erachtens deutlich, daß Tonalität im Gegensatz zu akzentueller Prominenz nicht 'parasitär* ist und somit wenig mit anderen Strukturdimensionen der Prosodie interagiert: (48) Prototypen von Ton- und von Akzentsprachen (Hyman 2001, 1377f.) prototypische Distribution prototypische Domäne prototypische Funktion prototypische Realisierung phonologische Effekte Einwirkungen der Phonologie Interaktion mit Grammatik Regeltypen

3

Tonsprache freie Töne morphembasierte Töne distinktiv F0 "self-contained" von Konsonanten kompositional wie segmentale Regeln

Akzentsprache kulminativer Akzent wortbasierter Akzent demarkativ komplex "non-contained" durch Silbengewicht integriert anders als segmentale Regeln

Vgl. aber Goldsmith (1987) zu einer Harmonisierung tonaler und rhythmischer Prominenz in den Bantusprachen Kirundi und Kinyarwanda. Allerdings sind die beiden Sprachen offenbar gerade durch diese prosodischen Interaktionen gegenüber allen anderen Tonsprachen der Umgebung ausgezeichnet und scheinen somit in ihrem Ausnahmecharakter die obige Normalitätsaussage eher zu bestätigen.

121 Wie schon im Falle der Intonation, so scheint auch in der Wortphonologie die melodische Konturierung unabhängig von der akzentrhythmischen erfaßbar zu sein, auch wenn bei Sprachen mit Wortakzent und Ton sich gewisse Interaktionen ergeben mögen.

3.2.3

Kontrastivität der Prominenzkontur

In diesem und dem folgenden Unterabschnitt wird der Frage nachgegangen, wieweit auch Eigenschaften der rhythmischen Gestalt in der Wort- und Satzphonologie zur Kodierung herangezogen werden können. Wir beginnen dabei mit der Prominenzkontur, besprechen anschließend die Zeitstruktur und zuletzt das Ineinandergreifen der beiden Dimensionen.

3.2.3.1

Prominenzkontraste in der Wortphonologie

Zwar können in der Wortphonologie in einigen Sprachen Kontraste allein durch unterschiedliche Prominenzrealisierungen auf einer Silbe bei gleicher silbenprosodischer Basis erbracht werden, jedoch scheinen solche Oppositionen immer tonaler Natur zu sein (vgl. Hyman 1975, 213) und sind somit in der melodischen und nicht in der Prominenzkontur zu repräsentieren. In Sprachen mit 'freiem', also lexikalisch oder morphologisch bestimmtem Wortakzent, kann auch die Lage des Wortakzents prosodische Distinktionsleistung erbringen. In der Stichprobe von 56 Sprachen bei Maddieson (1984,20) ist dies in 14, also genau einem Viertel, der Fall. In der typologischen aussagekräftigeren Auswahl von Hyman (1977) ergibt sich eine ähnliche Proportion von 113 Sprachen mit freiem Akzent bei insgesamt 444. Freier Akzent scheint dabei keineswegs auf europäische Sprachen beschränkt, sondern findet sich nach Hyman (1977, 58) in allen Weltregionen und großen Sprachfamilien mit Ausnahme Australiens. Areale Tendenzen zeigen sich eher bei phonologischer Determination: So weisen von den 27 australischen Sprachen bei Hyman 22 Erstsilbenakzent auf; nach Laver (1994,523) ist ferner Ultimaakzent für iranische und Turksprachen sowie das benachbarte Armenische charakteristisch. Auch geht zumindest in der Stichprobe von Maddieson (1984) keinerlei negative Korrelation zwischen segmentalem und akzentuellem Distinktionspotential hervor: eine manchmal vermutete statistische Tendenz, derzufolge sich bei kleinem Sprachlautinventar mehr prosodische Kontraste, bei großem entsprechend weniger finden, ist, zumindest was akzentuelle Distinktionen anbelangt, nicht zu belegen. Allerdings folgt aus der NichtVorhersagbarkeit einer Akzentposition noch keineswegs, daß diese allein auch tatsächlich zur Kontrastierung verschiedener Formen genutzt wird - nach Laver (1994,517) ist dies sogar eher die Ausnahme als die Regel. Insbesondere bei morphologischer Nutzung kontrastiver Akzentlagen kann aber der Beitrag des Akzents zur Kodierung erheblich sein: So werden beispielsweise im Gipuzcoa-Dialekt des Baskischen nach Hurch (1996,76ff.) viele Singular- und Pluralformen von Nomina allein durch die Lage des Akzents unterschieden. Dagegen steht Kontrastivität offenbar mit einer anderen typischen Leistung wortakzentueller Prominenz in Konflikt, nämlich der Demarkativität: Während nämlich fester, phonologisch determinierter Akzent eine Wortgrenze eindeutig indiziert, wird dies durch die mit der Kontrastivität notwendig verbundene Unvorhersagbarkeit der Akzentlage gerade systematisch verhindert. Insgesamt scheint in der Wortphonologie die Akzentposition zwar

122 seltener als die tonale Kontur, jedoch häufiger als die Silbiñzierung zur Kodierung beizutragen.

3.2.3.2

Prominenzkontraste in der Satzphonologie

Innerhalb der Satzphonologie besteht eine wichtige Aufgabe der melodischen und rhythmischen Konturierung, die informationsstrukturelle Gliederung zu signalisieren. Dabei können neben morphologischen und syntaktischen Mitteln insbesondere Prominenzmaxima auf sententialer Ebene zur Markierung der Fokus-Hintergrund-Struktur herangezogen werden. Vallduvi/Engdahl (1996) unterscheiden in diesem Zusammenhang 'plastische' und 'nichtplastische' Sprachen. In der ersten Klasse, für die die Autoren Englisch, Niederländisch und Türkisch als Beispiele anführen, ist die Position fokusanzeigender Prominenzen variabel. Auch können verschieden große Bereiche der Fokussierung durch bestimmte intonatorische Verfahren unterschieden werden. Im Katalanischen als einer nicht-plastischen Sprache hingegen besteht eine wesentlich verbindlichere Zuordnung von syntaktischen Konstruktionstypen und prosodischen Konturen. Cruttenden (1997,138ff.) diskutiert ebenfalls Unterschiede in der intonatorischen Gliederung und Flexibilität von Fokusakzenten zwischen einigen europäischen Sprachen und veranschaulicht exemplarisch, daß Fokusakzente im Französischen anders als im Englischen zwar auf die fínate Position einer Intonationsgruppe beschränkt sind, jedoch in größeren Äußerungen durch Zerlegung in kürzere Gruppen ebenfalls häufig satzmediale Fokussierungen erzielt werden können. Allerdings kann die fehlende Mobilität des Satzakzents auch zu Prominenzmaxima auf 'alter' Information führen, was Cruttenden (1997,144) als re-accenting bezeichnet.4 Diese Nichtkongruenz von prosodischer und pragmatischer Gewichtung ist nach Cruttenden charakteristisch für romanische Sprachen sowie interessanterweise auch für das Schwedische, wobei er hier die stärkere Beanspruchung der melodischen Kontur durch die tonale Wortakzentunterscheidung als Grund für die geringere satzphonologische Flexibilität vermutet. Umgekehrt kann in einer Sprache, in der die Wortakzentposition keine distinktive Funktion erfüllt, diese Signalisierungsressource im Einzelfall auch durch die Satzphonologie genutzt werden. So erlaubt Polnisch, das als SVO-Sprache bei neutraler Fokussierung Satzakzent am Äußerungsende aufweist, zur Anzeige von engem Fokus auf finalen Konstituenten nach Cruttenden eine Prominenz auf der ersten Silbe anstelle der Paenultima, auf der im Normalfall der Wortakzent liegt. Insgesamt zeigt sich in der Signalisierung der Informationsstruktur eine Arbeitsteilung zwischen Prosodie und Grammatik: Sprachen machen in unterschiedlichem Ausmaß von eigenen fokusanzeigenden Einheiten, syntaktischen Serialisierungsalternativen und besonderen Konstruktionstypen sowie intonatorischer Phrasierung und Satzakzentpositionierung Gebrauch. Innerhalb der melodischen und rhythmischen Kontur lassen die wenigen Aussagen in der Literatur ebenfalls eine gewisse Balance zwischen verschiedenen Signalisierungsleistungen vermuten. Bei aller Verschiedenheit der Kodierungsmöglichkeiten zeichnet sich aber 4

Vossler (1921,109) nimmt diese Tatsache übrigens zum Anlaß, den französischen Sprachbau in dieser Hinsicht zu kritisieren: "[... ] das Französische [hat] eine verhältnismäßig starre und einförmige Satzrhythmik bekommen [... ] Ja, es kommen [... ] geradezu sinnwidrige Betonungsverhältnisse zustande, wie: plaît-il? voulèz-voùs\ wo die hochtonigen il und vous keinerlei Bedeutungsakzent verdienen."

123 generell ab, daß die Kodiemngserfordernisse im Konfliktfall gegenüber eurhythmischen Präferenzen gewinnen. Die in 1.3.2 referierte pitch-accent-first-Theoñe von Selkirk (1984), derzufolge Satzakzente nicht End-, sondern Ausgangspunkte der Prominenzkonturbildung darstellen, wirkt also auch für Sprachen mit einer vom Englischen verschiedenen prosodischen Organisation überzeugend. Sprachen gestalten ihre Prominenzkonturen rhythmisch innerhalb eines Rahmens, den die intonatorische Gliederung und die fokusanzeigenden Prominenzen ihnen vorgeben. Der Bezug der Informationsstruktur zur rhythmischen Konturbildung erscheint dabei nur mittelbar über die Intonation zu erfolgen.

3.2.4 3.2.4.1

Kontrastivität der Zeitstruktur Zeitstrukturelle Kontraste in der Wortphonologie

In der Zeitstruktur finden wir auf der Wortebene kontrastive Dauer sowohl bei vokalischen wie bei konsonantischen Segmenten. Nach Laver (1994,436) sind Quantitätssprachen häufig und nicht auf bestimmte Weltregionen oder Sprachfamilien konzentriert. Hierbei finden sich Längenkontraste in den Sprachen öfter bei Vokalen als bei Konsonanten (vgl. Ruhlen 1976a, 43; Laver 1994,436). Die Ansetzung eines binären Merkmals [±LONG] wie bei Halle (1977) kann ebensowenig wie segmentale Repräsentationen akzentueller Eigenschaften die besondere prosodische Relevanz von Quantitätsverhältnissen erfassen (vgl. zur Kritik ausführlicher Perlmutter 1995). Eine Repräsentation phonologisch langer Sprachlaute als Folge zweier identischer kurzer führt bei Vokalen zu einer unerwünschten Ambiguität, da sie sowohl einen tautosyllabischen Langvokal als auch eine Hiatkonfiguration darstellen kann (vgl. Vennemann 1986,17). Komplizierter stellt sich die Situation im Konsonantismus dar: Bei Plosiven ist nämlich zwischen Folgen zweier identischer Segmente und echten Langsegmenten, sogenannten Geminaten zu unterscheiden. Am deutlichsten ist der Unterschied bei Affrikaten, wo bei Geminaten Frikation nur einmal auftritt, bei gedoppelten Affrikaten hingegen zweimal. Geminaten wie Langkonsonanten erweisen sich zumindest gegenüber artikulatorischen Schwächungsprozessen als weitaus resistenter im Vergleich zu einfachen Konsonanten (vgl. Kirchner 2000). Im Unterschied zu adjazenten gleichen (Kurz-)Plosiven sind Geminaten zudem nicht durch Epenthese auflösbar und auch nicht allein mit ihrem Anfang oder Ende an phonologischen Prozessen beteiligt (vgl. Ladefoged/Maddieson 1996, 92). Ferner sind sie nur dort in der Wortphonologie erlaubt, wo auch andere Folgen zweier Konsonanten erlaubt sind. Insbesondere finden sie sich in vielen Sprachen nur wortmedial in intervokalischer Position und werden dann typischerweise heterosyllabiert (vgl. Trubetzkoy [1939] 3 1962, 156; Maddieson 1985, 208). Im Silbenonset sind Geminaten selten (vgl. Hulst/Ritter 1999, 35), jedoch keineswegs ausgeschlossen. Sogar wortinitiale Geminaten finden sich und werden zuverlässig erkannt.s Somit scheinen für Konsonanten eher als für Vokale verschiedene Repräsentationen phonetisch langer Sprachlaute angemessen.

5

Ladefoged/Maddieson (1996, 94) erwähnen den Pattani-Dialekt des Malaiischen, einem austronesischen Idiom Thailands, in dem sogar äußerungsinitiale stimmlose Plosive nach Quantität unterschieden werden, wobei als phonetische Korrelate hier die Intensität der Verschlußlösung sowie die Geschwindigkeit der Formanttransitionen fungieren.

124 Ob es Sprachen gibt, die in ihrem phonologischen System drei Quantitätsgrade unterscheiden, also neben Kürze und Länge noch eine sogenannte 'Überlange' kennen, bleibt umstritten. Nach Trubetzkoy ([1939] 3 1962,178) handelt es sich in allen postulierten Fällen ternärer Quantitätsoppositionen schlichtweg um "Mißverständnisse". Im Estnischen, das lange als Sprache mit einer solchen dreifachen prosodischen Opposition galt, interagiert nach neuerer Auffassung (vgl. Lehiste 1997) eine binäre Quantitätsopposition mit einem anderen, zwar prosodisch konditionierten, jedoch epiphömenalen Dauerunterschied. Ladefoged/Maddieson (1996) lassen als einzige Sprache mit ternärer Quantitätsopposition das mexikanische Mixe gelten und erwähnen als weiteren Anwärter das im heutigen US-Bundesstaat Arizona beheimatete Yavapai. Laver (1994, 442) behauptet auch fUr das schottische Gälisch drei Quantitätsgrade, ohne jedoch für diese Aussage einen Beleg zu liefern. Insgesamt zeigt sich in der Diskussion, daß nichtbinäre Quantitätsdistinktionen bestenfalls eine marginale Rolle spielen.

3.2.4.2

Zeitstrukturelle Kontraste in der Satzphonologie

Während wir also im Bereich der Wortphonologie problemlos von zeitstruktureller Kontrastivität ausgehen können, ist die mögliche satzphonologische Relevanz von Dauerunterschieden in der Forschung ein blinder Fleck geblieben. Lehiste (1970) setzt, wie unter (49) zu ersehen, in ihrer Zuordnung phonetischer Dimensionen der Prosodie und phonologischer Nutzungen als satzphonologisches Pendant von Quantität das Sprechtempo an: (49) Phonetische Dimensionen und phonologische Funktionen der Prosodie (nach Lehiste 1970, 4) Akustik Perzeption Wortphonologie Satzphonologie physikalische Zeit Grundfrequenz Intensität

Dauer Tonhöhe Lautheit, Akzent

Quantität Ton Wortakzent

Tempo Intonation syntaktischer Akzent

Gegen eine phonologische Wertung von Sprechtempo wendet sich aber bereits Karcevski [1931] in seinem Aufsatz "Sur la phonologie de la phrase". Kohler ( 2 1995) führt zwar für die beiden prosodischen Dimensionen der Prominenz und Tonhöhe jeweils lexikalische und sententiale distinktive Nutzungen an, begnügt sich jedoch bezeichnenderweise im Falle der Dauer mit nur einem einzigen phonologischen Konzept: Neben die phonetische Dauer tritt die phonologische Quantität, neben die phonetische Prominenz der phonologische Wort- und Satzakzent und neben die phonetische Tonhöhe der phonologische Ton und die phonologische Intonation. (Köhler 2 1995, 110)

Im Modell von Gibbon (1995, 458) finden sich für die Wortphonologie Ton, Wortakzent (stress) und Länge (length) und als satzphonologische Gegenstücke Intonation, Satzakzent (accent) und - Rhythmus. Implizit wird Rhythmus dabei auf die Zeitdimension beschränkt und die Tatsache, daß auch Prominenzen - in von Sprache zu Sprache verschiedenem Ausmaß - zur rhythmischen Kontur beitragen können, hierdurch meiner Ansicht nach terminologisch verunklart. Im folgenden soll jedoch für die These argumentiert werden, daß Zeitstrukturen ebenso wie melodische und Prominenzkonturen satzphonologische Kodierungsleistungen erbringen können, und zwar demarkative. Messungen zur Dauer phonetischer Ereignisse haben immer wieder ergeben, daß Segmente und Silben am Ende größerer prosodischer Einheiten

125 langsamer produziert werden als in anderen Positionen (vgl. die Literaturhinweise bei Johnson/Martin 2001, 95). Diese finalen Längungen sind zunächst als universell aufgefaßt worden. Manche Autoren betrachten die Erscheinung sogar als allgemeineres, nicht auf Lautsprache beschränktes Rallentando-Phänomen, das sich auch in der Musik und sogar im Gesang von Vögeln wiederfinde (vgl. die Hinweise bei Vaissière 1983,60). Oller/Smith (1977) und Konopczynski (1984) zeigen jedoch, daß sich in den vorsprachlichen Produktionen von Babys solche Längungen nicht nachweisen lassen. Nach Oller (1979) finden sich im frühkindlichen Sprechen signifikante Unterschiede zwischen finnischen Kleinkindern einerseits sowie anglo- und hispanophonen andererseits: Zwar zeigt sich bei allen eine Tendenz zur Längung von Nukleusvokalen in Silben am Ende einer Phrase, jedoch ist diese Dauerzunahme bei den jungen Finnen viel schwächer als bei ihren englischen, schwedischen, deutschen und hispanoamerikanischen Altersgenossen und fehlt bei japanischen nach Hallé/BoyssonBardies/Vihman (1991) sogar fast ganz. Insgesamt sprechen die Befunde aus dem Erstspracherwerb eher gegen die Universalitätsthese. Inwieweit die Tendenz phonetisch natürlich ist, wie Lindblom (1978) behauptet, braucht hier nicht erörtert zu werden. In jedem Falle kann sie unterbunden werden, falls quantitative Kontraste im Vokalismus deutlich bleiben sollen, und bildet somit ein sprachspezifisches phonetisches Verhalten, welches sich gegebenenfalls aber bereits zu Beginn der kindlichen Sprachproduktion findet. Das Erlernen solcher finaler Längungen mag dabei durch entsprechend überdeutlich markierte Grenzen syntaktischer und prosodischer Konstituenten in kindadressiertem Sprechen unterstützt werden (vgl. Ratner 1986) und wird sogar als Indikator des syntaktischen Spracherwerbs diskutiert (vgl. Snow 1994). Auch in den Sprachen jedoch, die finale Längung aufweisen, zeigen sich Unterschiede nicht nur in ihrem Ausmaß, sondern auch in der Distribution: So werden nach Farnetani/Kori (1990,62) im Italienischen regelmäßig nur Satzgrenzen durch finale Längung markiert, kaum hingegen die Grenzen satzinterner phonologischer Phrasen. Auch für eine auf äußerungsfinale Silben eingeschränkte Tendenz ist Universalität vermutet worden (vgl. Kohler 1986,288), jedoch finden sich sogar Sprachen mit regelmäßigen, möglicherweise durch jambische Verfußung konditionierten, Längungsprozessen, die gerade in wortfinalen - und somit a fortiori auch in äußerungsfinalen - Silben diese Tendenz konsequent verbieten.6 Hervorzuheben ist, daß, wie bereits in 1.2.1.2 vermerkt, im Französischen diese Tendenz besonders ausgeprägt (vgl. Fant/Kruckenberg/Nord 1991, 363) und systematisch ist und dabei auch mit der Tiefe des jeweiligen syntaktischen Einschnitts korreliert (vgl. Fletcher 1991). Sogar Silben vor der phrasenfinalen werden, allerdings in weit geringerem Ausmaß, wie auch Konsonanten im Onset der Silbe nach der prosodischen Grenze von der Längung miterfaßt (vgl. Vaissière 1980, 555, Lacheret-Dujour/Beaugendre 1999, 38 und Barbosa/Madureira 1999, 297). Im Unterschied zum Italienischen darf, ja muß diese Längung meiner Ansicht nach im Französischen als phonologische Eigenschaft gewertet werden (vgl. auch Vaissière 1980, 557), gerade so, wie in dem folgenden Zitat vorgeschlagen: En français, elle [l'isochronie, A. D ] concerne les syllabes atones (non accentuées) qui possèdent une durée non marquée relativement stable ; cette durée représente la durée de référence dans une 6

Vgl. Buckley (1998), demzufolge sich diese phonetische Restriktion in der im heutigen USBundesstaat Oklahoma beheimateten Sprache Choctaw und im brasilianischen Hixkaryana findet und auf eine universelle Dispräferenz für phonetisch lange Vokale am Wortende zurückgeht. Als Deutschsprachiger hätte man eher eine gegenläufige Markiertheitsasymmetrie erwartet.

126 structuration rythmique. Un tel mécanisme explique la formation des phases temporelles et, donc, celle des pieds accentuels (ou pieds métriques) ; une syllabe étant phonologiquement soit brève, soit longue, un élément marqué s'associe à des éléments non marqués pour former un groupement. (Lacheret-Dujour/Beaugendre 1999, 39; Hervorhebung A. D.) Schwieriger einzuordnen sind konstituentenñnale Längungen im Englischen: Beckman/Edwards (1990) finden nur eine geringe und bei einigen Sprechern sogar regelmäßig fehlende Dehnung am Ende phonologischer Wörter, hingegen eine ausgeprägtere und von allen Sprechern realisierte Demarkation größerer Einheiten. In ihrer Studie arbeiten sie dabei mit satzphonologischen Minimalpaaren, wo innerhalb gleicher Segmentfolgen verschiedene prosodische Gliederungen anzusetzen sind, wie unter (SO) wiedergegeben: (SO) Satzphonologische Minimalpaare im Englischen bei Beckman/Edwards (1990) Pop, opposing the question strongly, refused an answer to it. Poppa, posing the question strongly, demanded an answer to it. Pop opposed the question strongly, and so refused to answer it. Poppa posed the question strongly, and then refused to answer it. Während Beckman/Edwards diese mit den phonologischen Phrasen identifizieren, macht Selkirk (1990,195) darauf aufmerksam, daß auch eine direktere Anbindung an die syntaktische Gliederung der Äußerung möglich ist und spricht in diesem Zusammenhang auch für das Englische von einer " 'grammaticization' of constituent-sensitive timing". Im Unterschied zu ihrer früheren Analyse, die, wie in 1.3.2 dargelegt, eine Repräsentation solcher Längungen oder Pausen durch einen stummen Halbschlag im metrischen Gitter vorsah, schlägt Selkirk (1990) vor, syntaktische Einschnitte, die sich temporal manifestieren, direkt aus einer geeigneten prosodischen oder syntaktischen Spezifikation abzuleiten. Während jedoch meiner Meinung nach die Experimente von Beckman/Edwards die Möglichkeit einer syntaktischen Desambiguierung durch die Zeitstruktur im Englischen eindeutig erweisen, bliebe zu zeigen, daß auch außerhalb solcher wie in (50) konstruierter Satzpaare in der Spontansprache finale Längungen mit der gleichen Deutlichkeit und Regelmäßigkeit auftreten wie im Französischen. Umgekehrt macht die phonologische Bedeutsamkeit dieser zeitstrukturellen Regularität im Französischen auch verständlich, warum in dieser Sprache die Silben vor dem Phrasenende in ihrer Dauer tatsächlich verhältnismäßig gleichförmig produziert werden: Nicht um Isochronie aller oder wenigstens aller nichtfinalen Silben geht es, sondern um eine prägnante Opposition zwischen langen und kurzen Silben, die nicht nur durch die Anisochronie der beiden phonologischen Klassen, sondern auch durch eine ungefähre Isochronie innerhalb der Silben einer Klasse unterstützt wird. Die Binarität einer phonologischen Dauerunterscheidung ist kein Selbstzweck, sondern scheint für die verläßliche Wahrnehmbarkeit von großem Vorteil, wenn nicht sogar unabdingbar.

3.2.5

Grenzen der prosodischen Kontrastivität

Die Tatsache, daß der phonologischen Größe Prominenz keine eigene phonetische Dimension entspricht, macht es erforderlich, daß sie sich immer in der melodischen oder in der zeitlichen Struktur (oder auch in beider Hinsicht zugleich) niederschlägt. Bei ausschließlich tonaler Prominenz - dem 'musikalischen Akzent' in der traditionellen Dichotomie der Be-

127 tonungsverfahren - bleibt die Kontrastivität der Zeitdimension gewahrt (vgl. Vaissière 1996, 63), in allen anderen Fällen jedoch wird sie immer zu einem wichtigen, ja sogar dem primären Korrelat der Betonung. In Sprachen also, für die neben der melodischen die Ansetzung einer eigenen Prominenzkontur angemessen erscheint (eben weil Prominenz sich in ihnen nicht nur melodisch manifestiert), zeigt sich nun, daß akzentuelle und quantitative Distinktionen nicht gleichzeitig vorkommen. Diese Unverträglichkeit der beiden wortprosodischen Kontrastarten stellt bereits Jakobson [1931] fest. Seinem Begriff der monotonischen Tonstufenkorrelation in dem folgenden Zitat entspricht bei uns der des nicht-tonalen distinktiven Akzents. Allerdings betrachtet Jakobson nicht nur Wort- und Satzphonolögie als eigenständige Organisationsebenen ("Pläne")» sondern trennt außerdem zwischen einfachen lexikalischen Morphen und morphologisch komplexen Formen. Zumindest im Plan der Simplizia gilt nun: Die monotonische Tonstufenkorrelation kann nicht mit der Quantitätskorrelation der Vokale im selben phonologischen Plan eines Sprachsystems koexistieren. (Jakobson [1931] 1962, 135)

Jakobson betont in diesem Zusammenhang die Ausnahmslosigkeit dieses Gesetzes. Die Einschränkung auf Formen, die nicht Derivate oder Komposita sind, scheint lediglich darin begründet, daß er für einige Dialekte des Deutschen eine nicht silbenprosodische, sondern quantitative Opposition annimmt, gleichzeitig jedoch den distinktiven Akzent etwa in präfigierten Verben des Typs übersetzen berücksichtigen muß. Da jedoch solche Präfixe ebenso wie Kompositionsglieder in der neueren Forschung meist als eigene phonologische Wörter aufgefaßt werden (vgl. Wiese 1996,295ff. zum Deutschen), kann die Generalisierung vielleicht sogar für die Wortphonologie insgesamt gelten. Claßen et al. (1998) kommen zu dem Schluß: Unabhängig von der Frage, ob jetzt das Deutsche eine Ausnahme zu der Generalisierung Jakobsons [... ] darstellt oder nicht, verbleibt die Vermutung, daß der gleichzeitige phonetische Ausdruck von Betonung und Gespanntheit durch die Vokaldauer zu einer kommunikativ instabilen und ambigen Situation führen kann. (Claßen et al. 1998, 227)

Bereits im 19. Jh. formuliert K. Moritz Rapp, ein Zeitgenosse (und Konkurrent) von Jacob Grimm, mit bewundernswerter Klarheit: 7 Wo einmal der Accent neben der Quantität sich eingenistet und festgetreten hat, da wird zwischen beiden Elementen ein Kampf auf Leben und Tod entstehen. (Rapp 1836-1841, Bd. 1, 179)

Insgesamt ergibt sich somit für die Wortphonologie die unter (51) dargestellte Lücke in der Kreuzklassifikation: (51) Distinktionspotential der rhythmischen Konturen in der Wortphonologie distinktiver Wortakzent fehlender oder fester Wortakzent 7

8

Quantität

keine Quantität

* klassisches Latein, Japanisch

Englisch, Russisch Polnisch8

Nach Panconcelli-Calzia (1994, 45) zeigt sich in seinem Werk "das Bestreben, die Phonetik auf die Linguistik anzuwenden, also das Einschlagen neuer Wege" - 150 Jahre vor der Geburt der modernen Laborphonologie. Ausnahmen zur festen Paenultimaakzentuierung finden sich vor allem in rezenten Entlehnungen, die aber in vielen Fällen durch Synkope oder Umakzentuierung doch wieder in die Paenultimaregel eingepaßt werden, vgl. Comrie (1976).

128 Zu klären ist nun, ob neben dieser wortphonologischen Beschränkung noch weitere solche Grenzen des Distinktionspotentials rhythmischer Konturen existieren. In der Literatur findet man für die Zeitstruktur die Behauptung, daß Silben am Ende größerer prosodischer Konstituenten wie phonologischer Phrasen oder Intonationsphrasen in Quantitätssprachen kaum oder sogar überhaupt nicht gelängt werden. Diese These wird jedoch von Hockey/Fagyal (1998) für das Ungarische bestritten. Anhand einer Messung der Vokaldauern in spontansprachlichen Daten zweier Sprecher aus Budapest zeigen sie, daß zumindest am Ende von Intonationsphrasen signifikante Längungen zu beobachten sind. Interessanterweise geht jedoch aus ihrer Gegenüberstellung der durationalen Proportionen hervor, daß diese Längungstendenz phonologisch lange Vokale in stärkerem Maße betrifft als Kurzvokale, und mit Ausnahme der Längung von intonationsphrasenfinalem /o:/, das in ihrem Korpus jedoch nur siebenmal vorkommt, deutlich unter der durationalen Differenz zwischen Lang- und Kurzvokalen bleibt. Unter Berücksichtigung der intervenierenden Längungstendenz wird also die Unterscheidung zwischen Lang- und Kurzvokal sogar deutlicher als in anderen prosodischen Positionen. Auch ist auffällig, daß finale Längung nach Hockey/Fagyal gerade bei den hohen Vokalen fast ganz unterbleibt, bei denen auch phonologische Dauerunterscheidungen weniger strikt beachtet werden (vgl. Siptär/Törkenczy 2000,52, Fn. 2). Finale Längungen im Ungarischen scheinen also insgesamt eher die wichtigen Quantitätsoppositionen bei den Vokalen zu stützen als zu verwischen. Genau der gleiche Respekt vor den Distinktivitätserfordernissen der Zeitstruktur zeigt sich übrigens auch in phonetischen Messungen zum Tschechischen (vgl. Dankovicová 1997), sowie in anderen uralischen Sprachen wie dem Skolt-Samischen (vgl. McRobbie-Utasi 1996) und Estnischen (vgl. Krull 1997, 145). Auch im Muskogeanischen, dem Hauptdialekt der nordamerikanischen Sprache Creek, das im Südosten der USA noch mehrere Tausend Sprecher aufweist, zeigt sich in den Messungen von Johnson/Martin (2001) finale Längung. Da ihre Messungen auf gelesenen Wortlisten beruhen, ist nicht zu entscheiden, ob sich diese Tendenz nur äußerungs-, phrasen- oder wortfinal manifestiert. Allerdings weisen die Autoren darauf hin, daß Langvokale im Schnitt um 80 % länger als entsprechende kurze sind, die Längung von Vokalen in der Ultima mit durchschnittlich 35 % dagegen recht gering ausfällt. Auch hier ist also zu vermuten, daß der Quantitätskontrast in jedem Falle perzeptiv intakt bleibt. Insgesamt machen die wenigen aussagekräftigen Daten eine Inkompatibilität oder zumindest Schwerverträglichkeit durationaler Oppositionen in der Wort- und Satzphonologie wahrscheinlich. Für die Prominenzkontur hingegen ergibt sich keine vergleichbare Beschränkung. Vielmehr sind gerade in Sprachen wie dem Russischen, Englischen und Deutschen mit hoher Mobilität des Fokusakzents auch wortakzentuelle Kontraste oder zumindest eine Unvorhersagbarkeit des Akzents anzutreffen. Somit ergeben sich für die rhythmische Konturbildung die vier unter (52) aufgeführten phonologischen Ausgangsbedingungen: (52) Kontrastmöglichkeiten in der rhythmischen Kontur 1. Sprachen mit distinktiver Prominenz in der Wort- und/oder Satzphonologie 2. Sprachen mit distinktiver Dauer in der Wortphonologie 3. Sprachen mit distinktiver Dauer in der Satzphonologie 4. Sprachen ohne Kontraste in der rhythmischen Kontur Werfen wir abschließend noch einen Blick auf die anderen beiden prosodischen Dimensionen, in denen sich Kontraste finden, nämlich die silbische Gliederung und die melodische

129 Struktur. Gibt es auch hier simultane Nutzungen einer Ebene und somit Grenzen des Distinktionspotentials? Aufgrund ihrer Universalität müssen intonatorische Kontraste notwendigerweise in allen vier Situationen der rhythmischen Konturbildung unter (52) vorkommen. Zwar ist für einige Sprachen, etwa das Mandarin-Chinesische und das Thai, eine Abhängigkeit der Silbendauer von dem jeweiligen Ton der Silbe behauptet worden (vgl. Fox 2000,239ff. und die dortigen bibliographischen Hinweise), jedoch zeigt sich, daß Sprachen sehr wohl zugleich quantitative und tonale Distinktionen aufweisen können. Bereits Sapir (1931) faßt außerdem Ton in der westafrikanischen Sprache Gweabo als Eigenschaft der More und nicht der Silbe auf und legt damit den Grundstein zu einer langen Tradition morenbasierter Tonanalysen für afrikanische und ostasiatische Sprachen. Ob tonale Kontraste auch zusammen mit distinktiver Prominenz vorkommen, ist schwieriger zu klären. Immerhin findet sich in den 113 Sprachen von Hyman (1977), für die er phonologisch unvorhersagbaren und häufig auch distinktiv genutzten Wortakzent ansetzt, mit dem Mandarin-Chinesischen eine typische Tonsprache. Soweit diese knappen Überlegungen Aussagekraft beanspruchen dürfen, scheint die von Classe und Pike formulierte Position der relativen Autonomie der tonalen Kontur gegenüber den beiden massiv interagierenden der Zeit und Prominenz bestätigt. Daß eine Silbenschnittopposition ebenfalls mit freiem Wortakzent einhergehen kann, zeigen das Englische und Deutsche sowie das Hopi (vgl. Hyman 1977, 68 sowie zur Silbenschnittopposition im Hopi Vennemann 1994). Ob es auch Quantitätssprachen mit Silbenschnitt gibt, scheint weniger klar; Vennemann (1994) schließt die Kookkurrenz von langem Nukleusvokal und scharfem Schnitt aus. Zusammenfassend zeigt sich also eine systematische Begrenzung zwischen zeitlichen und Prominenzkontrasten, wohingegen eine vergleichbar enge Interaktion mit und innerhalb der anderen beiden prosodischen Oppositionen, nämlich silbenstrukturellen und melodischen, eher nicht vorliegt. Im nächsten Abschnitt soll ausgehend von diesem Befund der typologische Raum rhythmischer Konturbildung anhand der ihn definierenden Prototypen genauer bestimmt werden.

3.3

Prosodische Kontraste und Konturbildungsmöglichkeiten

A successful theory of rhythmic structure in language will involve sorting out what is languageparticular and what is universal in that code. (Selkirk 1984, 36) Selkirks Forderung, so naheliegend sie auch erscheinen mag, zwingt meines Erachtens dazu, die Beschränkung auf eine einzelne eurhythmische Qualität in der allgemeinen Rhythmusphonologie aufzugeben. Die Gretchenfrage der Rhythmusforscher "Was ist die Grundlage des Sprachrhythmus, Zeit oder Prominenz?" ist meiner Überzeugung nach falsch gestellt, da sie die Möglichkeit einer einheitlichen Antwort für alle Sprachen präsupponiert. Aufgrund der unterschiedlichen phonologischen Nutzung der beiden prosodischen Dimensionen ist jedoch nicht zu erwarten, daß der Aufbau rhythmischer Konturen immer in gleicher Weise erfolgt.

130 Zu fragen ist vielmehr, welche der beiden prosodischen Dimensionen in welcher Sprache grundlegend ist. Die Überschätzung der universalen Komponente im Sprachrhythmus durchzieht die phonetische, linguistische und psycholinguistische Forschung seit ihren Anfangen. Autoritäten wie Fraisse (1974, 84f.) etwa sprechen sich ohne weitere Einschränkung für den Vorrang der Zeit in der Rhythmusforschung aus (allerdings betrachtet Fraisse unzulässigerweise nur Intensität als Korrelat von Prominenz). Bezeichnend für die Isochronietradition ist insbesondere, daß sie zwar einerseits die Zeitstruktur als grundlegend für den Rhythmus, phonologische Festlegungen relativer Dauern jedoch gleichzeitig als sekundär betrachtet. So formuliert bereits Steele kategorisch: Quantity never governed rhythmus; but was as subservient to it as materials are to the building of an edifice: wherein it is the business of the workman to chuse the materials that will fit, and not to accomodate the size of the apartments to the dimensions of the bricks and stones. (Steele 21779, 170; Hervorhebungen im Original) Diese Auffassung ñndet sich auch bei den musical prosodists im England des 19. Jhs. wieder. Chapman (1821, 108f.) etwa bezeichnet den quantitätsbasierten Sprachrhythmus des Altgriechischen als "extremely defective". Gerade im klassischen Attischen aber zeigt sich an Prozessen wie der Ersatzdehnung oder der Quantitätenmetathese die Stabilität der phonologischen Gesamtdauer, die auch bei einem Wandel der segmentalen und silbenprosodischen Basis gewahrt bleibt (vgl. Wetzeis 1986). Umgekehrt sind auch Definitionen von Sprachrhythmus wie die folgende, die Rhythmizität allein Uber Prominenzverhältnisse bestimmen wollen, zumindest für eine universelle Theorie nicht angemessen: Unter Rhythmus wird im folgenden verstanden die periodische, in perzeptuell gleichabständig wahrgenommenen zeitlichen Intervallen erfolgende Wiederkehr betonter Silben. (Müller 1995, 54f.) Auch in der Metrischen Phonologie, gerade nach der Einbeziehung eines Morenkonzepts durch Hayes (1989), werden temporale Unterschiede nur insofern berücksichtigt, als sie in die Definition des Silbengewichts und somit in die Festlegung von Akzentpositionen eingehen. Hayes (1995, 53) äußert sich jedoch zuversichtlich, daß Moren in Beschreibungen ganz unterschiedlicher Phänomene einheitlich verwendbar sind: Das abstraktere Morenkonzept der Akzentlehre ist jedoch nicht in jedem Falle als phonologische Zeiteinheit zu deuten. Hulst/Ritter (1999, 31) kritisieren an Hayes zurecht, daß Länge und Schwere nicht aufeinander reduzierbar und somit getrennte temporale und akzentprosodische Darstellungen notwendig sind. Auch Harrington/Fletcher/Beckman (2000,49) betonen den Unterschied in der Nutzung des Morenkonzeptes: Die More als phonetische oder phonologische Zeiteinheit, die möglicherweise sogar als prosodische Konstituente gelten darf, ist etwas anderes - und rhythmusphonologisch ungleich wichtigeres - als Moren in Akzentzuweisungsregeln, wo sie lediglich als notationales 'Diakritikon' für Silbengrößen fungieren. Zwar scheint in Sprachen, in welchen die More rhythmisch eine Rolle spielt, die More auch phonologische Bedeutung zu haben, umgekehrt darf aber nicht jede durch eine Morenzuweisung formulierbare Gewichtsunterscheidung in der Akzentlehre bereits als Indiz einer morenbasierten Rhythmisierung gelten. Auch finden sich neben Regularitäten, in denen die Lage des Akzents funktional aus einer temporal motivierten Gewichtsbestimmung der Silben hervorgeht, andere, in denen aus der Lage des Akzents die Morenzahl resultiert. Zwar scheint die Bevorzugung schwerer

131 Akzentsilben und möglicherweise auch leichter unakzentuierter weitverbreitet; sprachspezifisch sind hingegen die Regularitäten, diese Harmonie zu verbessern. Insbesondere gibt es Quantitätssprachen wie das Finnische oder Ungarische, die in ihrer Akzentzuweisung nicht auf die phonologischen Segmentdauem Bezug nehmen (vgl. Hurch 1996, 92). Andere, wie das klassische Griechische und Lateinische, kennen zwar eine quantitätsbasierte Gewichtsunterscheidung, weisen jedoch auch leichten Silben Wortakzent zu. Sogar eine nur teilweise Berücksichtigung der phonologischen Länge findet sich: So fällt im Aserbaidschanischen zwar der Wortakzent immer auf die letzte Silbe, Nebenprominenzen dagegen werden in Abhängigkeit vom Silbengewicht vergeben (vgl. Hurch 1996, 86). In einem universalphonologischen Beschreibungsrahmen für rhythmische Konturbildung ist somit eine unabhängige Darstellung der Prominenz- und Zeitverhältnisse unverzichtbar. Für beide prosodischen Aspekte haben sich in neueren phonologischen Ansätzen Repräsentationsformen etabliert, nämlich die bereits vorgestellten Gitter- oder Baumdarstellungen zur Wiedergabe der Prominenzverhältnisse sowie eine phonologische Zeitachse, im Englischen auch timing tier oder χ tier genannt, 9 zum Ausdruck phonologisch bedeutsamer Segmentdauerunterschiede. Dabei bilden die Zeit- und Prominenzstrukturen von Sprachen sprachspezifische Kompromisse zwischen Kodierungsleistung und rhythmischer Qualität. Während in Sprachen mit distinktiver Quantität in der Wortphonologie oder aber einer starken Nutzung demarkativer Längungen in der Satzphonologie die zeitliche Gestaltung über die Prominenzkontur - sofern vorhanden - bestimmt, zeigt sich die umgekehrte Determination in Sprachen mit distinktiver Prominenzkontur. Diese unterschiedliche Grundlage der rhythmischen Konturen erkennt Vaissière (1991a) im Vergleich des Englischen und Französischen: In English, accentuation is dominant, and lengthening recessive. In French, it is the contrary [... ] (Vaissière 1991a, 258)

Die Einsicht, daß bei der Rhythmisierung der Silbenfolge Segmente, zeitliche Gestaltung und Prominenzgebung in sprachspezifischer Weise voneinander abhängen, ist jedoch viel älter und reicht mindestens bis in die Anfänge der modernen Sprachwissenschaft zurück. Bereits bei Wilhelm von Humboldt nämlich wird die Frage nach der Kontrastivität und der relativen Wichtigkeit von Prominenz und Zeit sowie zusätzlich der Segmentebene formuliert und im Unterschied zur großen Mehrheit 'moderner' Ansätze gerade auf die Verschiedenheit der Sprachen hingewiesen: Die Betonung einer Silbe kann ihre intellectuelle, ihr Zeitmass ihre aesthetische, ihr eigenthUmlicher Laut ihre materielle Natur genannt werden. [... ] Die Verschiedenheit der Behandlung nun, welche die Betonung in einer gegebenen Sprache erfährt, wird vorzüglich aus der verschiedenen Gleichstellung, oder Unterordnung dieser drei Naturen entstehen, und sich auf zwei Hauptpunkte zurückführen lassen, aus welchen hernach alle einzelnen Modificationen werden abgeleitet werden können. [... ] Der erste dieser Hauptpunkte ist, ob eine Sprache dieser dreifachen Natur volle und gleiche Geltung widerfahren lässt, und also, bei rein austönenden Lauten, ein vollständiges rhythmisches 9

Vgl. etwa Clements/Keyser (1983). Goldsmith (1990, 151) erläutert die Unterschiede zwischen verschiedenen phonologischen Auffassungen der Zeitachse. In der Neukonzeption des timing tier als weight tier bei Hyman (1985) und Hayes (1989), an den nicht mehr alle Segmente anzubinden sind, sondern nur noch gewichtsrelevante, findet sich gerade die Anerkennung der phonologischen Rolle der Zeitdimension unabhängig von Akzentpositionen wieder zurückgenommen.

132 System mit einem vollständigen Betonungssystem verbindet, oder ob sie durch den Ton das Zeitmass, und selbst die Laute umändert, und verderbt. Der zweite der [... ] erwähnten Hauptpunkte ist, inwieweit eine Sprache auch die Gesetze der Sprachbetonung, ihrem auf die Bedeutung gehenden Zwecke unbeschadet, mehr nach den Gesetzen des rhythmischen Tones behandelt, oder, mit Vernachlässigung dieser, den Ausdruck der Bedeutung verfolgt. (Humboldt [nach 1820] 1968, 325) Nach Humboldt ist also für jede Sprache zunächst eigens zu untersuchen, inwieweit in ihr die Zeitstruktur gegenüber der Prominenzkontur autonom oder nachgeordnet ist. Im zweiten Hauptpunkt wird der Kodierungsbeitrag der Prominenzkontur als typologischer Parameter genannt. Damit ist meiner Auffassung nach bereits bei Humboldt die Grundlage einer nicht reduktiven Rhythmusphonologie gelegt. Zu ergänzen ist lediglich die Einsicht von Rapp und Jakobson, derzufolge in keiner Sprache Zeitmaß und Prominenz zugleich "den Ausdruck der Bedeutung verfolgen", distinktive Prominenz also der Zeitstruktur zumindest für vokalische Quantitätskontraste nicht mehr genügend Autonomie lassen. Während in Quantitätssprachen die Morenzahl der Silben den Ausgangspunkt der Konturbildung darstellt, darf in Sprachen mit satzphonologisch konditionierter Zeitstruktur die durch finale Längung markierte phonologische Phrase als rhythmische Grundeinheit gelten. Bei kontrastiven Wort- oder Satzakzenten hingegen bildet die Folge der Prominenzen die Basis der Rhythmisierung. Je geringer die Kodierungsleistung der beiden Dimensionen ist, desto mehr kann schließlich die Prominenzkontur eurhythmisch isochron alternierend gestaltet werden. Wir wollen im folgenden diejenigen Sprachen aus der silbenzählenden Klasse Abercrombies, die in ihrer Konturbildung, frei von Kodierungserfordernissen, eine solche Periodizität der Prominenzen favorisieren, als alternierend bezeichnen. Somit bilden die aus (52) bereits bekannten vier prosodischen Grenzfälle gleichzeitig Prototypen unserer sprachrhythmischen Typologie, die wir in (53) nach dem dabei zentralen rhythmischen Prinzip bezeichnen: (53) Kontraste in der rhythmischen Kontur und rhythmische Prototypen 1. distinktive Dauer in der Wortphonologie morenbasierter Rhythmus 2. distinktive Dauer in der Satzphonologie phrasenbasierter Rhythmus 3. distinktive Prominenz (in Wort- und/oder Satzphonologie) prominenzbasierter Rhythmus 4. keine Kontraste in der rhythmischen Kontur alternierender Rhythmus Diese vier Typen sollen im folgenden der Reihe nach veranschaulicht werden. Dabei gehen wir in den beiden nächsten Unterabschnitten auf Sprachen mit distinktiver und rhythmisch grundlegender Zeitstruktur näher ein, anschließend auf prominenzbasierte und zuletzt auf alternierende.

3.3.1

Morenbasierter Rhythmus

Auch für morenbasierten Rhythmus sind, wenn auch seltener als für Silben- und Akzentzählung, phonologische Korrelate genannt worden. Neben der Quantität führen Warner/Arai (2001a, 22) die Kennzeichen unter (54) auf:

133 (54) Postulierte phonologische Korrelate für morenbasierten Rhythmus (Wamer/Arai 2001a, 22) 1. 2. 3. 4.

wenig erlaubte Silbenstrukturen hohe Vorkommenshäufigkeit leichter Silben Variabilität der Silbenzahl zwischen Prominenzen keine akzentinduzierte Allophonie

Die beiden letzten typischen Eigenschaften unter (54) bringen die geringere Wichtigkeit des Wortakzents und der Prominenzkontur zum Ausdruck und sind im Lichte von (52) unmittelbar einsichtig. Zu präzisieren bleibt jedoch meiner Ansicht nach die in (54) an erster Stelle genannte Beschränkung: In einer Sprache, die nur minimale Silbenreime erlaubt, hätte jede Silbe genau eine More. Da wir die silbische Gliederung als universell betrachten und somit ein phonologisches Silbenkonzept bereitsteht, ist es Uberflüssig, für solche Sprachen die More einzuführen. Erst die Opposition ein- und zweimoriger Silben gestattet die für Morenzählung charakteristische massive Nutzung von Quantität. Dann allerdings scheint aber eine Beschränkung der möglichen Silbenstrukturen, die mit der nachfolgend angeführten höheren Frequenz einfacherer Silben einhergeht, die Prägnanz der Morenzahlunterscheidung zu fördern. In eben diesem Sinne ist meiner Ansicht nach auch das unter (55) angeführte Rhythmusgesetz von Restle/Vennemann (2001) zu relativieren, das sich auf eine Trias von Moren-, Silben- und Akzentzählung bezieht: (55) Rhythmusgesetz (Restle/Vennemann 2001, 1322) Silbenstrukturkomplexitäten sind umso weniger favorisiert, je kleiner die rhythmuskonstituierende Einheit ist.

Restle/Vennemann (2001) erwähnen in diesem Zusammenhang Englisch mit seiner recht hohen maximalen wie mittleren Silbenstrukturkomplexität als Beispiel einer akzentzählenden Sprache (mit dem phonetischen Fuß als rhythmischer Grundeinheit) sowie das Spanische als silbenzählende und das Japanische als morenzählende Sprache. In der hier entwickelten Auffassung, die die Silbe zwar als universelle, aber eben nicht mehr als sprachtypspezifische Grundeinheit vorsieht, hingegen neben einer moren- und fußbasierten Rhythmisierung auch eine phrasenbasierte ansetzt, kann die in (55) behauptete Korrelation von Silbenstrukturkomplexität im Inventar und im Text mit der Hierarchiestufe der rhythmischen Grundeinheit nicht mehr aufrechterhalten werden. Auch scheinen zumindest komplexe, in einer Baumdarstellung verzweigende Nuklei für morenbasierten Rhythmus nicht disfavorisiert, sondern typisch; inwieweit VC-Reime vermieden werden, bliebe zu überprüfen. Nach diesen Bemerkungen zum Zusammenhang von Silbenprosodie und Rhythmustyp soll nun auf die beiden rhythmischen Dimensionen der Zeit und Prominenz im Japanischen eingegangen werden, bevor wir einen kurzen Blick auf zwei weitere Sprachen mit morenbasiertem Rhythmus werfen.

3.3.1.1

Japanisch

Wie sich bereits in 1.2.1.3 innerhalb der phonetischen Diskussion gezeigt hat, ist die rhythmische Konturbildung des Japanischen in besonders deutlicher Weise auf der Grundlage der Moreneinheit organisiert. Zwar lassen die akustischen Auswertungen elizitierter und spontansprachlicher Äußerungen nicht in jedem Falle den Schluß zu, daß die einzelnen Moren stärker isochron produziert werden, als dies unter Berücksichtigung intrinsischer und kointrinsischer Faktoren zu erwarten wäre; allerdings bleiben die Dauerunterschiede innerhalb

134 eines Äußerungsteils in konstantem Sprechtempo mit etwa 15-20 ms im allgemeinen weit unter der Wahrnehmungsschwelle. Umgekehrt ist nach Uchida (1997,3094) bei Japanern eine kategoriale Wahrnehmung von Segmentdauern als lang oder kurz nachweisbar. Auch sind zumindest für einige Segmentfolgen durationale Ausgleichstendenzen auf der Wortebene belegt, die somit eine lineare Proportionalität von perzipierter Wortlänge und Morenzahl fördern. Warner/Arai (2001a) heben in ihrer Durchsicht der phonetischen und psycholinguistischen Forschungen hervor, daß trotz aller segmentalen und suprasegmentalen Einflüsse auf die temporale Strukturierung japanischer Äußerungen, die mit der Morenisochronisierung konfligieren können, die wortphonologischeKontrastivität der Zeitdimension gewahrt bleibt. So werden bei Vokalen wie Konsonanten konsequent Länge und Kürze unterschieden. Während in anderen Sprachen häufig ein geringerer phonetischer Dauerunterschied mit einer ausgeprägten Verschiedenheit der Vokalqualität einhergeht, finden wir im Japanischen eine stabile durationale Unterscheidung - in der Untersuchung von Hoequist (1983) sind Langvokale um 70 bis 100 % länger als entsprechende kurze - mit nur minimalen qualitativen Differenzen. Für geminierte Konsonanten sind sogar Längungen bis auf das Dreifache gegenüber den korrespondierenden einfachen Segmenten gemessen worden (vgl. Homma 1981). Weniger die Isochronie der einzelnen Moren bildet also das Ziel der rhythmischen Konturbildung, sondern eine prägnante Anisochronie ein- und zweimoriger Silben, sowie, damit verbunden, die klare Perzipierbarkeit der Morenzahl einer Wortform. Dieser morpholexikalischen Determination der Zeitstruktur steht eine ausschließlich tonale Manifestation der Akzentprosodie gegenüber (vgl. genauer Fox 2000,139ff., der auch auf alternative Theorien eingeht, die mehr als zwei Tonstufen ansetzen). Seit Anfang des 20. Jhs. hat sich nämlich die Einsicht durchgesetzt, daß das Japanische keine distinktiven Wörttöne wie das Chinesische aufweist, sondern, zumindest in vielen regionalen Ausprägungen (vgl. zu akzentlosen Dialekten Otake/Cutler 1999), tonalen Akzent. Dieser kommt, wie schon Trubetzkoy [1939] vermerkt, im Japanischen nicht jeder Silbe als ganzer zu, sondern nur jeweils einer More, die dann einen Hochton erhält (kurz Ή ' für engl, high - im Unterschied zur Abkürzungskonvention in der Metrischen Phonologie, wo mit dem gleichen Buchstaben eine schwere Silbe notiert wird). Ebenso bekommen im Standard von Tokyo alle vorangehenden Moren innerhalb der Wortform einen Hochton zugewiesen, mit Ausnahme der ersten, die mit tiefem Ton realisiert wird, es sei denn, sie trägt selbst den Akzent. Falls nach der akzentuierten More noch eine weitere folgt, erhält diese einen Tiefton ('L'). In den meisten Darstellungen des Standardjapanischen gilt erst die perzeptiv saliente HL-Folge insgesamt als prominenzstiftend. Einige Wörter sind gänzlich unakzentuierbar und werden bei isolierter Darbietung mit Hochton ab der zweiten More produziert. Allerdings wird in zusammenhängenden Äußerungen immer nur ein Akzent in jeder Phrase prominent realisiert, nämlich der erste. Diese satzphonologischen Einheiten werden im Japanischen bunsetsu genannt und fungieren in der westlichen Linguistik unter verschiedenen Bezeichnungen. Falls die HL-Folgen als von der Intonation unabhängige Maxima einer eigenen Prominenzkontur aufgefaßt werden, liegt es nahe, mit Venditti/Jun/Beckman (1996,291) von einer accentual phrase zu sprechen. Obwohl nun die Position der Akzentmore nicht phonologisch vorhersagbar ist, spricht sich Fox (2000,140f.) dennoch dagegen aus, aufgrund von Wortpaaren wie jap. hána 'Anfang' mit dem Tonmuster HL und haná 'Blume' mit der Kontur LH der Akzentlage im Japanischen distinktive Funktion zuzuschreiben. Das erste Wort unterscheidet sich vom zweiten nämlich nicht durch die mögliche Position einer Prominenz, sondern durch das Vorhandensein einer

135 prominenzstiftenden HL-Folge im Gegensatz zu ihrem Fehlen. 10 Dagegen ist der Anfang einer Phrase bei initialem Akzent durch eine HL-Folge und ansonsten durch eine demarkative LH-Folge melodisch markiert. Insgesamt scheint die Prominenzkontur im Japanischen somit eher satz- als wortphonologischen Regularitäten zu unterliegen. Wichtig und in der Literatur unumstritten ist nun, daß sich akzentuelle Prominenz im Japanischen nicht durational manifestiert (vgl. Beckman 1982a), die tonale Prominenz also nicht die Zeitstruktur beeinflußt. Da Prominenzen in einer Phrase kulminativ sind und auf die erste akzentuierbare Position fallen müssen, leisten sie in der Satzphonologie einen Beitrag zur Anzeige der phonologischen Phrasengliederung. Venditti/Jun/Beckman (1996,299ff.) stellen dar, wie insbesondere auch die relative Ausprägung von Hochtönen zur syntaktischen Desambigierung beitragen kann und dabei sogar konsequenter eingesetzt wird als Sprechpausen. Eine geringe Unterstützung der Phrasendemarkation durch finale Längungen ist nach Port/Dalby/O'Dell (1987,1584) in einigen Äußerungen zwar nachweisbar, konfligiert jedoch in keinem Falle mit der Deutlichkeit der Morenzählung. Port/Dalby/O'Dell argumentieren sogar, daß gerade die Präsenz eines Morentaktes ein solches Rallentando als Demarkationsstrategie überhaupt erst ermögliche.

3.3.1.2

Ausblick auf Finnisch und Westgrönländisch

Die Bedeutung der More in der rhythmischen Konturbildung zeigt sich auch in anderen Sprachen, für die, wie in 1.2.1.3 erwähnt, auf phonetischer Grundlage Morenzählung behauptet worden ist: So lassen sich im Finnischen nach Strangert (1985, 136ff.) weit weniger als im Schwedischen und Spanischen Segmentdauern zur Approximation von Fußisochronie in größeren Füßen reduzieren, was nicht verwundert, da in der uralischen Sprache sowohl vokalische als auch konsonantische Segmente Quantitätsoppositionen ausbilden. Auch der Wortakzent im Finnischen, der als Erstsilbenakzent nur demarkative, nicht hingegen distinktive Funktion hat, manifestiert sich zwar auch durational, beeinträchtigt allerdings nicht die moraische Struktur. Strangert (1985,146) stellt fest: "The durational effects appear to be spread over the first two syllables of the word, though in such a way that the quantity relations between the first and second syllable are not disrupted." Nebenprominenzen folgen nach Kager (1993b, 302) einem binär alternierenden Muster, mit einer Ausnahme: Falls nach der binären Prominenzvergabe eigentlich eine einmorige Silbe Prominenz erhalten sollte, jedoch unmittelbar vor einer zweimorigen steht, bekommt erst diese schwere Silbe eine Nebenprominenz. Kager (1993b) wertet diese Beobachtung als Indiz dafür, daß die Fußbildung im Finnischen zwar trochäisch, jedoch quantitätssensitiv erfolgt, eine Kombination, die bei Hayes (1995), wie in (29) vermerkt, ausgeschlossen ist. Daß jedoch in einer Sprache, deren Zeitstruktur so hohe phonologische Bedeutung besitzt, sich auch die Prominenzgestaltung nach ihr ausrichtet, scheint meiner Ansicht keineswegs fragwürdig, sondern eher erwartbar. Ob dieses Muster in der Prominenzkontur dagegen bereits die Ansetzung einer Fußkonstituenz rechtfertigt, bliebe meines Erachtens zu zeigen. Eine ähnliche zeitorganisierende Funktion wie im Englischen haben die Füße im Finnischen ja

10

Die Frage, ob es im Japanischen auch Wortpaare mit distinktiver HL-Position gibt, wird von Fox (2000) allerdings auch nicht explizit verneint.

136 gerade nicht. Auch eine andere Bedeutung etwa als Domäne phonologischer Regularitäten ist bei Kager (1993b) nicht vermerkt. Für das Westgrönländische liegen nach Jacobsen (2000), der Grundlage der folgenden Darstellung, ebenfalls einige phonetische Untersuchungen und phonologische Analysen der Prosodie vor. Wie das Finnische, so weist auch diese Sprache Quantität sowohl bei Vokalen als auch bei Konsonanten auf. Fest ist dagegen nach traditioneller Auffassung die Lage des Wortakzents, der auf der Antepaenultima und zusätzlich oder alternativ - hier deutet sich bereits die geringe Prägnanz der Prominenzkontur an - auf der Ultima liegt. Jacobsen bestreitet aufgrund ihrer Messungen der phonetischen Korrelate des Akzents dessen Existenz insgesamt: Die Antepaenultima scheint lediglich melodisch durch eine Fallbewegung ausgezeichnet. Die Ultimae sind in ihren Daten bemerkenswerterweise sogar kürzer als die anderen Silben gleichen Gewichts. Nebenprominenzen finden sich in offenbar wenig systematischer Weise bevorzugt auf schweren Silben. Syntaktische oder informationsstrukturelle Anforderungen an die Prominenzkontur dagegen scheinen aufgrund des poly synthetischen Charakters der Sprache nur eine geringe Rolle zu spielen: So bietet ein Satz wie westgrönl. Isiraagama pattattarpuqa 'Immer wenn ich ins Haus gehe, klopfe ich [habituell] den Schnee von meinen Kleidern' (Jacobsen 2000, 66) mit seinen zwei Wörtern dem Satzakzent lediglich zwei alternative Landeplätze. Stattdessen sind jedoch nach Jacobsen semanto-pragmatische Gewichtungen auch innerhalb einer Wortform melodisch erzielbar. Bereits Kleinschmidt ( 1851 ) weist den vier im Grönländischen möglichen Reimstrukturen V, VC, VV und W C verschiedene Gewichtswerte zu, wobei er Vokale als doppelt so schwer auffaßt wie Konsonanten. So sind kurzvokalischen Reimen grundsätzlich zwei und den Reimtypen VC, VV und W C je drei, vier beziehungsweise fünf Gewichtseinheiten zugeordnet. Außerdem weist Kleinschmidt darauf hin, daß diese Gewichte die Rhythmisierung bestimmen - zu Recht spricht Jacobsen (2000, 41) von einer "'premature' mora analysis". Allerdings zeigen ihre Messungen, daß den vier Bewertungen nur drei oder bei einem Sprecher sogar nur zwei typische Intervalle der Silbenreimdauern entsprechen. Möglicherweise reicht zumindest für die Rhythmusphonologie die Segmentzahl im Reim für eine Morenbewertung aus. Eindeutig bleibt jedoch die Dominanz der Zeitstruktur Uber die Prominenzkontur und macht das Westgrönländische meines Erachtens zu einem besonders typischen Fall morenbasierter Rhythmisierung. Daß die Parallelen etwa zum Japanischen solange verkannt blieben, führt Nagano-Madsen (1992) auf die Forschungsgeschichte zurück: It is interesting to note that two languages like Eskimo and Japanese, having very similar syllable structure, have been analysed differently: one only by the syllable-based approach and the other predominantly by the mora-based approach. This may be partly because those who work on Eskimo linguistics have been mostly foreigners such as Germans, Danes, and Englishmen, and they may have directly transferred the notion of syllable from their own languages. (Nagano-Madsen 1992, 31) In 4.3.4 werden wir sehen, daß zumindest nach Ausweis der metrischen Systeme in der Dichtung noch weitere Sprachen ihre rhythmischen Gestalten auf der Grundlage einer Moreneinheit aufbauen. Zunächst jedoch gehen wir auf die satzphonologische Determination der Zeitstruktur ein, die meiner Ansicht nach besonders im Französischen die rhythmische Konturbildung bestimmt.

137 3.3.2 3.3.2.1

Phrasenbasierter Rhythmus Französisch

Die Auffassung, derzufolge sich das Neufranzösische von anderen europäischen Sprachen dadurch unterscheidet, daß die Worteinheiten in der Äußerung zurücktreten und sich in größere prosodische Gruppen einbinden, findet sich seit Beginn der französischen Sprachbeschreibung im 16. Jh. Dabei fallt besonders auf, daß die für unseren Zusammenhang aufschlußreichen Autoren außerhalb Frankreichs publizieren und ihre Beschreibungen des Französischen gerade durch die kontrastive und meist unmittelbar aus der Fremdsprachendidaktik motivierte Perspektive gewinnen (in Frankreich selbst allerdings verfolgen die Grammatiker dieser Epoche andere Ziele, vgl. die Hinweise in 1.1). So erläutert der in England wirkende John Palsgrave in seiner Grammatik, daß ein Satz wie fr. il a un corps fort aimable nur mit einer einzigen Prominenz auf aimable zu sprechen sei (vgl. Hausmann 1980,200). Auch Bèze (1583) macht in seinem für Deutsche verfaßten Lehrwerk zur Aussprache des Französischen nicht nur auf die Phrase als Domäne der Silbifìzierung beziehungsweise silbenprosodisch motivierter Prozesse wie dem enchaînement aufmerksam, sondern legt in der nachfolgend zitierten Bemerkung außerdem die Interpretation nahe, daß die ganze Äußerung unter eine einzige phrasen- und satzfinale Prominenz einzubinden sei: [... ]je parleray demain à vous à bon escient à huict heures du matin, il y a dix-neuf syllabes : toutes sont brèves, et elles se prononcent toutes d'un seul trait. (Bèze 1583; zitiert nach Livet 1859, 511) In einer solchen extremen Aussprachevorgabe tritt die Differenz zum Rhythmus des Deutschen umso deutlicher hervor. Auch der wie Palsgrave in England wirkende Sprachlehrer Sainliens weist auf die größere prosodische Kohäsion der Wörter im Französischen hin: [... ] ma tante a disné se prononce ma tanta disné; mon père et ma mère ont soupé se prononce monperetmamerontsoupé Toutefois, en faisant une légère pause on peut dire : mon père, et ma mère ont soupé. Mais si l'on s'habitue à cette prononciation on comprendra les livres, mais bien peu la conversation des Français. (Sainliens 1580; zitiert nach Livet 1859, 502) Auch im 20. Jahrhundert ist auf diese rhythmische Eigenart des Französischen immer wieder hingewiesen worden. Jakobson ([1931] 1962, 119) beispielsweise schreibt lapidar: "Die französische Betonung tritt als eine der phonetischen Äußerungen des Satztaktschlusses auf, womit ihre Rolle erschöpft ist." Wartburg (1962,98) spricht davon, daß im modernen Französischen das Wort "wohl eine logische, aber nicht eine satzrhythmische Einheit" bilde. Uneinheitlich ist allerdings die Terminologie für die häufig aus mehreren Wortformen bestehende Größe, welche durch eine fast ausschließlich durational markierte Prominenz auf der letzten Silbe begrenzt wird. Di Cristo (1999, 157) führt die Bezeichnungen groupe de souffle, groupe rythmique, groupe de sens und groupe syntaxique an - zu ergänzen sind mot phonologique und mot prosodique. Über die Relevanz der durch Atempausen begrenzten Äußerungsteile für die prosodische Phonologie mag man streiten, unstrittig hingegen ist, daß in ihnen typischerweise mehrere der uns interessierenden demarkierten Gruppen erscheinen (vgl. Astésano 1999). Groupe de sens kann als Synonym zu meaningful element bei Greenberg (1966) verstanden werden, umfaßt in dieser Lesart allgemein Sprachzeichen in Morphologie und Syntax und ist somit zu unspezifisch. Andererseits finden sich aber auch akzentuell definierte Einheiten, die nach gängigen syntaktischen Analysen keine Konstitu-

138 enten bilden, wie etwa in der Phrasierung von un enfant très jeune als [σσσ] [σσ] im Gegensatz zur syntaktischen Gliederung un [enfant [très jeune]]. Auch die Bezeichnungen mot phonologique und mot prosodique erscheinen problematisch. In der Prosodischen Phonologie sind phonologische Wörter zwar nicht notwendig deckungsgleich mit grammatisch oder lexikalisch definierten Worteinheiten - sie können diese sowohl über- als auch unterschreiten - , jedoch immer unter Bezug auf sie eindeutig zu definieren (vgl. Hall 1999). Die uns interessierenden Einheiten des Französischen müssen jedoch nicht wort-, sondern, wie bereits Wartburg richtig feststellte, satzphonologisch bestimmt werden und stehen damit in der prosodischen Hierarchie oberhalb der Ebene der phonologischen Wörter. Umgekehrt ist die rhythmische Gliederung im Französischen keineswegs auf die intonatorische Phrasierung reduzierbar, wie dies noch Delattre (1966) nahelegt (vgl. hierzu ausführlicher Di Cristo 1999, 158). Die satzrhythmische Grundeinheit des Französischen darf somit meiner Ansicht nach am ehesten mit der phonologischen Phrase bei Nespor/Vogel (1986) identifiziert werden. 11 Anders als Nespor/Vogel (1986) gehen wir jedoch nicht von einer eindeutigen Bestimmung der phonologischen Phrasengliederung durch die syntaktische Struktur aus. Allerdings wird auch bei Nespor/Vogel der postulierte funktionale Zusammenhang durch das Instrument des restructuring untergraben. Wie allerdings das Verhältnis zwischen grammatischer Strukturbildung auf Satzebene und prosodischer Organisation der phonischen Satzgestalt zu beschreiben ist, erscheint trotz oder gerade wegen der Fülle an Beschreibungsansätzen nach wie vor weitgehend ungelöst. Auch ist für das Französische von totaler Unabhängigkeit bis hin zu vollständiger Isomorphic zwischen phonologischer und syntaktischer (Konstituenten-)Struktur beinahe jede denkbare Position hinsichtlich der Autonomie oder syntaktischen Determination der rhythmischen Kontur vertreten worden (vgl. für eine Übersicht Lacheret-Dujour/Beaugendre 1999). Wir beginnen in diesem Unterabschnitt mit einer Besprechung von Arbeiten, die Rhythmizität in einer alternierenden Prominenzstruktur suchen, und argumentieren anschließend für eine zeitstrukturbasierte Analyse der rhythmischen Konturen (vgl. auch Dufter im Druck). Dell (1984) verwendet auch für das Französische die zentralen Beschreibungsverfahren der Metrischen Phonologie, nämlich die in 1.3 vorgestellten Baum- und Gitterrepräsentationen, und versucht den Alternanzgedanken durch ein Eurhythmieprinzip zu erfassen, das er vage der Universalgrammatik zuschreibt und - bemerkenswerterweise - nirgendwo ausformuliert: Les similitudes qu'on relève entre le français, l'anglais et le pékinois donnent à penser qu'au moins en ce qui concerne leurs principes fondamentaux, les mécanismes d'eurythmie relèvent de la grammaire universelle plutôt que de celles des langues particulières. Je ne suis pas en mesure de formuler ce principe d'eurythmie avec précision, mais l'idée centrale me paraît relativement claire. Il doit favoriser autant que possible les alternances au sein des schèmes. (Dell 1984, 92; Hervorhebung A.D.) Der Zusatz autant que possible bildet in meinen Augen einen jener Heckenausdrücke, mit der die Ausnahmslosigkeit schon mehrerer universalgrammatischer Prinzipien zurückgenommen 11

Vgl. auch die in 1.2.7 referierte Klassifikation des Französischen als Phrasensprache bei Kleinhenz (1996). Nespor/Vogel (1986, 179f.) zeigen zwar die Relevanz der phonologischen Phrase im Französischen als maximaler Domäne der Liaison, gehen jedoch nicht auf die rhythmische Konturbildung ein.

139 wurde.12 Dell geht zunächst davon aus, daß im Französischen alle und nur die lexikalischen Wortformen einer Äußerung einen Akzent tragen. Wie im Englischen können nun drohende Prominenzzusammenstöße durch eine Verschiebung im Sinne der Rhythm Rule verhindert werden, wie etwa in les poissons verts, wo anstatt einer starren Ultimaakzentuierung der lexikalischen Wortformen (σσσό) laut Dell (1984,99) das Muster σσσό erscheint. Weitaus naheliegender ist jedoch, wie ich meine, eine Realisierung mit nur einer einzigen Prominenz auf der letzten Silbe. Auch 'Deakzentuierung' alleine kommt vor; so findet sich bei Dell (1984,90) in einem Beispielsatz fr. le couteau noir mit nur einem einzigen (realisierten) Akzent auf der letzten Silbe des Syntagmas (derivationell formulierbar als σσσό —> σσσό). Weshalb die beiden diskutierten prosodisch wie grammatisch gleichwertigen Syntagmen eine so unterschiedliche Kontur erhalten, bleibt unklar. Selbst wenn die Ausführungen Dells über weite Strecken ähnliche akzentrhythmische Verhältnisse im Französischen und Englischen suggerieren, sind doch einige Unterschiede fundamental: So steht in seiner Rhythmusphonologie des Französischen die Teleologie eurhythmischer Prominenzalternanz neben einer weiteren einzelsprachlichen Präferenz, die informell wie folgt beschrieben wird: En français, chaque mot porte un accent dont la force est proportionnelle à l'importance de la coupe syntaxique qui suit ce mot. (Dell 1984, 77) Prominenzmuster sind also nicht nur innerhalb der Wortphonologie zu optimieren, sondern stehen im Dienste der Syntax und demarkieren dort die rechten Grenzen von Konstituenten. Hiermit, so ist zu ergänzen, harmoniert auch die Tendenz des Französischen, Funktions wörter nicht phrasenfinal zu positionieren. 13 Entsprechend der Rekursivität syntaktischer Struktur setzt Dell auch keine obere Grenze für Prominenzabstufungen fest und unterscheidet in seinen Beispielsätzen bis zu sechs verschiedene Stärkegrade. Die kognitive Plausibilität einer solchen Differenzierung darf allerdings gerade für eine Sprache wie das Französische bezweifelt werden, die schon Rousseau wegen ihrer "mauvaise prosodie, peu marquée, sans exactitude et sans précision" (zitiert nach Lote 1994,71) kritisierte (vgl. ähnlich auch Schlegel [ca. 1795-1800] 1962b, 209). Dells Analyse kann insgesamt als eine Pionierarbeit gelten, da sie eine elaborierte Übertragung eines neuen, zunächst für das Englische entwickelten Beschreibungsrahmens aus der Metrischen Phonologie auf das Französische darstellt. Genau in dieser Einpassung in fremde, nicht dem Französischen angemessene Repräsentationsformate liegt jedoch auch ihre Problematik begründet. Außerdem bleibt die Frage nach der Interaktion von demarkativer Leistung und eurhythmischer Alternation der Prominenz offen. Welche Anforderung gewinnt im Konfliktfall? Was ist darunter zu verstehen, wenn Alternanz "autant que possible" hergestellt wird? Auch Martin (1987) will rhythmische Qualität im Französischen allein über die Prominenzstruktur erfassen. Gleichzeitig versucht er, die Intuition der Prominenzalternanz zu präzisieren, indem er für eine gegebene prosodische Hierarchisierung eine Prozedur zur nu12

13

Vgl. ausführlicher zu solchen versteckten Einschränkungen syntaktischer Prinzipien in der Rektionsund Bindungstheorie Speas (1997). Demgegenüber würde ein optimalitätstheoretischer Ansatz erst gar nicht versuchen, die Nichterfüllung solcher Strukturanforderungen zu bagatellisieren. Wichtige Ausnahmen bilden die postverbalen Negationselemente, enklitische Subjektpronomina bei Inversion in Deklarativ- und Interrogativsätzen sowie Objektpronomina in bejahten Imperativsätzen, vgl. fr. Il (ne) vient pas, dit-il. Prends-les!.

140 merischen Bewertung ihrer eurhythmischen Ausgewogenheit angibt (vgl. Martin 1987,935). Diese Metrik bewertet nicht nur die Ausgewogenheit der Silbenzahlen in den phonologischen Phrasen, sondern, in allerdings schwächerer Gewichtung, auch die von höheren prosodischen Einheiten, die Martin ansetzt, ohne ihnen eigene Konstituentenkategorien zuzuordnen. Dabei erläutert er sein Konzept rhythmischer Qualität im Französischen als generalisierte Isometrie (vgl. 1.2.8) wie folgt: If we remove the constraint of congruence, another reasonable criterion for choosing a prosodie structure from among all the possible patterns could be based on eurhythmicity. This principle of eurhythmicity would favor structures that balance the number of syllables of the prosodie words at every level of the structure. This would generalize Dell's idea of eurhythmy. (Martin 1987, 934; Hervorhebung im Original) Martin versucht also, den Eurhythmiegedanken unabhängig von der Demarkation syntaktischer Phrasen ("the constraint of congruence") zu formulieren. Im Unterschied zu Dell führt Martin allerdings keine Hierarchisierung verschiedener Prominenzgrade ein, sondern begnügt sich für das Französische - sinnvollerweise, wie ich meine, - mit einer binären Unterscheidung prominenter und nichtprominenter Silben. Undeutlich bleibt bei seinem Ansatz jedoch, wie die prosodische Konstituenz oberhalb der Ebene der prosodischen Wörter ohne Bezugnahme auf die syntaktische Struktur bestimmt werden kann. Martin scheint hier allein auf die intonationale Phrasierung zu vertrauen. Hier sollte meiner Ansicht nach stärker die Zeitstruktur der Äußerung berücksichtigt werden, der Martin (1987, 934) hingegen nur eine phrasenisochronisierende Ausgleichsfunktion bei "rhythmic imbalance", also anisometrischer Phrasierung, zuschreibt. Positiv ist hervorzuheben, daß Martin (1987) nicht der Versuchung erliegt, ein deterministisches Modell der französischen Satzakzentuierung zu entwerfen, sondern im Gegenzug auf die Variabilität der rhythmischen Gliederung explizit hinweist. Daten aus einem Vorleseexperiment führen ihn zu der Hypothese, daß sich Phrasierungen, welche stärker die syntaktische Demarkation berücksichtigen, gleichberechtigt neben solchen finden, die eine eurhythmische Balance der prosodischen Einheiten optimieren. Auch Monnin/Grosjean (1993) stützen sich auf Ergebnisse eines Leseexperiments und schlagen für das Französische einen Algorithmus zur Berechnung der "structures de performance" vor, die wir mit unseren rhythmischen Konturen gleichsetzen dürfen. Interessanterweise konzentrieren sie sich jedoch dabei ganz auf Segment-, Silben- und Pausendauern und führen als Manifestation akzentueller Prominenz eine Längung der Silbe sowie das Einfügen einer Sprechpause nach der Akzentsilbe an. Etwas vereinfachend können wir ihre Modellierung der rhythmischen Kontur in drei Schritte gliedern: Zuerst werden die Akzentpositionen am rechten Rande syntaktischer Konstituenten bestimmt. Da die Autoren keine Nebenakzente für das Französische annehmen, wird hierdurch die Folge der phonologischen Phrasen demarkiert. In einem zweiten Schritt sind die hierdurch definierten prosodischen Gruppen durch Deakzentuierung solange zu größeren rhythmischen Einheiten zusammenzufassen, bis diese eine weitgehend gleiche Silbenzahl aufweisen. Dies kann ebenfalls als Form der Isometrisierung im Sinne von 1.2.8 aufgefaßt werden. Schließlich wird innerhalb dieser Einheiten die Zeitstruktur so festgelegt, daß die Silben von links nach rechts zunehmend gelängt werden. Je höher dabei der Rang der syntaktischen Grenze ist, mit der die prosodische Grenze am Ende der Einheit zusammenfällt, desto stärker manifestiert sich nach Monnin/Grosjean die demarkative Längungstendenz.

141 Der Ansatz von Monnin/Grosjean (1993) ist hervorgegangen aus sprachtechnologischen Forschungen zur Rhythmisierung synthetischer französischer Äußerungen. Hieraus wird auch ihre deterministische Modellbildung verständlich: Es kommt für die Sprachsynthese nicht so sehr darauf an, mehrere alternative oder gar alle möglichen Prominenzkonturen eines Satzes oder Satzäquivalentes zu erzeugen, eine einzige natürlich wirkende Konturierung reicht aus.14 Auch muß es wohl nicht das Anliegen einer solchen ingenieurwissenschaftlichen Befassung mit Lautsprache sein, phonetische Realisierung und phonologische Vorgabe konzeptuell zu trennen. Schließlich mag auch die Beschreibung prosodischer Strukturen durch Angabe eines prozeduralen Algorithmus zwar nicht mehr das bevorzugte Theorieformat in der Linguistik darstellen, erscheint jedoch sinnvoll im vorliegenden Forschungskontext. Wenden wir uns nun noch einigen neueren Arbeiten zu, die sich wie Dell (1984) und Martin (1987) auf die Prominenzstruktur konzentrieren, jedoch im Rahmen der Optimalitätstheorie entwickelt worden sind. Bei Delais-Roussarie (1995) ñnden sich einige uns mittlerweile vertraute Ideen neu konzeptualisiert als verletzbare und interagierende Beschränkungen. So fordert RHYTHM die Deckung von rechten prosodischen und syntaktischen Konstituentengrenzen. Daneben beschränkt MAX den Umfang rhythmischer Gruppen auf höchstens sechs Silben. Außerdem verlangt EQUI eine Angleichung der Konstituentengrößen, bestimmt durch die Zahl ihrer Silben, im Sinne der Isometrisierung. Hinzu kommt die in PROGRESSION festgehaltene Forderung, daß bei verschiedenen Silbenzahlen in den prosodischen Phrasen einer Domäne, die etwas vage als période prosodique bezeichnet wird, kürzere Phrasen vor längeren stehen sollen, eine prosodische Präferenz, die man vielleicht mit Behaghels syntaktischem "Gesetz der wachsenden Glieder" in Verbindung bringen darf (vgl. zur Ausarbeitung einer solchen parsingtheoretischen Theorie von Serialisierungspräferenzen Hawkins 1994). Delais-Roussarie (1995) fordert zusätzlich, daß diese Zunahme der Silbenzahl linear verlaufen sollte. Ihre vier Beschränkungen finden sich unter (56) zusammengefaßt: (56) Beschränkungen für Prominenzstrukturen (Delais-Roussarie 1995; nach Lacheret-Dujour/Beaugendre 1999, 150ff.) (a)

RHYTHM

(b) (C)

MAX EQUI

(d)

PROGRESSION

Die rechte Grenze einer prosodischen Phrase ist mit der rechten Grenze einer (nichtminimalen) syntaktischen Einheit zur Deckung zu bringen. Eine rhythmische Gruppe darf nicht mehr als 6 Silben umfassen. Die unmittelbaren Konstituenten einer höheren prosodischen Konstituente dominieren alle die gleiche Anzahl von Silben. Innerhalb einer prosodischen Einheit nimmt die Silbenanzahl der prosodischen Phrasen linear zu.

Die Forderung nach eurhythmischer Prominenzalternanz geht zwar nicht explizit als eigene Beschränkung in (56) ein, Prominenzzusammenstöße verstoßen aber - unter der Annahme, daß im Französischen alleine die Ultima akzentuierbar ist - gegen die PROGRESSIONBestimmung, nach der ja insbesondere die Aufeinanderfolge zweier einsilbiger Wortformen negativ zu bewerten ist. Theoretisch problematisch erscheint mir hingegen, daß EQUI und PROGRESSION in jeder Prominenzkontur in Konflikt stehen. Gängige Versionen der Optimalitätstheorie sehen, wie in 1.3.5 bereits erwähnt, nur zwei Klassen von Anforderungen vor, nämlich Treue- (oder, all14

Hingegen mindert diese Beschränkung meiner Ansicht nach die von Monnin/Grosjean (1993, 27f.) ebenfalls postulierte psycholinguistische Aussagekraft des Modells.

142 gemeiner, Korrespondenz-) sowie Markiertheitsbeschränkungen (vgl. Kager 1999,4ff.). Sowohl (56c) als auch (56d) spezifieren jedoch nicht eine paradigmatische, sondern eine syntagmatische Anforderung, beschreiben also eine unmarkierte prosodische Kookkurrenz. Beide Beschränkungen gelten ferner innerhalb der gleichen Domäne, sind also nicht kontextuell unterschiedlich eingeschränkt und können somit auch nicht als kontextsensitive Markiertheitsoder Treuebeschränkungen formuliert werden (vgl. die Diskussion verschiedener Ansätze bei Kager 1999, 407ff.). Für solche Fälle wirkt aber die Ansetzung antagonistischer Markiert/lef'tebeschränkungen paradox, denn innnerhalb der gleichen prosodischen Einheit kann nicht zugleich gleiche und verschiedene (nämlich linear zunehmende) Silbenanzahl der Phrasen als unmarkiert gelten. Auch die in (56b) spezifizierte Obergrenze von sechs Silben in einer prosodischen Phrase, ebenfalls als Markiertheitsanforderung konzipiert, erscheint eher als statistische Tendenz im französischen Korpus denn als universale phonologische Qualität. Hier wird meines Erachtens wieder deutlich, daß die Optimalitätstheorie dringend einer restriktiven Theorie zulässiger Beschränkungen bedarf. Delais-Roussarie (1995) gewichtet nun ihre Beschränkungen in einer nur partiellen Ordnung wie unter (57): (57) Hierarchie der Beschränkungen im Französischen (Delais-Roussarie 1995; nach Lacheret-Dujour/Beaugendre 1999, 15Iff.) {EQUI, PROGRESSION} > M A X »

RHYTHM

Gerade die beiden unmittelbar konfligierenden Beschränkungen E Q U I und P R O G R E S S I O N sind nicht hierarchisiert! Nun kann man vermuten, daß diese Unterbestimmtheit in der Bewertung von Strukturen dem Variationsspielraum in der Akzentuierung Rechnung trägt und somit eine solche weniger kritische Evaluation von Prominenzkonturen für Sätze dem Französischen durchaus angemessen erscheint. Für die Vertreter der Optimalitätstheorie allerdings bilden solche alternative sprachliche Strukturen ein konzeptuelles Problem. 15 Umgekehrt ist die Hierarchisierung aber auch als zu restriktiv, da auf einem weitgehend homogenen Korpus basierend, kritisiert worden (vgl. Lacheret-Dujour/Beaugendre 1999,158). Di Cristo (2000, 36) schließlich betrachtet für Prominenzkonturen im Französischen das Prinzip der bipolarisation prosodique als grundlegend. Für ihn bildet die oftmals konstatierte zunehmende Häufigkeit eines Initialakzents im Französischen mittlerweile ein phonologisches Faktum der Standardsprache (vgl. zur Forschungsgeschichte Di Cristo 1999, 163ff.). Seiner Ansicht nach weist jede mehrsilbige lexikalische Wortform im Französischen der Gegenwart neben der hauptakzentuierten Ultima zumindest potentiell - nach Di Cristo in einer zugrundeliegenden Repräsentation - eine ebenfalls akzentuierbare Erstsilbe auf. Diese Prominenzattraktion von linken und rechten Grenzen findet sich nicht nur auf der Wortebene, sondern auch bei höheren syntaktischen Einheiten. Das moderne Französische kann also nach Di Cristo Anfang und Ende syntaktischer Einheiten demarkieren. Di Cristo selbst spricht in Anlehnung an den Begriff des arc accentuel bei Fónagy (1980) in diesem Zusammenhang von einer bipolarisation accentuelle. Akzentzusammenstöße werden dabei auch innerhalb von Intonationsphrasen nicht grundsätzlich gemieden. Daneben garantiert das Prinzip der

15

Vgl. hierzu und zu Lösungsansätzen Kager (1999, 404ff.). Nach Überzeugung vieler Optimalitätstheoretiker kann es nur einen einzigen "ersten Preis" geben, d. h. nur eine optimale und somit wohlgeformte Prominenzkontur.

143 dominance finale jedoch einen im Sinne der Metrischen Phonologie stärkeren Akzentgrad der finalen Akzente. Somit gelangt man zu metrischen Gitterrepräsentationen wie unter (58): (58) Akzentuelle Bipolarisation im Französischen (Di Cristo 2000, 36) χ χ χ XX χ χ

Félicité Eine solche gemeinsame Repräsentation von initialer und finaler Prominenz im Französischen erscheint jedoch in mindestens zweierlei Hinsicht problematisch: Sie steht zum einen im Gegensatz zu traditionellen Beschreibungen, in denen für das Französische ein strenges Oxytonieprinzip angesetzt wird, das in vielen Darstellungen als ein Definiens des Französischen erscheint und auch zur Abgrenzung des Frankoprovenzalischen als eigener galloromanischer Sprache herangezogen wird (vgl. Martin 1990, 673). Demgegenüber bleibt das Auftreten und die Häufung von Initialakzenten auf bestimmte Sprechergruppen und Sprechstile beschränkt, 16 wie übrigens Di Cristo (2000, 40) selbst vermerkt. Oxytonie bildet also eine Invariante im Diasystem des Französischen, Initialakzentuierung dagegen, selbst wenn sie in der Gegenwartssprache im Vordringen sein sollte,17 ein okkasionelles, diastratischdiaphasisch begrenztes Phänomen und meiner Auffassung nach eben deswegen eine semiotische Ressource. Gerade auch die lange Diskussion in der Romanistik um den Status des français avancé, in der aus aktuellen Tendenzen durch Extrapolation eine - typologisch konsistentere - zukünftige Sprachform vorhergesagt wurde, sollte hier zur Vorsicht gegenüber der Annahme einer absehbaren Generalisierung des initialer Akzente mahnen. Auch Coetsem (1996,63) spricht im Zusammenhang mit einer von ihm vermerkten Ausweitung des emphatischen Akzents in den letzten Jahrzehnten von einem "important accentuation change", übersieht dabei jedoch den Unterschied zwischen emphatischen Prominenzgebungen, die an bestimmte expressive Lexeme gebunden sind, und den hier diskutierten öffentlichkeitsbezogenen Sprechstilen. Im Gegensatz zu diesen können Emphaseakzente in einzelnen Fällen auch auf die zweite Silbe einer Wortform fallen, wie schon Dauzat (1935, 53) in Bezug auf das Adjektiv épouvantable vermerkt. Dagegen scheint eine Akzentuierung der dritten Silbe von fr. épouvantable ausgeschlossen. Coetsems Aussage "emphatic accent may affect virtually any syllable of the word" (S. 63) unterschätzt die Konventionalisierung auch der emphatischen Prominenzgebung im Französischen. Zum anderen manifestieren sich die beiden Hervorhebungsarten phonetisch völlig verschieden: Finalakzente werden allein durational, vor allem durch Längung der Silbe und eventuell einer kurzen Sprechpause nach der Silbe, realisiert, Initialakzente dagegen vorwiegend durch Intensitätszunahme (vgl. auch die Bezeichnung accent dynamique-, vgl. Delattre 1966,65ff. und Vatikiotis-Bateson/Kelso 1993,259), daneben auch tonal sowie durch artikulatorische Stärkungen silbeninitialer Konsonanten; kaum jedoch findet man Längungen im

16

17

So sind auch Bezeichnungen wie accent didactique oder accent oratoire zu verstehen. Eine genaue varietätenlinguistische Eingrenzung steht allerdings noch aus. Duez/Casanova (1997) verneinen in dieser Frage jedoch nach der Analyse ihrer Daten aus den banlieues von Paris, die als besonders innovationsfreudig gelten, ausdrücklich, daß Sprachwandel stattgefunden habe, und erkennen allenfalls eine andere Ausnutzung der Möglichkeiten des Sprachsystems.

144 Silbenreim (vgl. Jankowski/Astésano/Di Cristo 1999, 258 und Di Cristo 2000,40). Zumindest die Vokaldauer scheint also fast ausschließlich durch die phrasenbasierte rhythmische Gliederung bestimmt. Insgesamt erfordern die Befunde nach meiner Überzeugung eine systematische Trennung der beiden Phänomene auch in der phonologischen Repräsentation und gerade keine Zwangsvereinigung im Rahmen einer eindimensionalen Metrischen Phonologie wie bei Di Cristo. Nichtsdestotrotz hat auch Delais-Roussarie (2000) in einem revidierten optimalitätstheoretischen Ansatz Initialakzentuierung als Demarkationsbeschränkung integriert. Eine weitere wesentliche Neuerung gegenüber ihrer Analyse von 1995 besteht darin, daß sie nicht mehr nur eine einzige Hierarchie zur Eingrenzung möglicher Prominenzkonturen ansetzt, sondern je eine eigene für rhythmische und syntaktische Anforderungen. Wie jedoch die tatsächliche Akzentprosodie auf der Grundlage der beiden Hierarchien zu rekonstruieren ist, bleibt noch stärker als in (57) unbestimmt: Ces hiérarchies interviennent en parallèle et sont prises en considération dans l'évaluation des candidats selon des modalités différentes. (Delais-Roussarie 2000,108) Auch wird gegenüber dem Ansatz von 1995 eine neue Konstituentenkategorie hinzugenommen, die der Ebene der Füße bei Nespor/Vogel (1986) entspricht. Dies erstaunt umso mehr, als zwar in den Gitterdarstellungen von Delais-Roussarie (2000) jeder solche Fuß genau ein Prominenzmaximum aufweist, jedoch aus ihren Vorlesedaten keineswegs eine jambischanapästische Fußstruktur hervorgeht. Exemplarisch sei auf était bien contente und sourit gentiment (jeweils akzentuiert als σσσσσ und nicht σσσσσ) verwiesen (vgl. Delais-Roussarie 2000,99). Dennoch etikettiert die Autorin beide Syntagmen als Füße. Werden hier, ganz gegen den derivationsfeindlichen Geist der Optimalitätstheorie, Nebenprominenzen erst gesetzt und dann wieder getilgt? Oder gibt es Evidenz für die Ansetzung von Füßen außerhalb der Rhy thmusphonologie, etwa in phonotaktischen Regularitäten, die auf solche Einheiten Bezug nehmen? Dies ist für das Französische, wie in 2.3.4 dargestellt, ausdrücklich verneint worden. Ockham 's Razor legt, wie ich meine, die Entfernung einer solchen unnötigen und nicht zu begründenden Ebene nahe. Alle bisher vorgestellten Theorien des französischen Sprachrhythmus haben versucht, rhythmische Konturen eindimensional im Sinne der Metrischen Phonologie zu erfassen. Häufig werden hierbei neben der euphonologischen Präferenz für Prominenzalternanz verschiedene syntaktische Demarkationsleistungen an die Seite gestellt und in einigen Ansätzen auch in ihrem Verhältnis zueinander problematisiert. Der phonetisch, phonologisch und diasystematisch völlig anders einzuordnende Initialakzent des modernen Französischen wird entweder ganz übergangen oder erscheint umgekehrt einfach als gleichberechtigter möglicher Landeplatz für Prominenzen. Weitgehend aus der phonologischen Beschreibung ausgeblendet bleibt in allen besprochenen Arbeiten mit Ausnahme von Monnin/Grosjean (1993) die Zeitdimension. Warum uns gerade diese jedoch für die Rhythmusphonologie des Französischen als zentral erscheint, wollen wir im folgenden erläutern. Jede phonologische Analyse von Zeitstrukturen einer Sprache hat zuerst nach der wortphonologischen Kontrastivität von Lautdauern zu fragen. Die Länge französischer Vokale ist nach Rothe (1978, 109) "relativ irrelevant" und kann lediglich bei [ε] noch in wenigen Wortpaaren wie fr. mettre [ε] vs. maître [ε:] zu einer Differenzierung eingesetzt werden; Rothe listet insgesamt elf solcher möglicher Minimalpaare auf, unter denen sich jedoch meiner Ansicht nach keine einzige homonymie gênante findet. Straka (1990, 9) spricht von einer

145 "opposition en voie de disparition" und verweist auf ähnliche Einschätzungen schon bei französischen Phonetikern zu Beginn des 20. Jhs. Solche marginalen Kontrastierungsmöglichkeiten dürfen meines Erachtens für die Gegenwartssprache als Überlautung bezeichnet werden und bilden Ausnahmen, die die Generalisierung vom Fehlen einer Quantitätsopposition eher bestätigen als widerlegen.18 Nicht ganz so eindeutig ist die Situation im Konsonantismus: Ausspracheunterschiede wie in [ladä] vs. [lad:ä] leisten im Französischen eine eindeutige Differenzierung verschiedener Ausdrücke (fr. la dent vs. là-dedans). Auch Oppositionen innerhalb des Flexionsparadigmas von Verben kommen vor, vgl. das bekannte Beipiel fr. il mourait [r] vs. il mourrait [r:]. In diesen Fällen resultiert der phonologisch relevante Dauerunterschied im Konsonanten aber aus dem Zusammentreffen zweier identischer Segmente an einer Wort- oder Morphemgrenze und nicht aus zwei verschiedenen zeitstrukturellen phonologischen Spezifikationen eines Segments. Straka (1990, 21f.) behauptet jedoch des weiteren, daß sich auch bei orthographischer Doppelkonsonanz in sogenannten mots savants eine Tendenz zu gelängter Aussprache einstelle, so daß sich fr. collegue mit [1:] von collège mit [1] auch anhand des Laterals unterscheiden ließe; inwieweit solche möglichen Rückwirkungen des Schriftbildes auf die Aussprache jedoch die Ansetzung einer Quantitätsopposition für die Standardvarietäten des Gegenwartsfranzösischen rechtfertigen, darf, wie mir scheint, bezweifelt werden, und wird in vielen Diskussionen gar nicht erst in Erwägung gezogen (vgl. Meisenburg/Selig 1998,86f. und Fox 2000, 21). Insgesamt braucht man wohl zumindest für standardnahe Aussprachen des Französischen keine Kontrastivität der Zeitstruktur in der Wortphonologie mehr anzusetzen. Kommen wir nun zur Satzphonologie: Bei aller scheinbaren semiotischen Freiheit der temporalen Organisation wollten, wie wir in 1.2.1.2 auch für das Französische bereits dargestellt haben, einige Phonetiker und Phonologen eine als rhythmusstiftend angesehene Isochrome einer prosodischen Einheit erkennen. Neben dieser gelegentlichen Ansetzung von Prominenz- und somit Phrasenisochronisierung haben aber die meisten Anhänger der Isochronietypologie immer wieder und unbeeindruckt von allen negativen phonetischen Ergebnissen das Französische als Zitierbeispiel, ja sogar als "Archetyp" (Vatikiotis-Bateson/Kelso 1993, 231) einer silbenzählenden Sprache angeführt. Manchmal wurde zusätzlich die Existenz einer Prominenzkontur insgesamt bestritten und allein schon aus der Annahme, das Französische sei eine "langue sans accent" und könne somit gar nicht akzentzählend sein (vgl. für die Phonetik 1.2.1.2), bereits auf ihren silbenzählenden Charakter geschlossen. Häufiger jedoch wird zwar die Existenz eines Wortgruppenakzents akzeptiert, dessen Realisierung aber als zu schwach befunden, um als rhythmischer Bezugspunkt für Akzentzählung fungieren zu können. In der Tat manifestiert sich, wie bereits erwähnt, Prominenz im Französischen fast auschließlich durational und unterscheidet sich somit grundlegend von anderen tonalen wie komplex realisierten Betonungsweisen. Nachdem im modernen Standardfranzösischen die Zeitstruktur keine Kontraste in der Wortphonologie mehr enkodiert - weder direkt als Quantitätsopposition noch als Folge eines stress-Akzents im Sinne von Beckman (1986), kann sie eintreten in den gerade für das Französische wichtigen Dienst der Demarkation syntaktischer Einheiten. Ebenso wie Pro18

Auf die Frage, inwieweit eine Quantitätsopposition noch in standardferneren Dialekten Frankreichs, Belgiens und Kanadas verankert ist, kann hier nicht eingegangen werden, vgl. jedoch Morin/Dagenais (1988) und Ouellet/Tardif (1996).

146 minenzkonturen, so ist auch die satzphonologisch determinierte Zeitstruktur des Französischen weniger stark festgelegt als die entsprechenden wortphonologischen Determinationen in moren- und prominenzbasierten Sprachen. Anders als bei durch Prominenz definierten Füßen erscheint jedoch Zweisilbigkeit der phonologischen Phrase keineswegs als unmarkierter Fall, so wie insgesamt das alternierende Prinzip in der Zeitstruktur viel schwächer wirkt als in der Prominenzstruktur. Nicht Altemanz, sondern Isometrie erscheint hier als die den satzphonologischen Kodierungsnotwendigkeiten nachgeordnete euphonologische Präferenz. Da die Prominenzstruktur jedoch nicht im Dienste von semanto-pragmatischen Kodierungsnotwendigkeiten steht, kann sich in ihr etwa zur gleichen Zeit, spätestens aber seit dem 19. Jh., eine neue satzphonologische Initialakzentuierung zu pragmatischen Zwecken wie der informationsstrukturellen Reliefgebung sowie (kontrastiver oder emphatischer) Fokussierung herausbilden. Die Nachordnung der Prominenzstruktur zeigt sich aber daran, daß auch emphatische Akzentuierungen nicht alle Manifestatonen von sfreii-Akzenten aufweisen, sondern gerade die Zeitstruktur intakt lassen. Inwieweit eine phrasale rhythmische Konturbildung immer mit einer Phonologisierung der Zeitdimension einhergeht, soll im nächsten Unterabschnitt anhand einer geographisch wie genealogisch weit entfernten Sprache, nämlich des Koreanischen, diskutiert werden.

3.3.2.2

Ausblick auf das Koreanische

Anders als in älteren Sprachstufen und noch heute in Dialekten des Nordens und Südostens kennt das moderne Standardkoreanische laut Sohn (1999) keine tonalen Kontraste mehr. Ob für diese Varietät eine Quantitätsopposition anzunehmen ist, scheint umstritten. Nach Kim (1996,120f.) finden sich kaum Minimalpaare für distinktive Segmentdauern im nativen Wortschatz, wohl hingegen im sinokoreanischen. Offenbar werden hier einige tonale Distinktionen des Mandarin zumindest teilweise als quantitative reanalysiert. Da dieser Wortschatz jedoch nach Kim durch die Schule vermittelt wird, darf Bildungsaussprache, vielleicht sogar Überlautung vermutet werden, so wie auch humanistisch gebildete Deutsche manchmal versuchen, in lateinischen Fremdwörtern die dort geltenden Quantitätsverhältnisse wiederzugeben. Zu dieser Hypothese paßt, daß nach Kim Sprecher des Koreanischen unter 50 Jahren die Quantitäten überhaupt nicht mehr beachten und alle Vokale einheitlich kurz sprechen. Selbst in der Aussprache älterer Koreaner bleiben jedoch, wie Sohn (1999, 156f.) vermerkt, die Daueroppositionen auf phraseninitiale Silben beschränkt. Schließlich spricht auch die Beobachtung von Kim (1996,121), wonach Vokalquantität "häufig realisationsphonologisch verlorengeht", für die Marginalität wortphonologischer Kontraste in der Zeitstruktur. Die allenfalls in Resten überlebende Nutzung der Lautdauern durch die Wortphonologie erlaubt nun einen indexikalischen und satzphonologischen Einsatz: So können Vokale, seltener auch Konsonanten, bei emphatischem Sprechen gelängt werden, Sohn gibt als Beispiel unter anderem korean. noph-a.yo [no::.pha.jo] '(Es) ist sehr hoch', als emphatische Variante von [no.pha.jo] '(Es) ist hoch'. Eine solche parasprachliche Signalisierungsmöglichkeit spricht eher gegen einen Beitrag der Lautdauem zur symbolischen Kodierung. Zu den emphatischen Längungen treten sogenannte konnotative, wo in expressiverem Sprechen phrasenfinale Silben gelängt werden. Zwar stellt Sohn bei jüngeren Frauen eine Ausweitung dieser auch demarkativen Längung fest, im Normalfall jedoch findet sich in dieser Position nach

147 den Messungen von Keating et al. (im Druck) weder eine durationale noch eine dynamische oder melodische Markierung. Dagegen kennzeichnet das Koreanische mit phonologischer Konsequenz die Anfänge der prosodischen Phrasen, und zwar sowohl durch artikulatorische Stärkungen wie auch melodisch und durch Längung (vgl. hierzu genauer Venditti/Jun/Beckman 1996,291, nach denen in der Standardsprache von Seoul die Enden, in einigen Dialekten hingegen die Anfänge durch saliente Tonmuster markiert werden). Auch Keating et al. (im Druck) stellen der Stärkung der Phrasenenden im Französischen die der Anfänge im Standardkoreanischen gegenüber. Kim (1996) formuliert eine gewichtsbasierte Regel für den Wortakzent, derzufolge er auf einer schweren ersten Silbe und ansonsten auf der zweiten liegt. Allerdings scheinen die realisierten Prominenzen ähnlich wie im Französischen auch im Standardkoreanischen vor allem durch die Satzphonologie bestimmt: So können nach Sohn (1999, 197) alle Wörter etwa zur Anzeige von Fokus Prominenz erhalten. Die Hinweise bei Choi (1999,103) deuten ferner auf eine nicht wort-, sondern phrasenbezogene Prominenzgebung: Korean is a so-called syllable-based language, not a stress-based one, and hence there is no default stress assignment mechanism at the sentence level as well as at the word level (except in some dialects). Nevertheless, (narrowly) focused elements bear prosodie prominence and this indirectly shows the prosodie patterns of scrambled sentences. (Choi 1999, 103) Choi (1999) findet in seinem Vergleich der informationsstrukturell motivierten Serialisierungsvariation im Koreanischen und im Deutschen erstaunliche Ähnlichkeiten zwischen beiden Sprachen. Lediglich topikalische Subjekte können im Koreanischen leichter aus ihrer kanonischen präverbalen Position nach hinten treten. Eigene syntaktische Konstruktionsweisen zum Ausdruck der Fokus-Hintergrund-Gliederung sind dagegen nach Cho (1991, 192) im Koreanischen sogar seltener als im Englischen - und somit wohl erst recht im Französischen. Offenbar ist die phrasale rhythmische Gliederung des Koreanischen stärker zur Anzeige der Informationsstruktur verfügbar, wohingegen sie im Französischen mehr der Demarkation syntaktischer Einheiten dient. Allerdings ist nach Jun ( 1996,196) auch im Koreanischen ein Mindestmaß an Entsprechung zwischen prosodischer und syntaktischer Gliederung gewährleistet, da phonologische Phrasen nur an syntaktischen Grenzen enden dürfen. Diese Skizze der Prosodie deutet meines Erachtens insgesamt darauf hin, für das Koreanische genauso wie für das Französische die phonologische Phrase als Grundlage der rhythmischen Konturbildung zu veranschlagen: So steht die Prominenzstruktur nicht im Dienste des Ausdrucks wortphonologischer Akzentkontraste; Prominenzen werden nur am Anfang phonologischer Phrasen vergeben, diese rhythmische Gliederung ist jedoch ähnlich variabel wie im Deutschen und Englischen und kann somit unterschiedliche Fokus-HintergrundGliederungen anzeigen. Auch die Zeitstruktur ist kaum noch wortphonologisch von Belang, kann jedoch neben emphatischen Signalisierungen sowohl zur initialen wie, zumindest in einigen Sprechstilen, auch zur finalen Markierung der Phrasen herangezogen werden. Dabei dürfen diese Längungen im Koreanischen wohl kaum als Epiphänomen der Prominenzkontur gewertet werden, da zum einen die Betonung in dieser Sprache insgesamt als schwach gilt und sich kaum durational oder dynamisch manifestiert. Auch erfolgt die Längung nicht immer auf der prominenten Silbe. Inwieweit die temporalen Markierungen der syntaktischen Gliederung am Anfang oder Ende der Phrase in den verschiedenen Ausprägungen des Koreanischen jedoch bereits als phonologisch gewertet werden dürfen, bliebe zu untersuchen.

148 3.3.3

Prominenzbasierter Rhythmus

Falls in einer Sprache die Prominenzkontur Uber die Zeitstruktur dominiert, so ist zu erwarten, daß auch die Betonungsverfahren die auditive Salienz der Prominenzen sicherstellen. Intensitätszunahme alleine reicht, wie in 2.3.2 dargelegt, hierfür nicht aus, starke "dynamische" Betonungen umfassen immer auch tonale oder durationale Korrelate, typischerweise sogar beide zugleich. Somit bestimmt die realisationsphonologische Prominenzkontur in Sprachen mit nicht nur tonaler Betonung meist auch die zeitliche Gestaltung einer Äußerung. Erbringt ferner in einer Wortform der Wortakzent einen wesentlichen Beitrag zur Kodierung, etwa als morphologisches Mittel in der Flexion, so muß dieser auch im Satzrhythmus durch eine Prominenz deutlich und somit in der Regel auch durational markiert werden. Da diese 'parasitäre' Nutzung der Zeitstruktur einer eigenen Regelung insbesondere vokalischer Segmentdauern entgegensteht, erklärt sich die von Rapp und Jakobson festgehaltene Unvereinbarkeit der beiden rhythmischen Kontrastdimensionen in der Wortphonologie (vgl. ähnlich auch Bybee et al. 1998). Akzentsilben als die kanonischen Orte rhythmischer Prominenz unterscheiden sich in vielen Sprachen nicht nur phonetisch, sondern auch phonologisch von anderen (vgl. das Prinzip der Positional Maximization bei Beckman 1997), und zwar besonders dann, wenn die Prominenzkontur einer Sprache im Rhythmus dominant ist. So sind in ihnen häufig mehr segmentale Kontraste möglich, und auch in der Silbenstruktur können sie mehr Komplexität aufweisen. Restle/Vennemann (2001) formulieren diese Beobachtung in dem unter (59) zitierten Akzentsilbengesetz: (59) Akzentsilbengesetz (Restle/Vennemann 2001, 1321) Silbenstrukturkomplexitäten sind umso weniger disfavorisiert, je mehr rhythmische Prominenz auf einer Silbe liegt.

Diese Toleranz für mehr Komplexität in Akzentsilben schlägt in einigen Sprachen sogar in eine Intoleranz gegenüber zu einfachen Silbenstrukturen um. So fordert das Isländische, wie zu Anfang von 3.3 bereits erwähnt, unter Akzent mindestens Zweimorigkeit. Um prominente und nichtprominente Silben deutlich voneinander zu unterscheiden, kann man jedoch nicht nur bei den prominenten, sondern auch bei den nichtprominenten ansetzen: Zumindest in einem Teil der prominenzbasierten Sprachen sind reduktive Prozesse entweder bereits in der Wortphonologie festgeschrieben oder in der Realisationsphonologie als abgestufte Reduktionsmöglichkeiten vorgesehen. Bybee et al. (1998) formulieren sogar ein implikatives Universale, demzufolge Sprachen mit Längungen des Nukleusvokals unter Prominenz in jedem Falle auch Reduktionen aufweisen. Allerdings wird dabei nicht deutlich, ob nur lexikalisierte oder auch realisationsphonologische Reduktionen gemeint sind. Wie in 3.3.4.1 noch dargestellt wird, bildet jedoch bereits innerhalb der europäischen Sprachen das Italienische mit seinen Längungen zumindest in offenen akzentuierten Paenultimae und seinen fehlenden Reduktionen ein Gegenbeispiel zu beiden Interpretationen. Eine der weiteren Hauptthesen in der funktionsbezogenen Argumentation von Bybee et al. lautet, daß akzentuierte und unakzentuierte Silben sich umso mehr ähneln, je stärker der Akzent vorhersagbar ist. Hieraus folgt aber unter anderem, daß feste und somit demarkative Akzente in der Prominenzkontur wenig salient sein sollten. Dies erscheint gerade bei einer Berücksichtigung der Leistungen der prosodischen Gestaltung kontraintuitiv: Auch eine prosodische Demarkation von Wort- und Phrasengrenzen sollte, soweit sie nicht anderweitig,

149 etwa durch Vokalharmonie, bereits geleistet wird, mit hinreichender Deutlichkeit erfolgen. Im Gegensatz zu Bybee et al. (1998) und im Einklang mit Restle/Vennemann (2001) läßt unser kodierungsbezogener Ansatz die folgende Korrelation erwarten: Je mehr die Prominenzkonturen einer Sprache Kodierungsaufgaben erfüllen, gleich ob wort- oder satzphonologischer Art, desto prägnanter sollten diese Konturen und desto größer die Unterschiede zwischen prominenten und nichtprominenten Silben ausfallen. In der Wortphonologie folgt zwar aus der Festigkeit der Akzentlage das Fehlen von Distinktivität, aus der NichtVorhersagbarkeit jedoch noch keineswegs eine distinktive Nutzung. Umgekehrt fehlt meiner Ansicht nach bei Bybee et al. (1998) die Berücksichtigung der satzphonologischen Kodierungs- und Distinktionsleistung, die auch bei vorhersagbarem Wortakzent erheblich sein kann. Noch in einer anderen Weise ist ein Zusammenhang zwischen Prominenzkontur, Betonungsverfahren und segmentalen Korrelaten angesetzt worden: Wie bereits in 1.2.1.1 referiert, betrachtet Bolinger (1981) den Parameter "reduziert vs. nicht-reduziert" zumindest für das Englische als grundlegend für die temporale und somit auch rhythmische Gestaltung von Äußerungen. Dagegen spricht jedoch die unter anderem von Selkirk (1996) untersuchte Allomorphie von Funktionswörtern im Englischen, die in vielen Fällen eine reduzierte neben einer nicht-reduzierten Variante aufweisen. Die volle Form wird dann produziert, wenn im satzrhythmischen Kontext, der seinerseits häufig durch die Informationsstruktur bedingt ist, Prominenz auf eine solche kleine grammatische Einheit fällt. Daß die gerade im Englischen typischen Reduktionen von Silben, die nicht den Wortakzent tragen, die rhythmische Konturbildung entscheidend mitprägen, soll keineswegs bestritten werden. Zumindest nicht in allen Fällen scheint aber die Reduziertheit schon in der Wortphonologie spezifiziert zu sein. Rhythmische Konturen folgen somit nicht bloß epiphänomenal aus segmentalen Vorgaben, sondern interagieren in komplexer Weise mit ihnen. In den folgenden beiden Unterabschnitten werden wir uns auf Beziehungen innerhalb der rhythmischen Dimensionen selbst beschränken und uns dabei zunächst dem Englischen und Deutschen widmen.

3.3.3.1

Englisch und Deutsch

Nicht nur in Wortformen mit morphologisch komplexem Stamm, sondern auch in Simplizia ist die Lage des Wortakzents im Englischen und Deutschen durch die Phonologie beschränkt. Die Aussage von Jones ( 8 1956,248), für das Englische seien keinerlei Regularitäten erkennbar, wird heute wohl von keinem Phonologen mehr geteilt. Hieraus folgt jedoch noch keineswegs, daß bei vorgegebener silbenprosodischer Basis die Akzentposition eindeutig festgelegt ist. Nichtsdestotrotz ist in vielen ehrgeizigen Arbeiten im Gefolge von Chomsky/Halle (1968) nach einem solchen funktionalen Zusammenhang gesucht worden. Da aber eben doch nicht alle Akzentuierungen durch eine konsistente Regelmenge beschrieben werden können, wird man zu einer theoretischen Entscheidung gezwungen: Entweder begnügt man sich mit einer Erfassung typischer oder zumindest häufiger Akzentuierungen und erklärt alle nicht damit konformen Lexeme zu Ausnahmen. Unerklärt bleibt dann aber, weshalb auch diese Ausnahmen nicht beliebige Akzentmuster aufweisen, sondern vielmehr einige Positionen kategorisch ausgeschlossen sind. Oder aber man formuliert jeweils eigene Akzentregeln für verschiedene Klassen von Wörtern, etwa nativen und entlehnten (vgl. zur Kritik dieses Ansatzes Vennemann 1998,236ff. und Zonneveld et al. 1999,516ff.). Abgesehen davon, daß

150 immer noch Ausnahmen verbleiben, scheint jedoch dieser Ansatz auch die etymologische Kompetenz der meisten Sprecher erheblich zu überschätzen. Die Untersuchung der Einschränkungen, die für die Lage des Akzents im Englischen und Deutschen gelten, ist mittlerweile geleistet (vgl. zum Englischen Zonneveld et al. 1999,479491 sowie Hammond 1999, 248-330 im Rahmen der OT, zum Deutschen Vennemann, besonders 1990; 1991a,b; Féry 1998 im Rahmen der OT und zur Übersicht Zonneveld etal. 1999, 515-545). Dennoch besteht selbst in grundlegenden Punkten keine Einigkeit. Exemplarisch sei auf die Frage hingewiesen, ob die akzentuellen Regularitäten des Deutschen die Ansetzung einer Silbengewichtsunterscheidung rechtfertigen und wie diese gegebenenfalls zu definieren ist. Anders als im älteren Germanischen bestimmt sich die Akzentlage in englischen und deutschen Simplizia vom Wortende her und ist dabei fast ausnahmslos auf eine der drei letzten Silben begrenzt. Daß die weiteren Einschränkungen in den beiden Sprachen unterschiedlich sind und das Englische stärker als das Deutsche frühe Akzentlagen favorisiert, zeigt besonders anschaulich ein Lexikonvergleich, wie ihn Berg (1997) durchführt: Er untersucht englische Wörter, die eine segmental und silbenprosodisch korrespondierende deutsche Entsprechung, jedoch eine vom Deutschen verschiedene Akzentlage aufweisen. Dabei zeigt sich, daß von 848 solchen Lexempaaren in 747 Fällen der Akzent im Deutschen weiter rechts liegt, stellvertretend seien Charakter vs. engl, character und Labyrinth vs. engl, labyrinth genannt. Auch finden sich nach Berg im Deutschen häufiger Derivationssuffixe, die den Akzent auf dem Suffix oder der ihm unmittelbar vorausgehenden Silbe festlegen, wie in Zeremonie vs. engl, ceremony oder molekular vs. engl, molecular. Als Heuristik, etwa in der Segmentation von Äußerungen durch den Hörer, kann also zumindest im Englischen die hohe Vorkommenshäufigkeit von Wörtern, die auf der ersten Silbe akzentuiert sind, eine Rolle spielen (vgl. hierzu auch 4.1.4), eine Regel der Initialakzentuierung in seiner Ausprägung als Erstsilbenakzent ist jedoch weder für das moderne Englisch noch für das Neuhochdeutsche anzunehmen, wie die neuere Forschung einhellig betont. 19 Trotz aller Beschränkungen möglicher Akzentlagen und weiterer Normalitätsaussagen bleibt aber im Englischen wie im Deutschen ein Rest von phonologischer Unterbestimmtheit; Schindler (1994, 355) vermerkt: "Die mehrsilbigen Simplizia des gegenwärtigen Deutsch weisen keinen festen Wortakzent a u f . Aus der Existenz eines solchen Spielraums darf jedoch, wie in 3.2.3.1 bereits erwähnt, keineswegs schon auf eine phonologische Nutzung als Mittel der Kodierung geschlossen werden. In der Tat scheinen im Englischen wie im Deutschen akzentuelle Minimalpaare recht selten. Im Deutschen finden sich in Simplizia einige wenige solcher prosodisch verschiedenen Homographe, wo ein Appellativum und ein Eigenname wie August, Roman oder Heroin sich allein durch die Akzentlage unterscheiden. Bei den komplexen Lexemen sind neben Beispielen wie Riesenstadt, die aufgrund ihrer unterschiedlichen formalen und semantischen Relation ('riesengroße Stadt' vs. 'Stadt der Riesen') unterschiedliche Hauptakzente tragen, im Verbalbereich die Infinitive des Typs übersetzen zu nennen. Innerhalb der Flexionsparadigmen bleibt jedoch in aller Regel eine kolumnare, also einheitliche, Akzentlage gewahrt. Latinisierenden Ausnahmen wie der Pluralform Doktoren haftet der Geruch des Bildungssprachlichen 19

Vgl. Féry (1998, 104), Vennemann (1998, 234ff.), Hammond (1999, 103), Hulst/Hendriks/Weijer (1999, 426), Zonneveld etal. (1999, 479f. und 517). Lediglich Ronneberger-Sibold (1998) hält für das heutige Deutsch an einer Regel der Initialakzentuierung fest.

151 an. 20 Gerade auch Etemente eines Paradigmas, die mehr Silben als die Grundform aufweisen, bewahren die Akzentstelle, wie in angeltest zu angeln oder in seltenere zu selten ersichtlich ist. Umgekehrt begrenzt nach Eisenberg (1991) die Flexion im Deutschen auch die Lage der Akzentstellen, da in allen Formen ein akzeptabler trochäisch-daktylischer Fuß am Wortende zu errichten sein muß. Bei variabler Silbenzahl im Paradigma verhindert aber die Präferenz für Kolumnarität eine phonologisch transparente Demarkativität. Auch die distinktive Leistung des Wortakzents für das Englische wird häufig Uberschätzt. Zwar finden wir anders als im Deutschen eine Klasse von Lexemen wie transport oder torment, wo sich substantivische und verbale Formen allein durch die Akzentlage unterscheiden. Die Wortschatzuntersuchung von Householder (1971,268f.) ergibt jedoch insgesamt nur 135 solcher Nomen-Verb-Paare, die in einigen Fällen außerdem durch segmentale Reduktionen in den jeweils unakzentuierten Silben identifizierbar sind. Innerhalb von Flexionsparadigmen bleibt die Kolumnarität ausnahmslos gewahrt. 21 Oppositionen des Typs it. canto 'ich singe' vs. cantò 'er sang' sind im Englischen und im Deutschen unbekannt. Noch geringer erscheint der Beitrag des Wortakzents zur Kodierung, wenn man sich vor Augen hält, daß die Minimalpaarmethode des Strukturalismus, die beliebige isolierte Wortformen ungeachtet ihrer Distributionseigenschaften als phonologischen Beleg wertet, in ihrer Sterilität über das korrekte Verstehen der Äußerungen im Gespräch wenig Aussagen erlaubt. Im kommunikativen Alltag scheint jedoch die Gefahr, etwa den Monatsnamen August als Vornamen zu verhören, in meinen Augen denkbar gering. Insgesamt läßt die kontrastive Nutzung des Akzentspielraums weder im Deutschen noch im Englischen saliente Prominenzkonturen erwarten. Ganz anders liegen die Verhältnisse dagegen in der Satzphonologie, wo die Prominenzen besonders in der Anzeige der Fokus-Hintergrund-Gliederung eine zentrale Rolle spielen. Hetland/Molnár (2001) etwa schreiben in ihrer sprachvergleichenden Übersicht von Fokusmarkierungen: Da im Englischen keine feste syntaktische Position für die Markierung des Fokus zur Verfügung steht, muß der Fokus hier mit Hilfe von anderen formalen Mitteln zum Ausdruck gebracht werden. Im Englischen [... ] ist die Akzentuierung das wichtigste Fokussierungsmittel. (Hetland/Molnár 2001, 621) Daneben dienen Prominenzabstufungen auch zur Signalisierung der phrasalen Gliederung. Nach dem Prinzip der Phrase Edge Prominence von Selkirk (1995, 565) besteht eine Tendenz, Akzente an den Rändern phonologischer Phrasen prominenter zu gestalten als die nicht-peripheren. Die Determination der Prominenzkontur durch die syntaktische und informationsstrukturelle Gliederung ist komplex und kann hier nicht weiter dargestellt werden (vgl. Selkirk 1995; 2000 zum Englischen und Jacobs 1982 zum Deutschen). Wichtig in unserem Zusammenhang ist ihre Flexibilität: So kann in einem Satz wie Hans ging gestern ins Kino jede einzelne Wortform eine fokusanzeigende Prominenz erhalten. Daß dabei manche 20

21

Eisenberg (1991, 40) plädiert dafür, den Wortausgang -or in diesen Fällen als Derivationssuffix und die Akzentverlagerung somit nicht alsflexionsmorphologischbedingt zu analysieren. Auch bei den von Schindler (1994) diskutierten Fällen analogischer Wortakzentvergabe, etwa in Bezeichnungen chemischer Substanzen und Medikamente des Typs Aspirin oder Alanin, scheint der Ausgang -in als Suffix reanalysiert. Allerdings umfassen diese nur noch wenige Formen und scheinen keine Erweiterungen um mehr als eine Silbe zu erlauben: Falls man die Adverbbildung noch zur Flexion zählen möchte, zeigt sich dies etwa an dem Verbot des Komparativs *quicklier, obwohl sowohl quicker als auch quickly existieren.

152 Lagen des Fokusakzents, etwa auf ins, weniger wahrscheinlich sind, tut nichts zur Sache. Wenn jedoch betont werden soll, daß Hans gestern nicht, wie es sonst seine Art ist, vor dem Kino stehengeblieben ist, so kann auch diese Prominenzgebung erfolgen. Hierin unterscheiden sich das Deutsche und Englische in entscheidender Weise etwa von romanischen Sprachen. Nicht in der Wortphonologie, sondern in der Satzphonologie erweist sich also die hohe Kodierungsleistung der rhythmischen Kontur. Die Lage dieser sententialen Prominenzmaxima bestimmt auch die Distribution der übrigen Prominenzen. Im Deutschen scheint dabei ternäre Fußbildung genauso häufig wie binäre (vgl. Féry 1988, 49), jedoch werden adjazente Prominenzen nach Möglichkeit vermieden. Das Englische dagegen kennt, mitbedingt durch die dort niedrigere mittlere Silbenzahl der Wortformen, durchaus auch einsilbige Füße, die insbesondere unter bestimmten Kombinationen von silbenprosodischer Grundlage, syntaktischer und informationsstruktureller Gliederung nicht zu vermeiden sind (vgl. Vogel/Hoskins 1996). Allerdings werden solche minimalen Füße systematisch gelängt, entweder auf der Silbe selbst oder durch Einfügen einer Pause. Daß eine so verstandene satzphonologische Fußkonstituente22 auch in in mehrsilbigen Einheiten die zeitliche Gestaltung mitbestimmt, zeigen neuere phonetische Untersuchungen. So erfolgt die Isochronisierung von Prominenzabständen immer so, daß die prominente Silbe selbst in Abhängigkeit von der Zahl der folgenden gelängt oder gekürzt wird (vgl. Rakerd/Sennett/Fowler 1987, 148). Dies spricht dafür, prominente Silben mit folgenden nichtprominenten als eine Einheit zu werten und somit für das Englische trochäisch-daktylische und nicht jambisch-anapästische Fußbildung anzusetzen. Umgekehrt macht die antizipatorische zeitliche Gestaltung der prominenten Silben verständlich, wie Hörer in der Lage sind, bereits während einer betonten Silbe auf die Anzahl nachfolgender unbetonter und somit häufig auch auf die nächste Wortgrenze zu schließen. Setzt man hingegen allein atemporale metrische Repräsentationen für die wortprosodischen Spezifikationen im mentalen Lexikon an, bleibt eine solche on/ine-Hypothesenbildung unerklärlich (vgl. Buxton 1983,120). Eine gewisse Bevorzugung alternierender Konturen im Rahmen des satzphonologisch Möglichen zeigt sich auch in Fällen, wo zur Vermeidung adjazenter Prominenzen auf einer Wortform eine Prominenz nicht auf der Wortakzent-, sondern auf einer anderen betonbaren Silbe liegt. Diese Fälle sind in der Metrischen Phonologie, wie in 1.3.1 dargestellt, als Resultat der Anwendung einer Rhythm Rule beschrieben worden. Neuere Untersuchungen der akustischen Korrelate wie der Perzeption solcher 'Umakzentuierungen' im Englischen zeigen jedoch, daß die Prominenz etwa auf der ersten Silbe von Chinese im Syntagma Chinese men fast ausschließlich tonal bedingt ist und die durationalen und dynamischen Korrelate der akzentbedingten Prominenz auf der zweiten Silbe des Adjektivs teilweise erhalten bleiben (vgl. Beckman/Edwards 1994, 15). Faßt man die melodische Kontur als rhythmisch grundlegend auf und nimmt ferner eine intonatorisch begründete Präferenz für tonale Hervorhebung am 22

Vgl. zur Erläuterung verschiedener in der phonologischen Literatur anzutreffender Fußbegriffe Cutler/Ladd (1983a). Cruttenden (1997,21fff.) unterscheidet die satzphonologisch definierte Fußkategorie bei Abercrombie (1964) und Halliday (1967) auch terminologisch von Fußkonzepten im Rahmen der Wortphonologie wie in weiten Teilen der Metrischen Phonologie seit Liberman/Prince (1977). Er bezeichnet nämlich die erste als rhythm group, die zweite als 'lexical foot' - man beachte die Anführungszeichen! Fudge (1999) argumentiert jedoch in Uberzeugender Weise für die wesentlich äußerungsabhängige und somit sententiale Determination der Verfußung im Englischen und gegen die Möglichkeit einer konsistenten wortbezogenen Bestimmung.

153 Anfang der Intonationsphrase an, so erscheint die Rhythm Rule nicht mehr als Verschiebung, sondern lediglich als Tilgung einer wortprosodisch naheliegenden Prominenz (vgl. Hörne 1990 und Gussenhoven 1991). Für diese nicht rhythmisch basierte Auszeichnung der ersten betonbaren Silbe einer Intonationsphrase spricht ferner, daß nach Beckman/Edwards (1994, 15) auch im Syntagma Chinese antiques die erste Silbe von Chinese häufig prominent realisiert und perzipiert wird. Immerhin zeigen neuere Auswertungen spontansprachlicher Daten, daß eine Betonung vor der Akzentposition wahrscheinlicher ist, wenn dadurch ein rhythmischer Zusammenstoß vermieden wird (vgl. zusammenfassend Shattuck-Hufnagel 2000,207). Auch impliziert eine intonatorisch motivierte Prominenz vor dem Akzent noch keineswegs das Fehlen einer weiteren auf der Akzentsilbe des Wortes. Ein Satz wie engl. It was in Massachusetts kann mit Betonungen auf der ersten und dritten Silbe des Toponyms geäußert werden. Andere Untersuchungen (vgl. Grabe/Warren 1995,104f. und Vogel/Bunnell/Hoskins 1995,123ff.) weisen schließlich daraufhin, daß auch bei fehlenden akustischen Hinweisen von einigen Testpersonen eine stärker rhythmisch alternierende Kontur wahrgenommen wird als nach den Wortakzentpositionen zu erwarten. Soweit ich die phonetische Literatur Uberblicke, sprechen die Ergebnisse insgesamt zwar gegen eine ausschließlich am Alternationsprinzip orientierte Rhythmisierung und für einen Einfluß der intonatorischen Gliederung, gleichzeitig jedoch auch für eine teilweise rhythmusinterne Optimierung innerhalb der realisationsphonologischen Möglichkeiten. Daß nicht in jedem Falle die Wortakzentsilbe auch das Prominenzmaximum der Wortform bildet, belegt ein weiteres Mal die geringe Bedeutung akzentueller Kontraste in der Wortphonologie des Englischen. Die Nachrangigkeit der Zeit im Englischen wie im Deutschen erweist sich am deutlichsten in dem Fehlen von Quantitätskontrasten. Bei den Konsonanten besteht Einigkeit, daß der sich schon in den ersten historischen Textdokumenten (vgl. Maas 1999, 206ff.) anbahnende Abbau phonologischer Längenunterschiede zumindest tautomorphemisch im Englischen und Deutschen vollständig durchgeführt ist (vgl. Becker 1998, 64 und Hammond 1999, 72), ja teilweise sogar als Beschränkung in der deutschen Flexionsmorphologie auch Stamm und Endung übergreift (vgl. Eisenberg 1998/1999, Bd. 1, 391, der die Vermeidung von /ss/ vermerkt). Für die Vokale ist in einigen generativen Arbeiten ein Längenkontrast postuliert worden (vgl. zum Englischen Hammond 1997 und zum Deutschen die bei Lenerz 2000, 172 genannten Titel), die Mehrheit der neueren Analysen (vgl. Vennemann 1990a,b; 1991 ; 1994; Becker 1998; Claßen et al. 1998; Restle 1998; Maas 1999; Lenerz 2000 und zum Englischen Murray 2000) plädiert jedoch dafür, einen silbenprosodischen Unterschied als phonologisch grundlegend anzunehmen. Diese Phonologisierung des Anschlusses von Silben wird dabei als Strategie der Bewahrung solcher Kontraste aufgefaßt, die in älterer Zeit durch distinktive Vokallänge zum Ausdruck gebracht wurden (vgl. Becker 1998,167f. und Maas 1999,206ff.). Da ja nach dem Gesetz von Rapp und Jakobson nicht beide rhythmische Dimensionen unabhängige Distinktionsleistungen erbringen können, mußte eine der beiden Kontrastarten auf die silbenprosodische Basis ausweichen. Neben der Ausnützung der Zeit durch die Prominenz und zum Teil durch die Silbenschnittopposition ist in geringerem Maße und unsystematischer als im Französischen auch phrasenfinale Längung nachgewiesen worden. Anders als im Französischen addieren sich jedoch nach Cummins (1999) im Englischen außer bei sehr schnellem Sprechen eine durch Satzakzent bedingte und eine zusätzliche phrasenfinale Längung. Die Perzipierbarkeit der Prominenz bleibt somit unabhängig von der Phrasendemarkation gewahrt.

154 Fassen wir zusammen: Im Englischen und im Deutschen bildet die Folge der durch initiale Prominenz gebildeten Füße die Grundlage der rhythmischen Konturbildung. Wortphonologische Kodierungserfordernisse spielen dabei in beiden Sprachen nur eine geringe Rolle, auch eine demarkative Festlegung der Akzentsilbe scheint einer Präferenz für kolumnaren Akzent untergeordnet, der die Gestaltähnlichkeit der verschiedenen Formen im Paradigma unterstützt. Im Rahmen der informationsstrukturellen, syntaktischen und der damit verbundenen intonatorischen Vorgaben werden die Füße isochronisierend eingerichtet, wobei sowohl die Anzahl als auch die Dauer der Silben verhältnismäßig stark variieren. In der Zeitstruktur ist das Englische und Deutsche durch ein Fehlen von Quantität gekennzeichnet, und auch die Tendenz zu phrasenfinalen Längungen scheint der salienten Prominenzkontur untergeordnet.

3.3.3.2

Ausblick auf das Russische

Das Russische fungiert in vielen Darstellungen der allgemeinen Akzentlehre als Musterbeispiel einer Sprache ohne Quantität, jedoch mit distinktivem Wortakzent (vgl. Ewen/Hulst 2001,198). Eismann (1986,561) zitiert jedoch Statistiken, wonach in einer Menge von 40 000 russischen Lexemen sich gerade 69 Homographenpaare finden, die allein durch die Akzentlage unterschieden werden. Berücksichtigt man zusätzlich segmental einander entsprechende Wörter verschiedener Schreibung, erhöht sich die Zahl der Akzentdubletten auf etwas mehr als 200, was immer noch erstaunlich niedrig anmutet. Allerdings sind akzentuelle Minimalpaare im Grundwortschatz weit häufiger, bei den Substantiva sogar um das Zehnfache, als im Gesamtwortschatz. Zudem stellen sich die Verhältnisse grundlegend anders dar, wenn man, anders als in den bisher genannten Auszählungen, nicht nur die Grundformen der Lexeme berücksichtigt. Bereits im Grundwortschatz stehen nach einer weiteren von Eismann referierten Untersuchung 53 lexikalischen homographen akzentuellen Oppositionspaaren 432 gegenüber, wo der prosodische Kontrast morphologische Funktion erfüllt. Aliein akzentuell verschiedene Lexeme erscheinen selbst im Russischen eher als Zufall, was nicht verwundern muß, da ja für sie Gestaltähnlichkeit semiotisch keinen Vorteil bringt. Hingegen bilden Alternationen der Akzentlage ein wichtiges morphologisches Mittel in der Flexion sowie in der Unterscheidung verschiedener Wortarten, dann also, wenn ein paradigmatischer Zusammenhalt erkennbar bleiben soll. Hier wiederum finden sich Idiosynkrasien im Akzentmuster von Substantiv- und Verbparadigmen besonders oft bei Formen mit hoher Vorkommenshäufigkeit (vgl. Cubberley 1987). Für solche Irregularitäten gerade bei den wichtigsten Wortparadigmen ist im Rahmen der Natürlichkeitstheorie gezeigt worden, daß sie keineswegs als dysfunktional zu werten sind (vgl. Hunnius 1989). Auch in der Satzphonologie spielt die Prominenz etwa zur Anzeige der FokusHintergrund-GIiederung eine zentrale Rolle. Allerdings bleibt dabei die Lage des Wortakzents in Wörtern ohne Satzakzent durch eine durationale Markierung in geringerem Maße ebenfalls prominent: Im Russischen ist die Stärke des Akzentes von der Satzbedeutung abhängig, d. i. die Bedeutung des Satzes kann durch die Verstärkung des Akzentes auf einem bestimmten Worte und die Schwächung des Akzentes auf den übrigen Satzgliedern verändert werden. Die von der Satzbetonung nicht betroffenen Satzglieder weisen meistens gar keine expiratorische Verstärkung der etymologisch betonten Silbe auf. Diese Silben bleiben aber von den etymologisch unbetonten dennoch verschieden, und

155 zwar einerseits durch ihre etwas längere Dauer, andererseits dadurch, daß ihre Vokale keiner qualitativen Reduktion unterliegen. Es darf also gesagt werden, daß für die russische Wortbetonung der qualitative und quantitative Unterschied zwischen den Vokalen der betonten und unbetonten Silben, für die russische Satzbetonung aber die expiratorischen Stärkeunterschiede zwischen den betonten Silben einzelner Satzglieder phonologisch relevant sind. [... ] Im Satz werden aber Haupt- und Nebentöne unterschieden: ïvàn pàjd'ót "Ivan wird gehen" (mit Nebenton auf dem Subjekt), ïvan päjd'ot "Ivan wird gehen" (ohne Nebenton), ìvan päjd'ot "Ivan wird gehen" (mit Hauptton auf dem Subjekt und Nebenton auf dem Prädikat). (Trubetzkoy [1939] 31962, 203) Daß die Präferenz für alternierenden Rhythmus im Russischen der Prägnanz akzentueller Prominenzen untergeordnet ist, zeigt sich besonders deutlich in der subsidiären Markierung der Hauptprominenz durch eine Nebenprominenz auf der unmittelbar vorausgehenden Silbe: Particular note should be made of the fact that vowels in pretonic syllables are somewhat longer [... ] than vowels in unaccented syllables. This is because the pretonic syllable in Russian is the position of the secondary accent [...], and when the accent is realized as stress the pretonic syllable bears the next heaviest stress after the stressed vowel. (Jones/Ward 1969, 217) Die hierdurch regelmäßig entstehenden Prominenzzusammenstöße stehen in direktem Widerspruch zum Prinzip der clash- Vermeidung der Metrischen Phonologie, unterstützen jedoch die Perzeption der Hauptprominenz in idealer Weise. Weitere Nebenprominenzen sieht das Russische auch in längeren Formen und sogar in derivierten oder kompositen Wörtern nicht vor (vgl. Trubetzkoy [1939] 3 1962,203, der dem Wortakzent im Russischen "absolutistischen Charakter" zuschreibt). Zwar behauptet Brik [1927] (1972,217), daß etwa die deutsche Betonung "in ihrer Stärke der russischen nicht nachsteht". Die Konzentration auf ein einziges Prominenzmaximum jedoch, die eben nicht phonetisch, sondern nur phonologisch zu begründen ist, gilt aber auch ihm als Speziñkum der russischen Prosodie: Die russische Betonung hat die Eigenschaft, eine große Anzahl unbetonter Silben zu vereinigen und zu organisieren. Wörter wie beispielsweise íelovekonenavístniccestvo (Misanthrophie) mit einer einzigen starken Betonung auf der viertletzten Silbe sind in jeder anderen Sprache undenkbar. (Brik [1927] 1972, 215) Insgesamt resultieren aus diesen besonderen Eigenschaften des russischen Akzents und der auf ihr aufbauenden Prominenzkontur einige grundlegende Unterschiede zum Englischen: Zum einen ist für die Position einer akzentanzeigenden Prominenz im Russsischen auch statistisch außer einer gewissen Präferenz für wortmediale Positionen keinerlei Vorhersage möglich. Eine dezisionistische phonologische Analyse wie bei Hayes (1995,297) bleibt sogar als Heuristik fragwürdig. Hingegen liegt in englischen Texten der Anteil mehrsilbiger Wortformen mit Akzent auf der ersten Silbe weit höher. Auch sind im Unterschied zum Russischen einsilbige Formen im Englischen häufig nicht prominent. In anderen Fällen ist selbst von muttersprachlichen Hörern schwer zu entscheiden, ob ein Einsilbler in einer Äußerung Prominenz trägt oder nicht. Schließlich treten aufgrund der im Mittel deutlich längeren Wortformen des Russischen Prominenzen insgesamt weit seltener auf als im Englischen (vgl. die vergleichenden Auszählungen bei Scherr 1980,359ff.). Während somit die Prominenzkontur im Englischen im Rahmen der satzphonologischen Vorgaben eurhythmisierend ausgestaltet werden kann, dürfen durch das absolutistische Herrschen der Wortakzente im Russischen die Prominenzabstände nicht durch 'Umakzentuierungen' wie im englischen stress shift isochronisiert werden. Umgekehrt ist aber zu erwarten, daß

156 aufgrund der im Mittel deutlich höheren Silbenzahl der russischen Wörter adjazente Wortakzente viel seltener auftreten. Dem Englischen und Russischen gemeinsam und für die hier vorgeschlagene rhythmische Typologie entscheidend bleibt die Dominanz der Prominenzkontur über die Zeitstruktur.

3.3.4

Rhythmische Konturen ohne Kontraste: alternierender Rhythmus

Als letztem unserer vier Typen wollen wir uns nun der Klasse von Sprachen widmen, in denen die Zeitstruktur ebenso wie die Prominenzkontur keine oder zumindest nur geringe Distinktionsleistung erbringen muß. Wir konzentrieren uns dabei zunächst auf das Italienische und ziehen am Ende das Spanische zum Vergleich heran. Auch hierbei werden sich bereits für diese beiden eng verwandten Sprachen einige interessante und phonologisch begründbare Unterschiede zeigen.

3.3.4.1

Italienisch

Während, wie in 1.2.1.2 und 1.3.2 dargestellt, das Italienische in der Isochronietradition und sogar in der Metrischen Phonologie bei Selkirk (1984) meist als silbenzählende Sprache eingestuft und den anderen romanischen Sprachen an die Seite gestellt worden ist, weist kein Geringerer als Wartburg auf die Unterschiede zwischen dem italienischen und französischen Sprachrhythmus hin: Der Rhythmus des italienischen Satzes ist nicht so gleichmäßigen Charakters wie der des französischen; ungestüm eilt er dahin, und in dieser Abwechslung und Ungebundenheit wird er zum Ausdruck der Gemiitslage des Sprechenden, während der französische Rhythmus diese eher umschleiert. (Wartburg [1943] 1962, 183) Leider unternimmt es Wartburg an dieser Stelle nicht, aus seiner ästhetischen Einschätzung phonologische Folgerungen zu ziehen. Die bei ihm anklingende höhere Salienz der Prominenzkontur im Italienischen mag damit zusammenhängen, daß, wie in allen anderen romanischen Sprachen mit Ausnahme des Französischen (vgl. Wanner 1979, auf dessen Darstellung auch die folgenden Ausführungen basieren), die Lage des Wortakzents sich nicht ausschließlich phonologisch bestimmen läßt. Allerdings ist sie wie im Lateinischen und auch im Englischen und Deutschen fast ganz auf eine der letzten drei Silben einer Wortform beschränkt. Nur in verbalen Paradigmen mit Antepaenultimaakzent in der 3. Ps. Sg. des Präsens Indikativ und Konjunktiv findet sich ausnahmsweise in den beiden korrespondierenden Pluralformen Akzent auf der viertletzten Silbe, vgl. die Akzentsilbe ter- in it. terminano, terminino zu termino, termini. Bei enklitischer Erweiterung wie in it. terminamelo kann der Akzent sogar auf die fünfte Silbe von hinten fallen. Allerdings gelten diese Objektklitika aufgrund ihrer prosodischen Autonomie im Italienischen meist nicht als Teil der Wortform, im Gegensatz zum Lateinischen, wo Enklitika nicht nur den akzentuierbaren Bereich mitbestimmen, sondern sogar eindeutig die Akzentlage festlegen, und zwar auf die letzte Silbe vor dem (ersten) Klitikon (vgl. Jacobs 1997). In allen anderen Fällen gilt jedoch auch im Italienischen die Beschränkung, daß der Wortakzent nicht vor die Antepaenultima tritt.

157 Die gewichtsbasierte Regel des klassischen Lateins, wonach eine schwere Paenultima den Akzent arretiert, lebt im Italienischen weiter als fast ausnahmsloses Verbot von Proparoxytona mit geschlossener vorletzter Silbe.23 Lexeme wie it. mandorla, polizza oder auch Toponyme wie Otranto mit Antepaenultimaakzent sind nach Wanner (1979) meist entlehnt24 und wortprosodisch höchst unitalienisch, ja, nach Vennemann (1998, 240) sogar "unromanisch". Umgekehrt zeigt die Beobachtung von Vennemann (1998), daß deutsche Sprecher diesen Städtenamen fast durchweg auf der Paenultima betonen, nicht nur, daß sie die deutschen Akzentregeln auf fremde Wörter anwenden, sondern auch, daß diese Regeln ihrerseits durch und durch romanisch sind: Im Spanischen etwa sind nach Roca (1999, 774, Fn. 19) Lepanto und Otranto tatsächlich als Paroxytona zu sprechen. Im Gegensatz zum Lateinischen ist der Wortakzent im Italienischen aber nicht immer vorhersagbar und somit nur begrenzt demarkativ.25 Das von D'Imperio/Rosenthall (1999, 10) angeführte statistische Überwiegen von Paroxytona ist allenfalls von geringem heuristischen Wert. Daß die Paenultima eine default-Akzentstelle sei, wird von Wanner (1979) mit dem Argument zurückgewiesen, daß für die anderen Akzentlagen keine speziellen Regeln formuliert werden können. Eine Beschreibung des italienischen Wortakzents als Gebot "Akzentuiere die Paenultima, es sei denn, daß . . . " ist also unmöglich. Anders als bei einer leichten Paenultima im klassischen Latein darf nämlich bei einer offenen Paenultima im Italienischen in längeren Formen keineswegs auf Antepaenultimaakzent geschlossen werden. Hier tritt neben eine weitgehende morphologische Festlegung in verbalen Paradigmata lexikalische Unvorhersagbarkeit: Daß it .facile Antepaenultima-, civile hingegen Paenultimaakzent hat, ist den beiden Adjektiven gewissermaßen nicht anzusehen. Auch Ultimaakzente sind teilweise durch die verbale Flexionsform morphologisch geregelt, manchmal auch durch den Wortausgang von Substantiven bedingt (vgl. it. -tà, -tu), in allen anderen Fällen jedoch eine lexemspezifische Besonderheit. Meiner Ansicht nach kann der Unterschied zwischen den lateinischen und italienischen Verhältnissen so beschrieben werden, daß der finale Akzent im Italienischen immer noch soweit nach vorne gehen kann wie im Lateinischen, jedoch nicht mehr möglichst weit nach vorne gehen muß. Gerade diese phonologische Unterbestimmtheit bereitet in einer fußbasierten Metrischen Phonologie wie bei Hayes Probleme. Hurch (1996, 83) kritisiert zurecht, daß das Akzentprofil einer Form wie it. abbandonerò nicht unter Rekurs auf die metrische Gliederung erklärt werden kann, sondern umgekehrt diese erst festlegt. Insgesamt trägt also der Wortakzent im Italienischen, vor allem aufgrund seiner Nichtkolumnarität in verbalen Paradigmen, sogar in höherem Maße als im Englischen zur Kodierung bei. Will man die traditionelle Zuordnung der beiden Sprachen zu einem wie auch immer präzisierten Konzept von Silben- und Akzentzählung aufrechterhalten, so widerspricht dies 23

24

25

Nach Sluyters (1990, 80) finden sich nur etwa zehn Gegenbeispiele. Zu ergänzen sind jedoch mit Bafile (1999, 204) nicht assimilierte Toponyme wie Amsterdam (ndl. [ σ σ ' σ ] , it. [ ' σ σ σ ] ) sowie Akronyme wie Finitwest mit Antepaenultimaakzent. Nach Bafile (1999, .204 und Fn. 6) bildet it. mandorla die einzige native Form mit dieser seltenen wortprosodischen Gestalt. Auch weisen die Fortsetzungen von spätlat. almondo in allen italienischen Dialekten mit Ausnahme des Toskanischen keinen Antepaenultimaakzent oder keine schwere Paenultima auf. Zu den verschiedenen metaphonisehen Strategien in italienischen Varietäten, welche kompensatorisch die Prägnanz der Worteinheit und somit auch ihre Demarkation unterstützen, vgl. ausführlich Krefeld (1999).

158 gerade der in einigen phonologischen Ansätzen behaupteten geringeren Distinktionsleistung des Wortakzents bei Silbenzählung (vgl. die unter (14), (15), (16) und (18) zusammengefaßten Ansätze von Auer/Uhmann 1988, Auer 1993, Laver 1994 und Reich 2002). Wichtiger für die Dimension des Rhythmus ist aber die Prominenzkontur auf sententialer Ebene. Hier scheint in der Tat die Flexibilität in der Prominenzgestaltung im Italienischen weit weniger als im Englischen zum Ausdruck etwa der informationsstrukturellen Gliederung genutzt zu werden und stattdessen stärker durch die Linearisierung der Konstituenten zu erfolgen. Selbst ein re-accenting im Sinne von 3.2.3.2 kommt vor. Auch eurhythmische Prozesse, die adjazente Prominenzen zu vermeiden helfen, finden sich nach Nespor ( 1990a,b) im Italienischen. Sowohl das Einfügen einer kleinen Sprechpause als auch eine Prominenzverlagerung oder -tilgung, wie sie für das Englische als Rhythm Rule diskutiert wurde, sind dabei mögliche Strategien. Nespor stellt den ersten Fall, den wir unter (60a) veranschaulichen, phonologisch in einem metrischen Gitter als Einfügen einer Markierung (Beat Insertion) dar und versucht zu zeigen, daß eine Umgestaltung sogar dann erfolgt, wenn noch eine lediglich aus einem Vokal bestehende Silbe dazwischentritt, wie unter (60b) zu sehen: (60) Beat Insertion und Rhythm Rule im Italienischen (Nespor 1990b, 247 und 1990a, 168ff.) χ χ χ χ X X XX χ

(a) questa città cresce a vista d'occhio

(b)

venti'trè si presenterà trenta'tré matite

vs. vs. vs.

'ventitré gradi si 'presenterà bène 'trentatré a'érei

venti'sette 'bimbi

vs.

'ventidue 'bimbi

Zu beachten ist, daß auch bei den Verbformen in (60b) die wortprosodische Identität gewahrt bleibt, da Formen wie presenterà auch bei der Prominenz auf der ersten Silbe nicht verwechselt werden können. Dagegen scheint eine Prominenzkontur ['σσ'σσ] für it. cantò bene ausgeschlossen. In der Satzphonologie zu behandeln sind schließlich auch die Nebenakzente: Zwar behaupten Vogel/Scalise (1982), daß ihre Lage allein aufgrund der phonologischen und morphologischen Struktur der jeweiligen Wortform vorhersagbar sei. Auch sie müssen jedoch gelegentlich alternative Prominenzgebungen etwa für it. genericamente und communicazione (mit Nebenprominenz entweder auf der ersten oder zweiten Silbe) oder oceanogràfico (mit Nebenprominenzen entweder auf der ersten und dritten Silbe oder nur auf der zweiten) einräumen. In diesen Formen scheint die Variabilität auf einem Konflikt zwischen einer Präferenz für trochäisch-daktylische Prominenzgebung und einer Bevorzugung der Anfangssilbe als Landeplatz von Nebenprominenzen zu beruhen. Allerdings wird in unterschiedlichen Kontexten jeweils eine der Konturierungen deutlich bevorzugt: So ist nach Vogel/Scalise (1982,237f.) im Syntagma it. società oceanogràfica ein Nebenakzent auf der ersten Silbe unwahrscheinlich. Deutlich erweist der Kontrast zwischen der morpholexikalischen Festlegung des Hauptakzents und der satzrhythmischen von Nebenprominenzen wieder einmal die Unangemessenheit solcher Theorien der Metrischen Phonologie, die beide Phänomene in einem einzigen Algorithmus simultan beschreiben wollen. Nicht Akzente, sondern Prominenzen sind also im Italienischen - auf der Grundlage der Akzentpositionen - stärker vorhersagbar und weniger kodierungsreievant als im Englischen. Auch die Zeitstruktur des Italienischen erbringt eine kontrastive Leistung, allerdings kaum für die Syntax: Nespor/Vogel (1983, 140) argumentieren unter Berufung auf Experimente zur Perzeption, daß im Italienischen die phonologische Phrasengliederung sogar bei der Des-

159 ambiguierung syntaktisch mehrdeutiger Sätze im Gegensatz zur Intonation nur eine geringe Rolle spielt. Hier zeigt sich ein wesentlicher prosodischer Unterschied zum Französischen. In der Wortphonologie jedoch finden sich Quantitätsoppositionen. Allerdings sind diese in der Standardsprache und den meisten Dialekten mit Ausnahme des - auch in anderer Hinsicht divergierenden - Friaulischen auf konsonantische Segmente beschränkt, die intervokalisch im Wortinneren einfach wie auch geminiert auftreten. Im häufigsten Fall, etwa in it. fato 'Schicksal* vs. fatto 'Tatsache', liegt der phonologische Längenunterschied dabei an der rechten Grenze der Akzentsilbe, manchmal aber auch schon früher im Wort, wie bei it. papato 'Papsttum' vs. pappato 'gierig verspeist'. Entscheidend für unsere rhythmusphonologische Bewertung dieses Kontrastes ist nun, daß die Länge des Konsonanten sich auf den vorausgehenden Vokal auswirkt. Kurze Folgekonsonanten gehen mit längeren Vokalen, Geminaten mit kürzeren einher. Eine solche Kompensation ist nun keineswegs auf das Italienische beschränkt 26 und in nordgermanischen Sprachen mit Ausnahme des Dänischen sogar als phonologisch zu werten (vgl. Fox 2000,57f.). 27 Andererseits ist sie nicht universell und unterbleibt beispielsweise im Türkischen, Arabischen, Bengali und Japanischen sowie zumindest teilweise auch im Finnischen (vgl. Pickett/Blumstein/Burton 1999, 136 und die dortigen Literaturangaben sowie den bereits in 1.2.2 vorgestellten Vergleich von Italienisch und Japanisch bei Smith 1995). Für das Italienische ist in mehreren akustischen Messungen sowie in Perzeptionsexperimenten überprüft worden, ob die konsonantische oder die vokalische Dauer die phonetische Hauptlast in der Signalisierung des Quantitätskontrastes trägt. Meist hat man dabei die höhere zeitliche Variabilität des Vokals als Nachweis für den auditiven Primat und phonologischen Status der Konsonantenlänge gewertet. Insbesondere die Dauer des Verschlusses bei Plosiven galt dabei als zuverlässiger Indikator der intendierten phonologischen Länge. Pickett/Blumstein/Burton (1999) zeigen jedoch anhand von Daten mehrerer italienischer Sprecher in verschiedenen Sprechgeschwindigkeiten, daß allein die Proportion der vokalischen und konsonantischen Segmentdauern über alle Bedingungen hinweg den phonologischen Kontrast bewahrt. Schwerer zu entdecken ist diese artikulatorische Strategie jedoch deswegen, weil auch die erlaubten Relationen der Segmentdauern systematisch in Abhängigkeit von der Position im Wort sowie der Lage des Akzents variieren. Die phonetische Längung bei phonologischer Langkonsonanz alleine kann dagegen nicht in jedem Falle als perzeptiv ausreichend gelten. Im Italienischen fungieren also nicht Segmentdauern per se kontrastiv, sondern nur relativ zur Länge adjazenter Segmente. Nur in diesem sehr eingeschränkten Sinne ist das Italienische eine Quantitätssprache. Zu vermuten ist, daß auch andere Sprachen, die nur im Konsonantismus zeitliche Kontraste aufweisen, eine ähnliche relationale Signalisierung vornehmen. Dagegen scheint in phonologischen Systemen, die alleine oder zusätzlich vokalische Quantitätsoppositionen kennen, die Dauer des Einzelsegments autonom die Kodierungsleistung zu erbringen. Dies leuchtet

26

27

Maddieson (1985,208) zitiert 17 Sprachen unterschiedlicher genealogischer und arealer Provenienz, für die die gleiche Tendenz phonetisch erwiesen ist. Ob nun bei einem auf die beiden Kombinationen [V:C] und [VC:] beschränkten Kontrast im Silbenreim die Länge des Vokals oder aber die des Konsonanten als distinktiv zu werten ist, scheint zunächst eine müßige Frage zu sein. Unter anderem morphologische Argumente sprechen etwa im Isländischen jedoch nach Fox eher für den phonologischen Status langer Konsonanten, die wie im Italienischen dann sekundär die Vokallänge beeinflussen.

160 unmittelbar ein, wenn man die Phonotaktik berücksichtigt: Viel häufiger als konsonantische treten nämlich vokalische Langsegmente am Wortanfang oder -ende auf, wo sie einmal zu nachfolgenden, das andere Mal zu vorausgehenden Lauten in bestimmte durationale Relationen treten müßten. Typischerweise erfolgen kointrinsische zeitliche wie auch koartikulatorische Abstimmungen aber immer nur in eine Richtung. Bei einer solchen Direktionalität ist dann aber in Sprachen, die Hiate zulassen, noch nicht einmal gewährleistet, daß diese Relationierung der Vokaldauer in jedem Falle mit einem konsonantischen Segment stattfinden kann. Allein aufgrund der vielfältigeren Umgebungen für vokalische Segmente scheint also zur Realisation vokalischer Quantitätsoppositionen eine ähnlich systematische Kompensationsstrategie wie für die Geminaten des Italienischen wenig wahrscheinlich. Zu diesen Überlegungen paßt ferner, daß gerade in den weiter oben genannten fünf Sprachen ohne vokalische Kürzung bei Gemination (Türkisch, Arabisch, Bengali, Japanisch, und, mit Einschränkung, Finnisch) unabhängige Quantitätskontraste im Konsonantismus und Vokalismus vorkommen. Auch der Befund von Ham (2001), wonach in morenzählenden Sprachen Geminaten stärker gelängt werden als in silbenzählenden, fügt sich in dieses Bild ein: Bei Morenbasiertheit muß jedes Segment für sich hinreichend deutlich seine phonologische Dauer signalisieren, wohingegen relationale Strategien in der Tat einen gewissen silbenisochronisierenden Effekt haben. Die mangelnde Autonomie der Lautdauern im Italienischen eröffnet ihrerseits die Möglichkeit einer suprasegmentalen Konditionierung: Hier bestehen in einigen Varietäten phraseninterne Sandhi-Regeln wie das raddoppiamento sintattico, wo im häufigsten Fall wortinitiale Konsonanten nach nach einer prominenten offenen Ultima geminiert werden, wie es in it. avrà trovato bei der Aussprache [avrattravato] der Fall ist (vgl. genauer Sluyters 1990,7Iff.). Auch hierdurch ergibt sich eine Verbesserung der Prominenzkontur durch Stärkung der prominenten Silbe. Da Konsonanten am Wortende sowieso selten sind und am Wortanfang keine Geminaten in Opposition zu einfachen Konsonanten stehen, bleibt außerdem die phonologische Identität der beiden Formen gewahrt. Wie interagieren nun die beiden Dimensionen der rhythmischen Kontur miteinander? In einigen Analysen der Metrischen Phonologie gilt das Italienische, vor allem aufgrund der Arretierung des Akzents durch geschlossene Paenultimae, als gewichtsbasiert (vgl. Sluyters 1990). Hier geht man also davon aus, daß die Segmentzahl des Silbenreims, die in allen phonologischen Konzepten der Zeitstruktur diese mitbestimmt, auch die Akzentlage und somit die Prominenzkontur festlegt. Diese These von der Quantitätssensitivität der metrischen Struktur ist kritisiert worden, da sie sich nicht in der Lage der Nebenprominenzen wiederfindet - ein Argument, das nach der Diskussion in 2.3.1 nicht länger überzeugt. D'Imperio/Rosenthall (1999, 12) sprechen sich in ihrer optimalitätstheoretischen Analyse für einen Kompromiß aus: Nicht Zweimorigkeit, wie nach dem moraischen Trochäus zu erwarten, sondern binäre Verfußung in syllabischen Trochäen ist präferiert, jedoch kann im Zusammenspiel mit anderen Beschränkungen im Einzelfall auch eine schwere Silbe alleine einen Fuß bilden: The preference for a disyllabic foot means that Italian stress is generally quantity-insensitive [... ] except when under the duress of higher-ranking constraints. (D'Imperio/Rosenthall 1999, 12) Mit dieser Mischform von moraischem und syllabischem Trochäus, die die Autoren als Generalised Trochee bezeichnen, ist zwar die Marginalität des wa/idor/a-Akzentmusters beschrieben, keineswegs aber die häufige und nach Bafile (1999) völlig unauffällige ternäre Alternation der Nebenprominenzen vor der Akzentsilbe. Umgekehrt wirkt sich auch

161 die Prominenz auf die Dauer besonders des Nukleusvokals aus. Nach den Messungen von D'Imperio/Rosenthall (1999), die allerdings nur wenige Daten von sieben Sprechern berücksichtigen, wird dieser regelmäßig in offener Paenultima gelängt, nur von einem Teil der Sprecher und in geringerem Maße auch in offener Antepaenultima. Dieser Unterschied, der sich auch schon in früheren Untersuchungen zeigte (vgl. Maratta 1985), erlaubt meines Erachtens, mit D'Imperio/Rosenthall (1999) Ansätze wie bei Nespor/Vogel (1986) zu kritisieren, in denen eine Regel der phonetischen Interpretation Vokale in offenen Akzentsilben ungeachtet ihrer Position im Wort längt. Auch die These von Maratta (1985), die sogar von einer Kürzung von Antepaenultimavokalen in Folge eines wortisochronisierenden Kompensationseffekts ausgeht, erklärt nicht die Positionsabhängigkeit der längeren Realisierung, die zwar bei it. metropolitana, nicht hingegen in dem kürzeren popolo erfolgt. Ob die konsequentere Längung bei Paroxytona in diesem Falle es bereits erlaubt, diese bereits in die phonologische Beschreibung, etwa als Zweimorigkeit des Nukleus, aufzunehmen, scheint mir hingegen fraglich. Phonetisch erweisen die Messungen von D'Imperio/Rosenthall nur eine Dauerzunahme des Vokals in offenen Paenultimae um etwa ein Drittel gegenüber anderen akzentuierten Positionen. Diese Proportion liegt wesentlich unter der für Sprachen mit distinktiver Vokalquantität typischen. Auch Längungen in phrasenfinalen Silben können wesentlich stärker ausfallen. Daß in generativen Analysen offene akzentuierte Paenultimae des Italienischen als zweimorig gelten, nicht aber phrasenfinale Ultimae des Französischen, zeigt deutlich, wie inkonsequent von dem Instrument der Morenbewertung Gebrauch gemacht wird. Jedoch ergeben sich selbst unter einer hinreichend abstrakten moraischen Konzeption der phonologischen Zeitstruktur Probleme: Insbesondere die Zirkularität derivationaler Ansätze - Burzio (1994,29) spricht in diesem Zusammenhang von einem ordering paradox - ist leicht einzusehen, besonders anhand von Akzentdubletten wie it. ancora: Das Adverb mit der Bedeutung 'noch' ist paroxyton, da der Paenultima vokal phonologisch lang ist, diese Länge aber resultiert wiederum aus der Akzentlage. Das Substantiv 'Anker' jedoch ist proparoxyton wegen der Einmorigkeit der Paenultima, die wiederum aus ihrer Unakzentuiertheit folgt. Auch in der optimalitätstheoretischen Beschreibung von D'Imperio/Rosenthall kann nur eine Treuebeschränkung ID-STRESS, die, wo nötig, die Akzentlage spezifiziert, die richtige Kombination der Akzent- und Dauerverhältnisse gewährleisten. Hier zeigt sich deutlich, daß das Paradox dezisionistischer Ansätze auch bei einer evaluativen Theorie bestehen bleibt: Segmentfolgen wie /ankora/ oder /kanto/ können ohne eine weitere wortprosodische Spezifikation im Italienischen nicht einer einzigen optimalen Oberflächenform zugeordnet werden. Auch die Einseitigkeit der Interaktion erweist sich klar: Die zeitliche Gestaltung der Wortformen einer Äußerung hängt im Italienischen von der Lage der Wortakzente ab, diese jedoch nicht von wortphonologischen Zeitspezifikationen - gerade umgekehrt wie im klassischen Latein. Dabei treten anders als im Englischen zwar geringere prominenzinduzierte vokalische und konsonantische Längungen auf, kaum jedoch prominenzisochronisierende Kompressionen in größeren Füßen. Die zeitlichen Konsequenzen der Prominenzkontur beschränken sich also weitgehend auf die prominenten Silben. Vékás/Bertinetto (1991) sprechen für Sprachen wie das Englische von einer Kompensationsstrategie, für das Italienische hingegen von einer Strategie lokaler Dauerkontrolle. Während nämlich im Italienischen unter einem vorgegebenen Abstand der Prominenzen die Dauer dieses Intervalls nur wenig manipulierbar ist, ergibt sich insbesondere für die Setzung von Nebenprominenzen eine größere Auswahl. Diese wird näm-

162 lieh anders als im Englischen nicht durch Reduktionssilben eingeschränkt. Somit ist es naheliegend, daß das Italienische dem Ziel der Isochrome eher durch Isometrisierung im Sinne von 1.2.8 als durch phonetische Manipulation der Segmentdauern näherkommt. Zu erklären bleibt der Befund von Arvaniti (1994), daß die Silbenzahlen in italienischen Füßen trotzdem stärker variieren als in englischen. Hier scheint mir die Beobachtung von Farnetani/Kori (1990,62) wichtig, wonach im Italienischen lapses, also Folgen von zwei und mehr nichtprominenten Silben, nicht nur nicht gemieden werden, sondern sogar gegenüber binärer Alternation bevorzugt sind - was gegen die Ansetzung einer universellen /apse-Beschränkung wie bei Selkirk (1984) und Elenbaas/Kager (1999) spricht. Für das Englische hingegen ist nicht nur in der Metrischen Phonologie immer wieder die Unmarkiertheit binärer Füße behauptet worden, und auch unäre Füße sind in dieser Sprache nicht selten. Um aber solche Folgen einund zweisilbiger Füße zu isochronisieren, ist viel mehr zeitliche Anpassung nötig als bei Prominenzen, die nur auf jede dritte, vierte oder gar fünfte Silbe fallen. Gleichzeitig dürfte bei höherer durchschnittlicher Silbenzahl auch die Schwankung stärker ausfallen. Die im Vergleich zum Englischen größere mittlere Länge der italienischen Füße könnte also der Grund für das Ergebnis von Arvaniti (1994) sein. Fassen wir unsere Ausführungen zum Italienischen zusammen: Ungeachtet der morpholexikalischen Festlegung des Akzents scheint seine distinktive Funktion zwar höher als im Englischen oder Deutschen, aber immer noch gering. Entscheidend für die Rhythmusphonologie ist jedoch die Satzebene, und hier ist die Prominenzkontur unter Berücksichtigung der Akzentlagen kaum syntaktischen oder informationsstrukturellen Zwängen unterworfen, im Unterschied zum Englischen und Deutschen. Auch die Zeitstruktur in der Wortphonologie trägt zur Kodierung bei. Allerdings wird der Quantitätskontrast nicht durch einen Unterschied der Silben- und somit Wortlänge, sondern als lokaler Kontrast in der Proportion von Segmentdauern ausgedrückt und vererbt sich somit nicht in die satzphonologische Zeitstruktur weiter: it .fatto ist nicht in einem phonologischen - und auch nicht in einem metrischen - Sinne länger als it. fato. Auch eine demarkative syntaktische Kodierungsfunktion der Zeitstruktur in der Satzphonologie kann im Italienischen anders als im Französischen nicht nachgewiesen werden. Eurhythmisch scheint eine Tendenz zur Isochronisierung der Prominenzen zu wirken, die stärker als im Englischen aufgrund der fehlenden Kodierungsrelevanz der rhythmischen Konturen auch die Auswahl der prominenten Silben selbst mitbestimmt. Die von Wartburg beobachtete "Ungebundenheit" im Rhythmus des italienischen Satzes ist somit nicht nur eine impressionistische Einschätzung, sondern auch eine phonologische Tatsache.

3.3.4.2

Ausblick auf das Spanische

Im Gegensatz zum Italienischen kennt das Spanische nach Wanner (1979,23ff.) keine Quantitätsoppositionen. Auch die Lage des Akzents ist nicht vollständig phonologisch festgelegt. Allerdings werden die beiden Restriktionen, wonach der Akzent nicht vor die Antepaenultima und nicht vor eine geschlossene Paenultima zurückgeht, im Spanischen strenger befolgt: Der it. Form terminano Ι'σσσσΙ etwa steht im Spanischen terminan Ισ'σσΙ gegenüber. Dies mag mit ein Grund dafür sein, weshalb Hayes (1995, 181) in seiner Klasse der "Latin-like stress systems" von den romanischen Sprachen allein das Spanische und Rumänische anführt. Ultimaakzent ist im Spanischen häufiger als im Italienischen, was historisch vor allem durch die spanische Apokopierung von auslautendem -e bedingt ist. So korrespondieren it. ci-

163 vile und sp. civil. Wie für das Italienische, so erscheint auch für das Spanische die Annahme eines regelhaften Paenultima-de/a«/i fragwürdig. Hieraus jedoch auf eine Unmarkiertheit proparoxytonaler Akzentmuster zu schließen, wie dies Otero (1986) vorschlägt, unterschätzt ebenfalls die phonologische Unbestimmtheit der Akzentlage. Dies zeigt sich etwa in der Akzentuierung von Toponymen, wo nach Roca (1999, 688f.) Manchester im Spanischen wie im Englischen auf der ersten beziehungsweise drittletzten Silbe akzentuiert wird, im Italienischen und Portugiesischen jedoch auf der zweit(letzt)en. Umgekehrt wird Nürnberg zu it. Norimbèrga mit der diakritisch markierten Akzentstelle, im Spanischen jedoch zu proparoxytonalem Nuremberg (ohne orthographischen Akzent in den Wörterbüchern). Stärker als im Italienischen übernimmt der Akzent im Spanischen hingegen morphologische Kennzeichnungsfunktion: Neben einigen akzentuellen Minimalpaaren von Substantiv und Verb erlaubt auch innerhalb der Verbalparadigmen manchmal allein die Akzentlage die Bestimmung der Form. Lediglich die l.Ps. Sg. Indikativ Präsens steht im Italienischen wie im Spanischen regelmäßig in den Verben der a-Konjugationsklasse mit der 3. Ps. Sg. Indikativ des italienischen passato remoto, das etymologisch dem spanischen indefinido entspricht, vgl. sp. miro/miró aus (61b) und it. miro/mirò mit gleichen Bedeutungen. Schließlich stehen in einigen Fällen akzentuierte und unakzentuierte Formen in Opposition. Unter (61) geben wir für die drei Fälle jeweils Beispiele: (61) Akzentuelle Minimalpaare im Spanischen (Navarro Tomás 1966, 68f.) (a) Unterscheidung substantivischer und verbaler Formen Ι'σσΙ Ι'σσΙ

anden grano

'sie gehen (Konj.)' 'Korn'

Ισ'σΙ Ισ'σΙ

andén granó

'Gehweg, Bahnsteig' 'er setzte Körner an'

(b) Unterscheidung morphosyntaktischer Kategorien des Verbs Ι'σσΙ Ι'σσΙ Ισ'σσΙ

miro llame rogara

'ich sehe an' 'ich/er rufe (Konj.)' 'erbäte'

Ισ'σΙ Ισ'σΙ Ισσ'σΙ

miró llamé rogará

'er sah an' 'ich rief 'er wird bitten'

(c) Unterscheidung lexikalischer und grammatischer Wörter Ι'σσΙ Ι'σσΙ

sobre bajo

'Umschlag' 'niedrig'

ΙσσΙ ΙσσΙ

sobre bajo

'auf, über' 'unter'

Auch eine Tendenz zu analogisch basierter Wortakzentvergabe bei unbekannten Wörtern ist von Aske (1990) für das Spanische nachgewiesen worden. Daß der Wortakzent im Spanischen wichtiger als im Italienischen ist, zeigt sich außerdem darin, daß eurhythmisch bedingte Umgestaltungen in der Prominenzabfolge anders als im Englischen und Italienischen nicht vorzukommen scheinen (vgl. Navarro Tomás 1985, 194). Insgesamt legt im Spanischen der Wortakzent die Satzprosodie etwas stärker als im Englischen, Französischen oder Italienischen fest. Allerdings ist sein Einfluß immer noch sehr gering im Vergleich mit dem Russischen, das außer in Silben unmittelbar vor dem Wortakzent, wie in 3.3.3.2 vermerkt, keine Nebenprominenzen kennt und Prominenzalternation satzphonologisch nicht unterstützt. Für das Spanische behauptet hingegen Dominicy (1980), daß die erste Silbe einer längeren Wortform eine sekundäre Betonung tragen kann, außer wenn die zweite den Wortakzent trägt gerade umgekehrt also als im Russischen. Ansonsten postuliert Dominicy (1980) eine Präferenz für trochäische Verfußung. Im Gegensatz dazu spricht Saltarelli (1998, 344) in Bezug auf das Italienische und Spanische von "tendenze 'anti-trocaiche' o 'filo-dattiliche' ". Almei-

164 da (1994, 10) vermutet, in einer lediglich anhand einzelner Wortformen entwickelten Überlegung, zwei alternative Konturierungstypen: In hinreichend langen Wortformen kann ihm zufolge entweder die erste Silbe Prominenz erhalten oder aber von der Akzentsilbe aus rückwärts in binärer Alternation verfußt werden. Unter (62) sind drei Beispiele für solche variable Prominenzgebungen schon in isolierten Wortformen aufgeführt: (62) Unbestimmtheit der Lage von Nebenprominenzen im Spanischen (Dominicy 1980, 53; Almeida 1994, 10) gramaticalidad ,σσσσσ'σ σ,σσ,σσ'σ acondicionamento ,σσ,σσσ'σσ ,σσσ,σσ'σσ intemacionalización ,σσ,σσ,σσσ'σ ,σσσ,σσ,σσ'σ Vergleicht man diese Unbestimmtheit mit Einwortäußerungen von engl, grammaticality oder internationalization, so wird die größere Freiheit der satzrhythmischen Gestalt des Spanischen deutlich. Zwar werden, anders als im Italienischen, die Wortakzentlagen durch die Satzphonologie respektiert, im Rahmen dieser Vorgaben jedoch finden sich im Spanischen immer noch weit größere eurhythmische Freiheiten für die Nebenprominenzen als im Englischen.

3.4

Zusammenfassung

Der vorgeschlagene Neuansatz in der Rhythmustypologie beruht auf der Einsicht, daß phonologische Kodierungserfordernisse Vorrang vor eurhythmischen Präferenzen haben. Dabei kann die Prosodie in der silbischen Grundlage wie auch in der melodischen und rhythmischen Gestaltung kontrastiv eingesetzt werden. Sprachen unterscheiden sich jedoch in der Auswahl und im Ausmaß der Nutzung verschiedener suprasegmentaler Oppositionen. Allerdings sind dabei den Kontrasten in der rhythmischen Kontur Grenzen gesetzt: Insbesondere werden distinktive Prominenzen typischerweise durch Betonungen realisiert, die sich auch durational manifestieren, und hierbei vor allem durch eine Längung vokalischer Nuklei. Umgekehrt scheint zumindest in Sprachen mit distinktiver Vokalquantität eine verläßliche Perzeption von Prominenzkontrasten problematisch. Hieraus ergibt sich die schon im 19. Jh. festgestellte Unvereinbarkeit von Kontrasten in der Zeit- und Prominenzdimension. Dabei spielt es keine Rolle, ob letztere fast allein durch satzphonologische Kodierungsaufgaben wie im Englischen und im Deutschen oder zusätzlich auch durch distinktive Wortakzente wie im Russischen festgelegt ist. Da Satzakzente immer auf Wortakzentsilben fallen, ist eine simultane Heranziehung der Prominenzkontur durch die Wort- und Satzphonologie jederzeit möglich. In Konflikt stehen jedoch morpholexikalische sowie syntaktische und informationsstrukturelle Kodierungserfordernisse in der Zeit: Da nämlich in einer Sprache mit Vokalquantität in den Silben am Rande einer Phrase sowohl lange als auch kurze Nuklei auftreten können, wäre etwa bei einer ausgeprägten phrasenfinalen Längung wie im Französischen in Ultimae mit phonetisch langem Vokal schwer zu entscheiden, ob diese Länge wort- oder satzphonologisch bedingt ist. Im Einklang hiermit zeigt sich trotz einiger gegenteiliger Behauptungen in

165 der Literatur, daß bei distinktiver Quantität die Anzeige der syntaktischen Gliederung durch phrasenfinale Längungen allenfalls in geringem Ausmaß erfolgt. Somit können Sprachen in ihrer rhythmischen Konturbildung die Prominenzkontur oder die Zeitstruktur, nicht aber beide Dimensionen zugleich, distinktiv nutzen. Bei kodierungsrelevanter Zeitstruktur ist außerdem zwischen wort- und satzphonologischer Festlegung zu unterscheiden. Aus diesen Beschränkungen der kontrastiven Nutzung der Prosodie wurden in (53) vier Prototypen rhythmischer Konturbildung abgeleitet, die unter (63) wiederholt sind: (63) Kontraste in der rhythmischen Kontur und rhythmische Prototypen 1. distinktive Dauer in der Wortphonologie morenbasierter Rhythmus 2. distinktive Dauer in der Satzphonologie phrasenbasierter Rhythmus 3. distinktive Prominenz in Wort- und/oder Satzphonologie prominenzbasierter Rhythmus 4. keine Kontraste in der rhythmischen Kontur alternierender Rhythmus In Sprachen mit morenbasiertem Rhythmus wie dem Japanischen, Finnischen oder Westgrönländischen bestimmen dabei die Quantitäten, in phrasenbasiert rhythmisierenden Sprachen wie dem Französischen und, in geringerem Maße, auch dem Koreanischen, syntaktisch oder informationsstrukturell bestimmte durationale Phrasendemarkationen die rhythmische Gesamtkontur. Auch in Sprachen dieser beiden Typen ist jedoch weniger die Isochronie der Moren oder Phrasen grundlegend, sondern die - wort- oder satzphonologisch festgelegte systematische Anisochronie kurzer und langer Silbenreime. Silbenzählung als eurhythmische Teleologie bleibt ein Phantom. Umgekehrt zeigt sich auch, daß in diesem Ansatz die von der Metrischen Phonologie als natürlich oder sogar universell angesehene akzentuelle Grundlage des Rhythmus nur für einen Sprachtyp, nämlich dem des Englischen, aufrechterhalten wird. Schließlich finden sich auch Sprachen wie das Italienische, die von dem semiotischen Angebot, das die rhythmische Gestaltung bietet, keinen oder kaum Gebrauch machen. Wie zu erwarten, sind in ihnen eurhythmische Tendenzen besonders ausgeprägt. Im nächsten Kapitel werden wir über die sprachsysteminterne Argumentation hinausgehen, indem wir unabhängige empirische Evidenzen aus unterschiedlichen Bereichen anführen.

4

Externe Evidenz für die neue Typologie

Ziel dieses Kapitels ist es, die Bedeutung phonologischer Kontraste für die rhythmische Konturbildung auf der Grundlage neuerer phonetischer, psycholinguistischer und poetologischer Arbeiten zu prosodischen Unterschieden zwischen Sprachen zu belegen. Gleichzeitig wird auch deutlich werden, daß die Ergebnisse der komparativen Studien weder eine allein temporal noch eine ausschließlich akzentuell definierte Klassenbildung rechtfertigen. Wir gehen dabei zunächst kurz auf aktuelle Forschungen zu rhythmischen Konturen in der Experimentalphonetik und Sprachtechnologie ein. Der zweite Abschnitt ist der Rolle des Rhythmus im Erst- und Zweitspracherwerb sowie bei pathologischen Beeinträchtigungen der sprachlichen Kompetenz gewidmet. Schließlich sollen im dritten Abschnitt einige Aussagen der vergleichenden literaturwissenschaftlichen Metrik mit unserer phonologischen Rhythmustypologie in Verbindung gebracht werden.

4.1 Phonetik und Sprachtechnologie

4.1.1

Akustische Rhythmusforschung und Sprachsynthese

Einen neuen Weg in der Untersuchung der Zeitstruktur beschreiten Ramus/Nespor/Mehler (1999): Sie bestimmen für eine Menge von Äußerungen in acht Sprachen (Englisch, Niederländisch, Französisch, Italienisch, Spanisch, Katalanisch, Polnisch und Japanisch) die prozentualen Anteile vokalischer Signalabschnitte sowie zusätzlich die mittleren Dauern und Standardabweichungen der konsonantischen und vokalischen Intervalle. Diese Parameter bilden ihrer Ansicht nach ein akustisches Korrelat zur Trichotomie von Moren-, Silben- und Akzentzählung, wobei sie bereits voraussetzen, daß das Japanische dem ersten, die untersuchten romanischen Sprachen dem zweiten und die übrigen dem dritten Typ angehören. Allerdings hebt sich in ihren Werten das Japanische viel deutlicher von allen übrigen Sprachen ab als Englisch, Niederländisch und Polnisch von den romanischen, was in ihrer rhythmischen Trias unerklärlich bleiben muß. In meinen Augen liefern diese Messungen bestenfalls Aufschluß über unterschiedlich komplexe Silbenstrukturen, nicht jedoch über Isochronietendenzen oder gar den Beitrag der Prominenzkontur zur rhythmischen Gestalt akzentzählender Sprachen. Eindeutig geht aus den Daten allein der höhere Anteil vokalischer Segmente im Japanischen hervor, das ja in der Tat von den acht untersuchten Sprachen die größte Nähe zum CV-Ideal aufweist. Obwohl also die theoretische Grundlage dieser Spektrogrammstatistik alles andere als geklärt erscheint, führen Grabe/Low (2002) weitere Messungen durch, in denen sie Vorlesedaten aus insgesamt 18 Sprachen auswerten, darunter fünf germanische Idiome (britisches und Singapur-Englisch, Standarddeutsch und Letzeburgisch sowie Niederländisch), vier romanische Sprachen (Französisch, Spanisch, Katalanisch, Rumänisch), drei weitere indogermanische (Walisisch, Griechisch, Polnisch), eine uralische (Estnisch) und fünf Sprachen aus Süd-

168

und Ostasien (Tamilisch, Thai, Mailaiisch, Mandarin-Chinesisch, Japanisch). Wie schon bei Ramus/Nespor/Mehler (1999) zeigt sich auch in ihrer statistischen Analyse keineswegs eine klare Gruppierung nach den traditionellen Isochronietypen. Insbesondere erlauben ihre Ergebnisse zur Variation konsonantischer Intervalldauern offenbar noch nicht einmal Aussagen zu silbenphonologischen Unterschieden, da sich etwa fur Spanisch und Deutsch fast gleiche Werte ergeben. Kritisch zu vermerken ist ferner, daß Grabe/Low für jede Sprache nur Daten eines einzigen Sprechers auswerten und somit nicht zu entscheiden ist, inwieweit ihre durationalen Parameter durch individuelle Sprechstile geprägt sind. Grabe (2002) vermerkt in einer Nachfolgestudie selbst die beträchtliche Variation zwischen sieben Muttersprachlern des Spanischen, ohne allerdings Angaben über deren geographische und soziale Herkunft zu machen. Auch ThyméGobbel/Hutchins (1999) und Zissman/Berkling (2001) betonen aufgrund ihrer Forschungen zur automatischen Sprachunterscheidung, daß die emotional oder durch individuelle Besonderheiten bedingte Variation mancher prosodischer Parameter innerhalb einer Sprache sogar größer sein kann als die Unterschiede zwischen verschiedenen Sprachen. Ob die alleinige Berücksichtigung segmentaler Dauern jedoch die nicht sprachsystembedingte Variation minimiert, darf bezweifelt werden; insbesondere die Normalisierung von Sprechtemposchwankungen bildet immer noch ein technisches Problem (vgl. Ramus 2002a). Somit mögen die statistischen Erhebungen von Ramus/Nespor/Mehler (1999) und Grabe/Low (2002) zwar phonetisch von Interesse sein, besitzen jedoch für die phonologische Sprachtypologie nur bedingt Aussagekraft. Auch prägen den rhythmischen Duktus von Sprachen nicht nur Mittelwerte und mittlere Abweichungen von diesen, sondern auch etwa gelegentliche besonders lange Segmentdauern, wie am Phrasenende im Französischen. Außerdem kann natürlich in von Sprache zu Sprache verschiedenem Ausmaß die Prominenzkontur zu temporalen Eigenschaften in Konkurrenz treten und diese sogar an Salienz übertreffen. Die Notwendigkeit einer phonologischen Herangehensweise wird innerhalb der akustischen Forschungen aber auch in der Sprachtechnologie betont: So sind nach Campbell (2000, 31 Iff.) linguistische Modelle der Prosodie in der Sprachsynthese auch deswegen erforderlich, weil sich Segmentdauern im Englischen und Japanischen in ihren statistischen Mittelwerten nur wenig unterscheiden, jedoch auf sprachspezifische Weise von phonologischen Kontrastivitätserfordernissen und und prosodischen Organisationseinheiten abhängen. Im Englischen etwa sind intrasyllabische zeitliche Ausgleichsprozesse im Silbenreim technisch nachzubilden, nicht jedoch im Japanischen, da diese ja die Unterscheidung ein- und zweimoriger Silben beeinträchtigen würden. Für das Französische sehen Keller/Zellner (1996) in ihrem Syntheseverfahren neben einer solchen silbenisochronisierenden Komponente eine weitere vor, welche die phrasale Gliederung in einem Kompromiß zwischen syntaktischer Transparenz und Phrasenisochronie festlegt und die Silben am Ende der Phrase deutlich längt - gerade so, wie es nach der phonologischen Charakterisierung des letzten Kapitels zu erwarten ist. Bei aller Variation zwischen verschiedenen Sprechern und Sprechstilen bleiben solche Unterschiede in der rhythmischen Konturbildung auch nach ingenieurwissenschaftlichen Erkenntnissen erstaunlich invariant. Nur bei einer prosodisch basierten Dauerberechnung, welche etwa die Morenstruktur des Japanischen oder die phrasenbasierte Zeitstruktur des Französischen nachbildet, kann offenbar verständliche und natürlich wirkende Lautsprache künstlich erzeugt werden.

169 4.1.2

Untersuchungen zur Sprachunterscheidung

Eine Reihe weiterer Untersuchungen, welche ungeachtet aller problematischen Befunde für eine isochroniebasierte Typologie plädiert, versucht gar nicht erst, die Intuitivität des Ansatzes zu leugnen. Schon vor Pike spricht Lloyd James (1940) vom "morse-code rhythm" des Englischen und dem "machine-gun rhythm" des Spanischen. Auch Vertreter der Pikeschen Tradition thematisieren nicht selten das subjektive Erleben der Prosodie: Immerhin, so argumentieren etwa Bertinetto (1988) und Auer/Uhmann (1988), erfolgen die impressionistischen Zuordnungen der Sprachen zu rhythmischen Typen weitgehend einheitlich. Wer aber eine ihm unbekannte Sprache hört, kann nur phonetisch saliente Eigenschaften zur prosodischen Kategorisierung heranziehen. Sicherlich bilden dabei rhythmische Konturen nicht die einzigen Kriterien, sondern konkurrieren mit segmentalen, silbenprosodischen und melodischen Auffälligkeiten. Falls sich jedoch empirisch nachweisen ließe, daß verschiedene Hörer die Sprachen nach ihren rhythmischen Konturen intersubjektiv weitgehend konsistent einteilen, spräche dies in der Tat für eine kognitive Realität der rhythmischen Verschiedenheit. Möglicherweise erfassen Exophone die prosodische Charakteristik einer Sprache sogar genauer als Personen mit einer mutter- oder zweitsprachlichen Kompetenz. Einer solchen Überlegung verpflichtet sind die Studien von Miller (1984) und Benguerel (1999). Miller präsentiert englischen und französischen Versuchspersonen vorgelesene sowie spontansprachliche aufgezeichnete Äußerungen in den Sprachen Spanisch, Polnisch, Finnisch, Arabisch, Yoruba, Indonesisch und Japanisch. Nach einer kurzen Erläuterung der Begriffe Silben- und Akzentzählung bat man die Teilnehmer der Untersuchung um eine Einordnung der Äußerungen in die Kategorien "stark akzentzählend", "schwach akzentzählend", "schwach silbenzählend" sowie "stark silbenzählend". Parallel dazu wurden auch ausgebildete Phonetiker mit englischer und französischer Muttersprache um eine Beurteilung der gleichen lautsprachlichen Daten gebeten. Es ergab sich, daß bei allen Personengruppen die Bewertungen der Sprachen weit weniger variierten, als dies nach der Nullannahme einer fehlenden intersubjektiven Verbindlichkeit zu erwarten gewesen wäre. So wurde Arabisch fast einstimmig als akzentzählend und Yoruba beinahe ebenso deutlich als silbenzählend bewertet. Eine Überraschung ergab sich aber für das Finnische und Japanische, wo viele Testpersonen ausdrücklich jede Einordnung in eine der vier vorgegebenen Kategorien ablehnten. Diese Enthaltung auf breiter Front stellt jedoch meiner Überzeugung nach keineswegs die Aussagekraft der Studie in Frage, sondern zeigt viel eher, daß gerade Sprachen mit distinktiver Quantität nicht als silbenisochronisierend empfunden werden, wie dies in der Isochronieforschung häufig angenommen wurde (vgl. 2.2.2). Die massive Nutzung quantitativer Kontraste in diesen beiden Sprachen scheint vielmehr auch in einem nicht auf Verstehen ausgerichtetem Hören deutlich. Benguerel (1999) führt ein ähnliches Experiment mit segmental unkenntlich gemachter Vorlesesprache aus 20 Sprachen durch, die von je 10 phonetisch ausgebildeten Hörern mit englischer, französischer, arabischer und japanischer Muttersprache als akzent-, silben- oder morenzählend zu kategorisieren waren. Dabei findet sich der morenzählende Charaker des Japanischen und - weniger deutlich - des Telugu von allen Gruppen weitgehend bestätigt, ebenso wie die Akzentzählung des Englischen und Deutschen, nicht jedoch - wie schon bei Miller - der silbenzählende Charakter des Spanischen. Weitere zumindest indirekte Anhaltspunkte liefern Experimente mit nicht-manipulierter Lautsprache von Bond/Stockmal/Muljani (1998). Ihre Testpersonen mit englischer Mutter-

170 spräche sollten darin verschiedene ihnen unbekannte Sprachen unterscheiden. Dabei wurde Japanisch kaum mit Russisch und Arabisch verwechselt, häufiger dagegen mit Indonesisch und Chinesisch. Zwar kann die korrekte Diskrimination immer auch auf nicht-rhythmischen Faktoren und beispielsweise auch einer groben Zuordenbarkeit einer Sprache als "ostasiatisch" beruhen (vgl. auch Bond/Stockmal 2002). Häufige Verwechslungen sprechen dagegen für eine impressionistische Ähnlichkeit in jeder Hinsicht, also auch in rhythmischer, was im Falle der drei ostasiatischen Sprachen mit ihren wenig salienten Prominenzkonturen zu tun haben mag. Noch deutlicher auf stabile Charakteristika in der prosodischen Gestalt weisen Experimente hin, in denen in Äußerungsdaten verschiedener Sprachen oder Varietäten durch akustische Filterungen allein die prosodische Gestalt erhalten bleibt. Auch bei solchen Reduktionen der akustischen Information können jedoch nach Barkat/Ohala/Pellegrino (1999) Sprecher des Arabischen ägyptische und maghrebinische Varietäten zuverlässig differenzieren. Dufter/Reich (im Druck) finden in einem Perzeptionsexperiment zur Unterscheidbarkeit der vier romanischen Idiome Französisch, Spanisch, europäisches und brasilianisches Portugiesisch, daß bei Tiefpaßfilterung zur alleinigen Bewahrung der prosodischen Kontur nicht nur das Französische mit Abstand am besten erkannt wird, sondern die iberoromanischen Idiome auch weit häufiger untereinander verwechselt werden als mit dem Französischen. Noch einen Schritt weiter gehen Ramus/Mehler (1999): Sie zeigen für das Englische und Französische, daß sogar bei resynthetisierter Sprache, in der selektiv entweder die Melodie oder der Rhythmus unkenntlich gemacht wurde, französische Probanden lediglich aufgrund der rhythmischen Konturen die beiden Sprachen sicher unterscheiden. Hingegen bereitet die Erkennung bei intakter Intonation und künstlich veränderten zeitlichen und dynamischen Eigenschaften deutlich mehr Schwierigkeiten. Zumindest diese beiden Sprachen scheinen also allein aufgrund ihrer rhythmischen Eigenart identifizierbar, was nicht erstaunt, da sie allgemein und auch in unserer Typologie verschieden klassifiziert werden. Ramus et al. (2000) vergleichen in einer Nachfolgestudie die Diskriminationsfähigkeit für die Sprachen Englisch, Spanisch, Katalanisch und Polnisch. Sie stellen fest, daß rhythmische Konturen in resynthetisierten Äußerungen der slavischen Sprache von allen anderen unterschieden werden. Da sie von einer typologischen Dreiteilung in Akzent-, Silben- und Morenzählung ausgehen, vermuten sie, daß Polnisch zu einer eigenen vierten rhythmischen Klasse gehören könnte. Bei näherem Hinsehen zeigt sich in ihren Daten von 48 Probanden jedoch, daß die Unterscheidung innerhalb der Gruppe Polnisch, Spanisch und Katalanisch weit unzuverlässiger erfolgt als die zwischen Englisch und den anderen drei Sprachen. Da die Autoren aber die im Polnischen vorkommenden komplexen Silbenstrukturen als Indiz gegen Silbenzählung werten, verwehren sie sich gegen die in meinen Augen naheliegendere Zuordnung des Polnischen zur Klasse der beiden iberoromanischen Sprachen. Die rhythmischen Gemeinsamkeiten des Spanischen, Katalanischen und Polnischen liegen jedoch meiner Ansicht nach weniger in der Silben- oder Zeitstruktur, sondern vielmehr in der geringeren perzeptiven Salienz - und satzphonologischen Nutzung - der Prominenzkontur im Vergleich zum Englischen. Eine allein zeitstrukturelle Rhythmustypologie, wie sie den Autoren vorschwebt, muß diese Einsicht jedoch außer acht lassen. Alle in diesem Unterabschnitt vorgestellten Arbeiten bestätigen somit zwar die Existenz typischer prosodischer Kennzeichen von Sprachen, die vor allem mit der unterschiedlichen Salienz der Prominenzkontur zusammenhängen mag, können jedoch nur wenig zu ihrer genaueren Beschreibung beitragen. Immerhin stellen die Untersuchungen von Miller (1984)

171 und Benguerel (1999) auch für die Perception die Subsumtion des morenbasierten Rhythmus unter die Silbenzählung in Frage. Bei Ramus et al. (2000) schließlich deutet sich an, daß auch die Prominenzkontur in der Rhythmuswahrnehmung zu berücksichtigen ist. Auch die Befunde zur rhythmischen Identität und Identifikation von Sprachen legen somit einen zweidimensionalen, Zeit und Prominenz berücksichtigenden, typologischen Ansatz nahe.

4.1.3

Untersuchungen zur Produktion

Eine nachhaltige experimentelle Stützung erfährt die These, wonach Isochrome der Prominenzen zwar keine universelle, wohl aber eine sprachtypspezifìsche Produktionspräferenz bilde, durch die Methode des speech cycling. Bereits Kohler (1986) führt solche Untersuchungen durch, wo deutsche Sprecher zu einem festen Metronomtakt Äußerungen produzieren mußten, und erläutert die Idee dahinter wie folgt: In our attempt [... ] to come to grips with the question of stress-timing, we reversed the strategy of data collection compared to previous investigations. Speech was not produced to be subsequently measured as to its isocbrony; rather, an isochronous measure was imposed, and it was checked whether the speaker was able to adjust his or her speech to it by applying the compression principle, and to what extent the speaker was able to carry it through. (Kohler 1986, 271) Diese Vorgehensweise ist in den letzten Jahren vor allem von Port und Kollegen aufgegriffen und weiterentwickelt worden (vgl. Port/Cummins/Gasser 1995, Cummins/Port 1998 und Port/Tajima/Cummins 1999 zum amerikanischen Englisch, sowie Tajima/Zawaydeh/Kitahara 1999 zu Arabisch, Englisch und Japanisch). Ebenso wie nämlich die intergesturale Koordination bei Bewegungen beider Hände bevorzugt in einfachen Taktverhältnissen erfolgt, wie jeder Klavierschüler weiß, so findet sich auch in der zeitlichen Abstimmung des Sprechens bei laufendem Metronom eine Präferenz für solche rhythmisch einfachen Ablaufmuster. In einer Produktionsaufgabe, wo englischsprachige Testpersonen den Ausdruck Take a pack of cards viele Male zu wiederholen hatten, ergibt sich nach Port/Cummins/Gasser (1995) dabei, daß die prominenten Silben - und nur sie - zeitlich koordiniert werden. Mit zunehmender Anzal der Wiederholungen fallen sie immer häufiger genau auf den Schlag, in die Mitte des Taktintervalls, oder ungefähr zu Beginn der zweiten oder dritten Taktzeit bei einer Drittelung des Taktes. Cummins/Port (1998) und Port/Tajima/Cummins (1999) finden auch in Nachfolgeexperimenten mit weiteren Testpersonen und anderen Ausdrücken ähnliche Ergebnisse. Allerdings werden bei Mischungen von binären und ternären Alternationen wie etwa in Bake the beans in a den zwischen den drei Prominenzen meist nicht mehr isochrone Abstände produziert, die Silbe beans etwa beginnt schon etwas vor der halben Taktzeit. Bemerkenswert ist aber, daß auch diese leichten Abweichungen von der metronombasierten Skandierung bei den Testpersonen mit großer Einheitlichkeit erfolgen. Nach Tajima/Zawaydeh/Kitahara (1999) ergeben sich ähnliche Präferenzen für eine einfache zeitliche Koordination prominenter Silben auch bei speech cyc/mg-Experimenten zum Arabischen. Lediglich das Ausmaß der Isochronisierungsleistung ist durchweg geringer. Wieder verhalten sich die Testpersonen aber auch dann auffällig einheitlich, wenn sie von den einfachen Taktzeiten abweichen. Ob hierfür vokalische Quantitätskontraste mitverantwortlich sind, wie ich vermute, geht aus den wenigen präsentierten Daten nicht klar hervor. Eindeutig zeigt sich dagegen für das Japanische, daß hier die tonalen Prominenzen beim skandieren-

172 den Sprechen keine Rolle spielen, sondern sich nach einiger Zeit nur eine gewisse zeitliche Abstimmung mit den Phrasengrenzen einstellt. In einem entsprechenden Experiment zum Französischen von Jankowski (2001) werden ähnliche rhythmisch einfache Taktaufteilungen wie in den anderen untersuchten Sprachen bevorzugt. Als Bezugspunkte der Rhythmisierung dienen dabei aber ausschließlich die phrasenfinalen Silben. Dies ist wohl mit keinem Konzept von Silbenzählung zu erklären, nach unserer in 3 entwickelten Theorie jedoch erwartbar. Auch wenn die Aufgabenstellung in den speech c_yc//ng-Studien denkbar realitätsfern wirken mag, so ermutigt dieser Ansatz aus der sogenannten Laborphonologie doch, bei der Suche nach Tendenzen der zeitlichen Organisation von Äußerungen auch skandierendes Sprechen experimentell zu untersuchen. Besonders die Einheitlichkeit, mit der Sprecher der gleichen Sprache ihre Rhythmisierungen durchführen, und die Unterschiede, die sich zwischen den Sprachen ergeben, sprechen meiner Ansicht nach durchaus für die Brauchbarkeit der Methode (vgl. zu einer ähnlichen Einschätzung der Laborphonologie Laver 1994,434). Doch auch ohne Metronom lassen sich interessante Daten für die Rhythmustypologie gewinnen: Kubozono (1995; 1996) führt Versprecher aus japanischen Gesprächen an, die ebenfalls auf die Morenbasiertheit dieser Sprache hindeuten, da in ihnen zwar vielfältige segmentale Modifikationen auftreten, jedoch nur selten die Morenzahl der intendierten Formen verfehlt wird. Dagegen findet Cutler (1980) in ihrem Korpus englischer Versprecher, wie bereits in 1.2.1.1 erwähnt, eine Tendenz zur Regularisierung der Prominenzalternanz. Die damit verbundenen Reduktionen der Silbenzahl (und somit, bei moraischer Gliederung, meist auch der Morenzahl) sind im Englischen typisch, nicht jedoch im Japanischen. Wer also in solchen sprachlichen Fehlleistungen von seiner intendierten Äußerung nur minimal abweicht, produziert im Japanischen meist eine Äußerung mit korrekter Zeitstruktur, im Englischen dagegen lediglich mit der richtigen Anzahl prominenter Silben, wie in den Beispielen unter (64) zu ersehen: (64) Morenkonstanz vs. Optimierung der Prominenzalternation in japanischen und englischen Versprechern (Kubozono 1995, 143 und Cutler 1980, 186) jap.

engl.

produzierte Form

intendierte Form

sutensyon zyuugo pansento uden ni noreosi 'Next we have this bi'cential 'rug 'in the me'trolitan area

suteisyon 'Bahnhof' zyuugo paasento 'fünfzehn Prozent' noren ni udeosi 'einen Vorhang aufziehen' 'Next we have this bicen'tennial 'rug 'in the metro politan area

Auch mit spontanen Wortneubildungen hat man versucht, Indizien für unterschiedliche rhythmische Grundeinheiten in den Sprachen zu gewinnen: Nach Kubozono (1995) zeigt sich hier ein weiteres Mal die Rolle der Moreneinheit im Japanischen, wo Anglophone in CVC-Silben bereits vor dem Vokal abtrennen, Japaner jedoch erst nach dem Nukleus. So bilden beispielsweise die US-Amerikaner in seiner Studie aus den beiden Wörtern pen und fat meist die Form pat, was an die lexikalisierte Kontamination von breakfast und lunch zu brunch erinnert. Die Japaner bevorzugen hingegen eine Kombination der ersten und zweiten More und bilden stattdessen pet. Kubozono (1995) diskutiert den Einfluß der Orthographie auf das Kreuzungsverfahren und weist darauf hin, daß zwar die japanischen kana-Grapheme eine morenbasierte Aufteilung nahelegen, umgekehrt jedoch eine Onset-Reim-Gliederung in einer Alphabetschrift nicht unterstützt wird. Dieses Argument für die Bedeutung der More wird aber dadurch geschwächt, daß Sprecher des Italienischen, Spanischen und Koreanischen die

173 Silben wie die Japaner ebenfalls in CV und C unterteilen. Für mehrsilbige Wortkreuzungen können dagegen Cutler/Young (1994) nachweisen, daß englische Informanten Wörter eher als japanische vor einer metrisch starken als vor einer schwachen Silbe abschneiden, und im Gegensatz zu den Japanern auch in ihren Akzeptabilitätsbeurteilungen für vorgeschlagene Wortneubildungen intakte Fußeinheiten favorisieren. Eine unabhängige Stützung erfährt die moraische beziehungsweise in Onset und Reim einteilende Analyse der Silbe aber an einer anderen Stelle, wo eine rhythmische Grundlage viel naheliegender als in der Wortbildung erscheint, nämlich im Stottern: Hier repetieren Japaner in mehr als 90 % der Fälle die erste More, Anglophone hingegen am häufigsten Onsetkonsonanten, wie unter (65) exemplarisch veranschaulicht: (65) Moraische vs. Onset-Reim-Gliederung in japanischen und englischen Stotterdaten (Kubozono 1996, 80f.) jap. so- so- soosiki 'Beerdigung' na- na- na- nande 'Wie kommt es?' engl, n- n- n- n- never d- d- difficult Daß die moraische Gliederung des Japanischen nicht allein durch die Graphie nahegelegt wird, beweist eindeutig das besonders bei Kindern im Vorschulalter beliebte Sprachspiel Shiritori: Nach Katada (1990) müssen hier die Mitspieler reihum ein Wort nennen, wobei die jeweils nächste Form vom Ende der zuvor genannten abhängt. Wie in den beiden Ablaufbeispielen unter (66) zu erkennen, lautet die Regel, daß das Folgewort mit der letzten More des vorherigen Ubereinstimmen muß ('N' bezeichnet einen Nasalkonsonanten, dessen Artikulationsort im Japanischen durch die Umgebung festgelegt wird): (66) Shiritori im Japanischen (Katada 1990) (a) kao (b) oNgaku kusuri riNgo gohaN (Ende) *haNgo

budoo origami miNku kuuki kiriN(Ende)

Das Spiel endet, sobald einer der Mitspieler ein auf Nasal auslautendes Wort genannt hat, da kein Wort im Japanischen mit einem solchen Konsonant beginnt. Eine Fortsetzung von jap. gohaN in (66a) etwa durch haNgo ist nicht zulässig: Nicht die letzte Silbe, sondern die letzte More muß den Anfang des nächsten Wortes bilden. Zwar bildet bei japanischen Kleinkindern nach Inagaki/Hatano/Otake (2000) zunächst die Silbe die Basis der prosodischen Gestaltung, im Einklang mit der von uns postulierten Universalität der silbischen Grundlage des Sprachrhythmus. Die Moreneinheit wird jungen Japanern jedoch zusätzlich verfügbar, sobald sie sich das phonologische System ihrer Muttersprache aneignen, also insbesondere schon vor dem Schriftspracherwerb. Deutlicher als in den bisher vorgestellen Ergebnissen sprechen die Produktionsaufgaben und -fehlleistungen sowie die Sprachspiele für die Morenbasiertheit des Japanischen. Auch die Dominanz der Prominenzkontur im Englischen findet sich experimentell und in Versprechern bestätigt. Schließlich zeigt die speech cyc/wig-Methode die phrasale Organisation des Französischen. Die unterschiedliche Bedeutung von Zeitstruktur und Prominenzkontur in den Sprachen belegen auch Untersuchungen zur Worterkennung und -segmentation, auf die wir als nächstes eingehen.

174 4.1.4

Untersuchungen zur Perzeption

Die psycholinguistische Forschung zu rhythmischen Gestalten ist nach Cutler (1999, 49) "vergleichsweise unterentwickelt", was auch daran liegt, daß sie methodisch größere Schwierigkeiten bietet als etwa Untersuchungen zur visuellen Worterkennung. Ferner beklagt Cutler in ihrem Forschungsüberblick, daß immer wieder die gleichen Sprachen mit häufig ähnlicher Fragestellung untersucht werden. So dominieren mit großem Abstand Arbeiten zum Englischen, Niederländischen, Japanischen und Französischen, wogegen sich laut Cutler "auffallend wenige" Studien etwa dem Deutschen widmen; auch romanische Sprachen außer Französisch sind, soweit ich sehe, nur unzureichend vertreten. Oftmals werden dabei in solchen Studien Reaktionszeiten von Testpersonen gemessen, die in akustisch oder visuell präsentierten Wortformen so schnell als möglich bestimmte Segmente oder Silben ausfindig machen sollen. Auch in der deutschen Fachsprache hat sich für diese Suchziele der Begriff Target eingebürgert. Besonders Mehler und seine Mitarbeiter sowie Cutler haben dabei immer deutlicher zeigen können, daß die Erkennungsgeschwindigkeit in solchen Aufgaben wesentlich von der prosodischen Struktur abhängt (vgl. als Überblick Cutler 1999). Zunächst weisen Mehler et al. (1981) nach, daß französische Testpersonen Target-Segmentfolgen am Wortanfang schneller identifizieren, wenn sie die erste Silbe der Wortform bilden: So wird beispielsweise [pa] in fr. palace rascher entdeckt als in palmier, bei [pal] verhält es sich gerade umgekehrt. Nach Cutler et al. (1986) bleibt dieser Vorteil silbischer Targets selbst dann erhalten, wenn die präsentierten Wörter aus dem Englischen stammen. Frankophone haben offenbar eine silbenbasierte Segmentationsstrategie im Spracherwerb entwickelt, die sie auch in der Fremdsprache anwenden. Sogar bilinguale Sprecher des Englischen und Französischen beherrschen, wie sich in einer Folgeuntersuchung (Cutler et al. 1992) zeigt, offenbar immer nur eine einzige Zerlegungstechnik, nämlich entweder die silbenbasierte des Französischen oder die des Englischen. Daß die Segmentierung im Englischen aber auf der Grundlage der Prominenzen erfolgt, zeigen Worterkennungsexperimente mit Anglophonen: Da, wie Cutler/Carter (1987) in der Auswertung eines Korpus feststellen, etwa 73 % aller Lemmata eines mittelgroßen englischen Wörterbuchs und sogar 90 % der Lexeme des Grundwortschatzes mit einer Akzentsilbe beginnen, kann die Prominenzkontur als Heuristik in der Segmentation dienen: Sprecher des Englischen setzen hypothetisch einen Wortanfang vor eine prominente Silbe und identifizieren entsprechend auf der ersten Silbe akzentuierte Formen in Sätzen am schnellsten (vgl. ähnlich Heuven/Hagman 1988 für das Niederländische). Auch werden nach Cutler/Butterfield (1992) bei falschen Worttrennungen von Anglophonen meist Grenzen vor einer starken Silbe eingefügt, nur selten jedoch getilgt: So wird were waking kaum als awaken mißverstanden, achieve dagegen leicht als a cheap. Auch in der Sammlung von 'Verhörern' bei Bond (1999, 14) findet sich ein Beispiel, nämlich die Fehlinterpretation von attacks in the ear als a tax on the ear. Mit japanischen Testpersonen zeigen Otake et al. (1993) außerdem, daß die Erkennungszeiten bei ihnen davon abhängen, ob das Target eine eigene More darstellt oder nicht. So wird von ihnen [tan] in jap. tanshi schneller entdeckt als in tanishi, wo das [n] ja nur einen Teil der zweiten More bildet. In der Form tanshi jedoch finden die Japaner das einmorige Target [ta] etwas schneller als die zweimorige Einheit [tan]. Dagegen entdecken Franzosen das silbische Target [tan] eher als [ta], was ein weiteres Mal auf ihre silbenbasierte Segmentierung hinweist. Nach Cutler/Otake (1994) bleibt bei Japanern der perzeptive Vorteil für mo-

175 raische Einheiten sogar bei analogen Erkennungsaufgaben mit englischen Wörtern deutlich. McQueen/Otake/Cutler (2001) fuhren weitere Experimente durch, in denen japanische Testpersonen Wortformen erkennen sollten, die in größere Nonsenswörter eingebettet sind, wie etwa jap. agura 'mit Uberkreuzten Beinen sitzen' in der Phantasieform oagara. Dabei werden solche Targets, die auf ein im Japanischen mögliches Wort folgen, weit schneller erkannt als Targets nach einem einfachen nicht-nasalen Konsonanten, der eben keine Morengrenze und somit auch keine mögliche Wortgrenze bildet. Nach Nasalkonsonanten hingegen ergeben sich besonders niedrige Reaktionszeiten, da diese im Japanischen häufig eine eigene More bilden und in diesem Fall oft am Wortende stehen. McQueen/Otake/Cutler betrachten diese Ergebnisse auch als Indiz fUr die Wichtigkeit der moraischen Gliederung bei der Segmentation von Spontansprache. Sogar mit künstlich manipulierter Lautsprache hat man Evidenz für sprachrhythmische Typen liefern wollen: So zeigen Pallier et al. (1998) in Experimenten zur Verstehbarkeit schneller abgespielter Sprachaufzeichnungen, daß sich Versuchspersonen nach kurzer Zeit 'einhören' und selbst bei einer Beschleunigung fast um das Dreifache noch etwa 90 % der Testsätze korrekt erkennen. Interessanterweise ergibt sich nun auch für spanische Versuchspersonen, die keiner weiteren iberoromanischen Sprache mächtig sind, eine solche Eingewöhnung, wenn sie zu Beginn beschleunigte katalanische Sätze hören. Dagegen fehlt ein vergleichbarer Habituationseffekt bei Anglophonen mit guten Französischkenntnissen, denen man zuerst französische und dann englische Sätze in erhöhtem Wiedergabetempo vorspielt. Ebenso hilft den im Englischen versierten Franzosen der Studie bei einer umgekehrten Reihenfolge der Präsentation eine Trainingszeit mit englischen Sätzen nicht. Da somit der Erfolg der Habituation nicht mit der Beherrschung der Sprache, sondern mit ihrer rhythmustypologischen Vergleichbarkeit korreliert, folgern die Autoren, daß sogar in dieser äußerst ungewohnten Hörsituation die rhythmische Kontur wichtig für das Verstehen ist. Wünschenswert wäre allerdings für die Bedingung mit gleichem rhythmischen Typus die Wahl von zwei Sprachen mit größerer phonetischer, grammatischer und lexikalischer Verschiedenheit, als dies für das Spanische und Katalanische der Fall ist. Weitere Untersuchungen belegen auch, daß Kontraste in einer rhythmischen Dimension der Muttersprache die Aufmerksamkeit beeinflussen: So reagieren nach Dupoux et al. (1997) französische Probanden in einem Experiment zur Wiedererkennung segmental gleicher Kunstwörter deutlich langsamer und mit mehr Fehlern als spanische, wenn sich zwei Stimuli nur in der Lage des Akzents unterscheiden. In einer Folgeuntersuchung (Dupoux et al. 1999) mit französischen und japanischen Testpersonen zeigt sich, daß der Quantitätskontrast in japanischen Wortformen wie ebuzo vs. ebuuzo von Franzosen nur unzuverlässig perzipiert wird. Da allerdings ausschließlich wortmediale Dauerkontraste zu erkennen waren, spricht dieses Ergebnis aber nicht gegen eine Automatisierung und Insensitivität der Franzosen gegenüber jeglichen durationalen Oppositionen, sondern eher für eine selektive Aufmerksamkeit gegenüber solchen suprasegmentalen Eigenschaften, die in der Muttersprache phonologisch bedeutsam sind. Evidenz für die satzphonologische Determination der Zeitstruktur im Französischen bilden dagegen die Ergebnisse von Dahan (1996), die französische und niederländische Testpersonen vor die Aufgabe stellte, in einer Reihe aufgezeichneter französischer Sätze das Vorkommen bestimmer Silben festzustellen. Da die Niederländer im Experiment des Französischen nicht mächtig waren, benötigten sie, wie nicht anders zu erwarten, durchweg etwas länger. Interessanterweise entdeckten die Franzosen die Target-Silben bei gleichbleibender Positi-

176 on im Wort umso schneller, je näher diese Silbe am Ende einer phonologischen Phrase zu stehen kam. Bei den Niederländern ergab sich dagegen keine vergleichbare Positionsabhängigkeit. Diese perzeptive Dominanz der rechten Grenze harmoniert dabei mit der manchmal für das Französische festgestellten Tendenz zu einer auf das Ende syntaktischer Phrasen hin konzentrierten Informationsverteilung. Auch die Studie von Janota/Ondráková (1975) zum Tschechischen belegt die sprachspezifische Konzentration auf die Zeit oder die Prominenzkontur in der Perzeption. Das Tschechische hat Vokalquantität und einen festen Wortakzent auf der ersten Silbe. Versuchspersonen wurden gebeten, in dem Trägersatz tschech. Rekni... znovu 'Sage . . . noch einmal* verschiedene in der Sprache nicht vorkommende, aber phonologisch mögliche Wortformen einzufügen. Alle Wortformen bestanden aus zwei oder drei Silben und variierten in der Vokalquantität und der angegebenen Akzentposition. Die Wortformen wurden, eingebettet in die Trägersätze, tschechischen und französischen Testpersonen vorgespielt. Es zeigte sich, daß von den Tschechen, anders als von den Franzosen, Quantitätskontraste wie etwa zwischen gagaga und gagaaga weitaus zuverlässiger perzipiert wurden als Unterschiede in der Wortakzentposition. In diesem Zusammenhang zu nennen ist auch die Untersuchung von Suomi/McQueen/Cutler (1997) zur Worterkennung im Finnischen, einer weiteren Quantitätssprache mit Initialakzent. Obwohl diese Akzentlage zur Demarkation ideal erscheint, beeinträchtigen nach Ausweis der Reaktionszeiten fehlende Prominenzen die Erkennung keineswegs, solange die Vokalharmonie als Segmentierungshinweis erhalten bleibt. Auch hier deutet sich also die geringere Bedeutung der Prominenzkontur in einer Quantitätssprache an (vgl. dagegen Vroomen/Tuomainen/de Gelder 1998, die die Rolle des Akzents höher bewerten als die von Vokal(dis)harmonien, in ihren Experimenten allerdings mit synthetisierten tonalen Prominenzen arbeiten). Umgekehrt argumentieren Grover/Terken (1995) bei einem Perzeptionsexperiment zur Rhythmikalitätsbewertung von réitérant speec/i-Stimuli durch niederländische Testpersonen für eine Dominanz der Prominenzen in dieser Sprache. Erstaunlicherweise zeigt sich jedoch ausgerechnet im Englischen nach Slowiaczek (1990) und Fear/Cutler/Butterfield (1995) eine recht hohe Akzeptanz und korrekte Erkennung bei falsch betonten Wortformen, solange die Qualität der Vokale erhalten bleibt. Dieser Befund ist jedoch nur von geringer Bedeutung für die Alltagskommunikation, da im Englischen - weit stärker als im Niederländischen und Deutschen - nicht prominente Silben reduziert werden, unterschiedliche Prominenzgebungen auf Wörtern also meist segmentale Auswirkungen zeigen (vgl. auch die Experimente von Cooper/Cutler/Wales 2002 zu Unterschieden zwischen Niederländern und Anglophonen). Außerdem finden Bertinetto/Fowler (1989), daß englische Testpersonen weniger sensibel auf Veränderungen der Dauer unbetonter Silben reagierten als Italiener, was zumindest indirekt für die Nachrangigkeit der Zeitstruktur im Englischen spricht. Insgesamt erweisen die Forschungen zur Perzeption ihre Prägung durch die Prosodie der Muttersprache nicht nur in der Segmentationsstrategie, sondern auch bei Erkennungsaufgaben, wo der phonologische Primat von Zeit oder Prominenz sich in den Reaktionszeiten und Fehlerhäufigkeiten niederschlägt. Im verstehenden Zuhören und sogar schon beim Hören fremder oder inexistenter Formen zeigt sich außerdem, daß die Bedeutung, die den beiden rhythmischen Dimensionen in der Muttersprache jeweils zukommt, maßgeblich die Aufmerksamkeit und Unterscheidungsfahigkeit bestimmt. Wiederum kann eine Rhythmusphonologie, die sich auf Zeit oder Prominenz alleine beschränkt, diesen Befunden nicht Rechnung tragen.

177 4.2

Spracherwerb und Sprachverlust

Nach den im letzten Abschnitt besprochenen Untersuchungen der normal entwickelten Sprachkompetenz sollen nunmehr auch Ergebnisse der psycholinguistischen Forschung zu noch nicht oder nicht mehr voll ausgebildeten sprachlichen Fertigkeiten vorgestellt werden. Dabei gehen wir zunächst auf die Rolle rhythmischer Konturen beim Erlernen der Muttersprache ein, anschließend auf die Fremdsprachendidaktik und zuletzt auf Erwachsene mit sprachlichen Defiziten.

4.2.1

Erstspracherwerb

Der Frage, wie Kinder in das Sprachsystem 'einsteigen', ist in den letzten Jahrzehnten immer größere Aufmerksamkeit zuteil geworden. Hierbei verlagerte sich das Forschungsinteresse von der Syntax und Morphologie zunehmend auf die prosodischen Strukturierungen, die dem Kind das sogenannte bootstrapping, den Beginn eines konstruktiven und verstehenden Hörens ermöglichen. Nach Lea (1980,228f.) deutet die enge Korrelation in der Entwicklung rhythmischer und sprachlicher Fähigkeiten bei Kleinkindern dabei sogar auf einen kausalen Zusammenhang hin: Erst wenn rhythmische Grundeinheiten und Gestalten kognitiv zugänglich sind, werden auch syntaktische und morphologische Einheiten erkennbar. Das kontinuierliche Sprachsignal erlaubt nämlich auch bei unvollständigem lexikalischen und grammatischen Wissen bereits eine teilweise Segmentierung aufgrund der rhythmischen Kontur, obwohl, wie Jusczyk (1995, 289) betont, aus der prosodischen Gliederung die syntaktische nicht immer eindeutig hervorgeht.1 Ferner ist zu erwarten, daß das Erkennen und Wiedererkennen invarianter wortprosodischer Muster, etwa kolumnarer Akzente, den Aufbau morphologischer Paradigmen erleichtert. In Ergänzung hierzu sind in der Forschung zum frühen Spracherwerb auch vorsprachliche und erste sprachliche Produktionen von Kindern daraufhin untersucht worden, inwieweit sie bereits prosodische Eigenschaften der jeweiligen Zielsprache aufweisen. Kontrovers diskutiert wird dabei besonders in der theoretischen Phonologie, ob und, wenn ja, wie der Diskrepanz zwischen Verstehen und Sprechfertigkeit in dieser Altersstufe Rechnung zu tragen ist. Im folgenden gehen wir zunächst auf einige Untersuchungen zum frühen sprachlichen Input und seiner Wahrnehmung ein, danach auf neuere Modelle des prosodischen Spracherwerbs und schließlich auf rhythmische Konturen im reduplikativen Lallen und in ersten sprachlichen Äußerungen.

4.2.1.1

Frühkindliche Perzeption rhythmischer Konturen

Die Frage, wie Neugeborene und Kleinkinder Lautsprache wahrnehmen, kann nicht ohne eine Untersuchung der Äußerungen, die an Kinder im vorsprachlichen Alter gerichtet sind, 1

Ob die rhythmischen Konturen über eine grobe syntaktische Aufteilung hinaus noch weitere Schlüsse etwa auf Serialisierungsregularitäten erlauben, ist umstritten: Nespor/Guasti/Christophe (1996) argumentieren dafür, Venditti/Jun/Beckman (1996) dagegen.

178 beantwortet werden. In einer Reihe von Arbeiten untersucht vor allem Fernald Besonderheiten kindadressierten Sprechens (vgl. Fernald 1989; 2000, Fernald et al. 1989, Fernald/Mazzi 1991). Dabei identifiziert sie neben dem geringeren Sprechtempo und der deutlicheren Gliederung der Rede durch längere markante Pausen vor allem melodische Charakteristika. So treten nicht nur im Englischen, sondern auch im Deutschen, Italienischen, Französischen und Japanischen, in Sprachen aller unserer rhythmischen Typen also, nach Fernald et al. (1989) bei Müttern und Vätern in der sprachlichen Interaktion mit Einjährigen stärkere intonatorische Bewegungen auf. Für das amerikanische Englisch zeigt Fernald ( 1989) außerdem, daß Erwachsene bestimmte kommunikative Intentionen, die sich indexikalisch in der Sprechmelodie niederschlagen, bei kindadressierten Äußerungen wesentlich zuverlässiger richtig identifizieren als bei solchen, die für Erwachsene produziert wurden. Dies gilt sogar dann, wenn in den Aufzeichnungen hohe Frequenzen herausgefiltert werden, so daß nur die suprasegmentale Kontur bewahrt bleibt. Hieraus schließt die Autorin, daß auch Kleinkindern bereits solche parasprachlichen prosodischen Informationen zugänglich sein sollten. In Fernald (2000) wird diese These zu einer Beschreibung kindadressierten Sprechens als "hyperspeech" verallgemeinert. Dieses Uberdeutliche Reden erleichtert das Verstehen dadurch, daß diejenigen prosodischen Konturen, für die bereits Kleinkinder empfänglich sind, besonders deutlich ausgeführt werden. Insbesondere zeigen Fernald/Mazzie (1991) in zwei Untersuchungen, in denen anglophone Mütter ihren vierzehn Monate alten Kindern einfache Bildergeschichten in freien Worten erläuterten, daß auch Fokusakzente besonders stark markiert werden, und zwar sowohl melodisch als auch durch Intensität und Dauer. Hingegen kennzeichnen die gleichen Mütter in Gesprächen mit Erwachsenen fokussierte Einheiten wesentlich variabler und meist schwächer. Auch dies deutet darauf hin, daß im beginnenden Sprachverstehen bei englischsprachigen Kindern die Prominenzkontur, unterstützt durch tonale Korrelate, eine große Rolle spielt und durch typische Sprechweisen in der Unterhaltung mit ihnen gefördert wird. Leider sind mir keine vergleichbaren Untersuchungen der Fokusmarkierung in kindadressiertem Sprechen aus Sprachen bekannt, in denen die Lage der Prominenzen weniger flexibel in den Dienst der Satzphonologie tritt. Sollte sich Fernaids These als richtig erweisen, derzufolge elterntypische Sprechstile in ihrer Prosodie den Erwerb der Zielsprache erleichtern, so ist zu erwarten, daß sich etwa in Sprachen mit festerer Fokusposition oder mit tonalen Kontrasten andere melodische Besonderheiten zeigen. Durch neue experimentelle Vorgehensweisen ist es im Laufe der letzten dreißig Jahre gelungen, schon in Bezug auf die Wahrnehmung sprachlicher Signale durch Säuglinge vielfältige Hinweise zu erhalten. Besonders die quantitative Erfassung von Saugfrequenzen und -Intensitäten (die sogenannte high amplitude sucking procedure) sowie von Kopf- und Blickbewegungen in Richtung auf Lautsprecher (die head turn preference procedure) erlauben Aufschlüsse über die Aufmerksamkeit und insbesondere Sensitivität für Unterschiede im sprachlichen Signal. Auf der Grundlage solcher Untersuchungen kommen Mehler et al. (1988) zu der Behauptung, daß bereits Neugeborene im Alter von vier Tagen Äußerungen in verschiedenen Sprachen unterscheiden können: Dabei wurden zehn Säuglingen aus französischen Elternhäusern zunächst einige französische Sätze und danach einige russische vorgespielt, die von ein und derselben bilingualen Sprecherin stammten. Weitere zehn bekamen zuerst russische, dann französische Ausschnitte präsentiert, Säuglinge der beiden Kontrollgruppen zweimal französische oder zweimal russische. Hierbei zeigt sich beim Sprachenwechsel eine signifikan-

179 te Erhöhung der Saugfrequenz, nicht jedoch in der Kontrollgruppe beim Neueinsatz in der gleichen Sprache. Dieses Ergebnis bleibt auch dann erhalten, wenn in den vorgespielten Aufnahmen die segmentale Information ausgefiltert wird. Es verschwindet dagegen, wenn die Aufnahmen rückwärts abgespielt werden. Akustische Charakteristika von Segmenten und die Relation vokalischer und konsonantischer Anteile sowie ihre jeweilige Dauervariation bleiben jedoch auch bei zeitlicher Umkehrung erhalten. Nicht sie und mit ihnen verbundene silbenprosodische Charakteristika können also die Grundlage der frühkindlichen Fähigkeit zur Sprachunterscheidung bilden, sondern nur rhythmische oder melodische Eigenschaften. Somit sprechen die Daten der Neugeborenen ein weiteres Mal gegen die bereits in 4.1.1 kritisierte Suche nach prosodischen Sprachtypen in silbenstrukturellen Besonderheiten. Mehler et al. (1988) fragen in ihrer Testreihe auch danach, ob die Wahrnehmung der Verschiedenheit im Säuglingsalter auf bestimmte Sprachenpaare beschränkt ist und dabei auch von der Sprache der Eltern abhängt. Dazu wiederholen sie das Experiment mit Säuglingen aus Pariser Familien, in denen zuhause eine andere Sprache als Französisch gesprochen wird. Interessanterweise erweist das Saugverhalten dieser Gruppe keine vergleichbare Reaktion auf einen Wechsel der Sprache. Weitere Versuche werden analog mit Äußerungen eines Sprechers durchgeführt, der bilinguale Kompetenz im Englischen und Italienischen besitzt. Hier reagierten Säuglinge im Alter von etwa zwei Monaten, die in ihren ersten Wochen nur Englisch gehört hatten, durch verstärktes Saugen auf einen Sprach Wechsel, nicht jedoch ihre Altersgenossen aus frankophoner Umgebung. Nach Mehler et al. deutet die Versuchsreihe insgesamt daraufhin, daß die rhythmische und melodische Eigenart der Muttersprache bereits kurz nach der Geburt von anderen Sprachen unterschieden wird. Jusczyk (1995, 286) betont, daß im Spracherwerb in mehrsprachigen Umgebungen, der nach Mehler et al. (1996, 101) eher die Regel als die Ausnahme darstellt, eine solche Fähigkeit zur Sprachunterscheidung für das Kleinkind von hohem Nutzen sein kann. Lieberman (1996,59) merkt allerdings kritisch an, daß eine Ausfilterung der Frequenzen oberhalb von 400 Hz, wie sie von Mehler et al. zur Erzeugung eines 'rein prosodischen' Signals gewählt wurde, keineswegs eine zuverlässige Ausblendung segmentaler Information erlaubt. Ergebnisse einer Folgeuntersuchung (Mehler/Christophe 1995) deuten außerdem daraufhin, daß auch französische Neugeborene einen Wechsel zwischen Italienisch und Englisch bemerken. Nazzi/Bertoncini/Mehler (1998) schließlich gehen gezielt der Frage nach, inwieweit rhythmische Unterschiede dieser sehr früh ausgeprägten Differenzwahrnehmung zugrundeliegen können. In Auswertungen von jeweils zwischen 32 und 40 französischen Babys ergibt sich, daß diese nicht nur auf ihre 'Muttersprache' Französisch anders als auf fremde Sprachen reagieren, sondern sich auch signifikante Unterschiede in der Gewöhnung an englische und japanische Stimuli und beim Wechsel in die jeweils andere Sprache zeigen. Eine vergleichbare Erregung von Aufmerksamkeit durch eine neue Sprache ist jedoch nicht bei einem Übergang vom Englischen zum Niederländischen und zurück feststellbar. In einem dritten Experiment überprüfen die Autoren ihre These, daß die Säuglinge nur auf Sprachen eines anderen rhythmischen Typs mit verstärktem Saugen antworten, indem sie aus einer Menge von englischen, niederländischen, italienischen und spanischen Äußerungen verschiedenen Neugeborenen zunächst je eine Sprache darbieten und danach jeweils eine der drei anderen. Gerade in diesem Experiment können sie mit erstaunlicher Deutlichkeit zeigen, daß bei einem Wechsel zwischen germanischem und romanischem Material die Aufmerksamkeit der Babys erregt wird, nicht jedoch bei einem Verbleib innerhalb der beiden Gruppen

180 Englisch und Niederländisch beziehungsweise Italienisch und Spanisch. Die Ergebnisse von Nazzi/Bertoncini/Mehler sprechen somit für eine Unterscheidungsfähigkeit zwischen prosodisch definierten Typen von Geburt an. Auch ohne einzelsprachliches phonologisches Wissen ergeben sich zumindest für drei der vier vorgeschlagenen rhythmischen Sprachtypen hinreichend verschiedene Gestalteindrücke, die meiner Vermutung nach vor allem aus der jeweils anderen Relation von Silbendauern und Betonungen, möglicherweise aber auch aus intonatorischen Unterschieden resultieren. Eine genauere Begrenzung der Diskriminationsbasis auf rhythmische Konturen unternimmt Ramus (2002b): Er verändert selektiv segmentale, silbenprosodische und intonatorische Eigenschaften in einem Resyntheseverfahren. Als Grundlage dienten ihm dabei niederländische und japanische Äußerungen vergleichbarer syntaktischer Komplexität. Paare modifizierter Stimuli wurden französischen Säuglingen vorgespielt. Insgesamt sind die Ergebnisse mit resynthetisiertem Sprachmaterial weniger eindeutig als bei einer Frequenzfilterung. Deutlich jedoch reagieren die Säuglinge in der Testreihe, wo allein rhythmische und silbenstrukturelle Eigenschaften bewahrt bleiben. Stärker als in der vorhergehenden Studie zeigt sich also mit der Resynthesetechnik die zentrale Rolle der Prosodie für die Sprachwahrnehmung der Neugeborenen. Neben dieser Fähigkeit zur Sprachunterscheidung schon kurz nach der Geburt ist in einer Reihe weiterer Arbeiten auch untersucht worden, welche prosodischen Einheiten bereits Säuglingen kognitiv zugänglich sind. So scheinen nach Bijeljac-Babic/Bertoncini/Mehler (1993) bereits französische Neugeborene im Alter von vier Tagen den Unterschied zwischen zwei- und dreisilbigen Formen zu bemerken, da sie erhöhte Aufmerksamkeit zeigen, wenn ihnen nach einer Reihe zweisilbiger Wörter plötzlich ausschließlich dreisilbige vorgespielt werden oder umgekehrt. Diese Empfindsamkeit für die Silbenzahl bleibt auch dann bewahrt, wenn die Wortdauern künstlich manipuliert werden. In einer Folgeuntersuchung von Bertoncini et al. (1995) ergeben sich zwar ebenfalls signifikante Reaktionsmuster bei zwei- und dreisilbigen Wortformen des Japanischen, jedoch keinerlei Hinweise auf eine analoge Sensitivität für Morenzahlen. Die Autoren werten dieses Ergebnis als weiteren Hinweis auf die universelle und von Anfang an vorhandene Salienz der silbischen Prosodie, für die innerhalb der experimentellen Psycholinguistik bereits Bertoncini/Mehler ( 1981) argumentieren. Diese steht im Gegensatz zu einer moraischen rhythmischen Grundgliederung, die nur in einem Teil der Sprachen vorliegt und im Spracherwerb erlernt werden muß. Ein weiteres Mal erweist sich somit die bereits in 2.2.1 behauptete nicht sprachtypspezifische Rolle der Silbe als rhythmischer Grundeinheit und umgekehrt die Fragwürdigkeit von typologischen Ansätzen, die nur für bestimmte Sprachen Silben als grundlegend anerkennen. Schließlich liefern einige psychologische Testverfahren auch Hinweise auf die Entwicklung von universellen und sprachspezifischen Fähigkeiten zur Segmentierung während des ersten Lebensjahres. So hören nach Hirsh-Pasek et al. (1987) bereits Kleinkinder mit sieben Monaten deutlich länger solchen Aufzeichnungen zu, in denen an Satzgrenzen zusätzliche Pausen eingefügt würden, als anderen mit Unterbrechungen an beliebiger Stelle. Jusczyk et al. (1992) bringen vergleichbare Befunde auch für die prosodische Phrasengliederung bei, deren Bedeutung für das syntaktische bootstrapping allerdings umstritten ist (vgl. zusammenfassend Morgan/Demuth 1996, 16). Während eine Präferenz für die Deckung größerer melodischer und rhythmischer Einheiten als universell gelten darf, ja nicht einmal auf Sprache beschränkt zu sein scheint, wie entsprechende Untersuchungen mit klassischer Musik

181 bei Jusczyk/Krumhansl (1993) belegen, zeigen weitere Untersuchungen, daß spätestens in der Segmentation von Worteinheiten auch einzelsprachliche Besonderheiten genutzt werden: Ungeachtet einiger Befunde, die für eine solche Zerlegungsfähigkeit schon bei Kindern mit 7,5 Monaten in englischer Umgebung sprechen (vgl. Jusczyk/Aslin 1995), steht die Forschung hier noch in den Anfängen. Insbesondere bleibt zu klären, in welchem Umfang jeweils allophonische, phonotaktische und prosodische Distributionsregularitäten herangezogen werden. Cutler/Mehler (1993) postulieren eine von Anfang an vorhandene Suchtendenz nach akustischen Einheiten, die im Signal periodisch wiederkehren. Diese sogenannte periodicity bias wirkt meiner Ansicht nach als frühe Heuristik plausibel, da die mittlerweile beigebrachte Evidenz zeigt, daß schon kurz nach der Geburt rhythmische Eigenschaften der Sprache bemerkt werden. Der Schluß von Cutler/Mehler jedoch, daß eine Fokussierung der Aufmerksamkeit auf rhythmische Einheiten und Gestalten Teil der genetischen Ausstattung sein muß, scheint nicht zwingend und bleibt beim gegenwärtigen Kenntnisstand stipulativ. Auch wenn wir im Einklang mit der Argumentation von 2.1 auf eine solche apriorische Rhythmizitätsannahme verzichten, bleiben die Unterscheidungsfähigkeiten von Säuglingen und die frühe Herausbildung probabilistischer Strategien in der Segmentierung verständlich: Auch in anderen Zusammenhängen hat sich nämlich gezeigt, daß bereits im ersten Lebensjahr erstaunliche Fähigkeiten vorhanden sind, statistische Tendenzen in akustischen Signalen wahrzunehmen (vgl. die Hinweise bei Jusczyk 1998, 210). Die Prägnanz rhythmischer Unterschiede und Gliederungen besteht aber schon vor dem Beginn einer sprachlichen Kompetenz und macht die Ansetzung einer spezifischen genetischen Prädisposition Uberflüssig. Umgekehrt zeigt sich, daß erst nach mehreren Monaten allmählich rhythmische Grundgestalten entdeckt werden, die in der Muttersprache dominieren. Kämen Kinder jedoch mit einer periodicity bias zur Welt, so bliebe fraglich, warum nach Echols/Crowhurst (1998) junge US-Amerikaner im Alter von neun Monaten, noch nicht jedoch mit sieben Monaten, Silbenfolgen mit binärer oder ternärer Prominenzalternation mehr Aufmerksamkeit widmen als solchen, die adjazente Betonungen enthalten. Vielmehr spricht dieses Ergebnis gegen eine biologische, etwa universalgrammatische Grundlage des von der Metrischen Phonologie angenommenen Alternanzideals und zeigt, daß sich eine solche Präferenz bei Kleinkindern in anglophoner Umgebung erst im Laufe des ersten Lebensjahres herausbildet. Auch eine Bevorzugung binärer Alternation gegenüber ternärer findet sich zumindest bei den neunmonatigen Probanden nicht bestätigt. Die Kenntnis rhythmischer Besonderheiten in dieser Altersstufe geht dabei mit einer selektiven Aufmerksamkeit für solche segmentalen Unterschiede einher, die in der Zielsprache phonologisch bedeutsam sind (vgl. Echols/Crowhurst 1998, 211 und die dortigen Literaturangaben). Nach Jusczyk/Cutler/Redanz (1993) achtet der anglophone Nachwuchs schon mit neun Monaten, also vor den ersten eigenen sprachlichen Produktionen, stärker auf isoliert gesprochene Wörter mit trochäischem Profil als auf Jamben. Dies steht mit der schon angesprochenen Dominanz des Trochäus in der englischen Wortprosodie im Einklang. Obwohl Kinder in diesem Alter noch kaum über zuverlässige Segmentationsfähigkeiten für zusammenhängende Äußerungen verfügen dürften, ist ihnen diese Einsicht in die typische akzentrhythmische Wortgestalt nicht verwehrt: Die Mehrheit der Einwortäußerungen des Englischen dürfte nämlich ebenfalls trochäisch sein (vgl. Allen/Hawkins 1980,237 zu englischen Substantiva). In noch höherem Maße gilt dies für englische Vornamen (vgl. Cutler/McQueen/Robinson 1990) und hypokoristische Bildungen sowie Diminutiva (vgl. Jusczyk 1998, 206), also gerade für solche Formen, die einen nicht unbeträchtlichen Teil des frühkindlichen Inputs aus-

182 machen. Dagegen reagieren US-amerikanische Kleinkinder mit sechs Monaten noch ohne Unterschied auf die rhythmischen Gestalten des Trochäus und des Jambus und scheinen allenfalls einige ihnen vertraute Wörter ungeachtet ihrer prosodischen Gestalt wiederzuerkennen (vgl. Morgan 1996). Die neuen Untersuchungsmethoden erlauben also Aussagen bereits Uber die Sprachwahrnehmung von Neugeborenen wenige Tage nach der Geburt. Schon bei ihnen zeigen die Studien von Mehler et al. (1988), Nazzi/Bertoncini/Mehler (1998) und Ramus (2002b), daß ihnen prosodische Unterschiede zwischen Sprachen, die verschiedenen rhythmischen Typen angehören, zugänglich sind. Weitere Experimente, insbesondere von Mehler und seinem Team, erweisen die zentrale Rolle der Silbeneinheit schon in der frühesten Perzeption, und zwar in verschiedenen Sprachen. Hingegen entwickelt sich die Fähigkeit zur Segmentation der zusammenhängend produzierten Äußerungsteile erst allmählich und fallt mit der beginnenden selektiven Aufmerksamkeit auf phonologisch bedeutsame Signaleigenschaften zusammen. Umgekehrt werden gerade diese, wie die Studien von Fernald/Mazzie (1991) zu Fokusakzenten belegen, in kindadressiertem Sprechen besonders deutlich gemacht. Diese erst später einsetzende Entdeckung phonologischer Kontureigenschaften in den rhythmischen Gestalten läßt meiner Auffassung nach Zweifel an einem universalgrammatischen oder kognitiven Wissen Uber Verfußung aufkommen. Daß im Zusammenhang mit dem Erwerb rhythmisch basierter Segmentationsstrategien auch von Mehler et al. (1996, 113f.) für ein zweidimensionales Modell einer time and intensity grid representation argumentiert wurde, erweist ein weiteres Mal die Plausibilität unseres Ansatzes.

4.2.1.2

Theorien des Phonologieerwerbs

Unabdingbar für jede Theorie des Phonologieerwerbs ist eine Klärung des Verhältnisses von Kinder- und Erwachsenensprache. Die einfachste, naiv anmutende Auffassung postuliert ganz einfach Identität: Kinder sind phonologisch als kleine Erwachsene zu beschreiben, Diskrepanzen in den sprachlichen Leistungen bilden keinen Gegenstand der theoretischen Linguistik. Eben diese Position wird in der Tat innerhalb der Generativen Phonologie vertreten: Hale/Reiss (1998) schreiben die Identität der phonologischen Prinzipien, auf denen unsere lautsprachliche Kompetenz beruht, in einer "Strong Identity Hypothesis" (S. 658) fest und bagatellisieren die unleugbaren Nichtidentitäten als Performanzdefizit. Ebenso wie das Erlernen von Grammatik, so beschränkt sich auch der Phonologieerwerb in diesem Modell darauf, eine kleine Menge von Parametern sprachspezifisch richtig zu setzen. Nun mag eine hinreichend abstrakt konzipierte phonologische Kompetenz in der Tat einer empirischen Evaluation entzogen sein - nichtsdestoweniger führt sie zu Vorhersagen, die sich ihrerseits beurteilen lassen. Wenn Kinder also die gleichen artikulatorischen Ziele verfolgen und im Rahmen ihrer Möglichkeiten versuchen sollten, die Aussprache Erwachsener zu imitieren, dann wäre zu erwarten, daß sie sich aufgrund der sich ständig verbessernden anatomischen Voraussetzungen und motorischen Fähigkeiten im Spracherwerb Schritt für Schritt der Zielsprache annähern, ohne zwischendurch wieder zurückzufallen oder längere Zeit in Experimentierphasen zu verharren. Aus Forschungen zum Erwerb des Lautsystems verschiedener Sprachen ist jedoch bekannt, daß ein solches stetiges Approximieren des Endzustands eine theoretische Fiktion

183 ist; Regressionen und Umwege sind im Spracherwerb nicht die Ausnahme, sondern die Regel (vgl. Stemberger/Bernhardt 1999,420f.). Eine weniger stark universalistische Position vertritt Dresher (1999). Er geht zwar ebenfalls von einer dem Säugling in seiner Universalgrammatik mitgegebenen Menge von Parametern aus, die in seinem Ansatz aber jeweils bereits auf einen default-Wert gesetzt sind. Gleichzeitig betont er die einzelsprachliche Spezifik des Phonologieerwerbs: So ist Dresher zufolge die Reihenfolge der Parametersetzung von Sprache zu Sprache verschieden (und Teil der phonologischen Beschreibung). Da zumindest im frühen Spracherwerb jedoch im allgemeinen keine falschen Formen als solche dem Kind präsentiert werden und aus den gebotenen Daten nicht nur eine einzige Menge von Generalisierungen abduziert werden kann, ergibt sich das sogenannte Teilmengenproblem: Für jede Menge von sprachlichen Formen ist immer mehr als eine Grammatik erschließbar. Diese Unterbestimmtheit bleibt nach Hammond (1990) sogar dann bestehen, wenn die Parameter der Metrischen Phonologie zu einem Teil unserer universalgrammatischen Ausstattung erklärt werden. Auch im Rahmen der Optimalitätstheorie hat der Phonologieerwerb große Aufmerksamkeit gefunden (vgl. Prince/Tesar 1999; Hayes 1999; Tesar/Smolensky 1998; 2000). In diesem Format entsprechen den verschiedenen Stufen im Spracherwerb in naheliegender Weise verschiedene, auch partielle Ordnungen der Beschränkungen. (Die Beschränkungen selbst werden dabei meist als Teil der universalgrammatischen sprachlichen Grundausstattung und somit als angeboren aufgefaßt.) Am Anfang des Spracherwerbs gilt hierbei, daß jede Markiertheitsbeschränkung höher rangiert als jede Treuebeschränkung. Kinder besitzen nämlich zunächst noch kein mentales Lexikon und somit keine Vergleichsgrundlage für Treuebewertungen. Somit können sie unter einem Jahr auch noch keine Morphophonologie erwerben. Den Einstieg in die Phonologie unternimmt also ein von Hayes (1999) als "pure phonotactic learner" bezeichnetes Kleinkind, das sich lediglich für die Syntagmatik interessiert (vgl. Prince/Tesar 1999,7). Generative, insbesondere Metrische Phonologen setzen dagegen einfach voraus, daß dem Kleinkind nicht nur die silbische Gliederung, sondern auch die Prominenzkontur präsent ist, und Ubergehen Interaktionen mit segmentalem und phonotaktischem Wissen. Umgekehrt versuchen Hayes (1999) und Prince/Tesar (1999) im Rahmen der Optimalitätstheorie, den frühen Phonologieerwerb allein als Lernen phonotaktischer Regularitäten zu beschreiben und blenden dabei die prosodische Organisation ganz aus. Die empirische Spracherwerbsforschung stellt jedoch ihren Ansatz in Frage, da nach Jusczyk (1995, 283) sich eine Sensitivität für die Prosodie früher zeigt als für segmentale und phonotaktische Besonderheiten einer Sprache. Fortschreiten im Spracherwerb besteht nach der OT-Konzeption darin, abstrakte Repräsentationen zu entwickeln und allmählich einzelne Treuebeschränkungen Schritt für Schritt über bestimmte Markiertheitsanforderungen zu heben. Wir können hier nicht auf die Details der verschiedenen vorgeschlagenen OT-Modelle eingehen, die alle nachzuzeichnen versuchen, wie ein Kind gleichzeitig eine Hierarchie von Beschränkungen lernen und Äußerungen nach dieser Grammatikhierarchie syntaktisch und morphologisch analysieren kann. Lediglich einige grundsätzliche Kritikpunkte sollen genannt werden: So zwingt nach Hale/Reiss jede OT-Lerntheorie zu der Annahme, daß bei hinreichender Datengrundlage eine Differenzierung der Grammatik des Kindes durch weitere Abstufungen in seiner mentalen Hierarchie von Beschränkungen sofort vorgenommen werden muß. Damit sollte sie sich aber ebenfalls sofort in den Produktionen des Kindes niederschlagen. Die Diskrepanz zwischen Perzeption und Produktion, wie sie sich beispielswei-

184 se in den Unterschieden zwischen passivem und aktivem Wortschatz zeigt, bleibt in einem solchen 'optimistischen' Lernmodell unerklärlich. Zwar lassen sich einige systematische Abweichungen im Sprechen der Kinder als artikulatorische Strategien erklären, die mit ihren besonderen anatomischen Voraussetzungen in Zusammenhang stehen (vgl. z.B. Hayes 1999, Fn. 2), auch unter dieser Einschränkung jedoch bleiben Fragen offen: So zeigt bereits Dodd (1975), daß Kinder in Tonbandaufzeichnungen ihre eigene Aussprache nicht verstehen, wenn diese wesentlich von der korrekten zielsprachlichen Form abweicht. Wenn aber Kinder, wie nach optimalitätstheoretischer Theorie anzunehmen, die innerhalb ihrer eigenen Grammatik optimale Form produzieren, weshalb können sie diese dann nicht der jeweiligen Ausgangsform in ihrem mentalen Lexikon zuordnen? Auch der Entscheidungszwang, den eine optimalitätstheoretische Grammatik mit ihrer funktionalen Bestimmung einer einzigen optimalen Ausgabeform mit sich bringt, paßt schlecht zu der im sprachlichen Verhalten von Kindern beobachtbaren Experimentierfreudigkeit: So produziert in dem Korpus von Lindner (1998) ein Kind während eines einzigen Gesprächs das Passivpartizip von anziehen als angezogen, angezo, angezog und angezogt. Formen wie angezogt sind jedoch sowohl im Hinblick auf Treue wie auch auf Markiertheit schlecht und sollten somit unter keiner Ordnung der Beschränkungen auftreten. Schließlich zeigen psycholinguistische Untersuchungen, daß Kinder im ersten Lebensjahr nicht nur Laute produzieren, die sie aller Wahrscheinlichkeit nach nie zuvor als Sprachlaute gehört haben, sondern auch solche phonetischen Unterschiede bemerken, die im System ihrer Muttersprache nicht kontrastiv sind. Zwischen sechs und zwölf Monaten jedoch verlernen Kinder allmählich die Diskriminationsfähigkeit für segmentale Differenzen ohne phonologische Relevanz (vgl. Jusczyk 1995,279). Erste die allmählich erfolgende selektive Aufmerksamkeit für distinktive Eigenschaften des Sprachsignals kann meines Erachtens als Beginn eines phonologischen Wissens interpretiert werden. Die Kluft, die zwischen theoretischer Phonologie und empirischen Untersuchungen des Lautspracherwerbs immer noch besteht, haben bereits diese wenigen Hinweise zu neueren Modellen erwiesen. Generative wie optimalitätstheoretische Ansätze sagen mit ihrer Ansetzung einer zielstrebigen Annäherung des Kindes an die Kompetenz Erwachsener gerade nicht die individuellen Schwankungen, Umwege und sogar Rückschritte vorher, die die Longitudinalstudien belegen. Insbesondere bleiben selbst unter starken theoretischen Prämissen wie in der Metrischen Phonologie oder auch Optimalitätstheorie die im letzten Unterabschnitt vorgestellten Befunde ohne Erklärung: Wie etwa können Babys schon mit wenigen Tagen allein aufgrund der rhythmischen Gestalten englische von italienischen und spanischen Äußerungen unterscheiden, deren metrische wortprosodische Parameter so ähnlich sind? Weshalb ist umgekehrt eine Präferenz für isolierte Trochäen bei englischen Kleinkindern erst nach neun Monaten festzustellen? Erst bei einer Unterscheidung impressionistisch aufnehmbarer prosodischer Gestalten und phonologischer Aspekte der melodischen und rhythmischen Konturen erweisen sich die Paradoxa der Prosodie im Spracherwerb als nur scheinbar.

4.2.1.3

Rhythmische Konturbildung in früher Sprachproduktion

Bereits in der Lallphase, die den Übergang von vorsprachlichen Vokalisierungen zu frühen wortartigen Produktionen einleitet, spiegeln sich Charakteristika der Zielsprache nicht nur im segmentalen Bereich. So zeigen sowohl reduplikative Lallwörter als auch die ersten lexi-

185 kaiischen Produktionen von japanischen und französischen Kindern im zweiten Lebensjahr nach Hallé/Boysson-Bardies/Vihman (1991) auch sprachspezifische prosodische Merkmale: In der melodischen Gestaltung zweisilbiger Äußerungen finden sich bei den jungen Japanern vorwiegend fallende Konturen, wohingegen bei ihren französischen Altersgenossen die Steigbewegung dominiert. Hallé/Boysson-Bardies/Vihman (1991, 315) erkennen in diesem Unterschied eine frühe Imitation der HL-Muster (vgl. 3.3.1.1) japanischer zweisilbiger Wörter mit tonalem Akzent, der sich in der isolierten Darbietung von 62 der insgesamt 87 intendierten Lexeme im Standardjapanischen tatsächlich als HL-Bewegung manifestiert. Noch auffälliger sind die Silbendauern: Im Gegensatz zu vier der fünf untersuchten japanischen Kinder dehnen die französischen die Reime der zweiten Silben um durchschnittlich 50 %. Konopczynski (1995) findet in ihrer Longitudinalstudie zur Aneignung des Französischen als Muttersprache in den Produktionen mit neun Monaten eine weitgehende Isochrome der Silben und erst im zweiten Lebensjahr immer stärkere Längungen bis auf das Doppelte. Ihrer Ansicht nach bildet eine Silbenproduktion, die weder in der Zeit noch in der Prominenz um eine rhythmische Kontur systematisch bemüht ist, den universellen Ausgangspunkt der phonetischen Entwicklung. Diese These unterstützen auch vergleichende Studien zum Erwerb anderer Sprachen: So zeigen spanische und portugiesische Kinder der gleichen Altersgruppen keine entsprechenden und US-amerikanische weit weniger starke und viel uneinheitlichere Demarkationen (vgl. ähnlich Levitt/Wang 1991 zu reduplikativen Äußerungen französischer und US-amerikanischer Kinder). Bei den ungarischen Kindern schließlich sind zwar häufig bemerkenswerte Dauerunterschiede in zweisilbigen Äußerungen vorhanden, allerdings ist dabei fast ebenso oft die erste Silbe länger als die zweite wie umgekehrt. Zu vermuten ist, daß diese Art von Anisochronie die wortphonologische Nutzung der Zeitstruktur durch Quantitätsoppositionen in der Erwachsenensprache imitiert. Insgesamt erweisen die Daten ein weiteres Mal, daß die satzphonologische Nutzung der Zeit wie im Französischen sich markant von moren- und prominenzbasierten wie auch von den alternierenden Sprachen abhebt. Das allongement final im Französischen bildet keine phonetische Nachlässigkeit, sondern vielmehr einen allmählich zu erlernenden Kern der prosodischen Organisation dieser Sprache. Für die Anfänge der Sprachproduktion bis hin zu Einwortäußerungen findet sich in der phonologischen Literatur die Behauptung, daß über alle Sprachen hinweg zweisilbige Formen bevorzugt seien (vgl. Macken 1995, 689). Dies steht im Einklang mit dem bereits in 2.3.4 diskutierten Binaritätsprinzip für Füße in der Metrischen Phonologie und der mehrheitlich vertretenen Annahme, daß ein minimales prosodisches Wort (vgl. zu unterschiedlichen Präzisierungen des Konzepts Archibald 1995) einen eigenen Fuß etablieren muß. Erneut jedoch spricht die Evidenz aus dem Spracherwerb eher gegen die Metrische Theoriebildung: Bereits die ersten wortförmigen Produktionen von Kindern unterscheiden sich in der Silbenzahl in Abhängigkeit von ihrer sprachlichen Umgebung: So stellen Levitt/Wang (1991) deutlich höhere Mittelwerte in reduplikativen Produktionen bei französischen Kleinkindern als bei US-amerikanischen fest. Auch japanische Kinder äußern nach Vihman (1991) bereits mit fünfzehn Monaten Wortformen von bis zu fünf Silben Umfang. Zudem finden sich in den ersten fünfzig Wörtern junger Finnen bereits dreisilbige Lexeme, was nach SavinainenMakkonen (2000) die Häufigkeit längerer Wortformen in ihrer Zielsprache widerspiegelt. Umgekehrt produzieren Anglophone in einem vergleichbaren Stadium ihrer Sprachentwicklung häufiger als Franzosen, Japaner und Schweden einsilbige Formen (vgl. Boysson-Bardies et al. 1992). Auch hier zeigt sich also keineswegs das Wirken eines universellen Produktionsschemas, sondern vielmehr die größere Häufigkeit einsilbiger Lexeme in der Zielsprache.

186

Nichtsdestoweniger sind gerade die ersten erkennbaren sprachrhythmischen Konturierungen immer wieder als Beleg für die Korrektheit der metrischen Standardanalysen angeführt worden. Neben der Binarität der Fußbildung gilt dabei vielfach auch fußinitiale Prominenz als unmarkiert.2 Allen/Hawkins (1979) nehmen an, daß englische Kinder von Anfang an Trochäen bevorzugen. Als Beleg für einen solchen trochaic bias fuhren sie auf, daß in dreisilbigen Lexemen mit Akzent auf der zweiten Silbe bei einer vereinfachenden Produktion mit zwei Silben konsequent die erste ausgelassen wird, nicht hingegen die letzte, wie in den Beispielen unter (67a) zu sehen. Nach Davis et al. (2000) sind Trochäen mit einer der Erwachsenensprache bemerkenswert ähnlichen Prominenzrealisierung sogar schon in den reduplikativen Lallwörtern USamerikanischer Kinder vorherrschend. Vihman (1980) bemerkt eine vergleichbare Asymmetrie bei zweisilbigen Produktionen auch bei Kindern mit deutscher, spanischer, tschechischer, slowenischer und estnischer Muttersprache, Allen/Hawkins (1979; 1980) gehen sogar von einer universellen Präferenz für Trochäen aus. Auch Fikkert (1994) argumentiert für einen trochaic bias bei niederländischen Kindern: Diese kürzen nämlich wie in (67b) zweisilbige Wörter mit jambischem Akzentmuster häufiger als trochäische auf eine Silbe. Auch werden jambische Lexeme vielfach mit trochäischem Prominenzmuster gesprochen, kaum hingegen trochäische mit Ultimabetonung. Kehoe/Stoel-Gammon (1997,133) bringen hierfür parallele Daten aus dem Englischen bei. Unter (67c-e) sind aus beiden Sprachen jeweils Beispiele angeführt: (67) Übergeneralisierungen des Trochäus und Jambenvermeidung im Spracherwerb (Allen/Hawkins 1979, 928; Fikkert 1994, 79ff.; Kehoe/Stoel-Gammon 1997, 133) (a) (b) (c) (d) (e)

engl, banana fnasna] oder [baena] ndl. banaan Ι&σΙ [pa:n] engl, balloon Ισ'σΙ ['balu] engl, guitar Ισ'σΙ ['gids] engl, giraffe Ισ'σΙ ['djaiwaef]

engl, potato ['teto] oder ['peto] ndl. konijn Ισ'σΙ [tein] ndl. muziek Ισ'σΙ [si:k] ndl. ballon Ισ'σΙ ['bu:a-n] ndl. gitaar/a'a/ [ si:ta:] ndl. giraf Ισ'σΙ ['Ji:af]

Schließlich finden Wijnen/Krikhaar/den Os (1994) auch in den frühen Lexika zweier niederländischer Kinder ein deutliches Überwiegen trochäischer Formen. Zudem werden diese, wie schon im Korpus von Fikkert, häufiger als die anderen mit der korrekten Prominenzkontur produziert. Ferner argumentieren die Autoren, wie auch Gerken (1996) in Bezug auf das Englische, daß Zweijährige in Nominalphrasen Artikel bevorzugt dann weglassen, wenn diese nicht in einen metrischen Fuß integriert werden können. Neben einer Präferenz für trochäische Fußbildung spiele im Syntaxerwerb also auch ein Bestreben nach exhaustiver Verfußung eine Rolle, wie nach der Metrischen Phonologie zu erwarten. Trotz dieser zahlreichen in der Literatur vorgebrachten Belege ist die Annahme einer angeborenen Präferenz für die trochäische Fußform immer wieder in Frage gestellt worden. Bereits Allen/Hawkins (1980, 233) vermerken, daß auch die Äußerungen jüngerer anglophoner Kinder zunächst silbenzählend wirken und erst mit etwa vier bis fünf Jahren akzentzählende Charakteristika aufweisen. Dies belegt in meinen Augen nicht nur erneut die 2

Bereits Bolton (1894) behauptet auf der Grundlage seiner Sammlung von Abzählversen aus neunzehn Sprachen, daß trochäisch-daktylische Strukturen bei Kindern häufiger seien als andere. Die typologische Aussagekraft seiner Stichprobe leidet allerdings erheblich darunter, daß etwa die Hälfte seiner Texte aus dem Englischen stammen. Vgl. auch die Analyse von Abzählversen aus 15 Sprachen in Noel Aziz Hanna/Lindner/Dufter (2002).

187 Unangemessenheit eines silbenzählenden Sprachtyps, sondern zeigt auch, daß die akzentzählende Teleologie, von der die Metrische Phonologie ja inspiriert ist, nicht für alle Stadien der Sprachentwicklung einfach vorausgesetzt werden darf. Ferner kann die behauptete Bevorzugung des Trochäus keineswegs allen Befunden Rechnung tragen: Wijnen/Krikhaar/den Os (1994) etwa bemerken verwundert, daß kein Kind an monosyllabische Wortformen Füllsilben anhängt, wie bei einem trochaic bias zu erwarten. Auch weist Kehoe (1998, 11) darauf hin, daß in daktylischen Wörtern des Englischen wie elephant bei zweisilbiger Aussprache von allen Kindern die letzte Silbe bewahrt bleibt und niemals eine - genauso naheliegende - trochäische Form wie ele produziert wird. Kehoe (1999/2000) spricht sich in ihrer Untersuchung verschiedener Lernstile englischsprachiger Kinder gegen die Ansetzung einer durch Füße definierten maximalen Wortgestalt aus. Einheitlich zeigt sich in ihren Daten vielmehr eine Präferenz für eine genaue Realisierung akzentuierter und wortfinaler Silben einer Wortform. Insbesondere ist meiner Ansicht nach zu kritisieren, daß kindersprachliche Daten wie in der nachfolgenden Aussage auch dann als Evidenz für Fußstrukturen gewertet werden, wenn eine Prominenzgebung akustisch nicht manifest wird: We assume that young English-learning children have some sort of foot structure from the beginning of speech, but that some children may not yet have acquired the articulatory abilities to consistently realize the stressed syllable as louder, longer, and higher-pitched than the unstressed syllable. Our justification for assuming that the young child has phonological foot structure comes from syllable deletion. (Bemhardt/Stemberger 1998,443) Hier sollte meines Erachtens zwischen salienten Konturen im Input und rhythmisch noch amorphen frühen Produktionen unterschieden werden. Ein Kind kann sehr wohl die Auswahl der von ihm realisierten Silben eines Wortes nach der Prominenzgestalt in den erwachsenensprachlichen Formen vornehmen, ohne deswegen seiner eigenen produzierten Form eine Prominenzkontur zu geben. Pollock/Brammer/Hageman (1993,197) etwa vermerken die Häufigkeit von zweisilbigen Formen mit level stress bei US-amerikanischen Kindern noch im dritten Lebensjahr. Für den Einfluß der Muttersprache sind noch weitere Indizien zu nennen: So bleibt ein Kind in der Studie von Wijnen/Krikhaar/den Os (1994,79) länger als alle anderen dominant einsilbig in seinen Äußerungen. Diese prosodische Besonderheit reflektiert aber, wie die Autoren anmerken, die Dominanz einsilbiger Kurzwörter bei seiner Mutter, wenn sie zu ihrem Kind spricht. Daneben können Schwartz/Goffmann (1995) zeigen, daß englische Kinder, denen eine gleiche Zahl neuer jambischer und trochäischer Wörter präsentiert wird, diese mit gleicher Häufigkeit in beiden Konturierungen imitieren. Auch Vihman/DePaolis/Davis (1998) reinterpretieren den Befund von Vihman (1980) vorsichtiger als Folge einer höheren Salienz wortfinaler Silben, welche möglicherweise durch Längungen in den Äußerungen Erwachsener mitbedingt sein kann. In einer vergleichenden Longitudinalstudie von US-amerikanischen und französischen Kindern finden sie, daß in den Produktionen, wo eine Prominenzkontur gut erkennbar ist, 66 % der englischen zweisilbigen Äußerungen trochäische, dagegen 72 % aller entsprechenden französischen jambische Gestalt aufweisen. Noch eindrucksvoller stellt sich die Abhängigkeit der rhythmischen Konturbildung von der Zielsprache im Finnischen dar. Nach Savinainen-Makkonen (2000, 218) werden nämlich mehrsilbige Formen in einigen Fällen sogar auf eine oder zwei Silben verkürzt und die

188 Akzentsilben weggelassen. Diese Bildungen lassen nicht nur Zweifel an der Existenz universeller metrischer Produktionsschemata aufkommen, sondern deuten darüber hinaus darauf hin, daß die finnischen Kinder viel weniger als englische auf die Prominenzkontur der intendierten Wortform achten. Dagegen ist in der finnischen Kindersprache schon früh die Salienz der Zeitstruktur zu erkennen: Zwar ist nach Vihman/Velleman (2000,317ff.) die Variation der Dauern intervokalischer Konsonanten in den ersten finnischen Wortproduktionen ähnlich groß wie im Englischen und Französischen. Schon bei einem Lexikon von fünfzig Lexemen jedoch kristallisiert sich in den Sprachen ohne Quantität ein normales Artikulationstempo heraus, wogegen finnische Kinder die Unterschiede zwischen kurzen und langen Lauten sogar noch weiter vergrößern. Einige lassen bereits ein Bemühen um eine konsequente Unterscheidung der beiden phonologischen Längengrade erkennen. Aoyama (2001) stellt im Erwerb der Geminaten erstaunliche Ähnlichkeiten zwischen finnischen und japanischen Kindern fest. Allenfalls eine etwas frühere Beherrschung des Quantitätskontrasts im Finnischen geht aus ihren Daten hervor. Diese wiederum entspricht aber genau der größeren Bedeutung wortphonologischer Oppositionen in der Zeitstruktur des Finnischen, da anders als im Japanischen auch nach Langvokal die konsonantische Länge distinktiv ist. Diese selektive Aufmerksamkeit auf Zeit oder Prominenz auch in der Produktion paßt nicht nur zu Ergebnissen aus dem segmentalen Spracherwerb, der sich ebenfalls zum Teil nach der funktionalen Distinktionsleistung der einzelnen Laute zu richten scheint (vgl. Mowrer/Burger 1991 zu einem Vergleich von Englisch und Xhosa), sondern auch zu anderen Untersuchungen zum Erlernen prosodischer Kontraste (vgl. Hua/Dodd 2000 zum Erwerb des Tonsystems im Mandarin-Chinesischen und Kantonesischen). Im Spracherwerb werden im Rahmen der artikulatorischen Möglichkeiten diejenigen Aspekte der Lautgestalten zuerst trainiert und elaboriert, welche salient und häufig auch kontrastiv sind. Weder ein periodicity bias als genetisch tradierter Isochronieverdacht noch ein trochaic bias als angeborene Metrische Minimalphonologie können dieser einfachen Tatsache Rechnung tragen.

4.2.2

Zweitspracherwerb

Daß der rhythmische Typ nicht nur im frühkindlichen Erwerb der Muttersprache, sondern auch beim Erlernen von Fremdsprachen von zentraler Bedeutung ist, vermutet bereits Abercrombie (1967): It is probable that the rhythm of a language is one of the most fundamental things about it, in the sense that it is among the earliest things learnt by the infant, and perhaps the most difficult thing for the adult speaker to modify, when he wants to learn to pronounce a foreign language. [... ] Rhythm is a much neglected factor in language teaching, though intelligibility undoubtedly depends on it to a considerable extent. (Abercrombie 1967, 36) Die Lernbarkeit fremder sprachrhythmischer Strukturen ist bisher jedoch nur selten experimentell untersucht worden. Immerhin versuchen Bailey/Plunkett/Scarpa (1999), die Schwierigkeit fremder Wortakzentregeln in einem lernpsychologischen Versuch zu bestimmen. Dabei sollten englische und brasilianische Probanden anhand einer Reihe isoliert dargebotener Tonfolgen mit jeweils einem prominenten Ton die Regel der Prominenzzuweisung induktiv bestimmen. Die Autoren können zeigen, daß anglophone Sprecher mehr Schwierigkeiten haben, Systeme mit akzentuierten Ultimae zu erwerben als die portugiesischsprachigen,

189 und führen dies auf die größere Häufigkeit früherer, besonders antepaenultimaler Akzente im Englischen zurück. Gleichzeitig argumentieren sie, daß eine solche Untersuchung der Lernbarkeit mehr Aufschluß über die Komplexität von Akzentsystemen erlaubt als eine Statistik über ihre Häufigkeit in den Sprachen der Welt. Fragwürdig bleibt meiner Ansicht nach jedoch, ob aus einer solchen Masteierkennungsaaigdtoe auch auf die Schwierigkeiten geschlossen werden kann, die fremde Akzentregeln beim Sprechen bereiten. Auch ermöglicht die Präsentation einzelner wortartiger Stimuli noch keine Aussage Uber die Rolle des Rhythmus beim Erlernen fremder Sprachen: Die Arbeit von Bailey/Plunkett/Scarpa stellt also gerade nicht eine "cross-linguistic study in learning prosodie rhythms" dar, wie es der Titel verspricht, sondern allenfalls eine Untersuchung über den Einfluß muttersprachlicher Akzentverhältnisse auf die Entdeckung fremder Regularitäten. Aufschlußreicher erscheinen dagegen die Experimente von Tajima/Port/Dalby (1997) zur zeitlichen Gestaltung englischer Äußerungen bei US-Amerikanern und Chinesen. Mit einem Resyntheseverfahren manipulieren sie die Aufzeichnungen der zweiten Gruppe derart, daß - bei unveränderter Segmentfolge und Intonation - diese die gleiche Zeitstruktur aufweisen wie die von nativen Anglophonen produzierten Testsätze. Die so manipulierten Äußerungen der Chinesen werden anschließend Versuchspersonen mit englischer Muttersprache vorgespielt. Während die Originalaufnahmen nur in 39 % der Fälle auf Anhieb korrekt verstanden wurden, ergibt sich nach dieser temporalen Korrektur eine Steigerung der Verständlichkeit auf immerhin 58 %. Bei einer umgekehrten Unterlegung chinesischer Zeitmuster in die Äußerungen der US-Amerikaner verschlechtert sich diese hingegen von 94 % auf nurmehr 83 %. Wenn auch diese Ergebnisse nur mit Einschränkungen Aussagen über den kommunikativen Erfolg nichtnativer Sprecher in situierten Alltagsgesprächen erlauben mögen, so erweisen sie doch die Wichtigkeit einer normgerechten phonetischen Zeitgestaltung im Fremdspracherwerb selbst in einer Sprache ohne zeitstrukturelle Distinktivität wie dem Englischen. Andere interessante Indizien für rhythmische Verschiedenheit entstammen der Unterrichtspraxis. Besonders für das Englische ist neben falschen Akzentuierungen die von Tajima/Port/Dalby (1997) im Test erwiesene geringere Isochronie der Akzentabstände aufgrund mangelnder Kürzungen und Längungen bei ausländischen Sprechern immer wieder als typisch für fremden Akzent erkannt worden (vgl. schon Adams/Munro 1978). Umstritten bleibt aber, inwieweit dabei die Ausgangssprache die rhythmischen Abweichungen mitbestimmt. Während nach Taylor (1981) nichtnative Sprecher des Englischen durchweg ähnliche Schwierigkeiten in der prosodischen Gestaltung aufweisen, ergeben sich in der Studie von Bond/Fokes (1985) signifikante Unterschiede: Thailändische Lerner des Englischen haben ihren Daten zufolge geringere Schwierigkeiten mit der Isochronisierung der Prominenzabstände als japanische und malaiische. Bond/Fokes erklären diesen Befund meiner Ansicht nach überzeugend als rhythmische Interferenz, da das Thai wie das Englische und im Gegensatz zum Japanischen und Malaiischen prominenzbasiert ist. Dennoch ist die Akzentzählung als Lernziel des Englischunterrichts in den letzten Jahrzehnten kritisiert worden. Faber (1986) wendet sich ausdrücklich dagegen, in eigenen Ausspracheübungen ein solches taktierendes Sprechen zu trainieren. Zur Begründung verweist er auf die negativen Ergebnisse der phonetischen Isochronieforschung, die, wie bereits in 1.2.1.1 berichtet, auch bei nativen Anglophonen keine Gleichheit der Fußdauern feststellen konnten. Stattdessen schlägt Faber unter Berufung auf Bolinger (1981) vor, stärker die Differenzierung zwischen reduzierten Silben und anderen einzuüben. Daß auch eine deutliche Konturierung für den Rhythmus des Englischen typisch ist, soll hier keineswegs bestritten werden. Die Fra-

190 ge nach der zeitlichen Gestaltung der Silbenfolge bleibt aber selbst dann noch zu beantworten. Auch scheint in meinen Augen besonders ungünstig, daß sich das pädagogische Beispielmaterial von Faber auf isolierte Wortformen beschränkt. Mit ihnen können zwar Akzentlagen geübt werden, kaum jedoch exemplarische rhythmische Gestaltungen englischer Sätze. Noch deutlicher zeigt sich das Dilemma einer Fremdsprachendidaktik, die sich der rhythmischen Interferenzen bewußt ist, jedoch zeitstrukturelle Faktoren wegen der Problematik der Isochronietypologie nicht verantwortlich machen möchte, bei Chela-Flores (1994). Zu Recht kritisiert sie die im Ausspracheunterricht verbreitete Beschränkung auf Einwortäußerungen. Für Englischkurse mit Hispanophonen stellt sie darüberhinaus ein Konzept vor, wo die rhythmische Gestaltung der Zielsprache zunächst mit Folgen von Nonsenssilben trainiert wird. Das von Chela-Flores (1994, 238) als "rhythmic swing" bezeichnete Lernziel besteht aber gerade im Einüben einer klaren Markierung von prominenten Silben und einer Isochronisierung ihrer Abstände. Gleichzeitig betrachtet sie aber, ganz im Geiste der Metrischen Alternanzteleologie, Akzentzählung als universell (vgl. S. 233). Rätselhaft erscheint bei einem solchen universellen rhythmischen Prinzip dann aber, woher die Interferenzen im Englischen Hispanophoner stammen. In unserer Typologie sind sie dagegen als Übertragung des alternierenden spanischen Rhythmus auf eine prominenzbasierte Sprache verständlich: In der eurhythmischen Ausgestaltung sind die Möglichkeiten zu einer isometrisierenden Prominenzauswahl im Englischen viel stärker beschränkt als im Spanischen. Umgekehrt führen Anglophone weit stärkere isochronisierende Kürzungen und Längungen von Silben durch als Hispanophone. Auch Busa (1995) stellt bei italienischen Sprechern des Englischen keine grundsätzlich andere zeitliche Organisation fest, sondern lediglich eine zu schwache Komprimierung und Reduktion längerer unakzentuierter Silbenfolgen sowie eine zu geringe Beachtung sententialer Akzente. Aufgrund der geringeren Bedeutung der Prominenzkontur für die Informationsstruktur im Italienischen sagt unsere phonologische Rhythmustheorie, im Unterschied zu allen Isochronietypologien aus 1.2, auch diesen Befund voraus. Nachdem, etwa bei Taylor (1981), Faber (1986) und Chela-Flores (1994), die Übung von Prominenzisochronie, wie sie viele traditionelle Englischlehrwerke vorsehen, als wissenschaftlich unvertretbar abgelehnt worden ist, finden sich neuerdings wieder positivere Stimmen gerade aus der pädagogischen Praxis: [... ] 'stress-timing', even though it may be a somewhat artificial device, really does capture pedagogically significant features of English. (Marks 1999, 198)

Auch das Sprachlabor kann offenbar als wichtiges Korrektiv für theoretische Einseitigkeiten dienen. Noch aufschlußreicher zeigen sich systematische Unterschiede der rhythmischen Konturbildung, wenn Sprecher einer morenbasiert rhythmisierenden Sprache einen prominenzbasierten Rhythmus zu produzieren suchen: Im Erwerb des Russischen als Fremdsprache beispielsweise bildet erwartungsgemäß die Position des Wortakzents eine der Hauptschwierigkeiten, nicht nur für Deutsche (vgl. Eismann 1986) oder Anglophone (vgl. Kurokhtina 1993), sondern besonders auch für Sprecher einer Sprache mit festem Akzent wie etwa Finnen. Nach Silva (1999) zeigen sich aber in den russischen Äußerungen finnischer Muttersprachler auch in der Zeitstruktur Interferenzen: So werden akzentuierte Vokale fast genau um das Doppelte gegenüber unakzentuierten gelängt. Dies spiegelt natürlich die binäre Quantitätsdistinktion der Ausgangssprache wider, nicht hingegen die Betonungsnormen der Zielsprache. Dagegen fehlt in unakzentuierten Positionen die im Russischen konsequent durchgeführte zusätzliche

191 Kürzung von Reduktionssilben. Während sich bei nativen Sprechern also ein dreifacher Dauerkontrast als Folge der Prominenzgrade der Silben findet, treffen die finnischen Lerner wie in ihrer Muttersprache nur eine binäre Unterscheidung der Silbenlänge, die dafür aber zu stark ausgeprägt ist, nämlich etwa im Verhältnis 2 : 1 . Aber auch das Erlernen einer morenbasiert rhythmisierenden Sprache bietet besonders bei einem anderen prosodischen Ausgangspunkt seine eigenen Herausforderungen: So haben italienische Studenten des Finnischen, wie nicht anders zu erwarten, durchweg Schwierigkeiten mit der Unabhängigkeit von Prominenzkontur und Quantität, vor allem bei kurzen akzentuierten Erstsilben im Finnischen sowie bei langen Ultimae. Erstaunlich mag aber zunächst erscheinen, daß auch die korrekte Identifikation und Produktion kurzer und langer finnischer Konsonanten den Italienern Probleme bereitet. So berichtet eine finnische Dozentin in Bologna aus ihrer Praxis, daß ihren Studierenden die Opposition zwischen kurzen und langen Konsonanten im Finnischen trotz der phonologischen Geminaten im Italienischen Schwierigkeiten bereitet (vgl. Loikala 2001, 20). Da aber nach unserer in 3.3.4.1 vorgetragenen Auffassung das Italienische nur eine lokal ausgeglichene Daueropposition kennt, das Finnische jedoch eine additive morenbasierte Zeitstruktur, ist die autonome Quantität des Finnischen nicht nur phonetisch, sondern auch satzrhythmisch grundlegend anders einzustufen als der italienische Geminationskontrast. Der Erwerb von morenbasiertem Rhythmus beschränkt sich für die Italiener nicht darauf, eine Reihe weiterer Langsegmente zu lernen, sondern erfordert eine grundlegende Sensibilisierung für die Zeitstruktur sowohl im Hören als auch im Sprechen (vgl. auch Hirata 1999 und Otake 1999 zum Erwerb des Japanischen durch Anglophone). Auch dieser Mosaikstein unserer Indiziensammlung deutet auf einen grundlegenden prosodischen Unterschied zwischen Italienisch und Finnisch hin. Zum Abschluß dieses Unterabschnitts noch ein Wort zum Französischen: Gerade bei deutsch- oder englischsprachigen Schülern zeigt sich nach Wenk (1985) nicht etwa eine zu geringe, sondern im Gegenteil eine zu starke Isochronisierung der Silben. Wie nach unserer Darstellung in 3.3.2.1 zu erwarten, gilt die Aneignung der phrasenfinalen Längung als zentrales Lernziel im Ausspracheunterricht.

4.2.3

Sprachliche Defizite

Pathologische Beeinträchtigungen der Sprachkompetenz können spätestens seit der klassischen Monographie von Jakobson [1941] als eine Quelle externer Evidenz gelten, deren Bedeutung kaum hinter der von Spracherwerbsdaten zurückstehen dürfte. Dennoch rückt die Reduktion der sprachlichen Kompetenz bei Aphasien nur selten in das Blickfeld von Vertretern der generativen und auch optimalitätstheoretischen Phonologie. Möglicherweise scheinen die mannigfaltigen Erscheinungsformen solcher erworbener neurogener Spachstörungen als wenig geeignet für einen differenzierten Zugriff auf phonologische Aspekte der menschlichen Sprachfähigkeit. Allerdings deuten klinische Befunde ebenso wie neuere Studien mit bildgebenden Verfahren darauf hin, daß phonologische Aspekte der Prosodie zumindest teilweise anders gespeichert und verarbeitet werden als emotionale und andere sprachbegleitende (vgl. Baum/Pell 1999). Zudem wirken sich nach Gilbers/Linde/Bastiaanse (1997,411) die drei Hauptformen der Aphasie in jeweils charakteristischer Weise auf die Sprachproduktion aus: Während

192 Läsionen des Broca-Areals lediglich mit artikulatorischen Problemen einhergehen, zeigen Wernicke-Aphasiker und Leitungsaphasiker phonologische Defizite. Insbesondere ist nach Gilbers/Linde/Bastiaanse (1997) eine häufige Verwechslung kurzer und langer Sprachlaute als phonologische Fehlleistung zu werten und tritt bei BrocaAphasikern allenfalls sporadisch auf. Nach Niemi (1998) bewahren finnische BrocaAphasiker sogar dann noch stabil die Quantitätskontraste ihrer Muttersprache, wenn die temporale Struktur ihrer Äußerungen, etwa durch zu lange und phraseninterne Pausen, ansonsten massiv beeinträchtigt ist. Dagegen begegnen in den von Romani/Calabrese (1996) untersuchten Produktionen eines italienischen Patienten mit phonologischen Defiziten nicht nur Substitutionen von Geminaten durch andere oder durch Folgen zweier Konsonanten, sondern in unsystematischer Weise auch Degeminationen und Verwechslungen mit einfachen Konsonanten. Auch wenn solche Fallstudien allenfalls Indizien zur Stützung phonologischer Thesen beibringen mögen, so unterstreicht meines Erachtens doch die Konvergenz der Daten aus Phonetik, Spracherwerbs- und Aphasieforschungdie rhythmische Dominanz der Zeitstruktur im Finnischen und ihren vergleichsweise geringen Stellenwert im Italienischen. Die Autonomie phonologischer Beschränkungen und lexikalischer Festlegungen des Wortakzents erweist sich bei einem weiteren italienischen Aphasiker: Nach Cappa etal. (1997) unterlaufen diesem Patienten Akzentfehler nur, wenn aufgrund der Silbenstruktur der Wortform nicht vorherzusagen ist, ob die Paenultima oder die Antepaenultima den Akzent trägt (vgl. 3.3.4.1). Weitere Besonderheiten wie die Aussprache [d30ved'ite] für it. giovedì oder [pol'itsja] statt polizia [polits'i.a] zeigen, daß der Patient die phonologischen Regularitäten sogar dann beachtet, wenn er die segmentale und silbische Basis verändert. Auch in der prosodischen Gestaltung seiner Äußerungen bleibt er nach Cappa et al. vollkommen unauffällig. In dieser selektiven Beeinträchtigung ist also das phonologische Wissen um mögliche Akzentlagen und Rhythmisierungen erhalten und lediglich der Zugriff auf die wortprosodisehen Lexikoneinträge behindert. Anders als nach der Metrischen Phonologie mit ihrer Gleichsetzung von Akzent- und Rhythmuslehre zu erwarten, deutet dieser Befund auf getrennte mentale Repräsentationen für morpholexikalische Akzente und rhythmische Prominenzgebung hin. Für britische Aphasiker zeigen Nickels/Howard (1999), daß diese in einer Repetitionsaufgabe mit zweisilbigen Kunstwörtern erstaunlich wenige Akzentfehler produzieren. Allerdings elidieren manche Patienten bei einigen Formen unakzentuierte Silben oder besetzen sie mit falschen Segmenten. Wenn aber beide Silben erhalten bleiben, so bleiben auch die Akzentverhältnisse intakt. Eine Bevorzugung trochäischer Fußbildung ist bei keinem der Patienten erkennbar. Auch können die Untersuchungen von Grela/Gandour (1999) zur Durchführung der Rhythm Rule bei anglophonen Aphasikern mit verschiedener Läsionsregion nicht belegen, daß Probleme mit einer alternierenden Prominenzgestaltung an phonologische Beeinträchtigungen gebunden sind. Dies steht im Widerspruch zur phonologischen Auffassung der Altemanz im Englischen innerhalb der Metrischen Phonologie, jedoch im Einklang mit unserer Bewertung solcher 'Umakzentuierungen' als nachgeordnete eurhythmische Prozesse. Neben Aphasien sind auch Dysarthrien, solche pathologischen Beeinträchtigungen der Artikulationsfähigkeit also, die in systematischen Abweichungen resultieren, in jüngster Zeit zunehmend auf ihre prosodischen Besonderheiten hin untersucht worden. Hertrich/Ackermann (1998) stellen bei deutschen und Hartelius etal. (2000) bei schwedischen Patienten neben einem insgesamt verlangsamten Tempo vor allem eine ungewohnt uniforme Produktion der Silben in einer Äußerung als charakteristisch heraus. Daß diese auch

193 als 'scanning speech' (Hertrich/Ackermann 1998, 436; Hartelius et al. 2000) bezeichnete Sprechweise nicht nur aufgrund der mit ihr einhergehenden artikulatorischen Mängel schwer verständlich ist, zeigen Hertrich/Ackermann (1998) durch ein einfaches Experiment: Sie modifizieren nämlich, ähnlich wie in der in 4.2.2 referierten Studie von Tajima/Port/Dalby (1997), unter Wahrung der Segmente und Melodie selektiv die Zeitstruktur in Aufzeichnungen von deutschen Dysarthrie-Patienten und einer sprachlich unauffälligen Kontrollgruppe. Zwar ergibt sich durch die zeitliche Korrektur der Äußerungen von Patienten nur eine geringe Verbesserung in der Verständlichkeit, umgekehrt jedoch eine deutliche Verschlechterung bei einer skandierenden Resynthese der sprachlichen Produktionen der Kontrollgruppe. Trotz intakter phonologischer Kompetenz bereiten Dysarthrikern also die eurhythmisierenden Modifikationen der Silbendauern Schwierigkeiten. Nicht nur am Anfang des Sprechenlernens, sondern auch bei beeinträchtigter Sprechfertigkeit findet sich auch in akzentzählenden Sprachen Silbenzählung als Abwesenheit rhythmischer Organisation. Umgekehrt stellen jedoch die Daten von Aphasikern wiederum, wie exemplarisch dargestellt, einige Grundannahmen der Metrischen Phonologie in Frage.

4.3

4.3.1

Poetologische Metrik

Zum Verhältnis von Metrik und Phonologie

In diesem dritten Abschnitt sollen einige Aspekte der metrischen Form gebundener Texte in ihrem Aussagewert für die Satzphonologie untersucht werden. Daß rhythmische Eigenschaften des Sprachsystems in dieser Stilisierung eine zentrale Rolle spielen, ist unbestritten; Sapir (1921,224) charakterisiert Vers sogar als "rhythmically self-conscious speech or discourse". Allerdings bilden neben denjenigen Eigenschaften der literarischen Form, die unmittelbar auf die rhythmische Gestalt bezogen sind, auch solche einen Gegenstand der poetologischen Metrik, die für eine gegebene prosodische Strukturierung weitere euphonologische Beschränkungen wie etwa Reim oder Alliteration vorsehen. Fabb (1997,27) bezeichnet diese zweite Klasse von Regularitäten, wohl in Analogie zum Adjektiv parasprachlich, als parametrisch. In ähnlicher Weise nimmt Vennemann ( 1995,185) aus der Metrik insgesamt einen Teilbereich - vielleicht sogar den zentralen - heraus, den er als Metrologie bezeichnet und bestimmt als den "Zweig der poetologischen Metrik, der es mit dem Einfluß von Akzent und Rhythmus auf die Gestalt der Verse zu tun hat". Somit können wir innerhalb der Metrik metrologische und parametrische Gestalteigenschaften unterscheiden, wobei lediglich die ersten von unmittelbarem Interesse für die Rhythmusphonologie sind. Unklar ist nach Fabb die Einordnung solcher Bestimmungen, die als Zäsur an bestimmten metrischen Positionen in einer Verszeile eine Wortgrenze fordern oder aber umgekehrt verbieten - der seltenere Fall der metrischen Brücken - ; in 4.3.5 werden wir auf die Bedeutung der Zäsur für das Metrum noch kurz zurückkommen. Immer wieder aufs Neue ist im Dialog von Poetik und Linguistik die Frage erörtert worden, auf welche Weise und in welchem Umfang literarische Formgebungen von sprachstrukturellen Eigenschaften abhängen. Eng verbunden damit ist die Einordnung der Metrik als Teildisziplin der Poetik oder Linguistik. Eine extreme Position vertritt Lötz (1960):

194 Since all metric phenomena are language phenomena, it follows that metrics is entirely within the competence of linguistics. (Lötz I960, 137)

Metrische Eigenschaften sind nach Lötz an sprachliche Einheiten gebunden und allein deswegen schon Gegenstand einer umfassenden Sprachwissenschaft. Dagegen wird gerade in der neueren linguistisch orientierten Metrik die Nicht-Reduzierbarkeit metrischer Formgebung auf sprachliche Strukturen betont. Kiiper (1988,46f.) weist zur Begründung auf die Unterbestimmtheit in der Zuordnung sprachlicher und poetischer Einheiten und Eigenschaften hin. Auch haben seiner Ansicht nach die in der Metrik häufigen und mit "semantischen Werten" verbundenen "zahlenmäßigen Restriktionen" kein sprachstrukturelles Pendant. Im folgenden beschränken wir uns auf die Relation von Metrologie und Sprache. Dabei ist zunächst zu klären, ob die metrologische Stilisierung sprachrhythmischer Konturen in jedem Falle allein auf die Phonologie Bezug nimmt. Golston/Riad (2000, 103) bejahen dies ausdrücklich: "Every meter we have encountered is based on prosodie regularities, not morphosyntactic ones [... ]". Kurylowicz (1975,240) jedoch behauptet für das biblische Hebräisch: "Die Isochrome der Psalmenverse hat eine syntaktische Basis, indem der Intonationsverlauf jedes Halbverses prinzipiell dem eines Satzes entspricht." Sein Hinweis auf die Intonation läßt jedoch vermuten, daß die Gestalt der Halbverse auch prosodisch charakterisierbar ist. Wir behalten auch in der Metrik unsere schon in der Rhythmusphonologie entwickelte Position bei, derzufolge die syntaktische und informationsstrukturelle Gliederung zwar die rhythmische Gestalt einer Äußerung beeinflussen kann, jedoch nicht selbst Teil von ihr ist, und beschränken uns in der Durchsicht metrologischer Systeme ganz auf phonologische Eigenschaften des poetischen Textes. Unterschiedlich hoch ist fUr die Relation von rhythmischen Charakteristika und metrologischen Bestimmungen der Einfluß ästhetischer Anforderungen gewertet worden: So stehen sich beispielsweise für das Deutsche die Aussagen von Küper (1988) und Maas (1999) gegenüber: Nach Küper (1988,263) ist zwar die Wortprosodie des Deutschen dominant trochäisch, die Satzprosodie jedoch typischerweise jambisch. Die Dominanz jambischer Metren in der deutschen Kunstdichtung ist nach ihm eine Folge einer natürlichen Stilisierung im Einklang mit der Prosodie des Neuhochdeutschen. Maas (1999) jedoch behauptet: Trochäisch gebaute Verse sind in einer Sprache mit dominant trochäischer Wortkontur zwangsläufig leiemd, weil sie die Wortkonturen nur verketten [... ] Eine "poetischere Spannung" entsteht erst, wenn ζ. B. ein jambisches Muster über eine solche Wortfolge gelegt wird [... ] Daher ist der Jambus das "klassische" Metrum der Kunstdichtung im Deutschen (ζ. B. im jambischen Pentameter bei Schiller) - aber eben nicht das bevorzugte Metrum von Kinderversen. (Maas 1999, 118)

Die von Maas (1999) angesprochene poetische Spannnung besteht aber meiner Vermutung nach auch außerhalb poetischer Texte immer dann in einer Sprache, wenn die typische rhythmische Gestalt von Einwortäußerungen nicht mit der von größeren sententialen Einheiten übereinstimmt. Auch in Der Zug kommt kurz nach acht in München an liegt formal ein jambischer Pentameter vor. Die vielfache Nichtkongruenz von Fuß- und Wortgrenzen scheint mir für das Deutsche insgesamt typisch und überträgt sich lediglich in die Dichtung. Fraglich bleibt auch die These von Golston/Riad (2000, 102ff.), die im Rahmen einer optimalitätstheoretisch formulierten Theorie poetische Qualität als Abweichung bestimmen: Während ihrer Ansicht nach in Prosa syntaktische Anforderungen in der grammatischen Hierarchie gegenüber prosodischen dominieren, liegen die Verhältnisse in dichterischem Sprechen gerade umgekehrt; Golston/Riad (2000,107) gehen von einem "artistic reranking of the

195 natural order of constraints" aus. Wie schon Sapir (1921), so weist auch Vennemann (1995) demgegenüber darauf hin, daß sich eine in einer Sprache gereifte Dichtungstradition nicht ohne Not über ihre sprachstrukturellen Voraussetzungen hinwegsetzt. Vennemann hält diesen Befund in Form einer unter (68) zitierten Maxime fest: (68) Maxime der natürlichen Versifìkation (Vennemann 199S, 196) Eine natürliche poetische Metrik, d. i. eine Metrik, die einer Sprachgemeinschaft nicht von außen aufgedrängt ist, sondern sich in ihr Uber längere Zeiträume entwickelt, stilisiert lediglich Sprachzüge, die auch der Alltagssprache angehören.

Allerdings scheinen Übernahmen metrischer Systeme aus anderen Sprachen keineswegs selten und nach Brogan (1993d, 779) sogar eher die Regel als die Ausnahme zu bilden: Koster/Schoten (1982) unterscheiden in ihrer wissenschaftstheoretischen Betrachtung der Metrik gar "prosodie communities" als sprachsoziologisch und "metrical communities" als literatursoziologisch definierten Gemeinschaften. Auch wenn aber metrische Systeme häufig Uber verschiedene Sprachgemeinschaften hinweg verbreitet sind, sind doch für jede Sprache eigene Festlegungen zu treffen. So ist beispielsweise in Abhängigkeit vom jeweiligen phonologischen System zu klären, welche sprachlichen Einheiten in welcher metrologischen Position in einer Verszeile stehen dürfen. Auch hier zeigt sich, daß in dem neuen Ansatz zu einer universellen optimalitätstheoretischen Metrik bei Golston/Riad (2000) Annahmen getroffen werden, die im Gegensatz zu etablierten Einsichten der linguistisch ausgerichteten Forschung stehen. In Entsprechung zur funktionalen Bestimmung der optimalen sprachlichen Form in OT nehmen die Autoren nämlich an, daß in einem Sprachsystem ebenfalls nur eine metrische Stilisierung unmarkiert sei: But where a literary tradition employs more than one meter [... ] there can only be one meter that is unmarked. The rest must be marked in some way, and we propose that the ways in which they are marked are the defining properties of those meters. (Golston/Riad 2000, 100)

Meiner Ansicht nach unterschätzen Golston/Riad jedoch das prosodische Angebot, das jede Sprache dem Dichter macht und aus dem keineswegs immer eine einzige metrische Gestaltung als die beste herausragt (vgl. hierzu auch die sprachvergleichende Analyse von Kinderversen bei Noel Aziz Hanna/Lindner/Dufter 2002). Auch Kurylowciz (1975) und Küper (1988) betonen, daß metrische Spezifikationen typischerweise aus verschiedenen phonologischen Eigenschaften auswählen können: Silbisches oder nichtsilbisches Metrum, steigender oder fallender Rhythmus können ihre Bausteine beliebigen metrischen Systemen entnehmen, so wie z. B. die sprachlichen Kategorien des Duals oder des Perfekts den jeweiligen Lautsystemen der Sprachen, in denen sie ausgedrückt werden. Andererseits kann verschiedenen Verstypen, was Silbenzahl und/oder Rhythmus anbelangt, ein und dasselbe metrische System zugrunde liegen. Dies bedeutet, daß eine beliebige Silbenzahl und ein beliebiger Rhythmus, wenn auch nicht realisiert, doch in jedem metrischen System realisierbar, also virtuell vorhanden sind. (Kurylowicz 1975, 239) Die These, der Rhythmus der Alltagssprache (anders ausgedrückt: die phonetisch-phonologischen, insbesondere die prosodischen, Charakteristika einer gegebenen Sprache) sei die Grundlage des Verses [...], ist zwar richtig, nur sind diese prosodischen Charakteristika so komplex, daß jeweils verschiedene Aspekte davon nutzbar gemacht werden können, was wiederum zu verschiedenen Versifikationstypen innerhalb derselben Sprache führen kann, während umgekehrt derselbe Versifikationstyp in verschiedenen Sprachen eine unterschiedliche prosodische Basis haben kann [...]. (Küper 1988, 254)

196 Eine ähnlich vorschnelle Übertragung phonologischer Thesen auf die Metrik scheint mir auch in den Binaritätsbeschränkungen vorzuliegen, die Golston/Riad (2000,115) für die metrologische Organisation der Verszeilen behaupten. Ausgehend von einer Hierarchie metrischer Konstituentenkategorien, die diese direkt mit prosodischen identifiziert, setzen sie sowohl für metrische Füße als auch für Halbzeilen und Zeilen Zweigliedrigkeit als unmarkiert an. Auch in diesem Punkte jedoch finden sich die von der Metrischen Phonologie abgeleiteten Vorhersagen nicht in der textuellen Evidenz wider: So betont Fabb (1997,95) die Häufigkeit temärer metrologischer Einheiten und weist in diesem Zusammenhang auch auf die Unmarkiertheit dreigliedriger Takte in der Musik hin. Hinzu kommt, daß nach Fabb (1997, 96) keineswegs universell von einer Ebene metrischer Füße ausgegangen werden darf. Die neuere optimalitätstheoretische Metrik (Hanson/Kiparsky 1996, Golston 1998, Golston/Riad 2000) wiederholt hier den in 2.3.4 kritisierten Fehler der Metrischen Phonologie, Füße als universelle Gliederungseinheit einzustufen. Tatsächlich sind aber nach Aussage der komparativen Poetologie lediglich metrische Positionen und die Zeileneinteilung von Versen für alle Metren grundlegend. Kurylowicz (1975, 5) weist daraufhin, daß in der metrologischen Strukturierung die Zeile als größte Einheit gilt, ähnlich wie in der Syntax für Sätze häufig eine solche Maximalität angesetzt wird. 3

4.3.2

Zur Unterscheidung von Metrum und Rhythmus

Metrologische Schemata, so können wir bisher festhalten, bauen auf Eigenschaften der rhythmischen Kontur einer Sprache auf. Allerdings legt die metrische Form eines poetischen Textes ihrerseits noch nicht vollständig seine rhythmischen Konturen fest. Beispielsweise besteht ein Spielraum in der Besetzung metrisch starker Positionen durch betonbare Silben: Nicht nur sind, vor allem am Zeilenanfang, bestimmte Freiheiten erlaubt (vgl. etwa die initialen Inversionen im jambischen Pentameter des Englischen, auf die etwa Fabb 1997, 89 eingeht), auch am Zeilenende finden sich häufig metrische Lizenzen wie zusätzliche 'extrametrische' Silben oder, bei quantitierenden Metren, kurze Silben an einer Position, die eigentlich langen vorbehalten ist ("brevis in longo"). Wahrscheinlich sind viele dieser Besonderheiten durch die mögliche Pause am Zeilenende bedingt. Solche Toleranzen in der Besetzung metrischer Positionen schaffen dabei jene Abweichung zwischen perzipierter rhythmischer Kontur und semiotischer Hintergrunderwartung in der Rezeption, die unter dem Begriff der poetischen Spannung in der Verssemiotik in neuerer Zeit große Aufmerksamkeit gefunden hat. 4 Schwierig, vielleicht sogar unmöglich, gestaltet sich eine linguistisch motivierte Grenzziehung zwischen solchen Inkongruenzen, die zu einem reizvollen Spannungsverhältnis zwischen metrischem Schema und sprachrhythmischer 3

4

Hiervon zu unterscheiden sind metrische Regelungen der Kombination von Zeilen, die etwa auf einer höheren Gliederungsebene der Strophe ansetzen: Ebenso wie transphrastische Beziehungen in der Syntax bestehen sie zwischen maximalen Einheiten der metrologischen Strukturbildung, ohne jedoch deswegen eine neue größere Einheit zu etablieren. Golston/Riad (2000, 100) gehen sogar so weit zu behaupten, daß sogar die Abwesenheit jeglicher rhythmischer Qualität die definierende Eigenschaft eines Metrums darstellen könne. Da diese extreme These allerdings mit einer zu engen Auffassung von Rhythmizität einhergeht - erinnert sei an ihre Binaritätsbeschränkungen auf allen Ebenen der metrologischen Struktur - darf diese Aussage meines Erachtens als Folgefehler gewertet werten.

197 Instantiierung führen, auf der einen Seite und metrisch nicht mehr akzeptablen Zeilen andererseits (vgl. die Diskussion im Rahmen der optimalitätstheoretischen Metrik bei Hayes 2000). Umgekehrt wird durch die Neuerung der freien Verse, die sich gerade durch die Abwesenheit, ja sogar Vermeidung einer metrologischen Bindung auszeichnen, in der Poetologie auch die Frage aufgeworfen, inwieweit ein Metrum zu einer dichterischen Stilisierung sprachrhythmischer Konturen unabdingbar ist. Auch Stempel (1972, xxxix) erkennt im freien Vers einen Grenzfall der Metrizität und warnt vor einer vorschnellen Anerkennung rhythmischer Konturen als literarische Formen. Zwar besitzt jede mehr als eine Silbe umfassende lautsprachliche Äußerung, gleich ob ihr literarischer Wert zukommt oder nicht, eine rhythmische Kontur. Die Stilisierung und Kanonisierung rhythmischer Konturen in der Metrik jedoch, die bei einem metrisch kompetenten Rezipienten mit einer semiotischen Erwartungshaltung einhergeht, ist gebundenen Texten vorbehalten. Inwieweit auch in freien Versen eine doppelbödige Rhythmuswahrnehmung auf dem Hintergrund einer literarischen Tradition möglich ist, bleibt fraglich. Neben syntaktischen und euphonologischen Gliederungssignalen scheint in einigen Fällen auch die Zeileneinteilung im Schriftbild als partieller Ersatz für die fehlende metrische Organisation einzutreten (vgl. Baehr 1996,456ff.). Von Interesse für die von uns angestrebte Überprüfung des universalphonologischen Raums für rhythmische Konturbildung ist aber gerade nicht die Dichtung, die eine musterbildende Bezugnahme auf sprachliche Vorgaben vermeidet. Vielmehr ist zu klären, welche prosodischen Gegebenheiten in den metrologischen Stilisierungen der Weltliteratur auf welche Weise zugrundegelegt werden. Daß sich auch hierbei eine erstaunlich geringe Menge rekurrenter Typen diagnostizieren läßt, soll im folgenden Unterabschnitt berichtet werden.

4.3.3

Metrische Typologien

Eine frühe linguistische Klassifikation metrologischer Systeme stammt von Lötz (1960). Da sein reduktiver Ansatz, wie schon erwähnt, eine eigene Ebene metrischer Organisation nicht vorsieht und alle metrischen Stilisierungen in phonologischen und sogar unmittelbar in phonetischen Kategorien zu erfassen sucht, gründet er seinen typologischen Ansatz direkt auf die in einer Sprache jeweils wichtigste prosodische Dimension. Als universell gilt ihm dabei die silbische Gliederung der Sprache. Einfache metrische Systeme nennt er solche, die in ihren numerischen Spezifikationen nur auf diese rhythmische Grundlage Bezug nehmen, also silbenzählend im Sinne der Metrik sind. In allen anderen Fällen tritt nach Lötz (1960) eine Differenzierung der Silben in genau einer der drei akustischen Dimensionen der Prosodie hinzu, so daß wir in der Klasse der komplexen metrischen Systeme den dynamischen, quantitativen und tonalen Typ unterscheiden können. Als metrisches Universale hält Lötz fest, daß alle Einteilungen der Silben in metrologischen Spezifikationen grundsätzlich binär erfolgen: So unterscheiden dynamische Metren lediglich schwere von leichten Silben, quantitierende Metren lange von kurzen und tonale Metren Silben mit Konturton von solchen mit Registerton. Unter (69) ist die Typologie von Lötz zusammengefaßt:

198 (69) Metrische Typen nach Lötz (1960) 1. 2.

einfache Metrik: silbenzählender Typ komplexe Metrik: syllabisch-prosodische Typen 2.1 dynamischer Typ: Unterscheidung der Silben in schwere und leichte 2.2 quantitierender Typ: Unterscheidung der Silben in lange und kurze 2.3 tonaler Typ: Unterscheidung der Silben in ebene und konturierte

Zwar hebt Lötz (1960) hervor, daß jede metrische Differenzierung der Silben eine entsprechende phonologische voraussetzt, eine Anbindung seiner als exhaustiv verstandenen Typenliste unter (69) an eurhythmische Prinzipien oder Präferenzen unterbleibt jedoch gänzlich. Im Gegensatz zu Lötz gründet Levy (1971) seine Einteilung metrologischer Spezifikationen ausdrücklich auf der Isochronietypologie von Pike. Als universelles Ziel einer metrisch gebundenen Dichtung gilt ihm die Isochronie der Verszeilen, die seiner Auffassung nach in akzentzählenden Sprachen durch Festlegung der Hebungszahl, in silbenzählenden entsprechend durch eine feste Silbenzahl erreicht werden kann. Im Unterschied zur Alltagssprache kann die Dichtung jedoch strengere Regulierungen treffen und sowohl die Silbenzahl als auch die Zahl der metrischen Prominenzen konstant halten. In diesem Fall ergibt sich eine reguläre Abfolge von metrisch prominenten und unprominenten Silben, die in naheliegender, wenn auch nicht immer eindeutiger Weise als Folge von Füßen zu beschreiben ist. Levy (1971) unterscheidet in dieser Klasse der fußbildenden Metren solche, in der bei einer sprachlich bedingten Abweichung die Taktisochronie gewahrt bleibt und somit gegenüber der silbenzählenden Festlegung 'gewinnt', von einem syllabisch-akzentuierenden Subtyp, in dem bei unveränderbarer Silbenzahl die Isochronie der Takte gelockert wird. Der erste Fall findet sich dabei nach Levy durch die englische, der zweite durch die tschechische Dichtung illustriert. Während also bei einer metrisch überzähligen Silbe der betreffende Fuß im Englischen schneller zu sprechen ist, um die Isochronie der Takte zu wahren, wird er im Tschechischen proportional gelängt. Dies führt nach Levy (1971) sogar zu einem perzipierten Rallentando. Insgesamt erhalten wir die Einteilung unter (70): (70) Metrische Typen nach Levy (1971) 1. 2.

3.

akzentuierender Vers = Taktvers: Zahl der Hebungen fest akzentuierend-syllabischer Vers = Fußvers: Zahl der Hebungen und der Silben fest 2.1 akzentuierend-syllabisch 2.2 syllabisch-akzentuierend syllabischer Vers: Zahl der Silben fest

Anders als Lötz (1960) erkennt Levy (1971) die Unterbestimmtheit der metrologischen Gestaltung durch die Phonologie ausdrücklich an, verweist jedoch gleichzeitig darauf, daß die in einer Sprachgemeinschaft bevorzugten Metren typischerweise in besonders naheliegender, eben 'natürlicher' Weise von ihrem prosodischen Angebot Gebrauch machen. Gleichzeitig brauchen aber auch die versgeschichtlich zweitrangigen Metren immer eine phonologische Grundlage im Sprachsystem. Auch Kurylowicz (1975) geht davon aus, daß jedes Metrum wesentlich eine perzeptiv hinreichende Isochronie der Zeilen gewährleisten müsse. Im Unterschied zu Lötz und zu Levy bildet seiner Ansicht nach eine Festlegung der Silbenzahl alleine noch keine ausreichende Grundlage einer metrischen Stilisierung. Unbedingt sei nämlich eine phonologisch begründbare Einteilung der Silben in prominente und nichtprominente oder aber lange und kurze notwendig. Jedes Metrum basiert also nach Kurylowicz auf genau einer unserer beiden

199 rhythmischen Dimensionen. Eine Festlegung der Silbenzahl kann hinzukommen, Kurylowicz bezeichnet solche Verse als isosyllabisch. Bei variabler Silbenzahl ist allein die Zahl der metrisch ausgezeichneten Hebungspositionen konstant, hier spricht Kurylowicz von isoiktischen Metren. Die hieraus resultierende Kreuzklassifikation ist unter (71) dargestellt: (71) Metrische Typen nach Kurylowicz (1975) isosyllabisch isoiktisch

akzentuierend Typ 1 Typ 2

quantitierend Typ 3 Typ 4

Wie bei Lötz und anders als bei Levy ist in (71) also ein eigener Typ quantitierender Metren vorgesehen, der von einer dichotomischen Isochronietypologie nicht vorhergesagt wird. Auch bei Fabb (1997) findet sich eher beiläufig eine Typologie metrologischer Systeme, die sich auf Lötz (1960) stützt, jedoch in seiner Klasse einfacher Metren, in denen nur eine rhythmische Grundeinheit numerisch festgelegt wird, zwischen Silben- und Morenzählung unterscheidet. Eine Kookkurrenz von fester Silben- und Hebungszahl etabliert anders als bei Levy und Kurylowicz keinen eigenen Typ bei Fabb. Der italienische endecasillabo ebenso wie der jambische Pentameter des Englischen werden bei ihm unter Verweis auf die jeweiligen metrisch ausgezeichneten Positionen als dynamische Metren eingestuft. Fabb weist außerdem auf mögliche extrametrische Silben am Zeilenende hin, wohl auch um dadurch die Konstanz der Silbenzahl als metrologisches Prinzip dieser Verse in Frage zu stellen. Allerdings hält Robey (1999) in seiner Untersuchung zur metrisch konventionalisierten Silbenzäh 1 ung bei Dante fest, daß Synaloephen, also Elisionen zur Hiatvermeidung, teilweise inkonsistent durchgeführt werden und nur als numerische Anpassung der Silbenfolge vor der metrisch prominenten zehnten Silbe im endecasillabo verstanden werden können. Die korrekte Silbenzahl zumindet bis zur letzten Hebung scheint also doch wichtiger als beispielsweise eine konsequente euphonologische Einrichtung der silbischen Prosodie. Genau die gleiche Einsicht findet sich übrigens schon zwei Jahrhunderte vorher bei Smith (1799): In counting the syllables of the Italian Heroic Verse, still greater indulgences must be allowed: three vowels must there frequently be counted as making but one syllable, though they are all pronounced, rapidly indeed, but in succession, or the one after the other, and though no two of them are supposed to make a diphthong. In these licences too, the Italians seem not to be very regular, and the same concourse of vowels which in one place makes but one syllable, will in another sometimes make two. (Smith 1799, 246)

Tsur (1998, 23) sieht demgegenüber in seiner unter (72) zusammengefaßten Bestandsaufnahme metrischer Typen in der abendländischen Literatur einen syllabotonischen Typus mit fester Hebungs- und fester Silbenzahl ausdrücklich vor: (72) Metrische Typen der abendländischen Tradition nach Tsur (1998, 23) 1. 2. 3. 4.

syllabisch: akzentuell: quantitativ: syllabotonisch:

nur Silbenzahl in Zeile fest nur Hebungszahl in Zeile fest Fußzahl in Zeile und Anordnung langer und kurzer Silben im Fuß fest Silben- und Hebungszahl in Zeile fest

Syllabotonische Metren mit einer zusätzlichen Gliederung in metrische Füße dominieren dabei nach Tsur nicht nur in der englischen Dichtung von Chaucer bis Yeats, sondern auch in

200 der neueren deutschen Dichtung seit Opitz [1624] (vgl. auch Küper 1988, 258) sowie in der russischen und hebräischen. Im Unterschied zu allen bisher vorgestellten Einteilungen betrachten Hanson/Kiparsky (1996) die Existenz metrischer Füße als Universale. Zudem sind ihrer Auffassung nach metrische Füße ebenso wie prosodische immer auf eindeutige Weise binär analysierbar (vgl. Hanson/Kiparsky 1996,289). Unterschiede ergeben sich zunächst in der Beschaffenheit der Fußfolge, die das metrische Schema konstituiert: Festzulegen ist sowohl die Zahl der Füße als auch die Position der metrisch starken Silbe im Fuß. Daneben richten Hanson/Kiparsky in ihrer parametrisierten Theorie verstärkt die Aufmerksamkeit auf die unterschiedlichen Möglichkeiten der Besetzung metrischer Positionen durch sprachliche Einheiten. So bildet die maximale prosodische Füllung einen ihrer drei Realisierungsparameter. Metrische Füße können danach nicht nur aus Moren oder Silben gebildet werden, sondern - im Falle der Auflösung - auch durch einen ganzen prosodischen Fuß oder, so die These von Russom (1987) für das Altenglische, sogar durch ein phonologisches Wort. Spezifisch für ein Metrum sind auch die Beschränkungen in der Zuordnung sprachlicher Einheiten zu metrischen Positionen. Häufig findet sich ein Verbot rhythmisch nicht prominenter Silben in einer Hebung oder umgekehrt ein Ausschluß prominenter Silben außerhalb einer starken Position im Versfuß. Schließlich unterscheiden die Autoren auch verschiedene sprachspezifische Qualitäten, die eine Silbe rhythmisch prominent machen, darunter auch Silbenlänge und -schwere. Insgesamt stellt sich ihr Ansatz etwas vereinfacht wie unter (73) dar: (73) Metrische Parameter nach Hanson/Kiparsky (1996, 292) 1.

2.

Struktur 1.1 Zahl der Füße (1,2, 3 . . . ) 1.2 Position der metrisch starken Einheit im Fuß (links vs. rechts) Realisierung 2.1 maximale Größe der metrischen Position (More, Silbe, Fuß, phonologisches Wort) 2.2 Beschränkungen der Zuordenbarkeit zu metrischen Positionen 2.3 Definition rhythmischer Prominenz

Metren, die allein die Moren- oder Silbenzahl festlegen, sind also in (73) nicht vorgesehen. Femer zwingt die restriktive Theorie von Hanson/Kiparsky (1996), bei quantitierenden Metren die Einteilung der Silben in metrisch lange und schwere als Prominenzunterscheidung zu reanalysieren. Die dahinter verborgene Generalisierung der Alternanzteleologie vererbt sich also aus der Metrischen Phonologie auch in die poetologische Metrik und bringt eine eindimensionale Konzeption der sprachrhythmischen Konturen mit sich, auf deren Stilisierung die gebundene Sprache beruht. In der Ausarbeitung einer optimalitätstheoretischen Metrik durch Golston (1998), Golston/Riad (2000) und Hayes (2000) wird schließlich auf die Spezifikation metrischer Schemata ganz verzichtet und der Versuch unternommen, alle metrologischen Systeme allein Uber Hierarchien von Beschränkungen zu repräsentieren. Während die Markiertheitsbewertungen bei Golston/Riad (2000) Binarität auf allen Ebenen der metrischen Struktur fordern, stellen zwei Treuebeschränkungen sicher, daß im besten Fall die Zuordnung von metrischen Positionen und Silben eineindeutig erfolgt. Füllungsfreiheit oder pausierte metrische Positionen sind in einer solchen Theorie, die für eine autonome Zeitstruktur keinerlei Raum mehr bietet, grundsätzlich als nichtoptimal zu beschreiben.

201 In dem bis auf die griechische Antike zurückreichenden Streit, ob die Zeit als autonome Gestaltungsdimension in der Dichtung dient oder nicht (vgl. Brogan 1998), scheint in der neueren phonologisch inspirierten Metrik die Fraktion der Metrici, die schon im Hellenismus vor allem aus Grammatikern bestand und alle metrische Stilisierung als atemporal ansieht, wieder die Oberhand zu gewinnen über die Rhythmici, die jedes Metrum als auf die Zeit bezogen werten. Dichtungstheoretiker, die stärker in der philologischen Tradition verwurzelt sind, heben demgegenüber immer wieder die Existenz taktierender Versmaße hervor, in denen ein etablierter Takt auch Pausierungen erlaubt (vgl. Küper 1988, 274 zum Deutschen und Englischen). In allen metrischen Systemen, die im Deutschen und Englischen Bestand hatten, dient die Prominenzkontur als Bezugspunkt der Stilisierung. In einigen von ihnen, darunter auch volksnahen wie dem englischen Limerick, erfolgt diese Stilisierung unter Ausnutzung der Kompressions- und Dehnungsmöglichkeiten dabei als Isochronisierung.5 Dagegen gründen Metren im Japanischen, wie aufgrund der rhythmusphonologischen Organisation der Sprache nicht anders zu erwarten, nach Miner/Ueda (1993,657) grundsätzlich auf den Moreneinheiten. Das Haiku als die außerhalb Japans wohl bekannteste traditionelle lyrische Kleinform umfaßt beispielsweise drei Zeilen mit fünf, sieben und fünf Moren. Nach Poser (1990,80) besteht im Japanischen außerdem eine Rezitationstradition, in der jede Zeile acht moraische Zeiteinheiten umfaßt, in der sich also jeweils drei, ein und wieder drei stumme Moren an die Verszeilen anschließen. Inwieweit dies auf die Existenz einer zweimorigen Fußeinheit im Japanischen hinweist, wie Poser behauptet, braucht hier nicht erörtert zu werden. Eindeutiger scheint mir diese Vortragsweise jedoch den grundlegend zeitstrukturbezogenen Charakter des japanischen Sprachrhythmus zu belegen. Da aber nicht nur die Versgestaltungen, sondern auch die Vortragsweisen im Japanischen kanonisiert sind, gilt das berühmte, nachfolgend zitierte Argument der modernen Metrici Wimsatt und Beardsley meiner Ansicht nur eingeschränkt: The measurement of verse is determined by some recurrent linguistic feature [... ] If we read this recurrence so as to give it equal times, this is something we do to it. Maybe we actually do, and maybe this is a part of our aesthetic satisfaction; still it is not a part of linguistic fact which the poet has to recognize and on which he has to rely in order to write verses. (Wimsatt/Beardsley 1959, 590)

Stärker noch als in den taktierenden Sprechversen der germanischen Sprachen kann der Dichter im Japanischen durchaus von einer bestimmten zeitlichen Organisation im Vortrag ausgehen. Schon diese wenigen Hinweise lassen auch in der komparativen Metrik eine Verengung des Blicks nur auf akzentuelle Prominenzen oder nur auf Zeitdauern fragwürdig erscheinen. Wie in der Rhythmusphonologie, so ist auch die Streitfrage zwischen Metrici und Rhythmici in der Poetik zu differenzieren: Es kann nicht darum gehen, Zeit oder Prominenz als für die metrische Stilisierung grundlegend zu erweisen; vielmehr ist für jedes metrische System gesondert nach der jeweiligen prosodischen Grundlage der Organisation zu fragen. Der vermittelnden Position von Bernhart (1995) können wir uns auch aus phonologischer Sichtweise nur anschließen: It appears that meters can belong to different categories, that is, to two different categories, the first being the category of abstract meters, the second that of temporal meters. One could say that modern 5

Lehiste (1992; 1994) zeigt für eine Reihe weiterer Sprachen, daß eine solche Isochronisierungsmöglichkeit in der Rezitation mit dem Fehlen distinktiver Quantität einherzugehen scheint.

202 metrics applies to the abstract, syllabotonic meters (practically all studies are based on the iambic pentameter tradition), while a different kind of metrics would apply to temporal meters. (Bernhart 1995,437) Die von Bernhart konstatierte Überbetonung fußbildender Metren in der modernen Poetik findet ihr linguistisches Pendant in der Metrischen Phonologie. Daß die Ansetzung eines silbenzählenden Typs jedoch nicht nur rhythmusphonologisch, sondern auch metrologisch keine geeignete Auffächerung der Beschreibungskategorien schafft, soll im folgenden ausgeführt werden.

4.3.4

Silbenzählung in der Metrik

Nicht selten wird in Linguistik und Literaturwissenschaft ein Zusammenhang zwischen Silbenzählung in Sprache und Dichtung gesehen: So ist argumentiert worden, daß in Sprachen, deren Rhythmus als silbenzählend beschrieben wird, die Zeitstruktur und die Prominenzkontur weniger salient seien und eine quantitative oder akzentuelle Definition metrischer Schemata nicht naheliegend oder aufgrund der fehlenden sprachlichen Grundlage sogar ganz unmöglich scheine. Silbenzählung in der Sprache bedingt nach dieser Meinung Silbenzählung in der Metrik. Da jedoch selbst in Sprachen ohne kontrastive Nutzung der beiden rhythmischen Dimensionen eine Differenzierung der Silben nach Länge oder Prominenz erfolgt, ja nach unserer Argumentation von 2.2.3 sogar erfolgen muß, können metrische Traditionen in jedem Falle nicht nur auf der Existenz, sondern auch auf einer rhythmischen Konturierung der Silbenfolge aufbauen. Umgekehrt erwähnt Bertinetto ( 1988,60) die Existenz silbenzählender Metren neben akzentzählenden als Indiz für die Isochronietypen von Abercrombie (1967). Silbenzählung in der Metrik belegt also ihm zufolge Silbenzählung in der Sprache. Allerdings spricht, wie wir in 2.2.1 schon vermerkt haben, die Existenz weiterer metrischer Systeme gerade gegen Abercrombie. Immerhin erreicht bei einer Folge isochroner Silben die Festlegung ihrer Anzahl in der Zeile, daß auch die Verszeilen selbst jeweils die gleiche Zeit in Anspruch nehmen. Betrachtet man isochrone Zeilen als metrisches Ziel und isochrone Silben als sprachliche Gegebenheit, so scheint Zählen in der Tat geradezu unabdingbar für gutes Dichten. Fraisse (1974) formuliert diese Grundlage der silbenzählenden Metrik in der Silbenisochronie beispielhaft für das Französische: En français, le syllabisme est lié au principe de l'isosyllabisme, c'est-à-dire à l'égalité ou, plus exactement, à la non-différenciation des durées des syllabes. (Fraisse 1974, 149) Auf diesem Wege gelangt also der Isochroniegedanke auch in die Metrik. Unmittelbar einsichtig ist jedoch, daß zwar das gemeinsame Auftreten von Silbenisochronie und Silbenzählung das postulierte Ideal isochroner Verszeilen garantiert, umgekehrt aber gleiche Dauern von Zeilen gleicher Silbenzahl auch bei verschiedener Länge der einzelnen Silben durch intersyllabische Kompensationen zu erreichen sind. Selbst in metrischen Schemata, die entweder die Silbenzahl nicht festlegen oder aber als heterometrische für verschiedene Zeilen der Strophe verschiedene Silbenzahlen vorschreiben, können die Zeilen durchaus zeitlich einander angeglichen werden. Sogar unter der Annahme also, daß in silbenzählender Dichtung die phonetischen Zeilenlängen tatsächlich gleich sein sollten, folgt hieraus noch nicht die Iso-

203 chronie der einzelnen Silben. Silbenzählende Metrik kann also keineswegs als Beweis für silbenzählenden Sprachrhythmus gelten. Ob in der Rezitation silbenzählender Verse tatsächlich Silbenisochronie erreicht werden kann, muß angesichts der in 1.2.1.2 referierten Ergebnisse bezweifelt werden. Verzichtet man auf eine temporale Begründung silbenzählender Metren, so bleibt aber immer noch ihre abstrakte Gestaltqualität als mögliches metrologisches Ziel: Vermutet werden könnte, daß die regelmäßige Abfolge acht-, zehn- oder zwölfsilbiger Zeilen, um nur die im Romanischen wichtigsten Verstypen zu nennen, auch unabhängig von ihrer jeweiligen zeitlichen Extension ein Gelingen von Form bedeutet. Im folgenden soll nun aber für die These argumentiert werden, daß eine Festlegung der Silbenzahl alleine in keinem Falle eine ausreichende metrologische Spezifikation darstellt. Als Beleg hierfür darf zunächst die notorische Abwesenheit solcher Metren gelten: Im Gegensatz zu traditionellen Lehrbüchern halten neuere vergleichende Gesamtdarstellungen die Marginalität rein silbenzählender Metren ausdrücklich fest (vgl. Brogan 1993d, 770, der solche Dichtungsversuche als "esoteric" bezeichnet). Zieht man aus der unter (68) zitierten Maxime der natürlichen Versifikation Vennemanns per Kontraposition den Schluß, daß Eigenschaften, die in keiner Sprachgemeinschaft der Alltagssprache angehören, sich auch nicht in natürlichen Metren wiederfinden, so wirkt dieser 'esoterische' Charakter rein silbenzählender Versifikation nach unseren Ausführungen in 2.2 wenig überraschend. Auch in den im letzten Unterabschnitt besprochenen Klassifikationen, die Silbenzahl als mögliches Definiens eines Metrums anführen, zeigt sich bei der Überprüfung der jeweils genannten Beispiele die Fragwürdigkeit eines solchen Typs: Lötz (1960, 140) etwa nennt als einzigen Beleg die mordwinische Dichtung. Nach Jakobson/Lotz (1979,162) tritt aber in jedem metrischen Schema des Mordwinischen eine weitere Gliederung zwischen der Silbenebene und der Verszeile hinzu - die Autoren sprechen von "segments", die zwischen drei und fünf Silben umfassen - und etabliert damit eine obligatorische Binnengliederung. Fabb (1997, 56f.) bringt als Beispiel für reine Silbenzählung lediglich die walisische englyn penfyr-Dichtung und vermutet weitere Metren dieses Typs in anderen keltischen Gattungen. Allerdings weist er selbst auf einen gewissen Variationsspielraum für Silbenzahlen hin und vermutet daher, daß das Metrum eigentlich anders zu beschreiben sei. In ihrer Untersuchung der frühen walisischen r/ian-Dichtung kommen Klar/O Hehir/Sweetser (1983/84, 38) sogar zu dem Schluß, daß gleiche Silbenzahlen von den Dichtern nicht nur nicht angestrebt, sondern sogar vermieden werden, um einen monotonen rhythmischen Eindruck zu vermeiden. Auch wenn jedoch in strophischen Texten des Altkeltischen in jeder Position in der Strophe eine feste Anzahl von Silben erscheint, so ist nach Travis (1973,9) dennoch die feste Periodizität der Hebungen entscheidend für das Metrum. Darüber hinaus schreibt nach Dunn/Brogan (1993, 178) die walisische Dichtung in alter und neuer Zeit an einer festen Stelle in der Zeile eine Zäsur vor. Levy (1971) ordnet unter anderem polnische Dichtung seinem silbenzählenden Typ zu. Wiederum jedoch geht die Kanonisierung fester Silbenzahlen im 16. Jh. mit einer verbindlichen Zäsurengliederung Hand in Hand (vgl. Stankiewicz/Brogan 1993,1156). Daß die damit verbundene Unterteilung des Verses für die Identität eines Metrums entscheidend sein kann, zeigt etwa die Dichtung der Tuareg, wo, wie Greenberg (1960, 945) vermerkt, die Dichter ihre Metren nach den Positionen der Zäsuren unterscheiden. Schließlich verweisen Levy (1971) und Tsur (1998, 23) auf den romanischen Vers, der häufig als Zitierbeispiel für Silbenzählung dient und der germanischen akzent- oder bes-

204 ser hebungszählenden Tradition gegenübergestellt wird. Daß aber etwa die in der Literatur Dantes und Shakespeares dominanten syllabotonischen Metren beide in gleicher Weise als fußbildend aufgefaßt werden können, erkennt bereits Smith (1799): Both the English and the Italian Heroic Verse, perhaps, are not so properly composed of a certain number of syllables, which vary according to the nature of the rhyme; as of a certain number of intervals, ( of five invariably, ) each of which is equal in length, or time, to two ordinary distinct syllables, though it may sometimes contain more, of which the extraordinary shortness compensates the extraordinary number. (Smith 1799, 249)

Die damit verbundenen Beschränkungen der Position rhythmischer Prominenzen im italienischen endecasillabo werden bereits von Bembo in seiner Prose della volgar lingua von 1525 als konstitutiv angesehen: Neben der Prominenz auf der zehnten Silbe muß eine weitere Prominenz entweder auf die vierte oder auf die sechste Silbe fallen (vgl. Rosa/Sangirardi 1996,159). Somit ist jede Zeile durch ihre rhythmische Kontur weiter zu untergliedern. Eine solche Bildung von Gruppen kleinerer Silbenzahl durch festgelegte Hebungen oder Zäsuren begegnet nach Küper (1988) aber keineswegs nur im Italienischen: Es gibt zwar in vielen Literaturen Verse, die aus mehr als 7 oder 9 (7+2) Silben bestehen, jedoch lassen sich solche Verse fast immer auf weniger als 9 Einheiten größeren Zuschnitts, und zwar durchaus in Begriffen der jeweiligen literarischen Tradition, strukturieren. (KUper 1988, 88)

Warum dem so ist, erläutert Tomaäevskij [1928] mit einer Begründung, die durchaus als kognitiv im modernen Sinne gelten darf: Man darf nämlich nicht glauben, der Rhythmus beruhe auf arithmetischer Rechnung, auf Abzählung. Die Zahlen müssen als Eigenschaft erlebt und mit einer einzigen Anspannung der Aufmerksamkeit erfaßt werden. (TomaSevskij [1928] 1972, 261)

Auch metrische Formen müssen als rhythmische Gestalten holistisch erfahrbar sein. Wie aber kam es dazu, daß bereits in der frühesten überlieferten Dichtung im Romanischen, von volksnaher Spielmannsdichtung abgesehen (vgl. Baehr 1996,453), Isosyllabismus als euphonische Qualität auch von den Dichtern selbst so stark hervorgehoben wurde, daß die Silbenzahlen sogar die Grundlage für die Bezeichnung der Metren bilden? Warum nennen wir den Vers Petrarcas endecasillabo, den von Shakespeare jedoch unter Bezug auf die Fußeinteilung iambic pentameter Eine Antwort hierauf kann nur aus der Literaturgeschichte kommen und muß in der jahrhundertelangen Konkurrenz der neuen romanischen Idiome zu der als Bildungsgut bewahrten klassisch-lateinischen Literatursprache gesucht werden. So ist die Festschreibung der Silbenzahl in der frühen epischen Dichtung der Romania als Imitation - so Jammers (1972,494) einer quantitierenden Metrik, vor allem in ihrer isosyllabischen frühchristlichen Form (vgl. Lote 1949, xxix) oder auch als Abgrenzung von ihr in Sprachen ohne Quantität zu verstehen (vgl. Baehr 1996, auf dem auch die folgenden Ausführungen basieren). Diese für bestimmte dichterische Formen typische Konstante wird im Laufe des Mittelalters und unterstützt durch das Traktat De arte metrica von Beda Venerabiiis zunehmend zum Deñniens gebundener Sprache schlechthin. Daneben stellen sich spätestens mit dem Aufkommen eines reinen Sprechverses im höfischen Roman des 12. Jhs. zusätzliche Normierungen der Prominenzkontur ein, die neben einer festen Prominenzstelle gegen Ende der Zeile sehr bald weitere Hebungspositionen an bestimmten Positionen im Inneren des Verses kanonisieren (vgl. Baehr

205 1996,443). Weil dies aber im frühen deutschen Meistersang übersehen und versucht wurde, allein durch die Silbenzahl ein Metrum zu begründen, blieben die Ergebnisse notorisch unbefriedigend. Die nachfolgend zitierte Kritik von Schottelius [1663] ist also in Bezug auf seine Landsleute berechtigt, nicht jedoch in Bezug auf die romanische Dichtung: Sie [= Franzosen, Italiener und Spanier, A.D.] haben nur die Anzahl der Silben/ (wie auch bey uns Teutschen die alten Meister-Sänger) und nicht die rechte Wortzeit oder den langen und kurzen Tohn in acht genommen: Daß aber solches gar nicht gnug/ noch der Kunst/ Eigenschaft und Gründen der wahren Pesis gemäß/ bedarf gar keines andeutens. (Schottelius 1663, 796) Auch außerhalb Europas erweist sich, daß die von den Linguisten oder Ethnographen als rein silbenzählend eingestuften Metren entweder die Lage weiterer prosodischer Grenzen festlegen oder aber sich bei genauerer Analyse als morenbasierte Metren erweisen. So zeichnet sich die gama-Dichtung in der australischen Sprache Dyirbal nach Dixon/Koch (1996, 52) dadurch aus, daß sie in Zeilen zu je elf Silben untergliederbar ist. Hinzu treten jedoch, ähnlich wie in italienischen endecasillabi, in entscheidender Weise akzentrhythmische Beschränkungen: So müssen Worthauptakzente auf die erste und achte und Nebenprominenzen auf die vierte und elfte Position fallen. Besonders für die afrikanischen Traditionen mündlicher Literatur ist die Bindung der Prosodie an Metren immer wieder unterschätzt worden. Noch Greenberg (1960) ist der Ansicht, daß häufig allein Silbenzahlen festgelegt und manchmal sogar lediglich syntaktische Parallelismen als Regularität erkennbar seien. So bildet in der bereits in 1.2.1.3 im Zusammenhang mit Morenisochronie erwähnten Bantusprache Ganda die More nach Katamba/Cooke (1987) auch die entscheidende Grundlage der Sprechdichtung wie der vokalen Musik. Auch im Haussa, von Miller/Tench (1982) als silbenzählend eingestuft, finden sich in der neueren Metrik quantitierende Schemata der klassischen arabischen Dichtung, die nach Schuh (1989) auch deswegen so erfolgreich waren, weil die sprachliche Grundlage, nämlich die Unterscheidung ein- und zweimoriger Silben (CV vs. CVV und CVC), im Haussa gegeben ist. Wird jedoch die Bedeutung der Moreneinheit schon in der Phonologie übersehen, so bleibt oft auch ihre Rolle in der Poesie unentdeckt. Des weiteren hat die Dichtung im Somali als wenig formstreng gegolten; nach Greenberg (1960, 928) muß lediglich ein bestimmter Konsonant mindestens einmal pro Verszeile erscheinen. Johnson (1979) jedoch weist für traditionelle somalische Dichtung Morenzählung nach. Nicht ganz so klar liegen die Verhältnisse im Yoruba, einer der drei Beispielsprachen des silbenzählenden Sprachtyps bei Abercrombie (1967), das jedoch von Nagano-Madsen (1992) als morenbasiert reanalysiert wird. Die Metrik kennt keinerlei Festlegung der Silbenzahlen; nach Olabimtan (1977) schwanken diese etwa in der traditionellen oralen orin-àrùngbè-Oichtung sogar massiv. Dies mag mit dazu beigetragen haben, ihre metrische Gebundenheit schlechthin zu bestreiten, Babalola (1957, 5) etwa vermerkt lapidar: "Yoruba poetry has neither rhyme or regular metre" (zitiert nach Greenberg 1960,928). Nach Olabimtan (1977) finden sich aber neben syntaktischen Stilisierungen durch Parallelismen immerhin tonale Regularitäten, beispielsweise rekurrente Folgen dreier Tieftöne am Zeilenende. Außerhalb Afrikas ist nach Balasubramanian (1980) die Moren- und Fußbasiertheit des Tamilischen auch von den Dichtern erkannt und begrifflich gefaßt worden: In Tamil poets count what they call feet and a foot is said to consist of one or more units called acai. Acais are of two kinds, ne.r and nirai, one ne.r is equated with two nirais. (Balasubramanian 1980, 466)

206 Im Ponapeanischen, einer mikronesischen Sprache, die nach Fischer (1959) distinktive Quantität im Vokalismus, jedoch kaum Kontrastivität des Akzents aufweist, so daß auch phonologisch morenbasierter Rhythmus zu vermuten ist, findet sich Morenzählung nicht nur in den metrischen Schemata, sondern besonders eindrucksvoll auch in der traditionellen rhythmischen Darbietung mit Stocktänzen. Zu Recht wertet Fischer diese Tatsache auch als Beweis dafür, daß die ausnahmslos morenbasierten Metren keineswegs als kultureller Import aus der japanischen Dichtung im Zuge der Kontakte im 20. Jh. zu werten sind. Auch in der polynesischen Sprache Tokelauanisch begegnet in der narrativen, teilweise metrisch gebundenen, oralen Dichtung die More sowohl in der abstrakten metrischen Form wie auch als Takteinheit im Vortrag: Hoëm/Hovdhaugen/Vonen (1992) vermerken zu den von ihnen untersuchten tagi-Liedern: There is an even beat in the rhythm: Each stressed mora occupies a position at the distance of an even number of moras from the end of the line; and each mora [... ] has the same duration [... ] There are two instances of rests within a line. In both cases, the rest exactly replaces the second half (mora) of an expected long vowel. (Hoëm/Hovdhaugen/Vonen 1992, 156) Besonders im pazifischen Raum dürften also die Metrici von Piaton bis Wimsatt und Beardsley einen schweren Stand haben. Alle angeführten Metren, die als rein silbenzählend eingestuft wurden, erlegen somit bei näherem Hinsehen dem poetischen Text weitere Anforderungen an die rhythmische Kontur oder Gliederung auf. Morenbasiert sind die Dichtungen im Haussa, Somali, Tamilischen, Ponapeanischen und Tokelauanischen. Für die letzten beiden Sprachen belegen die autochthonen Rezitationstraditionen außerdem die temporale Grundlage dieser Metren. Zusätzliche Festlegungen in der Prominenzkontur finden sich in den Elfsilblern des Italienischen wie des Dyirbal. Zumindest eine feste Zäsur kennen die Metren des Mordwinischen, Walisischen und Tamaschekischen, der Sprache der Tuareg. Inwieweit im Yoruba neben der tonalen Festlegung am Verszeilenende mit den dort obligaten syntaktischen Parallelismen ähnliche zäsurale Gliederungen verbunden sind, bliebe zu untersuchen.

4.3.5

Metrische Zäsuren und phrasenbasierter Rhythmus

Zum Abschluß unserer Durchsicht der metrologischen Evidenz soll nun auch für den in 3.3.2.1 postulierten phrasenbasierten Sprachrhythmus des Neufranzösischen ein Indiz aus der Dichtung angeführt werden. Gerade in jüngerer Zeit scheint die Diskussion darüber, was den klassischen französischen Vers ausmacht, wieder neu entfacht. Auch die Auffassung, daß neben der Silbenzahl keine weiteren prosodischen Eigenschaften als konstitutiv gelten dürfen, hat mit Gouvard (1993) und Cornulier (1995) neue Anhänger gefunden; Cornulier (1995) setzt konsequenterweise überhaupt nur noch für isometrische oder strophische Texte Metrizität an: Ce qui est métrique n'est donc pas un vers, mais des vers, par équivalence mutuelle ; et ce qu'on appelle le mètre d'un vers singulier consiste moins en la conformité de cette expression singulière avec une norme abstraite, qu'en un rapport réciproque d'équivalence contextuelle en nombre syllabique entre plusieurs suites verbales voisines disjointes. (Cornulier 1995, 21; Hervorhebungen im Original)

207 Scott (1998, 33ff.) unterscheidet eine minimalistische und eine maximalistische Auffassung der neufranzösischen Metrik. Während nach Ansicht der Minimalisten nur wenige für alle Verszeilen konstante Grundanforderungen durch das Metrum spezifiziert sind und alle weiteren prosodischen Gestaltungen im Ermessen des Rezitatoren liegen, sehen es Vertreter maximalistischer Positionen auch als Aufgabe der Metrik an, wahrscheinliche akzentrhythmische Konturierungen vorherzusagen. Die hierbei beobachtbaren Präferenzen haben einige Poetologen sogar dazu veranlaßt, die metrischen Regeln des Neufranzösischen analog zum neueren germanischen Vers als syllabotonisch zu konzipieren und auch für das Französische eine Zerlegbarkeit der Verszeile in Füße zu behaupten. Wer jedoch eine solche metrische Konstituenz diagnostiziert, gerät schnell in die Situation, Entscheidungen über Zusammengehörigkeitsverhältnisse an Stellen treffen zu müssen, wo der Verstext dies nicht eindeutig erlaubt. Schlimmer noch wiegt, daß in manchen Fällen keine einzige Fußbildung plausibel erscheint: Die folgende Analyse, in der Senkungen mit 'u', Hebungen mit bezeichnet sind, bedarf wohl keines Kommentars: [... ] le groupe ce chapeau vert correspond soit à un péon quatrième /uuu-/, soit à un pyrrhique suivi d'un ïambe/uu/u-/. (Volkoff 1978, 8f.; zitiert nach Scott 1998, 35)

Bereits in 2.3.4 haben wir für die Phonologie des Französischen eine prosodische Gliederung in Füße bestritten, und auch die Metrik liefert zu einer solchen Annahme keinen Grund. Bei aller Unbestimmtheit möglicher rhythmischer Ausgestaltungen gilt manchen eine Alternation von Prominenzen, gleich ob durch die sprachliche Basis nahegelegt oder in der Rezitation erst hinzugefügt, doch als grundlegend auch für die französische Dichtung. Verrier (1931/1932, Bd. 2, 5) schreibt lapidar: "C'est l'alternance fixe de l'accent qui est le premier principe de notre versification [... ]". Doch auch eine solche im Vergleich zur Fußmetrik schwächere Theorie ist auf heftigen Widerstand gestoßen: Comulier (1982,279) etwa behaupet entschieden: "[... ] le vers français n'est pas accentuel". Differenzierter ist die Sichtweise von Mölk (1972,468), nach dem zwar alternierende oder in naheliegender Weise alternierend zu sprechende Verse im Französischen nicht selten sind, Alternation aber dennoch nicht als metrisches Prinzip gewertet werden darf. Insbesondere ist die Ansetzung von vortonigen Nebenprominenzen in längeren Wortformen für die Alternationstheorie unvermeidlich; unvermeidlich mit ihnen verbunden scheint jedoch auch ein gewisses Unbehagen. Coenen (1998, 101) etwa vermerkt in seiner französischen Verslehre, daß diese Prominenzen vor der Ultima "konstruiert" wirken. Wenn aber einer quantitierenden Metrik im Französischen die Grundlage fehlt und anders als etwa im Italienischen auch eine akzentrhythmische Grundlage nicht wahrscheinlich gemacht werden kann, welche Eigenschaft tritt dann zu der Festlegung der Silbenzahl hinzu? Die These, die hier vertreten werden soll, findet sich im Kern bereits bei Sapir (1921): Quantitative or accentual metrics would be as artificial in French as stress metrics in classical Greek or quantitative or purely syllabic metrics in English. French prosody was compelled to develop on the basis of unit syllable-groups. (Sapir 1921, 229; Hervorhebung A. D.)

Diese Silbengruppen bestimmter Silbenzahl werden dabei innerhalb einer Zeile durch Zäsuren voneinander getrennt. Entscheidend ist nun aber der Hinweis von Baehr (1996, 445), daß sich die metrischen Funktionen von Zäsuren und ihre Auswirkungen auf die Rezitation zwischen dem lateinischen und dem romanischen Vers und auch innerhalb des romanischen grundlegend unterscheiden: So ist im antiken Hexameter unmittelbar nach der dritten oder

208 vierten Hebungssilbe oder auch, seltener, bei daktylischem dritten Fuß nach dessen erster Senkung eine Zäsur vorgeschrieben. Für die Positionierung der Zäsur bestehen also Alternativen, in keinem Fall jedoch korrespondiert sie mit einer metrischen Fußgrenze. Insbesondere leistet sie keine Teilung der Zeile in zwei gleiche Hälften wie im klassischen französischen Alexandriner mit Mittelzäsur. Die durch die Zäsur im lateinischen Vers festgelegte Wortgrenze kurz vor oder kurz nach der Zeilenmitte durchbricht also gezielt die metrische Gliederung und verhindert dadurch gewissermaßen ein Zerfallen der Zeileneinheit in seine zwei Halbzeilen. In der französischen Dichtung dagegen begründet die Zäsur erst die Prägnanz eines metrischen Schemas. Erst durch sie nämlich können, um die Formulierung von TomaSevskij [1928] zu wiederholen, die geregelten Silbenzahlen "als Eigenschaft erlebt" werden. Auch Rosa/Sangirardi (1996, 159) betonen in ihren Diskussion verschiedener unter dem Begriff der Zäsur subsumierter Regularitäten, daß in manchen Dichtungstraditionen Zäsuren einen besonderen Stellenwert erhalten, indem sie nicht zu einem metrischen Schema hinzutreten, sondern konstitutiv und für alle Zeilen in einheitlicher Weise die Gliederung der Verszeile bestimmen. Diese Nutzung der Zäsur nicht als Teil des Metrums unterscheidet das Französische dabei nach Rosa/Sangirardi (1996,159) grundlegend von anderen romanischen Sprachen. Die Strenge der französischen Zäsur und die größere Variabilität der italienischen Metren entsprechen genau den am Anfang von 3.3.4.1 zitierten Beobachtungen von Wartburgs zu den rhythmischen Unterschieden zwischen beiden Sprachen. Hinzu kommt schließlich, daß im französischen Versvortrag eine Zäsur weniger mit einer Pause zwischen den beiden Silben vor und nach der Wortgrenze verbunden ist, sondern mit einer Längung auf der letzten Silbe vor ihr: Zäsuren untergliedern also die Zeile in phonologische Phrasen und schreiben somit ein allongement final zumindest in einem skandierenden, das Metrum herausarbeitenden Vortrag fest. Scott (1998) etwa erläutert diese metrologische Gliederung im französischen Alexandriner wie folgt: Unlike the English caesura, the French is neither pause nor break, nor an event which takes place after the caesural syllable; it is a feature of the caesural syllable (6 in French). The French caesura is fixed because the isosyllabism of French means that, otherwise, only one syllabic position would be specified (the twelfth, which must be accentuated). The caesura increases the number of specified positions to two, and thus acts as metrical stiffening. (Scott 1998,47; Hervorhebung im Original)

Daß in der französischen Literatur vom 16. bis zum 19. Jh. nach und nach die Anforderungen an den mit der Zäsur verbundenen syntaktischen Einschnitt gelockert wurden (vgl. Verluyten 1982), ändert nichts an dieser Tatsache. Die mit der phrasierenden Rolle der Zäsurengliederung verbundenen Beschränkungen der Sandhi-Phänomene liaison und enchaînement scheinen mir dagegen nicht einen Teil des Metrums zu bilden, wie Coenen (1998) meint, sondern vielmehr eine Folge davon.

5

Zusammenfassung und Ausblick

In dem Maße, wie die Phonologie ihren Blick 'von unten nach oben', von den Segmenten und Merkmalen zu ihrer suprasegmentalen Organisation erhoben hat, ist auch der Sprachrhythmus immer deutlicher als ein phonologisches Thema erkannt worden. Dabei stehen sich in der Forschung die im ersten Kapitel vorgestellten zwei Hauptrichtungen gegenüber: Die bis auf die Antike zurückreichende Konzeption, die Rhythmizität als Wiederkehr des Gleichen begreift, wird im 18. Jh. bei Steele für die Sprache als Gleichheit der zeitlichen Abstände zwischen betonten Silben präzisiert. Pike [1945] erwägt als alternative rhythmische Qualität eine isochrone Abfolge aller Silben und bereitet damit einer auf Abercrombie (1967) zurückgehenden dichotomischen Sprachklassifikation den Boden. Zwar erweist sich diese unter allen vorgeschlagenen Modifikationen als fragwürdig, dient aber doch einer Reihe von Phonologen als Ausgangspunkt einer typologischen Zusammenschau verschiedener für sprachrhythmisch wichtiger Eigenschaften. Häufig tritt dabei die ursprüngliche temporale Motivation des Typeninventars hinter silbenprosodischen und akzentrhythmischen Eigenschaften zurück. Der Überbetonung der Sprachverschiedenheit durch die Isochronietradition steht seit Liberman/Prince (1977) die universalgrammatisch inspirierte Richtung der Metrischen Phonologie gegenüber, die, hierin zu Steele zurückkehrend, wieder nur die regelmäßige Folge von Prominenzen als rhythmische Qualität in Betracht zieht. Diese Periodizität sucht sie jedoch allein in der Regularität der Abfolge betonter und unbetonter Silben festzumachen und läßt die Zeitdimension dabei meist außer acht. Das zweite Kapitel hat sich einer Auseinandersetzung mit beiden Traditionen gewidmet, als deren gemeinsamer Kardinalfehler die Reduktion von Rhythmizität auf eine einzige Dimension aufgefaßt wurde, nämlich die der Zeit in der Isochronietypologie und die der Prominenz in der Metrischen Phonologie. Insbesondere ist die rhythmische Qualität des als Gegenideal zum Englischen konzipierten silbenbasierten Typs von Pike bezweifelt und für Bestimmungsversuche, die neben der Angleichung der Silbendauern auch eine der Prominenzgrade vorsehen, sogar als Gegenteil von Rhythmizität gewertet worden. Umgekehrt reflektiert die Tatsache, daß in der Metrischen Phonologie das vom Englischen abgeleitete Alternanzideal sehr bald in den Rang einer universellen sprachrhythmischen Teleologie erhoben wurde, in meinen Augen eher wissenschaftssoziologische als sprachliche Realitäten. Dagegen beruht der im dritten Kapitel entwickelte Ansatz auf der Semantizität der Sprache und der dadurch geforderten Kodierungsleistung der segmentalen wie suprasegmentalen Ebenen. Bei der Betrachtung phonologischer Kontraste in der prosodischen Organisation erweist sich, daß die beiden rhythmisch relevanten Dimensionen der Zeit und Prominenz Kodierungsleistungen übernehmen können, allerdings nicht gleichzeitig. Daneben scheinen sich im Unterschied zur Prominenzkontur bei der zeitlichen Strukturierung morphologische und syntaktische Nutzungen der Zeit gegenseitig zu verhindern. Die Distinktivität von Zeit oder Prominenz in einer Sprache prägt dabei entscheidend ihr rhythmisches Erscheinungsbild, so daß wir einen prominenz- sowie zwei zeitbasierte rhythmische Typen vorsehen. Letztere bezeichnen wir unter Bezug auf ihre jeweilige rhythmische Grundeinheit als morenbasiert (bei morphologischer Determination) beziehungsweise phrasenbasiert (im Falle syntaktischer Festlegung). Aufgrund der phonologischen Bedeutungslosigkeit der Zeit kann

210 in prominenzbasierten Sprachen sekundär eine gewisse Isochronisierung der Prominenzen erfolgen. Dagegen ist in zeitbasierten gerade die Anisochronie kurzer und langer Laute und Silben rhythmisch grundlegend und verbietet eine zeitliche Modifikation der Prominenzabstände. Lediglich bei fehlenden Kontrasten in beiden prosodischen Dimensionen scheint eine alternierende Prominenzvergabe über die Rhythmisierung zu bestimmen. Diese allein phonologisch begründete Typologie findet sich auch durch andere Disziplinen bestätigt, wie im vierten Kapitel ausgeführt wurde. Daß dabei Phonetik und Sprachtechnologie, Psycholinguistik sowie die literaturwissenschaftliche Metrik in ihren Hinweisen auf verschiedene sprachrhythmische Typen und die Wichtigkeit typspezifischer prosodischer Kontraste konvergieren, darf als das wichtigste Ergebnis dieses Kapitels gelten. In unserer Ausarbeitung einer systemlinguistischen Theorie des Rhythmus mußte vieles auch beiseite gelassen werden: Neben der Relation der rhythmischen Kontur zu anderen grammatischen Mitteln, die zu erläutern bleibt, erscheint vor allem rhythmische Sprachvariation und -Veränderung als le grand absent in allen Kapiteln. Zu vermuten ist immerhin, daß erst eine Erfassung möglicher Symbolisierungen in den rhythmischen Dimensionen einen Zugang zur Beschreibung ihrer Reanalyse und Refunktionalisierung in der Diachronie eröffnet. Anders als im lautlichen und grammatischen Wandel muß die Entstehung des Neuen in der Prosodie auf der Grundlage der universell vorgegebenen prosodischen Dimensionen erfolgen. Dagegen verkennen Behauptungen wie in dem folgenden Zitat, wonach rhythmischer Wandel das Funktionieren des Sprachsystems beeinträchtigen, ja gefährden könne, daß auch die Prosodie zum phonologischen System der Sprache gehört: Il est fort évident que le rythme gallo-roman fut remplacé au nord de la Loire par un rythme tout à fait nouveau, et toute l'histoire de la langue latine en France nous apprend que ce rythme fut dévastateur pour les structures linguistiques gallo-romanes. (Palermo 1971,43) Bei einer theoretischen Klärung der Historizität von Sprache (vgl. Oestereicher 2001) und einer meliorativen Theorie des sprachlichen Wandels (vgl. Vennemann 1989) scheint rhythmischer Wandel dagegen nicht als Unfall, sondern als Änderung im Aufbauprinzip für rhythmische Konturen und damit auch im Spielraum für eurhythmisierende Anpassungen. Insbesondere bei einem Übergang von prominenz- zu zeitbasiertem Rhythmus oder umgekehrt ist dabei eine fundamentale Veränderung im rhythmischen Erscheinungsbild zu erwarten. Rapp hat in seinen Ausführungen zum Frühneuhochdeutschen genau dies erkannt: Dieses System [= das quantitierende Sprachsystem, A. D.] bleibt lebendig bis zum Ende des vierzehnten Jahrhunderts, wo unsere Sprache eine gaenzliche Revolution erfaehrt. In dieser Periode operirt sich die Ausgleichung der nieder- und oberdeutschen Idiome, und diese Krisis faellt mit der Zerstoerung der Quantitaet zusammen, die, wie man annehmen muß, der allmählich gereifte Accent endlich untergraben hatte und nun entschieden von sich warf. (Rapp 1836-1841, Bd. 1, 186) Die Klärung der Frage, wie sich solche rhythmischen Revolutionen jedoch im einzelnen vollziehen, muß späteren Untersuchungen vorbehalten bleiben. Zum gegenwärtigen Zeitpunkt ist leider der Aussage von Bally (1928) noch immer zuzustimmen: [... ] le rythme d'une langue peut changer au cours du temps: la question générale qui nous occupe doit donc être envisagée au point de vue évolutif. Cette constatation est, à vrai dire, aussi banale que celle des changements linguistiques en général; mais on a plus de peine à s'en rendre compte, et nos connaissances en cette matière sont encore assez rudimentaires. (Bally 1928, 258)

Literatur

Abaurre, Maria Bernadette Marques (1996): "The rhythms of speech and writing." - In: Clotilde Pontecorvo et al. (Hgg.): Children's early text construction, 47-66. Mahwah, NJ: Lawrence Erlbaum Ass. Abaurre, Maria Bernadette Marques/Galves, Charlotte (1998): "As diferenças rítmicas entre o portugués europeu e o portugués brasileiro: urna abordagem otimalista e minimalista." - In: Documentaçâo de Estudos em Lingüística Teórica e Aplicada 14, 377-403. Abercrombie, David (1964): "Syllable quantity and enclitics in English." - In: David Abercrombie et al. (Hgg.): In honour of Daniel Jones, 216-222. London: Longman. - (1967): Elements of general phonetics. - Edinburgh: Edinburgh UP. - (1971): "Some functions of silent stress." - In: Adam J. Aitken et al. (Hgg.): Edinburgh Studies in English and Scots, 147-156. London: Longman. Adams, Corinne/Munro, R. R. (1978): "In search of the acoustic correlates for stress: fundamental frequency, amplitude and duration in the connected utterance [sic] of some native and non-native speakers of English." - In: Phonetica 35, 125-156. Adelung, Johann Christoph [1782]: Umständliches Lehrgebäude der Deutschen Sprache zur Erläuterung der Deutschen Sprachlehre für Schule und Studium. 2 Bde. - Leipzig: Breitkopf. Nachdruck 1971 Hildesheim/New York: Olms (Documenta Linguistica; Reihe V: Deutsche Grammatiken des 16. bis 18. Jahrhunderts). Allen, George D. (1972): "The location of rhythmic stress beats in English: an experimental study." In: Language and Speech 15,72-100 und 179-195. - (1975): "Speech rhythm: its relation to performance universale and articulatory timing." - In: Journal of Phonetics 3, 75-86. Allen, George D./Hawkins, Sarah (1979): 'Trochaic rhythm in children's speech." - In: Hollien/Hollien (Hgg.) 1979, Bd. 2,927-933. - (1980): "Phonological rhythm: definition and development." - In: Grace Yeni-Komshian, James Kavanagh, Charles Ferguson (Hgg.): Child phonology. Bd. 1: Production, 227-256. New York: Academic Press. Allen, George D./Wilbur, Ronnie B./Schick, Brenda (1991): "Aspects of rhythm in American sign language." - In: Sign Language Studies 20, 297-320. Allen, W. Sidney (1973): Accent and rhythm: prosodie features of Latin and Greek: a study in theory and reconstruction. - Cambridge: CUP (Cambridge studies in linguistics 12). Almeida, Manuel (1994): "Patrones rítmicos del español: isocronía y alternancia." - In: Estudios Filológicos 29, 7-14. - (1999): Tiempo y ritmo en el español canario: un estudio acústico. - Frankfurt a. M.: Vervuert (Lingüística Iberoamericana 8). Alter, Kai (1996): "Der Zusammenhang von Akzentuierung und Phrasierung im Sprachvergleich." - In: Lang/Zifonun (Hgg.) 1996, 585-614. Aoyama, Katsura (2001): A psycholinguistic perspective on Finnish and Japanese prosody: perception, production and child acquisition of consonantal quantity distinctions. - Boston: Kluwer. Archibald, John (1995): "The acquisition of stress." - In: Archibald (Hg.) 1995, 81-109. - (1997): "The acquisition of English stress by speakers of nonaccentual languages: lexical storage vs. computation of stress." - In: Linguistics 35, 167-181. - (Hg.) (1995): Phonological acquisition and phonological theory. - Hillsdale, NJ: Lawrence Erlbaum Ass.

212 Aristoteles [1955] ( 2 1971): Politik. Eingeleitet, übersetzt und kommentiert von Olof Gigon. - Zürich/Stuttgart: Artemis. - (1982): Poetik: griechisch/deutsch. Übersetzt und herausgegeben von Manfred Fuhrmann. - Stuttgart: Reclam (RUB 7828). - [1980] ( 2 1987): Rhetorik. Übersetzt, mit einer Bibliographie, Erläuterungen und einem Nachwort von Franz G. Sieveke. - München: Fink (UTB 159). Aristoxenes Tarentinus (1840): Grundzüge der Rhythmik: ein Bruchstück in berichtigter Umschrift mit deutscher Uebersetzung und Erläuterungen. Herausgegeben von Heinrich Feußner. - Hanau: Edler. Arnauld, Antoine/Lancelot, Claude [1660] [ 3 1676]: Grammaire générale et raisonnée ou La Grammaire de Port-Royal. - Édition critique présentée par Herbert E. Brekle. Nachdruck 1966 StuttgartBad Cannstatt: Frommann-Holzboog. Arvaniti, Amalia (1994): "Acoustic features of Greek rhythmic structure." - In: Journal of Phonetics 22, 239-268. Aske, Jon (1990): "Disembodied rules versus patterns in the lexicon: testing the psychological Teality of Spanish stress rules." - In: Kira Hall et al. (Hgg.): Proceedings of the 16th annual meeting of the Berkeley Linguistics Society: general session and parasession on the legacy of Grice, 30-45. Berkeley, CA: BLS. Astésano, Corine (1999): "Levels of rhythmicity in French: a comparison between three speaking styles." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 253-256. Auer, Peter (1991): "Zur More in der Phonologie." - In: Zeitschrift für Sprachwissenschaft 10, 3-36. - (1993): Is a rhythm-based typology possible? A study on the role of prosody in phonological typology. - Hamburg: Germanisches Seminar (KontRi Working Paper 21). - (1994): "Einige Argumente gegen die Silbe als universale phonologische Hauptkategorie." - In: Ramers/Vater/Wode (Hgg.) 1994, 55-78. - (1998): "Variabilität der intervokalischen Position in deutschen Trochäen." - In: Butt/Fuhrhop (Hgg.) 1998, 304-333. - (2000): "Kontrastive Analysen Deutsch-Italienisch: eine Übersicht." - In: Heibig et al. (Hgg.) 2000/2001, Bd. 1, 367-374. - (2001): "Silben- und akzentzählende Sprachen als phonologische Typen." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2, 1391-1399. Auer, Peter/Couper-Kuhlen, Elizabeth (1995): "Rhythmus und Tempo konversationeller Alltagssprache." - In: Zeitschrift für Literaturwissenschaft und Linguistik 96, 78-108. Auer, Peter/Couper-Kuhlen, Elizabeth/Müller, Frank (1999): Language in time: the rhythm and tempo of spoken interaction. - Oxford: Oxford UP (Oxford studies in sociolinguistics). Auer, Peter/Uhmann, Susanne (1988): "Silben- und akzentzählende Sprachen: LiteraturUberblick und Diskussion." - In: Zeitschrift für Sprachwissenschaft 7, 214-259. Babalola, Adeboye (1957): "Ijala: the poetry of Yoruba hunters." - In: Black Orpheus [Ibadan] 1, 5-7. Baehr, Rudolf (1996): "Gemeinromanische Tendenzen XI. Metrik: Grundbegriffe und Methodologien der romanischen Metrik." - In: Holtus/Metzeltin/Schmitt (Hgg.) 1988-, Bd. 2.1, 435-468. Bafile, Laura (1999): "Antepenultimate stress in Italian and some related dialects." - In: Rivista di Linguistica 11,201-229. Bailey, Todd M./Plunkett, Kim/Scarpa, Ester (1999): "A cross-linguistic study in learning prosodie rhythms: rules, constraints, and similarity." - In: Language and Speech 42, 1-38. Balasubramanian, T. (1980): "Timing in Tamil." - In: Journal of Phonetics 8,449-467. Bally, Charles (1928): "Le rythme linguistique et sa signification sociale." - In: Albert Pfrimmer (Hg.): Compte rendu du 1er congrès du rythme tenu à Genève du 16 au 18 août 1926, 253-263. Genf: Institut Jaques-Dalcroze. - [1932] ( 4 1965): Linguistique générale et linguistique française. - Bem: Francke.

213 Bansal, R. Κ. (1990): "The pronounciation of English in India." - In: Susan Ramsaran (Hg.): Studies in the pronounciation of English: a commemorative volume in honour of A. C. Gimson, 219-230. London: Routledge. Barbosa, Plinio (2000): " 'Syllable-timing in Brazilian Portuguese': urna crítica a Roy Major." - In: Documentaçâo de Estudos em Lingüística Teórica e Aplicada 16, 369-402. Barbosa, Plínio/Bailly, Gérard (1994): "Characterization of rhythmic patterns for text-to-speech synthesis."-In: Speech Communication 15, 127-137. Barbosa, Plínio/Madureira, Sandra (1999): "Toward a hierarchical model of rhythm production: evidence from phrase stress domains in Brazilian Portuguese." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 297-300. Barkat, Melissa/Ohala, John/Pellegrino, François (1999): "Prosody as a distinctive feature for the discrimination of Arabic dialects." - In: Proceedings of Eurospeech 1999, Bd. 1, 395-397. Baum, Shari R./Pell, Marc D. (1999): "The neural basis of prosody: insights from lesion studies and neuroimaging." - In: Aphasiology 13, 581-608. Beauzée, Nicolas [1767]: Grammaire générale ou exposition raisonnée des éléments nécessaires du langage, pour servir de fondement à l'étude de toutes les langues, 2 Bde. - Nachdruck 1974 StuttgartBad Cannstatt: Frommann. Becker, Thomas (1990/1991): "Do words have heads?" - In: Acta Linguistica Hungarica 40, 5-17. - (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt a. M. u. a.: Lang (Arbeiten zur Sprachanalyse 32). Beckman, Jill Ν. (1997): Positional faithfulness. - Amherst, MA: Ph. D. Diss. ROA 234-1297. Beckman, Mary E. (1982a): "Effects of accent on vowel duration in Japanese." - In: Journal of the Acoustical Society of America 71, S23. - (1982b): "Segment duration and the 'mora' in Japanese." - In: Phonetica 39, 113-135. - (1986): Stress and non-stress accent. - Dordrecht: Foris (Netherlands Phonetic Archives 7). - (1992): "Evidence for speech rhythms across languages." - In: Yoch'ichi Tohkura, Eric VatikiotisBateson, Yoshinori Sagisaka (Hgg.): Perception, production and linguistic structure, 457-463. Tokyo u. a.: IOS Press. Beckman, Mary Ε,/Cohen, K. Bretonnel (2000): "Modeling the articulatory dynamics of two levels of stress contrast." - In: Home (Hg.) 2000, 169-200. Beckman, Mary EVEdwards, Jan (1990): "Lengthenings and shortenings and the nature of prosodie constituency." - In: Kingston/Beckman (Hgg.) 1990, 152-178. - (1994): "Articulatory evidence for differentiating stress categories." - In: Patricia A. Keating (Hg.): Phonological structure and phonetic form: papers in laboratory phonology III, 7-33. Cambridge: CUP. Beckman, Mary EVEdwards, Jan/Fletcher, Janet (1992): "Prosodie structure and tempo in a sonority model of articulatory dynamics." - In: Gerald Docherty, Robert D. Ladd (Hgg.): Papers in Laboratory Phonology II: segment, gesture, prosody, 68-86. Cambridge: CUP. Beckman, Mary E. et al. (1995): "Physiological correlates of global and local pitch range variation in the production of high tones in English." - In: Proceedings of the 13th International Conference of the Phonetic Sciences, Bd. 2, 638-641. Bell, Alan (1977): "Accent placement and perception of prominence in rhythmic structures." - In: Hyman (Hg.) 1977, 1-13. Benguerel, André-Pierre (1986): "Comments on 'Perceptual isochrony in English and in French'." - In: Journal of Phonetics 14, 331-332. - (1999): "Stress-timing vs. syllable-timing vs. mora-timing: the perception of speech rhythm by native speakers of different language." - In: Etudes et Travaux [Vancouver, University of British Columbia] 3, 1-18. Benguerel, André-Pierre/D'Arcy, Janet (1986): "Time-warping and the perception of rhythm in speech." - In: Journal of Phonetics 14, 231-246.

214 Berg, Thomas (1997): "Lexical-stress differences in English and German: the special status of proper nouns." - In: Linguistische Berichte 167, 3-22. Bemhardi, August Ferdinand [1805]: Anfangsgründe der Sprachwissenschaft. - Neudruck 1990 mit einer Einleitung von Roswitha Wild-Schedlbauer. Stuttgart-Bad Cannstatt: Frommann-Holzboog (Grammatica universalis 18). Bernhardt, Barbara HVStemberger, Joseph P. (1998): Handbook of phonological development: from the perspective of constraint-based nonlinear phonology. - San Diego, CA: Academic Press. Bemhart, Walter (1995): "How final can a theory of meter be? Toward a pragmatics of metrics." - In: Poetics Today 16,429-444. Bertinetto, Pier Marco (1977): " 'Syllabic blood', ovvero l'italiano come lingua ad isocronismo sillabico." - In: Studi di Grammatica Italiana 6, 69-96. - (1981): Strutture prosodiche dell'italiano. Accento, quantità, sillaba, giuntura, fondamenti metrici. - Firenze: Accademia della Crusca (Studi di grammatica italiana). - (1988): "Reflections on the dichotomy 'stress-' vs. 'syllable-timing'." - In: Quaderni del Laboratorio di Linguistica [Pisa] 2, 59-85. Bertinetto, Pier Marco/Fowler, Carol A. (1989): "On sensitivity to durational modifications in Italian and English." - In: Rivista di Linguistica 1, 69-94. Bertinetto, Pier Marco/Kenstowicz, Michael/Loporcaro, Michele (Hgg.) (1991): Certamen Phonologicum 11: papers from the 1990 Cortona Phonology Meeting. - Turin: Rosenberg & Sellien Bertinetto, Pier Marco/Loporcaro, Michele (Hgg.) (1988): Certamen Phonologicum. - Turin: Rosenberg & Sellier. Bertoncini, Josiane/Mehler, Jacques (1981): "Syllables as units in infant perception." - In: Infant Behavior and Development 4, 247-260. Bertoncini, Josiane et al. (1995): "Morae and syllables: rhythmical basis of speech representations in neonates." - In: Language and Speech 38, 311-329. Bèze, Théodore de [1580]: De Franciae linguae recta pronuntiatione tractatus. - Nachdruck 1970 Menston: Scholar Press. Bijeljac-Babic, Ranka/Bertoncini, Josiane/Mehler, Jacques (1993): "How do 4-day-old infants categorize multisyllabic utterances?" - In: Developmental Psychology 29, 711-721. Blevins, Juliette (1995): "The syllable in phonological theory." - In: Goldsmith (Hg.) 1995, 206-244. Bloch, Bernard (1950): "Studies in colloquial Japanese IV: phonemics." - In: Language 26, 86-125. Bloomfield, Leonard (1933): Language. - New York: Holt, Rinehart & Winston. Bolinger, Dwight (1958): "A theory of pitch accent in English." - In: Word 14, 109-149. - (1962): "Binomials and pitch accent." - In: Lingua 11, 34-44. - (1965): Forms of English: accent, morpheme, order. - Tokyo: Hokuou Pubi. Comp. - (1978): "Intonation across languages." - In: Joseph H. Greenberg et al. (Hgg.): Universals of human language. Bd. 2: Phonology, 471-524. Stanford: Stanford UP. - (1981): Two kinds of vowels, two kinds of rhythm. - Bloomington, IN: Indiana Univ. Linguistics Club. Bolton, Thaddeus L. (1894): "Rhythm." - In: American Journal of Psychology 6, 145-238. Bond, Zinny S. (1999): Slips of the ear: errors in the perception of casual conversation. - San Diego, CA: Academic Press. Bond, Zinny S./Fokes, Joann (1985): "Non-native patterns of English syllable-timing." - In: Journal of Phonetics 13, 4 0 7 ^ 2 0 . Bond, Zinny SVStockmal, Verna (2002): "Distinguishing samples of spoken Korean from rhythmic and regional competitors." - In: Language Sciences 24, 175-185. Bond, Zinny S./Stockmal, Vema/Muljani, D. (1998): "Learning to identify a foreign language." - In: Language Sciences 20, 353-367. Botinis, Antonis/Fourakis, Marios/Prinou, Irini (1999): "Prosodie effects on segmental durations in Greek." - In: Proceedings of Eurospeech 1999, Bd. 6, 2475-2478.

215 Boysson-Bardies, Bénédicte de et al. (1992): "Material evidence of infant selection from the target language." - In: Charles A. Ferguson, Lise Menn, Carol Stoel-Gammon (Hgg.): Phonological development: models, research, implications, 369-391. Timonium, MD: York Press. Brakel, Arthur (1985): 'Towards a morphophonological approach to the study of linguistic rhythm." In: William H. Eilfort, Paul D. Kroeber, Karen L. Peterson (Hgg.): Papers from the general session at the 21st regional meeting of the Chicago Linguistic Society, 15-25. Chicago: CLS. Brandäo de Carvalho, Joaquim (2002): "Formally-grounded phonology: From constraint-based theories to theory-based constraints." - In: Studia Linguistica 56, 227-263. Brik, Osip [1927] (1972): "Rhythmus und Syntax: Materialien zu einer Untersuchung der Verssprache." Übersetzt von Rolf Fieguth. - In: Stempel (Hg.) 1972, 163-221. Broch, Olaf (1935): "Rhythm in the spoken Norwegian language." - In: Transactions of the Philological Society 1935, 80-112. Broe, Michael B./PierTehumbert, Janet B. (Hgg.) (2000): Papers in Laboratory Phonology V: acquisition and the lexicon. - Cambridge: CUP. Brogan, Terry V. F. (1981): English versification, 1570-1980: a reference guide with a global appendix. - Baltimore/London: The John Hopkins Univ. Press. - (1993a): "Foot." - In: Preminger/Brogan (Hgg.) 1993, 416-420. - (1993b): "Iambic." - In: Preminger/Brogan (Hgg.) 1993, 548-550. - (1993c): "Isometric." - In: Preminger/Brogan (Hgg.) 1993, 636. - (1993d): "Meter." - In: Preminger/Brogan (Hgg.) 1993, 768-783. - (1993e): "Rhythm." - In: Preminger/Brogan (Hgg.) 1993, 1066-1070. - (1998): "Metrici and rhythmici: a chronological list of ancient and medieval theories of meter, with secondary apparatus." Ms. Brogan, Terry V. F./Lehiste, Ilse (1993): "Isochronism or Isochrony." - In: Preminger/Brogan (Hgg.) 1993, 635-636. Brown, Warner (1911): "Temporal and accentual rhythm." - In: Psychological Review 18, 336-346. Browne, Sandra C. (1978): "Phonological aspects of timing." - In: Paradis (Hg.) 1978, 444—450. Bruce, Gösta (1984): "Rhythmic alternation in Swedish." - In: Claes-Christian Elert, Irène Johansson, Eva Strangert (Hgg.): Nordic prosody III, 31-44. Stockholm: Almqvist.& Wiksell. - (1987): "On the phonology and phonetics of rhythm: evidence from Swedish." - In: Dressier et al. (Hgg.) 1987, 21-31. Buckley, Eugene (1998): "Iambic lengthening and final vowels." - In: International Journal of American Linguistics 64,179-223. Biihler, Karl (1934): Sprachtheorie: die Darstellungsfunktion der Sprache. - Jena: Fischer. Bull, Matthew Christopher (1997): The timing and coordination of turn-taking. - Edinburgh: Ph.D. Diss. Burzio, Luigi (1994): Principles of English stress. - Cambridge: CUP (Cambridge studies in linguistics 72). Busa, Maria Grazia (1995): "Differenze ritmiche dell'italiano e dell'inglese: implicazioni per l'acquisizione dell'inglese come L2." - In: Studi italiani di linguistica teorica e applicata 24, 365379. Butt, Matthias/Fuhrhop, Nanna (Hgg.) (1998): Variation und Stabilität in der Wortstruktur: Untersuchungen zu Entwicklung, Erwerb und Varietäten des Deutschen und anderer Sprachen. - Hildesheim/Zürich/New York: Olms (Germanistische Linguistik 141-142). Buxton, Hilary (1983): 'Temporal predictability in the perception of English speech." - In: Cutler/Ladd (Hgg.) 1983, 111-121. Bybee, Joan et al. (1998): "Prosody and segmental effect: some paths of evolution for word stress." In: Studies in Language 22, 267-314. Campbell, Nick (2000): 'Timing in speech: a multi-level process." - In: Home (Hg.) 2000, 281-334.

216 Campbell, W. Ν. (1995): "Loudness, spectral tilt and perceived prominence in dialogues." - In: Proceedings of the 13th International Conference of the Phonetic Sciences, Bd. 3, 676-679. Cao, Jianfen (2000): "Rhythm of spoken Chinese - linguistic and paralinguistic evidences." - In: Bazong Yuan, Taiji Huang, Xiaofang Tang (Hgg.): Proceedings of the 6th International Conference on Spoken Language Processing (Interspeech 2000), Bd. 2, 357-360. Caplin, William Earl (1978): "Der Akzent des Anfangs: zur Theorie des musikalischen Taktes." - In: Zeitschrift für Musiktheorie 9, 17-28. Cappa, Stefano F. et al. (1997): "The representation of stress: evidence from an aphasie patient." - In: Cognition 65, 1-13. Carrió i Font, M./Ríos Mestre, Α. (1991): "A contrastive analysis of Spanish and Catalan rhythm." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 4, 246-249. Cauldwell, Richard (1996): "Stress-timing: observations, beliefs, and evidence." - In: Eger Journal of English Studies 1, 33-48. - (2000): "The functional irrhythmicality of spontaneous speech: a discourse view of speech rhythms." Ms. Chapman, Rev. James [1821]: The original rhythmical grammar of the English language. - Nachdruck 1976 Hildesheim/New York: Olms. Chela-Flores, Bertha (1994): "On the acquisition of English rhythm." - In: International Review of Applied Linguistics 32, 232-242. Cho, See-Young (1991): Focusing in English and Korean. - Frankfurt a.M. u.a.: Lang (Europäische Hochschulschriften 14,242). Choi, Hye-Won (1999): Optimizing structure in context: scrambling and information structure. - Stanford, CA: CSLI Publications (Dissertations in Linguistics). Chomsky, Noam/Halle, Morris (1968): The sound pattern of English. - New York: Harper & Row. Christophe, Anne/Dupoux, Emmanuel (1996): "Bootstrapping lexical acquisition: the role of prosodie structure." - In: The Linguistic Review 13, 383-412. Classe, André (1939): The rhythm of English prose. - Oxford: Blackwell. Claßen, Kathrin et al. (1998): "Stimmqualität und Wortbetonung im Deutschen." - In: Linguistische Berichte 174, 202-245. Clegg, J. Halvor/Fails, Willis C. (1987): "On syllable length in Spanish." - In: Terrell A. Morgan, James F. Lee, Bill van Patten (Hgg.): Language and language use: studies in Spanish, dedicated to Joseph H. Matluck, 69-78. Lanham/New York/London: Univ. Press of America. Clements, George N./Keyser, Samuel J. (1983): CV phonology: a generative theory of the syllable. Cambridge, MA: MIT Press (Linguistic Inquiry Monograph Series 9). Coenen, Hans Georg (1998): Französische Verslehre: ein Lehr- und Arbeitsbuch. - Darmstadt: Wissenschaftliche Buchgesellschaft. Coetsem, Frans van (1996): Towards a typology of lexical accent: 'stress accent' and 'pitch accent' in a renewed perspective. - Heidelberg: Winter (Monographien zur Sprachwissenschaft 18). Coetsem, Frans van/Hendricks, Ronald/McCormick, Susan (1981): "Accent typology and sound change." - In: Lingua 53, 295-315. Comrie, Bernard (1976): "Irregular stress in Polish and Macedonian." - In: International Review of Slavic Linguistics 1, 227-240. Condon, William (1986): "Communication: rhythm and structure." - In: Evans/Clynes (Hgg.) 1986, 55-77. Connell, Bruce/Arvaniti, Amalia (Hgg.) (1995): Phonology and phonetic evidence: papers in laboratory phonology IV. - Cambridge: CUP. Connell, Bruce/Ladd, D. Robert (1990): "Aspects of pitch realization in Yoruba." - In: Phonology 7, 1-29. Cooper, Nicole/Cutler, Anne/Wales, R. (2002): "Constraints of lexical stress on lexical access in English: evidence from native and nonnative listeners." - In: Language and Speech 45,207-228.

217 Cooper, William E./Eady, Stephen J. (1986): "Metrical phonology in speech production." - In: Journal of Memory and Language 25, 369-384. Comulier, Benoît de (1982): Théorie du vers : Rimbaud, Verlaine, Mallarmé. - Paris: Seuil. - (1995): Art poétique. - Lyon: Presses Universitaires de Lyon. Coseriu, Eugenio (1970): "System, Norm und Rede." - In: Eugenio Coseriu: Sprache: Strukturen und Funktionen, 193-212. Tübingen: Narr (Tübinger Beiträge zur Linguistik 2). Couper-Kuhlen, Elizabeth (1993): English speech rhythm: form and function in everyday verbal interaction. - Amsterdam/Philadelphia: Benjamins (Pragmatics & beyond; New series 25). Couper-Kuhlen, Elizabeth/Selting, Margret (Hgg.) (1996): Prosody in conversation: interactional studies. - Cambridge: CUP (Studies in interactional sociolinguistics 12). Cowley, Stephen J. (1994): "Conversational functions of rhythmical patterning: a behavioural perspective." - In: Language and Communication 14, 353-376. Crompton, Andrew (1980): "Timing patterns in French." - In: Phonetica 37, 205-234. Cruttenden, Alan [1986] ( 2 1997): Intonation. - Cambridge: CUP (Cambridge textbooks in linguistics). Crystal, David/Quirk, Randolph (1964): Systems of prosodie and paralinguistic features in English. London/Den Haag/Paris: Mouton (Ianua Linguarum; Series minor 39). Crystal, Thomas H./House, Arthur S. (1990): "Articulation rate and the duration of syllables and stress groups in connected speech." - In: Journal of the Acoustical Society of America 88, 101-112. Cubberley, Paul (1987): "Stress patterns in high-frequency Russian nouns and verbs." - In: Russian Language Journal 41, 31-44. Cummins, Fred (1999): "Some lengthening factors in English speech combine additively at most rates." - In: Journal of the Acoustical Society of America 105, 476-480. Cummins, Fred/Port, Robert F. (1996): "Rhythmic commonalities between hand gestures and speech." In: Proceedings of the 18th annual conference of the Cognitive Science Society, 415-419. Mahwah, NJ: Lawrence Erlbaum Ass. - (1998): "Rhythmic constraints on stress timing in English." - In: Journal of Phonetics 26, 145-171. Cutler, Anne (1980): "Syllable omission errors and isochrony." - In: H. W. von Dechert, Manfred Raupach (Hgg.): Temporal variables in speech: studies in honour of Frieda Goldman-Eisler, 183-190. Den Haag: Mouton. - (1994): "Segmentation problems, rhythmic solutions." - In: Lingua 92, 81-104. - (1999): "Prosodische Struktur und Worterkennung bei gesprochener Sprache." - In: Angela Friederici (Hg.): Sprachrezeption, 49-83. Göttingen u. a.: Hogrefe (Enzyklopädie der Psychologie; Themenbereich C: Theorie und Forschung; Serie III: Sprache 2). Cutler, Anne/Butterfield, Sally (1992): "Rhythmic cues to speech segmentation: evidence from juncture misperception." - In: Journal of Memory and Language 31,218-236. Cutler, Anne/Carter, David M. (1987): "The predominance of strong initial syllables in the English vocabulary." - In: Computer Speech and Language 2, 133-142. Cutler, Anne/Ladd, D. Robert (1983a): "Comparative notes on terms and topics in the contributions." In: Cutler/Ladd (Hgg.) 1983,141-146. - (1983b): "Introduction: models and measurements in the study of prosody." - In: Cutler/Ladd (Hgg.) 1983, 1-10. - (Hgg.) (1983): Prosody: models and measurements. - Berlin u. a.: Springer (Springer Series in Language and Communication 14). Cutler, Anne/McQueen, James/Robinson, Ken (1990): "Elizabeth and John: Sound patterns of men's and women's names." - In: Journal of Linguistics 26, 471-482. Cutler, Anne/Mehler, Jacques (1993): "The periodicity bias." - In: Journal of Phonetics 21, 103-108. Cutler, Anne/Otake, Takashi (1994): "Mora or phoneme? Further evidence for language-specific listening." - In: Journal of Memory and Language 33, 824—844. Cutler, Anne/Young, Duncan (1994): "Rhythmic structure of word blends in English." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 3, 1407-1410.

218 Cutler, Anne et al. (1986): "The syllable's differing role in the segmentation of French and English." In: Journal of Memory and Language 25, 385-400. Cutler, Anne et al. (1992): "The monolingual nature of speech segmentation by bilinguals." - In: Cognitive Psychology 24, 381-410. Dahan, Delphine (1996): "The role of rhythmic groups in the segmentation of continuous French speech." - In: Proceedings of the International Conference on Spoken Language Processing 1996, Bd. 2,1185-1188. Dankoviôovà, J. (1997): "The domain of articulation rate variation in Czech." - In: Journal of Phonetics 25, 287-312. Darwin, Christopher J./Donovan, Andrew (1980): "Perceptual studies of speech rhythm: isochrony and intonation." - In: Jean-Claude Simon (Hg.): Spoken language generation and understanding, 77-85. Dordrecht: Reidel. Dasher, Richard/Bolinger, Dwight (1982): "On pre-accentual lengthening." - In: Journal of the International Phonetic Association 12, 58-69. Dauer, Rebecca (1983): "Stress-timing and syllable-timing reanalyzed." - In: Journal of Phonetics 11, 51-62. - (1987): "Phonetic and phonological components of language rhythm." - In: Proceedings of the 11th International Conference of the Phonetic Sciences, Bd. 5, 447-450. Dauzat, Alfred (1935): Où en sont les études du français? Manuel général de linguistique française moderne. - Paris: Bibliothèque du français moderne. Davis, Barbara L. et al. (2000): "Prosodie correlates of stress in babbling: an acoustical study." - In: Child Development li, 1258-1270. De Jong, Kenneth J. (1995): "The supraglottal articulation of prominence in English: linguistic stress as localized hyperarticulation." - In: Journal of the Acoustical Society of America 97,491-504. Delais-Roussarie, Elisabeth (1995): Pour une approche probabiliste de la structure prosodique : étude de l'organisation prosodique et rythmique de la phrase française. - Toulouse: Université de Toulouse-le-Mirail. - (2000): "Vers une nouvelle approche de la structure prosodique." - In: Langue Française 126, 9 2 112. Delattre, Pierre (1966): "A comparison of syllable length conditioning among languages." - In: International Review of Applied Linguistics 4, 183-198. - (1969): "An acoustic and articulatory study of vowel reduction in four languages." - In: International Review of Applied Linguistics 7, 295-325. Dell, François (1984): "L'accentuation dans les phrases en français." - In: François Dell, Daniel Hirst, Jean-Roger Vergnaud (Hgg.): Forme sonore du langage : structure des représentations en phonologie, 65-122. Paris: Hermann. den Os, Els (1988): Rhythm and tempo of Dutch and Italian: a contrastive study. - Utrecht: Rijksuniv. Deterding, David (2001): "The measurement of rhythm: a comparison of Singapore and British English." - In: Journal of Phonetics 29, 217-230. Di Cristo, Albeit (1999): "Vers une modélisation de l'accentuation du français : première partie." - In: Journal of French Language Studies 9, 143-179. - (2000): "Vers une modélisation de l'accentuation du français (seconde partie)." - In: Journal of French Language Studies 10, 27-44. Di Cristo, Albert/Hirst, Daniel (1993): "Rythme syllabique, rythme mélodique et représentation hiérarchique de la prosodie du français." - In: Travaux de l'Institut de Phonétique d'Aix 15, 9-24. Diderot, Denis/d'Alembert, Jean Le Rond [1751-1780]: Encyclopédie ou dictionnaire raisonnée des sciences, des arts et des métiers, 35 Bde. - Nachdruck 1967-1995 Stuttgart-Bad Cannstatt: Frommann-Holzboog. Dimitrova, S. (1997): "Bulgarian speech rhythm: stress-timed or syllable-timed?" - In: Journal of the International Phonetic Association 27, 27-33.

219 D'Imperio, Mariapaola/Rosenthall, Sam (1999): "Phonetics and phonology of main stress in Italian." In: Phonology 16,1-28. Di Luzio, Aldo (1988): "On some segmental phonological processes and their suprasegmental conditioning in Standard Italian and in an Abruzzian dialect." - In: Bertinetto/Loporcaro (Hgg.) 1988, 299-340. Dixon, R. M. W./Koch, Grace (1996): Dyirbal song poetry: the oral literature of an Australian rainforest people. - St. Lucia: Univ. of Queensland Press. Dodd, Barbara (1975): "Children's understanding of their own phonological forms." - In: Quarterly Journal of Experimental Psychology 27, 165-172. Dominicy, Marc (1980): "Accent et rythme en espagnol." - In: Marc Dominicy, Marc Wilmet (Hgg.): Linguistique romane et linguistique française : hommages à Jacques Pohl, 47-66. - Bruxelles: Editions de l'Université. Donegan, Patricia J./Stampe, David (1979): "The study of natural phonology." - In: Daniel A. Dinnsen (Hg.): Current approaches to phonological theory, 126-173. Bloomington, IN: Indiana UP. - (1983): "Rhythm and the holistic organization of language structure." - In: John F. Richardson et al. (Hgg.): Papers from the parasession on the interplay of phonology, morphology and syntax, 337353. Chicago: CLS. Donovan, Andrew/Darwin, C. J. (1979): "The perceived rhythm of speech." - In: Proceedings of the 9th International Conference of the Phonetic Sciences, Bd. 2, 268-274. Draper, M. H./Ladefoged, Peter/Whitteridge, D. (1959): "Respiratory muscles in speech." - In: Journal of Speech and Hearing Research 2, 16-27. Dresher, B. Elan (1999): "Charting the learning path: cues to parameter setting." - In: Linguistic Inquiry 30, 27-67. Dresher, B. Elan/Hulst, Harry van der (1998): "Head-dependent asymmetries in phonology: complexity and visibility." - In: Phonology 15, 317-352. Dresher, B. Elan/Lahiri, Aditi (1991): "The Germanic foot: metrical coherence in Old English." - In: Linguistic Inquiry 22, 251-286. Dressier, Wolfgang U. (1979): "Reflections on phonological typology." - In: Acta Linguistica Academiae Scientiarum Hungaricae 29, 259-273. Dressier, Wolfgang U./Pfeiffer, Oskar E./Rennison, John R. (Hgg.) (1984): Phonologica 1980: Akten der 4. Internationalen Phonologen-Tagung, Wien, 29. Juni-2. Juli 1980. - Innsbruck: Institut für Sprachwissenschaft (Innsbrucker Beiträge zur Sprachwissenschaft 36). Dressier, Wolfgang U. et al. (Hgg.) (1987): Phonologica 1984: proceedings of the 5th International Phonology Meeting, Eisenstadt, 25-28june 1984. - London u. a.: CUP. Duanmu, San (1994): "Syllable weight and syllabic duration: a correlation between phonology and phonetics." - In: Phonology 11, 1-24. Dubois, Jacques [1531]: In linguam Gallicam Isaga>ge. - Nachdruck 1971 Genf: Slatkine. DUDEN = (O. Hg.) ( 6 1998): Duden: Grammatik der deutschen Gegenwartssprache. - Mannheim u. a.: Dudenverlag. Duez, Danielle/Casanova, M.-H. (1997): "Quelques aspects de l'organisation temporelle du parier des banlieues parisiennes." - In: Revue Parole 1997, 59-73. Duez, Danielle/Nishinuma, Yukihiro (1986): "Le rythme en français: alternance des durées syllabiques." - In: Travaux de l'Institut de Phonétique d'Aix 10, 151-169. Dufter, Andreas (2000): Rezension von Coetsem (1996). - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 122, 124-129. - (im Druck): "Ist das Französische eine silbenzählende Sprache?" - Erscheint in: Trudel Meisenburg, Maria Selig (Hgg.): Nouveaux départs en phonologie : les conceptions sub- et supraségmentales. Tübingen: Narr (Tübinger Beiträge zur Linguistik).

220 Dufter, Andreas/Reich, Uli (2003): "Rhythmic differences within Romance: identifying French, Spanish, European and Brazilian Portuguese." - Erscheint in: Proceedings of the 15th International Congress of Phonetic Sciences. Dunn, Charles W./Brogan, Terry W. F. (1993): "Celtic prosody." - In: Preminger/Brogan (Hgg.) 1993, 177-179. Dupoux, Emmanuel et al. (1997): "A destressing 'deafness' in French?" - In: Journal of Memory and Language 36, 406-421. - (1999): "Epenthetic vowels in Japanese: a perceptual illusion?" - In: Journal of Experimental Psychology: Human Perception and Performance 25,1568-1578. Echols, Catharine H./Crowhurst, Megan J. (1998): "Developing knowledge of metrical rhythm in infancy." - In: Gruber et al. (Hgg.) 1998, 207-212. Echols, Catharine H./Crowhurst, Megan JVChilders, Jane B. (1997): "The perception of rhythmic units in speech by infants and adults." - In: Journal of Memory and Language 36, 202-225. Eefting, W. Z. F. (1991): "The effect of information value and accentuation on the duration of Dutch words, syllables, and segments." - In: Journal of the Acoustical Society of America 89, 412-424. Eek, Arvo/Help, Toomas (1987): "The interrelationship between phonological and phonetic sound changes: a Great Rhythm Shift of Old Estonian." - In: Proceedings of the 11th International Conference of the Phonetic Sciences, Bd. 6,218-233. Eisenberg, Peter (1991): "Syllabische Struktur und Wortakzent: Prinzipien der Prosodik deutscher Wörter." - In: Zeitschrift für Sprachwissenschaft 10, 37-64. - (1998/1999): Grundriß der deutschen Grammatik. Bd. 1: Das Wort, Bd. 2: Der Satz. - Stuttgart/Weimar: Metzler. Eismann, Wolfgang (1986): "Zur russischen Prosodie." - In: Die neueren Sprachen 85, 557-581. Elenbaas, Nine/Kager, René (1999): "Ternary rhythm and the lapse constraint." - In: Phonology 16, 273-329. Elimelech, B. (1982): "Syllable counting in Yoruba." - In: Studies in African Linguistics 13,77-88. Elliott, Charles A. (1986): "Rhythmic phenomena - why the fascination?" - In: Evans/Clynes (Hgg.) 1986, 3-12. Eriksson, Anders (1991): Aspects of Swedish speech rhythm. - Göteborg: Univ. of Göteborg Dep. of Linguistics (Gothenburg monographs in linguistics 9). Evans, James R./Clynes, Manfred (Hgg.) (1986): Rhythm in psychological, linguistic and musical processes. - Springfield, IL: Thomas. Ewen, Colin J./Hulst, Harry van der (2001): The phonological structure of words: an introduction. Cambridge: CUP (Cambridge textbooks in linguistics). Fabb, Nigel (1997): Linguistics and literature: language in the verbal arts of the world. - Oxford: Blackwell. Faber, David (1986): 'Teaching the rhythms of English: a new theoretical base." - In: International Review of Applied Linguistics 24, 205-216. Fant, Gunnar/Kruckenberg, Anita (1995): "The voice source in prosody." - In: Proceedings of the 13th International Conference of the Phonetic Sciences, Bd. 2, 622-625. Fant, Gunnar/Kruckenberg, Anita/Nord, Lennart (1991): "Durational correlates of stress in Swedish, French and English." - In: Journal of Phonetics 19, 351-365. Farnetani, Edda/Kori, Shiro (1990): "Rhythmic structure in Italian noun phrases: a study on vowel durations." - In: Phonetica 47, 50-65. Faure, Georges/Hirst, Daniel J./Chafcouloff, Michel (1980): "Rhythm in English: isochronism, pitch, and perceived stress." - In: Linda R. Waugh, Comelis H. van Schooneveld (Hgg.): The melody of language, 71-79. Baltimore, MD: Univ. Park Press. Faure, Georges/Rossi, Mario (1968): "Le rythme de l'alexandrin français : analyse critique et contrôle experimental d'après Grammont." - In: Travaux de Linguistique et de Littérature 6, 203-234.

221 Fear, Beverley D./Cutler, Anne/Butterfìeld, Sally (1995): "The strong/weak syllable distinction in English." - In: Journal of the Acoustical Society of America 89, 412-424. Fernald, Anne (1989): "Intonation and communicative intent in mothers' speech to infants: is the melody the message?" - In: Child Development 60, 1497-1510. - (2000): "Speech to infants as hyperspeech: knowledge-driven processes in early word recognition." - In: Phonetica 57, 242-254. Fernald, Anne/Mazzie, Claudia (1991): "Prosody and focus in speech to infants and adults." - In: Developmental Psychology 27, 209-221. Fernald, Anne et al. (1989): "A cross-language study of prosodie modifications in mothers' and fathers' speech to preverbal infants." - In: Journal of Child Language 16,477-501. Féry, Caroline (1988): "Rhythmische und tonale Struktur der Intonationsphrase." - In: Hans Altmann (Hg.): Intonationsforschungen, 41-64. Tübingen: Niemeyer (Linguistische Arbeiten 200). - (1997): "The mora as a measure of weight and a syllabic constituent." - In: Pier Marco Bertinetto et al. (Hgg.): Certamen Phonologicum III: papers from the 3rd Cortona Phonology Meeting, 91-110. Turin: Rosenberg & Sellier. - (1998): "German word stress in Optimality Theory." - In: Journal of Comparative Germanic Linguistics 2, 101-142. Fikkert, Paula (1994): "A prosodie account of truncation in child language." - In: Wolfgang U. Dressier, Martin Prinzhom, John R. Rennison (Hgg.): Phonologica 1992: proceedings of the 7th International Phonology Meeting, 77-86. Turin: Rosenberg & Sellier. Fischer, Jack L. (1959): "Meter in Eastern Carolinian oral literature." - In: Journal of American Folklore 72,47-52. Fitzpatrick, Jennifer (2000): "On intonational typology." - In: Sprachtypologie und Universalienforschung 53, 88-96. Fix, Hans (Hg.) (1995): Symposion Quantitätsproblematik in den Germanischen Sprachen des Mittelalters und die Metrik 1993, Greifswald. - Amsterdam u. a.: Rodopi (Amsterdamer Beiträge zur älteren Germanistik 42). Fletcher, Janet (1987): "Some micro-effects of tempo changes on timing in French." - In: Proceedings of the 11th International Conference of the Phonetic Sciences, Bd. 3, 129-133. - (1991): "Rhythm and final lengthening in French." - In: Journal of Phonetics 19,193-212. Fónagy, Ivan (1980): "L'accent en français : accent probabilitaire (Dynamique d'un changement prosodique." - In: Ivan Fónagy, Pierre R. Léon (Hgg.): L'accent en français contemporain, 123-233. Ottawa: Didier (Studia Phonetica 15). Fowler, Carol Α. (1979): "Perceptual centers in speech production and perception." - In: Perception and Psychophysics 25, 375-398. - (1981): "A relationship between coarticulation and compensatory shortening." - In: Phonetica 38, 35-50. - ( 1983): "Converging sources of evidence on spoken and perceived rhythms of speech: Cyclic production of vowels in sequences of monosyllabic stress feet." - In: Journal of Experimental Psychology: General 112, 386-412. - (1994): Rezension von Couper-Kuhlen (1993). - In: Language and Speech 37, 67-76. Fox, Anthony (2000): Prosodie features and prosodie structure: the phonology of suprasegmentals. Oxford: Oxford UP. Fox, Robert Allen (1987): "Perceived P-center location in English and Japanese." - In: Brian D. Joseph, Arnold M. Zwicky (Hgg.): A Festschrift for Ilse Lehiste, 11-20. Colombus, OH: Ohio State Univ. (Ohio State University Working Papers in Linguistics 35). Fox, Robert Allen/Lehiste, Ilse (1987): "The effect of vowel quality variations on stress-beat location." - In: Journal of Phonetics 15, 1-13. Fraisse, Paul (1974): Psychologie du rythme. - Paris: P.U.F. (Le Psychologue 58).

222 Frota, Sónia/Vigário, Marina (1999): "Aspectos de prosódia comparada: ritmo e entoaçào no PE e no PB." Ms. Fudge, Erik C. (1969): "Syllables." - In: Journal of Linguistics 5,253-286. - (1999): "Words and feet." - In: Journal ofUnguistics 35, 273-296. Gerken, LouAnn (1996): "Prosodìe structure in young children's language production." - In: Language 72,683-712. Gibbon, Daffyd (1995): "Empirical and semiotic foundation for prosodie analysis." - In: Uta M. Quasthoff (Hg.): Aspects of oral communication, 441-479. Berlin/New York: de Gruyter (Research in Text Theory/Untersuchungen zur Texttheorie 21). Giegerich, Heinz (1985): Metrical phonology and phonological structure: German and English. - Cambridge: CUP (Cambridge studies in linguistics 43). Gil, David (1986): "A prosodie typology of language." - In: Folia Linguistica 20, 165-231. - (1987): "On the scope of grammatical theory." - In: Sohan Modgil, Celia Modgil (Hgg.): Noam Chomsky: consensus and controversy, 119-141. Barcombe: Falmer Press. Gilbers, Dicky/Linde, Klarien van der/Bastiaanse, Roehen (1997): "Phonological length, phonetic duration and aphasia." - In: Clinical Linguistics and Phonetics 11,411-422. Gili Gaya, Samuel (1940): "La cantidad sillabica en la frase." - In: Castilla [Valladolid] 1,287-298. Gillis, Steven/Schutter, Georges de (1996): "Intuitive syllabification: universals and language specific constraints." - In: Journal of Child Language 23,487-514. Goldsmith, John A. [1976] (1979): Autosegmental phonology. - New York: Garland (Outstanding dissertations in linguistics). - (1987): "The rise of rhythmic structure in Bantu." - In: Dressier etal. (Hgg.) 1987, 65-78. - (1990): Autosegmental and metrical phonology. - Oxford: Blackwell. - (Hg.) (1995): The handbook of phonological theory. - Oxford: Blackwell (Blackwell handbooks in linguistics). Golston, Chris (1998): "Constraint-based metrics." - In: Natural Language and Linguistic Theory 16, 719-770. Golston, Chris/Riad, Tomas (2000): "The phonology of Classical Greek meter." - In: Linguistics 38, 99-167. Gordon, Matthew (1997): "Phonetic correlates of stress and the prosodie hierarchy in Estonian." - In: Lehiste/Ross (Hgg.) 1997, 100-124. - (2002): "A factorial typology of quantity-insensitive stress." - In: Natural Language and Linguistic Theory 20, 491-552. Gottsched, Johann Christoph [1748] ( 5 1762): Grundlegung einer deutschen Sprachkunst. - Leipzig: s. n. Gouvard, Jean-Michel (1993): "Frontières de mot et frontières de morphème dans l'alexandrin : du vers classique au 12-syllabe de Verlaine." - In: Langue Française 99,45-62. Grabe, Esther (2002): "Variation adds to prosodie typology." - In: Proceedings of Speech Prosody 2002. Aix-en-Provence, France, 11-13 aprii2002. [ H H w . l p l . i u i i v - a i x . f r / s p 2 0 0 2 / p a p e r s . h t m ] Grabe, Esther/Low, Ee Ling (2002): "Durational variability in speech and the rhythm class hypothesis." - In: Carlos Gussenhoven/Natasha Warner (Hgg.): Laboratory Phonology 7, 515-546. Berlin/New York: Mouton de Gruyter. Grabe, Esther/Warren, Paul (1995): "Stress shift: do speakers do it or do listeners hear it?" - In: Connell/Arvaniti (Hgg.) 1995, 95-110. Graf, Dafna/Ussishkin, Adam (2003): "Emergent iambs: stress in Modem Hebrew." - In: Lingua 113, 239-270. Grammont, Maurice [1933] ( 3 1946): Traité de phonétique. - Paris: Delagrave. Greenberg, Joseph H. (1960): "A survey of African prosodie systems." - In: Stanley A. Diamond (Hg.): Culture in history, 925-950. New York: Columbia UP.

223 -

[1963] (1966): "Some universals of grammar with particular reference to the order of meaningful elements." - In: Joseph H. Greenberg (Hg.): Universals of grammar, 73-113. Cambridge, MA: MIT Press. Grela, Bernard/Gandour, Jack (1999): "Stress shift in aphasia: a multiple case study." - In: Aphasiology 13, 151-166. Grover, Cynthia/Terken, Jacques (1994): "Rhythmic constraints in durational control." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 1, 363-366. - (1995): "The role of stress and accent in the perception of speech rhythm." - In: Proceedings of the 13th International Conference of the Phonetic Sciences, Bd. 4, 356-359. Gruber, M. Catherine et al. (Hgg.) (1998): Chicago Linguistic Society 34: the panels. - Chicago, IL: CLS. Guai'tella, Isabelle (1999): "Rhythm in speech: what rhythmic organizations reveal about cognitive processes in spontaneous speech production versus reading aloud." - In: Journal of Pragmatics 31, 509-523. Günther, Helmut [1971] ( 3 1979): "Historische Grundlagen der deutschen Rhythmusbewegung." - In: Röthig BUnner (Hg.): Grundlagen und Methoden rhythmischer Erziehung, 33-69. Stuttgart: Klett. Gumbrecht, Hans U. (1988): "Rhythmus und Sinn." - In: Hans U. Gumbrecht (Hg.): Materialität der Kommunikation, 714-729. Frankfurt a. M.: Suhrkamp (stw 750). Gussenhoven, Carlos (1984): On the grammar and semantics of sentence accents. - Dordrecht: Foris (Publications in language sciences 16). - (1991): "The English rhythm rule as an accent deletion rule." - In: Phonology 8, 1-35. Hale, Mark/Reiss, Charles (1998): "Formal and empirical arguments concerning phonological acquisition." - In: Linguistic Inquiry 29, 656-683. Hall, T. Alan (1999): "The phonological word: a review." - In: HalL/Kleinhenz (Hgg.) 1999, 1-22. - (2000): Phonologie: eine Einführung. - Berlin/New York: de Gruyter (De-Gruyter-Studienbuch). Hall, T. Alan/Kleinhenz, Ursula (Hgg.) (1999): Studies on the phonological word. - Amsterdam/Philadelphia: Benjamins (CILT 174). Halle, Morris (1977): "Tenseness, vowel shift, and the phonology of the back vowels in Modern English." - In: Linguistic Inquiry 8,611-625. - (1987): "Grids and trees in Metrical Phonology." - In: Dressier et al. (Hgg.) 1987, 79-93. Halle, Morris/Idsardi, William (1995): "General properties of stress and metrical structure." - In: Goldsmith (Hg.) 1995,403-444. Halle, Morris/Vergnaud, Jean-Roger (1987): An essay on stress. - Cambridge, MA: MIT Press. Hallé, Pierre A./Boysson-Bardies, Bénédicte de/Vihman, Marilyn M. (1991): "Beginnings of prosodie organization: intonation and duration patterns of disyllables produced by Japanese and French infants." - In: Language and Speech 34, 299-318. Halliday, Michael A. K. (1967): Intonation and grammar in British English. - Den Haag: Mouton. - (1985): An introduction to Functional Grammar. - London: Edward Arnold. Ham, William (2001): Phonetic and phonological aspects of geminate timing. - New York: Routledge (Outstanding dissertations in linguistics). Hammond, Michael (1990): "Parameters of Metrical Theory and leamability." - In: Roca (Hg.) 1990, 47-62. - (1995): "Metrical Phonology." - In: Annual Review of Anthrophology 24, 313-342. - (1996): "Deriving ternarity." - In: Coyote Papers 9, 39-58. - (1997): "Vowel quantity and syllabification in English." - In: Language 73, 1-18. - (1999): The phonology of English: a prosodie optimality-theoretic approach. - Oxford: Oxford UP (The phonology of the world's languages). Han, M. S. (1962): "The feature of duration in Japanese." - In: Onsei no kenkyuu 10, 65-80. Hanson, Kristin/Kiparsky, Paul (1996): "A parametric theory of poetic meter." - In: Language 72, 287335.

224 Haraguchi, Shosuki (1991): A theory of stress and accent. - Dordrecht/Providence, RI: Foris (Studies in Generative Grammar 37). Harrington, Jonathan/Fletcher, Janet/Beckman, Mary E. (2000): "Manner and place conflicts in the articulation of accent in Australian English." - In: Broe/Pierrehumbert (Hgg.) 2000,40-51. Hartelius, Lena et al. (2000): 'Temporal speech characteristics of individuals with Multiple Sclerosis and Ataxic Dysarthria: 'scanning speech' revisited." - In: Folia Phoniatrica et Logopaedica 52, 228-238. Haspelmath, Martin/König, Ekkehard/Oesterreicher, Wulf/Raible, Wolfgang (Hgg.) (2001): Sprachtypologie/Language typology/Typologie linguistique, 2 Bde. - Berlin/New York: de Gruyter (HSK 20). Hausmann, Franz Josef (1980): Louis Meigret: humaniste et linguiste. - Tubingen: Narr (Lingua et traditio 6). Hawkins, John Α. (1994): A performance theory of order and constituency. - Cambridge: CUP (Cambridge studies in linguistics 73). Hayes, Bruce [1981] (1985): A metrical theory of stress rules. - New York: Garland (Outstanding dissertations in linguistics). - (1984): "The phonology of rhythm in English." - In: Linguistic inquiry 15, 33-74. - (1987): "A revised parametric metrical theory." - In: Proceedings of the Northeastern Linguistic Society 17, 274-289. - (1988): "Metrics and phonological theory." - In: Frederick J. Newmeyer (Hg.): Linguistics: the Cambridge survey. Bd. 2: Linguistic theory: extensions and implications, 220-249. Cambridge: CUP. - (1989): "Compensatory lengthening in moraic phonology." - In: Linguistic Inquiry 20, 253-306. - (1995): Metrical stress theory: principles and case studies. - Chicago: Chicago UP. - (1999): "Phonological acquisition in Optimality Theory: the early stages." Ms. ROA 327-0699. - (2000): "Faithfulness and componentiality in metrics." Ms. ROA 421-10100. Helbig, Gerhard et al. (Hgg.) (2000/2001): Deutsch als Fremdsprache: ein internationales Handbuch, 2 Bde. - Berlin/New York: de Gruyter (HSK 19). Helbling, Hanno (1999): Rhythmus: ein Versuch. - Frankfurt a. M.: Suhrkamp. Hertrich, Ingo/Ackermann, Hermann (1998): "Auditory perceptual evaluation of rhythm-manipulated and resynthesized sentence utterances obtained from cerebellar patients and normal speakers: a preliminary report." - In: Clinical Linguistics and Phonetics 12, 427-437. Hetland, Jorunn/Molnár, Valéria (2001): "Informationsstniktur und Reliefgebung." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 1, 617-633. Heuven, Vincent van/Hagman, PeterJ. (1988): "Lexical statistics and spoken word recognition in Dutch." - In: Peter Coopmans, Aafke Hulk (Hgg.): Linguistics in the Netherlands 1988, 59-68. Dordrecht: Foris. Hirata, Yukari (1999): "Production of Japanese durational contrasts by native and nonnative speakers." - In: Journal of the Acoustical Society of America 105, 1095. Hirsh-Pasek, Kathy et al. (1987): "Clauses are perceptual units for young infants." - In: Cognition 26, 269-286. Hirst, Daniel/Di Cristo, Albert (1998): "A survey of intonation systems." - In: Albert Di Cristo, Daniel Hirst (Hgg.): Intonation systems: a survey of 20 languages, 1-44. Cambridge: CUP. Hockett, Charles F. [1955] (1974): A manual of phonology. - Chicago: Chicago UP. Hockey, Beth Ann/Fagyal, Zsuzsanna (1998): "Pre-boundary lengthening: universal or languagespecific? The case of Hungarian." - In: University of Pennsylvania Working Papers in Linguistics 5.1 (Proceedings of the 22nd Annual Penn Linguistics Colloquium), 71-82. Hoëm, Ingjerd/Hovdhaugen, Even/Vonen, Arnfinn Muruvik (1992): Kupu mai te tutolu: Tokelau oral literature. - Oslo: Scandinavian Univ. Press (The Institute for Comparative Research in Human Culture Serie Β: Skrifter 84).

225 Hoequist, Charles Jr. (1983): "Durational correlates of linguistic rhythm categories." - In: Phonetica 40,19-31. Hogg, Richard M./McCully, C. B. (1987): Metrical Phonology: a coursebook. - Cambridge: CUP. Hollien, Harry/Hollien, Patricia (Hgg.) (1979): Current issues in the phonetic sciences: proceedings of the IPS-77 Congress, Miami Beach, Florida, 17-19th december 1977, 2 Bde. - Amsterdam: Benjamins (CILT 9). Holtus, Günter/Metzeltin, Michael/Schmitt, Christian (Hgg.) (1988-): Lexikon der Romanistischen Linguistik, 7 Bde. - Tübingen: Niemeyer (LRL). Homma, Yahoi (1981): "Durational relationship between Japanese stops and vowels." - In: Journal of Phonetics 9, 273-281. Home, Merle (1990): "Empirical evidence for a deletion formulation of the rhythm rule for English." In: Linguistics 28, 959-981. - (Hg.) (2000): Prosody: theory and experiment. Studies presented to Gösta Bruce. Dordrecht/Boston/London: Kluwer (Text, Speech and Language Technology 14). Householder, Fred W. (1971): Linguistic speculations. - Cambridge: CUP. Hua, Zhu/Dodd, Barbara (2000): "The phonological acquisition of Putonghua (Modern standard Chinese)." - In: Journal of Child Language 27, 3-42. Hualde, José Ignacio (1998): "A gap filled: postpostinitial accent in Azkoita Basque." - In: Linguistics 36,99-117. Hubbard, Kathleen (1995): 'Toward a theory of phonological and phonetic timing: evidence from Bantu."-In: Connell/Arvaniti (Hgg.) 1995, 168-187. Hulst, Harry van der (1984): Syllable structure and stress in Dutch. - Dordrecht: Foris. - (1996): "Separating primary and secondary accent." - In: Rob Goedemans, Harry van der Hulst, Ellis Visch (Hgg.): Stress patterns of the world, 1-26. Den Haag: Holland Academic Graphics (HIL Publications 2). - (1999): "Word accent." - In: Hulst (Hg.) 1999, 3-115. - (Hg.) (1999): Word prosodie systems in the languages of Europe. - Berlin/New York: de Gruyter (Empirical Approaches to Languge Typology; EUROTYP 20-4). Hulst, Harry van der/Hendriks, Bemadet/Weijer, Jeroen van de (1999): "A survey of word prosodie systems of European languages." - In: Hulst (Hg.) 1999, 425-475. Hulst, Harry van der/Ritter, Nancy A. (1999): "Theories of the syllable." - In: Harry van der Hulst (Hg.): The syllable - views and facts, 13-62. Berlin u. a.: de Gruyter (Studies in Generative Grammar 45). - (2000): "The SPE-heritage of Optimality Theory." - In: The Linguistic Review 17.2-4 (Special Issue: A review of Optimality Theory), 259-289. Hulst, Harry van der/Smith, Norval (1988): "The variety of pitch accent systems: introduction." In: Harry van der Hulst, Norval Smith (Hgg.): Autosegmental studies on pitch accent, ix—xxiv. Dordrecht: Foris (Linguistic models 11). Humboldt, Wilhelm von [nach 1820]: "Über die allgemeinsten Grundsätze der Wortbetonung mit besondrer Rücksicht auf die Griechische Accentlehre." - In: Wilhelm von Humboldt [1905] (1968): Gesammelte Schriften. Herausgegeben von Albert Leitzmann, Bd. 4, 314-359. Nachdruck Berlin: de Gruyter. Hung, Feng-Sheng (1996): Prosody and the acquisition of grammatical morphemes in Chinese languages. - Bloomington, IN: Indiana Univ. Linguistics Club. Hunnius, Klaus (1989); "Wie schwierig sind die unregelmäßigen Verben? Morphologische 'Unregelmäßigkeit' aus strukturaler und funktionaler Sicht." - In: Romanistisches Jahrbuch 40,44-59. Hurch, Bernhard (1988): "Is Basque a syllable-timed language?" - In: Anuario del Seminario de Filología Vasca 'Julio de Urquijo' 22, 813-825. - (1996): "Accentuations." - In: Bernhard Hurch, Richard A. Rhodes (Hgg.): Natural Phonology: the state of the art, 73-96. Berlin/New York: Mouton de Gruyter (Trends in Linguistics; Studies and Monographs 92).

226 -

(2000): "Bernhardi und Humboldt und die Asymmetrie der Prosodie." - In: Michaela Ofitsch, Christian Zinko (Hgg.): 125 Jahre Indogermanistik in Graz: Festband anläßlich des 125jährigen Bestehens der Forschungsrichtung "Indogermanistik" an der Karl-Franzens-Universität Graz, 185-192. Graz: Leykam. Hyman, Larry M. (1975): Phonology: theory and analysis. - New York u. a.: Holt, Rinehart and Winston. - (1977): "On the nature of linguistic stress." - In: Hyman (Hg.) 1977, 37-82. - (1985): A theory of phonological weight. - Dordrecht u. a.: Foris (Publications in language sciences 19). - (2001): 'Tone systems." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2, 13671380. - (Hg.) (1977): Studies in stress and accent. - Los Angeles, CA: USC Department of Linguistics (Southern California occasional papers in linguistics 4). Ickelsamer, Valentin (um 1530): Teutsche Grammatica. - Augsburg: Ulhart. Inagaki, Kayoko/Hatano, Giyoo/Otake, Takashi (2000): "The effect of kana literacy acquisition on the speech segmentation unit used by Japanese young children." - In: Journal of Experimental Child Psychology 75,70-91. Inkelas, Sharon [1989] (1990): Prosodie constituency in the lexicon. - New York: Garland (Outstanding dissertations in linguistics). Jacobs, Haike (1997): "Latin enclitic stress revisited." - In: Linguistic Inquiry 28, 648-661. Jacobs, Joachim (1982): "Neutraler und nicht-neutraler Satzakzent im Deutschen." - In: Theo Vennemann (Hg.): Silben, Segmente, Akzente: Referate zur Wort-, Satz- und Versphonologie anläßlich der vierten Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft, 141-170. Tübingen: Niemeyer (Linguistische Arbeiten 126). Jacobsen, Birgitte (2000): "The question of 'stress' in West Groenlandie." - In: Phonetica 57,40-67. Jakobson, Roman [1931] (1962): "Die Betonung und ihre Rolle in der Wort- und Syntagmaphonologie." - Wieder in: Roman Jakobson: Selected writings. Bd. 1: Phonological studies, 117-136. Den Haag: Mouton. - [1941] (1969): Kindersprache, Aphasie und allgemeine Lautgesetze. - Frankfurt a. M.: Suhrkamp (edition suhrkamp 330). Jakobson, Roman/Lotz, John (1979): "Axoms of a versification system. Exemplified by the Mordwinian folk song." - In: Roman Jakobson: Selected writings. Bd. 5: On verse, its masters and explorers, 160-166. Den Haag/Paris/New York: Mouton. Jammers, Ewald (1972): "Die Rolle der Musik im Rahmen der romanischen Dichtung des XII. und XIII. Jahrhunderts." - In: Jauss/Köhler (Hgg.) 1972,483-537. Janker, Peter M. (1995): "Sprechrhythmus, Silbe, Ereignis: eine experimentalphonetische Untersuchung zu den psychoakustisch relevanten Parametern zur rhythmischen Gestaltung sprechsprachlicher Äußerungen." - In: Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München 33, 1-259. Jankowski, Ludovic (2001): "Replicating the speech cycling task paradigm with French material." - In: Actes du colloque ORAGE 2001, ORAlité et GEstualité - interactions et comportements multimodaux dans la communication, 610-614. Jankowski, Ludovic/Astésano, Corine/Di Cristo, Albert (1999): "The initial rhythmic accent in French: acoustic data and perceptual investigation." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 257-260. Janota, Premysl/Ondrácková, Jana (1975): "Some experiments in the perception of prosodie features in Czech." - In: Gunnar Fant/M. A. Tatham (Hgg.): Auditory analysis and perception of speech, 485-496. London: Academic Press. Jassem, Wiktor/Gibbon, Dafydd (1980): "Re-defining English accent and stress." - In: Journal of the International Phonetic Association 10, 2-16.

227 Jassem, Wiktor/Hill, D. R.AVitten, I. H. (1984): "Isochrony in English speech: its statistical validity and linguistic relevance." - In: Dafydd Gibbon, Helmut Richter (Hgg.): Intonation, accent and rhythm: studies in discourse phonology, 203-225. Berlin/New York: de Gruyter (Research in Text Theory 8). Jauss, Hans Robert/Köhler, Erich (Hgg.) (1972): Grundriß der romanischen Literaturen des Mittelalters. Bd. 1: Généralités. - Heidelberg: Winter (GRLMA 1). Jensen, John T. (2000): "Against ambisyllabicity." - In: Phonology 17,187-235. Jespersen, Otto [1904] ( 2 1913): Lehrbuch der Phonetik. -Leipzig: Teubner. Jones, Daniel [1914] ( 8 1956): An outline of English phonetics. - Cambridge: Heffer. Jones, Daniel/Ward, Dennis (1969): The phonetics of Russian. - Cambridge: CUR Johnson, John W. (1979): "Somali prosodie systems." - In: Horn of Africa 2,46-54. Johnson, Keith/Martin, Jack (2001): "Acoustic vowel reduction in Creek: effects of distinctive length and position in the word." - In: Phonetica 58, 81-102. Jongenburger, Willy [Wilhelmina] (1996): The role of lexical stress during spoken word processing. Dordrecht: HIL (HIL Dissertations 23). Jun, Sun-Ah (1996): The phonetics and phonology of Korean prosody: intonational phonology and prosodie structure. - New York/London: Garland (Outstanding dissertations in linguistics). Jusczyk, Peter W. (1995): "Language acquisition: speech sounds and the beginning of phonology." In: Joanne L. Miller, Peter D. Eimas (Hgg.): Speech, language, and communication, 263-301. San Diego u. a.: Academic Press (Handbook of Perception and Cognition (2nd edition) 11). - (1998): "Constraining the search for structure in the input." - In: Lingua 106, 197-218. Jusczyk, Peter W./Aslin, Richard N. (1995): "Infants' detection of the sound patterns of words in fluent speech." - In: Cognitive Psychology 29, 1-23. Jusczyk, Peter W./Cutler, Anne/Redanz, Nancy J. (1993): "Infants' preference for the predominant stress patterns of English words." - In: Child Development 64, 675-687. Jusczyk, Peter W./Krumhansl, Carol L. (1993): "Pitch and rhythmic patterns affecting infants' sensitivity to musical phrase structure." - In: Journal of Experimental Psychology: Human Perception and Performance 19, 627-640. Jusczyk, Peter W. et al. (1992): "Perception of acoustic correlates of major phrasal units by young infants." - In: Cognitive Psychology 24, 252-293. Kager, René (1991): "The moraic iamb." - In: Lise M. Dobrin, Lynn Nichols, Rosa M. Rodriguez (Hgg.): Papers from the regional meeting of the Chicago Linguistic Society 27. Bd. 1: The General Session, 291-305. Chicago: CLS. - (1993a): "Alternatives to the Iambic/Trochaic Law." - In: Natural Language and Linguistic Theory 11,381-432. - (1993b): "Shapes of the generalized trochee." - In: Jonathan Mead (Hg.): Proceedings of the 11th West Coast Conference on Formal Linguistics, 298-311. Stanford, CA: CSLI. - (1994): 'Ternary rhythm in alignment theory." Ms. ROA 35-1094. - (1999): Optimality Theory. - Cambridge: CUP (Cambridge textbooks in linguistics). Kager, René/Visch, Ellis (1988): "Metrical constituency and rhythmic adjustment." - In: Phonology 5, 21-71. Kakita, Kuniko (1994): "Inter-speaker interaction in speech rhythm: some durational properties of sentences and intersentence intervals." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 1, 131-134. Kaltenbacher, Erika (1998): "Zur Geschichte der deutschen Prosodik." - In: Butt/Fuhrhop (Hgg.) 1998, 191-224. Kaneko, Tohru (2000): "Kontrastive Analysen Japanisch-Deutsch: eine Übersicht." - In: Heibig et al. (Hgg.) 2000/2001, Bd. 1,451^57. Karcevski, Serge [1931] (2000): "Sur la phonologie de la phrase."-Wieder in: Serge Karcevski: Inédits et introuvables. Textes rassemblés par Irina et Gilles Fougeron, 87-124. Louvain: Peeters (Collection linguistique publiée par la Société de Linguistique de Paris 80).

228 Katada, Fusa (1990): "On the representation of moras: evidence from a language game." - In: Linguistic Inquiry 21, 641-646. Katamba, Francis/Cooke, Peter (1987): "Ssematimba ne Kikwabanga: the music and poetry of a Ganda historical song." - In: the world of music 29,49-68. Keating, Patricia A. et al. (im Druck): "Domain-initial articulatory strengthening in four languages." Erscheint in: John Local, Richard Ogden, Rosalind Temple (Hgg.): Phonetic Interpretation: Papers in Laboratory Phonology 6. Cambridge: CUP. Kehoe, Margaret M. (1998): "Support for metrical stress theory in stress acquisition." - In: Clinical Linguistics and Phonetics 12, 1-23. - (1999/2000): 'Truncation without shape constraints: the latter stages of prosodie acquisition." - In: Language Acquisition 8, 23-67. Kehoe, Margaret M./Stoel-Gammon, Carol (1997): "The acquisition of prosodie structure: an investigation of current accounts of children's prosodie development." - In: Language 73,113-144. Keller, Eric (1998): "Neurological bases of the temporal organization of speech." - In: Parth Bhatt, Ronald Davis (Hgg.): The linguistic brain, 215-229. Toronto: Canadian Scholars' Press. Keller, Eric/Zellner, Brigitte (1996): "A timing model for fast French." - In: York Papers in Linguistics 17, 53-75. Kenstowicz, Michael (1994): Phonology in generative grammar. - Oxford: Blackwell. Kim, Hallan (1996): Kontrastive Wortphonologie des Deutschen und Koreanischen. - München: Diss. Kimura, Takuya (1999): "Two tendencies toward isochrony in Castilian Spanish short declarative sentences." — In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 455-458. Kingston, John/Beckman, Mary E. (Hgg.) (1990): Between the grammar and physics of speech: papers in laboratory phonology I. - Cambridge: CUP. Kiparsky, Paul (1966): "Über den deutschen Akzent." - In: Studia grammatica 7,69-98. - (1977): "The rhythmic structure of English verse." - In: Linguistic Inquiry 8, 189-247. Kirchner, Robert (2000): "Geminate inalterability and lenition." - In: Language 76, 509-545. Klages, Ludwig (1934): Vom Wesen des Rhythmus. - Kampen auf Sylt: Kampmann. Klar, Kathryn/O Hehir, Brendan/Sweetser, Eve (1983/84): "Welsh poetics in the Indo-European tradition." - In: Studia Celtica 18/19, 30-51. Kleinhenz, Ursula (1996): "Zur Typologie phonologischer Domänen." - In: Lang/Zifonun (Hgg.) 1996, 569-584. Kleinschmidt, Samuel (1851): Grammatik der grönländischen Sprache: mit theilweisem Einschluss d. Labradordialects. - Berlin: Reimer. Klopstock, Friedrich G. (1774): Die deutsche Gelehrtenrepublik. - Hamburg: Bode. Knowles, Gerald (1974): "The rhythm of English syllables." - In: Lingua 34, 115-147. Kohler, Klaus J. (1982): "Rhythmus im Deutschen." - In: Arbeitsberichte des Instituts für Phonetik der Universität Kiel 19, 91-105. - (1986): "Invariance and variability in speech timing: from utterance to segment in German." - In: Perkell/Klatt (Hgg.) 1986, 268-289. - (1991): "Isochrony, units of rhythmic organization and speech rate." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 1, 257-261. - [1977] ( 2 1995): Einßhrung in die Phonetik des Deutschen. - Berlin: Erich Schmidt (Grundlagen der Germanistik 20). Konopczynski, Gabrielle (1984): "Allongement final : contrainte physiologique ou comportement acquis? Quelques notes à la lumière de l'acquisition du langage." - In: Travaux de l'Institut de Phonétique de Strasbourg 16, 143-156. - (1995): "A developmental model of acquisition of rhythmic patterns: results from a cross-linguistic study." - In: Proceedings of the 13th International Conference of the Phonetic Sciences, Bd. 4, 2 2 29.

229 Koster, Jan/Schoten, Eert (1982): "The logical structure of rhythmics." - In: Erkenntnis 18,269-281. Krahmer, Emiel/Swerts, Marc (2001): "On the alleged existence of contrastive accents." - In: Speech Communication 34, 391-405. Krefeld, Thomas (1999): Wortgestalt und Vokalsystem in der ltaloromania: Plädoyer für eine gestaltphonologische Rekonstruktion des romanischen Vokalismus. - Kiel: Westensee (Dialectología Pluridimensionalis Romanica 7). Krull, Diana (1997): "Prepausal lengthening in Estonian: evidence from conversational speech." - In: Lehiste/Ross (Hgg.) 1997, 136-148. - (1999): "Foot isochrony in Estonian." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 2,1063-1066. Kubozono, Haruo (1991): "Rhythmic constraints in Japanese phonology." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 3, 294—297. - (1995): "Perceptual evidence for the mora in Japanese." - In: Connell/Arvaniti (Hgg.) 1995, 141— 156. - (1996): "Speech segmentation and phonological structure." - In: Otake/Cutler (Hgg.) 1996, 77-94. Kiiper, Christoph (1988): Sprache und Metrum. Semiotik und Linguistik des Verses. - Tübingen: Niemeyer. Kurokhtina, Galina (1993): "On teaching anglophones the phonetics of Russian." - In: Rusistika 8, 52-55. Kurylowicz, Jerzy (1975): Metrik und Sprachgeschichte. - Wroclaw: Polska Akdemianauk Komitet Jçzykoznawstwa. Kurz, Gerhard (1999): Macharten: über Rhythmus, Reim, Stil und Vieldeutigkeit. - Göttingen: Vandenhoeck und Ruprecht (Kleine Reihe). Kusumoto, Kiyomi/Moreton, Elliott (1997): "Native language determines the parsing of nonlinguistic stimuli." - In: Journal of the Acoustical Society of America 102, 3204. Lacheret-Dujour, Anne/Beaugendre, Frédéric (1999): La prosodie du français. - Paris: CNRS éditions (CNRS langage). Ladd, D. Robert (1996): Intonational phonology. - Cambridge: CUP (Cambridge studies in linguistics 79). - (2001): "Intonation." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2,1380-1390. Ladefoged, Peter [1975] ( 3 1993): A course in phonetics. - New York: Harcourt & Brace. - (1997): "David Abercrombie and the changing field of phonetics." - In: Journal of Phonetics 25, 85-91. Ladefoged, Peter/Maddieson, Ian (1996): The sounds of the world's languages. - Oxford/Cambridge, MA: Blackwell. Lahiri, Aditi (2001): "Metrical patterns." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2, 1347-1367. Lahiri, Aditi/Riad, Tomas/Jacobs, Haike (1999): "Diachronic prosody." - In: Hulst (Hg.) 1999, 335422. Lang, Ewald/Zifonun, Gisela (Hgg.) (1996): Deutsch - typologisch. - Berlin/New York: de Gruyter (Jahrbuch 1995 des IdS). Lauriault, James (1948): "Altemate mora timing in Shipibo." - In: International Journal of American Linguistics 14, 22-24. Laver, John (1994): Principles of phonetics. - Cambridge: CUP (Cambridge textbooks in linguistics). Lea, John (1980): "The association between rhythmic ability and language ability." - In: F. Margaret Jones (Hg.): Language disability in children: assessment and remediation, 217-230. Lancaster: MTP Press Ltd. Lee, Hyun-bok et al. (1994): "An experimental phonetic study of speech rhythm in standard Korean." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 3, 1091-1094.

230 Lehiste, Ilse (1970): Suprasegmentals. - Cambridge, MA/London: MIT Press. - (1973): "Rhythmic units and syntactic units in production and perception." - In: Journal of the Acoustical Society of America 54, 1228-1234. - (1977): "Isochrony reconsidered." - In: Journal of Phonetics 5,253-263. - (1986): "Comment" [zu Kohler (1986)], - In: Perkell/Klatt (Hgg.) 1986, 290-291. - (1987): "Rhythm in spoken sentences and read poetry." - In: Dressier et al. (Hgg.) 1987,165-173. - (1992): "The phonetics of metrics." - In: Empirical Studies of the Arts 10,95-120. - (1994): "Poetic metre, prominence, and the perception of prosody: a case of intersection of art and science of spoken language." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 4, 2237-2243. - (1997): "Search for phonetic correlates in Estonian prosody." - In: Lehiste/Ross (Hgg.) 1997,11-35. Lehiste, Ilse/Ross, Jaan (Hgg.) (1997): Estonian prosody: papers from a symposium. - Tallinn: Institute of Estonian Language. Lehmann, Winfred P. (1973): "A structural principle of language and its implications." - In: Language 49,47-66. - (1978): "The great underlying ground-plans." - In: Winfred P. Lehmann (Hg.): Syntactic typology: studies in the phenomenology of language, 3-55. Austin, TX: Univ. of Texas Press. Lenerz, Jürgen (2000): "Zur sogenannten Vokalopposition im Deutschen." - In: Zeitschrift für Sprachwissenschaft 19,167-209. Levinson, Stephen C. (1983): Pragmatics. - Cambridge: CUP (Cambridge textbooks in linguistics). Levitt, Andrea G./Wang, Qi (1991): "Evidence for language-specific rhythmic influences in the reduplicative babbling of French- and English-learning infants." - In: Language and Speech 34,235-249. Levy, Jiri (1971): "A contribution to the typology of accentual-syllabic versification." - In: Jiri Levy: Paralipomena, 9-21. Brünn: Purkyne Univ. Liberman, Alvin M. et al. (1996): Speech: a special code. - Cambridge, MA: MIT Press. Liberman, Mark [1975] (1979): The intonational system of English. - New York: Garland (Outstanding dissertations in linguistics). Liberman, Mark/Prince, Alan (1977): "On stress and linguistic rhythm." - In: Linguistic Inquiry 8, 249-336. Lieb, Hans-Heinrich (1999): "Was ist Wortakzent? Eine Untersuchung am Beispiel des Deutschen." In: Wolfgang Schindler, Jürgen Untermann (Hgg.): Grippe, Kamm und Eulenspiegel: Festschrift für Elmar Seebold zum 65. Geburtstag, 225-261. Berlin/New York: de Gruyter. Lieberman, Philip (1996): "Some biological constraints on the analysis of prosody." - In: Morgan/Demuth (Hgg.) 1996, 55-65. Lindblom, Bj0rn (1978): "Final lengthening in speech and music." - In: Eva Gärding, Gösta Bruce, Robert Bannert (Hgg.): Nordic prosody: papers from a symposium, 85-101. Lund: Department of Linguistics. Lindner, Katrin (1998): "Overgeneralization revisited: the case of German past participles." - In: Ray Fabri, Albert Ortmann, Teresa Parodi (Hgg.): Models of inflection, 152-174. Tubingen: Niemeyer (Linguistische Arbeiten 388). Livet, Charles-Louis (1859): La grammaire française et les grammairiens du XVIe siècle. - Paris: Didier/Durand. Lloyd James, A. (1940): Speech signals in telephony. - London: Pitman. Lösener, Hans (1999): Der Rhythmus in der Rede: linguistische und literaturwissenschaftliche Aspekte des Sprachrhythmus. - Tübingen: Niemeyer (Konzepte der Sprach- und Literaturwissenschaft 59). Loikala, Paula (2001): "Problemi di apprendimento della fonetica finlandese." - In: Studi italiani di linguistica teorica e applicata 30, 7-30. Lote, Georges (1949): Histoire du vers français. Bd. 1: Le Moyen Age I. - Paris: Boivin. - (1994): Histoire du vers français. Bd. 8: Le XVIIIe siècle II. - Aix-en-Provence: Publications de l'Université de Provence.

231 Lötz, John (1960): "Metrie typology." - In: Thomas A. Sebeok (Hg.): Style irt language, 135-148. Cambridge, MA: MIT Press. Maas, Utz (1999): Phonologie: Grundzüge einer funktionalen Phonetik des Deutschen. - Opladen/Wiesbaden: Westdeutscher Verlag (Studienbücher zur Linguistik 2). MacCarthy, Peter (1978): The teaching of pronunciation. - Cambridge: CUP. Macken, Marlys Α. (1995): "Phonological acquisition." - In: Goldsmith (Hg.) 1995, 671-696. Maddieson, Ian (1984): Patterns of sounds. - Cambridge: CUP. - (1985): "Phonetic cues to syllabification." - In: Victoria Fromkin (Hg.): Phonetic linguistics, 203221. Orlando, FL: Academic Press. Major, Roy C. (1981): "Stress-timing in Brazilian Portuguese." - In: Journal of Phonetics 9, 343-351. - (1985): "Stress and rhythm in Brazilian Portuguese." - In: Language 61, 259-282. Manrique, Ana María B. de/Signorini, Angela (1983): "Segmental durations and rhythm in Spanish." In: Journal of Phonetics 11, 117-128. Marks, Jonathan (1999): "Is stress-timing real?" - In: ELT Journal 53, 191-199. Maratta, Giovanna (1985): Modelli e misure ritmiche: la durata vocalica in italiano. - Bologna: Zanichelli. Martin, James G. (1972): "Rhythmic (hierarchical) vs. serial structure in speech and other behavior." In: Psychological Review 79, 487-509. - (1979): "Rhythmic and segmental properties are not independent." - In: Journal of the Acoustical Society of America 65, 1287-1297. - (1986): "Aspects of rhythmic structure in speech perception." - In: Evans/Clynes (Hgg.) 1986, 7 9 98. Martin, Jean-Baptiste (1990): "Französisch: Frankoprovenzalisch." - In: Holtus/Metzeltin/Schmitt (Hgg.) 1988-, Bd. 5.1, 671-685. Martin, Philippe (1987): "Prosodie and rhythmic structures in French." - In: Linguistics 25, 925-949. McCarthy, John J./Prince, Alan S. (1990): "Foot and word in Prosodie Morphology: the Arabic broken plural." - In: Natural Language and Linguistic Theory 8, 209-283. McClave, Evelyn (1994): "Gestural beats: the rhythm hypothesis." - In: Journal of Psycholinguistic Research 23, 45-66. McMahon, April (2000): "The emergence of the optimal? Optimality Theory and sound change." - In: The Linguistic Review 17.2-4 (Special Issue: A review of Optimality Theory), 231-240. - (2003): "Phonology and the Holy Grail." - In: Lingua 113, 103-115. McQueen, James M./Otake, Takashi/Cutler, Anne (2001): "Rhythmic cues and possible-word constraints in Japanese speech segmentation." - In: Journal of Memory and Language 45, 103-132. McRobbie-Utasi, Zita (1996): "The implications of temporal patterns for the prosody of boundary signaling in connected speech." - In: Proceedings of the International Conference on Spoken Language Processing 1996, Bd. 2, 1189-1192. Mehler, Jacques/Christophe, Anne (1995): "Maturation and learning of language in the first year of life." - In: Michael S. Gazzaniga (Hg.): The cognitive neurosciences, 943-954. Cambridge, MA: MIT Press. Mehler, Jacques et al. (1981): "The syllable's role in speech segmentation." - In: Journal of Verbal Learning and Verbal Behavior 20, 298-305. - (1988): "A precursor of language acquisition in young infants." - In: Cognition 29, 143-178. - (1993): "Understanding compressed sentences: the role of rhythm and meaning." - In: Paula Tallal et al. (Hgg.): Temporal information processing in the nervous system. Annals of the New York Academy of Sciences 682, 272-282. - (1996): "Coping with linguistic diversity: the infant's viewpoint." - In: Morgan/Demuth (Hgg.) 1996, 101-116. Meigret, Louis [1550]: Le tretté de la grammçre françoçze. - Nachdruck 1969 Menston: Scolar Press (European linguistics 8).

232 Meisenburg, Trudel/Selig, Maria (1998): Französische Phonetik und Phonologie. - Stuttgart/Düsseldorf/Leipzig: Klett (Uni-Wissen Französisch). Merlan, Francesca (1982): Mangarayi. - Amsterdam: North Holland (Lingua Descriptive Series 4). Meschonnic, Henri (1982): Critique du rythme : anthropologie historique du langage. - Paris: Lagrasse. Meyer, Leonard B. (1956): Emotion and meaning in music. - Chicago: Chicago UP. Miller, Jennifer/Tench, Paul (1982): "Aspects of Hausa intonation, 2: continuous text." - In: Journal of the International Phonetic Association 12,78-93. Miller, M. (1984): "On the perception of rhythm." - In: Journal of Phonetics 12, 75-83. Mills, Margaret H. (1988): "Perceived stress and the rhythmical organization of the utterance in Colloquial Russian." - In: Russian Language Journal 42, 51-65. Miner, Earl/Ueda, Makoto (1993): "Japanese poetry." - In: Preminger/Brogan (Hgg.) 1993, 657-665. Mitchell, Terence F. (1969): Rezension von Abercrombie (1967). - In: Journal of Linguistics 5, 153— 164. Mölk, Ulrich (1972): "Vers latin et vers roman." - In: Jauss/Köhler (Hgg.) 1972,467-482. Monnin, Pascal/Grosjean, François (1993): "Les structures de performance en français : caractérisation et prédiction." - In: L'année psychologique 93, 9-30. Moosmüller, Sylvia (1988): "Sociophonology." - In: Peter Auer, Aldo Di Luzio (Hgg.): Variation and convergence: studies in social dialectology, 76-93. Berlin: de Gruyter. Morgan, James L. (1996): "A rhythmic bias in preverbal speech segmentation." - In: Journal of Memory and Language 35, 666-688. Morgan, James L./Demuth, Katherine (1996): "Signal to syntax: an overview." - In: Morgan/Demuth (Hgg.) 1996, 1-22. - (Hgg.) (1996): Signal to syntax: bootstrapping from speech to grammar in early acquisition. - Hillsdale, NJ: Lawrence Erlbaum Ass. Morii), Yves-Charles/Dagenais, Louise (1988): "Les normes subjectives du français et les français régionaux : la longueur vocalique depuis le XVIe siècle." - In: Karin van Reenen-Stein, Peter van Reenen (Hgg.): Distributions spatiales et temporelles, constellation des manuscrits : études de variation linguistique offertes à Anthonij Dees à l'occasion de son 60ème anniversaire, 153-162. Amsterdam/Philadelphia: Benjamins. Moritz, Carl Philipp [1786]: Versuch einer deutschen Prosodie. - Nachdruck 1973 Darmstadt: Wissenschaftliche Buchgesellschaft. Morton, J./Marcus, S./Frankish, C. (1976): "Perceptual centers." - In: Psychological Review 83, 405409. Mowrer, D./Burger, S. (1991): "A comparative analysis of the phonological acquisition of consonants in the speech of two and a half and six year old Xhosa- and English-speaking children." - In: Clinical Linguistics and Phonetics 5, 139-164. Müller, Frank Ernst (1995): "Rhythmus in formulaischen Paradigmen der Alltagssprache." - In: Zeitschrift für Literaturwissenschaft und Linguistik 96, 53-77. - (1996): "Affiliating and disaffiliating with continuers: prosodie aspects of recipiency." - In: Elizabeth Couper-Kuhlen, Margret Selting (Hgg.): Prosody in conversation: interactional studies, 131-176. Cambridge: CUP. Murphy, Feargal (1997): "Sum: myths in linguistics." - In: LINGUIST LIST 8.39. Murray, Robert W. (2000): "Syllable cut prosody in Early Middle English." - In: Language 76, 617654. Nagano-Madsen, Yasuko (1992): Mora and prosodie coordination: a phonetic study of Japanese, Eskimo and Yoruba. - Lund: Lund UP (Travaux de l'Institut de Linguistique de Lund 27). Nakatani, Lloyd H./O'Connor, Kathleen D./Aston, Carletta H. (1981): "Prosodie aspects of American English speech rhythm." - In: Phonetica 38, 84—106. Navarro Tomás, Tomás (1966): Estudios de fonología española. - New York: Las Americas.

233 [1918] ( 2 2 1985): Manual de pronunciación española. - Madrid: Instituto Miguel de Cervantes (Publicaciones de la Revista de Filología Española 3). Nazzi, Thierry/Bertoncini, Josiane/Mehler, Jacques (1998): "Language discrimination by newborns: towards an understanding of the role of rhythm." - In: Journal of Experimental Psychology: Human Perception and Performance 24, 756-766. Nespor, Marina (1988): "Aspects of the interaction between Prosodie Phonology and the phonology of rhythm."-In: Bertinetto/Loporcaro(Hgg.) 1988, 189-230. - (1990a): "On the rhythm parameter in phonology." - In: Roca (Hg.) 1990, 157-175. - (1990b): "On the separation of prosodie and rhythmic phonology." - In: Sharon Inkelas, Draga Zee (Hgg.): The phonology-syntax connection, 243-258. Chicago: Chicago UP. Nespor, Marina/Guasti, Maria Teresa/Christophe, Anne (1996): "Selecting word order: the rhythmic activation principle." - In: Ursula Kleinhenz (Hg.): Interfaces in phonology, 1-26. Berlin: Akademie Verlag (studia grammatica 41). Nespor, Marina/Vogel, Irene (1983): "Prosodie structure above the word." - In: Cutler/Ladd (Hgg.) 1983, 123-140. - (1986): Prosodie phonology. - Dordrecht: Foris (Studies in Generative Grammar 28). - (1989): "On clashes and lapses." - In: Phonology 6, 69-116. Newman, Paul (1973): "Syllable weight as a phonological variable. The nature and function of the contrast between 'heavy* and 'light' syllables." - In: Studies in African Linguistics 3, 301-323. Nickels, Lyndsey/Howard, David (1999): "Effects of lexical stress on aphasie word production." - In: Clinical Linguistics and Phonetics 13, 269-294. Niemi, Jussi (1998): "Modularity of prosody: autonomy of phonological quantity and intonation in aphasia." - In: Brain and Language 61, 45-53. Noel, Patrizia (2001): Sprachrhythmus in Metrik und Alltagssprache. Untersuchungen zur Funktion des neuhochdeutschen Nebenakzents. - München: Diss. Noel Aziz Hanna, Patrizia/Lindner, Katrin/Dufter, Andreas (2002): "The meter of nursery rhymes: universal versus language-specific patterns." - In: David Restle, Dietmar Zaefferer (Hgg.): Sounds and systems: studies in structure and change. A festschrift for Theo Vennemann, 241-267. Berlin/New York: Mouton de Gruyter (Trends in Linguistics; Studies and Monographs 141). N0lke, Henning (1996): "La position de l'adjectif épithète : effets de focalisation à l'intérieur du syntagme nominal." - In: Studi italiani di linguistica teorica e applicata 25, 503-519. Nooteboom, Sieb G. (1991): "Some observations on the temporal organization and rhythm of speech." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 1, 228-237. - (1997): "The prosody of speech: melody and rhythm." - In: William J. Hardcastle, John Laver (Hgg.): The handbook of phonetic sciences, 640-673. Oxford: Blackwell (Blackwell handbooks in linguistics). O'Connor, Joseph D. (1973): Phonetics. - Harmondsworth: Penguin. Oesterreicher, Wulf (1979): Sprachtheorie und Theorie der Sprachwissenschaft. - Heidelberg: Winter (Reihe Siegen 15). - (2001): "Historizität: Sprachvariation, Sprachverschiedenheit, Sprachwandel." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2,1554-1595. Ogden, Richard (1995): " 'Where' is timing? Comments on Smith." - In: Connell/Arvaniti (Hgg.) 1995, 223-234. Olabimtan, Afolabi (1977): "Rhythm in Yoruba poetry: the example of Orin-Arùngbè." - In: Research in African Literatures 8, 201-218. Oller, D. Kimbrough (1979): "Syllable-timing in Spanish, English and Finnish." - In: Hollien/Hollien (Hgg.) 1979, Bd. 1, 331-343. Oller, D. Kimbrough/Smith, Bruce L. (1977): "Effect of final-syllable position on vowel duration in infant babbling." - In: Journal of the Acoustical Society of America 62, 944-997. -

234 Olson, C. L. (1972): "Rhythmical patterns and syllabic features of the Spanish sense group." - In: Proceedings of the 7th International Conference of the Phonetic Sciences, 990-995. Den Haag: Mouton. Opitz, Martin [1624]: Buch von der Deutschen Poeterey. Nach der Edition von Wilhelm Braune neu herausgegeben 1963 von Richard Alewyn. - Tübingen: Niemeyer (Neudrucke deutscher Literaturwerke; Neue Folge 8). Otake, Takashi (1999): "Can English listeners learning Japanese as a second language employ a morabased segmentation procedure?" - In: Journal of the Acoustical Society of America 105,1094. Otake, Takashi/Cutler, Anne (1999): "Perception of suprasegmental structure in a non-native dialect." In: Journal of Phonetics 27,229-253. - (Hgg.) (1996): Phonological structure and language processing: cross-linguistic studies. - Berlin: Mouton de Gruyter (Speech Research 12). Otake, Takashi etal. (1993): "Mora or syllable? Speech segmentation in Japanese." - In: Journal of Memory and Language 32, 258-278. Otero, Carlos R (1986): "A unified account of Spanish stress." - In: Michael Brame, Heles Contreras, Frederick J. Newmeyer (Hgg.): A festschrift for Sol Saporta, 299-332. Seattle, WA: Noit Amrofer. Ouellet, Marise/Tardif, Benoît (1996): "Le canevas rythmique et l'intonation : de la proéminence temporelle à la proéminence accentuelle." - In: Langues et linguistique 21, 151-164. Palermo, Joseph (1971): "Rythme occitan et rythme oxyton : clé de la scission gallo-romane." - In: Revue de Linguistique Romane 35, 40-49. Pallier, Christophe etal. (1998): "Perceptual adjustment to time-compressed speech: a cross-linguistic study." - In: Memory and Cognition 26, 844-851. Panconcelli-Calzia, Giulio (1994): Geschichtszahlen der Phonetik. Quellenatlas der Phonetik. New edition, with an English introduction by Konrad Koemer. - Amsterdam/Philadelphia: Benjamins (Amsterdam studies in the theory and history of linguistic science 16). Paradis, Michel (Hg.) (1978): The fourth LACUS forum 1977. - Columbia, SC: Hornbeam. Perkell, Joseph S./Klatt, Dennis H. (Hgg.) (1986): Invariance and variability in speech processes. Hillsdale, NJ: Lawrence Erlbaum Ass. Perlmutter, David (1995): "Phonological quantity and multiple association." - In:. Goldsmith (Hg.) 1995, 307-317. Pickett, Emily R./Blumstein, Sheila E./Burton, Martha W. (1999): "Effects of speaking rate on the singleton/geminate consonant contrast in Italian." - In: Phonetica 56, 135-157. Pike, Kenneth L. [1945]: The intonation of American English. - Nachdruck 1967 Ann Arbor, MI: Univ. of Michigan Press. - (1948): Tone languages. - Ann Arbor, MI: Univ. of Michigan Press. Plank, Frans (1998): "The co-variation of phonology with morphology and syntax: a hopeful history." - In: Linguistic Typology 2, 195-230. Platon (1977): Nomoi. - In: Werke in acht Bänden: griechisch und deutsch. Herausgegeben von Gunther Eigler, Bd. 8. Darmstadt: Wissenschaftliche Buchgesellschaft. Poedjosoedarmo, Gloria (1996): "Variation and change in the sound system of Brunei dialects of Malay." - In: Peter W. Martin, Conrad Ozóg, Gloria Poedjosoedarmo (Hgg.): Language use and language change in Brunei Darussalam, 37-42. Athens, OH: Ohio Univ. Center for International Studies. Pointon, Graham E. (1980): "Is Spanish really syllable-timed?" - In: Journal of Phonetics 8, 293-304. - (1995): "Rhythm and duration in Spanish." - In: Jack Windsor Lewis (Hg.): Studies in general and English phonetics: essays in honour of professor J. D. O'Connor, 266-269. London: Routledge. Polivanov, Evgenij (1936): "Zur Frage der Betonungsfunktionen." - In: Etudes dédiées au quatrième congrès des linguistes (Travaux du Cercle Linguistique de Prague 6), 75-81. Pollock, Karen E./Brammer, Diane M./Hageman, Carolin F. (1993): "An acoustic analysis of young children's productions of word stress." - In: Journal of Phonetics 21, 183-203.

235 Pompino-Marschall, Bernd (1990): Die Silbenprosodie: ein elementarer Aspekt der Wahrnehmung von Sprachrhythmus und Sprechtempo. - Tübingen: Niemeyer (Linguistische Arbeiten 247). Pompino-Marschall, Bernd et al. (1987): "Is German stress-timed? A study on vowel compression." In: Proceedings of the 11th International Conference of the Phonetic Sciences, Bd. 2, 161-163. Port, Robert F. (1981): "Linguistic timing factors in combination." - In: Journal of the Acoustical Society of America 69, 262-274. Port, Robert F./Cummins, Fred/Gasser, Michael (1995): "A dynamic approach to rhythm in language: toward a temporal phonology." - In: Audra Dainora et al. (Hgg.): Papers from the 31st regional meeting of the Chicago Linguistic Society. Bd. 1: The main session, 375-397. Chicago: CLS. Port, Robert F./Dalby, Jonathan/O'Dell, Michael (1987): "Evidence for mora timing in Japanese." - In: Journal of the Acoustical Society of America 81, 1574-1585. Port, Robert F./Tajima, Keiichi/Cummins, Fred (1999): "Speech and rhythmic behavior." - In: Geert J. P. Savelsbergh, Han van der Maas, Paul C. L. van Geert (Hgg.) (1998): Non-linear developmental processes, 53-78. Amsterdam: Elsevier. Poser, William J. (1990): "Evidence for foot structure in Japanese." - In: Language 66, 78-105. Potapov, V. V. (1993): Yazykovaya spetsifika strukturno-komponentnoy aktualizatsii ritma rechi."-In: Voprosy yazykoznaniya 42, 83-97. [mit englischer Zusammenfassung] Preminger, Alex/Brogan, Terry V. F. (Hgg.) (1993): The new Princeton encyclopedia of poetry and poetics. - Princeton, NJ: Princeton UP. Prince, Alan (1980): "A metrical theory of Estonian quantity." - In: Linguistic Inquiry 11,511-562. - (1983): "Relating to the grid." - In: Linguistic Inquiry 14, 19-100. - (1990): "Quantitative consequences of rhythmic organization." - In: Ziolkowski/Noske/Deaton (Hgg.) 1990, 355-398. Prince, Alan/Smolensky, Paul (1993): "Optimality Theory: constraint interaction in Generative Grammar." Ms. (Rutgers Center for Cognitive Science Technical Report 2). Prince, Alan/Tesar, Bruce (1999): "Learning phonotactic distributions." Ms. ROA 353-1099. Quintilianus, Marcus Fabius (1972): Institutionis oratoriae libri XU/Ausbildung des Redners: zwölf Bücher. 2 Teile. Herausgegeben und übersetzt von Helmut Rahn. - Darmstadt: Wissenschaftliche Buchgesellschaft. Raffelsiefen, Renate (1999): "Diagnostics for prosodie words revisited: the case of historically prefixed words in English." - In: Hall/Kleinhenz (Hgg.) 1999, 133-201. Rakerd, Brad/Sennet, William/Fowler, Carol A. (1987): "Domain-final lengthening and foot-level shortening in spoken English." - In: Phonetica 44, 147-155. Ramers, Karl Heinz/Vater, Heinz/Wode, Henning (Hgg.) (1994): Universale phonologische Strukturen und Prozesse. - Tübingen: Niemeyer (Linguistische Arbeiten 310). Ramus, Franck (2002a): "Acoustic correlates of linguistic rhythm: perspectives." - In: Proceedings of Speech Prosody 2002. Aix-en-Provence, France, 11-13 aprii 2002. [www.lpl.univ-aix.fr/sp2002/papers.htm] - (2002b): "Language discrimination by newborns: teasing apart phonotactic, rhythmic, and intonational cues." - In: Annual Review of Language Acquisition 2, 85—115. Ramus, Franck/Mehler, Jacques (1999): "Language identification with suprasegmental cues: a study based on speech resynthesis." - In: Journal of the Acoustical Society of America 105, 512-521. Ramus, Franck/Nespor, Marina/Mehler, Jacques (1999): "Correlates of linguistic rhythm in the speech signal." - In: Cognition 73,265-292. Ramus, Franck et al. (2000): "An empirical study of the perception of language rhythm." Ms. Rapp, K. Moritz (1836-1841): Versuch einer Physiologie der Sprache nebst historischer Entwicklung der abendländischen Idiome nach physiologischen Grundsätzen. 4 Bde. - Stuttgart/Tübingen: Cotta. Ratner, Nan Bernstein (1986): "Durational cues which mark clause boundaries in mother-child speech." - In: Journal of Phonetics 14, 303-309.

236 Recasene, Daniel (1991): 'Timing in Catalan." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 4,230-233. Rees, M. (1975): "The domain of isochrony." - In: Edinburgh University Department of Linguistics Work in Progress 8, 14-28. Reich, Uli (2002): Freie Pronomina, Verbalklitika und Nullobjekte im Spielraum diskursiver Variation des Portugiesischen in Säo Paulo. - Tübingen: Narr (Romanica Monacensia 62). Restle, David (1998): Silbenschnitt - Quantität - Kopplung: zur Geschichte, Charakterisierung und Repräsentation der Anschlußprosodie unter dem Blickwinkel einer Oszillationssilbentheorie. - München: Diss. Restle, David/Vennemann, Theo (2001): "Silbenstniktur." - In: Haspelmath/König/Oesterreicher/Raible (Hgg.) 2001, Bd. 2,1310-1336. Riad, Tomas (1995): "The quantity shift in Germanic: a typology." - In: Fix (Hg.) 1995, 159-184. Richter, Lutoslawa (1987): "Modelling the rhythmic structure of utterances in Polish." - In: Studia Phonetica Posnaniensia 1, 91-125. Roach, Peter (1982): "On the distinction between stress-timed and syllable-timed languages." - In: Crystal, David (Hg.): Linguistic controversies: essays in linguistic theory and practice in honour of F.R. Palmer, 73-79. London: Arnold. Robey, David (1999): "Counting syllables in the Divine Comedy: a computer analysis." - In: The Modern Language Review 94, 61-86. Roca, Iggy M. (1999): "Stress in the Romance languages." - In: Hulst (Hg.) 1999, 659-811. - (Hg.) (1990): Logical issues in language acquisition. - Dordrecht: Foris (Linguistic Models 15). Romani, Cristina/Calabrese, Andrea (1996): "The representation of geminate consonants: evidence from the phonological errors of an aphasie patient." - In: Journal of Neurolinguistics 9,219-235. Ronneberger-Sibold, Elke (1998): "Phonological simplification vs. stylistic differentiation in the history of German word stress." - In: Richard M. Hogg, Linda van Bergen (Hgg.): Historical Linguistics 1995: selected papers from the 12th International Conference on Historical Linguistics, Manchester, august 1995. Bd. 2: Germanic linguistics, 285-299. Amsterdam/Philadelphia: Benjamins (CILT 162).

-

(im Druck): "Ambisyllabic consonants in German: evidence from dialectal pronounciation of lexical creations." - Erscheint in: John Rennison, Klaus KUhnhammer (Hgg.): Phonologica 1996: Syllables!? Proceedings of the 8th International Phonology Meeting, Vienna 1996, 247-271. Den Haag: Holland Academic Graphics. Rosa, Francesco de/Sangirardi, Giuseppe (1996): Introduzione alla metrica italiana. - Milano: Sansoni (biblioteca aperta sansoni). Rosenthall, Sam/Hulst, Harry van der (1999): "Weight-by-position by position." - In: Natural Language and Linguistic Theory 17, 499-540. Ross, John R. (1973): "The Penthouse Principle and the order of constituents." - In: Claudia Corum, T. Cedric Smith-Stark, Ann Weiser (Hgg.): You take the high node and I'll take the low node. Papers from the comparative syntax festival. A paravolume to papers from the 9th regional meeting, 397422. Chicago: CLS. Rothe, Wolfgang [1972] ( 2 1978): Phonologie des Französischen: Einführung in die Synchronie und Diachronie des französischen Phonemsystems. - Berlin: Erich Schmidt (Grundlagen der Romanistik 1).

Rubach, Jerzy (1999): "The syllable in phonological analysis." - In: Rivista di Linguistica 11,273-314. Ruhlen, Merritt (1976a): A guide to the languages of the world. - Stanford, CA: Language Universale Project. - (1976b): "The geographical and genetic distribution of linguistic features." - In: Alphonse Juilland (Hg.): Linguistic studies offered to Joseph H. Greenberg, Bd. 1, 137-160. Saratoga: Anma Libri. Russom, Geoffrey (1987): Old English meter and linguistic theory. - Cambridge: CUP. Sainliens, Claude de (1580): De pronuntiatione linguae Gallicae libri duo. - London: Vautrollerius.

237 Saltarelli, Mano (1998): "Sulla cardinalità del parametro metrico nell'evoluzione prosodica nelle lingue neolatine." - In: Giovanni Ruffino (Hg.): Atti del XXI Congresso Internazionale di Linguistica e Filologia Romanza, Palermo, 18-24 settembre 1995, Bd. 1 : Grammatica storica delle lingue romanze, 339-348. Tübingen: Niemeyer. Sapir, Edward (1921): Language. An introduction to the study of speech. - New York: Harcourt, Brace & World. - (1931): "Notes on the Gweabo language of Liberia." - In: Language 7, 30-41. Saran, Franz (1907): Deutsche Verslehre. - München: Beck (Handbuch des deutschen Unterrichts an höheren Schulen). Sato, Yumiko (1993): "The durations of syllable-final nasals and the mora hypothesis in Japanese." In: Phonetica 50, 44-67. Saussure, Ferdinand de [1916] (1986): Cours de linguistique générale. Édition critique préparée par Tullio de Mauro. - Paris: Payot. Savinainen-Makkonen, Tuula (2000): "Learning long words - a typological perspective." - In: Language and Speech 43, 205-225. Savithri, S. R. (1995): "On speech rhythms in Kannada." - In: Journal of Phonetics 23, 273-289. Scherr, Barry (1980): "Russian and English versification: similarities, differences, analysis." - In: Style 14, 353-378. Schindler, Wolfgang (1994): "Analogische Wortakzentvergabe im Deutschen." - In: Sprachtypologie und Universalienforschung 47, 355-370. Schlegel, August Wilhelm [1795] (1962a): "Briefe über Poesie, Silbenmaß und Sprache." - Wieder in: August Wilhelm Schlegel: Kritische Schriften und Briefe /, 141-180. Stuttgart: Kohlhammer. - [ca. 1795-1800] (1962b): "Betrachtungen über Metrik." - Wieder in: August Wilhelm Schlegel: Kritische Schriften und Briefe /, 181-218. Stuttgart: Kohlhammer. Schlieben-Lange, Brigitte (1995): "Einleitung." - In: Zeitschrift für Literaturwissenschaft und Linguistik 96, 9-11. Schottelius, Justus Georg [1663]: Ausführliche Grammatik von der Teutschen HaubtSprache. - Nachdruck 1995 herausgegeben von Wolfgang Hecht. 2 Bde. Tübingen: Niemeyer (Deutsche Neudrucke: Reihe Barock 12). Schuh, Russell G. (1989): 'Toward a metrical analysis of Hausa verse prosody." - In: Isabelle Hai'k, Lauria Tuller (Hgg.): Current approaches to African linguistics 6, 161-175. Dordrecht: Foris (Publications in African Languages and Linguistics). Schwartz, Richard G./Goffman, Lisa (1995): "Metrical patterns of words and production accuracy." In: Journal of Speech and Hearing Research 38, 876-888. Schweiger, Franz (1990): "How to persuade with statistics: the weak ground of prosodie typology." In: Folia Linguistica 24, 123-125. Scott, Clive (1998): The poetics of French verse: studies in reading. - Oxford: Clarendon. Scott, Donia R./Isard, S. D./Boysson-Bardies, Bénédicte de (1985): "Perceptual isochrony in English and French." - In: Journal of Phonetics 13, 155-162. - (1986): "On the measurement of phonetic irregularity: a reply to Benguerel." - In: Journal of Phonetics 14, 327-330. Seidel, Wilhelm (1998): "Rhythmus, Metrum, Takt." - In: Ludwig Finscher (Hg.) (1994-): Die Musik in Geschichte und Gegenwart. Zweite, neubearbeitete Ausgabe, Sachteil Bd. 8, 258-317. Kassel u. a.: Bärenreiter. Selkirk, Elizabeth O. (1980): "The role of prosodie categories in English word stress." - In: Linguistic Inquiry 11,563-605. - (1982): The syntax of words. - Cambridge, MA: MIT Press (Linguistic Inquiry Monograph 7). - (1984): Phonology and syntax: the relation between sound and structure. - Cambridge, MA/London: MIT Press (Current Studies in Linguistics 10).

238 -

(1990): "On the nature of prosodie constituency: comments on Beckman's and Edwards's paper." In: Kingston/Beckman (Hgg.) 1990, 179-200. - (1995): "Sentence prosody: intonation, stress, and phrasing." - In: Goldsmith (Hg.) 1995, 550-569. - (1996): "The prosodie structure of function words." - In: Morgan/Demuth (Hgg.) 1996, 187-214. - (2000): "The interaction of constraints on prosodie phrasing." - In: Home (Hg.) 2000,231-261. Setting, Margret (1995): Prosodie im Gespräch: Aspekte einer interaktionalen Phonologie der Konversation. - Tübingen: Niemeyer (Linguistische Arbeiten 329). Shattuck-Hufnagel, Stefanie (1995): "The importance of phonological transcription in empirical approaches to "stress shift" versus "early accent": comments on Grabe and Warren, and Vogel, Bunnell, and Hoskins." - In: Connell/Arvaniti (Hgg.) 1995, 128-140. - (2000): "Phrase-level phonology in speech production planning: evidence for the role of prosodie structure." - In: Home (Hg.) 2000, 201-229. Sievers, Eduard (1881): Grundzüge der Phonetik zur Einfiihrung in das Studium der Lautlehre der indogermanischen Sprachen. - Leipzig: Breitkopf & Härtel (Bibliothek indogermanischer Grammatiken 1).

Sihler, Andrew L. (1995): New comparative grammar of Greek and Latin. - New York/Oxford: Oxford UP. Silva, Viola de (1999): "Interference of a quantity language in rhythmic structure of a stress language." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 559-561. Siptár, Péter/Tôrkenczy, Miklós (2000): The phonology of Hungarian. - Oxford: Oxford UP (The phonology of the world's languages). Slowiaczek, Louisa M. (1990): "Effects of lexical stress in auditory word recognition." - In: Language and Speech 33, 47-68. Sluijter, Agaath (1995): Phonetic correlates of stress and accent. - Den Haag: Holland Academic Graphics (HIL dissertations 15). Sluyters, Willebrord (1990): "Length and stress revisited: a metrical account of diphthongization, vowel lengthening, consonant gemination and word-final vowel epenthesis in modem Italian." - In: Probus 2,65-101. Smith, Adam (1799): "Of the affinity between certain English and Italian verses." - In: Adam Smith: Essays on philosophical subjects, 239-250. London: Basil. Smith, Alexandra (1976): "The timing of French, with reflections on syllable-timing." - In: Work in Progress, Department of Linguistics, Edinburgh University 9, 97-108. Smith, Caroline L. (1995): "Prosodie patterns in the coordination of vowel and consonant gestures." In: Connell/Arvaniti (Hgg.) 1995, 205-222. Snow, David (1994): "Phrase-final syllable lengthening and intonation in early child speech." - In: Journal of Speech and Hearing Research 37, 831-840. Soboth, Christian (1996): "Der 'Hebel aller Wirkung' - Der Rhythmus unter den Deutschen." - In: Sprache und Literatur in Wissenschaft und Unterricht 78, 93-114. Sohn, Ho-Min (1999): The Korean language. - Cambridge: CUP (Cambridge language surveys). Speas, Margaret (1997): "Optimality Theory and syntax: null pronouns and control." - In: Diana Archangeli, Terence D. Langendoen (Hgg.): Optimality Theory: an overview, 171-199. Oxford: Blackwell (Explaining linguistics). Stankiewicz, Edward/Brogan, Terry W. F. (1993): "Slavic prosody." - In: Preminger/Brogan (Hgg.) 1993, 1155-1158. Steele, Joshua [1775] [ 2 1779]: Prosodia rationalis, or an essay towards establishing the melody and measure of speech to be expressed and perpetuated by peculiar symbols. - Nachdruck 1971 Hildesheim/New York: Olms (Anglistica & Americanistica 125). Steffen-Batóg, Maria (1987): "Tempo of speech and stress structure of Polish utterances." - In: Studia Phonetica Posnaniensia 1, 127-147.

239 Stemberger, Joseph PVBemhardt, Barbara H. (1999): "The emergence of faithfulness." - In: Brian MacWhinney (Hg.): The emergence of language, 417-446. Mahwah, NJ: Lawrence Erlbaum Ass. Stempel, Wolf-Dieter (1972): "Zur formalistischen Theorie der poetischen Sprache." - In: Stempel (Hg.) 1972, ix-lii. - (Hg.) (1972): Texte der russischen Formalisten 11: Texte zur Theorie des Verses und der poetischen Sprache. - München: Fink (Theorie und Geschichte der Literatur und der schönen Künste 6.2). Stetson, Raymond H. (1905): "A motor theory of rhythm and discrete succession." - In: The Psychological Review 12, 250-270 und 293-350. Stewart, George R. (1925): "The iambic-trochaic theory in relation to musical notation of verse." - In: Journal of English and Germanic Philology 24, 61-71. Stone, Maureen (1981): "Evidence for a rhythm pattern in speech production: observations of jaw movement." - In: Journal of Phonetics 9, 109-120. Straka, Georges (1990): "Französisch: Phonetik und Phonemik." - In: Holtus/Metzeltin/Schmitt (Hgg.) 1988-, Bd. 5.1, 1-33. Strangert, Eva (1985): Swedish speech rhythm in a cross-language perspective. - Stockholm: Almqvist & Wiksell (Umeâ Studies in the Humanities 69). - (1987): "Major determinants of speech rhythm: a preliminary model and some data." - In: Proceedings of the 11th International Conference of the Phonetic Sciences, Bd. 2, 149-152. Sumera, Magdalena (1975): "The concept of isochrony: some problems of analysis." - In: Studies in Linguistics 25, 35-41. - (1981): "The keen prosodie ear: a comparison of the notations of rhythm of Joshua Steele, William Thomson and Morris Croll." - In: R. E. Asher, J. A. Henderson (Hgg.): Towards a history of phonetics, 100-112. Edinburgh: Edinburgh UP. Suomi, Kari/McQueen, James M./Cutler, Anne (1997): "Vowel harmony and speech segmentation in Finnish." - In: Journal of Memory and Language 36, 422-444. Sweet, Henry [1877]: A handbook of phonetics: including a popular exposition of the principles of spelling reform. - Nachdruck 1970 College Park, MD: McGrath. - (1891): A new English grammar, logical and historical. Part I. - Oxford: Clarendon Press. Tajima, Keiichi/Port, Robert FVDalby, Jonathan (1997): "Effects of temporal correction on intelligibility of foreign-accented English." - In: Journal of Phonetics 25, 1-24. Tajima, Keiichi/Zawaydeh, Bushra A./Kitahara, Mafuyu (1999): "A comparative study of speech rhythm in Arabic, English, and Japanese." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 285-288. Taylor, D. S. (1981): "Non-native speakers and the rhythm of English." - In: International Review of Applied Linguistics 19, 219-226. Terhardt, Ernst (1998): Akustische Kommunikation: Grundlagen mit Hörbeispielen. - Berlin u.a.: Springer. Terken, Jacques/Hermes, Dik (2000): "The perception of prosodie prominence." - In: Home (Hg.) 2000, 89-127. Ternes, Elmar [1987] ( 2 1999): Einführung in die Phonologie. - Darmstadt: Wissenschaftliche Buchgesellschaft (Die Sprachwissenschaft). Tesar, Bruce/Smolensky, Paul (1998): "Leamability in Optimality Theory." - In: Linguistic Inquiry 29, 229-268. - (2000): Leamability in Optimality Theory. - Cambridge, MA: MIT Press. Thomson, William (1923): The rhythm of speech. - Glasgow: Maclehouse, Jackson & Co. Thurot, Charles [1883]: Extraits de divers manuscrits latins pour servir à l'histoire des doctrines grammaticales au moyen âge. - Unveränderter Nachdruck 1964 Frankfurt a. M.: Minerva. Thymé-Gobbel, Ann/Hutchins, Sandra E. (1999): "Prosodie features in automatic language identification reflect language typology." - In: Proceedings of the 14th International Conference of the Phonetic Sciences, Bd. 1, 29-32.

240 Tillmann, Hans G./GUnther, Hartmut (1986): "Zum Zusammenhang von natur- und geisteswissenschaftlicher Sprachforschung - Phonetik und Phonologie." - In: Zeitschrift für Sprachwissenschaft 5,187— 208. Tillmann, Hans GVMansell, Phil (1980): Phonetik: lautsprachliche Zeichen, Sprachsignale und lautsprachlicher Kommunikationsprozeß. - Stuttgart: Klett-Cotta. Toledo, Guillermo Andrés (1988): El ritmo en el español: estudio fonético con base computacional. Madrid: Gredos (Biblioteco Románica Hispánica II: Estudios y ensayos 361). - (1996): "Alternancia y ritmo en el español: habla espontánea." - In: Estudios Filológicos 31, 119127. TomaSevskij, Boris [1928] (1972): "Vers und Rhythmus: methodologische Bemerkungen." Übersetzt von Rolf Fieguth. - In: Stempel (Hg.) 1972,223-271. Trager, George L./Bloch, Bernard (1941): "The syllabic phonemes of English." - In: Language 17, 223-246. Travis, James (1973): Early Celtic versecraft: origin, development, diffusion. - Shannon: Irish Univ. Press. Trier, Jost (1949): "Rhythmus." - In: Studium Generale 2,135-141. Trubetzkoy, Nikolas S. (1935): Anleitung zu phonologischen Beschreibungen. - Prag: Edition du Cercle Linguistique de Prague. - [1939] ( 3 1962): Grundzüge der Phonologie. - Göttingen: Vandenhoeck & Ruprecht. Trumper, John/Romito, Luciano/Maddalon, Marta (1991): "Double consonants, isochrony and raddoppiamento fonosintattico: some reflections." - In: Bertinetto/Kenstowicz/Loporcaro (Hgg.) 1991, 329-360. Tsur, Reuven (1998): Poetic rhythm: structure and performance. An empirical study in cognitive poetics. - Bem: Lang. Tuller, Betty/Fowler, Carol A. (1980): "Some articulatory correlates of perceptual isochrony." - In: Perception and Psychophysics 27, 277-283. Turk, Alice/Savush, J. (1997): "The domain of accentual lengthening in American English." - In: Journal of Phonetics 25, 25-41. Uchida, Teruhisa (1997): "Categorical perception of Japanese moraic phonemes." - In: Journal of the Acoustical Society of America 102, 3094. Uldall, Elizabeth T. (1971): "Isochronous stresses in R.P." - In: L. L. Hammerich, Roman Jakobson, Eberhard Zwirner (Hgg.): Form and substance: phonetic and linguistic papers presented to Eli Fischer-J0rgensen, 205-210. Kopenhagen: Akademisk Forlag. - (1978): "Rhythm in very rapid R. P." - In: Language and Speech 21, 397-402. Ulreich, Christoph (1995): Akzent im Deutschen. Neuere Entwicklungen der Forschung und Möglichkeiten ihrer Didaktisierung am Beispiel des Deutschunterrichts für die Erstsprache Ungarisch. München: Magisterarbeit. Umeda, Norika/Wedmore, Toby (1994): "A rhythm theory for spontaneous speech: the role of vowel amplitude in the rhythmic hierarchy." - In: Proceedings of the International Conference on Spoken Language Processing 1994, Bd. 3, 1095-1098. Vaissière, Jacqueline (1980): "La structuration acoustique de la phrase française." - In: Annali della Scuola Normale Superiore di Pisa 10, 529-560. - (1983): "Language-independent prosodie features." - In: Cutler/Ladd (Hgg.) 1983, 53-66. - (1991a): "Perceiving rhythm in French?" - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 4,258-261. - (1991b): "Rhythm, accentuation and final lengthening in French." - In: Johan Sundberg, Lennart Nord, Rolf Carlson (Hgg.): Music, language, speech and brain: proceedings of an international symposium at the Wenner-Gren Center, Stockholm, 5-8 September 1990,108-120. Basingstoke u. a.: Macmillan's.

241 -

(1995): "Phonetic explanations for cross-linguistic prosodie similarities." - In: Phonetica 52, 123130. - (1996): "From Latin to Modern French: on diachronic changes and synchronic variations." - In: Arbeitsberichte des Instituts für Phonetik der Universität Kiel 31, 61-74. Vallduvi, Enric/Engdahl, Elisabet (1996): "The linguistic realization of information packaging." - In: Linguistics 34,459-519. Vatikiotis-Bateson, Eric/Kelso, J. A. Scott (1993): "Rhythm type and articulatory dynamics in English, French and Japanese." - In: Journal of Phonetics 21, 231-265. Vayra, Mario/Fowler, Carol A./Avesani, Cinzia (1987): "Word-level coarticulation and shortening in Italian and English speech." - In: Studi di grammatica italiana 13,249-269. Vékás, Domokos/Bertinetto, Pier Marco (1991): "Controllo vs. compensazione: sui due tipi di isocronia." - In: Emanuela Magno Caldognetto, Paola Benincà (Hgg.): L'interfaccia tra fonologia e fonetica: atti del convegno di Padova, 15 dicembre ¡989, 155-162. Padua: Unipress. Venditti, Jennifer/Jun, Sun-Ah/Beckman, Mary (1996): "Prosodie cues to syntactic and other linguistic structures in Japanese, Korean and English." - In: Morgan/Demuth (Hgg.) 1996, 287-311. Vennemann, Theo (1972): "On the theory of syllabic phonology." - In: Linguistische Berichte 18,1-18. - (1986): Neuere Entwicklungen in der Phonologie. - Berlin/New York/Amsterdam: Mouton de Gruyter (Ianua linguanim; Series maior). - (1988): Preference laws for syllable structure and the explanation of sound change: with special reference to German, Germanic, Italian, and Latin. - Berlin u. a.: Mouton de Gruyter. - (1989): "Language change as language improvement." - In: Vincenzo Orides (Hg.): Modelli esplicativi della diacronia linguistica. Atti del Convegno della Società Italiana di Glottologia, 11-35. Pisa: Giardini. - (1990): "Syllable structure and simplex accent in Modem Standard German." - In: Ziolkowski/Noske/Deaton (Hgg.) 1990, 399-412. - (199la): "Syllable structure and syllable cut prosodies in Modem Standard German." - In: Bertinetto/Kenstowicz/Loporcaro (Hgg.) 1991, 211-243. - (1991b): "Skizze der deutschen Wortprosodie." - In: Zeitschrift für Sprachwissenschaft 10, 86-111. - (1994): "Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur." - In: Ramers/VaterAVode (Hgg.) 1994, 7-54. - (1995): "Der Zusammenbruch der Quantität im Spätmittelalter und sein Einfluß auf die Metrik." In: Fix (Hg.) 1995, 185-223. - (1998): "Prosodie und Wortgewinnung." - In: Butt/Fuhrhop (Hgg.) 1998, 225-244. Verluyten, S. Paul (1982): "Historical metrics: the caesura in French." - In: Anders Ahlqvist (Hg.): Papers from the 5th International Conference on Historical Linguistics, 356-361. Amsterdam: Benjamins (CILT 21). Verrier, Paul (1931/1932): Les vers français, 3 Bde. - Paris: Didier. Vihman, Marilyn M. (1980): "Sound change and child language." - In: Elizabeth Closs Traugott et al. (Hgg.): Papers from the 4th International Conference on Historical Linguistics, 303-320. Amsterdam: Benjamins (Amsterdam studies in the theory and history of linguistic science 4; 14). - (1991): "Ontogeny of phonetic gestures: speech production." - In: Ignatius G. Mattingly, Michael Studdert-Kennedy (Hgg.): Modularity and the motor theory of speech perception, 69-84. Hillsdale, NJ: Lawrence Erlbaum Ass. Vihman, Marilyn M./DePaolis, Rory A./Davis, Barbara L. (1998): "Is there a "trochaic bias" in early word learning? Evidence from infant production in English and French." - In: Child Development 69, 935-949. Vihman, Marilyn M./Velleman, Shelley (2000): "Phonetics and the origins of phonology." - In: Noel Burton-Roberts, Philipp Carr, Gerard Docherty (Hgg.): Phonological knowledge: conceptual and empirical issues, 305-339. Oxford: Oxford UP.

242 Vogel, Irene/Bunnell, H. Timothy/Hoskins, Steven (1995): "The phonology and phonetics of the rhythm rule."-In: Connell/Arvaniti (Hgg.) 1995,111-127. Vogel, Irene/Hoskins, Steve (1996): "On the interaction of clash, focus and phonological phrasing." - In: Proceedings of the International Conference on Spoken Language Processing 1996, Bd. 4, 2040-2044. Vogel, Irene/Scalise, Sergio (1982): "Secondary stress in Italian." - In: Lingua 58, 213-242. Volkoff, Vladimir (1978): Vers une métrique française. - Columbia, SC: French literature Publications Company. Vos, Peter G. (1977): 'Temporal duration patterns in the perception of auditory rhythmic patterns." In: Scientific Aesthetics 1,183-199. Voss, Johann Heinrich (1802): Zeitmessung der deutschen Sprache: Beilage zu den Oden und Elegieen. - Königsberg: Nicolovius. Vossler, Karl (1921): Frankreichs Kultur im Spiegel seiner Sprachentwicklung: Geschichte der französischen Schriftsprache von den Anfangen bis zur klassischen Neuzeit. - Heidelberg: Winter (Sammlung romanischer Elementar- und Handbücher 4.1). Vroomen, Jean/Tuomainen, Jyrki/de Gelder, Beatrice (1998): "The roles of word stress and vowel harmony in speech segmentation." - In: Journal of Memory and Language 38,133-149. Wanner, Dieter (1979): "Die Bewahrung der lateinischen Haupttonstelle im Romanischen." - In: Vox Romanica 38, 1-36. Warner, Natasha/Arai, Takayuki (2001a): "Japanese mora timing: a review." - In: Phonetica 58, 1-25. - (2001b): "The role of the mora in the timing of spontaneous Japanese speech." - In: The Journal of the Acoustical Society of America 109, 1144—1156. Warren, Paul (1998): 'Tuning patterns in New Zealand English rhythm." - In: Te Reo 41, 80-93. Wartburg, Walter von [1943] ( 2 1962): Einführung in Problematik und Methodik der Sprachwissenschaft. - Tübingen: Niemeyer. Wenk, Brian J. (1985): "Speech rhythms in second language acquisition." - In: Language and Speech 28, 157-176. Wenk, Brian J./Wioland, François (1982): "Is French really syllable-timed?" - In: Journal of Phonetics 10, 193-216. Wetzels, Leo (1986): "Phonological timing in Ancient Greek." - In: Leo Wetzels, Engin Sezer (Hgg.): Studies in compensatory lengthening, 297-344. Dordrecht: Foris (Publications in language sciences 23). Wierzbicka, Anna (1991): Cross-cultural pragmatics: the semantics of human interaction. - Berlin u. a.: de Gruyter (Trends in linguistics; Studies and monographs 53). Wiese, Richard (1996): The phonology of German. - Oxford: Clarendon (The phonology of the world's languages). Wiik, Kalevi (1991): "On a third type of speech rhythm: foot timing." - In: Proceedings of the 12th International Conference of the Phonetic Sciences, Bd. 3, 298-301. Wijnen, Frank/Krikhaar, Evelien/den Os, Els (1994): "The (non)realization of unstressed elements in children's utterances: evidence for a rhythmic constraint." - In: Journal of Child Language 21, 5983. Williams, Briony/Hiller, Steven M. (1994): "The question of randomness in English foot timing: a control experiment." - In: Journal of Phonetics 22, 423-439. Wimsatt, W. K. Jr./Beardsley, Monroe C. (1959): "The concept of meter: an exercise in abstraction." In: PMLA 74, 585-598. Woodrow, Herbert (1909): "A quantitative study of rhythm: the effect of variations in intensity, rate, and duration." - In: Archives of Psychology 14, 1-66. Wundt, Wilhelm [1900] ( 3 1912): Völkerpsychologie: eine Untersuchung der Entwicklungsgesetze von Sprache, Mythus und Sitte. 2. Bd.: Die Sprache. 2 Teile. - Leipzig: Engelmann. Yip, Moira (2002): Tone. - Cambridge: CUP (Cambridge textbooks in linguistics).

243 Zhang, Guangsheng (1996): Foot-timing and word-timing in English. - Newark, DE: Univ. of Delaware Ph. D. Diss. Ziolkowski, Michael/Noske, Manuela/Deaton, Karen (Hgg.) (1990): Papers from the regional meeting of the Chicago Linguistic Society 26. Bd. 2: The parasession on the syllable in phonetics and phonology. Chicago: CLS. Zissman, Marc A./Berkling, Kay M. (2001): "Automatic language identification." - In: Speech Communication 35, 115-124. Zollna, Isabel (1995): "Der Rhythmus in der geisteswissenschaftlichen Forschung: ein Überblick." - In: Zeitschrift für Literaturwissenschaft und Linguistik 96, 12-52. Zonneveld, Wim et al. (1999): "Wordstress in West-Germanic and North-Germanic languages." - In: Hülst (Hg.) 1999, 477-603.

Register

Abercrombie, David, 11, 38, 59, 99, 152, 188, 209 Abzählverse, 186 Adelung, Johann Christoph, 6 Akzent, 45, 58, 92, 96, 102, 106f„ 114, 120, 124 dynamischer, 99f., 143,148 emphatischer, 143 freier, 121 kontrastiver, 99, 143 musikalischer, 99,126f. tonaler, 134, 185 Akzentposition, 68, 121, 130, 134, 149, 156, 161, 175f., 188f., 190 kolumnare, 150f. Akzentsilbengesetz, 148 Akzentzählung, llf., 12-19, 21f„ 24, 25, 3157, 114, 133, 167, 169, 169f., 186, 189f. in der Metrik, 198f. Akzentzusammenstoß, s. stress clash Allophonie, 44, 133 Alternation, 1, 26, 59, 64, 76, 79, 111, 139, 181, 190, 192, 200, 207,209 temäre, 65 Altgriechisch, 130f. Ambisyllabizität, 45f„ 55, 117f. Amphibrachus, 74 Anapäst, 110, 112 Aphasie, 19 lf. Arabisch, llf., 19, 73, 112, 159f., 169-171 Aristoteles, 3, 81, 108 Aristoxenes Tarentinus, 3, 82, 90 Armenisch, 121 Artikulation, 31-37, 87,100, 116f. Artikulatorische Phonologie, 35 Aserbaidschanisch, 131 Assimilation, 47, 96 Auer, Peter, 10, 31, 40f., 43, 45-48, 52, 54, 56f., 82f., 84f„ 89, 93, 113f., 169 Auflösung, 74, 200 Auftakt, 32 Autosegmentale Phonologie, 58 Balbi, Giovanni, 4 Bally, Charles, 49, 210

Baskisch, 27, 68, 121 Baum, metrischer, 58f., 62 Beat Addition, 61, 63 Beat Insertion, 158 Beauzée, Nicolas, 5 Beckman, Mary E., 28-30,63,95,98-100,104, 126, 130, 134f„ 145, 147, 152f„ 177 Bengali, 159f. Bemhardi, August Ferdinand, 93 Bertinetto, Pier Marco, 10,23f„ 34,45,78, 86, 89, 169, 202 Betonung, 43, 57, 65, 92, 98f„ 101f„ 104, 147 Bloomñeld, Leonard, 9 Bolinger, Dwight, 16,62,80,94,118,149,189 bracketed grid, s. Gitter, geklammertes Bulgarisch, 19 Cayuvaya, 74, 110 Chapman, James, 7, 130 Chinesisch, 189 Kantonesisch, 188 Mandarin, 19, 27, 48, 77, 129, 168, 170, 188 Choctaw, 125 Chomsky, Noam, 9, 58, 149 clash, 76, s. stress clash Classe, André, 10,37, 98, 119 Coetsem, Frans van, 94,100-102, 143 Couper-Kuhlen, Elizabeth, 10, 39f., 56f., 84f., 99 Creek, 128 cursus, 4 Cutler, Anne, 15, 60, 92, 134, 152, 172, 17376, 181 Daktylus, 74, 110, 112, 152, 163, 187 Dauer, Rebecca, 42-45 Delais-Roussarie, Elisabeth, 141f., 144 Delattre, Pierre, 20, 26, 143 Dell, François, 138f. Demarkation, 14,33,61,68,70,77,120f., 124, 135, 139f„ 144f„ 148, 151, 157, 176

246 Deutsch, 2, 17f., 40, 43, 54, 56, 63, 88, 94-96, 98, 103, 107, 110, 117, 127f., 149154, 167, 169, 186, 192-194, 201, 210 Dissimilation, 47 Distinktivität, s. Kontrastivität Donegan, Patricia J., 49f. Dubois, Jacques, 4 Dyirbal, 205 Dysarthrie, 192f. Emphaseakzent, s. Akzent, emphatischer Englisch, 2, 7, 11-17, 27, 31f., 34, 37f„ 42f„ 55-59, 63, 65, 78, 87, 95, 98, 104, 117f., 122,125-128,131,133,149154, 161, 165, 167-176, 178-182, 185-190, 192, 198,201 Eriksson, Anders, 10, 19, 34, 89 Estnisch, 78, 124, 128, 167, 186 Eurhythmie, 60, 62, 67, 77, 115, 132, 138, 140f., 162,165 Extrametrikalität, 68f., 76,110-113, 196,199 Finalakzent, 45,47,49f., 69,110, 150 im Französischen, 143 Finnisch, 2,31, 100,111,118, 125,131, 135f., 160, 165, 169, 176, 185, 187f., 190f., 192 Fletcher, Janet, 26f„ 34, 130 Fokusakzent, 94-96, 99, 122, 128, 145, 147, 151f., 154,178 Französisch, 2, 11, 25-27, 31, 34, 38, 52f., 78, 87,93-96,99f., 104,122,125f., 131, 137-146, 165, 167-170, 172, 174-176, 178-180, 185, 187, 191, 202, 206-208, 210 full-vowel-timing, 16 Fuß, 3f., 11, 17, 33, 38f., 49, 54f., 57, 65, 69, 71, 95, 107f., 144, 152, 196, 200, 207 binärer, 76,105, 111, 152 degenerierter, 71 ternärer, 74, 110-112, 152, 196 unärer, 109, 152 unbeschränkter, 72,112f. Gälisch, schottisches, 124 Ganda, 31, 205 Geminate, 28, 35. 45f., 88, 118, 123, 159f„ 188, 191f. Gestalt, phonologische, 39,46,48, 54, 66

Gil, David, 50f. Gitter, geklammertes, 60, 72 Gitter, metrisches, 58-62, 64, 66f„ 96, 143 Goldsmith, John, 58, 69,120, 131 Gottsched, Johann Christoph, 6 Grabe, Esther, 167f. Griechisch, 27, 34,44f., 167 Gweabo, 129 Halle, Morris, 9,58, 60,71, 74,110, 123, 149 Halliday, Michael A. K., 42,152 Haussa, 27, 205 Hayes, Bruce, 55, 60-63, 68, 71-73, 96, 98, 103-107, 109f., 112f., 130f., 135, 162,183f., 197, 200 Hebräisch, 50, 194 Hindi, 27 Hixkaryana, 125 Hoequist, Charles Jr., 29f., 109, 134 Hopi, 129 Hülst, Harry van der, 58,69-71, 73-76,93,96, 98,107-109, 112, 120,130,150 Humboldt, Wilhelm von, 7, 95,13lf. Hyman, Lany, 68f., 119-121, 129, 131 lambic/Trochaic Law, 103-105 Ickelsamer, Valentin, 6 Indonesisch, 27,169f. Initialakzent, 45, 47,49f., 69,100 im Französischen, 142f., 146 Intonation, 9, 44, 95, 118f., 124, 129, 152f., 178,180, 194 Intonationsphrase, 14f„ 26, 54,128, 153 Isochronie, 1, 7, 10-57, 24, 31 f., 66, 77f., 80, 84-91, 103, 125f., 130, 134, 140, 145, 152, 161, 165, 169, 171, 185, 189-191, 194, 202f. Isometrie, 56-57, 140f„ 162, 190 Isoprominenz, 24,101,114 Isosyllabizität, 24,90,114 Italienisch, 2,13,23-25,33-36,40,52-54,56f., 67, 87, 102, 112, 125, 148, 156162, 165, 167, 172f., 176, 179f„ 191f., 204 Jakobson, Roman, 68,127, 132, 137, 191, 203 Jambus, 50f., 72, 74, 103-106, 108, 112, 125, 181, 194

247 Japanisch, 2, 28-31, 35, 38, 41, 54, 67, 78, 95, 108, 125, 127, 133-135, 136, 159f., 165, 167-170, 171f„ 172175, 179f., 185, 188f., 201 Jones, Daniel, 8, 149 Kager, René, 58, 67, 69, 73, 75f., 106f., llOf., 135, 142 Kannada, 37 Katalanisch, 22, 122, 167, 170,175 Keating, Patricia, 147 Khmer, 50 Kinyarwanda, 120 Kiparsky, Paul, 63, 200 Kirundi, 120 Kleinhenz, Ursula, 52-54 Klopstock, Friedrich, 6 Koartikulation, 33, 37f., 160 Köhler, Klaus, 17f„ 124f„ 171 Kolumnarität, s. Akzentposition, kolumnare Kontextualisierung, 40 Kontrastakzent, s. Akzent, kontrastiver Kontrastivität, 41, 115, 116-129, 131, 145, 151, 184 Koreanisch, 2, 12f„ 9 5 , 1 4 6 f „ 165, 172f. Kulminativität, 68,77, 93, 120, 135 Kurylowicz, Jerzy, 194-196, 198f. Ladd, D. Robert, 60, 85, 92, 118, 152 Ladefoged, Peter, 42f„ 87,116, 123f. Längung emphatische, 146 finale, 25f., 33, 125, 128, 132, 135, 140, 146, 153, 161, 164, 168, 185, 191, 208 initiale, 147 Lahiri, Aditi, 74, 110 Lallphase, 184f. lapse, 59, 65f., 106, 111, 162 Latein, 4,127, 131, 156f„ 161 Laver, John, 31f„ 48f., 99, 121, 123f., 172 leader-timing, 26 Lehiste, Ilse, 14f„ 32, 37f., 88, 93, 124, 201 Levy, Jirí, 198, 203 level of scansion, 60 Liaison, 53, 138, 208 Liberman, Mark, 58-60, 108, 110, 152, 209 Lieb, Hans-Heinrich, 94, 97 Litauisch, 112 Lötz, John, 193f., 197f., 203

Malaiisch, 13, 87,123, 168, 189 Mangarayi, 28 Markiertheit, 75f., 107, 109,112, 142, 183f. Martin, Philippe, 139f. Maximal Tree Construction, 68 Maxime der natürlichen Versifikation, 195, 203 Meigret, Louis, 4f. Meschonnic, Henri, 82, 85 Metrici, 201, 206 Metrik, poetologische, 4, 56, 62f„ 86f., 104, 108f., 111,193-208 Metrische Phonologie, If., 58-80, 84,103-114, 130, 138, 144, 157, 160, 181, 183, 186f., 192, 200, 209 metrum, 3 Minimal paar akzentuelles, 163 Minimalpaar, akzentuelles, 150f., 154 Mixe, 124 Mordwinisch, 93, 107,203 More, 28-31, 38, 55, 72, 78, 89, 106-108, 129f., 136, 172-174, 180, 200f. Morenzählung, 12, 35, 49, 89, 132-136, 160, 169f„ 190, 205f. Moritz, Karl Philipp, 6 Moφhophonologie, 47, 85, 154, 163,183 Müller, Frank, 56f„ 130 musical prosodists, 7, 14, 80, 130 Muskogeanisch, 128 Nama, 52 Nebenakzent, 15, 23, 48f., 53, 69f., 96, 97, 109, 136, 155, 158, 163f. Neugriechisch, 27, 44f. Niederländisch, 18, 54, 95, 98, 107, 122, 167, 174-176, 179f„ 186 Norwegisch, 19 numerus, 3 Nyambo, 31 Ojibwa, 71 Opitz, Martin, 6, 200 Optimalitätstheorie, 74-77, 115, 139, 141f., 144, 183f., 194-196, 200f. P(erceptual) center, 38 periodicity bias, 181 Perzeption, 37-39, 98,100, 104, 174-176, 183 Phrase, phonologische, 21,53f., 126,128,138, 140, 147

248 Phrase Edge Prominence, 151 Pike, Kenneth L., 10f., 20, 87f., 91, 119, 209 pitch-accent-first-Theoñe, 65, 80, 123 Platon, 3, 81, 90 Polnisch, 19, 63, 122,127, 167,169f., 203 Ponapeanisch, 31, 206 Portugiesisch, 185 brasilianisches, 22, 87,170, 189 europäisches, 22, 54,170 Positional Maximization, 148 primary-accent-first-Theoúe, 70, 80 Prince, Alan, 58-60,74,86,105-108,110,152, 183, 209 Prominenz, 11, 59, 92, 93-95, 98, 102, 109, 120, 124, 132 Prosodische Morphologie, 86 Prosodische Phonologie, 54, 138 Quantität, 35, 44, 46-49, 74, 88f., 118, 123f., 127-132, 135f., 144f., 147, 153, 159, 169, 175f„ 188,190, 192 Quintilian, 3, 80 Ramus, Franck, 167f., 170, 180 Rapp, K. Moritz, 127, 132, 210 re-accenting, 95, 122, 158 Recoverability Condition, 71 Reduktion, 100-102, 148f., 151,189 Reduktionsvokal, s. Vokalreduktion Reich, Uli, 53f. Rhythmici, 201 Rhythmische Kontur, 1, 20, 49, 60f., 64, 72, 79, 83, 84, 90f., 102, 106, 113f., 119, 128 Rhythmizität, 1, 8, 16, 27, 33, 37f., 40, 55f., 63, 79, 83, 84f„ 90, 114, 130, 196, 209 Rhythm Rule, 59-61, 63, 139,152, 158 Rhythmus alternierender, 2,132,156-164,165,190, 210 morenbasierter, 2, 132-136, 165, 173, 174f., 190-192, 201, 205f., 209 phrasenbasierter, 2, 132, 137-147, 165, 191,209 prominenzbasierter, 2, 132, 148-156, 165, 171, 190-192, 210 Rhythmusgesetz, 133 Riad, Tomas, 115, 194f., 200 Roach, Peter, 13, 38,91

Rumänisch, 162,167 Russisch, 2, 11, 19, 78, 96, 112, 127f„ 154156, 170, 178, 190f. Sandhi, 47,52f., 160, 208 Sanskrit, 112 Sapir, Edward, 129,193 S aran, Franz, 8,94 Satzakzent, 2, 10, 66, 94f„ 97, 122, 124, 136, 153-155, 164 Saussure, Ferdinand de, 8f. Schlegel, August Wilhelm, 90, 139 Schottelius, Justus Georg, 6, 205 Schottisches Gälisch, 124 Schwedisch, 18f., 27, 33, 98,122,192f. segment-timing, 20, 34,77 Segmentation, 174-176, 180f. Selkirk, Elizabeth, 54, 60, 64-67, 77, 95, 109, 111, 123,126, 129, 149,151, 156 Shipibo, 31 Sievers, Eduard, 8, 117 Silbe, 3-5, 33, 54f„ 58, 67, 89, 109, 116, 117, 129, 173f., 180, 200 katalektische, 109 Silbengewicht, 45, 69f„ 72f„ 88, 97, 106f., 112, 120,130, 150, 157, 160 Silbengrenze, 45-47, 117 Silbenschnitt, 117f., 153 Silbensprache, 52 Silbenstruktur, 42-45, 47f., 51, 75, 88f„ 129, 133, 148, 167, 170, 180 Silbenzählung, 1 lf., 12f., 20-23,24,25-28,3537,43-55,67,77,86-91,114,132f., 157f., 167, 169-170, 172, 185f., 186, 191, 193, in der Metrik, 198f., 202-206 Skolt-Samisch, 128 Somali, 31,120, 205 Sonorität, 106f., 117 Sora, 50 Spanisch, 2, 11, 20-22, 29, 33, 42f., 53, 77f., 95, 125, 133, 162-164, 167, 169f„ 172f„ 175, 179f., 185f., 190 speech cycling, 171 f. Spracherwerb, 125, 177-191 Sprachtechnologie, 168 Sprachunterscheidung, 41, 168-171, 179 Sprecherwechsel, 40f. Sprechstil, 19,22,27, 87, 143, 147, 168 kindadressierter, 178

249 Sprechtempo, 14, 17, 24, 27, 32, 40, 51, 66, 124, 168, 178 Stampe, David, 49f. Steele, Sir Joshua, 7,130 Stetson, Raymond H„ 8,83 Stottern, 173 Strangert, Eva, 18,135 stress-timing, s. Akzentzählung stress clash, 59, 76, 111, 142 strict layering, 54 syllable-timing, s. Silbenzählung Synchronisation, interaktionale, 40f. Takt, 7,14, 34, 36f., 67, 171, 189, 198,201 musikalischer, 104, 111 pausierter, 39, 66,99 Tamang, 52 Tamilisch, 27, 31, 168,205 Telugu, 11,27, 169 Thai, 42,129, 168,189 Thomson, William, 7f. timing tier, 131 Tokelauanisch, 206 Ton, 44, 47f., 51, 53, 85, 89, 119-121, 124, 129, 147, 188 trailer-timing, 26 Treue, 75, 161, 183f. Trier, Jost, 9 Trochäus, 50f., 72, 74, 103-106, 109f., 112, 152, 163, 181, 186-188, 194 generalisierter, 160 gewichtssensitiver, 73 moraischer, 72f. quantitätssensitiver, 135 syllabischer, 72f., 160 trochaic bias, 186-188 Trubetzkoy, Nikolas S., 12, 28, 52, 68, 97, 123f. Tschechisch, 100,128,176, 186, 198 Tsur, Reuven, 199, 203 Türkisch, 122, 159f. Uhmann, Susanne, 10,45-47, 82f., 113f., 169 Ungarisch, 27, 100, 128, 131, 185 Variation, rhythmische, 12f„ 66, 84, 87, 142, 168 im Deutschen, 18 im Englischen, 12 im Französischen, 143 im Italienischen, 25

im Koreanischen, 12f., 146 im Malaiischen, 13, 87 im Spanischen, 21 Vennemann, Theo, 42, 53, 58, 69, 94, 97, 107, 117f„ 123,129,148-150, 153, 157, 193,195, 203, 210 Verfußung, 15, 53, 69f., 74, 77, 103f., 106, 111, 186 Vers, freier, 197 Versprecher, 15, 172 Vokalharmonie, 45-47,101, 149, 176 Vokalreduktion, 24,42f., 45-48, 53, lOOf., 176 Voss, Johann Heinrich, 7 Walisisch, 167, 203 Wartburg, Walter von, 137, 156,162 weak local parsing, 110 Weight-to-Stress, 105 weight tier, 131 Westgrönländisch, 2, 31,136, 165 Winnebago, 69 Wort, phonologisches, 52-55,78, 95, 200 Wortakzent, 10, 22, 36, 43f., 47f., 52, 68, 70, 79, 89, 92-97, 107, 109, 121, 124, 131, 154, 163 Wortsprache, 52 !Xóò, 52 χ tier, 131 Yavapai, 124 Yidiny, 74, 106 Yoruba, 11,27,31, 169, 205 Zäsur, 193, 203f„ 207f. Zweitspracherwerb, 188-191