Silbenschnitt und Tonakzente [Reprint 2012 ed.] 9783110916447, 9783484304635

This collection of articles deals with phonetic and phonological aspects of the prosodic concepts 'syllable cut

281 18 11MB

German Pages 300 Year 2002

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Introduction: Syllable cut and tonal accents. Two ‘exceptional prosodies’ of Germanic and some thoughts on their mutual relationship
Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur
Normierung der Silbenquantität. Ein typologischer Beitrag zur Charakteristik des Silbenschnitts in und außerhalb der Germania
Silbenstruktur und Silbenschnitt
Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart
Syllable cut prosody in Early Modern English. John Hart’s testimony
Articulatory analysis of the German vowel system
Spectral balance in German and its relevance for syllable cut theory
Ein akustisches Korrelat des Silbenschnitts: Formen des Intensitätsverlaufs in Silbenschnitt- und Tonakzentsprachen
Die sprachhistorische Genese der mittelfränkischen Tonakzente
Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung
Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene. Evidenz aus dem Luxemburgischen
Are tonal accents and syllable structure related in Norwegian and Swedish?
Autorenverzeichnis
Recommend Papers

Silbenschnitt und Tonakzente [Reprint 2012 ed.]
 9783110916447, 9783484304635

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Linguistische Arbeiten

463

Herausgegeben von Hans Altmann, Peter Blumenthal, Hans Jürgen Heringer, Ingo Plag, Heinz Vater und Richard Wiese

Silbenschnitt und Tonakzente Herausgegeben von Peter Auer, Peter Gilles und Helmut Spiekermann

Max Niemeyer Verlag Tübingen 2002

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Silbenschnitt und Tonakzente / hrsg. von Peter A u e r . . . . - Tübingen : Niemeyer, 2002 (Linguistische A r b e i t e n ; 463) ISBN 3-484-30463-4

ISSN 0344-6727

© M a x Niemeyer Verlag G m b H , Tübingen 2002 D a s Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Z u s t i m m u n g des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. G e d r u c k t auf alterungsbeständigem Papier. Druck: Weihert-Druck G m b H , D a r m s t a d t Einband: Industriebuchbinderei Nadele, Nehren

Inhalt

Peter Auer/Peter Gilles/Helmut Spiekermann Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic and some thoughts on their mutual relationship

1

Utz Maas Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

11

David Restle Normierung der Silbenquantität. Ein typologischer Beitrag zur Charakteristik des Silbenschnitts in und außerhalb der Germania

35

Jürgen Lenerz Silbenstruktur und Silbenschnitt

67

Thomas Becker Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

87

Robert W. Murray Syllable cut prosody in Early Modern English. John Hart's testimony

103

Philip Hoole/Christine Mooshammer Articulatory analysis of the German vowel system

129

Michael Jessen Spectral balance in German and its relevance for syllable cut theory

153

Helmut Spiekermann Ein akustisches Korrelat des Silbenschnitts: Formen des Intensitätsverlaufs in Silbenschnitt- und Tonakzentsprachen

181

Jürgen Erich Schmidt Die sprachhistorische Genese der mittelfränkischen Tonakzente

201

Arend Mihm Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung....

235

Peter Gilles Einflüsse der Rheinischen Akzentuierung auf die segmentelle Ebene. Evidenz aus dem Luxemburgischen

265

VI Gjert Kristoffersen Are tonal accents and syllable structure related in Norwegian and Swedish?

283

Autorenverzeichnis

293

Peter Auer/Peter

Gilles/Helmut

Spiekermann

Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic and some thoughts on their mutual relationship*

Despite their relative prominence in international phonological and phonetic research, the Germanic languages display a number of relatively marked features which are by no means the prevalent options chosen by the majority of languages. Some of them, particularly those linked to the stress-timed character of most Germanic languages, and those concerning the - typically complex - interface between phonology and morphology, have received a great deal of attention in the literature. The two prosodic "correlations" (to use Trubetzkoy's terminology for phonemic distinctions) with which this book is concerned are, however, not among them. Tonal accent systems in Germanic (unlike the more wide-spread tone systems) assign tones to only one tone-bearing unit within the phonological word, this tone-bearing unit always being the accent syllable (or, more precisely, according to most analyses, a mora position in a two-moraic accent syllable). This phonological information translates phonetically into an fO contour which spans the whole word, leading to a steeper and faster fall (or rise) of fO in the one accent type (usually 'accent 1') and a more level or complex contour with a later fall or rise in the other (usually 'accent 2'). For some varieties, tonal accents are not only realized by a distinctive fl) movement but may be accompanied by specific duration and energy features. In essence, what is usually called 'accent 2' exhibits greater duration than accent 1. This combination of various phonetic exponents makes it clear that we are dealing with a true and complex prosodic feature. The occurrence of tonal accents is heavily restricted by phonological context, i.e. a heavy (bi-moraic) accented syllable is needed in which the second mora is vocalic or a sonorant; in the Nordic languages, there is a further restriction to bisyllabic words. In addition, the phonological load of the tonal accents is comparatively low; there are relatively few minimal pairs. Although they do occur in other Indo-European (Serbo-Croatian, Latvian, Old Greek) and non-Indo-European languages (Japanese) as well, tonal accents are particularly widespread in North and West Germanic (with the exception of English), where, however, they appear to be a relatively recent phenomenon of language history. They are found in many dialects and in the standard varieties of Norwegian and Swedish (but not in Finland Swedish), and in some dialects of Danish (but not in the standard variety, which has a phonologiAn dieser Stelle möchten wir allen, die am Zustandekommen dieses Buches mitgewirkt haben, herzlich danken, insbesondere Sebastian Kürschner, Christine Mertzlufft, Tobias Streck, Jessica Wallace und Benjamin Stoltenburg für ihre Mithilfe bei der Erstellung der Druckfassung und den Herausgebern der "Linguistischen Arbeiten" für die Aufnahme des Bandes in ihre Reihe. Nicht zuletzt danken wir der Fritz Thyssen Stiftung, die es uns ermöglicht hat, im Mai 2000 in Freiburg ein Kolloquium zum Thema "Silbenschnitt und Tonakzente" durchzuführen. Die dort gehaltenen Vorträge sind zum großen Teil im vorliegenden Sammelband aufgegangen.

2

Peter Auer/Peter Gilles/Helmut Spiekermann

cal 'relative', i.e. a stad system, instead); however, they are absent in the more archaic phonology of Icelandic. The North Germanic tonal accents have been subject to a number of studies in the framework autosegmental phonology over the last decades, both historical and synchronic (cf., among others, Riad 1998, Kristofferson 2000 and in this volume). We also have a good knowledge of their phonetic realisations (c.f., e.g., Bruce 1977). The same cannot be said, however, of the West Germanic tonal accent systems which occur(ed) in a large area of Middle (and Low) Franconian (in Germany, The Netherlands, Belgium, Luxembourg, Lorraine in France; cf. the map in Schmidt's contribution to this volume). The relative scarcity of phonetic and phonological (particularly synchronic) descriptions may be due in part to the fact that in this area, the tonal accents, which are not supported by the respective standard languages (German, Luxemburgish, and Dutch), are partly retreating. In some areas they are in a state of dissolution and erosion to merely phonetic relics, which means that it is more difficult to get a clear picture of the empirical facts (cf. Gilles in this volume). Research has mainly been concerned with the origin of the tonal accents (cf. de Vaan 1998, Gussenhoven 2000, Schmidt in this volume), but there are also phonetic studies on their realisation as well as on their regional distribution (cf. Heike 1962, Jongen 1979, Schmidt 1986). In a way, tonal accents may be regarded as the Germanic solution to the problem of how to exploit both stress and pitch in phonologically meaningful ways. In prosodic systems which make a strong distinction between stressed and non-stressed syllables, it can be expected that the stressed syllable carries more phonemic information than the non-stressed syllables in a word. It is in line with this condensation of phonological information in the accent syllable that tonal accents are anchored in (some part of) the stressed syllable. On the other hand, since the ictus position is usually realised not only by an increase in intensity (and length), but also by pitch protrusion, there is a kind of over-exploitation of this phonetic resource involved in stress-timed tonal accent languages, since pitch protrusion as part of the default accentuation is additionally influenced by the need for maintaning a tonal contrast. Moreover, these complex tonal configurations are also influenced by the global intonation contour of the sentence. In current autosegmental phonological accounts, sentence intonation and word-based tonal accents are usually separated by analysing accent 2 as consisting primarily of a lexical tone which depends on the language/dialect and global intonation contour whether high or low, whereas accent 1 is lacking such a lexical tone. Due to sentence intonation, then, an additional focus or prominence tone is added to the phonological representation which follows the lexical tone (cf. Gussenhoven 2000, Kristoffersen 2000 and in this volume). What would be the reason for which the varieties in question have nonetheless chosen this option? The general assumption is that the emergence of the tonal accent correlation must be linked to some kind of change in word and syllable structure, i.e. that it was triggered by a change in another part of the phonological structure. In the North Germanic languages, this was the inclusion of the enclitic article into monosyllabic words which, however, failed to adopt tonal accent (2) as all bisyllabics had done up to that point. As a consequence, bisyllabics with tonal accent 2 (=the older words) and those with accent 1 (=the newly formed enclitic words) came to stand in opposition. In the Franconican dialects, it is generally believed that apocope of final schwa syllables led to new syllable structures since formerly open syllables were now closed by an unvoiced consonant (but cf. Mihm, this volume, who rejects this explanation on chronological grounds). In order to

Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic

3

maintain the contrast, a previously phonetic prosodic difference, the exact nature of which we do not know, became phonemicised. Thus, in both cases, the introduction of a pitch difference into the phonological system of the varieties in question compensated for some other process, which had let to an increase of homonyms. But given the fact that apocope was much widespread in West Germanic, this explanation leaves the question open as to why this solution was not used by other dialects as well, and why it was tonal accents which were introduced rather than another prosodic features such as Danish sted or the three-way quantity system we find in some few Low German dialects. In this volume, the debate on the origin of the Franconian tonal accent systems is continued by two contributions which at the same time reflect the methodological problems that characterise this field. During the last century, the dominant methodology was reconstructive, i.e. based on the distribution of the tonal accents in the modern (i.e., traditional, early 20th century) dialects as they are described by dialectologists. This method is used by J.E. Schmidt (in this volume). Alternatively, tonal accents may be reconstructed from the written sources of the time, as done by Arend Mihm (this volume). He argues from the distribution of the digraphs vs. in a Ripuarian text of the 16th century that the decisive context for accent ('Tonakzent') 1 vs. accent 2 was syllable structure (open vs. closed); syllable structure, in turn, was affected by the German Sound Shift which produced geminate fricatives /ss/, /ff/ which were able to close syllables open in the pre-sound shift period. The analysis rests on the assumption that the digraphs mentioned above are not just alternative ways of indicating length (as usually believed) but additionally express tonal accents, for which Mihm offers good reasons. Schmidt and Mihm not only differ in their methodology, they also differ in the chronological age they claim for phonemically relevant tonal systems in West Germanic (which is significantly higher for Mihm than for Schmidt); and they disagree on the phonological environments thought to be involved. Mihm questions the usual distinction between 'high' vowels which contextually induced prosodic/tonal differences, and 'low' vowels which are supposed to show accent 1 'spontaneously'. Instead, he starts with the assumption of a general, contextually induced distinction between accent 1 and 2 on the basis of syllable structure. Furthermore, he does accept apocope to be the 'trigger' for tonogenesis (since it only occurred in the 16th century in the area whereas he places the tonal accents in the 12 century). The second somewhat 'exotic' prosodic phenomenon which is widespread in the accent syllables of the Germanic languages is the syllable cut correlation. In Germanic philology until the mid-20th century, and particularly in the works of Edvard Sievers, Otto Jespersen and Nikolai S. Trubetzkoy (see the overview in Restle 1998, Spiekermann 2000), it was an established fact that what is phonemic in the accent syllables at least in West Germanic varieties such as std. German, Dutch and possibly English is not a vocalic length contrast (long vs. short vowels), nor a qualitative contrast such as tense/lax, but rather a 'suprasegmental' one, prosodic features which refer to the way in which nuclear vowels and subsequent consonants are linked to each other. In the somewhat metaphorical descriptions of the time, it was thought that under 'smooth cut', the vowel is produced as if it stood on its own (i.e., in open syllable), while in the marked case of an 'abrupt cut' it is inseparably attached to the consonant which 'cuts it off midway. This theory, although intuitively appealing to many and in accordance with pre-phonological descriptions of the Germanic languages (see e.g. Murray, this volume, for John Hart, an English writer of the 16th cen-

4

Peter Auer/Peter Gilles/Helmut Spiekermann

tury), fell into disrepute during the 20th century, since the burgeoning science of phonetics had not been able to find an acoustic correlate. However, since Vennemans's reappraisal in the 90s of the last century (cf. Vennemann 1990), syllable cut theory has experienced a powerful renaissance and is nowadays considered by many to be superior to segmental approaches to the vowel system at least of Standard German (see Maas 1999 and this volume, Becker 1998 and this volume, Restle 1998 and this volume). Whether the syllable cut opposition must be restricted to the accent syllable of a word is disputed. While some phonologists (among them Trubetzkoy 1939 [1962:196] and Vennemann 1990) believe that non-accented syllables, depending on syllable structure, can have smooth and abrupt cut as well, others such as Becker 1998 and Maas 1999 point out that the distinction is fragile (cf. variation of the type [zekre' t e : B] VS. [zekie ' t c : E]) and seems to be phonetic rather than phonological (there are hardly any minimal pairs; putative examples such as Schampus 'Champagne' ['Jampus] vs. Shampoo+s 'shampoo PL.' ['jampus] (from Maas 1999) can also be handled by the phonology/morphology interface). The small functional load carried by the syllable cut correlation in non-accented syllables as compared to accented syllables should not come as a surprise though; as already pointed out above, the Germanic stress syllable is not only phonetically but also phonologically prominent. Phonemic distinctions which are relevant in this position may not be relevant (i.e., may be neutralised) in non-stressed syllables, but not vice versa. It seems plausible to assume then that syllable cut is a phonetic distinction which has become phonemic in some languages (such as German or Dutch) in those positions where it ought to: this is, mainly in the stressed syllables. Non-stressed syllables display the phonetic distinction as well but have not or only marginally phonemisized it. In several ways, syllable cut is a more explanatory concept than vowel quantity and/or the feature [±tense], both of which are better seen as its possible but not necessary phonetic surface exponents (i.e., they can but need not show up in certain phonological environments and in certain varieties). Synchronically, syllable cut explains for instance why vowels in open syllables are always [+tense] and in the accent position also [+long] - there is no consonant available which could 'cut them o f f (many more phonological arguments for syllable cut are listed in Becker's contribution to this volume). Historically, in the scenario given by Vennemann (1995) for German and Murray (2000) for English, syllable cut is the new organisational design the phonologies of these languages took on when their quantity systems collapsed (also cf. Maas 1999:206ff). Since consonantal quantity was lost, a phonetic feature originally concomitant of geminates after short vowels (those after long vowels had disappeared long before), i.e. abrupt cut, took over the signalling load; and since only heavy syllables (branching rhymes) are permitted in the Germanic languages according to Prokosch' Law (cf. Auer 1989), this made it possible for the trochaic structures of the type ...'VCV... (..,'VCCV...) to survive (and not to collapse with ..,'VVCV...) in the form of ambisyllabicity. Tonal accents can easily be handled within autosegmental phonology (and indeed, the multi-tiered approaches to tone developed on the basis of classical tone languages invited a transfer to tonal accents, which may be in part responsible for the increased interest in this phonological phenomenon during the last decades). For syllable cut, this does not hold, and the skepticism expressed by phonologists of German who do not share the new enthusiasm for it (cf. Lenerz 2000 and in this volume) is not in the least provoked by the difficulties one encounters when trying to incorporate it into the more usual syllable skeletons. In fact,

Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic

5

some authors (such as Vennemann 1991, Maas this volume, Restle 1998 and this volume) have chosen graphical representations (Vennemann's crescendo, ''; Maas' spiral model or Restle's theory of oscillating syllables ('Oszillations-silbentheorie')) which are clearly at odds with the usual hierarchical/constituent models of the syllable. It seems only consequential that Maas (1999) introduces diacritics ('—*' and ' J ' ) added on to the usual tree-like or linear representations in order to indicate that a completely independent prosodic dimension is in play which cannot be reduced to the usual syllable geometry. For him, 'agglutinating' constituent structure models of the syllable are only suited for quantity languages, while 'fusional' syllables (such as in German or Moroccan Arabic) need fundamentally different representations. Other authors (notably Becker 1996, 1998) have incorporated syllable cut into constituent structure models of the syllable by introducing a so-called implosion position dominated by the syllable nucleus node. The ongoing discussion between the proponents of syllable cut and their critics is documented in this volume through the contributions by Becker, Maas and Restle (who take the pro position) and Lenerz (who takes the con position). Lenerz himself (also cf. Lenerz 2000) has suggested basing the description of the German vowels on traditional features of syllable structure. In this way, syllable cut can be deduced from the facts contained in the usual autosegmental description of the German syllable: closed syllables lead to abrupt cut (and its correlates such as laxness and shortness), open syllables to smooth cut (partly long and tense vowels). Of course, there are many exceptions to this regularity in standard German (mainly in monosyllabic words such as Mo(:)nd 'moon', gu(:)t 'good', but also in disyllabics such as Pu(:)ste 'breath [coll.]'), which have - at least on the surface - a closed syllable but a long vowel (and therefore smooth cut). Here, Lenerz has to assume 'extrasyllabic' coda consonants. Standard German thus is far from representing the postulated regularity in a strict way, although the statistical tendency for short (lax) vowels to occur in closed syllables and for long (tense) vowels to occur in open syllables is undisputable. There are other varieties in which it is even easier to deduce syllable cut by an algorithm based on simple syllable geometry; particularly, there are varieties in which there is a strict correlation between syllable cut in a stressed syllable and the number and type of consonants following its vowel. Examples are Norwegian or Bavarian (Pfalz' Law; cf. Auer 1989).1 Such a predictable syllable cut would be phonetic only, unless, of course, we were able to argue for the inverse, i.e. that the constituent structure of the syllable is determined by syllable cut.2 One of the big stumbling blocks for syllable cut theory used to be the absence of any convincing phonetic evidence. Three papers in this volume address this question, two (Jessen and Spiekermann) concentrating on acoustic, one (Hoole/Mooshammer) on articulatory properties of the vowel opposition in German. The contribution of Hoole and Mooshammer deals with the results of kinematic investigations on the articulatory difference of lax and

2

In Norwegian, short vowels are followed by geminates or consonant clusters, long vowels by simple consonants, in Bavarian, short vowels are followed by consonant clusters or a fortis consonant and long vowels by a simple lenis consonant (cf. Bav. [jokiret:] or [jo:giret] for std. German Joghurt [jogiret]). Some linguists believe that the Bavarian fortis consonants can be analysed as underlying geminates (cf. [pe:da] 'Peter' vs. [dogetabe.'da] - /dogeddabe:da/ da geht der Peter 'there goes Peter'). Some evidence for such a reinterpretation could be seen in spontaneous gemination under abrupt cut in some German dialects such as Ripuarian.

6

Peter Auer/Peter Gilles/Helmut Spiekermann

tense vowels. They found differences in the number of acceleration-peaks (one peak for lax, two for tense vowels) which they related to abrupt and smooth syllable cut. Spiekermann proposes in his paper an acoustic correlate for syllable cut based on intensity. He argues that specific shapes of intensity-curves of a vowel constitute the difference between abrupt and smooth syllable cut, particularly the number of intensity-peaks, the place of a single intensity-peak within vowels and the way in which the intensity curve moves up towards a peak or falls down after it. In contrast to Spiekermann, Jessen does not measure the overall signal amplitude over time but the amplitude of the second and third formant in relation to the first harmonic ('spectral ballace', cf. Sluijter 1995) to get to more straightforward results. Breathy or slack voice quality was found for smoothly cut vowels while abruptly cut vowels were produced with more energy which Jessen relates to 'loudness'. Nevertheless, it is still uncertain whether spectral balance is a possible correlate of syllable cut. For instance, Jessen found differences in spectral balance between smooth and abrupt cut for all vowels except for /a/, while Spiekermann found for Α-vowels the same or even stronger differences for abrupt and smooth cut than for other vowels. As Α-vowels are the only ones in German that also do not show quality differences, spectral balance appears to be a correlate of quality rather than of syllable cut. Despite this progress, there is a clear lack of phonological criteria by which to identify a syllable cut language, and it is unclear whether syllable cut and quantity should be construed as two mutually exclusive concepts. The problem already shines up in the Nordic languages Swedish and Norwegian which clearly have a quantity system and still are classified as syllable cut languages by Trubetzkoy (1939 [1962:197]) and Kristoffersen (this volume). It becomes even more pertinent when non-Germanic or even non-Indoeuropean languages are considered. Two attempts to widen the empirical scope in such a way are included in this volume. Maas argues that Moroccan Arabic and Berber are syllable-cut languages, Restle argues that Makasar (Indonesia, Sulawesi) is an example for a language that has developed a syllable cut system that did not result from a collapsed quantity system. At the present state of research, it is hard to tell if such an extension of the concept of syllable cut, which has been developed for the phonologies of the Germanic languages and takes a number of their design features for granted, is merely metaphorical or rather capable of defining a phonological type independent of genetic classification. Is it possible to speak of syllable cut in a language in which there is no dynamic accent? Has Prokosch's Law to hold for a syllable cut language? Do we need laxness/tenseness as a phonetic cue for syllable cut? Can syllable cut be specified for each syllable independently? Can languages with consonant quantity systems be reanalysed as syllable cut languages? As a lower threshold, it would seem that there can be no syllable cut distinction in a language which has only open syllables (be it a (vowel) quantity language or not). As an upper threshold, it would seem that a classical quantity language (such as Finnish), in which both consonants and vowels can be short or long, cannot be a syllable cut language, since the combination of long vowels and long consonants cannot translate into a syllable cut opposition. Less clear are instances of languages which are usually classified as quantity languages but which only distinguish quantity either in the vowel or in the consonant system; in this case, there is room for reinterpreting the quantity distinction in terms of syllable cut. This has been done for German in the case of vowel quantity, and Restle (this volume) suggests that it can also be done for std. Italian, a language which allows syllable closure by geminates which contrast with

Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic

7

open syllables (type posa 'pose' vs. possa 'power'). What evidence would be needed to argue for or against such a reinterpretation? Maas (this volume) classifies Moroccan Arabic as a syllable cut language on the basis of the observation that schwa has to be followed by a consonant (i.e. it can only occur under abrupt cut), and that the non-schwa (peripheral) vowels only occur under smooth cut (long peripheral vowels occur in closed syllables, while short peripheral vowels can occur in open syllables). This analysis (which links syllable cut to the peripherality of the preceding vowel) certainly differs from the one we find in the Germanic languages. (Note that Moroccan Arabic also has features of a quantity language since consonants can be geminates or simple.) In this context, Hopi should be mentioned which is classifed as a syllable cut language by Trubetzkoy (1939 [1962:197]) because it distinguishes quantity ([±long]) and in the short vowels additionally smooth and abrupt cut. In Vennemann (1994) the phonological regularities of Hopi are described as syllable cut phenomena within a universal theory of phonology. Similarly, the Otomanguean languages, particularly Chinantec and Amuzgo (Rensch 1978 based on Bauernschmidt 1965) are said to have a phonemic system of "syllable dynamics" which may be closely related or identical to the syllable cut correlation: accented syllables are either "controlled" (Rensch 1978:87f) and then have (in Amuzgo) a "smooth, sustained release which continues to a peak of intensity about the midpoint of the syllable nucleus and is followed by a gradual, controlled decay" (which could be equated with smooth cut) or they are "ballistic" (Rensch 1978:88) and then have a "quick, forceful release and a rapic crescendo to a peak of intensity early in the nucleus, followed by a rapid, uncontrolled decrescendo with face of voicing" (which may be read as abrupt cut). However, ballistic (abruptly cut) syllables cannot end in a stop (Chimantec only allows CVsyllables) but must end in "aspiration". It is clear that this system shows some phonetic similarities with the (metaphorical) description of the Germanic syllable cut; the tendency for ballistic syllables in Amuzgo to be shortened also supports the parallel. Phonologically speaking, however, there are also major differences such as the co-occurrence of this phonemic opposition with vowel quantity (and tone). Including Chimantec (as well as Hopi) among the syllable cut languages would therefore require not to construe quantity languages and syllable cut languages as mutually exclusive categories. In the remainder of this introduction, we would like to comment briefly on the relationship between syllable cut and tonal accents. The discussion is tentative, not in the least because a clear operational definition of syllable cut is lacking, and as a consequence, the classification of a language or variety as displaying syllable cut is sometimes difficult. It should also be kept in mind that the prosodic make-up of a standard variety (e.g. Standard German) may not be the same as that of its dialects (cf. Spiekermann 2000 for empirical evidence). The zero hypothesis is of course that there is no correlation between the two, which means, that the two prosodies combine freely and without any restriction. This is for instance the position taken by Kristoffersen (this volume) who argues that Norwegian and Swedish are syllable cut languages and at the same time have tonal accents, but that the cooccurrence of the two is a mere matter of chance. Spiekermann (this volume) also presents some preliminary phonetic results which suggest that Middle Franconian dialects with tonal contrasts nevertheless show differences in energy distribution between long and short vowels which point towards a syllable cut distinction. More interesting from a theoretical per-

δ

Peter Auer/Peter

Gilles/Helmut

Spiekermann

spective are three alternative hypotheses: (a) syllable cut and tonal accents are positively correlated, i.e. they co-occur not by chance but by necessity (or are fundamentally the same phenomenon); (b) syllable cut and tonal accents are negatively correlated, i.e. they cannot or at least do not tend to co-occur because they systematically contradict each other; (c) syllable cut and tonal accents are indirectly related, since their origin is due to the same third phenomenon, i.e. the loss of the old quantity system. Hypothesis (a): positive correlation. In the context of this hypothesis, one has to remember that in parts of the early literature, the same terminology was used for both phenomena, i.e., tonal accent 1 was called "scharfer Schnitt" and tonal accent 2 was called "sanfter Schnitt" (cf. Engelmann 1910). And indeed, there is some phonetic resemblance, since both abruptly cut syllables and those carrying tonal accent 1 are characterised by an early and rapid decline of energy 3 and a rapid fO fall. There are also numerous indirect processes which suggest some kind of similarity between tonal accent 1 and abrupt cut. Gilles (this volume) presents a number of examples in which tonal accent 1 has disappeared from a variety of West Germanic but has left its traces on the segmental level. These traces always result in abrupt cut of the syllables; in particular, long vowels and diphthongs with accent 1 tend to become short vowels when the tonal accent system is lost. By contrast, syllables formerly carrying tonal accent 2 are not shortened. The transformation of an fO contrast into a segmental one is also visible in the Danish sted which occurs largely on the same lexical material which has accent 1 in Norwegian and Swedish. While these observations suggest that under loss of the tonal system tonal accent 1 will be reinterpreted as abrupt cut, while tonal accent 2 will be reinterpreted as smooth cut, it of course does not prove that the two can be equated (reduced to one phenomenon) in a phonological system in which they co-occur. Such a system would be highly divergent from the usual syllable cut system such as in standard German; while in the latter case, vowels traditionally called 'long' indicate smooth cut before a tautosyllabic consonant, and vowels traditionally called 'short' indicate abrupt cut under the same condition, a putative system in which accent 1 and abrupt cut are equated would group 'short' vowels and 'long' vowels/diphthongs together with accent 1. But such a grouping receives no support, whereas the grouping 'short' vs. 'long' is supported by the concomitant distribution of vowel tenseness, in the dialects with tonal accent systems just as in standard German. Hypothesis (b): negative correlation. This hypothesis presumably is the only one compatible with a position which construes quantity languages and syllable cut languages as being mutually exclusive. The reason is that tonal accents require a moraic basis (since they associate tone(s) with one of the two mora positions in a tone-carrying syllable, or with each mora separately, according to the position taken). Tonal accent languages therefore are moraic languages in Trubetzkoy's sense (also cf. Auer 1991), according to which the minimum requirement of a moraic language is the equation of VV = VC in the syllable rhyme. On the other hand, in a language which contrasts quantity neither in vowels nor consonants there are no VV-rhymes, and therefore no basis for calling it moraic. (In Trubetzkoy's terminology, such a language is a syllabic language.) The minimal units re3

This is clearly shown by Spiekermann (2000 and in this volume) who demonstrates on the basis of acoustic measurements that the fall comes early under abrupt cut and not late as suggested by the metaphorical idea of a syllable which is 'cut off by its coda consonant before it can reach natural completion.

Introduction: Syllable cut and tonal accents. Two 'exceptional prosodies' of Germanic

9

quired in a no-quantity language and that of a tonal accent language are therefore different. However, as already pointed out above, it is unclear whether the notion of syllable cut languages should be restricted in such a way. The restriction holds well for the most prototypical syllable cut languages German and Dutch, but it possibly already excludes Swedish and Norwegian (with syllable balance according to Pfalz' Law) and certainly excludes Hopi or Chimantec, or Moroccan Arabic. Hypothesis (c): the third hypothesis is the most tentative of all, but it is also a particularly attractive one. It starts with the observation that the emergence of the West Germanic tonal accent systems and the emergence of syllable cut systems in languages such as German and Dutch could have taken place at roughly the same period (late Middle Ages, transition from Middle High German to Early New High German). From this temporal fact one may go on to speculate that both are somehow connected to the collapse of the Germanic quantity system which also took place (or was coming to completion) at that period. That syllable cut is a solution to the problem of how to keep phonemic contrasts up in a language which has lost quantity distinctions in vowels and consonants is one of the basic assumptions of modern syllable cut research (cf. Becker 1998, Vennemann 1995, Maas 1999) which may even find some parallels outside the Germanic language group (cf. Maas, this volume, on Classical Arabic and Moroccan Arabic). The argument is more difficult to make for the emergence of the tonal accents in West Germanic, however. Some weak empirical evidence might be drawn from the fact that the Low German three-fold quantity systems (with short, long and overlong vowels) which - just as the tonal accent systems - are also said to have developed as a compensating mechanism after apocope, quickly disappeared from most dialects, and never seem to have been a serious alternative to tonal accent. A straightforward explanation would be that three-fold quantity systems are not compatible with syllable cut prosodies at all, and that Low German has already adopted such a system at the time. The evidence is only weak, however, since three-fold quantity systems are marked anyway and seem to be avoided for physiological reasons, as the differences of three quantities are difficult to perceive. More convincing evidence may be found by a closer look at open syllable lengthening (one of the processes that followed from the collapse of the quantity systems of West Germanic); but this is an area which still awaits detailed investigations.

References

Auer, Peter (1989): Some ways to count morae: Prokosch's Law, Streitberg's Law, Pfalz's Law, and other rhythmic regularities. - Linguistics 27, 1070-1102. - (1991): Zur More in der Phonologie. - In: Zeitschrift für Linguistik 10:11, 3-36. Bauernschmidt, Amy (1965): Amuzgo Syllable Dynamics. - In: Language 41, 471-483. Becker (1996): Zur Repräsentation der Vokallänge in der deutschen Standardsprache. - In: Zeitschrift für Sprachwissenschaft 15, 3-21. - (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt am Main: Peter Lang. Bruce, Gösta (1977): Swedish Word Accents in Sentence Perspective. - Lund: Gleerup. Engelmann, Rene (1910): Der Vokalismus der Viandener Mundart. - Diekirch.

10

Peter Auer/Peter Gilles/Helmut

Spiekermann

Gussenhoven, Carlos (2000): On the Origin and Development of the Central Franconia Tone Contrast. - In: A. Lahiri (Hg.): Analogy, Levelling, Markedness: Principles of Change in Phonology and Morphology. Berlin: Mouton de Gruyter, 215-260. Heike, Georg (1962): Suprasegmentale Merkmal der Stadtkölner Mundart. Ein Beitrag zur 'Rheinischen Schärfung'. - In: Phonetica 8, 147-165. Jongen, Rene (1972): Rheinische Akzentuierung und sonstige prosodische Erscheinungen. Eine Beschreibung der suprasegmentalen Zeichenformdiakrise in der Moresneter Mundart. - Bonn: Röhrscheidt (= Rheinisches Archiv 83). Kristoffersen, Gjert (2000): The Phonology of Norwegian. - Oxford: Oxford University Press. Lenerz, Jürgen (2000): Zur sogenannten Vokalopposition im Deutschen. - In: Zeitschrift für Sprachwissenschaft 19, 167-209. Murray, Robert (2000): Syllable Cut Prosody in Early Middle English. - In: Language 76, 617-654. Maas, Utz (1999): Phonologie: Einführung in die funktionale Phonetik des Deutschen. - Opladen, Wiesbaden: Westdeutscher Verlag. Rensch, Calvin R. (1978): Ballistic and Controlled Syllables in Ontomanguean Languages. In: A. Bell, J.B. Hooper (eds.): Syllables and Segments, 85-92. Amsterdam: North-Holland. Restle, David (1998): Silbenschnitt - Quantität - Kopplung: Zur Geschichte, typologischen Einordnung und Repräsentation der Anschlussprosodie unter dem Blickwinkel einer Oszillationssilbentheorie. - Diss. München. Riad, Thomas (1998): The Origin of Scandinavian Tone Accents. - In: Diachronica XV.l, 63-98. Schmidt, Jürgen Erich (1986): Die mittelfränkischen Tonakzente. (Rheinische Akzentuierung). Stuttgart: Steiner (= Mainzer Studien zur Sprach- und Volksforschung 8). Sluijter, Agaath M.C. (1995): Phonetic Correlates of Stress and Accent. - The Hague: Holland Academic Graphics. Spiekermann, Helmut (2000): Silbenschnitt in deutschen Dialekten. - Tübingen: Niemeyer (= Linguistische Arbeiten 425). Trubetzkoy, N.S. (1939): Grundzüge der Phonologie. Prag [Nachdruck Göttingen: Vandenhoeck & Ruprecht 6 1962], Vaan, Michiel de (1999): Towards an Explanation of the Franconian Tone Accents. - In: Amsterdamer Beiträge zur älteren Germanistik 51, 23-44. Vennemann, Theo (1990): Syllable Structure and Simplex Accent in Modern Standard German. - In: M. Ziolkowski et al. (eds.): Papers from the 26lh Meeting of the Chicago Linguistic Society. Vol. 22: The Parasession of the Syllable in Phonetics and Phonology, 399-412. Chicago: Chicago Linguistic Society. - (1991): Syllable Structure and Syllable Cut Prosodies in Modern Standard German. - In: Marco Bertinetto et al. (Hgg.): Certamen Phonologicum II. Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellier. - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Karl Heinz Ramers, Heinz Vater, Henning Wode (eds.): Universale phonologische Strukturen und Prozesse, 7-54. Tübingen: Niemeyer (= Linguistische Arbeiten 310). - (1995): Der Zusammenbruch der Quantität im Spätmittelalter und sein Einfluss auf die Metrik. In: H. Fix (Hg.): Quantitätsproblem und Metrik: Greifswalder Symposion zur germanischen Grammatik. Amsterdam/Atlanta, GA: Rodopi, 185-223.

Utz Maas

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

1. Einleitende Bemerkungen

Bis vor kurzem hatten Fragen des Silbenschnitts wie der Silbe allgemein in der theoretisch orientierten sprachwissenschaftlichen Diskussion einen haut goüt. Bei Ladefoged/Maddieson (1996:282) heißt es anstelle einer Definition der Silbe "The best that we can do is to suggest that syllables are necessary units in the organization and production of utterances".1 Jenseits konkreter empirischer Fragen besteht ein zentrales Problem der Silbentheorie darin, zwischen Strukturen, die mit der Sprachpraxis gelernt werden, und dabei genutzten physiologischen und kognitiven Ressourcen (und Beschränkungen) zu trennen. Die silbische Gliederung der Äußerung partizipiert an Strukturierungsprinzipien, die der Sprache vorgängig sind und die sich auch in der Kontrolle anderer motorischer Abläufe wie auch von Gestaltwahrnehmungen ausdrücken; aber diese sind überformt von spezifischen sprachlichen Strukturen, wie nicht zuletzt an deren typologischer Vielfalt abzulesen ist. Gerade auch die neuere 'nicht-lineare' Phonologie, die einen extensiven Gebrauch von der Silbenkategorie macht,2 zeigt eine Tendenz, diese Differenzierung mit einer abstrakten Begrifflichkeit zu verdrängen, die Gefahr läuft, nur noch metaphorisch zu sein.3 In diesem Beitrag geht es um sprachspezifische (gelernte) Strukturen: die der Silbe und die des Silbenschnitts, vor allem im Deutschen. Selbstverständlich muss deren Analyse in einem allgemeinen begrifflichen Rahmen erfolgen, letztlich in Hinblick auf die Möglichkeit, die phonologische Ausgliederung und Strukturierung der Silbe in der Sprachproduktion und -Wahrnehmung zu fundieren (Abschnitt 2-7). Da die Argumentation in einem typologischen Horizont erfolgt, soll die für das Deutsche in Abschnitt 8 ein Stück weit geklärte Kategorie des Silbenschnitts durch einen Vergleich mit den Silbenstrukturen des Marokkanischen verallgemeinert werden (Abschnitt 9-10). Abschnitt 11 deutet Perspektiven der weiteren Forschung an.

1 2 3

Letztlich ein Zitat aus dem einflussreichen Handbuch von Ladefoged 1982. Für einen Überblick vgl. Blevin (1995). Das ist z.B. dann der Fall, wenn ausdrücklich "phonologisch" genannte "Silbenstrukturen" auch anderen Zeichensystemen unterlegt werden. Hier kann die in Mode gekommene Erforschung von Strukturierungsfähigkeiten geborener Taubstummer weiterfuhren, wenn sie dieser Neigung zur Metaphorisierung nicht unterliegt.

Utz Maas

12 2. Das Silbenproblem aus vortheoretischer Sicht

Auf einer vortheoretischen Ebene lässt sich die Silbe empirisch als die kleinste selbständig zu äußernde Lauteinheit bestimmen: Subsyllabische Einheiten erschließen sich erst mithilfe analytischer Operationen - in der Regel in Reaktion auf den Umgang mit einer Alphabetschrift. Dem entspricht die phonographische Fundierung der Schriftsysteme. Sowohl in der Schriftgeschichte wie in der beobachtbaren Stabilisierung von Schriftsystemen zeigt sich die Silbengliederung der Wortformen als kritische Schwelle, deren Überwindung Schwierigkeiten bereitet: Auch bei der Übernahme von alphabetischen Schriftsystemen spielt sich oft genug deren silbenschriftliche Umnutzung wieder ein (vgl. Daniels/Bright 1996). In der Forschung herrscht inzwischen Konsens, dass die Alphabetschrift als eine genuine Erfindung bezeichnet werden kann, bei der diese Schwelle nur aufgrund einer typologischen Besonderheit der semitischen Sprachen überwunden wurde: die bei diesen gegebene Isolierbarkeit subsyllabischer Konstituenten durch ihre grammatischen bzw. lexikalischen Funktionen. Dieser Zusammenhang zwischen Schrift- und Lautanalyse ist nun nicht nur eine kontingente Angelegenheit der Fachentwicklung, die theoretische Fragen nicht berührt; vielmehr spiegelt sie sich in den dominanten phonologischen Konzepten, worauf H. Lüdtke (1969) nachdrücklich hingewiesen hat. Traditionell hatte die Lautbetrachtung ohnehin eine subsidiäre Funktion für die Vermittlung der Schrift: Priscian (6. Jhd.) fasste den distinkten Laut als funktionale Nutzung einer lautlichen Diskriminierung. Insofern grenzte er das Phonem von einem 'naturgeschichtlichen', physikalisch-physiologischen Ereignis, dem sonus ('Lautgeräusch'), ab als vox qui scribi potest ('Laut, den man schreiben kann', I, 1,1, bei Keil 1864:5). In dieser Tradition ergaben sich die phonetischen Grundbegriffe (die insofern immer phonologische waren) gewissermaßen durch die Rückprojektion der graphischen Repräsentation der Wortformen in Buchstabenketten auf die Lautstruktur der Äußerung eben als segmentale Kette von Phonemen. Diese Begrifflichkeit bestimmt den fachlichen common sense bis heute - nicht zuletzt in der fest etablierten Unterscheidung von segmentaler und prosodischer (=suprasegmentaler?) Phonologie, die auf den antiken Schreib-/ Leseunterricht zurückgeht: Alles, was dort von Belang, aber nicht mit den Mitteln der Alphabetschrift (segmental) repräsentiert war, wurde als Begleiterscheinung betrachtet, die nur im rhetorischen Unterricht systematisch behandelt wurde, und zwar auf der Grundlange von Annotationen an den geschriebenen Text.4 In dieser alphabetschriftlich auf den Kopf gestellten Lautbetrachtung war und ist die Silbe eine solche prosodische Begleiterscheinung5 - in der antiken schriftfinalisierten Lautbetrachtung nicht anders bei den heutigen Syllabierungsalgorithmen. Lüdtke ist zuzustim4

5

Von daher auch die entsprechende Terminologie: Die Bezeichnung der Diakritika (und des damit Bezeichneten) als Akzent, lat. ad-cantus ('das, was dazugesungen wird') eine Lehnübersetzung des griech. pros-odia. Das erklärt auch den Terminus: Silbe aus griech. syllabää zu syn-lambanoo, 'zusammenfassen'. In der strikten Progression des Anfangsunterrichts wurde das 'syllabierende' Zusammenziehen der Buchstaben in einem Folgekurs zum Anfängerkurs der 'Alphabetisten' betrieben: Diese beschäftigten sich mit den einzelnen Buchstaben und ihrer hypostasierenden Lautierung, deren 'Zusammenfassen' zu Einheiten den Anfängern damals die gleichen Schwierigkeiten bereitete, wie heute bei einer synthetischen Vorgehensweise.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

13

men, dass viele der Unklarheiten der neueren Phonologie durch die unreflektierte Fortschreibung dieser Tradition bedingt sind. Dass diese Probleme nicht deutlicher geworden sind, hat nun nicht zuletzt sprachtypologische Gründe: Tatsächlich ist die Lautstruktur vieler (der weitaus meisten?) Sprachen so beschaffen, dass eine solche Sichtweise durchaus zu plausiblen Analysen führt, insbesondere in der abendländischen Schulsprache schlechthin, dem Lateinischen, aus dessen Metrik (dem Kernstück der rhetorischen Sprachbetrachtung) auch die Grundbegriffe der neueren Silbenphonologie stammen (s.u.). Angelehnt an die landläufigen typologischen Sortierbegriffe werde ich hier von einem aggregativen Silbenbau sprechen, also einer Silbenstruktur, die sich als Zusammenfugung ihrer Konstituenten fassen und insofern auch in den üblichen Konstituentenmodellen darstellen lässt. Daneben gibt es aber auch andere Bauformen mit nicht aggregativen Strukturen, wie schon Trubetzkoy (1939) in seinem typologischen Überblick festgestellt hat: Für ihn war der "Silbenschnitt" des Hochdeutschen mit der Anschlusskorrelation (fester und loser Anschluss) ein Beispiel für einen solchen nicht-aggregativen Silbenbau. Das ist der Ausgangspunkt für das Folgende.

3. Silbe u n d Silbenschnitt

Zunächst sind einige Vorklärungen als Korrektiv gegenüber der verbreiteten Engführung der phonetischen Betrachtung erforderlich. In der apparativen Phonetik ist es bisher nicht gelungen, die Messverfahren auf die Silbenproblematik zu kalibrieren. Aber auch die 'naivere' impressionistische Herangehensweise an phonetische Fragen, die in der Regel auch die neueren phonologischen Arbeiten bestimmt, erfordert einige Klarstellungen, inbesondere in Hinblick auf die unterschiedlichen Implikationen der Fremd- gegenüber der Selbstwahrnehmung lautlicher Phänomene. Bei der Selbstwahrnehmung dominiert die Registrierung artikulatorischer Bewegungsmomente, supraglottal vor allem von Kontakterscheinungen der Artikulationsorgane. Prägnant sind hier also konsonantische Artikulationen (Kontakt- bzw. Engebildungen der Artikulatoren). Anders ist es bei der (auditiven) Fremdwahrnehmung: Prägnante Eindrucke entsprechen hier dem, was man in der Phonetik mit großer Sonorität bezeichnet, vor allem also vokalische Artikulationen. Die Dissoziierbarkeit dieser beiden Perspektiven spiegelt sich deutlich in der Anfangsphase des Schrifterwerbes, in der die Anfänger sich bemühen, ein wahrnehmbares Gegenstück zu den Schriftzeichen zu finden. Über deren Hyperlautierung, die seit über 2000 Jahren konstitutiv für den 'alphabetistischen' Unterricht ist,6 finden sie zuerst Anhaltspunkte bei den Konsonanten. Bei eigenen Schreibversuchen resultieren daraus dann die in der

6

Die potestas der Buchstaben, die in dem traditionellen Dreischritt des alphabetistischen Lehrgangs seit der Antike nach den Buchstabennamen (nomen) und ihrer Gestalt {figura) zu lernen war (wie es in gewisser Weise auch heute noch der Fall ist).

Utz Maas

14

Sprachdidaktik sog. Skelettschreibungen: KDWGN für KDWGN.7 Wie auch später Studierenden im Phonetikunterricht bereitet ihnen die Diskriminierung von Vokalen, also Lauten ohne eindeutige Kontaktwahrnehmungen, die größten Probleme. Im Folgenden spreche ich von der Bewegungssilbe, wenn damit die (supraglottalen) artikulatorischen Bewegungsabläufe in der Silbe gefasst werden sollen, und von der Sonoritätssilbe, wenn es um die Silbe als auditive Wahrnehmungseinheit mit einer spezifischen Sonoritätskontur geht. Diese beiden Betrachtungsweisen des Aufbaus der Silbenstruktur sind komplementär und lassen sich mithilfe der üblichen Konstituentenmodelle darstellen. Für die Sonoritätssilbe ist es inzwischen analog zu syntaktischen Modellen üblich, diese als 'Projektionen' ihrer Köpfe aufzubauen, mit dem Vokal als Kopf (Kern bzw. Nukleus). 8 Bezeichnet man eine Projektion mit einem abgeleiteten Symbol fur ihren Kern (im Folgenden notiert mit einem *), so ist die Erweiterung des Nukleus um einen Endrand also ein N*, die Erweiterung des N* um einen Anfangsrand ein N**. Die Übersetzung in die sonst verwendeten Kategorien liegt auf der Hand: N** ist die Silbe; N* ist der Reim : (1)

N**

= Silbe

Ii*

= Reim

Ν

Ε

Die Bewegungssilbe kann in ähnlicher Weise als Projektion des Ausgangspunktes ihres Bewegungsablaufs, also ihres Anfangsrandes A, dargestellt werden: Eine offene Silbe ist dann die Erweiterung des Anfangsrandes um einen diese Bewegung (sonor) füllenden Vokal, also A *, eine Schließung mit einem Endrand eine weitere Projektion A**: (2) = erweiterte Silbe = minimale Silbe

Die Sonoritätssilbe bestimmt entsprechend ihrem Gegenstand die vorsprachwissenschaftliche Phonetik in den klassischen Schulsprachen, und daran anschließend auch die neuere (westliche) Sprachwissenschaft. Das Modell der Bewegungssilbe entspricht dagegen dem Bau der semitischen Sprachen und leitet das Schriftsystem in der arabischen Nationalgrammatik seit über tausend Jahren, wo mit dem Konzept der Bewegung (ar. harakah) die Silbenstrukturen von den konsonantischen Rändern her gefasst werden. Konsonanten haben in diesem Sinne ein explosives bzw. Öffhungspotential, das vokalisch 'gefüllt' werden 7

8

Im Gegensatz zur üblichen Meinung handelt es sich hier aber nicht einfach um Konsonantenschreibungen, sondern um Abstraktionen von der silbischen Gliederung mit der Dominanz der Anfangsränder, s.u. Wo wie hier Darstellungen und Argumentation einigermaßen verbreitet sind, werden sie nicht mit Literaturverweisen belegt, ausführlicher dazu Maas (1999). Zu den verwendeten Abkürzungen: S = Silbe, R = Reim, A = Anfangsrand, N= Nukleus, Ε = Endrand.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

15

kann; es wird nicht realisiert, wenn der Konsonant implosiv bleibt. Eine direkte Umsetzung erfährt dieses Modell in der arabischen (und auch der hebräischen) Schrift: Geschrieben werden nur die konsonantischen Ränder der Bewegungssilbe, was dieses Schriftsystem im Zusammenspiel von extrem beschränkten phonotaktischen Filtern (keine komplexen Ränder, insbesondere keine komplexen Anfangsränder 9 ) und morphosyntaktisch gesteuerter Qualität der vokalisierenden 'Füllung' durchaus funktional macht(e). 10 Paradoxerweise kommt die Tragweite dieses Modells aber erst bei der Verschriftung neuarabischer Varietäten zur Geltung, die anders als das klassische bzw. Hocharabische auch nicht vokalisch erweitere Öffhungssilben aufweisen, s.u. Abschn. 10. Beide Konzepte, das der Bewegungs- wie das der Sonoritätssilbe, finden sich nun auch in der sprachwissenschaftlichen Tradition, allerdings in einer Weise verquickt, die die komplementären Perspektiven verdeckt hat. Bei den einflussreichen neueren Silbentheoretikern, bei Saussure nicht anders als bei Pike, wird das Konzept der Bewegung mit dem der Sonorität amalgamiert: die Silbe wird verstanden als kombinierte Öffnungs- und Schließungsbewegung, eingebunden in eine Kontur mit einem Gipfel beim vokalischen Kern. 1 ' Gewissermaßen quer zu dieser komplementären Modellierung der Silbengliederung als Bewegungs- und/oder Sonoritätssilbe liegt eine weitere Differenzierung, die an die angesprochene Dissoziierung von segmentaler und prosodischer Betrachtung gebunden ist. In der Tradition der antiken Prosodie-Lehre werden prosodische Strukturen von der Syllabierung bis zur Akzentuierung aus Eigenschaften der segmentalen Verkettung sozusagen hochgerechnet, so wie dies auch die neueren metrischen Algorithmen explizit unternehmen. Das ist auch möglich bei Sprachen mit aggregativem Silbenbau wie dem Lateinischen, in denen die prosodische Struktur gewissermaßen segmental kodiert wird. Bei anders gebauten Sprachen ist eine solche Reduktion nicht möglich, wie schon Sievers (1876) zeigt, der aus diesem Grund die Kategorie des Silbenschnitts (bei ihm "schwach und energisch geschnittener Akzent") in die phonologische Analyse einfuhrt. 12

9

Nur sekundär entstehen über Apokopierungen komplexe Endränder am Wortrand in pausa. Diese Sichtweise spiegelt sich auch in der arabischen Terminologie, bei der im übrigen die Bezeichnung der Laute und der ihnen korrespondierenden Schriftzeichen systematisch unterschieden werden: Die maximale Öffnung, die Vokalisierung mit [a], wird fatha genannt (wörtlich 'Öffnung'), die nicht realisierte Öffnung sukuun 'die Ruhe', beides in der Regel nur als Diakritika an den konsonantischen Schriftzeichen markiert. Zur Silbentheorie der arabischen Tradition vgl. Fischer 1967. " Vgl. Saussure (1916:79-91), Pike (1943:116-119). 12 Gegenüber der Euphorie der damals jungen apparativen Phonetik, die sich selbst in den "phonetischen Ateliers" der Weltausstellungen des 19. Jhd. feierte und im Sinne des neuen positivistischen Wissenschaftsverständnisses die sprachwissenschaftlichen Grundbegriffe auf 'Messbares' zu reduzieren versuchte, verwies Sievers auf die Grenzen des apparativ Kontrollierbaren und forderte, dass zunächst einmal der Gegenstandsbereich geklärt werden müsse, bevor in diesem Horizont eine partielle Modellierung für eine apparative Öperationalisierung unternommen werden könne. In diesem Sinne entwickelte Sievers eine perzeptive Phonetik, für die er Operationalisierungen suchte, die uns heute z.T. reichlich befremdlich vorkommen, etwa seine "Schallanalyse". In der sprachwissenschaftlichen Phonetik muss für ihn (im Gegensatz etwa zur medizinischen oder auch physikalischen Phonetik) die funktionale Betrachtung grundlegend sein, die auf lautliche Unterscheidungen abstellt, mit der in einer Sprache Formen unterschieden werden. In diesem Sinne gehören die Sieverschen Überlegungen, die sich in unterschiedlicher Akzentuierung bei einer ganzen Reihe der Phonetiker seiner Generation finden lassen, in die Tradition der Phonologie; im Folgen10

Utz Maas

16

Die Sieversche Modellierung des Silbenschnitts beruht darauf, dass er unterschiedliche Dimensionen der prosodischen Gliederung der lautlichen Formen ansetzt, die mehr oder weniger kongruent sein können. Die an der segmentalen Struktur orientierte Sonoritätssilbe, für die schon in den 70er Jahren des vorigen Jahrhunderts Sonoritätsskalen auf der Basis von Wahrnehmungsexperimenten vorlagen (etwa von dem Hals-Nasen-Ohrenarzt Wolf, 1871), fasst er unter dem Begriff der "Schallsilbe". 13 Ihr stellt er holistische Gliederungsmerkmale gegenüber, die entsprechend dem oben angesprochenen 'naiven' Silbenverständnis die Silbe als unanalysierte Einheit verstehen, mit der komplexere Äußerungen gegliedert werden können; hier spricht er von der "Drucksilbe", orientiert am "Druckakzent" etwa im Deutschen. Für das Deutsche gilt nun im Gegensatz zum Lateinischen, dass diese beiden Silbengliederungen inkongruent sein können. Das kann an Wörtern wie Ratte im Gegensatz zu Rate verdeutlicht werden. Auf der Ebene der Sonoritätsgliederung zeigen beide Wörter jeweils zwei abgrenzbare Einheiten, die beide als offene (Schall-) Silben zu bestimmen sind, strukturiert durch die Explosion eines initialen konsonantischen Elementes in ein sonores vokalisches Maximum. Dem stehen aber unterschiedliche Gliederungen in Hinblick auf die Druckdynamik gegenüber, wo sich bei Rate eine mit der Sonorität kongruente Druckgliederung in ein erstes syllabisches Maximum und eine zweite Reduktionssilbe zeigt, während Sievers bei Ratte nur eine Drucksilbe registriert: (3)

r

R a

α :

t

t

9

a

Rate

Ratte

Das messbares Korrelat zu Sievers' Drucksilbe ist nicht geklärt. Fortgeführt wurden seine Überlegungen in gewisser Weise in Stetsons "Motortheorie" der Silbe (1945), der diese artikulatorisch als rhythmische Einheit der Bewegungsabläufe im Atemapparat verstanden wissen wollte, gewissermaßen als infraglottale Bewegungssilbe. Der Akzeptanz dieses Konzeptes standen und stehen weniger einzelne Messergebnisse entgegen als vielmehr die von Stetson (im Gegensatz zu Sievers) propagierte Verabsolutierung dieses Aspektes. 14 Dass er dominant sein kann, zeigen die 'naiven' Anfanger auf dem Gebiet der Lautanalyse: Durch die Orthographie noch nicht beeinflusste Kindergartenkinder oder Schulanfänger,

13

14

den spreche ich in diesem Sinne auch von einer "Protophonologie" (wie man z.B. von der "Protoindustrialisierung" des 18. und frühen 19. Jhd. spricht). Worauf wohl die heute übliche Redeweise von der Schallfülle der Segmente zurückgeht. Im Folgenden verwende ich den Sieversschen Terminus der Schallsilbe mit dem der Sonoritätssilbe synonym. Die ausführlichste und in vielen Punkten auch klärende Diskussion dazu findet sich bei Pike (1967:365 - 392); vgl. jetzt auch Spiekermann (2000) für eine signalphonetische Operationalisierung dieser Unterscheidung.

Die Anschlusskorrelation

des Deutschen im Horizont einer Typologie der

Silbenstruktur

17

die man zur Silbengliederung anhält, behandeln Formen wie Ratte häufig als einsilbig zum Leidwesen einer Didaktik, die, wenn sie überhaupt mit lautstrukturellen Konzepten wie dem der Silbe umgeht, dann allein am Konzept der Sonoritätssilbe orientiert ist. Offensichtlich ist die Möglichkeit einer inkongruenten Gliederung in Druck- und Schallsilben eine Begleiterscheinung von 'akzentzählenden' Sprachen, bei denen die Integration von (im Vergleich zur Sonoritätssilbe) komplexeren Strukturen in eine Drucksilbe eine Folge der Subsumption größerer Äußerungsteile unter einen (Druck-) Akzent ist. Das ist der Fall bei Sprachen wie Deutsch, Niederländisch oder Englisch, die eben auch die Silbenschnittkorrelation aufweisen. Entsprechend ist sie in sog. silbenzählenden Sprachen nicht zu erwarten.' 5

4. Silbe und Silbenmessung (das Morenmodell)

Schließlich ist eine weitere Vorklärung erforderlich, die weniger auf die phonetische Wahrnehmung als vielmehr auf begriffliche Implikationen bestimmter Modellierungen zielt. Orientiert an der Anschaulichkeit des alphabetischen Schriftbildes mit der räumlichen Anordnung der Buchstabenzeichen, sind auch die meisten Silbenkonzepte in einer räumlichen Metaphorik gefasst. Dabei wird zumeist, wie bei den verbreiteten Konstituentendarstellungen, mit einer sehr einfachen Topologie der Beziehungen zwischen Elementen operiert, die von einander abgrenzbar sind, wie es eben auch die Buchstaben in der Kette sind.16 Insofern ist die traditionelle Silbentheorie, wie sie aus der antiken Metrik übernommen ist, auch mit einem quantitativen (räumlichen) Verrechnungsmodus verbunden, der Morenmessung. Die antike Metrik (wie die ihr heute darin folgende metrische Phonologie) bewertet das Gewicht einer Silbe nach der Struktur ihres Reims: Ist der Reim einfach, ist er (bzw. von daher geerbt: die Silbe) leicht, verzweigt er, ist er bzw. die Silbe schwer. Etwa (μ = eine More): (4) S

μ/U r

15 16

e

S

t\ gis

μ / λ μ regis 'König, Gen.Sg.'

r

e

:

k

s

rex 'König, Nom.Sg.'

Vgl. zu dieser letztlich auf Pike zurückgehenden 'prosodischen' Typologie etwa Pike (1967). Jedenfalls wenn man sich an der Buchschrift orientiert und von den in der älteren Schrifttradition häufigen Ligaturen absieht. Bei der Orientierung an der Schreibschrift (vor allem bei routinierten Schreibern) sähe das ganz anders aus.

18

Utz Maas

S

S

(5)

/

f

R

μ

a

S

A . ke:

face 'Fackel, Abi.Sg.'

f

a

k

s fax 'Fackel, Nom.Sg.'

Mit einer solchen Modellierung lässt sich, wie es in der jüngeren, sog. autosegmentalen Phonologie üblich ist, die qualitative Artikulation gegenüber der rein segmentalen Gliederung (gewissermaßen in Zeittakten, die räumlich veranschaulicht werden) isolieren. Das erlaubt auch die Trennung von quantitativen gegenüber silbenstrukturellen (im Sinne der auch hier benutzten Konstituentenmodelle: konfigurationeilen) Kriterien. Mehrere aufeinander folgende Zeiteinheiten können qualitativ gleich artikuliert sein - dann spricht man von Langsegmenten, Langvokalen wie bei lat. [re:ks] rex 'König' oder Langkonsonanten wie bei lat. [mit.te.re] ([mit:ere]) mittere 'schicken'. Die Nutzung quantitativer Unterscheidungen ist perzeptiv offensichtlich erheblich schwieriger als die qualitativer. Wo Sprachen phonologisch distinktive Quantitätenunterschiede machen, sind diese in der Regel mehrfach abgesichert: Eine stabile Quantitätensprache wie das Finnische markiert die Quantitätenunterschiede der Segmente recht robust in einem Zeitverhältnis von 1 : 3 (vgl. Lehtonen 1970). Im Sprachwandel werden Quantitätensysteme häufig von qualitativen Differenzierungen abgelöst, was u.U. zu Komplikationen wie der Silbenschnittkorrelation in einigen germanischen Sprachen führen kann.17 Zur eingeschränkten Nutzbarkeit von Quantitäten gehört auch ihre Bindung an silbenstrukturelle Restriktionen: Vokalische Quantitäten treten anscheinend nur tautosyllabisch auf.18 Umgekehrt sind konsonsonantische Quantitäten nur heterosyllabisch häufig - in der Lautentwicklung oft nur als Übergangsphase beim Abbau des Endrands. Dabei lassen sie gewissermaßen auf dem Weg zur offenen Silbe mit nur noch sonor (bzw. vokalisch) artikulierten verzweigenden Reimen als Vorstufe eine nicht-sonore konsonantische Artikulation als Kopie des folgenden Anfangsrandes zu. Ein klassisches Beispiel für diese Entwicklung liefert das Altgriechische. In pausa bzw. im absoluten Auslaut werden nichtsonore Konsonanten eines Stamms nicht artikuliert, vgl. zum Stamm paid- 'Kind', Genetiv paid-os [pai.dos], Vokativ pai\ im internen Sandhi erfolgen weitgehende Neutralisierungen, bei denen in phonologischer Hinsicht u.U. nur noch eine konsonantische Artikulation (notiert K) bewahrt wird, die durch eine Kopie des folgenden Silbenanlauts realisiert wird, z.B. zum Verbalstamm leip- 'lass:' wie in leipoo [lei.po:] 'ich lasse' die Perfekt Passiv-Bildung (l.Sg.) le-leim-mai [le.leim.mai] (= /le.leiK.mai/). Als Spielart dieser Entwicklung kann es

17

18

Die Entwicklung der romanischen Sprachen vom Quantitätensystem des Lateinischen aus und die der westlichen neuarabischen Varietäten vom Altarabischen aus verläuft ebenso. Heterosyllabische ('ambisyllabische') Langvokale setzten vermutlich eine in ihrem Ablauf erfolgende Konturierung der Silbe auf einer anderen Ebene voraus: Tonverläufe, Glottalisierung o. dgl. Die mir bekannten Belege für derartige Erscheinungen (im Hiat) weisen immer auch qualitative Differenzierungen auf.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

19

vorkommen, dass in einer Sprache Wortformen in pausa offene finale Silben aufweisen, im Satzzusammenhang aber durch Sandhi-Gemination geschlossene. 19 Sprachen mit einer unbeschränkten phonologischen Nutzung konsonantischer Quantität sind demgegenüber ausgesprochen selten. Ein Beispiel dafür ist das marokkanische Arabische (s.u.), das Langkonsonanten als Variante komplexer Silbenränder aufweist: dda [d:a] 'er hat genommen', fedd [Jad:] 'er hat geschlossen' usw. Auch heterosyllabische Langkonsonanten unterliegen dort entsprechend keiner besonderen Beschränkung. Im Folgenden werde ich von Geminaten nur bei einer solchen heterosyllabischen (ambisyllabischen) Artikulation von Langkonsonanten sprechen.

5. Silbe und Silbengrenzen (das Problem der Ambisyllabizität)

Ebenfalls auf der konzeptuellen Ebene liegt eine weitere Implikation der metaphorisch räumlichen Modellierung der Silbenstruktur: Die Vorstellung von einer abgrenzbaren Einheit, letztlich wieder abgelesen an der buchstäblichen Repräsentation der Lautstruktur in Alphabetschriften. Die Abgrenzbarkeit kann sich dabei auf die subsyllabischen Elemente wie auf die eventuelle Mehrsilbigkeit in komplexen Wortformen beziehen. Bei den klassischen Schulsprachen war die Abgrenzung der Silben gewissermaßen anschaulich gegeben: Hier wurden im Schreib-/Leseunterricht Silbengrenzen nach dem Modell von Wortgrenzen (also Pausabedingungen) eingeübt - nicht nur als Begleiterscheinung des Metrikunterrichts, sondern vor allem zur Lehre von der Wortbrechung beim Schreiben (vgl. Anm. 18), vielleicht auch beim syllabierenden Diktieren für einen Schreiber. Darauf geht nicht zuletzt die Verwirrung stiftende Bezeichnung der orthographischen Wortbrechung als 'Silbentrennung' zurück. Dass die Silbengliederung einer Wortform zu klaren Grenzen führt, ist jedoch eine typologische Besonderheit - wenn auch vermutlich statistisch der häufigste Fall. Er ist immer da gegeben, wo Sprachen nur offene Silben aufweisen; auch da, wo zwar komplexere Silbenstrukturen möglich sind, aber i.S. einer aggregierenden Syllabierung auch wortmedial die Unterscheidung von Anfangs- und Endrand unproblematisch ist. Dies ist bei den klassischen Schulsprachen nicht anders als beim (Hoch-)Arabischen der Fall, ist aber eben nicht notwendig, wie das Deutsche zeigt.

19

Etwa im nordwestlichen Okzitanischen /'bla/ 'Getreide', /'ne.gre/ 'schwarz', aber /blan.'ne.gre/ 'Hirse', vgl. Maas (1970). Bekannter (und ausgiebig analysiert) ist diese Erscheinung als raddoppiamento sintattico im Italienischen. Vennemann (1988) hat versucht, die Grenzwerte einer solchen Dynamik in einem Feld konkurrierender Beschränkungen zu fassen. Das altgriechische Beispiel macht derartige widersprüchliche Spannungen deutlich: da agr. piptoo 'ich falle' metrisch mit einer schweren erste Silbe gemessen wird, setzt man üblicherweise eine silbische Struktur [pip.to:] an - im Gegensatz zur zeitgenössischen Schreiberpraxis bei der Wortbrechung, die eine 'Silbentrennung' in pi=ptoo vornahm, nach dem Modell des Wortanfangs wie in ptuoo 'ich falle' (und wegen des -p#). In der weiteren Entwicklung des Griechischen wurde die Silbenstruktur von alt [pip.to:] optimiert, vgl. ngr. pefto, [pef.to] - aber nicht so weit, wie die Optimierung ähnlicher Strukturen in dem in dieser Hinsicht restriktiveren Italienischen gegangen ist: vgl. lat. optimus [op.ti.mus] mit it. ottimo [ot.ti.mo].

Utz Maas

20

Betrachtet man den deutschen Silbenschnitt aus der Blickrichtung einer aggregierenden Syllabierung, so zeigt sich, dass Silben fusionieren können,20 ihre Grenzen also nicht auf der Zeitachse abzutragen sind. In der autosegmentalen Tradition ist es üblich geworden, diese Fusionierung auf ein als ambisyllabisch bezeichnetes Segment zu projizieren. Das fuhrt nicht nur in didaktischen Kontexten zu Verwirrungen;21 auch in phonologischen Darstellungen findet sich die Vorstellung von einer Verlagerung der Silbengrenze in das ambisyllabische Segment hinein und damit die Suggestion einer nur maßstäblichen Verfeinerung der Gliederung in Zeittakte, wie sie bei geminierten ambisyllabischen Segmenten tatsächlich möglich ist: Bei dem ambisyllabischen /t/ von it.fatto 'gemacht' ergibt sich eine zeitliche Zerlegung in ein implosives und ein explosives Segment ['fat.to], die sich auch durch die unterschiedliche Koartikulation in den jeweiligen Silben unterscheiden lassen bei dem Ixl von dt. Ratte ist das aber nicht der Fall (zumindest in der norddeutsch geprägten Hochlautungsvariante unterscheiden sich die beiden /t/-Segmente von Ratte und Rate nicht). Vor diesem Hintergrund ziehe ich es vor, im Deutschen, das selbst an der Morphemgrenze keine Geminaten kennt, nicht von ambisyllabischen Segmenten zu sprechen, sondern in der Sievers-Tradition und nach der Vorgabe von Jespersen (1913) von unterschiedlichen Anschlussformen dieser Konsonanten an den vorausgehenden (betonten) Vokal:22 von losem Anschluss (—») als einer schwachen Bindung beim Übergang zwischen problemlos segmentierbaren Elementen und festem Anschluss ( J ) als einer Übergangsform zwischen Elementen, die nicht oder nur problematisch segmentierbar sind. Im Hochschulunterricht experimentiere ich schon länger mit Darstellungsformen, die diese Besonderheit einer fusionierenden gegenüber einer aggregierenden Syllabierung verdeutlichen sollen. Als probat haben sich dazu Spiral-Symbolisierung erwiesen, die ich auch in Maas (1999) benutze. Damit lässt sich die Silbenschnittkorrelation plastisch als eine der unterschiedlichen Bindung zwischen formal isolierbaren Elementen einer Äußerung darstellen. Mit einer Spirale wird eine abgeschlossene Silbe gegliedert, deren Kern eine Bindung nach rechts hat: mit (mindestens) einer Schlaufe wird die Silbe nach rechts abgeschlossen. Bei losem Anschluss (—») ist ein entsprechender Abschluss ohne angebundenen Konsonanten möglich wie bei Rate·.

(6)

(r

C Ü J 3

Es kann aber auch ein Konsonant (lose) angeschlossen werden wie bei Rat, Rad [Ra:t]:

20 21 22

Diese Begrifflichkeit benutzt auch Pike bei seiner Diskussion dieser Fragen (1967:380 - 382). Hyperlautierungen wie Ratte [Rath.th3], Wenn man Freude an formalen Regelapparaten hat, lassen sich selbstverständlich zunächst ambisyllabische Konsonanten als Geminaten ableitet, mit denen die silbenstrukturellen Restriktionen des Deutschen definiert werden, um sie dann in einem späteren 'Regel-Zyklus' durch einen Filter wieder zu tilgen, der alle Geminaten in Simplicia überführt.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

21

Bei festem Anschluss ( J ) wird der Vokal dagegen an das Folgesegment angebunden. Tautosyllabisch steht dieses dann in der Bindungsschleife des Kerns wie bei matt oder auch Rad in der norddeutschen Aussprache ['Rat]:

I D Steht das Folgesegment nicht im Endrand der gleichen Silbe, sondern fungiert als Anfangsrand der Folgesilbe, wird diese insgesamt in die Kontur der prominenten Silbe eingeschlossen wie bei Ratte ['Rata]: (9) J

(t

"oM

Das Bindungspotential des Kerns ist in diesem Fall durch den Vokal nicht 'gesättigt'; die 'Sättigung' geschieht vielmehr durch die Inkorporation der Reduktionssilbe in die Schlaufe des Kerns. 23

6. Die (alte) Entdeckung des Silbenschnitts

Diese Differenzierung von Anschlussverhältnissen ist nun keineswegs eine Entdeckung der impressionistischen frühen Phonetik. Vielmehr findet sich die Beobachtung dieser Erscheinung schon in den Hauptwerken der humanistischen Reform des Lateinunterrichts, bei der die einzelsprachspezifisch ausgeprägten, unterschiedlichen Varietäten der Aussprache des Lateinischen in den Blick geraten waren. So hat sich z.B. Erasmus von Rotterdam explizit mit den unterschiedlichen Silbenstrukturen in der romanischen gegenüber germanischen Aussprache des Lateinischen beschäftigt, als er beobachtete, dass die Formen des festen Anschlusses medialer Konsonanten in der "teutonischen" Aussprache kein Gegenstück in der französischen Aussprache haben, die nur lose angeschlossene Konsonanten kennt. In seinem Lehr-Dialog von 1528/29 erläutert er die Konsequenzen fur die Unterscheidung von intrinsisch ("von Natur aus") vs. positionslangen Vokalen im Lateinischen: "Et hoc te docebit uulgata Gallorum pronuntiatio, qui omnes fere sonant ut natura longas, duas consonantes aut unam geminam uoce separantes a uocali praecedenti" (S. 150) - Kramer übersetzt: "Auch darüber wird dir die Volkssprache der Franzosen Auskunft geben, wo man fast alle Silben ausspricht, als wären sie von Natur aus lang, weil man mit der Stimme zwei Konsonanten oder einen Doppelkonsonanten vom vorhergehenden Vokal trennt" (S. 151).

23

Das ist einer der Gründe für diese Darstellungsform statt eines Konstituentenmodells, bei dem eine solche Inkorporation nur mit einer 'rekursiven' Kategorie Silbe darstellbar wäre.

22

Utz Maas

Diese Unterscheidung war damals fester Bestandteil der humanistischen Lateinschule, deren Unterricht kontrastiv zu den muttersprachlichen Vorgaben der Schüler angelegt war. Insofern lagen für die Intellektuellen der damaligen Zeit Überlegungen bereit, um auch Handbücher für den Muttersprachunterricht zu verfassen, wie es etwa bei Valentin Ickelsamer nachzulesen ist. Und so ziehen sich diese Konzepte durch die phonetischen Diskussionen der Frühen Neuzeit bis hin zu den Altvorderen der neueren Sprachwissenschaft wie Eduard Sievers. Als so bei der Debatte um das beste Modell für das neue Hochdeutsch im 18. Jhd. die unterschiedlichen regionalen Ausprägungen in den Blick geraten waren, verstand es sich von selbst, dass die Untersuchung der unterschiedlichen 'Akzente' bzw. Silbenschnitte einen großen Raum einnahm. Daran schloss die spätere Dialektologie an, und zwar schon früh mit Blick auf die unterschiedlichen Sprechregister, also auf den Unterschied von Lento- gegenüber Allegro-Formen, von dessen Analyse sich schon der SieversSchüler Winteler Aufschlüsse für den Sprachwandel versprach. Dass derartige Fragestellungen in der zweiten Hälfte des 20. Jhd. weitgehend aus der Diskussion verschwunden sind, lag an der verkürzten Reduktion der Forschung auf das apparativ Messbare - wovor Sievers u.a. seinerzeit schon gewarnt hatten (vgl. Anm. 12). Die erneute Beschäftigung mit dem Silbenschnitt, die vor allem ein Verdienst von Theo Vennemann ist, kam insofern fast einer Neuentdeckung gleich (vgl. Vennemann 1990, auch Maas/Tophinke 1993).

7. Aggregierende und fusionierende Syllabierung

Eine analytische Klärung des Silbenbegriffs und daran hängender weiterer Differenzierungen wie des Silbenschnitts muss also in einem mehrdimensionalen Betrachtungsraum erfolgen. Die im Vorausgehenden unterschiedenen Dimensionen markieren nur eine erste Näherung als Unterscheidung - bei der perzeptiven Orientierung • nach Bewegungs- oder Sonoritätssilbe, • nach segmental durchgegliederter oder holistisch-prosodischer Silbe, - bei der Modellierung in eine solche mit abgrenzbaren und folglich auch quantitativ messbaren Bestandteilen gegenüber einer mit zugelassenen fusionierten Strukturen. Hier sind u.U. noch weitere Unterscheidungen anzubringen. Diese Komplexität des Problems steht hinter der eingangs zitierten Ladefogedschen Bemerkung, die in der ursprünglichen Version vollständiger lautete: "Syllables may be considered to be abstract units that exist at some higher level in the mental activity of a speaker. They may be necessary units in the organization and production of utterances" (1975:248). Vereinfacht gesagt läuft das darauf hinaus, dass die verschiedenen konkurrierenden Erklärungsansätze nicht unbedingt falsch sein müssen; allerdings sind sie nicht richtig, wenn sie ihre jeweilige Partialsicht verabsolutieren.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

23

Dieses Problem wird bei einer typologischen Betrachtungsweise deutlich, die nicht nur auf eine deskriptiv angemessene Modellierung abzielt, sondern die Unterschiede im Bau der Sprachen fassen will, wie es Trubetzkoy in seinen "Grundzügen" (1939) mit einer Aufbereitung der phonologischen Systeme von nicht weniger als 200 Sprachen unternommen hat. Ausdrücklich an die Sieverssche 'Protophonologie' anknüpfend, setzt er wie dieser bei der Dissoziierbarkeit der silbenstrukturellen Eigenschaften an, die den traditionellen Silbenbegriff aufspannen (S. 166 ff.). Dabei entwickelt er das herkömmliche, in der Grundbegrifflichkeit der Lateinschule festgeschriebene Silbenmodell der Metrik als einen typologisch besonderen Fall, der daran gebunden ist, dass Quantitätenverhältnisse die Strukturierung bestimmen. Er tut dies mittels des oben dargestellten Morenkonzepts, das für Quantitätensprachen wie die klassischen Schulsprachen oder das Finnische analytisch Sinn macht (S. 169ff.). Dem stellt er nun Sprachen gegenüber, in denen zwar selbstverständlich auch die zeitliche Gliederung der Äußerung prosodisch genutzt wird, diese aber nicht das alleinige oder auch nur das dominante Kriterium für die funktionalen Unterscheidungen ist; im Anschluss an Sievers und Jespersen ist das für ihn beim Deutschen (in der Hochlautung) der Fall, wo er eine Silbenschnittkorrelation ansetzt. Trubetzkoy entwickelt seine Argumentation dichotomisch: Er setzt einem quantitativen, von ihm arithmetisch genannten Silbenmodell (S. 174) ein holistisches gegenüber, das er silbenzählend nennt. Das erste ist adäquat räumlich zu modellieren, indem die distinktiven Differenzen in einem zeitlichen Nacheinander bzw. einem räumlichen Nebeneinander repräsentiert werden, wie es in einem Konstituentenmodell darstellbar ist (vgl. Abschn. 4). Dieses Modell legt er im Übrigen nicht nur Quantitätensprachen im engeren Sinne, sondern auch Tonsprachen zugrunde, sowohl bei Registertönen wie Konturtönen. Es handelt sich also um den angesprochenen aggregativen Typ der Syllabierung, bei dem die prosodische Struktur aus einer Kombination der Elemente der segmentalen Struktur hochzurechnen ist. Bei dem fusionierenden Typ ist das nicht der Fall: Hier kann die Analyse nicht von unten nach oben erfolgen, sondern muss umgekehrt von oben, jedenfalls von der Silbe zu den sie artikulierenden lokalen Strukturen verlaufen. Dass dabei in der zeitlichen Dauer der Artikulation auch quantitative Verhältnisse hereinspielen, ist an die Materialität der Äußerung gebunden, aber eben nicht distinktiv. In seinen exemplifizierenden Hinweisen findet Trubetzkoy diese Struktur bei den westgermanischen Sprachen Deutsch, Niederländisch und Englisch, in Kombination mit anderen Faktoren auch bei mitteleuropäischen Sprachen in einem arealen Konnex mit dem Deutschen wie Tschechisch und Ungarisch; er diskutiert aber derartige Strukturen auch in ganz anderen Sprachen wie z.B. im Hopi (S. 176).

8. Die Silbenschnittkorrelation im D e u t s c h e n

Im Folgenden werde ich an zwei Beispielen die Problematik eines typologisch flexibleren Silbenbegriffs und die damit definierte Kategorie des Silbenschnitts verdeutlichen. Dabei benutze ich Silbenschnitt als allgemeine Kategorie des Silbenbaus, so wie man vom Schnitt eines Kleidungsstücks spricht (oder vom Schnittmuster ...). Typologische Besonderheiten

Utz Maas

24

beruhen im Trubetzkoyschen Sinne auf der Phonologisierung von Silbenschnittdifferenzen in einer Sprache (und damit auf der von ihm sog. Silbenschnittkorrelation). Für das erste Beispiel, das Deutsche, kann ich für eine ausführliche Analyse auf Maas (1999) verweisen. Die primäre Ebene der Artikulation der Wortformen ist hier die Akzentkontur, mit der unterschiedlich gebaute Silbentypen korrelieren - aus denen aber nun nicht umgekehrt die Akzentkontur hochgerechnet werden kann. 24 Im Vokalismus lassen sich qualitative Differenzierungen ausmachen, die in einer gewissen Annäherung mit Bauprinzipien der Silbe korrespondieren, wie sie auch in Sprachen mit Quantitäten zu finden sind. Das gilt so insbesondere für die nicht-prominente und nicht-reduzierte Silbe, also die Silbe, die nicht durch den primären Akzentkontrast von prominenter und Reduktionssilbe artikuliert ist. Hier finden wir eine Korrelation der Qualitäten im Vokalsystem mit den Bauprinzipien einer offenen und geschlossenen Silbe, also in Korrelation mit dem, was in einem Morenkonzept eine leichte und schwere Struktur des Reims wäre. Auch hier sind die Strukturen allerdings nicht rein lokal definiert, da am Wortrand, also einer höheren morphoprosodischen Ebene, die gespanntere vokalischer Qualität auch in geschlossen Silben vorkommt, 25 vgl. -

[i] vs. [ι]: ['taksis] Plural oder Genetiv zu Taxi, ['taksis] Taxis (Anordnung) [u] vs. [υ]: ['jampus] Plural oder Genetiv zu Shampoo, ['jampus] Schampus (Champagner), - [e] vs. [ε]: ['pORes] Plural oder Genetiv zu Porree, [do'loiRes] Dolores (Vorname). -

[o] vs. [ο]: [to'ReiROs] Plural oder Genetiv zu Torero, [Ri'no:tseROs]

Rhinozeros.

Die primäre Akzentkontur in der Spannung von prominenter und Reduktionssilbe, die in der Sprachentwicklung der Dynamik des Umbaus von den germanischen Sprachen zum Deutschen entspricht, überformt nun diese Struktur. In der prominenten Silbe korreliert die Vokalqualität mit bestimmten Anschlusstypen: Die gespannten Vokale, die unter diesen Akzentbedingungen als Langvokale im losen Anschluss realisiert werden, sind hier in ihrem Vorkommen frei; sie kommen sowohl in offenen Silben wie in geschlossenen Silben vor, wie regelmäßige Kontraste in Flexionsparadigmen mit wechselnder Syllabierung des Stammes zeigen: mahne ['ma:.na] vs. mahnte ['marn.ta]; ebenso für die anderen Vokale: lehn(t)e, höhn(t)e,

schien(t)e,

sühn(t)e, wohn(t)e,

buch(t)e.

Für die ungespannten Vokale gilt, dass sie in der prominenten Silbe nur im festen Anschluss vorkommen, also nicht im absoluten Auslaut; insofern bilden sie den markierten Part der Anschlusskorrelation, wie schon Trubetzkoy gesehen hat (1939:176). Der interessante Fall, der bei der Annahme eines einheitlichen aggregierenden Silbenmodells Schwie24

25

Das unterscheidet meine Analyse von der Vennemanns, der sie ansonsten viel verdankt. Bei Vennemann wird die Akzentuierung aus der Silbenschwere hochgerechnet, für die die Bewertung der Anschlussverhältnisse konstitutiv ist. In dem hier vorgeschlagenen Sinne artikulieren die Anschlussformen dagegen die silbenstrukturellen Potentiale des Lexikons, wenn sie prominent (akzentuiert) artikuliert werden: gespannte Vokale durch losen Anschluss, ungespannte durch festen. In diesem Sinne kommen diese spezifischen Anschlussformen nur als Erscheinung der prominenten Silbe vor. Eine sehr detaillierte Untersuchung dieser Verhältnisse findet sich bei Becker (1999). Bei den Beispielen in phonetischer Notation bezeichnet das Längezeichen den losen Anschluss; der feste Anschluss ist nicht bezeichnet.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

25

rigkeiten bereitet, ist der, bei dem der fest angeschlossene Konsonant nicht im Reim der gleichen Silbe steht wie der Vokal, aber auch nicht die phonetischen Eigenschaften einer Geminate aufweist, die mit seiner gleichzeitigen Funktion als Anfangsrand der Folgesilbe verträglich wäre (sodass er im oben präzisierten Sinne also nicht ambisyllabisch ist). Das ist eben der Fall, der den fusionierenden Silbenbau markiert, der nicht auf eine räumliche Segregation der Segmente abzubilden ist, sondern durch unterschiedliche Grade der Bindung zwischen den Segmenten dargestellt werden muss. 26 Die phonetischen Indikatoren fur den markierten Fall des festen Anschlusses sind nach wie vor strittig, obwohl die Forschung in der letzten Zeit erheblich weitergekommen ist. Spiekermann (2000 und in diesem Band) konnte akustische Indikatoren für den festen Anschluss isolieren, die Forschungen am Münchener Phonetik-Institut konnten mit Hilfe des Artikulographen Indikatoren fur unterschiedliche Dynamiken der Produktion bei festem und losem Anschluss aufzeigen (vgl. Mooshammer 1998). Mit Trubetzkoy ist aber daran festzuhalten, dass eine solche phonetische Implementierung von der phonologischen Strukturierung zu unterscheiden ist. Was oben für die Silbe festgestellt wurde, gilt für den Silbenschnitt noch viel mehr: Bei den Anschlussverhältnissen handelt es sich um eine komplexe perzeptive Kategorie, bei der nicht zu erwarten ist, dass sie gewissermaßen monoton auf ein für alle Arten von Segmentübergängen einheitliches Syndrom im Signal reduzierbar ist, worauf von phonetischer Seite wiederholt Georg Heike in Vorträgen der letzten Jahre hingewiesen hat.

9. Silbe u n d V o k a l s y s t e m im M a r o k k a n i s c h e n

Für das zweite Beispiel, das Marokkanische, 27 gilt wie für das Deutsche, dass ein normativ festgeschriebenes Syllabierungsmodell das Verständnis behindert. Für eine Klärung bietet sich die Silbenschnittkategorie an, die dazu allerdings aufgrund der hier ganz anderen phonetischen Verhältnisse abstrakter gefasst werden muss. Da die Fakten in diesem Fall weniger geläufig sein werden, muss ich hier die Datenlage ausfuhrlicher darstellen. Das Vokalsystem der marokkanischen Sprachen (Arabisch und Berber) beruht auf dem Gegensatz von peripheren Vokalen /a, i, u/ und zentralisierten Vokalen, die als Varianten des Schwa verstanden werden können. Die Verhältnisse bei den peripheren Vokalen stellen keine weiteren Probleme, im Gegensatz zu den zentralisierten - und zwar weniger in Hinblick auf ihre Qualität als vielmehr die Distribution bzw. die silbenstrukturelle Funktion. In der marokkanischen Koine und den meisten Dialekten im Kernraum des Sprachgebietes sind die Qualitäten der zentralisierten Vokale in einer Bandbreite von [i, e, u] als Funktion der konsonantischen Umgebung vorhersagbar, phonologisch also einheitlich als Schwa zu

26

27

Vgl. o. Abschnitt 4 für eine Kritik an der verbreiteten Rede von ambisyllabischen Konsonaten in solchen Fällen, die irreführend das Anschlussproblem vom Übergang zwischen Vokal und Konsonant in den Konsonanten verlagert. Wenn das Gegenteil nicht ausdrücklich vermerkt wird, gilt das im Folgenden Gesagte sowohl für die in Marokko gesprochenen arabischen wie berberischen Varietäten, auf die ich mich auch mit dem einheitlichen Terminus des "Marokkanischen" beziehe, vgl. dazu Maas (2000).

26

Utz Maas

fassen. 28 In einigen Dialekten auch im Zentrum finden sich allerdings Kontraste von [a] und [u], z.B. [dxal] 'er ist eingetreten' gegenüber [dxul] 'tritt ein!' (was wiederum von /dxul/ '(das) Eintreten' (Masdarbildung mit peripherem Vokal) zu unterscheiden ist, phonetisch [dxu:l], s.u.). Davon sehe ich im Folgenden ab. Die Besonderheit des marokkanischen Schwa liegt in seiner Funktion als Syllabierungskoeffizient. Dabei ist es anders als etwa die Schwas der europäischen Sprachen kein Reduktionsvokal, der von der Akzentkontur abhängt: Im Marokkanischen gibt es keinen Intensitätsakzent, der die prosodische Kontur der (lexikalischen) Wörter profiliert. 29 Das kritische Merkmal des marokkanischen Schwa ist seine notwendige Bindung an einen silbenschließenden Konsonanten: Es tritt nicht in offenen Silben auf. Ich verstehe das als eine spezifische Form des Silbenschnitts. Sie kommt sprachgeographisch nur sehr eingeschränkt vor und ist auch in diachroner Sicht offensichtlich jung: So findet sie sich im nördlichen Raum des marokkanischen Sprachgebiets nicht mehr, der in dieser Hinsicht schon mit dem östlichen arabischen Sprachraum zusammengeht, und im Süden lässt schon das Hassaniya (vom Südrand des Atlas bis nach Mauretanien gesprochen) eine Schwa-Syllabierung auch in offener Silbe zu (wenn auch nur sehr eingeschränkt, vgl. Cohen 1963). Im Arabischen ist dieser Syllabierungstyp offensichtlich nur im Westen des Sprachraums ausgebildet - aber er ist auch nicht einfach ein berberischer Substrateinfluss, da dessen archaische Varietäten, die in der Sahara und südlich davon gesprochenen Sprachen der Tuareg, ihn nicht kennen (vgl. Prasse Bd. I, 1972). Anderswo habe ich das marokkanische Schwa als Produkt des maghrebinischen Sprachbundes bezeichnet (Maas 2000). Der zweite Flügel der Syllabierung sind die Quantitätenverhältnisse. Im Marokkanischen gibt es, anders als z.B. im Ägyptischen, keine phonologischen Quantitätenkontraste bei Vokalen (nur bei Konsonanten). Selbstverständlich kann die phonetische Dauer der Vokale in Funktion der Silbenstruktur variieren, bei den peripheren Vokalen sogar in einer erheblichen Bandbreite, z.T. verbunden mit qualitativen Unterschieden. Auch die zentralisierten Vokale, also das Schwa, können in Abhängigkeit von prosodischen Konturen quantitativ variieren, z.B. bei kontrastierendem Fokusakzent sehr lang gesprochen werden. Die Verteilung der Quantitäten bei den peripheren Vokalen ist typologisch ausgesprochen auffällig. Mit einer gewissen Vereinfachung lässt sie sich wie folgt schematisieren ($ markiert die Silbengrenze): 30 28

29

30

Wenn die phonetischen Details nicht wichtig sind, notiere ich /e/. Zur Notation: zwischen [] stehen phonetische Transkriptionen, zwischen / / phonologische, ggf. mit der Indikation der Syllabierung, zwischen ° ° stehen lexikalische bzw. grammatische Repräsentationen, ohne Syllabierung u. dgl. Das ist auch einer der markanten Unterscheide zu den östlichen Varietäten des Arabischen, etwa dem Ägyptischen, das auch die üblichen Vorstellungen von der Aussprache des Arabischen bestimmt. Besonders deutlich wird das bei den epenthetischen Vokalen, die im Falle des Ägyptischen auch gerne als Schwas bezeichnet werden, die hier aber in der Qualität nicht von festen Vokalen unterschieden und auch betonbar sind. Vgl. etwa äg.Ar. /'?ult/ 'ich habe gesagt' vs. /'?ul.ti/ 'du hast gesagt'. Der Silbenfilter des Ägyptischen ist äußerst restriktiv: Komplexe Anfangsränder sind gar nicht, komplexe Endränder nur am Wortrand zugelassen. Folgt auf /'?ult/ ein konsonantischer Anfangsrand, tritt /i/ als epenthetischer Vokal mit einer Resyllabierung und einer Akzentverschiebung auf: das phonologische Wort bleibt paroxyton, z.B. /?ul.'ti.lu/ 'ich habe zu ihm gesagt', morphologisch ol?ul-t + 1- + -u° für die Hörer nicht zu unterscheiden von /?ul.'ti.lu/ 'du hast zu ihm gesagt', morphologisch °'?ul-ti + 1- + -u°. Κ und V dienen als Variablen für Konsonanten und Vokale, S = Halbvokal, S = silbischer Halbvokal, K* bezeichnet die geminierende Kopie eines Konsonanten, # steht für eine Morphemgrenze.

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur V / V· / V: /

27

# $K K$

Durch die Verbindung mit einer Palatalisierung bei Dehnung (außer in pharyngalisierter oder uvularer Umgebung) ist diese Variation besonders auffallig bei offenem /a/: V / V- / V: /

# $K K$

mfa [m/α] 'er ist losgegangen' ha da [ h e d a ] 'dieses' mfat [m/t:t] 'sie ist losgegangen'

Im Auslaut wird der kurze Vokal mit einer gewissen Zentralisierung realisiert, die ich in den phonetischen Umschriften im Folgenden mit [α] notiere; dadurch brauche ich nur noch die beiden Quantitätendifferenzen im Wortinnern zu notieren (als Ν / vs. /V:/). 31 Diese bemerkenswerte Verteilung der Quantiäten, die gewissermaßen gegensinnig zu der in Quantitätensprachen ist, bei denen auf der Basis der Morengewichtung im Reim ein Quantitätenausgleich stattfindet, ist im Übrigen besonders deutlich im Berberischen, das die Kontraste konsonantischer Quantitäten frei distribuiert. Dabei besteht eine Präferenz dafür, intervokalische Langkonsonanten ambisyllabisch als Geminaten zu artikulieren, was bei der Nutzung der Längung des medialen Radikals zu grammatischen Zwecken ausgesprochen häufig vorkommt. Die konsonantische Längung korrespondiert mit der analogen Verteilung der phonetischen Dauer des vorausgehenden Vokals (vgl. z.B. Bahmad 1987:84), also (mit /KK*/ für den langen bzw. fortisierten Konsonanten): /V $ KV/ gegenüber /V:K S K*V/ Da die Domäne der Quantitätenverteilung das phonologische Wort ist, artikuliert diese zugleich eine grammatische Junktur, die in Wortspielen schon bei Kindergartenkindern in Marokko sehr beliebt ist, etwa : jab fas-u [3£:b.f£.su] 'er hat seine Hacke gebracht' vs. j a b- fas-u [3a.bfE.su] 'er ist mit seiner Hacke gekommen'. 32 Ein nicht-verlängerter Vokal in geschlossener Silbe signalisiert so eine morphologische Grenze: [...KVKj...] => °...KV#K...° Für eine phonologische Analyse ist nun zu fordern, diese beiden Seiten der marokkanischen Syllabierung einheitlich zu bestimmen: Die Verteilung der Länge bei den peripheren Vokalen und die Schwa-Syllabierung als Indikatoren der gleichen Silbenstruktur. Das ist umso nötiger, als diese beiden Erscheinungen auch interagieren, nämlich dann, wenn es im Sandhi zu Syllabierungskonflikten kommt. In Lento-Sprechweise findet sich Schwasyllabierung in Verbformen mit geminierten medialen Radikalen, und zwar auch, wenn es sich bei den

31

32

Wort ist hier immer als phonologisches Wort zu verstehen und nicht als das lexikalische Wort, wie sich vor allem bei Klitisierungen zeigt: vgl. °ktb-ha° [ktab.ha] aber °ma ktb-ha-J° [ma.ktab.he:/] bzw. mit weiter gehender Integration der Negationspartikel °ma° in Allegrosprechweise [me.ktab.he:/] 'er hat es (fem.) nicht geschrieben'. Eine genaue phonetische Analyse dieses Beispiels gibt Benkirane (2000).

Utz Maas

28

Radikalen um °j° oder V handelt, z.B. zu °t-fwwh° 'gähnen': [tfuw.wah] 'er hat gegähnt', [ka.tat.fuw.wah] (oder [ka.t:fuw.wah]) 'du gähnst'. Mit der Pluralmarkierung u° ergibt sich hingegen nur [tfui.hu] 'sie haben gegähnt' - die Syllabierung mit Schwa würde hier eine nicht zugelassene offene Schwa-Silbe produzieren: *[tfuw.wa.hu]. Parallele Beispiele finden sich auch im nominalen Bereich: °sm-ij-a° [smij:a] 'Name' ergibt im status constructus °sm-ij-t-u° [smi:tu] 'sein Name'. Hier fungiert die Vokaldauer als Markierung einer internen Junktur: [...KV:$K...] => °...KSSK...° Die marokkanische Silbenstruktur ist besonders transparent bei den berberischen Varietäten, die insofern auch als analytische Folie für die Analyse der z.T. komplexeren Verhältnisse beim marokkanischen Arabischen genutzt werden können (bei diesem spielen neben dialektalen Differenzen auch die Einflüsse durch die Hochsprache, das Schriftarabische, eine Rolle). Auszugehen ist von den Randbedingungen der Syllabierung des Wortes: Jedes phonologische Wort braucht als Grundlage für die Tonkontur der Äußerung ein sonores Maximum. Wenn dieses nicht durch einen lexikalisch festen (= peripheren) Vokal gegeben ist, erfolgt eine Schwa-Syllabierung. Für diese ist die negative Restriktion ausschlaggebend, dass keine offene Silbe entstehen darf. Daneben gibt es positiven Präferenzen für Sonoritätskonturen in den Silbenrändern, die hier nicht im Einzelnen besprochen werden können. Ein (konsonantischer) Anfangsrand ist nur wortmedial erforderlich, wie sich etwa bei affixlosen einradikalen Verbformen (Imperativen) zeigt: [ag] 'mach!' zu °g°, [aj] 'gib!' zu °J°. Mit dem marokkanischen Schwa sind Formen wie *[ga], *[/a] ausgeschlossen.

10. Die marokkanische Syllabierung: Bewegungssilbe und Silbenschnitt

Zur marokkanischen Syllabierung, vor allem zu den berberischen Varietäten, liegen auch im Kontext der 'Optimalitätstheorie' zahlreiche Arbeiten aus jüngester Zeit vor, die ihr mit mehr oder weniger großer Sensiblität für die empirischen Daten mit einer Modellierung im Sinne der Sonoritätssilbe beizukommen suchen - mit einigen paradoxen Folgen (vgl. etwa Dell & Elmedlaoui 1988). Recht durchsichtig werden die Verhältnisse dagegen bei einer Modellierung mit dem Konzept der Bewegungssilbe. Kern der Bewegungssilbe ist die öffnende Bewegung ihres Kopfes, des konsonantischen Anfangsrandes, die im Folgenden mit < repräsentiert werden soll. Wenn die Silbe komplex ist, weist sie zwei Bewegungsmomente auf: - die explosive Syllabierung: [K*] - die implosive Syllabierung: pK] Dadurch ergeben sich eindeutige Entsprechungen, aber auch Unterschiede gegenüber der Sonoritätssilbe:

Die Anschlusskorrelation des Deutschen im Horizont einer Typologie der Silbenstruktur

29

Tabelle 1: Sonoritäts- vs. Bewegungssilbe A Ν Ε

Sonoritätssilbe Konsonant Vokal Konsonant (Halbvokal)

Bewegungssilbe Konsonant < (Vokal) Konsonant (Halbvokal)

Für die arabische Phonetiker-Tradition, die an den Strukturen des Alt- bzw. Klassischen Arabischen ausgerichtet war und ist, ist die vokalische Füllung zwar im Wortinnem immer vorhanden, sie konnte aber in pausa durch die schon altarabisch verbreitete Apokope entfallen. Neuarabisch ist es anders: in den Varietäten des Maghreb sind Silben ohne vokalischen Kern an der Tagesordnung, sowohl im marokkanischen Arabischen, wie vor allen Dingen auch in dem in Marokko gesprochenen Berberischen. Diese Varietäten geben der an der Sonoritätssilbe orientierten phonologischen Diskussion Rätsel auf. Der Knackpunkt der marokkanischen Silbenstruktur besteht darin, dass die peripheren Vokale nur als Öffnungsbewegung der explosiven Syllabierung zugelassen sind (wenn man so will: mit losem Anschluss an ein eventuelles Folgesegment), nicht aber als Schließungsbewegung, während umgekehrt das Schwa nur als Syllabierungskoeffizient der implosiven Syllabierung vorkommt, also fest angeschlossen an das Folgesegment. Ich sehe in diesen Verhältnissen deshalb einen besonderen Typ der Silbenschnittkorrelation. Verwirrend für die vorliegenden Beschreibungen sind vor allem die Möglichkeiten der explosiven Syllabierung. Diese erlaubt zwar eine Artikulation durch periphere Vokale, verlangt sie aber nicht. 33 So finden sich lexikalisch vokallose Formen mit den Radikalen °ktb° 'schreib:', z.B. affixlos 3.S.M. Perfektiv °ktb° 'er hat geschrieben', präfigiert 2.S.M. Imperfektiv °t-ktb° '(dass) du schreibest', die zweisilbig syllabiert werden. Sie haben einen epenthetischen sonoren Kern (Schwa) in der zweiten Silbe des Wortes und eine reine Öffnungssilbe, artikuliert durch die Explosion des initialen Konsonanten (die ich auch [*] notiere) als erster Silbe: [l^tab], [^ktab] (oder [t s ktab]). Die z.T. reichlich konfuse Diskussion um derartige Formen resultiert nicht zuletzt aus der Projektion der normativ gesetzten Sonoritätssilbe, was u.a. zu so paradoxen Phantombeschreibungen wie 'stimmloses (überkurzes...) Schwa' u. dgl. für [°] fuhrt. Der entscheidende Punkt sind aber nicht die (lokalen) phonetischen Eigenschaften von [ K . / = [KaKK], wie bei [dabz] 'Pfuscherei'. Die morphoprosodische Polarisierung der Nomen-Verb-Unterscheidung ist zwar produktiv, wie sich an Tests mit Nonsensbildungen zeigen lässt, andererseits aber labil: Sie wird in einer ganzen Reihe von (phonologisch wie grammatisch definierbaren) Fällen neutralisiert. Vor allem aber werden in der modernen, städtisch geprägten Umgangssprache oft lexikalische Differenzierungen mit anderen Mitteln präferiert (in diesem Beispiel etwa die peripher syllabierte Masdarform [dbiz] 'Pfuscherei'). Die Einzelheiten sind zu komplex, um hier dargestellt zu werden (vgl. Maas i.E.).

36

In einer späteren Arbeit (1996) schließen Dell & Elmedlaoui ausdrücklich eine Syllabierung wie die von mir i.S. der Bewegungssilbe vorgeschlagene aus und versuchen, die von mir hier als nicht (peripher) vokalisiert betrachteten Öffnungssilben [K*] rein phonotaktisch aus konsonantischen Verschlusslösungen abzuleiten, die für ihre Syllabierung i.S. der Sonoritätssilbe irrelevant sind. Eine ausfuhrliche Diskussion ist hier nicht möglich.

Utz Maas

32 11. Zur Typologie des Silbenschnitts

Eine Typologie des Silbenschnitts verlangt offensichtlich vor allem, eine große Zahl komplexerer phonologischer Systeme strukturell aufzubereiten. Dazu würde ich insbesondere die aus dem Kaukasus berichteten Beispiele von Sprachstrukturen rechnen, deren Vokalisierung ähnlich wie im Berberischen eine sekundäre Erscheinung ist - die dort aber, anders als im Marokkanischen, von der Akzentuierung gesteuert wird. Die recht bewegte Diskussion (vgl. etwa Job 1977) dreht sich darum, ob man eine solche Annahme zulässt - oder eben auch die Syllabierung dieser Sprachen in das Prokrustesbett des agglutinativen Silbenmodells der klassischen Schulsprachen stecken will. In weiteren Untersuchungen wird es darum gehen müssen, auf der einen Seite die phonetischen Fundierungsmöglichkeiten von Silbenschnittkorrelationen zu explorieren, auf der anderen Seite ihre funktionale Nutzung im jeweiligen Sprachsystem zu untersuchen. Was den ersten Punkt anbetrifft, so wird zu klären sein, ob sich eine Anschlusskorrelation auf der Basis von phonetischen Indikatoren, wie sie in den germanischen Sprachen zu finden sind, auch in Sprachen bewährt, die als Tonsprachen im Trubetzkoyschen Sinne einem aggregativen Modell folgen. Zu dieser Gruppe gehören z.B. die Oto-Mange-Sprachen in Mittelamerika, falls deren 'ballistischer' Silbenschnitt tatsächlich dem Typ des festen Anschlusses entsprechen sollte (bzw. der 'nicht-ballistische' Schnitt dem losen Anschluss, vgl. dazu Rensch 1978).37 Genereller wäre hier die in Abschnitt (3) angesprochene Korrelation von Silbenschnitt nach dem germanischen Typ und akzentdominierten Sprachen zu überprüfen; der marokkanische Typ hat sich ja in einer Sprache ohne festen (Wort-)Akzent ausgebildet, die allerdings ansonsten auch nicht die Merkmale einer silbenmessenden Prosodie aufweist. Schließlich ist es für die Typologie zentral, die Distribution der verschiedenen Silbentypen zu klären. Ausgehend von der offensichtlich überwiegend aggregativen Syllabierung in den Sprachen der Welt lässt sich vermuten, dass diese besonders robuste Eigenschaften aufweist, denen gegenüber andere Syllabierungstypen relativ labil sind, wenn sie zur Sonoritätskontur inkongruente Gliederungen möglich machen. Diese Annahme findet eine Bestätigung in der Genese und der relativ geringen Festigkeit der Silbenschnittkorrelation im phonologischen Umbau der germanischen Sprachen und insbesondere auch in ihrer Verbreitung im deutschen Sprachraum. Das spricht dafür, dass es sich hier um eine Übergangserscheinung handelt, die sich auch im deutschsprachigen Raum keineswegs ausdehnt, sondern der konkurrierende Silbenmodelle gegenüberstehen, insbesondere der aggregierende Typ, der wohl den alemannischen Raum bestimmt. Auch das bairische Modell lässt sich zwar als Anschlusskorrelation fassen, entspricht aber nicht der Silbenschnittkorrelation der deutschen Standardvarietät. Spiekermann (2000) hat eine solche typologische Differenzierung der deutschen Sprachregionen unternommen. Für den afroasiatischen Sprachraum gilt vermutlich ähnliches, ist die maghrebinische Silbenschnittkorrelation doch nicht weniger marginal und jung. In der arabischen Varietät des Marokkanischen erweist sie sich ebenfalls als Reaktion auf den Kollaps des alten Quantitätensystems. Im Berberischen ist die Rekonstruktion aufgrund der zu dürftig dokumentierten Sprachgeschichte schwieriger.

37

Eine entsprechende Untersuchung bereitet Bernhard Hurch vor.

Die Anschlusskorrelation

des Deutschen im Horizont einer Typologie der

Silbenstruktur

33

Das sind alles noch sehr vorläufige Bemerkungen; sie unterstreichen aber, dass es überfallig ist, die Silbenschnitt-Diskussion aus der Ecke eines angestaubten Requisits der überholten und germanistisch geprägten Ecke der Fachgeschichte herauszuholen und ihr den seit Trubetzkoy angestammten zentralen Platz in einer phonologischen Typologie einzuräumen.

Literatur

Bahmad, M. (1987): Etude phonologique et phonetique du Tamazight d'Azrou. - These du 3e cycle, Nancy. Becker, Thomas (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt: Lang. Benkirane, Tamy (2000): Codage prosodique de l'inonce en arabe marocain, - Th6se de doctorat d'Etat, Aix-en-Provence: Universite. Blevin, Juliette (1995): The syllable in phonological theory. - In: John A. Goldsmith (Hg.): The handbook of phonological theory, 206-244. Oxford: Blackwell. Cohen, David (1963): Le dialecte arabe Hassaniya de Mauritanie. - Paris: Klincksieck. Daniels, Peter. T./William Bright (Hgg.) (1996): The world's writing systems. - Oxford usw.: Oxford University Press. Dell, Francois/Mohammed Elmedlaoui (1988): Syllabic consonants in Berber. - In: Journal of African Languages and Linguistics 7, 1-17. - (1996): On consonant releases in Imdlawn Tashlhiyt Berber. - In: Linguistic 34, 357-395. Durand, Olivier (1994): Grammatica de arabo marocchino. - Rom: Studi semitici. - (1998): Lineamenti di lingua berbera. - Rom: Studi semitici. Erasmus von Rotterdam (1528): De recta Latini Graecique sermonis pronuntiatione dialogus. - Hg. [und übersetzt] von J. Kramer. Meisenheim: Glan 1978. Fischer, Wolfdietrich (1967): Silbenstruktur und Vokalismus im Arabischen. - In: Zeitschrift der Deutschen Morgenländischen Gesellschaft 117, 30-77. Hurch, Bernhard/Utz Maas (1998): Morphoprosodie des marokkanischen Arabischen. - In: Folia Linguistica 22, 239-263. Jespersen, Otto (1913, 4 1926): Lehrbuch der Phonetik. - Leipzig: Teubner. Job, Michael (1977): Probleme eines typologischen Vergleichs iberokaukasischer und indogermanischer Phonemsysteme im Kaukasus. - Bern: Lang. Keil, Heinrich (Hg.) (1864), Grammatici latini, Bd. 2. - Leipzig [Nachdruck Hildsheim: Olms 1961], Ladefoged, Peter (1982, 3 1993): A course in phonetics. - New York: Harcourt Brace. Ladefoged, Peter/Ian Maddieson (1996): The sounds of the world's languages. - Oxford: Blackwell. Lehtonen, Jaako (1970): Aspects of Quantity in Standard Finnish. - Jyväskylä (= Studia Philologica Jyväskyläensia 6). Lüdtke, Helmut (1969): Die Alphabetschrift und das Problem der Lautsegmentierung. - In: Phonetica 20, 147-176. Maas, Utz (1970): Syntactic doubling, with special reference to Occitanian. - In: Romance Philology 23,567-571. - (1999): Phonologie. Einführung in die funktionale Phonetik des Deutschen. - Opladen: Westdeutscher Verlag. - (2000): Moroccan: A language in emergence. - In: J. Owens (Hg.): Arabic as a minority language, 383-404. Berlin: Mouton. - (i.E.), Nomen und Verb im maghrebinischen Sprachbund. - In: Mediterranean Language Review. Maas, Utz/Doris Tophinke (1993): Loser und fester Anschluss. - In: Jürgen Schmidt-Radefeldt et al. (Hg.): Sprachwandel und Sprachgeschichte. Festschrift für Helmut Lüdtke, 133-151. Tübingen: Narr.

34

Utz Maas

Mooshammer, Christine (1998): Experimentalphonetische Untersuchungen zur artikulatorischen Modellierung der Gespanntheitsopposition im Deutschen. - In: Forschungsberichte des Instituts für Phonetik und sprachliche Kommunikation der Universität München (FIPKM) 36, 3-192. Pike, Kenneth (1943, 9 1964), Phonetics. - Ann Arbor: University of Michigan Press - (1967): Language in relation to a unified theory of the structure of human behavior. - Den Haag: Mouton. Prasse, Karl (1972-74): Manuel de grammaire touaregue (tahaggart), 3 Bde. - Kopenhagen: Akademisk forlag. Prince, Alan/Paul Smolensky (1993): Optimality theory. - New Brunswick: Center for cognitive studies (Techn. Rep. RuCCS TR2). Rensch, C.R. (1978): Ballistic and controlled syllables in Otomanguan languages. - In: A.J. Bell, J.B. Hooper (Hgg.): Syllables and segments, 85-92. Amsterdam: North Holland. Saussure, Ferdinand de (1916, 1965), Cours de linguistique generale. - Paris : Payot. Sievers, Eduard (1876, 1901): Grundzüge der Lautphysiologie zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. - Leipzig (Nachdruck Hildesheim: Olms). Spiekermann, Helmut (2000): Silbenschnitt in deutschen Dialekten. - Tübingen: Niemeyer. Stetson, R.H (1945, 2 1954): Bases of Phonology. - Oberlin: Oberlin College. Trubetzkoy, Nikolaj (1939, 2 1958): Grundzüge der Phonologie. - Prag [Nachdruck: Göttingen: Vandenhoeck & Ruprecht]. Vennemann, Theo (1988): Preference Laws for Syllable Structure. - Berlin: de Gruyter. - (1990): Syllable structure and simplex accent in Modern Standard German. - In: Papers from the 26th Regional Meeting of the Chicago Linguistic Society, Bd. 2: 399-412, Chicago: Linguistic Society. Wolf, Oskar (1871): Sprache und Ohr. Akustisch-physiologische und pathologische Studien. - Braunschweig: Vieweg.

David

Restle

Normierung der Silbenquantität. Ein typologischer Beitrag zur Charakteristik des Silbenschnitts in und außerhalb der Germania

1. Einleitung

Einer der auffallendsten Teilaspekte der Entwicklung der prosodischen Systeme der germanischen Sprachen zu ihrem modernen Gepräge hin ist die Veränderung, die diese Systeme im Zusammenhang mit dem Zusammenbruch der distinktiven Quantitäten erfahren haben. Die teilweise dadurch entstehenden Silbenschnittsysteme lassen sich danach einteilen (so z.B. Riad 1995), ob sie dem Wirken des sogenannten Prokosch'schen Gesetzes (präferierte Zweimorigkeit in Tonsilben) bevorzugt durch Dehnung bzw. Ambisyllabierung postvokalischer Konsonanz entsprechen (vgl. Schwedisch, Norwegisch), oder aber durch Dehnung des Tonvokals (vgl. Deutsch, Englisch). Eher selten wird bei dieser vermeintlich innergermanischen Entwicklung berücksichtigt, dass auch das Spätlateinische eine Normierung der ursprünglich distinktiven Quantitäten erfuhr und dadurch ein silbenschnittähnliches Gepräge erhielt, das im heutigen Standarditalienischen fortwirkt. Ein Ziel dieser Untersuchung liegt daher zunächst in der Erarbeitung und Präzisierung von Kriterien zur Klassifizierung von silbenschnittähnlichen Sprachen. Diese Kriterien werden im Anschluss dazu verwendet, um den Katalog der bekannten silbenschnittähnlichen Sprachen zu erweitern. Die bisher angeführten Sprachen legen alle einen engen Nexus zwischen Silbenschnitt und ursprünglich distinktiver Quantität nahe, die durch das Wirken des Prokosch'schen Gesetzes annulliert wird. Ein weiteres Ziel dieses Beitrags liegt in der Überprüfung dieser These anhand zweier bisher nicht mit dem Phänomen des Silbenschnitts in Zusammenhang gebrachter Sprachfamilien, dem Semitischen und den südsulawesischen Sprachen - ein Vergleich, der Zweifel an den bisherigen Entwicklungstheorien (vgl. z.B. Vennemann 19910:239) aufkommen lässt.

2. Das Konzept des Silbenschnitts

Die Verwendung des Begriffs Silbenschnitt in der wissenschaftlichen Literatur lässt sich in drei Kategorien einteilen: a) als Bezeichnung für einen Perzeptionskontrast, der die Wahrnehmung von Oppositionen wie dt. Miete vs. Mitte begleitet, b) als Bezeichnung für ein phonetisches Konzept und c) als Bezeichnung für ein phonologisches Konzept.

36

David Restle

2.1

Der Perzeptionskontrast

Silbenschnittähnliche Beschreibungen des entsprechenden Perzeptionskontrasts finden sich bereits vor der Zeitenwende für das Griechische, so bei Dionysios von Halikarnassos (1. Jh. v. Chr.) Charakterisierung der langen und kurzen Vokale (Steinthal 1891:196): Die langen Vokale haben einen gedehnten und dauernden Strom des Atems (τεταμένον λαμβάνει και διηνεκή τόν αϋλόν τού πνεύματος); bei den kurzen erhält der Atem nur e i n e n Schlag und wird abgeschnitten (εξ άποκοπής τε και μιρ πληγή πνεύματος, και τής Αρτηρίας έπί βραχύ κινηθείσης εκφέρεται).

Auch in der deutschen Grammatikgeschichte erscheint das Silbenschnittkonzept bereits früh, so in Valentin Ickelsamer's Teutsche Grammatica (um 1534, zitiert nach Müller 1882:154f): Ain schentlich weis ists/ das man schier in allen wortern gedupelte bfichstaben setzet/ da nur der ainig von noten ist/ Es geben und machen auch etliche Regel dauon/ das wa ain buchstaben in ainer silben aines worts starck lauten soll/ so soll man den selben dupliert oder zwifach setzen. [...] Es ist und kumbt on zweyfel solche sterk der silben mehr von dem lautbuchstaben/ dann von dem duplierten mitstymmer/ [...] Nämlich/ wa man den laut lang vnd wol dehnet/ vnd nit bald dauon abschnapt/ da verzeret sich vnnd verschwindet durch solchen deütlichen laut/ die scherpff des nachgeenden büchstabens, als Man/ den/ Wa man aber behend vnd gleich mit ainem gewalt vnd sturmm über den laut auff den mitstymmer springt/ als im Mann/ dann/ da man den laut auß behender nennung kaum hört/ geschieht ain solche scherpff oder sterck der zwaier züsamen geschlagner mitstymmer/ dann die lautbuchstaben sein waich/ vnd wa man sy lang zeühet/ machen sy ain waiche stymm/ Die mitstymmer aber sein scharpff/ da rumb geben sy solche sterck/ gleych wie man zway harte ding/ stain/ holtz/ oder eysen auf ainander stost. Charakteristisch für den Perzeptionskontrast ist das enge Verhältnis von kurzem betontem Vokal und nachfolgender Konsonanz beim scharfen Schnitt (vgl. [i] und [t] in dt. Mitte), das bei Ickelsamer mit dem Aneinanderstoßen von zwei harten Gegenständen verglichen wird, und das Fehlen dieser Perzeption beim sanften Schnitt. In der für die Silbenschnittforschung des 20. Jhds. prägenden Darstellung durch Eduard Sievers entspricht dieses Aneinanderstoßen einem sogenannten stark geschnittenen Silbenakzent, bei dem der Vokal im Moment seiner maximalen Klangfülle durch den folgenden Konsonanten abgeschnitten wird. Nahezu zeitgleich findet sich bei John Hart (1551, 1569) eine ähnliche Beschreibung für das Englische, wie Murray (in diesem Band) zeigt. Wie Ickelsamer geht auch Hart von einer einzigen Vokalreihe aus, die sich durch Dehnung (bzw. durch fehlende Dehnung) weiter ausdifferenziert (in diesem Band: 106). Die postvokalischen Konsonanten werden unter scharfem Schnitt von Hart (1551) als "hart" und, expliziter als bei Ickelsamer, als "lang" charakterisiert (Murray in diesem Band: 115). Die kontinuierliche Wiederaufnahme des Silbenschnittkonzepts mit seiner charakteristischen Interdependenz von Vokal und Konsonantenartikulation von Ickelsamer bis heute belegt die Stabilität des entsprechenden Perzeptionskontrasts (vgl. für das Deutsche deren tabellarische Übersicht im Anhang sowie Restle 1998:1-91).

Normierung der

2.2

Silbenquantität

37

Die Phonetik des Silbenschnitts

Ein direktes physiologisches Korrelat zu dem Perzeptionskontrast einer engeren Verbindung zwischen Vokal und Folgekonsonant beim scharfen Schnitt fehlt bisher (trotz anderslautender Aussagen bei von Essen 1962:592, die durch Fischer-Jergensen/Jargensen (1969) widerlegt wurden). 1 Allerdings konnte Spiekermann für einen Teilbereich des deutschen Sprachraums ein weiteres akustisches Korrelat nachweisen. Dieses lässt sich nach Spiekermann (2000:227) als ein "Halten eines hohen Energieniveaus" charakterisieren, das bei sanftem Schnitt deutlich stärker ist als bei scharfem Schnitt. Es ist vor allem in den nördlicheren Teilen des deutschen Dialektraums zu finden und korrespondiert mit den bereits bekannten anderen phonetischen Korrelaten im restlichen Gebiet (z.B. mit den kombinatorischen Vokal- und Konsonantendauern im Bayrischen und den Vokaldauerdifferenzierungen im Südwesten). Aufgrund seiner areal eingeschränkten Verbreitung eignet sich dieses Korrelat allerdings wenig als Charakteristikum fur das Phänomen des Silbenschnitts in toto, obwohl es sich zugute halten kann, dass es dem Perzeptionskontrast intuitiv sehr nahe kommt. Die bekannten segmentalen Realisierungsformen des scharfen Schnitts unterscheiden sich teilweise für die einzelnen präsumptiven Sprachen mit Silbenschnitt. Für das Standarddeutsche sind zu nennen: (1)

Segmentale Realisierungsformen des scharfen Schnitts 1. im Bereich des Nukleus a) Vokalqualität: größere Zentralisierung bezüglich des Formantraums (mit Einschränkungen bei [a:] vs. [a] und [ε:] vs. [ε]) und bezüglich der vertikalen und horizontalen Zungenposition, b) geringere Dauer, c) geringe Dehnbarkeit, d) höhere Grundfrequenz bei [a:] (bei den nichttiefen Vokalen bestehen kaum Unterschiede); 2. im Bereich der postvokalischen Konsonanz a) größere Dehnbarkeit, b) physiologisch stärkere Artikulation.

Die Relikte einer möglicherweise erhöhten Dauer von postvokalischer Konsonanz (vgl. Restle 1998:51-56) unter scharfem Schnitt sind in der heutigen Ausprägung des Standarddeutschen nur schwach (vgl. Restle/Mooshammer 1999). Trubetzkoy (1977:198) scheint anzunehmen, dass sie für alle Sprachen mit Silbenschnittkorrelation und somit auch für das Standarddeutsche charakteristisch ist: Dagegen ist in allen Sprachen mit Silbenschnittkorrelation der Gegensatz zwischen geminierten und ungeminierten Konsonanten nur eine phonologisch irrelevante Begleiterscheinung. In diesen Sprachen darf man eigentlich nicht von geminierten, sondern nur von fest angeschlossenen Kon-

1

Von einem solchen (bisher nicht belegten) Kontrast des Kopplungsgrads zwischen Vokal und Konsonant ist der weiter unten angeführte Kopplungsgradkontrast zwischen Öffnungs- und Schließungssegment zu trennen.

38

David Restle sonanten reden, deren relativ längere Dauer nur die Folge ihres festen Anschlusses an den vorhergehenden Vokal ist.

Hingegen ist für das von Trubetzkoy (1977:197) ebenfalls zu den Silbenschnittsprachen gezählte Schwedische wie auch für das Norwegische und das Mittelbairische (Bannert 1976) die erhöhte Konsonantendauer neben der größeren Dehnbarkeit und stärkeren Artikulation ohne Zweifel eines der wichtigsten segmentalen Korrelate des scharfen Schnitts. Im weitesten Sinne ist auch die Perzeption des Silbenschnitts und der Ambisyllabizität unter scharfem Schnitt zu dessen suprasegmentalen phonetischen Korrelaten zu zählen, falls diese experimentell untersucht wird (wie z.B. in Fliflet 1962, 1963, ansonsten ist sie zu 2a) zu zählen). Ein im engeren Sinne suprasegmentales phonetisches Korrelat des Silbenschnitts liegt in dem durch Hoole et al. (1994) (vgl. auch Hoole/Mooshammer in diesem Band) instrumentalphonetisch nachgewiesenen Kopplungsgradkontrast zwischen artikulatorisch definierten Öffhungs- und Schließungssegmenten vor. Diese Segmente finden sich in (2) als CV- und VC-Segmente. Die Zeitfunktion des primären Artikulators wird dabei mittels der elektromagnetischen Artikulographie (EMA) gewonnen. Das Geschwindigkeitssignal wird in drei Phasen segmentiert, 1. ein CV-Segment, das den Großteil der artikulatorischen Öffnungsbewegung enthält, also der Bewegung von der konsonantischen Enge (in diesem Fall des Verschlusses) zur vokalischen Weite, 2. ein VC-Segment, das den Großteil der artikulatorischen Schließungsbewegung, also der Bewegung von der vokalischen Weite zur Enge der Artikulation des folgenden Konsonanten, beinhaltet und 3. den sogenannten artikulatorischen Nukleus, der die Nahtstelle zwischen der artikulatorischen Öffnung und der folgenden Schließung enthält. Der artikulatorische Nukleus ergibt sich dabei auf rein rechnerischem Wege, indem der Bereich, bei dem die Geschwindigkeit unter ein Limit von 20% der in der ÖfFnungs- bzw. Schließungsphase erreichten Maximalgeschwindigkeit fallt, dem Nukleus zugerechnet wird. Eines der zentralen Ergebnisse dieser phonetischen Untersuchung ist, dass silbenschnittinduzierte Unterschiede wie segmentale Dauer und segmentale Qualität sich nicht auf die Dauer und Form der Öffnungs- und Schließungsphasen auswirken. Vielmehr sehen Hoole et al. (1994:56) den zentralen Unterschied an einer anderen Stelle: The crucial durational difference between tense and lax vowels involved the nucleus segment. It should be emphasised that we do not see this segment as a kind of steady-state phase. Rather, the duration and the variability in the duration of the nucleus can more profitably be seen as a measure of the tightness of the coupling between the CV and VC movements: tight for lax vowels, loose for tense vowels.

39

Normierung der Silbenquantität

ρ

i

:

ρ

3/

/a

ρ

ι

ρ

a/

(2)

/a

(3)

Suprasegmentale Realisierungsformen des scharfen Schnitts 1. Zwischen artikulatorischer Öffhungs- und Schließungsphase: a) enge Kopplung. 2. Im Bereich des artikulatorischen Nukleus: a) geringe, in Relation zu Öffnung und Schließung proportionale Komprimierbarkeit (im Gegensatz zu einer großen und überproportionalen Dehnbarkeit unter sanftem Schnitt).

Diese suprasegmentalen phonetischen Korrelate sind allerdings in den meisten der bestehenden phonologischen Modelle nicht interpretierbar. Denn der phonetisch belegte Kopplungsgradkontrast bezieht sich ja auf artikulatorische Öffnungs- und Schließungselemente, nicht aber auf phonologisch idealisierte Abfolgen von Einzelsegmenten, d.h. von 'Vokalen' und 'Konsonanten'. Daher wurde in Restle (1998) ein phonologisches (Silben-)Modell entwickelt, in das sich die phonetischen Korrelate leichter integrieren lassen. Dieses Modell wird im folgenden Abschnitt vorgestellt.

3. Eine Reanalyse des Silbenschnitts

3.1

Die Oszillationssilbentheorie

Die Grundlage dieses Modells liegt in der Annahme von zunächst zwei Basiskategorien, einer Öffnungs- und einer Schließungsphase, denen als phonetisches Korrelate Vokaltraktöffnungen und Vokaltraktschließungen entsprechen; weder dem Einzellaut noch der Silbe selbst wird ein ähnlich primärer Status zuerkannt.

40

David Restle

(4)

Grundkategorien der Oszillationssilbentheorie (unvollständig) 2 Öffnungsphase

Schließungsphase

Das Konzept des phonologischen Einzellauts spielt nur als abgeleitete Kategorie eine Rolle, nämlich als Ausgangspunkt bzw. Endpunkt von Öffnungs- bzw. Schließungsphasen. Letzteres wird in Repräsentation dadurch zum Ausdruck gebracht, dass diese Spezifikationen unterhalb jeder einzelnen Phase anzugeben sind, wie dies in (5) fur die Öffnungs- und Schließungsphase von Kamm illustriert wird. Die komplexeren, durch die Transitionen [v] bzw. [1] erweiterten Öffnungs- und Schließungsphasen von Qualm werden analog dargestellt. (5)

Spezifizierung von Anfangs- und Endkonfigurationen der Grundkategorien am Beispiel von [kham] (oben) und [kvalm] (unten) Öffnungsphase

3

Kamm ka

am

Κ

Qualm

Schließungsphase

kva

aim

Diese Basiskategorien sind nun mittels einer sprachspezifisch zu differenzierenden Anzahl von Basisrelationen kombinierbar, die im folgenden Kopplungsgradkontraste genannt werden. Für das Deutsche sind dabei drei Relationen anzusetzen: (6)

Grundrelationen

Phonologische Basisrelation

Phonetische Korrelate Repräsentation

2 3

Lose Kopplung

Enge Kopplung

Verschmelzende

Kopplung

Zwischen Öffnungs- und SchlieBungsphase V dehnbar V nicht dehnbar V nicht dehnbar V länger V kurz bis nicht vorhanden V kürzer V zentral oder nicht vorhanden V peripher V zentralisierter

^Z

3

Eine Erweiterung dieser Grundkategorien wird in Restle (1998) für Appendices und Hiate vorgeschlagen. Die Kopplungsgrade werden der besseren Lesbarkeit halber, wo das möglich ist, zusätzlich oder alternativ durch Eng- vs. Distanzstellung der Grundkategorien repräsentiert: Lose Kopplung:

oder

Normierung der

41

Silbenquantität

Phonetische Korrelate

Repräsentation

Phonetische Korrelate

Zwischen Schließungs- und Öffnungsphase C dehnbar C kaum dehnbar (C länger) (C kürzer) C stärker artikuliert C schwächer artikuliert

Z E

Wort- oder phrasenfinal 4 V kaum dehnbar V dehnbar V kürzer V länger V zentralisierter V peripher

KT"

Repräsentation

^r

Phonetische Korrelate

C dehnbar (C länger) C stärker artikuliert

Repräsentation

Hl

V nicht dehnbar V kurz bis nicht vorhanden V zentral oder nicht vorhanden

C kaum dehnbar (C kürzer) C schwächer artikuliert

ZC

Sogenannte Oszillationssilben entstehen dabei durch die Abfolge einer Öffnungsphase und einer sich anschließenden Schließungsphase. Wort- bzw. phraseninitiale Schließungsphasen und wort- bzw. phrasenfinale Öffnungsphasen bilden defektive Oszillationssilben. Beim Vergleich der jeweiligen phonetischen Korrelate wird deutlich, dass der Parameter Dehnbarkeit sowohl für den Bereich der Kopplung zwischen Öffnung und Schließung als auch fur den Bereich der Kopplung zwischen Schließung und erneuter Öffnung charakteristisch ist. Das zweite phonetische Korrelat, das der erhöhten Dauer, ist zumindest in Sprachen wie dem Schwedischen, Norwegischen und Mittelbairischen auf beide Kopplungsbereiche anwendbar - für das heutige Englische und eventuell für das Deutsche allerdings nur für die Kopplung zwischen Öffnung und nachfolgender Schließung. Für die dritte Gruppe von segmentalen phonetischen Korrelaten entspricht dem vokalischen Prädikat der Dezentralisierung auf der Seite der konsonantischen Prädikate eine höhere physiologische und zum Teil akustische Intensität (vgl. Fischer-Jergensen/Jergensen 1969 und Restle 1998). Dezentralisierung der Monophthonge und Stärke der Konsonantenartikulation werden hier terminologisch unter dem Begriff 'segmentale Prominenz' zusammengefasst.

Enge Kopplung:

—ü^— gföjla pila > span. p[e]lla

In einzelnen Teilbereichen der Romania ist allerdings der Zusammenfall anders geartet: Neben dem bereits erwähnten Sardischen (vgl. (21)) verzeichnet z.B. das Rumänische einen solchen Zusammenfall nur im vorderen Teil des Vokalsystems (i und e), während im Hinterzungenbereich ö und ο fusionieren. (Rohlfs 1949:44).

50

David Restle

Ausgehend vom Altlateinischen werden also zunächst die überlangen Silben eliminiert (zeitlich gestaffelt nach der Stärke des Konsonanten in der Struktur VC), ehe der Abbau der kurzen Silben eine vollständige Normierung der Silbenquantitäten herbeifuhrt. Die Parallelität dieser Entwicklung zur entsprechenden Entwicklung innerhalb der Germania wird noch verstärkt durch die Bevorzugung der Vokaldehnung gegenüber der Konsonantendehnung (Weinrich 1958:23), d.h. durch die Präferenz zur Öffnungsprominenz; dies ist keineswegs zu erwarten, da j a nach dem lateinischen Quantitätenkollaps im Gegensatz zum Frühneuhochdeutschen die Konsonantendauer als distinktive Eigenschaft erhalten bleibt. Als Resultat des Quantitätenkollaps nach Weinrich (1958:25) ist eine automatisch geregelte Kombination von Tonvokaldauer und Dauer der nachfolgenden Konsonanz anzusehen, in der nun gegenüber dem klassischen Lateinischen entweder die Vokaldauer oder aber die Konsonantendauer entphonologisiert ist. Bei der Beantwortung der Frage, ob nun die Konsonanten- oder die Vokaldauer als distinktiv anzusetzen ist, fuhrt Weinrich (1958:25ff) die Robustheit einzelner phonologischer Entwicklungen an. So hat sich bei der expressiv-affektischen Konsonantendehnung (vgl. z.B. Dubletten wie cüpa ~ cüppa und die Entwicklung brütum > {*bruttum) > it. brutto), die ursprünglich unabhängig von der bestehenden Vokalquantität erfolgen konnte, nach der Einebnung der Silbenquantitäten meist die Gemination erhalten. Die geminierten Formen haben sich darüberhinaus durch Assimilationen und Kompositionen vermehrt (vgl. z.B. *sterla > Stella, ad+dare > addere) - ein Umstand, der auch dazu beigetragen haben dürfte, die durch expressiv-affektische Dehnung entstandenen Geminaten als phonematisch anzusehen. Die Gemination ist gegenüber der Dehnung vor allem in prä-pänultimaler Position unter Haupt- oder Nebenakzent bevorzugt (femina > Jemmina, pele'grino > pelle'grino, vgl. Rohlfs (1949:378ff), Hurch/Tonelli (1984:397). Weinrich (1958:33) fasst hier wie folgt zusammen: Da sich in bedeutend mehr Fällen die Konsonantenquantitäten behauptet haben als die Vokalquantitäten, und zwar nahezu immer unter den Bedingungen der expressiven Länge, sind die Vokalquantitäten als abhängig und damit als irrelevant, die Konsonantenquantitäten aber als phonologisch relevant anzusehen. Weinrich sieht in der expressiv-affektischen Konsonantendehnung, deren Parallelität mit entsprechenden Entwicklungen im germanischen und keltischen Raum er betont (S. 27), auch den Grund für den Zeitpunkt und die Geschwindigkeit, mit der der lateinische Quantitätenkollaps sein Ende nimmt. 16

16

Das Stadium der distinktiven Konsonantenquantitäten und den davon abhängigen Vokaldauern (Kurzvokal nur vor Langkonsonanz, Langvokal nur vor Kurzkonsonanz) ist so nur im Standarditalienischen erhalten. Im Spanischen und Rumänischen führte eine spätere Degemination der Konsonanten zu einer entsprechenden Einebnung der Vokaldauern. In der nördlichen Romania und in Ostitalien ist nach Weinrich (1958:182ff) hingegen durch die sogenannten Vokaldifferenzierung ein neues bzw. erneutes Vokalquantitätssystem entstanden.

Normierung

der

51

Silbenquantität

3.3.1.2 Italienisch Das Standarditalienische erhält den Zustand der Romania vor der Degemination am Neuesten; allerdings sind im Vergleich zum Deutschen die Kopplungseigenschaften der Tonsilben stärker von der Silbenstruktur abhängig, indem Langvokale in geschlossener Silbe ausgeschlossen sind. Auf der anderen Seite sind mit Wörtern wie cittä oxytonale Strukturen zugelassen, die dem obigen AKK-Kriterium 1 zu widersprechen scheinen, nämlich solche mit betontem Kurzvokal in offener Silbe, vgl. (24) Typ 3: (24)

Die Struktur der italienischen Haupttonsilbe Typ 1 Typ 2 'mare 'Meer' 'posso 'ich kann'

\ ma

\ ar

rV

• v po OS

Ν |so|

Typ 3 cittä 'Stadt' ^

z n x : "ti | it | [~tä~|

Distinktive Gemination ist nicht nur unter Hauptakzent ('leso 'beschädigt' vs. 'lesso 'gekocht') zu finden, sondern auch vortonig, vgl. ca'mino 'Kamin' vs. cam'mino 'Weg'. Die Abhängigkeit der relativ zur Konsonantendauer komplementär ausgeprägten Vokaldauer vom Wirken des Hauptakzents wird durch die phonetische Untersuchung von Picket et al. (1999) belegt. Während ein akzentuierter Vokal vor Geminate meist deutlich kürzer als vor einfachem Konsonanten realisiert wird, fielen die durch die Konsonantendauer hervorgerufenen Effekte auf die Vokaldauer in vortoniger Position schwach aus (Picket et al. 1999:141-145). Dennoch sehen die Autoren in der Vokaldauer ein überaus wichtiges perzeptuelles Korrelat für die prosodische Opposition des Italienischen, weil sie zeigen können, dass die Konsonantendauer allein nicht in der Lage ist, über wechselnde Sprechgeschwindigkeiten hinweg eindeutig zwischen einfachen und geminierten Konsonanten zu unterscheiden. Sie plädieren daher für das Wirken einer stabileren höheren prosodischen Kategorie, der Proportion von Vokaldauer und Dauer des nachfolgenden Konsonanten ("C/V-ratio"), die weniger von der Sprechgeschwindigkeit abhängig ist. Die von Picket et al. (1999) nicht erwähnte Parallelität dieses Ansatzes mit dem von Bannert (1976) für das Mittelbairische und Schwedische ist frappierend. Darüber hinaus weisen Picket et al. (1999:154) daraufhin, dass die im Italienischen vorliegende Abhängigkeit der Vokaldauer von der Konsonantendauer insbesondere kein generelles Charakteristikum von Sprachen mit phonologischer Konsonantenquantität ist, wie man am Vergleich mit den Verhältnissen im Türkischen, Bengalischen, Arabischen und Japanischen sieht. Die aus dem Rahmen fallenden Oxytona mit kurzem Vokal in offener Silbe sind Auslöser eines unter dem Begriff raddoppiamento fonosintattico (RF) bekannten SandhiPhänomens, bei dem der initiale Konsonant des folgenden Wortes gedehnt wird, vgl. Rohlfs (1949), Loporcaro (1988), Basboll (1989), Repetti (1991). Es liegt nahe, das RF durch das Wirken einer satzphonetisch interpretierten Wohlgeformtheitsbedingung wie dem Prokosch'schen Gesetz zu motivieren. Da dieses Kriterium der bevorzugten Zweimorigkeit aber nur für betonte Silben gilt, müsste man die Fälle (25) b) und c) sowie dialektale Besonderheiten des RF anderweitig oder zumindest zusätzlich begründen, wie das Loporcaro (1988) tut.

52 (25)

David

Restle

Raddoppiamento Fonosintattico: a) bei mehrsilbigen Oxytona in Pausa bei bedeckter Initialsilbe des folgenden Wortes cihä cihä [g:]rande 'große Stadt' b) nach akzentuierten Einsilblern x 1 da da ft.Jutto '(er) gibt alles' c) nach einigen unakzentuierbaren Einsilblern e e [t:]u 'und du' d) nach einigen Paroxytona come come [m:Je 'wie ich'

Selbst wenn man feststellt, dass die dem AKK-Kriterium 1 widersprechenden oxytonen Strukturen in Wörter wie cittä, pappä, caffe satzprosodisch vermieden werden, bleibt dennoch deren exzeptionelle Struktur in Pausaposition erhalten. Vayra (1994) zeigt jedoch, dass gerade diese betonten Kurzvokale laryngale Reflexe an deren Ende zeigen, die sich als Hinweis auf einen wortfinalen Glottalverschluss werten lassen. Damit verhalten sie sich nicht anders als vergleichbare Lautgesten im Deutschen (vgl. emphatisches da!). Um die Kürze des Vokals insbesondere unter Akzent zu erreichen, bedarf es einer entsprechenden artikulatorischen Arretierung. Wenn also die Arretierung nicht durch den ersten Konsonanten eines nachfolgenden Wortes gewährleistet ist wie beim RF, muss geradezu eine laryngale Geste diese Funktion übernehmen. Das prosodische System des Standarditalienischen weist somit die folgenden hier wichtigen Charakteristika auf: a) In hauptbetonter Silbe kommen nur Langvokal in offener Silbe oder Kurzvokal gefolgt von Langkonsonant oder heterosyllabischer Konsonantenverbindung vor. b) Kurzvokale in vermeintlich offener betonter Ultima werden phonetisch qua Dehnung des nachfolgenden Konsonanten (RF) oder aber qua Einfügung einer laryngalen Geste geschützt. c) Konsonantendauer ist auch in neben- oder unbetonter Silbe distinktiv. d) Der Wortakzent ist final. Er trifft eine der drei letzten Silben, wobei eine starke Präferenz für pänultimalen Akzent zu konstatieren ist (vgl. Rocca 1999 und Lahiri et al. 1999). Das System des modernen Standarditalienisch lässt sich typologisch daher als ein dem standarddeutschen Silbenschnittsystem ähnliches charakterisieren. Die zwei wichtigsten Unterschiede liegen zum einen in der phonetischen Realisierung der Schließungsprominenz (deutliche Konsonantendauerdifferenzierungen im Standarditalienischen), zum anderen in der Beschränkung der phonologisch distinktiven Kopplungsgradkontraste auf Tonsilben im Standarddeutschen (vgl. Becker 1998), während sie im Italienischen auch vortonig begegnen. Auf den Einwand gegen eine solche Klassifizierung, dass das Italienische doch ganz anders klinge als das Standarddeutsche, gibt es eine Reihe von Erwiderungen, die alle die phonetische Realisierung der Kopplungsgradkontraste betreffen. Zum einen sind die Konsonanten unter scharfem Schnitt im Italienischen, aber auch im Schwedischen, Norwegischen und Isländischen, deutlich länger als im Deutschen. Eine daraus resultierende Beein-

Normierung

der

Silbenquantität

53

flussung des Gehöreindrucks ist unausweichlich. Zum anderen sind die bevorzugten Erzeuger von scharfem Schnitt, die stimmlosen Plosive, im Italienischen im Gegensatz zum Standarddeutschen in dieser Position nicht aspiriert. Für den Deutschen Hörer entsteht möglicherweise dabei der Eindruck von phonetischen Formen, die am ehesten an die stimmhaften ambisyllabischen Konsonanten wie in Ebbe, Kladde usw. erinnern; deren exzeptioneller Status im Hinblick auf den scharfen Schnitt im Deutschen ist wiederum hinlänglich bekannt. Davon abgesehen ist eine subjektive Intuition der Qualität des Abschneidens qua unklarer Falisifizier- und Verifizierbarkeit wenig geeignet für eine darauf aufbauende Typologie, wie sie hier angestrebt wird. Die Frage, warum sich in Europa mit dem Italienischen als Vertreter der Romania und dem Deutschen als dem Vertreter der Germania in dieser räumlichen Nähe zwei derart ähnliche prosodische Systeme herausgebildet haben, ist kaum gestellt, geschweige denn beantwortet worden. Zur Erklärung kommen (mindestens) drei Möglichkeiten in Betracht. 1. Typologischer Zufall: Die silbenschnittähnlichen Verhältnisse sind ein mögliches, aber zufälliges Produkt des Zusammenbruchs eines distinktiven Quantitätssystems, d.h. die einzige Gemeinsamkeit der hier fokussierten germanischen und der romanischen Entwicklung ist der gemeinsame typologische Ausgangspunkt. 2. Genetische Verwandtschaft: Die partiell parallele Entwicklung in den germanischen und romanischen Sprachen ist bereits in der gemeinsamen Grundsprache, dem Urindogermanischen, angelegt. 3. Sprachkontakt: Die Herausbildung der silbenschnittähnlichen Verhältnisse ist auf direkten Kontakt der germanischen und romanischen Sprachen zurückzuführen, oder aber auf den jeweiligen Kontakt mit einer dritten Sprache. Die erste These würde mehr neue Fragen aufwerfen als beantworten. Wie lässt sich der gemeinsame typologische Ausgangspunkt näher charakterisieren als nur "distinktives Quantitätssystem"? Wann resultiert aus dem Quantitätenkollaps ein silbenschnittähnliches System und wann nicht? Sowohl die areale als auch die genetische Nähe der beiden Sprachfamilien lässt die 'Erklärung' durch bloßen Zufall unattraktiv erscheinen. Die zweite These der gemeinsamen Anlage im Urindogermanischen lässt unerklärt, warum sich in so wenigen der indogermanischen Sprachen silbenschnittähnliche Verhältnisse herausgebildet haben. Für die verbleibende dritte These des Sprachkontakts fehlen nach dem bisherigen Kenntnisstand jegliche Belege. Wenn man die Entwicklung in der Romania zum Ausgangspunkt nimmt und von einer Beeinflussung der spätalthochdeutschen bis mittelhochdeutschen Entwicklung durch das Romanische ausgeht, gilt es zu klären, warum die Dehnungen und Kürzungen im 12. Jh. im westlichen mitteldeutschen Sprachraum ihren Anfang nehmen und nicht im süddeutschen Raum (Paul et al. 1982:58).17 Zudem wirkt sich die zeitlich parallele Entwicklung im Nordgermanischen und Englischen komplizierend auf

17

Allerdings sieht Wiesinger (1983:1097) diese Entwicklungen auch im Bairischen schon im 12. Jh. belegt.

54

David Restle

eine Theorie aus, die diesbezüglich direkten Sprachkontakt mit dem Romanischen annimmt. 18 Eine alternative Sprachkontaktthese bestünde in der Annahme einer dritten Sprache, die silbenschnittinduzierende oder silbenschnittähnliche Eigenschaften an die romanischen und direkt oder indirekt auch an die germanischen Sprachen weitergegeben hat. Insbesondere ist hier an eine von Vennemann (1998 et passim) rekonstruierte semitidische, d.h. mit dem Semitischen verwandte Sprache zu denken, die er mit der Ausbreitung der Megalithkultur in Verbindung bringt. In ein solches Bild könnte sich der Umstand fügen, dass auch die semitischen Sprachen in ihrer Entwicklung silbenschnittähnliche Zustände erreicht haben, wie im folgenden Abschnitt gezeigt werden soll.

3.3.2 Hamito-Semitische Sprachen Der von manchen Forschern implizit vertretenen These, die Silbenschnitteigenschaften der nordwestgermanischen Sprachen seien eine idiosynkratische Besonderheit dieses areal und genetisch eingeschränkten Sprachraums, kann am wirkungsvollsten entgegengetreten werden, wenn man den semitischen Sprachraum heranzieht.19 Die semitistische Grammatikschreibung bezieht sich um die Jahrhundertwende explizit auf das Silbenschnittkonzept. Brockelmann (1908:62) geht unter vermeintlichem Bezug auf Jespersen sogar soweit, die Einteilung nichtfinaler Silben in geschlossene und offene direkt von den Schnitteigenschaften abzuleiten: Endet eine Silbe im Wortauslaut auf einen Vokal, so nennen wir sie eine offene, ebenso im Inlaut, wenn der folgende Konsonant den Vokal nicht scharf abschneidet, sondern nur lose an ihn sich anschließt. Wird dagegen der Vokal im Moment seiner stärksten Schallfulle durch einen festangeschlossenen Konsonanten abgeschnitten, so nennen wir die Silbe eine geschlossene (s. Jespersen § 205).

Demnach wären alle nichtfinalen offenen Silben sanft geschnitten, alle nichtfinalen geschlossenen scharf. Wie es zu dieser Gleichsetzung von Schnitteigenschaften und Geschlossenheit/Offenheit kommen konnte, wird klar, wenn man einen Blick auf die strukturellen Besonderheiten der (ur)semitischen Sprache(n) wirft: (26)

Langer Vokal in offener Silbe Fairly common is the tendency to lengthen short vowels in open syllables (Moscati 1964:65). Short vowels tend to become long in open and in stressed syllables. [...] There are also some cases of consonant doubling after a short open syllable (Lipinsky 1997:179f).

18

19

Umgekehrt wird allerdings für die sogenannte Vokaldifferenzierung des Romanischen Sprachkontakt geltend gemacht. Diese "Germanenthese" (vgl. Weinrich 1958:179ff) ist allerdings nicht unumstritten (vgl. insbesondere Lausberg 1956 und Lüdtke 1956). Darauf weist schon Weinrich (1958:33) hin, indem er die romanischen Entwicklung nicht nur mit dem Deutschen, Schwedischen, Irischen und Englischen, sondern auch mit dem Semitischen vergleicht.

Normierung der Silbenquantität

55

(27)

Kurzer Vokal in geschlossener Silbe Da bei jedem länger angehaltenen Vokal die Schallfülle allmählich abnimmt, so duldet das Semit, in geschlossener Silbe ursprünglich nur kurze Vokale (Brockelmann 1908:63).20 According to Brockelmann [...], Semitic originally postulated short vowels in closed syllables. This rule is mainly based on the position in Arabic, and its general application over the Semitic field may be subject to some doubt. Nevertheless, it is a fact that long vowels show a tendency to become short when the syllable closes (Moscati 1964:65). The vowels are always short in a closed unstressed syllable and long vowels show a tendency to become short when their syllable closes (Lipinsky 1997:179).

(28)

Alternation von Vokaldehnung und Schärfung 2 1 Fast in allen semit. Sprachen aber wechseln auch lange Vokale in offener Silbe mit kurzen vor geminierten Konsonanten (Brockelmann 1908:66). Gemination or consonantal length can be justified etymologically or grammatically, but it occurs also when a long vowel plus a single consonant is replaced by a short vowel plus a doubled consonant, as in Hebrew gemallim, "camels", "dromedaries", plural of gämäl (Lipmsky 1997:173).

Während die Eigenschaft (26) (langer Vokal in offener Silbe) das AKK-Kriterium 1 erfüllt, ist die Geltung der Tendenz zu kurzvokaligen geschlossenen Tonsilben (27) innerhalb des Semitischen mit Ausnahme des Arabischen wohl auf nichtfinale Tonsilben zu beschränken. In Finalsilben tritt die Struktur $CV:C# (vgl. dt. Sohn) nämlich durchaus regelmäßig auf, vgl. ägypt. mn /*ma:n/ 'bleiben', hebr. gämäl 'Kamel', Plural gemallim, syr. gallll 'klein'. Gerade diese Ausnahme zur strikten Korrelation von Vokallänge mit der Offenheit bzw. Geschlossenheit von Silben fuhrt in der geschichtlichen Entwicklung einiger semitischer Sprachen dazu, dass auch das AKK-Kriterium 2 erfüllt ist. Alternationen, die dem AKK-Kriterium 2 genügen, haben im Semitischen teilweise eine morphologische Funktion: Vgl. hebr. gämäl 'Kamel', Plural gemallim, neuaram. mita 'tot' (mask.), mitta 'tot' (fem.). 22 Sanfter und scharfer Schnitt können, analog zum pretonic laxing im Deutschen, aber auch in freier Alternation stehen, vgl. assyr. hit tu neben hi tu 'Sünde'. 2 3 In der Familie der (hamito)semitischen Sprachen tritt der Silbenschnittypus am klarsten im Akkadischen mit seinen beiden Dialekten Assyrisch und Babylonisch in Erscheinung. Das assyrische Vokalsystem besteht nach Delitzsch (1906:79ff) aus vier Monophthongen in zwei Quantitäten. Ursprüngliche Diphthonge (ai, au) wurden monophthongiert (au stets zu ü, ai fast stets zu r o d e r e); vgl. Delitzsch (1906:85f):

20

21

22 23

Unklar bleibt, warum die Abnahme der Schallfülle der Grund für die Kürze von Vokalen in geschlossenen Silben sein soll. Zum Terminus Schärfung vgl. z.B. Steuernagel (1948:26) für das Hebräische: "Eine Silbe heißt geschärft, wenn ihr Schlusskonsonant zugleich Anfangskonsonant der folgenden Silbe ist [...]. Der mit dem vorangehenden und zugleich mit dem folgenden Vokal oder ίννο mobile eng verbundene Konsonant heißt geschärft gesprochen. Zeichen der Schärfung ist das Dayes forte, in der Transkription die Doppelschreibung, die nicht zu dem Irrtum verleiten darf, als würden wirklich zwei Konsonanten gesprochen (vgl. das deutsche Rappe, in dem nur ein ρ klingt)". Lipmsky (1997:175). Delitzsch (1906:111).

56

David

(29)

Restle

Vokalsystem des Akkadischen i/T u/ü e/e a/ä

Vokalelisions- und Reduktionsprozesse (vgl. Konkurrenzformen wie nahlu/nahallu 'Tal, Bach', Delitzsch 1906:79) im Assyrischen legen einen exspiratorischen Akzent nahe (vgl. Lipmski 1997:182f); diese Frage ist aber nicht hinreichend untersucht. Die genauen Akzentuierungsregularitäten sind ebenso unklar, allerdings deuten die Beispiele in Delitzsch (1906:130ff) eine Finalbetonung (Antepänultima und Pänultima in mehrsilbigen Wörtern) an. Buccellati (1996:21f) nimmt einen gewichtssensitiven Finalakzent an, dessen phonemischer Status fraglich ist. Das AKK-Kriterium 1 ist eindeutig erfüllt, da mit der Betonung eines kurzen Vokals unzertrennlich die Schärfung des nächstfolgenden Konsonanten verbunden ist (Delitzsch 1906:130). Vokallänge und Schärfung werden auch für neben- oder unbetonte Silben rekonstruiert (e'pussu 'ich tat ihm', ulab'bissu 'ich bekleidete ihn'); insofern liegen ähnliche Verhältnisse wie im Standarditalienischen vor. Überschwere Silben finden sich nur wortfinal, da Langvokale nicht vor Langkonsonanten oder Konsonantenverbindungen vorkommen (Buccellati 1996:28), jedoch in finaler geschlossener Silbe (vgl. bäb 'Tür von'). Das AKK-Kriterium 2 ist qua Konkurrenz von öffnungs- und schließungsprominenten Formen erfüllt, vgl. dälum 'Eimer' vs. dallum 'untergeordnet'. Im Assyrischen finden sich eine Fülle von Entwicklungen und Alternationen zwischen Vokallänge und Schärfung (also von Öffnungs- und Schließungsprominenz). So schreibt Delitzsch (1906:103) unter Hinweis auf die entsprechende Erscheinung des Dages forte coniunctivum im Hebräischen von einer häufigen Verkürzung langer Vokale und gleichzeitiger Schärfung des nächstfolgenden Konsonanten. Wenn VCV-Abfolgen in der Keilschrift konsequent als VC + CV wiedergegeben sind (und (fast) nie mit alternativen, potentiell homophonen Schriftweisen wie V + CV), lässt sich daraus mit gewisser Wahrscheinlichkeit die Schärfung des intervokalischen Konsonanten ableiten. Daher lässt sich aus der häufigen Schreibung für rühi 'fern' auf eine alternierende Form rukki schließen.24 In anderen Fällen wie subbu > sumbu 'Lastwagen' spricht Delitzsch (1906:129) davon, dass "die durch Ton und Wortform veranlasste Schärfung eines Konsonanten [...] durch Nasalierung des dem betr. Konsonanten vorausgehendem Vokals kompensiert" wurde, vgl. Bergsträßers (1993:21) Terminus "Geminatendissimilation". Die Struktur VNC alterniert allerdings nicht nur mit Schärfung, sondern auch mit Vokallänge, vgl. mädu < mandu 'Fliege' (Delitzsch 1906:104). Der dritte Typ von Alternationen, nämlich der zwischen sanftem und scharfem Schnitt, ist oft durch Verlust bzw. Assimilation eines Konsonanten entstanden. So wird für hltu 'Sünde' mit Nebenform Mttu ein ursprüngliches hit7u angesetzt, vgl. auch rädu für ra7du 'Unwetter', bisu für bi?su 'böse' (Delitzsch 1906:111, 130). Diese Fälle lassen sich somit unter kompensatorischer Schärfung bzw. Dehnung fassen. Des weiteren führen Enklitika wie ma zur Arretierung des Akzents auf der vorausgehenden Silbe und dadurch tonbedingt zur Dehnung ursprünglicher Kurzvokale oder zur Konsonantenschärfung. Dabei sind teil24

Aus einer vereinzelten keilschriftsystembedingten Doppeltschreibung von Vokalen oder Konsonanten lässt sich hingegen nicht auf die Quantität von Vokal oder Konsonant schließen.

Normierung der

57

Silbenquantität

weise auch ursprünglich lange Vokale nachträglich wieder unter gleichzeitiger Schärfung des m verkürzt worden (Delitzsch 1906:134). (30)

Schärfungen im Assyrischen: a) Spontante Schärfung:

babatte < bäbäte

b) Kompensatorische Schärfung a. A s s i m i l a t i o n :

ibbi < inbi

b. für Verlust des Glottalverschlusses

(hl tu borro?. Das Geminateninventar wurde vor allem durch Assimilationen wie ns, ?s > ss und die Neutralisation C|C 2 > ? C erweitert, da [?C] auch eine der Realisierungsformen langer Plosive ist. Das aus Sicht der bisher vorgelegten Untersuchungen zum Silbenschnitt Überraschende an der Entwicklung in den Südsulawesischen Sprachen ist vor allem der Umstand, dass sich die AKK-Phänomene im Gegensatz zu den europäischen Entwicklungen nicht auf der Basis bestehender Kopplungsgraddistinktionen entwickelt haben. Vielmehr scheint die im Protosüdsulawesischen plötzlich einsetzende Normierung der phonetischen Silbengewichte, die durch die innovative Schwa-Akzentuierung ausgelöst wurde, zunächst zu rein allophonischen Dauerdifferenzierungen geführt zu haben, die erst in der weiteren Entwicklung phonologisch distinktiven Status erwarben. Wenn diese von Mills vorgetragene Rekonstruktion Bestand hat, dann müssen die bisherigen Entwicklungstheorien (vgl. z.B. Vennemann 19916:239) modifiziert werden, die die Ausbildung eines Silbenschnittkontrasts mit einem vorausgehenden Quantitätenkollaps in Zusammenhang bringen. Der Umstand, dass das Makassarische nicht nur alle hier vorgetragenen typologischen Kriterien einer prototypischen Silbenschnittsprache erfüllt, sondern dem Hörer sogar die gleichen Perzeptionseindrücke vermittelt wie das Holländische (vgl. Matthes 1858), lässt kaum Zweifel zu, dass das Phänomen des Silbenschnitts auch außerhalb des Germanischen und sogar außerhalb des europäischen Raums zu finden ist.

4. Z u s a m m e n f a s s u n g

In diesem Beitrag wurden typologische Überlegungen zum Phänomen des Silbenschnitts zusammengefasst. Dabei wurde besonderer Wert auf eine Trennung der Sprecher-/HörerIntuitionen von den phonetischen und von den phonologischen Daten angestrebt, ohne dadurch einen der Teilbereiche zu benachteiligen. So ist z.B. gerade die Sprecher/Hörerintuition ein relativ stabiles Korrelat der Silbenschnittopposition im Deutschen, das sich über viele Jahrhunderte hinweg verfolgen lässt (vgl. Anhang). Diese Intuition eignet sich aber nicht für eine darauf aufbauende phonologische Typologie. In einem weiteren Schritt wurde die Beschreibung des Silbenschnittkontrasts einer umfassenden Reanalyse unterzogen. Eines der erklärten Ziele dieser Oszillationssilbentheorie liegt in der Fähigkeit, mit minimalen Beschreibungsmitteln sowohl die Unterschiede wie auch die Gemeinsamkeiten von Silbenschnitt und Quantität herauszuarbeiten. Im dritten Teil der vorliegenden Untersuchung wurde der Katalog der bisher mit dem Silbenschnitt in Verbindung gebrachten Sprachen deutlich erweitert. Zur Exemplifizierung dienten hier das Italienische, das Akkadische und das Makassarische. Gerade die Erweiterung um die letztgenannte Sprache legt nahe, dass die Herausbildung des SilbenschnittTypus nicht auf die Basis eines kollabierenden Quantitätssystems angewiesen ist.

62

David Restle

Literatur

Adelung, Johann Christoph (1782): Umständliches Lehrgebäude der Deutschen Sprache, zur Erläuterung der Deutschen Sprachlehre fiir Schulen. Erster Band. - Leipzig [Reprographischer Nachdruck Hildesheim: Olms 1971], - (1788): Vollständige Anweisung zur Deutschen Orthographie, nebst einem kleinen Wörterbuche für die Aussprache, Orthographie, Biegung und Ableitung. - Leipzig: Weygand. Aichinger, Carl Friedrich (1754): Versuch einer teutschen Sprachlehre. - Frankfurt, Leipzig: Kraus [Reprographischer Nachdruck mit einem Vorwort von Monika Rössing-Hager. Hildesheim: Olms], Antwort auf die Abhandlung von dem Gebrauche der doppelten Buchstaben im Deutschen [ohne Autor] (1734): - In: Beyträge zur Critischen Historie der Deutschen Sprache, Poesie und Beredsamkeit. Herausgegeben von einigen Mitgliedern der Deutschen Gesellschaft in Leipzig. Bd. II. Achtes Stück, 669-684. Leipzig [Reprographischer Nachdruck Hildesheim: Olms 1970]. Bannert, Robert (1976): Mittelbairische Phonologie auf akustischer und perzeptorischer Grundlage. - Lund: Gleerup (=Travaux de l'Institut de linguistique de Lund 10). Basboll, Hans (1989): Phonological weight and Italian raddoppiamento fonosintattico. - In: Rivista di linguistica 1, 5-31. Bauer, Heinrich (1827): Vollständige Grammatik der neuhochdeutschen Sprache. Erster Band. Berlin: Reimer. Becker, Thomas (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt: Lang. Bergsträßer, Gotthelf ( s 1993): Einführung in die semitischen Sprachen. Sprachproben und grammatische Skizzen. - Darmstadt: Wissenschaftliche Buchgesellschaft. Bremer, Otto (1893): Deutsche Phonetik. - Leipzig: Breitkopf & Härtel (=Sammlung kurzer Grammatiken Deutscher Mundarten 1). Brockelmann, Carl (1908): Grundriß der vergleichenden Grammatik der semitischen Sprachen. I. Band: Laut- und Formenlehre. - Berlin: Reuther & Reichard. Buccellati, Giorgio (1996): A structural grammar of Babylonian. - Wiesbaden: Harrassowitz. Campbell, George L. (1991): Compendium of the World's Languages. Volume II. - London: Routledge. Delitzsch, Friedrich ( 2 1906): Assyrische Grammatik mit Übungsstücken und kurzer LiteraturÜbersicht. - Berlin: Reuther & Reichard (=Porta linguarum orientalium X). Dunn, Margaret Hall (1990): A phonetic study of syllable structure in Finnish and Italian. - In: M. Ziolkowsky et al. (Hg.): Papers from the 26th regional meeting of the Chicago Linguistic Society. Volume 2. The parasession on the syllable in phonetics and phonology, 97-111. Chicago: Chicago Linguistic Society (=CLS 26). Engstrand, Olle/Diana Krull (1994): Durational correlates of quantity in Swedish, Finnish and Estonian: Cross-Language evidence for a theory of adaptive dispersion. - In: Phonetica 51, 80-91. Essen, Otto von (1962): Trubetzkoy 's "fester" und "loser Anschluß" aus experimental-phonetischer Sicht. - In: Proceedings of the 4th International Congress of Phonetic Sciences 1961, 590-597. Den Haag: Mouton. Fischer-Jorgensen, Eli/H. P. Jergensen (1969): Close and loose contact ("Anschluß") with special reference to North-German. - In: Annual Report of the Institute of Phonetics of the University of Copenhagen (ARIPUC) 4, 43-80. Fliflet, Albert Lange (1962): Einige Beobachtungen über Anschluß und Silbe. - In: Proceedings of the Fourth International Congress of Phonetic Sciences, 610-615. Den Haag: Mouton. - (1963): Syllable type and syllable perception. - In: Phonetica 10, 137-193. Forchhammer, J. (1939): Länge und Kürze. - In: Archiv fur vergleichende Phonetik 3, 19-27. Fulda, Μ. Friedrich Carl (1778): Grundregeln der Teutschen Sprache. - Stuttgart: o.V.

Normierung der

Silbenquantität

63

Gerlach, Friedrich Wilhelm (1758): Kurzgefaßte Deutsche Sprachlehre, welche die allgemeinen Gründe, samt einem Verzeichnisse der Stammwörter, und vieler abstammenden und zusammengesetzten Wörter der deutschen Sprache in sich enthält. - Wien: Schilgin. Gottsched, Johann Christoph ( 5 1762): Vollständige und neuerläuterte Deutsche Sprachkunst. - Leipzig [Zitiert nach Wiederabdruck in Johann Christoph Gottsched (1978): Ausgewählte Werke. Hgg. von P.M. Mitschell. Bd. 8. bearbeitet von Herbert Penzl. Erster Teil. Berlin: de Gruyter]. Hart, John (1551): The opening of the unreasonable writing of our inglish toung. - [Zitiert nach R. W. Murray, in diesem Band]. Hart, John. (1569): An orthographie, conteyning the due order and reason, howe to write or paint thimage of mannes voice, most like to the life of nature. - [Zitiert nach R. W. Murray, in diesem Band], Heinze, Johann Michael (1759): Anmerkungen über des Herrn Professor Gottscheds Deutsche Sprachlehre nebst einem Anhange einer neuen Prosodie. - Güttingen, Leipzig. [Zitiert nach Teilabdruck in H.-H. Hellmuth, J. Schröder (1976)]. Hellmuth, H.-H./J. Schröder (1976): Die Lehre von der Nachahmung der antiken Versmaße im Deutschen. - München: Fink (=Studien und Quellen zur Versgeschichte 5). Heyse, Johann Christian August (1838): Ausfuhrliches Lehrbuch der Deutschen Sprache neu bearbeitet von Dr. K. W. L. Heyse. Erster Band. - Hannover: Hahn'sche Hofbuchhandlung ^Theoretischpraktische deutsche Grammatik oder Lehrbuch der deutschen Sprache, nebst einer kurzen Geschichte derselben. Fünfte, völlig umgearbeitete und sehr vermehrte Ausgabe. Erster Band.) Hoole, Philip/Christine Mooshammer (in diesem Band): Articulatory Analysis of the German Vowel System. Hoole, Philip/Christine Mooshammer/Hans G. Tillmann (1994): Kinematic Analysis of Vowel Production in German. - In: Proceedings of the ICSLP '94, Yokohama. Vol. 1, 53-56. Hulst, Harry van der (Hg.)(1999). Word Prosodic Systems in the Languages of Europe. - Berlin: de Gruyter. Hurch, Bernhard/Livia Tonelli (1984): /'matto/ oder /'mat:o/? Jedenfalls ['mat:ο]. Zur Konsonantenlänge im Italienischen. - In: Studi italiani di linguistica teorica ed applicata 2, 395-409. Ickelsamer, Valentin [1534?]: Ein teutsche Grammatica. - [Augsburg?]. [Zitiert nach Abdruck in J. Müller (1882), 120-159]. Jespersen, Otto ( 2 1913): Lehrbuch der Phonetik. - Leipzig: Teubner. Kehrein, Joseph (1854): Grammatik der deutschen Sprache des fünfzehnten bis siebzehnten Jahrhunderts. Erster Theil: Laut- und Flexionslehre. - Leipzig: Wigand. Klopstock, Friedrich G. (1779): Über die deutsche Rechtschreibung. - In: Fragmente über Sprache und Dichtkunst. Hamburg [Zitiert nach dem Wiederabdruck in A. L. Back, A. R. C. Spindler (Hgg.) (1830): Klopstocks sämtliche sprachwissenschaftliche und ästhetische Schriften. Bd. 2, 143-180. Leipzig: Fleischer (=Klopstocks sämtliche Werke Bd. 14). Rroos, Christian (1996): Eingipflige und zweigipflige Vokale des Deutschen? Kinematische Analyse der Gespanntheitsopposition im Standarddeutschen. - Unveröffentlichte Magisterarbeit Universität München. Lachmann, Karl (1820): Auswahl aus den hochdeutschen Dichtern des 13. Jahrhunderts. - Berlin: Reimer. Lahiri, Aditi/Thomas Riad/Haike Jacobs (1999): Diachronic prosody. - In: H. van der Hulst (Hg.), 335-422. Lausberg, Heinrich (1956): Romanische Sprachwissenschaft. Zwei Bände. - Berlin: de Gruyter. Lenerz, Jürgen (2000): Zur sogenannten Vokalopposition im Deutschen. - In: Zeitschrift für Sprachwissenschaft 19, 167-209. Lipmski, Edward (1997): Semitic languages. Outline of a comparative Grammar. - Leuven: Peeters (=Orientalia Lovaniensia Analecta: 80). Leumann, Manu (1977): Lateinische Laut- und Formenlehre. - München: Beck (=Leumann-Hoffmann-Szantyr: Lateinischen Grammatik. Erster Band)

64

David Restle

Loporcaro, Michele (1988): History and geography of raddoppiamento fonosintattico: remarks on the evolution of a phonological rule. - In: Pier Marco Bertinetto, Michele Loporcaro (Hgg.): Certamen Phonologicum. Papers from the 1987 Cortona Phonology Meeting, 341-387. Turin: Rosenberg & Sellier. Liidtke, Helmut (1956): Die strukturelle Entwicklung des romanischen Vokalismus. - Bonn: Romanisches Seminar der Universität Bonn. Maas, Utz (1999): Phonologie: Einfiihrung in die funktionale Phonetik des Deutschen. - Opladen, Wiesbaden: Westdeutscher Verlag. Matthes, Benjamin Frederik (1858): Makassarsche Spraakkunst. - Amsterdam: Frederic Muller. Mills, Roger Frederick (1975): Proto South Sulawesi and Proto Austronesian Phonology. - Dissertation Universität Michigan [erhältlich über UMI], Mithun, Marianne/Hasan Basri (1984): The phonology of Selayarese. - In: Oceanic Linguistics 25, 210-254. Mooshammer, Christine (1998): Experimentalphonetische Untersuchungen zur artikulatorischen Modellierung der Gespanntheitsopposition im Deutschen. - In: Forschungsberichte des Instituts fur Phonetik und Sprachliche Kommunikation der Universität, München (FIPKM) 36, 3-192. Moscati, Sabatino (Hg.) (1964): An introduction to the comparative Grammar of the Semitic languages. Phonology and morphology. - Wiesbaden: Harrassowitz (=Porta linguarum orientalium VI). Müller, Johannes (1882): Quellenschriften und Geschichte des deutschsprachigen Unterrichtes bis zur Mitte des 16. Jahrhunderts. - Gotha 1882. [Nachdruck mit einer Einführung von Monika Rössing-Hager. Hildesheim: Olms 1969], Murray, Robert W. (in diesem Band): Syllable cut prosody in Early Modern English: John Hart's testimony. Paul, Hermann/H. Moser/I. Schröbler/S. Grosse ( 22 1982): Mittelhochdeutsche Grammatik. - Tübingen: Niemeyer. Pickett, Emily R./Sheila Ε. Blumstein/Martha W. Burton (1999): Effects of speaking rate on the singleton/geminate consonant contrast in Italian. - In: Phonetica 56, 135-157. Pilch, Herbert ( 2 1968): Phonemtheorie. - Basel: Karger. Repetti, Lori (1991): A moraic analysis of raddoppiamento Fonosintattico. - In: Rivista di Linguistica 3, 307-330. Restle, David (1998): Silbenschnitt - Quantität - Kopplung. Zur Geschichte, typologischen Einordnung und Repräsentation der Anschlußprosodie unter dem Blickwinkel einer Oszillationssilbentheorie. - Dissertation Universität München. - (1999): Reduplication as pure constituent copying. In defence of the syllable against the phonemic melody. - In: John R. Rennison, Klaus Kühnhammer (Hgg.): Phonologica 1996: Syllables!?, 195217. Den Haag: Holland Academic Graphics. Restle, David/Christine Mooshammer (1999): The influence of the tense-lax contrast in vowels on the production of post-vocalic consonants in Standard German. - In: Proceedings of the 14 th International Congress of Phonetic Sciences. Bd. 1, 531-534. Riad, Tomas (1995): The quantity shift in Germanic: A typology. - In Hans Fix (Hg.). Quantitätsproblematik und Metrik. Greifswalder Symposion zur germanistischen Grammatik, 159-184. Amsterdam: Radopi (=Amsterdamer Beiträge zur älteren Germanistik 42). Roca, Iggy M. (1999): Stress in the Romance languages. - In: Η. van der Hülst (Hg.), 659-811. Rohlfs, Gerhard (1949): Historische Grammatik der Italienischen Sprache und ihrer Mundarten. Band I: Lautlehre. - Bern; Francke. Sievers, Eduard ( s 1901): Grundzüge der Phonetik zur Einfiihrung in das Studium der Lautlehre der indogermanischen Sprachen. - Leipzig: Breitkopf & Härtel. [Nachdruck Hildesheim: Olms 1976]. Spiekermann, Helmut (2000): Silbenschnitt in deutschen Dialekten. - Tübingen: Niemeyer ^ L i n guistische Arbeiten 425). Steinthal, H. ( 2 1891): Geschichte der Sprachwissenschaft bei den Griechen und Römern mit besonderer Rücksicht auf die Logik. Zweiter Teil. - Berlin: Dümmler.

Normierung der

65

Silbenquantität

Steuemagel, Carl ("1948): Hebräische Grammatik mit Paradigmen, Literatur, Übungsstücken und Wörterverzeichnis. - Leipzig: Verlag Enzyklopädie (=Porta linguarum orientalium I). Sweet, Henry (1890): A primer of phonetics. - Oxford: o.V. Tillmann, Hans G. (mit Phil Mansell) (1980): Phonetik. Lautsprachliche Zeichen, Sprachsignale und lautsprachlicher Kommunikationsprozeß. - Stuttgart: Klett-Cotta. Trubetzkoy, Nikolai Sergeevic ( 6 1977): Grundzüge der Phonologie. - Göttingen: Vandenhoeck & Ruprecht. Vayra, Mario (1994): Phonetic explanations in phonology: Laryngealization as the case for glottal stops in Italian word-final stressed syllables. - In: Wolfgang U. Dressler et al. (Hgg.): Phonologica 1992. Proceedings of the 7th International Phonology Meeting, 275-293. Turin: Rosenberg & Sellien Vennemann, Theo (1990): Syllable structure and simplex accent in Modern Standard German. - In: M. Ziolkowsky et al. (Hgg.): Papers from the 26th regional meeting of the Chicago Linguistic Society. Bd. 2. The parasession on the syllable in phonetics and phonology. Chicago: Chicago Linguistic Society, 399-412. - (1991a): Syllable structure and syllable cut prosodies in Modern Standard German. - In: Pier Marco Bertinetto et al. (Hg.): Certamen Phonologicum II: Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellier. - (19916): Skizze der deutschen Wortprosodie. - In: Zeitschrift für Sprachwissenschaft 10, 86-111. - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Karl Heinz Ramers, Heinz Vater, Henning Wode (Hgg.): Universale phonologische Strukturen und Prozesse, 7-54. Tübingen: Niemeyer. - (1998): Andromeda and the Apples of the Hesperides. - In: Karlene Jones-Bley, Angela della Volpe, Miriam Robbins Dexter, Martin E. Huld (Hgg.): Proceedings of the Ninth Annual UCLA Indo-European Conference. Los Angeles, May 23, 24, 1997, 1-68. Washington, D.C: Institue for the Study of Man (=Journal of Indo-European Studies Monograph Series 28). Weinrich, Harald (1958): Phonologische Studien zur Romanischen Sprachgeschichte. - Münster: Aschendorff. Wiesinger, Peter (1983): Dehnung und Kürzung in den deutschen Dialekten. - In: Werner Besch et al. (Hg.): Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung, 1088-1101. Berlin: de Gruyter.

Anhang

Überblick über die Geschichte der silbenschnittähnlichen Konzepte Phase

I

Autor

Bezeichnung

Ickelsamer

(Stimme)

Eigenschaftsträger

?

II

Klang

?

1734

Gottsched 5

Laut

Vokal

(gedehnter Vokal,

Ton

Silbe

Ton

(Vokal)

Kons, ohne Schärfe)

verbissen,

frei,

nicht gedehnt

hell

(scharf) kurz

1762

Aichinger

SANFTER SCHNITT

(scharfer, starker Kon., weicher Vokal)

[1534?]

Antwort...

Eigenschaftsausprägungen SCHARFER SCHNITT

(gezogen) lang

geschärft

gedehnt

hart

gezogen

1754

Gerlach 1758

David Restle

66 Überblick über die Geschichte der silbenschnittähnlichen Konzepte Phase

Bezeichnung

Autor

Eigenschaftsträger

Eigenschaftsausprägungen SCHARFER SCHNITT

Heinze

1759

Ton, Accent

Silbe

scharf

SANFTER SCHNITT

gezogen

(steigend) III

Accent

Wort

scharf

Ton

Silbe

abgebrochen

Adelung 1782

Ton

Silbe

geschärft

gedehnt

Adelung 1788

Accent

Silbe

geschärft

gedehnt

Laut

Vokal

geschärft

gedehnt + schwebend

Ton, Laut

Vokal

geschärft

gedehnt + schwebend

Fulda

1778

Klopstock

gedehnt gedehnt + offen

1779

IV

Lachmann 1820 Bauer

1827

scharf (abgeleitet) (hoch) (hell) (kurz) Heyse

1838

(Silbendau-

Vokal

er)

(Silbe)

(kurz)

Vokal

geschärft

Kehrein 1854 V

Sievers

1901

Sweet

1890

Bremer 1893

Accent

Silbe (Vokal)

Stress

Silbe

Betonung

Silbe (Wort)

geschärft

stark geschnitten close plötzlich + bis zu einem m f abschwellend

Jespersen

Anschluss

Vokal + Kons.

fest angeschlossen

voll (ursprünglich) (tief) (dumpf) (lang) gedehnt + schwebend (lang + schwebend) gedehnt schwach geschnitten open allmählich bis zu einem ρ oder pp abschwellend lose angeschlossen

1913 Trubetzkoy 1939 Forchhammer Pilch VI

Silbenschnitt

Vokal(+Kons.)

geschnitten

Anschluss

Vokal + Kons.

fest angeschlossen

Silben-

Silbe

einschlägig

lose angeschlossen zweischlägig (nach-

1939

artikulation

2 1968

Abglitt

Vokal

Scharf (hart)

Silbenschnitt

Silbe

scharf geschnitten

sanft geschnitten

scharf geschnitten

sanft geschnitten

Vennemann

(wippend)

ungeschnitten

träglich) Weich + ganz weich

1990 Becker

1995

Silbenschnitt

Silbe

Restle

1998

Kopplung

Öffnung + Schlie-

eng gekoppelt

ßung

lose gekoppelt

lose gekoppelt

Schließung + Öffnung Maas Lenerz

1999 2000

Anschluss Silbenschnitt

Vokal + Konsonant

fest angeschlossen

lose angeschlossen

Silbe

scharf geschnitten

sanft geschnitten

Jürgen

Lenerz

Silbenstruktur und Silbenschnitt

1. Einleitung

Es herrscht keine Einigkeit darüber, worin der Gegensatz zwischen Miete und Mitte, kam und Kamm und ähnlichen Minimalpaaren im Deutschen phonologisch begründet ist: Ist es die Vokallänge oder die Gespanntheit der Vokale oder folgen Länge/Gespanntheit als phonetische Begleiterscheinungen aus einer phonologisch zugrunde liegenden prosodischen Opposition, dem sog. Silbenschnitt? (Zu Einzelheiten vgl. u. a. Ramers 1988, Wiese 1996, Becker 1998, Lenerz 2000.) Zu beobachten ist nämlich, dass der (gespannte, lange) Vokal in Miete ungestört ausklingen kann, während der (ungespannte, kurze) Vokal in Mitte vom folgenden Konsonanten abrupt abgeschnitten wird. Diese Beobachtung ist nicht neu. Restle (1998, Kap. 1.1) weist eine Tradition nach, die mindestens bis zu Ickelsamer (ca. 1534, vgl. Restle 1998:12, Anm. 5) zurück zu verfolgen ist. Im letzten Jahrhundert ist die Unterscheidung des Silbenschnitts vor allem von Sievers (51901:222) vertreten und von Trubetzkoy (1939:196ff.) als (nicht-segmentale, also prosodische) phonologische Opposition charakterisiert worden. In mehreren Arbeiten hat Vennemann dies aufgegriffen und eine eigene Silbentheorie entwickelt, die geeignet ist, die Silbenschnittopposition zu erfassen (siehe Vennemann 1994). Alternative Versionen einer Silbenschnitttheorie legten seine Schüler Becker (1998) und Restle (1998) vor. Mit den Analysen von Vennemann (1994) und Becker (1998) habe ich mich in Lenerz (2000) ausführlicher auseinander gesetzt. In der hier vorliegenden Arbeit möchte ich auch die Ansätze von Restle (1998) und Maas (1999) eingehender besprechen. Dabei soll gezeigt werden, dass die Silbenschnittopposition keine eigene, besondere Silbentheorie erfordert, da sie sich ohne Mühe auch in traditionellen Silbenmodellen erfassen lässt, die sich auf eine Konstituentenstruktur der Silbe beziehen. Auf grundsätzliche Aspekte der Silbentheorie, wie sie ζ. B. in Vennemann (1987), Lieb (1998) und van der Hulst/Ritter (1999) angesprochen werden, kann ich hier nicht näher eingehen.

2. Silbenschnitttheorien

2.1

Vennemann

In Vennemanns sog. Nuklearphonologie (vgl. u. a. Vennemann 1994) ergibt sich die Silbenschnittopposition aus der Zuordnung zwischen Segmenten, Elementen der Zeitachse und den Energiekonturen Crescendo ( < ) und Decrescendo ( > ). Während in Quantitätssprachen lange Segmente mit zwei Elementen der Zeitachse assoziiert sind, zeichnen sich

Jürgen Lenerz

68

Silbenschnittsprachen gerade durch den Quantitätsverlust aus: Hier ist der Nukleusvokal stets nur einem Element der Zeitachse zugeordnet. Sanfter Silbenschnitt ergibt sich, wenn der Nukleusvokal sowohl mit dem Crescendo wie mit dem Decrescendo verbunden ist und damit sanft ausklingen kann (1). Bei scharfem Silbenschnitt ist dagegen der Nukleusvokal nur mit dem Crescendo assoziiert. Das den Vokal 'abschneidende' Segment ist mit dem Decrescendo verbunden (2). (Beide Graphiken leicht verändert nach Vennemann 1994:13.) (1)

Koma







| —• Zeitachse m

a

= sanft geschnittene Silbe (2)

Komma







= scharf geschnittene Silbe Die von Vennemann entwickelte Silbentheorie ist universell und kann die typologisch und sprachhistorisch wichtige Unterscheidung zwischen Quantitäts- und Silbenschnittsprachen angemessen erfassen (vgl. hierzu insbesondere auch Vennemann 1992). Auch alle mit dem Silbenschnittphänomen verbundenen Aspekte (ambisilbische Konsonanten etc.) finden eine angemessene Darstellung. Mein wesentlicher kritischer Einwand betrifft die einschlägige phonotaktische Restriktion für nicht wortperiphere Silben im Deutschen, die stets als CVC zu analysieren sind (Yu 1992:48f.): Dies ist in Vennemanns Theorie mangels einer internen Struktur der silbenkonstituierenden Kategorien Crescendo und Decrescendo nur stipulierbar. (Im Einzelnen vgl. Lenerz 2000.)

2.2

Becker

Becker (1998 und in diesem Band) analysiert die Silbenschnittopposition in einer Theorie, die für die Silbe eine Konstituentenstruktur annimmt, die aus Anfangsrand (AR), Kernsilbe (K) und Endrand (ER) besteht. Für Tonsilben setzt Becker (1998:80) in der Kernsilbe zusätzlich zum Nukleus (N) eine Implosionsposition (I) an: Ist der Nukleusvokal mit Ν und I

Silbenstruktur und Silbenschnitt

69

assoziiert, so repräsentiert das den sanften Silbenschnitt (3); ist mit I ein vom Nukleusvokal verschiedenes Segment assoziiert, so liegt scharfer Silbenschnitt vor (4).

(3)

AR

ER

C I t

e: (= sanfter Silbenschnitt)

(4)

Bett I Wort Tonsilbe

AR

Kernsilbe Nukleus

C I b (= scharfer Silbenschnitt)

I ν I

Implosion I

c

Mit dieser Theorie ist zwar der Weg zu einer Darstellung geöffnet, die die Ableitung der phonotaktischen Regularitäten des Deutschen im Prinzip erlaubt; leider macht aber das Beckersche Modell hier m. E. falsche Vorhersagen (vgl. Lenerz 2000). Der im vorliegenden Zusammenhang wesentliche Punkt ist jedoch folgender: Durch die Unterscheidung zwischen unbetonten Silben und Tonsilben wird die allophonisch bewertete Gespanntheit der Vokale in beiden Fällen unterschiedlich abgeleitet. Während nach Becker (1998) in unbetonten Silben Gespanntheit vs. Ungespanntheit mit offener vs. geschlossener Silbenstruktur korreliert, muss in Tonsilben die Gespanntheit oder Ungespanntheit aus der Assoziation der Implosionsposition abgeleitet werden. Dies korreliert nicht mit "offener" vs. "geschlossener" Silbe: Eine Tonsilbe kann in der Implosionsposition geschlossen sein (vgl. (4) Bett: ungespannter Vokal) oder in der Kernsilbe "offen" und zudem im ER offen {Reh, gespannter Vokal) oder im ER geschlossen (vgl. (3) Beet, gespannter Vokal!).

Jürgen Lenerz

70 2.3

Restle

Restle (1998) entwickelt eine eigene sog. Oszillationssilbentheorie. Dies geschieht in Abgrenzung zu konkatenativen Silbentheorien, aber auch in Abgrenzung zu Vennemanns "Nuklearsilbe". Einerseits möchte Restle auf den letztlich nur zirkulär zu bestimmenden Begriff der Sonorität verzichten, auf den konkatenative Silbenmodelle für die Anordnung der Segmente zurückgreifen müssen. Zudem nimmt Restle (1998:94) an, dass ein konkatenativer Silbenbegriff für die Darstellung suprasegmentaler Aspekte (wie etwa des Silbenschnitts) wenig geeignet sei. Die Abgrenzung gegenüber Vennemanns (1994) "Nuklearsilbentheorie" erfolgt andererseits, weil sich für deren Grundbegriffe Crescendo ( < ) und Decrescendo ( > ), die den sog. Energiekonturverlauf der Silbe repräsentieren sollen, keine überzeugende akustisch-phonetische Fundierung gefunden hat (vgl. aber Spiekermann 2000 sowie in diesem Band für eine mögliche phonetische Entsprechung). Restles Ziel ist "die Entwicklung einer Silbentheorie, die zu einer höheren Kompatibilität zwischen Phonologie und Phonetik auf der suprasegmentalen Ebene beiträgt, indem sie die Abstraktheit phonologischer Elemente reduziert" (Restle 1998:94). Als relativ konkrete Grundbegriffe einer solchen Silbentheorie nimmt Restle die artikulatorische Öffnungs- und Schließungsbewegung des Vokaltraktes an. Damit sieht Restle auch den Anschluss an akustische und auditive Gegebenheiten gewährleistet: "Diese in Form von artikulatorischen Öffnungs- und Schließungsbewegungen gegebenen elementaren phonetischen Produktionseinheiten manifestieren sich akustisch in einem raschen Pegelanstieg bzw. -abfall und auditiv in einem Anstieg bzw. Abfall der wahrgenommenen Lautheit, was sich terminologisch in der Unterscheidung der phonetischen Bewegungssilbe und der phonetischen Schallsilbe widerspiegelt" (Restle 1998:100). So ergibt sich ein phonetisch begründeter Silbenbegriff: "Die Kombination von zwei aufeinander folgenden unterschiedlichen Grundkategorien (Öffnung + Schließung oder Schließung + Öffnung) bildet eine s y l l a b i s c h e O s z i l l a t i o n . Auf eine Abfolge von einer Öffnung und einer Schließung wird im Folgenden mit dem Terminus O s z i l l a t i o n s s i l b e referiert" (Restle 1998:104). Den Öffnungs- bzw. Schließungsphasen sind Segmente zugeordnet. Dabei endet jede Öffhungsphase im Nukleusvokal, jede Schließungsphase beginnt mit dem Nukleusvokal. Öffnung und Schließung lassen sich nun nach Restle auf verschiedene Weise miteinander verbinden, nämlich durch "lose Kopplung", "enge Kopplung" und "verschmelzende Kopplung". Damit sollen bei der Verbindung von Öffnung und Schließung "sanfter Silbenschnitt", "scharfer Silbenschnitt" und "Reduktionssilben" erfasst werden. Die verschiedenen Kopplungsarten werden allerdings nicht nur zwischen Öffnung und Schließung angesetzt, sondern auch zwischen Schließung und Öffnung sowie präpausal (wo im strikten Wortsinne allerdings m. E. nicht von "Kopplung" gesprochen werden sollte). Damit ergeben sich nach Restle (1998:104, (36)) die folgenden Möglichkeiten:

Silbenstruktur

(5)

und

71

Silbenschnitt

Grundrelationen bei Restle (1998:104) Lose

Kopplung

Enge Kopplung

Verschmelzende lung

Kopp-

(a) Zwischen Öffnung und Schließung (V länger, peripherer)

(V kürzer, zentralisierter)

(V reduziert, C "silbisch")

(b) Zwischen Schließung und Öffnung (C länger, stärker) 2

(C kürzer, schwächer) 2 !

Κ

(c) Präpausal (V länger, peripherer)

(V kürzer, zentralisierter)

(V reduziert, C "silbisch")

§5^ (C länger, stärker)

(C kürzer, schwächer)

2 Damit ist das Instrumentarium gegeben, um die eingangs kurz erläuterten Gegebenheiten im Bereich der Vokale des Deutschen (und damit korrelierende Befunde der Silbenstruktur und der konsonantischen Segmente) aus der suprasegmentalen Struktur des Silbenschnitts bzw. der Kopplung abzuleiten. So liegt nach Restle (1998:105) bei Miete eine lose Kopplung zwischen Öffnung und Schließung der ersten (betonten) Silbe vor (= sanfter Silbenschnitt); zwischen Schließung der ersten Silbe und Öffnung der zweiten Silbe nimmt er eine enge Kopplung an. Für Mitte liegt hingegen eine enge Kopplung (scharfer Silbenschnitt) zwischen Öffnung und Schließung der ersten Silbe vor; zwischen deren Schließung und der Öffnung der zweiten Silbe setzt Restle lose Kopplung an. Es ergeben sich also folgende Strukturen: (6)

Mitte

Miete m ι

it

ta

mi

Jürgen Lenerz

72

Restle nimmt also in seiner Theorie nicht nur einen Kopplungsgradkontrast für den Silbenschnitt (als Kopplungsgrad, der auf eine Öffnung folgt) an, sondern auch einen Kopplungsgradkontrast, der auf eine Schließung folgt. Er begründet dies damit, dass sich für Vokale (am Ende einer Öffnung) und Konsonanten (am Ende einer Schließung) je nach Kopplungsgrad im Prinzip die gleichen Eigenschaften ergeben: (7) Allgemeine Eigenschaften der Grundrelationen (Restle 1998:106 (24)) Enge Kopplung minimale Dehnbarkeit geringe Dauer geringe Prominenz

Lose Kopplung maximale Dehnbarkeit größere Dauer höhere Prominenz

Dabei steht "geringere/höhere Prominenz" bei Vokalen für "Zentralisierung/ Dezentralisierung", bei Konsonanten für "geringere/höhere Intensität" der physiologischen Werte bei der Artikulation. Eine kritische Bewertung des Vorschlages von Restle (1998) ergibt aus meiner Sicht die folgenden Punkte: Interessant ist die phonetiknahe, wenig abstrakte Definition des phonologischen Silbenbegriffes. Die Fundierung durch öffnende und schließende Bewegung des Vokaltraktes erlaubt es möglicherweise, aus der Zirkularität bei der Begründung der Abfolge der Segmente herauszukommen, die bislang allen mir bekannten Silbentheorien innewohnt. Wenn sich bei Restle die Segmente gemäß ihrem messbaren Öffnungsgrad in Öffnung und Schließung anordnen ließen, wäre dies sicher ein Gewinn. Andererseits folgt aus dieser wichtigen Beobachtung nicht notwendigerweise eine weniger abstrakte Auffassung von der Silbe: Wenn den Segmenten aufgrund artikulatorischer Messungen relative Öffnungsgrade zuzuordnen sind, dann lässt sich dies ohne Mühe auch in konkatenativen Silbenmodellen zur Definition der Segmentabfolge nutzen. Öffhungs- und Schließungsbewegungen erwiesen sich dann als natürliche phonetische Realisierungen einer abstrakten phonologischen Silbenkonzeption, die neben potenziellen Öffnungsgraden der Segmente auch eine Konstituentenstruktur aufweisen könnte. Interessant ist auch die externe Evidenz, die Restle (1998:Kap. 2.2) bespricht: Es zeigt sich, dass zumindest bestimmte Typen der Reduplikation sich auf Segmentabfolgen beziehen, die sich durch Öffhungs- bzw. Schließungsbewegungen bestimmen lassen. Auch die "nicht-konkatenative" Morphologie im Arabischen und Aspekte von Keilschriftsystemen liefern möglicherweise Evidenz für die phonologische Relevanz der Oszillationssilbentheorie. Auf einen weiteren Aspekt ist hinzuweisen: Restles Theorie macht keinen Unterschied zwischen betonten und unbetonten Silben. Damit sind die Korrelationen zwischen Silbenstruktur und Gespanntheit der Nukleusvokale vereinheitlicht: (8)

a) b)

lose Kopplung zwischen Öffnung und Schließung -> gespannter Nukleusvokal enge Kopplung zwischen Öffnung und Schließung ungespannter Nukleusvokal

Es ergeben sich aus meiner Sicht allerdings auch einige Einwände gegen die Oszillationstheorie:

Silbenstruktur

und

Silbenschnitt

73

In der vorliegenden Form erscheint die Theorie zwar grundsätzlich beobachtungsadäquat, aber weitgehend unrestringiert und ad hoc: So sind die Kopplungsarten (lose, eng, verschmelzend) axiomatisch gesetzte Grundbegriffe der Theorie, die zwar aufgrund der einschlägigen Daten des Deutschen intuitiv einleuchtend erscheinen, aber als Axiome naturgemäß ihrerseits keine nähere Explikation erfahren. Unklar bleibt, ob es nur genau diese Kopplungsarten gibt oder ob generell auch andere Kopplungsarten in einer Theorie anzusetzen sind, die sich, wie das Eingehen auf externe Evidenz zeigt, als universelle Silbentheorie versteht. Anzustreben wäre hier zweifellos eine Theorie, in der sich Art und Anzahl unterschiedlicher Kopplungsarten als Theoreme aus abstrakteren zugrunde liegenden Begriffen ableiten lassen. Dieser Einwand gilt in der vorliegenden Version der Oszillationssilbentheorie auch fur Tabelle (5), die offenbar die zu unterscheidenden existierenden Fälle auflistet: Gibt es keine "verschmelzende Kopplung" zwischen Schließung und Öffnung (b, 3. Spalte) und wenn nicht: wieso nicht? Wie unterscheiden sich die verschmelzende Kopplung zwischen Öffnung und Schließung (a, 3. Spalte) und die sog. verschmelzende Kopplung in präpausaler Position? Wie ist überhaupt in präpausaler Position von "Kopplung" zu sprechen? Das Konzept ist nicht nur unklar, ich sehe auch nicht, welche empirischen Daten es repräsentieren soll. Entsprechende Einwände beziehen sich auf weitere Kopplungsarten, die Restle (1998:112 (57)) für das Deutsche ausmacht: den sog. Qualitätsübergang bei Hiat (Theo), die r-Vokalisierung (mir) sowie die sog. Appendizes (-5/ in Herbst, [f] in Spruch). Dadurch, dass auch diese Erscheinungen als Axiome der Theorie eingeführt werden, erscheint die Theorie prinzipiell offen für beliebige Erweiterungen, ohne dass klar wäre, ob diese grundsätzlich möglich sind oder nicht. Ein weiterer Aspekt betrifft die Kopplung von Schließung und Öffnung in Miete und Mitte: Während gängige Darstellungen die erste Silbe von Miete als offen charakterisieren ([mi:.t3]), setzt Restle (1998:107 (38)) nach der Öffnungsphase (/mi/) eine Schließungsphase (/it/) mit loser Kopplung an (s. o., (6)). Artikulatorisch gesehen ist das in gewisser Weise nachvollziehbar: Bevor die zweite Silbe (die Reduktionssilbe [.ts]) beginnt, muss j a der Vokaltrakt dadurch geschlossen werden, dass die Zungenspitze einen postdentalen alveolaren Verschluss bildet. Dies geschieht, während der Nukleusvokal ausklingt (lose Kopplung). In Restles Darstellung aber gewinnt diese artikulatorisch notwendige Bewegung den Status einer phonologisch relevanten Teilkonstituente der ersten Silbe. Ich sehe nicht, wodurch diese phonologische Bewertung gerechtfertigt sein soll. Die Verhältnisse wären m. E. ohne Verlust auch durch die von Restle präpausal ja anerkannte Möglichkeit einer offenen Silbe ohne Schließungsphase angemessen zu erfassen: (9) mi

ta

Angesichts der oben festgestellten geringen Restriktivität der Theorie in ihrer vorliegenden Form zwingt m. E. nichts dazu, stets verschiedene Phasen miteinander zu verbinden. Die phonetisch tatsächlich vorliegende Schließung der ersten ("offenen") Silbe wäre ohne Mühe als realisationsphonetische Erscheinung auch aus (9) abzuleiten. Damit bestünde die "lose Kopplung" nicht in der Kopplung zweier verschiedener Phasen (Öffnung und Schließung), sondern in der (phonetisch 'stummen') langsamen Schließung der offenen Silbe vor der Öffnung der zweiten Silbe, wie in (9) dargestellt. Auf diese Weise würde m. E. auch ein

Jürgen Lenerz

74

weiteres Problem gelöst, nämlich das der präpausalen offenen Silben, die Restle annimmt: Auch hier findet j a tatsächlich artikulatorisch eine Schließung statt (wir laufen ja nach der Äußerung von da [da:] nicht weiter mit offenem Mund herum!). Die Schließung scheint aber phonologisch nicht relevant zu sein (d. h.: Wir könnten ruhig weiter mit offenem Mund herumlaufen). Wenn man in diesem Sinne (wie in (9)) darauf verzichtet, zu jeder Öffnungsbewegung phonologisch eine Schließungsbewegung anzusetzen, lassen sich auch einige weitere Probleme der Oszillationstheorie sowie eine Redundanz vermeiden: In der vorliegenden Version erlaubt die Theorie nämlich keine Unterscheidung zwischen Quantitätssystemen (Latein, Finnisch) und solchen, in denen nicht die Quantität der Segmente, sondern die Silbenschnittopposition distinktiv ist (Silbenschnittsysteme). Restle (1998:Kap. 3) thematisiert dieses Problem kurz selber. In seiner Darstellung besitzt das Deutsche nicht nur eine lose Kopplung zwischen Öffnung und Schließung (was gegenüber der engen Kopplung durchaus auch als quantitativer Gegensatz zu interpretieren wäre), sondern auch eine lose Kopplung zwischen Schließung und Öffnung (bei Mitte), die ihrerseits - gegenüber der engen Kopplung zwischen Schließung und Öffnung bei Miete - auch als Geminierung der ambisilbischen Konsonanten gedeutet werden könnte. Dabei irritiert eine Redundanz, die sich bei der Beschreibung der Verhältnisse im Deutschen ergibt: Eine lose Kopplung zwischen Öffnung und Schließung erfordert stets eine enge Kopplung zwischen der Schließung und der Öffnung der Folgesilbe. Entsprechend hat eine enge Kopplung im Silbennukleus eine lose Kopplung beim Anschluss der folgenden Öffnung zur Folge: (10)

a) Miete·, lose Kopplung

enge Kopplung

(Auf lose Kopplung zwischen Öffnung und Schließung folgt enge Kopplung zwischen Schließung und Öffnung.) b) Mitte\ enge Kopplung pglung

mi

lose Kopplung

it

ta

(Auf enge Kopplung zwischen Öffnung und Schließung folgt lose Kopplung zwischen Schließung und Öffnung.) In dieser Analyse sind Wortpaare wie Miete vs. Mitte im strengen Sinne keine Minimalpaare, da sie sich durch zwei Kopplungsunterschiede unterscheiden. Kopplungen wie in (11) kommen im Deutschen nicht vor, wohl aber in Quantitätssprachen, wenn man lose Kopplung stets als lang/geminiert interpretiert, enge Kopplung als kurz:

Silbenstruktur und

(11)

75

Silbenschnitt

zweimal enge Kopplung

a)

JZ

b)

zweimal lose Kopplung

Meines Erachtens lässt sich das Problem lösen, wenn man in Silbenschnittsystemen auf die phonologische Repräsentation der Schließung der ersten Silbe verzichtet. Dann ergeben sich für das Deutsche die folgenden Analysen, in denen keine Quantitätsverhältnisse mehr ausgedrückt sind: (12)

lose Kopplung = Vokaldehnung

a) mi

t3 enge Kopplung = Ambisilbizität des IXl

b) mi

ta

Ich sehe derzeit keinen Grund, diese Analyse auszuschließen, in der die erste Silbe in Miete tatsächlich eine offene Silbe ist und in der Mitte eine durch ambisilbisches [t] geschlossene erste Silbe hat. Damit wäre der Weg frei für die Charakterisierung der qualitativen und quantitativen Allophonie der Nukleusvokale wie in (8). Ein wesentlicher Einwand gegen die Oszillationstheorie ist aber m. E., dass sie es nicht gestattet, einschlägige phonotaktische Gesetzmäßigkeiten abzuleiten, die für die wohlgeformten Silben im Deutschen gelten: Wie ich ausführlich in Lenerz (2000) gezeigt habe, bestehen nicht-periphere Vollsilben in monomorphemischen Wörtern des Deutschen minimal und maximal aus drei Positionen: CVC. Dabei ist V der Nukleusvokal. Die silbenöffnende und die silbenschließende C-Position kann entweder mit einem Konsonanten oder einem Gleitlaut besetzt sein. Endet die Silbe auf den Nukleusvokal (offene Silbe mit gedehntem Vokal), dann besetzt der Vokal die beiden silbenschließenden Positionen. Zusätzliche Segmente an Silbenanfang und Silbenende finden sich, wie Yu (1992:48f.) richtig bemerkt, im Wesentlichen nur am Morphemanfang bzw. -ende, nicht aber morphem- (oder wort-)intern bei nicht-komplexen Morphemen. Die wenigen Ausnahmen lassen sich größtenteils als Ergebnisse (ζ. T. historischer, synchron verdunkelter) morphologischer Prozesse deuten: Freund, Feind, Jagd etc. (vgl. hierzu auch Brockhaus 1999). Aus dieser Sicht folgt im Übrigen auch, dass wortfinale leichte Silben eine Position mehr haben können als wortinterne leichte Silben: Das wortfinale Segment ist bei zugrunde liegender CVC-Struktur extrametrisch. Die hier skizzierte Generalisierung lässt sich, soweit ich sehe, in der vorliegenden Version der Oszillationstheorie nur stipulieren, aber nicht aus der Silbenstruktur ableiten, da diese außer den intern unstrukturierten Öffnungs- und Schließungsphasen keine Struktur aufweist. Ich schließe deshalb, dass eine adäquate Silbentheorie eine interne Struktur erfordert, aus der sich Anzahl und ggf. Art der Assoziation der Segmente ableiten lassen. Meines Wissens stellen Konstituentenstrukturmodelle solche intern strukturierten Silbenmodelle dar.

Jürgen Lenerz

76 2.4

Maas

In seiner 'Einführung in die Phonologie' beschreibt Maas (1999) detailliert und differenziert die Struktur der Silbe im Deutschen, wobei er auch dialektale und sprachhistorische Gegebenheiten berücksichtigt. Ein zunächst zu Darstellungszwecken favorisiertes sog. Spiralmodell gibt er aber bald zugunsten herkömmlicher Baumgraphen auf (Maas 1999:125). In dieser Konstituentenstruktur der Silbe setzt Maas einen nicht-verzweigenden Nukleus und einen verzweigenden Reim an (Kap. 6). Dabei unterscheidet er zwischen drei Silbentypen (Maas 1999:130, 136f.): nicht-prominente, nicht reduzierte Silbe (S); prominente Silbe ('S); Reduktionssilbe (°S). Für die uns hier vor allem interessierende prominente Silbe (betonte Silbe, als 'S notiert) wählt Maas eine Darstellung als Konstituentenstruktur mit Anfangsrand und verzweigendem Reim. Die als allophonisch betrachteten Eigenschaften der Vokale des Standard-Nhd. (Länge oder Dehnung, Gespanntheit, Zentralisierung etc.) beschreibt Maas (1999:150ff., bes. 174ff.) ausführlich. Während er die unterschiedliche Gespanntheit bei nicht-reduzierten, nicht-prominenten Silben im Wesentlichen auf die Offenheit/Geschlossenheit der Silbe zurückfuhrt, sieht er die allophonischen Variationen bei prominenten Silben durch die "Anschlusskorrelation" bedingt (Maas 1999:176f.). Damit folgt Maas im Prinzip der Argumentation von Becker (1998), auf den er sich ebenso wie auf Vennemann (1991) bezieht (Maas 1999:206, Anm. 113). Obwohl er grundsätzlich von einer Darstellung der Silbenstruktur als Konstituentenstruktur ausgeht, führt Maas (1999:177) Diakritika für die Unterscheidung zwischen losem (->) und festem Anschluss ( J ) ein. Welchen theoretischen Status diese diakritischen Notationen haben und wie sie sich in ein Konstituentenstrukturmodell der Silbenstruktur integrieren, bleibt allerdings unklar. Damit wird die Darstellung der Silbenstruktur heterogen: Die Verwendung zusätzlicher Notationen erweckt den Eindruck, die Anschlusskorrelation sei eine relevante prosodische Eigenschaft des Deutschen (und anderer nordseegermanischer Sprachen, vgl. Maas 1999:238f.), die sich nicht unter Bezug auf die Struktur der Silbenkonstituenten erfassen lasse. Dazu kommt aus meiner Sicht der Nachteil, dass die diakritische Notierung letztlich lediglich beobachtungsadäquat ist, da sie eben nicht aus den ansonsten gegebenen prosodischen Struktureigenschaften der Silbe folgt. Sie müsste damit in universalgrammatischer Sicht (vgl. dazu Maas 1999:238f. sowie Kap. 12) einen eigenen Parameter [± Anschlusskorrelation] darstellen, der sprachspezifisch festgelegt wird. Eine solche Auffassung erschwert aber eine generelle Erklärung des zu beobachtenden Wandels von einer Quantitätssprache in eine Silbenschnittsprache, wie sie Maas (1999:Kap 8.3) detailliert für die Sprachgeschichte des Deutschen vom Germanischen zum Standard-Nhd. beschreibt. Die besonderen Verhältnisse im Deutschen werden dabei wiederholt auf das komplexe Zusammenspiel von Sonoritätsstruktur (Schallsilbe) und akzentbedingter Struktur (Drucksilbe) bezogen (Maas 1999:125, 201 und passim). Worauf diese Differenzierung beruht, bleibt mir allerdings auch nach dem Verweis auf Sievers (Sievers 1901:143) sowie den typologischen Kommentaren (Kap. 6, T1 und T2, 145ff.) unklar. Hinzu kommt, dass zwar eine Abhängigkeit der Anschlusskorrelation vom dynamischen Akzent vermutet wird (Maas 1999:178), die sich j a darin zeigt, dass die Anschlussopposition offenbar nur in betonten (prominenten) Silben phonologisch relevant wird. Diese Abhängigkeit wird indessen, soweit ich sehe, nicht expliziert: Wie es dazu kommt, dass der Druckakzent zu einer Unterscheidung in losen vs. festen Anschluss zwingt, bleibt unklar (vgl. dazu auch die knappen Bemerkungen bei Becker 1996:17).

Silbenstruktur

und

Silbenschnitt

77

Ein weiteres Problem ergibt sich bei der Darstellung des festen Anschlusses bei ambisilbischen Konsonanten. Maas (1999:201) setzt hier in der prominenten Silbe entgegen seiner Definition (Maas 1999:137) einen leeren Endrand an. Dies empfindet er zwar als "grundsätzlich misslich" und schlägt als Lösung einen "Rückgriff auf die phonetischen Randbedingungen dieser Syllabierung, die Sievers mit seiner Differenzierung in Sonoritäts- und Drucksilbe zu fassen versucht hat" vor (Maas 1999:137). Demgemäß soll es sich bei Ratte zwar um zwei Schallsilben (mit jeweils gegebener Sonoritätskontur) handeln, aber nur um eine, nicht zerlegbare Druckeinheit. Die verbreitete Ansicht der Ambisilbizität des /t/ sieht er zwar phonologisch als vertretbar an, sie sei aber phonetisch nur durch den festen Anschluss gegeben (Maas 1999:203). Maas schließt, dass es sich "nicht um eine segmentale Erscheinung [handelt], die daher auch nur sehr unzureichend in einem Konstituentenmodell dargestellt werden kann" (Maas 1999:203). (Inwiefern hier ein Spiralmodell weiter helfen kann (Maas 1999:204), bleibt mir allerdings unklar.) Die festgestellte Unbestimmtheit in der Assoziation der gemeinhin als ambisilbisch gewerteten Konsonanten im Anfangsrand der zweiten Silbe von Ratte fuhrt damit zu einer heterogenen Erklärung für die allophonische Variation der Vokale: (13a) α offene Silbe (13b) α loser Anschluss

=> α gespannter Vokal (bei nicht-reduzierten, nicht-prominenten Silben) => α gespannter Vokal (bei prominenten Silben)

Dabei fällt folgender Widerspruch auf: Während ungespannte Vokale in beiden Silbentypen auftreten, wenn der Endrand von einem Segment besetzt wird, das nicht mit dem Nukleusvokal identisch ist (Konsonant oder zweiter Diphthongvokal), soll bei ambisilbischen Konsonanten der Endrand in prominenten Silben leer sein, obwohl die Silbe abrupt geschnitten wird (fester Anschluss). Die hier im Einzelnen diskutierten Probleme beruhen m. E. alle darauf, dass Maas die sog. Anschlusskorrelation zusätzlich zur Konstituentenstruktur als phonologisches Primitivum ansetzt (vgl. Maas 1999:204). Ich werde im Folgenden zeigen, dass dies nicht erforderlich ist, sondern dass sich die Anschlusskorrelation ohne Mühe aus einer geeignet definierten Konstituentenstruktur der Silbe ableiten lässt.

3. Eigene Analyse

Es wurde gezeigt, dass die kurz besprochenen Theorien zur Darstellung der Silbenschnittopposition verschiedene Wege gehen. Dabei ergaben sich folgende Kritikpunkte: 1. Außer in Vennemanns "Nuklearphonologie" wird die Silbenschnittopposition als eigene, axiomatisch gesetzte prosodische Eigenschaft gedeutet, die zusätzlich zur Silbenstruktur angesetzt wird: als "Implosionsposition" (Becker 1998), als "Kopplungsart" (Restle 1998) oder als "Anschlussart" (Maas 1999). Damit wird dem Phänomen des Silben-

Jürgen Lenerz

78

schnitts ein exzeptioneller Status zuerkannt, und sog. Silbenschnittsprachen werden typologisch kategoriell von Quantitätssprachen unterschieden. Der historisch zu beobachtende Wandel von Quantitätssprachen zu Silbenschnittsystemen (vgl. Vennemann 1995, auch Murray 2000 und in diesem Band für die Diachronie des Englischen) ist damit m. E. nicht angemessen zu erfassen. 2. Bis auf den Ansatz von Maas (1999) erlauben die vorliegenden Theorien keine adäquate Darstellung der phonotaktischen Gegebenheiten des Deutschen. Bei Becker (1998) sind unrestringiert zu viele Silbenkonstitutenten angenommen; bei Vennemann (1994) und Restle (1998) ist eine Konstituentenstruktur der Silbe nicht vorgesehen, so dass sich die Restriktion der wortinternen Silbe in monomorphemischen Wörtern als minimal und maximal CVC jeweils nur stipulieren lässt. Daraus ergibt sich; welchen Anforderungen eine adäquate Darstellung der Silbenschnittopposition genügen muss: 1. Die zugrunde liegende Silbenstruktur muss so definiert sein, dass sie Quantitätssysteme und Silbenschnittsysteme gleichermaßen erfassen kann (wie das ζ. B. bei Vennemann 1991 der Fall ist). 2. Die zugrunde liegende Silbenstruktur muss die Anzahl der ihr zugeordneten Segmente prinzipiell restringieren: Dies gelingt durch eine Konstituentenstruktur (wie etwa bei Maas 1999). Damit ergibt sich eine Darstellung der Silbenstruktur, wie ich sie in Lenerz (2000) vorgeschlagen habe: Ausgegangen wird hier von einer Konstituentenstruktur mit Onset (O) und verzweigendem Reim (R), der den Nukleus (N) und die Koda (K) dominiert. Diesen Konstituenten werden Elemente der Zeitachse (X) zugeordnet, die ihrerseits mit phonologischen Segmenten /m/, /a/, /n/ assoziiert sind: (14)

Mann

σ

|

Ν

I χ

I χ

I χ

I m

I

I η

a

Κ •

In Quantitätssprachen können nun Segmente entweder mit einem X oder mit mehreren Elementen der Zeitachse assoziiert sein: So sind kurze vs. lange (vs. überlange) Vokale oder einfache Konsonanten vs. Geminaten zu unterscheiden:

Silbenstruktur und

(15)

79

Silbenschnitt

Quantitätssysteme X Segment

X

X

Segment

Im Nhd. liegen keine Quantitätsoppositionen mehr vor (keine Kurz- oder Langvokale, keine Geminaten). Folglich sind hier alle Segmente mit genau einem X assoziiert. Die Unterscheidung zwischen sanftem und scharfem Silbenschnitt betrifft demgegenüber die Assoziation zwischen den Elementen der Zeitachse und der Konstituentenstruktur der Silbe. (Damit ist sie - wie bei Vennemann 1994 - auch in Quantitätssprachen verfügbar.) Ein scharf geschnittener Vokal wie in dann [dan] ist mit einem X assoziiert, welches nur mit Ν assoziiert ist (16a). Ein sanft geschnittener Vokal wie in da [da:] ist ebenfalls nur mit einem X assoziiert, welches jedoch mit Ν und Κ assoziiert ist (16b). Entsprechend ergeben sich hier die folgenden Strukturen:

An eine sanft geschnittene Silbe wie (16b) kann ein weiterer Konsonant hinzutreten (17a). Dieser zusätzlich mit Κ assoziierte Konsonant gehört jedoch nicht 'eigentlich' zu dieser Silbe: Wann immer er zum Onset einer Folgesilbe gemacht werden kann, wird er ausschließlich mit dem Onset der Folgesilbe assoziiert (17b). Assoziation mit der Koda der ersten Silbe (17c) oder Ambisilbizität sind bei sanftem Schnitt nicht möglich (17d):

Jürgen Lenerz

80 (17a)

Tat [ta:t]

(17b)

Taten [tai.tan]

(17c)

*[ta:t.?an]

Silbenstruktur und Silbenschnitt

81

Scharf geschnittene Silben erfordern demgegenüber eine Assoziation der Koda mit einem vom Nukleus-Segment verschiedenen Segment. Dieses Segment kann entweder ausschließlich der scharf geschnitten Silbe angehören (Gleitlaut (18a) oder Konsonant (18b)) oder zugleich auch der Folgesilbe (ambisilbischer Konsonant (18c)):

(18b)

Hirte Pakte

(18c)

Mitte

σ

Dies trifft auch für Konsonanten zu, die dem Onset der Folgesilbe zuzuordnen sind; man sieht das daran, dass sie ambisilbisch assoziiert werden (um scharfen Schnitt zu ermöglichen), aber stimmhaft (oder: ungespannt, s. u.) bleiben wie in Ebbe, Kladde, Flagge etc. Ist ein Wort (etwa ein Verbstamm oder ein Nomen im Nominativ Singular) einsilbig, dann werden eventuell zum Koda-Segment hinzukommende Segmente der Silbe zugeordnet, also mit Κ oder direkt mit dem Silbenknoten σ assoziiert, so dass sich ggf. die komplexere Struktur (19) ergibt:

82

Jürgen Lenerz

Ich habe in Lenerz (2000) Assoziation mit Κ vorgeschlagen, da sich so eine einheitliche Darstellung der Auslautverhärtung ergibt, die sich auch auf die Gespanntheit des Nukleusvokals übertragen lässt, falls dieser sanft geschnitten ist: Aus der Formulierung (20) folgt die Gespanntheit aller mit Κ assoziierten Segmente, die für das Merkmal der Gespanntheit spezifiziert sind, also der Vokale und Obstruenten: (20)

Κ Segment [+ gespannt]

Die vorgelegte Analyse erfasst damit sowohl die Restriktion CVC wie die Silbenschnittopposition; dabei bleibt die Möglichkeit der historisch gegebenen Herleitung der Silbenschnittopposition gegeben, da Quantität (als Beziehung zwischen Segmenten und der XAchse) und Silbenschnitt (als Beziehung zwischen der X-Achse und den Silbenkonstituenten Ν bzw. Ν und K) gleichermaßen darstellbar sind. Damit ergibt sich als Darstellung des phonologischen Wandels:

Segment Segment sanfter Schnitt Dehnung in offener Tonsilbe, homorganische Dehnung etc. (vgl. Murray 2000) sind entsprechend zu erfassen:

Silbenstruktur und Silbenschnitt

83

Eine wichtige weitere Eigenschaft der hier nur skizzierten Analyse soll noch hervorgehoben werden: In dem angenommenen generativen Modell wird zwischen zugrunde liegender Information und Oberflächenrealisierung unterschieden. Das heißt insbesondere: Alle einsilbigen Wörter mit mehr als einer C-Position nach dem Nukleusvokal (CVCC: Wahl, Wald, aber auch Obst, Herbst, Mond, Freund, Magd etc.) werden zugrunde liegend als CVC-Silben analysiert; die hinzutretenden Konsonanten werden immer dann mit dem Onset einer Folgesilbe assoziiert, wenn (oder soweit) das möglich ist: (CVC+C: Wah.len, Wal.des, (des) Obs.tes, (des) Mon.des, (der) Mäg.de etc.) Entsprechend analysiere ich alle Silben mit sanftem Schnitt als zugrunde liegend offene Silben (denen ggf. ein weiterer, allerdings 'eigentlich' zur Folgesilbe gehöriger Konsonant folgt):

ts

(23b)

i:

Wald

1 zugrunde liegend offene Silbe (CVC, sanfter Schnitt)

σ

X

X

Ν

Κ

I

I

\ X

X

I I I ι ν a I d zugrunde liegend 'einfach' geschlossene Silbe (CVC, scharfer Schnitt) Damit lässt sich die folgende Generalisierung für die Silbenschnittopposition und das Auftreten gespannter bzw. ungespannter Vokale formulieren:

Jürgen Lenerz

84 (24)

a)

V o k a l in (zugrunde liegend) offener Silbe -> Assoziation mit Ν und Κ (sanfter Schnitt) gespannt (wenn f ü r Gespanntheit spezifizierbar) und: bei Akzent dehnbar

b)

Vokal in (zugrunde liegend) geschlossener Silbe Assoziation nur mit Ν (scharfer Schnitt) -> ungespannt

Literatur Becker, Th. (1996): Zur Repräsentation der Vokallänge in der deutschen Standardsprache. - In: Zeitschrift fiir Sprachwissenschaft 15, 3-21. - (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt am Main u. a.: Lang (= Arbeiten zur Sprachanalyse 32). - (in diesem Band): Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart. Brockhaus, W. (1999): The Syllable in German: Explaining an Alternative. - In: H. G. van der Hülst, N. Ritter (Hgg.): The Syllable. Views and Facts, 169-217. Berlin, New York: de Gruyter. Hülst, H. G. van der/N. Ritter (1999): Theories of the Syllable. - In: Η. G. van der Hülst, Ν. Ritter (Hgg.): The Syllable. Views and Facts, 13-51. Berlin, New York: de Gruyter. Lenerz, J. (2000): Zur sogenannten Vokalopposition im Deutschen. - In: Zeitschrift für Sprachwissenschaft 19, 167-209. Lieb, H.-H. (1998): Morph, Wort, Silbe: Umrisse einer Interpretativen Phonologie des Deutschen. In: Germanistische Linguistik 141-142, 334-407 (= M. Butt, N. Fuhrhop (Hgg.): Variation und Stabilität in der Wortstruktur). Maas, U. (1999): Phonologie. Einführung in die funktionale Phonetik des Deutschen. - Opladen, Wiesbaden: Westdeutscher Verlag. Murray, R. W. (2000): Syllable Cut Prosody in Early Middle English. - In: Language 76, 617-154. - (in diesem Band): Syllable Cut Prosody in Early Modern English: John Hart 's Testimony. Ramers, Κ. H. (1988): Vokalquantität und -qualität im Deutschen. - Tübingen: Niemeyer. Restle, D. (1998): Silbenschnitt - Quantität - Kopplung. Zur Geschichte, typologischen Einordnung und Repräsentation der Anschlußprosodie unter dem Blickwinkel einer Oszillationssilbentheorie. Dissertation Universität München. - (in diesem Band): Normierung der Silbenquantität: Ein typologischer Beitrag zur Charakteristik des Silbenschnitts in und außerhalb der Germania. Sievers, Ε. ( 5 1901): Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. - Leipzig. [Nachdruck Hildesheim: Olms 1976]. Spiekermann, H. (2000): A proposal for an acoustic correlate of syllable cut prosodies. - Vortrag auf der DGFS-Jahrestagung 2000, Marburg. - (in diesem Band): Ein akustisches Korrelat des Silbenschnitts: Formen des Intensitätsverlaufs in Silbenschnitt- und Tonakzentsprachen. Trubetzkoy, N. S. (1939): Grundzüge der Phonologie. (= Travaux du Cercle Linguistique de Prague 7). - Göttingen: Vandenhoek & Ruprecht ( 6 1977). Vennemann, T. (1988): The Rule Dependence of Syllable Structure. - In: C. Duncan-Rose, T. Vennemann (Hgg.): On Language. Rhetorica Phonologica Syntactica. Festschrift for Robert P. Stockwell from his Friends and Colleagues, 257-283. New York: Routledge. - (1991): Syllable structure and syllable cut prosodies in modern Standard German. - In: P. M. Bertinetto, M. Kenstowicz, M. Loporcaro (Hgg.): Certamen Phonolicum II. Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellier.

Silbenstruktur und Silbenschnitt

85

-

(1992): From quantity to syllable cuts: On so-called lengthening in the Germanic languages. Krems Phonology Meeting (Ms.). - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Κ. Η. Ramers/H. Vater/H. Wode (Hgg.): Universale phonologische Strukturen und Prozesse, 7-54. Tübingen: Niemeyer. - (1995): Der Zusammenbruch der Quantität im Spätmittelalter und sein Einfluss auf die Metrik. In: Amsterdamer Beiträge zur Älteren Germanistik 42, 185-223. Wiese, R. (1996): Phonology of German. - Oxford: Clarendon. Yu, S.-T. (1992): Unterspezifikation in der Phonologie des Deutschen. - Tübingen: Niemeyer.

Appendix 1

Für das Deutsche gelten folgende Regeln für die Assoziation zwischen Segmenten, Elementen der X-Achse und Silbenkonstituenten: 1. Jedes Segment ist mit genau einem Element der X-Achse assoziiert (d. h. das Deutsche ist keine Quantitätssprache). 2. Die Assoziation zwischen Elementen der X-Achse und den Silbenkonstituenten gehorcht der Sonoritätshierarchie. 3. Jedes X wird mit genau einer Silbenkonstituente assoziiert (d. h. es darf keine unassoziierten Segmente geben). 4. Jede Silbenkonstituente wird mit genau einem X assoziiert (d. h. es darf keine Silbenkonstituenten geben, denen kein Segment zugeordnet ist). Durch die logische Anordnung von Regel 3 vor Regel 4 folgt, dass es keine 1:1Zuordnung geben muss, sondern dass Mehrfachassoziationen von X zu Ν und Κ (sanfter Schnitt) zulässig sind: (25)

da

Regel 3

Regel 1

Um die weitere Assoziation von nicht-assoziierten Elementen zu ermöglichen, die am Wortende zur CVC-Silbe hinzutreten, ist in einem weiteren Regelzyklus auf Regel 3 zurückzugreifen (hier als Regel 3' formuliert):

Jürgen Lenerz

86 (26)

σ

Tag

R

Ο Ν

Κ Regel 3'

Regel 3

i

X Regel 1

^

I X

t

α:

X ^

Regel 1

9 zugrunde liegend offene Silbe (sanfter Schnitt, CVC)

Appendix 2

Wer gegenüber der Annahme zugrunde liegender Strukturen allergisch ist, kann sich (vielleicht, hoffentlich) mit folgender Formulierung einverstanden erklären. Anstelle "zugrunde liegend offene Silbe" kann man auch sagen: (27a) Eine einfach geschlossene Silbe, deren silbenschließender Konsonant im Falle einer Folgesilbe, die sich bei Flexion oder Wortbildung ergibt, ausschließlich mit dem Onset der Folgesilbe assoziiert wird. (27b) Mehrfach geschlossene Silben enden auf einen Appendix (dentaler Obstruent [ts, s, st, t, (/d/)]). Soweit erkennbar, handelt es sich um morphologisch komplexe Wörter, deren dentaler Appendix eine Flexionsendung oder ein Derivationsmorphem ist (oder historisch war). Der somit abtrennbare Stamm verhielte sich, wenn er ohne den Appendix aufträte, wie eine einfach geschlossene Silbe nach (27a).

Thomas Becker Silbenschnitt und Silbenstruktur in de r deutschen Standardsprache der Gegenwart*

1. Einfuhrung

Seit dem Beginn der grammatischen Beschreibung des Deutschen hat man immer wieder bemerkt, dass der Unterschied zwischen den deutschen 'Lang- und Kurzvokalen' mit der Beziehung des Vokals zum folgenden Konsonanten zusammenhängt, was man heute Silbenschnitt nennt.1 Es ist das Verdienst Vennemanns (z.B. 1991), diesen Gesichtspunkt in die moderne Linguistik wieder eingebracht zu haben, wo er dank der entwickelten Methoden in Phonetik und Phonologie auf fruchtbaren Boden fiel. Silbenschnittsprachen bilden einen phonologisch bestimmbaren Typ von Quantitätssprachen, der sich wesentlich vom klassischen Typ unterscheidet, wie er sich z.B. im Latein und im Finnischen zeigt. 2 Das Konzept des Silbenschnitts spielte in der älteren Sprachwissenschaft eine bedeutende Rolle, wurde jedoch später aufgegeben, weil es in der akustischen Phonetik nicht gelungen war, ein Korrelat zu finden, das den Silbenschnitt von der klassischen Quantität unterscheidet. Insbesondere die gründliche Untersuchung von Fischer-Jergensen/Jargensen (1969) wirkte entmutigend. Inzwischen sind aber ansatzweise von Hoole et al. (1994:54ff.) und Kroos (1996:89ff.) artikulatorische und von Maas/Tophinke (1993:141) akustische Korrelate des Silbenschnitts identifiziert worden. Einen Durchbruch bedeutet die Arbeit von Spiekermann (2000), die nachweist, dass sanfter Schnitt (bei Langvokalen) durch "ein starkes Halten eines hohen Energieniveaus" gekennzeichnet ist (2000:40f.). Er konnte darüber hinaus zeigen, dass das Halten des hohen Energieniveaus bei Nicht-Silbenschnittsprachen wie dem Finnischen und dem Tschechischen keine Rolle spielt (S. 75 bzw. 77). Diese wesentliche Komponente des Nachweises fehlt bei den genannten früheren Arbeiten. Die Verteilung des Silbenschnitts in den deutschen Dialekten (S. 224) bestätigt auch die in Becker (1998:66) geäußerte Vermutung, dass der Silbenschnitt durch niederdeutschen Einfluss in die deutsche Standardsprache gelangt ist.

* Für zahlreiche wertvolle Hinweise bin ich den Herausgebern Peter Auer, Peter Gilles, Helmut Spiekermann und Richard Wiese sehr dankbar; die verbleibenden Irrtümer sind natürlich meine. 1 Ζ. B. Ickelsamer (1534:154f.), Adelung (1790:216, 256), Sievers (1901:222f.), Jespersen (1912:153f.), Meyer (1913:164), Paul (1916:151), Trubetzkoy (1939:196); vgl. Restle (1993:20f„ 1998:1 Iff.), Becker (1998:56fF.); die Sammlung älterer Beschreibungen des Silbenschnitts in Restle (1993) kann noch durch Lochner (1735:32, 81, 87) und Nast (1777/78, Bd. 2:51, 83, 85f.) ergänzt werden. 2 Im Gegensatz zu Vennemann (z.B. 1994:23) und gegen den Rat Peter Auers verwende ich den Begriff "Quantitätssprache" in einem weiteren Sinn, der Silbenschnittsprachen mit einschließt: Eine Quantitätssprache sei eine Sprache, die eine prosodische Opposition aufweist, deren primäres phonetisches Korrelat segmentale Dauer ist. Damit versuche ich, den Terminus in seiner traditionellen Bedeutung verständlich zu halten; Bloomfield (1933:109) z.B. belegt "quantity" an erster Stelle mit dem Deutschen Beet/Bett.

88

Thomas Becker

2. Konkurrierende Modelle: segmentale Gespanntheit und 'klassische' Quantität

Die Auffassung, der Unterschied von Lang- und Kurzvokal im Deutschen sei durch ein segmentales Merkmal [± gespannt] zu beschreiben, kann durchaus noch als die 'herrschende Lehre' bezeichnet werden. Sie findet sich in populärwissenschaftlichen Darstellungen (Drosdowski/Eisenberg 1995:35)3 sowie in Lehrbüchern (Meinhold/Stock 1980:80), auch solchen neueren Datums (Hall 2000:27, aber nicht Maas 1999:192ff.). Das phonetisch verstandene Merkmal 'Gespanntheit' ist für die Beschreibung der Vokalopposition des Deutschen hingegen völlig untauglich, da sich die Vokale [ a : ] und [ε :] wie gespannte Vokale verhalten, aber in jedem phonetisch vernünftigen Sinn ungespannt sind. Einzig die auf Jakobson et al. (1952:36, 60f.) zurückgehende phonologische Interpretation von [tense] ist sinnvoll. Dieses phonologische Merkmal hat die phonetischen Korrelate Dauer (die bei den offenen Vokalen [a: ] und [ ε : ] überwiegt) und Dezentralisierung, d.h. Abweichung von der neutralen Position im Vokalraum (die bei den übrigen Vokalen, vor allem den geschlossenen, überwiegt). Jessen (1998:148) plädiert aus zwei Gründen für die Verwendung dieses Merkmals: Erstens, es sei ökonomisch, weil es sowohl für Vokale als auch für Konsonanten anzusetzen ist. Der unten vorgeschlagenen Ansatz einer Beschreibung des deutschen Vokalsystems über den Silbenschnitt ist jedoch insofern noch ökonomischer, als er ebenfalls nur das eine Merkmal [tense] annimmt, aber dies nur für Konsonanten; Lang- und Kurzvokale werden überhaupt nicht segmental unterschieden. Das zweite Argument Jessens ist der von ihm so genannte "Puzzle Constraint" (1998:148) "against lax obstruents preceded by lax vowels" (S. 172), der die Seltenheit von Wörtern wie Robbe, Kladde, clever etc. begründen soll. Jessen (1998:172-177) belegt diesen Typus allerdings so gründlich, dass Zweifel an der Seltenheit dieser Wörter aufkommen. Sie findet außerdem eine simple historische Erklärung: Im Hochdeutschen sind diese Strukturen durch verschiedene Lautveränderungen verschwunden: nach traditioneller Auffassung beseitigte die Medienverschiebung im Rahmen der zweiten Lautverschiebung geminierte Lenisobstruenten, die Auslautverhärtung beseitigte tautosyllabische Verbindungen von Kurzvokal und Lenisobstruent (ahd. tag > mhd. tac), die Dehnung in offener Tonsilbe heterosyllabische (mhd. täges > nhd. Täges). Diese Lautveränderungen verteilen sich auf mehrere Jahrhunderte - wenn hier der "Puzzle Constraint" gewirkt hat, dann nur als steter Tropfen, der den Stein höhlt. Die vorhandenen Verletzungen der Beschränkung sind allesamt jüngere Lehnwörter, daher sind sie selten; die Gegenwartssprache scheint sie auch anstandslos zu tolerieren. Unter ausschließlich synchroner Betrachtung wäre die Gespanntheitsdissimilation rätselhaft und selbst dringend erklärungsbedürftig. Jessens zweites Argument ist daher ebenfalls nicht sehr überzeugend. 4 Das entscheidende Argument gegen das Merkmal [± tense] und gegen eine segmentale Behandlung des Problems überhaupt bringt Vennemann (1991:218) vor: Der Unterschied zwischen Lang- und Kurzvokal ist eng verbunden mit prosodischen Erscheinungen wie Offenheit/Geschlossenheit der Silbe, Ambisyllabizität, etc. Wenn der Unterschied segmental ist, warum kommt dann ein ambisyllabischer Konsonant nur nach ungespanntem Vokal 3 4

Dort mit gutem Grund, denn sie macht die geringsten theoretischen Voraussetzungen. Ein weiteres Argument, nämlich dass die Gespanntheitsopposition im Gegensatz zum Dauerunterschied die Neutralisierung bei Unbetontheit überlebt (in gespannten Kurzvokalen wie dem [o] in Botaniker), hält einer Überprüfung nicht stand, vgl. Becker (19966 und 1998:Kap. 6).

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

89

vor und nicht umgekehrt nur nach gespanntem Vokal? Im folgenden Kapitel werden die prosodischen Korrelate der Vokalopposition im Einzelnen ausgeführt. Dabei zeigt sich, dass sämtliche prosodischen Korrelate auf die Rolle einer Strukturposition der Silbe zurückzuführen sind, die Implosionsposition. In dieser Strukturposition scheint das 'Wesen' des Silbenschnitts zu liegen, was ihn von der klassischen Quantität in Sprachen wie Finnisch oder Latein unterscheidet. Diese Besonderheit wird in anderen prosodischen Ansätzen wie Wiese (1988), Hall (1992) oder Yu (1992) nicht erfasst.

3. Silbenschnitt und Implosionsposition

In dem hier vorgestellten Ansatz5 besteht kein segmentaler Unterschied zwischen den Stammvokalen in Miete/Mitte oder Beet/Bett. Die Vokale unterscheiden sich lediglich durch die Einbettung in die Silbenstruktur, Gespanntheit und Dauer sind phonologisch irrelevante, allophonische Korrelate des prosodischen Unterschieds. Dieser soll durch die folgenden Graphiken veranschaulicht werden (Abb. 1, 2). Beet

I

Wort Tonsilbe

Implosion

b

e

Abb. 1: scharfer Schnitt (Kurzvokal)

t

b

e

Abb. 2: sanfter Schnitt (Langvokal)

Der Kurzvokal ist mit einer Position verbunden (dem Nukleus), der Langvokal mit zwei Positionen (Nukleus und Implosion). Die Darstellung unterscheidet sich nur in einem wesentlichen Punkt von den traditionellen: zwischen Anfangsrand (abgekürzt AR) und Endrand (ER) der Silbe steht nicht der Nukleus, sondern die sich verzweigende Kernsilbe. Die Kernsilbe ist die minimale Silbe; Anfangsrand und Endrand sind fakultativ. Das gilt nur für 5

Dieser Abschnitt ist eine leicht überarbeitete und stark gekürzte Version von Becker (1996a und 1998:Kap. 5). Die Verweise auf die Literatur werden hier nicht wiederholt und die Argumentation ist sehr knapp gehalten.

90

Thomas Becker

Tonsilben; 6 unbetonte Silben haben statt der Kernsilbe einen nicht-verzweigenden Nukleus (die minimale unbetonte Silbe, s. u. Abb. 3, 4). Einen Silbenschnittgegensatz kann es daher nur in Tonsilben geben. Nukleus und Implosion sind obligatorisch, d.h. sie müssen mit einem Segment verbunden werden. Der Nukleus muss mit einem Vokal verbunden sein, die Implosion mit irgendeinem Laut. So ist ein Kurzvokal in offener Tonsilbe nicht möglich: Wenn die Implosion nicht mit einem eigenen Segment verbunden ist, so muss sie mit dem vorangehenden Vokal verbunden werden, wodurch dieser lang wird. Das ist die Besonderheit von Silbenschnittsprachen: hier ist Kurzvokal der markierte Fall. Der scharfe Schnitt ist ein besonderes artikulatorisches Verfahren zur Erreichung von Vokalkürze unter erschwerten Bedingungen. Der Vokal wird durch Koartikulation mit dem folgenden Konsonanten 'abgeschnitten'. Das erklärt auch, warum gerade das Deutsche eine Silbenschnittsprache ist: Das wichtigste phonetische Korrelat des dynamischen Akzents im Deutschen ist die Dauer der betonten Silbe, vor allem des Vokals (Dogil/Williams 1999:297). Starker dynamischer Akzent, der für die germanischen Sprachen charakteristisch ist, bewirkt somit Dehnung der betonten Kurzvokale und bedroht die Quantitätsopposition. Das kann dadurch verhindert werden, dass der Kurzvokal durch den Konsonanten abgeschnitten wird. In einer Sprache, die keine Daueropposition aufweist, wie z.B. dem Russischen, ist die Dehnung in akzentuierten Silben wesentlich deutlicher (Brandstäter 1966:39). Durch dieses Verfahren des Abschneidens entsteht der Eindruck, dass ein Kurzvokal an den folgenden Konsonanten enger angeschlossen ist als ein Langvokal; Jespersen (1912:153f.) bezeichnete daher den Unterschied als "Anschlussgegensatz" ("loser/fester Anschluss" oder "close/lose contact"). In der graphischen Repräsentation wird das dadurch zum Ausdruck gebracht, dass Kurzvokal und der erste folgende Konsonant eine Konstituente bilden (die Kernsilbe). Ambisyllabizität wird in Abb. 3, 4 graphisch dargestellt. Der Zusammenhang von Vokallänge und Ambisyllabizität ergibt sich aus dem obligatorischen Charakter der Implosion in der minimalen Kernsilbe. Die Implosion muss mit einem Sprachlaut verbunden werden; steht dafür kein eigener Sprachlaut zur Verfügung {Colmar), so gibt es nur zwei Möglichkeiten: Sie wird mit dem vorangehenden Vokal assoziiert, der dadurch lang wird, oder mit dem folgenden Konsonanten, wodurch der Vokal kurz wird; steht dieser folgende Konsonant in intervokalischer Position, so muss er ambisyllabisch sein, weil ansonsten der (möglicherweise universell) verbotene Silbenkontakt *K . V ([*kom.a]) entstünde. Ambisyllabizität kommt nur dann vor, wenn beide Silben den Konsonanten fordern: Die Struktur *[kö.ma] ist mit einmoriger Tonsilbe ebenso verboten wie *[kom.a] aufgrund des 'schlechten' Silbenkontakts. Ohne Not gibt es keine Ambisyllabizität, daher kann ein fakultativer Endrandkonsonant nicht ambisyllabisch sein. Weil das Konzept der Ambisyllabizität immer wieder angezweifelt wird, seien hier noch einige zusätzliche Argumente kurz angeführt: In Ebbe gehört das /b/ nicht ganz zur ersten Silbe, denn ein stimmhafter Obstruent muss mit einem Anfangsrand verbunden sein; in zerre müsste das Μ vokalisiert sein, wenn es ganz zur ersten Silbe gehörte. In Enge gehört das /η/ nicht ganz zur zweiten Silbe, denn /η/ darf nicht allein im Anfangsrand stehen (in Tonsilben muss es mit der Implosionsposition verbunden sein). Die erste Silbe in mhd. gate ist leicht, die in nhd. Gatte ist schwer; im Mhd. ist gate metrisch äquivalent mit man, im Nhd. sind die Entsprechungen nicht äquivalent -

6

Der Begriff der Tonsilbe ist nicht trivial, er umfasst u. a. auch morphologisch deakzentuierte Silben (s.u., Abschnitt 4).

91

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart Komjtia

Koma

Wort

Wort Tonsilbe AR

KS

AR

Nukleus

/

V

KS

/\

Ν

Ν

Κ m

Abb. 3: Konsonant heterosyllabisch nach Langvokal

Κ

/

\

AR

/\ Κ

unbetonte Silbe

Tonsilbe

unbetonte Silbe

\

AR

Nukleus

Κ

V

I

\ I

m Abb. 4: Konsonant ambisyllabisch nach Kurzvokal

irgend etwas muss sich da verändert haben; eine andere Erklärung als die, dass die Silbe im Nhd. geschlossen und damit schwer ist, ist nicht erkennbar. Es handelt sich bei ambisyllabischen Konsonanten auch nicht um Geminaten, denn ihre Dauer ist nicht wesentlich länger als die der Einzelkonsonanten (im Gegensatz zu ital. comma oder dem Doppellaut an der morphologischen Grenze in um+melden). Die Implosionsposition, die der erste Konsonant nach Kurzvokal einnimmt, ist fur den Silbenschnitt wesentlich. Im Folgenden werden die phonetischen Eigenschaften des Silbenschnitts und die Rolle der Implosionsposition tabellarisch aufgelistet: Phonetische Korrelate des Silbenschnitts:

Die Rolle der Implosionsposition:

Vokale sind lang in sanft geschnittenen Silben, kurz in scharf geschnittenen Silben; Langvokale sind bei expliziter Aussprache etwa zweimal so lang wie Kurzvokale (Antoniadis/Strube 1984:82f.).

In sanft geschnittenen Silben besetzen Vokale nicht nur die Nukleusposition, sondern auch die Implosionsposition, somit zwei Positionen.

Vokale sind gespannt unter sanftem Schnitt, Die Implosion ist das Ziel einer ballistischen Artikulationsbewegung; die Wucht ungespannt unter scharfem Schnitt. der Artikulationsbewegung trifft den Langvokal oder den Konsonanten nach Kurzvokal; dieser ist nur ein unvollkommen artikulierter Übergangslaut.

92

Thomas Becker

Unter emphatischer Betonung wird entwe- Unter emphatischer Betonung wird die der der Langvokal gedehnt oder nach Kurz- Implosionsposition gedehnt. vokal der Konsonant: Wa::hn, Wan::d, Wat::te. Konsonanten nach Kurzvokal haben eine Die Implosionsposition ist eine 'Stärkelängere Dauer und stärkere Gespanntheit als position', d.h. eine Position, in der StärKonsonanten nach Langvokal; das Hoch- kungsprozesse zu erwarten sind. deutsche meidet stimmhafte Obstruenten und /r/ nach Kurz vokal. Die Verbindung von Kurzvokal mit dem folgenden Konsonanten wird als fester Anschluss wahrgenommen, die von Langvokal als loser Anschluss.

Der Kurzvokal im Nukleus bildet mit dem Konsonanten in der Implosionsposition eine Konstituente, der Langvokal bildet mit dem folgenden Konsonanten keine Konstituente.

Der erste Vokal eines Diphthongs wirkt Der erste Vokal eines Diphthongs steht vor ungespannt, der ganze Diphthong gespannt. dem Laut in Implosionsposition (wie ein Kurzvokal) der ganze Diphthong nimmt beide Positionen ein (wie ein Langvokal). Die Rolle der Implosionsposition bei der Beschreibung der phonetischen Korrelate ist nicht sehr bedeutend; wesentlicher ist, dass die Implosionsposition bei der Beschreibung sämtlicher phonotaktischer Regularitäten, die die Vokallänge betreffen, eine zentrale Rolle spielt: Phonologische Korrelate des Silbenschnitts:

Die Rolle der Implosionsposition:

Betonte Kurzvokale treten nicht in offenen Silben auf, nicht vor Hiat, nicht im Wortauslaut; für Langvokale und Diphthonge gibt es keine solche Beschränkung.

Die Implosion ist obligatorisch; sie muss entweder mit dem Nukleusvokal verbunden werden (Langvokal), oder mit einem folgenden Vokal (Diphthong) oder bei Kurzvokal mit dem dann obligatorischen Konsonanten.

Vor einem ambisyllabischen Konsonanten kann nicht Langvokal oder Diphthong stehen; ein einzelner intervokalischer Sprachlaut nach einem Kurzvokal ist immer ambisyllabisch.

Ein Laut kann nur ambisyllabisch sein, wenn er mit der Implosionsposition verbunden ist. Bei Langvokal und Diphthong ist die Implosionsposition bereits vergeben (s.o. den Abschnitt zur Ambisyllabizität).

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

93

Der velare Nasal /r)/ darf nicht nach Lang- In Tonsilben kann der velare Nasal nur die Implosionsposition einnehmen vokal oder Diphthong stehen. Der Laryngal /h/ darf nicht nach Kurzvokal Der Laryngal /h/ darf nicht in der Implosionsposition stehen. 7 stehen. Nach einem Kurzvokal kann ein Konsonant mehr vorkommen als nach Langvokal oder Diphthong; Kurzvokal + Konsonant ist phonotaktisch äquivalent mit Langvokal und Diphthong (vgl. Moulton 1956:374): Γ V Κ,Ί J V: L VV

K2

Die äquivalenten Strukturen sind jeweils die Kernsilbe; die Implosionsposition wird entweder durch den Nukleusvokal besetzt (Langvokal) oder durch den zweiten Diphthongteil oder durch den zusätzlichen Konsonanten (K|).

K3 Κ4 Κ5 Γ kor 1 Γ kor 1 Γ kor obstrj [obstr

obstr

(Inklusive Flexion und Klitika, z.B. Herbsts\ K 3 - K 5 müssen koronale Obstruenten sein.) Die Silbenschnittopposition kommt nur in Nur betonte Silben haben die Implosionsposition. betonten Silben vor. 8 In Tonsilben sind (gespannte) Langvokale äquivalent mit Diphthongen und einfach gedeckten Kurzvokalen (s.o.), in unbetonten Silben nicht: eine unbetonte offene Silbe mit (allophonisch 9 ) gespanntem Vokal ist leicht, eine geschlossene Silbe und eine mit Diphthong schwer: Do . mi. no vs. *Ve . ran . da, *The . sau . rus. (Antepänultimaakzent nach schwerer Pänultima ist verboten, daher muss die Pänultima /.mi./ in Domino leicht sein).

7

8

9

In Tonsilben nimmt der zweite Diphthongteil (wie ein Langvokal) die Implosionsposition ein; in unbetonten Silben ohne Implosionsposition nimmt er die erste Endrandposition ein, im Gegensatz zu unbetontem Vokal mit allophonischer Gespanntheit, der nur die Nukleusposition einnimmt.

Die komplementäre Verteilung von /h/ und /r)/ ist ein zufälliges Resultat unabhängiger historischer Entwicklungen. Gespanntheit in unbetonten Silben ist allophonisch und kommt nur in offenen Silben vor. Diese Gespanntheit ist außerdem fakultativ, denn eine Realisation B[o]tanik ist im Gegensatz zu B[o]te unauffällig. Zu dieser Regel gibt es scheinbar zahlreiche Ausnahmen, die jedoch sämtlich systematisch erklärt werden können. Die Argumentation ist in Becker (19966 und 1998:Kap. 6) ausgeführt und kann hier nicht wiederholt werden. Wäre das /i/ in Domino tatsächlich phonologisch gespannt und lang, wäre das Deutsche typologisch außergewöhnlich, denn es hätte zwar schwere Silben (geschlossene und solche mit Diphthong), Silben mit Langvokal wären aber leicht. Nach Hall (2000:262) sind solche Sprachen

94

Thomas Becker

Silbenschnittsprachen unterscheiden sich in einigen wesentlichen Punkten von klassischen Quantitätssprachen; die deutsche Standardsprache ist in dieser Hinsicht typologisch mit den westnordischen Sprachen und wahrscheinlich dem Niederländischen verwandt, nicht aber mit dem Finnischen, dem Tschechischen und dem Latein. Das Zusammentreffen dieser Eigenschaften scheint für Silbenschnittsprachen charakteristisch zu sein ("Silbenschnittsyndrom"): Silbenschnittsprachen (Deutsch, Isländisch):

Klass. Quantitätssprachen (Finnisch, Latein):

Abhängigkeit von Vokal- und Konsonantenlänge (bzw. Ambisyllabizität), komplementäre Länge: */kö . ma/ /köm. ma/10 /kö. ma/ */köm. ma/

Unabhängigkeit von Vokal- und Konsonantenlänge (Finnisch): muta 'Schlamm, Nom. Sing.' mutta 'aber' muuta 'ander, Part. Sing.' muutta 'ander, Abess. Sing.'

Abhängigkeit der Vokal- und Konsonanten- Unabhängigkeit der Quantität vom Akzent: länge (bzw. Ambisyllabizität) vom Akzent: hämaan 'fern' Länge kommt nur in Tonsilben vor. härmaa 'grau' önnellinen 'glücklich' kuünella 'zuhören' Abhängigkeit von Akzent und Silbengewicht: die minimale Tonsilbe ist zweimorig, Dehnung in offener Tonsilbe, alle betonten Kurzvokale sind bedeckt.

Kurzvokale sind in offenen Tonsilben möglich, vor Hiat sogar bevorzugt: Iii. aksi 'zu sehr' pi. an 'bald' Ιύ. ento 'Vorlesung'

Diese Besonderheiten müssen in einer Theorie der Vokalquantität der deutschen Standardsprache erfasst werden. Die oben dargestellte Theorie des Silbenschnitts im Deutschen ist von Lenerz (2000) ausführlich kritisiert worden; der folgende Abschnitt ist eine Antwort auf Lenerz' Kritik.

10

"nach dem gegenwärtigen Stand der Forschung nicht belegt". Außerdem ist nicht anzunehmen, dass betonte offene Silben {Al. bi. no) leicht sind. Die Struktur /m . m/ steht hier sowohl für langes ambisyllabisches /m/ ('Geminata') z.B. im Isländischen als auch für kurzes ambisyllabisches Iml im Deutschen.

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

95

4. Eine Replik auf Lenerz (2000)

Lenerz (2000:18Iff.) kritisiert vor allem drei Punkte: 1) Unklar sei der Status der so genannten Tonsilben unter Haupt- und Nebenbetonung und das damit verbundene so genannte Prinzip der Morphemkonstanz. 2) Unklar sei der Status der so genannten Implosionsposition und der strukturelle Unterschied zwischen Tonsilben und unbetonten Silben; unklar sei ferner, wie der typologische Wandel von einer klassischen Quantitätssprache wie dem Mhd. zu einer Silbenschnittsprache wie dem Nhd. vorzustellen sei. 3) Die unterschiedliche Analyse der Gespanntheit/Ungespanntheit von Vokalen in Tonsilben und in unbetonten Silben erscheine redundant. Ad 1: Dieser Kritikpunkt ist sehr wohl berechtigt. Die Behauptung, die Funktion des Silbenschnitts sei, Kurzvokale vor der Dehnung durch den dynamischen Akzent zu schützen, könnte so interpretiert werden, dass dieser Schutz in jeder Äußerung einer scharf geschnittenen Silbe wirksam ist; es handelt sich aber nur um eine Disposition: In Silbenschnittsprachen garantiert der obligatorische Konsonant nach Kurzvokal, dass der Vokal bei emphatischer Betonung abgeschnitten werden kann, d.h. dass die Kürze auch dann erhalten bleibt. Der Unterschied zwischen Miete und Mitte soll aber auch dann bewahrt sein, wenn das Wort nicht unter dem Satzakzent steht. Das gilt nicht nur fiir satzphonologische, sondern auch für morphologische Deakzentuierung: In dem Wortpaar herümspuken/herümspucken ist der relevante Vokal nie betont (außer unter Kontrastakzent), trotzdem muss hier die Quantität bewahrt bleiben, damit die morphologische Durchsichtigkeit sichergestellt bleibt. Dieses funktionale Prinzip nenne ich Morphemkonstanz. Das Prinzip ist in Becker (1998) bedauerlicherweise durch ein falsch gewähltes Beispiel verundeutlicht worden: Das [o] in dogmatisch wurde als Beispiel fiir unbetonten Vokal herangezogen, obwohl das Wort wegen des morphologischen Bezugs zu Dogma auch in der ersten Silbe eine Tonsilbe hat. Dadurch ist der Eindruck entstanden, dass der Tonsilbencharakter einer Silbe in morphologisch aufeinander bezogenen Wörtern in Abhängigkeit vom Akzent wechsele; das ist aber nie der Fall. In keinem der Beispiele von Lenerz 2000:182 wechselt morphologisch eine Tonsilbe mit einer unbetonten Silbe. Der Silbenschnittunterschied bei οr/-oren ist weitgehend ausgeglichen (Siebs: [ z e ' n a : t o r ] , Mangold (1990): [ze' na: t o : Ε]), durch Dehnung vor r oder durch Rückbildung, wodurch auch die Form Motor entstanden ist. Beim Suffix on beginnt der Ausgleich erst: Elektron. Durch Lexikalisierung kann aber eine Tonsilbe zur unbetonten Silbe werden, vor allem bei den nicht-abgeleiteten Formen. So wie in Handschuh bei der Aussprache [han.tju] die Kompositionsstruktur verloren gegangen ist, so kann auch bei platonisch der Tonsilbencharakter der ersten Silbe verloren gehen, z.B. bei Sprechern, die das Wort nur in der Bedeutung 'nicht sinnlich' kennen. Bei dem Verb reformieren kommt in der Bedeutung 'durch Reformen verändern' die Aussprachevariante [rt^fOBmi : r a n ] vor, in der morphologisch durchsichtigen Bedeutung 'erneut formieren' ( [ r e + f o e m i : r a n ] ) nicht. Die Morphemkonstanz ist trotz dieser Lexikalisierungserscheinungen keinesfalls ein Prinzip, "welches mal greift, mal nicht" (Lenerz 2000:183), denn die Bedingung für ihr Greifen kann präzise angegeben werden: Eine morphologisch deakzentuierte Silbe bleibt eine Tonsilbe genau dann, wenn der synchrone morphologische Bezug zu

96

Thomas Becker

einem Wort mit Hauptton auf dieser Silbe besteht. Dagegen, dass Sprachgemeinschaften in der Hinsicht uneinheitlich sind, dass für manche Sprecher morphologische Beziehungen bestehen, die für andere nicht erkennbar sind, kann auch die beste Linguistik nichts ausrichten. Ad 2: Lenerz (2000:183) bemängelt, dass nicht geregelt ist, wie Silbenstrukturen aus der Segmentfolge aufzubauen sind. Er schlägt vor, die Implosionsposition mit einem abstrakten Merkmal [± scharf geschnitten] auszustatten: "Nur so ist sichergestellt, dass eine Segmentfolge wie z.B. /kam/ entweder als kam [ k a : m ] oder als [kam] realisiert wird." Dieses Missverständnis klärt sich, wenn man berücksichtigt, dass in meinem Beschreibungsansatz prosodische Strukturen überhaupt nicht aufgebaut, sondern statisch beschrieben werden. Das Wort Kamm hat scharfen Schnitt, und es gibt keinen Ableitungsprozess, der diese Struktur aufbaut. Dies gilt übrigens auch fur den Akzent: Wörter bekommen ihren Akzent nicht, sie haben einen Akzent; 11 die Auffassung, dass prosodische Strukturen redundant seien und aus segmentalen Informationen abgeleitet werden müssten, wird der Tatsache nicht gerecht, dass sie z.B. in der Wahrnehmung, beim Spracherwerb und bei der Wortfindung durchaus unabhängig, vielleicht sogar primär sind. Es ist rätselhaft, warum extrem restriktive, nicht-prozedurale, deklarative Ansätze wie dieser gerade in der generativen Phonologie so wenig Anklang finden, die doch auf die Restriktivität des Beschreibungsapparats so großen - unnötig großen! - Wert legt. Der Einwand, in meinem Ansatz könne eine (klassische) Quantitätssprache nicht beschrieben werden, ist mir nicht verständlich (Lenerz 2000:185): "Tonsilben" in der von Becker charakterisierten Form kann es nur in Sprachen mit einer Silbenschnittopposition geben. Betonte Silben in Quantitätssprachen können keine "Implosionsposition" enthalten. Wie deren Struktur anzusetzen ist, bleibt in Beckers Darstellung offen. Damit ist - anders als in Vennemanns (1994) genereller Theorie der Silbenstruktur - keine universelle Silbentheorie gegeben, und die Erfassung der (universell ja offenbar auch von Becker angenommenen) Möglichkeit eines typologischen Wandels von einer Quantitätssprache zu einer Silbenschnittsprache bleibt nur ad hoc durch Stipulation einer für letztere besonderen Silbenstruktur zu erfassen.

Klassische Quantität lässt sich in meinem Ansatz mühelos in der gleichen Weise wie bei Lenerz oder Vennemann erfassen, nämlich durch mehrfache Verbindung der Sprachlaute mit Einheiten der "Skelettschicht" (KV). Die Repräsentationen von mhd. wazzer und nhd. Wasser bzw. röse/Rose sehen so aus wie in Abb. 5 bis 8. Die nhd. Form unterscheidet sich in zweifacher Hinsicht von der mhd.: Es gibt keine Quantität auf der Skelettschicht mehr, d.h. keine Verbindung eines Sprachlauts mit zwei Einheiten der Skelettschicht. Zweitens ist die fakultative erste Position des Endrands reanalysiert als die obligatorische Implosionsposition der Kernsilbe, was den Silbenschnitt ausmacht. Die Quantität beider Sprachtypen wird in der Silbenstruktur repräsentiert, 12 und zwar in klassischen Quantitätssprachen auf der Skelettschicht, in Silbenschnittsprachen auf der Konstituentenebene, also der Ebene, auf der obligatorische von fakultativen Konstituen" Der Eindruck, es gebe so etwas wie eine phonologische Repräsentation, in der alle Information vorhanden ist bis auf den Akzent, wird durch das Schriftbild hervorgerufen. Fragen zum Akzent stellen sich einem Sprecher (oder Leser!) des Deutschen am häufigsten dann, wenn er das Schriftbild lautlich interpretieren muss. 12 "Repräsentiert" ist nur ein freundlicheres Wort fur "ad hoc stipuliert" in Lenerz' Zitat, bedeutet aber etwa dasselbe.

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart wazzer

Wasser

Wort

Wort

97

unbetonte Silbe

AR

Ν

ER

AR

Ν

ER

Κ

V

Κ

Κ

V

Κ

\

A R ^

I

Ro^e

Wort

Wort

Tonsilbe AR*"

unbetonte Silbe

Κ ζ

Abb. 7: mhd. röse (klassische Quantität)

r

AR

""^KS

/\ \/

Γ

ο

I

Abb. 6: nhd. Wasser (Silbenschnitt)

rose

Γ

κ

V

Κ

/

Abb. 5: mhd. wazzer (klassische Quantität)

Ν "^^ER

ο

^^N

I

Κ ζ

Abb. 8: nhd. Rose (Silbenschnitt)

V

98

Thomas Becker

ten unterschieden werden können. 13 Die Veränderungen sind mit größter Wahrscheinlichkeit in einem Schritt vollzogen worden, als die hochdeutschen Sprachsignale von Sprechern des Niederdeutschen reanalysiert wurden. Es handelt sich hier nicht um internen Wandel, sondern um Wandel durch Sprachkontakt. Bei der Ausprägung der nhd. Standardsprache spielten Sprecher auf niederdeutscher Dialektgrundlage eine entscheidende Rolle (vgl. Schmidt/Vennemann 1985).Wie bereits eingangs erwähnt, zeigt die Untersuchung von Spiekermann (2000), dass der standarddeutsche Silbenschnitt auch heute nur bei Sprechern in der nördlichen Hälfte Deutschlands vorhanden ist (2000:224), also gerade nicht auf hochdeutscher Dialektgrundlage. Das Mittelniederdeutsche hatte bereits die für den neuhochdeutschen Silbenschnitt wesentlichen Züge: Dehnung in offener Tonsilbe und vor Liquid, keine Konsonantenquantität, unhistorische Schreibung von Doppelkonsonant nach kurzem Vokal, etc. Die niederdeutschen Sprecher taten nichts anderes, als die Lautfolge / v a s a r / oder /ΓΟΖΘ/ in ihr System zu integrieren, d.h. die Silbenstruktur aus Abb. 6 bzw. 8 darüber zu legen. Wie ein systeminterner Wandel von einer Quantitätssprache zu einer Silbenschnittsprache aussieht, lässt sich also anhand des Deutschen nicht erforschen. Reanalyse ist im Übrigen auch bei internem Wandel möglich, nämlich im Erstspracherwerb. Daher sind die Versuche, Sprachwandel durch möglichst einfache Veränderungen an formalen Repräsentationen auszudrücken, bestenfalls von ästhetischem Wert. Ad 3: Der letzte Punkt bezieht sich auf die unterschiedliche Behandlung der Gespanntheit in betonten und unbetonten Silben. In Tonsilben ist Gespanntheit das phonetische Korrelat des sanften Schnitts, in unbetonter Silbe eine allophonische Eigenschaft von Vokalen in offener Silbe oder in bestimmten anderen Positionen. Das Fehlen der Parallelität sehe ich allerdings als einen Vorzug an, denn es besteht ein wesentlicher Unterschied: In unbetonten offenen Silben ist ein ungespannter Vokal völlig unauffällig, wenn nicht sogar der Normalfall: B[o]tanik. In betonter Silbe, wie B[o]t, macht eine solche Abweichung das Wort nahezu unverständlich. De facto sind die als gespannt wahrgenommenen Vokale in unbetonten offenen Silben ebenfalls stark zentralisiert und haben die Formantwerte ungespannter Tonvokale. Vielleicht sehen wir in Botanik nur deswegen einen gespannten Vokal, weil der Vokal bei Überlautung tatsächlich gespannt ist; Überlautung besteht in erster Linie darin, dass jede Silbe eines Wortes betont ausgesprochen wird, und in betonter offener Silbe sind alle nicht-tiefen Vokale gespannt. Abschließend soll nun kurz Lenerz' eigener Ansatz besprochen werden. Ausgangspunkt ist die Tatsache, dass in stamminternen Silben so gut wie nie ein Konsonant nach Langvokal oder zwei Konsonanten nach Kurzvokal vorkommen. 14 Lenerz nennt die Ausnahmen extra, Mixtur, Fenster, ferner Mondes, Obstes, Kebse, Krebse, Ostern, ahnden, fahnden, Erde (und weitere Beispiele mit Dehnung vor /r/), Bastler, Junktim. Es gibt sicher noch weitere Beispiele, aber sie sind nicht sehr zahlreich. Lenerz macht nun einen intelligenten 13

14

Die Kombination beider Repräsentationen für Sprachen mit beiden Quantitätsoppositionen, die z.B. das Hopi aufweist, ist natürlich auch möglich (vgl. Vennemann 1994:47). Klassische Quantitätssprachen haben die Opposition von Tonsilbe/unbetonte Silbe natürlich nicht. Die Menge der möglichen Silbenstrukturen wird teils durch einzelsprachliche, teils durch universelle Restriktionen weiter eingeschränkt (Anzahl der Segmente im Anfangs-/Endrand, Mehrfachzuordnungen von Segmenten und Einheiten der Skelettschicht für Affrikaten, klassische Quantität etc.). Lenerz behauptet auch, dass nicht mehr als ein Konsonant im Anfangsrand vorkommen kann. Die Ausnahmen dazu sind noch zahlreicher, aber da dieser Punkt nicht so wichtig für die Theorie ist, soll er unberücksichtigt bleiben.

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

99

Schachzug, der zu einer verblüffend einfachen Analyse führt: Vokale sind gespannt in offenen, ungespannt in geschlossenen Silben (betont oder nicht betont). Die Silbenstruktur wird auf der Segmentfolge durch Regeln aufgebaut; wenn der Kodaknoten das Merkmal [= N] hat, wird die Kodaposition mit demselben Segment verbunden wie der Nukleus und es entsteht aus /mita/ Miete, hat er das Merkmal [Φ N], entsteht Mitte. Einsilbler mit gedecktem, gespanntem Vokal wie Beet haben auf einer abstrakten Ebene noch offene Silbe, die z.B. offen bleibt, wenn ein vokalisches Suffix angehängt wird (Beete). Auf dieser Ableitungsstufe wird die Koda mit dem Vokal verbunden, und er wird gespannt. Wenn nun keine weitere Suffigierung mehr erfolgt oder das Suffix konsonantisch anlautet (sieghaft), so wird das /g/ an die bereits mit dem l\l verbundene Koda 'angedockt'. Sehr interessant ist auch die Behandlung der Auslautverhärtung: Gespannt sind die Laute, die mit der Kodaposition verbunden sind, nämlich Langvokale und auslautverhärtete Obstruenten, sofern sie nicht segmental als [-gespannt] spezifiziert sind wie die Vokale /a/, /ε/ und die Sonoranten; stimmlose Obstruenten sind segmental als [+gespannt] spezifiziert und daher auch im Anfangsrand gespannt. Unspezifiziert sind lediglich die hohen und mittleren Vokale sowie die Lenisobstruenten, deren Gespanntheit in Abhängigkeit von der Position in der Silbe variiert; über das Verhalten dieser beiden Lautgruppen wird dadurch generalisiert. Weniger schön ist allerdings, dass in Lenerz' Ansatz der zweite Teil der Diphthonge automatisch gespannt wird (2000:200f.). Noch problematischer sind Wörter wie Widder, in denen die Koda der ersten Silbe zu dem Zeitpunkt, zu dem die Gespanntheit festgelegt wird, unverbunden bleiben muss. Das f\J bleibt ungespannt, weil es nicht mit der Koda verbunden ist (dafür ist das Merkmal N] der Koda nötig!), ebenso das /d1. Erst später wird das /d/ mit der Koda verbunden, wodurch das Merkmal [- gespannt] nicht mehr überschrieben werden kann (die Verbindung des /g/ in Sieg, s.o., muss in einer früheren Phase hergestellt werden). Unnötig umständlich ist die Beschreibung von Mitte: Statt zugrundeliegenden gespannten Obstruenten anzunehmen (wie in Tee) wird das /t/ in der Koda der ersten Silbe generiert, fortisiert und dann sekundär an den Anfangsrand der zweiten Silbe angedockt. Für die Lenerzsche Analyse kann ich viel Sympathie aufbringen; wenn ich mich ihr trotzdem nicht anschließe, dann aus grundsätzlichen Vorbehalten gegenüber einer abstrakten Phonologie mit geordneten Ableitungsschritten, die willkürlichen Manipulationen so viel Raum gewährt, dass eine vernünftige Analyse von einer unvernünftigen kaum mehr zu unterscheiden ist. Die Generalisierung: 'gespannte Vokale in offenen, ungespannte in geschlossenen Silben' wird mit dem Preis der Abstraktheit teuer erkauft. Die Ausnahmen sind schwer in die Theorie zu integrieren. M.E. sind reguläre Fälle und Ausnahmen am besten durch die universelle Präferenz: 'wortinterne Silben haben bevorzugt keinen Endrand' erfasst. Die Auslautverhärtungsregel kann ebenfalls sehr einfach gefasst werden: 'Lenisobstruenten müssen mit einem Anfangsrand verbunden sein'. Mit der Generalisierung über stimmhafte Obstruenten und nicht-tiefe Vokale ist nicht viel gewonnen. Die Generalisierung über betonte und unbetonte Vokale (beide gespannt in offener Silbe) halte ich sogar für falsch, wie oben dargelegt. Trotzdem halte ich Lenerz1 Arbeit für einen bedeutenden, stimulierenden Beitrag zur Diskussion.

100

Thomas Becker

Literatur

Adelung, Johann Christoph (1790): Vollständige Anweisung zur deutschen Orthographie nebst einem kleinen Wörterbuche für die Aussprache, Orthographie, Biegung und Ableitung. Zweyte vermehrte und verbesserte Auflage. - Leipzig: Weygand. Antoniadis, Zissis/Hans Werner Strube (1984): Untersuchungen zur spezifischen Lautdauer deutscher Vokale. - In: Phonetica 41, 72-87. Becker, Thomas (1996a): Zur Repräsentation der Vokallänge in der deutschen Standardsprache. - In: Zeitschriftfiir Sprachwissenschaft 15, 3-21. - (19966): Die Aufhebung des Vokallängengegensatzes in unbetonten Silben der deutschen Standardsprache. - In: Deutsche Sprache 24, 268-282. - (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt am Main: Peter Lang. Bloomfield, Leonard (1933): Language. - New York. (Revidierte britische Ausgabe: London 1935). Brandstäter, Hans Joachim (1966): Vergleichende Analyse der Lautdauer betonter Vokale im Deutschen und Russischen. - Dissertation Universität Berlin. Dogil, Grzegorz/Briony Williams (1999): The phonetic manifestation of word stress. - In: Harry van der Hulst (Hg.): Word prosodic systems in the languages of Europe, 273-334. Berlin: de Gruyter. Drosdowski, Günther/Peter Eisenberg (1995): Duden Grammatik der deutschen Gegenwartssprache. 5. Auflage. - Mannheim: Dudenverlag (= DUDEN Band 4). Fischer-Jorgensen, Eli/Hans Peter Jergensen (1969): Close and loose contact ("Anschluss") with special reference to North-German. - In: Annual Report of the Institute of Phonetics of the University of Copenhagen (ARIPUC) 4, 43-80. Hall, Tracy Alan (1992): Syllable structure and syllable-related processes in German. - Tübingen: Niemeyer. - (2000): Phonologie. Eine Einführung. - Berlin: de Gruyter. Hoole, Phil/Christine Mooshammer/Hans G. Tillmann (1994): Kinematic analysis of vowel production in German. - In: Proceedings of the International Congress of Spoken Language Processing (ICSLP), Yokohama 1994. Bd. I, 53-56. Yokohama: Acoustical Society of Japan. Ickelsamer, Valentin (1534): Teutsche Grammatica: daraus einer von im selbs mag lesen lernen, mit allem dem, so zum Teutschen lesen u. desselben Orthographiam mangel u. uberßus, auch anderem vil mehr zu wyssen gehört. Nürnberg. Zitiert nach dem Nachdruck in: Johannes Müller (1882): Quellenschriften und Geschichte des deutschsprachlichen Unterrichtes bis zur Mitte des 16. Jahrhunderts, 120-159. Gotha [Nachdruck Hildesheim: Olms 1969], Jakobson, Roman/Gunnar Fant/Morris Halle (1952; 1963): Preliminaries to speech analysis. 2., erweiterte Auflage. - Cambridge, Mass.: MIT Press. Jespersen, Otto (1912): Elementarbuch der Phonetik. - Leipzig: Teubner. Jessen, Michael (1998): Phonetics and phonology of the tense and lax obstruents in German. - Amsterdam: Benjamins. Kroos, Christian (1996): Eingipflige und zweigipflige Vokale im Deutschen? Kinematische Analyse der Gespanntheitsopposition im Standarddeutschen. - Magisterarbeit Universität München. Lenerz, Jürgen (2000): Zur sogenannten Vokalopposition im Deutschen. - In: Zeitschrift fur Sprachwissenschaft 19, 167-209. Lochner, Johann Hieronymus (1735): Chloreni Germani neu verbesserte Teutsche Orthographie, oder: Gründliche Anweisung recht, und nach der unter den heutigen Gelehrten üblichen Art, zu schreiben ... - Nürnberg: Georg Christoph Weber. Maas, Utz (1999): Phonologie. Einfuhrung in die funktionale Phonetik des Deutschen. - Opladen, Wiesbaden: Westdeutscher Verlag. - /Doris Tophinke (1993): Loser und fester Anschluss. Versuch der Neubewertung einer abgelegten Kategorie. - In: Jürgen Schmidt-Radefeldt, Andreas Harder (Hgg.): Sprachwandel und Sprachgeschichte. Festschrift für Helmut Lüdtke zum 65. Geburtstag, 133-151. Tübingen: Narr. Mangold, Max (1990): Duden Aussprachewörterbuch. Wörterbuch der deutschen Standardaussprache. 3., völlig neu bearbeitete und erweiterte Auflage. Bearbeitet von Max Mangold in Zusammenarbeit mit der Dudenredaktion. - Mannheim: Bibliographisches Institut. (DUDEN Band 6).

Silbenschnitt und Silbenstruktur in der deutschen Standardsprache der Gegenwart

101

Meinhold, Gottfried/Eberhard Stock (1980; 1982): Phonologie der deutschen Gegenwartssprache. 2. Auflage. - Leipzig: VEB Bibliographisches Institut. Meyer, Ernst Alfred (1913): Das Problem der Vokalspannung. - In: Die Neueren Sprachen 21, 6586, 145-171. Moulton, William G. (1956): Syllabic nuclei and final consonant clusters in German. - In: Morris Halle, H. G. Lunt, H. McLean (Hgg.): For Roman Jakobson, 372-381. The Hague: Mouton. Nast, Johannes (1777/78): Der teütsche Sprachforscher allen Liebhabern ihrer Muttersprache zur Prüfung vorgelegt. 2 Bde. Stuttgart: Johann Benedict Mezler. Paul, Hermann (1916): Deutsche Grammatik. Band 1. Teil 1: Geschichtliche Einleitung. Teil 2: Lautlehre. Nachdruck 1968. - Tübingen: Niemeyer. Restle, David (1993): Der Platz der Silbenschnitte unter den Prosodien. - Unveröffentlichte Magisterarbeit Universität München. - (1998): Silbenschnitt - Quantität - Kopplung. Zur Geschichte, typologischen Einordnung und Repräsentation der Anschlussprosodie unter dem Blickwinkel einer Oszillationssilbentheorie. Dissertation Universität München. Siebs, Theodor (1969): Deutsche Aussprache. Reine und gemäßigte Hochlautung mit Aussprachewörterbuch. 19., umgearbeitete Auflage hg. v. Helmut de Boor und Hugo Moser und Christian Winkler. - Berlin: de Gruyter. Schmidt, Oskar/Theo Vennemann (1985): Die niederdeutschen Grundlagen des standarddeutschen Lautsystems. - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 107, 1-20 und 157-173. Sievers, Eduard (1901): Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. 5., verbesserte Auflage. - Leipzig: Breitkopf & Härtel [Nachdruck Hildesheim: Olms 1976], Spiekermann, Helmut (2000): Silbenschnitt in deutschen Dialekten. - Tübingen: Niemeyer. Trubetzkoy, Nikolai Sergejewitsch (1939): Grundzüge der Phonologie. 6. Auflage. - Göttingen: Vandenhoek & Ruprecht. Vennemann, Theo (1991): Syllable structure and syllable cut prosodies in modern Standard German. - In: Pier Marco Bertinetto, Michael Kenstowicz, Michele Loporcaro (Hgg.): Certamen Phonologicum II. Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellien - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Karl Heinz Ramers, Heinz Vater, Henning Wode (Hgg.): Universale phonologische Strukturen und Prozesse, 7-54. Tübingen: Niemeyer. Wiese, Richard (1988): Silbische und lexikalische Phonologie. Studien zum Chinesischen und Deutschen. - Tübingen: Niemeyer. Yu, Si-Taek (1992): Unterspezifikation in der Phonologie des Deutschen. - Tübingen: Niemeyer.

Robert W. Murray

Syllable cut prosody in Early Modern English. John Hart's testimony*

1. Introduction

Vennemann (2000) argues that the lengthenings and shortenings involved in the so-called quantity changes of Middle English (e.g. Open Syllable Lengthening, Closed Syllable Shortening) are derivative of a major prosodic change relating to the phonologization of syllable cut. More specifically such changes represent improvements in the correlation between syllable cuts and syllable structure, where abrupt cut is preferred in closed syllables and smooth cut in open syllables. Murray (2000) emphasizes the important role that external evidence reflecting native speaker intuitions on syllable cuts can play in supporting diachronic studies, as well as in determining a more precise chronology of phonologization. In particular, Orm's orthographic convention of writing double graphs, which are generalized to non-etymological positions, depends on his intuition of abrupt cut: (1)

Abrupt Cut '



'sun' 'kept' 'desire' 'bed'

Smooth Cut



'son' 'deed' 'child' 'need'

Since Orm's autograph, the Ormulum, is usually dated to about 1180, his system provides evidence for the phonologization of syllable cut in at least one early Middle English dialect.2 At the same time, the Ormulum's verse pattern still relies on a vowel length contrast (e.g. the first syllable in 'son' counts as light, the first in 'deed' as heavy), so it is evident that Orm's dialect represents a mixed phonological type. The syllable cut prosody combines with a nuclear length contrast that is restricted to stressed open syllable. From a diachronic perspective, the maintenance of length in this unmarked environment represents the last 'hold-out' of the earlier classical quantity system.3 The goal of the present paper is to shift the clock forward almost four hundred years from Orm's time, and reconstruct the prosody of an early Modern English dialect. As in the * I am very pleased to acknowledge the research time and funding provided by a University of Calgary Sabbatical Fellowship, a Killam Resident Fellowship, and Social Sciences and Humanities Research Council of Canada grant #410-01-1597. Many thanks to Thomas Becker and the editors for their comments. 1 Only attested forms are placed between < > brackets. 2 The Ormulum is written in a Northeast Midlands dialect; cf. White and Holt (1878), and further references in Murray (2000). 3 See Vennemann (1994:43-9) for a discussion of such mixed phonological types.

104

Robert W. Murray

case of the Orm, I rely primarily on external evidence provided by a single author, but in this case the type of evidence is entirely different. Like Orm, John Hart was a spelling reformer, but more importantly he was a budding phonologist who provided us with detailed descriptions of his London dialect in three separate works (1551, 1569, 1570 [Danielsson 1955]). Accordingly, in developing a phonological reconstruction we have access to evidence that is far more direct than Orm's spelling and metrical conventions. Although Hart's descriptions have frequently been rejected or viewed as problematic by earlier philologists and phonologists, I believe that the difficulties of interpretation have been brought about primarily by preconceived notions of what early Modern English phonology was supposed to be like. In fact, in my view Hart provides a detailed and coherent description of a prototypical syllable cut language; i.e. his dialect of London English. Indeed, in many respects his descriptions are remarkably similar to those of another syllable cut language; namely, Modern Standard German as described by Becker (1998) and Vennemann (1991 aft, 1994). Accordingly, throughout the following discussion I juxtapose Hart's descriptions with those provided by Becker and Vennemann, arguing that the descriptive similarities are a great testament to Hart's abilities. He was able to produce an admirable description of essential syllable cut properties relating to vowel length, consonant length, ambisyllabicity, and diphthongs. Perhaps more important however is the diachronic perspective that Hart's description allows. While Orm shows the phonologization of syllable cut and its coexistence with nuclear length, Hart's descriptions are compatible with the assumption of a prototypical syllable cut language; i.e. a system in which all vestiges of the earlier classical quantity have been eliminated.

2. Background

The Ιό"1 century marks the beginning of the orthoepistic and phonetic tradition in English language studies. Although much can be learned from these early works, they present a complex picture as Lass (1989:76) aptly states: The early phonetic tradition is a bit of a curate's egg: some key writers like John Hart (1551, 1569, 1570), Robert Robinson (1617), John Wallis (1653), Christopher Cooper (1685, 1687) were sharp phonetic observers, with a fully modern grasp of the distinction between sound and spelling (despite the strictures of historians who dislike their evidence...). Others were dimmer lights, woefülly confused about diphthongs vs. diagraphs, sounds vs. letters, so encumbered by normative bias and infatuated by orthography that their testimony is close to valueless.

In fact, no doubt due in part to the difficulties of interpretation, philologists and linguists have sometimes favoured other kinds of evidence such as rhymes, misspellings, and puns over the direct evidence of the orthoepists. On this point, however, it is again difficult to disagree with Lass (1989:76) who states that such alternative evidence "becomes less tenable, at least as a primary strategy, the more direct testimony is available". There is no doubt that incompetent phoneticians and spelling reformers can greatly confuse the picture, but as Lass indicates Hart finds no place among the incompetents. Hart demonstrates himself to be a very good phonologist who, unlike some of his contemporar-

Syllable cut prosody in Early Modern English

105

ies (e.g. Mulcaster 1582), was extremely adept at distinguishing orthography and phonology. He gave considerable thought to his phonological description, and was able to develop a more or less phonemic writing system. Nevertheless, even in the case of Hart, there is a long tradition of questioning the overall value of his testimony. Luick (1896), perhaps due to the influence of Gill (1621) and Ellis (1866-1889)4, does not rank Hart among the great lights of early English phonology. Nevertheless, in spite of this negative view, it is fair to say that Hart's rehabilitation beginning with Jespersen (1907) met with some success. Already Zachrisson (1913:166) stated that "Hart's descriptions and observations of sounds are most accurate, and inspire us with great confidence in his capacity as a phonetician". But aspects of Hart's analysis remain controversial, and linguists such as Stockwell and Minkova (1990) continue in the tradition of 'explaining away' fundamental characteristics of Hart's testimony, in particular his claim of a length contrast in the vowels. In general terms, I accept the view that Hart was an insightful and careful (budding) phonologist who developed a reasonably coherent analysis of his dialect. At the same time of course no-one is infallible, and perhaps we should remind ourselves not to expect too much of a 16th century phonologist. Nevertheless, given the thoughtfulness and detail of Hart's description and analysis, I feel justified in proclaiming my bias in favour of developing a phonological reconstruction that reflects a fairly literal interpretation of Hart's testimony.5 I begin with Hart's description of his vowels, and the reactions of modern phonologists. This discussion allows us to highlight the explicitness of Hart's testimony on the one hand, and the difficulties of interpretation on the other.

3. Hart's Vowels

Let us begin by contrasting Hart's rather straightforward vowel description with two opposing reactions of modern phonologists. First of all, Hart had no doubt as to the number of vowels in his system: Of the fiue vowels a e i ο u. First I finde that we vse fiue differing simple soundes or voyces, proceeding from the brest, without any maner of touching of the tongue to the palet or foreteeth, or of the lippes close ioyning togither: or eyther of the lippes to their counter teeth (1569:30a [1955:190]).

Hart further assumed a "length" contrast for each of the vowels. He is very consistent in stating that the vowel pairs differ in length only, and at no time makes any reference to qualitative differences. For example, when he introduces his special diacritic to represent vowel length (the "pricke" which is placed under the long vowel), Hart makes reference to the short and long vowel as being "in the same sounde":

4 5

Ellis (1866-1889:5) refers to Hart (1569) as "a most disappointing book"; cf. Jespersen (1907:5). This type of approach follows in the recent tradition of Wolfe (1972) and Lass (1989), whose contributions greatly facilitate the present discussion.

Robert W. Murray

106

Nowe for the quantitie of ech of the vowels, which is an accident to the voice, to giue knowledge when the vowell shall be longer in the same sounde, one marke for that length may serue well for all and euery one of them (1569:43a [ 1955:199]).6

Hart comments further that it is preferable to indicate the length of the vowel through the doubling of the vowel graph itself, rather than through other means such as placing at the end of the word: And for their longer time [i.e. of the vowels], it were more reason to double themselues, in the place where the quantitie and longer sounde is made, than to write the e, for it, at the ende of the sillable or worde... (1569:33b [1955:192]).

There are numerous details that could be discussed regarding Hart's vowel system. For example, there has been a significant amount of discussion as to whether Hart's and represent [ε]/[5] or [e]/[ö].7 However, as Wolfe (1972:34) points out, it is probably unreasonable to expect a resolution to such disputes over phonetic detail. Indeed, from a phonological perspective we need only assume that in Hart's system there were just two mid vowels differing in the front/back dimension, so I simply use his e and o. Accordingly, a literal interpretation of Hart's explicit and consistent testimony yields a five-vowel system, with a prosodic feature of length for each vowel: (2)

Vowel System (with length prosody) i u e ο a

Representative examples from Hart's transcriptions are as follows: Long



'keep' 'leaf 'late' 'both' 'do'

Short



'lip' 'bread' 'latter' 'body' 'double'

The straightforwardness of this reconstruction is in stark contrast to the degree of controversy it has generated. There are those who would reject it completely; for example, Stockwell and Minkova (1990:202) who argue that Hart's quantitative distinction is "not to be trusted" and his "testimony must be 'explained away'". In their view, the vowel contrasts must be ascribed to qualitative differences, not to contrastive length. Others, such as Lass (1989, 1992) take the opposing view: The accuracy of Hart's description cannot be doubted, and a phonological contrast of vowel length must be reconstructed. In my view, both these opposing positions are false, but let us first turn to the arguments.

6 7

Italic font for emphasis in quotations from Hart is always my own. Throughout I indicate length with the macron instead of Hart's diacritics.

Syllable cut prosody in Early Modern English

107

3.1 Denial Various aspects of Hart's descriptions have been denied over the years, but the earlier discussions have taught us one important lesson; namely, that Hart's testimony should not be dismissed lightly. A case in point is Hart's failure to distinguish ME ai (as in day, may; OE dceg, mag) and ME ε (as in sea, heathen; OE sae, hxden), a contrast that is found in modern standard dialects. Hart was explicit on this particular point, both in his descriptions and transcriptions: Also the diphthongs ay or at, ey or ei or the ea for the onli sound (as is said) of the long e we shuld not abuse: as in this sentence, I may not beare their heathen deceites, which to do wel we shuld writ thus, I mee not beer ther heethen deceets (1551:185 [1955:152]).

Nevertheless, Luick (1896:183) for one could not accept the possibility that Hart spoke a dialect in which merger of ME ai and ε had taken place. Rather Hart finds himself "im groben Irrtum".8 ME ai had indeed merged with ä (not ε) yielding but Hart could not deal with this χ vowel given the stricture of his five vowel system: Das x, welches er m. E. für ä und ai sprach, konnte er daher nicht als selbständigen Laut anerkennen, sondern schlug es zu dem ja nahestehenden ξ (für me f), sobald es ai geschrieben wurde, aber natürlich nicht dort, wo es ä wiedergab.'

But Luick's view of this orthographic subjugation of the phonological analysis does not jibe with Hart's practice at all, and there is no indication that Hart arbitrarily altered his phonological analysis simply on the basis of the strictures of the inherited orthography. Hart was quite competent in distinguishing orthography and phonology. For example, he states: For the rude in reading, forceth himself to pronunce that which he useth not to speake, for that yt is so otherwise writen before him: whereas yf he were a perfait reader, he wold conceive the meanyng of the thing writen, and pronunce yt, as he communely useth to speake: so as the abusion of the writing shuld have no power over his toung (1551:110 [1955:135]).

If Hart had recognized a phonological difference between ME ai and ε, he would not have claimed they were the same. Indeed, Luick's (1896:183) somewhat convoluted interpretation is only comprehensible in light of his accusation that Hart's five-vowel system was an arbitrary construct based solely on orthographic and ideological concerns; that is, Hart "will die Sprache meistern, womöglich die 'wahren und alten Laute' der fünf Vokalzeichen wieder herstellen".10 On this point, Jespersen's (1907:63) particularly dismissive response to Luick is entirely justified: "No one who has read [Hart] carefully will believe that." In fact, Hart explicitly demonstrates his independence from the classical tradition in his discussion of diphthongs:

8 9

10

'in a serious misunderstanding' (all translations by RWM). 'Accordingly, he was not able to recognize the se, which in my view he spoke for ä and ai, as an independent sound, but rather assigned it to the closely associated f (ME f) whenever it was written as ai, but not of course when it represented Hart 'wants to master the language, and if possible restore the 'old and true sounds' of the five vowel symbols.'

108

Robert W. Murray

Some man peradventure wil demand me how I durst presume to speak of more and other diphthongs, then other the Grekes, or latines use. To theim I answere, I have no regard to their nombre or sufficient ordre for their toungs, but to the nature of the diphthong, and use of our toung: and so according to our spech, indevour to frame our writing (1551:109 [1955:135]). Accordingly, Jespersen's (1907:64) outright rejection of Luick's interpretation is appropriate: Such a line of thought is utterly foreign to Hart's nature. If he had pronounced 3 and ai alike [that is, according to Luick, as se, RWM], he would have written them alike. He was an honest scholar who knew what he was about... It is ironic, however, that Jespersen himself (1907:34) could not accept Hart's testimony on the merger of M E ai and ε. He rejects this possibility, and traces Hart's failure to represent the contrast to a "deficient" notational system and his difficulty in analyzing diphthongs. In fact, it turned out that these early attempts to explain away Hart's testimony were entirely misguided. The monophthongal pronunciation of ME ai (resulting in merger with ME ε) is corroborated by Hart's near contemporaries Bellot (1580), Butler (1634), and Gill (1621) (cf. Wolfe 1972:35). Consequently, later studies generally accept the claim of monophthongization and merger in some dialects, and Hart is duly recognized as "our earliest authority" for this change (Danielsson 1963:90). Of course, Hart is not infallible and all aspects of his testimony must be subjected to critical scrutiny, but the above discussion also indicates that it is best not to approach it with preconceptions about what is 'correct'. Let us now turn to Stockwell and Minkova's (1990:202) position on Hart's vowels, which does require rejection of aspects of Hart's description; namely, his testimony on vowel length. Instead, they argue, the contrast between the short and long vowel counterparts was based on quality differences. They further suggest that Hart's analysis in terms of length and his failure to observe or acknowledge the quality differences derive from two sources. First, Hart's judgment was "warped" by his knowledge of descriptions of Latin and, second, his phonetic system was descriptively inadequate. The Stockwell/Minkova paper is a response to Lass (1989) who argues in favour of what can be considered the majority view; namely, that Hart's claim of vowel length was appropriate, and grounded directly in the phonological property of length. In many ways, the Stockwell/Minkova versus Lass debate mirrors the earlier discussions. Like Jespersen, Stockwell/Minkova question Hart's phonetic abilities and argue that his descriptive framework was defective. In particular, he did not adequately distinguish a front-back dimension, so he could not distinguish a tense or peripheral [i] from lax or nonperipheral [I]. By contrast, Lass (1989:97) counters that "even though Hart in Dobson's [1968] estimation 'deserves to rank with the greatest English phoneticians and authorities on pronunciation' (p. 62), he was apparently unable to tell close peripheral from half-close centralized vowels". Similarly, following in the tradition of Luick, Stockwell/Minkova argue that Hart was under the influence of the Latin grammarians and set up his vowel system accordingly. Lass (1992:2) counters that taking a position on this issue is largely "a matter of faith". Indeed, the degree of faith we have in Hart's descriptive and analytic abilities, his motives, and his scholarly standards will undoubtedly impact on our assessment of his testimony. At the same time, the whole discussion must be seen in light of Stockwell's recon-

109

Syllable cut prosody in Early Modern English

structions of Old to ModE phonologies in terms of diphthong-rich systems. For example, in order to account for contrasts evident in some modern North Midlands dialects, Stockwell (1985:313) suggests the following reconstructions: (4)

Stockwellian lOE /ea/ / W /e-/ /ae-/ /ey/

Reconstruction ME eModE /ia/ /iy/ /ea/ /ia/ /ε3/ /ey/ /ea/ /aea/ /ey/ /ea/

Modern Forms feet, keep, teeth beam, beat, great eat, speak, steal tale, water, father nail, tail, way

One point is clear. The reconstruction of such diphthong-rich systems is not compatible with Hart's testimony. But I would also suggest that this incompatibility cannot be explained away. The assumption that Hart's long vowels are actually diphthongs puts Stockwell on the slippery ground that Jespersen placed himself on years ago." Specifically, it requires the assumption that Hart lacked the phonetic and descriptive abilities to deal adequately with diphthongs, but this view does not stand up to scrutiny. Like Stockwell, Hart was extremely diphthong-friendly, and he also gave a lot of thought to their phonological makeup. Taking the view that any tautosyllabic sequence of two vowels constituted a diphthong, Hart (1570:4a [1955:243]) observed that in principle all the simple vowels could combine. Accordingly, he recognized 20 different theoretical diphthongs, with a subset being found in English, including for example ( 'by'), ( 'out'), and ( 'enjoy'). Hart's assumed number of English diphthongs might seem inflated since he included any GVor VG sequence (e.g. as in 'well', as in < i u n g > 'young', etc.), but his approach is reasonably consistent and coherent especially given the complexity of the topic (see further discussion in section 4.3 below). Following in this line, for those assuming that Hart's long vowels were actually diphthongs it is difficult if not impossible to explain away his lack of reference to any diphthongal properties. Further, it does not seem plausible that he would arbitrarily and without comment represent diphthongs as monophthongs in his transcriptions. Rather, it must be concluded that Hart's long vowels and diphthongs belonged to distinct phonological classes. As Wolfe states (1972:153), Hart was not alone in this assessment: The orthoepistical evidence shows very clearly that ME 1, ii, were perceived as diphthongs, whereas ME e, f,

e




ο

u

Smooth Cut (long-short): 'bow' (ME qu)




ο

u

Prosodically the contrast between smoothly cut and abruptly cut is the same as that in smoothly versus abruptly cut ('pain' versus 'pen'; cf. 10 above). Vennemann (1994:23, fn. 7) observes: "Übrigens spricht wohl auch nichts dagegen, diphthongische Silben als (natura, aber durch Vokal) geschlossen aufzufassen." ('By the way, there is no reason not to treat diphthongal syllables as closed (natura, but by the vowel).'

Robert W. Murray

124 4.4

Hiatus

Finally, I note that a specific gulf between Hart's practice and theory also attests to another characteristic of a syllable cut language. As discussed in the previous sections, Hart emphasized the importance of orthographically marking vowel length, but in practice he consistently failed to mark length in hiatus. For example, the word 'vowel' is transcribed 41 times with a diaeresis (i.e. as ) and five times without, but the length of is never indicated. Danielsson (1963:164) comes to the entirely reasonable conclusion that Hart "wanted expressly to point out that the word [i.e. vowel, RWM] was disyllablic ... and to him the diaeresis was sufficient indication that the first vowel was long and the second short." Indeed, in hiatus the syllable cut opposition is typically neutralized in favour of the unmarked smooth cut, or as expressed in Vennemann's (1994:26) preference law: (20)

Hiatus Preference (Syllable Cut Languages) "Syllaba aperta ante syllabam nudam mollificatur."

In other words, an orthographic indication of vowel length in hiatus is completely redundant in a syllable cut language since only smooth cut is tolerated, so Hart never bothered to indicate length in this environment. Hart's 'vowel' is represented as (21a), whereas (21b) is not a possible phonological word form: (21a) Smooth Cut in Hiatus

(21b) Abrupt Cut in Hiatus (* Disallowed)

*

A/\" ν

ο

e

ΑΛ 1

ν

ο

e

1

5. C o n c l u s i o n

In sum, Hart's work allows us to identify the constellation of properties typically constituting the Silbenschnittsyndrom (Becker 1998:167). There are only two types of accented syllables; smooth versus abrupt, and all five vowels can occur in both types. Smooth syllables can be open or closed, abrupt syllables must be closed either by a tautosyllabic consonant (or vowel in the case of the diphthongs) or by ambisyllabicity. Accordingly, the hiatus preference is respected and Hart's 'short' vowels cannot occur in stressed open syllables,

125

Syllable cut prosody in Early Modern English

whereas his 'long' vowels occur in both open and closed syllables. Vowels in smoothly cut syllables are phonetically lengthened, while consonants in abruptly cut syllables take on special properties and ambisyllabicity is environmentally determined. In the case of diphthongs, Hart did not bring his description and analysis to a conclusion and many aspects of his discussion are vague. Nevertheless, his treatment is compatible with the claim that diphthongal syllables constituted of the two internally-developed diphthongs (Hart's and ; ME t and u) took on abrupt cut. Accordingly, Hart's diphthong occurs under both abrupt and smooth cut (ME ü versus qy respectively), whereas only occurs under abrupt cut since the reflexes of ME ai and ME ε had merged. The recognition of the role syllable cut played in Hart's phonology has two major consequences. First of all, it renders coherent much of Hart's description, so it is not necessary to explain away central aspects of his testimony. Rather, Hart earns his position as an adept phonologist with a keen ear. He was able to free himself to a great extent from the written language, and provide an honest and thoughtful description of various phonological characteristics of his dialect. Secondly, the recognition of the role of syllable cut allows us to understand Hart's phonology without succumbing to the fallacy of typological constancy. Old English and early Modern English were entirely different phonological types. While Old English was predominantly a classical quantity language, Hart's English was a prototypical syllable cut language. From a diachronic perspective, an interesting observation emerges. The elimination of the classical quantity system was a gradual affair. As reflected in Orm's orthographic system, syllable cut had been phonologized in early Middle English, but Orm's dialect was a mixed phonological type. Consonant length had been lost, but nuclear length was maintained in the unmarked open syllable environment. Hart's phonology reflects the full transition to syllable cut, where both vowel and consonant length are entirely derivative of the syllable cut prosody. Accordingly, we have the following development (ignoring any dialectal differences, and taking Orm and Hart as representative of early Middle English and early Modern English respectively): (22)

Stage I: (pre-)Old English classical quantity

4 phonologization of syllable cut (loss of consonant length) i

Stage II: Early Middle English syllable cut/nuclear length (mixed type) 1 loss of nuclear length i Stage III: Early Modern English syllable cut Writing the full story behind this scenario will be a challenging enterprise, but also a fascinating one that promises to unlock many of the synchronic and diachronic puzzles of Middle and early Modern English phonology.

126

Robert W. Murray

References

Becker, Thomas (1998): Das Vokalsystem der deutschen Standardsprache. - Bern: Peter Lang. Bellot, Jacques (1580): Le maistre d'escole Anglois. (The Englische Scholemaister.) [R. C. Aiston (ed.) 1965-70: English Linguistics 1500-1800. Menston, England: Scolar Press, no. 51.] Butler, Charles (1634): The English Grammar. [Α. Eichler (ed.) 1910: Charles Butler's English Grammar (1634). Neudrucke frühenglischer Grammatiken, vol. 4.1. Halle.] Cooper, Christopher (1685): Grammatica Linguae Anglicanae. - London: J. Richardson. [R. C. Aiston (ed.) 1965-70. English Linguistics 1500-1800. Menston, England: Scolar Press, no. 86.] - (1687): The English Teacher. [Bertil Sundby 1953. Christopher Cooper's English Teacher. Lund: Gleerup.] Danielsson, Bror (1963): John Hart's Works on English Orthography and Pronunciation [1551-15691570], Part 2, Phonology. - Stockholm: Almqvist & Wiksell. Dobson, Eric John (1968): English Pronunciation 1500-1700. 2 volumes. 2nd ed. - Oxford: Clarendon Press. Ellis, A. J. (1866-89): Early English Pronunciation I-IV. - London: Trübner. Gill, Alexander (1621): Logonomia Anglica. [Dorothy Dixon (1951): Alexander Gil's Logonomia Anglica. Edition of 1621, translated with an introduction and critical and explanatory notes. Unpublished Ph.D. Dissertation. University of Southern California. Otto Jiriczek (1903): Alexander Gills Logonomia Anglica nach der Ausgabe von 1621. (Quellen und Forschungen, 90) Strasbourg.] Hart, John (1551): The Opening of the Unreasonable Writing of Our Inglish Toung. [Bror Danielsson (1955): John Hart's Works on English Orthography and Pronunciation [1551-1569-1570], Part 1, Biographical and Bibliographical Introductions, Texts, and Index Verborum. Stockholm: Almqvist & Wiksell.] - (1569): An Orthographie, conteyning the due order and reason, howe to write or paint thimage of mannes voice, most like to the life or nature. [Danielsson 1955.] - (1570): Α Methode or comfortable beginning for all vnlearned, whereby they may bee taught to read English, in a very short time, with pleasure. [Danielsson 1955.] Horn, Wilhelm (1912): Probleme der neuenglischen Lautgeschichte. - In: Anglia 35, 357-92. Jespersen, Otto (1907): John Hart's Pronunciation of English (1569 and 1570). - Heidelberg (=Anglistische Forschungen 22). Lass, Roger (1989): How Early Does English Get 'Modern'? Or, what happens if you listen to orthoepists and not to historians. - In: Diachronica 6, 75-110. - (1992): The Early Modern English Short Vowels Noch Einmal, Again. A reply to Minkova and Stockwell. - In: Diachronica 9, 1-13. - (ed.) (1999): The Cambridge History of the English Language, vol. Ill, 1476-1776. - Cambridge: Cambridge University Press. Lass, Roger/John M. Anderson (1975): Old English Phonology. - Cambridge: Cambridge University Press. Luick, Karl (1892): Unechte und steigende Diphthonge. - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 16, 336-42, 561-2. - (1896): Untersuchungen zur englischen Lautgeschichte. - Strasbourg: Trübner. - (1898): Beiträge zur englischen Grammatik III: Die Quantitätsveränderungen im Laufe der englischen Sprachentwicklung. - In: Anglia 20, 335-62. - (1914-21) [1964] Historische Grammatik der englischen Sprache, vol. 1. - Stuttgart: Bernhard Tauchnitz. [Reprint: Oxford - Stuttgart: Basil Blackwell.] - (1929-40): [1964] Historische Grammatik der englischen Sprache, vol. 2. - Stuttgart: Bernhard Tauchnitz. [Reprint: Oxford - Stuttgart: Basil Blackwell.] Lutz, Angelika (1991): Phonotaktisch gesteuerte Konsonantenveränderungen in der Geschichte des Englischen. - Tübingen: Max Niemeyer. Mulcaster, Richard (1582): The First Part of the Elementary. [R. C. Alston (ed.) (1965-70): English Linguistics 1500-1800. Menston, England: Scolar Press, no. 219.]

Syllable cut prosody in Early Modern English

127

Murray, Robert W. (2000): Syllable Cut Prosody in Early Middle English. - In: Language 2000, 61754. Plotkin, V. Y. (1972): The Dynamics of the English Phonological System. - The Hague: Mouton. Robinson, Robert (1617): The Art of Pronuntiation. [Eric John Dobson (ed.) (1975): The Phonetic Writings of Robert Robinson. Early English Text Society (original series), 238. London: Oxford University Press.] Smith, Thomas (1568): De Recta et Emendata Linguae Anglicae Scriptione Dialogus. [Otto Deibel (1913): Thomas Smith. De Recta et Emendata Linguae Anglicae Scriptione Dialogus. (Neudrucke 8) Halle.] Stockwell, Robert P. (1985): Assessment of Alternative Explanations of the Middle English Phenomenon of High Vowel Lowering When Lengthened in Open Syllable. - In: Roger Eaton et al. (eds.): Papers from the 4th International Conference on English Historical Linguistics, 303-318. Amsterdam/Philadelphia: John Benjamins. Stockwell, Robert P./Donka Minkova (1990): The Early Modern English Vowels, more o' Lass. - In: Diachronica 7, 199-214. Vennemann, Theo (1991α): Syllable Structure and Syllable Cut Prosodies in Modern Standard German. - In: Pier Marco Bertinetto, Michael Kenstowicz and Michele Loporcaro (eds.): Certamen Phonologicum II, 211-43. Turin: Rosenberg & Sellier. - (1991 ft): Skizze der deutschen Wortprosodie. - In: Zeitschrift für Sprachwissenschaft 10, 86-111. - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Karl Heinz Ramers, Heinz Vater, Henning Wode (eds.): Universale phonologische Strukturen und Prozesse, 754. Tübingen: Max Niemeyer. - (2000): From quantity to syllable cuts: On so-called lengthening in the Germanic languages. - In: Italian Journal of Linguistics/Rivista di Linguistica 12, 251-282. Wallis, John (1653): Grammatica Linguae Anglicanae. [J. Alan Kemp (1972): John Wallis' Grammar of the English Language. London: Longman.] White, R. M./Robert Holt (eds.) (1878): The Ormulum, 2 vols. - Oxford: Clarendon Press. Wolfe, Patricia M. (1972): Linguistic Change and the Great Vowel Shift in English. - Berkeley/Los Angeles/London: University of California Press. Zachrisson, R. E. (1913): Pronunciation of English Vowels 1400-1700. - Göteborg: Wald. Zachrissons Boktryckeri.

Philip Hoole/Christine

Mooshammer

Articulatory analysis of the German vowel system*

1. Introduction

It is undoubtedly the case that what, purely for the sake of convenience, we will refer to as the tense-lax opposition has been the most debated feature of the German vowel system, both in the phonetic and phonological literature. We will not attempt to cover this debate here, but for reviews from various points of view see for example, Mooshammer (1998), Becker (1998), Sendlmeier (1985), Ramers (1988), Wood (1975ab), Fischer-Jorgensen (1985). From the point of view of our principal interest in the kinematics of speech, one of the most intriguing aspects of the debate - more so than the rather static approach of the quantity vs. quality discussion - has come from the long series of phonological papers that capture the distinction in more dynamic terms (as Anders Löfqvist once said, "the movement is the message"), particularly in the link between vowel and following consonant. Thus terms such as syllable-cut (Silbenschnitt) arose, with smoothly cut (sanft geschnittene) syllables containing tense vowels, and abruptly cut (scharf geschnittene) syllables containing lax vowels (cf. Sievers 1901, and especially the more recent formulations of Vennemann 1991, embedding the opposition firmly in a prosodic theory of syllable structure). The corresponding terminology favoured by Trubetzkoy (1939), following the approach of Jespersen (1913), would be loose contact (loser Anschluss) for tense vowels, and close contact (fester Anschluss) for lax vowels. The terms used throughout the 20 th century for this very consistent intuition clearly suggest that characteristic movement differences should be observable, but attempts to find a phonetic substrate were - equally consistently - inconclusive (e.g Fischer-Jorgensen/Jergensen 1969, but see Spiekermann 2000 and this volume). In this contribution we review the results of articulatory investigations of German vowel production that have been carried out in our laboratories over the last few years. Given that our emphasis is on articulatory analysis we have not attempted to review acoustic analyses of the German vowel system. In addition, while, in the light of the above remarks, the question of the so-called tense-lax opposition will be very much to the fore in this paper, we would like to emphasize that in our opinion it is only possible to understand how the speech motor system copes with the task of realizing such an opposition - i.e what spatial and temporal control it exerts over the articulators - when this specific task is viewed not in isolation but within the framework of the overall task of realizing the full range of oppositions * This work was supported by German Research Council projects TI 69/29 (speech-rate corpus) and GWZ 4/5-A1 (accent corpus). We are indebted to Christian Kroos and Barbara Kühnert for their collaboration on the first project and to Suse Fuchs and Daniel Pape on the second. Regina Petermann carried out the intrinsic pitch measurements as part of an M.A Thesis 'Untersuchungen zur intrinsischen Grundfrequenz unter Berücksichtigung mittsagittaler Aufzeichnungen deutscher Vokale'. Thanks also to Peter Auer, Peter Gilles and Helmut Spiekermann for comments on the manuscript. Many of the publications giving further details of the results presented here can be downloaded from: http://www.phonetik.uni-muenchen.de/~hoole.

130

Philip Hoole/Christine

Mooshammer

found in the German vowel system. For this reason we will be at pains to point out relevant articulatory properties of the vowel system as a whole. The paper is organized as follows: After briefly presenting the speech corpora available for analysis, the presentation of the results proceeds in two main sections, headed Static Analysis and Kinematic Analysis respectively. The 'static' section gives a basic overview of how tongue and jaw positions are organized for German vowel production, and also looks at the question of intrinsic pitch, a topic that is of considerable relevance for the tense-lax opposition. The 'kinematic' section shows in particular, using a number of velocity- and acceleration-based measures, how variation of speech rate and accentuation can be used to distinguish between essential and incidental characteristics of the tense-lax opposition. The analyses presented in this paper are based on two corpora of articulatory data acquired by means of electromagnetic midsagittal articulography (EMMA; AG 100 Carstens Medizinelektronik Göttingen). The experimental setup for EMMA is briefly illustrated in Fig. 1. Three transmitter coils operating at three different frequencies generate an alternating magnetic field. The strength of the signal at each frequency induced in the sensors mounted on the articulators depends on the distance from each transmitter. From this raw distance information x7y coordinates of each sensor can be calculated (see e.g. Perkell et al. 1992 and Hoole 1996 for full background to the technique). The locations of the sensors were approximately as indicated in the figure, i.e four on the tongue, one each on jaw and lower lip (plus one sensor each on the upper incisors and bridge of nose to compensate for head movements).

Ο

Fig. 1: Experimental setup for electromagnetic midsagittal articulography showing location of transmitters (large empty circles) and typical arrangement of sensors (small filled circles).

Articulatorγ analysis of the German vowel system

131

We will refer to the corpora as the speech-rate corpus and the accent corpus, respectively: Speech-rate corpus - Seven German speakers - Normal and fast speech rate - CVC sequences with the symmetrical consonant contexts /p, t, k/. - Vowels: /i:, i, y:, Y, e:, ε, ε:, 0:, ce, α:, a, ο:, ο, u:, υ / - Target words: /gaCVCa/, e.g. getatte, gepaape, gepappe, getette - Carrier phrase: "Ich habe gepaape gesagt" ("I said gepaape") - Five repetitions For this corpus, the two different speech rates were elicited in the following way: In a pretest the subjects were asked to speak examples of the speech materials at a range of different speech-rates. Vowel durations were measured, and we selected as prototype for the fast speech rate the accelerated speech-rate at which vowel duration of tense vowels most closely matched the duration of lax vowels spoken at a self-chosen normal rate. For the actual articulatory experiments, the normal and fast speech-rate conditions were recorded in separate sessions. At regular intervals during the sessions, examples of the subject's own pre-test utterances of the desired speech-rate prototype were played back to the subject from tape to act as tempo models. Accent corpus - Seven German speakers - CVC sequences with the symmetrical consonant context /t/ - Vowels: /i:, i, y:, Y, e:, ε, ε:, s>\, oe, a:, a, o:, o, u:, υ/ (i.e same as for speech-rate corpus) - Target words: /'tVtc/ and /tV'ta:l/, e.g ^later, ta'tal, 'teter, te'tal, 'tutter - Carrier phrase: "Ich habe 'tieter, nicht tie'tal gesagt" ("I said 'tieter, not tie'tat') The vowel targets in both corpora cover all the accentable vowels of German, with the exception of diphthongs. All speakers spoke standard German with only minor regional colouring.

2. Static Analyses

In this section we will discuss articulatory properties of German vowels that can conveniently be considered on the basis of one selected time instant per vowel - hence the heading 'static'. By taking the main sets of oppositions in the German vowel system into account, the analyses presented in this section also provide necessary background for the kinematic analyses presented subsequently in Section 3. All analyses in this section are based on the speech-rate corpus. We will be concerned with (1) characterizing the space of tongue shapes used for vowel production (2) considering how jaw and tongue activity are

132

Philip Hoole/Christine

Mooshammer

coordinated, (3) considering whether vowels differ systematically in the variability with which they are articulated, (4) considering the unresolved puzzle of intrinsic pitch, taking the data on tongue and jaw position into account (with special reference to the tense-lax opposition).

2.1

Tongue configurations for vowels

In this section we present the results of a factor analysis of the tongue configurations measured by EMMA, in which we asked whether a small number of functional building blocks underly all observed tongue shapes; i.e whether every vowel articulation can be seen as a weighted combination of such components. The particular form of factor analysis used here, namely PARAFAC (cf. Harshman et al. 1977) allowed us to test the phonetically interesting but not uncontroversial hypothesis that all speakers use essentially the same underlying components. We will not go into this further here (see Hoole 1999a for details), except to say that there was some justification for regarding the vowel space presented here as a speaker-independent representation. In any case, this analytical approach gives us the opportunity to derive a purely tongue-based vowel space, whereas an acoustic vowel space (e.g. Fl vs. F2) will always reflect not easily separable influences from all articulators, e.g. lips, tongue, larynx etc. It turned out that two factors captured a very substantial proportion of the variance directly attributable to vocalic activity (the consonantal contexts introduced some complications that will also not be considered here). The families of tongue configurations associated with these two factors are shown in Fig. 2. Tongue configuration: Factor 1

Tongue configuration: Factor 2

Fig. 2: Tongue shapes related to the two factors of the PARAFAC model. Each panel shows displacement by +/- 2 standard deviations from mean tongue position (shown by dotted line). Roughly speaking, Factor 1 captures variation from low back to high front, Factor 2 from low/mid front to high back. As discussed in Hoole (1999a) a plausible physiological substrate for these two components can be put forward. Let us now consider the location of the

133

Articulator)/ analysis of the German vowel system

P-context

Θ ©Θ

0



Tense Lax

m 20

Ο υ (0

GO

l l -20

© -40

ξ

©

-60

ED Ξ

© -80

-40

-30

-20

-10

0

10

20

30

40

50

60

Factor 2 Fig. 3: Distribution of vowels in the Factor 1/Factor 2 space (/pVp/ consonant context). Lower-case letters i, y, e, 0, a, ο and u are used as generic symbols for the tense/lax (long/short) vowel pairs. Tense vowels in circles, lax vowels in squares, ' ε ' in circle indicates the long vowel Iz'J.

vowels in the articulatory space defined by these two factors (see Fig. 3). The figure only shows results for vowels spoken in the lingually most neutral consonant context, namely /pVp/; we will look explicitly at some effects of consonant context on vowels in the section on tongue-jaw coordination. It will be observed that this space bears a fair resemblance to a somewhat rotated version of a traditional vowel chart. Probably the most interesting part of the figure is the crowded front vowel region. Notice that the closest vowel to tense /i:/ is not lax Ν or even (tense) /y:/, but rather tense /e:/. With respect to the tense-lax pair /i:, 1/ this confirms, for a particularly large dataset, findings that go back to Meyer (1910), i.e. lax vowels are generally lower (here in terms of Factor 1) not only (unsurprisingly) than their direct tense cognate but also than the next lower tense vowel. This effect repeats itself for Λ7, which is much closer to !&J than to /y:/. Regarding the rounding opposition, the results make quite clear that a front rounded vowel is located a considerable distance from the corresponding front unrounded vowel. Generally speaking we can say that the rounded vowels show more neutral (i.e. centralized) values with respect to both Factor 1 and Factor 2 (see Wood 1986 for extensive discussion of the relationship between articulatory manoeuvres and the acoustic properties of these vowels). Turning briefly to the low and back vowels it is worth pointing out that the a-vowels do indeed appear to differ in terms of tongue position (i.e. not just in duration, as has sometimes been suggested; cf. discussion in Sendlmeier 1985). Just as for the front vowels, the lax back and low vowels are located a long way from the tense cognates in the space of the two factors. In fact, the difference

Philip Hoole/Christine Mooshammer

134

between lax h l and the a-vowels may often be more one of lip-rounding than tongueposition. There was no indication in these analyses that a separate factor might be required to capture the difference in tongue shape between tense and lax vowels, i.e in addition to tongue shapes distinguishing high and low, or front and back vowels. Rather, the two factors shown here seem to be sufficient to account for the tongue shapes occurring over the whole vowel system. We turn next to a consideration of how the characteristic observed differences in tongue configuration for front vowels result from coordinated activity of tongue and jaw.

2.2

Tongue-jaw coordination

Some years ago, based on his extensive review of the radiographic literature, Wood put forward a simple scheme for the relative contribution of tongue and jaw to overall tongue position in the tense-lax opposition (see Fig. 4). The general idea is that an opposition of height, e.g. /i/ vs. /e/, is mainly due to the jaw, with the tongue maintaining a very similar shape and in effect 'riding' on the changing jaw position; conversely for the tense-lax opposition jaw position stays constant, but the tongue itself lowers considerably for the lax cognate. (Due to the incompressibility of the tongue tissue this lower and consequently flatter (less domed) tongue shape for the lax vowels coupled with the unchanged jaw position leads to the typically more constricted pharynx found in (front) lax vowels; cf. Wood 1975ft.)

Higher

Higher i

Lower

e

Tongue in Jaw Lower ι

Jaw ε

Fig. 4: Schematic summary of the relative involvement of tongue and jaw in height and tenseness opposition. Based on Wood (1975). We were interested in re-examining this basic picture from three points of view (see Hoole/ Kühnert 1996): 1) Does this scheme appear valid for a comprehensive corpus of German? (Wood did include German in his survey, but his evidence is somewhat anecdotal.) How does the rounding contrast for front vowels fit in? As seen in Section 2.1, the rounding opposition involves a difference in tongue position; is the jaw more or less involved than for the tenseness opposition? 2) To what extent is the picture affected by consonantal context? 3) How strongly do speakers' strategies for coordinating tongue and jaw vary? This question has important theoretical ramifications, since it relates to the question of the relative importance of auditory vs. articulatory representations in the planning of speech. Again, we cannot go into detail here. Suffice it to say that in our German subjects we found more evidence of consistent articulatory strategies than was found for American English subjects in the influential UCLA studies (Ladefoged et al. 1972, Johnson et al. 1993).

135

Articulator)/ analysis of the German vowel system

We restrict the analysis here to the front vowels, since this allows us to compare tongue-jaw coordination with respect to the three oppositions height, tenseness and rounding for an otherwise homogeneous group of vowels. The results are presented in terms of the relationships between vertical jaw position and the vertical position of the second tongue sensor from the front (generally the sensor closest to the location of the main constriction for these palatal vowels). The three panels of Fig. 5 divide the results with respect to consonant context (results for normal tempo only, but averaged over all speakers). p-context

©

t-context

m

• HI

ε

©

E l

• © 0

Γυ

® -20

-15

Jaw_Y (mm)

Jaw_Y (mm)

k-context

Jaw_Y (mm)

Fig. 5: Vertical location of tongue sensor (second sensor from front; cf. Fig.l) plotted against jaw height. Separate panels for each consonant context. Tense vowels enclosed in circles, lax vowels in squares. Normal tempo. Averaged over the seven speakers.

The simplest opposition to consider is probably rounding: Regardless of consonant context the rounded sound is essentially located vertically below the unrounded cognate in the figure, indicating very little difference in jaw height, but, as expected, clear difference in tongue height. (In fact, despite the lower tongue position in the rounded case, there is, if anything, a slight tendency for higher jaw position.)

136

Philip Hoole/Christine

Mooshammer

Let us tum now to the height opposition. If it were the case that differences in tongue height essentially follow from differences in jaw height, then a line joining members of a height opposition in the figure (e.g. from /i/ to /e/) would have a slope of approximately +1. In fact, the slopes are generally somewhat steeper than this; in other words the difference in tongue height is somewhat greater than would be attributable to differences in jaw height alone. Finally, we turn to the tense-lax opposition. The results for this opposition are somewhat more complicated than the other two, since the influence of consonant context on the observed patterns is much more substantial. The general finding is that the tenseness opposition cannot be assigned unambiguously to either the rounding pattern (negligible jaw involvement; the pattern that might have been expected) or the height pattern (substantial jaw involvement). The pattern is most similar to the rounding one (and thus to Wood's above scheme) in /t/-context. The reason for this is probably that /t/-context is known to strongly favour a high jaw position (compare the overall location of the data on the x-axis in the three panels of the figure; cf. Geumann et al. 1999 for discussion of possible reasons). This in turn constrains the amount of jaw lowering occurring in adjacent vowels. (A smaller range of jaw positions for /t/-context is also evident in the figure.) This constraint can be expected to affect short (i.e. lax) vowels most (especially in our symmetric context). In /p/-context the contribution of the jaw to tongue height differences in the tenseness opposition is intermediate between the rounding and height case. In this context it is particularly clear that of all three oppositions the tenseness opposition shows the greatest difference in tongue height. In /k/-context, a further coarticulatory effect becomes evident. Both /e:/ and Ν as well as /o:/ and Μ are located quite close together; in other words the height and tenseness oppositions show quite similar patterns. This is probably because /k/-context tends to elevate the tongue dorsum - again affecting the short, lax vowels most - so that, for example, Ν is no longer unambiguously lower than /e:/. As a final result in this section, a brief word on consistency over speakers: It was clearly the case that speakers did vary in how strongly they involved the jaw in the realisation of the tense-lax opposition. Ultimately, it would be very interesting to determine whether such variation could be related to such factors as oro-facial anatomy, on the one hand, or regional origin, on the other hand. This was not feasible with the number of speakers available to us. The much more crucial point, however, is that the same relative pattern was found for all speakers, i.e least jaw involvement for rounding, intermediate for tenseness, and most for height. In conclusion, consideration of an additional opposition, namely rounding, as well as consonantal coarticulatory effects leads to a more rounded (!) view of the simple scheme originally proposed by Wood.

2.3

Comparison of variability in tense and lax vowels

In this section we consider the question of whether there is any difference in the articulatory precision with which tense and lax vowels are articulated. The term 'lax' has a connotation of less precision, and this has sometimes even been stated explicitly (Chomsky and Halle 1968:324). The tense-lax distinction is, of course, not the only parameter that could influence articulatory variability. For German one might expect the high front vowel region to be

137

Articulator)/ analysis of the German vowel system

less variable because it is more crowded. In addition, high front vowels might vary less because they can, in effect, 'brace' themselves against the hard palate. For our purposes it is useful to distinguish two types of variability: 1) contextuallyinduced, i.e due to the coarticulatory influence of the adjacent consonants in our corpus; 2) token-to-token, i.e variability over repetition of the same word (each pseudo-word with a specific CV-combination was repeated 5 times). While there are of course countless studies of coarticulatory variability there are few studies of token-to-token variability - particularly of complete vowel systems. Of the few exceptions, a study by Bohn et al. (1991) for German suggested rather surprisingly that high vowels and tense vowels show more variability.

Contextual Variability

Token-to-Token Variability

(filled = tense, empty = lax)

(filled = tense, empty = lax) All Vowels

All Vowels 100 π Averaged over sensors

25 - ι Averaged over sensors

80

2 0 -



60—| 40

Φ

I105 I

El·/ II

5

20 Η

Η

0

π

ι

e

ι

oe a VOWEL

ι

ο

γ u





,03

α

ώ"

-

Π y

I I I e oe a VOWEL

I ο

Γ u

Fig. 6: Contextual variability (left panel) and token-to-token variability (right panel) averaged over speakers and sensors (n=24). Measurements are based on the areas (in mm2) in which 96% of the vowel tokens for a given speaker, sensor and vowel would be located given normal distribution of the data. For contextual variability, these areas were simply calculated over all tokens of the vowel. For token-to-token variability the areas were calculated separately for /p/, It/ and /k/ context and then averaged over the three consonants. The results for contextual variability (in the left part of Fig. 6) are very clear: lax vowels show consistently more variability than tense vowels. This is not really surprising; the lax vowels are always shorter than their tense counterpart and so articulatory activity for the vowel will inevitably overlap more with activity for neighbouring consonants (cf. the examples of differences in tongue-position over consonant context in the preceeding section). Accordingly, such a finding cannot on its own be used as an argument that the lax vowels are articulated with less precision. This point of view is confirmed by the results for tokento-token variability in the right part of the figure. Here no consistent pattern emerges. There is a tendency for the front lax vowels to be more variable, but this tendency is reversed for the back vowels (and in any case the error bars indicate considerable overlap). There is thus no convincing evidence that lax vowels are articulated less precisely. What both sets of results show is that back vowels vary more than front vowels. The detailed results in Hoole/

Philip Hoole/Christine Mooshammer

138

Kühnert (1995) show in turn that this is mainly due to the front part of the tongue being free to vary in back vowels, while the whole tongue seems to be constrained for front vowels. Space constraints prevent us from considering to what extent the articulatory positions for the vowels shown in Figs. 3 and 5 above overlap when articulatory variability is taken into account. This issue is considered in more detail in Hoole (19992>). However, it might be mentioned here that when discriminance analysis is used to classify the vowels using only static information on tongue position, and without taking context into account, then correct classification amounts to about 85% for tense vowels and 65% for lax vowels (for the normal-tempo part of the corpus). This of course is consistent with the greater coarticulatory variability for lax vowels outlined here, and probably also with the fact that the less peripherally located lax vowels tend to have more close neighbours than the tense ones. To conclude this section it is worth noting that the results for token-to-token variability indicate that the tense-lax terminology we have been using as a convenient label may indeed be a misnomer. We will return to this point in the next section.

2.4

Intrinsic pitch in tense and lax vowels

In this section our main aim will be to argue that the tense-lax opposition in German presents an intriguing puzzle with respect to the micro-prosodic phenomenon of vowel intrinsic pitch. Resolution of this puzzle could contribute an important element to our understanding of the speech motor representations necessary for the production of this vowel opposition. The basic finding regarding vowel intrinsic pitch (IFO) is that high vowels tend to have a higher fundamental frequency than low vowels. This is an extremely robust phenomenon that has now been documented for many languages. 1 The precise mechanism causing intrinsic pitch is not completely clear. Nevertheless, one plausible explanation is that as the genioglossus contracts to pull the tongue body forward (and up) for high vowels, a pull is also exerted via the hyoid bone on the larynx, causing the thyroid cartilage to rotate with respect to the cricoid cartilage, thus lengthening the vocal folds and raising FO (see Honda/Fujimura 1991). Complementing this finding, in a recent EMG study of the production of isolated vowels Whalen et al. (1998) found little evidence for higher cricothyroid activity in vowels with higher intrinsic pitch, supporting the idea that IFO is a purely mechanical effect of vowel production. While this contention may be correct for many languages, FischerJorgensen (1990) pointed out in scrupulous detail that IFO patterns over the tense and lax vowels of German are extremely difficult to account for with any current model of intrinsic pitch. Fig. 7 shows fundamental frequency measurements made from our own material. Since we were interested in the correlation of FO with articulatory parameters, the measurements were made at vowel midpoint, if necessary with slight adjustments to ensure that both jaw position and FO were changing only slowly at the chosen point (typically jaw position was at, or very close to, its maximum opening for the vowel). The results essentially confirm the findings presented and reviewed by Fischer-Jorgensen. The crucial point is that IFO in the lax vowels is much higher than expected. The figure shows the results separately for the two speech rates in our corpus. Overall, the tense-lax pairs exhibit very similar FO. At the nor1

See Whalen and Levitt (1995) for a review.

Articulatory analysis of the German vowel system

139

Normal 1 1male

180 - Front unrounded

Front rounded

Back (u}

Ε g ο

IL

© Η

IfiJ

Ε -

Q

© .

130

.

Q

Fast male 180 - Front unrounded

Front rounded

Back

(si .

0

a

Ε

I

©

© *

Ε Ε "

Q -

130 Fig. 7: Intrinsic pitch for each vowel averaged over 6 male subjects (top: normal rate; bottom: fast rate). The abscissa arranges the vowels in three groups (from left to right: front unrounded, front rounded, back). Within each group, tense-lax pairs are adjacent to each other (tense: circles; lax: squares), and phonological vowel height decreases from left to right.

mal rate there is, if anything, a tendency for lax vowels to have a higher F0. At the fast rate this is not the case, but it appears plausible that the lax vowels, being shorter, may well undershoot their F0 target at the fast rate. In any case we may in general be tending to effectively underestimate peak F0 in the lax vowels, if we take Ladd et al.'s (2000) finding into account that F0 in short vowels (in languages such as Dutch, English and German) typically does not actually peak until the post-vocalic consonant. For further consideration of possible differences in F0 contours in tense vs. lax vowels in German see e.g. Maas/Tophinke (1993) and Spiekermann (2000). The F0 values given in the figures should be seen in conjunction with the articulatory findings for tongue and jaw height given above. With regard to tongue height, if either the

140

Philip Hoole/Christine

Mooshammer

tense or lax vowel series is looked at on its own then the results are precisely as expected from the literature: lower tongue height is accompanied by lower FO.2 But clearly the massive differences in tongue height between tense-lax pairs lead to a complete breakdown in this relationship when both vowel series are examined together. Fi scher- Jergensen pointed out that IFO patterned more closely with jaw height than with tongue height. Up to a point this is also true in our data for the simple reason that tense-lax pairs differ less in jaw height than in tongue height. However, it probably does not bring us any closer to an explanation, since the relationship is still not a very close one: the jaw tends to be lower in the lax vowels (cf. Fig. 5 above), but as just seen, FO can well be somewhat higher in the lax vowels. Even if the relationship were a close one, no one has proposed a convincing mechanical reason why such an effect should be present. In consequence, the IFO patterns in German remain intriguing because either they indicate the presence of mechanical effects on FO that have hitherto escaped our understanding or they reveal - contrary to the view of Whalen et al. (1999) - that there can be an active laryngeal component in IFO control. In other words, lax vowels may receive an active boost from the laryngeal musculature (e.g. cricothyroid) to raise FO. We are currently planning EMG experiments to test this possibility. If we do find active laryngeal participation this would be a further indication that the tense-lax terminology is a misnomer. Of greater significance than the terminology would then be the question of why speakers show increased activity for the lax vowels. Here we will take the liberty of speculating somewhat since the theoretical implications are interesting. It is conceivable that high FO on lax vowels helps to enhance vowel contrasts. This has been proposed for IFO in general (e.g Kingston 1992): The distance between F l and FO is known to be relevant to vowel perception. Since high vowels have low Fl and high FO, while low vowels have high F1 and low FO, intrinsic pitch might be said to enhance the high-low contrast. With respect to the tense-lax opposition, enhancement would probably make most sense in terms of distinguishing pairs like Ν and /e:/ (rather than pairs in a direct opposition like 111 vs. /i:/). As we saw above, Ν and /e:/ may come quite close in terms of tongue height (and in F l ) but differ very clearly with respect to FO. We are planning experiments to test whether the effect may be perceptually relevant in German. There is also a more prosodically oriented way of considering this question: Just looking at the measured FO values one might say that IFO does not constitute a feature that distinguishes tense and lax vowels. However, if we find an active laryngeal boost for lax vowels then we may, in the spirit of direct perception theories, find that lax vowels are perceived as having a higher pitch than tense ones, even if physical FO is very similar. Fowler/Brown (1997) have indeed found some evidence that listeners parse different contributions to resulting FO; thus if an /i/ and an IzJ have the same FO, the /a/ will sound higher because the lower (passive) intrinsic pitch contribution to /a/ can be factored out by listeners leaving a higher contribution in the /a/ from (active) prosodic sources. Seen in this light, it may be possible to argue that the lax vowel series has a property that one might label 'raised F0' ( distinguishing it prosodically from the tense series. Again, we are planning perception experiments to compare the perceived pitch of tense and lax vowels. 2

It probably only makes sense to make such comparisons among articulatorily homogeneous groups of vowels; this is the reason why Fig. 7 has been grouped into front unrounded, front rounded and back vowels.

Articulatory analysis of the German vowel system

141

3. K i n e m a t i c A n a l y s e s

Generally, all syllable-cut concepts are based on the assumption of dynamic changes of different phonetic correlates such as the position of the loudness peak during the syllable. The terminology of Trubetzkoy (1939) and of Forchhammer (1939), in particular, suggests an articulatory difference in the coordination of opening and closing gestures; they speak of loose and close contact or zweischlägige vs. einschlägige Artikulation, respectively. However, most phonetic studies on syllable-cut prosody suffer from the fact that differences in the values of the analysed parameters can be attributed to the shorter durations of lax vowels (though note that Spiekermann (this volume) gets around this problem by providing an explicit comparison of syllable-cut and quantity languages). For example, the more centralized tongue positions of lax vowels could simply be the result of target undershoot due to the shorter duration, this also affecting the formant frequencies. The same holds for articulatory studies on intergestural coordination, since a closer contact between vowel and following consonant could be the consequence of the shorter duration of lax vowels. Therefore it would be desirable to find a unique phonetic dimension independent of durational differences that distinguishes between tense and lax vowels. Two different kinds of vowel compression were used to achieve the quantity neutralization in our experiments, namely 1) increase of speech tempo, and 2) deaccentuation. This corresponds to the speechrate and accent corpora outlined above (more details of both studies are in Kroos et al. 1997 and Mooshammer et al. 1999, respectively). The goal was to shorten syllables with tense nuclei to the length of syllables with lax vowels. The following kinematic parameters were analysed using the movement paths of the sensor closest to the consonant articulator (see Fig. 8 for illustration of the parameters with respect to the velocity and acceleration patterns of a typical tense-lax vowel pair): 1. 2. 3. 4. 5.

Segment durations: CV, Nucleus and VC Ratio of the interval between velocity peaks to total movement duration Symmetry of opening and closing velocity profiles Number of acceleration peaks between velocity peaks Movement amplitudes

Accordingly, the complete CVC movement cycle was divided into a CV or opening phase, a Nucleus or quasi steady-state phase, and a VC or closing phase. Onsets and offsets of opening and closing gestures were determined by using a 20% threshold criterion of the tangential velocity signal; the Nucleus was operationally defined as the interval between CV offset and VC onset. The five parameters just listed are considered in turn in the following sections.

142

Philip Hoole/Christine

/tet/ (lax)

/text/ (tense) tMcuo: CJt «71 OMSM

CV

Nucleus .

Mooshammer

-TT (Typ. 7 > ϊ δ · .

{Typ· 7> ϊ.β ·

VC;

Paak-to-Peak Ratio

Fig. 8: Examples of tongue-blade velocity and acceleration signals for tense vowel led in itjJ context (left) and corresponding lax vowel /ε/ (right). Below each set of signals is a time-aligned schematic illustration of the kinematically-defined durational parameters used for analysis of the CV and VC movements. The dashed vertical lines correspond (from left to right) to CV. 3.1 Temporal compression due to deaccentuation and speech rate: CV, Nucleus and VC durations Mean absolute durations of CV, nucleus and VC segments are shown in Fig. 9. The upper panel shows changes due to speech rate, the lower panel changes due to deaccentuation. As expected CV, Nucleus and VC durations shorten due to deaccentuation and to increased speech-rate. As can be seen in Fig. 9 this compression pattern differs for tense and lax vowels: Both in the case of deaccentuation and in the case of increased speech rate, the nucleus duration of lax vowels is only slightly affected whereas tense nucleus durations are prominently compressed. The effect of deaccentuation is stronger than the effect of speech rate increase. Nucleus durations stay essentially the same for tense unstressed, lax stressed and lax unstressed items whereas nucleus durations of tense fast items are longer than normal lax and fast lax items. In contrast to nucleus duration, changes of CV and VC phases due to speech rate increases and deaccentuation do not differ for tense and lax vowels. As was suggested by Kroos et al. (1997), CV and VC phases for lax vowels show a tight coupling and therefore

Articulatory analysis of the German vowel system

143

lax vowels are incompressible whereas tense vowels are produced with a loose coupling which is indicated by a greater temporal variability. Trubetzkoy (1938) prefered the term Dehnungsfähigkeit (ability to stretch) to the term quantity, i.e. tense vowels are stretchable due to suprasegmental variations because of the loose contact between the vowel and the following consonant. The temporal behaviour of lax vowels, on the other hand, is constrained by the close contact between vowel and following consonant. In the framework of modern kinematic studies this terminology might be interpreted as an overlap between opening and closing gestures in CVC sequences with lax vowels, or, to put it in different terms, as a truncation of the opening gesture by the closing gesture. Fig. 10 shows schematic sequences of opening and closing movements of the consonantal articulator. In the upper panel the opening and the closing gesture are adjacent; there is no overlap. The lower panel 250

Stress Ί

eve uT £

• Nuc

200 -

• cv

Μ

•J n 150k. 3 2 100 c 0) o> 50

9, ο tense stressed

tense unstressed

lax stressed

lax unstressed

Speech Rate 250

tense normal

Fig. 9: Absolute durations of the three kinematically-defined segments CV, nucleus and VC for variations of stress (upper panel) and speech rate (lower panel).

Philip Hoole/Christine Mooshammer

144

shows a truncation of the opening gesture by the closing gesture, which yields a shorter sequence with smaller movement amplitudes. No Truncation: Smooth Cut

Truncation: Abrupt Cut

Closure

Closure

Time

Fig. 10: Schematic representation of gestural truncation

In the following sections we will discuss how a number of measurable properties of the kinematics are related to this general pattern.

3.2

Ratio of the interval between velocity peaks to total movement duration

Harrington et al. (1995), in a kinematic study of changes in jaw movement patterns over systematic changes in accentuation, showed that the ratio of the interval between velocity peaks to total movement duration decreases for increasing truncation. This corresponds to the panel labelled 'peak-to-peak ratio' in Fig. 8. In other words, the interval between velocity peaks is given by the interval between the peak velocity of the opening (C-to-V) movement and the peak velocity of the closing (V-to-C) movement. Total movement duration is given by the interval from onset of the opening movement to offset of the closing movement (using the 20% velocity criterion mentioned above). Table 1 shows the result of calculating this ratio for our data. It shows number of occurences, means and standard deviations for variations of both speech rate and stress. The values for tense sequences change considerably due to speech rate increase and deaccentua-

145

Articulatorγ analysis of the German vowel system

tion whereas for lax vowels this parameter stays fairly stable. Again effects due to deaccentuation are more prominent than those due to speech rate increase. The change of tense items for speeding up can be seen as a shortening of the quasi steady-state during the long stressed vowel, but deaccentuation of tense vowels not only involves a deletion of the steady state but also a truncation of the opening gesture by the closing gesture, which can be seen from the low value for tense unstressed items. Table 1: Effects of speech rate increase and deaccentuation on the ratio of the interval between velocity peaks to total movement duration (in %) Speech rate Tense Lax Stress Tense Lax

3.3

normal fast normal fast

Ν 781 807 671 719

mean 63.7 58.3 49.5 49.4

sd 7.52 8.23 6.61 6.78

stressed unstressed stressed unstressed

420 408 373 358

61.7 50.9 50.0 48.0

7.41 6.59 6.59 5.59

Symmetry of the velocity profiles

The second temporal parameter that can reveal the presence of truncation is the skewness of the velocity profiles, measured as the ratio of the duration of the acceleration phase to movement duration. The acceleration phase corresponds to the interval from movement onset to time of peak velocity. This value is computed separately for the opening and the closing movement and divided by the duration of the opening or closing movement respectively. Symmetrical velocity profiles have a value of 50%. A truncated opening gesture shows a later velocity peak, i.e. the velocity profile is skewed to the right with a value over 50%, whereas a truncated closing gesture is skewed to the left and has a value under 50%. Table 2 shows the results. For both speech rate and deaccentuation the acceleration phases of the opening movement (ACV) are longer for lax vowels than for tense vowels, i.e. the velocity peak of the opening gesture occurred later relative to the opening duration for lax vowels. The pattern is reversed for the closing movement. Again deaccentuation has a more prominent influence on sequences with tense vowels than speech rate. The ratios of unstressed tense items are quite similar to all lax items whereas for speech rate increase this value differs from lax items for fast tense sequences. As suggested by Kroos et al. (1997) the shape differences can also be attributed to higher tangential velocity minima at the centre of lax vowels, in other words when the movement paths for CVC movements are not completely straight but show some curvature, then the velocity may not reduce to zero at the change-over from the CV to the VC movement component. This effect appears to be more prominent in lax vowels.

Philip Hoole/Christine Mooshammer

146

Table 2: Effects of speech rate and deaccentuation on the symmetry of velocity profiles measured as acceleration phase ratios of the opening gesture (ACV) and closing gesture (AVC) in percent.

Speech rate Tense Lax Stress Tense Lax

3.4

normal fast normal fast

ACV 46.6 49.1 56.3 56.6

sd 11.12 11.20 9.83 9.65

AVC 54.7 52.3 44.6 44.9

sd 8.17 9.09 6.48 6.91

stressed unstressed stressed unstressed

49.5 55.8 57.1 58.3

10.06 9.37 9.83 8.24

55.7 47.0 48.4 44.8

7.58 5.61 3.88 4.24

Number of acceleration peaks

As was found by Harrington et al. (1995), truncation also influences the number of acceleration peaks between velocity peaks, i.e. for untruncated movement cycles there is at least one deceleration peak for the opening movement and one acceleration peak for the closing movement. For truncated movements deceleration of the opening movement and acceleration of the closing movement can merge into a single peak. For an example of this in a tense-lax vowel pair refer back to Fig. 8. In the tense vowel two positive acceleration peaks are to be observed in the interval between onset of the CV movement and offset of the VC movement. In the lax vowel there is only one such peak. Fig. 11 summarizes the results for the complete material. As can be seen, the number of acceleration peaks depends crucially on the category of the nucleus, i.e. sequences with lax vowels are usually produced with one acceleration peak between the velocity peaks. Tense items show a clear tendency to be produced with two or more peaks. Deaccentuation affects this parameter to a greater degree than speech rate increase: tense unstressed items are more often single-peaked than tense fast items. Taking stock of this and the preceding kinematic analyses, all temporal parameters and the number of acceleration peaks give strong evidence that truncation of the opening gesture by the closing gesture is one of the mechanisms differentiating lax from tense vowels, and unstressed from stressed vowels, but that it has much less of a role to play in differentiating fast-rate from normal-rate speech. The most important proviso to make is that deaccentuation as truncation is only really apparent in the tense vowels; since accented lax vowels already show characteristics of truncation, there may simply be little scope for further truncation under deaccentuation. In fact, as we will see in the next section, an important modification of the concept of truncation remains to be made, specifically with respect to tense vs. lax vowels.

147

Articulatorγ analysis of the German vowel system

Stress

• Unstressed

700

a Stressed

600 -

500 400 300 200 100 -

0 single tense

multiple tense

single lax

Speech rate

multiple lax

• Fast a Normal

495

W'^'w

single tense

multiple tense

662

Ο single lax

57

mrnrnim multiple lax

Fig. 11: Frequency of items with single or multiple acceleration peaks between velocity peaks. Upper panel: stress, lower panel: speech rate.

3.5 Movement amplitudes Again following the predictions of Harrington et al. (1995), truncation involves a reduction in movement amplitudes (refer back to Fig. 10). For present purposes, movement amplitude was defined as the sum of opening and closing amplitudes (these were defined in turn as the Euclidean distance between the position at start and end of the movement). For a better comparison of both corpora only tongue tip movements are considered (in other words, from the speech-rate corpus only sequences with apical stops are analyzed). Fig. 12 shows the distances for all vowels averaged over speakers. As can be seen in the upper panel there is a considerable reduction going from stressed items - shown as filled squares and circles - to unstressed items (empty symbols). Therefore tongue tip movements of unaccented syllables could be generated by truncating the opening gesture by the closing gesture. The same holds for speech rate increase (lower panel) but to a lesser degree for central and back vowels. For the tenseness distinction movement amplitudes are reduced only for sequences with central and back vowels. CVC

Philip Hoole/Christine Mooshammer

148

Stress

Speech rate

Fig. 12: Movement amplitudes of stressed and unstressed /tVt/ sequences (upper panel) and /tVt/ sequences produced at normal and fast speech rate (lower panel). sequences with front lax vowels are produced by slightly larger distances than sequences with front tense vowels, which is contrary to the prediction. This finding has important implications, which are discussed further below. But in a sense it is certainly not unexpected: Since consonants more or less by definition have a strong constriction, and since most tense vowels also have a strong constriction, whereas lax vowels are clearly centralized, one would indeed expect more movement from consonant to vowel in lax vowels. The precise patterns will depend on the relative position of the constriction in the consonant and the vowel; hence the different results for the back vowels in the coronal consonant context

Articulatory analysis of the German vowel system

149

shown here. With a dorsal consonant context such as /k/ (which was not presented here) one would expect more movement for both front and back lax vowels. The most general exception to this pattern can be expected for the a-vowels, since so-called tense /a/ is likely, regardless of consonant context, to have a wider oral aperture than lax /a/ (and consequently higher movement amplitudes). As should become clearer from the general discussion below, this may perhaps explain why a tense-lax distinction has often been seen as less salient for these vowels.

4. General Discussion

Summarizing the results, most kinematic parameters suggest a tighter coupling between CV and VC phases for lax vowels. The purely temporal and the other kinematic parameters speak for a difference in gestural overlap for the stressed vs. unstressed contrast and a shortening of the quasi-steadystate phase during tense vowels for speech rate increase. Lax vowels do show some features of truncated movement patterns, but, importantly, the analysis of movement amplitudes indicates clearly that lax vowels cannot in general be generated by truncating the opening movements of tense vowels. This point is worth emphasizing for several reasons. First of all, 'lax' clearly suggests that the articulatory system has, in some sense, less to do than in tense vowels - which at first sight fits in with the obvious fact that tense vowels are more peripheral. But this viewpoint really looks at the vowels as isolated sounds. As soon as the vowels are produced in valid German syllable structures (which is, of course, the only way they can be produced), then generally, more movement is required in the lax case. This means in turn, however, that one frequent connotation of the syllable-cut or contact concept, namely that in syllables with lax vowels the vowel fails to reach its culmination, 3 is also rather misleading. We believe, nevertheless, that our results provide quite a neat explanation for the pervasiveness of the syllable-cut intuition. This emerges in particular from the observed acceleration patterns. As seen in the acceleration curves of Fig. 8, and in the acceleration peak counts of Fig. 11, the typical lax vowel has a single, strong acceleration peak near the centre of the vowel, while in tense vowels the predominant tendency is for separate peaks corresponding to deceleration of the opening movement and acceleration of the closing movement (which have the same sign, of course). Now, it is extremely difficult to measure the forces involved in articulation. Yet force is a crucial parameter, since force is required to change the state of the system, and only changes (modulations) have signalling value. Based on Newton's laws, however, we know that force is closely related to acceleration (F=ma). And even without adhering to the motor theory of speech perception it is tempting to assume that hearers, as speakers, are very sensitive to the force patterns under-

3

"Beim festen Anschluss setzt der Konsonant in einem solchen Augenblicke ein, wo der Vokal noch nicht den Höhepunkt seines normalerweise steigendfallenden Ablaufes überschritten hat" (Trubetzkoy 1938:196).

150

Philip Hoole/Christine

Mooshammer

lying perceived utterances. Accordingly, we would like to suggest that lax vowels are characterized by pulsatile force input, tense vowels by distributed force input. If the underlying difference can be captured in these terms, then it is quite natural to find a combination of short duration and centralized position in the lax vowels: The centralized position is found not because the time is too short to reach a target but, on the contrary, because it frequently serves to actively promote a higher consonant-to-vowel movement amplitude. This in turn conspires with the short duration to enhance the pulsatile nature of the acceleration signal. Equally, the 'close-contact' view of syllables with lax vowels, expressed here in their resistance to temporal manipulations, can be seen as ensuring the integrity of the pulsatile structure. Seen in this light, the implementation of the tense-lax opposition by the speech motor system shows a similiar organizational principle to that found for the rounding opposition. As already indicated, the realization of this opposition is distributed over several speech motor sub-systems, i.e. not only the lips, but also tongue position (as shown above), and larynx height (cf. Wood 1986, Hoole/Kroos 1998). The parameter combination actually observable appears to be precisely the one that will ensure robust signalling of the opposition. The articulatory parameters found for the tense-lax opposition appear to combine in similar fashion. In addition to the articulatory parameters already discussed in this concluding section, the active enhancement of F0 for the lax vowels postulated in the discussion of intrinsic pitch above would also seem to fit in well with the pulsatile force input proposed for these vowels. The style of argument adopted here would thus become particularly compelling if we eventually succeeded in showing that the laryngeal muscle activity indeed conforms to this hypothesis.

References

Becker, T. (1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt am Main: Peter Lang. Bohn, O./J.E. Flege/P.A. Dagenais/S.G. Fletcher (1991): Differenzierung und Variabilität der Zungenpositionen bei der Artikulation deutscher Vokale. - In: Z&itschrift fiir Dialektologie istik (Beihefte 72), 1-26.

und Lingu-

Chomsky, N./M. Halle (1968): Sound pattern of English. - New York: Harper & Row. Fischer-Jergensen, Ε. (1985): Some vowel features, their articulatory correlates, and their explanatory power in phonology. - In V. Fromkin (ed.): Phonetic Linguistics: Essays in honour of Peter Lade-

foged, 79-99. New York: Academic Press. Fischer-Jergensen, E. (1990): Intrinsic F0 in tense and lax vowels with special reference to Germanin: Phonetica 47, 99-140.

Fischer-Jürgensen, E./H.P. Jergensen (1969): Close and loose contact ("Anschluß") with special reference to North German. - In: Annual Report of the Institute of Phonetics of the University of Copenhagen (ARIPUC) 4, 43-80.

Forchhammer, J. (1939): Länge und Kürze. - In: Archiv für Vergleichende Phonetik 3, 19-27. Fowler, C./J. Brown (1997): Intrinsic F0 differences in spoken and sung vowels and their perception by listeners. - In: Perception and Psychophysics 59, 729-738. Geumann, A./C. Kroos/H.-G. Tillmann (1999): Are there compensatory effects in natural speech? In: Proc. XlVth Int. Cong. Phonetic Sei. 1, 399-402.

Articulatory analysis of the German vowel system

151

Harrington, J./J. Fletcher/C. Roberts (1995): Coarticulation and the accented/unaccented distinction: evidence from jaw movement data. - In: J. Phonetics 23, 305-322. Harshman, R./P. Ladefoged/L. Goldstein (1977): Factor Analysis of Tongue Shapes. - In: J. Acoust. Soc. Am. 62, 693-707. Honda, K./O. Fujimura (1991): Intrinsic vowel F0 and phrase-final F0 lowering: phonological vs. biological explanations. - In: J. Gauffin, B. Hammerberg (eds.): Vocal fold physiology: acoustic, perceptual, and physiological aspects of voice mechanisms, 149-157. San Diego, CA: Singular Publishing Group. Hoole, P. (1996): Issues in the acquisition, processing, reduction and parameterization of articulographic data. - In: Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation, München (FIPKM) 34, 158-173. - (1999a): On the lingual organization of the German vowel system. - In: J. Acoust. Soc. Am. 106 (2), 1020-1032. - (19996): Articulatoiy discriminability of vowels: Articulator and corpus effects. J. Acoust. Soc. Am. 105 (2, Pt.2), 1400(A). Hoole, P./B. Kühnert (1996): Tongue-jaw coordination in German vowel production. - In: Proceedings of the 1st ESCA tutorial and research workshop on Speech Production Modelling/4th Speech Production Seminar, Autrans, 1996, 97-100. Hoole, P./C. Kroos (1998): Control of larynx height in vowel production. - In: Proc. 5th Int. Conf. Spoken Lang. Processing 2, 531-534. Jespersen, O. (1913): Lehrbuch der Phonetik (Τ* edition 1919). Leipzig: Teubner. Johnson K./P. Ladefoged/M. Lindau (1993): Individual differences in vowel production. - In: J. Acoust. Soc. Am. 94, 701-714. Kingston, J. (1992): The phonetics and phonology of perceptually motivated articulatory covariation. - In: Language and Speech 35, 99-113. Kroos, C./P. Hoole/B. Kiihnert/H.-G. Tillmann (1997): Phonetic evidence for the phonological status of the tense-lax distinction in German. - In: Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation, München (FIPKM) 35, 17-25. Ladd, D.R./I. Mennen/A. Schepman (2000): Phonological conditioning of peak alignment in rising pitch accents in Dutch. - In: J. Acoust. Soc. Am. 107(5), 2685-2696. Ladefoged, P./J. De Clerk/M. Lindau/G. Pap?un (1972): An auditory-motor theory of speech production. - In: UCLA Working Papers in Phonetics 22, 48-75. Maas, U. /D. Tophinke (1993): Loser und fester Anschluß. Versuch der Neubewertung einer abgelegten Kategorie. - In: J. Schmidt-Redefeldt (ed.): Sprachwandel und Sprachgeschichte - Festschrift für Helmut Lüdtke zum 65. Geburtstag, 133-151. Tübingen: Narr. Meyer, E.A. (1910): Untersuchungen über Lautbildung. - In: Die neueren Sprachen 18 (Ergänzungsband Festschrift Vietor), 166-248. Mooshammer, C. (1998): Experimentalphonetische Untersuchungen zur artikulatorischen Modellierung der Gespanntheitsopposition im Deutschen. - In: Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation, München (FIPKM) 36, 3-191. Mooshammer, C./S. Fuchs/D. Fischer (1999): Effects of stress and tenseness on the production of CVC syllables in German. - In: Proc. 14th Int. Cong. Phonetic Sciences, 409-412. Perkell, J./M. Cohen/M. Svirsky/M. Matthies/I. Garabieta/M. Jackson (1992): Electro-magnetic midsagittal articulometer (EMMA) systems for transducing speech articulatory movements. - In: J. Acoust. Soc. Am. 92, 3078-3096. Ramers, Κ. (1988): Vokalquantität und -qualität im Deutschen. Tübingen: Niemeyer (= LA 213). Sendlmeier, W. (1985): Die Beschreibung der deutschen Vokale in betonter Stellung - ein forschungshistorischer Überblick. - In: V. Borowsky J.-P. Köster (eds.): Neue Tendenzen in der angewandten Phonetik I, 167-198. Hamburg: Buske. Sievers, E. (1901): Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. Leipzig: Breitkopf und Härtel. Spiekermann, H. (2000): Silbenschnitt in deutschen Dialekten. Tübingen: Niemeyer (= LA 425). - (this volume): Ein akustisches Korrelat des Silbenschnitts: Formen des Intensitätsverlaufs in Silbenschnitt- und Tonakzentsprachen.

152

Philip Hoole/Christine

Mooshammer

Trubetzkoy, N. (1938): Die phonologischen Grundzüge der sogenannten 'Quantität' in den verschiedenen Sprachen. - In: Scritti in onore di Alfredo Trombetti, 155-174. Milano: Ulrico Hoepli Editore. - (1939): Grundzüge der Phonologie (7th edition 1989). Göttingen: Vandenhoeck & Ruprecht. Vennemann, T. (1991): Syllable structure and syllable cut prosodies in Modern Standard German. In: P. Bertinetto et al. (eds.): Certamen Phonologicum II: Papers from the 1990 Cortona Phonology Meeting, 211-243. Torino: Rosenberg & Selber. Whalen, D./A. Levitt (1995): The universality of intrinsic FO of vowels. - In: J. Phonetics 23, 349366. Whalen, D./B. Gick/M. Kumada/K. Honda (1999): Cricothyroid activity in high and low vowels: Exploring the automaticity of intrinsic FO. - In: J. Phonetics 27, 125-142. Wood (1975a). The weaknesses of the tongue-arching model of vowel production. - In: Lund Working Papers 11, 55-107. - (1975b). Tense and lax vowels - degree of constriction or pharyngeal volume. - In: Lund Working Papers 11, 109-134. - (1986). The acoustical significance of tongue, lip and larynx maneuvers in rounded palatal vowels. - In: J. Acoust. Soc. Am. 80, 391-401.

Michael

Jessen

Spectral balance in German and its relevance for syllable cut theory*

1. Introduction In recent times, convincing phonological arguments and analyses have been brought forward in support of the classical concept of syllable cut prosody (including Vennemann 1991; Maas & Tophinke 1991; Becker 1996, 1998; Maas 1999; Spiekermann 2000). According to syllable cut theory, the phonologically relevant opposition in pairs such as Miete 'rent' with [i:] vs. Mitte 'center' with [i] is not a vowel-inherent quality or quantity distinction but instead reflects a prosodic difference which spans at least the vowel itself and the following consonant. In examples such as Mitte it is claimed that the vowel (here [i]) is "cut off" by the following consonant ('fester Anschluss', abrupt cut), whereas in Miete the vowel [i:] can complete its fall cycle and is merely followed but not interrupted by the following consonant ('loser Anschluss', smooth cut), provided there is a following consonant at all (which is required in syllables with abrupt cut but not in those with smooth cut). Reviews of syllable cut prosody, including the long history of this concept, are provided by Ramers (1988), Becker (1998), Mooshammer (1998), and Spiekermann (2000). Whereas there is considerable phonological motivation for syllable cut prosody it is yet not entirely clear what the phonetic correlates of this concept are. To be more precise, some clear phonetic properties of syllable cut are open to a different interpretation. For example, one obvious phonetic consequence of cutting the vowel as opposed to letting it complete its course is that the vowel is shorter in the former than in the latter case. But vowel duration differences can also, and probably more straightforwardly, be accommodated within an analysis in which quantity is regarded as being phonologically primary. Likewise, it is well known that vowels of the type in Miete are usually more peripheral in the vowel space than those of the type in Mitte. This phonetic difference can be interpreted within syllable cut theory (see Becker 1998), but again, a more straightforward interpretation is possible when a vowel quality feature such as [tense] or [ATR] (advanced tongue root) is seen as the relevant phonological element.1 What is needed in order to support syllable cut theory is a phonetic property that follows directly from the notion of abrupt vs. smooth cut and which cannot plausibly be analyzed within a phonological analysis that is based on the quantity or the quality of the vowel. Among the most comprehensive and methodologically well-

1

Thanks to the participants of the Colloquium on Syllable Cut and Tonal Accents (Freiburg, May 25-27, 2000) for comments on the oral presentation on which this paper is based and especially to Jörg Peters for his suggestion to examine the correlation of lip rounding and larynx lowering in search for an explanation of certain spectral balance effects in German. Valuable comments by Peter Auer, Peter Gilles, and Helmut Spiekermann on the form and content of this paper are gratefully acknowledged. See Ramers (1988) for a comprehensive review of quality- and quantity-based analyses of the German vowel system.

154

Michael

Jessen

founded phonetic studies that were carried out in search for this unique phonetic correlate of syllable cut are Fischer-Jergensen (1969), Jargensen (1969a), Mooshammer (1998), and Spiekermann (2000). Without being able to go into detail here it is fair to say that these studies reveal that unique phonetic correlates of syllable cut are difficult to find and that they are subject to substantial variability. But clearly, some significant progress has been made in recent studies by Mooshammer (1998) and Spiekermann (2000). Some of the phonetic correlates of syllable cut that were proposed in the literature are based on amplitude (Fischer-Jergensen 1941; von Essen 1962; tergensen 1969a; Spiekermann 2000). One of the central assumptions is that in a smoothly cut vowel the maximum of the amplitude curve is reached roughly at the center of the vowel: the vowel reaches its sonority peak at midpoint and then has sufficient time to decline in sonority until it is succeeded by the following consonant or any other event (such as hiatus or a word boundary). In an abruptly cut vowel, on the other hand, the amplitude maximum is expected to occur at the end or closely towards the end of the vowel since it is cut off by the following consonant at a point in time in which it has reached its target value and thereby its sonority maximum. There are more hypotheses and findings regarding the amplitude patterns of smoothly and abruptly cut vowels, which are carefully reviewed and investigated by Spiekermann (2000) (cf. Footnote 15). Studies of the amplitude correlates of syllable cut, in particular Jergensen (1969a) and Spiekermann (2000), have usually been based on plots of the overall signal amplitude over time (usually with some temporal filtering - canceling out the amplitude fluctuations caused by individual voicing periods - and a transformation to positive values). However, studies on the correlates of word stress have raised some doubts recently as to whether measurements of overall signal amplitude are able to capture the linguistic use of amplitude in an appropriate fashion. The concept of 'spectral balance' has been offered as an alternative way of conceptualizing and measuring linguistic amplitude (Sluijter 1995; Sluijter & van Heuven 1996; Sluijter et al. 1997). Spectral balance has indeed been successfully applied to the analysis of the amplitude correlate of word stress in Dutch and American English (Sluijter 1995) as well as in German (Claßen et al. 1998). This paper addresses the question of whether spectral balance can also be of use for the study of vowel oppositions such as in Miete vs. Mitte in German - both generally and with respect to syllable cut theory. After an introduction to the concept of spectral balance and its measurement (section 2.1) and a review of previous studies of spectral balance in tense/lax or ATR systems (2.2), results from two studies on the German vowel system will be presented in which spectral balance has been taken into account (section 3). This part of this paper presents the results of a recent acoustic study (3.1) and a previous electroglottographic study (3.2). The question will be discussed of whether there are any laryngeal differences between the vowels in pairs like Miete and Mitte, and if so, whether these differences are actively controlled or rather secondary effects of supralaryngeal gestures (3.3). While the studies presented in section 3 are based on static properties of vowels (acoustic properties covering the entire vowel), some dynamic aspects (changes of properties during the course of the vowel) will be addressed in section 4 and some suggestions for future research will be made. It is those dynamic aspects that are of particular relevance to syllable cut theory. So far, most of what we know about spectral balance, including the evidence presented in this paper, covers static aspects. It is therefore important to emphasize that the present paper cannot achieve much more than to provide theoretical and empirical background information and recom-

Spectral balance in German and its relevance for syllable cut theory

155

mendations on how to proceed with further investigations of the amplitude aspect of syllable cut prosody in the future. Terminologically, vowels in words like Miete will be referred to in this paper as either tense or smoothly cut and those in words like Mitte as either lax or abruptly cut; a complete list of the vowels addressed in this paper and their classification is presented in Table 1, below.2

2. Spectral b a l a n c e

2.1

Amplitude measurements in general and the amplitude correlates of word stress

Compared to duration and frequency measurements, measurements of amplitude are difficult to interpret. One problem is to separate those aspects of the measured amplitude values that are linguistically meaningful from those that are due to some specifics of the recording session and that are therefore arbitrary from a linguistic point of view. For example, distance between the speaker and the microphone or the input gain of the recording can strongly influence signal amplitude. Further arbitrariness is introduced if the recording equipment is not calibrated as to express decibel values in relation to 'sound pressure level', i.e., dB SPL (see Reetz 1999 for a good introduction). Problems of this kind can (in most cases) be solved, however, by normalizing amplitude values, either in an extrinsic or an intrinsic fashion. 'Extrinsic' normalization of amplitude means that the amplitude value of a sound is expressed in relation to the amplitude value of another sound in its vicinity, or in relation to the average amplitude of a larger stretch of speech to which the sound of interest belongs. Both relations are calculated by subtracting one decibel value from the other. For example, in order to investigate whether /p/ has greater burst amplitude than /b/, the burst amplitudes of the two stops are subtracted from the (peak or average) amplitudes of the following vowels, provided those are essentially the same. 3 Another example of extrinsic normalization is the way in which amplitude contours are measured with respect to syllable cut theory (see Jargensen 1969a and Spiekermann 2000). Once more, it is not the absolute amplitude values that are compared but rather the relations between the amplitude values of different parts of the utterance, for example, between the highest and the lowest value in the vowel or between the highest or average value in the vowel and the lowest or average value in the following consonant. 'Intrinsic' normalization of amplitude means that the amplitude of some aspect of a sound is expressed relative to some other aspect of the same sound at the same time. For

2

3

There is some disagreement among phonologists about the classification of the Α-vowels in minimal pairs such as Rate 'installment' vs. Ratte 'rat' in terms of the tense/lax distinction, whereas in terms of the distinction between smooth and abrupt syllable cut Α-vowels are assumed to have the same status as other pairs of vowels. Alternatively, vowel amplitude could be subtracted from burst amplitude in order to keep the right direction of the differences.

156

Michael

Jessen

example, it is possible, using a bandpass analysis, to measure the amplitude of the frequency range from 2000 to 4000 Hz and subtract it from amplitude between zero and 500 Hz. Using this method it is very likely that the arbitrary affects mentioned above will be cancelled out. But we will see shortly that normalizing amplitude by comparing the amplitude values in different domains of the spectrum is more than just a method of canceling out artifacts of the recording. Once the arbitrary aspects of the amplitude values have been minimized by normalization there is another independent problem to be addressed: is the measurement of overall signal amplitude really the most appropriate way of capturing what from a perceptual and linguistic perspective is 'loud' vs. 'soft'? Some doubts about this have been raised with respect to the phonetic study of word stress in languages such as English, Dutch, and German. The word stress systems of these languages have traditionally been classified as 'dynamic', and this classification is commonly associated with loudness. Yet, measurements of overall signal amplitude have revealed only very small differences between stressed and unstressed vowels in these languages (see Sluijter 1995; Claßen et al. 1998 for further discussion and literature). Sluijter (1995) takes a closer look at the predicted acoustic differences between stressed and unstressed syllables (see also Sluijter et al. 1995; Sluijter & van Heuven 1997). She points out that the increased subglottal pressure in stressed syllables has several effects on the shape of the glottal cycle, including a faster and steeper closing phase. These effects have in turn the acoustic consequence of a reduced spectral tilt. (Spectral tilt refers to the amplitude reduction from lower to higher frequencies that occurs in vowels.4) In other words, vowels produced with stress have relatively more energy in the mid-to-high domain of the spectrum than vowels that are unstressed. Sluijter (1995:94) talks about a shift in "spectral balance" from less to more high-frequency energy in stressed compared to unstressed vowels. While the basic principles of these mappings from the articulation to the acoustics of stress (or loud vs. soft voices more generally) have been known at least since Fant (1960), there are only few experiments in which the predictions that derive from them have been rigorously tested. In order to do so, it is necessary to measure amplitude not in an overall fashion in which the contribution from the different ranges of the spectrum are pooled together, but instead in a way in which the amplitudes in different frequency regions of the spectrum are measured separately and then put in relation to one another. One way of implementing frequency-sensitive amplitude measurements of this kind is filter bank analysis. This method, which for reasons of space will not be further discussed here, has been successfully implemented by Sluijter (1995:ch. 3) and Sluijter & van Heuven (1997). Another, more accurate method is the measurement of the amplitude of the second (A2) and third (A3) formant in relation to the amplitude of the first harmonic (HI). Sluijter (1995:ch. 5) and Sluijter et al. (1995) found that in American English stressed vowels have lower values of H1-A2 and HI-A3 than unstressed vowels (those values were normalized in ways that will be explained in section 3.1). This shows that - consistent with the expecta4

Inverse-filtered (elimination of formants) modal-voiced vowels without particular prominence have a spectral tilt of about -12 dB per octave (Allen et al. 1987:146). This is the baseline for further variations due to stress or other factors. Even stressed vowels still show a downward tilt from lower to higher frequencies, though its slope is reduced relative to unstressed vowels.

Spectral balance in German and its relevance for syllable cut theory

157

tions - stressed vowels have more energy in the mid-to-high frequency domain (frequencies corresponding to the second and third formant) than unstressed vowels, while there is no corresponding amplitude difference in the low-frequency domain where the first harmonic is found. This result was confirmed for German by Claßen et al. (1998). Measurements of overall signal amplitude might still reveal higher values for stressed than unstressed vowels but they obscure the fact that frequencies corresponding to the second and third formant are more affected by the amplitude increase from unstressed to stressed vowels than frequencies close to the fundamental. To conclude, measuring the amplitude of the second or third formant and subtracting it from the amplitude of the first harmonic not only provides an intrinsic normalization of amplitude, but also takes into account established knowledge about the acoustic consequences of increased 'vocal effort' (increased subglottal pressure in stressed vowels or in 'loud' speech more generally). Hence, this method is a good way of capturing the kind of amplitude variations that result from human voice production.

2.2

Amplitude correlates of tense vs. lax vowels

Halle & Stevens (1969) were probably the first to point out that spectral balance (as it was later called) is also relevant for the distinction between tense and lax vowels in English. They provide spectra of high front vowels in English which show that lax vowels have more energy in the F2-to-F3 region (= A2 and A3) than tense vowels, while there is hardly any energy difference below 500 Hz (Halle & Stevens 1969:213; see also Stevens 1998:299 on high vowels in general). Measurements of H1-A2 and H1-A3 in the signals used by Halle & Stevens would show higher values in the case of the tense than the lax vowels. Recall that high values of H1-A2 and HI-A3 mean that there is a relatively steep spectral tilt, or in other words, that there is relatively little energy in the mid-to-high domain of the spectrum. It is in this sense that the tense vowels are less 'loud' than the corresponding lax vowels. 5 Although the same acoustic properties are involved in tense vs. lax and in unstressed vs. stressed vowels, the physiological reasons are different. It is very unlikely that subglottal pressure has anything to do with the distinction between tense and lax vowels (see Ramers 1988:143-147), much unlike stress, where subglottal pressure is the major physiological factor (Marasek 1997). Instead it seems that the cause for the spectral balance difference between tense and lax vowels lies in a (slightly) more breathy voice quality in the former (Halle & Stevens 1969; Denning 1989; Kingston et al. 1997; Lotto et al. 1997; Stevens 1998:297). Breathy voice leads to an increase in amplitude of the first harmonic and a decrease in amplitude of the frequency region approximately around the second and third formant (unless very strong turbulence noise is present in this frequency region). Both effects combined lead to higher values of HI-A3 and probably H1-A2 in breathy as compared 5

One might expect the lax vowels to be less loud than the tense ones and not vice versa. That expectation would seem more in line with the idea that tenseness implies greater effort on all aspects of the speech production process. But while longer duration (when combined with stress) and a more peripheral position in the vowel space are indeed in line with this idea, the spectral balance behavior of tense vs. lax vowels is not. This demonstrates that features such as tense/lax, fortis/lenis, etc. should not be used simply as phonetic metaphors, but that it is necessary to fill them with phonetic content, based on experimental-phonetic research (cf. Braun 1988; Jessen 1998).

158

Michael

Jessen

to modal voice (cf. Hanson 1997 on HI-A3 and Klatt & Klatt 1990 on spectral tilt more generally). Comparison of the amplitude of the first with that of the second harmonic (HlH2) also shows increased values in breathy as compared to modal voice. Relevant experimental studies are quite rare. But Di Paolo & Faber (1990) present evidence of increased breathy voice levels in tense as opposed to lax vowels in some dialects of American English (they measured the difference between HI and the amplitude of the first formant). Evidence from German is presented in Claßen et al. (1998), where (normalized) HI-A3 turned out to be the most important voice quality correlate of the tense/lax distinction. Halle & Stevens (1969), Denning (1989), and Kingston et al. (1997) discuss possible reasons for which tense vowel should be produced with somewhat breathy voice while lax vowels are not (or less so). They assume that tense vowels are produced with tongue root advancement while lax vowels are not. Kingston et al. (1997), for example, state that there is a biomechanical connection between the tongue root and the arytenoid cartilage via the epiglottis, and that advancing the tongue root causes the arytenoids to slide forward or rock apart via the influence of the epiglottal ligament and membrane. This explanation works best for languages that have a clear and consistent difference in tongue root advancement vs. retraction as for instance the African languages Akan and Dinka. It is for these types of languages that the phonological feature [advanced tongue root] (= [ATR]) has been proposed (see Ramers 1988:137-143 for an overview). Whether this is also appropriate for Germanic languages such as English and German is less clear, since here the difference in tongue root position between tense and lax vowels is less pronounced and less consistent across vowels, while other differences such as tongue height and duration are more prominent (see Ladefoged & Maddieson 1996:302-306). Although there is a tendency for African ATR systems to show breathy voice in [+ATR] vowels, there are exceptions, and measurements of H1-H2 or spectral tilt (such as H1-A2 or H1-A3) do not always show the expected results (see Denning 1989; Hess 1992; Fulop 1996; Ladefoged & Maddieson 1996:300-302). There is even (at least) one case of an African ATR language where it is the [-ATR] vowels that are systematically produced with breathy and the [+ATR] vowels with modal voice, i.e., where the difference is the opposite from the general trend (Local & Lodge 1996). If voice quality were entirely dependent on tongue root advancement, one would expect an even weaker effect in the Germanic tense/lax systems than in the African ATR systems, since - as mentioned - the differences in tongue root position are weaker and less consistent here. Halle & Stevens (1969) also emphasize the influence of larynx lowering (see also Ladefoged & Maddieson 1996:300) on the manifestation of the tense/lax distinction. According to an MRI study by Tiede (1996), English tense vowels not only have more tongue root advancement (or more generally: pharyngeal volume expansion) than lax vowels but also a lower position of the larynx (though both effects are stronger in the African ATR language Akan than in English). Denning (1989) mentions several languages in which tongue root advancement and larynx lowering - as well as raising of tongue body height - occur together. There is evidence from Shanghai Chinese (Ren 1992) and Xhosa (Jessen & Roux, to appear) that a strong larynx lowering gesture, with the primary goal of producing tonal depression, also causes a slight degree of breathy voice. This slight breathiness can be called 'slack voice' rather than 'breathy voice' (see Ladefoged & Maddieson 1996:63-66). The H1-H2 and H1-A3 correlates work in the same direction as in breathy voice. The major difference between breathy and slack voice is that the latter usually shows no turbulence in

Spectral balance in German and its relevance for syllable cut theory

159

the spectrogram. Given the fact that one does not usually see (in spectrograms) nor hear turbulence in German or English tense vowels, it is probably more appropriate to look for slack rather than breathy voice in Germanic tense vowels. Kingston et al. (1997) also talk about "lax voice" in association with the English tense vowels (cf. also Maddieson & Ladefoged 1985). Aside from purely articulatory (here: biomechanical) explanations in which breathy or slack voice is seen as the (more or less) necessary consequence of tongue root advancement or larynx lowering, it is also important to consider perceptual explanations. Halle & Stevens (1969) have pointed out that tongue root advancement, larynx lowering, and the higher tongue body position in tense than lax vowels all have the acoustic effect of lowering the frequency of the first formant. Kingston et al. (1997) and Lotto et al. (1997) emphasize that low Fl on the one hand and the increased H1-H2 and spectral tilt values found in breathy (or slack/lax) voice on the other hand have in common a relative increase of prominence in the low-frequency domain of the spectrum (cf. the 'low frequency property' proposed in Kingston & Diehl 1994). They also show experimentally that low Fl on the one hand and high H1-H2 as well as high H1-A2 or HI-A3 on the other hand influence the perception of English vowels into the direction of the tense category.6 Given this acoustic/perceptual similarity between low Fl and the breathy voice correlates H1-H2 and H1-A2/3 it is possible that the speaker exaggerates the anatomically and physiologically 'natural' associations to achieve a perceptual effect. If so, the amount of breathy (or slack/lax) voice in tense or [+ATR] vowels would be stronger than the (very weak) levels that can be predicted if the mentioned biomechanical explanations were the only factors involved.

3. Experiments on spectral balance in German

3.1 Acoustic study An acoustic study of the spectral balance correlates of word stress and the tense/lax opposition in German vowels is presented in Claßen et al. (1998). A follow-up study was carried out recently (cf. Schneider 2001), relevant aspects of which will be presented in this section. This new study improves Claßen et al. (1998) in a number of aspects. Firstly, the number of subjects was increased from 5 plus 5 to now 9 male and 9 female speakers. Secondly, the target vowel is now preceded by an equal number of tense and lax stops, whereas all vowels were previously preceded by tense stops. This change in design was implemented due to known voice quality effects (in particular H1-H2, but perhaps also other parameters) of the stop on the following vowel (Jessen 1998:108-116). Thirdly, word stress was differentiated from sentence stress. Furthermore, the target words were embedded in whole sentences of varied structure, rather than spoken in isolation, thereby increasing the naturalness of the data. And finally, the recording was made in a room with extensive sound treatment. For the 6

In the experiments by Kingston et al. (1997) and Lotto et al. (1997) H1-H2 was synthesized as OpenQuotient with the formant synthesizer presented in Klatt & Klatt (1990), while H1-A2/H1A3 was synthesized as spectral TiLt.

Michael

160

Jessen

measurement of the spectral balance parameters that are at issue here an optimal quality of the acoustic signal is very important. Table 1: Stimulus words in the new acoustic study

smoothly cut vowels

abruptly cut vowels

stressed after ΙάΙ Krokodile Mandela Vandalen Idole Module Grenadille Modelle Medallien erdolcht(e) Abdullah

IPA after Ν Ventile klientelisch kapitale(s) katholische(n) betulich Antillen Kartelle Metalle Ayatollah Schatulle

Μ [e:l [a:l fo:l [u:l Μ Γε1 [al Μ Μ

unstressed after /d/ Krokodilist Mandelisten Vandalismus Mandoline(n) Modulator Grenadillist modelliert(e) Medallisten Erdolchist Abdullist

IPA after Ν Ventilator Klientelist Kapitalist Katholiken gratuliere(n) Antillist kartellieren Metallist Ayatollisten Schatullist(en)

m fei Γα1 [Ol Μ [Ii r«i Tal Μ ί«1

The target words of the new study are listed in Table 1. The target vowels are highlighted in boldface and transcribed segmentally according to the pronunciation dictionary of Krech et al. (1982). Variations in inflectional morphology that depend on the sentence context are put in parentheses. The first column and the top row indicate the status of the target vowel in terms of main word stress and the smoothly cut (tense) vs. abruptly cut (lax) opposition. (Henceforth "smoothly cut" vowels will also be referred to as "smooth" vowels and "abruptly cut" vowels as "abrupt" vowels.) In the words with vowels labeled "unstressed" main stress occurs on the following syllable (e.g. Krokodilist). Table 1 also contains a subdivision of the words according to whether the preceding stop is lax (here: /d/) or tense (here: /t/).7 The words in Table 1 were embedded in meaningful sentences such as Abdullah ist ein äußerst intelligentes Kind 'Abdullah is an extremely intelligent child' (with sentence stress on Kind). There were sentences in which the target word received sentence stress and others (like in this example) in which the target word did not receive sentence stress (see Sluijter 1995 for the advantages of this design). Sentences were randomized. Each of the stimuli (the 40 words in Table 1 in two sentence stress conditions) was read once by nine male and nine female native German subjects with no noticeable dialectal features or speech disor-

7

The glosses are as follows (nonce formations indicated). From top to bottom in the column "stressed after /d/": crocodiles, Mandela, Vandals, idols, modules, grenadilla, models, medals, stabbed, Abdullah. From top to bottom in "stressed after /t/": valves, adj. of clientel, capital (adj.), catholic (adj.), fussing, Antilles, cartels, metals, Ayatollah, casket. From top to bottom in "unstressed after /d/": specialist on crocodiles (nonce), supporters of Mandela (nonce), vandalism, mandoline(s), modulator, collector of grenadillas (nonce), modeled, collectors of medals (nonce), someone who stabs somebody (nonce and only weakly acceptable), supporter of Abdulah (nonce). From top to bottom in "unstressed after /t/": fan, someone looking after clients (nonce), capitalist, catholics, congratulate, specialist on the Antilles (nonce), run a cartel (nonce), specialist on metals (nonce), supporters of the Ayatollah (nonce), collector(s) of caskets (nonce and only weakly acceptable).

Spectral balance in German and its relevance for syllable cut theory

161

ders. Recordings were made on DAT tape in a sound-treated room. The data from the tape were transferred to an SGI workstation and analyzed with the speech signal analysis software ESPS/waves+ from Entropie. 8

For the vowel in each of the 1400 target word tokens a number of measurements were made: fundamental frequency (F0), the amplitude of the first harmonic (= the fundamental, HI) and the second harmonic (H2), the amplitudes of the first three formants (Al, A2, A3), and the frequency of the first three formants (Fl, F2, F3). For that purpose a 50 ms Hamming window was centered at the vowel center and a DFT spectrum as well as an LPC spectrum were created. The amplitude measurements were made on the basis of the DFT spectrum (peak amplitude of first and second harmonic for the HI and H2 measurements; peak amplitude of harmonic closest in frequency to the respective formant for A l , A2, A3) and the formant frequency measurements on the basis of the LPC spectrum. Further procedural details are as in Claßen et al. (1998). The measurements are illustrated in Fig. 1. The acoustic parameters F0, F l , F2, and F3 were used as dependent variables in the experiment without any further processing. The other parameters were made subject to further calculations. Firstly, the amplitude of the second harmonic and of the first three 8

The target words in Table 1 (beyond those mentioned in earlier studies) and the sentences they were embedded in were selected by Katrin Schneider, and all the measurements were performed by her as well (see Schneider 2001). The measurement process was facilitated by a semi-automatic procedure designed by the author, implemented by Wolfgang Wokurek, and tested by Katrin Schneider. Thanks to Wolfgang Wokurek for his contribution. The calculations presented in this section were selected and carried out by the author (cf. Jessen & Roux, to appear). Statistical analysis was performed by the author with special attention to the smooth/abrupt vowel opposition. An independent statistical analysis with a broader range of independent variables and the analysis of significant interactions is found in Schneider (2001).

162

Michael Jessen

formants were subtracted from the amplitude of the first harmonic. This yields the dependent variables H1-H2, H I - A l , H1-A2, and H1-A3 (all in dB). Secondly, following the procedures introduced by Hanson (1997) and Sluijter (1995) (both in collaboration with K. N. Stevens) a number of normalization procedures were applied in order to achieve better comparability across speakers and across vowel types, and in order to achieve a better estimate of pure source characteristics, i.e., of laryngeal information without influence from supralaryngeal differences. Formulae (1) to (4) show the normalization of HI and H2 into H I * and H2*. They were subtracted from each other to yield the dependent variable Hl*H2*.

(1) (2) (3) (4)

Δ Hi = 20 LOG ίο (Έχ 2 / ((Fi+ F 0 ) (Fi- F 0 ))) Δ H 2 = 20 L O G i o (Fl 2 / ((Fi+2 F 0 ) (Fi-2 F 0 ))) Ηι*=Ηι-ΔΗι H 2 * = Η 2 -Δ H 2

No correction is necessary for A l , which was subtracted from H j * , resulting in H l * - A l . A2 and A3 were corrected according to (5) and (6). Formula (5) is from Sluijter (1995:108) and formula (6) from Hanson (1997:480). (5)

Δ A 2 = 40 LOG i o ( F i n / F l ) - 40 LOGio ( V ( F 2 N 2 - F i N 2 ) / V (F 2 2 - Fl 2 ))

(6)

Δ A 3 = 2 0 L O G i o C((1-(F 3 / F1) 2 ) ( 1 - ( F 3 / F 2 ) 2 ) ) / ( ( l - ( F 3 / F i N ) 2 ) ( l - ( F 3 / F 2 N ) 2 ) ) )

Fin F 2 n stand for the 'neutral formants'. These are average frequency values of the first two formants, separately for each of the five vowel types, but pooled across speakers and all other linguistic variables. In Claßen et al. (1998) we deviated from (5) in replacing F 2 n by F 2 . This is presented here as (5'). (5')

Δ A 2 = 40 LOG 10 (FIN / F l ) - 40 LOG10 (V (F2 2 - F i n 2 ) / V (F 2 2 - F1 2 ))

Sluijter (1995) is not explicit as to whether Δ A 2 and Δ A 3 should be added to or subtracted from A2 and A3 in calculating A2* and A3*, respectively. Based on a personal communication we decided in Claßen et al. (1998) to use the subtraction method. Hanson (1997) uses the addition for Δ A 3 , but she does not use the parameter A 2 at all. In order to examine those different options empirically both (7) and (7') and both (8) and (8') were used here. (7) (7') (8) (8')

A 2 *= Α 2 + Δ A 2 A 2 *= Α 2 -Δ A 2 A 3 *= Α 3 +Δ A 3 Α3*=Α3-ΔΑ3

Hl*-A3* was calculated both on the basis of (8) and (8'). The depending variable based on (8) will be called H1*-A3*A, and the one based on (8') will be called H1*-A3*B. For Hl*A2* four possibilities exist due to the alternative between (5) and (5'). To yield the dependent variable called H1*-A2*A, (5) and (7) were used, to yield H1*-A2*B (5) and (7') were used, for the calculation of H1*-A2*C (5') and (7'), and for H1*-A2*D (5') and (7) were used.

163

Spectral balance in German and its relevance for syllable cut theory

One-factor ANOVAS were calculated, with the distinction smooth and abrupt cut as the independent variable and the different acoustic parameters as the dependent variables. For statistical analysis (including the means and standard deviations reported in Tables 2, 3, below) data for the 18 subjects, for the two sentence stress conditions, and for the distinction between a tense and a lax preceding stop were pooled together, but statistics were run separately for the two word stress conditions (see top row in Table 1) and the five different vowel types. 'Vowel type' is used here to refer to both smoothly (smo) and abruptly (abr) cut vowels at the same (commonly assumed) location in the phonological vowel system. The statistical results are presented here in an abbreviated format, indicating levels of significance only (p < 0.05 in boldface, ρ < 0.01 in boldface and italics). Table 2: Acoustic results for stressed position A-Vowels FO Fl F2 F3 H1-H2 Hl*-H2* Hl-Al H1*-A1 H1-A2 H1*-A2*A H1*-A2*B H1*-A2*C H1*-A2*D HI-A3 HI*-A3* A H1*-A3*B

E-Vowels

I-Vowels

O-Vowels

U-Vowels

175 (54) 166(49) 384 (89) 503(115) 959 (354) 1263 (237) 2598 (347) 2576 (292)

184 (58) 191 (59) 265 (90) 374 (114) 7003 (385) 1218 (300) 2577 (382) 2522 (296)

smo abr smo abr smo abr smo abr

158(48) 166 (50) 753 (202) 689(186) 1396 (186) 1541 (207) 2570(264) 2584(275)

170 (53) 166 (51) 372 (75) 504(101) 2226 (280) 1861 (223) 2843 (289) 2741 (324)

192 (59) 180(55) 253(51) 371 (94) 2331 (277) 2013 (251) 3120 (308) 2702 (289)

smo abr smo abr smo abr smo abr

3.8(3.8) 3.5 (5.4) 5.0 (4.2) 5.4 (6.0) -1.5(5.5) -0.3 (8.6) -2.1 (5.5) -1.5(7.1)

-7.6(3.7) 1.6 (6.0) 24.7 (22.0) 8.9 (12.3) -1.1 (3.8) -1.2 (6.9) -3.2 (3.9) -2.4 (7.0)

6.8 (9.3) 0.7(5.3) 33.1 (8.9) 21.8(19.7) -0.8 (3.7) 0.4 (4.2) -4.4 (5.4) -1.5 (4.6)

-1.7(3.1) 1.9 (4.5) 16.8 (19.7) 6.3 (9.7) -1.5(3.5) -1,3 (6.6) -3.7 (3.7) -2.6 (6.9)

4.9(8.5) 1.2 (7.1) 26.1 (21.3) 31.1 (16.9) 0.1 (5.9) -0.1 (5.8) -2.6 (8.0) -2.3(6.4)

smo abr smo abr smo abr smo abr smo abr

7.8 (9.5) 8.9 (9.5) 14.2(10.3) 11.0(10.2) 0.4 (11.2) 5.6(11.2) 2.8(11.3) 6.3 (10.9) 11.7(11.3) 10.3(11.3)

21.7(1.9) 15.7(7.3) 15.8 (9.7) 19.5 (8.3) 23.5 (7.2) 9.2 (7.5) 21.4(7.1) 10.3(1.6) 17.9(10.3) 18.4 (8.4)

29.1 (8.5) 25.5 (9.7) 21.7 (9.8) 27.2(10.7) 26.7 (6.6) 17.9 (9.2) 27.0 (6.8) 19.3 (8.6) 21.4(10.0) 25.8(11.5)

77.7(11.7) 77.0 (9.5) 20.1 (9.6) 14.3 (9.3) 9.5 (14.4) 4.3(11.8) 16.8 (11.4) 5.0 (10.3) 12.9(12.9) 13.6(10.0)

26.6 (13.0) 20.8 (10.2) 25.1 (11.7) 21.9(10.8) 16.0(15.6) 12.1 (9.2) 22.5 (13.8) 14.0 (9.2) 18.6(12.8) 19.9(11.7)

smo abr smo abr smo abr

23.3(10.5) 20.8 (7.9) 23.4(12.9) 20.9(11.5) 22.4(12.6) 19.5(10.1)

24.9 (6.9) 22.2 (8.0) 26.1(11.9) 22.2(10.5) 19.7(9.3) 19.6(10.5)

31.5 (9.4) 28.0 (7.6) 22.2 (9.7) 23.8(13.8) 28.9(10.2) 26.9(11.4)

42.2 (9.6) 29.4 (8.0) 31.4(13.9) 31.0(10.3) 4 M (11.1) 24.7 (9.6)

49.3 (9.9) 37.8 (9.0) 34.2 (13.4) 35.8(12.1) 57.7(13.7) 35.0(12.5)

Michael

164

Jessen

Table 3: Acoustic results for unstressed position FO Fl F2 F3 H1-H2 Hl*-H2* Hl-Al H1*-A1 H1-A2 H1*-A2*A H1*-A2*B H1*-A2*C H1*-A2*D HI-A3 H1*-A3*A H1*-A3*B

A-Vowels

E-Vowels

I-Vowels

O-Vowels

U-Vowels

smo abr smo abr smo abr smo abr

163 (53) 168 (52) 496(125) 524(139) 1624(195) 1677 (219) 2676 (268) 2659 (312)

173 (55) 179 (54) 372 (96) 363 (93) 1913(241) 1855 (262) 2738 (281) 2715 (269)

176 (55) 172 (54) 291 (101) 340 (93) 2156(312) 2083 (309) 2750 (288) 2734(252)

175(53) 169 (52) 353 (97) 405 (83) 1463 (251) 1406 (212) 2593 (325) 2640 (331)

172 (51) 177 (53) 342(104) 324(110) 1397(271) 1428 (251) 2624 (288) 2550 (306)

smo abr smo abr smo abr smo abr

4.0 (7.2) 3.7 (5.6) 10.4(14.4) 9.8(12.1) 2.5 (5.9) 1.2 (5.4) 1.6(6.1) 0.2 (5.5)

2.1 (5.3) 3.2 (9.1) 23.4(18.5) 21.7(18.1) 2.2 (5.6) 2.7 (9.3) 0.4 (6.0) 1.2(10.5)

3.1(5.1) 3.4 (5.9) 26.2(18.1) 22.9(18.4) 0.6 (2.6) 2.3 (4.8) -1.1 (3.4) 0.7 (5.1)

3.8(8.1) 2.8 (6.3) 21.9(20.6) 17.2(16.8) 2.5 (7.2) 1.9 (5.9) 0.9 (7.9) 0.3 (6.1)

3.0 (5.9) 5.2 (9.1) 26.4 (20.4) 27.1 (14.0) 1.7 (5.5) 1.7 (5.4) 0.2 (6.3) 0.1 (6.3)

smo abr smo abr smo abr smo abr smo abr

18.9(8.0) 19.2(10.0) 13.8(9.1) 13.3 (9.4) 22.4 (9.2) 21.5(10.9) 21.9 (9.1) 20.2(10.2) 14.3 (8.9) 14.5(10.0)

24.5 (8.9) 25.3(12.2) 21.4(10.0) 22.2(13.1) 22.4 (9.2) 21.5(11.4) 23.1 (8.8) 23.1 (10.7) 20.7(10.7) 20.7(14.0)

29.7 (9.8) 27.3 (7.8) 26.9(11.1) 27.3 (8.6) 24.7 (9.2) 20.9 (7.8) 25.4 (9.1) 22.1 (7.7) 26.2 (12.2) 26.0 (9.1)

26.9 (11.2) 20.7(11.4) 19.4(11.2) 16.7(10.2) 27.5(11.1) 79.5(11.9) 25.5(9.7) 77.9(10.8) 21.2(12,6) 18.2(10.9)

29.7(12.3) 29.0(10.0) 27.2(13.7) 24.5 (11.0) 25.1 (14.0) 24.6 (8.5) 24.1 (12.5) 23.3 (8.2) 28.2(14.6) 25.8(12.2)

smo abr smo abr smo abr

28.6(8.8) 26.3 (8.8) 24.4(10.5) 23.9(10.9) 30.1 (9.3) 25.8 (9.3)

30.2 (8.4) 30.2(11.7) 24.7(12.4) 23.1 (16.1) 30.1 (9.8) 31.9(13.4)

31.9 (7.9) 30.7 (7.9) 25.7(14.3) 25.4(12.9) 29.5(12.5) 29.2(10.5)

35.4 (9.4) 32.9 (9.2) 33.3(13.4) 33.5(11.1) 32.4 (9.3) 29.2 (9.9)

38.2 (9.8) 38.3 (8.2) 39.0(12.8) 38.6(13.3) 32.2(11.7) 32.4 (8.9)

Table 2 presents the results for vowels with smooth vs. abrupt syllable cut in stressed position and Table 3 for those in unstressed position. In each of the tables, the first column indicates the dependent variable and the second the distinction between smoothly (tense) and abruptly (lax) cut vowels. The next five columns contain the results, separately for each of the five vowel types indicated in the top line. The values for FO and Fl, 2, 3 are in Hertz, all the others in dB. Each of the data cells contains the means and standard deviations (the latter in parentheses) for smooth (top row in each cell) and abrupt (bottom in each cell) syllable cut. To obtain these means and standard deviations data were pooled across subjects, sentence stress, and type of preceding stop. All differences that are not highlighted

Spectral balance in German and its relevance for syllable cut theory

165

typographically are at ρ > 0.05. Shading is used to draw attention to all those differences that are both significant and run in the expected direction. With respect to all HI-based (or HI "-based) variables this means that higher values should be obtained for vowels with smooth than with abrupt cut. Notice that in a few cases there are significant differences in which the abruptly cut and not the smoothly cut vowel shows the higher values in the H l based parameters. To facilitate interpretation the tables are divided into four sections by double lines. The first section includes F0 and the formant frequencies. These constitute important background information and enable comparison with other studies on German vowels in the literature. The second section contains the results for normalized and non-normalized H l H2 and H l - A l . High values of these variables are mentioned in the literature as breathy voice correlates, but it turns out that they are of very limited use as correlates of smoothly vs. abruptly cut vowels in German. Most important are the results in the third and fourth section. The third section contains the results for H1-A2 and its normalizations, the last section the results for HI-A3 and its normalizations. We begin with the results in stressed position, shown in Table 2. Starting with the more traditional acoustic variables, we notice that there are no significant differences between smoothly vs. abruptly cut vowels with respect to fundamental frequency. This result concurs with Fischer-J0rgensen (1990). The results for the formant frequencies F l , F2, and F3 are also consistent with the literature (including Jorgensen 19696; Ramers 1988; Jongman et al. 1989). It is unusual, though, that smoothly cut U-vowels have higher average F2 than smoothly cut O-vowels; this result might be due to the difficulty of separating F l and F2 in the measurement of U-vowels, especially through LPC analysis. Non-normalized H1-H2 is significantly different for all but the smooth vs. abrupt Avowels, but only for the I- and U-vowels is the difference in the expected direction (i.e., with higher values in smooth vowels, reflecting some breathy/slack voice). More consistent results are found for the normalized parameter Hl*-H2*. But notice that abrupt and especially smooth vowels sometimes have much higher values than in the non-normalized results and that the standard deviations are sometimes very high as well, which is problematic. To understand these results it needs to be mentioned that below certain Fl values the normalization cannot be applied or leads to inappropriate results. 9 The results for Hl*-H2* therefore have to be interpreted with caution. But even without normalization, H1-H2 is not a reliable smooth/abrupt correlate. Even less interesting is the status of H l - A l , both in its raw and its normalized version. There is usually no significant difference, and the one that exists goes against the expected direction. Non-normalized H1-A2 turns out to be a very reliable smooth/abrupt correlate. For all but the Α-vowels smooth and abrupt vowels differ significantly, and in all cases the expectation is met that H1-A2 is higher in smooth than abrupt vowels; i.e., abrupt vowels have more energy at the frequency level of the second formant. It is the third normalization (HI *A2*C) which provides the closest match to the non-normalized version. 10 The results for

9

10

The discrepancy between the HI *-H2* results here and in Claßen et al. (1998) results from different procedures of token exclusion in the case of values that are of doubtful validity. Whether this is good or rather shows that the normalization was incomplete needs to be evaluated in a more methodology-oriented study. Notice also that the fourth normalization (H1*-A3*D) shows no significant effects at all. Considering that even the EGG results (below), where only la-

Michael

166

Jessen

Hl-A3 and its normalizations are similar to the ones for H1-A2. Fig. 2 illustrates the difference between a smooth and an abrupt stressed O-vowel. In the particular case illustrated in Fig. 2, the H1-A3 difference between smooth and abrupt syllable cut is more pronounced than the H1-A2 difference, but there are many cases where this is different.

Turning to the results for unstressed position in Table 3, it can be seen that there are significant formant frequency differences only for some vowel types and only for F1. In agreement with Jessen et al. (1995) and Claßen et al. (1998), this shows that vowel quality differences between smooth and abrupt vowels in unstressed position are possible - and are usually more robust statistically than vowel quantity differences - but that there is also some reduction of quality differences in unstressed position at work (cf. Ramers 1988:78-106; Becker 1998:82-99 for discussion). When looking at the results for normalized and non-normalized H1-A2 and HI-A3 it can be seen that this reduction of vowel quality differences also effects the spectral balance measurements, which are only occasionally significant. It is surprising though, that unstressed Α-vowels show a significant difference in HI*-A3*B which runs in the expected direction.

3.2

Electroglottographic study

The speech data analyzed in Jessen et al. (1995) and Claßen et al. (1998) were recorded in conjunction with the electroglottographic signal (2-channel recordings). These EGG data were analyzed in detail by Marasek (1997). In Jessen & Marasek (1997) a condensed summary of the effects of word stress and the smooth/abrupt vowel opposition was presented. The procedures of the EGG analysis and the results for the vowel opposition that are presented in Jessen & Marasek (1997) are repeated here briefly and will be discussed within the context of this paper. ryngeal information is contained, show some significant effects, the fourth normalization is probably too restrictive, since it seems to cancel out not only supralaryngeal but also laryngeal informa-

Spectral balance in German and its relevance for syllable cut theory

167

Every period of the EGG signal was segmented according to the temporal intervals (a-f) and the temporal instances (tx) illustrated in Fig. 3 (see Marasek 1997 for details). Notice that in EGG signals high values correspond to vocal fold closure and low values to vocal fold opening.

Τ Fig. 3: Description of the EGG signal (from Marasek 1997:86)

The maximum-contact phase b was defined to lie above 90% of peak-to-peak amplitude, while the no-contact phase e was defined to lie below 10% of peak-to-peak amplitude. The beginning of the closing phase to corresponds to the steepest grow of the EGG signal. The most reliable way of determining the opening instant tc was to define a straight line connecting to of successive periods and to define tc as the intersection between this line and the EGG signal. The dependent variables of the EGG analysis are presented in (9) to (12). (9) (10) (11) (12)

Open quotient I: 100 ((tf - t c ) / T) Open quotient II: 100 ((te - td) / T) Closing slope: slope between to and t a Duration of closing: 100 ((t a - to) / T)

The values of the dependent variables in (9) to (12) that are reported below were obtained by normalizing across speakers (value of 100 as standard) and by extracting the mean values across the entire duration of each target vowel. Statistical testing was performed with ttests instead of one-factor ANOVAS but otherwise the statistical procedures and the way the results are presented (Tables 4 and 5) are the same as in section 3.1. Further details on the experiment (speakers, stimuli, etc.) on which the EGG data are based are presented in Claßen et al. (1998). The stimuli are similar or identical to those presented in the "after /t/" columns of Table 1. The double lines in Tables 4 and 5 divide the less promising from the more promising smooth/ abrupt correlates. The general format of these tables is the same as in Tables 2 and 3.

Michael Jessen

168

According to Tables 4 and 5 smooth and abrupt vowels do not exhibit a reliable dif-ference in any of the two versions of the open quotient. Since H1-H2 is assumed to be the most direct correlate of the open quotient (see Klatt & Klatt 1990) this result is consistent with the lack of reliable H1-H2 differences that was found in the acoustic study. The results for closing slope and closing duration, on the other hand, show quite consistent smooth/abrupt differences. The EGG measurements tend to show a longer duration of closing in smooth than in abrupt vowels and a smaller closing slope. When considering both the direction of the effect and the significance patterns, closing duration is a slightly better smooth/abrupt correlate than closing slope. The significant difference in closing duration between smooth and abrupt unstressed Α-vowels is interesting, especially since there was also a significant difference in the second normalization of HI-A3 for unstressed A-vowels. More research is necessary to determine the stability and cause of this effect. Table 4: Electroglottographic results for stressed position A-Vowels

E-Vowels

I-Vowels

O-Vowels

U-Vowels

Open quotient 1 Open quotient II

smooth abrupt smooth abrupt

100 (4) 102 (2) 94(15) 94(14)

105 (7) 99 (5) 103(18) 108 (20)

102 (7) 102 (3) 106(18) 107 (21)

98 (4) 102 (8) 104 (9) 102 (7)

99 (8) 102 (6) 107(19) 100(17)

Closing slope Duration of closing

smooth abrupt smooth abrupt

81 (18) 95(15) 84(13) 84(14)

101 (14) 124 (46) 94 (7) 92 (22)

94 (8)

105 (24) 101 (13) 111(15) 94 (14)

125(51) 125 (32) 114(20) 102(10)

/05(10) 108(12) 105 (11)

Table 5: Electroglottographic results for unstressed position A-Vowels

E-Vowels

I-Vowels

O-Vowels

U-Vowels

Open quotient I Open quotient II

smooth abrupt smooth abrupt

98 (6) 100 (3) 99(11) 92(11)

95 (6) 99(5) 95(13) 102(15)

96 (5) 93 (8) 94(14) 91 (13)

98 (5) 96(11) 96(10) 96 (7)

96 (7) 99(13) 95 (13) 94(17)

Closing slope Duration of closing

smooth abrupt smooth abrupt

91 (28) 87(19) 102 (15) «7(15)

91(9) 100(13) 97 (5) 90(10)

84(10) 87(15) 111(16) 107(18)

90 (7) 101 (11)

96 (27) 103 (28) 110(20) 107 (24)

99 (8) 90 (8)

These results are consistent with the hypothesis of the relationships between speech physiology and speech acoustics presented in Sluijter (1995:105) and Sluijter et al. (1995). According to them, decreased glottal pulse skewness (= slope) and increased duration of the closing portion of the glottal pulse should lead to increased Hl*-A2* and Hl*-A3* values.

Spectral balance in German and its relevance for syllable cut theory 3.3

169

Discussion

The results of the acoustic study, presented in 3.1, have shown that smoothly cut (tense) and abruptly cut (lax) vowels differ in spectral balance: smooth vowels (excluding A-vowels) usually show higher values of H1-A2 and HI-A3 (or their normalized versions) than abrupt vowels. This shows that - as a clear tendency - abrupt vowels have relatively more energy in the frequencies of the second and third formant than smooth vowels. The electroglottographic results of Marasek, presented in 3.2, show that abrupt vowels tend to be produced with greater slope and with shorter duration of the closing portion of the glottal cycle than smooth vowels. That a shorter and steeper closing phase should lead to increased amplitudes in the area of F2 and F3 corresponds to current speech production models (Sluijter et al. 1995). These acoustic results correspond to findings and expectations in the literature that smoothly cut vowels in Germanic languages and [+ATR] vowels in African languages tend to be produced with more breathy or slack voice and its acoustic consequences than abruptly cut and [-ATR] vowels (see section 2.2). But although H1-A2 and H1-A3 (with or without further correction) was higher in smooth than abrupt vowels, which is expected of breathy/slack vowels (see Hanson 1997; Jessen & Roux, to appear), the parameter H1-H2 did not distinguish consistently between smooth and abrupt vowels in German. These results raise the following general question: are their any laryngeal correlates of the distinction between smoothly (tense) and abruptly (lax) cut vowels in German (cf. also Ramers 1988:143-147 on this issue)? It is clear that there are supralaryngea/ correlates, such as the known tongue body height and front-back distinctions, which are reflected in the frequencies of the first and second formant. But it is less clear whether the amplitudes of these formants in relation to the amplitude of the first harmonic are the result of laryngeal activity. To discuss this issue the decision tree in Fig. 4 will be of help. The first question in the decision tree is whether there are any spectral balance differences at all between smooth and abrupt vowels in German. The acoustic studies presented in Claßen et al. (1998) and in section 3.1 above show that significant differences in H1-A2 or HI-A3 are indeed very common. This is the case not only for the non-normalized results (that alone would be sufficient for a positive answer), but also for the normalized results, although in the latter case the number of significant effects is smaller and occasionally in the wrong direction. Hence, there is sufficient evidence to answer the first question in Fig. 4 with a yes. The next question in Fig. 4 addresses the issue of whether spectral balance differences between smooth and abrupt vowels, to the extent that they occur, reflect a difference on the level of the larynx. If the results reflected a difference between breathy and modal voice, as it is suggested in the literature, a difference on the laryngeal level would be evident (cf. Laver 1980 for laryngeal and other voice qualities). But given the absence of turbulence noise in German smooth vowels, breathiness levels can only be weak at best and the most that can be found is some slight degree of slack voice (section 2.2). Could differences in H1-A2 or H I - A 3 between smooth and abrupt vowels then be the result of supralaryngeal gestures only? This possibility does in fact exist. According to well-known principles of the acoustic theory of speech production, an increase in the frequency of the first formant leads to an increase in the amplitude of this formant plus the amplitudes of higher formants (see Allen et al. 1987:146f.). Since abrupt vowels have higher F l than smooth vowels these

170

Michael Jessen

higher F l values can at least partially explain the lower H1-A2 and HI-A3 values (indicating relatively high amplitudes of the second and third formant) of abrupt compared to smooth vowels. But Halle & Stevens (1969), who discuss this issue, claim that the formant amplitude differences that result solely from differences in F l are smaller than the actually observed amplitude differences (spectral balance) between smooth and abrupt vowels in English. The same could be the case for German.

Fig. 4: Decision tree of explanations for spectral balance differences

The very reason for applying the corrections shown in (1) to (8) was to eliminate the influence of F l frequency (and related effects) on the formant amplitudes. The fact that even after this correction some significant differences in H1-A2 and HI-A3 between smooth and abrupt vowels remain is evidence that beside the influence of Fl (which results from supralaryngeal configurations) there are some genuine laryngeal differences at work. This is supported by the electroglottographic results presented in 3.2. Notice that the method of electroglottography detects purely laryngeal activity. (In a spectrum of the electroglottographic signal all the formants are eliminated - similar to the spectrum of an inversefiltered signal.) According to the results presented in section 3.2 smooth and abrupt vowels differ electroglottographically in the expected direction. For example, closing duration was systematically shorter in abrupt than in smooth vowels (excluding stressed Α-vowels) according to Tables 4, 5. However, this difference was significant only in a few cases, whereas in the corresponding acoustic study there were more significant differences for the parameters Hl*-A2* and Hl*-A3* (see Table 4 in Claßen et al. 1998). The acoustic effect is therefore statistically more robust than the purely laryngeal contribution detected with

Spectral balance in German and its relevance for syllable cut theory

171

EGG. This could mean that the normalization procedure was not entirely successful in correcting for all supralaryngeal effects. But the fact that in the present study non-normalized H1-A2 and HI-A3 were more often significant than the corresponding normalized values suggests that the normalizations did in fact lead to at least some reduction of supralaryngeal influence. To conclude so far, the evidence discussed here supports the view that there are indeed differences on the laryngeal level between smooth and abrupt vowels. The final question in the decision tree, whether existing laryngeal differences are actively controlled by the speaker, leaves two possibilities. On the one hand, it is possible that the laryngeal differences between smooth and abrupt vowels are actively controlled. On the other hand, the laryngeal differences might be a secondary effect of other (supralaryngeal) gestures that are more directly involved in the implementation of the smooth/abrupt vowel distinction. Active involvement of the larynx would be consistent with the perceptual explanation mentioned in section 2.2. According to this explanation the speaker is aware of the fact that high values of H1-H2, H l - A l / 2 / 3 on the one hand and low F l values on the other hand are perceptually similar (low frequency dominance). In order to create maximal enhancement of the distinction between vowels with more (smooth) and less (abrupt) low frequency dominance, the supralaryngeal gestures that cause variations in first formant frequency and the laryngeal gestures that cause variations in the amplitude parameters should be manipulated together and to about the same extent. This would predict that the statistical robustness of differences in F l and differences in the amplitude parameters are basically the same. Although according to Table 2 non-normalized H1-A2/3 in stressed position is as often significant as F l , H1-A2/3 is not always at ρ < 0.001, and for unstressed position (Table 3) F l is slightly more robust statistically than H1-A2/3. When taking into account the results for normalized H1-A2/3 this asymmetry in statistical robustness between F l and spectral tilt becomes even stronger. This limited stability of the laryngeal contribution suggests that the speaker does not actively implement the laryngeal effects." There is another argument against active laryngeal control in the implementation of smooth vs. abrupt vowels in German. As is well known, there are no stable formant frequency differences between the smooth and abrupt Α-vowels (see Jergensen 19696; Ramers 1988). If laryngeal voice quality were actively controlled, the A-vowels would be the most important candidate for a strong laryngeal difference because that could compensate for the lack of a reliable difference in (especially) F l . Furthermore, A-vowels are the vowel types that are most frequently used in voice quality studies because their first harmonic and their first formant are maximally separated (recall from 3.1 that normalizations are only reliable in vowels with relatively high Fl). It is possible listeners can detect voice quality differences better in lower than higher vowels. But contrary to these expectations, H1-A2 and HI-A3 (with or without normalizations) were no more reliable as smooth/abrupt correlates than Fl or the frequencies of other formants in the A-vowels (with the interesting exception of the results for unstressed position).

" What complicates matters is that a reduction of Fl also leads to a certain amount of H1-A2/3 increase. The listener might not be able to discriminate the supralaryngeal from the laryngeal influence when perceiving an increased spectral tilt, in which case it is the non-normalized and not the normalized spectral tilt values that are relevant for the analysis of the perception of the smooth/abrupt difference. But we saw that even the non-normalized values are not as robust as Fl.

172

Michael Jessen

From these considerations it follows that the question in Fig. 4 as to whether there is active laryngeal control in the implementation of smooth vs. abrupt vowels in German should probably be answered with a no. In that case the observed laryngeal differences must be the by-product of other gestures. In 2.2 the possibility was discussed that tongue root advancement and perhaps larynx lowering in smooth as opposed to abrupt vowels could be responsible for differences along the breathy-modal voice quality continuum.12 X-ray images of smooth vs. abrupt stressed vowels in English and German show that there is a stronger tongue root advancement/retraction difference among U-vowels than I-vowels (Ladefoged & Maddieson 1996:303). As far as the acoustic parameter H1-A3 and the EGG parameter closing duration (though not closing slope) are concerned, there are slightly stronger smooth/abrupt differences for stressed U- than I-vowels. This result is consistent with the larger ATR differences in U- than I-vowels, under the assumption that the laryngeal parameters are influenced by tongue root position. What holds for U-vowels can also be said of O-vowels. According to Valaczkai (1998) O-vowels have a clear ATR difference, and they show clear differences in terms of H1-A2/3 and closing duration in our study.13 Furthermore, notice that U-vowels are rounded and I-vowels are unrounded. Wood (1992), based on the x-ray data from a number of vowel systems, reports that larynx lowering is positively correlated with lip rounding, such that smooth/tense (back) rounded vowels have more lip rounding and more larynx lowering than their abrupt/lax cognates. Given the influence of larynx lowering on the voice source, which was addressed in 2.2, differences in larynx lowering between smooth and abrupt vowels could be another explanation for the slightly stronger smooth/abrupt differences in German back rounded than front unrounded vowels. Halle & Stevens (1969) mention another possible source of passively created breathy voice. According to Stevens (1998:297f.), the more constricted vocal tract in smooth (tense) vowels could influence the voice source by lengthening the open phase of the glottal cycle, which could be responsible for a reduction of higher frequency amplitude. Another important effect of supralaryngeal constriction on the voice source is an increase in H1-H2 (cf. Bickley & Stevens 1987). H1-H2 is usually understood as the acoustic correlate of the open quotient (see Klatt & Klatt 1990). A high open quotient means that the open phase of the period is relatively long in relation to the duration of the entire period, and this manifests itself acoustically in high H1-H2 values. Observe in Table 2 that the smooth/abrupt difference in non-normalized H1-H2 is by far greater (and in the expected direction) for the high I- and U-vowels than for the non-high vowels in the EGG study, however, corresponding open quotient differences were found only for OQ II in U-vowels. The same effect can be found in the normalized H1-H2 values in Table 4a from Claßen et al. (1998), though not for 12

13

So far in this paper the term 'laryngeal' has been used to address larynx-internal adjustments (by intrinsic laryngeal muscles), such as those leading to breathy voice (cf. Laver 1980). Larynx lowering is also a laryngeal gesture in the strict interpretation of the term, but it is implemented externally (by the extrinsic laryngeal muscles). When arguing against active laryngeal control in this paper this is meant to apply to larynx-internal adjustments. It is a separate issue whether larynx lowering is actively controlled in the implementation of the smooth/abrupt vowel opposition. When compared with Valaczkai (1998), the classical x-ray study by Wängler (1968) however shows quite a substantial ATR difference between smooth and abrupt I-vowels. More research is necessary on the vocal tract configurations of German vowels in order to resolve this discrepancy between Wängler's and Valaczkai's data.

Spectral balance in German and its relevance for syllable cut theory

173

the normalized values in the present study (recall that normalization of H1-H2 is problematic). It is possible that the influence of vocal tract constriction on the voice source only applies to sounds that have a narrow constriction (cf. Bickley & Stevens 1987). In other words, the difference between more and less vocal tract constriction in smooth vs. abrupt vowels, respectively, influences the voice source only if the vowel already has a narrow constriction, i.e., in high/closed vowels. This is supported by the fact that the strong asymmetry in the H1-H2 differences between high and non-high vowels only applies to stressed, not to unstressed vowels (see Claßen et al. 1998, Table 4b as well as Table 3 above). Stressed vowels are known to have a more peripheral position in the vowel space than unstressed vowels (see Jessen et al. 1995 for German). Hence, high smooth stressed vowels have a tighter oral constriction than high smooth unstressed vowels, and it is probably only the high smooth stressed vowels that are sufficiently constricted to influence the voice source. All this suggests once more that the laryngeal differences between smooth and abrupt vowels are a secondary effect of supralaryngeal configurations. If the laryngeal differences were controlled actively there should be no reason why some vowel types are affected more than others. So far we may conclude that there is acoustic and electroglottographic evidence that smooth and abrupt vowels differ on the laryngeal level. Smooth vowels show properties of breathy or slack voice quality, as opposed to the more modal phonation type found in abrupt vowels. As modal voice usually has more energy in the spectral range of the second and third formant than breathy or slack voice, it is justified to classify the former voice quality, and hence abrupt vowels, as 'louder'. Although there is clear evidence for this loudness difference between smooth and abrupt vowels it is likely that this difference, although at least partially created on the laryngeal level, is a by-product of other than laryngeal gestures and not actively controlled by the speaker. One more point of particular importance for syllable cut theory needs to be emphasized. In accordance with previous phonetic studies on the German vowel system we have found that usually smooth and abrupt Α-vowels do not differ significantly in formant structure nor in terms of the voice quality parameters that were specifically emphasized in this paper. (Exceptions occur with F2 in stressed position and with one of the two different calculations of the parameter HI*-A3* in unstressed position; without further study this latter exception should be interpreted with caution.) With some limitations this confirms the well-known generalization that a quality distinction between smooth and abrupt vowels in terms of a difference between more peripheral vs. more centralized positions in the vowel space, respectively, occurs in all except the low vowels of German (cf. Ramers 1988 for discussion). The spectral balance parameters that were investigated in detail here show the same asymmetry between low and non-low vowels as the formant frequencies. Notice that this kind of asymmetry between low and non-low vowels seems not to occur with respect to the three syllable cut parameters measured by Spiekermann (2000) - or at least not to the same extent. With respect to his parameters "Ε-Zahl" (number of amplitude peaks within the limits of the vowel) and "Ε-Pos" (location of amplitude maximum in percentage of the entire vowel) the smoothly and abruptly cut Α-vowels even show among the greatest differences compared to other vowel pairs (p. 53f.). With respect to Spiekermann's parameter "Ε-Halt" (degree of amplitude reduction between maximum and minimum amplitude within the vowel span), on the other hand, the Α-vowels occur in the lower range as compared to other pairs of smoothly and abruptly cut vowels. It is the Ε-Halt parameter that

174

Michael Jessen

is classified by Spiekermann as the primary syllable cut correlate (p. 58). But if all three parameters are considered together, Α-vowels show as strong an acoustic difference as other pairs of smoothly and abruptly cut vowels. Given that an asymmetry between low and nonlow vowels was found for spectral balance but not or to a reduced extent only for the genuine syllable cut parameters measured by Spiekermann (2000), it seems that spectral balance (in its static aspect) is more a correlate of the feature [tense] or [ATR] than a correlate of syllable cut prosody.

4. Spectral balance dynamics and syllable cut prosody

It has been shown in this paper that there are differences in amplitude between smoothly cut and abruptly cut vowels in German when amplitude is measured in terms of spectral balance. Since in much of the literature amplitude distribution is assumed to be an important correlate of the distinction between smooth and abrupt syllable cut, the phonetic findings presented here are of relevance for syllable cut theory. But syllable cut theory looks beyond static amplitude properties by making claims about dynamic changes of amplitude distribution over time. It has been hypothesized that in vowels with smooth syllable cut the amplitude maximum occurs roughly at the center of the vowel, whereas in vowels with abrupt syllable cut the amplitude maximum occurs either at the very end of the vowel or perhaps even in the following consonant (see Sie vers 1901), but clearly later than at vowel midpoint (see von Essen 1962). These assumed differences are illustrated in Fig. 5. How can this hypothesis be tested with the methods that have been discussed in this paper? The acoustic measures of spectral balance (section 3.1) were based on a spectrum for each vowel with a window of 50 ms duration centered around vowel midpoint. For abrupt vowels such a window covers practically all of the vowel. Hence, all that can be measured is average amplitude (in terms of spectral balance), but not the distribution of amplitude over time. The longer the window the better the resolution in the frequency domain. A 50 ms window enables optimal visibility of the different harmonics in the spectrum, which is

Fig. 5: Hypothesized differences in dynamic amplitude distribution between vowels with smooth and abrupt syllable cut

Spectral balance in German and its relevance for syllable cut theory

175

important for the measurement of H l , H2 and the harmonics closest to F l , F2, F3. A window of half this duration would still allow a good estimate of the amplitudes (especially in female speech, where more periods fit into this temporal frame), but it is more difficult to identify the harmonics, and the measurements will therefore be less accurate than with a larger window. On the other hand, such a window would make measurements at different locations within the vowel possible even in abrupt vowels, which would give us an estimate of amplitude distribution over time. We are therefore confronted with a trade off: the better/worse the temporal resolution of amplitude changes over time the less/more accurate, respectively, the identification of the harmonics and hence the measurement of their amplitude. A preliminary study was carried out in which the dynamic aspects of spectral balance during the vowel were investigated. On a representative subset of the data presented in Claßen et al. (1998) - including pairs of vowels in unstressed position - the measurements presented in section 3.1 (without the normalizations) were carried out with a 25.6 ms Hamming window centered around the early part of the vowel, one around vowel midpoint, and one around the late part of the vowel. The shorter the vowel the more overlap there is between the windows. Fig. 5 shows the expected results if the temporal amplitude distribution assumed by syllable cut theory is correct. Firstly, there should be greater amplitude at the end portion of the vowel in abruptly cut vowels than in smoothly cut vowels. Secondly, the result of subtracting the amplitude of the beginning (B) from that of the end portion (E) of the vowel should yield greater amplitude in the case of the abruptly cut vowels than in the smoothly cut vowels. And finally, the result of subtracting the mid amplitude (M) from that of the end portion of the vowel should yield higher values in the case of the abruptly cut vowels than in the case of the smoothly cut vowels. These hypotheses are summarized in (13) to (15). Recall again that great amplitude in term of spectral balance means small values of H1-A2 or HI-A3, and vice versa. (13) (14) (15)

E a bnipt > E s m o o t h (E-B)abrupt > ( E - B ) s m o o t h (E-M)abrupt > ( E - M ) s m o o t h

The actual results of this study are summarized in (16) - (18). (16) (17) (18)

Eabrupt > E s m o o t h Mabrupt > M s m o o t h Babrupt > B smooth

(16), for example, means that for some of the five vowel types there is a significant effect for either H1-A2 or HI-A3, when measured with a window centered around the end position of the vowel, and the direction is ( H l - A 2 / 3 ) a b r u p t < ( H l - A 2 / 3 ) s m o o t h · The hypothesis in (13) is thus confirmed by (16). But the other two hypotheses, which are based on the subtraction of the amplitudes in different parts of the vowel, are usually not. There are a few

176

Michael Jessen

significant effects for the subtractions, but their direction is unsystematic (once in line with (14)/(15) and twice against it). 14 Instead, there are significant differences for the simple comparison of amplitudes at the beginning, midpoint, and the end of the vowel. Telling from these results it seems that abruptly cut vowels are generally louder than smoothly cut vowels, no matter in which part of the vowel the comparison is made. But there is no evidence that amplitude is distributed differently over time in abruptly cut vowels and in smoothly cut vowels. To be sure, more research is necessary which needs to be based on a larger corpus. It would also be interesting to experiment with smaller windows than the 25.6 ms window used here. Although the harmonics might not be identifiable with such short windows, it is possible that there is still sufficient information to get a reasonable estimate of spectral energy distribution. In that case there would be much better temporal resolution, and the assumptions of syllable cut theory could be tested in a more appropriate fashion. 15 In conclusion, spectral balance was found to play a role in the distinction between smoothly and abruptly cut vowels, when investigated from a static point of view. This result should be seen as an invitation to take a closer look at the dynamic side of the issue. This also requires some methodological work, in which different ways of measuring spectral balance are systematically compared (cf. Sluijter & van Heuven 1996). Rather than making individual spectra and measuring the parameters it would be preferable to create automatically a spectral balance curve which can be interpreted just as the smoothed overall amplitude curves that are provided with most current speech analysis programs.

References

Allen, Jonathan/M. Sharon Hunnicutt/Dennis Klatt (1987): From Text to Speech: The MITalk system. - Cambridge, etc.: Cambridge University Press. Becker, Thomas (1996): Zur Repräsentation der Vokallänge in der deutschen Standardsprache. - In: Zeitschrift fiir Sprachwissenschaft 15,3-21.

14

15

Spiekermann (2000) has found that contrary to the illustration in Fig. 5 it is the amplitude maximum of the smoothly cut, not the abruptly cut vowels, which tends to occur later in the vowel (see pp. 47-49). If the same should hold for the dynamic spectral balance measurements that were introduced in this section, the direction of the effects hypothesized in (14) to (15) should be inverted (and perhaps (13) as well, which, as shown in (16), is not the case). Although there is a very slight tendency in this direction (two significant cases as against one) the preliminary spectral balance results essentially show no evidence for a difference in the location of the amplitude maximum between smoothly and abruptly cut vowels. It is also necessary to investigate whether some of the effects disappear or new effects emerge when the duration of the vowel is held roughly constant. This could be achieved by comparing vowels in unstressed position; in that case both smoothly and abruptly vowels are about equally short. (However, according to some authors a syllable cut opposition only occurs in stressed position; in that case it is very difficult to control the influence of vowel duration experimentally.) Unstressed vowels were included in this preliminary study, and the results for stressed vowel pairs were qualitatively similar to those for unstressed pairs, although quantitatively, by expectation, fewer significant differences were observed in the latter case.

Spectral balance in German and its relevance for syllable cut theory -

177

(1998): Das Vokalsystem der deutschen Standardsprache. - Frankfurt, etc.: Lang (= Arbeiten zur Sprachanalyse 32). Bickley, Corine A./Kenneth N. Stevens (1987): Effects of a Vocal Tract Constriction on the Glottal Source: Data From Voiced Consonants. - In: T. Baer, C. Sasaki, K.S. Harris (eds.): Laryngeal Function in Phonation and Respiration, 239-253. Boston, etc.: College-Hill Press. Braun, Angelika (1988): Zum Merkmal "fortis/lenis". Phonetische Betrachtungen und instrumentalphonetische Untersuchungen an einem mittelhessischen Dialekt. - Stuttgart: Steiner (= Zeitschrift fur Dialektologie und Linguistik, Beiheft 55). Claßen, Kathrin/Grzegorz Dogil/Michael Jessen/Krzysztof Marasek/Wolfgang Wokurek (1998): Stimmqualität und Wortbetonung im Deutschen. - In: Linguistische Berichte 174, 202-245. Denning, Keith (1989): The Diachronic Development of Phonological Voice Quality, with Special Reference to Dinka and the other Nilotic Languages. - Ph.D. Dissertation, Stanford University. Di Paolo, Marianna/Alice Faber (1990): Phonation Differences and the Phonetic Content of the Tense-Lax Contrast in Utah English. - In: Language Variation and Change 2, 155-204. Fant, Gunnar (1960): Acoustic Theory of Speech Production. - The Hague, Paris: Mouton. Fischer-Jargensen, Eli (1941): Les og fast tilslutning. - In: Nordisk Tidsskrift for Tale og Stemme 5, 41-69. - (1969): Untersuchungen zum sogenannten festen und losen Anschluß. - In: Kopenhagener Germanistische Studien 1, 138-164. - (1990): Intrinsic F0 in Tense and Lax Vowels with Special Reference to German. - In: Phonetica Al, 99-140. Fulop, Sean Α. (1996): An Acoustic Study of the Tongue Root Contrast in Degema Vowels. - In: UCLA Working Papers in Phonetics 93, 13-46. Halle, Morris/Kenneth N. Stevens (1969): On the Feature Advanced Tongue Root. - In: MIT Research Laboratory of Electronics Quarterly Progress Report 94, 209-215. Hanson, Helen M. (1997): Glottal Characteristics of Female Speakers: Acoustic Correlates. - In: Journal of the Acoustical Society of America 101, 466-481. Hess, Susan (1992): Assimilatory Effects in a Vowel Harmony System: an Acoustic Analysis of Advanced Tongue Root in Akan. - In: Journal of Phonetics 20, 475-492. Jessen, Michael (1998): Phonetics and Phonology of Tense and Lax Obstruents in German. - Amsterdam, Philadelphia: Benjamins. Jessen, Michael/Krzysztof Marasek/Katrin Schneider/Kathrin Claßen (1995): Acoustic Correlates of Word Stress and the Tense/Lax Opposition in the Vowel System of German. - In: Proceedings of the International Congress of Phonetic Sciences 13,4, 428-431. Jessen, Michael/Krzysztof Marasek (1997): Voice Quality Correlates of Word Stress and Tense versus Lax Vowels in German. - In: Proceedings of LARYNX 97 (Marseille), 127-130. Jessen, Michael/Justus C. Roux (to appear): Voice Quality Differences Associated with Stops and Clicks in Xhosa. - In: Journal of Phonetics. Jongman, Allard/Marios Fourakis/Joan A. Sereno (1989): The Acoustic Vowel Space of Modern Greek and German. - In: Language and Speech 32, 221-248. Jergensen, Hans P. (1969a): Über den Intensitätsverlauf beim sogenannten losen und festen Anschluß im Deutschen. - In: Kopenhagener Germanistische Studien 1, 165-186. - (19696): Die gespannten und ungespannten Vokale in der norddeutschen Hochsprache mit einer spezifischen Untersuchung der Struktur ihrer Formantenfrequenzen. - In: Phonetica 19, 217-245. Kingston, John/Randy L. Diehl (1994): Phonetic Knowledge. - In: Language 70, 419-454. Kingston, John/Neil A. Macmillian/Laura Walsh Dickey/Rachel Thorburn/Christine Bartels (1997): Integrality in the Perception of Tongue Root Position and Voice Quality in Vowels. - In: Journal of the Acoustical Society of America 101, 1696-1709. Klatt, Dennis H./Laura C. Klatt (1990): Analysis, Synthesis, and Perception of Voice Quality Variations among Female and Male Talkers. - In: Journal of the Acoustical Society of America 87, 820857. Krech, Eva-Maria et al. (1982): Großes Wörterbuch der deutschen Aussprache. - Leipzig: VEB Bibliographisches Institut. Ladefoged, Peter/Ian Maddieson (1996): The Sounds of the World's Languages. - Cambridge, USA & Oxford, UK: Blackwell.

178

Michael Jessen

Laver, John (1980): The Phonetic Description of Voice Quality. - Cambridge, etc.: Cambridge University Press. Local, John/Ken Lodge (1996): Another Travesty of Representation: Phonological Representation and Phonetic Interpretation of ATR Harmony in Kalenjin. - In: York Papers in Linguistics 17, 77117. Lotto, A. J./L. L. Holt/K. R. Kluender (1997): Effect of Voice Quality on Perceived Height of English Vowels. - In: Phonetica 54, 76-93. Maas, Utz (1999): Phonologie. Einfiihrung in die funktionale Phonetik des Deutschen. - Opladen, Wiesbaden: Westdeutscher Verlag. Maas, Utz/Doris Tophinke (1993): Loser und fester Anschluß. Versuch der Neubewertung einer abgelegten Kategorie. - In: Jürgen Schmidt-Radefeldt, Andreas Harder (eds.): Sprachwandel und Sprachgeschichte. Festschrift für Helmut Lüdtke zum 65. Geburtstag, 133-151. Tübingen: Narr. Maddieson, Ian/Peter Ladefoged (1985): "Tense" and "lax" in Four Minority Languages of China. In: Journal of Phonetics 13, 433-454. Marasek, Krzysztof (1997): Electroglottographic Description of Voice Quality. - In: Arbeitsberichte des Instituts fur Maschinelle Sprachverarbeitung - Phonetik, Universität Stuttgart 3 (2) [Habilitationsschrift = Post-doctoral thesis], Mooshammer, Christine (1998): Experimentalphonetische Untersuchungen zur artikulatorischen Modellierung der Gespanntheitsopposition im Deutschen. - In: Forschungsberichte des Instituts für Phonetik und sprachliche Kommunikation der Universität München 36, 3-192. [Ph.D. Dissertation]. Ramers, Karl Heinz (1988): Vokalquantität und -qualität im Deutschen. - Tübingen: Niemeyer (= Linguistische Arbeiten 213). Reetz, Henning (1999): Artikulatorische und akustische Phonetik. - Trier: Wissenschaftlicher Verlag. Ren, Nianqi (1992): Phonation Types and Stop Consonant Distinctions: Shanghai Chinese. Ph.D. Dissertation, University of Connecticut. Schneider, Katrin (2001): Eine akustische Studie der Frequenz- und Amplitudenparameter deutscher Vokale. Diplomarbeit [MA Thesis], Universität Stuttgart. Sievers, Eduard (1901): Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. - Leipzig: Breitkopf & Härtel. Sluijter, Agaath M. C. (1995): Phonetic Correlates of Stress and Accent. - The Hague: Holland Academic Graphics. Sluijter, Agaath M. C./Stefanie Shattuck-Hufnagel/Kenneth N. Stevens/Vincent J. van Heuven (1995): Supralaryngeal Resonance and Glottal Pulse Shape as Correlates of Stress and Accent in English. - In: Proceedings of the International Congress of Phonetic Sciences 13,2, 630-633. Sluijter, Agaath M. C./Vincent J. van Heuven (1996): Spectral Balance as an Acoustic Correlate of Linguistic Stress. - In: Journal of the Acoustical Society of America 100: 2471-2485. Sluijter, Agaath M. C./Vincent J. van Heuven/Jos J. A. Pacilly (1997): Spectral Balance as a Cue in the Perception of Linguistic Stress. - In: Journal of the Acoustical Society of America 101, SOSSB. Spiekermann, Helmut (2000): Silbenschnitt in deutschen Dialekten. -Tübingen: Niemeyer (= Linguistische Arbeiten 425). Stevens, Kenneth Ν. (1998): Acoustic Phonetics. - Cambridge, Mass.: The MIT Press. Tiede, Mark K. (1996): An MRI-Based Study of Pharyngeal Volume Contrasts in Akan and English. - In: Journal of Phonetics 24, 399-421. Valaczkai, Läszlö (1998): Atlas deutscher Sprachlaute. Instrumentalphonetische Untersuchung der Realisierung deutscher Phoneme als Sprechlaute. - Wien: Edition Praesens. Vennemann, Theo (1991): Syllable Structure and Syllable Cut Prosodies in Modern Standard German. - In: Pier Marco Bertinetto, Michael Kenstowicz, Michele Loporcaro (eds.): Certamen Phonologicum II. Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellier. - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: Karl Heinz Ramers, Heinz Vater, Henning Wode (eds.): Universale phonologische Strukturen und Prozesse, 7-54. Tübingen: Niemeyer (= Linguistische Arbeiten 310).

Spectral balance in German and its relevance for syllable cut theory

179

Von Essen, Otto (1962): Trubetzkoy's "fester" und "loser Anschluss" in experimentalphonetischer Sicht. - In: Proceedings of the International Congress of Phonetic Sciences 4, 590-595. Wängler, Hans-Heinrich (1968^): Atlas deutscher Sprachlaute. - Berlin: Akademie-Verlag. Wood, Sidney A. J. (1992): A Radiographic and Model Study of the Tense vs. Lax Contrast in Vowels. - In: Wolfgang U. Dressier, Hans Christian Luschützky, Oskar E. Pfeiffer, John R. Rennison (eds.): Phonologica 1988. Proceedings of the 6th International Phonology Meeting, 283-291. Cambridge, etc.: Cambridge University Press.

Helmut

Spiekermann

Ein akustisches Korrelat des Silbenschnitts: Formen des Intensitätsverlaufs in Silbenschnitt- und Tonakzentsprachen*

1. Problemstellung Seit Beginn der 90-er Jahre hat das prosodisch-phonologische Konzept des Silbenschnitts1 zur Beschreibung der Vokalopposition im Deutschen eine Renaissance erfahren. Es gibt eine Reihe von phonologischen Argumenten, die dafür sprechen, den Silbenschnitt anstelle der ansonsten häufig diskutierten Quantität und Qualität als distinktives Merkmal der Vokalopposition im Standarddeutschen anzunehmen. Dazu gehören u.a. folgende Beobachtungen: - Betonte Vokale in offenen Silben wie in [ ' Re : g a n ], Regen, sind grundsätzlich sanft geschnitten. - Betonte Vokale in mehrfach geschlossenen Silben wie in [JtRumpf], Strumpf, sind grundsätzlich scharf geschnitten. - Betonte Vokale in offenen, einsilbigen Wörter wie [ da: ], da, sind grundsätzlich sanft geschnitten. Diese Beobachtungen lassen sich durch die Silbenschnitttheorie erklären: Scharfer Silbenschnitt als Artikulation eines Konsonanten mit vorausgehenden Vokal (die Artikulation des Vokals wird durch den Folgekonsonanten 'abgeschnitten') ist nur möglich, wenn ein Konsonant in der Coda einer betonten Silbe steht. Fehlt der Konsonant und fehlt auch die Möglichkeit eines 'Abschneidens' der vollen Artikulation des Vokals, dann haben wir es immer mit sanftem Silbenschnitt zu tun. Die phonologischen Verhältnisse des Standarddeutschen sind in diesem Bereich recht klar, und der Silbenschnitt ist in neueren Beschreibungen zu einem festen Bestandteil der standarddeutschen Phonologie geworden (vgl. Becker 1998, Maas 1999). Das phonologische Konzept hat jedoch mit einem Manko zu kämpfen, denn bislang fehlt der Nachweis eines akustischen Korrelates des Silbenschnittes.2 An dieser Stelle setzt das vorliegende Kapitel an.

1 2

Ich danke den Teilnehmern am Kolloquium "Silbenschnitt und Tonakzente", Freiburg 25.27.05.2000 für zahlreiche nützliche Kommentare zu meinem dort gehaltenen Vortrag, außerdem Phil Hoole, Harald Baßler, Peter Gilles und Peter Auer für Anmerkungen zu früheren Versionen der vorliegenden Druckfassung des Vortrages. Ich verwende die Begriffe 'Silbenschnitt' und 'Anschluss' synonym. Bemängelt wurde das Fehlen eines akustischen Korrelates u.a. von Ilse Lehiste, die auf eine Nachfrage im Anschluss an ihren Plenarvortrag während der 20. DGfS-Tagung 1998 in Konstanz sinngemäß sagte, sie sei bereit, den Silbenschnitt als distinktives Merkmal der Vokalopposition im Deutschen in Betracht zu ziehen, wenn man ihr sagen könnte, was phonetisch darunter zu verstehen sei.

Helmut

182

Spiekermann

Ausgehend von den theoretischen Grundlagen der Theorie (Abschnitt 2) werden zunächst frühere Vorschläge für ein akustischen Korrelat des Silbenschnittes diskutiert (Abschnitt 3). Abschnitt 4 widmet sich einem neuen Versuch, der auf der Basis von standarddeutschen Daten zunächst ein mögliches akustisches Korrelat isoliert und dieses anhand von Daten aus Nicht-Silbenschnittsprachen evaluiert. Bei diesem Korrelat handelt es sich um charakteristische Merkmale des Verlaufs der Gesamtenergie eines betonten Vokales. In Abschnitt 5 wird auf der Basis rheinfränkischer Daten die Frage diskutiert, ob Tonakzentsprachen zumindest in Bezug auf ihre akustisch-phonetischen Merkmale auch Silbenschnittsprachen sein können. Mit einem Ausblick auf mögliche weiterführende Aufgaben, die auch einen Vergleich von Silbenschnitt und Tonakzenten betreffen, schließt das Kapitel.

2. Das Konzept des Silbenschnitts

Die Beschreibung des Silbenschnittes, auf die in jüngeren Veröffentlichungen zum Thema primär referiert wird, geht auf Eduard Sievers zurück. Er kommt bei der Darstellung unterschiedlicher "geschnittener Accente" zu folgender Unterscheidung: Die geschnittenen Accente zerfallen in 2 Unterabtheilungen: 1. Der energisch geschnittene Accent [...]. Hier wird der Vocal durch den folgenden Consonanten noch in dem Momente seiner größten Stärke geschnitten [...]. [Der energisch geschnittene Accent] steht vorzugsweise vor Fortes, und zwar wiederum besonders auf kurzen Vocalen. 2. Der schwach geschnittene Accent [...] ist den meisten unserer langen Vocale und Diphthonge [...] sowie den Vocalen unbetonter Silben eigen. Hier tritt die Abschneidung des Vocals erst in einem Momente ein, wo dessen Intensität sehr geschwächt ist. (Sievers 1872:115f.)

Sievers nutzt seine Konzepte von Schall- und Drucksilben 4 zur weiteren Beschreibung von sanftem ('schwach geschnittenem') und scharfem ('scharf geschnittenem Accent'). Während bei sanftem Schnitt Schall- und Drucksilbe parallel verlaufen, kommt es bei scharfem Schnitt zu Divergenzen. In den folgenden trochäischer Wortformen wird der Unterschied an den Beispielwörtern beten und Betten deutlich: Schallsilbe Drucksilbe t

Θ

η

Abb. 1: Sievers' Schall- und Drucksilbe 3

4

Vennemann (1994) geht davon aus, dass nur zwischen reduzierten und nicht-reduzierten Silben unterschieden werden muss. Er fasst also Maas' prominente Silbe und "Standardsilbe" zusammen. Dies hat zur Konsequenz, dass Silbenschnittunterschiede auch in unbetonte Silben vorkommen. Schallsilben lassen sich phonetisch auf "Schallfülle" (Sonorität) beziehen. Die phonetische Definition von Drucksilben ist relativ schwierig. Artikulatorisch sind sie wohl mit der im glottalen und subglottalen Bereich aufgewendeten Energie beschreibbar.

Ein akustisches Korrelat des Silbenschnitts

183

Der Schallsilbe, die sich in beiden Trochäen zweimal ausprägt, steht im Falle von Becken nur eine Drucksilbe gegenüber. Dieses Konzept wurde in einer leicht abgewandelten Form auch von Theo Vennemann (1994) wieder aufgegriffen. Vennemann spricht bei der Erläuterung der Unterschiede von sanftem und scharfem Silbenschnitt von Crescendo und Decrescendo der Intensität: Koma

Komma

0

0

I

< >

I

< >

< >

< >

Λ W

NN I I

I I

I—h I I

k

ο m

a

I I

I I

I I

I I

k

ο

m a

Abb. 2: Silbenschnittmodell nach Vennemann (1994) Die Anzahl der Crescendi und Decrescendi ist bei sanftem (Koma) und scharfem Schnitt (Komma) identisch; im Unterschied zum sanften Schnitt fällt das Decrescendo der ersten Silben beim scharfen Schnitt jedoch nicht auf den betonten Vokal, sondern auf den ambisyllabischen Konsonanten. Auf der segmentalen Seite sind Koma und Komma identisch; beide Trochäen unterscheiden sich lediglich in der Art der Assoziation des Decrescendos der ersten Silben mit segmentalen Elementen. Eine vergleichbare Interpretation der silbischen Verhältnisse findet sich auch bei Becker (1998 und in diesem Band). 5 Eine Konsequenz der Theorie des Silbenschnittes für die phonologische Beschreibung des Standarddeutschen ist, dass das Phoneminventar kleiner wird. Die Anzahl der Monophthonge verringert sich von 15 Vollvokalen, wenn man Quantität bzw. Qualität als distinktives Merkmal der Vokalopposition annimmt, auf acht, nämlich auf / a e i o u e a y / (vgl. Vennemann 1991, Becker 1998). Phonetisch bleiben die 15 Vollvokale erhalten, z.B. erscheint ein Phonem Iii sanft geschnitten als langes, peripheres [ i : ], scharf geschnitten jedoch als kurzes, zentrales [ i ] , Quantität und Qualität sind hier also abhängig von der Silbenschnittart.

3. In der Forschung diskutierte phonetische Korrelate des Silbenschnittes

Als akustisch-phonetische Korrelate des Silbenschnittes wurden in der Literatur in erster Linie folgende Parameter diskutiert: (a) Vokaldauer, (b) unterschiedliche Zentralisierungsgrade, (c) Energieverläufe und (d) Grundfrequenz. 5

Eine Kritik an den Ansätzen von Vennemann und Becker findet sich bei Lenerz (2000 und in diesem Band).

184

Helmut Spiekermann

Unterschiedliche Dauer wurden von verschiedenen Autoren als Korrelat des Silbenschnittes vorgeschlagen, u.a. von Fliflet (1962) und Fischer-J0rgensen (1969, u.a. gestützt durch Perzeptionsexperimente). Sanfter Silbenschnitt korreliert dabei mit Länge, scharfer Silbenschnitt mit Kürze. Die Probleme liegen auf der Hand: zum einen ist die Dauer intrinsisch variabel, da sie insbesondere vom Sprechtempo und in vielen Sprachen auch von der Akzentuierung (nicht nur auf Wort-, sondern auch auf Satzebene) abhängig ist. Außerdem ist die Dauer als phonetische Kategorie eng an das mit dem Silbenschnitt konkurrierende phonologische Konzept der Quantität gebunden und kann als dessen Korrelat betrachtet werden. Ist aber die Dauer phonetisches Korrelat sowohl des Silbenschnittes als auch der Quantität, lässt sich empirisch nicht mehr zwischen Quantitäts- und Silbenschnittsprachen unterscheiden. Thomas Becker (1998) sieht eine Kombination aus Dauer und Zentralisierungsgrad als akustisches Korrelat des Silbenschnittes an. In Bezug auf die Zentralisierung sind unter sanftem Schnitt periphere und unter scharfem Schnitt zentrale Vokale zu erwarten. Da die Zentralisierung als Korrelat der Qualität aufgefasst werden kann, ergibt sich hier jedoch ebenso wie bei der Dauer ein methodisches Problem: Sprachen mit phonologischer Qualitätsopposition könnten empirisch nicht von Silbenschnittsprachen unterschieden werden, wenn der Zentralisierungsgrad sowohl Korrelat der Qualität als auch des Silbenschnittes ist. Der Verlauf der Energie insbesondere im Übergangsbereich zwischen betontem Vokal und Folgekonsonant stand im Blickpunkt einer Reihe von Untersuchungen. Otto von Essen (1962) fand hier Unterschiede zwischen den Silbenschnittarten hinsichtlich des Bewahrens vokalischer Merkmale im Spektrum; d.h. die Formantintensität bleibt bei sanftem Schnitt schwächer erhalten als bei scharfem. Fischer-Jergensen (1969), Jergensen (1969) und Maas/Tophinke (1993) konnten in eigenen Untersuchungen die Ergebnisse von Essens jedoch nicht verifizieren. Bezüglich der Position eines Energiemaximums stellt von Essen fest, dass entgegen der Beschreibung Sievers' auch bei scharfem Schnitt der Vokal erst nach dem Erreichen eines Energiemaximums von einem Folgekonsonanten geschnitten wird. Dem widerspricht Jergensen (1969), der die Ergebnisse von Essens in eigenen Untersuchungen nicht bestätigen kann. Bereits 1941 hatte Fischer-Jergensen anhand von Daten eines schlesischen und eines bairischen Sprechers keinen eindeutigen Unterschied zwischen sanftem und scharfem Schnitt bezüglich der Position eines Energiemaximums ermitteln können. Die Untersuchung des Energieverlaufes führte also zu keinen brauchbaren Ergebnissen. 6 Unterschiede in der Grundfrequenz bei unterschiedlichen Silbenschnittarten glaubte Martinet (1969) zu erkennen. Unter sanftem Schnitt weisen Vokale demnach fallende, unter scharfem Schnitt steigende Grundfrequenz auf. Diese Ergebnisse wurden durch die Untersuchung von Maas/Tophinke (1993) nur bedingt bestätigt. Hier wurde bei scharfem Schnitt zumindest kein Abfall der Grundfrequenz registriert. Spiekermann (2000) stellte nur geringe Unterschiede zwischen den Grundfrequenzverläufen sanft und scharf geschnittener Vokale fest. Seine Ergebnisse zeigen, dass bei scharfer Schnitt nur ein minimaler Anstieg der Grundfrequenz, bei sanftem Schnitt ein minimaler Abfall zu verzeichnen ist.

6

In einer Untersuchung zu Korrelaten des Wortakzentes taucht das auf Energiewerte rückführbare Merkmal "spectral tilt" auf (vgl. Claßen et al. 1998), das u.U. auch auf den Silbenschnitt beziehbar ist; vgl. dazu jedoch den Beitrag von Michael Jessen in diesem Band.

Ein akustisches Korrelat des Silbenschnitts

185

Der kurze Überblick über die Forschungsgeschichte7 zeigt, dass sich die Suche nach einem akustischen Korrelat des Silbenschnittes durchaus schwierig gestaltet hat. Nicht zuletzt deswegen zogen Linguisten, die den Silbenschnitt als distinktives Merkmal der Vokalopposition im Deutschen ablehnen (u.a. Marga Reis 1974), die Quantität und/oder die Qualität dem Silbenschnitt in dieser Funktion vor. In der Forschungsliteratur zum Silbenschnitt überwiegen die phonetischen Arbeiten, die sich mit einem akustischen Korrelat beschäftigen. In jüngster Zeit sind jedoch auch einige Arbeiten entstanden, die ein artikulatorisches Korrelat der Vokalopposition des Deutschen zum Thema haben. Zu nennen sind in diesem Zusammenhang vor allem die Arbeiten des Institutes für Phonetik und Sprachliche Kommunikation der Universität München (u.a. Mooshammer 1998). Der Unterschied zwischen gespannten und ungespannten Vokalen wird hier insbesondere an der Geschwindigkeit der Zungenbewegung festgemacht: Während ungespannte Vokale lediglich ein Beschleunigungsmaximum in der Vokalmitte aufweisen, zeigen sich bei gespannten Vokalen zwei Beschleunigungsmaxima (Kroos/Hoole/ Kühnert/Tillmann 1997, Hoole/Mooshammer in diesem Band). Diese Unterschiede lassen sich leicht auf akustische Merkmale gespannter und ungespannter Vokale abbilden: u.a. benötigen zwei getrennte Beschleunigungsphasen mehr Zeit als ein einzelnes, was zu einer höheren Vokaldauer führt.

4. Vorschlag eines akustischen Korrelates

Den Ausgangspunkt für die hier vorgestellte Untersuchung bildet die Sievers'sche Beschreibung des Silbenschnittes, die in z.T. leicht abgewandelter Form auch in jüngeren Beschreibungen des Phänomens Entsprechungen findet (z.B. bei Vennemann 1991, Maas 1999). Sievers geht explizit davon aus, dass sich der Unterschied zwischen starkem und schwachem Silbenschnitt in der Position des Intensitätsmaximums bei der Artikulation des Vokals manifestiert.

4.1 Untersuchte Korpora Die hier vorgestellte Untersuchung basiert primär auf Daten zum Silbenschnitt im Standarddeutschen. Die Ergebnisse dieser Untersuchung sollen dann anhand von Kontrolldaten aus den Quantitätssprachen Finnisch und Tschechisch evaluiert werden. Insgesamt wurden vier unterschiedliche Korpora erhoben, zwei zum Standarddeutschen, eines zum Finnischen und eines zum Tschechischen. Folgende Liste enthält Angaben über den Umfang der Korpora sowie zu den Sprechern: - Korpus 1: η = 225, ein Sprecher (männlich, 26 Jahre, norddeutscher Herkunft) - Korpus 2: η = 179, acht Sprecher (3 männlich, 5 weiblich im Alter zwischen 25 und 45 Jahren, norddeutscher Herkunft) 7

Für einen detaillierten Literaturüberblick s. Ramers (1988), Becker (1998), Spiekermann (2000).

186

Helmut

Spiekermann

- Finnisch: η = 66, zwei Sprecher (männlich und weiblich, 25-35 Jahre alt) - Tschechisch: η = 73, zwei Sprecher (männlich und weiblich, 30-40 Jahre alt) Das standarddeutsche Korpus 1 enthält 225 Nonsens-Wörter der Form geKj VK2e, wobei V ein Monophthong und K] und K 2 identische einfache Konsonanten sind. Alle 15 Vollvokale des Standarddeutschen wurden mit 15 unterschiedlichen Konsonanten kombiniert, also z.B. zu gemamme, getiete. Die Testwörter wurden in Trägersätze der Form ich habe ... gesagt eingebettet und von der Versuchsperson vorgelesen. Sinn des Korpus 1 ist es, anhand von sehr homogenen Daten Hypothesen über mögliche akustische Korrelate des Silbenschnittes zu entwickeln, die anschließend durch die Untersuchung spontansprachlicher Daten verifiziert werden können. Diesen Zweck erfüllt das standarddeutsche Korpus 2, in dem acht Ausschnitte aus Radio- und Fernsehsendungen gesammelt wurden, die auch im Rahmen des Aussprachewörterbuch-Projektes Halle ("Soziophonetische Grundlagen zur Neukodifizierung des Aussprachewörterbuches") Verwendung gefunden haben. Aus diesen Aufnahmen wurden trochäische Wortformen mit einfachen intervokalischen Konsonanten isoliert. Diese Wortformen sind bzgl. der Kombination von Vokalen und Konsonanten inhomogen, zum einem, weil Ki und K 2 nicht identisch sind, zum anderen, weil die untersuchten Wörter in unterschiedlichen Satzkontexten vorkommen, d.h. in unterschiedlich langen Sätzen und an verschiedenen Positionen im Satz. Diese Inhomogenität ist bewusst gewählt, zum einen, um mögliche Beeinflussungen durch diese Bedingungen zumindest im Ansatz beschreiben zu können, zum anderen, um die Brauchbarkeit eines möglichen Korrelates auch unter erschwerten Bedingungen zu testen. Die Korpora der Quantitätssprachen Finnisch und Tschechisch wurden aus Tonbandaufzeichnungen zu Sprachkursen zusammengestellt. Wieder wurden zweisilbige Wortformen mit einfachen intervokalischen Konsonanten isoliert und ausgewertet. Der monophthongische Vokal der ersten Silbe alternierte dabei bezüglich der Quantität.8 Da im Tschechischen und Finnischen Quantitätsdifferenzen auch in unbetonten Silben anzutreffen sind, trug in den hier untersuchten Wortformen die erste Silbe nicht immer den Wortakzent. Tatsächlich waren betonte und unbetonte erste Silben in den Daten etwa gleichmäßig verteilt. Alle Korpora wurden zunächst auf Tonband aufgezeichnet und anschließend digitalisiert. Die sonagraphische Analyse erfolgte unter Benutzung des "Computerized Speech Lab" (CSL), Modell 4300 Β der Kay Elemetrics Corp. (1984). 9 Alle im Folgenden getroffenen Aussagen beziehen sich auf Messungen zu Energieverläufen 10 von Vokalen. Auch wenn der Silbenschnitt als prosodische Beziehung zwischen einem Vokal und einem folgenden Konsonanten aufzufassen ist, wird hier argumentiert, dass diese Beziehung bereits im Vokal alleine eindeutige akustisch-phonetische Spuren hinterlässt. Die Folgekonsonanz ist daher nicht Gegenstand der empirischen Untersuchung.

8

9

10

Ziel der Untersuchung zum Finnischen und Tschechischen war es, zu zeigen, dass das auf der Basis des Standarddeutschen gefundene Korrelat des Silbenschnittes in den Quantitätensprachen Finnisch und Tschechisch nicht existent ist. Daher müssen die Daten sich bezüglich der vokalischen Quantität unterscheiden. Hier abgedruckte Oszillogramme und Energieverläufe wurden nachträglich mit dem Programm 'Praat' von P. Boersma erzeugt. Unter Energie verstehe ich die messbare Gesamternergie eines Signals zu einem Zeitpunkt t. Ich verwende hier die Begriffe 'Energie' und 'Intensität' synonym.

Ein akustisches Korrelat des

4.2

187

Silbenschnitts

Auswertung der standarddeutschen Daten

Im Vokal können drei unterschiedliche Merkmale differenziert werden, nämlich (a) die Anzahl von Energiemaxima (Ε-Zahl), (b) die Position im Vokal, an der ein einzelnes Energiemaximum zu finden ist (E-Pos), und schließlich (c) die Form des Verlaufes der Energie vor und nach einem Maximum (E-Form). Ε-Zahl: Energiemaxima werden wie folgt definiert: Wenn der gemessene Wert vor und nach einem Messpunkt χ niedriger ist als im Messpunkt selbst, ist χ ein Energiemaximum. Auch minimale Maxima werden als solche gewertet und erscheinen in der Statistik." In Abbildung 3 lassen sich im Vokal [ a ] somit 3 Energiemaxima lokalisieren (hier durch Pfeile markiert).

Tll« » ( s )

Abb. 3: Energieverlauf von [ g e ' t h a : t h 8 ] , inkl. Segmentierungsgrenzen

E-Pos: Dieses Merkmal entspricht am ehesten den gängigen Beschreibungen des Silbenschnittes, nach denen ein Vokal entweder direkt nach Erreichen eines Energiemaximums (bei scharfem Schnitt) oder erst erheblich später (bei sanftem Schnitt) von einem Folgekonsonanten abgelöst wird.

' 1 Diese Herangehensweise ist in der Hinsicht kritisierbar, dass auch lediglich durch Ungenauigkeiten in den mathematischen Algorithmen und in den Darstellungsfunktionen des Analyseprogrammes als Energiemaxima erscheinende Messpunkte in der Auswertung auftauchen. Durch die große Zahl ausgewerteter Daten sollten sich diese Fälle jedoch als statistisch unbedeutend erweisen.

Helmut

188

Spiekermann

Zur relativen Messung der Position von Energiemaxima wurden die betrachteten Vokale in insgesamt neun gleich große Intervalle geteilt (vgl. Abb. 4). Unabhängig von der tatsächlichen Dauer der Vokale sind so Aussagen über die Position von Energiemaxima möglich.

Kons.

betonter Vokal

Kons.

[a]

Zeit w

l | 2131 4 | 5 | ό | l \ δ| 9

Abb. 4: Einteilung des Vokals in neun Teilabschnitte zur Messung des Merkmals E-Pos

Die folgende Abbildungen zeigen im Beispielpaar geruhre - gerurre (zwei Belege aus dem standarddeutschen Korpus 1), inwieweit sich sanfter und scharfer Silbenschnitt im Merkmal E-Pos unterscheiden. Während bei sanftem Schnitt ein Energiemaximum eher am Ende eines Vokals zu finden ist (hier bei geruhre etwa an der relativen Position 6), befindet sich dieses Energiemaximum bei scharfem Schnitt eher zu Beginn des Vokals (etwa an Position 4). Die eingetragene Neuner-Skala macht die Unterschiede deutlich.

Abb. 5a: Intensitätsverlauf von [ g a ' r u : r o ] , Standarddeutsch.

189

Ein akustisches Korrelat des Silbenschnitts

17

T||» · (t) Abb. 5b: Intensitätsverlauf von [ g s ' RURa], Standarddeutsch. Die Beobachtung, dass bei scharfem Schnitt das Energiemaximum relativ schneller erreicht wird als bei sanftem, ist überraschend, da nach den Beschreibungen des Silbenschnittes eher das Umgekehrte zu erwarten wäre. Auf diesen Sachverhalt komme ich im Anschluss an die Darstellung der Messergbenisse noch einmal zurück. In die Auswertungen zum Merkmal E-Pos wurden nur Daten aufgenommen, die genau ein Energiemaximum aufwiesen. Der Vergleich dieser Belege mit Belegen mit mehreren Maxima ist nur schwer durchzufuhren. E-Halt: Es lassen sich dabei drei unterschiedliche Konturtypen differenzieren: (a) eine steigend-fallende Kontur, (b) eine steigend-haltend-fallende Kontur und (c) eine steigendstreng haltend-fallende Kontur. In Abbildung 6 sind Modelle dieser drei Typen abgebildet.

(a) steigend-fallend

(b) steigend-haltend-fallend

(c) steigend-streng haltendfallend

Abb. 6: Modelle der Intensitätsverläufe: E-Halt

Für die Bestimmung der Typen im Signal gelten folgende Regeln: Der Wert des Energiemaximums (bei mehreren Maxima der des höchsten Maximums) wird als Referenzwert (in dB) ermittelt. Fällt über die gesamte Vokaldauer der Energiewert um mehr als 10% im

Helmut Spiekermann

190

Vergleich zum Referenzwert, handelt es sich um eine steigend-fallende Kontur (Typ a), fällt der Wert um weniger als 5%, liegt eine steigend-streng haltend-fallende Kontur (Typ c) vor. Hier ist i.d.R. auch eine deutliche Plateaubildung zu erkennen. Eine steigendhaltend-fallende Kontur (Typ b, mit leichter Plateaubildung), ist bei einem Abfall des Energiewertes zwischen 5% und 10% im Vergleich zum Referenzwert gegeben.

ω

TJ

Ε

2 ATI

Til" β (s) Abb. 7: Intensitätsverläufe von [ g a ' t h o : t a ] und [ g 9 1 1 h o t s ], Standarddeutsch.

Für die statistische Auswertung werden die drei unterschiedlichen Konturtypen mit Zahlenwerten assoziiert. Typ (a) erhält die Zahl 1, Typ (b) die Zahl 2 und Typ (c) schließlich die Zahl 3. Je höher also der ermittelte Wert im Merkmal Ε-Halt, desto geringer ist der Abfall des Energiewertes im Verlauf des Vokals, und desto stärker ist die Plateaubildung. In Abbildung 7 kann man bei sanft geschnittenem [ ο ] in getohte zwei Energiemaxima erkennen. Das höchste Energiemaximum hat einen Wert von rd. 85 dB, der maximale Abfall liegt bei etwa 8%. Es ist außerdem eine leichte Plateaubildung zwischen den beiden Maxima erkennbar, so dass in diesem Fall von einer steigend-haltend-fallenden Kontur die Rede sein muss. Im Fall des scharf geschnittenen [ ο ] in getotte liegt ein Abfall von etwa 13% vor (Referenzwert = rd. 85 dB. Minimum im Vokal = rd. 74 dB). Die Kontur zeigt außerdem keine Plateaubildung und ist daher eindeutig als Typ (a), d.h. steigend-fallend zu identifizieren. Grundsätzlich sind sowohl bei scharfem als auch bei sanftem Silbenschnitt alle drei Konturtypen belegt, u.a. abhängig davon, in welcher konsonantischen Umgebung der betrachtete Vokal steht (zu Einflussfaktoren auf die Messergebnisse s.u.). Energieverläufe des Typs

Ein akustisches Korrelat des

191

Silbenschnitts

(c) tauchen jedoch bei sanftem Schnitt sehr viel häufiger auf als bei scharfem, während bei diesem wiederum der Typ (a) vorherrscht. Nach Ermittlung der Ergebnisse für die einzelnen Belege wurden Durchschnittswerte errechnet. Die Durchschnittswerte der Daten zum scharfen Silbenschnitt wurden von denen zum sanften Silbenschnitt abgezogen. Je größer der Differenzwert, desto größer der phonetische Kontrast zwischen den beiden Silbenschnittarten. Folgende Tabellen geben die Ergebnisse für die beiden standarddeutschen Korpora wieder. Bezüglich der Vergleichbarkeit der beiden Korpora lässt sich sagen, dass zwischen Korpus 1 und Korpus 2 keine statistisch signifikanten Unterschiede bestehen, d.h. beide Korpora können als Teile einer Gesamtheit von Belegen einer Untersuchungsmenge angesehen werden. Tabelle 1: Resultate Intensitätsverläufe, Korpus 1 Bei. 120

Sanfter Schnitt E-Zahl E-Halt 1.88 2.59

E-Pos 4.76

Bei. 105

scharfer Schnitt E-Halt E-Zahl 1.14 2.17

E-Pos 2.67

E-Zahl 0.73

Differenz E-Halt 0.41

E-Pos 2.09

Differenz E-Halt 0.51 η

E-Pos 1.63 η

Tabelle 2: Resultate Intensitätsverläufe, Korpus 2 (mit Signifikanzniveaus 12 ) Bei. 111 sig.

sanfter Schnitt E-Zahl E-Halt 2.46 1.19 -

-

E-Pos 5.02

Bei. 68

-

-

scharfer Schnitt E-Zahl E-Halt 0.93 1.95 -

-

E-Pos 3.39 -

E-Zahl 0.26 η

Für beide standarddeutschen Korpora gilt, dass die Unterschiede zwischen den Ergebnissen für sanften und scharfen Schnitt statistisch signifikant bzw. sogar sehr signifikant (nur in Fall von E-Pos) sind. Die Resultate zeigen zunächst, dass für sanften bzw. scharfen Silbenschnitt unterschiedliche typische Ausprägungen in Bezug auf die drei untersuchten Merkmale des Energieverlaufes festzustellen sind. Vereinfacht kann man auf der Basis standarddeutscher Daten Folgendes festhalten: - Ein typischer sanft geschnittener Vokal hat (a) ein bis zwei Energiemaxima, (b) ein einzelnes Energiemaximum in der Mitte des Vokals und (c) eine steigend-haltend-fallende oder steigend-streng haltend-fallende Kontur. - Ein typischer scharf geschnittener Vokal hat (a) ein Energiemaximum, (b) dieses Maximum am Beginn des Vokals und (c) eine steigend-haltend-fallende Kontur. Die Differenzwerte für die Merkmale Ε-Zahl und E-Pos sind in den Ergebnissen des Korpus 1 relativ hoch, verringern sich jedoch zum Teil deutlich, wenn man die Ergebnisse des Korpus 2 betrachtet. Die Differenzwerte für Ε-Halt sind mit 0.41 (Korpus 1) und 0.51 (Korpus 2) sehr stabil.

12

Signifikanzniveaus werden (berechnet über den t-Test mit dem Korpus 1 als Testvariable) angegeben als " n " = Unterschied der Testgruppen ist nicht signifikant, ρ > 0.05; "si" = Unterschied signifikant, ρ < 0.05; "ssi" = Unterschied ist sehr signifikant, ρ < 0.01; "hsi"= Unterschied höchst signifikant, ρ < 0.001.

ist ist

Helmut

192

Spiekermann

Die Ergebnisse zum Merkmal E-Pos widersprechen, wie oben bereits angedeutet, den Erwartungen: Nach den Ergebnissen der hier vorgestellten Untersuchung erreichen scharf geschnittene Vokale das Energiemaximum relativ schneller. Der Dauerunterschied zwischen scharf und sanft geschnittenen Vokalen wurde von Trubetzkoy (1939) so erklärt, dass scharf geschnittene Vokale direkt nach Erreichen des Energiemaximums durch einen Folgekonsonanten 'abgeschnitten' werden und daher nicht so lang sein können wie sanft geschnittene. Die Ergebnisse der vorliegenden Untersuchung legen eine andere Erklärung der Dauerunterschiede nahe. Diese ist nicht in erster Linie auf ein Fehlen vokalischer Artikulation am Ende des Vokals zurückzuführen (dies suggeriert z.B. die oben zitierte Beschreibung von Trubetzkoy, vgl. Abb. 8), sondern am Beginn des Vokals (vgl. Abb. 9). t

Θ

/

sanfter Schnitt scharfer Schnitt Differenz in der Dauer Abb. 8: Modell nach der Beschreibung von Trubetzkoy (1939) t

a /

sanfter Schnitt scharfer Schnitt Differenz in der Dauer Abb. 9: Modell nach den Ergebnissen der vorliegenden Untersuchung Betrachtet man die Ergebnisse für die einzelnen Vokale, so zeigt sich, dass im Korpus 1 (vgl. Tabelle 3) der Differenzwert in keinem einzigen Fall in den negativen Bereich fallt. Grundsätzlich gilt also, dass sanft geschnittene Vokale bzgl. der hier ermittelten Messergebnisse höhere Werte aufweisen als scharf geschnittene Vokale. Diese Beobachtung scheint ein wichtiger Hinweis darauf zu sein, dass die Ergebnisse nicht zufallig sind. Tabelle 3: Ergebnisse Energiemessungen Korpus 1" Vokal

13

-

Bei.

/a/

15

/ e / -1 [e:]-U]

15

sanfter E-Zahl 2.33 (0.81) 1.8 (0.56)

Schnitt E-Halt 2.73 (0.59) 2.87 (0.72)

E-Pos 6.5 (2.12) 5.5 (2.65)

Bei. 15 15

scharfer Schnitt E-Zahl E-Halt 1.4 2.47 (0.74) (0.74) 1.13 2.33 (0.83) (0.72)

E-Pos 1.6 (0.89) 1.6 (0.89)

E-Zahl

Differenz E-Halt E-Pos

0.93

0.26

4.9

0.47

0.53

3.9

Für [ε:] (/e/ -2 unter sanftem Schnitt) sind keine Fälle belegt, in denen der Vokal genau ein Energiemaximum aufweist (markiert als "-"). Werte in Klammern geben die Standardabweichungen wieder.

Ein akustisches Korrelat des Silbenschnitts Vokal -

/e/-2 [ε:]-[ε]

Bei. 15

/y

15

/o/

15

/u/

15

/β/

15

/y/

15

gesamt

120

sanfter Schnitt E-Zahl E-Halt 2.33 2.87 (0.89) (0.35) 1.4 (0.51) 2 (0.76) 1.67 (0.62) 2 (0.76) 1.47 (0.52) 1.88 (0.36)

2.53 (0.52) 2.27 (0.59) 2.27 (0.70) 2.67 (0.62) 2.47 (0.52) 2.59 (0.24)

193 scharfer E-Zahl 1.13 (0.83)

Schnitt E-Halt 2.33 (0.72)

E-Pos 1.6 (0.89)

1.07 (0.59) 1.33 (0.49) 0.93 (0.46) 1.13 (0.35) 1 (0) 1.14 (0.17)

1.87 (0.83) 2.27 (0.70) 1.87 (0.74) 2.4 (0.74) 2 (0.76) 2.17 (0.25)

2.9 (1.45) 3.6 (2.17) 2.92 (1.73) 2.77 (2.24) 3.27 (1.58) 2.67 (0.78)

12

scharfer E-Zahl 0.92 (0.49) 1.08 (0.29)

Schnitt E-Halt 2.24 (0.66) 2.08 (0.67)

E-Pos 3.58 (1.92) 4 (2.49)

12

1.08 (0.29)

2.08 (0.67)

4 (2.49)

0.94 (0.24) 1.6 (0.55) 0.5 (0.71) 1 (0) 0.5 (0.71) 0.93 (0.38)

1.67 (0.77) 2.4 (0.55) 1.5 (0.71) 2.25 (0.96) 1.5 (0.71) 1.95 (0.38)

3.71 (1.61) 3 (0) 1

-

-

E-Pos

Bei.

-

15

3.89 (2.26) 4.5 (3) 4.33 (2.07) 4.25 (2.22) 4.38 (2.26) 4.76 (0.91)

15 15 15 15 15 105

E-Zahl

Differenz E-Halt

E-Pos

1.19

0.53

-

0.33

0.67

0.99

0.67

0

0.9

0.73

0.4

1.41

0.87

0.27

1.48

0.47

0.47

1.11

0.73

0.41

2.09

Tabelle 4: Ergebnisse Energiemessungen Korpus 2 Vokal

28

sanfter E-Zahl 1.78 (0.98) 1.36 (0.56)

2

0.5 (0.71)

2 (0)

6 (-)

1.30 (0.63) 1.1 (0.57) 0.5 (0.71) 2 (-) 1 (0) 1.19 (0.54)

2.69 (0.47) 2.4 (0.69) 3 (0) 2 (-) 2.25 (0.46) 2.46 (0.36)

4.27 (2.12) 5.57 (1.51) 6

-

Bei.

/a/

37

/e/-l [e.-Ηε] / e / -2 [ε:]-[ε] /i/

23

/o/

10

/u/

2

/0/ /y/

1 8

gesamt

111

signif.

-

-

Schnitt E-Halt 2.68 (0.48) 2.68 (0.56)

E-Pos 4.67 (2.19) 4.16 (1.77)

(") -

4.5 (1.41) 5.02 (0.81)

Bei. 25

18 5 2 4 2 68 -

(")

E-Zahl

Differenz E-Halt

E-Pos

0.86

0.44

1.09

0.28

0.60

0.16

-0.58

-0.08

2

0.36

1.02

0.56

-0.5

0

2.57

0

1.5

5

3.5 (1.29) 5 } bezeichnet, wobei der Bindestrich nach dem Vokal die offene Silbe kennzeichnet, der Stern nach dem Vokal die geschlossene. Da diese beiden Lautpositionen im rezenten Dialekt mit gleichem Vokal und gleichem Akzent realisiert werden, wäre vom Standpunkt der dialektrückschließenden Methode zu erwarten, dass dies bereits im 15. Jahrhundert gültig war und im Schreibsystem der Agrippina beide Lautpositionen durch dieselben Graphien gekennzeichnet werden. Zur Überprüfung dieser Annahme werden alle Morpheme, die die Lautposition {ö- d[) } oder {ö»d [>} enthalten, im überlieferten Text aufgesucht und in Hinblick auf ihre Schreibvarianten quantitativ erfasst. Dabei ergibt sich, dass die Lautposition {0-dit>} durch 14 Morphemtypen (MT) mit insgesamt 176 Belegen repräsentiert wird, die in sechs verschiedenen Schreibvarianten erscheinen. 15 Die Lautposition {ö.d f,} ist durch sieben Morphemtypen mit 118 Belegen in fünf Schreibvarianten vertreten. 16 Zur Gewichtung der Schreibvarianten werden diese ihrer Häufigkeit entsprechend auf den jeweiligen Morphemtyp bezogen und in Bruchteilen des Morphemtyps wiedergegeben. Dadurch werden statistische Verzerrungen, die durch unterschiedliche Belegfrequenzen der Morphemtypen entstehen, verhindert.17 Die festgestellten Verteilungen werden in Tabellenform dargestellt, wobei die Häu-

14

15

16

17

Lautposition wird niemals durch , , oder wiedergegeben und nur gelegentlich durch offenbar oberdt. beeinflusstes . Dies betrifft, wenn man von den durch w-Gemination entstandenen Fällen absieht, die Wortformen auch (155), auge (4), straum (4), bäum (2), glauben (2), lauffen (1), verkaufft (1). Aus diesen Gründen ist diese Lautposition nicht in die folgenden Untersuchungen einbezogen worden. Vgl. dazu die Forschungsberichte bei Schmidt (1986:137-138), de Vaan (1999:31-35). Über die Akzentverhältnisse in den neuripuarischen Dialekten Münch (1904), Müller (1912), Welter (193 8). Zur Veranschaulichung des Verfahrens werden für diesen Beispielfall alle Schreibvarianten mit ihren Beleghäufigkeiten aufgelistet: broeder 'Bruder' (64), broder (7), bruder (1); moeder 'Mutter' (31), moder (1); goede 'gute' (32), gude (5), gode (2), guede (1); goede 'dem Gute' (10), goide (1); bloede 'dem Blute' (6), bloyde (\);foeder 'Fuder' (2); hoede 'Behütung' (2); loeden 'sie luden' (2); vermoeden 'vermuten' (2); blodich 'blutig' (1), bloedige (1); moede 'dem Mute' (1); hoemode 'Hochmute' (1); vermoedungen 'Vermutungen' (1); roder 'Ruder' (1). Die hierhin gehörenden Morphemtypen des Textes treten in folgenden Schreibungen auf: goyt 'das Gut' (38), go it (18), guyt (2), gu'yt (2), gut (1); goyt 'gut' (17), goit (7), guyt (6), gut (2); bloyt 'Blut' (8), bloit (7), bluyt (2); hoemoyt 'Hochmut' (4); moyt 'Mut' (2); loyt 'er lud' (1); zugemoyt 'zugemutet' (1). Der Berechnungsmodus bezieht die Variantenfrequenz auf die Gesamtbelegzahl eines Morphemtyps. Als Beispiel für diese Variantenberechnung dient hier das 32 mal in unflektierter Form über-

A rend Mihm

242

figkeiten der Schreibvarianten in absoluten und morphembezogenen Werten angegeben sind. Der Anteil der einzelnen Varianten bei der Realisierung der lautpositionell definierten Variablen wird für beide Frequenzwerte in Prozenten ausgewiesen. Variable

| Varianten vor sth. gebliebenem Dental, offene Silbe



{ό-d.l»} ΣΒ

Σ MT Β

abs. Frequ.

176

14

%-Anteile

100

100





MT Β

MT

Β

MT

Β

MT

Β

MT Β

MT

13

2,6

154

10,9

1

0,2

1

0,1

6

0,2

1

-

7

18

87

78

1

1,5

1

1

3

1,5

1

-

Abb. 2a: Graphematische Varianten bei der Wiedergabe von westgerm. ö vor stimmhaft gebliebenem Dental in offener Silbe (Beispiele: goede 'gute', loeden 'sie luden') Variable

Varianten vor st), gewordenem Dental, geschlossene Silbe

{°*d,t>} Σ Β

Σ MT Β





MT Β

MT

Β

MT Β

MT

Β

abs. Frequ.

118

7

71

5,7

32

0,9

3

0,1

10

0,3

2

%-Anteile

100

100

60

82

27

13

3

1

8

4

2

MT

Abb. 2b: Graphematische Varianten bei der Wiedergabe von westgerm. ö vor stimmlos gewordenem Dental in geschlossener Silbe (Beispiele: goyt 'gut', loyt 'er lud')

Aufgrund dieser Verhältniszahlen kann die Repräsentation einer Lautposition im Schreibsystem in Form von Balkendiagrammen wiedergegeben werden. Dabei erlaubt es die günstige Überlieferungslage der Agrippina hier wie in allen folgenden Fällen, die morphemtypbezogenen Prozentanteile als Grundlage zu wählen. Dieses operationalisierbare Verfahren, mit dem die regelhaften Beziehungen zwischen der Graphienverwendung und der abstrakten Lautebene unter Einbeziehung der Varianzphänomene beschrieben und sichtbar gemacht werden, rekonstruiert die Lautzuordnungsregeln und damit einen zentralen Teil des Schreibsystems. Es führt in diesem Fall zum Nachweis einer klaren komplementären Verteilung der Graphien, wobei vor stimmhaftem Dental in offener Silbe die Digraphie mit der Nebenvariante steht, während vor stimmlos gewordenem Dental in geschlossener Silbe die Digraphie mit der Nebenvariante verwendet wird. Da diese graphematische Altemanz nicht auf Zufall oder äußere schreibsprachliche Einflüsse zurückgeführt werden kann,' 8 ist davon auszugehen, dass der Komplementarität auf der schreibsprachlichen Ebene eine distributionelle Entsprechung in der gesprochenen Sprache zugrunde lag und sich daher die prosodische Realisierung dieser beiden Lautpositionen in der Kölner Bezugsvarietät des 15. Jahrhunderts unterschie-

18

lieferte Adjektiv 'gut': 32 Belege (B) = 1 Morphemtyp (MT); goyt: 17 Β = 0,5 MT; goit 7 Β = 0,2 MT; guyt 6 Β = 0,2 MT, gut 2 Β = 0,1 MT. Die Graphienwahl ist nicht durch die äußere Gestalt des Folgekonsonanten bedingt; insbesondere können die überlieferten Verteilungen nicht darauf zurückgeführt werden, dass das zweistöckige zur visuellen Verdeutlichung vor einstöckigen Schäften präferiert wurde. Ebenso ist es nicht möglich, den Graphienwechsel zwischen offener und geschlossener Silbenposition auf eine 'mechanische' Schreibregel oder eine entsprechende kanzleiinterne Schreibanweisung zurückzufuhren, da dann die Alternation bei allen Langvokalen in ähnlicher Weise und unbeeinflusst von der Folgekonsonanz auftreten müsste.

Graphematische

Systemanalyse

als Grundlage der historischen

Prosodieforschung

243

den hat. Dieser der Erwartung widersprechende Ausspracheunterschied muss so bedeutend gewesen sein, dass seine Kennzeichnung den Schreibern wichtiger war als die Kennzeichnung der lexematischen Zusammengehörigkeit von moede/moyt 'dem Mute/der Mut', loeden/loyt 'sie luden/er lud' oder bloede/bloyt 'dem Blute/das Blut' usw. O f f e n e Silbe v o r sth. g e b l i e b e n e m D e n t a l

{ό- d,|.} 14(176)

Geschlossene Silbe vor stl. g e w o r d e n e m D e n t a l

{Ö*d,>} 7(118)

Abb. 3. Graphematische Kennzeichnung der silbenstrukturspezifischen Wortprosodie vor stimmhaft gebliebenem und stimmlos gewordenem Dental (Beispiel: goede/goyt 'gute/gut') 19

Dieser Befund bestätigt zunächst die große Bedeutung, die die Folgekonsonanz und die Silbengrenze für die Wortprosodie im Mittelfränkischen besaßen; er macht aber zugleich in Hinblick auf die Tonakzentgenese weitere Untersuchungen erforderlich, da er die Annahme eines alten, spontanen TAI in Frage stellt. Dabei muss sowohl die Hypothese geprüft werden, dass der Vorläufer des TAI noch nicht dieselbe Verteilung aufwies wie in den rezenten Dialekten, als auch die Alternativhypothese, nach der die damalige Akzentverteilung bereits der heutigen entsprach, die beobachtete Prosodiealtemanz aber als eine davon unabhängige Lauterscheinung anzusehen ist. Vor einem weiter gesteckten forschungsgeschichtlichen Hintergrund muss an dem dargestellten Überlieferungsbefund auffallen, dass er im Widerspruch zu der allgemein akzeptierten Lehrmeinung steht, die auch in die neueren Auflagen der mhd. Standardgrammatik Eingang gefunden hat. Dort wird über die hier behandelten Digraphien festgestellt, 20 dass ihre nachgestellten Bestandteile , , , die in der hier verwendeten Beschreibungssprache als Deuterographen bezeichnet werden, für das Mittelfränkische den Status von freien, "rein graphischen" Varianten hätten und in derselben Weise wie das Dehnungs-Ä der modernen Orthographie ausschließlich der Funktion dienten, die Länge des vorangehenden Vokals zu kennzeichnen. Die unmittelbar evidenten empirischen Befunde der Agrippina belegen demgegenüber jedoch eine komplementäre Variantenverteilung, die nicht auf syngraphische oder andere sekundäre Bedingungsfaktoren zurückgehen kann. Da komplementäre Verteilungen aber der Beweis für das Gegenteil von freier Varianz sind, muss die These von der generellen Längenkennzeichnungsfunktion der Digraphien als widerlegt gelten. Um die Reichweite, die dieses Ergebnis hat, zu prüfen, ist es notwendig, die Argumente, auf denen die herkömmliche Auffassung beruht, aufzusuchen und sie in ihrer Beweiskraft mit den vorgestellten Befunden zu vergleichen.

19

20

Links und rechts des Balkendiagramms werden jeweils in geschweiften Klammern die lautpositionellen Variablen angegeben, darunter ihre absolute Auftretensfrequenz nach Morphemtypen (types) und in Klammem nach Belegwörtern (tokens). Die Höhe dieser Werte steht in einer Beziehung zur Verlässlichkeit der errechneten Prozentverteilungen. Paul (1989, § 156,4, § 165,6), ähnlich Reichmann/Wegera (1993:33).

244

Arend Mihm

Dabei zeigt sich, dass die Durchsetzung der Längenkenrizeichnungsannahme im Wesentlichen auf Franck (1902) zurückgeht und in demselben Aufsatz begründet wurde, der auch für die Zurücksetzung der schreibsprachlichen Überlieferung entscheidend war. In ihm verwirft Franck die bis dahin gültige Deutung der Digraphien als Diphthonge oder Diphthongoide, und zwar ausschließlich mit der Begründung, dass es nach damaligem Verständnis der Lautgesetze keine hinreichende Erklärung für entsprechende Diphthongierungen gebe bzw. dass die vorgebrachten Erklärungen dafür unzureichend seien. Franck liefert aber keinen positiven Beweis dafür, dass die historischen Digraphien in konkreten Fällen Langmonophthonge bezeichnet hätten, sondern erklärt dies sogar ausdrücklich als unbeweisbar, indem er feststellt: "außerdem ist jedes ae, oe u.s.w. zweifelhaft, ob es ä-3, ö-9 oder eben ä, δ m e i n e " (1902:400). Dementsprechend beruht sein Beweisansatz ausschließlich darauf, dass er ein Modell dafür entwickelt, wie damals ein solches Längenkennzeichnungssystem entstehen konnte. Auch dieses Modell aber, das nur die Möglichkeit der Hypothese begründet hätte, kann, wie ich an anderer Stelle gezeigt habe, nicht aufrecht erhalten werden. 2 ' Der A n n a h m e einer längenkennzeichnenden Funktion der Digraphien k o m m t daher, obwohl sie als Tatsachenbehauptung tradiert wird, nur der Status einer unbeweisbaren Hypothese zu, die beim Auffinden eines Gegenbeweises hinfällig ist. Da ein solcher Beweis durch das Schreibsystem der Agrippina für das Ripuarische des 15. Jahrhunderts erbracht wird und für andere Regionen und Zeiten bereits vorliegt, 22 besteht generell keine Berechtigung mehr dafür, historische Digraphien wie , , usw. als gleichbedeutende Kennzeichnungen für einen entsprechenden Langmonophthong aufzufas-

21

22

23

Franck ging dabei einerseits von sprachhistorisch unzutreffenden Voraussetzungen aus und berücksichtigte andererseits nicht, dass die frühen Digraphien eine lautstrukturell bedingte Kontextverteilung aufweisen, die mit einer Längenkennzeichnungsfunktion unvereinbar ist (Mihm 1999:167-177). Klein (20006:19-20) nimmt auf diese Argumente Bezug, indem er seine frühere Auffassung über "das schon 1169 voll ausgebildete mittelfränkische Dehnungs-/" (1995:48) revidiert. Er möchte aber dennoch an Francks Hypothese festhalten, ohne allerdings die unübersehbaren Widersprüche aufzulösen oder den fehlenden Nachweis dafür zu erbringen, dass die Digraphien in einem konkreten Fall zur Längenkennzeichnung verwendet wurden. Ähnlich Möller (2000:59-61). Vgl. für das Rheinmaasländische des 14. und 16. Jahrhunderts Elmentaler (1998a, 1999, 20006) und für das Kölnische des 12. Jahrhunderts Mihm (1999). Methodisch unzulässig ist es auch, die Digraphien in eklektischer Weise teils als Umlaut-, Diphthong- und Längenkennzeichen aufzufassen, wie Dornfeld (1912:97) es vorschlägt: "Denn es könnte sehr wohl sein - und es ist in der Tat so - dass es [das nachgestellte i] nicht bei allen Schreibern gleiche Funktion hat; hier mag es nur Länge-/, dort Länge- und Umlauts-i, bei einem anderen wieder Länge- und Qualitäts-ι sein." Wenn in einem Text nebeneinander die Schreibungen loiffen 'laufen', roiffen 'rufen' und groisser 'größer' vorkommen, ist die Behauptung nicht sinnvoll, dass der Schreiber im ersten Fall mit der Digraphie einen Diphthong, im zweiten eine Länge und im dritten einen Umlaut kennzeichnen wollte. Es ist vielmehr im Gegenteil festzustellen, dass der Schreiber in allen drei Fällen eine spezifizierende Vokalkennzeichnung unterlassen hat.

Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung

245

3. Ansätze zu einer überlieferungsgestützten Tonakzenterklärung

3.1

Gab es eine spontane Akzentuierung der tieferen Langvokale?

Es ist das bleibende Verdienst Konstantin Nörrenbergs, in einem 1884 erschienenen Beitrag nicht nur die erste systematische Beschreibung des TAI vorgelegt, sondern auch auf die Parallelität der kombinatorischen Bedingungen hingewiesen zu haben, die zwischen der rezenten Akzentverteilung und der Digraphienverwendung in historischen Texten des Mittelfränkischen besteht. Auch wenn seine phonetischen Schlussfolgerungen aus den handschriftlichen Befunden vor dem Hintergrund der heutigen Untersuchungsmethoden keinen Bestand mehr haben können, so ist doch seine Ausgangsbeobachtung im Zuge der Zurücksetzung der Schreibsprachen sicherlich unverdient in Vergessenheit geraten. Eine andere Auffassung Nörrenbergs, die wesentlich problematischer ist, hat dagegen in der späteren Forschung eine große Verbreitung gefunden und liegt daher fast allen Erklärungsansätzen zur Entstehung der Tonakzente zugrunde. Nörrenberg folgerte nämlich daraus, dass TAI bei den tieferen Langvokalreihen kontextunabhängig in allen Positionen auftritt, dass die Akzentuierung hier spontan eingetreten sein müsse und dass dieser Erscheinung daher ein höheres Alter zukomme als der kombinatorischen Akzentuierung der höheren Vokalreihen. Frings (1916:85-88, 93) hat den Gedanken der alten, spontanen Akzentuierung weiter konkretisiert, so dass es ihm sicher schien, "dass die Schärfung als freier exspiratorischer Accent in vorliterarischer Zeit unter romanisch-keltischem Einfluss an die alten ä-, e-, ö-Laute herangetreten ist", wohingegen er den kombinatorischen Akzent ins Spätmittelalter datierte. Bach (1921:282-285) leitete den spontanen Akzent aus einer allgemein gültigen längeren Tondauer der tieferen Vokale ab und gab ihm damit eine zeitlose bzw. in die Frühgeschichte weisende Datierung. Die kombinatorische Akzentuierung, die er sich nach der Kurzvokaldehnung in offener Silbe entstanden dachte, sah er wie Frings als spätmittelalterlich an. Ebenso betrachtet noch de Vaan (1999:34-35, 41) den Gegensatz zwischen den tieferen und höheren Langvokalen als vorkarolingisch, während er die kombinatorische Akzentverteilung bei den höheren Längen erst in die Zeit der Kurzvokaldehnung setzt. Die herkömmlichen Erklärungen der Tonakzentgenese konvergieren also in dem Punkt, dass sie eine Teilung des Langvokalsystems in eine obere und eine untere Hälfte vornehmen, wobei der Gegensatz zwischen kombinatorischer und kontextunabhängiger Akzentuierung sowohl mit dem Öffnungsgrad der Langvokalreihen als auch mit dem Entstehungsalter der Akzentuierung in Zusammenhang gebracht wird. Die angenommene Trennungslinie verläuft dabei zwischen der Vokalreihe {ai, äu, au} mhd. ei, öu, ou und der durch die ahd. Monophthongierung davon abgespaltenen Vokalreihe {ai, äu, au} mhd. e, oe ό. Obwohl diese Grenzziehung sich im Folgenden als problematisch erweist, wird der Einfachheit halber die Ausdrucksweise von den 'höheren' und 'tieferen' Langvokalreihen im Sinne dieser Zweiteilung beibehalten, allerdings in einfachen Anfuhrungszeichen.

246

Arend Μ ihm

o. Silbe

g. Silbe

o. Silbe

ί g. Silbe

o. Silbe

g. Silbe

{ϊ-sth.}'

{i*s,h.}2

{Ü-srt,.}'

i {ü-s,h.}2

{Ü-sth.}1

{Ü'sth.}2

{ϊ-st. > 2

(W

{Ü-s.1.}2

j {ü.st,.}2

{Ü-s«l.}2

{Ü.s„.}2

{ai-sth.}'

{ai.sth.} 2

{äu-sth.} 1

1 {äu.sth.}2

{au-sth.}

{au.slh.}2

{ai-sti.} 2

{ai-sti.} 2

{äu-sti.} 2

I {äu.st,.}2

{au-sti.}2

{au.sti.}2

2

{ai. ä}'

{äu}1

{au}1

R eo}1

{ö}1

{ö}'

{ä}1

Abb. 4: Die angenommene Zweiteilung des Lang vokal systems nach dem Kriterium der kombinatorischen und der spontanen Akzentuierung. Projektion der rezenten Verteilung von TAI und T A 2 auf das lauthistorische Bezugssystem 2 4

Die kontextunabhängige Akzentverteilung bei den 'tieferen' Vokalreihen, die in Abb. 4 den unteren Teil des Rechtecks einnehmen, hat in der bisherigen Forschung besonders intensives Interesse gefunden, da man annahm, dass sie die früheste Entwicklungsstufe darstelle. Dagegen wurde der kombinatorischen Akzentuierung der beiden 'höheren' Vokalreihen deutlich weniger Aufmerksamkeit geschenkt, obwohl gerade sie im heutigen Mittelfränkischen eine bemerkenswerte Verteilung aufweist, von der wichtige sprachhistorische Aufschlüsse zu erwarten sind. Charakteristisch ist dabei, dass bei Stimmhaftigkeit des Folgekonsonanten die Silbenposition eine entscheidende Rolle spielt, wobei die offene Silbe TAI erhält, die geschlossene TA2. Bei Stimmlosigkeit des Folgekonsonanten bleibt demgegenüber die Silbenposition ohne Bedeutung, und es steht in beiden Stellungen TA2. Auf diese Weise ergibt sich im Neuripuarischen für die Lautpositionen dieser Vokalreihen jeweils ein spezifisches 1:3-Distributionsmuster, ζ. B.:

24

Die beiden Langvokalreihen im oberen Rechteck entsprechen lautetymologisch den mhd. Reihen wise-liute-hüse, reise-tröumen-ouge, die drei im unteren Rechteck den mhd. Reihen sele-hcerenlönen, bieten-vüeren-bruoder, släfen. Die in diesem Beitrag als Bezugssystem verwendeten westgermanischen Lautpositionen sind durch Diakritika und tiefgestellte Indizes charakterisiert. Dabei bedeutet das Umlautzeichen die Position vor i, j in der Folgesilbe, der unterlegte Bogen die im Ahd. monophthongierten Diphthonge, der Zirkumflex die westgermanischen Langvokale, der nachgestellte Bindestrich offene Silbenposition, der nachgestellte Stern geschlossene. Im tiefgestellten Index wird die Folgekonsonanz charakterisiert. Im konkreten Fall bedeuten - slh offene Silbenposition mit stimmhafter Folgekonsonanz, -s,i offene Silbe mit stimmloser Folgekonsonanz. Die hochgestellten Indizes kennzeichnen die Tonakzente.

Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung [kii'ma] 'keimen' [ri:2fa] 'reifen'

[ki:2m] 'Keim' [ri:2f] 'reif

[fu:'l9] 'faulen' [bru: 2 xa] 'brauchen'

247

[fu: 2 l] 'faul' fbru: 2 x] 'Brauch'

Die Gründe, warum dieser kombinatorischen Verteilung der 'höheren' Vokalreihen ein geringeres Alter zuerkannt wurde als der kontextunabhängigen Verteilung der 'tieferen', sind in der bisherigen Forschung nicht explizit behandelt worden. Doch haben möglicherweise die beiden nahe liegenden Vermutungen eine Rolle gespielt, dass kontextunabhängige Verteilungen auf eine Herkunft aus spontanem Lautwandel deuten und dass spontaner Lautwandel auf ältere Ursprünge zurückgeht als kombinatorischer. Beiden Annahmen aber kommt keine generelle Gültigkeit zu,25 so dass der herkömmliche Erklärungsansatz nur einen von mehreren darstellt. Unter diesen Möglichkeiten verdient vor dem Hintergrund der schreibsprachlichen Überlieferung vor allem die konverse Hypothese eine eingehende Überprüfung, nach der die kombinatorische Akzentuierung, die heute nur in den 'höheren' Vokalreihen gilt, den älteren Zustand repräsentiert, der einmal im ganzen Langvokalsystem Gültigkeit hatte und erst durch sekundäre Entwicklungen bei den tieferen Vokalreihen ausgeglichen oder überdeckt worden ist. Da die Tragfähigkeit dieser zweiten Hypothese bisher noch nicht diskutiert und mit dem traditionellen Erklärungsansatz verglichen worden ist, sollen im Folgenden die graphematischen Befunde zunächst unter diesem Gesichtspunkt analysiert werden. Dabei ist einerseits die Frage zu prüfen, ob es im 15. Jahrhundert bei den unteren Langvokalen in ähnlicher Weise wie heute eine kontextunabhängige Prosodieverteilung gab, andererseits die Frage, ob damals schon eine Spaltung des Langvokalsystems in eine obere und eine untere Hälfte erkennbar ist. Hinsichtlich der ersten Frage ist vor allem zu klären, ob die bei {ödil,} festgestellte Alternanz vom Typ goede/goyt 'gute/gut' als Ausnahmeerscheinung anzusehen ist oder ob ein entsprechender Wechsel auch bei anderen velaren Längen und vor anderen Folgekonsonanten galt. Dazu wurden alle Belege für die Lautpositionen {6} (Beispiel: sloegen 'schlugen'), {ö} (Beispiel: genoegen 'genügen'), {au} (Beispiel: roede 'rote'), {äu} (Beispiel: boese 'böse') vor den ehemals stimmhaften Obstruenten {b, d, i>, g, s} im Textkorpus der Agrippina ermittelt und hinsichtlich ihrer graphematischen Realisierung in offener und geschlossener Silbe verglichen. Abb. 5 belegt eine prosodische Alternanz für alle mittelhohen velaren Längen vor ehemals stimmhaften Obstruenten, die schwer mit der Annahme einer für beide Silbenpositionen identischen Akzentuierung zu vereinbaren ist. Es wird daraus aber auch deutlich, dass dem silbenspezifischen Wechsel der Prosodie damals eine außerordentliche Auffälligkeit zugekommen sein muss. Denn die Schreiber haben gänzlich darauf verzichtet, die relevanten segmentalphonologischen Oppositionen, die dem mhd. /uo/, /üe/, /ö/, / « / und dem nhd. /u:/, /y:/, /o:/, !wJ entsprechen, schreibsprachlich zu differenzieren, und heben stattdessen den Kontrast zwischen der offenen und der geschlossenen Silbenposition mit solcher Deutlichkeit hervor, dass dabei die vier verschiedenen Phoneme jeweils graphematisch zusam-

25

Grundsätzlich kann die kontextfreie Verteilung von Lautmerkmalen noch nicht als Indiz für die Entstehung durch spontanen Lautwandel gewertet werden, da sie mit gleicher Wahrscheinlichkeit auch aus Generalisierungsprozessen hervorgegangen sein kann. Auch eine nachgewiesene Herkunft aus spontanem Wandel besagt aber noch nichts über das Alter einer Verteilung oder die relative Priorität gegenüber einer entsprechenden kombinatorischen Verteilung.

248

A rend Μ ihm

menfallen. Diese quer zu den lautsegmentalen Oppositionen verlaufende Differenzierung hat in den heutigen Dialekten bei den mittelhohen velaren Längen keinerlei Entsprechung mehr und konnte daher mit den Mitteln der dialektrückschließenden Methode auch nicht rekonstruiert werden. Insgesamt machen diese Befunde die Annahme wahrscheinlicher, dass im 16. Jahrhundert für diese Lautpositionen eine spontane, unabhängig von der Silbenstruktur gültige Akzentuierung keine erkennbare Bedeutung besaß, sondern dass sich damals in offener und geschlossener Silbe zwei unterschiedliche Prosodiemuster gegenüberstanden, von denen das eine hauptsächlich durch , das andere durch , wiedergegeben wurde. O f f e n e Silbe vor sth. g e b l i e b e n e m Obstr. 28%.

Geschlossene Silbe vor stl. g e w o r d e n e m Obstr.

69%·

:11:1

·.. : 53%·:·: {äU*

b,d,|>.g,s}

5(32)

• H E] E3 • sonstige Abb. 5: Silbenstrukturspezifische Prosodie der mittelhohen velaren Längen (Beispiele sloegen/sloich 'schlugen/schlug', genoegen/genoichlich 'genügen/genügsam', roede/roit 'rote/rot', boese/boißte 'böse/böseste')

Die Verteilungsbedingungen dieser beiden Prosodiemuster weisen eine unübersehbare Übereinstimmung mit der gegenwärtigen Akzentalternanz bei den 'höheren' Vokalreihen auf. Denn dort gilt dieselbe durch konsonantischen Silbenschluss und stimmhafte Folgekonsonanz bedingte Distributionsregel, wobei in offener Silbe vor stimmhaft gebliebenen Obstruenten der TAI steht, in geschlossener Silbe der TA2. Die neuripuarischen Alternanzen [kle:'d3K/kle:2t] 'Kleider/Kleid', [ d o u ' v a A W f ] 'taube/taub', [hu:'z3/hu: 2 s] 'hausen/Haus' stehen also in einem analogen Verhältnis zu den graphematischen Alternanzen roede/roit 'rote/rot', sloegen/sloich 'schlugen/schlug', boese/boißte 'böse/böseste'. Die Annahme liegt daher nahe, dass die heute nur noch in zwei Vokalreihen vorhandene Alternanz damals im gesamten Langvokalsystem gegolten hat, und es scheint daher berechtigt, das durch wiedergegebene Prosodiemuster aufgrund der Verteilungsübereinstimmungen als Vorstufe von TAI anzusetzen und als Prosodiemuster 1 (PM1) zu bezeichnen, das durch bzw. wiedergegebene Prosodiemuster dagegen als PM2. Durch die in Abb. 5 sichtbar gemachten Befunde ist die Frage noch nicht vollständig beantwortet, ob im 15. Jahrhundert eine Dichotomie des Langvokalsystems nach dem Kriterium des Öffnungsgrades bestanden hat bzw. ob sich entsprechende Spuren davon im historischen Schreibsystem erkennen lassen. Zur Klärung wurden stellvertretend fur die höchste und tiefste Vokalreihe die Lautpositionen {ü} und {ä} hinsichtlich ihrer graphematischen Realisierung in den entsprechenden Kontexten analysiert und mit den Befunden für {ö} vergleichbar gemacht.

Graphematische

Systemanalyse

als Grundlage der historischen

O f f e n e Silbe vor sth. g e b l i e b e n e m Obstr.

Prosodieforschung

249

Geschlossene Silbe vor stl. g e w o r d e n e m Obstr.

• H B • •, sonstige Abb. 6: Silbenstrukturspezifische Prosodie der velaren Längen vor ehemals stimmhaften Obstruenten (Beispiele: huse/huys 'dem Hause/das Haus', sloegen/sloich 'schlugen/schlug', raede/rait 'dem Rate/der Rat')

Aus Abb. 6 wird zunächst deutlich, dass der bisher nur bei den mittelhohen velaren Längen beobachtete prosodische Wechsel in offener und geschlossener Silbenposition im 15. Jahrhundert unabhängig vom Öffnungsgrad der Vokale Gültigkeit hatte und auch bei {ü} und {ä} durch das Schreibsystem der Agrippina reflektiert wird. Dies stützt die Annahme, dass die in den rezenten Dialekten bei {ü} noch vorhandene Alternanz [hu:'z3/hu: 2 s] 'hausen/Haus' damals auch in den anderen Vokalreihen bestanden hat und dort erst in der weiteren neuzeitlichen Entwicklung ausgeglichen wurde. Bei der Ausprägung dieser Alternanzen zeigen sich jedoch deutlich vokalspezifische Besonderheiten. In der geschlossenen Silbe dominieren zwar überall Digraphien mit den Deuterographen bzw. , die bei der Interpretation von Abb. 5 als Hinweis auf PM2 gewertet wurden, in offener Silbe sind Digraphien mit dem Deuterographen , die als Indikator für PM1 galten, jedoch nur bei den mittelhohen Vokalen dominant, bei {ä} bleiben sie unter 40%, und bei {u} fehlen sie fast ganz, obwohl die Digraphie im Schreibsystem zur Verfugung stand.26 Die in der geschlossenen Silbe vorherrschenden Digraphien bzw. , stehen hier also hauptsächlich im Kontrast zu den Monographien und . Geht man davon aus, dass die Schreiber aufgrund ihrer damals noch lateinischen Ausbildung jene Lautwerte, die den lateinischen Monophthongen ähnelten, mit den entsprechenden Elementarzeichen wiedergaben, die davon abweichenden aber mit Sonderzeichen, dann könnte man folgern, dass der Lautwert für {ü} in offener Silbe keine besondere prosodische Markierung besaß, so dass ihm ein Prosodiemuster 0 (PMO) zuzuordnen wäre. In diesem Sinne überwöge also bei den Entsprechungen von {6} eine PM1/PM2-Alternanz, bei denen von {ü} dagegen eine PM0/PM2-Alternanz. Dieser Unterschied kann jedoch nicht mit dem Öffnungsgrad der Vokale zusammenhängen, denn auch bei {ä} überwiegt die PM0/PM2-Verteilung. Da die Überlieferung keine Hinweise auf eine Zweiteilung des Langvokalsystems in 'höhere' und 'tiefere' Vokalreihen gibt, ist zu prüfen, ob die phonologiehistorischen Gründe gewichtig genug sind, um diese dennoch fur das 15. Jahrhundert in Anspruch zu nehmen. Grundsätzlich gibt es für eine relative Verkürzung der Tondauer mit zunehmendem

26

Für die Lautposition {ü} wird nur in den lateinischen Lehnwörtern kreatuere verwendet, häufiger erscheint für {iu} und für {6}.

und natuere

Arend Mihm

250

Schließungsgrad eines Vokales, auf die Frings, Bach und de Vaan Bezug nehmen, zahlreiche empirische Belege, so dass ihr durchaus universelle Bedeutung zukommen kann (de Vaan 1999:31). Aus diesem Sachverhalt ergibt sich jedoch nur eine Staffelung der Tondauer nach dem Öffnungsgrad, die erklären könnte, warum sich bestimmte Lautneuerungen von unten nach oben bzw. von oben nach unten durch das Vokalsystem ausbreiten. Für eine Zweiteilung des Vokalsystems müsste aber eine zusätzliche Begründung gefunden werden, und ebenso für den spezifischen Verlauf dieser Grenzziehung. Dabei wäre vor allem zu klären, ob und wann die aus der ahd. Monophthongierung hervorgegangene Reihe {ai, äu, au}, mhd. sele-haeren-lonen, neuripuarisch [zi:'l - hy:'ra - lu:'na] einen größeren Öffnungsgrad und damit eine längere Vokaldauer gehabt haben kann als die Reihe {ai, äu, au}, mhd. reise-tröumen-ouge, neuripuarisch [re:'s - drai'ma - ο:'χ]. Die beiden neueren phonologiehistorischen Rekonstruktionen der ripuarischen Vokalentwicklung (Wiesinger 1975:40; Klein 1993:51) lassen kaum Raum fur eine derartige Annahme. Sie wäre aber die Voraussetzung dafür, dass die in diesem Beitrag beibehaltene Ausdrucksweise von den 'höheren' und 'tieferen' Vokalreihen eine inhaltliche Berechtigung erhielte. Schließlich aber müsste sich, wenn man für gleiche Ursachen gleiche Wirkungen annimmt, auch eine Antwort darauf finden lassen, warum eine solche, als allgemeingültig angenommene Zweiteilung in anderen Dialekten keine vergleichbaren Erscheinungen hervorgerufen hat (vgl. Schmidt 1986:106, 138, dagegen de Vaan 1999:32). Aufgrund dieser Überlegungen ergibt sich also keine Notwendigkeit, in Entsprechung zu den rezenten Verteilungen eine historische Dichotomie des Langvokalsystems anzusetzen.

3.2

Zur Distribution und Entstehungsgeschichte des Prosodiemusters 2

Verfolgt man die Alternativhypothese weiter, nach der die heute in den 'höheren' Vokalreihen geltenden Tonakzentverhältnisse die ältere Verteilung darstellen, die während des 16. Jahrhunderts in einer entsprechenden Vorform noch für das ganze Langvokalsystem Gültigkeit hatte, dann stellt sich zunächst die Aufgabe, die historischen Verteilungsregeln der prosodischen Alternanz näher zu bestimmen. Dazu ist vor allem die Rangfolge der verschiedenen Distributionsbedingungen festzustellen, da dadurch Rückschlüsse auf die Genese der Prosodiemuster zu erwarten sind. Die bisherigen Beobachtungen, die sich ausschließlich auf die ehemals stimmhaften Obstruenten bezogen, ließen noch keine präzise Bestimmung der begünstigenden Faktoren zu, weil in Fällen wie goede/goyt 'gute/gut' in offener Silbe eine Kombination mit stimmhafter Folgekonsonanz vorlag, in geschlossener Silbe eine Kombination mit stimmloser. Um festzustellen, welcher von diesen beiden Faktoren dabei als ausschlaggebend zu gelten hat, sind daher die Verhältnisse vor Sonoranten in Betracht zu ziehen, da sie ihre Stimmhaftigkeit im Auslaut beibehalten. Dazu wurden alle Belege der Agrippina für die mittelhohen velaren Langvokale {ö, ö, au, äu} vor einfachen Sonoranten nach dem Verfahren der graphematischen Systemanalyse ausgewertet.

Graphematische

Systemanalyse

als Grundlage der historischen

Prosodieforschung

251

{MVL- „} 8(50)

{MVL* „} 13(145)

{MVL- „,) 2(10)

{MVL* m} 3(103)

{MVL- r} 10(59)

{MVL* r} 10(192)

{MVL-1} 2(14)

{MVL* ,} 1 (32)

Abb. 7: Prosodische Alternanz vor Sonoranten bei den mittelhohen velaren Langvokalen (MVL) {ö, ö, au, äu} (Beispiele: versoenen/versoynt 'versöhnen/versöhnt', doeme/doym 'dem Dome/der Dom', hoeren/hoyrt 'hören/er hört', stoele/stoyl 'dem Stuhl/der Stuhl')

Der silbenspezifische prosodische Wechsel, wie er vor stimmhaft gebliebenen und stimmlos gewordenen Obstruenten festgestellt worden war, ist in der Abb. 7 in etwas anderer Besetzung, aber mit ebenso großer Deutlichkeit auch vor Sonoranten zu erkennen, was bedeutet, dass nicht das Kriterium stimmhafte versus stimmlose Folgekonsonanz die ausschlaggebende Determinante fur die beobachteten Alternanzen darstellt, sondern die Stellung in offener oder geschlossener Silbe. Weiterhin wird deutlich, dass das durch die Graphien , repräsentierte PM2 die regelmäßigste Verteilung besitzt, indem es überall in geschlossener Silbe mit zweimorigem Kern dominiert. Das durch repräsentierte und für die offene Silbe charakteristische PM1 zeigt ein deutlich abgestuftes Auftreten, das der Sonoritätshierarchie folgen könnte, und steht in einer entsprechenden Konkurrenz zu dem ebenfalls in offener Silbe gültigen ΡΜ0, das durch die Elementargraphie angezeigt wird. Aus dieser synchronischen Verteilung ergeben sich noch keine Hinweise darauf, welches der beiden in offener Silbe konkurrierenden Prosodiemuster das ältere ist; doch zeigt ein Blick in die frühere Kölner Überlieferung, dass dort die PM0/PM2-Verteilung, die in der Agrippina vor Nasalen wie bei kronen/kroynt 'krönen/krönt' und ebenso bei {ü} (vgl. Abb. 4, Beispiel huse/huys 'dem Hause/das Haus') als Regelfall angesehen werden kann, allgemeine Gültigkeit hatte und damit als die historisch ältere Form anzusehen ist. Diese Verteilung ist aber nicht nur in ripuarischen Texten seit dem 13. Jahrhundert reichlich belegt, sondern auch in denen des nördlich angrenzenden Rheinmaaslandes, und sie tritt besonders früh und besonders ausgeprägt in Flandern und Brabant auf. Dort allerdings wird PM2 in den entsprechenden Fällen meist mit bzw. wiedergegeben, was darauf deuten könnte, dass PM2 im Ripuarischen bereits von Anfang an in lautlich modifizierter Form auftrat. 27 Das Vorkommen der PM0/PM2-Alternanz muss jedenfalls unter distributionellem Aspekt als eine über das Mittelfränkische hinausreichende Erscheinung des gesamten Nordwestens angesehen werden, der ein höheres Alter als der PM1/PM2-Alternanz zukam. 27

Eine andere Erklärungsmöglichkeit für die unterschiedliche Schreibung bei gleicher Distribution böte die Annahme, dass sich nur die Lautzuordnungsregeln der Graphien und in den flämischen und ripuarischen Schreibsystemen unterschieden haben, wobei die flämischen stärker unter dem Einfluss der altfranzösischen Skripta gestanden hätten.

252

Arend Mihm

Neuerdings wurde von Eimentaler (1998a: 35-37) daraufhingewiesen, dass fur PM2 eine direkte Entsprechung im so genannten kleverländischen Akzent vorliegt, der nördlich des distinktiven Akzentuierungsgebietes verwendet wird und wegen seiner prosodischen Ähnlichkeit mit TA2 etwa von Wiesinger (1970:67) ebenfalls dem Trägheitsakzent (TA2) zugeordnet wurde. Dieses großräumig verbreitete, nicht distinktive Prosodiemuster muss im heutigen niederländischen Sprachgebiet bereits im 17. Jahrhundert wieder eingeebnet worden sein. Erasmus (1469-1536) nahm für die entsprechenden Lautpositionen noch diphthongische Laute wahr, während Ampzing (1590-1632) sie nur noch als Überlängen beschreibt (Caron 1972:28-51, 64-77). Erst nach dieser Zeit könnte sich also die Kennzeichnung der Langvokale in geschlossener Silbe zu einer reinen Orthographieregel des Neuniederländischen entwickelt haben. Der Bereich des kleverländischen Akzentes wäre demnach als ein lauthistorisches Reliktgebiet anzusehen, in dem sich die Einebnung der alten PM0/PM2-Verteilung nicht mehr vollständig durchsetzen konnte. Von der niederländischen Philologie wird die Möglichkeit eines besonderen historischen Lautwertes für die Digraphien in geschlossener Silbe zwar nicht grundsätzlich bestritten, 28 doch gilt im Allgemeinen die Auffassung, dass Digraphien in geschlossener Silbe einen einfachen Langmonophthong bezeichnen, der sich nicht von dem monographisch wiedergegebenen Vokal der offenen Silbe unterschieden hat. Dabei beruft man sich ausdrücklich auf die Regeln der neuniederländischen Orthographie, in der vokalische Digraphien als Längenkennzeichnung für die geschlossene Silbe dienen. Diese Rückwärtsprojektion moderner Orthographieregeln, die durchaus die Gefahr eines ungewollten Anachronismus in sich birgt, ist bereits 1887 in §1 der mittelniederländischer Grammatik van Heltens als Regel formuliert worden 29 und wurde seither nicht eingehend überprüft. So werden etwa bei Tavernier-Vereecken (1968:569-573, 583) bereits seit dem 12. Jahrhundert nicht nur die Doppelkonsonanten als Zeichen vorangehender Vokalkürze gewertet, sondern auch die Digraphien , , , und als Längenkennzeichen. Es müsste in diesen und anderen Fällen jedoch zumindest eine Erklärung dafür gegeben werden, wie beim allerersten Beginn des volkssprachlichen Schreibens derartige 'metaphorische' Zeichenbedeutungen 30 verstanden werden konnten und wie man sich die entsprechenden Entstehungsund Konventionalisierungsprozesse vorzustellen hat. Da es also als ungeklärt gelten muss, auf welchem Wege die damaligen Schreiber zu graphematischen Regeln, die eine weitgehende Übereinstimmung mit der in der frühen Neuzeit entstandenen Orthographie aufweisen, gelangen konnten, und da spontane philologische Analogieschlüsse so weit wie möglich zu vermeiden sind, wird im Folgenden von 28

29

30

So schreibt etwa Mooijaart (1992:217): "Bij de interpretatie van deze grafieen moet steeds rekening worden gehouden met het feit dat ze in veel gevallen ook kwaliteitsverschil konden uitdrukken." Dabei rechnet van Helten (1887:1) offenbar nicht mit der vielfach bezeugten Möglichkeit, dass die rein orthographischen Phänomene der Gegenwart auf lautlich relevante Erscheinungen der Vergangenheit zurückgehen, wenn er sagt: "Deze Spelling stemt, wat het grondbeginsel aangaat, met de tegenwoordige overeen. En vandaar dat we, dewijl bij gelijke schrijftwijze ook gelijke uitspraak waarschijnlijks is, dat gevolg mögen trekken, dat in de Middeleeuwsche taal niet anders, dan in de hedendaagsche, de oorspronk[elijk] lange klinker in gesloten en in open lettergrepen zuiver werd uitgesproken,..." Vor dem Hintergrund der damaligen lateinischen Schreibpraxis müssen Buchstabenfolgen, deren Bedeutung sich nicht auf die lineare Abfolge der entsprechenden Laute bezog, als Neuschöpfung eines Zeichens gelten, dessen Sekundärsignifikat von den potentiellen Lesern erst zu erlernen war.

Graphematische Systemanalyse als Grundlage der historischen

Prosodieforschung

253

einer Minimalannahme ausgegangen. Danach verfügten die frühen Schreiber beim volkssprachigen Schreiben noch nicht über ein ausgebautes eigenständiges Regelsystem mit den oben genannten 'metaphorischen' Zeichenbedeutungen, sondern richteten sich i m Wesentlichen nach den Lautzuordnungsregeln, die sie bei der vorangegangenen Lateinausbildung (Goossens 1997) oder im späteren Kontakt mit dem Altfranzösischen erworben hatten, das damals auch in Flandern und Brabant als Schreibsprache verwendet wurde (Gysseling 1949, Mantou 1972). In beiden Vorbildsprachen aber bezeichnen zwei aufeinander folgende Vokale keine Langmonophthonge, sondern Diphthonge oder Hiat. Daher wird hier von der an anderer Stelle ausfuhrlicher begründeten Hypothese ausgegangen (Mihm 2001), dass die seit dem 12. Jahrhundert in Flandern und Brabant besonders häufig und systematisch verwendeten Vokaldigraphien 31 als Diphthongoide aufzufassen sind und in geschlossenen Silben mit zweimorigem Kern jene überlange und zweigipflige Aussprache kennzeichneten, die etwa im kleverländischen Akzent eine Entsprechung findet. Die Ausbreitung dieses Prosodiemusters von einem flämisch-brabantischen Zentrum aus nach Osten und Südosten kann unter den damaligen kultur- und kommunikationsgeschichtlichen Gegebenheiten als durchaus wahrscheinlich gelten, da zu jener Zeit die flämische Sprache und die flämische Ritterkultur ein über die ganze Germania reichendes Ansehen besaßen.

3.3

Das Alter der kombinatorischen Prosodieverteilung

Das Schreibsystem der Agrippina bezeugt für das Kölnische des 15. Jahrhunderts gegenüber der alten, auch nordwestlich der Benrather Linie gültigen PM0/PM2-Distribution zwei bemerkenswerte Unterschiede. Der erste betrifft das konkurrierende Auftreten von PM1 in der offenen Silbenposition, das durch die Digraphien und angezeigt wird, der zweite besteht in einer auffallenden Abweichung der prosodischen Merkmalsverteilung vor den stimmlosen ehemaligen Plosiven, die hier eine eingehendere Betrachtung notwendig macht, {p, t, k} waren im Mittelfränkischen anders als in Flandern und anderen Gebieten nördlich der Benrather Linie durch die zweite Lautverschiebung intervokalisch zu stimmlosen Frikativen geworden und werden in der Agrippina mit den Graphien , und wiedergegeben. Vor diesen Lautpositionen ist eine grundsätzlich andere Digraphienverwendung zu beobachten als vor ehemals stimmhaften Obstruenten oder Sonoranten. Durch das obere Balkendiagramm in Abb. 8 wird die bisher behandelte und für die alten Längen vor den übrigen konsonantischen Folgekontexten charakteristische PM1/PM2Alternanz exemplifiziert, die durch die komplementäre Verteilung von , < o > einerseits und , andererseits zum Ausdruck kommt. Diese Verteilung findet, wie das untere Balkendiagramm zeigt, vor stimmlosen Obstruenten keine Entsprechung, vielmehr dominieren dort in offener wie geschlossener Silbe eindeutig die Digraphien , , was bedeutet, dass PM2 hier abweichend von allen anderen Konsonantenkontexten auch in der Pänultima auftritt. Dieser auffällige Verteilungsunterschied war möglicherweise für die Genese der rheinischen Akzentuierung von großer Bedeutung und verdient deshalb eine Erklärung, wobei vor allem auf die Standardtheorie der hochdeutschen Lautverschiebung 31

Die Schreibsprachatlanten für das 13. Jahrhundert belegen die regelmäßigste Digraphienverwendung in Westflandem und lassen eine deutliche Abstufung in östlicher Richtung erkennen (Berteloot 1984, Kt. 122; Mooijaart 1992, Kt. 90, 92, 95).

Arend Mihm

254

Offene Silbe

Geschlossene Silbe

«

{Ö- b,d,l>,g,s}

18 (203)

« 2 5S3 3 i2 $ l >>>>>>>>>>>:

{Ö- p.i.k} 6(28)

b,d,t,g,S}

14(160)

{Ö* p.t.k}

7(92) Q H • sonstige

Abb. 8: Die Prosodie vor ehemals stimmhaften und ehemals stimmlosen Obstruenten im Vergleich; hier für {o} in offener und geschlossener Silbe (Beispiele oben: sloegen/sloich 'schlugen/schlug'; unten: boiche/boich 'dem Buche/das Buch')

Bezug zu nehmen ist. Danach entwickelten sich die stimmlosen Plosive {ρ, t, k} intervokalisch zunächst zu den stimmlosen Langfrikativen [f:, s:, χ:], die anfangs auf beide Silbenränder verteilt waren und erst später nach Langvokalen verkürzt und zum Anfangsrand der zweiten Silbe wurden. 32 Vieles spricht dafür, dass die Verkürzung der Frikative beim Aufkommen des PM2, möglicherweise sogar noch im 15. Jahrhundert, nicht abgeschlossen war, so dass die Tonsilbe bei den Zweisilbern mit diesen intervokalischen Frikativen als geschlossen galt und dementsprechend PM2 erhielt. Diese auf den alten Verlauf der Silbengrenze zurückgehende Prosodieverteilung muss daher als Ursache dafür angesehen werden, dass noch im Schreibsystem der Agrippina die Digraphien , , , , die hauptsächlich für die geschlossene Silbenposition charakteristisch sind (ζ. B. rait 'Rat', sloich 'schlug', boich 'Buch'), vor den stimmlosen Frikativen regelmäßig auch in der Pänultima erscheinen (ζ. B. laißen 'lassen', roiffen 'rufen', boiche 'dem Buch'), die von der mittelhochdeutschen Grammatik bereits als offen bewertet wird (Paul 1989, § 88).

{ ü * b.d.H.g.s}

5(59) { " - p,t,k}

5(20)

{Ü* P.t.k}

3 (202)

Abb. 9: Prosodische Differenzierung vor ehemals stimmhaften und stimmlosen Obstruenten; hier fur {ΰ} in offener und geschlossener Silbe (Beispiele oben: huse/huys 'dem Hause/das Haus', unten: buyssen/uyss 'außen/aus')

Da diese prosodischen Unterschiede in Hinblick auf die Pänultima durch die Lautverschiebung bedingt sind, betreffen sie das ganze Vokalsystem und sind daher auch bei den hohen und tiefen Längen zu erwarten. Die Graphienverteilung für {ü} in der Agrippina bestätigt diese Annahme. Das obere Balkendiagramm in Abb. 9 gibt die Verhältnisse vor ehemals stimmhaften Obstruenten wieder und lässt eine auf die Silbenposition bezogene komple32

Dazu Franck (1909, § 86, 99, 117); Braune (1987, § 92, 97).

Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung

255

mentäre PMO/PM2-Verteilung mit in der offenen Silbe und in der geschlossenen erkennen. Im unteren Balkendiagramm, das die Verteilung vor stimmlosen Obstruenten kennzeichnet, gilt auch in der offenen Silbenposition zu 60% das durch , repräsentierte PM2. Dies bedeutet aber zugleich, dass die trochäischen Zweisilber mit langvokalischem Kern, die im Westgermanischen unabhängig von der Folgekonsonanz eine übereinstimmende Prosodie aufwiesen (etwa in as. brükan/sügan 'brauchen/saugen' oder ütan/hüsun 'außen/-hausen'), wie es sich auf der linken Seite von Abb. 9 abzeichnet, in zwei verschiedene Prosodieklassen gespalten wurden, so dass bruychen 'brauchen' gegen sugen 'saugen' und buyssen 'außen' gegen -husen '-hausen' stand. Dies hat eine direkte Entsprechung in den heutigen Dialekten, wo diese Zweisilber durch TA2 und TAI unterschieden werden: [bru:2xa/zu:'Y3] 'brauchen/saugen', [u:2s3/hu:'z3] 'außen/hausen' und [zu:2fo/ dui'va] 'saufen/Tauben'. Die Zweiteilung der trochäischen Zweisilber je nach Stimmhaftigkeit oder Stimmlosigkeit der intervokalischen Konsonanz bildet zusammen mit dem Prosodiemuster der geschlossenen Einsilber ein viergliedriges Verteilungsschema, bei dem drei Positionen der vierten in charakteristischer Weise gegenüberstehen. In der geschlossenen Silbenposition zeigt sich, unabhängig vom Stimmton der Folgekonsonanz, eine gleichbleibende Vokalschreibung, die zugleich identisch ist mit der Vokalschreibung im Zweisilber mit intervokalischer Stimmlosigkeit. Dagegen werden die Zweisilber mit intervokalischer Stimmhaftigkeit mit einer davon abweichenden Graphie realisiert. Auf diese Weise ergibt sich also ein 1:3-Verteilungsmuster in der Vokalschreibung, das genau dem der heutigen Tonakzente in den 'höheren' Vokalreihen entspricht.33 huse 'dem Haus' buyssen

'außen'

huys 'das Haus' uyss 'aus'

[hu:'za] 'hausen' [u:2sa] 'außen'

[hu:2s] 'das Haus' [u:2s]

'aus'

Da übereinstimmende Distributionsmuster, sofern sie nicht auf Zufall zurückgeführt werden können, als Beweise für verwandte sprachliche Erscheinungen gelten können, liegt hier das entscheidende Argument für einen Zusammenhang zwischen den schreibsprachlich bezeugten Prosodiealternanzen und den modernen Tonakzentverteilungen. Zugleich spricht dieser Befund gegen die eingangs in Erwägung gezogene Alternativhypothese, nach der die Tonakzentgenese als eine von der schreibsprachlich bezeugten Prosodieverteilung unabhängige Entwicklung anzusehen wäre. Da das graphematische Distributionsmuster aber nicht nur bei den .höheren' Vokalreihen auftritt, sondern auch bei den untersuchten Vertretern der übrigen Vokalreihen, ergibt sich die Folgerung, dass während des 16. Jahrhunderts die Vorläufer der Tonakzente noch im gesamten System der alten Längen und Diphthonge jene differenzierte Verteilung aufwiesen, die heute nur noch in der kombinatorischen Akzentuierung der .höheren' Vokalreihen erhalten ist. In den .tieferen' Reihen unterscheidet sich allerdings die graphematische Besetzung dieses Distributionsmusters in der Weise von der bei {u}, dass in der offenen Silbe vor intervokalischer Stimmhaftigkeit anstelle der Elementargraphien häufig Digraphien mit dem Deuterographen erscheinen, ζ. B.:

33

Die grundlegende Bedeutung dieses Distributionsmusters für die Verteilung der rezenten Tonakzente wurde bereits bei der Erläuterung von Abb. 4 diskutiert.

Arend Mihm

256 raede •Rate'

rait 'Rat'

sloegen 'schlugen'

laißen 'lassen'

laiß 'lass'

boiche 'Buch'

sloich 'schlug'

roedeti 'roten'

boich 'Buch'

groißen 'großen'

roit 'rot' groiß 'groß'

Aufgrand der distributionellen Übereinstimmungen zeichnet sich also eine neue Erklärungsmöglichkeit fur die charakteristische Asymmetrie der kombinatorischen Akzentverteilung ab, deren Entstehungsgeschichte bisher problematisch erschien.34 Sie ist offenbar aus dem Zusammentreffen von zwei unterschiedlichen lauthistorischen Bedingungsgefiigen hervorgegangen, die beide durch die schreibsprachliche Überlieferung bezeugt werden. Das eine von ihnen bestand in der silbenspezifischen Altemanz der zweimorigen Tonvokale, die die prosodischen Verhältnisse im gesamten nordwestlichen Sprachgebiet in der Weise veränderte, dass die geschlossene Silbenposition durch PM2 markiert wurde. Das andere beruhte auf dem spezifischen Ausprägungsgrad der hochdeutschen Lautverschiebung im Mittelfränkischen, durch den die stimmlosen Langfrikative, die aus {-p-,-t-,-k-} hervorgegangen waren, ihre silbenschließende Funktion behielten, so dass in diesen Fällen auch die Pänultima PM2 erhielt. Aufgrund dieser beiden Bedingungen ist anzunehmen, dass sich das charakteristische Distributionsmuster der kombinatorischen Akzentuierung bereits in jener Zeit ausgebildet hat, als die silbenspezifische Alternanz der zweimorigen Tonvokale ins Lautverschiebungsgebiet übernommen wurde. Der Beginn dieses Prozesses lässt sich aufgrund der schreibsprachlichen Quellen mit einiger Sicherheit ins 12. Jahrhundert datieren.

3.4 Zu den Anfangen des Prosodiemusters 1 Versteht man die durch die Agrippina für das 16. Jahrhundert bezeugten Prosodieverteilungen als eine Vorstufe der mittelfränkischen Tonakzente, dann ergibt sich die Aufgabe, wenigstens in Umrissen die Entwicklung zu rekonstruieren, die vom historischen Zustand zum gegenwärtigen geführt hat. Dabei hat man grundsätzlich davon auszugehen, dass es sich im Wesentlichen um einen Reduktions- und Einebnungsprozess gehandelt hat. Denn die historischen Prosodiekontraste besaßen ohne Zweifel eine größere Auffälligkeit als die gegenwärtigen, was schon daran deutlich wird, dass es einem heutigen Schreiber ohne entsprechende Schulung unmöglich sein dürfte, die für die Tonakzente charakteristischen Merkmale in einem normalen Schreibprozess zu berücksichtigen.35 Auch unter strukturellem Aspekt kann die neuzeitliche Entwicklung als Systemvereinfachung gekennzeichnet werden, da ein Großteil der spätmittelalterlichen Differenzierungen aufgegeben wurde. Die Wege, auf 34

35

Die Erklärungen von Bach (1921:285) und de Vaan (1999:35) nehmen die stimmhafte Folgekonsonanz als Ursache der asymmetrischen Verteilung an. Sie habe eine Verlängerung der Vokaldauer bewirkt und durch diese sei wiederum eine Senkung des Stimmtons verursacht worden. Der Nachteil dieser Herleitung liegt darin, dass die angenommenen Lautwandlungsregeln keine Allgemeingültigkeit beanspruchen können und dass sie außerdem unerklärt lassen, warum die entsprechenden Entwicklungen nicht auch in der geschlossenen Silbe vor Sonoranten eingetreten sind (vgl. [ki:'m3/ki:2m] 'keimen/Keim', [fyi'ma/Ju^m] 'schäumen/Schaum', [fu:'b/fu:2l] 'faulen/faul'). Auf diesen Tatbestand und seine sprachhistorische Bedeutung hat mich freundlicherweise Jan Goossens hingewiesen, dem ich auch in anderen Punkten für fruchtbare Anregungen und kritische Kommentare dankbar bin.

Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung

257

denen sich diese Vorgänge vollzogen haben, lassen sich allerdings vom gegenwärtigen Kenntnisstand aus nicht eindeutig bestimmen, so dass der im Folgenden dargestellte Rekonstruktionsvorschlag nur eine unter mehreren Möglichkeiten darstellt. Er beabsichtigt, mit möglichst wenigen Prozessschritten ohne besondere Zusatzannahmen auszukommen, und setzt bei jener bereits beschriebenen Spaltung der trochäischen Zweisilber an, die sich überall dort vollziehen musste, wo sich südlich der Lautverschiebungslinie das PM2 in geschlossener Silbe ausbreitete. Denn diese Neuerung muss bereits damals weitreichende Auswirkungen gehabt haben, da Wortformen mit zweimorigem Silbenkern und anschließender Reduktionssilbe eine große Verbreitung besaßen und sich im weiteren Verlauf zu einer der frequentesten Wortstrukturen entwickelten. Im ersten Entwicklungsschritt hatten diese Wortformen vor stimmloser Konsonanz eine prosodische Markierung vom Typ PM2 erhalten, während vor stimmhafter Konsonanz die entsprechenden Tonsilben mit PMO unmarkiert blieben (Abb. 10). Diese PM2/PM0Differenzierung wird durch die ripuarischen Schreibsprachen seit dem 13. Jahrhundert belegt und gilt teilweise noch in der Agrippina, und zwar bei {ü} fast generell und bei den anderen Langvokalen bevorzugt in der Stellung vor Nasal und stimmhaftem Labial. Vom Ausmaß dieses Prosodiekontrastes lässt sich eine Vorstellung gewinnen, wenn man von der durch Eimentaler (1998a) wahrscheinlich gemachten Hypothese ausgeht, dass der kleverländische Akzent eine Reliktform des ursprünglichen PM2 darstellt. Die in Abb. 10 mit den Graphien , , wiedergegebenen Silbenkerne wären dann mit phonetischen Qualitäten wie Überlänge, Zweigipfligkeit und sinkendem Stimmton verbunden gewesen (Neuse 1915:85). Dies müsste eine erhebliche Störung des bisherigen wortprosodischen Systems und einen deutlichen Gegensatz zu den Tonsilben vor stimmhafter Folgekonso-

Prosodiemuster bruychen buyssen groißer stoißen roiffen boisßen traiffen saißen

2 'brauchen' 'außen' 'größer' 'stoßen' 'rufen' 'büßen' 'trafen' 'saßen'

Prosodiemuster 0 sugen 'saugen' -husen '-hausen' schöner 'schöner' Ionen 'lohnen' grouen 'gruben' prouen 'prüfen' gauen 'gaben' quamen 'kamen'

Abb. 10: Die Spaltung der trochäischen Zweisilber durch das Prosodiemuster 2. Älterer, in der Agrippina teilweise noch erhaltener Zustand

nanz bewirkt haben. Da dieser Gegensatz jedoch keine funktionale Auslastung erhalten konnte, musste langfristig ein Systemausgleich einsetzen, der sowohl auf eine Einebnung der entstandenen Neuerungen gerichtet sein konnte als auch auf ihre Generalisierung. Geht man von der zweiten Möglichkeit aus, dann wäre das Auftreten von PM1 in offener Silbe vor stimmhafter Konsonanz als Systemausgleich durch Generalisierung aufzufassen.

258

Arend

Prosodiemuster bloißen groißer foiße boicher moißen staichen aissen straiffe

2 'bloßen' 'größer' 'dem Fuße' 'Bücher' 'müssen' 'stachen' 'aßen' 'Strafe'

Mihm

Prosodiemuster 1 roeden 'roten' boeser 'böser' bloede 'dem Blut' goeder 'Güter' 'sühnen' soenen laegen 'lagen' raeden 'raten' maele 'dem Mal'

Abb. 11: Das Prosodiemuster 1 als Systemausgleich bei den trochäischen Zweisilbern. Jüngerer, in der Agrippina weitgehend durchgeführter Zustand.

In diesem Sinne lassen sich die Digraphien bzw. , die, wie Abb. 11 veranschaulicht, in der Agrippina fur die Stellung vor stimmhaften Konsonanten charakteristisch werden, als Ergebnis eines generalisierenden Ausgleichs verstehen. Sie repräsentieren demnach eine jüngere Entwicklungsstufe, während der die Tendenz bestand, das PM2, dasvorher nur fur Zweisilber mit intervokalischer Stimmlosigkeit sowie für geschlossene Einsilber gültig war, analog auf die Zweisilber mit stimmhafter Folgekonsonanz zu übertragen. Als Besonderheit dieser Ausgleichserscheinung wäre es anzusehen, dass das durch bzw. gekennzeichnete Prosodievorbild bei seiner Übertragung auf die bis dahin unmarkierten Zweisilber eine andere phonetische Form annahm, die durch die Graphien bzw. charakterisiert wurde. Es hätte demnach eine Art fudging-Prozess stattgefunden (Trudgill 1986:60), bei dem das in der Pänultima wegen seiner Überlänge und Zweigipfligkeit sperrige PM2 in einer komprimierten Form in die neuen Kontexte übernommen wurde. Möglicherweise weisen die Digraphien und , durch die sich PM1 von dem , und des PM2 unterscheidet, bereits darauf hin, dass der zweite Gipfel des Diphthongoids einen geringeren Schließungsgrad hatte als bei PM2, was auch andeuten könnte, dass die Überlänge bereits aufgegeben war. Dieses neue Prosodiemuster muss sehr schnell eine hohe Akzeptanz erlangt haben, denn es taucht bereits zu Beginn des 15. Jahrhunderts als ripuarischer Import nördlich der Lautverschiebungslinie auf, obwohl dort Formen wie laeten 'lassen' und groete 'große' keine lauthistorische Grundlage haben, da ihre Tonsilbe immer offen geblieben ist. In Köln selbst scheint der Ausbreitungsprozess von PM1 in der zweiten Hälfte des 15. Jahrhunderts bereits weit fortgeschritten, jedoch noch keineswegs zum Abschluss gekommen zu sein, was sich an den deutlich erkennbaren Abstufungen im Schreibsystem der Agrippina ablesen lässt. In dem durch die Agrippina bezeugten Sprachzustand hatte PM1 seinen größten Verbreitungsgrad in offener Silbe vor stimmhaften Obstruenten erreicht, wo es, wie die linke Hälfte des untersten Balkens in Abb. 12 zeigt, für drei Viertel aller Fälle belegt ist. Vor Sonoranten bleibt es noch deutlich unter 50%, wobei es vor Liquiden deutlich häufiger erscheint als vor Nasalen. Besonders bemerkenswert im Sinne der Hypothese ist es, dass auch mit 9% vor stimmlosen Obstruenten auftritt, wo es möglicherweise bereits das dort übliche PM2 zu verdrängen begann. Aufschlussreich erscheint auch, dass die das PM1 kennzeichnende Graphie , wie die linke Hälfte des obersten Balkens zeigt, bereits mit 7% in der

Graphematische Systemanalyse als Grundlage der historischen Prosodieforschung

259

geschlossenen Silbenposition belegt ist, was ebenfalls im Sinne eines Ausbreitungsprozesses interpretierbar wäre.

{MVL- sll.o.} 20 (282)

{MVL-N„.} 10 (60)

{MVL- Liq„.} 12(73)

{MVL- slh.o} 41 ( 3 5 0 )

{MVL* st,.o.} 18(174) {MVL· N„} 16(251) {MVL* Liqu.} 11 (224) {MVL* stho } 40(387)

Abb. 12: Die Staffelung des Prosodiemusters 1 in Abhängigkeit von der Folgekonsonanz, dargestellt an den mittelhohen velaren Langvokalen (MLV) {ö, ö, au, äu}

Aus dieser schreibsprachlich für das 15. Jahrhundert bezeugten Prosodieverteilung lässt sich die rezente Verteilung der Tonakzente im Langvokalsystem durch einen einzigen Entwicklungsprozess herleiten, nämlich durch die fortgesetzte Generalisierung von PM1 im Sinne eines weiteren Abbaus der durch PM2 verursachten prosodischen Kontraste. Dabei zeichnen sich drei verschiedene Schritte ab. PM1 müsste zunächst in der Pänultima vor stimmhafter Konsonanz das ΡΜ0 weiter verdrängt haben, und zwar auch in der hohen Langvokalreihe. 36 Im zweiten Schritt müsste sich PM1, beginnend bei den tiefen bzw. mittelhohen Vokalreihen, auch gegenüber PM2 durchgesetzt haben und in die Pänultima vor stimmloser Konsonanz eingedrungen sein. Dadurch wäre dort die Spaltung der trochäischen Zweisilber beseitigt worden. Im dritten Schritt schließlich hätte sich PM1 bei den 'tieferen' Vokalreihen auch auf die geschlossene Silbenposition ausgebreitet und hätte auf diese Weise die silbenspezifische Alternanz eingeebnet. Die heutige Verteilung der Tonakzente im System der alten Längen wäre dann im Wesentlichen auf einen dreischrittigen generalisierenden Abbau jener prosodischen Kontraste zurückzufuhren, die durch die Übernahme von PM2 im 12. Jahrhundert entstanden waren. Dieser Abbau wäre in der Weise unvollständig geblieben, dass bei den 'höheren' Vokalreihen die beiden letzten Schritte, nämlich die Verdrängung von PM2 aus der Pänultima vor stimmloser Konsonanz und aus der geschlossenen Endsilbe nicht mehr vollzogen wurden. Geht man von der Annahme aus, dass dieser Ausgleichsprozess abgebrochen worden ist, dann könnte ein Grund dafür gewesen sein, dass durch die fortschreitende Schwa-Apokope die damals erhaltenen Prosodiekontraste doch noch eine phonologische Auslastung erhalten haben.

In die hohe Langvokalreihe {ΐ, iu, ü, u} muss PM1 bereits vorgedrungen sein, bevor sich von Süden die neuhochdeutsche Diphthongierung und von Westen die neuniederländische Diphthongierung ins Gebiet der Tonakzente vorschob. Dieser Schritt müsste daher spätestens im 17. Jahrhundert abgeschlossen gewesen sein (Goossens 1956:1998).

260

Arend Mihm

Der im letzten Abschnitt skizzierte Erklärungsvorschlag soll hier nur als ein Denkmodell für den möglichen Zusammenhang zwischen dem Stand des 15. Jahrhunderts und den rezenten Dialektverhältnissen verstanden werden. Er kann zeigen, dass sich auch von dieser Seite her keine Erklärungsschwierigkeiten für die aus der schreibsprachlichen Überlieferung gewonnenen Befunde ergeben, und bestätigt damit indirekt die Folgerungen, die daraus gezogen wurden. Um diese rückblickend noch einmal zu verdeutlichen, sind sie zu den folgenden fünf Punkten zusammengefasst. 1. Die aus der Vergangenheit überlieferten Texte stellen die sicherste Erkenntnisquelle für die Sprachgeschichte dar. Ihrem Zeugniswert kommt daher bei lauthistorischen Rekonstruktionen der Vorrang vor den Ergebnissen der dialektrückschließenden Methode zu. 2. Die historischen Schreibsprachen des Mittelalters enthalten wichtige, bisher nicht untersuchte prosodische Informationen, die sich mit variations- und distributionserfassenden Verfahren wie der graphematischen Systemanalyse aufdecken und exakt beschreiben lassen. Eine eingehende Untersuchung der historischen Prosodieverteilungen kann daher als eine Voraussetzung für die weitere Klärung der Tonakzentgenese gelten. 3. Für das 15. Jahrhundert lässt sich in Köln ein prosodischer Kontrast zwischen der offenen und der geschlossenen Silbenposition bei altem zweimorigem Kern nachweisen. Er entspricht in seiner Distribution einer seit dem 12. Jahrhundert durch die Schreibsprachen im gesamten Nordwesten der Festlandsgermania bezeugten silbenspezifischen Alternanz. Dieser Kontrast wurde im Neuniederländischen vollständig eingeebnet, während er im Mittelfränkischen bei den ,höheren' Vokalreihen in Form der Akzentuierung erhalten blieb und nur bei den ,tieferen' Vokalreihen ausgeglichen wurde. 4. In Köln bestand im 15. Jahrhundert eine prosodische Zweiteilung der trochäischen Zweisilber mit altlangem Kern. Sie lässt sich schreibsprachlich bis ins 13. Jahrhundert zurückverfolgen und ging aus dem Zusammentreffen der silbenspezifischen Prosodie mit den Ergebnissen der Lautverschiebung hervor, da die durch sie entstandenen stimmlosen Spiranten auch in der Pänultima Silbenschluss bewirkten. Diese Zweiteilung hat sich bei den .höheren' Vokalreihen in Form der Akzentuierung erhalten, während sie bei den .tieferen' in der Neuzeit ausgeglichen wurde. 5. Aufgrund der schreibsprachlichen Zeugnisse über die historischen Prosodieverteilungen im Mittelfränkischen kann die seit dem 19. Jahrhundert tradierte Annahme einer alten, spontanen Akzentuierung der .tieferen' Langvokalreihen nicht aufrecht erhalten werden. Vielmehr ist davon auszugehen, dass die kombinatorische Verteilung der Prosodie, die bei den heutigen Tonakzenten nur in den ,höheren' Langvokalreihen zum Ausdruck kommt, den älteren Zustand darstellt, der noch im 15. Jahrhundert im gesamten Langvokalsystem Gültigkeit hatte.

Graphematische

Systemanalyse als Grundlage der historischen Prosodieforschung

261

Literatur

Bach, Adolf (1921): Die Schärfung in der moselfränkischen Mundart von Arzbach (Unterwesterwaldkreis). - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 45, 266-290. Berteloot, Amand (1984): Bijdrage tot een Klankatlas van het dertiende-eeuwse Middelnederlands. Deel 1 -2. - Gent: Leonard Willems-Halettfonds. Besch, Wemer (1967): Sprachlandschaften und Sprachausgleich im 15. Jahrhundert: Studien zur Erforschung der spätmittelhochdeutschen Schreibdialekte und zur Entstehung der neuhochdeutschen Schriftsprache. - München: Francke. Bischoff, Bernhard (1986): Paläographie des römischen Altertums und des abendländischen Mittelalters. 2. Auflage. - Berlin: Erich Schmidt (= Grundlagen der Germanistik 24). Braune, Wilhelm (1987): Althochdeutsche Grammatik 14. Auflage. Bearbeitet von Hans Eggers. Tübingen: Niemeyer. Buntinx, Jean/Maurits Gysseling, (1965): Het oudste goederenregister van Oudenbiezen (1280-1344). Tekst. - Tongeren: Michiels. Caron, Willem J. H. (1972): Klank en teken. Verzamelde taalkundige studies. - Groningen: WoltersNoordhoff. Dornfeld, Ernst (1912): Untersuchungen zu Gottfried Hagens Reimchronik der Stadt Köln nebst Beiträgen zur mittelripuarischen Grammatik. - Breslau: Marcus. Eimentaler, Michael (1998a): Diachrone Schreibsprachenforschung und historische Dialektologie des Niederdeutschen. - In: Niederdeutsches Jahrbuch 121, 1-34. - (19986): Die Schreibsprachgeschichte des Niederrheins. Ein Forschungsprojekt der Duisburger Universität. - In: Dieter Heimböckel (Hg.): Sprache und Literatur am Niederrhein, 15-34. Bottrop, Essen: Pomp (= Schriftenreihe der Niederrhein-Akademie 3). - (1999): Zur phonischen Interpretierbarkeit spätmittelalterlicher Schreibsprachen. - In: Volker Honemann, Helmut Tervooren, Carsten Albers, Susanne Höfer (Hgg.): Beiträge zur Sprache und Literatur des Mittelalters in den nideren landen. Gedenkschrift für Hartmut Beckers, 87-103. Köln, Weimar, Wien: Böhlau. - (2000a): Zur Koexistenz graphematischer Systeme in der spätmittelalterlichen Stadt. - In: Michael Eimentaler (Hg.,): Regionalsprachen, Stadtsprachen und Institutionssprachen im historischen Prozess, 53-72. Wien: Ed. Praesens. - (20006): Rheinmaasländische Sprachgeschichte von 1250 bis 1500. - In: Jürgen Macha, Elmar Neuss, Robert Peters (Hgg.): Rheinisch-westfälische Sprachgeschichte, 77-100. Köln, Weimar, Wien: Böhlau (= Niederdeutsche Studien 46). - (2001): Der Erkenntniswert der schreibsprachlichen Variation für die Sprachgeschichte. Überlegungen zu den Ergebnissen eines Duisburger Graphematikprojektes. - In: Rheinische Vierteljahrsblätter 65 (im Druck). Fleischer, Wolfgang (1966): Strukturelle Untersuchungen zur Geschichte des Neuhochdeutschen. Berlin: Akademie Verlag. Franck, Johannes (1902): Alte Orthographie und moderne Ausgaben - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 27, 368-403. - (1909): Altfränkische grammatik, laut- undßexionslehre. - Göttingen: Vandenhoeck u. Ruprecht (= Grammatiken der althochdeutschen Dialekte 2). Frings, Theodor (1916): Die rheinische Accentuierung. Vorstudie zu einer Grammatik der rheinischen Mundarten. - Marburg: Elwert (= Deutsche Dialektgeographie 14). Frings, Theodor/Jacob van Ginneken (1919): Zur Geschichte des Niederfränkischen in Limburg. - In: Zeitschrift für deutsche Mundarten 16, 97-209. Gärtner, Kurt (1991): Die Williram-Überlieferung als Quellengrundlage für eine neue Grammatik des Mittelhochdeutschen. - In: Klaus-Peter Wegera (Hg.): Mittelhochdeutsche Grammatik als Aufgabe, 23-55. Berlin: Schmidt (= Zeitschrift für deutsche Philologie, 110. Sonderheft). Glaser, Elvira (1985): Studien zum Schreibsprachwandel vom 13. bis zum 16. Jahrhundert. Vergleich verschiedener Handschriften des Augsburger Stadtbuches. - Heidelberg: Winter.

262

Arend Mihm

Goebl, Hans (1976): Die Skriptologie - ein linguistisches Aschenbrödel? - In: Revue Roumaine de Linguistique 21, 65-84. Goossens, Jan (1956): Stoottoon en diftongering van Wgm. ί en ü in Limburg. - In: Taal en Tongval 8,99-112. - (1997): Nederlands leren Spellen met latijnse letters. - In: Ariane van Santen, Marijke van der Wal (Hgg.): Taal in tijd en ruimte. Voor Cor van Bree bij zijm afscheid als hoogleraar Historische Taalkunde en Taalvarietie aan de Vakgroep Nederlands van de Rijksuniversiteit Leiden, 163-169. Leiden: SNL. - (1998): Schärfung und Diphthongierung von ϊ, ü, ü. Moselfränkisch-limburgische Parallelen. - In: Peter Ernst, Franz Patocka (Hgg.): Deutsche Sprache in Raum und Zeit. Festschrift fiir Peter Wiesinger zum 60. Geburtstag, 63-70. Wien: Ed. Praesens. Gossen, Carl Theodor (1976): L'etat present des etudes sur les dialectes galloromans au moyen äge. In: Marcel Boudreault, Frankwalt Möhren (Hgg.): Actes du XHIe Congres International de Linguistique et Philologie Romanes, tenu ä l'universite Laval (Quebec, Canada), du 29 aoüt - 5 septembre 1971. Vol. 1, 19-34. Quebec: Presses de l'Universite Laval. Gussenhoven, Carlos (2000): On the origin and development of the Central Franconian tone contrast. - In: Aditi Lahiri (Hg.): Analogy, Levelling, Markedness. Principles of Change in Phonology and Morphology, 215-260. Berlin, New York: Mouton de Gruyter (= Trends in Linguistics 127). Gysseling, Maurits (1949): Les plus anciens textes fran^ais non Iitteraires en Belgique et dans le Nord de la France. - In: Skriptorium 3, 190-210. - (1977): Corpus van Middelnederlandse teksten (tot en met het jaar 1300). Reeks 1: Ambtelijke bescheiden. - 's-Gravenhage: NijhofT. Helten, Willem L. van (1887): Middelnederlandsche Spraakkunst. - Groningen: Wolters. Holmberg, John (1925): Eine mittelniederfränkische Übertragung des Bestiaire d'Amour. Sprachlich untersucht und mit altfranzösischem Paralleltext herausgegeben. - Uppsala: Almqvist & Wiksell. Hunger, Herbert (1961): Antikes und mittelalterliches Buch- und Schriftwesen. - In; Geschichte der Textüberlieferung der antiken und mittelalterlichen Literatur. Bd. 1 2 5 - 1 4 7 . Zürich: Atlantis. Jespersen, Otto (1913): Lehrbuch der Phonetik. 2. Auflage. - Leipzig: Teubner. Kettmann, Gerhard (1967): Die kursächsische Kanzleisprache zwischen 1486 und 1546. Studien zum Aufbau und zur Entwicklung. - Berlin: Akademie Verlag. Klein, Thomas (1971): Gedehntes ä und altes langes ä in der Sprache Heinrichs von Veldeke. - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 93 (Tübingen), 151 -167. - (1993): Die "neuhochdeutsche" Diphthongierung im Westmitteldeutschen. - In: Klaus J. Mattheier u.a. (Hgg.): Vielfalt des Deutschen. Festschrift für Werner Besch, 27-58. Frankfurt am Main: Lang. - (1995) Längenbezeichnung und Dehnung im Mittelfränkischen des 12. und 13. Jahrhunderts. - In: Amsterdamer Beiträge zur älteren Germanistik 42, 41-71. - (2000a): Die mittelfränkische e-Synkope und -Apokope und die Metrik des 'Rheinischen Marienlobs'. - In: Gunther Hirschfelder, Dorothea Schell, Adelheid Schrutka-Rechtenstamm (Hgg.): Kulturen - Sprachen - Übergänge. Festschrift für H. L. Cox zum 65. Geburtstag, 153-171. Köln, Weimar, Wien: Böhlau. - (2000ό): Rheinische und westfälische Sprachgeschichte bis 1300. - In: Jürgen Macha, Elmar Neuss, Robert Peters (Hgg.): Rheinisch-westfälische Sprachgeschichte, 3-48. Köln, Weimar, Wien: Böhlau (= Niederdeutsche Studien 46). Kohrt, Manfred (1998): Historische Graphematik und Phonologie. - In: Werner Besch, Anne Betten, Oskar Reichmann, Stefan Sonderegger (Hgg.): Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung!. Aufl., Bd. 1, 551-572. Berlin: de Gruyter. Lindgren, Kaj B. (1953): Die Apokope des mhd. -e in seinen verschiedenen Funktionen. - Helsinki: Suomalainen Tiedeakatemia. Mantou, Reine (1972): Actes originaux rediges en frangais dans la partie flamingante du Comte de Flandre (1250-1350). - Liege: Michiels. Meier, Robert (1998): Heinrich van Beeck und seine Agrippina. Ein Beitrag zur Kölner Chronistik des 15. Jahrhunderts. Mit einer Textdokumentation. - Köln u. a.: Böhlau (= Kölner Historische Abhandlungen 41).

Graphematische Systemanalyse als Grundlage der historischen

Prosodieforschung

263

Mihm, Arend (1999): Zur Entwicklung der Kölner Schreibsprache im 12. Jahrhundert. - In: Volker Honemann, Helmut Tervooren, Carsten Albers, Susanne Höfer (Hgg.): Beiträge zur Sprache und Literatur des Mittelalters in den nideren landen. Gedenkschrift fur Hartmut Beckers, 157-180. Köln, Weimar, Wien: Böhlau. - (2000): Zur Deutung der graphematischen Variation in historischen Texten. - In: Annelies Häcki Buhofer (Hg ): Vom Umgang mit Variation: Wissenschaftsgeschichte, Dialektologie, Soziolinguistik. Festschrift zum 60. Geburtstag von Heinrich Löffler, 367-390. Tübingen: Francke. - (2001): Das Aufkommen der hochmittelalterlichen Schreibsprachen im nordwestlichen Sprachraum. - In: Kurt Gärtner, Günter Holtus (Hgg.): Skripta, Schreiblandschaften und Standardisierungstendenzen. Urkundensprachen im Grenzbereich von Germania und Romania, 563-618. Trier: Kliomedia. Milroy, James (1992): Middle English Dialectology. - In: Norman Blake (Hg./· The Cambridge History of the English Language. Vol. 2: 1066-1476, 156-206. Cambridge: Cambridge University Press. Möller, Robert (2000): Rheinische Sprachgeschichte von 1300 bis 1500. - In: Jürgen Macha, Elmar Neuss, Robert Peters (Hgg.): Rheinisch-westfälische Sprachgeschichte, 51-75. Köln, Weimar, Wien: Böhlau (= Niederdeutsche Studien 46). Mooijaart, Maartje Agatha (1992): Atlas van Vroegmiddelnederlandse Taalvarianten. - Utrecht: Uitgever LEd. Müller, Wilhelm (1912): Untersuchungen zum Vokalismus der Stadt- und der landkölnischen Mundart. Dissertation - Bonn: Hauptmann. Münch, Ferdinand (1904): Grammatik der ripuarisch-fränkischen Mundart. - Bonn: Cohen. Neuse, Heinrich (1915): Studien zur niederrheinischen Dialektgeographie in den Kreisen Rees, Dinslaken, Hamborn, Mülheim, Duisburg. - Marburg: Elwert (= Deutsche Dialektgeographie 8), 83176. Nörrenberg, Konstantin (1884): Studien zu den niederrheinischen Mundarten. I. Die Lautverschiebungsstufe des Mittelfränkischen. II. Ein niederrheinisches Accentgesetz. III. Die Heimat des niederrheinischen Marienlobs. - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 9, 371-421. Paul, Hermann (1989): Mittelhochdeutsche Grammatik. 23. Auflage. Neu bearbeitet von Peter Wiehl und Siegfried Grosse. - Tübingen: Niemeyer. Reichmann, Oskar/Klaus-Peter Wegera (Hgg.) (1993): Frühneuhochdeutsche Grammatik. - Tübingen: Niemeyer. Schmidt, Jürgen Erich (1986): Die mittelfränkischen Tonakzente (Rheinische Akzentuierung). - Stuttgart: Steiner (= Mainzer Studien zur Sprach- und Volksforschung 8). Schmitt, Ludwig Erich (1957): Sprache und Geschichte. - In: Hessisches Jahrbuch für Landesgeschichte 7, 259-282. Steffens, Rudolf (1988). Zur Graphemik domanialer Rechtsquellen aus Mainz (1315-1564). Ein Beitrag zur Geschichte des Frühneuhochdeutschen anhand von Urbaren. - Stuttgart: Steiner (= Mainzer Studien zur Sprach- und Volksforschung 13). Stopp, Hugo (1976): Schreibsprachwandel. Zur großräumigen Untersuchung frühneuhochdeutscher Schriftlichkeit. - München: Vögel (= Schriften der Philosophischen Fachbereiche der Universität Augsburg 6). Tavernier-Vereecken, Cecile (1968): Gentse Naamkunde van ca. 1000 tot 1253. Een Bijdrage tot de Kennis van het Oudste Middelnederlands. - Brüssel: Belgisch Interuniversitair Centrum voor Neerlandistiek (= Bouwstoffen en Studien voor de Geschiedenis en de Lexicografie van het Nederlands 11). Timm, Erika (1987): Graphische und phonische Struktur des Westjiddischen unter besonderer Berücksichtigung der Zeit um 1600. - Tübingen: Niemeyer. Trudgill, Peter (1986): Dialects in contact. - Oxford: Blackwell (= Language in society 10). Vaan, Michiel de (1999): Towards an Explanation of the Franconian Tone Accents. - In: Amsterdamer Beiträge zur älteren Germanistik 51, 23-44. Weijnen, Antonius (1966): Nederlandse Dialectkunde. 2. Auflage. - Assen; Van Gorcum (= Taalkundige bijdragen van Noord en Zuid 10).

264

A rend Mihm

Welter, Wilhelm (1938): Die Mundarten des Aachener Landes als Mittler zwischen Rhein und Maas. - Bonn: Röhrscheid. Wiesinger, Peter (1970): Phonetisch-phonologische Untersuchungen zur Vokalentwicklung in den deutschen Dialekten. Bd. 1: Die Langvokale im Hochdeutschen. - Berlin: de Gruyter (= Studia Linguistica Germanica 2/1). - (1975) Strukturgeographische und strukturhistorische Untersuchungen zur Stellung der bergischen Mundarten zwischen Ripuarisch, Niederfränkisch und Westfälisch. - In: Neuere Forschungen in Linguistik und Philologie. Aus dem Kreise seiner Schüler Ludwig Erich Schmitt zum 65. Geburtstag gewidmet, 17-82. - Wiesbaden: Steiner (= Beihefte zur Zeitschrift für Dialektologie und Linguistik 13). - (1983): Dehnung und Kürzung in den deutschen Dialekten. - In: Werner Besch, Ulrich Knoop, Wolfgang Putschke, Herbert Ernst Wiegand (Hgg.): Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung. Bd. 2, 1088-1101. Berlin u .a.: de Gruyter.

Peter Gilles

Einflüsse der Rheinischen Akzentuierung auf die segmentelle Ebene. Evidenz aus dem Luxemburgischen*

In diesem Beitrag werden die lautgeschichtlichen Entwicklungslinien der mittelfränkischen Tonakzente im Luxemburgischen, also in einem Randgebiet des Areals der Rheinischen Akzentuierung (RhA) nachgezeichnet. Die Hauptfrage lautet: Was passiert mit diesem phonologischen 'Exotismus' in einer umgebenden Sprach- und Dialektlandschaft, die nur Intonationssprachen kennt? Nach einer allgemeinen Vorstellung der RhA in Abschnitt 1, werden in Abschnitt 2 die Ergebnisse einer akustisch-phonetischen Untersuchung zum Luxemburgischen vorgestellt. In Abschnitt 3 werden mögliche lauthistorische Einflüsse der RhA auf die segmenteile Ebene untersucht. Im Gesamtergebnis (Abschnitt 4) zeigt sich, dass die Tonakzentopposition im Luxemburgischen nur noch ansatzweise vorhanden ist. Die ursprünglichen Tonakzente haben jedoch ihre 'Spuren' im Lautsystem hinterlassen.

1. Die Tonakzentopposition

Für das Standarddeutsche sowie für einige Dialekte wird zur phonologischen Differenzierung von Minimalpaaren vom Typ Miete - Mitte eine Silbenschnittkorrelation angenommen (vgl. Vennemann 1991, Spiekermann in diesem Band). Als phonetische Exponenten einer solchen Korrelation werden Unterschiede in den Energieverläufen, Quantitäts- und Qualitätsunterschiede oder eine Kombination aus letzteren genannt. Phonologische Differenzierungen auf der Basis tonaler Unterschiede, wie sie ζ. B. im Schwedischen oder Chinesische genutzt werden, spielen in diesen Korrelationen keine Rolle. Für das Mittelfränkische und weite Teile des Südniederfränkischen trifft dies jedoch nicht zu. Diese Varietäten, die vollständig von reinen Intonationssprachen umschlossen sind, zeichnen sich durch das Vorhandensein von zwei phonologisch distinktiven Wortakzenten aus, der sog. 'Rheinischen Akzentuierung'. Sie teilen diese phonologische Eigenschaft mit dem Schwedischen, Norwegischen und dem Serbokroatischen. Die Dialekte des Mittelfränkischen und Teile des Südniederfränkischen sind damit zu den wort-basierten Tonsprachen zu rechnen.1 In Anlehnung an das skandinavische Tonsystem werden die beiden kontrastierenden Akzentuierungstypen nach Schmidt (1986) als Tonakzent 1 (TA 1) und Tonakzent 2 (TA 2) beschrieben.2 Die phonologische Distinktivität der Tonakzente manifestiert sich z.B. in folgenden Minimalpaaren (1).

1 2

Für wertvolle Hinweise danke ich Peter Auer und Helmut Spiekermann, fur die Unterstützung bei der akustischen Analyse Tobias Streck. Zu 'word-based tone systems' vgl. Laver (1994:462-465). Für TA 1 werden auch die Termini 'Stoßton', 'Schärfung' oder 'Correption', fur den TA 2 'Schleifton', 'Trägheitsakzent' oder 'Zirkumflexion' verwendet.

Peter Gilles

266 (1)

Tonakzent-Minimalpaare (Nördliches Moselfränkisch) 3 TA 1 TA 2 /Rei 2 f/ 'Reif /Rei'f/ 'Reibe' ^ε:2n 'Bein' /be:'n/ 'Beine' /Jte: 2 n/ 'Stein' /Jte:'n/ 'Steine' /dau 2 f/ 'Taufe' /dau'f/ 'Taube' /bROu2t/ 'Braut' /bRau't/ '(er) braut' /aiVm/ 'Arme' /a:2Rm/ 'Arm' /hec't/ 'Herde' /hEB2t/ 'Herd'

Als phonologisch distinktives Merkmal spielt damit bei den Minimalpaaren in (1) weniger die Vokaldauer oder Vokalqualität als vielmehr der Tonverlauf (i.e. Grundfrequenzverlauf) in der Wortakzentsilbe eine Rolle. Die Möglichkeit der Bedeutungsunterscheidung durch tonale Merkmale ist wohl zum ersten Mal explizit von Hardt (1843) für das Luxemburgische beschrieben worden und hat seitdem eine Fülle von dialektologischen Einzeluntersuchungen zur phonetischen Form der Tonakzente sowie zu ihrer dialektgeographischen Verteilung nach sich gezogen. 4 Da sowohl die Tonakzente als auch die Satzintonation durch das gleiche phonetische Merkmal, i.e. durch den Grundfrequenzverlauf, realisiert werden, ist bei der Beschreibung der Tonakzente jeweils auf ihre Einbettung in den satzintonatorischen Zusammenhang (mindestens: assertiv-fallend, interrogativ-steigend, weiterweisend-steigend bzw. weiterweisend-gleichbleibend) zu achten. Erst aus der Analyse der Tonakzente in der Interaktion mit der Satzintonation lassen sich spezifische Tonverläufe bzw. tonale Strukturmerkmale angeben. 5 Der häufigste Kontext dürfte wohl das Vorkommen der Tonkazente in assertivfallenden Intonationsphrasen sein. In Abb. 1 sind die kontrastierenden Tonverläufe für TA 1 und TA 2 am Beispiel des moselfränkischen Minimalpaars [dau'f] ~ [dau. 2 f] Taube ~ Taufe illustriert. 6 Für den TA 1 in [dau'f] 'Taube' ist auf dem Nukleus der Silbe eine schnell abfallende Tonbewegung zu erkennen. Oft, aber nicht systematisch, findet gleichzeitig mit dem Grundfrequenzabfall ein schnelles Absinken der Intensität statt (Heike 1983:116lf.). Eine treffende artikulatorische Beschreibung des TA 1 gibt Palgen (1931:8): "Die Schärfung [=TA 1, PG] besteht nun darin, dass der betreffende Laut von dem Moment seines Eintretens an mit vollem, energischen Exspirationsdruck gebildet, bei starkem Vibrieren der Stimmbänder, plötzlich in jähem Fall den Exspirationsdruck verliert: die Stimmbänderschwingungen hören mit einem plötzlichen Ruck auf, und der folgende Laut erfolgt rein als Artikulation der Mundorgane, ohne dass Exspiration und Stimmbänderschwingung Zeit hätten, wieder einzusetzen."

3 4 5

6

In der Transkription wird der TA 1 mit einer hochgestellten 1, der TA 2 mit einer hochgestellten 2 symbolisiert. Vgl. die Diskussion der älteren Literatur in Schmidt (1986). Zur Interaktion zwischen Ton und Intonation vgl. Gussenhoven/van der Vliet (1999), Gussenhoven/Bruce (1999). Die Specherin stammt aus dem Kemland der RhA (Mayen; nördliches Moselfränkisch).

267

Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene -i

r-

300-

200-

£ .c ö

150-

GL

100-

au 1

au/

70'Taube'

'Taufe'

500

3.38635 Time (s)

Abb. 1: Grundfrequenzdarstellung der mittelfränkischen Tonakzente im Minimalpaar [dau'f] ~ [dau2f] 'Taube' ~ 'Taufe' Infolge dieser Artikulation kann es am Vokalende zu einem vollständigen Aussetzen der Energie kommen. Demgegenüber weist der TA 2 in Taufe einen fallend-steigenden Tonverlauf auf; diese Form hat zur Bezeichnung 'Schleifton', 'zweigipfliger Akzent' oder 'Zirkumflexion' gefuhrt. Der Intensitätsverlauf in TA 2-Wörtern ist meist langsam-fallend. Ein weiterer wichtiger Unterschied zum TA 1 liegt darin, dass eine TA 2-Silbe häufig länger als eine TA 1-Silbe ist. Der TA 2 selbst kann verschiedene Formen annehmen. Neben dem fallend-steigenden Verlauf können langsam-fallende und hoch-gleichbleibende Varianten festgestellt werden. Wenn die Tonakzente in einen global steigenden (z.B. interrogativen) Tonhöhenverlauf eingebettet werden, so verändern die sie zwar ihre Form, bleiben aber dennoch distinkt. Nur in besonderen Fällen wird die TA-Unterscheidung infolge der Satzintonation neutralisiert (vgl. Jongen 1972, Gussenhoven/van der Vliet 1999). Aus dieser Abhängigkeit von der Satzintonation resultieren besondere methodische Probleme bei der Erhebung von Tonakzentdaten. Nach Schmidt (in diesem Band) besteht der zugrunde liegende phonologische Unterschied zwischen TA 1 und TA 2 in der Domänenzuweisung der tonalen Bestandteile. Für TA 1 ist die erste More des Silbenkerns, für TA 2 die zweite More relevant. Damit erhält der TA 1 auf der ersten More "einen früh fallenden oder (bei simultanem progredienten oder interrogativen Intonationsmuster) früh steigenden Ton" (Schmidt in diesem Band). Demgegenüber weist der TA 2 in allen Kontexten einen Tonhö-

268

Peter Gilles

hengipfel auf der zweiten More auf, während die erste More lediglich für den Fokusakzent genutzt wird. 7 Grundsätzlich können nur Wortakzentsilben Tonakzente tragen, die einen Langvokal, Diphthong oder einen Kurzvokal plus tautosyllabischen Sonoranten enthalten. Wortakzentsilben mit Kurzvokal und obstruentischen Folgelauten sowie unbetonte Silben lassen keine Tonakzente zu. Diese silbenstrukturelle Sensitivität verdeutlicht, dass zur Realisierung der Tonakzente ein Minimum von zwei sonorantischen Moren erforderlich ist. Die lexikalische Distribution der beiden Tonakzente richtet sich nach der Zugehörigkeit eines Lexems zu einer historischen Lautklasse sowie nach dem ursprünglichen konsonantischen Folgekontext. Im Großteil des RhA-Areals kann folgende Verteilung beobachtet werden (vgl. Wiesinger 1975, Schmidt 1986): Die heutigen Reflexe der mhd. Langvokale e - oe - ό, as, ä sowie der mhd. Diphthonge ie - üe - uo tragen ausnahmslos TA 1. Alle übrigen Kontexte, also mhd. Γ - iu - ü, ei - öü - ou, die gedehnten Kurzvokale sowie Kurzvokale plus Sonorant, tragen abhängig vom Folgekontext entweder TA 1 oder TA 2 ('kombinatorischer Tonakzent'). Der TA 1 tritt hier auf, wenn stimmhafte Konsonanz folgt bzw. ein ursprünglich stimmhafter Konsonant, der nach Schwa-Apokope auslautverhärtet wurde (z.B. mhd. düve > [dau'f]). In allen übrigen Fällen, also vor stimmloser Konsonanz und im Auslaut, steht der TA 2. In (2) ist die Distribution der Tonakzente zusammengefasst. (2)

Distribution der Tonakzente nach mhd. Lautklasse und Folgekontext 'spontaner TA 1' mhd. ie - üe - uo mhd. e-ceό mhd. as; & 'kombinatorischer TA' mhd. ΐ - i u - ü mhd. ei — öü - ou gedehnte Kurzvokale Kurzvokale plus Sonorant J

/ J\

N

stimmhafte Silbengrenze

= TA 1

stimmlose Silbengrenze/Auslaut

= TA 2

Bereits zu Beginn der RhA-Forschung wurden die Tonakzente zu Sievers' System der 'Druckabstufung des Silbenschlusses' in Beziehung gesetzt (vgl. Sievers 1901:222ff.). So z.B. von Engelmann (1910a:17) in Bezug auf das Luxemburgische: "In diesen stammsilben finden wir nämlich einen durch bestimmte gesetzte geregelten Wechsel zwischen stark und schwach geschnittenem silbenakzent (Sievers a.a.O. § 589-598)" [Hervorhebung im Original], Demnach entspricht der stark geschnittene Akzent dem TA 1 und der schwach geschnittene Akzent dem TA 2. Der Tonakzentkontrast wird damit explizit mit der Theorie des Silbenschnitts in Verbindung gebracht. Allerdings ist diese Ähnlichkeit mit Sievers' und neueren SilbenschnittaufFassungen (Vennemann 1991, Spiekermann 2000) nur oberflächlich vereinbar. Während der Sievers'sche Silbenschnitt die Alternation zwischen peripher-langen und zentralisiert-kurzen Vokalen vom Typ beten vs. Becken beschreibt, bezieht 7

Schmidts Analyse (in diesem Band) weist zwar Parallelitäten zu den autosegmentalen Untersuchungen von Bruce (1977) und Gussenhoven (2000) auf, er kommt jedoch insgesamt zu anderen Ergebnissen.

Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene

269

sich Engelmann ausschließlich auf Silbenkerne mit Langvokal/Diphthong bzw. Kurzvokal plus Sonorant vom Typ beädan 'beten' vs. gebet 'Gebet'. Doch bleibt in dieser Konzeption unklar, welchem Silbenschnitttyp Lexeme mit Kurzvokal wie bitten zuzuordnen sind. Hier wäre ebenfalls starker Silbenschnitt erwartbar. Die Konsequenzen für das Gesamtlautsystem, die sich aus der Anwendung des Silbenschnitts auf die Tonakzentkorrelation ergeben, werden jedoch von Engelmann nicht erkannt. Um die Nähe zum Sievers'schen Konzept zu unterstreichen, weist Engelmann interessanterweise explizit darauf hin, dass für ihn der Kontrast zwischen beiden Akzenttypen ausschließlich auf der unterschiedlichen Energieverteilung beruht - und nicht auf tonalen Merkmalen ("Einen entsprechenden unterschied im musikalischen accent glaube ich nicht zu konstatieren." Engelmann 19100:383). Dass die RhA tatsächlich auf einer 7o«akzentopposition basiert, wurde von ihm entweder ignoriert oder aufgrund empirisch-methodischer Schwierigkeiten übersehen.

2. Tonakzente im heutigen Luxemburgischen

Während die phonetischen Formen der Tonakzente und ihre phonologische Distinktivität im Kernland der RhA relativ gut erforscht sind (vgl. Heike 1962, Jongen 1972, Schmidt 1986, Gussenhoven/van der Vliet 1999, Gussenhoven 2000), liegen für die Randgebiete der RhA nur spärliche Ergebnisse vor. Am Beispiel des Luxemburgischen ('Letzebuergesch') sollen hier nun die phonetischen Realisierungen potenzieller Tonakzent-Wörter untersucht werden. Hauptziel dieser Analyse ist es, den Status der RhA im heutigen Luxemburgischen festzustellen (Stabilität, Variabilisierung oder Abbau). Bevor diese Prozesse dargestellt werden, ist ein kurzer Blick auf die diachrone und dialektologische Entwicklung des Luxemburgischen notwendig. Ursprünglich ein Teilgebiet des Westmoselfränkischen, hat sich das Luxemburgische seit Beginn des 19. Jh. (Gründung des Nationalstaats 1839) sukzessive aus diesem Dialektgebiet herausgelöst und ist heute sprachstrukturell und varietätenlinguistisch unabhängig sowohl von der (bundes-)deutschen Standardsprache als auch von den moselfränkischen Dialekten auf deutscher Seite. Während das Moselfränkische in Deutschland von der Standardsprache überdacht wird und als Dialekt fungiert, ist die Muttersprache 'Luxemburgisch' im System der medialen Triglossie Luxemburgs die alleinige nähesprachliche Varietät der mündlichen Kommunikation, während das Deutsche und Französische als L2- bzw. L3-Sprache überwiegend der schriftlichen Kommunikation vorbehalten sind. Auf dem Staatsgebiet Luxemburgs selbst findet sich eine reiche regionale Variabilität, die die Identifizierung von vier Dialektregionen zulässt: Die Dialektgebiete im Norden, Osten und Süden repräsentieren jeweils ältere, konservativere Sprachstufen. Das größte Dialektgebiet stellt das zentralluxemburgische Gebiet um die Hauptstadt Luxemburg-Stadt dar. Die Merkmale dieser sprachhistorisch jüngsten und progressivsten Varietät dringen zudem in einem Prozess der regionalen Nivellierung in die umgebenden Dialektgebiete ein (vgl. Gilles 1999). Die regionale Variation ist verhältnismäßig gut in einem Sprachatlas (Bruch/Goossens 1963) und diversen Ortsmonographien (Hardt 1843, 1910a,ft, Palgen 1931, 1948, 1954, Bruch 1952) dokumentiert. Diese dialekto-

270

Peter Gilles

logische Konstellation ist somit hervorragend geeignet, um sprachliche Neuerungsprozesse zu verfolgen. In der dialektologischen Forschung wird das Luxemburgische zum RhA-Gebiet gerechnet (vgl. Wiesinger 1975). Bei der Darstellung der konkreten Ausprägung der RhA kommt die luxemburgische Dialektologie jedoch zu uneinheitlichen Ergebnissen. Während Engelmann (1910αό) Tonakzente auf allen Silben annimmt, die den in (2) genannten Kriterien genügen, sind sie nach Palgen (1931) nur noch auf heute einsilbigen Lexemen vorhanden; da das Moselfränkische durch massive Schwa-Apokope und die Tilgung finaler alveolarer Nasale gekennzeichnet ist, ist die Menge der einsilbigen Lexeme auch nicht gering. Bruch (1954:70) geht noch einen Schritt weiter, wenn er postuliert, dass die RhA im Luxemburgischen weitgehend aufgehoben ist. Diese Uneinheitlichkeit hat m.E. zwei Gründe: Erstens werden in den dialektologischen Arbeiten die phonetischen Exponenten der RhA nur unzureichend geklärt (Energieverteilung?, Dauerunterschiede?, tonale Unterschiede?) und zweitens ist aufgrund der ausschließlich auditiv-phonetischen bzw. impressionistischen Transkription und der fehlenden (bzw. nicht möglichen) akustisch-phonetischen Analyse tatsächlicher Tonakzentrealisierungen mit Unsicherheiten und Ungenauigkeiten zu rechnen. Die älteren dialektologischen Arbeiten sind daher nur bedingt miteinander vergleichbar. Für das ripuarisch beeinflusste Nordluxemburgische liegt mit Goudaillier (1987) zwar auch eine akustisch-phonetische Analyse der RhA vor. Allerdings werden hier nur wenige Wortpaare gegenübergestellt, und die Unterschiede zwischen den einzelnen Realisierungen bleiben aufgrund des Fehlens einer Alignierung von segmentaler mit intonatorischer Ebene unklar. Eine Ermittlung der Dauerunterschiede zwischen TA 1 und TA 2 wurde nicht vorgenommen. Als Tendenz gibt Goudaillier an, dass im Nordluxemburgischen die RhA sukzessive abgebaut wird; 'echte' Tonakzente kann er nur noch für die ältesten Sprecher nachweisen. Um festzustellen, ob im Zentralluxemburgischen noch eine Tonakzentdistinktion vorhanden ist, werden im Folgenden die Ergebnisse einer akustisch-phonetischen Untersuchung vorgestellt. Dazu wurden die phonetischen Realisierungen von 38 potenziellen TAWörtern analysiert, die von vier jungen Sprecherinnen des Zentralluxemburgischen gesprochen wurden (vgl. 3). (3)

Analysierte Minimal- bzw. Fastminimalpaare TA 1 TA 2 [ba:m] 'Baum' (Dat) [ba:m] [be:m] 'Bäume' [be:n] [be:n] 'Beine' [hals] 'Hals' (Dat) [hals] [zalt] 'Seide' [zaeit] [de:J] 'Tage' [de:/] [ais] 'uns' [xis] [vaizsn] 'zeigen' [vaeisan] [haizsr] 'Häuser' [haeus] [haut] [haeut] 'heute' [hait] 'Häute' [a:Rm] [eiRDl] 'Arme' [blai von] 'bleiben' [blaif]

'Baum' (Nom) 'Bein' 'Hals' 'Seite' 'Teig' 'Eis' 'weißen' 'Haus' 'Haut' 'Arme' 'bleib!'

Einflüsse der Rheinischen Akzentuierung auf die segmentelle Ebene [lait]

[lais] [mais] [za.] [tsen] [tsaidaj]

'Leute' 'Läuse' 'Mäuse' 'Säue' 'Zähne' 'reif

[laeit] [lasus] [mseus] [zaeu] [tsant] [tsaeitan] [kaht] [kae:lt]

271

'(er) liegt' 'Laus' 'Maus' 'Sau' 'Zahn' 'Zeiten' 'kalt' 'Kälte'

Um die phonologische Distinktivität zu überprüfen, wurden überwiegend Minimal- bzw. Fastminimalpaare und morphologisch zusammengehörige Wortformen verwendet. Die einzelnen Wortformen wurden in Trägersätze des Typs Ich habe gesagt eingebettet und den Informanten in randomisierter Reihenfolge vorgelegt. Das TA-Wort trägt jeweils den Satzakzent. 8 Die Informanten mussten die Sätze anschließend mit langsamer Sprechgeschwindigkeit ins Luxemburgische übersetzen. Von den insgesamt 150 Realisierungen wurden der Grundfrequenzverlauf in der Akzentsilbe und die Dauer der Akzentsilbe mit Hilfe des Phonetikprogramms 'Praat' erfasst. Bevor die konkreten Verläufe für TA 1 bzw. TA 2 miteinander verglichen werden können, ist es notwendig, Kriterien für einen solchen Vergleich festzulegen. Hierzu werden aus der Intonationsforschung zwei Kriterien herangezogen: (1) Unterscheidet sich die Richtung des Grundfrequenzverlaufs grundlegend (fallend, steigend, fallend-steigend oder steigendfallend), so liegen zwei verschiedene Tonsequenzen und somit auch zwei verschiedene Tonakzente vor. (2) Unterscheiden sich die beiden Konturen in der horizontalen Ausrichtung ihrer Grundfrequenzgipfel bzw. -täler (frühe, mittlere bzw. späte Tonbruchstelle in der Akzentsilbe), so liegen ebenfalls zwei verschiedene Tonakzente vor. Als ein erstes Auswertungsergebnis ist überraschenderweise festzustellen, dass der (satz)nukleare Tonverlauf im Gegensatz zu anderen moselfränkischen Dialekten nicht global fällt, sondern vielmehr in der Akzentsilbe zunächst ansteigt und erst auf den weiteren Silben abfallt; besteht der satzintonatorische Nukleus nur aus einer Silbe, so findet die steigend-fallende Bewegung komprimiert auf dieser Silbe statt. Für eine potenzielle TADistinktion bedeutet dies, dass sich der tonale Unterschied in der Gestaltung der Anstiegsbewegung in der Akzentsilbe manifestieren muss. Das Ergebnis des Vergleichs von potenziellen TA 1- mit TA 2-Wörtern ist ziemlich eindeutig. Nur für ca. 13 % der Realisierungen (10 Paare) ist ein akustisch-phonetischer Kontrast zwischen den beiden Tonakzenten feststellbar. Der Tonakzentkontrast ist zudem nicht konsistent bei allen Informanten nachzuweisen. Für alle übrigen Wortformen kann eine Akzentrealisierung festgestellt werden, die aus einem schnellen Anstieg in der akzentuierten Silbe und einer damit verbundenen späten horizontalen Ausrichtung des Grundfrequenzmaximums im letzten Drittel der Akzentsilbe besteht.

8

In der syntaktisch-semantische Struktur dieser Einzelsätze steht das akzentuierte Wort jeweils unter engem Fokus (vgl. 'Ich habe X gesagt - nicht Y'). Nach Peters (im Druck) hat jedoch die Fokusweite (zumindest in einigen Varietäten des Deutschen) beträchtlichen Einfluss auf die tonale Gestaltung der Akzentsilbe. In einer weitergehenden Analyse der Tonkontraste müsste daher auch untersucht werden, ob die Fokusweite mit der tonalen Gestaltung der Tonakzente interagiert.

272

Peter

Gilles

Die wenigen Paare, für die aus dem Grundfrequenzverlauf ein tonaler Kontrast abgeleitet werden kann, lassen kein systematisches Muster erkennen. Eine mögliche TA-Distinktion resultiert aus dem Vorhandensein eines Grundfrequenztals am Beginn der Akzentsilbe: In einigen potenziellen TA 1-Wörtern setzt die Anstiegsbewegung unmittelbar am Beginn des sonoren Teils der Akzentsilbe ein, während bei TA 2 zunächst ein ausgeprägtes Grundfrequenztal aufweist, auf das erst danach die Anstiegsbewegung folgt. Bei TA 2 liegt damit das perzeptive Zentrum auf einem Tiefton, während es bei TA 1 auf einem Hochton liegt. Dieser tonale Kontrast ist in Abb. 2 für das Minimalpaar [hau't] ~ [hasu2t] 'heute' ~ 'Haut' ersichtlich. Beim TA 1 steigt die Grundfrequenz am Beginn des Vokals schnell an, wohingegen für TA 2 eine ausgeprägte Talbildung zu Beginn der Akzentsilbe zu erkennen ist. Diese Akzentrealisierungen ähneln damit den von Schmidt (in diesem Band) und Gussenhoven/van der Vliet (1999) für progrediente und interrogative Satzintonationen festgestellten Tonhöhenverläufen. Trotz der entgegengesetzten globalen Verlaufsrichtung ist den TA 1-Realisierungen die schnell und kontinuierlich fallende bzw. steigende Bewegung gemeinsam; den TA 2-R.ealisierungen ist gemeinsam, dass die Tonhöhe in der Akzentsilbe zunächst auf hohem bzw. tiefen Niveau bleibt und erst danach die Fall- bzw. Steigbewegung einsetzt.

300

200

ν

150

.Β ΟΙ 00 h

au 1

70· 'heute' 50 0

1.09469 Time (s)

Abb. 2: Grundfrequenzdarstellungen des luxemburgischen Minimalpaars [hau't] ~ [haeu2t] 'heute' 'Haut'

Inwieweit der sich in Abb. 2 andeutende tonale Unterschied überhaupt noch für eine phonologische Distinktion ausreichend ist, kann nur durch Perzeptionsexperimente geprüft werden. Der Umstand, dass in dem untersuchten Sample tatsächlich nur wenige (Fast-)Mi-

Einflüsse der Rheinischen Akzentuierung auf die segmenteile

Ebene

273

nimalpaare einen tonalen Unterschied zeigen, kann als ein Indiz für den Abbau oder zumindest fur die Schwächung des ursprünglichen Tonakzentkontrastes gewertet werden. Schwerwiegender noch ist die Beobachtung, dass bei einigen Paaren die umgekehrte intonatorische Ausprägung festgestellt werden kann: Hier findet sich die Talbildung bei TA 1, während TA 2 ausschließlich aus einer Anstiegsbewegung besteht. Aus dieser Variabilisierung der tonalen Gestaltung der Akzentsilbe lässt sich ableiten, dass keine einheitliche tonale Struktur der Tonakzente mehr vorhanden ist. Ob eine Talbildung realisiert wird oder nicht, ist damit weniger ein Indiz für einen Tonakzentkontrast als vielmehr Ausdruck postlexikalischer (intonatorischer) Variation, die durch Faktoren wie Sprechgeschwindigkeit und Artikulationsgenauigkeit hervorgerufen wird. Ähnlich gravierende Veränderungen haben sich bei den Dauerverhältnissen ereignet. Nach Heike (1962:151) und Pützer (1995:67-72) sind üblicherweise die sonoranten Anteile des Silbenreims bei TA 2-Wörtern ca. 25-30% länger als in vergleichbaren TA 1-Wörtern. In Tab. 1 sind die durchschnittlichen Dauern für TA 1-und TA 2-Wörter für das untersuchte Korpus eingetragen. Es wurde jeweils die Dauer des vokalischen Silbenkerns und (wenn vorhanden) des postvokalischen Sonoranten gemessen. Bei Mittelwerten von 0,225 sec für TA 1 und 0,23 sec für TA 2 ist es offensichtlich, dass sich die Tonakzente in ihrer Dauer nicht (mehr) unterscheiden; ein Dauerunterschied von ca. 0,005 sec ist nicht perzipierbar. Die geringe Standardabweichung (0,06 sec) deutet an, dass die Mittelwerte nur in einem engen Bereich streuen. Der Dauerunterschied zwischen TA 1 und TA 2 ist somit neutralisiert. Tab. 1: Durchschnittliche Dauern für TA 1 und TA 2

TA 1

TA 2

Mittelwert

0,225 sec

Standardabweichung

0,06 sec

Ν

74

Mittelwert

0,23

Standardabweichung

0,06 sec

Ν

76

Insgesamt kann durch die akustisch-phonetische Analyse gezeigt werden, dass (a) nur noch in sehr geringem Umfang distinkte tonale Realisierungen für TA 1 und TA 2 vorhanden sind, die zudem noch hochgradi variabel sind und dass (b) der vormalige Dauerunterschied zwischen den Tonakzenten nicht mehr besteht. Diese Ergebnisse stützen die These, dass im Zentralluxemburgischen die Tonakzente nur noch marginal an der Etablierung phonologischer Kontraste beteiligt sind und sukzessive abgebaut werden.

3. Einflüsse der Tonakzente

Durch diesen Abbau ensteht zwar eine Reihe von Homonymen, aber dennoch bleiben die Mehrzahl der bedeutungsunterscheidenden Kontraste bestehen, da die RhA meist als konkomitantes Merkmal mit weiteren segmenteilen Kontrasten auftritt. Die ursprünglichen

274

Peter Gilles

Tonakzente verschwinden also nicht spurlos. Vielmehr lassen sich in der diachronischen Entwicklung des Luxemburgischen spezifische segmenteile Veränderungen beobachten, die durch die ursprünglichen Tonakzente hervorgerufen zu sein scheinen. In der Tonsprachenforschung wurden einige Abhängigkeiten zwischen der Entstehung von tonalen phonologischen Kontrasten und deren segmentellem Kontext festgestellt (vgl. den Überblick in Hombert 1978). Z.B. kann die Stimmhaftigkeit eines vorausgehenden Plosivs die Tonhöhe des folgenden Vokals beeinflussen. So kann ein prävokalischer stimmhafter Plosiv zur Herausbildung eines Tieftons bzw. eines fallenden Tons beitragen, während ein prävokalischer stimmloser Plosiv die Entstehung eines Hochtons oder eines steigenden Tons zur Folge haben kann. Diese phonetischen Detailregeln können dann in weiteren Entwicklungsschritten phonologisiert werden. Für den umgekehrten Prozess, also die Beeinflussung einzelner Segmente durch Töne, konnte die Forschung an 'echten' Tonsprachen bislang keine Evidenz finden. Dennoch deuten einige diachrone Entwicklungen im Luxemburgischen genau in diese Richtung. Um die Einflüsse der Tonakzente auf die segmentelle Ebene verfolgen zu können, wird im Folgenden eine Analyse der diachronen Entwicklungen nachgezeichnet, die sich auf das mhd. Bezugssystem, 9 die vorhandenen Dialektbeschreibungen vom Beginn des 20. Jh. sowie auf neuere Sprachdatenerhebungen (Gilles 1999) beziehen. Aus dem Vergleich von älteren Sprachschichten bzw. konservativeren Dialektgebieten mit neueren Sprachschichten bzw. progressiveren Dialektgebieten lassen sich dann die möglichen Einflüsse der Tonakzente auf die segmentale Struktur ablesen. Zur linguistischen Interpretation werden also Aspekte des (internen) Sprachwandels mit (externen) soziolinguistischen Prozessen verbunden.

3.1

Einflüsse von TA 1

Die Darstellung beginnt mit potenziellen Einflüssen des TA 1 auf 'tieferliegende' phonetisch-phonologische Ebenen. In (4) sind einige luxemburgische Belege für das östliche, nördliche und zentralluxemburgische Gebiet wiedergegeben, wie sie in den dialektologischen Quellen dokumentiert sind und teilweise heute noch anzutreffen sind. Für die in (4) aufgelisteten Reflexe von mhd. ie, üe, uo (=wgerm. e2, wgerm. ü (+ Umlaut)) ist spontaner TA 1 erwartbar und dokumentiert. Die sprachhistorisch ältere Schicht des Ost- und Nordluxemburgischen weist in diesen Lexemen überwiegend Stammsilben mit Diphthong und TA 1 auf (fleit '(er) fliegt'); im Nordluxemburgischen findet sich hier in bestimmten Kontexten Kurzvokal plus Plosiv (flikt). Das sprachhistorisch neuere Zentralluxemburgische hat demgegenüber ausschließlich Formen mit Kurzvokal und silbenschließendem (stimmlosen) Konsonanten (flitt) bzw. Formen mit Kurzvokal in ambisilbisch gedeckter Silbe (Brudder 'Bruder') herausgebildet.

9

Das (normal)mhd. Bezugssystem dient lediglich der Zuordnung lexematischer Einheiten zu bestimmten Wortklassen (so enthält z.B. die Wortklasse für mhd. ei u.a. die nhd. Lexeme Kleid, Eimer oder Stein); die tatsächliche historische Lautung muss mit der durch das Normalmhd. vorgegebenen Lautung nicht übereinstimmen.

275

Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene (4)

Reflexe von mhd. ie, üe, uo (wgerm. e2\ wgerm. ö (+ Umlaut)) 10 Ostlux. Nordlux. Zentrallux. flitt '(er) fliegt' [flei't] [flikt] [flit] [fei'dB Ran] fidderen 'futtern' [figdBRan] [fidsRan] [mei't] [mit] midd 'müde' [mikt] Still 'Stühle' [Jtei'l] [Jtei'l] [Λιΐ] Bludd 'Blut' [blou't] [blukt] [blut] [bRou'dß] Brudder 'Bruder' [bRugdn] [bRudß] [bux] Buch 'Buch' [bou'x] [bou'j] gutt 'gut' [gou't] [gou't] [gut]

Aufgrund der sprachhistorischen Entwicklung kann davon ausgegangen werden, dass auch im zentralluxemburgischen Gebiet ehemals Diphthonge oder Langvokale in den entsprechenden Wörtern vorgelegen haben. Diese Silbennuklei sind in heutiger Zeit durch Kurzvokale ersetzt worden, sie haben also jeweils eine More verloren. Die resultierenden Silben genügen nun nicht mehr den Vorkommensbedingungen fur die RhA. Für den TA 1 sind damit eine Reihe von Anwendungskontexten verloren gegangen. Es ist anzunehmen, dass der spezifische Ton- und Energieverlauf des TA 1 diesen Kürzungprozess initiiert oder zumindest begünstigt hat. Im Zuge des allgemeinen Dialektausgleichs aus dem Zentrum heraus in die umliegenden Regionen dringen die Formen mit Kurzvokal vor und ersetzen zunehmend die diphthongischen Reflexe. Die Kürzung lässt sich jedoch nicht durchgängig bei allen Lexemen dieser Wortklassen beobachten. Vor auslautenden Labialkonsonanten und im Auslaut bleiben in allen luxemburgischen Regionen die ursprünglichen Diphthonge erhalten (5). (5)

Ausbleiben leif Briif Kei Plou

der Kürzung vor Labial und im Auslaut 'lieb' [leif] 'Brief [bReif] 'Kuh' [kei] 'Pflug' [plou]

Die Kürzungsprozesse sind weiterhin bei Stammsilben mit tiefen Vokalen (hauptsächlich αϊ) blockiert. Wie die morphologischen Alternationen in (6) zeigen, bleibt bei tiefen Vokalen mit TA 1 auch im Zentralluxemburgischen die Länge erhalten, während bei halb-tiefen Umlautprodukten dieser Lexeme die Kürzung regelmäßig durchgeführt ist. (6) Af/Äffchen Waasser/Wässerchen Aascht/Äscht

10

Ostlux. [a:'f] ~ [e:'f?en] 'Affe/Äffchen' 'Wasser/Wässerchen' [va:'sc] ~ [vei'sEijan] [a:'st] ~ [er'st] 'Ast/Äste'

Zentrallux. [a:f] ~ [efgsn] [va:sB]~[vesB9an] [a:Jt] ~ [ejt]

Für das Ost- und Nordluxemburgische werden hier und im folgenden noch Tonakzente notiert. Inwieweit sie in diesen (sprachlich konservativeren) Regionen noch vorhanden sind, bleibt zu prüfen.

Peter Gilles

276

Während das Ostluxemburgische bei der Umlautung von z. B. [a:'st] 'Ast' zu [e: st] 'Aste' die ursprüngliche Länge und den TA 1 beibehält, erscheint der Umlaut im Zentralluxemburgischen zu [ε] gekürzt, wodurch wiederum die segmentale Basis für einen TA 1 verloren geht. Das unterschiedliche Verhalten des Tiefvokals [a:] und der übrigen Vokale hat zur Folge, dass die morphologische Zusammengehörigkeit etwa bei der Plural- oder Diminutivbildung nicht mehr transparent ist; es entsteht ein unregelmäßiges Paradigma, und es ist zu vermuten, dass im Verlauf der weiteren Entwicklungen diese Unregelmäßigkeit durch analogischen Ausgleich beseitigt werden wird. Der Umstand, dass Hochvokale mit TA 1 eher als tiefe zur Vokalkürzung neigen, hängt mit der intrinsischen Dauer der Vokale zusammen. Nach Lehiste (1970:18-27) sind tiefe Vokale durchschnittlich länger als hohe Vokale, die in vergleichbaren Kontexten realisiert wurden. Übertragen auf die TA 1induzierte Kürzung bedeutet dies, dass durch Kürzungen der ohnehin relativ kurzen, hohen Langvokale bzw. Diphthonge eher ein (echter) Kurzvokal entsteht als bei tiefen Langvokalen bzw. Diphthongen." Die charakteristische Kürzung in TA 1-Wörtern tritt ebenfalls in ursprünglichen Zweisilbern mit langvokalischer/diphthongischer Stammsilbe und folgendem alveolaren oder labialen Nasal auf. Die Kontextbedingung erfasst also nicht eine bestimmte mhd. Wortklasse, sondern ist prosodisch durch die Wortstruktur determiniert: Da auf den Stammvokal ein heterosyllabischer (stimmhafter) Nasal folgt, ist die Vorkommensbeding-ung für TA 1 erfüllt. Ausgehend von den mhd. Formen sind in (7) einige Beispiele für das Ostluxemburgische und das Zentralluxemburgische gegenübergestellt. (7)

Kürzung historischer Langvokale vor Nasal mhd. Ostlux. düme 'Daumen' [dau'man] näme12 'Name' [no: 'man] steine 'Steine' (PI) [Jtei'n] [ραι'η] pine 'Schmerz' [bRau'n] 'braun' briune 'neun' [nai'n] niune keine 'keine' [ke:'n] meinen 'glauben' [me:'nsn]

Zentrallux. [dum] [num] [Jteq] [pei]] [bRoq]

[nerj] [keq] [meqan]

In den ostluxemburgischen Formen liegen durchweg langvokalische/diphthongische Stammsilben vor; in einigen Fällen ist die Folgesilbe durch Schwa-Apokope abgefallen, so dass die Formen einsilbig wurden. Das sprachhistorisch jüngere Zentralluxemburgische geht in der Entwicklung noch einen Schritt weiter: Hier erscheinen alle Stammsilben gekürzt. Zusätzlich wird der alveolare Nasal zu η velarisiert. Dieser Prozess und ebenfalls die Entstehung von 'epenthetischen' velaren Codaplosiven (vgl. die Beispiele in (4)) deuten auf einen Prozess hin, der dem sted des Dänischen ähnlich ist. Der stod als prosodisches 11

12

Die unterschiedliche intrinsische Dauer der Vokale wird auch als Auslöser für die Entstehung der Tonakzente angesehen (vgl. Bach 1921, de Vaan 1999, Schmidt in diesem Band). Für 'Name' wird normalmhd. ein kurzer Stammsilbenvokal (mhd. name) angenommen, im Moselfränkischen zeigt dieses Wort jedoch die gleiche Entwicklung wie die Wortklasse von mhd. ä (i.e. Hebung zu o:/o:). Daher wird hier ebenfalls eine vormalige langvokalische Stammsilbe zugrunde gelegt.

Einflüsse der Rheinischen Akzentuierung auf die segmentelle Ebene

277

Merkmal besteht aus einer glottalen Verengung am Ende des Vokals und kann zuweilen auch als Glottisverschluss [?] realisiert werden (vgl. Laver 1994:331). Interessanterweise ist der dänische st0d infolge des Abbaus des ursprünglichen Tonakzentsystems entstanden; dabei entsprechen st0d-Wörter des Dänischen weitgehend den Akzent 1-Wörtern des Schwedischen (vgl. Riad 2000). Der skandinavische Akzent 1 wiederum ist in seiner phonetischen Realisierung mit dem mittelfränkischen TA 1 vergleichbar. Das Dänische liefert damit weitere Evidenz dafür, dass die tonale (bzw. im weitesten Sinne prosodische) Ebene im Verlauf der sprachhistorischen Entwicklung Einfluss auf die Segmentschicht ausüben kann. Für das Luxemburgische belegen die angeführten sprachistorischen und dialektologischen Prozesse, dass TA 1-Wörter von Kürzungen betroffen sind. Dies manifestiert sich deutlich in der Gegenüberstellung von paradigmatisch zusammengehörenden Wörtern, bei denen die Zuweisung der Tonakzente mit der Veränderung der morphologischen Struktur des Wortes wechselt (8). (8)

Alternation zwischen TA 1 und TA 2 im Ost- und Zentralluxemburgischen Ostluxemburgisch Zentralluxemburgisch TA 1 TA 2 TA 1 TA 2 'Steine' ~ 'Stein' [Jte:'n] [Jte:2n] [Jteij] [Jte:n] 'meine' ~ 'mein' [mai 'n] [me:i 2 n] [meq] [me: in] [dai'n] 'deine' ~ 'dein' [de:i 2 n] [deq] [denn] 'seine' ~ 'sein' [zai'n] [ζε:ι 2 η] [ze:in] [zerj] 'keine' ~ 'kein' [kei'n] [ke: 2 n] [ker,] [kein] 'eine' ~ 'ein' [e:'n] [e:2n] [e:n] [εη]

Während im Ostluxemburgischen die morphologischen Beziehungen (z.B. Pluralbildung) tonal realisiert werden, werden sie im Zentralluxemburgischen ausschließlich durch segmenteile Kontraste ausgedrückt, so dass die ursprüngliche tonale Markierung unnötig ist und, wie in Abschnitt 2 gezeigt, abgebaut wird. Die Übersicht zeigt deutlich, dass ausschließlich TA 1-Wörter von der Kürzung betroffen sind. Im Falle von Sten ~ Steng 'Stein Steine' ist durch diese Entwicklung eines der Tonakzent-Minimalpaare verloren gegangen. Der 'Preis' dieser Entwicklung fur das phonologische Gesamtsystem ist, dass die morphologische Struktur des Lexem-Paradigmas komplexer wird; die Pluralbildung erfordert nun zusätzlich zu einer Vokalveränderung noch eine Konsonanten Veränderung. (Die Kürzung ist jedoch nicht durchgängig bei allen Wörtern durchgeführt, die der Kontextbedingung genügen, und tritt z.B. in der Pluralform von 'Bein' nicht ein.) Aus der Darstellung der beiden Kürzungsphänomene ist deutlich geworden, dass in der lauthistorischen Entwicklung des Zentralluxemburgischen eine prosodische Umstrukturierung bestimmter Wortklassen stattgefunden hat. Betroffen von diesen Kürzungsvorgängen sind ausschließlich TA 1 -Wörter. Allerdings tritt die Kürzung nur in bestimmten Kontexten dieser Wortklasse auf. Präferiert gekürzt werden (a) ursprünglich zweisilibge Wörter, die aufgrund einer Schwa-Apokope einsilbig wurden und (b) Stammsilben mit hohen und halbhohen Vokalen. Durch diesen Prozess werden dem TA 1 mögliche Vorkommenskontexte entzogen. Ähnliche Kürzungsprozesse lassen sich auch in einigen limburgischen Dialekten beobachten, die am nordwestlichen Rand des RhA-Gebietes liegen. Heijmans (1999) stellt für

Peter

278

Gilles

den nordlimburgischen Ort Weert parallel zum Verlust der TA-Distinktion eine Kürzung von Langvokalen in TA 1-Wörtern fest (9). Während im südlicheren Nachbarort Baexem die TA-Distinktionen noch intakt sind, wird in Weert die Vokallänge als distinktives Merkmal eingesetzt. (9)

Kürzung von TA 1-Wörtern in zwei limburgischen Ortsdialekten (Heijmans 1999) Baexem Weert [kni: 2 n] - [kni:'n] [kni:n] - [knin] 'Kaninchen' (Sg/Pl) [mu:'l] [mul] 'Mund' [y:'l] [yl] 'Eule'

Ähnliches berichten Schouten/Peeters (1996) für eine Dialektgruppe südlich von Weert, wo ebenfalls der Tonkontrast durch Vokalquantitätsunterschiede ersetzt wird. Es gilt nun zu klären, wie die tonale Ausprägung des TA 1 für die Kürzungsprozesse verantwortlich werden kann. Im Kontrast zum TA 2 ist der TA 1 ohnehin durch eine niedrigere Dauer gekennzeichnet. Relevanter dürfte jedoch die schnell fallende Tonbewegung im Silbennukleus sein. Nach 't Hart et al. (1990) kommt es, infolge einer tonalen Fallbewegung von einem hohen zu einem niedrigeren Wert, zu einer Reduktion des Luftstroms durch die Glottis. Die Reduktion manifestiert sich in einem Nachlassen der Artikulationsenergie und kann somit eine Vokalkürzung begünstigen. Dieser Effekt kann bei TA 2Realisierungen nicht auftreten, da die Tonbewegung entweder fallend-steigend oder gleichbleibend verläuft. Zu diesem Erklärungsansatz passt ebenfalls, dass der TA 1 in manchen Ortsdialekten eine Glottalisierung am Vokalende (Pützer 1995), eine Pause oder einen Glottisverschluss (z.B. Engelmann 1910aZ>) aufweist, die durch die stark abfallende bzw. nicht mehr vorhandene Energie am Vokalende hervorgerufen werden. Wie Pützer (1995:80) darlegt, fehlen solche glottalen Modifikationen bei TA 2-Realisierungen völlig. Dennoch ist ein solcher artikulatorisch-physiologischer Erklärungsansatz nur teilweise hinreichend, denn die Kürzungen treten nur bei bestimmten historischen Wortklassen und in bestimmten prosodischen Kontexten auf. Aber auch wenn die lauthistorische Genese der Kürzung nicht abschließend geklärt werden kann, so ist es dennoch mehr als ein Zufall, dass die Kürzung nur in TA 1-Kontexten und niemals in TA 2-Kontexten vorkommt. Insbesondere die Kontrastierung von morphologisch zusammengehörigen Wortformen mit unterschiedlichen Tonakzenten deutet darauf hin, dass tonale Faktoren, oder zumindest prosodisch-akzentuelle Faktoren im weiteren Sinne, die in Zusammenhang mit der RhA stehen, für die Kürzungsprozesse verantwortlich sind.

3.2

Einfluss von TA 2

Im Kerngebiet der RhA weisen TA 2-Realisierungen häufig Dehnung auf, die bis zur Überlänge gehen kann (vgl. MRhSA, Karten weiß 'albus', Eis, gleich, Haus). Auch für das ältere Luxemburgisch sind solche überlangen Realisierungen dokumentiert (vgl. LSA, Palgen 1931 für das östliche Echternach, Palgen 1948 für den Süden, Palgen 1952 und Bruch 1954 für den Norden). Im Gegensatz zum Verlauf des TA 1 begünstigt die gleichbleibend-hohe bzw. fallend-steigende Bewegung eine Dehnung der Stammsilbe. Nach Pützer (1995:6772) ist der TA 2 in Abhängigkeit von der Position des Wortes in der Intonationsphrase

Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene

279

zwischen 25 % (in nuklearer Position) und 4% (in unbetonter Position) länger als der TA 1. Die besondere tonale Gestaltung des TA 2 trägt damit zur Dehnung der Akzentsilbe bei. Einige TA 2-Beispiele fur das Ostluxemburgische (nach Palgen 1931) sowie für das heutige Zentralluxemburgische (nach Gilles 1999) sind in (10) wiedergegeben. Im Zentralluxemburgischen ist die Überlänge des TA 2 abgebaut, und parallel dazu hat sich der Diphthongierungsgrad der Reflexe von mhd. i, ü von e.i zu sei bzw. von o:u zu seu verändert. (10)

Τ A 2 im Ost- und Zentralluxemburgischen Ostlux. Zentrallux. [Raeif] 'reif [ R e:i 2 f] [zscit] 'Seite' [ze:i 2 t] [fRasi] 'frei' [fREII2] [ho:u 2 t] [hseut] 'Haut'

Wie die akustisch-phonetische Untersuchung in Abschnitt 2 belegt, sind die zentralluxemburgischen Tonakzente im untersuchten Korpus nur noch marginal vorhanden; der Dauerunterschied existiert nicht mehr. Diese beiden Vorgänge sind strukturell miteinander verknüpft. Wenn im Zuge des Abbaus der Tonakzentdistinktion der TA 2 dieser Wörter nicht mehr realisiert wird, so ist auch die prosodische Ursache für die segmentelle Dehnung nicht mehr vorhanden, die daraufhin abgebaut wird. Im Gegensatz zum TA 1 ist der TA 2 jedoch nicht in der Lage, eine weitergehende Kürzung zu initiieren, daher bleibt bei allen ehemaligen TA 2-Wortformen eine (mindestens) zweimorige Silbe mit Langvokal/Diphthong erhalten. Der mögliche Einfluss des TA 2 auf die Segmentschicht resultiert also in einem Abbau der ursprünglich vorhandenen Überlänge. Ein vergleichbarer Prozess findet im bereits erwähnten Ortsdialekt von Weert am nördlichen Rand des RhA-Areals statt. Während im Nachbarort Baexem der TA 2 auf Kurzvokal plus Sonorant noch vorhanden ist, wird die gleiche Wortklasse in Weert mit Langvokal plus Sonorant ohne TA 2 realisiert. Auch manifestiert sich damit der längeerhaltende bzw. kürzungsverhindernde Charakter des TA 2 (vgl. 11). (11)

Reinterpretation von TA 2 als Vokallänge im Limburgischen (Heijmans 1999) Baexem Weert [bai)2k] > [baiijk] 'Bank'

4. Zusammenfassung

Die vorliegende Untersuchung hatte das Ziel, den heutigen phonetisch-phonologischen Status der Tonakzentopposition in einem Randgebiet des RhA-Areals sowie mögliche Einflüsse der Tonakzente auf die Segmentschicht zu analysieren. Im ersten Teil der Untersuchung konnte mit einer akustisch-phonetischen Analyse gezeigt werden, dass TA 1- und TA 2-Wörter im heutigen Zentralluxemburgischen keine unterschiedlichen Tonverläufe mehr aufweisen. Ebenso wird der ursprünglich vorhandene Dauerunterschied zwischen den

Peter Gilles

280

Tonakzenten nivelliert. Dass es, wie der akustisch-phonetische Befund nahe legt, tatsächlich zu einer vollständigen Neutralisierung der phonologischen Tonakzentopposition gekommen ist, müsste in einem Wahrnehmungsexperiment noch weiter untermauert werden. Der zweite Teil der Analyse ergab, dass die RhA, insbesondere der TA 1, Einflüsse auf die Wortstruktur ausgeübt haben. In (12) sind diese Konsequenzen des TA-Abbaus zusammengefasst. (12)

Schematisierter Abbau mhd. Kontext ie /_{Obstruent} uo /_{Obstruent} ei /_ {n, m} iL η i üL η ü

der TA-Distinktion im Zentralluxemburgischen TA 2 TA 1 > [ei1] [·] > [ou1] Μ > [e:1] [e:2] [e:] [ε] > [ε:· 2 ] [e] [α·'] [*·] > [ε:. 2 ] [αϊ] [α· 1 ] [*>] > [au] [αυ1] [o:u2] [ο] > [o:u2] [αυ] [aeu] [αυ1]

Für TA 1 -Wörter lassen sich in bestimmten Kontexten Kürzungstendenzen beobachten, die vergleichbare TA 2-Wörter nicht aufweisen. In TA 2-Wörtern wird die ehemalige Überlänge abgebaut. Die auffällige Korrelation zwischen Akzentuierungstyp und beobachteter segmenteller Veränderung deutet auf durch die RhA initiierte Lautwandelprozesse hin. Von einem generellen Einfluss der RhA auf die Segmentebene kann jedoch nicht ausgegangen werden, da immer nur Wortgruppen betroffen sind, die Reflexe bestimmter historischer Lautklassen enthalten oder bestimmten Kontextbedingungen genügen. Es ist daher wahrscheinlich, dass diese Kontexte die Beeinflussung von Segmenten durch die RhA begünstigen. Sowohl der Abbau der RhA als auch die damit verbundenen segmentellen Veränderungen haben erhebliche Konsequenzen fur das Lautsystem des Luxemburgischen. So entstehen neue Homonyme (Ben [be:n] 'Bein' (Sg)/'Beine' (PI), Β am [ba:m] 'Baum' (Nom)/ 'Baume' (Dat)), die jedoch wahrscheinlich nicht zu Verständigungsproblemen führen, und unregelmäßige morphologische Paradigmen (Sten [Jte:n] 'Stein' ~ Steng [Jteq] 'Steine'). Durch die Kürzungen bei TA 1-Wörtern werden eine Reihe von Langvokalen/Diphthongen zu Kurzvokalen. Auf diese Weise nimmt die im Luxemburgischen hohe funktionale Belastung von Oppositionen zwischen Langvokalen/Diphthongen zugunsten von Oppositionen zwischen Kurzvokal und Langvokal/Diphthong ab. Gerade in der Lautgeschichte der moselfränkischen Dialekte haben sich viele Dehnungsvorgänge ereignet, die zu einem Übergewicht der zweimorigen gegenüber den einmorigen Vokalen geführt hatben, worauf in einschlägigen Dialektmonographien immer hingewiesen wird (vgl. Ludwig 1906, Thome 1908). Neben der Dehnung in offener Silbe sind auch Dehnungen in geschlossener Silbe oder vor Obstruenten nicht selten (z.B. [bae:t] 'Bett', [ma:xan] 'machen', [hi:mal] 'Himmel', [hoirrre] 'Hammer', [ka:l] 'kalt, [koukon] 'gucken', [feisps] 'Vesper', [jte^an] 'stechen'). Nach Gussenhoven (2000) haben Dehnungsvorgänge (genauer: analogische Dehnungen in einsilbigen Singularformen) zur Entstehung der RhA geführt. Mit dem Abbau der Tonakzente und der Beeinflussung der Segmentschicht wird nun die Vokallänge bzw. der Silbenschnitt wieder verstärkt als distinktives Merkmal eingesetzt. Für die Lautgeschichte des Deutschen eröffnen diese Ergebnisse m.E. interessante Einblicke in die unter-

Einflüsse der Rheinischen Akzentuierung auf die segmenteile Ebene

281

schiedlichen Reaktionen auf den spätmittelalterlichen Zusammenbruch der altgermanischen Quantitätenopposition: Während sich in den meisten regionalen Varietäten und im sich herausbildenden Neuhochdeutschen eine Silbenschnittopposition herausbildete (vgl. Vennemann 1991), entstand im Mittelfränkischen und Teilen des Südniederfränkischen die Tonakzentopposition. Infolge der jüngeren Entwicklungen im luxemburgischen RhARandgebiet findet nun einer weiterer Übergang von einer Tonakzent- zu einer Silbenschnittopposition statt.

Literatur

Bach, Adolf (1921): Die Schärfung in der moselfränkischen Mundart von Arzbach (Unterwesterwaldkreis). - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 45, 266-290. Bruce, Gösta (1977): Swedish Word Accents in Sentence Perspective. - Lund: Gleerup. Bruch, Robert (1952): Die Mundart des Nordöslings. - In: Annuaire. Institut Grand-Ducal, Section de Linguistique, de Folklore et de Toponymie, 1-50. - (1954): Das Luxemburgische im Westfränkischen Kreis. - Luxemburg: Pierre Linden. Bruch, Robert/Jan Goossens (1963): Luxemburgischer Sprachatlas. Laut- und Formenatlas. - Marburg: Elwert. Engelmann, Rene (1910a): Der Vokalismus der Viandener Mundart. - Diekirch: Schroell. - (191 Ob): Ein mittelfränkisches Akzentgesetz. - In: Beiträge zur Geschichte der deutschen Sprache und Literatur 36, 382-394. Gilles, Peter (1999): Dialektausgleich im Letzebuergeschen. Zur phonetisch-phonologischen Fokussierung einer Nationalsprache. - Tübingen: Niemeyer (= Phonai 44). Goudaillier, Jean-Pierre (1987): Einige Spracheigentümlichkeiten der Letzebuergeschen Mundarten im Licht der instrumentellen Phonetik. - In: Jean-Pierre Goudaillier (1987) (Hg.): Aspekte des Letzebuergeschen, 207-230. Hamburg: Buske. Gussenhoven, Carlos (2000): On the origin and development of the Central Franconian Tone Contrast. - In: A. Lahiri (Hg.): Analogy, Levelling, Markedness. Principles of Change in Phonology and Morphology, 215-260. Berlin: Mouton de Gruyter. - /Gösta Bruce (1999): Word prosody and intonation. - In: Harry Van der Hulst (Hg.): Word Prosodic Systems in the Languages of Europe, 233-271. Berlin, New York: de Gruyter (= Empirical Approaches to Language Typology/EUROTPY, 20-4). - /Peter van der Vliet (1999): The phonology of tone and intonation in the Dutch dialect of Venlo. In: Journal of Linguistics 35, 99-135. Hardt, Matthias (1843): Vocalismus der Sauer-mundart. - In: Königlich-Großherzogliches Progymnasium zu Echternach, 1-29. 't Hart, Johan/Rene Collier/Antonie Cohen (1990): A Perceptual Study of Intonation. An experimental-phonetic approach to speech melody. - Cambridge: Cambridge University Press. Heijmans, Linda (1999): Lexical tone in the dutsch dialect of Weert? - In: Proceedings of the XlVth International Conference of Phonetic Sciences, San Francisco, August 1999, 2283-2386. Heike, Georg (1962): Suprasegmentale Merkmal der Stadtkölner Mundart. Ein Beitrag zur 'Rheinischen Schärfung'. - In: Phonetica 8, 147-165. - (1983): Suprasegmentale dialektspezifische Dialekteigenschaften. Überblick und Forschungsbericht. - In: Werner Besch, Ulrich Knoop, Wolfgang Putschke, Herbert Ernst Wiegand (Hgg.): Dialektologie. Ein Handbuch zur deutschen und allgemeinen Dialektforschung, 2. Halbband, 11541169. Berlin, New York: de Gruyter. Hombert, Jean-Marie (1978): Consonant types, vowel quality, and tone. - In: Victoria Fromkin (Hg.): Tone. A linguistic survey, 77-112. New York: Academic Press.

282

Peter Gilles

Jongen, Rene (1972): Rheinische Akzentuierung und sonstige prosodische Erscheinungen. Eine Beschreibung der suprasegmentalen Zeichenformdiakrise in der Moresneter Mundart. - Bonn: Röhrscheidt (= Rheinisches Archiv 83). Laver, John (1994): Principles of Phonetics. - Cambdrige: Cambridge University Press. Lehiste, Ilse (1970): Suprasegmentals. - Cambridge, Mass.: MIT Press. Ludwig, Johannes (1906): Lautlehre der moselfränkischen Mundart von Sehlem (Reg.-Bez. Trier). Diss. Bonn. Palgen, Helene (1931): Kurze Lautlehre der Mundart von Echternach. - Luxemburg. - (1948): Studien zur Lautgeographie Luxemburgs. - Luxemburg. - (1954): Vokalismus der Mundart von Knaphoscheid (Kanton Wiltz). - In: Jahrbuch der luxemburgischen Sprachgesellschaft 8, 3-18. Peters, Jörg (im Druck). Fokus und Intonation im Hamburgischen. - Erscheint in Linguistische Berichte. Pützer, Manfred (1995): Die Wortakzente von Beuren. Ein Beitrag zu wortprosodischen Strukturen in einer moselfränkischen Mundart. - In: PHONUS 1, 65-104. Riad, Thomas (2000): The origin of Danish sted. - In: A. Lahiri (Hg.): Analogy, Levelling, Markedness. Principles of Change in Phonology and Morphology, 261-300. Berlin: Mouton de Gruyter. Schmidt, Jürgen Erich (1986): Die mittelfränkischen Tonakzente (Rheinische Akzentuierung). - Stuttgart: Steiner. - (in diesem Band): Die sprachhistorische Genese der mittelfränkischen Tonakzente. Schouten, Bert/Wim Peeters (1996): The Middle High German vowel shift, measured acoustically in Dutch and Belgian Limburg: Diphthongization of short vowels. - In: Zeitschrift fur Dialektologie und Linguistik 63 (1), 30-48. Sievers, Eduard (1901): Grundzüge der Phonetik zur Einführung in das Studium der Lautlehre der indogermanischen Sprachen. - 5., verbesserte Auflage. Leipzig. Spiekermann, Helmut (2000/· Silbenschnitt in deutschen Dialekten. - Tübingen: Niemeyer (= Linguistische Arbeiten 425). Thome, Aloys (1908): Untersuchungen zum Vokalismus der moselfränkischen Mundart von Kenn. Dissertation Universität Bonn. Vaan, Michiel de (1999): Towards an Explanation of the Franconian Tone Accents. - In: Amsterdamer Beiträge zur älteren Germanistik 51, 23-44. Vennemann, Theo (1991): Syllable Structure and Syllable Cut Prosodies in Modern Standard German. - In: Marco Bertinetto et al. (Hgg.): Certamen Phonologicum II. Papers from the 1990 Cortona Phonology Meeting, 211-243. Turin: Rosenberg & Sellier. - (1995): Der Zusammenbruch der Quantität im Spätmittelalter und sein Einfluss auf die Metrik. In: H. Fix (Hg.): Quantitätsproblem und Metrik: Greifswalder Symposion zur germanischen Grammatik, 185-223. Amsterdam, Atlanta, GA: Rodopi. Wiesinger, Peter (1975): Strukturgeographische und strukturhistorische Untersuchungen zur Stellung der bergischen Mundart zwischen Ripuarisch, Niederfränkisch und Westfälisch. - In: Joachim Göschel, Werner H. Veith (1975) (Hgg.): Neuere Forschungen in Linguistik und Philologie, 17-82. Wiesbaden: Steiner.

Gjert Kristoffersen Are tonal accents and syllable structure related in Norwegian and Swedish?

In this chapter I shall discuss the relationship between the syllable cut prosody that can be said to characterize stressed syllables in most varieties of Norwegian and Swedish, and the contrastive tonal accents that are also part of most varieties of these languages. The question has not been much discussed in the literature, and no easily identifiable connection is apparent from a superficial inspection of the synchronic and diachronic data available. But the fact that the two features seem to have emerged at about the same period, viz. in the middle to late Medieval Age, warrants a closer examination of the question. The chapter is organized as follows: In section 1 I shall discuss how syllable cut prosody is implemented in Norwegian. 1 In section 2 the tonal accent system of Norwegian will be briefly presented. Section 3.1 will be devoted to a discussion of possible synchronic relationships, while the topic of section 3.2 will be the diachronic side of the question. Section 4 is a brief conclusion.

1. The Structure of Stressed Syllables

The traditional analysis of stressed syllables in Norwegian and Swedish reveals that there is a complementary relationship between the vowel and the immediately following consonant with respect to quantity, in the sense that either the vowel or the consonant must be long. Phonetically, this is implemented by means of durational differences, but the difference between long and short consonants has been shown to be considerably smaller than that between vowels (Elert 1964, Fintoft 1961). An alternative analysis of this length difference is to see it as a result of two different ways of fulfilling a constraint that stressed syllables must be heavy, or bimoraic (Kristoffersen 1992a, 1999, 2000). Long vowels under this view are associated with both of the moras that define the rhyme of a stressed syllable, while short vowels are associated with one of them. In the latter case, the second mora will be associated with the immediately following consonant. If this is the only consonant following the vowel in a disyllabic word, it will be required to fill the onset position of the next syllable as well. The result is a prosodic geminate, i.e. a consonant associated with two syllabic positions. Hence, long vowel and short vowel plus consonant can be seen as alternative ways of meeting the bimoraic requirement, which also explains why long vowels and geminate (or long) consonants only occur in stressed syllables. Representations illustrating this analysis are shown in Fig. 1,

1

If not explicitly mentioned, the conclusions will apply to most Swedish dialects as well.

284

Gjert Kristoffersen

where the two structures represent the words ['ta:.ka], taka 'the roofs' and [ 2 tak.ka], takka 'thanked'. 2

Fig. 1: Heavy (bimoraic) syllables in Norwegian This perspective on quantity and syllable structure can easily be translated into an analysis based on syllable cut prosodies. 3 In doing so, I shall take the framework presented in Vennemann (19916) as a starting point. 4 The syllable type in which both moras are associated with the vowel will correspond to the smooth syllable cut, while the type in which the second mora is associated with the segment immediately following the vowel represents the abrupt syllable cut type. The first mora will hence represent the final part of the crescendo phase, and the second mora the initial part of the decrescendo phase. The transition between the two moras thereby represents the crucial turning point which, if falling within the duration of the vowel, renders a smoothly cut syllable, and if falling at the boundary between the vowel and the following consonant, renders an abruptly cut syllable. In this way, the two realization types given in Fig. 1 can be formally related to the syllable cut distinction, the difference being constituted by the association of the second mora with either the vowel or the postvocalic consonant. However, I do not claim that the two representational models are equivalent in every respect, only that the one can be translated into the other for the purposes of this chapter. That being said, I all the same think that segmental quantity in stressed syllables in Norwegian should not be analyzed as underlying, but as derivable from constraints on syllable structure that in most respects are equivalent to those encoded by a syllable cut analysis (see Kristoffersen 2000: chapter 5). Fig. 2 shows h o w the moraic structure in Fig. 1 translates into a syllable cut prosody. The latter is marked b y means of < and > below the segmental level, which represent the crescendo phase and the decrescendo phase of the syllable, respectively. W e see that in the case of the long vowel, both the phases are linked to the vowel. In the short vowel type, the vowel is only linked to the crescendo phase, while the following consonant is linked to the decrescendo phase. The corresponding association lines are rendered in boldface. 5

2 3

4

5

The superscripts denote stress and tonal accent type. As first defined by Eduard Sievers and later developed in analyses of German by Theo Vennemann (Vennemann 1991α, 19916 and 1994). Note that the mora level as depicted in (1) is different from the "Morenraster" in Vennemann's framework, which corresponds to the skeleton as defined in e.g. Clements & Keyser (1983). In Vennemann (1994), a mora concept is introduced that corresponds better to the one used here. The direct mapping only holds with respect to stressed syllables. It breaks down with respect to the unstressed syllables in (1) and (2), since the syllable cut analysis classifies open, unstressed syllables as smoothly cut and therefore essentially of the same type as long vowels in stressed syllables, while the moraic framework assumes that the vowel is monomoraic, and therefore of the same type as the vowel in abruptly cut syllables.

285

Are tonal accents and syllable structure related in Norwegian and Swedish?

Ίμ I α

t

α

k

Μ





σ >

σ

σ Λ

/

/

t

/ ΓI α

y4 κ k

Κ / Μ


I

α




Fig. 2: Relationship between moraic structure and syllable cut

2. Tonal Accents

The tonal distinction found in most Norwegian and Swedish dialects can be analyzed as a contrast basically involving the presence vs. absence of a lexical tone in a subclass of lexical items, roots as well as suffixes. 6 Words in which this tone surfaces have what is usually referred to as accent 2, while words lacking this tone have accent 1. The lexical tone can be high or low, according to dialect, but in all cases it will associate with the syllable carrying primary stress. A second tone, which I prefer to refer to as a prominence tone, and which has the opposite value of the lexical tone with respect to height, will be inserted after the lexical tone in accent 2 words, and will be associated with the stressed syllable in accent 1 words. In most dialects, the stressed syllable must be followed by at least one unstressed syllable for accent 2 to be possible. Fig. 3 is a representation of the words shown in Fig. 1 enriched by a tonal level. The dialect is East Norwegian, where the lexical tone is H(igh), and the prominence tone is L(ow). (The final, intonational H, which is usually included as a part of the two melodies, has been omitted here.) Note that the moras are assumed to be the tone bearing units (TBU) in Fig. 3, even though the lexical and the prominence tone are distributed across syllables, and not moras, a fact that invites an analysis in which the syllable is posited as the relevant TBU. The reason is that while the Η of accent 2 occurs early in the stressed syllable, the L of accent 1 occurs late. This difference is accounted for if the mora is assumed as the TBU, at least at a near-surface level of analysis.7

6

A thorough introduction to the Scandinavian tonal accents would by far exceed the limits on this chapter. For overviews, see. e.g. Haugen (1967), Bruce (1977) and Kristoffersen (2000: chapter 910). In Kristoffersen (2000), I posit the syllable as the primary tone bearing unit, but in order to account for the different alignment of the lexical Η in accent 2 with respect to the prominence L of accent 1, the mora seems to be needed as well in an exhaustive analysis.

286

Gjert Kristoffersen

(b) Accent 2 Η

(a) Accent 1 L

t

α

k

α

t

α

k

L

α

Fig. 3: Syllable representations enriched with a tonal level (Eastern Norway) The representational model shown in Fig. 3 allows us to relate syllable structure and tonal structure formally. It does not, of course, in itself embody a claim that the two are substantially related.

3. Searching for relationships

What would allow us to conclude that there is a significant synchronic relationship between the two phenomena under discussion? As a minimum requirement we must be able to show that some property of one phenomenon can be derived from properties of the other. The strongest possible instantiation of such a relationship would be a perfect correlation between the two syllable cut types and the two accent types, so that, for example, all words with smoothly cut stressed syllables were accent 1, and all words with abruptly cut stressed syllable were accent 2, or vice versa. We would have a more complex and more limited relationship if a phonological or morphological feature could be found that let us predict accent type in combination with syllable type in a more restricted environment, or vice versa. Relations between syllable structure and tonal accents can be sought in the synchronic as well as in the diachronic domain. We shall look at one domain at a time, beginning with the synchronic domain. 8

3.1

Synchrony

One phenomenon that seems to come close to what we are looking for is what is often referred to as 'stodbasis'. The glottal prosody called 'sted' in Danish, see e.g. Basbell (1985), correlates with the tonal accent division in Norwegian and Swedish such that words with 8

At this point, Selmer (1928) should be mentioned, a work in which the relationship between syllable cut prosody and tonal accent is explicitly discussed. Selmer investigates possible differences in the trajectory of the FO curves of accent 1 and 2 in smoothly and abruptly cut syllables in East Norwegian. The conclusion that can be drawn from his data is that the curves have basically the same shape, independent of syllable type.

Are tonal accents and syllable structure related in Norwegian and Swedish?

287

st0d to a large degree correspond to words with accent 1 in Norwegian and Swedish. But sted is excluded in syllables with a short vowel followed by a voiceless consonant. Hence, it requires that the second mora be associated with a voiced segment. The correspondence between syllable cut and 'st0dbasis' is therefore not perfect, in that the latter cuts across the abruptly cut type, rendering smoothly cut syllables and abruptly cut syllables with voiced postvocalic consonant in one group, and abruptly cut syllables with voiceless postvocalic consonant in the other. 'Stedbasis' is relevant with respect to East Norwegian tonal accents in two ways. First, the L-tone of accent 1 cannot be realized on the second mora if this is associated with a voiceless segment. Instead, the L tends to be retracted to the first mora, and undershoots the L-target. Second, in some dialects where we find the accentual contrast in monosyllabic words as well; it is limited to words with 'stedbasis', see Kristoffersen (19920). Thus we find [2Γεη], 'to telephone' vs. ['reg], 'a ring', but ['kast], 'to throw' and 'a throw'. Rather than being an effect of syllable structure per se, 'stedbasis' is probably better seen as an effect of tone being dependent on voicing, at least with respect to its manifestation in the tonal systems of Norwegian and Swedish. If the stretch of voiced segments is too short, or if voicing is absent at crucial points in the segmental string, we expect to find modifications of the system. 9 The syllable cut division does not seem to be relevant. The appearance of some kind of relationship therefore seems to be spurious. However, the existence of true relationships between syllable structure and tone mediated through some phonological or morphological feature cannot be rejected off hand since, to my knowledge, no hypothesis embodying such a claim has ever been tested; but it is difficult to conjecture what this phonological or morphological feature should be. Thus, any investigation would depend on more or less blind searches in a large database or corpus where syllable type and accent type can be related to a large array of features. A weaker type of correlation would be one based on probability. For example, given one of the syllable cut types, and perhaps some additional grammatical conditions, the probability in such a case would be greater than chance that it is coupled with one tonal accent and not the other. Again, no sure example of such a case is known to me. But I shall briefly discuss one case that may appear to come close. As mentioned above, accent 2 only occurs in words where at least one unstressed syllable follows the accented one. Monosyllabic words, therefore, have only one accent, which is usually interpreted as an instantiation of accent 1. But when monosyllabic stems occur as the initial and therefore primary stressed constituent of a compound, the accent 2 requirement for more than one syllable is met across the compound. The actual result is in some cases accent 1, in others accent 2. The choice is lexicalized in the majority of the cases as a property of the monosyllabic root which only turns up in compounds; in some cases it is a property of the compound itself. 10 Only in a very few cases do we find free variation.

9 10

The same holds for the Rheinische Tonakzente, see Schmidt (this volume). There is also a considerable amount of roots requiring a so-called linking phoneme when inserted as first member into a compound. With very few exceptions, the linking phoneme makes accent predictable, see Kristoffersen (1992c), or the summary in Kristoffersen (2000: 263 ff).

288

Gjert Kristoffersen

In Kristoffersen (1992c) I analyzed the distribution by means of a database that consisted of 617 monosyllabic roots." Syllable cut type was not taken into consideration, but if we divide the noun roots in two groups by that criterion, those with long vowels and diphthongs in one and those with short vowel plus consonant in the other, we arrive at the distribution shown in Table l. 12 Table 1: Proportion of accent 2 in compound nouns with a monosyllabic first member

Accent 2 Ν Percent of accent 2

Smooth 174 236 73,7

Abrupt 153 338 45,3

These numbers allow us to conclude that the probability of finding accent 2 in compounds with a smoothly cut primary stressed syllable is much greater than that of finding accent 2 in compounds in which the primary stressed syllable is abruptly cut (difference = 28,5%). But since the categories can be established on a number of possible and competing criteria, of which the syllable cut division is only one, we must also be able to show, for the conclusion to be of any analytical interest, that it is indeed the syllable cut division that renders the greatest difference. One alternative is to base the analysis on 'stedbasis', and distinguish between voiced and voiceless second mora, such that long vowels (smooth cut) and short vowel plus voiced consonant (abrupt cut) constitute one group, and short vowel plus voiceless consonant (also abrupt cut) the other. The results appear in Table 2. Table 2: Proportion of accent 2 in compounds distinguished by 'stedbasis'

Accent2 Ν Percent

Stedbasis 288 430 67,0

No stedbasis 39 144 27,1

While we see that the difference becomes greater (39,9%), the proportion of T2 in the group including the smoothly cut syllables has become smaller (67 % vs. 73,7 %). So 'stedbasis1 is obviously not the optimal criterion. In fact, a far better distribution is obtained if a composite score is constructed over both voiced and voiceless segments in the rhyme by assigning each segment a value according to its rank on the sonority scale. For vowels = 2, sonorants = 1, voiced obstruents = 0 and

11

12

The original database was corrupted beyond repair due to a mistake shortly after the 1992c article was finished, but I have recently constructed a new one, at present consisting of 986 monosyllabic roots, which confirms the patterns extracted from the original base. The numbers in the present chapter are based on the new base. Only the roots that do not require a linking phoneme are included. Only roots which do not require linking phonemes have been counted.

289

Are tonal accents and syllable structure related in Norwegian and Swedish?

voiceless obstruents = -1, we get the following results when all segments starting with the second mora are counted for each root.13 The result of this method is shown in Table 3. Table 3: Proportion of accent 2 in compounds distinguished by sonority in the rhyme Sonority score Accent 2 Ν Percent

3 76 91 83,5

2 77 112 68,8

1 110 156 70,5

0 25 67 37,3

-1 32 82 39,0

-2 7 63 11,1

-3 0 3 0,0

We see that by this method, three (or four if zero is counted as a separate group) distinct groups emerge. Thus, one may conclude that whatever the governing principle underlying the distribution of accent type in compounds with monosyllabic first member may be, it is not syllable cut.

3.2

Diachrony

We now turn to the question of whether a diachronic relationship between syllabe cut and tonal accents can be established. Clearly, for such a conclusion to be warranted, it needs to be shown that features of one in some way or other can be shown to have developed from features of the other, or that both are derived from a common source. At the outset, the hypothesis is not an unreasonable one, since the two became salient parts of the language system during the same period. The Old Norse quantity system, which contrasted long and short vowels as well as consonants independently of each other, gave way to the present system based on syllable quantity during the late Medieval Ages. 14 Although the precise nature of the conditions that gave rise to the tonal accent distinction remains unclear, it correlates with a distinction between monosyllabic and polysyllabic words in classical Old Norse. Accent 1 corresponds to monosyllabic words while accent 2 corresponds to polysyllabic words. Accent became contrastive when the postnominal definite article, which developed into a suffix during the Old Norse period, failed to engender accent 2 when combining with a monosyllabic stem. Thus, while the indef. pi. of hest, 'horse', hest-er, has accent 2, the def. sg. hest-en has accent 1. This development was reinforced by a process of vowel epenthesis that broke up marked syllable rhymes in words such as akr 'field' and νάρη 'weapon', whose modern cognates are äker and väpen. Again, the result was accent 1, even if the resulting forms were disyllabic. But even if there is a confluence with respect to time, there is no clear evidence of either a common cause nor of a causal relationship between syllable structure and the develop-

13

14

Since the first mora is always a vowel, there is no reason to count it. By this logic, roots ending in a long vowel get the score 2, since the second mora is associated with a vowel, roots consisting of a long vowel plus sonorant score (2+1=) 3, those consisting of a short vowel plus sonorant score 1, roots with a short vowel plus a voiceless obstruent score -1, and those with a short vowel plus three voiceless obstruents score -3. Some dialects, both Norwegian and Swedish, still exhibit the old system, except that long vowels can no longer be combined with long consonants.

290

Gjert Kristoffersen

ment of the tonal accent system. I have only come across a few references in the literature where such a relationship is mentioned. Malmberg (1959) hints at a historic relationship in passing, but does not bolster his contention with data or arguments. The most explicit argument for a relationship between the development of tonal accents and syllable structure can be found in Kurylowicz (1952). He sees the development of the tonal accent system as having been conditioned by the prosodic structure of bisyllabic words with short root syllable, a class that is often referred to as the 'level stress' type in Scandinavian dialectology. This class is traditionally described as one in which the stress is more evenly distributed over the two syllables than in corresponding words with long root syllable. An Old Norse example of the former type is vera 'to be', while deima 'to judge' exemplifies the latter. In East Norwegian and North Swedish dialects, the final vowel in the level stress type has been preserved as a full vowel, while in the type with long root syllable, the final vowel has been reduced to schwa or has been fully apocopated. The commonly accepted explanation of this split is that the blocking of vowel reduction in the level stress class must have been due to some degree of stress that was not present in words with a long root vowel. In most dialects, short root syllables have later been lengthened, so that the present stress pattern is the same as in words with original long root syllable. But the difference in the final syllable is preserved, and bears synchronic witness of the earlier prosodic difference. According to Kurylowicz, it is the double prominence in the level stress words that triggered the development of a different tonal accent in disyllabic words. Accent 2 in other words originated from the doubly stressed words with a short root syllable. 15 The pattern is then assumed to have been generalized by analogy to polysyllabic words with originally long root syllable (and hence only one prominence). The analogical extension was constrained by morphological class, so that the few classes that did not contain members with a short root syllable retained accent 1 in disyllabic words as well. Most classes contained such members, but Kurylowicz' account offers an explanation of the exceptional accent 1 in the small class of comparatives which were built by umlaut and the short suffix -ri instead of the unmarked -ari. One example is the adjective langr 'long', whose comparative was lengri. This was clearly disyllabic in older Old Norse, but it still has accent 1 in a number of contemporary varieties. The pattern is not consistent, however, since in other varieties, this class of comparatives has accent 2 as expected (cf. Oftedal 1952). In Kurylowicz account, the connection between syllable cut and tonal accent is at best indirect. The short root syllables belonged to a system where the syllable cut division was not in evidence, and when they were lengthened in order to comply with the new requirement that stressed syllables be bimoraic, they did not consistently develop into one of the cut types. In some dialects, the vowel lengthened, in others, the consonant become moraic, such that gemination across the syllable boundary was enforced. This means that the type within which the tonal accent division originated according to Kurylowicz cannot be correlated with a specific syllable cut prosody, at least not across dialect groups. When accent 2 consequently spread analogically to words with long root syllable, any connection with

15

A similar hypothesis is offered in Riad (1998), who also argues that accent 2 should be seen as originating from the double prominence found in compounds. This account does not take syllable structure into account, however, and is therefore orthogonal to the question discussed here.

Are tonal accents and syllable structure related in Norwegian and Swedish?

"

1

syllable cut was definitively severed, since accent 2 spread to CV: and CVC syllables alike.16

4. Conclusion

The picture that has emerged from the preceding discussion does not suggest any significant relationship between tonal accent and the syllable cut prosody in Norwegian and Swedish, even though both seem to have emerged at about the same point in history. At least there are no direct and easily detectable links. But this of course does not preclude the possibility that some do exist, even if that possibility remains remote based on our present state of knowledge. On a more speculative note, however, it may be worth pointing out that it may not be coincidental that Norwegian and Swedish (in addition to Icelandic) are the Germanic languages which best preserve the phonetic reflexes of the change that led to the development of the syllable cut prosody, i.e. Prokosch' law. When a short vowel heads the stressed syllable, a following single consonant clearly straddles the syllable boundary, even from a phonetic point of view. The pattern seems to be much more diffuse in German, Danish, Dutch and English than in Norwegian and Swedish. For example, it is difficult to argue that the stressed syllable in German bitten and English sitting is phonetically heavy, while the prosodic gemination in Norwegian sitte 'to sit1 makes this quite clear. Given the way the tonal accents seem to exploit the moraic structure of the stressed syllable, they may have contributed to the preservation of phonetically heavy, stressed syllables in Norwegian and Swedish.

References

Basboll, Hans (1985): Sted in Modern Danish. - In: Folia Linguistica XIX, 1-50. Bruce, Gösta (1977): Swedish Word Accents in Sentence Perspective. - Lund: CWK Gleerup. Clements, George N./Samuel J. Keyser (1983): CV-Phonology. A Generative Theory of the Syllable. Cambridge, Mass.: The MIT Press. Elert, Claes-Christian (1964): Phonologic studies of quantity in Swedish. - Uppsala: Skriptor. Fintoft, Knut (1961): The duration of some Norwegian speech sounds. - In: Phonetica 7, 19-39. Haugen, Einar (1967): On the Rules of Norwegian Tonality. - In: Language 43, 185-202. Jahr, Ernst Häkon/Ove Lorentz (eds.) (1983): Prosodi/Prosody. - Oslo: Novus. Kristoffersen, Gjert (1992a): Kvantitet i norsk. - In: Norsk Lingvistisk Tidsskrift 10, 187-208. - (19926): Cirkumflekstonelaget i norske dialekter, med saerlig vekt ρέ nordnorsk. - In: Maal og Minne 1992, 37-61. 16

There are also severe problems with Kurylowicz' account. One is that the base from which the analogical pattern spread was considerably smaller than the number of lexical items that were affected. Since it also seems difficult to find strong, independent evidence supporting the hypothesis, it attracted scant interest after its publication.

292 -

Gjert Kristoffersen

(1992c): Tonelag i sammensatte ord i estnorsk. - In: NorskLingvistisk Tidsskrift 10, 39-65. (1999): Quantity in Norwegian Syllable Structure. - In: Harry van der Hulst, Nancy Ritter (eds.): The Syllable. Facts and Views, 631-650. Berlin: Mouton de Gruyter. - (2000): The Phonology of Norwegian. - Oxford: Oxford University Press. Kurylowicz, Jerzy (1952): L'accentuation des langues indo-europeennes. - In: Polska akademia umiyetnosci. Prace komisjijqzykowej 37. Kraköw: Nakladem polskiej akademii umiyetnoici. Malmberg, Bertil (1959): Bemerkungen zum schwedischen Wortakzent. - In: Zeitschrift fur Phonetik 12, 193-207. Oftedal, Magne (1952): On the Origin of the Scandinavian Tone Distinction. - In: Norsk Tidsskrift for Sprogvidenskap XVI, 201-225. Reprinted in E.H. Jahr/O. Lorentz (1983), 154-178. Riad, Tomas (1998): The origin of Scandinavian tone accents. - In: Diachronica XV: 1, 63-98. Schmidt, Jürgen Erich (this volume): Die sprachhistorische Genese der mittelfränkischen Tonakzente. Selmer, Ernst W. (1928): Noen bemerkninger om den musikalske aksent i dens forhold til den sterkt og svakt skärne aksent. - In: Festskrift til rektor J. Quigstad 4. april 1928. Troms0 Museums Skrifter Vol. II, 250-262. Reprinted in Jahr & Lorentz (1983), 68-77. Vennemann, Theo (1991a): Syllable structure and syllable cut prosodies in Modern Standard German. - In: P.M. Bertinetto et al. (eds.): Certamen Phonologicum II, 211-243. Torino: Rosenberg & Sellien - (1991 ί>): Skizze der deutschen Wortprosodie. - In: Zeitschrift für Sprachwissenschaft 10, 86-111. - (1994): Universelle Nuklearphonologie mit epiphänomenaler Silbenstruktur. - In: K.H. Ramers et al. (eds.): Universale phonologische Stukturen und Prozesse, 7-54. Tübingen: Max Niemeyer.

Autorenverzeichnis

Prof. Dr. Peter Auer Deutsches Seminar I Universität Freiburg 79085 Freiburg [email protected] Prof. Dr. Thomas Becker Institut für Deutsche Philologie Universität München 80799 München [email protected] Dr. Peter Gilles Deutsches Seminar I Universität Freiburg 79085 Freiburg [email protected] Dr. Phil Hoole Institut für Phonetik und Sprachliche Kommunikation Universität München 80799 München [email protected] Michael Jessen, Ph.D. Bundeskriminalamt KT54, Sprechererkennung und Tonträgeranalyse 65173 Wiesbaden [email protected] Prof. Dr. Gjert Kristoffersen Nordisk Institutt HF-Bygget Sydnespll. 7 5007 Bergen Norwegen Gj ert. Kr istoffersen@nor. uib. no Prof. Dr. Jürgen Lenerz Institut für Deutsche Sprache und Literatur Universität Köln 50923 Köln [email protected]

294 Prof. Dr. Utz Maas Fachbereich Sprach- und Literaturwissenschaft Universität Osnabrück 49069 Osnabrück [email protected] Prof. Dr. Arend Mihm FB 3 - Germanistik Universität Duisburg 47057 Duisburg Dr. Christine Mooshammer Zentrum für Allgemeine Sprachwissenschaft (ZAS) Jägerstr. 10-11 10117 Berlin [email protected] Prof. Dr. Robert Murray Department of Linguistics University of Calgary 2500 University Drive N.W. Calgary, Alberta T2N 1N4 Kanada [email protected] Dr. David Restle Institut für Deutsche Philologie Universität München 80799 München [email protected] Prof. Dr. Jürgen E. Schmidt Forschungsinstitut fur deutsche Sprache - Deutscher Sprachatlas Universität Marburg 35032 Marburg [email protected] Dr. Helmut Spiekermann Deutsches Seminar I Universität Freiburg 79085 Freiburg [email protected]

Autorenverzeichnis